JP6989031B2 - 伝達関数推定装置、方法及びプログラム - Google Patents
伝達関数推定装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6989031B2 JP6989031B2 JP2020556586A JP2020556586A JP6989031B2 JP 6989031 B2 JP6989031 B2 JP 6989031B2 JP 2020556586 A JP2020556586 A JP 2020556586A JP 2020556586 A JP2020556586 A JP 2020556586A JP 6989031 B2 JP6989031 B2 JP 6989031B2
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- transfer function
- find
- integer
- rtf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
この発明は、伝達関数を推定する技術に関する。
複数のマイクロホンを音場に設置してマルチチャネルのマイクロホン信号を取得し、そこからノイズ及びその他音声をなるべく取り除いて、ターゲットとする音声や音をクリアして取り出すニーズが近年高まっている。そのために、複数のマイクロホンを用いてビームを形成するビームフォーミング技術が、近年盛んに研究開発されている。
ビームフォーミングでは、図1のように各マイクロホン信号にFIRフィルタ11を適用し総和を取ることで、雑音を大幅に減らし、ターゲット音をより明瞭に取り出すことができる。このようなビームフォーミングのフィルタを求める方法として、Minimum Variance Distortionless Response法(MVDR法)がよく使われる(例えば、非特許文献1参照。)。
以下、図2を用いて、このMVDR法を説明する。MVDR法では、ターゲット音源から各マイクロホンへの相対伝達関数gr(f)(Relative Transfer Functions、以下、RTFと略する。)(例えば、非特許文献2参照。)が予め推定され、与えられている。
マイクロホンアレー21からのNチャネルマイクロホン信号yn(k)(1≦n≦N)は、フレームごとに短時間フーリエ変換部22において短時間フーリエ変換される。周波数f、フレームlでの変換結果を、
のようにベクトル化して扱う。このNチャネル信号y(f,l)は、
のようにターゲット音に由来するマルチチャネル信号x(f,l)と非ターゲット音のマルチチャネル信号xn(f,l)とからなる。
相関行列算出部23は、Nチャネルマイクロホン信号の周波数fでの空間相関行列R(f,l)を以下の式により算出する。
ただし、E[ ]は期待値を取ることを意味する。また、yH(f,l)は、y(f,l)を転置し複素共役を取ったベクトルである。なお、実際の処理では、通常E[ ]の代わりに短時間平均が用いられる。
アレーフィルタ推定部24は、次の拘束条件付きの最適化問題を解いて、N次元複素数ベクトルであるフィルタ係数ベクトルh(f,l)を求める。
ここで、拘束条件は、
である。
上記の最適化問題では、周波数fにおいてターゲット音を無歪みで出力するという拘束のもとで、アレー出力信号のパワーが最小になるようにフィルタ係数ベクトルを求めている。
アレーフィルタリング部25は、推定されたフィルタ係数ベクトルh(f,l)を、周波数領域に変換されたマイクロホン信号y(f,l)に適用する。
これにより、ターゲット音以外の成分を極力抑えて、周波数領域のターゲット音Z(f,l)を取り出すことができる。
短時間逆フーリエ変換部26は、ターゲット音Z(f,l)を短時間逆フーリエ変換する。これにより、時間領域のターゲット音を取り出すことができる。
なお、非特許文献2で推定したRTFを用いる場合には、ターゲット音源の音そのものではなく、ターゲット音源の音が音響経路を経て参照マイクロホンで収音された音が、ターゲット音となる。
なお、RTFを推定する従来方法として、非ターゲット音が無視できターゲットのみから音が出ているとみなせる状況、すなわち単一音源モデルが適用できる状況で、収音信号の固有値分解や一般化固有値分解を用いてRTFを推定する方法などが提案されている(例えば、非特許文献2、3参照。)。
この方法を図3に示す。マイクロホンアレー31及び短時間フーリエ変換部32の処理は、図2のマイクロホンアレー21及び短時間フーリエ変換部22の処理と同様である。
相関行列算出部33は、単一音源モデルが適用できる区間のNチャネル収音信号から、各周波数におけるN×N相関行列を算出する。
信号空間基底ベクトル算出部34は、この相関行列を固有値分解し、絶対値が最大の固有値に対応するN次元固有ベクトル
を信号空間基底ベクトルv(f)として求める。ただし、aを任意のベクトル又は行列として、aTはaの転置を表す。音源が1つのとき、相関行列の固有値は1つだけが有意な値をもち、残りN-1個の固有値はほぼ0になる。そして、この有意な固有値の固有ベクトルに、音源から各マイクロホンへの伝達特性に関する情報が含まれる。
RTF算出部35は、第1マイクロホンを参照マイクロホンとするとき、以下の式により定義されるv'(f)をRTFとして出力する。
複数音源から同時に音が出ている状況に対しては、各音源信号がスペクトルグラム上で音声のように疎だと仮定する。そして、収音信号スペクトルグラム上の各時点各周波数で、各音源信号のスペクトルが衝突しない又は重ならないと想定する。この想定にもとづくと、単一音源モデルを適用して、RTFを推定することができる(例えば、非特許文献4,5参照。)。
D. H. Johnson, D. E. Dudgeon, Array Signal Processing, Prentice HalL1993.
S. Gannot, D. Burshtein, and E. Weinstein, Signal Enhancement Using Beamforming and Nonstationarity with Applications to Speech, IEEE Trans. Signal processing, 49, 8, pp. 1614-1626, 2001.
S. Markovich, S. Gannot, and I. Cohen, Multichannel Eigenspace Beamforming in a Reverberant Noisy Environment With Multiple Interfering Speech Signals, IEEE Trans. On Audio, Speech, Lang., 17, 6, pp. 1071-1086, 2009.
S. Araki, H. Sawada, and S. Makino, Blind speech separation in a meeting situation with maximum SNR beamformer, in proc. IEEE Int. Conf. Acoust. Speech Signal Process. (ICASSP2007), 2007, pp. 41-44.
E. Warsitz, R. Haeb-Umbach, Blind Acoustic Beamforming Based on Generalized Eigenvalue Decomposition, IEEE Trans. Audio, Speech, Lang., 15, 5, pp. 1529-1539, 2007.
しかし、例えば残響の大きい部屋で複数話者が話すような場合、残響のためにスペクトルグラム上で異なる話者のスペクトルが重なる状況が生じる。つまり、残響により、単一音源モデルの適合性が大幅に下がってしまうことがある。
そこで、本発明は、複数話者のスペクトルが重なり得る状況でも、RTFを推定できる伝達関数推定装置、方法及びプログラムを提供することを目的とする。
この発明の一態様による伝達関数推定装置は、Nを2以上の整数とし、fを周波数を表すインデックスとし、lをフレームを表すインデックスとして、マイクロホンアレーを構成するN個のマイクロホンで収音されたN個の時間領域信号に対応するN個の周波数領域信号y(f,l)の相関行列を算出する相関行列算出部と、Mを2以上の整数として、相関行列の固有ベクトルの中の、対応する固有値が大きい方からM個のベクトルv1(f),…,vM(f)を求める信号空間基底ベクトル算出部と、Lを2以上の整数とし、Y(f,l)=[y(f,l+1),…,y(f,l+L)]として、
の関係を満たすti(f),…,tM(f)を求め、
の式により定義されるu1(f),…,uM(f)を時間方向にスパースにする、ゼロ行列ではない行列D(f)を求め、
の関係を満たすci,1(f),…,cM,N(f)を求め、jを1以上N以下の整数として、c1(f)/c1,j(f),…,cM(f)/cM,j(f)を相対伝達関数として出力する複数RTF推定部と、を備えている。
複数話者のスペクトルが重なり得る状況でも、RTFを推定できる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[伝達関数推定装置及び方法]
伝達関数推定装置は、図4に示すように、マイクロホンアレー41、短時間フーリエ変換部42、相関行列算出部43、信号空間基底ベクトル算出部44及び複数RTF推定部45を例えば備えている。
伝達関数推定装置は、図4に示すように、マイクロホンアレー41、短時間フーリエ変換部42、相関行列算出部43、信号空間基底ベクトル算出部44及び複数RTF推定部45を例えば備えている。
伝達関数推定方法は、伝達関数推定装置の各構成部が、以下に説明する及び図5に示すステップS2からステップS5の処理を行うことにより例えば実現される。
以下、伝達関数推定装置の各構成部について説明する。
マイクロホンアレー41は、N個のマイクロホンにより構成されている。Nは2以上の整数である。各マイクロホンで収音された時間領域信号は、短時間フーリエ変換部42に入力される。
短時間フーリエ変換部42は、入力された各時間領域信号に対して短時間フーリエ変換をすることにより、周波数領域信号y(f,l)を生成する(ステップS2)。fは周波数を表すインデックスであり、lはフレームを表すインデックスである。y(f,l)は、N個のマイクロホンで収音されたN個の時間領域信号に対応するN個の周波数領域信号Y1(f,l),…,YN(f,l)を要素とするN次元ベクトルである。生成された周波数領域信号y(f,l)は、相関行列算出部43、信号空間基底ベクトル算出部44及び複数RTF推定部45に出力される。
Mを2以上かつN以下の整数として、音源数がMである場合には、周波数領域信号y(f,l)は、以下のように表される。例えば、M=2である。音源数Mは、映像等の別情報に基づいて予め定められる。また、音源数Mは、非特許文献2に記載された手法や、相関行列の固有値の分布から、有意な固有値の数を推定することで得てもよい。また、音源数Mは、非特許文献2に記載された手法等の既存の方法により定められてもよい。
ここで、i=1,…,Mとして、si(f,l)は第i音源の音であり、gi(f)は第i音源からマイクロホンアレー1を構成する各マイクロホンまでの伝達特性である。
相関行列算出部43は、複数話者音声が混合した収音信号である周波数領域信号y(f,l)の相関行列を算出する(ステップS3)。より詳細には、相関行列算出部43は、マイクロホンアレーを構成するN個のマイクロホンで収音されたN個の時間領域信号に対応するN個の周波数領域信号y(f,l)の相関行列を算出する。算出された相関行列は、信号空間基底ベクトル算出部44に出力される。
相関行列算出部43は、例えば相関行列算出部23と同様の処理により、相関行列を算出する。
信号空間基底ベクトル算出部44は、この相関行列を固有値分解し、固有値の絶対値の大きい方から、音源数Mと同数の固有ベクトルv1(f),…,vM(f)を取得する(ステップS4)。言い換えれば、信号空間基底ベクトル算出部44は、相関行列の固有ベクトルの中の、対応する固有値が大きい方からM個のベクトルv1(f),…,vM(f)を求める。
式(1)によれば、N次元信号ベクトルである周波数領域信号y(f,l)は、必ずM個のベクトルg1(f),…,gM(f)で張られる空間上にある。周波数領域信号y(f,l)の相関行列を固有値分解すると、M個の固有値の絶対値のみが有意に大きく、残りのN-M個の固有値はほぼ0になる。そして、ベクトルg1(f),…,gM(f)の張る空間とv1(f),…,vM(f)の張る空間が一致する。g1(f),…,gM(f)とv1(f),…,vM(f)とが1対1に対応することはほとんどないが、g1(f),…,gM(f)のそれぞれは、v1(f),…,vM(f)の線形和で表される(例えば、参考文献1参照。)。
〔参考文献1〕S. Malkovich, S. Gannot, and I. Cohen, Multichannel Eigenspace Beamforming in a Reverberant Noisy Environment With Multiple Interfering Speech Signals, IEEE Trans. On Audio, speech, Lang., 17, 7, pp. 1071-1086, 2009.
複数RTF推定部5は、この線形和の情報を抽出することで、RTFを推定する。
具体的には、複数RTF推定部45は、まず、Lを2以上の整数として、連続するLフレームの周波数領域信号y(f,l)からなるY(f,l)
を、信号空間基底ベクトル算出部44で抽出された固有ベクトルv1(f),…,vM(f)を用いて、
と分解する。ここで、i=1,…,Mとして、ti(f)は、
で算出される1×Lベクトルである。ここで、vを任意のベクトルとして、vHは、vを転置し複素共役を取ったベクトルである。
ti(f),…,tM(f)をM×M行列D(f)でu1(f),…,uM(f)に変換することを考える。音源信号の一例として音声を想定すると、音声は混合されることでスパース性が低下する。そこで、u1(f),…,uM(f)を時間方向になるべくスパースにするD(f)を求めれば、u1(f),…,uM(f)が、混合前の各話者音声に近づくことが期待できる。
そこで、u1(f),…,uM(f)のスパース性をL1ノルムで計量してコスト関数とする。複数RTF推定部45は、最適化問題
を、拘束条件
を解くことで、D(f)を求める。ここで、D(f)の対角成分を1に制約することで、D(f)がゼロ行列になることを回避する。なお、D(f)の対角成分は1ではなく他の所定の値に制約してもよい。その際、対角成分毎に異なる値を取ってもよい。すなわち、
となるi,j∈[1,…,M]があってもよい。このようにして、複数RTF推定部45は、D(f)の対角成分を所定の値に固定した状態で、|u1(f)|1+…+|uM(f)|1を最小にするD(f)を求める。この最適化問題は凸なので、解は唯一になる。
Y(f,l)は、音源信号の1×L行列Si(f,l)
を用いて、
と書ける。以下、
とおく。
もし、混合音声がD(f)によりうまく分解されれば、i=1,…,Mとして、si(f)とui(f)はスケーリングを除きほぼ一致する。つまり、ベクトルの向きがほぼそろうと期待できる。同時に、i=1,…,Mとして、ci(f)とgi(f)の向きもほぼそろうと期待できる。したがって、jを1以上N以下の整数とし、第jマイクロホンを参照マイクロホンとし、i=1,…,Mとし、
とすると、ci(f)/ci,1(f)は、各音源に関する相対伝達関数の推定値になる。
このようにして、複数RTF推定部45は、Lを2以上の整数とし、Y(f,l)=[y(f,l+1),…,y(f,l+L)]として、
の関係を満たすti(f),…,tM(f)を求め、
上記の式により定義されるu1(f),…,uM(f)を時間方向にスパースにする、ゼロ行列ではない行列D(f)を求め、
の関係を満たすci,1(f),…,cM,N(f)を求め、jを1以上N以下の整数として、c1(f)/c1,j(f),…,cM(f)/cM,j(f)を相対伝達関数として出力する。
[変形例]
上記の最適化では、時変動ベクトルt1(f),…,tM(f)から行列D(f)でu1(f),…,uM(f)を求める際に、u1(f),…,uM(f)が時間方向に最もスパースになるD(f)を求めようとしている。その目的で、u1(f),…,uM(f)のスパース性をL1ノルムを用いて測る。
上記の最適化では、時変動ベクトルt1(f),…,tM(f)から行列D(f)でu1(f),…,uM(f)を求める際に、u1(f),…,uM(f)が時間方向に最もスパースになるD(f)を求めようとしている。その目的で、u1(f),…,uM(f)のスパース性をL1ノルムを用いて測る。
しかし、L1ノルムを用いる場合、u1(f),…,uM(f)が時間方向にスパースになるときだけでなく、u1(f),…,uM(f)の振幅が小さくなるときも、L1ノルムは小さくなる。このため、L1ノルムの最小化で常に最もスパースな信号が得られるとは限らない。
そこで、より確実にスパースな信号を得るために、信号u1(f),…,uM(f)の信号パワーが一定、という拘束条件のもとで、信号u1(f),…,uM(f)を最もスパースにするD(f)を求める。
具体的には、複数RTF推定部45は、まず、時変動ベクトルt1(f),…,tM(f)のそれぞれのL2ノルムが1になるように正則化し、正規時変動ベクトルとする。すなわち、複数RTF推定部45は、i=1,…,Mとして、tni(f)=ti(f)/||ti(f)||2を計算する。||ti(f)||2はti(f)のL2ノルムである。正規時変動ベクトルは、(tn1(f),…,tnM(f))である。
つぎに、複数RTF推定部45はL1ノルムをコスト関数に用いる最適化問題を解いて、行列Aを求める。すなわち、複数RTF推定部45は、tn1(f),…,tnM(f)を用いて、|u1(f)|1+…+|uM(f)|1を最小にする、以下の条件を満たす行列Aを求める。
ここで、AHは行列Aのエルミート行列であり、IMはM×Mの単位行列である。ここで、行列Aの各成分は以下のように記述できる。行列Aの各成分を係数と呼ぶこともある。
なお、この最適化問題は、Alternating Direction Method of Multipliers法(ADMM法)を適用して解くことができる(例えば、参考文献2参照。)。
〔参考文献2〕S. Boyd, N. Parikh, E. Chu, B. Peleato and J. Eckstein, "Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers, Foundations and Trends in Machine Learning", Vol. 3, No. 1 (2010) 1-122.
行列Aを用いると、最もスパースな信号は、
と表される。ここで、
と置くと、
の関係が成立する。したがって、上記のD(f)を用いることで、前記と同様の方法で、各音源の相対伝達関数を推定できる。
すなわち、複数RTF推定部45は、求まったD(f)及び固有ベクトルv1(f),…,vM(f)を用いて、
の関係を満たすci,1(f),…,cM,N(f)を求め、jを1以上N以下の整数として、c1(f)/c1,j(f),…,cM(f)/cM,j(f)を相対伝達関数として出力する。
なお、収音信号にはノイズが含まれるので、収音信号から算出される時変動ベクトルt1(f),…,tM(f)にも、音源に由来する成分と同時にノイズに由来する成分も含まれる。
上記の手法では、時変動ベクトルを正則化している。このため、t1(f),…,tM(f)のノルムは状況により様々な値をとる。とある周波数fに注目する。第1音源の成分及び第m音源の成分がそれぞれ同等にあるような場合、t1(f),…,tM(f)のノルムは近い値をとる。ここで、mは、2からMの何れかの整数である。
しかし、例えば第2音源の成分が第1音源に対して非常に小さいとき、t1(f)のノルムに対し、t2(f)のノルムは非常に小さくなる。このような場合、t2(f)を正則化した正規時変動ベクトルtn2(f)には第2音源に由来する成分がごくわずかな一方で、ノイズが大半を占める状況になることがある。
このようなtn2(f)を用いてRTFを推定すると、RTFの推定が大きく劣化する可能性がある。
そこで、t1(f)のノルムに対し、t2(f)のノルムが非常に小さい場合には、RTF推定値の劣化が制限されるように、正規時変動ベクトルtn2(f)に係る係数に上限を設けてもよい。
複数RTF推定部45は、例えば、この上限を以下のように求める。
まず、t1(f),t2(f)はそれぞれ同等のノイズが含まれると仮定する。
複数RTF推定部45は、時変動ベクトルを正規化するときのノルム比θ1,θ2を
とする。t1(f),t2(f)は相関行列の固有値から求められ、t1(f)に関連する固有値がt2(f)に関連する固有値よりも大きいために、||t1(f)||2≧||t2(f)||2である。正規化後のノルムは何れも1になるので、θ1≦θ2になる。
正規時変動ベクトル(tn1(f),tn2(f))に含まれるノイズをそれぞれΔtn1(f),Δtn2(f)とする。
の関係がある。θ1≦θ2の関係より、||Δtn2(f)||2≧||Δtn1(f)||2である。
今、スパース化された信号ベクトルu1(f)が係数α1,1とα1,2を用いて、
となるとき、u1(f)に含まれる誤差は、
になる。これが、||Δtn1(f)||2 2のT倍におさまるように係数α1,2の大きさを制限する。つまり、
により係数α1,2の上限を設定する。Tは所定の正の数である。Tとしては、100以上の値を使うことが望ましい。なお、|α1,1|<<Tのため、上記の代わりに、
で上限を指定してもよい。
このように、正規時変動ベクトルtn2(f)に係る係数α1,2に上限を設けることで、RTFの推定精度が増す。
なお、音源数Mが2より大きい場合には、時変動ベクトルを正規化するときのノルム比θ1,θ2,…,θMを
として、第m'番目(1≦m'≦M)の抽出信号は、
のように、係数αm',1,…,αm',Mで表現される。このとき、複数RTF推定部45は、
により係数αm',mの大きさの上限を定めてもよい。
なお、複数RTF推定部45では、m=1,…,Mとして、音源数Mのとき各周波数で、M個の相対伝達関数を要素とする相対伝達関数ベクトルcm(f)=c1(f)/c1,j(f),…,cm'(f)/cm',j(f),…,cM(f)/cM,j(f)が推定される。相対伝達関数ベクトルcm(f)は、複数RTF推定部45でm番目に生成される相対伝達関数ベクトルである。
ここで、相対伝達関数のインデックス1からMと音源との対応、すなわち最適化により求められたum'(f)(1≦m'≦M)のインデックスm'と音源との対応は、どの周波数でも同じになるとは限らない。そのため、各周波数でum'(f)が対応する音源のインデックスσ(f,m)を求める必要がある。これをパーミュテーション解決と呼ぶ。
パーミュテーション解決部46は、このパーミュテーション解決を行ってもよい。パーミュテーション解決は、例えば、参考文献3に記載された手法により実現することができる。
〔参考文献3〕H. Sawada, S. Araki, S. Makino, "MLSP 2007 Data Analysis Competition: Frequency-Domain Blind Source Separation for Convolutive Mixtures of Speech/Audio Signals", IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2007), pp. 45-50, Aug. 2007.
ある周波数fにおいて、um(f)には相対伝達関数のベクトルcm(f)が対応する。パーミュテーション解決により、この相対伝達関数のベクトルcm(f)が対応するのは、σ(f,m)番目の音源になる。
以上、この発明の実施の形態及び変形例について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。
実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。例えば、上述の各種の処理は、図6に示すコンピュータの記録部2020に、実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
上記説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。例えば、上述の各種の処理は、図6に示すコンピュータの記録部2020に、実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
41 マイクロホンアレー
42 短時間フーリエ変換部
43 相関行列算出部
44 信号空間基底ベクトル算出部
45 推定部
42 短時間フーリエ変換部
43 相関行列算出部
44 信号空間基底ベクトル算出部
45 推定部
Claims (5)
- Nを2以上の整数とし、fを周波数を表すインデックスとし、lをフレームを表すインデックスとして、マイクロホンアレーを構成するN個のマイクロホンで収音されたN個の時間領域信号に対応するN個の周波数領域信号y(f,l)の相関行列を算出する相関行列算出部と、
Mを2以上の整数として、前記相関行列の固有ベクトルの中の、対応する固有値が大きい方からM個のベクトルv1(f),…,vM(f)を求める信号空間基底ベクトル算出部と、
Lを2以上の整数とし、Y(f,l)=[y(f,l+1),…,y(f,l+L)]として、
の関係を満たすti(f),…,tM(f)を求め、
上記の式により定義されるu1(f),…,uM(f)を時間方向にスパースにする、ゼロ行列ではない行列D(f)を求め、
の関係を満たすci,1(f),…,cM,N(f)を求め、jを1以上N以下の整数として、c1(f)/c1,j(f),…,cM(f)/cM,j(f)を相対伝達関数として出力する複数RTF推定部と、
を含む伝達関数推定装置。 - 請求項1の伝達関数推定装置であって、
前記複数RTF推定部は、前記行列D(f)の対角成分を所定の値に固定した状態で、|u1(f)|1+…+|uM(f)|1を最小にする行列D(f)を求める、
伝達関数推定装置。 - 相関行列算出部が、Nを2以上の整数とし、fを周波数を表すインデックスとし、lをフレームを表すインデックスとして、マイクロホンアレーを構成するN個のマイクロホンで収音されたN個の時間領域信号に対応するN個の周波数領域信号y(f,l)の相関行列を算出する相関行列算出ステップと、
信号空間基底ベクトル算出部が、Mを2以上N以下の整数として、前記相関行列の固有ベクトルv1(f),…,vM(f)を求める信号空間基底ベクトル算出ステップと、
複数RTF推定部が、Lを2以上の整数とし、Y(f,l)=[y(f,l+1),…,y(f,l+L)]として、
の関係を満たすti(f),…,tM(f)を求め、
上記の式により定義されるu1(f),…,uM(f)を時間方向にスパースにする、ゼロ行列ではない行列D(f)を求め、
の関係を満たすci,1(f),…,cM,N(f)を求め、jを1以上N以下の整数として、c1(f)/c1,j(f),…,cM(f)/cM,j(f)を相対伝達関数として出力する複数RTF推定ステップと、
を含む伝達関数推定方法。 - 請求項1から3の何れかの伝達関数推定装置の各部としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018212009 | 2018-11-12 | ||
JP2018212009 | 2018-11-12 | ||
PCT/JP2019/025835 WO2020100340A1 (ja) | 2018-11-12 | 2019-06-28 | 伝達関数推定装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020100340A1 JPWO2020100340A1 (ja) | 2021-09-24 |
JP6989031B2 true JP6989031B2 (ja) | 2022-01-05 |
Family
ID=70730943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020556586A Active JP6989031B2 (ja) | 2018-11-12 | 2019-06-28 | 伝達関数推定装置、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11843910B2 (ja) |
JP (1) | JP6989031B2 (ja) |
WO (1) | WO2020100340A1 (ja) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6785391B1 (en) * | 1998-05-22 | 2004-08-31 | Nippon Telegraph And Telephone Corporation | Apparatus and method for simultaneous estimation of transfer characteristics of multiple linear transmission paths |
US7254199B1 (en) * | 1998-09-14 | 2007-08-07 | Massachusetts Institute Of Technology | Location-estimating, null steering (LENS) algorithm for adaptive array processing |
JP4473709B2 (ja) * | 2004-11-18 | 2010-06-02 | 日本電信電話株式会社 | 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体 |
JP4455512B2 (ja) * | 2006-02-10 | 2010-04-21 | 日本電信電話株式会社 | 無線通信方法及び無線基地局 |
US8799342B2 (en) * | 2007-08-28 | 2014-08-05 | Honda Motor Co., Ltd. | Signal processing device |
US8265290B2 (en) * | 2008-08-28 | 2012-09-11 | Honda Motor Co., Ltd. | Dereverberation system and dereverberation method |
US8867754B2 (en) * | 2009-02-13 | 2014-10-21 | Honda Motor Co., Ltd. | Dereverberation apparatus and dereverberation method |
US9689959B2 (en) * | 2011-10-17 | 2017-06-27 | Foundation de l'Institut de Recherche Idiap | Method, apparatus and computer program product for determining the location of a plurality of speech sources |
EP3462452A1 (en) * | 2012-08-24 | 2019-04-03 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
US9251436B2 (en) * | 2013-02-26 | 2016-02-02 | Mitsubishi Electric Research Laboratories, Inc. | Method for localizing sources of signals in reverberant environments using sparse optimization |
WO2015157013A1 (en) * | 2014-04-11 | 2015-10-15 | Analog Devices, Inc. | Apparatus, systems and methods for providing blind source separation services |
-
2019
- 2019-06-28 JP JP2020556586A patent/JP6989031B2/ja active Active
- 2019-06-28 WO PCT/JP2019/025835 patent/WO2020100340A1/ja active Application Filing
- 2019-06-28 US US17/292,687 patent/US11843910B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2020100340A1 (ja) | 2020-05-22 |
US20220014843A1 (en) | 2022-01-13 |
US11843910B2 (en) | 2023-12-12 |
JPWO2020100340A1 (ja) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10446171B2 (en) | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments | |
US10123113B2 (en) | Selective audio source enhancement | |
US20210089967A1 (en) | Data training in multi-sensor setups | |
Heymann et al. | A generic neural acoustic beamforming architecture for robust multi-channel speech processing | |
JP2021036297A (ja) | 信号処理装置、信号処理方法、及びプログラム | |
US8848933B2 (en) | Signal enhancement device, method thereof, program, and recording medium | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
JP6903611B2 (ja) | 信号生成装置、信号生成システム、信号生成方法およびプログラム | |
JP2007526511A (ja) | 周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置 | |
US11894010B2 (en) | Signal processing apparatus, signal processing method, and program | |
JP2011215317A (ja) | 信号処理装置、および信号処理方法、並びにプログラム | |
JP6987075B2 (ja) | オーディオ源分離 | |
Nesta et al. | Convolutive underdetermined source separation through weighted interleaved ICA and spatio-temporal source correlation | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
WO2020170907A1 (ja) | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム | |
JP6815956B2 (ja) | フィルタ係数算出装置、その方法、及びプログラム | |
Herzog et al. | Direction preserving wiener matrix filtering for ambisonic input-output systems | |
JP6989031B2 (ja) | 伝達関数推定装置、方法及びプログラム | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP7182168B2 (ja) | 音情報処理装置及びプログラム | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
Dam et al. | Source separation employing beamforming and SRP-PHAT localization in three-speaker room environments | |
Li et al. | Low complex accurate multi-source RTF estimation | |
JP2018191255A (ja) | 収音装置、その方法、及びプログラム | |
JP7270869B2 (ja) | 情報処理装置、出力方法、及び出力プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211102 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6989031 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |