JP6652519B2 - ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム - Google Patents

ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム Download PDF

Info

Publication number
JP6652519B2
JP6652519B2 JP2017037299A JP2017037299A JP6652519B2 JP 6652519 B2 JP6652519 B2 JP 6652519B2 JP 2017037299 A JP2017037299 A JP 2017037299A JP 2017037299 A JP2017037299 A JP 2017037299A JP 6652519 B2 JP6652519 B2 JP 6652519B2
Authority
JP
Japan
Prior art keywords
covariance matrix
steering vector
vector
estimating
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017037299A
Other languages
English (en)
Other versions
JP2018141922A (ja
Inventor
信貴 伊藤
信貴 伊藤
中谷 智広
智広 中谷
荒木 章子
章子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017037299A priority Critical patent/JP6652519B2/ja
Publication of JP2018141922A publication Critical patent/JP2018141922A/ja
Application granted granted Critical
Publication of JP6652519B2 publication Critical patent/JP6652519B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラムに関する。
従来、目的信号と雑音とが混在した状況下で、複数のマイクロホンで収録された観測信号から、各目的信号に対するステアリングベクトルを推定する方法が提案されている。また、ステアリングベクトルを推定する際には、時間周波数点ごとの目的信号および雑音の寄与率を表すマスクが用いられる場合がある。
なお、ステアリングベクトルとは、目的信号源からマイクロホンまでの室内インパルス応答のフーリエ変換であり、例えば目的信号源の位置を推定することや、観測信号から目的信号だけを取り出すビームフォーマを設計することに用いられる。
ここで、図5を用いて、従来のステアリングベクトル推定装置について説明する。図5は、従来のステアリングベクトル推定装置の構成を示す図である。図5に示すように、まず、観測信号ベクトル計算部10aは、すべてのマイクロホンにおける観測信号の時間周波数成分を時間周波数点ごとにまとめたベクトルである観測信号ベクトルを計算する。次に、マスク推定部20aは、観測信号ベクトルに基づいて目的信号および雑音に対応するマスクを推定する。次に、共分散行列推定部30aは、観測信号ベクトルとそのエルミート転置とを乗じて得られる行列を、目的信号に対応するマスクを荷重として周波数ごとに時間方向に荷重平均することにより、目的信号に対応する共分散行列を推定し、観測信号ベクトルとそのエルミート転置とを乗じて得られる行列を、雑音に対応するマスクを荷重として周波数ごとに時間方向に荷重平均することにより、雑音に対応する共分散行列を推定する。次に、固有値解析部50aは、目的信号に対応する共分散行列から雑音に対応する共分散行列を減算して得られる行列の最大固有値に対応する固有ベクトルに基づいて、目的信号のステアリングベクトルを推定する。
Takuya Higuchi, Nobutaka Ito, Takuya Yoshioka, and Tomohiro Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5210-5214, 2016. Ozgur Yilmaz and Scott Rickard, "Blind separation of speech mixtures via time-frequency masking," IEEE Transactions on Signal Processing, vol. 52, no. 7, pp. 1830-1847, 2004. Sharon Gannot, David Burshtein, and Ehud Weinstein, "Signal enhancement using beamforming and nonstationarity with applications to speech," IEEE Transactions on Signal Processing, vol. 49, no. 8, pp. 1614-1626, 2001. Mehrez Souden, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani, and Hiroshi Sawada, "A multichannel MMSE-based framework for speech source separation and noise reduction," IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 9, pp. 1913-1928, 2013.
上述のように、従来のステアリングベクトルの推定方法は、目的信号に対応する共分散行列から雑音に対応する共分散行列を減算することに基づいている。この減算により雑音の影響を正確に取り除くことができれば、目的信号のステアリングベクトルを高精度に推定できる。
しかしながら、従来のステアリングベクトルの推定方法では、この減算により雑音の影響を正確に取り除くことができない場合があるため、目的信号のステアリングベクトルを高精度に推定できない場合があるという問題があった。
例えば、従来のステアリングベクトルの推定方法は、目的信号に対応する共分散行列に含まれる雑音の寄与と雑音に対応する共分散行列に含まれる雑音の寄与とが、それぞれ異なるスケールを持つ場合に、減算により雑音の影響を正確に取り除くことができないため、目的信号のステアリングベクトルを高精度に推定できない。
本発明のステアリングベクトル推定装置は、N個の目的信号(ただし、Nは1以上の整数)と雑音とが混在した状況下で、それぞれ異なる位置で取得されたM個(ただし、Mは2以上の整数)の観測信号の時間周波数成分からなるM次元ベクトルである観測信号ベクトルを計算する観測信号ベクトル計算部と、前記観測信号ベクトルに基づいて、前記目的信号の各々に対応するN個の第1の共分散行列と、前記雑音に対応する第2の共分散行列と、を周波数ごとに推定する共分散行列推定部と、前記第1の共分散行列と前記第2の共分散行列とで定義される一般化固有値問題の最大固有値に対応する固有ベクトルに、前記第2の共分散行列を乗じて得られるベクトルに基づいて、前記目的信号の各々に対するステアリングベクトルを推定する一般化固有値解析部と、を備えたことを特徴とする。
本発明のステアリングベクトル推定方法は、ステアリングベクトル推定装置で実行されるステアリングベクトル推定方法であって、N個の目的信号(ただし、Nは1以上の整数)と雑音とが混在した状況下で、それぞれ異なる位置で取得されたM個(ただし、Mは2以上の整数)の観測信号の時間周波数成分からなるM次元ベクトルである観測信号ベクトルを計算する観測信号ベクトル計算工程と、前記観測信号ベクトルに基づいて、前記目的信号の各々に対応するN個の第1の共分散行列と、前記雑音に対応する第2の共分散行列と、を周波数ごとに推定する共分散行列推定工程と、前記第1の共分散行列と前記第2の共分散行列とで定義される一般化固有値問題の最大固有値に対応する固有ベクトルに、前記第2の共分散行列を乗じて得られるベクトルに基づいて、前記目的信号の各々に対するステアリングベクトルを推定する一般化固有値解析工程と、を含んだことを特徴とする。
本発明によれば、各目的信号のステアリングベクトルを高精度に推定できる。
図1は、第1の実施形態に係るステアリングベクトル推定装置の構成の一例を示す図である。 図2は、第1の実施形態に係るステアリングベクトル推定装置の処理の流れを示すフローチャートである。 図3は、第2の実施形態に係るステアリングベクトル推定装置の構成の一例を示す図である。 図4は、プログラムが実行されることによりステアリングベクトル推定装置が実現されるコンピュータの一例を示す図である。 図5は、従来のステアリングベクトル推定装置の構成を示す図である。
[第1の実施形態]
第1の実施形態に係るステアリングベクトル推定装置について説明する。なお、第1の実施形態においては、N個の目的信号(ただし、Nは1以上の整数)と雑音とが混在した状況下で、それぞれ異なる位置で取得されたM個(ただし、Mは2以上の整数)の観測信号がステアリングベクトル推定装置に入力されるものとする。
[第1の実施形態の構成]
図1を用いて、第1の実施形態の構成について説明する。図1は、第1の実施形態に係るステアリングベクトル推定装置の構成の一例を示す図である。図1に示すように、ステアリングベクトル推定装置1は、観測信号ベクトル計算部10、マスク推定部20、共分散行列推定部30および一般化固有値解析部40を有する。
まず、ステアリングベクトル推定装置1の各部の概要について説明する。観測信号ベクトル計算部10は、入力されたM個の観測信号の短時間信号分析に基づいて、観測信号ベクトルytfを時間周波数点ごとに計算する。ここで、tは時間を表す番号、fは周波数を表す番号であり、tは1〜Tの整数、fは1〜Fの整数をとるものとする。
マスク推定部20は、観測信号ベクトルytfに基づいて、各時間周波数点へのN個の目的信号の各々の寄与率を表すN個の第1のマスクγ(n) tf(nは目的信号の番号で、1〜Nの整数をとる)と、各時間周波数点への雑音の寄与率を表す1個の第2のマスクγ(0) tfと、からなるN+1個のマスクを推定する。ただし、N+1個のマスクの総和は1である、すなわち(1)式が成り立つとする。
Figure 0006652519
マスクは、0〜1の実数値をとるマスク(ソフトマスク)としてもよいし、0または1の2値だけをとるマスク(バイナリマスク)としてもよい。
共分散行列推定部30は、マスク推定部20において推定されたマスクに基づいて、各目的信号に対応するN個の第1の共分散行列Ψ(n) (nは目的信号の番号で、1〜Nの整数をとる)と、雑音に対応する第2の共分散行列Ψ(0) と、を周波数ごとに推定する。
一般化固有値解析部40は、第1の共分散行列Ψ(n) と第2の共分散行列Ψ(0) とで定義される(2)式の一般化固有値問題の最大固有値に対応する固有ベクトル((3)式)を計算し、(4)式のように、ベクトルe(n) に第2の共分散行列Ψ(0) を乗じることにより、ステアリングベクトルh(n) (nは目的信号の番号で、1〜Nの整数をとる)を推定する。
Figure 0006652519
Figure 0006652519
Figure 0006652519
一般化固有値解析部40は、上記の処理の後処理として、既知の技術に基づいて適切な正規化を行ってもよい。例えば、一般化固有値解析部40は、1番目のマイクロホンを基準とみなすことに基づいて、ステアリングベクトルh(n) の第1要素が1に等しくなるように(5)式により正規化を行う。ただし、h(1,n) はステアリングベクトルh(n) の第1要素を表す。
Figure 0006652519
次に、ステアリングベクトル推定装置1の各部の詳細について説明する。観測信号ベクトル計算部10は、短時間フーリエ変換などの短時間信号分析を用いて、M個の観測信号の各々の時間周波数成分y(m) tf(mはマイクロホンの番号で、1〜Mの整数をとる)を計算し、これらをまとめたM次元ベクトルである観測信号ベクトル((6)式)を時間周波数点ごとに計算する(上付きのTは転置を表す)。
Figure 0006652519
ここで、目的信号はスパース性を有し、各時間周波数点においてN個の目的信号のうちの高々1つだけが存在すると仮定される。また、雑音は、すべての時間周波数点において存在すると仮定される。これより、観測信号ベクトル計算部10により計算された観測信号ベクトルytfは、次の(7)式または(8)式によりモデル化される。
Figure 0006652519
ここで、(7)式は、当該時間周波数点においてN個の目的信号のうちn番目の目的信号だけが存在する場合を表し、(8)式は、当該時間周波数点において目的信号が1つも存在しない場合を表す。また、s(n) tfは、n番目の目的信号の時間周波数成分を表し、ベクトルh(n) は、n番目の目的信号のステアリングベクトル((9)式)を表し、ベクトルvtfは、M個のマイクロホンにおける雑音の時間周波数成分をまとめたM次元ベクトル((10)式)を表す。
Figure 0006652519
Figure 0006652519
N個の目的信号のうちn番目(nは1〜Nの整数)の目的信号だけが存在する時間周波数点(t,f)の全体の集合を、
(n)={(t,f)│時間周波数点(t,f)では目的信号のうちn番目の目的信号だけが存在}
とし、目的信号が1つも存在しない時間周波数点(t,f)の全体の集合を、
(0)={(t,f)│時間周波数点(t,f)では目的信号が1つも存在しない}
とすると、(7)式および(8)式は次の(11)式のように書ける。
Figure 0006652519
ここで、s(n) tfは確定値(未知)、ベクトルh(n) は確定値(未知)、ベクトルvtfは確率変数(未知)、ベクトルytfは確率変数(既知)、集合C(n)(nは0〜Nの整数)は確定値(未知)とする。また(12)式および(13)式が成り立つこととする。
Figure 0006652519
ここで、φtfは雑音のパワースペクトルであり、行列Γは雑音の空間的性質を表す空間共分散行列である。すなわち、雑音のパワースペクトルは時間的に変化するが、雑音の空間的性質は時間的に変化しないと仮定している。Eは期待値を表し、上付きのHはエルミート転置を表す。
マスク推定部20は、例えば、既知のクラスタリング技術(例えば、非特許文献4に記載のクラスタリング技術)を用いて、時間周波数点(t,f)(t=1〜T、f=1〜F)を、各目的信号に対応するN個の第1のクラスと雑音に対応する1個の第2のクラスとからなるN+1個のクラスに分類することにより、各目的信号に対応するN個の第1の事後確率ξ(n) tf(nは目的信号の番号で、1〜Nの整数をとる)と雑音に対応する1個の第2の事後確率ξ(0) tfとを時間周波数点ごとに推定し、第1の事後確率ξ(n) tfを第1のマスクγ(n) tfとし、第2の事後確率ξ(0) tfを第2のマスクγ(0) tfとする。すなわち、マスク推定部20は(14)式により第1のマスクγ(n) tfと第2のマスクγ(0) tfとを推定する。ただし、N+1個の事後確率の総和は1である、すなわち(15)式が成り立つとする。事後確率は、0〜1の実数値をとる事後確率としてもよい(この場合、マスクも0〜1の実数値をとるマスクとなる)し、0または1の2値だけをとる事後確率としてもよい(この場合、マスクも0または1の2値だけをとるマスクとなる)。
Figure 0006652519
Figure 0006652519
共分散行列推定部30は、マスク推定部20において推定されたN+1個のマスクγ(n) tf(n=0〜N)に基づいて、各目的信号に対応するN個の第1の共分散行列Ψ(n) (n=1〜N)と、雑音に対応する第2の共分散行列Ψ(0) と、を周波数ごとに推定する。具体的には、共分散行列推定部30は、(16)式のように、観測信号ベクトルytfとそのエルミート転置y tfとを乗じて得られるM次正方行列ytf tfを、周波数ごとに第1のマスクγ(n) tf(n=1〜N)を荷重として時間方向に荷重平均して得られる行列を第1の共分散行列Ψ(n) (n=1〜N)とし、(17)式のように、前記M次正方行列ytf tfを、周波数ごとに第2のマスクγ(0) tfを荷重として時間方向に荷重平均して得られる行列を第2の共分散行列Ψ(0) とする。
Figure 0006652519
Figure 0006652519
(変形例1)
第1の実施形態の変形例1として、マスク推定部20における処理は次のようにしてもよい。本変形例に係るマスク推定部20は、時間周波数点(t,f)(t=1〜T、f=1〜F)を、各目的信号に対応するN個の第1のクラスと雑音に対応するL個(ただし、Lは2以上の整数)の第2のクラスとからなるN+L個のクラスに分類することにより、各目的信号に対応するN個の第1の事後確率ξ(n) tf(nは目的信号の番号で、1〜Nの整数をとる)と雑音に対応するL個の第2の事後確率ξ(0,l) tf(l=1〜L)とを時間周波数点ごとに推定し、第1の事後確率ξ(n) tfを第1のマスクγ(n) tfとし、L個の第2の事後確率ξ(0,l) tf(l=1〜L)の和ξ(0,1) tf+・・・+ξ(0,L) tfを第2のマスクγ(0) tfとする。すなわち、マスク推定部20は(18)式により第1のマスクγ(n) tfと第2のマスクγ(0) tfとを推定する。ただし、N+L個の事後確率の総和は1である、すなわち(19)式が成り立つとする。事後確率は、0〜1の実数値をとる事後確率としてもよい(この場合、マスクも0〜1の実数値をとるマスクとなる)し、0または1の2値だけをとる事後確率としてもよい(この場合、マスクも0または1の2値だけをとるマスクとなる)。
Figure 0006652519
Figure 0006652519
例えば、複数の雑音が混在する場合(例:様々な方向から一様に到来する拡散性雑音と特定の方向のみから到来する方向性雑音とが混在する場合)に、各雑音を個別にモデル化して各雑音に対応する第2の事後確率を推定し、これに基づいて第2のマスクを推定してもよい。これにより、より精緻な雑音モデル化が可能になり、第2のマスクの推定精度、従ってステアリングベクトルの推定精度を向上させられることがある。
(変形例2)
第1の実施形態の変形例2として、N=1の場合には、共分散行列推定部30における処理は次のようにしてもよい。本変形例に係る共分散行列推定部30は、N=1の場合には、(20)式のように、観測信号ベクトルytfとそのエルミート転置y tfとを乗じて得られるM次正方行列ytf tfを周波数ごとに時間方向に平均して得られる行列を第1の共分散行列Ψ(1) とし、(21)式のように、前記M次正方行列ytf tfを、第2のマスクγ(0) tfを荷重として周波数ごとに時間方向に荷重平均して得られる行列を第2の共分散行列Ψ(0) とする。
Figure 0006652519
Figure 0006652519
N=1の場合、本変形例に係る共分散行列推定部30において計算された第1の共分散行列と第2の共分散行列とを用いても、第1の実施形態に係る共分散行列推定部30において計算された第1の共分散行列と第2の共分散行列とを用いても、一般化固有値解析部40で推定されるステアリングベクトルは同一となることが示される。したがって、本変形例に係る共分散行列推定部30に基づいて、第1の実施形態と同様に、各目的信号のステアリングベクトルを高精度に推定することができる。以下で、このことを示す。
(1)式においてN=1とおいた(22)式を代入すると、(20)式の右辺は(23)式となる。ここで、(24)〜(27)式のように略記した(簡単のため添え字は省略した)。以下ではξは0ではなく、したがってξ>0であると仮定する(この仮定は、実環境では事実上つねに成立する)。行列Aは、第1の実施形態に係る共分散行列推定部30において推定された第1の共分散行列であり、行列Bは(第1の実施形態に係る共分散行列推定部30および本変形例に係る共分散行列推定部30において推定された)第2の共分散行列である。よって、示すべきことは、本変形例における一般化固有値問題((28)式)の最大固有値に対応する固有ベクトルと、第1の実施形態における一般化固有値問題((29)式)の最大固有値に対応する固有ベクトルとが一致することである。
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
行列G、Hは複素数を要素とするM次正方行列、行列Hは正則とする。方程式(30)を満たす複素数μおよび0でないM次元複素ベクトルzを求める問題を一般化固有値問題と言う。複素数μおよび0でないM次元複素ベクトルzが(30)式を満たすとき、μを(30)式の一般化固有値問題の固有値と言い、ベクトルzを(30)式の一般化固有値問題の固有値μに対応する固有ベクトルと言う。行列Hは正則だから、(30)式の一般化固有値問題は、通常の固有値問題((31)式)と等価である。よって、μが(30)式の一般化固有値問題の固有値であるための必要十分条件は、数27の通りである。
Figure 0006652519
Figure 0006652519
Figure 0006652519
(32)式を(30)式の一般化固有値問題の特性方程式と言う。
特性方程式より、数28が成り立つ。
Figure 0006652519
ここで、ξ>0より1次関数(λ―η)/ξはλの単調増加関数であることに注意すると、(28)式の一般化固有値問題の最大固有値をλmaxとするとき、(29)式の一般化固有値問題の最大固有値は(λmax―η)/ξである。数29に示す通り、(28)式の一般化固有値問題の最大固有値に対応する固有ベクトルと、(29)式の一般化固有値問題の最大固有値に対応する固有ベクトルとは一致する。
Figure 0006652519
[第1の実施形態の処理]
図2を用いて、ステアリングベクトル推定装置1の処理の流れについて説明する。図2は、第1の実施形態に係るステアリングベクトル推定装置の処理の流れを示すフローチャートである。
図2に示すように、まず、観測信号ベクトル計算部10は、N個の目的信号(ただし、Nは1以上の整数)と雑音とが混在した状況下で、それぞれ異なる位置で取得されたM個(ただし、Mは2以上の整数)の観測信号の時間周波数成分からなるM次元ベクトルである観測信号ベクトルを計算する(ステップS11)。
次に、マスク推定部20は、観測信号ベクトルに基づいて、各時間周波数点へのN個の目的信号の各々の寄与率を表すN個の第1のマスクと、各時間周波数点への雑音の寄与率を表す1個の第2のマスクと、からなるN+1個のマスクを推定する(ステップS12)。
次に、共分散行列推定部30は、観測信号ベクトルに基づいて、目的信号の各々に対応するN個の第1の共分散行列と、雑音に対応する第2の共分散行列と、を周波数ごとに推定する(ステップS13)。このとき、共分散行列推定部30は、マスク推定部20で推定されたマスクに基づいて、第1の共分散行列と前記第2の共分散行列とを推定する。
次に、一般化固有値解析部40は、第1の共分散行列と第2の共分散行列とで定義される一般化固有値問題の最大固有値に対応する固有ベクトルに、第2の共分散行列を乗じて得られるベクトルに基づいて、目的信号の各々に対するステアリングベクトルを推定する(ステップS14)。
なお、共分散行列推定部30は、マスクを用いない方法で第1の共分散行列と前記第2の共分散行列とを推定してもよい。その場合、マスク推定部20によるマスクの推定(ステップS12)は実行されない。
[第1の実施形態の効果]
上述のように、従来のステアリングベクトルの推定方法は、目的信号に対応する共分散行列から雑音に対応する共分散行列を減算することに基づいている。この減算により雑音の影響を正確に取り除くことができれば、目的信号のステアリングベクトルを高精度に推定できる。しかしながら、従来のステアリングベクトルの推定方法では、この減算により雑音の影響を正確に取り除くことができない場合があるため、目的信号のステアリングベクトルを高精度に推定できない場合があるという問題があった。
例えば、従来のステアリングベクトルの推定方法は、目的信号に対応する共分散行列に含まれる雑音の寄与と雑音に対応する共分散行列に含まれる雑音の寄与とが、それぞれ異なるスケールを持つ場合に、前記減算により雑音の影響を正確に取り除くことができないため、目的信号のステアリングベクトルを高精度に推定できない。
例えば、後述のように、マスクを用いて推定された目的信号に対応する共分散行列および雑音に対応する共分散行列には、一般に、これらの行列に含まれる雑音の寄与のスケールが異なるという性質がある。例えば、雑音のパワースペクトルが時間的に変化する場合(すなわち、雑音のパワースペクトルが時変である場合)には、目的信号に対応する共分散行列に含まれる雑音の寄与と雑音に対応する共分散行列に含まれる雑音の寄与とが、異なるスケールを持つ。そのため、従来のステアリングベクトルの推定方法では、共分散行列の減算により雑音の影響を正確に取り除くことができず、目的信号のステアリングベクトルを高精度に推定できない。
これに対し、本実施形態のステアリングベクトルの推定方法では、各目的信号のステアリングベクトルを高精度に推定できる。例えば、本実施形態のステアリングベクトルの推定方法では、一般化固有値問題に基づくことにより、各目的信号に対応する第1の共分散行列に含まれる雑音の寄与と雑音に対応する第2の共分散行列に含まれる雑音の寄与とが異なるスケールを持つ場合でも、各目的信号のステアリングベクトルを高精度に推定できる。
例えば、本実施形態のステアリングベクトルの推定方法では、一般にスケールの異なる雑音の寄与を含むという性質を有する、マスクを用いて推定された各目的信号に対応する第1の共分散行列および雑音に対応する第2の共分散行列を用いた場合でも、各目的信号のステアリングベクトルを高精度に推定することができる。例えば、本実施形態のステアリングベクトルの推定方法では、雑音のパワースペクトルが時間的に変化する場合でも、各目的信号のステアリングベクトルを高精度に推定することができる。
従来のステアリングベクトルの推定方法では、(33)式の固有値問題の最大固有値に対応する固有ベクトルに基づいて、n番目の目的信号のステアリングベクトルh(n) を求めていた。これに対し、本実施形態のステアリングベクトルの推定方法では、(2)式の一般化固有値問題の最大固有値に対応する固有ベクトルに行列Ψ(0) を乗じて得られるベクトルに基づいて、n番目の目的信号のステアリングベクトルh(n) を求める。ここで、(34)式のように定義した。
Figure 0006652519
Figure 0006652519
以下では、(11)〜(13)式の観測信号のモデル化に基づく理論的な解析に基づいて、本実施形態には上述の効果があることを説明する。この理論的な解析を可能にするため、以下では、従来のステアリングベクトルの推定方法、および本実施形態のステアリングベクトルの推定方法において、(35)式の共分散行列をこれらの期待値((36)式)で置き換える。すなわち、従来のステアリングベクトルの推定方法における(33)式の固有値問題を(37)式の固有値問題に置き換え、本実施形態のステアリングベクトルの推定方法における(2)式の一般化固有値問題を(38)式の一般化固有値問題に置き換えて解析する。
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
また以下では、マスクγ(n) tf(n=0〜N)は正しく推定されている、すなわち(39)式が成り立っているとし、この条件下で、従来のステアリングベクトルの推定方法および本実施形態のステアリングベクトルの推定方法によるステアリングベクトル推定精度を比較する(簡単のため、上式のように、0および1の2値だけをとるマスク(バイナリマスク)を考える)。このとき(40)式となる。ここで、集合C(n) は、周波数の番号f=1〜Fを固定したときに、集合C(n)に属する当該周波数における時間周波数点(t,f)に対する時間の番号tの全体の集合、すなわち(41)式であり、|・|は集合の要素数を表す。
Figure 0006652519
Figure 0006652519
Figure 0006652519
以下の理論的な解析はやや長くなるため、ここで要点をまとめておく。まず(42)式および(43)式が成り立つことが示される。ここで、α(n) 、β(n) 、β(0) はある実数である。このように、マスクに基づいて求めた(42)式および(43)式の共分散行列に含まれる雑音の寄与((44)式)は一般にスケール(係数)が異なっている。
Figure 0006652519
Figure 0006652519
(37)式のように、従来のステアリングベクトルの推定方法は、(42)式および(43)式の共分散行列の減算に基づいている。いま、雑音のパワースペクトルが時間的に変化しない(すなわち、雑音のパワースペクトルが時不変である)理想的な場合を考えると、この場合には(45)式となり、(42)式および(43)式の共分散行列に含まれる雑音の寄与はスケールが等しいことが示される。したがってこの場合には、(42)式および(43)式の共分散行列の減算により雑音の寄与を正確に取り除くことができるため、従来のステアリングベクトルの推定方法により、目的信号のステアリングベクトルを正確に推定することができる。
Figure 0006652519
しかしながら、雑音のパワースペクトルが時間的に変化する場合には、一般に(46)式であり、(42)式および(43)式の共分散行列に含まれる雑音の寄与はスケールが異なっている。したがってこの場合には、(42)式および(43)式の共分散行列の減算によっては雑音の寄与を正確に取り除けないため、従来のステアリングベクトルの推定方法では、目的信号のステアリングベクトルを正確に推定することができない。
Figure 0006652519
すなわち、マスクに基づいて計算された(42)式および(43)式の共分散行列に含まれる雑音の寄与は一般にスケールが異なるため、(42)式および(43)式の共分散行列の減算に基づく従来のステアリングベクトルの推定方法では、雑音の寄与を正確に取り除くことができず、目的信号のステアリングベクトルを高精度に推定できない場合がある、という問題があった。
これに対し、本実施形態のステアリングベクトルの推定方法は、(38)式の一般化固有値問題に基づいている。(38)式の一般化固有値問題の最大固有値に対応する固有ベクトルはβ(n) およびβ(0) の値に関わらず(47)式となることが示される。したがって、これに(43)式の行列を乗じることにより、n番目の目的信号のステアリングベクトルh(n) のスカラ倍が得られる。したがって、本実施形態のステアリングベクトルの推定方法により、目的信号のステアリングベクトルを高精度に推定することができる。
Figure 0006652519
すなわち、マスクに基づいて計算された(42)式および(43)式の共分散行列に含まれる雑音の寄与は一般にスケールが異なるが、本実施形態のステアリングベクトルの推定方法は、(38)式の一般化固有値問題に基づいているため、このスケールの違いの影響を受けずに各目的信号のステアリングベクトルを高精度に推定できる。
以下では、従来のステアリングベクトルの推定方法および本実施形態のステアリングベクトルの推定方法の理論的な解析について詳細に述べる。
まず、(42)式および(43)式を導出する。nが1以上の整数の場合、数44となる。これは(42)式である。ただし(50)式および(51)式のように置いた。また、数46となる。これは(43)式である。ただし(54)式のように置いた。
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
マスクに基づいて計算された(42)式および(43)式の共分散行列に含まれる雑音の寄与((55)式)は一般にスケール(係数)が異なっている。(48)式および(52)式から分かるように、(42)式および(43)式の共分散行列は、それぞれ異なる時間周波数点における観測信号を用いて計算される。その結果、(42)式および(43)式の共分散行列に含まれる雑音の寄与は、これらの共分散行列を計算するのに用いられた時間周波数点における雑音のパワースペクトルに依存して、一般にスケール(係数)が異なるのである。
Figure 0006652519
以下では(56)式および(57)式のように仮定し、また(58)式は正定値エルミート行列であると仮定する(これらの仮定はみな、実環境では事実上つねに成立する)。
Figure 0006652519
Figure 0006652519
次に、(37)式の固有値問題に基づく従来のステアリングベクトルの推定方法において、雑音のパワースペクトルが時間的に変化しない理想的な場合を考える。この場合(59)式と置けるから、(60)式となる。よって、この場合には(61)式となるから、(42)式および(43)式は、(62)式および(63)式となり、これらの共分散行列に含まれる雑音の寄与はスケールが等しくなる。したがってこの場合には、(37)式の固有値問題において、上記2つの共分散行列の減算を行うことにより、(64)式のように雑音の寄与を正確に取り除くことができ、目的信号の寄与だけが残る。(37)式すなわち(64)式の固有値問題の最大固有値に対応する固有ベクトルは、明らかにn番目の目的信号のステアリングベクトルh(n) のスカラ倍となる。ステアリングベクトルh(n) のスカラ倍が求まれば、既知の技術により適切な正規化を行うことにより、ステアリングベクトルh(n) が得られる(例えば、1番目のマイクロホンを基準とみなすことに基づいて、ステアリングベクトルh(n) の第1要素が1に等しくなるように正規化を行えばよい)。
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
すなわち、雑音のパワースペクトルが時間的に変化しない場合には、従来のステアリングベクトルの推定方法により、雑音の影響を正確に取り除くことができるため、目的信号のステアリングベクトルを高精度に推定することができる。
次に、(37)式の固有値問題に基づく従来のステアリングベクトルの推定方法において、雑音のパワースペクトルが時間的に変化する場合を考える。この場合、一般に(65)式であり、(42)式および(43)式の共分散行列に含まれる雑音の寄与はスケールが異なっている。したがってこの場合には、(37)式の固有値問題において、(42)式および(43)式の共分散行列の減算を行っても、(66)式のように雑音の寄与((67)式)が消えずに残る。この雑音の寄与の影響により、(37)式すなわち(66)式の固有値問題の最大固有値に対応する固有ベクトルは、一般にはn番目の目的信号のステアリングベクトルh(n) のスカラ倍とはならず誤差を含む。
Figure 0006652519
Figure 0006652519
Figure 0006652519
すなわち、雑音のパワースペクトルが時間的に変化する場合には、従来のステアリングベクトルの推定方法では、雑音の影響を正確に取り除くことが必ずしもできないため、目的信号のステアリングベクトルを高精度に推定することが必ずしもできない。
このように、マスクに基づいて計算された(42)式および(43)式の共分散行列に含まれる雑音の寄与は一般にスケールが異なるため、(42)式および(43)式の共分散行列の減算に基づく従来のステアリングベクトルの推定方法では、雑音の寄与を正確に取り除くことができず、目的信号のステアリングベクトルを高精度に推定できない場合がある、という問題があった。
続いて、(38)式の一般化固有値問題に基づく本実施形態のステアリングベクトルの推定方法について考える。以下では(68)式のように略記して、(42)式および(43)式を(69)式および(70)式と表す。まず、行列δΓは正定値エルミート行列だから、M次正則行列Uが存在して(71)式が成立することに注意する(例えばコレスキー分解を適用すればよい)。また、階数1のエルミート行列((72)式)の固有値分解を(73)式とする。ただし行列Vは第1列が(74)式に等しいユニタリ行列であり、行列Σは(75)式の対角行列である。ここで、||・||はユークリッドノルムを表す。
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
Figure 0006652519
以上を踏まえると、(38)式の一般化固有値問題の固有値は数66のようにして求まる。
Figure 0006652519
そこで、最大固有値((76)式)に対応する固有ベクトルを数68のように求める。
Figure 0006652519
Figure 0006652519
以上で、(38)式の一般化固有値問題の最大固有値に対応する固有ベクトルが(77)式で与えられることが示された。したがって、この固有ベクトルに(43)式の行列を乗じることにより、n番目の目的信号のステアリングベクトルh(n) のスカラ倍が得られる。ステアリングベクトルh(n) のスカラ倍が求まれば、既知の技術により適切な正規化を行うことにより、ステアリングベクトルh(n) が得られる(例えば、1番目のマイクロホンを基準とみなすことに基づいて、ステアリングベクトルh(n) の第1要素が1に等しくなるように正規化を行えばよい)。
Figure 0006652519
このように、マスクに基づいて計算された(42)式および(43)式の共分散行列に含まれる雑音の寄与は一般にスケールが異なるが、本実施形態のステアリングベクトルの推定方法は、(38)式の一般化固有値問題に基づいているため、このスケールの違いの影響を受けずに目的信号のステアリングベクトルを高精度に推定できる。
上の考察においては、従来のステアリングベクトルの推定方法の場合とは異なり、雑音のパワースペクトルが時間的に変化しないという仮定は用いていないことに注意する。すなわち、本実施形態のステアリングベクトルの推定方法では、雑音のパワースペクトルが時間的に変化しない場合だけでなく、雑音のパワースペクトルが時間的に変化する場合でも、各目的信号のステアリングベクトルを高精度に推定することができる。
[第2の実施形態]
第2の実施形態に係るステアリングベクトル推定装置について説明する。本実施形態は、共分散行列推定部30において、初期値に基づいて、目的信号に対応する第1の共分散行列および雑音に対応する第2の共分散行列を推定する例である。
なお、第2の実施形態においては、第1の実施形態と同様、N個の目的信号(ただし、Nは1以上の整数)と雑音とが混在した状況下で、それぞれ異なる位置で取得されたM個(ただし、Mは2以上の整数)の観測信号がステアリングベクトル推定装置に入力されるものとする。
[第2の実施形態の構成]
図3を用いて、第2の実施形態の構成について説明する。図3は、第2の実施形態に係るステアリングベクトル推定装置の構成の一例を示す図である。図3に示すように、第2の実施形態に係るステアリングベクトル推定装置2は、観測信号ベクトル計算部10、マスク推定部20、初期値記憶部31、共分散行列推定部30および一般化固有値解析部40を有する。
観測信号ベクトル計算部10、マスク推定部20における処理は第1の実施形態と同様である。初期値記憶部31は、第1の共分散行列Ψ(n) (n=1〜N、f=1〜F)および第2の共分散行列Ψ(0) (f=1〜F)の初期値を記憶する。
共分散行列推定部30における共分散行列推定に先立ち、初期値記憶部31に記憶されている初期値が共分散行列推定部30に読み込まれ、これを用いて第1の共分散行列Ψ(n) (n=1〜N、f=1〜F)および第2の共分散行列Ψ(0) (f=1〜F)が初期化される。共分散行列推定部30は、各時刻t(t=1〜T)において、観測信号ベクトルytfを用いて、第1の共分散行列Ψ(n) (n=1〜N、f=1〜F)および第2の共分散行列Ψ(0) (f=1〜F)を(78)式により更新する。
Figure 0006652519
一般化固有値解析部40は、各時刻t(t=1〜T)において、共分散行列推定部30から第1の共分散行列Ψ(n) (n=1〜N、f=1〜F)および第2の共分散行列Ψ(0) (f=1〜F)を受け取り、(79)式の一般化固有値問題の最大固有値に対応する固有ベクトル((80)式)を計算し、(81)式のように、ベクトルe(n) に第2の共分散行列Ψ(0) を乗じて得られるベクトルΨ(0) (n) により、ステアリングベクトルh(n) (nは目的信号の番号で、1〜Nの整数をとる)を更新する。
Figure 0006652519
Figure 0006652519
Figure 0006652519
一般化固有値解析部40は、上記の処理の後処理として、既知の技術に基づいて適切な正規化を行ってもよい。例えば、1番目のマイクロホンを基準とみなすことに基づいて、ステアリングベクトルh(n) の第1要素が1に等しくなるように、(82)式により正規化を行う。
Figure 0006652519
[第2の実施形態の効果]
初期値に基づいて、目的信号に対応する第1の共分散行列および雑音に対応する第2の共分散行列を推定する場合、これらの行列は、スケールのそれぞれ異なる雑音の寄与を含むことがある(例えば、音量の異なるデータからそれぞれの初期値を学習する場合)。この場合、従来のステアリングベクトルの推定方法では、共分散行列の減算により雑音の影響を正確に取り除くことができないため、目的信号のステアリングベクトルを高精度に推定できない。例えば、オンライン処理の場合に、上記スケールの違いが顕著である処理開始直後に、ステアリングベクトルの推定精度が大幅に低下することがある。
これに対し、本実施形態のステアリングベクトルの推定方法では、一般化固有値問題に基づくことにより、スケールの異なる雑音の寄与を含むことがある、初期値に基づいて推定された第1および第2の共分散行列を用いる場合でも、各目的信号のステアリングベクトルを正確に推定できる。例えば、音量の異なるデータから事前学習した第1および第2の共分散行列の初期値を用いてオンライン処理を行う場合でも、処理開始直後から各目的信号のステアリングベクトルを高精度に推定することができる。
[第3の実施形態]
本実施形態では、本発明に係るステアリングベクトル推定装置により推定されたステアリングベクトルを用いて、最小分散無歪応答(MVDR:Minimum Variance Distortionless Response)ビームフォーマを設計し、これを用いて観測信号から各目的信号を推定する例を示す。
なお、第3の実施形態においては、第1および第2の実施形態と同様に、N個の目的信号(ただし、Nは1以上の整数)と雑音とが混在した状況下で、それぞれ異なる位置で取得されたM個(ただし、Mは2以上の整数)の観測信号を考える。
本発明に係るステアリングベクトル推定装置により推定されたステアリングベクトルh(n) に基づいて、MVDRビームフォーマを表すベクトルw(n) (nは目的信号の番号であり、1〜Nの自然数をとる)を(83)式のように求めることができる。
Figure 0006652519
ここで、Φは観測信号ベクトルytfの共分散行列であり、(84)式により推定できる。
Figure 0006652519
このMVDRビームフォーマを観測信号ベクトルytfに適用することで、雑音や、n番目の目的信号以外の目的信号を抑圧し(85)式のように、n番目の目的信号s(n) tfの推定値^s(n) tfを得ることができる。
Figure 0006652519
MVDRビームフォーマは、ステアリングベクトルh(n) が正確に推定できれば、n番目の目的信号を歪ませずに、雑音や、n番目の目的信号以外の目的信号を最大限に抑圧できるという性質がある。そのため、例えば、音声歪みに弱い、深層学習に基づく音声認識の前処理に好適である。しかしながら、MVDRビームフォーマは、ステアリングベクトルの推定値が正確でない場合には、音声が大幅に歪んでしまうことが知られていた。そのため従来、雑音や複数の目的信号が存在する実環境では、MVDRビームフォーマは低い性能に留まっていた。これに対し、本発明によれば、ステアリングベクトルを正確に推定することができるので、MVDRビームフォーマを用いてn番目の目的信号を歪ませずに雑音や、n番目の目的信号以外の目的信号を抑圧することが可能になり、深層学習に基づく音声認識の前処理として用いることにより、高精度な音声認識を実現することができる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、ステアリングベクトル推定装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記のステアリングベクトルの推定を実行するステアリングベクトル推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のステアリングベクトル推定プログラムを情報処理装置に実行させることにより、情報処理装置をステアリングベクトル推定装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、ステアリングベクトル推定装置1は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記のステアリングベクトルの推定に関するサービスを提供するステアリングベクトル推定サーバ装置として実装することもできる。例えば、ステアリングベクトル推定サーバ装置は、観測信号を入力とし、ステアリングベクトルを出力とするステアリングベクトル推定サービスを提供するサーバ装置として実装される。この場合、ステアリングベクトル推定サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記のステアリングベクトルの推定に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図4は、プログラムが実行されることによりステアリングベクトル推定装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、ステアリングベクトル推定装置1の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、ステアリングベクトル推定装置1における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
1、2 ステアリングベクトル推定装置
10 観測信号ベクトル計算部
20 マスク推定部
30 共分散行列推定部
31 初期値記憶部
40 一般化固有値解析部

Claims (8)

  1. N個の目的信号(ただし、Nは1以上の整数)と雑音とが混在した状況下で、それぞれ異なる位置で取得されたM個(ただし、Mは2以上の整数)の観測信号の時間周波数成分からなるM次元ベクトルである観測信号ベクトルを計算する観測信号ベクトル計算部と、
    前記観測信号ベクトルに基づいて、前記目的信号の各々に対応するN個の第1の共分散行列と、前記雑音に対応する第2の共分散行列と、を周波数ごとに推定する共分散行列推定部と、
    前記第1の共分散行列と前記第2の共分散行列とで定義される一般化固有値問題の最大固有値に対応する固有ベクトルに、前記第2の共分散行列を乗じて得られるベクトルに基づいて、前記目的信号の各々に対するステアリングベクトルを推定する一般化固有値解析部と、
    を備えたことを特徴とするステアリングベクトル推定装置。
  2. 前記観測信号ベクトルに基づいて、各時間周波数点への前記N個の目的信号の各々の寄与率を表すN個の第1のマスクと、各時間周波数点への前記雑音の寄与率を表す1個の第2のマスクと、からなるN+1個のマスクを推定するマスク推定部をさらに備え、
    前記共分散行列推定部は、前記マスク推定部で推定されたマスクに基づいて、前記第1の共分散行列と前記第2の共分散行列とを推定する、
    ことを特徴とする請求項1に記載のステアリングベクトル推定装置。
  3. 前記第1の共分散行列の初期値と前記第2の共分散行列の初期値とを記憶する初期値記憶部をさらに備え、
    前記共分散行列推定部は、前記初期値記憶部に記憶されている初期値に基づいて、前記第1の共分散行列と前記第2の共分散行列とを推定する、
    ことを特徴とする請求項1または2に記載のステアリングベクトル推定装置。
  4. 前記マスク推定部は、各時間周波数点を、前記目的信号の各々に対応するN個の第1のクラスと前記雑音に対応するL個(ただし、Lは2以上の整数)の第2のクラスとからなるN+L個のクラスに分類することにより、前記目的信号の各々に対応するN個の第1の事後確率と前記雑音に対応するL個の第2の事後確率とからなるN+L個の事後確率を時間周波数点ごとに推定し、前記第1の事後確率を前記第1のマスクとし、前記L個の第2の事後確率の和を前記第2のマスクとすることを特徴とする請求項2に記載のステアリングベクトル推定装置。
  5. 前記共分散行列推定部は、前記観測信号ベクトルと前記観測信号ベクトルのエルミート転置とを乗じて得られるM次正方行列を、前記第1のマスクを荷重として周波数ごとに時間方向に荷重平均して得られる行列を前記第1の共分散行列とし、前記M次正方行列を、前記第2のマスクを荷重として周波数ごとに時間方向に荷重平均して得られる行列を前記第2の共分散行列とすることを特徴とする請求項2または4に記載のステアリングベクトル推定装置。
  6. 前記共分散行列推定部は、N=1の場合には、前記観測信号ベクトルと前記観測信号ベクトルのエルミート転置とを乗じて得られるM次正方行列を周波数ごとに時間方向に平均して得られる行列を前記第1の共分散行列とし、前記M次正方行列を、前記第2のマスクを荷重として周波数ごとに時間方向に荷重平均して得られる行列を前記第2の共分散行列とすることを特徴とする請求項2または4に記載のステアリングベクトル推定装置。
  7. ステアリングベクトル推定装置で実行されるステアリングベクトル推定方法であって、
    N個の目的信号(ただし、Nは1以上の整数)と雑音とが混在した状況下で、それぞれ異なる位置で取得されたM個(ただし、Mは2以上の整数)の観測信号の時間周波数成分からなるM次元ベクトルである観測信号ベクトルを計算する観測信号ベクトル計算工程と、
    前記観測信号ベクトルに基づいて、前記目的信号の各々に対応するN個の第1の共分散行列と、前記雑音に対応する第2の共分散行列と、を周波数ごとに推定する共分散行列推定工程と、
    前記第1の共分散行列と前記第2の共分散行列とで定義される一般化固有値問題の最大固有値に対応する固有ベクトルに、前記第2の共分散行列を乗じて得られるベクトルに基づいて、前記目的信号の各々に対するステアリングベクトルを推定する一般化固有値解析工程と、
    を含んだことを特徴とするステアリングベクトル推定方法。
  8. コンピュータを、請求項1から6のいずれか1項に記載のステアリングベクトル推定装置として機能させるためのステアリングベクトル推定プログラム。
JP2017037299A 2017-02-28 2017-02-28 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム Active JP6652519B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017037299A JP6652519B2 (ja) 2017-02-28 2017-02-28 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017037299A JP6652519B2 (ja) 2017-02-28 2017-02-28 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム

Publications (2)

Publication Number Publication Date
JP2018141922A JP2018141922A (ja) 2018-09-13
JP6652519B2 true JP6652519B2 (ja) 2020-02-26

Family

ID=63526730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017037299A Active JP6652519B2 (ja) 2017-02-28 2017-02-28 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム

Country Status (1)

Country Link
JP (1) JP6652519B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679617B2 (en) * 2017-12-06 2020-06-09 Synaptics Incorporated Voice enhancement in audio signals through modified generalized eigenvalue beamformer
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
CN113099728A (zh) * 2019-11-08 2021-07-09 刘保国 一种有限信号的精确分解方程式构建及分解方法
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
CN113782046A (zh) * 2021-09-09 2021-12-10 清华大学 一种用于远距离语音识别的麦克风阵列拾音方法及系统
US11823707B2 (en) 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738284B2 (ja) * 2006-08-29 2011-08-03 日本電信電話株式会社 ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
JP4891801B2 (ja) * 2007-02-20 2012-03-07 日本電信電話株式会社 多信号強調装置、方法、プログラム及びその記録媒体
JP5255467B2 (ja) * 2009-02-02 2013-08-07 クラリオン株式会社 雑音抑制装置、雑音抑制方法、及び、プログラム
JP5568530B2 (ja) * 2011-09-06 2014-08-06 日本電信電話株式会社 音源分離装置とその方法とプログラム
JP5952692B2 (ja) * 2012-09-13 2016-07-13 本田技研工業株式会社 音源方向推定装置、音響処理システム、音源方向推定方法、及び音源方向推定プログラム
JP6441769B2 (ja) * 2015-08-13 2018-12-19 日本電信電話株式会社 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Also Published As

Publication number Publication date
JP2018141922A (ja) 2018-09-13

Similar Documents

Publication Publication Date Title
JP6652519B2 (ja) ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
US10643633B2 (en) Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
US11763834B2 (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
Qiao et al. Gridless line spectrum estimation and low-rank Toeplitz matrix compression using structured samplers: A regularization-free approach
JP6535112B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
US20220068288A1 (en) Signal processing apparatus, signal processing method, and program
WO2005024788A9 (ja) 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
JP6845373B2 (ja) 信号分析装置、信号分析方法及び信号分析プログラム
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
Koldovský et al. Performance analysis of source image estimators in blind source separation
JP7112348B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
Hoffmann et al. Using information theoretic distance measures for solving the permutation problem of blind source separation of speech signals
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
Mohammadiha et al. A new approach for speech enhancement based on a constrained nonnegative matrix factorization
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
JP6581054B2 (ja) 音源分離装置、音源分離方法及び音源分離プログラム
JP7159928B2 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
JP6361148B2 (ja) 雑音推定装置、方法及びプログラム
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
Gang et al. Towards automated single channel source separation using neural networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200123

R150 Certificate of patent or registration of utility model

Ref document number: 6652519

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150