JP6711789B2

JP6711789B2 - 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム

Info

Publication number: JP6711789B2
Application number: JP2017165974A
Authority: JP
Inventors: 卓哉樋口; 信貴伊藤; 慶介木下; 荒木　章子; 章子荒木; 中谷　智広; 智広中谷; 翔一郎齊藤; 弘章伊藤; 小林　和則; 和則小林; 登原田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2020-06-17
Anticipated expiration: 2037-08-30
Also published as: JP2019045576A

Description

本発明は、目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラムに関する。

目的話者が発した音声と背景雑音とが混在する状況において、複数のマイクロホンで収音された観測信号から、目的音声のみを抽出する方法は、従来から提案されている（例えば、非特許文献１を参照）。

ここで、図１０を用いて、従来の目的音声抽出装置について説明する。図１０は、従来の目的音声抽出装置の構成を示す図である。図１０に示すように、目的音声抽出装置１０ａは、空間共分散計算部１１ａ、雑音抑圧部１３ａ及び記憶部１４ａを有する。

まず、空間共分散計算部１１ａは、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを表す時間周波数マスクを計算する。次に、空間共分散計算部１１ａは、時間周波数マスクを用いて、目的音声が優勢な時間周波数点の音響信号の特徴量を計算し、当該特徴量に基づき、目的音声と雑音の両方を含む音響信号の空間共分散行列である雑音下目的信号空間共分散行列を計算する。また、空間共分散計算部１１ａは、時間周波数マスクを用いて、雑音が優勢な時間周波数点の音響信号の特徴量を計算し、当該特徴量に基づき、雑音のみを含む音響信号の空間共分散行列である雑音空間共分散行列を計算する。

そして、雑音抑圧部１３ａは、音響信号と雑音下目的信号空間共分散行列と雑音空間共分散行列とを基に雑音抑圧フィルタを計算し、計算した雑音抑圧フィルタを観測信号に適用することで、目的音声を抽出する。

マスク計算の方法としては、音響信号の空間特徴量クラスタリングに基づく方法（例えば、非特許文献１を参照）、ディープニューラルネットワーク（ＤＮＮ）に基づく方法（例えば、非特許文献２を参照）等が知られている。

Takuya Higuchi, Nobutaka Ito, Takuya Yoshioka, Tomohiro Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise,"ICASSP 2016, pp. 5210-5214, 2016. Jahn Heymann, Lukas Drude, Reinhold Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," ICASSP 2016, pp. 196-200, 2016.

しかしながら、従来の目的音声抽出方法には、様々な背景雑音が混在する環境では、目的音声の抽出精度が低くなる場合があるという問題があった。例えば、音響信号の中に目的話者以外の話者が含まれていたり、ＴＶ等の音が含まれていたりする場合、従来の目的音声抽出方法では、どれが目的音声なのかを定めることができない場合がある。また、例えば、入力されてくる音響信号を逐次的に処理する場合、目的音声の開始時に、空間共分散行列の推定精度が低くなる場合がある。

さらに、上記の課題を回避するために、事前学習した雑音下目的信号空間共分散行列や雑音空間共分散行列を空間共分散の初期値として用いる方法が提案されている。しかし、この方法では、話者が話す位置をある程度、事前に、固定する必要がある。そのため、話者が自由な位置で話す場合、目的音声を抽出することは困難である。

上述した課題を解決し、目的を達成するために、本発明の目的音声抽出方法は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出工程と、前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算工程と、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧工程と、を含んだことを特徴とする。

本発明によれば、様々な背景雑音が混在する環境で、目的音声を精度よく抽出することができる。

図１は、第１の実施形態に係る目的音声抽出装置の構成の一例を示す図である。図２は、第１の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。図３は、第１の実施形態の変形例に係る目的音声抽出装置の処理の流れを示すフローチャートである。図４は、第２の実施形態に係る目的音声抽出装置の構成の一例を示す図である。図５は、第２の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。図６は、第３の実施形態に係る目的音声抽出装置の構成の一例を示す図である。図７は、第３の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。図８は、第３の実施形態の変形例に係る目的音声抽出装置の処理の流れを示すフローチャートである。図９は、目的音声抽出プログラムを実行するコンピュータの一例を示す図である。図１０は、従来の目的音声抽出装置を示す図である。

以下に、本願に係る目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラムの実施形態を図面に基づいて詳細に説明する。また、実施形態において、目的音声抽出方法及び目的音声抽出プログラムは、目的音声抽出装置によって実行されるものとする。

以下の説明では、目的音声と背景雑音とが混在する状況において、それぞれ異なる位置で収録されたＭ個（ただし、Ｍは２以上の整数）の音響信号が目的音声抽出装置に入力されるものとする。

以下、実施形態では、各音響信号は、短時間フーリエ変換された信号x_t,f ^(m)（t:時間番号、f:周波数番号、m:マイク番号）として表現されているものとして説明する。目的音声抽出装置は、他の時間周波数表現された信号でも同様に扱うことができ、また、音響信号が波形で与えられている場合であっても、適宜、周波数分析を行うことで、時間周波数表現された信号に変換して用いることができる。なお、ここに記載する実施形態により、本発明が限定されるものではない。

［第１の実施形態］
［第１の実施形態の構成］
第１の実施形態に係る目的音声抽出装置の構成、処理の流れ及び効果を説明する。まず、図１を用いて、第１の実施形態の構成について説明する。図１は、第１の実施形態に係る目的音声抽出装置の構成の一例を示す図である。図１に示すように、目的音声抽出装置１０は、キーワード検出部１１、空間共分散計算部１２及び雑音抑圧部１３を有する。

キーワード検出部１１は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算する。キーワード検出部１１は、入力されてくる音響信号中に、あらかじめ定められたキーワードが含まれているかどうかを監視し、キーワードを検出した場合に、キーワードが含まれる時間区間を求め、出力する。

キーワード検出部１１は、キーワードの開始時刻と終了時刻を求め、開始時刻から終了時刻までの時間区間をキーワード区間とすることができる。例えば、キーワード検出部１１は、キーワードが話され終わった終了時刻を検出し、終了時刻と、キーワードを話す時間としてあらかじめ定められた時間と、に基づいてキーワード区間を計算することができる。具体的には、キーワード検出部１１は、キーワード終了時刻を求め、終了時刻からあらかじめ定められたキーワードの期待される時間長だけ時間をさかのぼってキーワード開始時刻と定めることができる。

また、キーワード検出部１１は、キーワード区間の推定誤差を考慮して、求めたキーワード区間の前後の時間区間を含めてキーワード区間と定めてもよい。また、キーワード検出部１１は、キーワードの検出方法としては、キーワード区間又はキーワード終了時刻を求めることができる方法であればどのような方法を用いてもよい。キーワードの検出方法として、従来より、様々な方法が提案されている。

空間共分散計算部１２は、音響信号とキーワード区間を受け取る。そして、空間共分散計算部１２は、キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する。雑音下目的信号空間共分散行列は、音声と雑音の両方を含む音響信号の空間共分散行列である。また、雑音空間共分散行列は、雑音のみを含む音響信号の空間共分散行列である。

いま、全マイクロホンからの音響信号を、各時間周波数点(t,f)ごとにまとめて、以下の（１）式のように、１つのベクトルで表現するものとする。

ただし、'は、行列やベクトルの非共役転置を表すものとする。さらに、キーワード区間に含まれる時間番号の集合をT_inと表記し、キーワード区間以外の時間区間に含まれる時間番号の集合をT_outと表記することとする。また、T_in及びT_outの要素の個数を、それぞれN_in及びN_outと表記することとする。

ここで、T_outは、キーワード区間の前後の雑音のみが存在すると期待される時間区間を指す。例えば、T_outは、キーワード区間の直前の一定の時間区間（例えば、３秒）としてもよいし、キーワード区間の直後の一定の時間区間（例えば、1秒）としてもよい。また、T_outは、キーワード区間の直前の一定の時間区間とキーワード区間の直後の一定の時間区間とを合わせたものとしてもよい。すると、空間共分散計算部１２は、雑音下目的信号空間共分散行列Φ_sと雑音空間共分散行列Φ_nを、それぞれ以下の（２−１）式及び（２−２）式のように求めることができる。

ただし、Hは、行列やベクトルの共役転置を表す。また、t∈Tは、tが集合Tの要素であることを表す。

雑音抑圧部１３は、入力された音響信号と雑音空間共分散行列と雑音下目的信号空間共分散行列とを受け取る。そして、雑音抑圧部１３は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に雑音抑圧フィルタを適用し、目的音声を抽出する。

雑音抑圧部１３は、例えば、参考文献１（Nobutaka Ito, Shoko Araki, Marc Delcroix, Tomohiro Nakata, “PROBABILISTIC SPATIAL DICTIONARY BASED ONLINE ADAPTIVE BEAMFORMING FOR MEETING RECOGNITION IN NOISY AND REVERBERANT ENVIRONMENTS,”ICASSP 2017, pp. 681-685, 2017.）に記載の方法を用いて雑音抑圧フィルタを計算することができる。

雑音抑圧部１３は、参考文献１に記載の方法を用いる場合、E()を、行列の最大固有値に対応する固有ベクトルを抽出する関数とすると、以下の（３−１）式及び（３−２）式のように雑音抑圧フィルタを計算することができる。

ここで、h_f=[h_f ⁽¹⁾,h_f ⁽²⁾,…,h_f ^(M)]は、話者からマイクロホンまでの音響伝達関数（目的音声のステアリングベクトル）に相当し、w_f=[w_f ⁽¹⁾,w_f ⁽²⁾,…,w_f ^(M)]は、無歪応答最小分散フィルタに相当する。

また、雑音抑圧部１３は、例えば、参考文献２（Shoko Araki, Hiroshi Sawada, Shoji Makino, “Blind speech separation in a meeting situation with maximum SNR beamformers,” ICASSP 2007, vol. I, pp. 41-44, 2007.）に記載の方法を用いて、以下の（４−１）式及び（４−２）式のように雑音抑圧フィルタを計算することができる。

ここで、（５）式で表されるφ_xは、音響信号の空間共分散行列に相当し、例えば、（４−１）式及び（４−２）式より、（６）式のように求めることができる。また、e_j=[0,…,0,1,0,…,0]’は、音声を抽出する対象となるマイクの番号に対応するj番目の要素だけが1で、それ以外の要素は0となるM次列ベクトルに相当する。

雑音抑圧部１３は、雑音抑圧フィルタの計算方法として、上記以外にも、非特許文献１又は非特許文献２に記載の方法等、様々な方法を利用することができる。続いて、雑音抑圧部１３は、計算した雑音抑圧フィルタを、例えば、以下の（７）式のように音響信号に適用することで目的音声を抽出する。

なお、キーワード検出部１１が受け取る音響信号、空間共分散計算部１２が受け取る音響信号及び雑音抑圧部１３が受け取る音響信号は、いずれも同じものであってもよいし、互いに異なるものであってもよい。

例えば、キーワード検出部１１が第１の音響信号を基にキーワード区間を計算することができる。また、空間共分散計算部１２は、第１の音響信号及びキーワード区間を基に雑音下目的信号空間共分散行列及び雑音空間共分散行列を計算することができる。このとき、雑音抑圧部１３は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に計算した雑音抑圧フィルタを、第１の音響信号とは異なる第２の音響信号に適用し目的音声を抽出することができる。

（変形例）
第１の実施形態の変形例について説明する。第１の実施形態の変形例において、空間共分散計算部１２は、キーワード区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、時間周波数マスクを用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を計算することができる。

ここで、時間周波数点(t,f)の時間周波数マスクをM_t,fと表し、0<=M_t,f<=1であることとする。また、M_t,f=1は、目的音声が優勢であることを表し、M_t,f=0は雑音が優勢であることを表すこととする。また、時間周波数マスクを計算する方法としては、非特許文献１又は２に記載された方法や、参考文献１に記載された方法が知られている。

第１の実施形態の変形例では、空間共分散計算部１２は、T_outで示されるキーワード区間以外の時間区間においては、常に、M_t,f=0であり、T_inで示されるキーワード区間では、何らかの時間周波数マスク計算方法により時間周波数マスクを計算するものとする。そして、空間共分散計算部１２は、計算された時間周波数マスクに基づき、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を、それぞれ以下の（８−１）式及び（８−２）式のように計算する。

［第１の実施形態の処理］
ここで、図２を用いて、第１の実施形態に係る目的音声抽出装置の処理の流れを説明する。図２は、第１の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。

まず、図２に示すように、キーワード検出部１１は、キーワードを検出するまで（ステップＳ１０１、Ｎｏ）、音響信号を監視する。ここで、キーワード検出部１１は、キーワードを検出すると（ステップＳ１０１、Ｙｅｓ）、キーワード区間を計算する（ステップＳ１０２）。

空間共分散計算部１２は、キーワード区間の音響信号を基に雑音下目的信号空間共分散行列を計算する（ステップＳ１０３）。次に、空間共分散計算部１２は、キーワード区間以外の区間の音響信号を基に雑音空間共分散行列を計算する（ステップＳ１０４）。

そして、雑音抑圧部１３は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する（ステップＳ１０５）。ここで、雑音抑圧部１３は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する（ステップＳ１０６）。

図３を用いて、第１の実施形態の変形例に係る目的音声抽出装置の処理の流れを説明する。図３は、第１の実施形態の変形例に係る目的音声抽出装置の処理の流れを示すフローチャートである。

まず、図３に示すように、キーワード検出部１１は、キーワードを検出するまで（ステップＳ１５１、Ｎｏ）、音響信号を監視する。ここで、キーワード検出部１１は、キーワードを検出すると（ステップＳ１５１、Ｙｅｓ）、キーワード区間を計算する（ステップＳ１５２）。

ここで、空間共分散計算部１２は、キーワード区間の音響信号を基に時間周波数マスクを計算する（ステップＳ１５３）。そして、空間共分散計算部１２は、時間周波数マスクを用いて、キーワード区間の音響信号を基に雑音下目的信号空間共分散行列を計算する（ステップＳ１５４）。さらに、空間共分散計算部１２は、時間周波数マスクを用いて、キーワード区間及びキーワード区間以外の区間の音響信号を基に雑音空間共分散行列を計算する（ステップＳ１５５）。

そして、雑音抑圧部１３は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する（ステップＳ１５６）。ここで、雑音抑圧部１３は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する（ステップＳ１５７）。

［第１の実施形態の効果］
ここで、キーワード検出部１１によって計算されるキーワード区間、空間共分散計算部１２によって計算される各空間共分散行列、雑音抑圧部１３によって計算される雑音抑圧フィルタ及び時間周波数マスクは、いずれも推定値である。このため、本実施形態では、目的音声抽出装置１０は、各空間共分散行列、雑音抑圧フィルタ及び雑音抑圧マスクの推定を行っていることになる。また、目的音声抽出装置１０による各推定の推定精度が良くなるほど、目的音声抽出装置１０による目的音声の抽出精度は良くなる。

第１の実施形態において、キーワード検出部１１は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算する。また、空間共分散計算部１２は、キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する。また、雑音抑圧部１３は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に雑音抑圧フィルタを適用し、目的音声を抽出する。このように、第１の実施形態によれば、様々な背景雑音が混在する環境であっても、キーワードを検出することにより、目的音声を発する話者の位置に関する雑音下目的信号空間共分散行列と雑音空間共分散行列を精度良く推定することができるため、当該話者の発する目的音声を精度良く抽出することができる。

キーワード検出部１１は、キーワードが話され終わった終了時刻を検出し、終了時刻と、キーワードを話す時間としてあらかじめ定められた時間と、に基づいてキーワード区間を計算することができる。これにより、第１の実施形態では、キーワードの開始時刻を検出できない場合であっても、キーワード区間の計算を行うことが可能となる。

空間共分散計算部１２は、キーワード区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、時間周波数マスクを用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を計算することができる。このように、第１の実施形態の変形例では、キーワード区間中の雑音が優勢な時間周波数点を雑音空間共分散行列の計算に含め、同時間周波数点を雑音下目的信号空間共分散行列の計算から除外することができるため、より高精度に、各空間共分散行列を推定できるようになる。

［第２の実施形態］
［第２の実施形態の構成］
第２の実施形態に係る目的音声抽出装置の構成、処理の流れ及び効果を説明する。まず、図４を用いて、第２の実施形態の構成について説明する。図４は、第２の実施形態に係る目的音声抽出装置の構成の一例を示す図である。図４に示すように、目的音声抽出装置２０は、キーワード検出部２１、空間共分散計算部２２、雑音抑圧部２３及び記憶部２４を有する。

キーワード検出部２１は、第１の実施形態のキーワード検出部１１と同様の処理を行う。つまり、キーワード検出部２１は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算する。

空間共分散計算部２２は、音響信号を所定の時間区間ごとに区切って得られる短時間音響信号のそれぞれに基づく空間共分散行列である短時間空間共分散行列をさらに計算し、計算した短時間空間共分散行列を記憶部２４に格納する。空間共分散計算部２２は、キーワード区間が計算されたか否かにかかわらず、一定の短時間区間ごとに短時間空間共分散行列Ψ_dを（９）式のように計算し、記憶部２４に格納する。

ここで、dは、短時間区間の番号、T_dは、短時間区間dに含まれる時間番号の集合、N_dは、短時間区間dに含まれる時間番号の数を表す。また、短時間区間は、例えば、数十〜数千ミリ秒程度の長さに相当する。

そして、空間共分散計算部２２は、キーワード検出部２１によってキーワード区間が計算された場合、記憶部２４に記憶された短時間空間共分散行列のうち、キーワード区間を含む時間区間の短時間空間共分散行列を基に雑音下目的信号空間共分散行列を計算し、記憶部２４に記憶された短時間空間共分散行列のうち、キーワード区間を含まない時間区間の短時間空間共分散行列を基に雑音空間共分散行列を計算する。

ここで、キーワード区間に対応する短時間区間番号の集合をD_inと表記し、キーワード区間以外の短時間区間に対応する短時間区間番号の集合をD_outと表記することとする。また、D_in及びD_outの要素の個数を、それぞれQ_in及びQ_outと表記することとする。

ここで、D_outは、キーワード区間の前後の雑音のみが存在すると期待される時間区間に含まれる短時間区間の集合を指す。例えば、D_outは、キーワード区間の直前の一定の時間区間（例えば、３秒）に対応する短時間区間の集合としてもよいし、キーワード区間の直後の一定の時間区間（例えば、1秒）に対応する短時間区間としてもよい。また、D_outは、キーワード区間の直前の一定の時間区間とキーワード区間の直後の一定の時間区間とを合わせたものとしてもよい。すると、空間共分散計算部２２は、雑音下目的信号空間共分散行列Φ_sと雑音空間共分散行列Φ_nを、それぞれ以下の（１０−１）式及び（１０−２）式のように求めることができる。

なお、空間共分散計算部２２は、（９）式の計算を、各時間ｔにおいてx_t,fx_t,f ^Hを逐次的に加算し、N_dで１度除算することで実現できる。このため、x_t,fは、時間tにおける計算に用いられるだけであるため、目的音声抽出装置２０は、時間t以外の時間にx_t,fを記憶しておく必要がない。

また、（８−１）式及び（８−２）式の計算においては、キーワード区間及びその前後の数秒程度の時間区間に対応する短時間区間の短時間空間共分散Ψ_dのみがあれば必要十分であり、当該短時間区間より過去や未来の短時間空間共分散を記憶しておく必要がない。その結果、第２の実施形態では、雑音下目的信号空間共分散行列及び雑音空間共分散行列の計算に必要な記憶領域を削減することができる。

雑音抑圧部２３は、第１の実施形態の雑音抑圧部１３と同様の処理を行う。つまり、雑音抑圧部２３は、入力された音響信号と雑音空間共分散行列と雑音下目的信号空間共分散行列とを受け取る。そして、雑音抑圧部１３は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に雑音抑圧フィルタを適用し、目的音声を抽出する。

また、前述の通り、空間共分散計算部２２は、逐次的に雑音空間共分散行列及び雑音下目的信号空間共分散行列を計算することができる。このため、雑音抑圧部２３は、雑音空間共分散行列及び雑音下目的信号空間共分散行列を逐次的に受け取り、さらに、（３−１）式及び（３−２）式により逐次的に雑音抑圧フィルタを計算することができる。また、この時、時間tにおける計算に用いられる音響信号はx_t,fだけである。その結果、第２の実施形態では、雑音抑圧フィルタの計算に必要な記憶領域を削減することができる。

［第２の実施形態の処理］
ここで、図５を用いて、第２の実施形態に係る目的音声抽出装置の処理の流れを説明する。図５は、第２の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。

まず、図５に示すように、空間共分散計算部２２は、音響信号を基に短時間空間共分散行列を計算し、記憶部２４に格納する（ステップＳ２０１）。なお、空間共分散計算部２２は、キーワード検出部２１によってキーワードが検出されていない時間区間であっても、短時間空間共分散行列を計算し、記憶部２４に格納する。

また、キーワード検出部２１は、キーワードを検出するまで（ステップＳ２０２、Ｎｏ）、音響信号を監視する。ここで、キーワード検出部２１は、キーワードを検出すると（ステップＳ２０２、Ｙｅｓ）、キーワード区間を計算する（ステップＳ２０３）。

空間共分散計算部２２は、記憶部２４から短時間空間共分散行列を読み込む（ステップＳ２０４）。そして、空間共分散計算部２２は、キーワード区間の短時間空間共分散行列を基に雑音下目的信号空間共分散行列を計算する（ステップＳ２０５）。次に、空間共分散計算部２２は、キーワード区間以外の区間の短時間空間共分散行列を基に雑音空間共分散行列を計算する（ステップＳ２０６）。

そして、雑音抑圧部２３は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する（ステップＳ２０７）。ここで、雑音抑圧部２３は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する（ステップＳ２０８）。

［第２の実施形態の効果］
第２の実施形態において、空間共分散計算部２２は、音響信号を所定の時間区間ごとに区切って得られる短時間音響信号のそれぞれに基づく空間共分散行列である短時間空間共分散行列をさらに計算し、計算した短時間空間共分散行列を記憶部に格納し、キーワード検出部によってキーワード区間が計算された場合、記憶部に記憶された短時間空間共分散行列のうち、キーワード区間を含む時間区間の短時間空間共分散行列を基に雑音下目的信号空間共分散行列を計算し、記憶部に記憶された短時間空間共分散行列のうち、キーワード区間を含まない時間区間の短時間空間共分散行列を基に雑音空間共分散行列を計算する。このように、第２の実施形態では、空間共分散行列の計算のために、キーワード区間とそれ以前の時間区間の音響信号を記憶しておく必要がなく、短時間空間共分散行列のみを記憶しておくことで、計算に必要な記憶領域を削減することができる。

［第３の実施形態］
［第３の実施形態の構成］
第３の実施形態に係る目的音声抽出装置の構成、処理の流れ及び効果を説明する。まず、図６を用いて、第３の実施形態の構成について説明する。図６は、第３の実施形態に係る目的音声抽出装置の構成の一例を示す図である。図６に示すように、目的音声抽出装置３０は、キーワード検出部３１、空間共分散計算部３２、雑音抑圧部３３及び音声区間検出部３５を有する。

キーワード検出部３１は、第１の実施形態のキーワード検出部１１又は第２の実施形態のキーワード検出部２１と同様の処理を行う。つまり、キーワード検出部３１は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算する。

空間共分散計算部３２は、第１の実施形態の空間共分散計算部１２又は第２の実施形態の空間共分散計算部２２と同様の処理に加え、雑音下目的信号空間共分散行列及び雑音空間共分散行列の更新処理を行う。

まず、空間共分散計算部３２は、音響信号とキーワード区間を受け取る。そして、空間共分散計算部３２は、キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する。このとき、空間共分散計算部３２は、（２−１）式及び（２−２）式、又は（８−１）式及び（８−２）式、又は（１０−１）式及び（１０−２）式、により各空間共分散行列を計算する。

次に、空間共分散計算部３２は、キーワード区間より後の時間区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、時間周波数マスクを用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を更新する。

空間共分散計算部３２は、第１の実施形態の変形例と同様の方法で時間周波数マスクを計算することができる。また、空間共分散計算部３２は、時間周波数マスクと音響信号を基に、雑音下目的信号空間共分散行列Φ_sと雑音空間共分散行列Φ_nを更新する。

いま、キーワード区間終了後から、目的音声が終了するまでの時間区間に含まれる時間番号の集合をT_afterと表す。すると、空間共分散計算部３２は、（２−１）式及び（２−２）式で求めたΦ_sとΦ_nを、例えば、それぞれ以下の（１１−１）式及び（１１−２）式のように更新できる。

また、空間共分散計算部３２は、（８−１）式及び（８−２）式で求めたΦ_sとΦ_nを、例えば、それぞれ以下の（１２−１）式及び（１２−２）式のように更新できる。

ここで、｛T_in, T_after｝は、T_inとT_afterの和集合を表す。

また、空間共分散計算部３２は、（１０−１）式及び（１０−２）式で求めたΦ_sとΦ_nを、例えば、それぞれ以下の（１３−１）式及び（１３−２）式のように更新できる。

さらに、空間共分散計算部３２は、非特許文献１に記載された方法に従って、逐次的に入力されてくる音響信号を受け取り、上記の（１１−１）式及び（１１−２）、（１２−１）式及び（１２−２）、又は（１３−１）式及び（１３−２）による雑音下目的信号空間共分散行列及び雑音空間共分散行列の更新を逐次的に行うことができる。

雑音抑圧部３３は、第１の実施形態の雑音抑圧部１３と同様の処理を行う。つまり、雑音抑圧部３３は、入力された音響信号と雑音空間共分散行列と雑音下目的信号空間共分散行列とを受け取る。そして、雑音抑圧部３３は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に雑音抑圧フィルタを適用し、目的音声を抽出する。

ここで、空間共分散計算部３２が雑音下目的信号空間共分散行列及び雑音空間共分散行列の更新を逐次的に行う場合、雑音抑圧部３３は、（３−１）式及び（３−２）式により雑音抑圧フィルタを逐次的に更新することができ、さらに目的音声の抽出を逐次的に行うことができる。

（変形例）
第３の実施形態の変形例について説明する。第３の実施形態の変形例において、音声区間検出部３５は、キーワード区間より後であって、目的音声が話されている時間区間である音声区間を検出する。このとき、空間共分散計算部３２は、さらに、音声区間に関する情報を用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を更新する。音声区間を検出する方法としては、従来より、様々な方法が知られており、音声区間検出部３５は、そのいずれの方法を用いてもよい。

いま、音声区間検出部３５により、音声が含まれていると判断された時間番号の集合をT_onと表記し、音声が含まれていないと判断された時間番号の集合をT_offと表記することとする。また、T_offに含まれる時間番号の個数をN_offと表記することとする。

また、空間共分散計算部３２は、キーワード区間後の音響信号に対し、第３の実施形態と同様の方法で、各時間周波数点(t,f) における時間数周波数マスクM_t,fを既に計算していることとする。すると、空間共分散計算部３２は、（２−１）式及び（２−２）式で求めたΦ_sとΦ_nを、例えば、それぞれ以下の（１４−１）式及び（１４−２）式のように更新できる。

また、空間共分散計算部３２は、（８−１）式及び（８−２）式で求めたΦ_sとΦ_nを、例えば、それぞれ以下の（１５−１）式及び（１５−２）式のように更新できる。

また、空間共分散計算部３２は、（１０−１）式及び（１０−２）式で求めたΦ_sとΦ_nを、例えば、それぞれ以下の（１６−１）式及び（１６−２）式のように更新できる。

また、第３の実施形態の変形例では、時間周波数マスクを求めない処理の構成を取ることもできる。これは、例えば、音声区間内で、時間周波数マスクを求める代わりに、すべての時間周波数点において音声が存在すると仮定することで実現できる。

具体的には、上記の更新式において、空間共分散計算部３２は、常に、M_t,f=1とすることで、時間周波数マスクの推定を行わなくても、雑音下目的信号空間共分散行列と雑音空間共分散行列を更新することができる。

また、第３の実施形態と同様に、空間共分散計算部３２が雑音下目的信号空間共分散行列及び雑音空間共分散行列の更新を逐次的に行う場合、雑音抑圧部３３は、（３−１）式及び（３−２）式により雑音抑圧フィルタを逐次的に更新することができ、さらに目的音声の抽出を逐次的に行うことができる。

［第３の実施形態の処理］
ここで、図７を用いて、第３の実施形態に係る目的音声抽出装置の処理の流れを説明する。図７は、第３の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。

まず、図７に示すように、キーワード検出部３１は、キーワードを検出するまで（ステップＳ３０１、Ｎｏ）、音響信号を監視する。ここで、キーワード検出部３１は、キーワードを検出すると（ステップＳ３０１、Ｙｅｓ）、キーワード区間を計算する（ステップＳ３０２）。

空間共分散計算部３２は、キーワード区間の音響信号を基に雑音下目的信号空間共分散行列を計算する（ステップＳ３０３）。次に、空間共分散計算部３２は、キーワード区間以外の区間の音響信号を基に雑音空間共分散行列を計算する（ステップＳ３０４）。

そして、雑音抑圧部３３は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する（ステップＳ３０５）。ここで、雑音抑圧部３３は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する（ステップＳ３０６）。

ここで、目的音声の抽出が続行されない場合（ステップＳ３０７、Ｎｏ）、目的音声抽出装置３０は処理を終了する。一方、目的音声の抽出が続行される場合（ステップＳ３０７、Ｙｅｓ）、空間共分散計算部３２は、キーワード区間の後の区間の音響信号を基に時間周波数マスクを計算する（ステップＳ３０８）。

ここで、目的音声抽出装置３０は、目的音声の抽出を続行するか否かを、あらかじめ設定された条件によって判定することができる。例えば、目的音声抽出装置３０は、目的音声の抽出が開始されて所定の長さの時間が経過したか否か、目的音声を抽出できない時間が所定の長さ以上継続したか否か、等によって目的音声の抽出を続行するか否かを判定することができる。

そして、空間共分散計算部３２は、時間周波数マスクを用いて雑音下目的信号空間共分散行列、及び雑音空間共分散行列を更新する（ステップＳ３０９）さらに、目的音声抽出装置３０は、ステップＳ３０５に処理を戻し、雑音抑圧フィルタの計算及び目的音声の抽出を行う。

ここで、図８を用いて、第３の実施形態の変形例に係る目的音声抽出装置の処理の流れを説明する。図８は、第３の実施形態の変形例に係る目的音声抽出装置の処理の流れを示すフローチャートである。

まず、図８に示すように、キーワード検出部３１は、キーワードを検出するまで（ステップＳ３５１、Ｎｏ）、音響信号を監視する。ここで、キーワード検出部３１は、キーワードを検出すると（ステップＳ３５１、Ｙｅｓ）、キーワード区間を計算する（ステップＳ３５２）。

空間共分散計算部３２は、キーワード区間の音響信号を基に雑音下目的信号空間共分散行列を計算する（ステップＳ３５３）。次に、空間共分散計算部３２は、キーワード区間以外の区間の音響信号を基に雑音空間共分散行列を計算する（ステップＳ３５４）。

そして、雑音抑圧部３３は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する（ステップＳ３５５）。ここで、雑音抑圧部３３は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する（ステップＳ３５６）。

ここで、目的音声の抽出が続行されない場合（ステップＳ３５７、Ｎｏ）、目的音声抽出装置３０は処理を終了する。一方、目的音声の抽出が続行される場合（ステップＳ３５７、Ｙｅｓ）、音声区間検出部３５は、キーワード区間の後の音声区間を検出する（ステップＳ３５８）。そして、空間共分散計算部３２は、音声区間の音響信号、及び音声区間以外の区間の音響信号を基に時間周波数マスクを計算する（ステップＳ３５９）。

そして、空間共分散計算部３２は、時間周波数マスクを用いて雑音下目的信号空間共分散行列、及び雑音空間共分散行列を更新する（ステップＳ３６０）さらに、目的音声抽出装置３０は、ステップＳ３５５に処理を戻し、雑音抑圧フィルタの計算及び目的音声の抽出を行う。

［第３の実施形態の効果］
第３の実施形態において、空間共分散計算部３２は、キーワード区間より後の時間区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、時間周波数マスクを用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を更新する。これにより、第３の実施形態では、キーワード区間後に、話者の位置が移動したり、背景雑音の性質が変化したりする場合でも、２つの空間共分散行列の変化を追跡することができるようになり、より精度良く目的音声の抽出が可能になる。

第３の実施形態の変形例において、音声区間検出部３５は、キーワード区間より後であって、目的音声が話されている時間区間である音声区間を検出する。また、空間共分散計算部３２は、さらに、音声区間に関する情報を用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を更新する。これにより、第３の実施形態では、目的音声が含まれない時間区間に誤って目的音声が含まれると検出されるエラーを減少させることができ、２つの空間共分散行列の変化を、より精度良く追跡できるようになる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central Processing Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、目的音声抽出装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の目的音声の抽出を実行する目的音声抽出プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の目的音声抽出プログラムを情報処理装置に実行させることにより、情報処理装置を目的音声抽出装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、目的音声抽出装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の目的音声の抽出に関するサービスを提供する目的音声抽出サーバ装置として実装することもできる。例えば、目的音声抽出サーバ装置は、音響信号を入力とし、目的音声を出力とする目的音声抽出サービスを提供するサーバ装置として実装される。この場合、目的音声抽出サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の目的音声の抽出に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図９は、目的音声抽出プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、目的音声抽出装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、目的音声抽出装置における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０、２０、３０目的音声抽出装置
１１、２１、３１キーワード検出部
１２、２２、３２空間共分散計算部
１３、２３、３３雑音抑圧部
２４記憶部
３５音声区間検出部

Claims

入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出工程と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算工程と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧工程と、
を含み、
前記キーワード検出工程は、前記キーワードが話され終わった終了時刻を検出し、前記終了時刻と、前記キーワードを話す時間としてあらかじめ定められた時間と、に基づいて前記キーワード区間を計算することを特徴とする目的音声抽出方法。
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出工程と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算工程と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧工程と、
を含み、
前記空間共分散計算工程は、音響信号を所定の時間区間ごとに区切って得られる短時間音響信号のそれぞれに基づく空間共分散行列である短時間空間共分散行列をさらに計算し、計算した前記短時間空間共分散行列を記憶部に格納し、前記キーワード検出工程によって前記キーワード区間が計算された場合、前記記憶部に記憶された前記短時間空間共分散行列のうち、前記キーワード区間を含む時間区間の短時間空間共分散行列を基に前記雑音下目的信号空間共分散行列を計算し、前記記憶部に記憶された前記短時間空間共分散行列のうち、前記キーワード区間を含まない時間区間の短時間空間共分散行列を基に前記雑音空間共分散行列を計算することを特徴とする目的音声抽出方法。
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出工程と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算工程と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧工程と、
を含み、
前記空間共分散計算工程は、前記キーワード区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、前記時間周波数マスクを用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を計算することを特徴とする目的音声抽出方法。
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出工程と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算工程と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧工程と、
を含み、
前記空間共分散計算工程は、前記キーワード区間より後の時間区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、前記時間周波数マスクを用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を更新することを特徴とする目的音声抽出方法。
前記キーワード区間より後であって、目的音声が話されている時間区間である音声区間を検出する音声区間検出工程をさらに含み、
前記空間共分散計算工程は、さらに、前記音声区間に関する情報を用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を更新することを特徴とする請求項２から４のいずれか１項に記載の目的音声抽出方法。
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出部と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算部と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧部と、
を有し、
前記キーワード検出部は、前記キーワードが話され終わった終了時刻を検出し、前記終了時刻と、前記キーワードを話す時間としてあらかじめ定められた時間と、に基づいて前記キーワード区間を計算することを特徴とする目的音声抽出装置。
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出部と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算部と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧部と、
を有し、
前記空間共分散計算部は、音響信号を所定の時間区間ごとに区切って得られる短時間音響信号のそれぞれに基づく空間共分散行列である短時間空間共分散行列をさらに計算し、計算した前記短時間空間共分散行列を記憶部に格納し、前記キーワード検出部によって前記キーワード区間が計算された場合、前記記憶部に記憶された前記短時間空間共分散行列のうち、前記キーワード区間を含む時間区間の短時間空間共分散行列を基に前記雑音下目的信号空間共分散行列を計算し、前記記憶部に記憶された前記短時間空間共分散行列のうち、前記キーワード区間を含まない時間区間の短時間空間共分散行列を基に前記雑音空間共分散行列を計算することを特徴とする目的音声抽出装置。
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出部と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算部と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧部と、
を有し、
前記空間共分散計算部は、前記キーワード区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、前記時間周波数マスクを用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を計算することを特徴とする目的音声抽出装置。
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出部と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算部と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧部と、
を有し、
前記空間共分散計算部は、前記キーワード区間より後の時間区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、前記時間周波数マスクを用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を更新することを特徴とする目的音声抽出装置。
コンピュータに、
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出ステップと、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算ステップと、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧ステップと、
を実行させ、
前記キーワード検出ステップは、前記キーワードが話され終わった終了時刻を検出し、前記終了時刻と、前記キーワードを話す時間としてあらかじめ定められた時間と、に基づいて前記キーワード区間を計算することを特徴とする目的音声抽出プログラム。
コンピュータに、
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出ステップと、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算ステップと、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧ステップと、
を実行させ、
前記空間共分散計算ステップは、音響信号を所定の時間区間ごとに区切って得られる短時間音響信号のそれぞれに基づく空間共分散行列である短時間空間共分散行列をさらに計算し、計算した前記短時間空間共分散行列を記憶部に格納し、前記キーワード検出ステップによって前記キーワード区間が計算された場合、前記記憶部に記憶された前記短時間空間共分散行列のうち、前記キーワード区間を含む時間区間の短時間空間共分散行列を基に前記雑音下目的信号空間共分散行列を計算し、前記記憶部に記憶された前記短時間空間共分散行列のうち、前記キーワード区間を含まない時間区間の短時間空間共分散行列を基に前記雑音空間共分散行列を計算することを特徴とする目的音声抽出プログラム。
コンピュータに、
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出ステップと、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算ステップと、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧ステップと、
を実行させ、
前記空間共分散計算ステップは、前記キーワード区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、前記時間周波数マスクを用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を計算することを特徴とする目的音声抽出プログラム。
コンピュータに、
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出ステップと、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算ステップと、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧ステップと、
を実行させ、
前記空間共分散計算ステップは、前記キーワード区間より後の時間区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、前記時間周波数マスクを用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を更新することを特徴とする目的音声抽出プログラム。