JP2021036297A

JP2021036297A - 信号処理装置、信号処理方法、及びプログラム

Info

Publication number: JP2021036297A
Application number: JP2019158133A
Authority: JP
Inventors: 籠嶋　岳彦; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2021-03-04
Anticipated expiration: 2039-08-30
Also published as: US11395061B2; US20210067867A1; JP7191793B2; CN112447191A; CN112447191B

Abstract

【課題】目的の音声を効果的に強調できる信号処理装置を提供する。
【解決手段】一実施形態に係る信号処理装置は、変換部、第１の算出部、第２の算出部、及び空間フィルタ部を備える。変換部は、異なる位置で音を検出することで得られる第１の検出信号を時間周波数領域に変換して第２の検出信号を得る。第１の算出部は、前記第２の検出信号に基づいて第１の空間相関行列を算出する。第２の算出部は、前記第２の検出信号を所定の時間だけ遅延した第３の検出信号に基づいて第２の空間相関行列を算出する。空間フィルタ部は、前記第１の空間相関行列及び前記第２の空間相関行列に基づいて空間フィルタを生成し、前記空間フィルタを用いて前記第２の検出信号をフィルタリングする。
【選択図】図４

Description

本発明の実施形態は、信号処理装置、信号処理方法、及びプログラムに関する。

雑音環境下でユーザが発話した音声を正しく認識するために、雑音を抑圧して音声を強調する信号処理技術が開発されている。

特開２０１８−１４６６１０号公報

本発明が解決しようとする課題は、目的の音声を効果的に強調することができる信号処理装置、信号処理方法、及びプログラムを提供することである。

一実施形態に係る信号処理装置は、変換部、第１の算出部、第２の算出部、及び空間フィルタ部を備える。変換部は、異なる位置で音を検出することで得られる第１の検出信号を時間周波数領域に変換して第２の検出信号を得る。第１の算出部は、前記第２の検出信号に基づいて第１の空間相関行列を算出する。第２の算出部は、前記第２の検出信号を所定の時間だけ遅延した第３の検出信号に基づいて第２の空間相関行列を算出する。空間フィルタ部は、前記第１の空間相関行列及び前記第２の空間相関行列に基づいて空間フィルタを生成し、前記空間フィルタを用いて前記第２の検出信号をフィルタリングする。

図１は、第１の実施形態に係る信号処理装置を含むリモコン装置を示すブロック図である。図２は、図１に示したリモコン装置の外観を示す斜視図である。図３は、図１に示した音声強調部の構成例を示すブロック図である。図４は、図３に示したスペクトル強調部の構成例を示すブロック図である。図５は、図１に示した音声強調部の動作例を示すフローチャートである。図６は、第２の実施形態に係る音声強調部の構成の一例を示すブロック図である。図７は、第２の実施形態に係る音声強調部の構成の他の例を示すブロック図である。図８は、第３の実施形態に係る信号処理装置を備えるリモコン装置を示すブロック図である。図９は、図８に示したリモコン装置の外観を示す斜視図である。図１０は、第４の実施形態に係る信号処理装置を備えるリモコン装置を示すブロック図である。図１１は、図１０に示した音声強調部の構成例を示すブロック図である。図１２は、図１１に示したスペクトル強調部の構成例を示すブロック図である。図１３は、一実施形態に係る信号処理装置のハードウェア構成例を示すブロック図である。

以下、図面を参照しながら実施形態を説明する。実施形態は、複数のマイク（マイクロフォン）で集音された音響信号から目的の音声を強調した音響信号を生成する信号処理装置に関する。非限定的な例として、信号処理装置は家電製品を操作するためのリモコン装置に搭載される。ここで説明する実施形態では、信号処理装置はエアコンのリモコン装置に搭載される。当該リモコン装置は、「スイッチオン」、「温度上げて」などのあらかじめ登録された言葉（以降、コマンドワード又はキーワードと称する）の発声に反応してエアコンを操作する。

（第１の実施形態）
図１は、第１の実施形態に係る信号処理装置を備えるリモコン装置１００を概略的に示すブロック図であり、図２は、リモコン装置１００の外観を概略的に示す斜視図である。

図１に示すように、リモコン装置１００は、エアコン２００を遠隔操作するために使用される電子機器である。リモコン装置１００は、ユーザが発話した音声を認識し、当該音声に応じた制御信号をエアコン２００に無線送信する。例えば、ユーザが「スイッチオン」と発話すると、リモコン装置１００は、起動を指示する制御信号をエアコン２００に送信する。エアコン２００は、リモコン装置１００から受け取った制御信号に従って動作する。

リモコン装置１００は、複数のマイク（この例では４つのマイク１０１〜１０４）、音声強調部１０５、音声認識部１０６、及び通信部１０７を備える。音声強調部１０５が第１の実施形態に係る信号処理装置に相当する。信号処理装置は、音声強調部１０５以外の少なくとも１つの要素（例えば音声認識部１０６）をさらに含んでよい。

マイク１０１〜１０４は、音を検出して検出信号（音響信号）を生成する。ユーザがコマンドワードを発話した場合、各検出信号は、雑音を含む第１部分と、第１部分に後続する、雑音及びコマンドワード発声を含む第２部分と、第２部分に後続する、雑音を含む第３部分と、を含む。図２に示すように、マイク１０１〜１０４は互いに離間してリモコン装置１００の筐体１１０の一面上に配置されている。よって、４つのマイク１０１〜１０４を含む集音部は、異なる位置で音を検出することで得られる検出信号のセットを出力する。なお、マイクの数及び配置は図２に示される例に限定されない。

図１を再び参照すると、音声強調部１０５は、マイク１０１〜１０４から検出信号を受け取る。音声強調部１０５は、受け取った検出信号に対して音声強調処理を行い、強調音声信号を出力する。音声強調処理は、雑音を抑圧して目的の音声（具体的にはコマンドワード発声）を強調する信号処理を示す。音声強調部１０５の詳細は図３及び図４を参照して後述する。

音声認識部１０６は、音声強調部１０５から強調音声信号を受け取る。音声認識部１０６は、受け取った強調音声信号に対して、あらかじめ登録された１又は複数のコマンドワードの検出を行う。例えば、音声認識部１０６は、受け取った強調音声信号に対して音声認識を行い、音声認識の結果にコマンドワードが含まれるか否かを判定する。音声認識部１０６は、あらかじめ登録されたコマンドワードのいずれかを検出した場合、検出したコマンドワードを識別する識別情報としてのコマンドワードＩＤを出力する。

通信部１０７は、音声認識部１０６からコマンドワードＩＤを受け取る。通信部１０７は、受け取ったコマンドワードＩＤに応じた制御信号を生成し、例えば赤外線を使用して、制御信号をエアコン２００に送信する。

図３は、音声強調部１０５の構成の一例を概略的に示すブロック図である。図３に示すように、音声強調部１０５は、変換部３０１、強調部３０３、及び逆短時間フーリエ変換部３０５を備える。

変換部３０１は、マイク１０１〜１０４に対応する４つのチャンネルから検出信号を受け取る。変換部３０１は、受け取った検出信号を個別に短時間フーリエ変換により時間周波数領域に変換し、周波数スペクトルＸ_ｍ（ｆ，ｎ）を出力する。ここで、ｆは周波数ビンの番号を表し、ｎはフレームの番号を表し、ｍはマイク又はチャンネルの番号を表す。

具体的には、変換部３０１は、個々のマイク１０１〜１０４に対応する短時間フーリエ変換部３０２を含む。各短時間フーリエ変換部３０２は、マイク１０１〜１０４のうちの対応するものから受け取った検出信号に対して短時間フーリエ変換を行う。例えば、マイク１０１に対応する短時間フーリエ変換部３０２は、マイク１０１からの検出信号に対して窓関数を適用して複数のフレームを生成し、各フレームに対してフーリエ変換を行い、周波数スペクトルＸ_１（ｆ，ｎ）を出力する。例えば、サンプリング周波数を１６ｋＨｚ、フレーム長（窓関数長）を２５６サンプル、フレームシフトを１２８サンプルとした場合、各フレームの周波数スペクトルは、低域と高域の対称性を考慮して、０≦ｆ≦１２８の範囲の１２９点の複素数値を有する。マイク１０１に関する第ｎフレームの周波数スペクトルＸ_１（ｆ，ｎ）は、Ｘ_１（０，ｎ）、Ｘ_１（１，ｎ）、・・・、Ｘ_１（１２８，ｎ）を有する。

４チャンネルの周波数スペクトルをまとめた４次元ベクトルを下記のように表す。

ここで、Ｔは行列の転置を表す。以降では、４チャンネルの周波数スペクトルＸ_１（ｆ，ｎ）、Ｘ_２（ｆ，ｎ）、Ｘ_３（ｆ，ｎ）、Ｘ_４（ｆ，ｎ）を周波数スペクトルＸ（ｆ，ｎ）と表記する。

強調部３０３は、変換部３０１から周波数スペクトルＸ（ｆ，ｎ）を受け取る。強調部３０３は、フレームごと及び周波数ビンごとに（すなわち時間周波数点ごとに）周波数スペクトルＸ（ｆ，ｎ）に対してスペクトル強調を行い、強調音声の周波数スペクトルを出力する。スペクトル強調は、コマンドワード発声のスペクトルを強調し、雑音のスペクトルを抑圧する信号処理を示す。スペクトル強調の詳細は図４を参照して後述する。

具体的には、強調部３０３は、周波数ビンのそれぞれに対応するスペクトル強調部３０４を含む。各スペクトル強調部３０４は、変換部３０１から周波数スペクトルＸ（ｉ，ｎ）を受け取り、フレームごとに、受け取った周波数スペクトルＸ（ｉ，ｎ）に対してスペクトル強調を行う。ここで、ｉは０から１２８までの整数を表す。

逆短時間フーリエ変換部３０５は、スペクトル強調部３０４から強調音声の周波数スペクトルを受け取る。逆短時間フーリエ変換部３０５は、受け取った強調音声の周波数スペクトルに対して逆短時間フーリエ変換を行い、強調音声信号を出力する。逆短時間フーリエ変換は逆フーリエ変換処理及び波形重畳処理を含む。

なお、逆短時間フーリエ変換部３０５を持たない構成とし、スペクトル強調部３０４から出力される強調音声の周波数スペクトルを、音声認識部１０６が受け取るようにしてもよい。このように構成することで、逆短時間フーリエ変換部３０５における処理と音声認識部１０６で行われる短時間フーリエ変換処理を省略できる場合があり、計算量が削減される効果がある。

図４は、スペクトル強調部３０４の構成例を概略的に示すブロック図である。図４に示すスペクトル強調部３０４は、図３に示したスペクトル強調部３０４の各々に相当する。

スペクトル強調部３０４は、遅延部４０１、空間相関算出部４０２、空間相関算出部４０３、及び空間フィルタ部４０４を備える。スペクトル強調部３０４において、変換部３０１からの周波数スペクトルＸ（ｆ，ｎ）は、空間相関算出部４０２及び空間フィルタ部４０４に与えられるとともに、遅延部４０１を介して空間相関算出部４０３に与えられる。

遅延部４０１は、周波数スペクトルＸ（ｆ，ｎ）を所定の時間だけ遅延させる。遅延時間は、強調すべき音声であるコマンドワード発声の継続長が概ね遅延時間以下となるように設定すればよい。コマンドワードが「スイッチオン」などの短い言葉である場合、コマンドワード発声の継続長は１秒以下であると仮定できる。この場合、遅延時間は例えば１秒に設定される。１秒の遅延時間は１２５（＝１６０００×１／１２８）の遅延フレーム数に等しい。すなわち、遅延部４０１は、１２５フレーム分のデータをバッファリングし、周波数スペクトルＸ（ｆ，ｎ−１２５）を出力する。

空間相関算出部４０２は、変換部３０１から受け取った周波数スペクトルＸ（ｆ，ｎ）に基づいて空間相関行列を算出する。空間相関行列は、チャンネル間の空間相関を表す情報である。例えば、空間相関算出部４０２は、周波数スペクトルＸ（ｆ，ｎ）から下記の（１）式で表される空間相関行列Φ_Ｓ（ｆ，ｎ）を算出する。

ここで、ｗ_Ｓ（ｔ）はフレームごとの重みを表す窓関数を表し、τ_Ｓは窓関数ｗ_Ｓ（ｔ）の長さを表し、Ｈは共役転置を表す。ｗ_Ｓ（ｔ）及びτ_Ｓは下記の（２）式を満たすように設定すればよい。

ここで、ｄは遅延フレーム数を表す。一例では、τ_Ｓ＝１００、ｗ_Ｓ（ｔ）＝１である。他の例では、τ_Ｓ＝∞、ｗ_Ｓ（ｔ）＝α_Ｓ ^ｔであり、ここで、α_Ｓは０＜α_Ｓ＜１の範囲で十分小さい値に設定される。この場合、空間相関行列Φ_Ｓ（ｆ，ｎ）は、下記の（３）式に示す漸化式を用いて少ない計算量で算出することができる。

空間相関算出部４０３は、遅延部４０１から受け取った周波数スペクトルＸ（ｆ，ｎ−ｄ）に基づいて空間相関行列を算出する。例えば、空間相関算出部４０３は、周波数スペクトルＸ（ｆ，ｎ−ｄ）を用いて下記の（４）式で表される空間相関行列Φ_Ｎ（ｆ，ｎ）を算出する。

ここで、ｗ_Ｎ（ｔ）はフレームごとの重みを表す窓関数を表し、τ_Ｎは窓関数ｗ_Ｎ（ｔ）の長さを表す。一例では、τ_Ｎ＝２００、ｗ_Ｎ（ｔ）＝１である。他の例では、τ_Ｎ＝∞、ｗ_Ｎ（ｔ）＝α_Ｎ ^ｔであり、ここで、α_Ｎは０＜α_Ｎ＜１の範囲で十分小さい値に設定される。この場合、空間相関行列Φ_Ｎ（ｆ，ｎ）は、下記の（５）式に示す漸化式を用いて少ない計算量で算出することができる。

空間フィルタ部４０４は、空間相関算出部４０２により算出された空間相関行列Φ_Ｓ（ｆ，ｎ）と空間相関算出部４０３により算出された空間相関行列Φ_Ｎ（ｆ，ｎ）とに基づいて空間フィルタを生成し、生成した空間フィルタで変換部３０１からの周波数スペクトルＸ（ｆ，ｎ）をフィルタリングして強調音声の周波数スペクトルを生成する。ここでは、空間フィルタを下記のように４次元ベクトルで表す。

この場合、空間フィルタ部４０４は、例えば下記の（６）式に従って、強調音声のスペクトルを表す出力Ｙ（ｆ，ｎ）を算出する。

一例では、空間フィルタＦ（ｆ，ｎ）は、下記の（７）式のように、信号対雑音比最大化ビームフォーマＦ_ＳＮＲ（ｆ，ｎ）とポストフィルタｗ（ｆ，ｎ）の積として求められる。

信号対雑音比最大化ビームフォーマＦ_ＳＮＲ（ｆ，ｎ）は、空間相関行列Φ_Ｓ（ｆ，ｎ）を音声（信号）の空間相関行列、空間相関行列Φ_Ｎ（ｆ，ｎ）を雑音の空間相関行列とみなして、音声と雑音のパワー比を最大化するビームフォーマであり、行列Φ_Ｎ ^−１（ｆ，ｎ）Φ_Ｓ（ｆ，ｎ）の最大固有値に対応する固有ベクトルとして求められる。

ポストフィルタｗ（ｆ，ｎ）は、各周波数ビンのパワーを調整することで音質を改善するものである。例えば、ポストフィルタｗ（ｆ，ｎ）は下記の（８）式を用いて求められる。

なお、信号対雑音比最大化ビームフォーマに代えて、空間相関行列Φ_Ｓ（ｆ，ｎ）及びΦ_Ｎ（ｆ，ｎ）に基づいて求められる他のビームフォーマを用いるようにしてもよい。例えば、最小分散無歪応答ビームフォーマを用いてもよい。空間相関行列Φ_Ｓ（ｆ，ｎ）の最大固有値に対応する固有ベクトルをステアリングベクトルｈ（ｆ，ｎ）とすると、最小分散無歪応答ビームフォーマに基づく空間フィルタは下記の（９）式を用いて求めることができる。

第１の実施形態においては、コマンドワード発声の継続長は１秒以下であるという仮定に基づいて、目的の音声が現在時刻において観測されている場合は、現在時刻の１秒前以前は雑音が観測されると推定し、音声の空間相関行列及び雑音の空間相関行列を上述した方法で推定する。そのため、音声の空間相関行列及び雑音の空間相関行列に基づいて得られた空間フィルタは、コマンドワード発声の到来方向を強調し、雑音の到来方向を抑圧することで、コマンドワード発声を強調するように動作する。この動作原理は、雑音の音響的特徴とは無関係であるため、雑音源がテレビの音のような音声を含むものであっても効果がある。

図５は、音声強調部１０５の動作例を概略的に示すフローチャートである。図５のステップＳ５０１では、音声強調部１０５は、変換部３０１として動作し、異なる位置で音を検出することで得られる第１の検出信号を時間周波数領域に変換して第２の検出信号を得る。第２の検出信号は各々第１の検出信号の時間周波数成分を有する。具体的には、第１の検出信号は４つのマイク１０１〜１０４から出力される検出信号に対応し、第２の検出信号は周波数スペクトルＸ（ｆ，ｎ）と表される４チャンネルの周波数スペクトルに対応する。

音声強調部１０５は、フレームごと及び周波数ビンごとにステップＳ５０２〜Ｓ５０５に示される処理を行う。

ステップＳ５０２では、音声強調部１０５は、空間相関算出部４０２として動作し、第１の時刻までの第２の検出信号に基づいて第１の空間相関行列を算出する。第１の時刻は、処理対象である第ｎフレームに対応する時刻である。例えば、音声強調部１０５は、上記の（１）式又は（３）式に従って空間相関行列Φ_Ｓ（ｆ，ｎ）を算出する。（１）式によれば、空間相関行列Φ_Ｓ（ｆ，ｎ）は、第（ｎ−τ_Ｓ＋１）フレームから第ｎフレームまでの周波数スペクトルＸ（ｆ，ｎ−τ_Ｓ＋１）、Ｘ（ｆ，ｎ−τ_Ｓ＋２）、・・・、Ｘ（ｆ，ｎ）に基づいて算出される。

音声強調部１０５は、第２の時刻から第１の時刻までの第２の検出信号の寄与が第２の時刻までの第２の検出信号の寄与よりも大きくなるように、空間相関行列Φ_Ｓ（ｆ，ｎ）を算出してよい。ここで、第２の時刻は、第１の時刻より遅延時間だけ前の時刻であり、第（ｎ−ｄ＋１）フレームに対応する時刻である。第２の時刻から第１の時刻までの第２の検出信号の寄与が第２の時刻までの第２の検出信号の寄与よりも大きくなるという条件は、上記の（２）式を満たす窓関数ｗ_Ｓ（ｔ）及び窓関数長τ_Ｓを使用することにより達成することができる。

ステップＳ５０３では、音声強調部１０５は、遅延部４０１及び空間相関算出部４０３として動作し、第２の検出信号を遅延時間だけ遅延した第３の検出信号に基づいて第２の空間相関行列を算出する。具体的には、音声強調部１０５は、第２の時刻までの第２の検出信号に基づいて第２の空間相関行列を算出する。例えば、音声強調部１０５は、上記の（４）式又は（５）式に従って空間相関行列Φ_Ｎ（ｆ，ｎ）を算出する。（４）式によれば、空間相関行列Φ_Ｎ（ｆ，ｎ）は、第（ｎ−ｄ−τ_Ｎ＋１）フレームから第（ｎ−ｄ）フレームまでの周波数スペクトルＸ（ｆ，ｎ−ｄ−τ_Ｎ＋１）、Ｘ（ｆ，ｎ−ｄ−τ_Ｎ＋２）、・・・、Ｘ（ｆ，ｎ−ｄ）に基づいて算出される。

ステップＳ５０４では、音声強調部１０５は、空間フィルタ部４０４として動作し、ステップＳ５０２、Ｓ５０３で算出された第１及び第２の空間相関行列に基づいて空間フィルタを生成する。例えば、音声強調部１０５は、空間相関行列Φ_Ｓ（ｆ，ｎ）を信号の空間相関行列とし、空間相関行列Φ_Ｎ（ｆ，ｎ）を雑音の空間相関行列とした信号対雑音比最大化ビームフォーマＦ_ＳＮＲ（ｆ，ｎ）を算出し、上記の（７）式に従って、生成した信号対雑音比最大化ビームフォーマＦ_ＳＮＲ（ｆ，ｎ）に基づいて空間フィルタＦ（ｆ，ｎ）を算出する。

ステップＳ５０５では、音声強調部１０５は、空間フィルタ部４０４として動作し、生成した空間フィルタを用いて第２の検出信号をフィルタリングする。例えば、音声強調部１０５は、上記の（６）式に従って、空間フィルタＦ（ｆ，ｎ）を周波数スペクトルＸ（ｆ，ｎ）に適用し、それにより周波数スペクトル値Ｙ（ｆ，ｎ）を得る。

ステップＳ５０６では、音声強調部１０５は、逆短時間フーリエ変換部３０５として動作し、フレームごと及び周波数ビンごとに得られた周波数スペクトル値を時間領域に変換する。

このようにして、音声強調部１０５は、マイク１０１〜１０４により得られた検出信号から、雑音が抑圧され、コマンドワード発声が強調された音響信号を生成する。

以上のように、第１の実施形態に係る信号処理装置は、継続的な音源を雑音とみなし、新たな音源の先頭部分を強調するように構成される。これにより、短い発声を強調するビームフォーマを低演算量で求めることが可能になる。その結果、演算性能の低い端末でもリアルタイムで動作するという効果が得られる。さらに、抑圧すべき雑音が音声を含む場合でも、雑音を抑制することが可能である。よって、第１の実施形態に係る信号処理装置は目的の音声を効果的に強調することができる。

（第２の実施形態）
第２の実施形態は、スペクトル強調部の構成が第１の実施形態と異なり、スペクトル強調部以外の要素については第１の実施形態と同じである。このため、スペクトル強調部以外の要素についての説明を省略する。第２の実施形態では、空間相関行列Φ_Ｓ（ｆ，ｎ）は、周波数スペクトルＸ（ｆ，ｎ）にマスクを乗じることにより求められる。マスクとは、各時間周波数点における検出信号に占める目的信号の割合、すなわち、各時間フレーム及び各周波数ビンの周波数スペクトルが強調すべき音声を含む割合を表す。マスクを適切に推定することが可能であれば、空間相関行列Φ_Ｓ（ｆ，ｎ）から雑音成分が取り除かれて、空間フィルタの性能改善が期待できる。

図６は、第２の実施形態に係るスペクトル強調部の構成例を概略的に示すブロック図である。図６において図４に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。

図６に示すスペクトル強調部６００は、マスク推定部６０１、空間相関算出部６０２、遅延部４０１、空間相関算出部４０３、及び空間フィルタ部４０４を備える。

マスク推定部６０１は、周波数スペクトルＸ（ｆ，ｎ）に基づいてマスクＭ（ｆ，ｎ）を推定する。マスクＭ（ｆ，ｎ）は、０≦Ｍ（ｆ，ｎ）≦１を満たすスカラー値である。マスクＭ（ｆ，ｎ）は、周波数スペクトルＸ（ｆ，ｎ）の絶対値（振幅スペクトル）を入力としたニューラルネットワークを用いて推定することが可能である。まず、各マイクに対応する振幅スペクトル｜Ｘ_ｍ（ｆ，ｎ）｜からマスクＭ_ｍ（ｆ，ｎ）を推定し、マスクＭ_ｍ（ｆ，ｎ）のメジアンとしてマスクＭ（ｆ，ｎ）を求める。

マスクＭ_ｍ（ｆ，ｎ）を推定するニューラルネットワークの入力ベクトルｖ（ｎ）及び出力ベクトルｕ（ｎ）はそれぞれ、例えば、下記の（１０）式及び（１１）式で定義される。

ニューラルネットワークの構造は、入力層のノード数が２５８であり、出力層のノード数が１２９であり、３層の中間層の各々のノード数が２００である全結合ネットワークであって、ジグモイド関数を活性化関数として使用するものであってよい。

ニューラルネットワークの学習は、雑音重畳音声とマスクの正解値とを含むデータを教師データとして用いて実施することができる。ある雑音重畳音声に対応するマスクの正解値は、クリーンな音声データと雑音データを用意し、クリーンな音声データと雑音データを用いたシミュレーションにより求めることができる。損失関数としては、クロスエントロピーを用いることができる。ネットワークの最適化には、確率的勾配降下法などの任意の手法を用いることができる。

空間相関算出部６０２は、周波数スペクトルＸ（ｆ，ｎ）及びマスクＭ（ｆ，ｎ）に基づいて、空間相関行列Φ_Ｓ（ｆ，ｎ）を算出する。例えば、空間相関算出部６０２は、下記の（１２）式に従って空間相関行列Φ_Ｓ（ｆ，ｎ）を算出する。

上述した構成を備えるスペクトル強調部６００は、現在時刻の検出信号の雑音スペクトルを抑圧して空間相関行列Φ_Ｓ（ｆ，ｎ）を算出することができる。これにより、より正確に音声を強調する空間フィルタを求めることが可能となる。その結果、信号対雑音比（ＳＮＲ）が改善する。

図７は、第２の実施形態に係るスペクトル強調部の他の構成例を概略的に示すブロック図である。図７において図４及び図６に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。図６に示すスペクトル強調部６００は、音声と雑音とのスペクトルの違いに基づいてニューラルネットワークを用いてマスクを推定したが、図７に示すスペクトル強調部７００は、音声と雑音との到来方向の違いに基づいてマスクを推定する。

図７に示すスペクトル強調部７００は、マスク推定部７０１、空間相関算出部６０２、遅延部４０１、空間相関算出部４０３、及び空間フィルタ部４０４を備える。

マスク推定部６０１は、周波数スペクトルＸ（ｆ，ｎ）及び空間相関行列Φ_Ｎ（ｆ，ｎ）に基づいてマスクＭ（ｆ，ｎ）を推定する。空間相関行列Φ_Ｎ（ｆ，ｎ）は、音声と雑音との到来方向の違いに基づいてマスクを推定することを可能にする。

雑音源を平均０のガウス分布でモデル化すると、雑音の周波数スペクトルは、空間相関行列Φ_Ｎ（ｆ，ｎ）を共分散行列とみなした多次元複素ガウス分布でモデル化することができる。確率密度関数ｐ_Ｎ（Ｘ（ｆ，ｎ））は下記の（１３）式で与えられる。

ここで、ｄｅｔは行列式を表し、φ（ｆ，ｎ）は分散を表す。分散φ（ｆ，ｎ）を最尤推定したパラメータで置き換えると、（１３）式は（１４）式のように変形することができる。

ここで、Ｍはマイクの本数を表し、Ｃは定数を表す。一方、強調すべき音声に関しては、共分散行列についての情報がないため、初期値として単位行列を設定し、（１４）式と同様の式変形を行って、確率密度関数ｐ_Ｓ（Ｘ（ｆ，ｎ））を表す（１５）式を得る。

マスクＭ（ｆ，ｎ）は、下記の（１６）式に従って求めることができる。

空間相関算出部６０２は、上記の（１２）式に従って、マスク推定部６０１により推定されたマスクＭ（ｆ，ｎ）を用いて、空間相関行列Φ_Ｓ（ｆ，ｎ）を算出する。空間フィルタ部４０４は、算出された空間相関行列Φ_Ｓ（ｆ，ｎ）に基づいて空間フィルタを生成することができる。

なお、算出された空間相関行列Φ_Ｓ（ｆ，ｎ）を用いて確率密度関数ｐ_Ｓ（Ｘ（ｆ，ｎ））及びマスクＭ（ｆ，ｎ）を更新するようにしてもよい。空間相関算出部６０２は、例えば下記の（１７）式によって、確率密度関数ｐ_Ｓ（Ｘ（ｆ，ｎ））を再び算出する。

空間相関算出部６０２は、算出した確率密度関数ｐ_Ｓを用いて上記の（１６）式に従ってマスクを再び算出する。このようなマスクの更新は所定回数繰り返すようにしてもよい。

以上のように、第２の実施形態に係る信号処理装置は、音声と雑音とのスペクトル又は到来方向の違いに基づいてマスクを推定し、推定したマスクを用いて信号の空間相関行列を算出する。これにより、さらに正確に音声を強調する空間フィルタを求めることが可能となる。よって、第２の実施形態に係る信号処理装置は目的の音声をより効果的に強調することができる。

（第３の実施形態）
第３の実施形態に係る信号処理装置は、遅延時間を設定する設定部を第１の実施形態に係る信号処理装置に追加したものに相当する。

図８は、第３の実施形態に係る信号処理装置を備えるリモコン装置８００を概略的に示すブロック図であり、図９は、リモコン装置８００の外観を概略的に示す斜視図である。図８及び図９において図１及び図２に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。

図８に示すように、リモコン装置８００は、マイク１０１〜１０４、音声強調部１０５、音声認識部１０６、通信部１０７、及び設定部８０１を備える。設定部８０１は、音声強調部１０５内の遅延部４０１で使用される遅延フレーム数（遅延時間）を設定する。

図９に示すように、リモコン装置８００にはスイッチ９０１が設けられている。スイッチ９０１は“Ｓｉｎｇｌｅ”と“Ｍｕｌｔｉ”との間で切り替えられる。スイッチ９０１が“Ｓｉｎｇｌｅ”側にある場合は、リモコン装置８００は第１の実施形態に係るリモコン装置１００と同じ動作を行う。第１の実施形態では、コマンドワードとして、「スイッチオン」、「温度上げて」などの言葉が設定される。エアコン以外の音声操作可能な他の機器が導入された場合において、リモコン装置が他の機器を操作するためのユーザ発声に反応してエアコンを操作する事象が起こり得る。

リモコン装置８００は、スイッチ９０１が“Ｍｕｌｔｉ”側に切り替えられた場合に、コマンドワードが「エアコンスイッチオン」、「エアコン温度上げて」など、先頭に「エアコン」が挿入された言葉に切り替わる機能を有する。これは、音声認識部１０６に記憶されているコマンドワードのリストを切り替えることによって実現することができる。また、コマンドワードに「エアコン」が追加されることでコマンドワード発声の継続長が長くなることから、設定部８０１は遅延部４０１で使用される遅延フレーム数を長くする。例えば、スイッチ９０１が“Ｍｕｌｔｉ”側にある場合には、設定部８０１は、遅延時間を２秒に、すなわち、遅延フレーム数を２５０に設定する。

以上のように、第３の実施形態に係る信号処理装置は、遅延時間を変更可能に構成される。これにより、信号処理装置を長さの異なるコマンドワードを切り替え可能な音声操作機器（例えばリモコン）に適用することが可能となる。

なお、スイッチ９０１とは別に設けられた多段階のスイッチなどの要素を用いて遅延時間を段階的に調整するようにしてもよい。遅延時間を細かく調整することで、ユーザの発話速度に合わせて認識性能が向上するようにすることが可能となる。

（第４の実施形態）
第４の実施形態は、第３の実施形態で説明したスイッチが“Ｍｕｌｔｉ”側に切り替えられたときの動作の変形例に関する。第３の実施形態では、スイッチが“Ｍｕｌｔｉ”側に切り替えられた場合に、すべてのコマンドワードの先頭に「エアコン」が挿入される。第４の実施形態では、スイッチが“Ｍｕｌｔｉ”側に切り替えられた場合に、「エアコン」という１つのコマンドワードが追加される。

図１０は、第４の実施形態に係る信号処理装置を備えるリモコン装置１０００を概略的に示すブロック図である。図１０において図１に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。図１０に示すように、リモコン装置１０００は、マイク１０１〜１０４、音声強調部１００１、音声認識部１００２、及び通信部１０７を備える。

スイッチが“Ｍｕｌｔｉ”側に切り替えられると、音声強調部１００１は、第１の実施形態に係る音声強調部１０５と同様の動作を行い、音声認識部１００２は、コマンドワードの１つである「エアコン」を待ち受ける状態に遷移する。音声認識部１００２は、コマンドワード「エアコン」を検出した場合、コマンドワード「エアコン」を検出したことを音声強調部１００１に通知し、その直後から、「エアコン」以外のコマンドワードを待ち受ける状態に遷移する。音声認識部１００２は、「エアコン」以外のコマンドワードのいずれかを検出した場合、検出したコマンドワードを識別するコマンドワードＩＤを出力し、コマンドワード「エアコン」を待ち受ける状態に戻る。また、音声認識部１００２は、状態遷移から所定時間経過するまでに「エアコン」以外のコマンドワードのいずれも検出できなかった場合、コマンドワード「エアコン」を待ち受ける状態に戻る。

図１１は、音声強調部１００１の構成例を概略的に示すブロック図である。図１１において図３に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。図１１に示すように、音声強調部１００１は、変換部３０１、強調部１１０１、及び逆短時間フーリエ変換部３０５を備える。

強調部１１０１は、変換部３０１から周波数スペクトルＸ（ｆ，ｎ）を受け取る。強調部１１０１は、フレームごと及び周波数ビンごとに周波数スペクトルＸ（ｆ，ｎ）に対してスペクトル強調を行う。具体的には、強調部１１０１は、１２９個の周波数ビンのそれぞれに対応する１２９個のスペクトル強調部１１０２を含む。各スペクトル強調部１１０２は、変換部３０１から周波数スペクトルＸ（ｆ，ｎ）を受け取り、受け取った周波数スペクトルＸ（ｆ，ｎ）に対してスペクトル強調を行う。スペクトル強調部１１０２は、音声認識部１００２から、コマンドワード「エアコン」が検出されたこと示す通知を受け取る。各スペクトル強調部１１０２の詳細については、図１２を参照して後述する。

図１２は、スペクトル強調部１１０２の構成例を概略的に示している。図１２に示すスペクトル強調部１１０２は、図１１に示したスペクトル強調部１１０２の各々に相当する。図１２において図４に示したものと同様の要素に同様の符号を付して、それらの要素についての説明を省略する。

図１２に示すように、スペクトル強調部１１０２は、遅延部４０１、空間相関算出部４０２、空間相関算出部４０３、空間フィルタ部１２０１、及び空間フィルタ係数記憶部１２０２を備える。

空間フィルタ部１２０１は、第１の実施形態において説明した空間フィルタ部４０４と同様にして空間フィルタを生成し、空間フィルタを形成する係数を空間フィルタ係数記憶部１２０２に記憶させる。空間フィルタ係数記憶部１２０２は、現在のフレームから所定時間前のフレームまでについて空間フィルタ係数を記憶する。

空間フィルタ部１２０１は、音声認識部１００２からの通知を受け取ると、空間フィルタの更新を停止し、空間フィルタ係数記憶部１２０２から、所定時間（例えば０．３秒）前のフレームに関する空間フィルタ係数を読み出す。空間フィルタ部１２０１は、読み出した空間フィルタ係数を空間フィルタにセットする。空間フィルタ部１２０１は、音声認識部１００２が「エアコン」以外のコマンドワードを待ち受ける状態にある間は、空間フィルタを固定してフィルタリングを行う。

コマンドワード「エアコン」が検出されたときには、既に「エアコン」の発声は終了しているため、例えば、０．３秒程度過去の空間フィルタを利用することで、「エアコン」発声中の安定した空間フィルタを利用することが可能である。

第４の実施形態では、「エアコン」という１つの語を待ち受けるため、第３の実施形態と比較して誤動作が減少する。さらに、コマンドワード発話の継続長が短く抑えられることから、非定常な雑音にも比較的頑健に動作する。「エアコン」に続くコマンドワード部分も音声強調の効果が持続することから、認識の精度が向上するという効果がある。

なお、空間フィルタ係数に代えて、空間相関算出部４０２、４０３の出力又は周波数スペクトルなどの情報を記憶しておき、空間フィルタ部１２０１が当該情報に基づいて空間フィルタを生成しなおすようにしてもよい。過去の適切な区間のデータを利用して空間フィルタを生成することにより、音声強調の効果がさらに向上する可能性がある。

各実施形態に関して上述した処理は、汎用プロセッサなどの処理回路（processing circuitry）により実現され得る。

図１３は、一実施形態に係るコンピュータ１３００のハードウェア構成の一例を示すブロック図である。図１３に示すように、コンピュータ１３００は、ハードウェアとして、ＣＰＵ（Central Processing Unit）１３０１、ＲＡＭ（Random Access Memory）１３０２、プログラムメモリ１３０３、補助記憶装置１３０４、入出力インタフェース１３０５、及びバス１３０６を備える。ＣＰＵ１３０１は、バス１３０６を介して、ＲＡＭ１３０２、プログラムメモリ１３０３、補助記憶装置１３０４、及び入出力インタフェース１３０５と通信する。

ＣＰＵ１３０１は、汎用プロセッサの一例である。ＲＡＭ１３０２は、ワーキングメモリとしてＣＰＵ１３０１に使用される。ＲＡＭ１３０２は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）などの揮発性メモリを含む。プログラムメモリ１３０３は、信号処理プログラムを含む種々のプログラムを記憶する。プログラムメモリ１３０３として、例えば、ＲＯＭ（Read-Only Memory）、補助記憶装置１３０４の一部、又はその組み合わせが使用される。補助記憶装置１３０４は、データを非一時的に記憶する。補助記憶装置１３０４は、ハードディスクドライブ（ＨＤＤ）又はソリッドステートドライブ（ＳＳＤ）などの不揮発性メモリを含む。

入出力インタフェース１３０５は、他のデバイスと接続するためのインタフェースである。入出力インタフェース１３０５は、例えば、マイク１０１〜１０４及び通信部１０７との接続に使用される。

プログラムメモリ１３０３に記憶されている各プログラムはコンピュータ実行可能命令を含む。プログラム（コンピュータ実行可能命令）は、ＣＰＵ１３０１により実行されると、ＣＰＵ１３０１に所定の処理を実行させる。例えば、信号処理プログラムは、ＣＰＵ１３０１により実行されると、ＣＰＵ１３０１に音声強調部及び音声認識部に関して説明された一連の処理を実行させる。

プログラムは、コンピュータで読み取り可能な記憶媒体に記憶された状態でコンピュータ１３００に提供されてよい。この場合、例えば、コンピュータ１３００は、記憶媒体からデータを読み出すドライブ（図示せず）をさらに備え、記憶媒体からプログラムを取得する。記憶媒体の例は、磁気ディスク、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒなど）、光磁気ディスク（ＭＯなど）、半導体メモリを含む。また、プログラムを通信ネットワーク上のサーバに格納し、コンピュータ１３００が入出力インタフェース１３０５を使用してサーバからプログラムをダウンロードするようにしてもよい。

実施形態において説明される処理は、ＣＰＵ１３０１などの汎用ハードウェアプロセッサがプログラムを実行することにより行われることに限らず、ＡＳＩＣ（Application Specific Integrated Circuit）などの専用ハードウェアプロセッサにより行われてもよい。処理回路という語は、少なくとも１つの汎用ハードウェアプロセッサ、少なくとも１つの専用ハードウェアプロセッサ、又は少なくとも１つの汎用ハードウェアプロセッサと少なくとも１つの専用ハードウェアプロセッサとの組み合わせを含む。図１３に示す例では、ＣＰＵ１３０１、ＲＡＭ１３０２、及びプログラムメモリ１３０３が処理回路に相当する。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…リモコン装置、１０１〜１０４…マイク、１０１…マイク、１０５…音声強調部、１０６…音声認識部、１０７…通信部、１１０…筐体、２００…エアコン、３０１…変換部、３０２…短時間フーリエ変換部、３０３…強調部、３０４…スペクトル強調部、３０５…逆短時間フーリエ変換部、４０１…遅延部、４０２…空間相関算出部、４０３…空間相関算出部、４０４…空間フィルタ部、６００…スペクトル強調部、６０１…マスク推定部、６０２…空間相関算出部、７００…スペクトル強調部、７０１…マスク推定部、８００…リモコン装置、８０１…設定部、９０１…スイッチ、１０００…リモコン装置、１００１…音声強調部、１００２…音声認識部、１１０１…強調部、１１０２…スペクトル強調部、１２０１…空間フィルタ部、１２０２…空間フィルタ係数記憶部、１３００…コンピュータ、１３０１…ＣＰＵ、１３０２…ＲＡＭ、１３０３…プログラムメモリ、１３０４…補助記憶装置、１３０５…入出力インタフェース、１３０６…バス。

Claims

異なる位置で音を検出することで得られる第１の検出信号を時間周波数領域に変換して第２の検出信号を得る変換部と、
前記第２の検出信号に基づいて第１の空間相関行列を算出する第１の算出部と、
前記第２の検出信号を所定の時間だけ遅延した第３の検出信号に基づいて第２の空間相関行列を算出する第２の算出部と、
前記第１の空間相関行列及び前記第２の空間相関行列に基づいて空間フィルタを生成し、前記空間フィルタを用いて前記第２の検出信号をフィルタリングする空間フィルタ部と、
を備える信号処理装置。
前記第１の算出部は、第１の時刻までの前記第２の検出信号を使用して、前記第１の時刻より前記所定の時間だけ前の時刻である第２の時刻から前記第１の時刻までの前記第２の検出信号の寄与が前記第１の時刻までの前記第２の検出信号の寄与よりも大きくなるように、前記第１の空間相関行列を算出する、
請求項１に記載の信号処理装置。
前記第２の検出信号に基づいて、各時間周波数点における第１の検出信号に占める目的信号の割合を表すマスクを推定するマスク推定部をさらに備え、
前記第１の算出部は、前記第２の検出信号と前記マスクとに基づいて前記第１の空間相関行列を算出する、
請求項１又は２に記載の信号処理装置。
前記マスク推定部は、前記第２の検出信号と前記第２の空間相関行列とに基づいて雑音と目的信号との到来方向の違いを推定することにより、前記マスクを推定する、
請求項３に記載の信号処理装置。
前記マスク推定部は、前記第２の検出信号に基づいて雑音と目的信号とのスペクトルの違いを推定することにより、前記マスクを推定する、
請求項３に記載の信号処理装置。
前記所定の時間を設定する設定部をさらに備える、
請求項１乃至５のいずれか１項に記載の信号処理装置。
前記空間フィルタは、前記第１の空間相関行列を信号の空間相関行列とし、前記第２の空間相関行列を雑音の空間相関行列とした信号対雑音比最大化ビームフォーマである、
請求項１乃至６のいずれか１項に記載の信号処理装置。
前記空間フィルタ部の出力に対して、あらかじめ登録されたキーワードの検出を行う音声認識部と、
前記空間フィルタを形成する空間フィルタ係数と、前記第１の空間相関行列と、前記第２の空間相関行列と、の少なくとも１つに関する情報を記憶する記憶部と、
をさらに備え、
前記空間フィルタ部は，前記音声認識部が前記キーワードを検出した場合に、前記記憶部に記憶された前記情報に基づいて前記空間フィルタを生成する、
請求項１乃至７のいずれか１項に記載の信号処理装置。
信号処理装置により実行される信号処理方法であって、
異なる位置で音を検出することで得られる第１の検出信号を時間周波数領域に変換して第２の検出信号を得ることと、
前記第２の検出信号に基づいて第１の空間相関行列を算出することと、
前記第２の検出信号を所定の時間だけ遅延した第３の検出信号に基づいて第２の空間相関行列を算出することと、
前記第１の空間相関行列及び前記第２の空間相関行列に基づいて空間フィルタを生成することと、
前記空間フィルタを用いて前記第２の検出信号をフィルタリングすることと、
を備える信号処理方法。
異なる位置で音を検出することで得られる第１の検出信号を時間周波数領域に変換して第２の検出信号を得る手段、
前記第２の検出信号に基づいて第１の空間相関行列を算出する手段、
前記第２の検出信号を所定の時間だけ遅延した第３の検出信号に基づいて第２の空間相関行列を算出する手段、
前記第１の空間相関行列及び前記第２の空間相関行列に基づいて空間フィルタを生成する手段、及び
前記空間フィルタを用いて前記第２の検出信号をフィルタリングする手段、
としてコンピュータを機能させるためのプログラム。