JP6903947B2

JP6903947B2 - 非目的音抑圧装置、方法及びプログラム

Info

Publication number: JP6903947B2
Application number: JP2017035348A
Authority: JP
Inventors: 克之高橋
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2021-07-14
Anticipated expiration: 2037-02-27
Also published as: JP2018142826A

Description

この発明は、非目的音抑圧装置、方法及びプログラムに関し、例えば、電話やテレビ会議システムなどの音声を用いる通信装置または通信ソフトウェア、あるいは音声認識処理の前処理で用いる音響信号処理に適用し得るものである。

近年、スマートフォンやカーナビゲーションなど、音声通話機能や音声認識機能などの様々な音声処理機能が搭載された機器が普及している。しかし、これらの機器が普及したことで、混雑した街中や走行中の車内など、以前よりも過酷な雑音環境下で音声処理機能が用いられるようになってきている。そのため、雑音環境下でも通話音質や音声認識性能を維持できるような、信号処理技術の需要が高まっている。

音声処理機能の性能を阻害する雑音は、例えば、街中での雑踏や、自動車の走行雑音などの背景雑音と、妨害音（例えば、音声処理機能の使用者以外の人の話し声等の妨害音声）に大別できる。背景雑音は周波数特性やパワーが定常であることを前提に、様々な有効な抑圧方法が提案されてきた（特許文献１〜３、非特許文献１参照）。

特表２０１０−５３２８７９号公報特開２０１４−１０６３３７号公報特開２０１４−１６４１９１号公報

平岡和幸、堀玄著，"プログラミングのための確率統計",オーム社，平成２１年１０月２３日発行

しかし、前述のように、音声信号処理機能の利用環境の急拡大により、背景雑音が定常ではない場合も増えている。従って、背景雑音の特性の変動に素早く追従できる背景雑音抑圧方法が求められているが、妨害音が存在する信号区間で背景雑音を抑圧した場合に、目的音の信号成分も欠落させ、音質が劣化する場合が生じ得る。

また、特許文献３には、入力信号から正面から到来する成分を抑圧した信号（正面抑圧信号と呼ぶ。）を減算することで、周囲から到来した妨害音を抑圧する技術が開示されるが、減算の際に、正面抑圧信号に減算係数を乗算することで減算の強度を制御することが多く、減算係数は大きすぎると抑圧性能が過剰で目的音の歪が増し、小さすぎると妨害音の抑圧性能が不十分、というように音質に大きな影響を及ぼす。しかし、目的音に重畳されている妨害音の存在判定は難しく、減算係数を適切な値に設定することは困難である。

そのため、上記課題に鑑み、入力信号から非目的音を抑圧又は減算する際に、目的音の音質を良好とし、処理負荷を抑え、抑圧係数又は減算係数を制御することができる非目的音抑圧装置、方法及びプログラムが求められている。

かかる課題を解決するために、第１の本発明に係る非目的音抑圧装置は、（１）複数のマイクのそれぞれからの各入力信号を時間領域から周波数領域に変換して得た、複数の周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、（２）複数の入力信号から得た信号に基づいてコヒーレンスを算出するコヒーレンス算出部と、（３）正面抑圧信号とコヒーレンスとの関係性を示す特徴量を算出する特徴量算出部と、（４）正面抑圧信号とコヒーレンスとの関係性を示す特徴量を用いて、入力信号に含まれる非目的音の抑圧に係る係数を設定し、当該係数を用いて前記入力信号に含まれる非目的音を抑圧した抑圧処理後信号を得る非目的音抑圧処理部とを備え、特徴量算出部が、正面抑圧信号とコヒーレンスとの関係性を示す相関を表す特徴量を算出し、非目的音抑圧処理部が、相関を表す特徴量を用いて減算係数を設定し、正面抑圧信号と減算係数との積を入力信号から減算して、抑圧処理後信号を得ることを特徴とする。

第２の本発明に係る非目的音抑圧方法は、（１）正面抑圧信号生成部が、複数のマイクのそれぞれからの各入力信号を時間領域から周波数領域に変換して得た、複数の周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、（２）コヒーレンス算出部が、複数の入力信号から得た信号に基づいてコヒーレンスを算出し、（３）特徴量算出部が、正面抑圧信号とコヒーレンスとの関係性を示す特徴量を算出し、（４）非目的音抑圧処理部が、正面抑圧信号とコヒーレンスとの関係性を示す特徴量を用いて、入力信号に含まれる非目的音の抑圧に係る係数を設定し、当該係数を用いて入力信号に含まれる非目的音を抑圧した抑圧処理後信号を得、特徴量算出部が、正面抑圧信号とコヒーレンスとの関係性を示す相関を表す特徴量を算出し、非目的音抑圧処理部が、相関を表す特徴量を用いて減算係数を設定し、正面抑圧信号と減算係数との積を入力信号から減算して、抑圧処理後信号を得ることを特徴とする。

第３の本発明に係る非目的音抑圧プログラムは、コンピュータを、（１）複数のマイクのそれぞれからの各入力信号を時間領域から周波数領域に変換して得た、複数の周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、（２）複数の入力信号から得た信号に基づいてコヒーレンスを算出するコヒーレンス算出部と、（３）正面抑圧信号とコヒーレンスとの関係性を示す特徴量を算出する特徴量算出部と、（４）正面抑圧信号とコヒーレンスとの関係性を示す特徴量を用いて、入力信号に含まれる非目的音の抑圧に係る係数を設定し、当該係数を用いて入力信号に含まれる非目的音を抑圧した抑圧処理後信号を得る非目的音抑圧処理部として機能させ、特徴量算出部が、正面抑圧信号とコヒーレンスとの関係性を示す相関を表す特徴量を算出し、非目的音抑圧処理部が、相関を表す特徴量を用いて減算係数を設定し、正面抑圧信号と減算係数との積を入力信号から減算して、抑圧処理後信号を得ることを特徴とする。

本発明によれば、入力信号から非目的音を抑圧又は減算する際に、目的音の音質を良好に、低い処理負荷で、抑圧係数又は減算係数を制御することができる。

第１の実施形態に係る非目的音抑圧装置の全体構成を示すブロック図である。実施形態に係るマイクの配置例を説明する説明図である。実施形態に係る音響信号処理装置で適用される指向性信号の特性を示す図である。第１の実施形態に係るＷＦ部の構成を示すブロック図である。第１の実施形態に係るＷＦ部の時定数制御部における処理を示すフローチャートである。第２の実施形態に係る非目的音抑圧装置の全体構成を示すブロック図である。第２の実施形態に係る周波数減算処理部の構成を示すブロック図である。第２の実施形態に係る周波数減算処理部の時定数制御部２３における処理を示すフローチャートである。

（Ａ）第１の実施形態
以下では、本発明に係る非目的音抑圧装置、方法及びプログラムの第１の実施形態を、図面を参照しながら詳細に説明する。

第１の実施形態では、本発明を利用して、音声信号処理機能の利用環境の急拡大により、定常でない背景雑音の特性の変動に素早く追従する背景雑音抑圧装置及び方法（非目的音抑圧装置及び方法）を例示する。

ここで、周囲で妨害音が生じている環境で背景雑音抑圧機能が利用された場合、妨害音が存在する信号区間で、誤って係数適応動作を行う場合がある。このとき、妨害音という人間の声の特徴も背景雑音抑圧係数（以下では、「抑圧係数」と呼ぶ。）に反映されるため、当該係数を用いて抑圧処理を行った場合、目的音の信号成分も欠落させてしまい、音質が劣化することがある。

そこで、第１の実施形態では、上記のような現象を防止するため、目的音や妨害音の影響を抑えつつ背景雑音の変動を監視し続け、その結果に基づいて背景雑音抑圧係数の適応動作を制御できる非目的音抑圧装置及び方法を実現する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係る非目的音抑圧装置１の全体構成を示すブロック図である。

図１に示すように、非目的音抑圧装置１は、複数（図１では２個の場合を示している。）のマイクｍ＿１及びｍ＿２から入力信号ｓ１（ｎ）及びｓ２（ｎ）を取得する。なお、ｎはサンプルの入力順を示すインデックスであり、正の整数で表現される。以下では、ｎが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。

非目的音抑圧装置１は、マイクｍ＿１及びｍ＿２から取得した各入力信号に基づいて、背景雑音の特性の変動に追従して背景雑音を抑圧するパラメータ（変数）を設定し、その背景雑音を抑圧した抑圧後信号を、後段の音声処理装置２に供給する。

音声処理装置２は、非目的音抑圧装置１からの抑圧後信号を利用して、所定の音声処理を行なう。音声処理装置２における処理内容は特に限定されるものではなく、様々な処理を行なうものを適用でき、例えば、電話端末やテレビ会議システム等の音声通信処理や音声認識処理等を行なうようにしてもよい。なお、非目的音抑圧装置１と音声処理装置２とは、信号の授受が可能であればよく、回路の配線接続されているようにしてもよいし、又例えば有線回線、無線回線を介したネットワーク通信により信号の授受ができるものであってもよい。

図２は、マイクｍ＿１およびｍ＿２の配置例を説明する説明図である。

図２に示すように、マイクｍ＿１、ｍ＿２は、２つのマイクｍ＿１、ｍ＿２を含む面が目的音の到来する方向（目的音の音源の方向）に対して垂直となるように配置されているものとする。また、以下では、図２に示すように、２つのマイクｍ＿１、ｍ＿２の間の位置から見て、目的音の到来方向を前方向又は正面方向と呼ぶものとする。また、以下では、図２に示すように、右方向、左方向、後ろ方向と呼ぶ場合は、２つのマイクｍ＿１、ｍ＿２の間の位置から目的音の到来方向を見た場合の各方向を示すものとして説明する。なお、この実施形態では、目的音がマイクｍ＿１、ｍ＿２の正面方向から到来し、妨害音を含む非目的音が左右方向（横方向）から到来するものとして説明する。

図１に示すように、非目的音抑圧装置１は、ＦＦＴ部１１、正面抑圧信号生成部１２、コヒーレンス計算部１３、相関及びｍｏｄＧＩ計算部１４、ＷＦ（ウィナーフィルター）部１５、ＩＦＦＴ部１６を有する。

非目的音抑圧装置１は、プロセッサやメモリ等を有するコンピュータにプログラム（例えば、非目的音抑圧プログラム）をインストールして実現するようにしてもよく、この場合、非目的音抑圧装置１は機能的には図１を用いて示すことができる。なお、非目的音抑圧装置１については一部又は全部をハードウェア的に実現するようにしてもよい。

ＦＦＴ部１１は、マイクｍ＿１及びｍ＿２のそれぞれから図示しないＡＤ変換器を介して、入力信号ｓ１及びｓ２を受け取り、その入力信号ｓ１及びｓ２に高速フーリエ変換（あるいは離散フーリエ変換）を行うものである。これにより、入力信号ｓ１及びｓ２が周波数領域で表現されることになる。

なお、ＦＦＴ部１１は、高速フーリエ変換を実施するにあたり、入力信号ｓ１（ｎ）及びｓ２（ｎ）から所定のＮ個（Ｎは任意の整数）のサンプルから成る、分析フーリエＦＲＡＭＥ１（Ｋ）及びＦＲＡＭＥ２（Ｋ）を構成するものとする。入力信号ｓ１からＦＲＡＭＥ１を構成する例を以下の（１）式に示す。

（１）式において、Ｋはフレームの順番を表すインデックスであり、正の整数で表現される。以下では、Ｋの値が小さいほど古い分析フレームであり、Ｋの値が大きいほど新しい分析フレームであるものとする。また、以降の説明において、特に但し書きが無い限り、分析対象となる最新の分析フレームを表すインデックスはＫであるとする。

ＦＦＴ部１１は、分析フレームごとに、高速フーリエ変換処理を施すことで、入力信号ｓ１から構成した分析フレームＦＲＡＭＥ１（Ｋ）にフーリエ変換して得た周波数領域信号Ｘ１（ｆ，Ｋ）と、入力信号ｓ２から構成した分析フレームＦＲＡＭＥ２（Ｋ）にフーリエ変換して得た周波数領域信号Ｘ２（ｆ，Ｘ）とを、正面抑圧信号生成部１２及びコヒーレンス計算部１３に与える。

ここで、ｆは周波数を表すインデックスである。また、周波数領域信号Ｘ１（ｆ，Ｋ）は、単一の値ではなく、(２)式のように複数の周波数ｆ１〜ｆｍのｍ個（ｍは任意の整数）のスペクトル成分から構成されるものであるとする。

上記（２）式において、Ｘ１（ｆ，Ｋ）は複素数であり、実部と虚部からなる。これは、Ｘ２（ｆ，Ｋ）、及び後述する正面抑圧信号生成部１２で説明する正面抑圧信号Ｎ（ｆ，Ｋ）についても同様である。

正面抑圧信号生成部１２は、ＦＦＴ部１１から供給された信号について、周波数毎に正面方向の信号成分を抑圧する処理を行う。換言すると、正面抑圧信号生成部１２は、正面方向の成分を抑圧する指向性フィルタとして機能する。

例えば、正面抑圧信号生成部１２は、図３に示すように、正面方向に死角を有する８の字型の双指向性のフィルタを用いて、ＦＦＴ部１１から供給された信号から正面方向の成分を抑圧する指向性フィルタを形成する。

具体的には、正面抑圧信号生成部１２は、ＦＦＴ部１１から供給された信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に基づいて、以下の（３）式のような計算を行って、周波数毎の正面抑圧信号Ｎ（ｆ，Ｋ）を生成する。以下の（３）式の計算は、図３のような正面方向に死角を有する８の字型の双指向性のフィルタを形成する処理に相当する。
Ｎ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）−Ｘ２（ｆ，Ｋ） …（３）

以上のように、正面抑圧信号生成部１２は、周波数ｆ１〜ｆｍの各周波数成分（各周波数帯の１フレーム分のパワー）を取得する。

また、正面抑圧信号生成部１２は、（４）式に従って、周波数ｆ１〜ｆｍの全周波数に亘って、正面抑圧信号Ｎ（ｆ，Ｋ）を平均した、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）を算出する。

コヒーレンス計算部１３は、ＦＦＴ部１１からの周波数領域信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に含まれる特定方向に指向性の強い信号を形成してコヒーレンスＣＯＨ（Ｋ）を算出する。

ここで、コヒーレンス計算部１３におけるコヒーレンスＣＯＨ（Ｋ）の算出処理を説明する。

コヒーレンス計算部１３は、周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）から第１の方向（例えば、左方向）に指向性が強いフィルタで処理した信号Ｂ１（ｆ，Ｋ）を形成し、またコヒーレンス計算部１３は、周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）から第２の方向（例えば、右方向）に指向性が強いフィルタで処理した信号Ｂ２（ｆ，Ｋ）を形成する。特定方向に指向性の強い信号Ｂ１（ｆ）、Ｂ２（ｆ）の形成方法は、既存の方法を適用することができ、ここでは、以下の（５）式を適用して第１の方向に指向性が強い信号Ｂ１を形成し、以下の（６）式を適用して第２の方向に指向性が強い信号Ｂ２を形成する場合を例示する。

上記の（５）式、（６）式において、Ｓはサンプリング周波数、ＮはＦＦＴ分析フレーム長、τはマイクｍ＿１とマイクｍ＿２との間の音波到達時間差、ｉは虚数単位、ｆは周波数を示す。

次に、コヒーレンス計算部１３は、上記のようにして得られた信号Ｂ１（ｆ）、Ｂ２（ｆ）に対し、以下のような（７）式、（８）式に示す演算を施すことでコヒーレンスＣＯＨ（Ｋ）を得る。ここで、（７）式におけるＢ２（ｆ、Ｋ）^＊はＢ２（ｆ、Ｋ）の共役複素数である。

ｃｏｅｆ（ｆ、Ｋ）は、インデックスが任意のインデックスＫのフレーム（分析フレームＦＲＡＭＥ１（Ｋ）及びＦＲＡＭＥ２（Ｋ）を構成する任意の周波数ｆ（周波数ｆ１〜ｆｍのいずれかの周波数）の成分におけるコヒーレンスを表しているものとする。

なお、ｃｏｅｆ（ｆ，Ｋ）を求める際に、信号Ｂ１（ｆ）の指向性の方向と信号Ｂ（ｆ）の指向性の方向が異なるものであれば、信号Ｂ１（ｆ）及び信号Ｂ２（ｆ）に係る指向性方向はそれぞれ、正面方向以外の任意の方向とするようにしてもよい。また、ｃｏｅｆ（ｆ，Ｋ）を算出する方法は、上記の算出方法に限定されるものではない。

相関及びｍｏｄＧＩ計算部１４は、正面以外に指向性を有する正面抑圧信号Ｎ（ｆ，Ｎ）（平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ））と、コヒーレンスＣＯＨ（Ｋ）とを取得し、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との関係性を示す特徴量である相関係数ｃｏｒ（Ｋ）を計算する。

また、相関及びｍｏｄＧＩ計算部１４は、相関係数ｃｏｒ（Ｋ）を用いて、当該相関係数ｃｏｒ（Ｋ）の振幅の傾きの正負の変動の激しさを表す特徴量（ｃｏｒ＿ｍｏｄＧＩ（Ｋ））を計算し、その特量量（ｃｏｒ＿ｍｏｄＧＩ（ｋ））をＷＦ部１５に出力する。

まず、相関及びＭｏｄＧＩ計算部１４において、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との相関係数ｃｏｒ（Ｋ）に基づいて、妨害音が存在する信号区間を検出する原理を説明する。

ここでは、マイクｍ＿１及びマイクｍ＿２の正面方向に、目的音を発する音源が存在し、正面方向以外の方向（例えば、マイクｍ＿１及びマイクｍ＿２の横方向（すなわち、左方向、右方向）から妨害音が到来するものとする。

例えば、「妨害音声が存在せず」、かつ、「目的音が存在する」場合、正面抑圧信号Ｎ（ｆ，Ｋ）は、目的音成分の大きさに比例した信号値となる。ただし、図２のように、正面方向のゲインは、横方向のゲインと比較して小さいため、妨害音が存在する場合よりも小さい値となる。

また、コヒーレンスＣＯＨ（Ｋ）は、入力信号の到来方向と深い関係を持つ特徴量であり、２つの信号成分の相関と言い換えられる。これは、（６）式は、ある周波数成分についての相関を算出する式であり、（７）式は全ての周波数成分の相関値の平均を計算する式であるためであるため、コヒーレンスＣＯＨ（Ｋ）が小さい場合は、２つの信号成分の相関が小さい場合であるといえ、反対に、コヒーレンスＣＯＨ（Ｋ）が大きい場合とは、２つの信号成分の相関が大きい場合であるといえる。コヒーレンスＣＯＨ（Ｋ）が小さい場合の入力信号は、到来方向が右方向又は左方向のいずれかに大きく偏っており、正面方向以外の方向から到来している信号といえる。一方、コヒーレンスＣＯＨ（Ｋ）が大きい場合の入力信号は、到来方向の偏りが少なく、正面方向から到来している信号であるといえる。

そうすると、「妨害音が存在せず」、かつ、「目的音が存在する」場合、コヒーレンスＣＯＨ（Ｋ）は大きい値となり、「妨害音が存在し」、かつ、「目的音が存在する」場合、コヒーレンスＣＯＨ（Ｋ）は小さい値となる。

以上の挙動を妨害音の有無に着目して整理すると、以下のような関係となる。
・「妨害音が存在せず」、かつ、「目的音が存在する」場合、コヒーレンスＣＯＨ（Ｋ）は大きな値となり、正面抑圧信号Ｎ（ｆ，Ｋ）（平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ））は目的音成分の大きさに比例した値となる。
・「妨害音が存在する」場合、コヒーレンスＣＯＨ（Ｋ）が小さい値となり、正面抑圧信号Ｎ（ｆ，Ｋ）（平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ））は大きい値となる。

ところで、上記のような挙動の場合、正面抑圧信号Ｎ（ｆ，Ｋ）（平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ））とコヒーレンスＣＯＨ（Ｋ）との相関係数ｃｏｒ（Ｋ）を導入すると、以下のようなことがいえる。
・「妨害音が存在しない」場合、相関係数ｃｏｒ（Ｋ）は正の値（ｃｏｒ（Ｋ）＞０）となる。
・「妨害音が存在する」場合、相関係数ｃｏｒ（Ｋ）は負の値（ｃｏｒ（Ｋ）≦０）となる。

従って、相関及びｍｏｄＧＩ計算部１４は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との相関係数ｃｏｒ（Ｋ）の正負を観測し、相関係数ｃｏｒ（Ｋ）が正の場合に妨害音は存在しないと判定し、相関係数ｃｏｒ（Ｋ）が負の場合に妨害音が存在すると判定することができる。

ここで、相関係数ｃｏｒ（Ｋ）の計算方法は限定されるものではないが、例えば、以下の式（９）を用いて、フレームごとに相関係数ｃｏｒ（Ｋ）を算出することができる。

なお、以下の式（９）において、ｃｏｖ［ＡＶＥ＿Ｎ（Ｋ），ＣＯＨ（Ｋ）］は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）の共分散を示している。また、以下の式（９）において、σＡＶＥ＿Ｎ（Ｋ）は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）の標準偏差を示し、σＣＯＨ（Ｋ）は、コヒーレンスＣＯＨ（Ｋ）の標準偏差を示している。さらに、以下の（９）式にて、相関係数ｃｏｒ（Ｋ）を求める場合に、ＡＶＥ＿Ｎ（Ｋ）及びＣＯＨ（Ｋ）についてそれぞれ直近に処理した所定数ｉ個のフレームの結果を用いて、標準偏差や共分散を求めるようにしてもよい。具体的には、以下の（９）にて、相関係数ｃｏｒ（Ｋ）を求める過程において、例えば、直近に処理したｉ個のフレーム（Ｋ−ｉ番目のフレーム、Ｋ−（ｉ−１）番目のフレーム、…、Ｋ−１番目のフレーム、Ｋ番目のフレーム）のそれぞれに係るＣＯＨ（Ｋ）及びＡＶＥ＿Ｎを用いて、標準偏差（σＮ（ｆ，Ｋ）、及び、σＣＯＨ（Ｋ））や共分散（ｃｏｖ［ＡＶＥ＿Ｎ（Ｋ），ＣＯＨ（Ｋ）］）を求めるようにしてもよい。言い換えると、相関係数ｃｏｒ（Ｋ）を求める過程において、直近に求めたｉ個のＡＶＥ＿Ｎ及びＣＯＨをサンプルとして用いて、以下の（９）式における標準偏差や共分散を求めるようにしてもよい。このようにして得られる相関係数ｃｏｒ（Ｋ）は、−１．０〜１．０の値をとる。

次に、相関及びｍｏｄＧＩ計算部１４において、相関係数ｃｏｒ（Ｋ）を用いて、当該相関係数ｃｏｒ（Ｋ）の振幅の傾きの正負の変動の激しさを表す特徴量を計算する。

入力信号に背景雑音が存在する場合、相関係数ｃｏｒ（Ｋ）の挙動は次のように変わる。

・妨害音が存在すると、相関係数ｃｏｒ（Ｋ）の値が正となり、妨害音が存在しなければ、相関係数ｃｏｒ（Ｋ）の値が負となる、マクロな挙動はある程度維持される。

・背景雑音の影響を受けて正面抑圧信号（平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ））の振幅の大小の変動の不規則さが増すのに対して、コヒーレンスＣＯＨ（Ｋ）はダイナミックレンジが小さくなる程度で、振幅の大小の不規則さは極端に変化しない。このため、正面抑圧信号（平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ））の増加・減少と、コヒーレンスＣＯＨ（Ｋ）の増加・減少の同期性が損なわれ、相関（相関係数ｃｏｒ（Ｋ））の増減の変動が激しくなる。また、相関係数ｃｏｒ（Ｋ）の正負の変動の頻度が増す。

・すなわち、背景雑音の影響が増すほど、相関係数ｃｏｒ（Ｋ）の値の増減の変動や、相関係数ｃｏｒ（Ｋ）の値の正負の変動頻度は増す。

このように、背景雑音が存在する場合には、相関係数ｃｏｒ（Ｋ）の値の増減の変動や正負の変動の頻度が増し、背景雑音の影響が増すほどこれらの変動（すなわち、相関係数ｃｏｒ＿（Ｋ）の値の増減や正負の変動）は大きくなる。この挙動は背景雑音にのみ由来するものである。よって、相関係数ｃｏｒ（Ｋ）の値の変動激しさを観測することで、目的音や妨害音の影響を受けずに、背景雑音が目的音に及ぼす影響度や、特性の変動を推定することができる。

そこで、第１の実施形態では、相関及びｍｏｄＧＩ計算部１４が、相関係数ｃｏｒ（Ｋ）の値の増減や正負の変動を観測するために、ｍｏｄＧＩ（ＧＩ：ＧｒａｄｉｅｎｔＩｎｄｅｘ）と呼ばれる特徴量を算出する。

ここで、ｍｏｄＧＩは、信号波形の傾き方向が変化する回数とその大きさを測る指標である（特許文献２参照）。ｍｏｄＧＩは、特徴量算出対象の任意の信号に関し、その算出対象信号のパワーで正規化された、その算出対象信号の２階差分のパワーと定義される。

第１の実施形態では、相関及びｍｏｄＧＩ計算部１４は、特許文献２に記載される計算方法に従って、ｍｏｄＧＩを算出する。上記のように定義されるｍｏｄＧＩの算出式の一例として、以下の（１０）式を利用して、相関及びｍｏｄＧＩ計算部１４が、相関係数ｃｏｒ（Ｋ）の変動の激しさを表す特徴量ｃｏｒ＿ｍｏｄＧＩ（Ｋ）を計算する。

（１０）式は、相関係数ｃｏｒ（Ｋ）の傾きの正負が変動する頻度を表している。（１０）式は、信号の傾きの正負の変動が小さくなるほど、ｃｏｒ＿ｍｏｄＧＩの値が小さくなるのに対し、傾きの正負の変動が大きくなるほど、ｃｏｒ＿ｍｏｄＧＩの値は大きくなる、という特徴を有する。換言すれば、ｃｏｒ＿ｍｏｄＧＩの値が大きいほど背景雑音の影響は大きく、反対に、ｃｏｒ＿ｍｏｄＧＩの値が小さいほど背景雑音の影響は小さいといえる。

ＷＦ部１５は、相関及びｍｏｄＧＩ計算部１４からｃｏｒ＿ｍｏｄＧＩ（Ｋ）の値に基づいて、抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）の適応速度を制御する時定数（λ）の値を設定し、この時定数の値を用いて抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）を算出する。

また、ＷＦ部１５は、入力信号の周波数領域信号Ｘ１（ｆ，Ｋ）に抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）を乗算して、抑圧処理後信号Ｙ（ｆ，Ｋ）を算出して、ＩＦＦＴ部１６に出力する。

図４は、第１の実施形態に係るＷＦ部１５の構成を示すブロック図である。

図４に示すように、第１の実施形態に係るＷＦ部１５は、入力信号取得部２１、時定数制御部２３、係数適応部２４、背景雑音抑圧処理部２５、抑圧処理後信号出力部２６を有する。

入力信号取得部２１は、入力信号の周波数領域信号Ｘ１（ｆ，Ｋ）と、相関及びｍｏｄＧＩ計算部１４からｃｏｒ＿ｍｏｄＧＩ（Ｋ）を取得するものである。

時定数制御部２３は、相関及びｍｏｄＧＩ計算部１４からｃｏｒ＿ｍｏｄＧＩ（Ｋ）の値に基づいて、抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）の適応速度を制御する時定数λの値を設定するものである。

ここで、時定数λの役割を簡単に述べる。ＷＦ部１５では、後述する抑圧係数適応部２４が、抑圧係数ｗｆ＿ｃｏｅｆ（ｆ，Ｋ）を算出するが、これに先立ち周波数ごとに背景雑音特性を計算しなければならない。背景雑音の推定は、例えば特許文献１の数１で行なわれ、ここにパラメータ（時定数）λが関与する。

時定数λは、０．０〜１．０の値をとり、背景雑音特性に対して瞬時入力値をどの程度反映するかをコントロールする役割を持つ。時定数λの値が大きいほど瞬時入力の影響が強くなり、時定数λの値が小さければ瞬時入力の影響は薄れる。よって、時定数λの値が大きければ、抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）の値は、その瞬間の入力が強く反映されて高速な係数適応が実現できる一方で、瞬時入力の影響が強くなるため係数値の変動が大きくなり、音質の自然さを低下させる可能性がある。一方、時定数λの値が小さい場合には、適応速度は遅いものの、得られる抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）は瞬時特性の影響を強く受けておらず過去の雑音特性が平均的に反映されたものになるので、音質の自然さが失われにくい。

よって、時定数制御部２３は、ｃｏｒ＿ｍｏｄ（Ｋ）の値が閾値Θより大きい場合（例えば、ｃｏｒ＿ｍｏｄ（Ｋ）が閾値Θ以上の場合）には、背景雑音の影響は大きいので、時定数λの値を大きい値とする。一方、時定数制御部２３は、ｃｏｒ＿ｍｏｄ（Ｋ）の値が閾値Θより小さい場合（例えば、ｃｏｒ＿ｍｏｄ（Ｋ）が閾値Θ未満の場合）には、背景雑音の影響が小さい、時定数λの値を小さくする。これにより、目的音や妨害音の影響を受けずに、背景雑音の特性に応じた係数適応を実現できるようになる。

なお、ここでは、時定数λの値の大きさを判断する閾値θが１個である場合を例示するが、閾値は２個以上設定してもよく、ｃｏｒ＿ｍｏｄＧＩが属する区間ごとに、きめ細かく時定数λを設定するようにしてもよい。

抑圧係数適応部２４は、時定数制御部２３により設定された時定数λを用いて、抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）を算出するものである。抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）は、例えば、特許文献１の数３を利用して求めることができる。

背景雑音抑圧処理部２５は、以下の（１１）式を用いて、抑圧係数適応部２４により算出された抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）を、入力信号の周波数領域信号Ｘ１（ｆ，Ｋ）に乗算して、抑圧処理後信号Ｙ（ｆ，Ｋ）を算出するものである。
Ｙ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）×ｗｆ＿ｃｏｅｆ（ｆ，Ｋ） …（１１）

抑圧処理後信号出力部は、抑圧処理後信号Ｙ（ｆ，Ｋ）を、ＩＦＦＴ部１６に出力するものである。

ＩＦＦＴ部１６は、周波数領域信号である信号Ｙ（ｆ，Ｋ）を時間領域信号ｙ（ｎ）に変換するものである。なお、後段回路が、周波数領域信号Ｙ（ｆ，Ｋ）をそのまま処理できる構成であれば、ＩＦＦＴ部１６を省略するようにしてもよい。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態に係る非目的音抑圧装置１における非目的音抑圧処理の動作を、図面を参照して詳細に説明する。

まず、マイクｍ＿１、ｍ＿２のそれぞれから図示しないＡＤ変換器を介して、１フレーム分（１つの処理単位分）の入力信号ｓ１（ｎ）、ｓ２（ｎ）がＦＦＴ部１１に供給される。ＦＦＴ部１１は、１フレーム分の入力信号ｓ１（ｎ）及びｓ２（ｎ）に基づく分析フレームＦＲＡＭＥ１（Ｋ）、ＦＲＡＭＥ２（Ｋ）についてフーリエ変換し、周波数領域で示される信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）を取得する。ＦＦＴ部１１で生成された信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）が、正面抑圧信号生成部１２及びコヒーレンス計算部１３に与えられる。

正面抑圧信号生成部１２は、ＦＦＴ部１１からの信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に基づいて、正面抑圧信号Ｎ（ｆ，Ｋ）を算出する。そして、正面抑圧信号生成部１２は、正面抑圧信号Ｎ（ｆ，Ｋ）に基づいて平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）を算出して、相関及びｍｏｄＧＩ計算部１４に与える。

コヒーレンス計算部１３は、ＦＦＴ部１１からの信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に基づいて、コヒーレンスＣＯＨ（Ｋ）を生成し、相関及びｍｏｄＧＩ計算部１４に与える。

相関及びｍｏｄＧＩ計算部１４は、例えば（９）式を用いて、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との関係性を示す特徴量である相関係数ｃｏｒ（Ｋ）を計算する。

また、相関及びｍｏｄＧＩ計算部１４は、相関係数ｃｏｒ（Ｋ）を用いて、当該相関係数ｃｏｒ（Ｋ）の振幅の傾きの正負の変動の激しさを表す特徴量であるｃｏｒ＿ｍｏｄＧＩ（Ｋ）を計算し、このｃｏｒ＿ｍｏｄＧＩ（Ｋ）をＷＦ部１５に与える。

ＷＦ部１５には、相関及びｍｏｄＧＩ計算部１４からｃｏｒ＿ｍｏｄＧＩ（Ｋ）と、入力信号の周波数領域信号Ｘ１（ｆ，Ｋ）とが入力される。

図５は、第１の実施形態に係るＷＦ部１５の時定数制御部２３における処理を示すフローチャートである。

まず、時定数制御部２３は、相関及びｍｏｄＧＩ計算部１４からのｃｏｒ＿ｍｏｄＧＩ（Ｋ）の値と閾値Θとを比較し（Ｓ１０１）、ｃｏｒ＿ｍｏｄＧＩ（Ｋ）の値が閾値Θより大きい場合、時定数λの値を大きい値とし（Ｓ１０２）、ｃｏｒ＿ｍｏｄＧＩ（Ｋ）の値が閾値Θ未満である場合、時定数λの値を小さい値とする（Ｓ１０２）。

時定数λは、０．０＜λ＜１．０の値をとるものであり、時定数λの値が１．０に近づくにつれ、瞬間に入力される信号に強く影響されるものであり、時定数λの値が０．０に近づくにつれ、瞬間に入力される信号の影響が弱くなるものである。従って、ｃｏｒ＿ｍｏｄＧＩ（Ｋ）の値と閾値Θとの比較結果に基づく、時定数λの値は相対的な大きさとすることができる。従って、ｃｏｒ＿ｍｏｄＧＩ（Ｋ）の値が閾値Θ未満の場合、時定数λの値をλ１とし、ｃｏｒ＿ｍｏｄＧＩ（Ｋ）の値が閾値Θ以上の場合の時定数λの値をλ２とすると、λ１＜λ２という大小関係であればよい。

そして、抑圧係数適応部２４は、時定数制御部２３により設定された時定数λを用いて、抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）を算出する。

つまり、時定数λの値が大きいほど、瞬時入力の影響が強く反映された高速な抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）を算出できる。一方、時定数λの値が小さければ、瞬時入力の影響は薄れ、抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）の適応速度は遅いものが、得られる抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）は、瞬時特性の影響を強く受けておらず、過去の雑音特性が平均的に反映されたものになる。そのため、この場合、音質の自然さが失われにくい。

また、背景雑音抑圧処理部２５は、（１１）式を用いて、抑圧係数適応部２４により算出された抑圧係数ｗｆ＿ｃｏｅｆ（ｆ,Ｋ）を、入力信号の周波数領域信号Ｘ１（ｆ，Ｋ）に乗算して、抑圧処理後信号Ｙ（ｆ，Ｋ）を算出し、抑圧処理後信号出力部が、抑圧処理後信号Ｙ（ｆ，Ｋ）を、ＩＦＦＴ部１６に出力する。

ＩＦＦＴ部１６は、周波数領域信号である信号Ｙ（ｆ，Ｋ）を時間領域信号ｙ（ｎ）に変換して、後段の音声処理装置２に出力する。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、正面抑圧信号とコヒーレンスの相関のｍｏｄＧＩは、背景雑音の影響が増すほど大きくなり、影響が小さいほど小さくなるという、特徴的な挙動に基づいて、ウィナーフィルタ（ＷＦ）の時定数を制御することができる。これにより、背景雑音の影響に基づいた適切な係数適応が可能になり、背景雑音抑圧処理の精度を高めることができる。

これにより、本発明をテレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理に適用することで、性能の向上が期待できる。

（Ｂ）第２の実施形態
次に、本発明に係る非目的音抑圧装置、方法及びプログラムの第２の実施形態を、図面を参照しながら説明する。

第２の実施形態では、本発明を利用して、例えば入力信号に対して、正面抑圧信号を減算して、周囲から到来した妨害音を抑圧する非目的音抑圧装置及び方法（妨害音抑圧装置及び方法）を例示する。

入力信号から正面抑圧信号を減算の際に、正面抑圧信号に減算係数を乗算することで減算の強度を制御することが多く、減算係数が大きすぎると抑圧性能が過剰で目的音声の歪が増し、減算係数が小さすぎると妨害音声の抑圧性能が不十分、というように音質に大きな影響を及ぼす。しかし、目的音声に重畳されている妨害音声の存在判定は難しく、減算係数を適切な値に設定することは困難である。

そこで、第２の実施形態では、入力信号への妨害音の寄与度を推定し、その結果に応じて周波数減算の減算係数を制御して、過不足なく妨害音を抑圧する非目的音抑圧装置及び方法（妨害音抑圧装置及び方法）を実現する。

（Ｂ−１）第２の実施形態の構成
図６は、第２の実施形態に係る非目的音抑圧装置１Ａの全体構成を示すブロック図である。

第２の実施形態に係る非目的音抑圧装置１Ａは、複数（図１では２個の場合を示している。）のマイクｍ＿１及びｍ＿２から入力信号ｓ１（ｎ）及びｓ２（ｎ）を取得し、入力信号への妨害音の寄与度を推定し、その結果に応じて周波数減算の減算係数を制御し、妨害音を抑圧した抑圧後信号を、後段の音声処理装置２に供給する。

音声処理装置２は、第１の実施形態と同様に、非目的音抑圧装置１Ａからの抑圧後信号を利用して、所定の音声処理を行なうものである。

図６に示すように、非目的音抑圧装置１Ａは、ＦＦＴ部１１、正面抑圧信号生成部１２、コヒーレンス計算部１３、相関計算部５４、周波数減算処理部５５、ＩＦＦＴ部１６を有する。

なお、ＦＦＴ部１１、正面抑圧信号生成部１２、コヒーレンス計算部１３及びＩＦＦＴ部１６は、基本的には、第１の実施形態で説明した同一又は対応する構成要素であるため詳細な説明は省略する。

非目的音抑圧装置１Ａは、プロセッサやメモリ等を有するコンピュータにプログラム（例えば、非目的音抑圧プログラム）をインストールして実現するようにしてもよく、この場合、非目的音抑圧装置１Ａは機能的には図６を用いて示すことができる。なお、非目的音抑圧装置１Ａについては一部又は全部をハードウェア的に実現するようにしてもよい。

相関計算部５４は、正面抑圧信号生成部１２から正面抑圧信号（平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ））と、コヒーレンス計算部１３からコヒーレンスＣＯＨ（Ｋ）とを取得し、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨとの相関係数ｃｏｒ（Ｋ）を算出する。また、相関計算部５４は、算出した相関係数ｃｏｒ（Ｋ）を周波数減算処理部５５に出力する。この相関係数ｃｏｒ（Ｋ）の計算方法は、第１の実施形態と同様の方法を用いることができ、例えば（９）式を用いることができる。

周波数減算処理部５５は、入力信号Ｘ１（ｆ，Ｋ）と、相関計算部５４から相関係数ｃｏｒ（Ｋ）と、正面抑圧信号生成部１２から正面抑圧信号Ｎ（ｆ，Ｋ）を取得し、相関係数ｃｏｒ（Ｋ）に基づいて、減算係数αを設定し、正面抑圧信号Ｎ（ｆ，Ｋ）に減算係数αを乗算したうえで、入力信号Ｘ１（ｆ，Ｋ）から減算して、抑圧後信号Ｙ（ｆ，Ｋ）を得る。

図７は、第２の実施形態に係る周波数減算処理部５５の構成を示すブロック図である。

図７に示すように、周波数減算処理部５５は、入力信号取得部３１、減算係数制御部３２、減算部３３、減算処理後信号出力部３４を有する。

入力信号取得部３１は、入力信号Ｘ１（ｆ，Ｋ）と、相関計算部５４から相関係数ｃｏｒ（Ｋ）と、正面抑圧信号生成部１２から正面抑圧信号Ｎ（ｆ，Ｋ）を取得するものである。

減算係数制御部３２は、相関係数ｃｏｒ（Ｋ）に基づいて減算係数αを設定するものである。

ここで、妨害音（ここでは妨害音声とする。）の寄与度の推定の原理を以下に述べる。まず、目的音がマイクｍ＿１及びｍ＿２の正面から到来し、妨害音がマイクｍ＿１及びｍ＿２の横方向（右方向、左方向）から到来するものとする。

このとき、正面抑圧信号Ｎ（ｆ，Ｋ）は、「妨害音が存在せず」、かつ、「目的音が存在する」場合は正面から到来する信号成分を捕捉するため、目的音成分の大きさに比例した信号値をもつ。ただし、図２のように正面方向の集音レベルは横方向と比較して小さいため、「妨害音が存在する」場合よりは小さい。

また、コヒーレンスＣＯＨは、入力信号の到来方位と深い関係を持つ特徴量である。よって、「妨害音が存在せず」、かつ、「目的音のみが存在する」場合には大きな値をもち、「妨害音が存在する」場合には小さい値をとる。

以上の挙動を妨害音の有無に着目して整理すると、以下のようになる。

・「妨害音が存在せず」、かつ、「目的音だけが存在する」場合には、コヒーレンスＣＯＨは大きな値で、正面抑圧信号は目的音成分の大きさに比例した値となる。

・「妨害音が存在する」場合にはコヒーレンスＣＯＨは小さい値で、正面抑圧信号は大きな値となる。

この挙動は正面抑圧信号Ｎ（ｆ，Ｋ）とコヒーレンスＣＯＨとの相関係数ｃｏｒ（Ｋ）を導入すると、以下のようになる。

・「妨害音が存在しない」場合には、相関係数ｃｏｒ（Ｋ）は正の値となる。

・「妨害音声が存在しない」場合には、相関係数ｃｏｒ（Ｋ）は負の値となる。

ところで、減算係数αは、妨害音の影響が小さいほど小さい値で、妨害音の影響が大きいほど大きい値であることが、妨害音抑圧の過不足を減らす観点からは望ましい（後述する（１２）式を参照）。

上述の通り、妨害音の有無によって正負が変動することから、相関係数ｃｏｒ（Ｋ）が正なら、減算係数αを小さくし、相関係数（Ｋ）が負なら、減算係数αを大きくするというような処理によって、妨害音の影響度に応じた減算係数の制御が実現できる。

そこで、第２の実施形態では、減算係数制御部３２が、正面抑圧信号Ｎ（ｆ，Ｋ）とコヒーレンスＣＯＨとの相関係数ｃｏｒ（Ｋ）に特有の挙動に基づいて周波数減算処理に用いる減算係数を制御する。

より具体的には、減算係数制御部３２は、妨害音声が存在する場合には抑圧効果を高めるために、減算係数αには大きな値を設定し、妨害音が存在しない場合には抑圧効果を弱めるために、減算係数αには小さな値を設定する。

なお、減算係数制御部３２は、例えば、相関係数の値と減算係数αの設定値との対応関係を記録した減算係数記憶部（図示しない）を設けて、この減算係数記憶部を参照して、減算係数αを設定するようにしてもよい。

減算部３３は、減算係数制御部３２から得た減算係数αを用いて、（１２）式のような減算処理を行なうものである。
Ｙ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）−α×Ｎ（ｆ，Ｋ） …（１２）

減算処理後信号出力部３４は、減算部３３により算出された抑圧処理後信号（減算処理後信号）Ｙ（ｆ，Ｋ）をＩＦＦＴ部１６に出力する。

（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態に係る非目的音抑圧装置１Ａにおける非目的音抑圧処理の動作を、図面を参照して詳細に説明する。

マイクｍ＿１、ｍ＿２のそれぞれから図示しないＡＤ変換器を介して、１フレーム分（１つの処理単位分）の入力信号ｓ１（ｎ）、ｓ２（ｎ）がＦＦＴ部１１に供給される。ＦＦＴ部１１は、１フレーム分の入力信号ｓ１（ｎ）及びｓ２（ｎ）に基づく分析フレームＦＲＡＭＥ１（Ｋ）、ＦＲＡＭＥ２（Ｋ）についてフーリエ変換し、周波数領域で示される信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）を取得する。ＦＦＴ部１１で生成された信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）が、正面抑圧信号生成部１２及びコヒーレンス計算部１３に与えられる。

正面抑圧信号生成部１２は、ＦＦＴ部１１からの信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に基づいて、正面抑圧信号Ｎ（ｆ，Ｋ）を算出する。そして、正面抑圧信号生成部１２は、正面抑圧信号Ｎ（ｆ，Ｋ）に基づいて平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）を算出して、相関計算部５４に与える。

コヒーレンス計算部１３は、ＦＦＴ部１１からの信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に基づいて、コヒーレンスＣＯＨ（Ｋ）を生成し、相関計算部５４に与える。

相関計算部５４は、例えば（９）式を用いて、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との関係性を示す特徴量である相関係数ｃｏｒ（Ｋ）を計算する。

周波数減算処理部５５には、入力信号Ｘ１（ｆ，Ｋ）と、相関計算部５４から相関係数ｃｏｒ（Ｋ）と、正面抑圧信号生成部１２から正面抑圧信号Ｎ（ｆ，Ｋ）が入力される。

図８は、第２の実施形態に係る周波数減算処理部５５の減算係数制御部３２における処理を示すフローチャートである。

まず、減算係数制御部３２は、相関計算部５４からの相関係数ｃｏｒ（Ｋ）の値が負であるか否かを判定する（Ｓ２０１）。そして、相関係数ｃｏｒ（Ｋ）の値が負である場合（すなわち、妨害音声が存在する場合）、抑圧効果を高めるために、減算係数αには大きな値を設定する（Ｓ２０２）。一方、相関係数ｃｏｒ（Ｋ）の値が負でない場合（すなわち、妨害音が存在しない場合）、抑圧効果を弱めるために、減算係数αには小さな値を設定する。

そして、減算部３３は、減算係数制御部３２により得られた減算係数αを用いて、（１２）式により、減算処理後信号Ｙ（ｆ，Ｋ）を求め、減算処理後信号出力部３４が、抑圧処理後信号（減算処理後信号）Ｙ（ｆ，Ｋ）をＩＦＦＴ部１６に出力する。

（Ｂ−３）第２の実施形態の効果
以上のように、第２の実施形態によれば、妨害音声が存在する場合は正面抑圧信号とコヒーレンスとの相関係数が負で、妨害音声が存在しない場合には正となるという特徴的な挙動に基づいて、目的音声に重畳された妨害音声の存在を検出し、この結果を用いて周波数減算処理に用いる減算係数を制御することで、妨害音声抑圧処理の精度を高めることができる。

（Ｃ）他の実施形態
上述した第１及び第２の実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用できる。

（Ｃ−１）上述した第１又は第２の実施形態において、抑圧係数又は減算係数は、周波数ビンごとに算出してもよい。この場合、相関係数も周波数ビンごとに算出することで実現することができる。

（Ｃ−２）第２の実施形態において、相関係数の正負に着目することで妨害音の有無が判定できるが、相関係数の絶対値に着目することで妨害音の影響の大きさが分かる。相関係数と妨害音の影響との具体的な関係は、相関係数が負で絶対値が小さければ妨害音の影響は小さく、相関係数が負で絶対値が大きければ妨害音の影響は大きい、というものである。よって、入力値が小さければ出力値は小さく、入力値が大きければ出力値が大きくなるような任意の関数（例えば二次関数）を用意し、これに相関係数の絶対値を入力して得た値を減算係数とすることで、妨害音の影響度（相関の絶対値の大きさ）に応じた減算係数を設定することができる。

１及び１Ａ…非目的音抑圧装置、１１…ＦＦＴ部、１２…正面抑圧信号生成部、１３…コヒーレンス計算部、１４…相関及びｍｏｄＧＩ計算部、１５…ＷＦ（ウィナーフィルター）部、５４…相関計算部、５５…周波数減算処理部、１６…ＩＦＦＴ部。

Claims

複数のマイクのそれぞれからの各入力信号を時間領域から周波数領域に変換して得た、複数の周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
前記複数の入力信号から得た信号に基づいてコヒーレンスを算出するコヒーレンス算出部と、
前記正面抑圧信号と前記コヒーレンスとの関係性を示す特徴量を算出する特徴量算出部と、
前記正面抑圧信号と前記コヒーレンスとの関係性を示す特徴量を用いて、前記入力信号に含まれる非目的音の抑圧に係る係数を設定し、当該係数を用いて前記入力信号に含まれる非目的音を抑圧した抑圧処理後信号を得る非目的音抑圧処理部と
を備え、
前記特徴量算出部が、前記正面抑圧信号と前記コヒーレンスとの関係性を示す相関を表す特徴量を算出し、
前記非目的音抑圧処理部が、前記相関を表す前記特徴量を用いて減算係数を設定し、前記正面抑圧信号と前記減算係数との積を前記入力信号から減算して、抑圧処理後信号を得る
ことを特徴とする非目的音抑圧装置。
前記非目的音抑圧処理部が、前記相関を表す前記特徴量の正負に応じて、前記減算係数を設定して、前記正面抑圧信号と前記減算係数との積を前記入力信号から減算して、抑圧処理後信号を得る
ことを特徴とする請求項１に記載の非目的音抑圧装置。
正面抑圧信号生成部が、複数のマイクのそれぞれからの各入力信号を時間領域から周波数領域に変換して得た、複数の周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、
コヒーレンス算出部が、前記複数の入力信号から得た信号に基づいてコヒーレンスを算出し、
特徴量算出部が、前記正面抑圧信号と前記コヒーレンスとの関係性を示す特徴量を算出し、
非目的音抑圧処理部が、前記正面抑圧信号と前記コヒーレンスとの関係性を示す特徴量を用いて、前記入力信号に含まれる非目的音の抑圧に係る係数を設定し、当該係数を用いて前記入力信号に含まれる非目的音を抑圧した抑圧処理後信号を得、
前記特徴量算出部が、前記正面抑圧信号と前記コヒーレンスとの関係性を示す相関を表す特徴量を算出し、
前記非目的音抑圧処理部が、前記相関を表す前記特徴量を用いて減算係数を設定し、前記正面抑圧信号と前記減算係数との積を前記入力信号から減算して、抑圧処理後信号を得る
ことを特徴とする非目的音抑圧方法。
コンピュータを、
複数のマイクのそれぞれからの各入力信号を時間領域から周波数領域に変換して得た、複数の周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
前記複数の入力信号から得た信号に基づいてコヒーレンスを算出するコヒーレンス算出部と、
前記正面抑圧信号と前記コヒーレンスとの関係性を示す特徴量を算出する特徴量算出部と、
前記正面抑圧信号と前記コヒーレンスとの関係性を示す特徴量を用いて、前記入力信号に含まれる非目的音の抑圧に係る係数を設定し、当該係数を用いて前記入力信号に含まれる非目的音を抑圧した抑圧処理後信号を得る非目的音抑圧処理部と
して機能させ、
前記特徴量算出部が、前記正面抑圧信号と前記コヒーレンスとの関係性を示す相関を表す特徴量を算出し、
前記非目的音抑圧処理部が、前記相関を表す前記特徴量を用いて減算係数を設定し、前記正面抑圧信号と前記減算係数との積を前記入力信号から減算して、抑圧処理後信号を得る
ことを特徴とする非目的音抑圧プログラム。