JP2013135433A

JP2013135433A - 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム

Info

Publication number: JP2013135433A
Application number: JP2011286450A
Authority: JP
Inventors: Chikako Matsumoto; 智佳子松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2013-07-08
Anticipated expiration: 2031-12-27
Also published as: US20130166286A1; JP5810903B2; US8886499B2

Abstract

【課題】マイクロホンの個体差または設置環境によらずに、特定方向からの音を聞き取り易くする音声処理装置を提供する。
【解決手段】音声処理装置１は、二つの音声入力部（２−１、２−２）により集音された音をフレームごとに時間周波数変換して得られた第１の周波数信号と第２の周波数信号間の位相差を複数の周波数帯域について算出する位相差分算出部１２と、複数の周波数帯域のうち、所定数のフレームにおいて所定の音源の方向について取り得る位相差の第１の範囲内にその位相差が含まれる率がその方向からの音に相当する条件を満たさない周波数帯域を検出する検出部１３と、検出された周波数帯域について、第１の範囲よりも拡張した第２の範囲を設定する範囲設定部１４と、第２の範囲内に位相差が含まれる場合の第１及び第２の周波数信号の振幅を、第２の範囲から位相差が外れた場合のその周波数信号の振幅よりも大きくする信号補正部１６とを有する。
【選択図】図２

Description

本発明は、例えば、複数のマイクロホンを用いて集音した音声のうち、特定方向からの音声を聞き取り易くする音声処理装置、音声処理方法及び音声処理用コンピュータプログラムに関する。

近年、電話会議システム、またはハンズフリー機能を備えた電話機といった、複数のマイクロホンにより音声を集音する音声処理装置が開発されている。このような音声処理装置において、集音した音声のうち、特定方向からの音声を聞き取り易くするために、その特定方向以外からの音声を抑制する技術が研究されている（例えば、特許文献１〜５を参照）。

例えば、特許文献１に開示された指向性集音装置は、複数方向に存在する音源からの音を周波数軸上の信号に変換し、周波数軸上の信号を抑制する抑制関数を算出し、その抑制関数を元の信号の周波数軸上の信号の振幅成分に乗算して周波数軸上の信号を補正する。この指向性集音装置は、各周波数軸上の信号の位相成分を同じ周波数ごとに算出し、位相成分の差分を算出し、その差分に基づいて、所定の方向に音源が存在する確率を示す確率値を特定する。そしてこの指向性集音装置は、その確率値に基づいて所定の方向の音源以外の音源からの音を抑制する抑制関数を算出する。

また、特許文献２に開示された雑音抑制装置は、２つ以上のマイクロホンが受信した音の音源を分離し、分離した音源のうち、目的音の音源方向を推定する。そしてこの雑音抑制装置は、目的音の音源方向を用いてマイクロホン間の位相差を検出し、検出された位相差を用いて位相差の中心値を更新し、更新された中心値を用いて生成された雑音抑制フィルタを用いて、マイクロホンが受信した音の雑音を抑制する。

また、特許文献３に開示された音声信号処理方法は、第１の入力音信号の音声区間と雑音区間を判定し、雑音区間における第１の入力音信号の電力の大きさが第１の閾値より大きいか否か判定する。第１の入力音信号の電力の大きさが第１の閾値以下である場合、この音声信号処理方法は、雑音区間における電力の大きさに基づいて第１の入力音信号の音声区間及び雑音区間に雑音を抑制する。一方、第１の入力音信号の電力の大きさが第１の閾値より大きい場合、この音声信号処理方法は、第１と第２の入力音信号の間の位相差に応じて第１の入力音信号を抑圧する。

さらに、特許文献４に開示された収音装置は、マイクロホンからの２チャネルの音声信号をフレーム毎に複数の周波数帯域に分割し、各チャネル及び周波数帯域毎にレベルまたは位相を算出し、レベル及び位相を過去から現在のフレームにわたって加重平均する。そしてこの収音装置は、加重平均されたレベルまたは位相のチャネル間差に基づき、対応する周波数帯域成分が何れの音源に属するか判定し、同一音源からの信号として判定された周波数帯域成分信号を周波数帯域を跨いで合成する。

さらに、特許文献５に開示された雑音抑制装置は、２つのマイクロホンで取得した音響信号からクロススペクトルを算出し、クロススペクトルの位相成分の時間変動を測定し、変動が少ない周波数成分を音声成分とし、変動が大きい成分を雑音成分とする。そしてこの雑音抑制装置は、雑音成分の振幅を抑圧するような補正係数を算出する。

特開２００７−３１８５２８号公報特開２０１０−１７６１０５号公報特開２０１１−９９９６７号公報特開２００３−７８９８８号公報特開２０１１−３３７１７号公報

しかしながら、音声を集音するために利用されるマイクロホンの個体差またはマイクロホンの設置環境によっては、各マイクロホンにより集音された特定方向に位置する音源からの音の位相差の実測値がその位相差の理論値と必ずしも一致しないことがある。その結果として、音源の方向が正しく推定されないおそれがあった。そのため、何れの先行技術でも、強調したい音声が誤って抑制されたり、あるいは、抑制すべき音声が抑制されないおそれがあった。

そこで本明細書は、マイクロホンの個体差または設置環境によらずに、特定方向からの音を聞き取り易くする音声処理装置を提供することを目的とする。

一つの実施形態によれば、音声処理装置が提供される。この音声処理装置は、第１の音声入力部により集音された音を表す第１の音声信号と、第２の音声入力部により集音された音を表す第２の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数信号と第２の周波数信号に変換する時間周波数変換部と、フレームごとに、第１の周波数信号と第２の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出する位相差分算出部と、フレームごとに、複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第１の範囲内に第１の周波数信号と第２の周波数信号間の位相差が含まれるか否か判定することにより、所定数のフレームにおいてその位相差が第１の範囲内に含まれる率を求め、複数の周波数帯域のうち、その率が所定の音源の方向からの音に相当する条件を満たさない周波数帯域を検出する検出部と、検出部により検出された周波数帯域について、その音源の方向についての第１の範囲よりも拡張した第２の範囲を設定する範囲設定部と、第２の範囲内に位相差が含まれる場合の第１及び第２の周波数信号の少なくとも一方の振幅を、第２の範囲から位相差が外れた場合のその一方の周波数信号の振幅よりも大きくすることで補正された第１及び第２の周波数信号を求める信号補正部と、補正された第１及び第２の周波数信号を、それぞれ、時間領域の補正後の第１及び第２の音声信号に変換する周波数時間変換部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された音声処理装置は、マイクロホンの個体差または設置環境によらずに、特定方向からの音を聞き取り易くできる。

一つの実施形態による音声処理装置を有する音声入力システムの概略構成図である。第１の実施形態による音声処理装置の概略構成図である。特定の方向に位置する音源からの音についての第１の周波数信号と第２の周波数信号間の位相差の一例を示す図である。二つのマイクロホンと各サブ方向範囲の関係の一例を示す図である。サブ方向範囲ごとの取り得る位相差の範囲の一例を示す図である。達成率の時間変化の一例を示す図である。周波数帯域ごとの達成率の最大値、平均値及び分散の一例を表すテーブルを示す。緩和周波数帯域設定処理の動作フローチャートである。（ａ）〜（ｃ）は、それぞれ、基準範囲と緩和周波数帯域について修正された非抑制範囲との関係の一例を示す図である。音声処理の動作フローチャートである。第２の実施形態による緩和周波数帯域設定処理の動作フローチャートである。第３の実施形態による音声処理装置の概略構成図である。

以下、図を参照しつつ、様々な実施形態による音声処理装置について説明する。
この音声処理装置は、複数の音声入力部によりそれぞれ集音された音声信号間の位相差を複数の周波数帯域のそれぞれごとに求め、各周波数帯域の位相差から特定の音源の方向を推定し、その音源の方向以外から到来した音声信号を減衰させる。その際、この音声処理装置は、周波数帯域ごとに、直近の一定期間においてその位相差が集音対象の音源の方向に相当する位相差の範囲内に含まれている率を求める。そしてこの音声処理装置は、その率が低い周波数帯域については、マイクロホンごとの個体差またはマイクロホンの設置環境に起因して位相差が変動しているものと推定して、音声信号を減衰させない位相差の範囲を拡張する。

図１は、一つの実施形態による音声処理装置を有する音声入力システムの概略構成図である。音声入力システム１は、例えば、電話会議システムであり、音声入力部２−１及び２−２と、アナログ／デジタル変換部３と、記憶部４と、記憶媒体アクセス装置５と、音声処理装置６と、制御部７と、通信部８と、出力部９とを有する。

音声入力部２−１及び２−２は、例えば、それぞれ、マイクロホンを有し、音声入力部２−１及び音声入力部２−２の周囲の音声を集音し、その音声の音量に応じたアナログ音声信号をアナログ−デジタル変換部３へ出力する。なお、音声入力部２−１及び音声入力部２−２は、音源の位置に応じて各音声入力部間で音声が達する時間が異なるように、例えば、所定の間隔（例えば、数cm〜数十cm）を空けて配置される。そのため、音源の方向によって、二つの音声入力部２−１及び２−２で得られた音声信号間の位相差も変化する。したがって、この位相差を調べることにより、音声処理装置６は、音源の方向を推定できる。

アナログ／デジタル変換部３は、例えば、アンプと、アナログ／デジタル変換器とを有する。アナログ／デジタル変換部３は、音声入力部２−１及び２−２から受け取ったアナログ音声信号をアンプによりそれぞれ増幅する。そしてアナログ／デジタル変換部３は、、その増幅されたアナログ音声信号をアナログ／デジタル変換器により所定のサンプリング周期でサンプリングすることにより、デジタル化された音声信号を生成する。なお、以下では、便宜上、音声入力部２−１により生成されたアナログ音声信号をデジタル化した音声信号を第１の音声信号と呼び、音声入力部２−２により生成されたアナログ音声信号をデジタル化した音声信号を第２の音声信号と呼ぶ。アナログ／デジタル変換部３は、第１及び第２の音声信号を音声処理装置６へ出力する。

記憶部４は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部４は、音声入力システム１で用いられる各種コンピュータプログラム及び各種のデータを記憶する。さらに記憶部４は、音声処理装置６により補正された第１及び第２の音声信号を記憶してもよい。

記憶媒体アクセス装置５は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体１０にアクセスする装置である。記憶媒体アクセス装置５は、例えば、記憶媒体１０に記憶された制御部７上で実行されるコンピュータプログラムを読み込み、制御部７に渡す。また、後述するように、制御部７が音声処理装置６としての機能を実現するコンピュータプログラムを実行する場合には、記憶媒体アクセス装置５は、記憶媒体１０からその音声処理用コンピュータプログラムを読み込んで、制御部７に渡してもよい。

音声処理装置６は、第１及び第２の音声信号に含まれる、特定の方向に位置する音源以外の音源からの音または雑音を減衰させることにより第１及び第２の音声信号を補正して、その特定の方向からの音を聞き取り易くする。そして音声処理装置６は、補正された第１及び第２の音声信号を出力する。

なお、音声処理装置６は、制御部７と一体的に形成されていてもよい。この場合、音声処理装置６により実行される音声処理は、例えば、制御部７が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールにより実行される。そして音声処理装置が生成し、または音声処理装置が利用する各種のデータは記憶部４に記憶される。
なお、音声処理装置６の詳細については後述する。

制御部７は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。制御部７は、音声入力システム１全体を制御する。
制御部７は、音声入力システム１が有するキーパッドなどの操作部（図示せず）を介したユーザの操作により、例えば、電話会議が開始されると、音声入力システム１と交換機あるいはSession Initiation Protocol（SIP）サーバとの間における、呼び出し、応答、切断などの呼制御処理を実行する。
そして制御部７は、音声処理装置６により補正された第１及び第２の音声信号を符号化し、その符号化された第１及び第２の音声信号を通信部８を介して出力する。制御部７は、例えば、国際電気通信連合電気通信標準化部門(International Telecommunication Union Telecommunication Standardization Sector、ITU-T)による勧告G.711、G722.1、あるいはG.729Aに規定された音声符号化技術を用いることができる。
また制御部７は、通信部８を介して他の機器から受け取った、符号化された音声信号を復号し、その復号された音声信号を出力部９を介してスピーカ（図示せず）へ出力してもよい。

通信部８は、音声処理装置６により補正された第１及び第２の音声信号を通信ネットワークを介して音声入力システム１と接続された他の装置へ出力する。そのために、通信部８は、その通信ネットワークに音声入力システム１を接続するためのインターフェース回路を有する。通信部８は、制御部７により符号化された音声信号を、所定の通信規格に従った送信用信号に変換する。そして通信部８は、その送信用信号を通信ネットワークへ出力する。また通信部８は、通信ネットワークから所定の通信形式に従った信号を受信し、その受信した信号から符号化された音声信号を取り出してもよい。そして通信部８は、符号化された音声信号を制御部７へ渡してもよい。なお、所定の通信規格は、例えば、インターネットプロトコル（Internet Protocol、IP）とすることができ、送信用信号及び受信信号は、IPパケット化された信号とすることができる。

出力部９は、制御部７から受け取った音声信号をスピーカ（図示せず）へ出力する。そのために、出力部９は、例えば、制御部７から受け取った音声信号をアナログ化するためのデジタル／アナログ変換器を有する。

以下、音声処理装置６の詳細について説明する。
図２は、音声処理装置６の概略構成図である。音声処理装置６は、時間周波数変換部１１と、位相差分算出部１２と、検出部１３と、抑制範囲設定部１４と、抑制関数算出部１５と、信号補正部１６と、周波数時間変換部１７とを有する。
音声処理装置６が有するこれらの各部は、それぞれ、別個の回路として音声処理装置６に実装されてもよく、あるいはそれらの各部の機能を実現する一つの集積回路であってもよい。あるいは、音声処理装置６が有するこれらの各部は、例えば、制御部７が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装されてもよい。

時間周波数変換部１１は、第１及び第２の音声信号を、それぞれ、所定の時間長（例えば、数10msec）を持つフレーム単位で周波数領域の第１及び第２の周波数信号へ変換する。そのために、時間周波数変換部１１は、例えば、第１及び第２の音声信号に対して、高速フーリエ変換(Fast Fourier Transform, FFT)、または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)といった時間周波数変換を実行することにより第１及び第２の周波数信号へ変換する。あるいは、時間周波数変換部１１は、Quadrature Mirror Filter(QMF)フィルタバンクあるいはウェーブレット変換を上記の時間周波数変換として用いてもよい。
時間周波数変換部１１は、フレームごとに、第１及び第２の周波数信号を位相差分算出部１２及び信号補正部１６へ出力する。

位相差分算出部１２は、第１及び第２の周波数信号を受け取る度に、複数の周波数帯域のそれぞれごとに第１の周波数信号の位相と第２の周波数信号の位相間の差を求める。例えば、位相差分算出部１２は、次式に従って周波数帯域ごとの位相差Δθ_fを求める。

ただし、S_1fは、第１の周波数信号のうちの周波数帯域fにおける成分を表し、S_2fは、第２の周波数信号のうちの周波数帯域fにおける成分を表す。またfsは、サンプリング周波数を表す。
位相差分算出部１２は、各周波数帯域の位相差Δθ_fを検出部１３及び信号補正部１６へ渡す。

検出部１３は、フレームごとに、複数の周波数帯域のそれぞれについて、集音したい音源の方向に対応する位相差が取り得る範囲内に、位相差Δθ_fが含まれるか否か判定する。そして検出部１３は、直近の所定数のフレームにおいて位相差Δθ_fがその範囲内に含まれる率を求め、その率が集音したい音源の方向からの音に相当する条件を満たさない周波数帯域を緩和周波数帯域として検出する。この緩和周波数帯域は、集音したい音源の方向に対応する位相差が取り得る範囲よりも広い範囲にわたって、第１及び第２の周波数信号を減衰させない周波数帯域となる。

図３は、特定の方向に位置する音源からの音についての第１の周波数信号と第２の周波数信号間の位相差の一例を示す図である。図３において、横軸は周波数を表し、縦軸は位相差を表す。グラフ３００は、あるフレームについて測定された周波数帯域ごとの位相差を表す。また点線３１０は、特定の音源方向に対する位相差の理論値を表し、範囲３２０は、音源の方向がその特定の音源方向を中心とする一定の方向幅の範囲で推定される場合に位相差が取り得る値の範囲を表す。さらに、拡大図３３０は、グラフ３００のうちの約500Hz以下についての部分を拡大表示する。図３に示されるように、約300Hzよりも低い周波数帯域については、位相差が範囲３２０からほとんど外れていることが分かる。これは、音声入力部２−１及び２−２が有するマイクロホンの個体差、またはそのマイクロホンの設置環境における音の反射、残響などに起因している。そしてこのような周波数帯域では、複数のフレームにわたって、その位相差が範囲３２０から外れ得る。

そこで、検出部１３は、周波数帯域ごとに、音源が存在する可能性のある方向範囲を分割した複数のサブ方向範囲のそれぞれについて、そのサブ方向範囲について取り得る位相差の範囲内に位相差Δθ_fが含まれるか否か判定する。なお、以下では、便宜上、各サブ方向範囲について取り得る位相差の範囲を、そのサブ方向範囲に対する位相差範囲と呼ぶ。

図４は、音声入力部２−１及び２−２と各サブ方向範囲の関係の一例を示す図である。図４に示すように、音声入力部２−１と２−２とを結ぶ線の中点Ｏにおける、その線の法線方向ndに対する角度が0であるとし、法線方向ndよりも反時計回り方向が正、時計回り方向が負と設定される。そして音源が存在する可能性のある方向範囲は、-π/2〜π/2であるとする。そして、各サブ方向範囲４０１−１〜４０１−ｎは、例えば、中点Ｏを原点として、音源が存在する可能性のある方向範囲をn等分した範囲の一つに設定される。なお、nは、2以上の整数である。例えば、n=3である場合、サブ方向範囲４０１−１〜４０１−３は、それぞれ、-π/2〜-π/6、-π/6〜π/6、π/6〜π/2となる。

検出部１３は、各サブ方向範囲を、順番に注目するサブ方向範囲に設定する。そして検出部１３は、各周波数帯域について、フレームごとに、位相差が注目するサブ方向範囲についての位相差範囲内に含まれるか否か判定する。なお、音声入力部２−１と音声入力部２−２が離れているほど、特定の音源からの音が音声入力部２−１に到達する時間と音声入力部２−２に到達する時間の差も大きくなり、その結果として位相差も大きくなる。そのため、位相差範囲の中心の位相差は、音声入力部２−１と音声入力部２−２間の距離に応じて設定される。またサブ方向範囲の幅が広いほど、そのサブ方向範囲についての位相差範囲も広くなる。さらに、音の周波数が高いほど、その音の波長が短くなるので、周波数が高くなるほど第１の周波数信号と第２の周波数信号間の位相差も大きくなる。そのため、位相差範囲は、周波数が高くなるほど広くなる。

図５は、サブ方向範囲ごとの位相差範囲の一例を示す図である。この例では、３個のサブ方向範囲が設定されているとする。そして位相差範囲５０１は、音声入力部２−１と音声入力部２−２とを結ぶ線に対する法線方向ndを含むサブ方向範囲に対応する。また位相差範囲５０２は、法線方向ndよりも音声入力部２−１側に近い方のサブ方向範囲に対応し、一方、位相差範囲５０３は、法線方向ndよりも音声入力部２−２側に近い方のサブ方向範囲に対応する。

検出部１３は、最新のフレームtについて、位相差が注目するサブ方向範囲についての位相差範囲内に含まれるか否かを表す判定値d(t)を求める。すなわち、検出部１３は、位相差が注目するサブ方向範囲についての位相差範囲内に含まれる場合、そのフレームtにおける注目するサブ方向範囲についての判定値d(t)を1とする。一方、位相差がその位相差範囲から外れていれば、検出部１３は、判定値d(t)を0とする。そして検出部１３は、各周波数帯域について、次式に従って、直近の所定数のフレームにおいて注目するサブ方向範囲に対する位相差が位相差範囲内に含まれる率を算出する。なお、この率を、以下では、便宜上、達成率と呼ぶ。

ここで、ARP_f ⁿ(t-1)及びARP_f ⁿ(t)は、それぞれ、フレーム(t-1)、フレームtについてのn番目のサブ方向範囲における周波数帯域fについての達成率を表す。またαは忘却係数であり、達成率の算出に利用するフレーム数の逆数を1から減じた値、例えば、0.9〜0.99の範囲内の値に設定される。（２）式から明らかなように、達成率ARP_f ⁿ(t)が取り得る値の範囲は、0〜1となる。なお、音声処理装置６の動作開始時においては（２）式により算出される達成率の値が不安定となる。そこで、音声処理装置６が動作開始してから最初のフレームに対しては（すなわち、t=1）、検出部１３は（２）式における忘却係数αを0とする。そしてtが10以下の場合、検出部１３は忘却係数αを0.5に設定する。そしてtが10を超えると、忘却係数αを0.9〜0.99に設定してもよい。

また検出部１３は、例えば、揮発性のメモリ回路を有し、直近の所定フレーム数分の達成率ARP_f ⁿ(t)をそのメモリ回路に記憶する。このフレーム数は、例えば、達成率の算出に利用されるフレーム数とすることができる。

図６は、達成率の時間変化の一例を示す図である。図６において横軸は時間を表し、縦軸は達成率を表す。また各グラフ６０１〜６０８は、それぞれ、周波数100Hz、200Hz、300Hz、600Hz、800Hz、1200Hz、1400Hz、2000Hzにおける達成率の時間変化を表す。図６に示されるように、300Hz以下の周波数帯域では、音声入力部２−１及び２−２が有するマイクロホンの個体差または設置環境に影響され、その周波数における位相差の実測値が理論値と異なっている。そのために、300Hz以下の周波数帯域では、時間経過によらず、達成率が非常に低いある一定値A以下となっている。一方、300Hzよりも高い周波数帯域では、達成率は殆どの時間において一定値Aより高くなることが分かる。

そこで検出部１３は、音声処理装置６が動作を開始してから達成率が安定する程度の時間(例えば、1sec〜2sec)が経過すると、フレームごとに、各サブ方向範囲及び各周波数帯域について、メモリ回路に記憶されている達成率ARP_f ⁿ(t)のうちの最大値MAXARP_f ⁿを求める。例えば、サブ方向範囲ni、周波数帯域fjについて計算され、メモリ回路に記憶されているM個の達成率ARP_fj ⁿⁱ(t)〜ARP_fj ⁿⁱ(t-(M+1))のうち、時刻mにおける達成率ARP_fj ⁿⁱ(m)が最大となる場合、MAXARP_fj ⁿⁱ=ARP_fj ⁿⁱ(m)となる。

さらに、検出部１３は、周波数帯域ごとに、全てのサブ方向範囲のMAXARP_f ⁿについての平均値AVMAXARP_f及び分散VMAXARP_fを算出する。一般に、特定の方向に集音対象となる音源が存在すれば、その特定の方向を含むサブ方向範囲のMAXARP_f ⁿは高くなる。そのため、平均値AVMAXARP_fも高くなる。そしてサブ方向範囲ごとのMAXARP_f ⁿの値もばらつくので、分散VMAXARP_fも相対的に大きくなる。しかし、マイクロホンの個体差またはマイクロホンの設置環境などにより、第１の周波数信号と第２の周波数信号間の位相差がばらつく周波数帯域では、全てのサブ方向範囲についてMAXARP_f ⁿが低くなるので、平均値AVMAXARP_fも低くなる。また、その周波数帯域では、サブ方向範囲ごとのMAXARP_f ⁿのばらつきも小さくなるので、分散VMAXARP_fも相対的に小さくなる。

そこで検出部１３は、周波数帯域ごとに、平均値AVMAXARP_fが所定の閾値Th1以下、かつ、分散VMAXARP_fが分散閾値Th2以下か否か判定する。そして平均値AVMAXARP_fが閾値Th1以下であり、かつ、分散VMAXARP_fが分散閾値Th2以下である周波数帯域について、検出部１３は、第１及び第２の周波数信号を減衰させない位相差の範囲である非抑制範囲を、基準範囲よりも広くすると判定する。なお、基準範囲は、集音対象とする音源からの音が存在する方向に対応する、取り得る位相差の範囲に相当する。したがって、音源の方向をサブ方向範囲ごとに検索する場合には、サブ方向範囲についての位相差範囲は、基準範囲と一致する。一方、平均値AVMAXARP_fが閾値Th1より高いか、または、分散VMAXARP_fが分散閾値Th2より大きい周波数帯域について、検出部１３は、非抑制範囲を基準範囲とすると判定する。そして検出部１３は、非抑制範囲を基準範囲よりも広くすると判定された周波数帯域である緩和周波数帯域を抑制範囲設定部１４へ通知する。

なお、閾値Th1は、例えば、全ての周波数帯域の達成率の最大値の分布に基づいて決定される。例えば、閾値Th1は、全ての周波数帯域においての達成率のうちの最大値を1から減じた値、あるいは、その値に0.8〜1.0未満の係数を乗じた値に設定される。
また分散閾値Th2は、例えば、フレームごとに求められた各周波数帯域について達成率の最大値MAXARP_fの分散のヒストグラムにおける、分散の最頻値または中央値以下で頻度が極小値となる分散値に設定される。

図７は、周波数帯域ごとの達成率の最大値MAXARP_f ⁿ、平均値AVMAXARP_f及び分散VMAXARP_fの一例を表すテーブル７００を示す。図７において、テーブル７００の上端の行７０１は周波数帯域を表す。この例では、人の可聴域に相当する周波数範囲が、128個の周波数帯域に分割されている。またこの例では、６個のサブ方向範囲が設定されており、テーブル７００の左端の列７０２に、それぞれのサブ方向範囲を表すインデックス'1'〜'6'が示されている。さらに、テーブル７００の下の２行には、それぞれ、各周波数帯域のMAXARP_f ⁿの平均値AVMAXARP_f及び分散VMAXARP_fが示されている。

図７を参照すると、例えば、周波数帯域'1'及び'2'については、平均値AVMAXARP_fが閾値Th1以下、かつ分散VMAXARP_fが分散閾値Th2以下となっている。そのため、周波数帯域'1'及び'2'については、非抑制範囲を基準範囲よりも広くすると判定される。

図８は、検出部１３により実行される、緩和周波数帯域設定処理の動作フローチャートである。
検出部１３は、複数のサブ方向範囲のそれぞれについて位相差Δθ_fがそのサブ方向範囲についての位相差範囲内に含まれるか否かを表す評価値を周波数帯域ごとに算出する（ステップＳ１０１）。そして検出部１３は、複数のサブ方向範囲のそれぞれについて周波数帯域ごとに評価値に基づいて達成率ARP(t)_f ⁿを更新する（ステップＳ１０２）。

検出部１３は、各サブ方向範囲について周波数帯域ごとに直近の所定数のフレームにおける達成率ARP(t)_f ⁿの最大値MAXARP_f ⁿを算出する（ステップＳ１０３）。さらに検出部１３は、周波数帯域ごとに、全てのサブ方向範囲におけるMAXARP_f ⁿの平均値AVMAXARP_f及び分散VMAXARP_fを算出する。そして検出部１３は、各周波数帯域のうち、AVMAXARP_fが閾値Th1以下かつVMAXARP_fが分散閾値Th2以下となる周波数帯域を緩和周波数帯域に設定する（ステップＳ１０４）。ステップＳ１０４の後、検出部１３は、緩和周波数帯域設定処理を終了する。

さらに、検出部１３は、集音対象となる音源が存在する方向である目的方向範囲を推定するために、周波数帯域ごとに、MAXARP_f ⁿが最大となるサブ方向範囲を特定する。そして検出部１３は、MAXARP_f ⁿが最大となる数が最も多いサブ方向範囲を目的方向範囲と推定する。なお、検出部１３は、音源の方向を推定する他の様々な技術の何れかに基づいて、目的方向範囲を推定してもよい。例えば、検出部１３は、特開2010-176105号公報に開示されたコスト関数に基づいて目的方向範囲を推定してもよい。そして検出部１３は、目的方向範囲を抑制範囲設定部１４へ通知する。

抑制範囲設定部１４は、範囲設定部の一例であり、周波数帯域ごとに、第１及び第２の周波数信号を減衰させる位相差の範囲である抑制範囲と、第１及び第２の周波数信号を減衰させない位相差の範囲である非抑制範囲とを設定する。その際、抑制範囲設定部１４は、検出部１３から通知された緩和周波数帯域については、非抑制範囲を目的方向範囲についての基準範囲よりも広くする。なお、抑制範囲と非抑制範囲とは互いに排他的な関係にあり、抑制範囲は、非抑制範囲に含まれない位相差の範囲となる。なお、抑制範囲と非抑制範囲との間には、抑制量の急激な変化を避けるために抑制量を徐々に変化させる中間領域が設けられてもよい。そこで、以下では、非抑制範囲の設定方法について説明する。

抑制範囲設定部１４は、例えば、不揮発性の半導体メモリ回路を有する。そのメモリ回路は、例えば、周波数帯域ごとに、一つのサブ方向範囲に対応する位相差の変動幅に対応する位相差の幅δ_fと、各サブ方向範囲n(n =1, 2, 3,...,N)についての位相差の中心値C_f ⁿとを記憶する。
抑制範囲設定部１４は、メモリ回路を参照して、検出部１３から通知された目的方向範囲に対応する各周波数帯域の位相差の中心値C_f ⁿを特定し、その中心値C_f ⁿを中心とする幅δ_fの領域を基準範囲とする。

次に、抑制範囲設定部１４は、検出部１３から緩和周波数帯域が通知されていると、その緩和周波数帯域については、非抑制範囲を基準範囲よりも広くする。

図９（ａ）〜図９（ｃ）は、それぞれ、基準範囲と緩和周波数帯域について修正された非抑制範囲との関係の一例を示す図である。図９（ａ）〜図９（ｃ）において、横軸は周波数を表し、縦軸は位相差を表す。図９（ａ）の例では、周波数f1以下の周波数帯域が緩和周波数帯域として通知されている。この例では、周波数f1以下の周波数帯域については、位相差-π〜πまで、全て非抑制範囲９０１に設定される。そして周波数f1よりも高い周波数帯域については、線形的に非抑制範囲９０１が狭くなり、f1よりも所定のオフセット値だけ高い周波数f2において非抑制範囲９０１の幅が基準範囲９００の幅と一致するように非抑制範囲９０１が設定される。なお、所定のオフセット値は、例えば、50Hz〜100Hz、あるいは周波数f1に0.1〜0.2を乗じた値に設定される。

図９（ｂ）の例でも、周波数f1以下の周波数帯域が緩和周波数帯域として通知されている。この場合、周波数f1において、非抑制範囲９１１は、予め設定された位相差の幅dずつ、基準範囲９１０の位相差の上限及び下限に対して拡張される。さらに、第１及び第２の周波数信号についての最小周波数から最大周波数まで、非抑制範囲が拡張される幅は、周波数が高くなるにつれて線形かつ単調減少するように設定される。

図９（ｃ）の例でも、周波数f1以下の周波数帯域が緩和周波数帯域として通知されている。この場合、周波数f1において、非抑制範囲９２１は、予め設定された位相差の幅dずつ、基準範囲９２０の位相差の上限及び下限に対して拡張される。さらに、第１及び第２の周波数信号についての最小周波数から最大周波数まで、非抑制範囲が拡張される幅は、周波数が高くなるにつれて、周波数の逆数に比例し、かつ単調減少するように、例えば、その拡張される幅dは(a/f+b)(ただし、a,bは正の定数)に設定される。

なお、非抑制範囲が拡張される幅dは、目的方向範囲から実際に測定された位相差が外れた量の絶対値に基づいて決定されてもよい。この場合には、検出部１３は、各サブ方向範囲について、位相差がそのサブ方向範囲についての位相差範囲より大きいとき、その位相差DPP_fと位相差範囲の上限値UPT_f ⁿとの差DDU_f ⁿ(=DPP_f-UPT_f ⁿ)を求める。そして検出部１３は、各サブ方向範囲について、DDU_f ⁿの最大値MaxDDU_f ⁿを求める。同様に、検出部１３は、各サブ方向範囲について、位相差がそのサブ方向範囲についての位相差範囲より小さいとき、その位相差DPP_fと位相差範囲の下限値LWT_f ⁿとの差DDL_f ⁿ(=DPP_f-LWT_f ⁿ)を求める。そして検出部１３は、各サブ方向範囲について、DDL_f ⁿの最小値MinDDL_f ⁿを求める。そして検出部１３は、目的方向範囲についての緩和周波数帯域のMinDDL_f ⁿ及びMaxDDU_f ⁿを抑制範囲設定部１４へ通知する。
抑制範囲設定部１４は、緩和周波数帯域のMinDDL_f ⁿ及びMaxDDU_f ⁿの絶対値|MinDDL_f ⁿ|及び|MaxDDU_f ⁿ|のうちの大きい方を非抑制範囲が拡張される幅dとする。

また、緩和周波数帯域における|MinDDL_f ⁿ|が0である場合、抑制範囲設定部１４は、非抑制範囲の位相差の上限のみを、上記の何れかの方法に従って拡げてもよい。同様に、緩和周波数帯域における|MaxDDU_f ⁿ|が0である場合、抑制範囲設定部１４は、非抑制範囲の位相差の下限のみを、上記の何れかの方法に従って拡げてもよい。

さらにまた、抑制範囲設定部１４は、非抑制範囲が拡張される幅dを周波数の関数として決定してもよい。この場合、その幅dを規定する複数の関数のそれぞれを規定する係数の組が、抑制範囲設定部１４が有するメモリ回路に予め記憶される。そして抑制範囲設定部１４は、通知された１以上の緩和周波数帯域についての|MinDDL_f ⁿ|及び|MaxDDU_f ⁿ|が、幅d未満となる関数の係数の組を選択する。そして抑制範囲設定部１４は、選択した関数に応じて、非抑制範囲を基準範囲よりも拡張してもよい。

例えば、周波数fと幅dの関数d=g(f)が、g(f)=a×f+bで表されるとする。なお、a,bは、定数である。そして抑制範囲設定部１４が有するメモリ回路には、(a,b)の組として、(i)(-0.008, 1.0)、(ii)(-0.015, 2.0)、(iii)(-0.02, 2.5)の３種類が記憶されているとする。この場合において、緩和周波数帯域fが2,3,4,5,6であり、各緩和周波数帯域についてのMinDDL_f ⁿ及びMaxDDU_f ⁿがそれぞれ以下の値であったとする。
f=2 MinDDL₂ ⁿ=-1.2 MaxDDU₂ ⁿ=1.0
f=3 MinDDL₃ ⁿ=-0.2 MaxDDU₃ ⁿ=0.3
f=4 MinDDL₄ ⁿ=-0.9 MaxDDU₄ ⁿ=1.1
f=5 MinDDL₅ ⁿ=-1.2 MaxDDU₅ ⁿ=1.8
f=6 MinDDL₆ ⁿ=-1.1 MaxDDU₆ ⁿ=1.5
この場合、定数の組(ii)及び(iii)であれば、全ての緩和周波数帯域についてのMinDDL_f ⁿ及びMaxDDU_f ⁿの絶対値が非抑制範囲を拡張する幅d以下となる。そこで、抑制範囲設定部１４は、定数の組(ii)及び(iii)のうち、各緩和周波数帯域について幅dが小さくなる方、すなわち、定数の組(ii)を選択し、その組に従って、各周波数帯域についての非抑制範囲の拡張幅dを決定する。

上記の何れの例についても、所定の周波数以下の周波数帯域が緩和周波数帯域とされているが、これは、一般に、長い波長の音の方が反射などの影響を受け易く、音源方向に相当する位相差と実測される位相差とが一致しなくなる可能性が高いためである。しかし、上記の例とは異なる規則に従って、抑制範囲設定部１４は、緩和周波数帯域における非抑制範囲の位相差の幅を基準範囲の位相差の幅より拡げてもよい。例えば、抑制範囲設定部１４は、通知された緩和周波数帯域のそれぞれについて、単純に予め定められた位相差の幅dだけ基準範囲の位相差の幅よりも拡げてもよい。また、位相差の幅dは、上述した|MaxDDU_f ⁿ|と|MinDDL_f ⁿ|のうちの大きい方の値に設定されてもよい。

抑制範囲設定部１４は、非抑制範囲を抑制関数算出部１５へ通知する。

抑制関数算出部１５は、集音対象とする音源が位置する方向と異なる方向から到来する音声信号を抑制するための抑制関数を算出する。そのために、抑制関数は、例えば、周波数帯域ごとに、第１の周波数信号と第２の周波数信号間の位相差Δθ_fに応じて信号を減衰させる程度を表すゲイン値G(f,Δθ_f)として設定される。そして抑制関数算出部１５は、例えば、周波数帯域fにおけるゲイン値G(f,Δθ_f)を以下のように設定する。
G(f,Δθ_f) = 0 (Δθ_fは、非抑制範囲内)
G(f,Δθ_f) = 10 (Δθ_fは、非抑制範囲外)

あるいは、抑制関数算出部１５は、他の方法に従って抑制関数を求めてもよい。例えば、抑制関数算出部１５は、特開2007-318528号公報に開示されている方法に従って、特定の方向に集音対象とする音源が存在する確率を、周波数帯域ごとに算出し、その確率に基づいて抑制関数を算出する。この場合も、抑制関数算出部１５は、位相差Δθ_fが非抑制範囲内に含まれているときのゲイン値G(f,Δθ_f)が、位相差Δθ_fが非抑制範囲から外れているときのゲイン値G(f,Δθ_f)よりも小さくする。

また、抑制関数算出部１５は、非抑制範囲から外れた位相差に対するゲイン値G(f,Δθ_f)を、位相差と非抑制範囲の上限または下限との差の絶対値が大きくなるにつれて単調増加させてもよい。

抑制関数算出部１５は、各周波数帯域のゲイン値G(f,Δθ_f)を信号補正部１６へ渡す。

信号補正部１６は、第１及び第２の周波数信号を、例えば、次式に従って、位相差分算出部１２から受け取った第１及び第２の周波数信号間の位相差Δθ_f及び抑制関数算出部１５から受け取ったゲイン値G(f,Δθ_f)に基づいて補正する。

ここで、X(f)は、第１あるいは第２の周波数信号を表し、Y(f)は、補正後の第１あるいは第２の周波数信号を表す。またfは周波数帯域を表す。（３）式から明らかなように、ゲイン値G(f,Δθ_f)が大きいほど、Y(f)は小さくなる。したがって、位相差Δθ_fが非抑制範囲から外れていると第１及び第２の周波数信号は信号補正部１６によって減衰される。なお、信号補正部１６は、（３）式に限らず、非抑制範囲から外れた位相差を持つ第１及び第２の周波数信号を減衰させる他の関数に従って、第１及び第２の周波数信号を補正してもよい。
信号補正部１６は、補正後の第１及び第２の周波数信号を周波数時間変換部１７へ渡す。

周波数時間変換部１７は、補正された第１及び第２の周波数信号を、それぞれ、時間周波数変換部１１が用いた時間周波数変換の逆変換を用いて時間領域の信号に変換することにより、補正された第１及び第２の音声信号を得る。
これにより、補正された第１及び第２の音声信号は、集音したい音源が位置する方向とは異なる方向からの音を減衰させることで、集音したい音源からの音を聞き取り易くした音声信号となる。

図１０は、音声処理装置６により実行される音声処理の動作フローチャートである。
音声処理装置６は、第１及び第２の音声信号を取得する（ステップＳ２０１）。そして第１及び第２の音声信号を時間周波数変換部１１へ渡す。時間周波数変換部１１は、第１及び第２の音声信号を周波数領域の第１及び第２の周波数信号に変換する（ステップＳ２０２）。そして時間周波数変換部１１は、第１及び第２の周波数信号を、位相差分算出部１２及び信号補正部１６へ渡す。

位相差分算出部１２は、複数の周波数帯域のそれぞれについて第１の周波数信号と第２の周波数信号間の位相差Δθ_fを算出する（ステップＳ２０３）。そして位相差分算出部１２は、各周波数帯域の位相差Δθ_fを検出部１３及び信号補正部１６へ渡す。

検出部１３は、各周波数帯域の位相差Δθ_fに基づいて、緩和周波数帯域を設定する（ステップＳ２０４）。また検出部１３は、音源方向を推定する（ステップＳ２０５）。そして検出部１３は、緩和周波数帯域及び推定した音源方向を抑制範囲設定部１４へ通知する。
抑制範囲設定部１４は、緩和周波数帯域の非抑制範囲が基準範囲よりも広くなるように、周波数帯域ごとの非抑制範囲を設定する（ステップＳ２０６）。そして抑制範囲設定部１４は、非抑制範囲を抑制関数算出部１５へ通知する。抑制関数算出部１５は、各周波数帯域について非抑制範囲外の位相差を持つ第１及び第２の周波数信号を減衰させる抑制関数を決定する（ステップＳ２０７）。そして抑制関数算出部１５は、抑制関数を信号補正部１６へ渡す。

信号補正部１６は、第１及び第２の周波数信号に抑制関数を乗じることでその周波数信号を補正する（ステップＳ２０８）。その際、信号補正部１６は、位相差Δθ_fが非抑制範囲に含まれる場合に、第１及び第２の周波数信号を減衰させる。そして信号補正部１６は、補正された第１及び第２の周波数信号を周波数時間変換部１７へ出力する。

周波数時間変換部１７は、補正された第１及び第２の周波数信号を時間領域の補正された第１及び第２の音声信号に変換する（ステップＳ２０９）。そして音声処理装置６は、補正された第１及び第２の音声信号を出力し、その後、音声処理を終了する。

以上に説明してきたように、この音声処理装置は、音声入力部の個体差または設置環境により、集音したい音源が位置する方向に対応する位相差と異なる位相差が実測された周波数帯域については、非抑制範囲を拡張する。これにより、この音声処理装置は、集音したい音源からの音が歪むことを防止して、その音を聞き取り易くできる。

次に、第２の実施形態による音声処理装置について説明する。第２の実施形態による音声処理装置は、予め、集音したい音源の方向が分かっている状態で緩和周波数帯域を設定する。

第２の実施形態による音声処理装置は、例えば、車載のハンズフリーホンといった、予め音源の方向が特定される音声入力システムに実装される。あるいは、第２の実施形態による音声処理装置は、サブ方向範囲ごとの緩和周波数帯域をキャリブレーション時に決定し、音声処理を実行する際には、キャリブレーション時に決定された緩和周波数帯域に基づいて非抑制範囲を決定する。

第２の実施形態による音声処理装置は、第１の実施形態による音声処理装置と比較して、検出部１３による処理が異なる。そこで以下では、検出部１３について説明する。第２の実施形態による音声処理装置のその他の構成要素については、第１の実施形態による音声処理装置の対応する構成要素についての説明を参照されたい。

本実施形態では、検出部１３は、例えば、音声処理装置６が実装された音声入力システム１の制御部７から、集音したい音源の方向を受け取る。そして検出部１３は、複数のサブ方向範囲のうち、集音したい音源の方向が含まれるサブ方向範囲を注目するサブ方向範囲として特定する。

図１１は、第２の実施形態による音声処理装置の検出部１３により実行される、緩和周波数帯域設定処理の動作フローチャートである。
検出部１３は、注目するサブ方向範囲についてのみ、位相差Δθ_fが位相差範囲内に含まれるか否かを表す評価値を周波数帯域ごとに算出する（ステップＳ３０１）。そして検出部１３は、注目するサブ方向範囲についてのみ、各周波数帯域についての評価値に基づいて、達成率ARP_f ⁿ⁰(t)を更新する（ステップＳ３０２）。ただし、noは、注目するサブ方向範囲を表す指標である。そして検出部１３は、各周波数帯域について、直近の所定数のフレームにおける達成率の最大値MAXARP_f ⁿ⁰を求める（ステップＳ３０３）。

検出部１３は、各周波数帯域について、達成率の最大値MAXARP_f ⁿ⁰を所定の閾値Th3と比較し、その最大値MAXARP_f ⁿ⁰が閾値Th3以下となる周波数帯域を緩和周波数帯域に設定する（ステップＳ３０４）。なお、閾値Th3は、例えば、特定の音源の方向からの音が達成率の算出に利用されるフレーム数に相当する期間連続したときに達成率が取り得る下限値に設定される。検出部１３は、注目するサブ方向範囲についての緩和周波数帯域を抑制範囲設定部１４へ通知する。
抑制範囲設定部１４は、注目するサブ方向範囲についての非抑制範囲を設定し、抑制関数算出部１５は、その非抑制範囲に基づいて抑制関数を決定する。

なお、この音声処理装置が実装された音声入力システムについてキャリブレーション処理が実行される際に、そのキャリブレーション処理において個々のサブ方向範囲について順次緩和周波数帯域が決定されるようにしてもよい。この場合、信号補正部１６は、個々のサブ方向範囲について緩和周波数帯域に基づいて決定された抑制関数を、信号補正部１６が有する不揮発性のメモリ回路に記憶しておいてもよい。そして、音声処理の実行時には、図１０に示された音声処理のうちのステップＳ２０４の処理は省略されてもよい。さらに、この音声処理装置が実装される音声入力システムにおいて、集音したい音源の方向が一つのサブ方向範囲に限定される場合には、ステップＳ２０５の処理も省略されてもよい。

この実施形態によれば、音声処理装置は、緩和周波数帯域を決定する際に音源の方向が予め分かっているため、その音源の方向についてのみ達成率を求めればよい。そのため、この音声処理装置は、緩和周波数帯域を決定するための演算量を削減できる。

なお、変形例によれば、この音声処理装置は、緩和周波数帯域を特定する際、注目するサブ方向範囲についての達成率の最大値を閾値Th3と比較する代わりに、達成率そのものを閾値Th3と比較してもよい。この実施形態では、音源の位置はあまり時間的にあまり変動しないと推定されるので、達成率の時間変化も小さいためである。

次に、第３の実施形態による音声処理装置について説明する。第３の実施形態による音声処理装置は、入力された音声信号全体に占める雑音成分の割合が低い場合に限り、その音声信号に基づいて緩和周波数帯域を決定する。

図１２は、第３の実施形態による音声処理装置の概略構成図である。第３の実施形態による音声処理装置６１は、時間周波数変換部１１と、位相差分算出部１２と、検出部１３と、抑制範囲設定部１４と、抑制関数算出部１５と、信号補正部１６と、周波数時間変換部１７と、雑音レベル決定部１８と、判定部１９とを有する。図１２において、第３の音声処理装置６１が有する各部には、図２に示された音声処理装置６の対応する構成要素と同一の参照番号を付した。

第３の実施形態による音声処理装置は、第１の実施形態による音声処理装置と比較して、雑音レベル決定部１８及び判定部１９を有する点で異なる。そこで以下では、雑音レベル決定部１８及び判定部１９について説明する。第３の実施形態による音声処理装置のその他の構成要素については、第１の実施形態による音声処理装置の対応する構成要素についての説明を参照されたい。

雑音レベル決定部１８は、音声入力部２−１及び２−２により集音された音声信号に基づいて定常雑音モデルを推定することにより、第１及び第２の音声信号に含まれる雑音のレベルを決定する。
一般に、各音声入力部からノイズの音源までの距離は、各音声入力部から集音しようとする音源までの距離よりも遠い。そのため、ノイズ成分のパワーは、集音しようとする音源から発した音声のパワーよりも小さい。そこで、雑音レベル決定部１８は、音声処理装置６１に入力された第１及び第２の音声信号の何れかについて、パワースペクトルが小さいフレームについて、各周波数帯域ごとのパワーの平均値を求めることにより、定常雑音モデルの推定ノイズスペクトルを算出する。
具体的には、雑音レベル決定部１８は、各フレームの第１及び第２の周波数信号を時間周波数変換部１１から受け取る度に、第１及び第２の周波数信号の一方のパワースペクトルの平均値pを次式に従って算出する。

ここでMは、周波数帯域の数である。またf_lowは、最も低い周波数帯域を表し、f_highは、最も高い周波数帯域を表す。またS(f)は、第１の周波数信号または第２の周波数信号である。なお、パワースペクトルを算出するのは、第１及び第２の周波数信号の何れでもよいが、ここでは、第１の周波数信号についてパワースペクトルを算出するものとする。

次に、雑音レベル決定部１８は、最新のフレームのパワースペクトルの平均値pと、ノイズ成分のパワーの上限に相当する閾値Thrとを比較する。なお、閾値Thrは、例えば、10dB〜20dBの範囲の何れかの値に設定される。そして雑音レベル決定部１８は、平均値pが閾値Thr未満である場合、各周波数帯域について次式に従ってパワースペクトルを時間方向に平均することにより、最新のフレームに対する推定ノイズスペクトルN_m(f)を算出する。

ただし、N_m-1(f)は、最新のフレームよりも一つ前のフレームに対する推定ノイズスペクトルであり、雑音レベル決定部１８が有するバッファから読み込まれる。また、係数βは忘却係数であり、例えば、0.9〜0.99の何れかの値に設定される。一方、平均値pが閾値Thr以上である場合、最新のフレームには、ノイズ以外の成分が含まれると推定されるので、雑音レベル決定部１８は推定ノイズスペクトルを更新しない。すなわち、雑音レベル決定部１８はN_m(f)=N_m-1(f)とする。

なお、雑音レベル決定部１８は、パワースペクトルの平均値pを算出する代わりに、全ての周波数帯域のパワースペクトルのうちの最大値を求め、その最大値を閾値Thrと比較してもよい。
また、特に雑音が白色雑音である場合、フレーム間でのパワースペクトルの相関性が無い。そこで雑音レベル決定部１８は、最新のフレームと直前のフレーム間における、全ての周波数帯域にわたるパワースペクトルの相互相関値が所定の閾値以下である場合に限り、雑音レベルを更新してもよい。なお、所定の閾値は、例えば、0.1とすることができる。

雑音レベル決定部１８は、推定ノイズスペクトルを判定部１９へ出力する。また、雑音レベル決定部１８は、最新のフレームに対する推定ノイズスペクトルを、雑音レベル決定部１８が有するバッファに記憶する。

判定部１９は、各フレームの第１及び第２の周波数信号を受け取る度に、そのフレームの第１及び第２の周波数信号が集音したい音源からの音を含んでいるか否か判定する。そのために、判定部１９は、第１及び第２の周波数信号のうちの推定ノイズスペクトルが算出されている方のパワースペクトルの平均値pと推定ノイズスペクトルの平均値npとの比(p/np)を求める。そして判定部１９は、その比(p/np)が所定の閾値よりも高い場合、そのフレームの第１及び第２の周波数信号には集音したい音源からの音が含まれていると判定する。そして判定部１９は、第１及び第２の周波数信号を位相差分算出部１２及び信号補正部１６へ渡す。そして音声処理装置６１は、そのフレームの第１及び第２の周波数信号を用いて、第１の実施形態と同様に、緩和周波数帯域及び非抑制範囲を決定し、その非抑制範囲に応じた抑制関数に従って第１及び第２の周波数信号を補正する。
一方、比(p/np)が所定の閾値以下である場合には、判定部１９は、第１及び第２の周波数成分に含まれる雑音成分が多いため、そのフレームの第１及び第２の周波数信号を緩和周波数帯域及び非抑制範囲の決定に利用しない。そして音声処理装置６１は、そのフレーム以前のフレームについて求められた抑制関数に基づいて、第１及び第２の周波数信号を補正する。あるいは、音声処理装置６１は、比(p/np)が所定の閾値以下であるフレームについては、第１及び第２の周波数信号を補正しなくてもよい。なお、所定の閾値は、例えば、2〜5に設定される。

この実施形態によれば、音声処理装置は、雑音成分が相対的に小さいフレームの音声信号に基づいて非抑制範囲及び抑制関数を決定するので、より適切な非抑制範囲及び抑制関数を決定できる。

次に、第４の実施形態による音声処理装置について説明する。第４の実施形態による音声処理装置は、検出部により求められる、直近の所定数のフレームにおいて位相差Δθ_fが位相差範囲内に含まれる達成率の最大値の平均値AVMAXARP_fに対する閾値Th1を、全ての周波数帯域の達成率の最大値の分布に基づいて決定する。

第４の実施形態による音声処理装置は、第１の実施形態による音声処理装置と比較して、検出部１３による処理が異なる。そこで以下では、検出部１３について説明する。第４の実施形態による音声処理装置のその他の構成要素については、第１の実施形態による音声処理装置の対応する構成要素の説明を参照されたい。

第１及び第２の音声入力部が有するマイクロホンが理想的であり、かつ、残響などが無視できる理想的な環境にそのマイクロホンが設置された場合、特定の方向に位置する音源からの音に対する第１の音声信号と第２の音声信号間の位相差の値は、ほぼ理論値となる。そのため、殆どのフレームについて、その特定の方向を含む特定のサブ方向範囲についての位相差範囲に算出された位相差Δθ_fが含まれることになる。一方、その他のサブ方向範囲についての位相差範囲には、算出された位相差Δθ_fは含まれない。その結果として、その特定のサブ方向範囲の達成率は1に近い値となり、その他のサブ方向範囲については達成率は0に近い値となる。そのため、このような理想的なマイクロホン及び理想的な設置環境下では、全ての周波数帯域における達成率のうちの最大値と最小値とは、以下のような関係となる。
達成率の最小値 ≒ (1.0 - 達成率の最大値)

しかし、音声入力部２−１及び２−２が有するマイクロホンの個体差、またはマイクロホン周辺の設置環境の影響によって第１の音声信号と第２の音声信号間の位相差の値が、その理論値と乖離する場合、何れのサブ方向範囲についても達成率が低くなることがある。その結果として、達成率の最小値は、(1.0 - 達成率の最大値)よりも小さな値になる。そこで、検出部１３は、全ての周波数帯域においての達成率のうちの最大値を求める。そして検出部１３は、(1.0 - 達成率の最大値)または(1.0 - 達成率の最大値)に0.8〜1.0未満の係数を乗じた値を達成率の最大値の平均値に対する閾値Th1とする。

この実施形態によれば、音声処理装置は、達成率の分布に基づいて、緩和周波数帯域を特定するための達成率の最大値の平均AVMAXARP_fに対する閾値Th1を決定する。そのため、この音声処理装置は、その閾値Th1を適切に決定できる。

次に、第５の実施形態による音声処理装置について説明する。第５の実施形態による音声処理装置は、位相差Δθ_fが各サブ方向範囲についての位相差範囲内に含まれる達成率の最大値の分散VMAXARP_fに対する分散閾値Th2を、全ての周波数帯域の達成率の最大値の分散の分布に基づいて決定する。

第５の実施形態による音声処理装置は、第１の実施形態による音声処理装置と比較して、検出部１３による処理が異なる。そこで以下では、検出部１３について説明する。第５の実施形態による音声処理装置のその他の構成要素については、第１の実施形態による音声処理装置の対応する構成要素の説明を参照されたい。

上記のように、音声入力部２−１及び２−２が有するマイクロホン間に個体差があったり、マイクロホン周辺の設置環境等の影響によって、第１の音声信号と第２の音声信号間の位相差の値が、その理論値と乖離することがある。このような場合、周波数帯域ごとの達成率の最大値の分散の分布において、分散の最頻値あるいは中央値以下で頻度の極小値が存在する傾向があるという知見を発明者は得た。さらに発明者は、その極小値に対応する分散よりも小さい分散値を持つ周波数帯域では、位相差分算出部により算出された位相差が時間的に変動し、何れのサブ方向範囲についても達成率が低下する傾向があるという知見を得た。
そこで、検出部１３は、フレームごとに、各周波数帯域について達成率の最大値MAXARP_fの分散を求め、その分散のヒストグラムを作成する。そして検出部１３は、分散の最頻値または中央値以下で頻度が極小値となる分散値を特定し、その分散値をそのフレームにおける分散閾値Th2とする。なお、検出部１３は、一つのフレームだけでなく、直近の複数のフレームについての各周波数帯域における達成率の最大値MAXARP_fの分散の分布を求めてもよい。

またこの実施形態において、検出部１３は、達成率の最大値の平均値に対する閾値Th1も、第４の実施形態と同様に、達成率の最大値の分布に基づいて決定してもよい。

この実施形態によれば、音声処理装置は、達成率の最大値の分散の分布に基づいて、緩和周波数帯域を特定するための達成率の最大値の分散VMAXARP_fに対する分散閾値Th2を決定する。そのため、この音声処理装置は、その分散閾値Th2を適切に決定できる。

なお、上記の各実施形態の変形例によれば、音声処理装置は、第１及び第２の音声信号のうちの一方のみを、モノラル音声信号として出力してもよい。この場合には、音声処理装置の信号補正部は、第１及び第２の周波数信号のうちの一方のみを抑制関数に基づいて補正すればよい。

また、他の変形例によれば、信号補正部は、非抑制範囲から外れた位相差を持つ第１及び第２の周波数信号を減衰させる代わりに、あるいは減衰させるとともに、非抑制範囲内の位相差を持つ第１及び第２の周波数信号を強調してもよい。

さらに、上記の各実施形態による音声処理装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
第１の音声入力部により集音された音を表す第１の音声信号と、第２の音声入力部により集音された音を表す第２の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数信号と第２の周波数信号に変換する時間周波数変換部と、
前記フレームごとに、前記第１の周波数信号と前記第２の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出する位相差分算出部と、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第１の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第１の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出する検出部と、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第１の範囲よりも拡張した第２の範囲を設定する範囲設定部と、
前記第２の範囲内に前記位相差が含まれる場合の前記第１及び第２の周波数信号の少なくとも一方の振幅を、前記第２の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第１及び第２の周波数信号を求める信号補正部と、
前記補正された第１及び第２の周波数信号を、それぞれ、時間領域の補正後の第１及び第２の音声信号に変換する周波数時間変換部と、
を有する音声処理装置。
（付記２）
前記検出部は、前記複数の周波数帯域のうち、前記率が第１の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する、付記１に記載の音声処理装置。
（付記３）
前記検出部は、前記複数の周波数帯域のそれぞれにおいて、複数の音源の方向のそれぞれについての前記所定数の前記フレームにおける前記率の最大値を求め、前記複数の周波数帯域のうち、前記複数の音源の方向のそれぞれにおける当該最大値の平均値が第２の閾値以下であり、かつ、前記複数の音源の方向のそれぞれにおける当該最大値の分散が第３の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する付記１に記載の音声処理装置。
（付記４）
前記検出部は、前記第２の閾値を、前記複数の音源の方向のうちの一つの方向からの音が前記所定数の前記フレームだけ連続したときに前記平均値が取り得る下限値に設定する、付記３に記載の音声処理装置。
（付記５）
前記検出部は、前記第３の閾値を、前記複数の音源の方向のうちの一つの方向からの音が前記所定数の前記フレームだけ連続したときに前記分散が取り得る下限値に設定する、付記３に記載の音声処理装置。
（付記６）
前記範囲設定部は、前記検出部により検出された周波数帯域について、当該周波数帯域における前記所定数のフレームのうちで前記位相差が前記第１の範囲から外れた量の最大値以上、前記第１の範囲を拡張することで前記第２の範囲を設定する、付記１〜５の何れか一項に記載の音声処理装置。
（付記７）
前記信号補正部は、前記第２の範囲から前記位相差が外れた場合の前記第１及び第２の周波数信号の少なくとも一方の周波数信号の振幅を減衰させることで補正された第１及び第２の周波数信号を求める付記１〜６の何れか一項に記載の音声処理装置。
（付記８）
前記信号補正部は、前記第２の範囲内に前記位相差が含まれる場合の前記第１及び第２の周波数信号の少なくとも一方の周波数信号の振幅を増幅させることで補正された第１及び第２の周波数信号を求める付記１〜６の何れか一項に記載の音声処理装置。
（付記９）
第１の音声入力部により集音された音を表す第１の音声信号と、第２の音声入力部により集音された音を表す第２の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数信号と第２の周波数信号に変換し、
前記フレームごとに、前記第１の周波数信号と前記第２の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第１の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第１の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第１の範囲よりも拡張した第２の範囲を設定し、
前記第２の範囲内に前記位相差が含まれる場合の前記第１及び第２の周波数信号の少なくとも一方の振幅を、前記第２の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第１及び第２の周波数信号を求め、
前記補正された第１及び第２の周波数信号を、それぞれ、時間領域の補正後の第１及び第２の音声信号に変換する、
ことを含む音声処理方法。
（付記１０）
第１の音声入力部により集音された音を表す第１の音声信号と、第２の音声入力部により集音された音を表す第２の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数信号と第２の周波数信号に変換し、
前記フレームごとに、前記第１の周波数信号と前記第２の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第１の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第１の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第１の範囲よりも拡張した第２の範囲を設定し、
前記第２の範囲内に前記位相差が含まれる場合の前記第１及び第２の周波数信号の少なくとも一方の振幅を、前記第２の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第１及び第２の周波数信号を求め、
前記補正された第１及び第２の周波数信号を、それぞれ、時間領域の補正後の第１及び第２の音声信号に変換する、
ことをコンピュータに実行させる音声処理用コンピュータプログラム。

１音声入力システム
２−１、２−２音声入力部
３アナログ／デジタル変換部
４記憶部
５記憶媒体アクセス装置
６、６１音声処理装置
７制御部
８通信部
９出力部
１０記憶媒体
１１時間周波数変換部
１２位相差分算出部
１３検出部
１４抑制範囲設定部
１５抑制関数算出部
１６信号補正部
１７周波数時間変換部
１８雑音レベル算出部
１９判定部

Claims

第１の音声入力部により集音された音を表す第１の音声信号と、第２の音声入力部により集音された音を表す第２の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数信号と第２の周波数信号に変換する時間周波数変換部と、
前記フレームごとに、前記第１の周波数信号と前記第２の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出する位相差分算出部と、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第１の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第１の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出する検出部と、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第１の範囲よりも拡張した第２の範囲を設定する範囲設定部と、
前記第２の範囲内に前記位相差が含まれる場合の前記第１及び第２の周波数信号の少なくとも一方の振幅を、前記第２の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第１及び第２の周波数信号を求める信号補正部と、
前記補正された第１及び第２の周波数信号を、それぞれ、時間領域の補正後の第１及び第２の音声信号に変換する周波数時間変換部と、
を有する音声処理装置。
前記検出部は、前記複数の周波数帯域のうち、前記率が第１の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する、請求項１に記載の音声処理装置。
前記検出部は、前記複数の周波数帯域のそれぞれにおいて、複数の音源の方向のそれぞれについての前記所定数の前記フレームにおける前記率の最大値を求め、前記複数の周波数帯域のうち、前記複数の音源の方向のそれぞれにおける当該最大値の平均値が第２の閾値以下であり、かつ、前記複数の音源の方向のそれぞれにおける当該最大値の分散が第３の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する請求項１に記載の音声処理装置。
前記範囲設定部は、前記検出部により検出された周波数帯域について、当該周波数帯域における前記所定数のフレームのうちで前記位相差が前記第１の範囲から外れた量の最大値以上、前記第１の範囲を拡張することで前記第２の範囲を設定する、請求項１〜３の何れか一項に記載の音声処理装置。
第１の音声入力部により集音された音を表す第１の音声信号と、第２の音声入力部により集音された音を表す第２の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数信号と第２の周波数信号に変換し、
前記フレームごとに、前記第１の周波数信号と前記第２の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第１の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第１の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第１の範囲よりも拡張した第２の範囲を設定し、
前記第２の範囲内に前記位相差が含まれる場合の前記第１及び第２の周波数信号の少なくとも一方の振幅を、前記第２の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第１及び第２の周波数信号を求め、
前記補正された第１及び第２の周波数信号を、それぞれ、時間領域の補正後の第１及び第２の音声信号に変換する、
ことを含む音声処理方法。
第１の音声入力部により集音された音を表す第１の音声信号と、第２の音声入力部により集音された音を表す第２の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第１の周波数信号と第２の周波数信号に変換し、
前記フレームごとに、前記第１の周波数信号と前記第２の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第１の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第１の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第１の範囲よりも拡張した第２の範囲を設定し、
前記第２の範囲内に前記位相差が含まれる場合の前記第１及び第２の周波数信号の少なくとも一方の振幅を、前記第２の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第１及び第２の周波数信号を求め、
前記補正された第１及び第２の周波数信号を、それぞれ、時間領域の補正後の第１及び第２の音声信号に変換する、
ことをコンピュータに実行させる音声処理用コンピュータプログラム。