JP2009047803A

JP2009047803A - 音響信号処理方法及び装置

Info

Publication number: JP2009047803A
Application number: JP2007212304A
Authority: JP
Inventors: Ko Amada; 皇天田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-08-16
Filing date: 2007-08-16
Publication date: 2009-03-05
Anticipated expiration: 2027-08-16
Also published as: JP4469882B2; US20090048824A1

Abstract

【課題】複雑な計算をせずに適切な重み係数を生成して高い雑音抑圧効果を実現することを可能とする音響信号処理方法を提供する。
【解決手段】重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、重み付けに用いる重み係数を少なくとも一つの辞書に用意するステップと；入力音響信号に含まれる雑音成分を推定するステップと；前記入力音響信号の前記雑音成分に依存する特徴量を求めるステップと；前記特徴量に対応する重み係数を前記辞書から選択するステップと；選択された重み係数を用いて前記入力音響信号に対して重み付けを行い、処理された出力音響信号を生成するステップと；を有する。
【選択図】図１

Description

この発明は、入力音響信号中の雑音成分を抑圧可能な音響信号処理方法及び装置に関する。

携帯電話やコードレスホンで通話を行う場合、話者の声に混入する周囲の雑音は通話の妨げとなる。また、音声認識技術を実環境で利用する場合、周囲の雑音は認識率を下げる要因となりうる。このような雑音の問題を解決する方法の一つとして、ノイズキャンセラがしばしば用いられる。

非特許文献１及び２に開示された最小平均自乗誤差法（Minimum Mean-Square Error ：ＭＭＳＥ）は、ノイズキャンセラの中でも雑音抑圧量や主観評価値が高く、総合的に優れた方式として広く用いられている手法の一つである。ＭＭＳＥ法では、マイクロホンからの入力音響信号の周波数成分毎に重み係数を乗じることによって、目的音響信号の推定値を得る。重み係数の決定には、入力音響信号に含まれる目的音響信号と雑音成分がそれぞれ独立なガウス分布に従うと仮定し、解析的に重み係数を求める手法を用いている。

一方、複数のマイクロホンを用いた雑音抑圧技術として非特許文献３が挙げられる。非特許文献３では、チャネル間のクロススペクトルを利用してウィナーフィルタを構成することで効果的に雑音抑圧を行う方法が示されている。
Y. Ephraim, D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Trans. ASSP vol. 32, 1109-1121, 1984. Y. Ephraim, D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Trans. ASSP vol. 33, 443-445, 1985. R.Zelinski, "A Microphone Array with Adaptive Post-filtering for Noise Reduction," IEEE ICASSP88 pp.2578-2581, 1988

目的音響信号や雑音成分にガウス分布のような統計モデルを適用して統計的に重み係数を求める方法は、複雑な関数計算が必要であり、計算量が増加するという問題がある。また、実際には目的音響信号や雑音成分は必ずしもガウス分布等の事前に仮定した統計モデルに従うとは限らず、目的音響信号や雑音成分の統計モデルからの乖離が大きい場合、求められる重み係数が適切でなく、雑音抑圧性能が低下するという問題がある。

本発明は、複雑な計算をせずに適切な重み係数を生成して高い雑音抑圧効果を実現することを可能とすることにある。

本発明の一第１の観点によると、重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、重み付けに用いる重み係数を少なくとも一つの辞書に用意するステップと；入力音響信号に含まれる雑音成分を推定するステップと；前記入力音響信号の前記雑音成分に依存する特徴量を求めるステップと；前記特徴量に対応する重み係数を前記辞書から選択するステップと；選択された重み係数を用いて前記入力音響信号に対して重み付けを行い、処理された出力音響信号を生成するステップと；を具備する音響信号処理方法を提供する。

本発明の第２の観点によると、複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出するステップと；前記特徴量に従って少なくとも一つの辞書から学習によって事前に求められた重み係数を選択するステップと；前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って統合音響信号を生成するステップと；前記統合音響信号に前記重み係数を用いて重み付けを行い、処理された出力音響信号を生成するステップと；を具備する音響信号処理方法を提供する。

本発明の第３の観点によると、重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、重み付けに用いる重み係数を少なくとも一つの辞書に用意する処理と；入力音響信号に含まれる雑音成分を推定する処理と；前記入力音響信号の前記雑音成分に依存する特徴量を求める処理と；前記特徴量に対応する重み係数を前記辞書から選択する処理と；選択された重み係数を用いて前記入力音響信号に対して重み付けを行い、処理された出力音響信号を生成する処理と；を含む音響信号処理をコンピュータに行わせるためのプログラムを提供する。

本発明の第４の観点によると、複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出する処理と；前記特徴量に従って少なくとも一つの辞書から学習によって事前に求められた重み係数を選択する処理と；前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って統合音響信号を生成する処理と；前記統合音響信号に前記重み係数を用いて重み付けを行い、処理された出力音響信号を生成する処理と；を含む音響信号処理をコンピュータに行わせるためのプログラムを提供する。

本発明によれば、学習により重み係数が得られるため、複雑な計算をせずに学習結果を参照するだけで重み係数を得ることが可能である。また、統計モデルを経由せずに信号の性質を直接重み係数に反映できるため、対象とする音声や雑音の統計的性質が統計モデルと異なる場合は、ＭＭＳＥ等の統計モデルを用いる手法よりも高い雑音抑圧効果を実現することが可能となる。

以下、本発明の実施形態について説明する。
（第１の実施形態）
図１に示されるように、本発明の第１の実施形態に従う音響信号処理装置では、複数（Ｎ）のマイクロホン１０１−１〜１０１−ＮからのＮチャネルの入力音響信号が特徴量算出部１０２及び重み付部１０５−１〜１０５−Ｎに入力される。特徴量算出部１０２では、入力音響信号に含まれる雑音成分の推定を含む処理によって入力音響信号の特徴量が算出される。重み係数辞書１０３には、予め学習部１００による事前学習により求められた多数の重み係数が格納されている。

選択部１０４では、特徴量算出部１０２により算出された特徴量に対応する重み係数が重み係数辞書１０３から選択される。重み付け部１０５-１〜１０５-Ｎでは、入力された入力音響信号に選択部１０４により選択された重み係数が乗じられることにより、雑音が抑圧された出力音響信号が生成される。

次に、図２のフローチャートを参照して本実施形態の処理手順について説明する。マイクロホン１０１−１〜Ｎから出力される電気信号、すなわち入力音響信号ｘ１(t)〜ｘＮ(t)（Ｎは１以上）は、特徴量算出部１０２に入力される。特徴量算出部１０２では、入力音響信号ｘ１(t)〜ｘＮ(t)に含まれる雑音成分が推定され（ステップＳ１１）、雑音成分に依存する、入力音響信号ｘ１(t)〜ｘＮ(t)の特徴量が算出される（ステップＳ１２）。このような特徴量の例としては、次式で与えられる信号対雑音比（Signal-to-Noise Ratio:ＳＮＲ）があげられる。

ただし、ＳＧ及びＮＳはそれぞれ入力音響信号の信号成分及び雑音成分のパワー、ｎはチャネル番号（マイクロホン１０１−１〜１０１−Ｎの番号）、ｔは時刻である。

雑音成分の推定は通常、所望の信号成分（目的音響信号）の存在しない区間での入力音響信号を用いて行われる。式（１）のＳＮＲn(t)を逐次更新してもよく、ある時間幅で平均化してもよい。

次に、選択部１０４においてＳＮＲn(t)に対応する重み係数が重み係数辞書１０３から選択される（ステップＳ１３）。重み係数辞書１０３には、事前にＳＮＲn(t)毎に学習された重み係数が格納されている。学習の詳細については、後に詳しく説明する。

最後に、重み付け部１０５において選択部１０４で選択された重み係数を入力音響信号ｘ１(t)〜ｘＮ(t)に乗じて重み付けを行うことで、雑音が抑圧された出力音響信号ｙ１(t)〜ｙＮ(t)が生成される（ステップＳ１４）。

重み係数辞書１０３においては、重み係数をチャネル毎に独立に用意してもよいし、チャネル間で共通としてもよい。マイクロホン１０１−１〜１０１−Ｎが隣接している場合は、チャネル間で重み係数を共通化することで、性能を落さずに重み係数辞書１０３に用いる記憶容量を減らすことが可能である。

特徴量算出部１０２においても、特徴量をチャネル毎に独立に算出してもよいが、入力音響信号ｘ１(t)〜ｘＮ(t)の信号成分及び雑音成分のパワーを複数のチャネルに渡って平均化することで、統計的なばらつきを低減することも有効である。また、チャネル毎に独立に特徴量を求めて各特徴量を要素とするベクトル求め、多次元の特徴量とする等、特徴量の構成について種々の変形を行うことが可能である。

重み付け部１０５-１〜１０５-Ｎにおいて時間領域でのフィルタリングを行う場合、出力音響信号ｙ１(t)〜ｙＮ(t)＝ｙn(t)は重み係数ｗnと入力音響信号ｘ１(t)〜ｘＮ(t)＝ｘn(t)との畳み込みとして、次式で表される。

ただし、重み係数はｗn={ｗn(0), ｗn(1), ..., ｗn(L-1)}と表される。Ｌはフィルタ長である。

本実施形態によれば、事前学習により得られた重み係数辞書１０３から入力音響信号の特徴量に基づき重み付けに用いる重み係数を選択することにより、自動車内など雑音の種類が限られている環境の場合は、一般的な統計モデルを用いる手法に比べ、より効果的に雑音抑圧性能を向上させることができる。この場合、学習部１００によってどのように事前学習を行うかが重要なポイントとなるが、詳細な学習方法に関しては以下の実施形態により説明する。

（第２の実施形態）
図３に示される本発明の第２の実施形態に係る音響信号処理装置では、マイクロホン１０１−１〜１１０−Ｎ（Ｎは１以上）からの入力音響信号はフーリエ変換部１１０−１〜１１０−Ｎに入力され、時間領域の信号から周波数領域の信号へと変換される。

特徴量算出部１０２は、フーリエ変換部１１０−１〜１１０-Ｎの出力信号から入力音響信号中の雑音成分を推定する推定雑音算出部１０８と、入力音響信号の事前ＳＮＲを算出する事前ＳＮＲ算出部１０６、及び入力音響信号の事後ＳＮＲを算出する事後ＳＮＲ算出部１０７を有する。算出された事前ＳＮＲ及び事後ＳＮＲは選択部１０４に与えられ、重み係数辞書１０３から重み係数を選択するために用いられる。

重み付け部１０５-１〜１０５-Ｎでは、フーリエ変換部１１０−１〜１１０-Ｎからの出力信号に対して選択部１０４により選択された重み係数によって重み付けがなされる。重み付け後の信号は、フーリエ逆変換部１１１−１〜１１１−Ｎにより時間領域の出力音響信号とされる。

次に、本実施形態の動作原理について説明する。ｎ番目のマイクロホン１０１−ｎからの入力音響信号ｘn(t)は、フーリエ変換部１１０−ｎにより周波数成分Ｙn(l,k)に変換される。ｌはフレーム番号、ｋは周波数番号である。フーリエ変換は通常、所定のフレーム長（Ｌサンプル）毎に行われ、Ｋ個の周波数成分が得られる。実際にはＫ個の周波数成分のほぼ半数は対称な成分であるため、それらを除いて処理することが一般的である。また、入力音響信号として周波数領域に変換された信号が入力される場合は、フーリエ変換部１１０−１〜１１０-Ｎは不要である。以降の説明では、チャネル番号ｎを省略し、Ｙn(l,k)をＹ(l,k)のように表記する。

本実施形態では、

のように入力音響信号Ｙ(l,k)が目的音響信号Ｘ(l,k)と雑音成分Ｎ(l,k)の和として表される場合に、目的音響信号の推定値Ｘ’(l,k)を求める。

雑音推定部１０８では、雑音の統計的性質、例えば最も簡単な例として雑音パワーの平均値（推定雑音パワーという）が推定される。推定雑音パワーの算出方法には様々の方法があるが、例えば雑音区間の検出を行い、検出された雑音区間の平均パワーを求めるといった手法が簡便である。他の方法として、Rainer Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics, " IEEE Transactions on speech and audio processing, vol. 9, no. 5, pp. 504--512, July 2001.（文献４）や、文献４で挙げられている参考文献等にも詳細な記述があり、さまざまな手法が研究されている。

次に、事後ＳＮＲ算出部１０７の動作を述べる。事後ＳＮＲは入力音響信号のパワーと雑音成分のパワーとの比で定義され、ここでは

と表すことにする。ただし、Ｒ²(l,k)とλd(l,k)はそれぞれ第ｌフレームのｋ番目の帯域の入力音響信号のパワー（振幅スペクトルの２乗）と推定雑音成分のパワーである。

次に、事前ＳＮＲ算出部１０６の動作を述べる。事前ＳＮＲは入力音響信号に含まれる目的音響信号のパワーと雑音成分のパワーとの比と定義される。目的音響信号は直接観測することができないため、事前ＳＮＲの推定値を求める。事前ＳＮＲの代表的な算出法として、例えば非特許文献１に記載された

があげられる。ただし、Ｇ(l-1,k)は１フレーム前の重み係数、αは平滑化係数、Ｐ［］は［］内の値が負であればそれを０に置き換える演算である。事前ＳＮＲの算出法には、式（５）中のＰ[γ(l,k)-1]そのものを用いたり、あるいは式（５）中のαを適応的に変えたりするなど、さまざまな変形が考えられる。

上述した事前ＳＮＲ及び事後ＳＮＲは、信号と雑音の比の形で表現されているが、分母と分子を独立に扱うことも可能である。例えば、事後ＳＮＲであれば式（４）の分母と分子を要素とする２次元ベクトル（Ｒ²(l,k)，λｄ(l,k)）で表し、事前ＳＮＲであれば式（５）の分子と分母を要素とする２次元ベクトルに分ける方法などがあげられる。また、これらの要素の一部を用いる方法（事前ＳＮＲの第１要素と事後ＳＮＲの合計３次元等）も可能である。さらに、他のチャネルの入力音響信号のＳＮＲを含めることや、全チャネルの入力音響信号のＳＮＲで一つの特徴量を構成し、全チャネルの入力音響信号間で当該一つの特徴量を共有することも可能である。

次に、選択部１０４の動作について説明する。選択部１０４では、特徴量算出部１０２から入力される事前ＳＮＲξ(l,k)と事後ＳＮＲγ(l,k)、すなわち特徴量ｆ(l,k)=(ξ(l,k),γ(l,k))に対応する重み係数が重み係数辞書１０３から選択される。重み係数辞書１０３には、事前に学習された多数の重み係数が格納されている。

重み係数辞書１０３における特徴量ｆ(l,k)=(ξ(l,k),γ(l,k))と重み係数Ｗ(l,k)との対応づけの方法としては、事前に複数の代表的な特徴量（代表点）と各々の特徴量に対応する重み係数を用意しておき、入力された特徴量に最も近い代表ベクトルを選択し、この代表ベクトルに対応する重み係数を出力する方法が簡便である。より一般的には、特徴量を入力とする関数Ｆを用いて、特徴量ｆ(l,k)=(ξ(l,k),γ(l,k))と重み係数Ｗ(l,k)との対応付けは、以下のように表される。

最後に、重み付部１０５においては以下のように入力スペクトル、すなわちフーリエ変換部１１０〜１１０-Ｎからの周波数領域の信号に重み係数を乗じて、目的音響信号の推定値を求める。

また、必要に応じて（７）式の信号にフーリエ逆変換部１１１−１〜１１１−Ｎにおいて逆変換を行い、時間領域の信号としてもよい。または、式（７）の逆変換にあたる時間領域の表現

を用いることも可能である。ただし、＊は式（２）に示した畳み込みを表し、これは時間領域のフィルタ処理として実現可能である。

非特許文献１及び２では、目的音響信号と雑音成分がガウス分布に従うという仮定をおき、重み係数Ｗ(l,k)を解析的に求めている。実際に扱う音響信号がこの仮定に近い統計的性質を示す場合、非特許文献１及び２の手法は効果的であるが、実際の音響信号は必ずしもガウス分布に従うとは限らない。ラブラス分布やガンマ分布を適用する研究もされているが、計算が煩雑であったり、近似的な解で妥協せざるを得なかったりする等の問題がある。さらに、実際の音響信号は、これらの分布に比べてもっと複雑な分布をしている場合も多く、統計モデルを仮定するという前提自体が問題となる場合も多い。

本実施形態では、この問題を解決するため、統計モデルを仮定するのではなく、実際に用いる目的音響信号と雑音成分に近い信号を用いて事前に式（６）の関数Ｆ( )を学習しておき、音響信号処理装置の実際の使用時に、この関数Ｆ( )に従い重み係数を決定する手法を用いる。その結果、学習時と似た環境に限定されはするが、その条件では良好な性能が得られるという効果がある。例えば、本実施形態に従う音響信号処理装置を自動車に搭載して用いる場合、走行雑音を用いて事前学習しておくことで走行時に良好な雑音抑圧性能を実現することが可能となる。

本実施形態のもう一つの利点は、重み係数辞書１０３に格納されている重み係数を入力音響信号の特徴量に基づき参照する構成となっているため、重み係数を複雑な算出式を用いて導出する必要がない点である。従来法においても、例えば事前ＳＮＲと事後ＳＮＲの離散的な値（１ｄＢ刻み等）で事前に重み係数を計算し、重み係数のテーブルデータとして備える方法で解決可能であるが、本実施形態によると重み係数のテーブルデータを実際に用いる環境により適した値とする方法を提供する。

以下、本実施形態における重み係数の学習方法について述べる。
まず、入力音響信号として学習用音響信号を用意し、理想出力音響信号として目標音響信号を用意する。例えば、雑音に埋もれた音声信号から音声のみ強調したい場合は、学習用音響信号は雑音が重畳した音声の信号であり、目標音響信号は音声のみの信号である。これらの信号は計算機上で雑音成分と音声信号を足し合わせたり、音声信号のみを用いたりすることで実現される場合が多い。

次に、学習用音響信号と目標音響信号をフレーム単位でフーリエ変換し、それぞれの周波数成分Ｘ(l,k),Ｓ(l,k)を得る。ただし、ｌはフレーム番号、ｋは周波数成分番号である。次に、Ｘ(l,k)からは特徴量ｆ(l,k)が算出される。ｆ(l,k)は学習用入力音響信号のフレーム数得られるが、ＬＢＧアルゴリズム等のクラスタリングアルゴリズムにより所定の数のクラスタに分類される。各クラスタの重心は代表点として記憶され、処理時のクラスタリングに用いられる。

重み係数は所定の評価関数を設定し、クラスタ毎にその評価関数の最適化により求められる。例えば、ｉ番目のクラスタＣiに分類された学習用音響信号Ｘ(l,k)の振幅に重みＷi(k)を乗じた信号と、これに対応する目標音響信号Ｓ(l,k)の振幅の誤差のパワーの総和で以下の評価関数

を定義し、Ｊi(k)を最小化するＷi(k)を求めることを考える。これはＪi(k)をＷi(k)で偏微分し、ゼロと置くことで

と求められる。Ｗi(k)は、周波数成分ｋ毎にクラスタ数分求められる。

式（９）の評価関数では、クラスタＣiに分類された全てのフレームを同一の尺度で扱っているが、フレーム毎に異なる尺度を用いても良い。例えば

のように、誤差のパワーの加重和を評価関数とすることも可能である。Ａ(l,k)を音声区間に相当するフレームは大きな値とすることで、音声区間を重視した重み係数Ｗi(k)を得られるなど、目的に応じて重み係数を制御することが可能となる。

本実施形態では、周波数成分ｋ毎に重み係数を求めたが、複数の周波数成分の組で構成されるサブバンド単位で重み係数を求めることも可能である。その場合、ｐ番目のサブバンドの評価関数Ｑ(p)は、例えば当該サブバンドに該当する周波数成分ｋの歪みの和として

と表す方法が簡便である。重み係数Ｗi(k)については、前述と同様の手法で評価関数の最小化により求めることができる。

（第３の実施形態）
次に、図４を用いて本発明の第３の実施形態について説明する。図４の音響信号処理装置では、重み付部１０５の前段に重み係数算出部１２０が追加されている点を除いて、第２の実施形態と同様である。式（６）では、特徴量（ξ(n,k),γ(n,k)）から直接重み係数を決定しているが、本実施形態では重み係数を決定するパラメータを選択する。すなわち、

で示されるように、Ｆ( )で得られた係数をパラメータとする関数Ｐ{ }を用いて重み係数を決定する。例えば、簡便な雑音抑圧手法としてよく用いられる、S.F.Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. ASSP vol. 27, pp.113-120, 1979.（文献５）に記載されたスペクトルサブトラクションでは、目的音響信号の振幅の推定値は

と表される。ただし、Ｎ(n,k)は推定雑音の振幅でsqrt（λd(n,k)）に等しい。Ｘ'(n,f)の位相情報はＹ(n,f)の位相情報を用いるという一般的な手法に従えば、式（１４）は

と変形できる。式（１５）の右辺第１項を

と表すと、

となり、式（７）と同じ形式で表すことができる。ここで、重み係数辞書１０３から選択されるパラメータをβとする、すなわち重み係数辞書１０３からβ=Ｆ（ξ(n,k),γ(n,k)）が選択される構成とし、関数Ｐ( )を

と定義して、重み係数Ｇss(n,k)を表す。このように重み係数辞書１０３から重み係数を直接得ずに、重み係数のパラメータ（β）を選択する構成とすることで、学習時におけるパラメータの推定精度の向上が期待できる。

（第４の実施形態）
本発明の第４の実施形態に係る音響信号処理装置では、図５に示されるように第２の実施形態に係る図３の音響信号処理装置から事前ＳＮＲ算出部１０６が除去されている。本実施形態によると、選択部１０４に入力される特徴量は事後ＳＮＲγ(l,k)のみであるため、第２の実施形態と比較して選択部１０４における代表点の探索速度が速くなるという利点がある。

（第５の実施形態）
本発明の第４の実施形態に係る音響信号処理装置では、図６に示されるように第２の実施形態に係る図３の音響信号処理装置から事後ＳＮＲ算出部１０７が除去されている。本実施形態では、選択部１０４に入力される特徴量は事前ＳＮＲξ(l,k)のみであるため、第２の実施形態と比較して選択部１０４における代表点の探索速度が速くなるという利点がある。

（第６の実施形態）
図７は、本発明の第６の実施形態に係る音響信号処理装置であり、図２に示した第２の実施形態に係る音響信号処理装置に、制御信号４０１によって切り替わる切替器４０２が追加され、さらに複数の重み係数辞書１０３−１〜１０３Ｍを有している。図７では、簡単のため一つのマイクロホン１０１を用いた場合について示しているが、これまでと同様に複数のマイクロホンを用いてもよい。

次に、本実施形態の動作について述べる。本実施形態の動作は基本的には第２の実施形態と同じであるが、切替器４０２により重み係数辞書１０３−１〜１０３−Ｎを切り替えて用いる点が異なっている。制御信号４０１に従って、切り替え部４０２によりＭ個の重み係数辞書１０３−１〜１０３Ｍの１つが選択される。例えば、自動車での用途を考えた場合、重み係数辞書１０３−１〜１０３Ｍを種々の車速に対応させて用意し、車速に応じて切り替えて用いる。これによって車速毎に最適な重み係数辞書を用いることができるため、より高い雑音抑圧性能を実現することが可能となる。

（第７の実施形態）
図８は、本発明の第７の実施形態に係る音響信号処理装置であり、図７中の切替器４０２が重み付け加算器４０３に置き換えられている。重み付け加算器４０３では、複数の重み係数辞書１０３−１〜１０３−Ｎの全部から出力される重み係数または重み付け係数辞書１０３−１〜１０３−Ｎの一部から選択された重み係数に重み付け加算（加重平均）が施されることにより、スムージングされる。重み付け加算器４０３では、重み付け加算に固定の重み係数を用いてもよいし、制御信号に従って制御される可変の重み係数を用いてもよい。

（第８の実施形態）
図９に示されるように、本発明の第８の実施形態に従う音響信号処理装置では、複数（Ｎ）のマイクロホン１０１−１〜ＮからのＮチャネルの入力音響信号がチャネル間特徴量算出部２０２及びアレー部２０１の重み付け部１０５−１〜１０５−Ｎに入力される。チャネル間特徴量算出部２０２では、入力音響信号のチャネル間の差異を表す特徴量（本明細書では、これをチャネル間特徴量と呼ぶ）が算出され、選択部２０４に渡される。選択部２０４では、多数の重み係数を格納した重み係数辞書２０３から、チャネル間特徴量に対応付けられた一つの重み係数が選択される。

一方、アレー部２０１において重み付け部１０５−１〜１０５−Ｎで重み付けされた入力音響信号は、加算器２０５で加算されることにより統合され、アレー部２０１から統合音響信号として出力される。統合音響信号は、雑音抑圧部２０６において選択部２０４により選択された重み係数に従って重み付けが行われ、目的音響信号（例えば、特定話者の声）が強調された出力音響信号が生成される。

次に、図１０のフローチャートに従って本実施形態の処理手順を説明する。マイクロホン１０１−１〜１０１−Ｎから出力される入力音響信号（ｘ１〜ｘＮとする）は、チャネル間特徴量算出部２０２によってチャネル間特徴量が算出される（ステップＳ１１）。ディジタル信号処理技術を用いる場合、入力音響信号ｘ１〜ｘＮは図示しないアナログ−ディジタル変換器により時間方向に離散化されたディジタル信号であり、例えば時間インデックスｔを用いてｘ(t)と表される。入力音響信号ｘ１〜ｘＮが離散化されていれば、チャネル間特徴量も離散化される。チャネル間特徴量の具体例としては、後述するように入力音響信号ｘ１〜ｘＮの相関係数、クロススペクトル、ＳＮＲ（信号対雑音比）を用いることができる。

次に、ステップＳ２１で算出されたチャネル間特徴量に基づいて、選択部２０４により重み係数辞書２０３からチャネル間特徴量と対応付けられている重み係数が選択される（ステップＳ２２）。すなわち、重み係数辞書２０３から選択された重み係数が取り出される。チャネル間特徴量と重み係数との対応付けは事前に決定されており、最も簡便には離散化されたチャネル間特徴量と重み係数を１対１に対応させておく方法がある。より効率的な対応付けの方法としては、ＬＢＧなどのクラスタリング手法を用いてチャネル間特徴量をグループ分けしておき、各グループに対して対応する重み係数を割り当てる方法もある。ＧＭＭ(Gaussian mixture model)のような統計的な分布を利用して、各分布の出力の重み付け和で重み係数を対応付ける方法も考えられる。このように対応付けに関しては様々な方法が考えられ、計算量やメモリ量などを考慮して決定される。こうして選択部１０４により選択された重み係数Ａは、雑音抑圧部２０６にセットされる。

一方、入力音響信号ｘ１〜ｘＮはアレー部２０１の重み付け部１０５−１〜１０５−Ｎにも送られ、ここで重み付け加算による指向性の制御が行われ統合音響信号が出力される（ステップＳ２３）。

次に、統合音響信号に対して、雑音抑圧部２０６により重み係数Ａで重み付けがなされ、音声信号が強調された出力音響信号が得られる（ステップＳ２４）。

次に、チャネル間特徴量算出部２０２について詳しく述べる。チャネル間特徴量は、前述のようにＮ個のマイクロホン１０１−１〜ＮからのＮチャネルの入力音響信号ｘ１〜ｘＮのチャネル間の関係を表す量であり、具体的には例えば相関係数、クロススペクトル、またはＳＮＲなどがあげられる。相関係数は２つのマイクロホンからの入力音響信号をｘ(t),ｙ(t)とした場合、

と表せる。ただし、E{ }は期待値または時間平均値である。入力音響信号が２チャネルより多い場合には、例えば、

と計算できる。ただし、ｘp(n)，ｘq(n)は、各々ｐ，ｑ番目の入力音響信号であり、Σpqはxpとxqの重複を除く全ての組み合わせに関する和を表す。この相関係数は周波数領域では

と表される。ただし、ｆは離散フーリエ変換により得られた周波数成分、Wx1x2(f)は入力信号間のクロススペクトル、Wx1x1(f)、Wx2x2(f)は入力音響信号ｘ1(n),ｘ2(n)のパワースペクトル、Σfは全周波数成分に対する和を表す。

特徴量としては、クロススペクトルWx1x2(f)やこれを正規化したγ(f)を用いることができる。また、クロススペクトルWx1x2(f)とパワースペクトルWx1x1(f), Wx2x2(f)を組にして３次元ベクトルとして特徴量を構成することも可能である。または、全チャネルのパワーを表すWx1x1(f)+Wx2x2(f)や、アレー出力のパワースペクトルWyy(f)と、クロススペクトルWx1x2(f)と組にして2次元ベクトルとして特徴量を構成することも可能である。さらに目的音響信号が存在しない区間を検出し、その区間のパワースペクトルWnn(f)を特徴量の一つとして用いたり、他の特徴量の補正（パワースペクトルから減算する等）に用いたりすることも可能である。周波数領域での表現も、時間領域の場合と同様の方法で３チャネル以上に拡張することができる。また、一般化相関関数等他の相関を表す手法を用いることもできる。一般化相関関数については、例えば "The Generalized Correlation Method for Estimation of Time Delay, C. H. Knapp and G. C. Carter, IEEE Trans, Acoust., Speech, Signal Processing", Vol.ASSP-24, No.4,pp.320-327(1976)（文献６）に記載されている。

ＳＮＲは、信号成分のパワーＳと雑音成分のパワーＮの割合であり、ＳＮＲ＝Ｓ／Ｎで定義される。通常、ＳＮＲはデシベル値に変換されて用いられる。Ｎに関しては、目的音響信号が存在しない区間で測定可能である。Ｓに関しては、直接観測できないため入力音響信号をそのまま用いる方法や、非特許文献１に開示されているDecision-Directed等の手法を用いて間接的に推定する方法が用いられる。ＳＮＲをチャネル毎に求め、特徴量とする方法のほかに、全チャネルに対するＳＮＲの平均値や和をもって特徴量とすることも可能である。さらに、異なる算出方法によって得られるＳＮＲを組にする方法でもよい。

次に、アレー部２０１について述べる。本実施形態では、アレー部２０１に関しては特に制限はなく、任意のアレーが利用可能である。簡単なアレーとしては遅延和アレーがあげられる。遅延和アレーは、目的方向の信号の位相差がゼロになるようにアレー重みＷを調整し（同相化という）加算する方法である。Ｗは複素数であり、その偏角により同相化が図られる。適応型アレーの例としてはGriffiths-Jim型アレーや、ＤＣＭＰ（Directionally Constrained Minimization of Power：方向拘束付き電力最小化法）または最小分散ビームフォーマが有名である。このほか、近年ではＩＣＡ（Independent Component Analysis ）に基づく手法等さまざまな方法が提案されておりこれらの手法を用いて目的音響信号を強調する。

目的音響信号が強調された統合音響信号には、残留ノイズが含まれている。特に拡散性の雑音については、空間情報を用いて雑音抑圧を行うアレー処理では十分に抑圧することはできない。雑音抑圧部２０６では、このような雑音の抑圧を行う。従来から、このような雑音抑圧処理はポストフィルタと呼ばれアレー処理の一部として注目されている。従来法は、ウィナーフィルタに基づき重み係数を解析的に求める方法が主流である。

これに対して、本実施形態ではチャネル間特徴量に基づく重み係数の選択により雑音抑圧処理を実現する。具体的には、チャネル間特徴量に基づき、事前に学習された重み係数辞書２０３から重み係数を選択し、選択された重み係数を雑音抑圧部２０６において統合音響信号に畳み込むか、あるいは周波数領域での処理の場合は、選択された重み係数を雑音抑圧部２０６において統合音響信号に乗じることによって、雑音抑圧処理を実現する。

抑圧対象となる雑音成分が示すチャネル間特徴量の傾向を利用して、事前に重み係数を学習することで、学習時と類似の雑音環境下では高い抑圧性能を発揮することができる。学習には前述の目標音響信号との間の二乗誤差最小化尺度などを用いる。

（第９の実施形態）
図１１に示される本発明の第９の実施形態に従う音響信号処理装置では、第８の実施形態に従う図９の音響信号処理装置に対して、Ｎチャネルの入力音響信号を周波数領域の信号に変換するためのフーリエ変換部１１０−１〜１１０−Ｎと、アレー処理及び雑音抑圧後の周波数領域の音響信号を時間領域の信号に戻すためのフーリエ逆変換部１１１が追加されている。さらに、フーリエ変換部１１０−１〜１１０−Ｎ及びフーリエ逆変換部１１１の追加に伴い、重み付け部１０５−１〜１０５−Ｎと加算部２０５を有するアレー部２０１及び雑音抑圧部２０６が周波数領域での重み付け部３０１−１〜３０１−Ｎと加算部３０５を有するアレー部３０１及び雑音抑圧部３０６に置き換えられている。

ディジタル信号処理技術の分野において周知のように、時間領域での畳み込み演算は周波数領域での積の演算で表される。本実施形態では、Ｎチャネルの入力音響信号をフーリエ変換部１１０−１〜１１０−Ｎにおいて周波数領域の信号に変換してからアレー処理及び雑音抑圧を行い、雑音抑圧後の信号についてフーリエ逆変換部１１１によりフーリエ逆変換を行い、時間領域の信号に戻している。従って、信号処理的には本実施形態は時間領域で処理を行う第８の実施形態と等価な処理を行っていることになる。この場合、加算部３０５からの出力信号Ｙ(k)は式（２）に示したような畳み込みではなく、以下のように積の形で表される。

ただし、ｋは周波数インデックスである。

同様に、雑音抑圧部３０６での演算も

と積の形で表される。雑音抑圧部３０６からの出力信号Ｚ(k)に対し、フーリエ逆変換部１１１においてフーリエ逆変換が行われることによって、時間領域の出力音響信号ｚ(t)が得られる。雑音抑圧部３０６からの周波数領域の出力信号Ｚ(k)をそのまま、例えば音声認識のパラメータとして利用することも可能である。

本実施形態のように入力音響信号を周波数領域に変換してから処理を行う利点としては、アレー部３０１および雑音抑圧部３０６のフィルタ次数によっては計算量が削減できる場合があることと、周波数帯域毎に独立に処理を行うことが可能であるため、残響など複雑な雑音にも対応しやすいことなどが挙げられる。

（第１０の実施形態）
図１２は、本発明の第１０の実施形態に従う音響信号処理装置であり、第９の実施形態に従う図１１の音響信号処理装置に対して、照合部５０１と代表点辞書５０２が追加されている。代表点辞書５０２には、図１３に示すようにＬＢＧ法等により得られた複数（Ｉ）の代表点の特徴量がインデクスＩＤと対応付けられて格納されている。ここで代表点とは、チャネル間特徴量をクラスタリングしたときの各クラスタの代表点である。

図１２の音響信号処理装置の処理手順は、図１４のフローチャートに示される。ただし、図１４ではフーリエ変換部１１０−１〜１１０−Ｎ及び逆フーリエ変換部１１１の処理については省略している。チャネル間特徴量算出部２０２において、フーリエ変換後のＮチャネルの音響信号のチャネル間特徴量が算出される（ステップＳ３１）。次に、各チャネル間特徴量と代表点辞書５０２に格納されている複数（Ｉ）の代表点の特徴量とが照合部５０１において照合され、両者間の距離が計算される（ステップＳ３２）。

照合部５０１からチャネル間特徴量と代表点の特徴量との間の距離を最小にする代表点の特徴量を指し示すインデクスＩＤが選択部２０４に送られ、選択部２０４においてインデクスＩＤに対応する重み係数が重み係数辞書２０３から選択されて取り出される（ステップＳ３３）。こうして選択部２０４で選択された重み係数は、雑音抑圧部３０６にセットされる。

一方、フーリエ変換部１１０−１〜１１０−Ｎにより周波数領域に変換された入力音響信号は、アレー部３０１の重み付け部３０４−１〜３０４−Ｎに入力されることにより、統合音響信号が得られる（ステップＳ３４）。

次に、統合音響信号は雑音抑圧部３０６において、ステップＳ３３でセットされた重係数に従って雑音が抑圧された出力信号が算出され、目的音声信号が強調された出力音響信号が得られる（ステップＳ３５）。雑音抑圧部３０６からの出力音響信号は、フーリエ逆変換部１１１においてフーリエ逆変換が行われることによって、時間領域の出力音響信号とされる。

（第１１の実施形態）
図１５に示されるように、本発明の第１１の実施形態に従う音響信号処理装置では、第９の実施形態で説明したチャネル間特徴量算出部２０２、重み係数辞書２０３及び選択部２０４をそれぞれ有する複数（Ｍ）の重み制御部６００−１〜６００−Ｍが備えられる。

重み制御部６００−１〜６００−Ｍは、制御信号６０１に従って入力切替器６０２及び出力切替器６０３によって切り替えられる。すなわち、マイクロホン１０１−１〜１０１−ＮからのＮチャネルの入力音響信号セットは、入力切替器６０２によって重み制御部６００−１〜６００−Ｍのいずれかに入力され、チャネル間特徴量算出部２０２によってチャネル間特徴量が算出される。入力音響信号セットが入力された重み制御部では、選択部２０４によって重み係数辞書２０３からチャネル間特徴量に対応する重み係数が選択される。選択された重み係数は、出力切替器６０３を介して雑音抑圧部２０６に与えられる。

一方、重み付け部１０５−１〜１０５−ＮからのＮチャネルの音響信号は、加算部２０５によって合成され、統合音響信号としてアレー部２０１から出力される。統合音響信号は、選択部２０４により選択された重み係数を用いて雑音抑圧部２０６で雑音抑圧が行われ、目的音声信号が強調された出力音響信号が生成される。

重み係数辞書２０３は、事前に実使用環境に近い音響環境での学習により作成される。実際には、種々の音響環境が想定される。例えば、自動車の車内の音響環境は、車種によって大きく異なる。重み制御部６００−１〜６００−Ｍ内の各々の重み係数辞書２０３は、それぞれ異なる音響環境の下で学習されている。従って、音響信号処理時の実使用環境に応じて重み制御部６００−１〜６００−Ｍを切り替え、実使用環境と同一もしくは最も類似した音響環境の下で学習された重み係数辞書２０３から、選択部２０４により選択される重み係数を用いて重み付けを行うことで、実使用環境に適した音響信号処理を行うことができる。

重み制御部６００−１〜６００−Ｍの切り替えのために用いる制御信号６０１は、例えばユーザによるボタン操作によって生成されてもよいし、信号対雑音比（ＳＮＲ）のような、入力音響信号に起因するパラメータを指標として自動的に生成されてもよい。また、車速等の外部からのパラメータを指標として生成されてもよい。

重み制御部６００−１〜６００−Ｍ内にそれぞれチャネル間特徴量算出部２０２を備えた場合、重み制御部６００−１〜６００−Ｍのそれぞれに対応する音響環境に適したチャネル間特徴量の算出方法やパラメータを用いることで、より的確なチャネル間特徴量を算出することが期待される。

以上説明した本発明の実施形態に基づく音響信号処理は、ハードウェアでも実現可能であるが、パーソナルコンピュータのようなコンピュータを用いてソフトウェアにより実行することも可能である。従って、本発明によれば以下に挙げるようなプログラム、あるいは当該プログラムを格納したコンピュータ読み取り可能な記憶媒体を提供することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

第１の実施形態に係る音響信号処理装置を示すブロック図第１の実施形態における処理手順を示すフローチャート第２の実施形態に係る音響信号処理装置を示すブロック図第３の実施形態に係る音響信号処理装置を示すブロック図第４の実施形態に係る音響信号処理装置を示すブロック図第５の実施形態に係る音響信号処理装置を示すブロック図第６の実施形態に係る音響信号処理装置を示すブロック図第７の実施形態に係る音響信号処理装置を示すブロック図第８の実施形態に係る音響信号処理装置を示すブロック図第８の実施形態における処理手順を示すフローチャート第９の実施形態に係る音響信号処理装置を示すブロック図第１０の実施形態に係る音響信号処理装置を示すブロック図図１２中の代表点辞書の内容を示す図第１０の実施形態の処理手順を示すフローチャート第１１の実施形態に係る音響信号処理装置を示すブロック図

符号の説明

１００・・・学習部
１０１−１〜１０１−Ｎ・・・マイクロホン
１０２・・・特徴量算出部
１０３・・・重み係数辞書
１０４・・・選択部
１０５−１〜１０５−Ｎ・・・重み付け部
１０６・・・事前ＳＮＲ算出部
１０７・・・事後ＳＮＲ算出部
１０８・・・推定雑音算出部
１１０−１〜１１０-Ｎ・・・フーリエ変換部
１１１−１〜１１１−Ｎ・・・フーリエ逆変換部
１２０・・・重み係数算出部
２０１・・・アレー部
２０２・・・チャネル間特徴量算出部
２０３・・・重み係数辞書
２０４・・・選択部
２０５・・・加算器
２０６・・・雑音抑圧部
４０１・・・制御信号
４０２・・・切替器
４０３・・・重み付け加算器
５０１・・・照合部
５０２・・・代表点辞書
６００−１〜６００−Ｍ・・・重み制御部
６０１・・・制御信号
６０２・・・入力切替部
６０３・・・出力切替部

Claims

重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、重み付けに用いる重み係数を少なくとも一つの辞書に用意するステップと；
入力音響信号に含まれる雑音成分を推定するステップと；
前記入力音響信号の前記雑音成分に依存する特徴量を求めるステップと；
前記特徴量に対応する重み係数を前記辞書から選択するステップと；
選択された重み係数を用いて前記入力音響信号に対して重み付けを行い、処理された出力音響信号を生成するステップと；を具備する音響信号処理方法。
前記評価関数は、前記学習用音響信号と前記目標音響信号との間の誤差の総和であり、前記総和の最小化により前記評価関数は最適化される請求項１記載の音響信号処理方法。
前記特徴量に対応する重み係数を前記辞書から選択するステップは、前記特徴量と予め用意された複数の代表点との距離を求めるステップと、前記距離が相対的に小さくなる代表点を決定するステップと、前記距離が相対的に小さくなる代表点に対応付けられた重み係数を前記辞書から選択するステップと、を含む請求項１記載の音響信号処理方法。
前記出力音響信号を生成するステップは、前記選択された重み係数を予め定められた関数により変換するステップと、変換された重み係数を用いて前記入力音響信号に対して重み付けを行うステップと、を含む請求項１記載の音響信号処理方法。
前記特徴量を求めるステップは、前記入力音響信号に含まれる信号成分と前記雑音成分との間の信号対雑音比を求める請求項１記載の音響信号処理方法。
前記特徴量を求めるステップは、前記入力音響信号から前記雑音成分を除いた信号と前記雑音成分との間の信号対雑音比の推定値を求める請求項１記載の音響信号処理方法。
前記辞書を複数の辞書から音響環境に応じて選択するステップをさらに具備する含む請求項１乃至７のいずれか一項記載の音響信号処理方法。
前記重み係数は時間領域のフィルタ係数であり、前記入力音響信号と前記選択された重み係数との畳み込みによって前記重み付けを行う請求項１記載の音響信号処理方法。
前記重み係数は周波数領域のフィルタ係数であり、前記入力音響信号と前記選択された重み係数との積をとることによって前記重み付けを行う請求項１記載の音響信号処理方法。
重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、重み付けに用いる重み係数が格納された辞書と；
入力音響信号に含まれる雑音成分を推定する推定部と；
前記入力音響信号の前記雑音成分に依存する特徴量を算出する算出部と；
前記特徴量に対応する重み係数を前記辞書から選択する選択部と；
選択された重み係数を用いて前記入力音響信号に対して重み付けを行い、処理された出力音響信号を生成する重み付け部と；を具備する音響信号処理装置。
複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出するステップと；
前記特徴量に従って少なくとも一つの辞書から学習によって事前に求められた重み係数を選択するステップと；
前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って統合音響信号を生成するステップと；
前記統合音響信号に前記重み係数を用いて重み付けを行い、処理された出力音響信号を生成するステップと；を具備する音響信号処理方法。
前記重み係数は、前記特徴量に予め対応付けられている請求項１１記載の音響信号処理方法。
前記選択するステップは、前記特徴量と予め用意された複数の特徴量の代表点との間の距離を求めるステップと、前記距離が相対的に小さい一つの代表点を決定するステップと、を含み、
前記重み係数は、前記代表点に予め対応付けられている請求項１１記載の音響信号処理方法。
前記特徴量を算出するステップは、前記入力音響信号のチャネル間の相関係数を算出する請求項１１記載の音響信号処理方法。
前記特徴量を算出するステップは、前記入力音響信号のチャネル間のクロススペクトルを算出する請求項１１記載の音響信号処理方法。
前記特徴量を算出するステップは、前記入力音響信号の信号対雑音比を算出する請求項１１記載の音響信号処理方法。
前記重み係数は時間領域のフィルタ係数であり、前記統合音響信号と前記重み係数との畳み込みによって前記重み付けを行う請求項１１記載の音響信号処理方法。
前記重み係数は周波数領域のフィルタ係数であり、前記統合音響信号と前記重み係数の積をとることによって前記重み付けを行う請求項１１記載の音響信号処理方法。
前記辞書を複数の辞書から音響環境に応じて選択するステップをさらに具備する請求項１１記載の音響信号処理方法。
複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出する算出部と；
前記特徴量に従って少なくとも一つの辞書から重み係数を選択する選択部と；
前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って統合音響信号を生成する信号処理部と；
前記統合音響信号に前記重み係数を用いて重み付けを行い、処理された出力音響信号を生成する重み付け部と；を具備する音響信号処理装置。
重み付けされた学習用音響信号と該学習用音響信号に対応する目標音響信号によって定められた評価関数を最適化するように学習された、重み付けに用いる重み係数を少なくとも一つの辞書に用意する処理と；
入力音響信号に含まれる雑音成分を推定する処理と；
前記入力音響信号の前記雑音成分に依存する特徴量を求める処理と；
前記特徴量に対応する重み係数を前記辞書から選択する処理と；
選択された重み係数を用いて前記入力音響信号に対して重み付けを行い、処理された出力音響信号を生成する処理と；を含む音響信号処理をコンピュータに行わせるためのプログラム。
複数チャネルの入力音響信号のチャネル間の相関を表す少なくとも一つの特徴量を算出する処理と；
前記特徴量に従って少なくとも一つの辞書から学習によって事前に求められた重み係数を選択する処理と；
前記複数チャネルの入力音響信号に対して重み付け加算を含む信号処理を行って統合音響信号を生成する処理と；
前記統合音響信号に前記重み係数を用いて重み付けを行い、処理された出力音響信号を生成する処理と；を含む音響信号処理をコンピュータに行わせるためのプログラム。