JP2007058237A

JP2007058237A - 雑音除去方法

Info

Publication number: JP2007058237A
Application number: JP2006297627A
Authority: JP
Inventors: Makoto Sakai; 誠坂井; Ichiro Akahori; 一郎赤堀
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2006-11-01
Filing date: 2006-11-01
Publication date: 2007-03-08

Abstract

【課題】マイクロフォンの出力信号から雑音成分を適切に除去すること。
【解決手段】雑音除去装置１０は、複数のマイクロフォンＭ１，Ｍ２の各出力信号を取得する。雑音抽出部１５は、独立成分分析の手法により、マイクロフォンＭ１の出力信号に含まれる音声成分を、マイクロフォンＭ２の出力信号に基づいて除去し、マイクロフォンＭ１の出力信号から雑音成分を分離抽出する。雑音除去部１７は、雑音抽出部にて抽出された雑音成分を所定の特徴量に変換し、マイクロフォンの出力信号を所定の特徴量と同一の特徴量に変換し、両変換結果を用いて、マイクロフォンＭ１の出力信号に含まれる雑音成分を除去し、雑音除去後の信号を出力する。
【選択図】図１

Description

本発明は、マイクロフォンの出力信号から雑音成分を除去するための雑音除去方法に関する。

従来より、ユーザから発せられた音声をマイクロフォンで集音し、これを予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語をユーザが発声した語彙であると認識する音声認識装置が知られている。この種の音声認識装置は、例えばカーナビゲーション装置などに組み込まれている。

音声認識装置としては、マイクロフォンの出力信号から、その出力信号に含まれる雑音成分を除去するための雑音除去装置を備えたものがある。また、音声認識装置の音声認識率は、雑音除去装置の性能によって左右されることがよく知られている。

雑音除去装置としては、従来より、スペクトラムサブトラクション（ＳＳ）法を用いてマイクロフォンの出力信号から雑音成分を除去するものが知られている。スペクトラムサブトラクション法は、音声が発せられていない非音声区間におけるマイクロフォンの出力信号を雑音信号とし、音声が発せられている音声区間におけるマイクロフォンの出力信号から、その雑音信号を除去することにより、音声のスペクトルを得る方法である。

この他、上記雑音除去装置を含む機器としては、音声通信装置が知られている。このような雑音除去装置を内蔵する音声通信装置は、ハンドセット等に内蔵されたマイクロフォンの出力信号に含まれる雑音成分を雑音除去装置にて除去し、雑音除去後の信号を、公衆電話回線網（ＰＳＴＮ）等を介して外部の通信装置（電話機等）に送信する構成にされている。

しかしながら、上記従来の雑音除去装置では、非音声区間におけるマイクロフォンの出力信号から先行して得た雑音信号を、以後の雑音除去に用いるため、定常的に発生する雑音成分を、マイクロフォンの出力信号から取り除くことはできても、突発的に発生する非定常的な雑音成分をマイクロフォンの出力信号から適切に取り除けないという問題があった。

一方、上記問題の解決を図るために、特開平４−２４５３００号公報に記載の発明では、第一のマイクロフォンを、主に音声を集音可能な位置に配置し、第二のマイクロフォンを、主に周囲雑音を集音可能な位置に配置することにより、非定常雑音の除去を行っている。

特開平４−２４５３００号公報に記載の雑音除去装置では、第二のマイクロフォンの出力信号から第一のマイクロフォンの出力信号に含まれる雑音成分を推定し、この推定した雑音成分を、第一のマイクロフォンの出力信号から除去して音声信号を得る。

しかし、このような技術では、第二のマイクロフォンの出力信号に音声成分が含まれないようにしないと、雑音成分の推定時に大きな誤差を生むため、マイクロフォンの設置位置が非常に限定されていた。また、第二のマイクロフォンを第一のマイクロフォンから離して、第二のマイクロフォンに音声が入力されないようにすると、結果として、第一のマイクロフォンが集音する雑音と、第二のマイクロフォンが集音する雑音とに差異が生じるため、雑音除去の精度に関しては、一定度の限界があった。特に、車両内においては、車両（自動車等）の走行時と停止時で周囲雑音の発生状態が大きく変化することから、特開平４−２４５３００号公報に記載の雑音除去装置では、適切に雑音成分を除去できないという問題があった。

本発明は、こうした問題に鑑みなされたものであって、マイクロフォンの出力信号から雑音成分を適切に除去することが可能な雑音除去装置及び、それを用いた音声認識装置並びに音声通信装置を提供することを目的とする。

従来のような雑音成分を推定して除去する手法では、突如ノイズ源が発生したりすると、複数のマイクロフォンを用いても、適切に雑音成分を推定して除去することができないといった問題がある。一方、音声成分は、ユーザの発話内容に基づく成分であるため雑音成分より適切に除去しやすいといった特徴がある。

上記目的を達成するためになされた請求項１に記載の雑音除去方法では、複数のマイクロフォンの各出力信号に共通して含まれる音声成分をマイクロフォンの出力信号から除去して、出力信号に含まれる雑音成分を抽出し、その抽出した雑音成分を用いて雑音除去するから、マイクロフォンの設置場所によらず、雑音除去すべきマイクロフォンの出力信号の雑音成分を適切に除去することができる。

また、音声成分を除去して雑音成分を抽出する手法であるため、成分抽出ステップを逐次動作させることによって、常に周囲雑音に従った雑音成分をマイクロフォンの出力信号から除去することができ、従来装置において除去し辛かった非定常雑音を適切にマイクロフォンの出力信号から除去することができる。したがって、マイクロフォンの出力信号の雑音成分を適切に除去することができる。尚、上記効果は、当該雑音除去方法を、車両用に適用することで一層発揮される。

また、請求項１に記載の雑音除去方法では、独立成分分析（ＩＣＡ）を用いて、複数のマイクロフォンの出力信号に共通して含まれる音声成分をマイクロフォンの出力信号から除去し、その出力信号に含まれる雑音成分を抽出する方法を採用している。

独立成分分析は、複数のブラインド音源から生じる混合音声を、複数のマイクロフォンで集音し、その混合音声に含まれる各音源からの信号をマイクロフォンからの出力信号に基づいて分離する手法であるので、請求項１に記載の雑音除去方法によれば、独立成分分析の手法によって、マイクロフォンの出力信号から雑音成分を適切に分離抽出することができる。したがって、マイクロフォンの出力信号の雑音成分を適切に除去することができる。

また、請求項１に記載の雑音除去方法において、抽出した雑音成分を、所定の特徴量に変換し、取得した雑音除去すべきマイクロフォンの出力信号を、前記所定の特徴量と同一の特徴量に変換し、両変換結果を用いて、雑音除去すべきマイクロフォンの出力信号から、前記抽出した雑音成分を除去する。

このように、マイクロフォンの出力信号及び雑音成分を、音の特徴を表す所定の特徴量に変換することで、その出力信号及び抽出した雑音成分から、音に関する情報を抽出することができる。したがって、両変換結果を除算するなどすれば、マイクロフォンの出力信号から雑音成分を適切に除去することができる。

尚、特徴量としては、請求項２に記載のような、フーリエ変換による得られるスペクトルや、請求項３に記載のような、そのスペクトルの対数を（逆）フーリエ変換することにより得られるケプストラム等が挙げられる。

特に、請求項４に記載のような、周知のフィルタバンク分析の手法を用いて得られるメル周波数ケプストラム係数（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）や、請求項４に記載のような、線形予測符号化（ＬＰＣ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）の手法により得られるＬＰＣケプストラムを特徴量として用いると、雑音成分除去後のマイクロフォンの出力信号として、音声の特徴を良く表す波形を得ることができる。このため、そのような雑音除去方法を音声認識装置に適用すれば、音声の認識率が向上する。

以下に本発明の実施例について、図面とともに説明する。尚、図１は、本発明が適用された雑音除去装置１０を備える音声認識装置１の概略構成を表すブロック図である。

本実施例の音声認識装置１は、主に、マイクロフォンＭ１，Ｍ２と、雑音除去装置１０と、音声認識部２０と、から構成されており、目的地までの経路案内を車両乗員に対して行うことが可能な周知のナビゲーション機能を有するナビ制御部３０に接続されている。この音声認識装置１は、マイクロフォンＭ１，Ｍ２から入力されたユーザの音声を認識して、ユーザが発した語彙に対応する指令信号をナビ制御部３０に入力することにより、ユーザの音声に従う操作をナビ制御部３０に対して施す。

マイクロフォンＭ１，Ｍ２は、車両内に複数（本実施例では二つ）設けられており、夫々は、雑音除去装置１０の各入力端子に接続されている。

一方、雑音除去装置１０は、車両内（自動車等）において発生する空調音、エンジン音、ロードノイズ、風切音などの雑音がマイクロフォンＭ１，Ｍ２に入力されて発生する雑音成分をマイクロフォンＭ１の出力信号から除去して音声の認識率を高めるために設けられている。この雑音除去装置１０は、主に、アナログデジタル変換器１１，１３と、雑音抽出部１５と、雑音除去部１７と、を備えている。

アナログデジタル変換器１１，１３は、各マイクロフォンＭ１，Ｍ２に対応して設けられており、各マイクロフォンＭ１，Ｍ２の出力信号をデジタル信号（以下、これを「入力音声信号」とも表現する。）にして雑音抽出部１５に入力する。

雑音抽出部１５は、外部からの指令に基づいて動作を開始すると、各マイクロフォンＭ１，Ｍ２からの入力音声信号ｘ（ｔ），ｙ（ｔ）を、アナログデジタル変換器１１，１３を介して取得し、その入力音声信号ｘ（ｔ），ｙ（ｔ）に含まれる雑音成分ｎ（ｔ）を抽出する。ここで、図２は、雑音抽出部１５にて実行される雑音抽出処理を表すフローチャートである。

図２に示すように、雑音抽出部１５は、まずフィルタ係数Ｗ［ｊ］、及び学習レートＬ（詳細後述）を初期化し（Ｓ１１０）、その後に、マイクロフォンＭ１からの入力音声信号ｘ（ｔ）及びマイクロフォンＭ２からの入力音声信号ｙ（ｔ）を夫々のアナログデジタル変換器１１，１３を介して取得する（Ｓ１２０）。また、取得した入力音声信号ｘ（ｔ），ｙ（ｔ）を用いて、式１及び式２に従い、入力音声信号ｘ（ｔ）から雑音成分ｎ（ｔ）を抽出し、その雑音成分ｎ（ｔ）を雑音除去部１７に入力する（Ｓ１３０）。

ｎ（ｔ）＝ｘ（ｔ）＋Ｆ（ｔ） …式２
即ち、雑音抽出部１５は、フィルタ係数Ｗ［ｊ］と入力音声信号ｙ（ｔ）とを畳み込み演算して演算結果Ｆ（ｔ）を得る。その後、演算結果Ｆ（ｔ）を入力音声信号ｘ（ｔ）に加算することにより、マイクロフォンＭ１，Ｍ２から得た入力音声信号ｘ（ｔ），ｙ（ｔ）に共通して含まれる音声成分−Ｆ（ｔ）を、入力音声信号ｘ（ｔ）から除去し、入力音声信号ｘ（ｔ）に含まれる雑音成分ｎ（ｔ）を入力音声信号ｘ（ｔ）から抽出する。ここで、ｊは、入力音声信号ｘ（ｔ），ｙ（ｔ）のサンプリング数がＪである場合に、１〜Ｊまでの整数値を採る（即ち、ｊ＝１，２，…Ｊ）。その他、値ｔは、入力音声信号ｘ（ｔ），ｙ（ｔ）のサンプリング周期Ｔ（例えば、Ｔ＝６２．５μｓ）を単位とする時間パラメータであって整数値を採るものである。

この後、雑音抽出部１５は、先程雑音抽出の際に用いたフィルタ係数Ｗ［ｊ］と、抽出した雑音成分ｎ（ｔ）と、入力音声信号ｙ（ｔ）とに基づき、次に設定すべきフィルタ係数Ｗ’［ｊ］を、学習レートＬを含む式３に従って算出する（Ｓ１４０）。

Ｗ’［ｊ］＝Ｗ［ｊ］−Ｌ・ｆ（ｎ（ｔ））・ｙ（ｔ−ｊ） …式３
ここで、ｆ（ｎ（ｔ））は、非線形関数ｆ（ｇ）に雑音成分ｎ（ｔ）を代入した値を示すものである。即ち、雑音抽出部１５は、非線形関数ｆ（ｇ）に、値ｇ＝ｎ（ｔ）を代入した後、その値ｆ（ｎ（ｔ））を用いて式３によりＷ’［ｊ］を算出する。

尚、非線形関数ｆ（ｇ）としては、ｔａｎｈ（ハイパボリックタンジェント）関数や、ｓｉｇｎ関数、シグモイド関数（具体的には、ｆ（ｇ）＝１／｛１＋ｅｘｐ（−ｇ）｝。）等が挙げられる。ｓｉｇｎ関数は、代入値が負値であるときに、−１を返し、代入値がゼロであるときに０を返し、代入値が正値であるときに、１を返す関数である。また、図２では、非線形関数として、ｔａｎｈ（ハイパボリックタンジェント）関数を用いた場合の例を示す。この他、上記学習レートＬは、学習速度を調整するための定数である。

雑音抽出部１５は、上式３に従ってフィルタ係数Ｗ’［ｊ］を算出すると、このフィルタ係数Ｗ’［ｊ］を次のフィルタ係数Ｗ［ｊ］に設定することにより、フィルタ係数Ｗを更新する。

その後、雑音抽出部１５は、学習レートＬが更新時期になったか否か判断し（Ｓ１５０）、更新時期になったと判断すると（Ｓ１５０でＹｅｓ）、学習レートＬを更新する（Ｓ１６０）。例えば、入力音声信号ｘ（ｔ），ｙ（ｔ）の累積サンプリング数が一定数（例えば２０００回）以上になると（Ｓ１５０でＹｅｓ）、雑音抽出部１５は、既に設定されている学習レートＬに対して値Ｌｃ（例えば、Ｌｃ＝０．９８）を乗算することにより、学習レートＬをＬｃ倍した値Ｌｃ・Ｌを得て、これを次の学習レートＬとして設定更新する。

このようにして学習レートＬの更新が完了するか、学習レートＬが更新時期ではないと判断すると（Ｓ１５０でＮｏ）、雑音抽出部１５は、自身に対し終了指令が入力されているか否か判断する（Ｓ１７０）。そして、終了指令が入力されていないと判断すると（Ｓ１７０でＮｏ）、再び、入力音声信号ｘ（ｔ），ｙ（ｔ）をアナログデジタル変換器１１，１３を介してサンプリングし（Ｓ１２０）、上記動作（Ｓ１３０〜Ｓ１７０）を繰り返す。そして、終了指令が入力されていると判断すると（Ｓ１７０でＹｅｓ）、当該処理を終了する。

一方、雑音除去部１７は、雑音抽出部１５が取得した入力音声信号ｘ（ｔ）と、雑音抽出部１５が抽出した同時間帯の雑音成分ｎ（ｔ）と、を用いて、雑音除去すべきマイクロフォンＭ１の出力信号としての入力音声信号ｘ（ｔ）から雑音成分ｎ（ｔ）を除去する。ここで、図３は、雑音除去部１７が実行する雑音除去処理を表すフローチャートである。

雑音除去部１７は、雑音抽出部１５により抽出された雑音成分ｎ（ｔ）がＫ個揃うと（Ｓ２１０でＹｅｓ）、過去Ｋ個分の雑音成分ｎ（ｔ−Ｋ＋１）〜ｎ（ｔ）を対象に、高速フーリエ変換（ＦＦＴ）して、時間ｔ−Ｋ＋１〜ｔにおける雑音成分ｎ（ｔ）のパワースペクトルＮ（ω）を求める（Ｓ２２０）。ここでωは、周波数を表すパラメータである。

続いて、雑音除去部１７は、過去Ｋ個分の入力音声信号ｘ（ｔ−Ｋ＋１）〜ｘ（ｔ）を対象に、高速フーリエ変換（ＦＦＴ）して、時間ｔ−Ｋ＋１〜ｔにおける入力音声信号ｘ（ｔ）のパワースペクトルＸ（ω）を求める（Ｓ２３０）。この後、雑音除去部１７は、パワースペクトルＸ（ω）からパワースペクトルＮ（ω）を減算処理することによって雑音除去し、雑音除去後の入力音声信号ｕ（ｔ）に対応するパワースペクトルＵ（ω）を得る。そして、求めたパワースペクトルＵ（ω）を、音声認識部２０に入力する（Ｓ２４０）。

｜Ｕ（ω）｜＝｜Ｘ（ω）｜−｜Ｎ（ω）｜ …式４
この後、雑音除去部１７は、ＦＦＴによる変換対象範囲（雑音除去対象フレーム）を時間方向にＫ／２ずらして（Ｓ２５０）、今回の変換対象範囲ｔ０−Ｋ＋１〜ｔ０に対する次回の変換対象範囲を、時間（ｔ０＋Ｋ／２）−Ｋ＋１からｔ０＋Ｋ／２までの範囲の入力音声信号ｘ（ｔ）及び雑音成分ｎ（ｔ）とする。そして、当該処理の終了指令が入力されていないと判断すると（Ｓ２６０でＮｏ）、上記処理（Ｓ２２０〜Ｓ２６０）を再び実行する。

雑音除去部１７は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると（Ｓ２６０でＹｅｓ）、当該処理を終了する。

一方、音声認識部２０は、雑音除去装置１０の出力端子に接続されており、雑音除去装置１０にて雑音除去されたマイクロフォンＭ１からの入力音声信号ｕ（ｔ）に対応するパワースペクトルＵ（ω）を、予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語を、ユーザが発声しマイクロフォンＭ１に入力された音声（語彙）であると認識する。そして認識語に対応する指令信号をナビ制御部３０に入力する。

以上、音声認識装置１の構成について説明したが、上述の式３は、独立成分分析（ＩＣＡ）の一手法として知られるｉｎｆｏｍａｘ法に基づくフィルタ係数Ｗ［ｊ］の学習方式を数式化したものである。本実施例の雑音抽出部１５は、ｉｎｆｏｍａｘ法に基づく式３に従い、信号ｙ（ｔ）と信号ｎ（ｔ）とが相互に独立になる方向に、フィルタ係数Ｗ［ｊ］の学習更新を繰り返すことによって、入力音声信号ｘ（ｔ），ｙ（ｔ）に共通して含まれる音声成分を除去するための信号Ｆ（ｔ）を生成する。そして、Ｆ（ｔ）を用いて、入力音声信号ｘ（ｔ）から、入力音声信号ｘ（ｔ），ｙ（ｔ）に共通して含まれる音声信号を除去することにより、入力音声信号ｘ（ｔ）に含まれる雑音成分ｎ（ｔ）を抽出する。

ユーザの発話中には、両マイクロフォンＭ１，Ｍ２にユーザが発した音声が入力されるから、入力音声信号ｘ（ｔ），ｙ（ｔ）には強い相関関係がある。したがって、この状態で発話が続くと、入力音声信号ｘ（ｔ）からユーザの音声を打ち消す方向にフィルタ係数Ｗ［ｊ］が学習更新され、結果的に、入力音声信号ｘ（ｔ）からユーザの音声成分−Ｆ（ｔ）だけが取り除かれて、雑音成分が抽出されるのである。

したがって、本実施例の雑音除去装置１０によれば、雑音抽出部１５で、マイクロフォンＭ１から雑音成分ｎ（ｔ）を適切に抽出することができ、その結果として、雑音除去部１７で、入力音声信号ｘ（ｔ）から雑音成分ｎ（ｔ）を、定常雑音、非定常雑音にかかわらず適切に除去できる。つまり、突如ノイズ源が発生したり消滅したりするなど、走行時と停止時で周囲雑音の発生状態が大きく変化する車両（自動車等）内であっても、適切に雑音成分を除去することができる。

また、本実施例の音声認識装置１では、雑音除去装置１０で適切にマイクロフォンの出力信号から雑音成分だけを除去することができるので、音声認識部２０での音声認識率を向上させることができる。

尚、以上には説明しなかったが、雑音抽出部１５及び雑音除去部１７は、例えば、ＣＰＵや、ＤＳＰ、ＡＳＩＣなどのＬＳＩで構成することができる。また、雑音抽出部１５及び雑音除去部１７をＣＰＵ上で実現する場合には、図２，３に示したフローチャートに従うプログラムを作成して、これをＣＰＵに実行させればよい。

ところで、音声認識装置１の雑音除去部１７では、雑音抽出部１５から得た雑音成分ｎ（ｔ）、及び、マイクロフォンＭ１からの入力音声信号ｘ（ｔ）を、ＬＰＣケプストラム、あるいは、メル周波数ケプストラム係数（ＭＦＣＣ）といった特徴量に変換し、その特徴量を減算することによって雑音除去を行っても良い。以下では、図４，図５を用いて音声認識装置１の第一変形例及び第二変形例を説明する。尚、第一変形例及び第二変形例においては雑音除去部１７の処理動作が異なる程度であるので、上記実施例の音声認識装置１と同一構成の各部の説明については省略することにする。

図４は、特徴量としてＬＰＣケプストラムを用いた場合における雑音除去部１７の雑音除去処理を表すフローチャートである。

図４に示すように第一変形例の雑音除去部１７は、雑音抽出部１５により抽出された雑音成分ｎ（ｔ）がＫ個揃うと（Ｓ３１０でＹｅｓ）、過去Ｋ個分の雑音成分ｎ（ｔ−Ｋ＋１）〜ｎ（ｔ）を用いて、その雑音成分に対応するＱ個のＬＰＣケプストラムＣｎ（Ｑ）を求める（Ｓ３２０）と共に、同一時点におけるＫ個の入力音声信号ｘ（ｔ−Ｋ＋１）〜ｘ（ｔ）を用いて、その入力音声信号に対応するＱ個のＬＰＣケプストラムＣｘ（Ｑ）を求める（Ｓ３３０）。

その後、雑音除去部１７は、Ｃｎ（Ｑ）及びＣｘ（Ｑ）と、所定の係数αｃを含む次式（式５）とを用いて、雑音除去後の音声信号ｕ（ｔ）に対応するＬＰＣケプストラムＣｕ（Ｑ）を求める。

Ｃｕ（Ｑ）＝Ｃｘ（Ｑ）−αｃ・Ｃｎ（Ｑ） …式５
また、雑音除去部１７は、求めたＬＰＣケプストラムＣｕ（Ｑ）を音声認識部２０に入力する（Ｓ３４０）。この後、雑音除去部１７は、変換対象範囲（雑音除去対象フレーム）を時間方向にＫ／２ずらす（Ｓ３５０）。

そして、当該処理の終了指令が入力されていないと判断すると（Ｓ３６０でＮｏ）、上記処理（Ｓ３２０〜Ｓ３６０）を再び実行する。雑音除去部１７は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると（Ｓ３６０でＹｅｓ）、当該処理を終了する。

続いて、図５を用いて音声認識装置１の第二変形例を説明する。図５は、特徴量としてメル周波数ケプストラム係数（ＭＦＣＣ）を用いた場合における雑音除去部１７の雑音除去処理を表すフローチャートである。

図５に示すように第二変形例の雑音除去部１７は、雑音抽出部１５により抽出された雑音成分ｎ（ｔ）がＫ個揃うと（Ｓ４１０でＹｅｓ）、過去Ｋ個分の雑音成分ｎ（ｔ−Ｋ＋１）〜ｎ（ｔ）を用いて、その雑音成分に対応するＱ個のメル周波数ケプストラム係数Ｍｎ（Ｑ）を求める（Ｓ４２０）と共に、同一時点におけるＫ個の入力音声信号ｘ（ｔ−Ｋ＋１）〜ｘ（ｔ）を用いて、その入力音声信号に対応するＱ個のメル周波数ケプストラム係数Ｍｘ（Ｑ）を求める（Ｓ４３０）。

その後、雑音除去部１７は、Ｍｎ（Ｑ）及びＭｘ（Ｑ）と、所定の係数αｍを含む次式（式６）とを用いて、雑音除去後の音声信号ｕ（ｔ）に対応するメル周波数ケプストラム係数Ｍｕ（Ｑ）を求める。

Ｍｕ（Ｑ）＝Ｍｘ（Ｑ）−αｍ・Ｍｎ（Ｑ） …式６
また、雑音除去部１７は、求めたメル周波数ケプストラム係数Ｍｕ（Ｑ）を音声認識部２０に入力する（Ｓ４４０）。この後、雑音除去部１７は、変換対象範囲（雑音除去対象フレーム）を時間方向にＫ／２ずらす（Ｓ４５０）。

そして、当該処理の終了指令が入力されていないと判断すると（Ｓ４６０でＮｏ）、上記処理（Ｓ４２０〜Ｓ４６０）を再び実行する。雑音除去部１７は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると（Ｓ４６０でＹｅｓ）、当該処理を終了する。

以上、第一変形例及び第二変形例について説明したが、これらの変形例によれば、マイクロフォンＭ１からの入力音声信号ｘ（ｔ）及び雑音成分ｎ（ｔ）を、音の特徴を表す特徴量としてのＬＰＣケプストラム若しくはメル周波数ケプストラム係数に変換するので、マイクロフォンＭ１からの入力音声信号ｘ（ｔ）から雑音成分を適切に除去することができる。したがって、音声認識部２０における音声の認識率を向上させることができる。

さて、以上では音声認識装置１に雑音除去装置１０を組み込んだ例を示したが、上述のような雑音除去装置を電話機等に代表される音声通信装置に組み込めば、入力音声信号から、雑音成分を適切に取り除くことができて便利である。以下では、雑音除去装置１０に類似する構成の雑音除去装置６０を備える音声通信装置４０について図６及び図７を用いて説明する。尚、以下では上記音声認識装置１と同一構成の部位についての詳しい説明を省略することにする。

図６に示すように、音声通信装置４０は、複数のマイクロフォンＭ１，Ｍ２と、通信制御部５０と、雑音除去装置６０と、を備えており、通信制御部５０を介して、外部の公衆電話回線網（ＰＳＴＮ）に接続されている。

通信制御部５０は、雑音除去装置１０の出力端子及び外部の通信回線ＬＮに接続されており、図示しない外部通信装置から呼出信号が送信されてくると、呼出音をスピーカ４１から出力する。また、通信制御部５０は、ユーザが操作部４３を操作することにより、操作部４３から回線接続指令信号が入力されると、回線接続して、外部通信装置と自身とを音声通信可能にする。また回線接続後、通信制御部５０は、外部通信装置から通信回線ＬＮを介して送信されてきた音声信号をスピーカ４１に入力すると共に、雑音除去装置１０を介して取得した雑音除去後のマイクロフォンＭ１の出力信号ｕ（ｔ）を、通信回線ＬＮを介して外部通信装置に送信する。

雑音除去装置６０は、アナログデジタル変換器１１，１３と、雑音抽出部１５と、雑音除去部６１と、を備えている。雑音除去装置６０は、各マイクロフォンＭ１，Ｍ２の出力信号を、対応するアナログデジタル変換器１１，１３に入力して、デジタル信号（入力音声信号）にする。そして、この入力音声信号ｘ（ｔ），ｙ（ｔ）を雑音抽出部１５に入力する。

雑音抽出部１５は、外部からの指令に基づいて動作を開始すると、図２に示すように、アナログデジタル変換器１１，１３を介して各マイクロフォンＭ１，Ｍ２からの入力音声信号ｘ（ｔ），ｙ（ｔ）を取得する（Ｓ１２０）。

また、雑音抽出部１５は、独立成分分析（ＩＣＡ）の一手法としてのｉｎｆｏｍａｘ法によるフィルタ係数Ｗ［ｊ］の学習更新を実行することにより、複数のマイクロフォンＭ１，Ｍ２からの入力音声信号ｘ（ｔ），ｙ（ｔ）に共通して含まれる音声成分を除去し、入力音声信号ｘ（ｔ）に含まれる雑音成分ｎ（ｔ）を抽出する（Ｓ１３０）。尚、音声通信装置４０における雑音抽出部１５の動作は、上述の音声認識装置１における雑音抽出部１５と同一であるので、これ以上の詳細な説明は省略する。

一方、雑音除去部６１は、雑音抽出部１５が取得したＫ個の入力音声信号ｘ（ｔ）と、雑音抽出部１５が抽出したＫ個の雑音成分ｎ（ｔ）と、を用いて、雑音除去すべきマイクロフォンＭ１の出力信号としての入力音声信号ｘ（ｔ）から雑音成分ｎ（ｔ）を除去し、その雑音除去後の入力音声信号ｕ（ｔ）を通信制御部５０に入力する。ここで、図７は、音声通信装置４０における雑音除去部６１が実行する雑音除去処理を表すフローチャートである。

雑音除去部６１は、雑音抽出部１５により抽出された雑音成分ｎ（ｔ）がＫ個揃うと（Ｓ５１０でＹｅｓ）、過去Ｋ個分の雑音成分ｎ（ｔ−Ｋ＋１）〜ｎ（ｔ）を対象に、高速フーリエ変換（ＦＦＴ）して、時間ｔ−Ｋ＋１〜ｔにおける雑音成分ｎ（ｔ）のパワースペクトルＮ（ω）を求める（Ｓ５２０）と共に、過去Ｋ個分の入力音声信号ｘ（ｔ−Ｋ＋１）〜ｘ（ｔ）を対象に高速フーリエ変換（ＦＦＴ）して、時間ｔ−Ｋ＋１〜ｔにおける入力音声信号ｘ（ｔ）のパワースペクトルＸ（ω）を求める（Ｓ５３０）。

この後、雑音除去部６１は、上述の式４に従いパワースペクトルＸ（ω）からパワースペクトルＮ（ω）を減算して、雑音除去後の入力音声信号ｕ（ｔ）に対応するパワースペクトルＵ（ω）を算出する（Ｓ５４０）。

そして、パワースペクトルＵ（ω）に対して、高速逆フーリエ変換（逆ＦＦＴ）を施すことにより、雑音除去後の入力音声信号ｕ（ｔ）を求め、その後、入力音声信号ｕ（ｔ）を、デジタルアナログ変換器６３に入力する（Ｓ５５０）。デジタルアナログ変換器６３では、入力音声信号ｕ（ｔ）が、アナログ信号に変換されて、通信制御部５０に入力される。

この後、雑音除去部６１は、ＦＦＴによる変換対象範囲（雑音除去対象フレーム）を時間方向にＫ／２ずらし（Ｓ５６０）、当該処理の終了指令が入力されているか判断する（Ｓ５７０）。そして、終了指令が入力されていないと判断すると（Ｓ５７０でＮｏ）、上記処理（Ｓ５２０〜Ｓ５７０）を再び行う。雑音除去部６１は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると（Ｓ５７０でＹｅｓ）、当該処理を終了する。

以上、音声通信装置４０の構成について説明したが、本実施例の音声通信装置４０によれば、上述の音声認識装置１と同様に式３に従って信号ｙ（ｔ）と信号ｎ（ｔ）とが相互に独立になる方向に、フィルタ係数Ｗ［ｊ］の学習更新を繰り返すので、入力音声信号ｘ（ｔ）から、入力音声信号ｘ（ｔ），ｙ（ｔ）に共通して含まれる音声信号を除去することができ、この結果として、入力音声信号ｘ（ｔ）に含まれる雑音成分ｎ（ｔ）を適切に抽出することができる。

したがって、雑音除去部６１で、マイクロフォンＭ１の出力信号から雑音成分ｎ（ｔ）を、定常雑音、非定常雑音にかかわらず適切に除去できる。この結果、音声通信装置４０によれば、外部通信装置に雑音成分の少ない音声信号を送信することができて、外部通信装置にクリアな音声を再生させることができる。したがって、雑音が耳に入ることによりユーザに不快感が及ぶのを抑制することができる。

尚、本発明の信号取得手段は、雑音抽出部１５がマイクロフォンＭ１，Ｍ２からの入力音声信号ｘ（ｔ），ｙ（ｔ）を取得する動作（Ｓ１２０）にて実現されている。また、成分抽出手段は、雑音抽出部１５が入力音声信号ｘ（ｔ）から雑音成分ｎ（ｔ）を独立成分分析（ＩＣＡ）を行うことにより分離抽出する動作（Ｓ１３０）にて実現されている。また、雑音除去手段は、雑音除去部１７，６１に相当する。

この他、第一特徴量変換手段は、雑音除去部１７，６１が実行するＳ２２０，Ｓ３２０，Ｓ４２０，Ｓ５２０の処理にて実現され、第二特徴量変換手段は、雑音除去部１７，６１が実行するＳ２３０，Ｓ３３０，Ｓ４３０，Ｓ５３０の処理にて実現されている。また、音声認識手段は、音声認識部２０に相当し、通信制御手段は、通信制御部５０に相当する。

以上、本発明の実施例について説明したが、本発明の雑音除去装置及び音声認識装置及び音声通信装置は、上記実施例に限定されるものではなく、種々の態様を採ることができる。

雑音抽出部１５では、独立成分分析（ＩＣＡ）の一手法であるｉｎｆｏｍａｘ法を用いて、雑音成分を抽出する構成としたが、その他の手法を用いて雑音成分を抽出してもよい。

本実施例の音声認識装置１の構成を表すブロック図である。雑音抽出部１５にて実行される雑音抽出処理を表すフローチャートである。音声認識装置１の雑音除去部１７にて実行される雑音除去処理を表すフローチャートである。音声認識装置１の雑音除去部１７にて実行される第一変形例の雑音除去処理を表すフローチャートである。音声認識装置１の雑音除去部１７にて実行される第二変形例の雑音除去処理を表すフローチャートである。本実施例の音声通信装置４０の構成を表すブロック図である。音声通信装置４０の雑音除去部６１にて実行される雑音除去処理を表すフローチャートである。

符号の説明

１…音声認識装置、１０，６０…雑音除去装置、１１，１３…アナログデジタル変換器、１５…雑音抽出部、１７，６１…雑音除去部、２０…音声認識部、３０…ナビ制御部、４０…音声通信装置、４１…スピーカ、４３…操作部、５０…通信制御部、６３…デジタルアナログ変換器、ＬＮ…通信回線、Ｍ１，Ｍ２…マイクロフォン

Claims

マイクロフォンの出力信号に含まれる雑音成分を除去する雑音除去方法において、
複数のマイクロフォンの出力信号を取得する第１ステップと、
独立成分分析（ＩＣＡ）を用いて、前記複数のマイクロフォンの各出力信号に共通して含まれる音声成分を前記マイクロフォンの出力信号から除去して、該出力信号に含まれる雑音成分を抽出する第２ステップと、
前記第２ステップで抽出した雑音成分を、所定の特徴量に変換する第３ステップと、
前記第１ステップで取得したマイクロフォンの出力信号を、前記所定の特徴量に変換する第４ステップと、
前記第３ステップの変換結果と前記第４ステップの変換結果を用いて、前記第１ステップで取得したマイクロフォンの出力信号から、前記第２ステップで抽出した雑音成分を除去する第５ステップと、
を備えることを特徴とする雑音除去方法。
前記所定の特徴量としてフーリエ変換により得られるスペクトルを用いることを特徴とする請求項１に記載の雑音除去方法。
前記所定の特徴量として、フーリエ変換により得られるスペクトルの対数を（逆）フーリエ変換することにより得られるケプストラムを用いることを特徴とする請求項１に記載の雑音除去方法。
前記ケプストラムとしてメル周波数ケプストラム係数を用いることを特徴とする請求項３に記載の雑音除去方法。
前記ケプストラムとして線形予測符号化の手法を用いることを特徴とする請求項３に記載の雑音除去方法。