JP4173978B2 - 雑音除去装置、及び、音声認識装置、並びに音声通信装置 - Google Patents
雑音除去装置、及び、音声認識装置、並びに音声通信装置 Download PDFInfo
- Publication number
- JP4173978B2 JP4173978B2 JP2002225064A JP2002225064A JP4173978B2 JP 4173978 B2 JP4173978 B2 JP 4173978B2 JP 2002225064 A JP2002225064 A JP 2002225064A JP 2002225064 A JP2002225064 A JP 2002225064A JP 4173978 B2 JP4173978 B2 JP 4173978B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- microphone
- component
- noise removal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephone Function (AREA)
Description
【発明の属する技術分野】
本発明は、マイクロフォンの出力信号から雑音成分を除去するための雑音除去装置、及び、それを用いた音声認識装置並びに音声通信装置に関する。
【0002】
【従来の技術】
従来より、ユーザから発せられた音声をマイクロフォンで集音し、これを予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語をユーザが発声した語彙であると認識する音声認識装置が知られている。この種の音声認識装置は、例えばカーナビゲーション装置などに組み込まれている。
【0003】
音声認識装置としては、マイクロフォンの出力信号から、その出力信号に含まれる雑音成分を除去するための雑音除去装置を備えたものがある。また、音声認識装置の音声認識率は、雑音除去装置の性能によって左右されることがよく知られている。
【0004】
雑音除去装置としては、従来より、スペクトラムサブトラクション(SS)法を用いてマイクロフォンの出力信号から雑音成分を除去するものが知られている。スペクトラムサブトラクション法は、音声が発せられていない非音声区間におけるマイクロフォンの出力信号を雑音信号とし、音声が発せられている音声区間におけるマイクロフォンの出力信号から、その雑音信号を除去することにより、音声のスペクトルを得る方法である。
【0005】
この他、上記雑音除去装置を含む機器としては、音声通信装置が知られている。このような雑音除去装置を内蔵する音声通信装置は、ハンドセット等に内蔵されたマイクロフォンの出力信号に含まれる雑音成分を雑音除去装置にて除去し、雑音除去後の信号を、公衆電話回線網(PSTN)等を介して外部の通信装置(電話機等)に送信する構成にされている。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来の雑音除去装置では、非音声区間におけるマイクロフォンの出力信号から先行して得た雑音信号を、以後の雑音除去に用いるため、定常的に発生する雑音成分を、マイクロフォンの出力信号から取り除くことはできても、突発的に発生する非定常的な雑音成分をマイクロフォンの出力信号から適切に取り除けないという問題があった。
【0007】
一方、上記問題の解決を図るために、特開平4−245300号公報に記載の発明では、第一のマイクロフォンを、主に音声を集音可能な位置に配置し、第二のマイクロフォンを、主に周囲雑音を集音可能な位置に配置することにより、非定常雑音の除去を行っている。
【0008】
特開平4−245300号公報に記載の雑音除去装置では、第二のマイクロフォンの出力信号から第一のマイクロフォンの出力信号に含まれる雑音成分を推定し、この推定した雑音成分を、第一のマイクロフォンの出力信号から除去して音声信号を得る。
【0009】
しかし、このような技術では、第二のマイクロフォンの出力信号に音声成分が含まれないようにしないと、雑音成分の推定時に大きな誤差を生むため、マイクロフォンの設置位置が非常に限定されていた。また、第二のマイクロフォンを第一のマイクロフォンから離して、第二のマイクロフォンに音声が入力されないようにすると、結果として、第一のマイクロフォンが集音する雑音と、第二のマイクロフォンが集音する雑音とに差異が生じるため、雑音除去の精度に関しては、一定度の限界があった。特に、車両内においては、車両(自動車等)の走行時と停止時で周囲雑音の発生状態が大きく変化することから、特開平4−245300号公報に記載の雑音除去装置では、適切に雑音成分を除去できないという問題があった。
【0010】
本発明は、こうした問題に鑑みなされたものであって、マイクロフォンの出力信号から雑音成分を適切に除去することが可能な雑音除去装置及び、それを用いた音声認識装置並びに音声通信装置を提供することを目的とする。
【0011】
【課題を解決するための手段】
かかる目的を達成するためになされた請求項1に記載の雑音除去装置は、マイクロフォンの出力信号から雑音成分を除去するための雑音除去装置であって、ユーザが発した音声と周囲雑音を入力する複数のマイクロフォンと、複数のマイクロフォンの各出力信号を取得する信号取得手段と、信号取得手段が取得した複数のマイクロフォンの出力信号に共通して含まれる音声成分を、(一つ若しくは複数の)マイクロフォンの出力信号から除去することにより、その出力信号に含まれる雑音成分を抽出する成分抽出手段と、信号取得手段が取得したマイクロフォンの出力信号の内、雑音除去すべきマイクロフォンの出力信号から、成分抽出手段が抽出した雑音成分を除去する雑音除去手段と、を備える。
【0012】
従来のような雑音成分を推定して除去する手法では、突如ノイズ源が発生したりすると、複数のマイクロフォンを用いても、適切に雑音成分を推定して除去することができないといった問題がある。一方、音声成分は、ユーザの発話内容に基づく成分であるため雑音成分より適切に除去しやすいといった特徴がある。
【0013】
請求項1に記載の雑音除去装置では、複数のマイクロフォンの各出力信号に共通して含まれる音声成分を除去して、マイクロフォンの出力信号に含まれる雑音成分を抽出し、その抽出した雑音成分を用いて雑音除去するから、マイクロフォンの設置場所によらず、雑音除去すべきマイクロフォンの出力信号の雑音成分を適切に除去することができる。
【0014】
また、音声成分を除去して雑音成分を抽出する手法であるため、成分抽出手段を逐次動作させることによって、常に周囲雑音に従った雑音成分をマイクロフォンの出力信号から除去することができ、従来装置において除去し辛かった非定常雑音を適切にマイクロフォンの出力信号から除去することができる。したがって、マイクロフォンの出力信号の雑音成分を適切に除去することができる。尚、上記効果は、当該雑音除去装置を、車両用とすることで一層発揮される。
【0015】
また、本発明の雑音除去装置においては、具体的に、成分抽出手段が、独立成分分析(ICA)を行うことにより、複数のマイクロフォンの出力信号に共通して含まれる音声成分をマイクロフォンの出力信号から除去し、その出力信号に含まれる雑音成分を抽出する構成にされている。
【0016】
独立成分分析は、複数のブラインド音源から生じる混合音声を、複数のマイクロフォンで集音し、その混合音声に含まれる各音源からの信号をマイクロフォンからの出力信号に基づいて分離する手法である。本発明の雑音除去装置では、このような独立成分分析の手法を用いているので、マイクロフォンの出力信号から雑音成分を適切に分離抽出することができ、マイクロフォンの出力信号の雑音成分を適切に除去することができる。
【0017】
また、雑音除去手段は、請求項2に記載のように構成されると良い。請求項2に記載の雑音除去装置における雑音除去手段は、成分抽出手段が抽出した雑音成分を、所定の特徴量に変換する第一特徴量変換手段と、信号取得手段が取得した雑音除去すべきマイクロフォンの出力信号を、第一特徴量変換手段と同一の特徴量に変換する第二特徴量変換手段と、を備えており、第一特徴量変換手段の変換結果及び第二特徴量変換手段の変換結果を用いて、雑音除去すべきマイクロフォンの出力信号から、成分抽出手段が抽出した雑音成分を除去する。
【0018】
この雑音除去装置においては、マイクロフォンの出力信号及び雑音成分を、音の特徴を表す所定の特徴量に変換することで、その出力信号及び抽出した雑音成分から、音に関する情報を抽出することができる。したがって、第一特徴量変換手段の変換結果から第二特徴量変換手段の変換結果を除算するなどすれば、マイクロフォンの出力信号から雑音成分を適切に除去することができる。
【0019】
尚、特徴量としては、フーリエ変換による得られるスペクトル、そのスペクトルの対数を(逆)フーリエ変換することにより得られるケプストラム等が挙げられる。特に、周知のフィルタバンク分析の手法を用いて得られるメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)や、線形予測符号化(LPC:Linear Predictive coding)の手法により得られるLPCケプストラムを特徴量として用いると、雑音成分除去後のマイクロフォンの出力信号として、音声の特徴を良く表す波形を得ることができる。このため、そのような雑音除去装置を音声認識装置に内蔵すれば、音声の認識率が向上する。
【0020】
また、請求項3に記載の音声認識装置は、請求項1又は請求項2に記載の雑音除去装置と、雑音除去装置の雑音除去手段によって雑音成分が除去されたマイクロフォンの出力信号に基づいて、マイクロフォンに入力された音声を認識する音声認識手段と、を備えることを特徴とする。
【0021】
この音声認識装置によれば、雑音除去装置にて、マイクロフォンの出力信号から適切に雑音成分を除去できるので、マイクロフォンに入力された音声を、音声認識手段にて正確に認識することができる。つまり、音声の認識率を向上させることができる。
【0022】
この他、請求項4に記載の発明は、外部通信装置との間で音声通信可能な通信制御手段、を備える音声通信装置に、請求項1又は請求項2に記載の雑音除去装置、を設けたものである。この音声通信装置においては、通信制御手段が、雑音除去装置の雑音除去手段によって雑音成分が除去されたマイクロフォンの出力信号を、外部通信装置に送信可能な構成にされている。
【0023】
この音声通信装置によれば、マイクロフォンから得た信号から雑音成分を適切に除去することができ、外部通信装置に雑音成分の少ない音声信号を送信することができる。したがって、この音声通信装置によれば、外部通信装置にクリアな音声を再生させることができる。この結果、話者の音声が聞き取りづらいといった問題を解消することができ、雑音によってユーザに不快感が及ぶのを抑制することができる。
【0024】
【発明の実施の形態】
以下に本発明の実施例について、図面とともに説明する。尚、図1は、本発明が適用された雑音除去装置10を備える音声認識装置1の概略構成を表すブロック図である。
【0025】
本実施例の音声認識装置1は、主に、マイクロフォンM1,M2と、雑音除去装置10と、音声認識部20と、から構成されており、目的地までの経路案内を車両乗員に対して行うことが可能な周知のナビゲーション機能を有するナビ制御部30に接続されている。この音声認識装置1は、マイクロフォンM1,M2から入力されたユーザの音声を認識して、ユーザが発した語彙に対応する指令信号をナビ制御部30に入力することにより、ユーザの音声に従う操作をナビ制御部30に対して施す。
【0026】
マイクロフォンM1,M2は、車両内に複数(本実施例では二つ)設けられており、夫々は、雑音除去装置10の各入力端子に接続されている。
一方、雑音除去装置10は、車両内(自動車等)において発生する空調音、エンジン音、ロードノイズ、風切音などの雑音がマイクロフォンM1,M2に入力されて発生する雑音成分をマイクロフォンM1の出力信号から除去して音声の認識率を高めるために設けられている。この雑音除去装置10は、主に、アナログデジタル変換器11,13と、雑音抽出部15と、雑音除去部17と、を備えている。
【0027】
アナログデジタル変換器11,13は、各マイクロフォンM1,M2に対応して設けられており、各マイクロフォンM1,M2の出力信号をデジタル信号(以下、これを「入力音声信号」とも表現する。)にして雑音抽出部15に入力する。
【0028】
雑音抽出部15は、外部からの指令に基づいて動作を開始すると、各マイクロフォンM1,M2からの入力音声信号x(t),y(t)を、アナログデジタル変換器11,13を介して取得し、その入力音声信号x(t),y(t)に含まれる雑音成分n(t)を抽出する。ここで、図2は、雑音抽出部15にて実行される雑音抽出処理を表すフローチャートである。
【0029】
図2に示すように、雑音抽出部15は、まずフィルタ係数W[j]、及び学習レートL(詳細後述)を初期化し(S110)、その後に、マイクロフォンM1からの入力音声信号x(t)及びマイクロフォンM2からの入力音声信号y(t)を夫々のアナログデジタル変換器11,13を介して取得する(S120)。また、取得した入力音声信号x(t),y(t)を用いて、式1及び式2に従い、入力音声信号x(t)から雑音成分n(t)を抽出し、その雑音成分n(t)を雑音除去部17に入力する(S130)。
【0030】
【数1】
n(t)=x(t)+F(t) …式2
即ち、雑音抽出部15は、フィルタ係数W[j]と入力音声信号y(t)とを畳み込み演算して演算結果F(t)を得る。その後、演算結果F(t)を入力音声信号x(t)に加算することにより、マイクロフォンM1,M2から得た入力音声信号x(t),y(t)に共通して含まれる音声成分−F(t)を、入力音声信号x(t)から除去し、入力音声信号x(t)に含まれる雑音成分n(t)を入力音声信号x(t)から抽出する。ここで、jは、入力音声信号x(t),y(t)のサンプリング数がJである場合に、1〜Jまでの整数値を採る(即ち、j=1,2,…J)。その他、値tは、入力音声信号x(t),y(t)のサンプリング周期T(例えば、T=62.5μs)を単位とする時間パラメータであって整数値を採るものである。
【0031】
この後、雑音抽出部15は、先程雑音抽出の際に用いたフィルタ係数W[j]と、抽出した雑音成分n(t)と、入力音声信号y(t)とに基づき、次に設定すべきフィルタ係数W’[j]を、学習レートLを含む式3に従って算出する(S140)。
【0032】
W’[j]=W[j]−L・
f(n(t))・y(t−j) …式3
ここで、f(n(t))は、非線形関数f(g)に雑音成分n(t)を代入した値を示すものである。即ち、雑音抽出部15は、非線形関数f(g)に、値g=n(t)を代入した後、その値f(n(t))を用いて式3によりW’[j]を算出する。
【0033】
尚、非線形関数f(g)としては、tanh(ハイパボリックタンジェント)関数や、sign関数、シグモイド関数(具体的には、f(g)=1/{1+exp(−g)}。)等が挙げられる。sign関数は、代入値が負値であるときに、−1を返し、代入値がゼロであるときに0を返し、代入値が正値であるときに、1を返す関数である。また、図2では、非線形関数として、tanh(ハイパボリックタンジェント)関数を用いた場合の例を示す。この他、上記学習レートLは、学習速度を調整するための定数である。
【0034】
雑音抽出部15は、上式3に従ってフィルタ係数W’[j]を算出すると、このフィルタ係数W’[j]を次のフィルタ係数W[j]に設定することにより、フィルタ係数Wを更新する。
その後、雑音抽出部15は、学習レートLが更新時期になったか否か判断し(S150)、更新時期になったと判断すると(S150でYes)、学習レートLを更新する(S160)。例えば、入力音声信号x(t),y(t)の累積サンプリング数が一定数(例えば2000回)以上になると(S150でYes)、雑音抽出部15は、既に設定されている学習レートLに対して値Lc(例えば、Lc=0.98)を乗算することにより、学習レートLをLc倍した値Lc・Lを得て、これを次の学習レートLとして設定更新する。
【0035】
このようにして学習レートLの更新が完了するか、学習レートLが更新時期ではないと判断すると(S150でNo)、雑音抽出部15は、自身に対し終了指令が入力されているか否か判断する(S170)。そして、終了指令が入力されていないと判断すると(S170でNo)、再び、入力音声信号x(t),y(t)をアナログデジタル変換器11,13を介してサンプリングし(S120)、上記動作(S130〜S170)を繰り返す。そして、終了指令が入力されていると判断すると(S170でYes)、当該処理を終了する。
【0036】
一方、雑音除去部17は、雑音抽出部15が取得した入力音声信号x(t)と、雑音抽出部15が抽出した同時間帯の雑音成分n(t)と、を用いて、雑音除去すべきマイクロフォンM1の出力信号としての入力音声信号x(t)から雑音成分n(t)を除去する。ここで、図3は、雑音除去部17が実行する雑音除去処理を表すフローチャートである。
【0037】
雑音除去部17は、雑音抽出部15により抽出された雑音成分n(t)がK個揃うと(S210でYes)、過去K個分の雑音成分n(t−K+1)〜n(t)を対象に、高速フーリエ変換(FFT)して、時間t−K+1〜tにおける雑音成分n(t)のパワースペクトルN(ω)を求める(S220)。ここでωは、周波数を表すパラメータである。
【0038】
続いて、雑音除去部17は、過去K個分の入力音声信号x(t−K+1)〜x(t)を対象に、高速フーリエ変換(FFT)して、時間t−K+1〜tにおける入力音声信号x(t)のパワースペクトルX(ω)を求める(S230)。この後、雑音除去部17は、パワースペクトルX(ω)からパワースペクトルN(ω)を減算処理することによって雑音除去し、雑音除去後の入力音声信号u(t)に対応するパワースペクトルU(ω)を得る。そして、求めたパワースペクトルU(ω)を、音声認識部20に入力する(S240)。
【0039】
|U(ω)|=|X(ω)|−|N(ω)| …式4
この後、雑音除去部17は、FFTによる変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらして(S250)、今回の変換対象範囲t0−K+1〜t0に対する次回の変換対象範囲を、時間(t0+K/2)−K+1からt0+K/2までの範囲の入力音声信号x(t)及び雑音成分n(t)とする。そして、当該処理の終了指令が入力されていないと判断すると(S260でNo)、上記処理(S220〜S260)を再び実行する。
【0040】
雑音除去部17は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると(S260でYes)、当該処理を終了する。
一方、音声認識部20は、雑音除去装置10の出力端子に接続されており、雑音除去装置10にて雑音除去されたマイクロフォンM1からの入力音声信号u(t)に対応するパワースペクトルU(ω)を、予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語を、ユーザが発声しマイクロフォンM1に入力された音声(語彙)であると認識する。そして認識語に対応する指令信号をナビ制御部30に入力する。
【0041】
以上、音声認識装置1の構成について説明したが、上述の式3は、独立成分分析(ICA)の一手法として知られるinfomax法に基づくフィルタ係数W[j]の学習方式を数式化したものである。本実施例の雑音抽出部15は、infomax法に基づく式3に従い、信号y(t)と信号n(t)とが相互に独立になる方向に、フィルタ係数W[j]の学習更新を繰り返すことによって、入力音声信号x(t),y(t)に共通して含まれる音声成分を除去するための信号F(t)を生成する。そして、F(t)を用いて、入力音声信号x(t)から、入力音声信号x(t),y(t)に共通して含まれる音声信号を除去することにより、入力音声信号x(t)に含まれる雑音成分n(t)を抽出する。
【0042】
ユーザの発話中には、両マイクロフォンM1,M2にユーザが発した音声が入力されるから、入力音声信号x(t),y(t)には強い相関関係がある。したがって、この状態で発話が続くと、入力音声信号x(t)からユーザの音声を打ち消す方向にフィルタ係数W[j]が学習更新され、結果的に、入力音声信号x(t)からユーザの音声成分−F(t)だけが取り除かれて、雑音成分が抽出されるのである。
【0043】
したがって、本実施例の雑音除去装置10によれば、雑音抽出部15で、マイクロフォンM1から雑音成分n(t)を適切に抽出することができ、その結果として、雑音除去部17で、入力音声信号x(t)から雑音成分n(t)を、定常雑音、非定常雑音にかかわらず適切に除去できる。つまり、突如ノイズ源が発生したり消滅したりするなど、走行時と停止時で周囲雑音の発生状態が大きく変化する車両(自動車等)内であっても、適切に雑音成分を除去することができる。
【0044】
また、本実施例の音声認識装置1では、雑音除去装置10で適切にマイクロフォンの出力信号から雑音成分だけを除去することができるので、音声認識部20での音声認識率を向上させることができる。
尚、以上には説明しなかったが、雑音抽出部15及び雑音除去部17は、例えば、CPUや、DSP、ASICなどのLSIで構成することができる。また、雑音抽出部15及び雑音除去部17をCPU上で実現する場合には、図2,3に示したフローチャートに従うプログラムを作成して、これをCPUに実行させればよい。
【0045】
ところで、音声認識装置1の雑音除去部17では、雑音抽出部15から得た雑音成分n(t)、及び、マイクロフォンM1からの入力音声信号x(t)を、LPCケプストラム、あるいは、メル周波数ケプストラム係数(MFCC)といった特徴量に変換し、その特徴量を減算することによって雑音除去を行っても良い。以下では、図4,図5を用いて音声認識装置1の第一変形例及び第二変形例を説明する。尚、第一変形例及び第二変形例においては雑音除去部17の処理動作が異なる程度であるので、上記実施例の音声認識装置1と同一構成の各部の説明については省略することにする。
【0046】
図4は、特徴量としてLPCケプストラムを用いた場合における雑音除去部17の雑音除去処理を表すフローチャートである。
図4に示すように第一変形例の雑音除去部17は、雑音抽出部15により抽出された雑音成分n(t)がK個揃うと(S310でYes)、過去K個分の雑音成分n(t−K+1)〜n(t)を用いて、その雑音成分に対応するQ個のLPCケプストラムCn(Q)を求める(S320)と共に、同一時点におけるK個の入力音声信号x(t−K+1)〜x(t)を用いて、その入力音声信号に対応するQ個のLPCケプストラムCx(Q)を求める(S330)。
【0047】
その後、雑音除去部17は、Cn(Q)及びCx(Q)と、所定の係数αcを含む次式(式5)とを用いて、雑音除去後の音声信号u(t)に対応するLPCケプストラムCu(Q)を求める。
Cu(Q)=Cx(Q)−αc・Cn(Q) …式5
また、雑音除去部17は、求めたLPCケプストラムCu(Q)を音声認識部20に入力する(S340)。この後、雑音除去部17は、変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらす(S350)。
【0048】
そして、当該処理の終了指令が入力されていないと判断すると(S360でNo)、上記処理(S320〜S360)を再び実行する。雑音除去部17は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると(S360でYes)、当該処理を終了する。
【0049】
続いて、図5を用いて音声認識装置1の第二変形例を説明する。図5は、特徴量としてメル周波数ケプストラム係数(MFCC)を用いた場合における雑音除去部17の雑音除去処理を表すフローチャートである。
図5に示すように第二変形例の雑音除去部17は、雑音抽出部15により抽出された雑音成分n(t)がK個揃うと(S410でYes)、過去K個分の雑音成分n(t−K+1)〜n(t)を用いて、その雑音成分に対応するQ個のメル周波数ケプストラム係数Mn(Q)を求める(S420)と共に、同一時点におけるK個の入力音声信号x(t−K+1)〜x(t)を用いて、その入力音声信号に対応するQ個のメル周波数ケプストラム係数Mx(Q)を求める(S430)。
【0050】
その後、雑音除去部17は、Mn(Q)及びMx(Q)と、所定の係数αmを含む次式(式6)とを用いて、雑音除去後の音声信号u(t)に対応するメル周波数ケプストラム係数Mu(Q)を求める。
Mu(Q)=Mx(Q)−αm・Mn(Q) …式6
また、雑音除去部17は、求めたメル周波数ケプストラム係数Mu(Q)を音声認識部20に入力する(S440)。この後、雑音除去部17は、変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらす(S450)。
【0051】
そして、当該処理の終了指令が入力されていないと判断すると(S460でNo)、上記処理(S420〜S460)を再び実行する。雑音除去部17は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると(S460でYes)、当該処理を終了する。
【0052】
以上、第一変形例及び第二変形例について説明したが、これらの変形例によれば、マイクロフォンM1からの入力音声信号x(t)及び雑音成分n(t)を、音の特徴を表す特徴量としてのLPCケプストラム若しくはメル周波数ケプストラム係数に変換するので、マイクロフォンM1からの入力音声信号x(t)から雑音成分を適切に除去することができる。したがって、音声認識部20における音声の認識率を向上させることができる。
【0053】
さて、以上では音声認識装置1に雑音除去装置10を組み込んだ例を示したが、上述のような雑音除去装置を電話機等に代表される音声通信装置に組み込めば、入力音声信号から、雑音成分を適切に取り除くことができて便利である。以下では、雑音除去装置10に類似する構成の雑音除去装置60を備える音声通信装置40について図6及び図7を用いて説明する。尚、以下では上記音声認識装置1と同一構成の部位についての詳しい説明を省略することにする。
【0054】
図6に示すように、音声通信装置40は、複数のマイクロフォンM1,M2と、通信制御部50と、雑音除去装置60と、を備えており、通信制御部50を介して、外部の公衆電話回線網(PSTN)に接続されている。
通信制御部50は、雑音除去装置10の出力端子及び外部の通信回線LNに接続されており、図示しない外部通信装置から呼出信号が送信されてくると、呼出音をスピーカ41から出力する。また、通信制御部50は、ユーザが操作部43を操作することにより、操作部43から回線接続指令信号が入力されると、回線接続して、外部通信装置と自身とを音声通信可能にする。また回線接続後、通信制御部50は、外部通信装置から通信回線LNを介して送信されてきた音声信号をスピーカ41に入力すると共に、雑音除去装置10を介して取得した雑音除去後のマイクロフォンM1の出力信号u(t)を、通信回線LNを介して外部通信装置に送信する。
【0055】
雑音除去装置60は、アナログデジタル変換器11,13と、雑音抽出部15と、雑音除去部61と、を備えている。雑音除去装置60は、各マイクロフォンM1,M2の出力信号を、対応するアナログデジタル変換器11,13に入力して、デジタル信号(入力音声信号)にする。そして、この入力音声信号x(t),y(t)を雑音抽出部15に入力する。
【0056】
雑音抽出部15は、外部からの指令に基づいて動作を開始すると、図2に示すように、アナログデジタル変換器11,13を介して各マイクロフォンM1,M2からの入力音声信号x(t),y(t)を取得する(S120)。
また、雑音抽出部15は、独立成分分析(ICA)の一手法としてのinfomax法によるフィルタ係数W[j]の学習更新を実行することにより、複数のマイクロフォンM1,M2からの入力音声信号x(t),y(t)に共通して含まれる音声成分を除去し、入力音声信号x(t)に含まれる雑音成分n(t)を抽出する(S130)。尚、音声通信装置40における雑音抽出部15の動作は、上述の音声認識装置1における雑音抽出部15と同一であるので、これ以上の詳細な説明は省略する。
【0057】
一方、雑音除去部61は、雑音抽出部15が取得したK個の入力音声信号x(t)と、雑音抽出部15が抽出したK個の雑音成分n(t)と、を用いて、雑音除去すべきマイクロフォンM1の出力信号としての入力音声信号x(t)から雑音成分n(t)を除去し、その雑音除去後の入力音声信号u(t)を通信制御部50に入力する。ここで、図7は、音声通信装置40における雑音除去部61が実行する雑音除去処理を表すフローチャートである。
【0058】
雑音除去部61は、雑音抽出部15により抽出された雑音成分n(t)がK個揃うと(S510でYes)、過去K個分の雑音成分n(t−K+1)〜n(t)を対象に、高速フーリエ変換(FFT)して、時間t−K+1〜tにおける雑音成分n(t)のパワースペクトルN(ω)を求める(S520)と共に、過去K個分の入力音声信号x(t−K+1)〜x(t)を対象に高速フーリエ変換(FFT)して、時間t−K+1〜tにおける入力音声信号x(t)のパワースペクトルX(ω)を求める(S530)。
【0059】
この後、雑音除去部61は、上述の式4に従いパワースペクトルX(ω)からパワースペクトルN(ω)を減算して、雑音除去後の入力音声信号u(t)に対応するパワースペクトルU(ω)を算出する(S540)。
そして、パワースペクトルU(ω)に対して、高速逆フーリエ変換(逆FFT)を施すことにより、雑音除去後の入力音声信号u(t)を求め、その後、入力音声信号u(t)を、デジタルアナログ変換器63に入力する(S550)。デジタルアナログ変換器63では、入力音声信号u(t)が、アナログ信号に変換されて、通信制御部50に入力される。
【0060】
この後、雑音除去部61は、FFTによる変換対象範囲(雑音除去対象フレーム)を時間方向にK/2ずらし(S560)、当該処理の終了指令が入力されているか判断する(S570)。そして、終了指令が入力されていないと判断すると(S570でNo)、上記処理(S520〜S570)を再び行う。雑音除去部61は、このような動作を、終了指令が入力されるまで繰り返し、終了指令が入力されていると判断すると(S570でYes)、当該処理を終了する。
【0061】
以上、音声通信装置40の構成について説明したが、本実施例の音声通信装置40によれば、上述の音声認識装置1と同様に式3に従って信号y(t)と信号n(t)とが相互に独立になる方向に、フィルタ係数W[j]の学習更新を繰り返すので、入力音声信号x(t)から、入力音声信号x(t),y(t)に共通して含まれる音声信号を除去することができ、この結果として、入力音声信号x(t)に含まれる雑音成分n(t)を適切に抽出することができる。
【0062】
したがって、雑音除去部61で、マイクロフォンM1の出力信号から雑音成分n(t)を、定常雑音、非定常雑音にかかわらず適切に除去できる。この結果、音声通信装置40によれば、外部通信装置に雑音成分の少ない音声信号を送信することができて、外部通信装置にクリアな音声を再生させることができる。したがって、雑音が耳に入ることによりユーザに不快感が及ぶのを抑制することができる。
【0063】
尚、本発明の信号取得手段は、雑音抽出部15がマイクロフォンM1,M2からの入力音声信号x(t),y(t)を取得する動作(S120)にて実現されている。また、成分抽出手段は、雑音抽出部15が入力音声信号x(t)から雑音成分n(t)を独立成分分析(ICA)を行うことにより分離抽出する動作(S130)にて実現されている。また、雑音除去手段は、雑音除去部17,61に相当する。
【0064】
この他、第一特徴量変換手段は、雑音除去部17,61が実行するS220,S320,S420,S520の処理にて実現され、第二特徴量変換手段は、雑音除去部17,61が実行するS230,S330,S430,S530の処理にて実現されている。また、音声認識手段は、音声認識部20に相当し、通信制御手段は、通信制御部50に相当する。
【0065】
以上、本発明の実施例について説明したが、本発明の雑音除去装置及び音声認識装置及び音声通信装置は、上記実施例に限定されるものではなく、種々の態様を採ることができる。
雑音抽出部15では、独立成分分析(ICA)の一手法であるinfomax法を用いて、雑音成分を抽出する構成としたが、その他の手法を用いて雑音成分を抽出してもよい。
【図面の簡単な説明】
【図1】 本実施例の音声認識装置1の構成を表すブロック図である。
【図2】 雑音抽出部15にて実行される雑音抽出処理を表すフローチャートである。
【図3】 音声認識装置1の雑音除去部17にて実行される雑音除去処理を表すフローチャートである。
【図4】 音声認識装置1の雑音除去部17にて実行される第一変形例の雑音除去処理を表すフローチャートである。
【図5】 音声認識装置1の雑音除去部17にて実行される第二変形例の雑音除去処理を表すフローチャートである。
【図6】 本実施例の音声通信装置40の構成を表すブロック図である。
【図7】 音声通信装置40の雑音除去部61にて実行される雑音除去処理を表すフローチャートである。
【符号の説明】
1…音声認識装置、10,60…雑音除去装置、11,13…アナログデジタル変換器、15…雑音抽出部、17,61…雑音除去部、20…音声認識部、30…ナビ制御部、40…音声通信装置、41…スピーカ、43…操作部、50…通信制御部、63…デジタルアナログ変換器、LN…通信回線、M1,M2…マイクロフォン
Claims (4)
- マイクロフォンの出力信号から雑音成分を除去するための雑音除去装置であって、
ユーザが発した音声と周囲雑音を入力する複数のマイクロフォンと、
該複数のマイクロフォンの各出力信号を取得する信号取得手段と、
独立成分分析(ICA)を行うことにより、該信号取得手段が取得した複数のマイクロフォンの前記出力信号に共通して含まれる音声成分を前記マイクロフォンの出力信号から除去することにより、該出力信号に含まれる雑音成分を抽出する成分抽出手段と、
前記信号取得手段が取得した前記マイクロフォンの出力信号の内、雑音除去すべきマイクロフォンの出力信号から、前記成分抽出手段が抽出した雑音成分を除去する雑音除去手段と、
を備えることを特徴とする雑音除去装置。 - 前記雑音除去手段は、
前記成分抽出手段が抽出した雑音成分を、所定の特徴量に変換する第一特徴量変換手段と、
前記信号取得手段が取得した雑音除去すべきマイクロフォンの出力信号を、前記所定の特徴量に変換する第二特徴量変換手段と、
を備えており、
前記第一特徴量変換手段の変換結果及び前記第二特徴量変換手段の変換結果を用いて、前記雑音除去すべきマイクロフォンの出力信号から、前記成分抽出手段が抽出した雑音成分を除去することを特徴とする請求項1に記載の雑音除去装置。 - 請求項1又は請求項2に記載の雑音除去装置と、
該雑音除去装置の前記雑音除去手段によって雑音成分が除去されたマイクロフォンの出力信号に基づいて、該マイクロフォンに入力された音声を認識する音声認識手段と、
を備えることを特徴とする音声認識装置。 - 外部通信装置との間で音声通信可能な通信制御手段、を備える音声通信装置であって、
請求項1又は請求項2に記載の雑音除去装置、を備え、
前記通信制御手段は、前記雑音除去装置の前記雑音除去手段によって雑音成分が除去されたマイクロフォンの出力信号を、前記外部通信装置に送信可能に構成されていることを特徴とする音声通信装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002225064A JP4173978B2 (ja) | 2002-08-01 | 2002-08-01 | 雑音除去装置、及び、音声認識装置、並びに音声通信装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002225064A JP4173978B2 (ja) | 2002-08-01 | 2002-08-01 | 雑音除去装置、及び、音声認識装置、並びに音声通信装置 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006297627A Division JP2007058237A (ja) | 2006-11-01 | 2006-11-01 | 雑音除去方法 |
JP2008177867A Division JP2008299341A (ja) | 2008-07-08 | 2008-07-08 | 雑音除去方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004069772A JP2004069772A (ja) | 2004-03-04 |
JP4173978B2 true JP4173978B2 (ja) | 2008-10-29 |
Family
ID=32012845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002225064A Expired - Fee Related JP4173978B2 (ja) | 2002-08-01 | 2002-08-01 | 雑音除去装置、及び、音声認識装置、並びに音声通信装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4173978B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008299341A (ja) * | 2008-07-08 | 2008-12-11 | Denso Corp | 雑音除去方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100449282C (zh) * | 2005-03-23 | 2009-01-07 | 江苏大学 | 基于独立分量的红外光谱去噪方法和装置 |
JP4825552B2 (ja) * | 2006-03-13 | 2011-11-30 | 国立大学法人 奈良先端科学技術大学院大学 | 音声認識装置、周波数スペクトル取得装置および音声認識方法 |
JP5375400B2 (ja) * | 2009-07-22 | 2013-12-25 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
-
2002
- 2002-08-01 JP JP2002225064A patent/JP4173978B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008299341A (ja) * | 2008-07-08 | 2008-12-11 | Denso Corp | 雑音除去方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2004069772A (ja) | 2004-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4333369B2 (ja) | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
US8666736B2 (en) | Noise-reduction processing of speech signals | |
EP1058925B1 (en) | System and method for noise-compensated speech recognition | |
US20060031067A1 (en) | Sound input device | |
US6182036B1 (en) | Method of extracting features in a voice recognition system | |
CN110383798B (zh) | 声学信号处理装置、声学信号处理方法和免提通话装置 | |
JPH11511567A (ja) | パターン認識 | |
JP3909709B2 (ja) | 雑音除去装置、方法、及びプログラム | |
JP3907194B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP4173978B2 (ja) | 雑音除去装置、及び、音声認識装置、並びに音声通信装置 | |
JP2007058237A (ja) | 雑音除去方法 | |
JP3970776B2 (ja) | 雑音環境条件および周波数不一致条件において音声認識を改良するためのシステムおよび方法 | |
JP3250604B2 (ja) | 音声認識方法および装置 | |
JP3270866B2 (ja) | 雑音除去方法および雑音除去装置 | |
JP3110201B2 (ja) | ノイズ除去装置 | |
JP2008299341A (ja) | 雑音除去方法 | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
JP3039623B2 (ja) | 音声認識装置 | |
JP2002023790A (ja) | 音声特徴量抽出装置 | |
CN112331225B (zh) | 一种高噪声环境下辅助听力的方法及装置 | |
JP2004198810A (ja) | 音声認識装置 | |
JP4325044B2 (ja) | 音声認識システム | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060530 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061122 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20061219 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080709 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080815 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110822 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130822 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |