JP3510458B2

JP3510458B2 - 音声認識システムおよび音声認識制御プログラムを記録した記録媒体

Info

Publication number: JP3510458B2
Application number: JP24108397A
Authority: JP
Inventors: 和彦首藤
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1997-09-05
Filing date: 1997-09-05
Publication date: 2004-03-29
Anticipated expiration: 2017-09-05
Also published as: JPH1185185A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
および音声認識制御プログラムを記録した記録媒体に関
し、たとえば、複数の雑音源からの雑音信号が主音響信
号に混入している場合に、主音響信号から雑音信号を除
去し音声認識を行うシステムに関する。

【０００２】

【従来の技術】近年、カーナビゲーションシステムなど
の商品において、その操作制御を、音声認識を用いてユ
ーザの音声によって行うことが試みられている。しかし
ながら、自動車内のカーオーディオシステムからの音響
や車外からの騒音といった、音声認識装置にとっては雑
音が激しい環境である自動車内などでは、音声認識装置
をそのまま適用したのでは認識率が低くく実用的ではな
い。

【０００３】そこで、従来、マイクロフォンなどを使用
して捕捉された音響信号から、適応ノイズキャンセラを
使用して、カーオーディオ信号などに重畳している雑音
信号を軽減し、その後に音声認識を行うことがなされて
きた。

【０００４】

【発明が解決しようとする課題】しかしながら、雑音信
号としては、カーオーディオ信号にとどまらず、車外騒
音や風を切る音やエンジンオ音やタイヤ走行音など異な
る種類の多数の雑音信号が存在する。このような複数の
種類の雑音が存在する雑音信号に対処するには、入力を
多数備える適応ノイズキャンセラが必要になる。しか
し、多入力の適応ノイズキャンセラは、アルゴリズムが
複雑で計算量が膨大になり、処理時間が長くなり実用的
ではないとされてきた。

【０００５】このようなことから、自動車外からの雑音
やカーオーディオシステムからの音響信号など、異なる
種類の複数の雑音信号が存在する音響環境において、現
実的な処理量（少ない処理量）で音声認識の認識精度を
向上させることができる音声認識システムおよび音声認
識制御プログラムを記録した記録媒体の実現が要請され
ている。

【０００６】

【課題を解決するための手段】そこで、本発明によれ
ば、主音響を捕捉し主音響信号を出力すると共に、少な
くとも２以上の雑音源からの雑音を捕捉し得る主音響信
号捕捉手段を含む音声認識システムは、少なくとも２以
上の雑音源からの雑音信号を除去するために少なくとも
２以上の雑音信号捕捉手段と適応ノイズキャンセル手段
とを含むシステムであって、ある一つの雑音源からの雑
音を捕捉し雑音捕捉信号を出力する第１の雑音信号捕捉
手段と、他の雑音源からの雑音を捕捉し雑音捕捉信号を
出力する第２の雑音信号捕捉手段と、主音響信号から第
１の雑音信号捕捉手段で捕捉した雑音捕捉信号を除去
し、この除去した主音響信号を出力する第１の適応ノイ
ズキャンセル手段と、主音響信号から第２の雑音信号捕
捉手段で捕捉した雑音捕捉信号を除去し、この除去した
主音響信号を出力する第２の適応ノイズキャンセル手段
と、第１の適応ノイズキャンセル手段の出力主音響信号
を統計的音響モデルを使用して音声認識し、認識単語を
求めると共にその認識の確からしさを求め、第２の適応
ノイズキャンセル手段の出力主音響信号も統計的音響モ
デルを使用して音声認識し、認識単語を求めると共にそ
の認識の確からしさを求め、これらの認識結果から、音
声認識の確からしさが高い認識単語を認識結果として出
力する音声認識手段とを含む。

【０００７】このような構成を採ることで、主音響信号
から、ある一つの雑音源からの雑音を捕捉した雑音捕捉
信号を第１の適応ノイズキャンセル手段で除去でき、さ
らに、他の雑音源からの雑音を捕捉した雑音捕捉信号を
第２の適応ノイズキャンセル手段で除去でき、これらの
除去された主音響信号に対してそれぞれ音声認識を行
い、認識の確からしさが高い単語を認識結果とする。こ
のため、複数の雑音源からの雑音信号が主音響信号に含
まれている場合であっても、複雑な処理を行うことなく
簡単な構成で音声認識を行うことができ、統計的音響モ
デルを使用して音声認識を行い認識率の高い認識単語を
選択するように構成しているため、認識精度も向上させ
ることができる。

【０００８】なお、上述の構成では、適応ノイズキャン
セル手段を２つとしているが、これは、雑音源からの雑
音信号が少なくとも２種類としているためであり、３以
上であった場合は、雑音信号捕捉手段および適応ノイズ
キャンセル手段は、それぞれ３以上備えれば、同じよう
な処理で音声認識処理を行うことができる。

【０００９】また、本発明によれば、主音響を捕捉し主
音響信号を出力すると共に、少なくとも２以上の雑音源
からの雑音を捕捉し得る主音響信号捕捉手段を含む音声
認識システムは、少なくとも２以上の雑音源からの雑音
信号を除去するために少なくとも２以上の雑音信号捕捉
手段と適応ノイズキャンセル手段とを含むシステムであ
って、ある一つの雑音源からの雑音を捕捉し雑音捕捉信
号を出力する第１の雑音信号捕捉手段と、他の雑音源か
らの雑音を捕捉し雑音捕捉信号を出力する第２の雑音信
号捕捉手段と、主音響信号から第１の雑音信号捕捉手段
で捕捉した前記雑音捕捉信号を除去し、この除去した主
音響信号を出力する第１の適応ノイズキャンセル手段
と、主音響信号から第２の雑音信号捕捉手段で捕捉した
雑音捕捉信号を除去し、この除去した主音響信号を出力
する第２の適応ノイズキャンセル手段と、第１の適応ノ
イズキャンセル手段の出力主音響信号および第２の適応
ノイズキャンセル手段の出力主音響信号の信号品質を求
め、信号品質の良い出力主音響信号を選択し、この選択
した出力主音響信号に対して音声認識を行う音声認識手
段とを含む。

【００１０】このような構成を採ることで、信号品質と
して、信号対雑音比または信号歪み量などから第１の適
応ノイズキャンセル手段の出力主音響信号および第２の
適応ノイズキャンセル手段の出力主音響信号の信号品質
を判定することができ、信号品質の良い適応ノイズキャ
ンセル手段の出力主音響信号に対して音声認識を行うの
で、認識精度を向上させることができると共に音声認識
の計算処理量を少なくすることができるので認識のため
の時間を短くすることができる。

【００１１】また、本発明によれば、コンピュータによ
って、主音響を捕捉し主音響信号を出力すると共に、少
なくとも２以上の雑音源からの雑音を捕捉し得る主音響
信号捕捉手段で捕捉した主音響信号から、少なくとも２
以上の雑音源からの雑音信号を捕捉するために少なくと
も２以上の雑音信号捕捉手段を含み、ある一つの雑音源
からの雑音を捕捉し雑音捕捉信号を出力する第１の雑音
信号捕捉手段、および他の雑音源からの雑音を捕捉し雑
音捕捉信号を出力する第２の雑音信号捕捉手段によって
捕捉された雑音捕捉信号を除去し、この除去した主音響
信号に対する音声認識を行わせるための音声認識制御プ
ログラムを記録した記録媒体の音声認識制御プログラム
は、主音響信号から少なくとも２以上の雑音捕捉信号を
除去するために少なくとも２以上の適応ノイズキャンセ
ル工程を含むものであって、主音響信号から第１の雑音
信号捕捉手段で捕捉した雑音捕捉信号を除去させ、この
除去させた主音響信号を出力させる第１の適応ノイズキ
ャンセル工程と、主音響信号から第２の雑音信号捕捉手
段で捕捉した雑音捕捉信号を除去させ、この除去させた
主音響信号を出力させる第２の適応ノイズキャンセル工
程と、第１の適応ノイズキャンセル工程の出力主音響信
号を統計的音響モデルによって音声認識させ、認識単語
を求めさせると共にその認識の確からしさを求めさせ、
第２の適応ノイズキャンセル工程の出力主音響信号も統
計的音響モデルによって音声認識させ、認識単語を求め
させると共にその認識の確からしさを求めさせ、これら
の認識結果から、音声認識の確からしさが高い認識単語
を認識結果として出力させる音声認識工程とを含む。

【００１２】このような構成を採ることで、複雑なプロ
グラム処理を行うことなく簡単な構成で音声認識を行う
ことができ、統計的音響モデルを使用して音声認識を行
い認識率の高い認識単語を選択するように構成している
ため、認識精度も向上させることができ、ROM やフラッ
シュメモリや磁気ディスク装置に記憶して音声認識シス
テムの小型化を図ることも可能になる。

【００１３】

【発明の実施の形態】次に本発明の好適な実施例を図面
を用いて説明する。本実施例においては、音声信号に含
まれる雑音信号を低減するために適応ノイズキャンセラ
を組み合わせた音声認識システムにおいて、複数の雑音
信号を入力し、各雑音入力部に対応した適応ノイズキャ
ンセラ部を備え、これらの複数の適応ノイズキャンセル
部と、統計的音響モデルである隠れマルコフモデル (Hi
dden Markov Model)法などによる音声認識処理部とが共
同して高認識率を達成する手段を備える。

【００１４】また、複数の適応ノイズキャンセル部と音
声認識処理部とが共同して高認識率を達成する手段とし
て、各適応ノイズキャンセル部の各出力についておのお
の音声認識を行い、こうして得られた複数の認識結果の
うち、その確からしさが最も高い認識結果を選択するよ
うに構成する。

【００１５】さらに、複数の適応ノイズキャンセル部と
音声認識部とが共同して高認識率を達成する手段とし
て、各適応ノイズキャンセル部の各出力信号について発
見的な方法で（簡易的な方法で）、信号対雑音比（S/N
比）を求め、このS/N 比が最も大きい適応ノイズキャン
セル部を選択し、その適応ノイズキャンセル部の出力信
号について音声認識を行い、この結果を認識結果とする
ように構成する。

【００１６】さらにまた、適応ノイズキャンセル部の出
力信号についての発見的な方法ではS/N 比を求める方法
として、その出力信号を発声区間と非発声区間とに時間
的に分け、各区間についてその振幅の平均値を求め、こ
のようにして得られる発声区間での振幅の平均ASと非発
声区間での振幅の平均ANとの比、AS/AN を求めるS/N比
とするように構成する。

【００１７】図１は、自動車内に設置されている音声認
識システム60の機能構成図である。この図１において、
音声認識システム60は、認識対象の音声を捕捉し、捕捉
した音声信号をデジタル信号101 に変換して適応ノイズ
キャンセル回路31〜33に与えるための音声信号入力回路
10と、捕捉した音声信号101 に混入している雑音信号を
除去するために使用する特定の雑音信号を捕捉するため
の回路であり自動車内のカーオーディオ信号を捕捉し、
デジタル信号211 に変換して適応ノイズキャンセル回路
31に与える雑音信号入力回路21と、自動車外の騒音を例
えば、マイクロフォンなどで捕捉し、捕捉した自動車外
騒音信号をデジタル信号221 に変換して適応ノイズキャ
ンセル部32に与える雑音信号入力回路22と、自動車のエ
ンジン音を捕捉し、捕捉したエンジン音信号をデジタル
信号231 に変換して適応ノイズキャンセル回路33に与え
る雑音信号入力回路33とを備える。

【００１８】更に、本音声認識システム60は、音声信号
入力回路10から供給される捕捉した音声信号101 から判
断して有音区間であるか、無音区間であるかを検出し、
この検出に対応して無音区間に適応ノイズキャンセル回
路31、32、33のフィルタ係数（重み付け係数）を更新さ
せるための係数更新命令信号301 を与える有音／無音検
出制御回路30と、デジタルフィルタを使用して、捕捉し
た音声信号101 から、カーオーディオ信号を捕捉したデ
ジタル信号211 を除去し、除去した音声信号311 を音声
認識回路40に与える適応ノイズキャンセル回路31と、デ
ジタルフィルタを使用して、捕捉した音声信号101 か
ら、捕捉した自動車外騒音信号のデジタル信号221 を除
去し、除去した音声信号321 を音声認識回路40に与える
適応ノイズキャンセル回路32と、デジタルフィルタを使
用して、捕捉した音声信号101 から、捕捉したエンジン
音信号のデジタル信号231 を除去し、除去した音声信号
331を音声認識回路40に与える適応ノイズキャンセル回
路33とを備える。

【００１９】更に、本音声認識システム60は、除去した
音声信号311 と、除去した音声信号321 と、除去した音
声信号331 とに対する隠れマルコフモデル法による音声
認識を別々に行い、確からしさを確率で求め、音声認識
結果をそれぞれ求め、除去した音声信号311 に対する音
声認識確率41を音声認識確率比較回路50に与え、除去し
た音声信号321 に対する音声認識確率42を音声認識確率
比較回路50に与え、除去した音声信号331 に対する音声
認識確率43を音声認識確率比較回路50に与える音声認識
回路40と、音声認識確率41と音声認識確率42と音声認識
確率43とから最も音声認識確率の高い音声の単語を認識
結果51として出力する音声認識確率比較回路50とから構
成されている。

【００２０】なお、雑音信号入力回路21は、カーオーデ
ィオシステムが出力する音響として、ライン出力電気信
号を直接取り込み、これをカーオーディオ信号を捕捉し
たデジタル信号211 として適応ノイズキャンセル回路31
に供給するように構成してもよい。

【００２１】図２は、本音声認識システム60の動作を説
明するための図である。本音声認識システムにおいて、
先ず、適応ノイズキャンセル回路31において、音声信号
入力回路10で捉えた音声信号101 から、雑音信号入力回
路21でカーオーディオ信号を捕捉したデジタル信号211
を除去し（ステップS10 ）、除去された音声信号311が
音声認識回路40で隠れマルコフモデル法によって音声認
識され（ステップS40）、音声認識シンボル（音声認識
単語）S1と、音声認識確率P1とが求められる。

【００２２】また、適応ノイズキャンセル回路32におい
ても、音声信号入力回路10で捉えた音声信号101 から、
雑音信号入力回路22で捕捉した自動車外騒音信号のデジ
タル信号221 を除去し（ステップS20 ）、除去された音
声信号321 が音声認識回路40で隠れマルコフモデル法に
よって音声認識され（ステップS50 ）、音声認識シンボ
ルS2と、音声認識確率P2とが求められる。更に、適応ノ
イズキャンセル回路33においても、音声信号入力回路10
で捉えた音声信号101 から、雑音信号入力回路23で捕捉
したエンジン音信号のデジタル信号231 を除去し（ステ
ップS30 ）、除去された音声信号331 が音声認識回路40
で隠れマルコフモデル法によって音声認識され（ステッ
プS60 ）、音声認識シンボルS3と、音声認識確率P3とが
求められる。

【００２３】次に、音声認識確率比較回路50において、
これらの音声認識確率P1、P2、P3の中から確率の一番高
い音声認識シンボルS1、S2、S3が選択されて出力され
る。選択された音声認識シンボルは、カーナビゲーショ
ンシステムの場合は、コマンドとして、システムの制御
に使用される。

【００２４】上述の図２の音声認識システム60の動作を
現実的に実行するために、適応ノイズキャンセル回路31
〜33や、音声認識回路40や、音声認識確率比較回路50な
どの処理をプログラム処理で行うことができる。このよ
うな処理をプログラム処理で行い、しかもカーナビゲー
ションシステムに小型で組み込むためには、フラッシュ
メモリやROM にプログラムを搭載するとよい。また、バ
ックアップのために磁気ディスク装置に記憶しておくこ
ともよい。

【００２５】図３は、適応ノイズキャンセル回路31、3
2、33の一例の構成例の図である。上述の適応ノイズキ
ャンセル回路31、32、33は、それぞれ同じ回路構成で実
現することができる。この図３において、適応ノイズキ
ャンセル回路31、32、33は、適応デジタルフィルタ回路
312 と、減算回路313 とから構成されている。適応デジ
タルフィルタ回路312 には、自動車内のカーオーディオ
信号を捕捉したデジタル信号211 、自動車外騒音信号の
デジタル信号221 、エンジン音信号のデジタル信号231
のいずれかが与えられると、音声信号入力回路10で捉え
た音声信号101 に含まれている雑音を除去するために疑
似ノイズ3121を生成し減算回路313 に与える。

【００２６】減算回路313 は、音声信号入力回路10で捉
えた音声信号101 から、適応デジタルフィルタ回路312
で求めた疑似ノイズ3121を差し引き、カーオーディオ信
号が除去された音声信号311 を出力し、または自動車外
騒音信号のデジタル信号221が除去された音声信号321
を出力し、またはエンジン音信号のデジタル信号231が
除去された音声信号331 を出力する。これらの音声信号
311 、音声信号321 、音声信号331 は、適応デジタルフ
ィルタ回路312 にフィードバックされ、より雑音信号の
残存成分が減少できるようにフィルタの係数を更新す
る。

【００２７】図４は、図３の適応ノイズキャンセル回路
31、32、33の一例の適応デジタルフィルタ回路312 の構
成例の図である。この図４において、適応ノイズキャン
セル回路31、32、33は、自動車内のカーオーディオ信号
を捕捉したデジタル信号211または自動車外騒音信号の
デジタル信号221 またはエンジン音信号のデジタル信号
231 などを遅延させる遅延回路3122〜3125と、音声信号
311 、音声信号321 、音声信号331 などからフィルタ係
数の更新を行うためのフィルタ係数更新回路3130と、フ
ィルタ係数と遅延信号とを乗算する乗算器3126〜3129
と、それぞれの乗算結果を加算する加算器3131とから構
成されている。

【００２８】フィルタ係数更新回路3130は、有音／無音
検出制御回路30から係数更新命令信号301 が与えられて
いるときに、カーオーディオ信号が除去された音声信号
311、自動車外騒音信号のデジタル信号221 が除去され
た音声信号321 、エンジン音信号のデジタル信号231 が
除去された音声信号331 などに混入する雑音信号成分が
減少するように係数を更新し、乗算器3126、3127、312
8、3129に与える。有音区間においては、係数更新を停
止し、自動車内のカーオーディオ信号を捕捉したデジタ
ル信号211 または自動車外騒音信号のデジタル信号221
またはエンジン音信号のデジタル信号231 などを遅延回
路3122〜3125を通して、遅延された信号に対して乗算器
3126〜3129でフィルタ係数を乗算し、それぞれの乗算結
果を加算器3131で加算し、加算結果3121を疑似雑音信号
として出力する。

【００２９】なお、上述の図４においては、非巡回型の
デジタルフィルタで構成したが、巡回型デジタルフィル
タを採用することもできる。また、巡回型と非巡回型の
多段数のデジタルフィルタとで構成することもできる。

【００３０】図５は、音声認識回路40の一例の構成例の
図である。この図５において、音声認識回路40は、LPC
分析回路401 と、HMM 音声辞書回路402 と、ビタビ照合
回路403 とから構成されている。

【００３１】LPC 分析回路401 では、入力カーオーディ
オ信号が除去された音声信号311 、自動車外騒音信号の
デジタル信号221 が除去された音声信号321 、エンジン
音信号のデジタル信号231 が除去された音声信号331 な
どから音声波形を短い区間（フレーム、長さは例えば、
10msec〜30msec程度）に区切り、フレームごとに特徴パ
ラメータを抽出する。

【００３２】この音声分析には、音声の特性に合った能
率的方法として広く使用されているLPC （Linear Predi
ction Coding：線形予測）分析を行い、LPC 係数からLP
C ケプストラムを算出する。このLPC ケプストラムは、
対数スペクトルを逆フーリエ変換したもので、人間の聴
覚特性に近い性質を持ち、比較的に少ない数のパラメー
タで効率よく音声を表現する。更に加えて、特徴パラメ
ータには、スペクトルの動的性質を表すケプストラムの
時間変化量であるデルタケプストラムや、音声の強さを
表す対数パワー、その時間変化量であるデルタ対数パワ
ーを用いる。このようなLPC 分析結果の情報をビタビ照
合回路403 に与える。

【００３３】ビタビ照合回路403 は、HMM 音声辞書回路
402 を使用して、ビタビ（Viterbi）アルゴリズムによ
って、音素や単語を表現したHMM モデルと未知入力音声
とを比較し、類似度を求める。すなわち、音声の特徴量
のベクトルの時系列Ｃが各単語モデルＭから生成される
音声認識確率Ｐを求め、最大認識確率を与えたモデルに
対応する単語を音声認識結果として出力する。

【００３４】上述の実施例では、隠れマルコフモデル法
によって音声認識を行う例を説明したが、他に、動的計
画法（Dynamic Programming ）によって音声認識を行う
こともできる。

【００３５】ここで、簡単な例で、雑音信号として、カ
ーオーディオ信号と自動車外からの雑音信号の２つをキ
ャンセルする場合の例を説明する。このような場合、マ
イクロフォンからの音声信号を認識するために妨げとな
る要因として、カーオーディオシステムからの雑音信号
と自動車外からの雑音信号との２つがある。このうち、
例えば、カーオーディオシステムからの雑音信号が大き
く、自動車外からの雑音信号が小さい場合を説明する。

【００３６】カーオーディオシステムの雑音信号を除去
するための適応ノイズキャンセル回路31では、その適応
ノイズキャンセルの効果が発揮されマイクフォン入力中
のカーオーディオシステムによる雑音信号を低減するこ
とができ、純粋な音声信号に近い音声信号を出力するこ
とができる。この結果、この音声信号を与えられた音声
認識回路40では、正しい音声信号を単語S1として認識で
きると同時に、この確からしさP1（音声認識率）も高い
値を得ることができる。

【００３７】一方、自動車外からの雑音信号を除去する
ための適応ノイズキャンセル回路32では、雑音成分中の
小さい部分である自動車外の雑音成分はある程度低減で
きるものの、より大きな雑音成分であるカーオーディオ
システムからの雑音信号は低減されない。したがって、
適応ノイズキャンセル回路32の出力信号には、カーオー
ディオシステムからの雑音信号が混入されたままとな
る。音声認識回路40では、カーオーディオシステムから
の雑音信号が混入されたまま与えられるので、誤った認
識単語S2を出力し易くなり、音声認識確率P2も低い値と
なる。

【００３８】このようなことから、音声認識確率比較回
路50では、音声認識確率P2に比べて高い音声認識確率の
P1の認識単語S1が選択されて出力される。

【００３９】逆に、自動車外の雑音信号が大きく、カー
オーディオシステムからの雑音信号が小さい場合は、音
声認識確率P1に比べて高い音声認識確率のP2の認識単語
S2が選択されて出力される。このように、確からしさを
最大とする適応ノイズキャンセル回路の出力の認識結果
を選択することで、複数の雑音源のうち最も音声認識に
とって悪い影響を与える雑音信号を識別し、音声認識回
路では、最も悪い影響を及ぼしている雑音信号を除去し
た音声信号を認識することで、最も確からしい認識結果
を得ることができる。

【００４０】以上のようにして、複数の雑音源に対して
個部に適応ノイズキャンセル回路を用いて雑音除去し、
その中で音声認識結果の最も確からしい音声認識単語を
選択するようにし、複数の雑音源の内、最も音声認識に
悪い影響を与えている雑音信号を識別して、その悪い影
響を与えている雑音信号を除去するように構成したの
で、雑音の多い音響環境において音声認識精度の向上を
図ることができる。しかも、計算処理も複雑でなく、処
理量も多くなる要素がないので容易に実現することがで
きる。

【００４１】以上の第１の実施例の音声認識システム60
においては、雑音信号に対して簡単な構成で音声認識を
行うことができるものの、各雑音信号に対応した適応ノ
イズキャンセル回路31、32、33のすべての出力に対して
音声認識を行うため、対応する雑音信号の数が多くなる
ほど計算量が多くなり得る。そこで、第２の実施例にお
いては、音声認識を行う前に、いずれの適応ノイズキャ
ンセル回路の出力信号が品質の良い信号であるかを確認
し、品質の良い適応ノイズキャンセル回路の出力信号に
対してだけ音声認識を行うように構成する。これによっ
て、より少ない計算量で良好な音声認識システムを実現
することができる。

【００４２】図６は、第２の実施例の音声認識システム
70の機能構成図である。この図６において、音声認識シ
ステム70は、音声信号入力回路10と、雑音信号入力回路
21〜23と、音声信号入力回路10からの音声信号101 から
有音／無音区間の検出を行い、係数更新命令信号301 を
出力し適応ノイズキャンセル回路31〜33に与えると共に
有音／無音区間検出信号302 を適応ノイズキャンセル信
号選択回路80に与える有音／無音検出制御回路30と、適
応ノイズキャンセル回路31〜33の出力信号311、321 、3
31 のそれぞれのS/N 比を求め、最もS/N 比の高い出力
信号を選択する適応ノイズキャンセル信号選択回路80
と、S/N 比の高い適応ノイズキャンセル出力信号に対す
る音声認識を隠れマルコフモデル法または動的計画法に
よって行い認識結果901 を出力する音声認識回路90とか
ら構成されている。

【００４３】図７は、図６の第２の実施例の音声認識シ
ステムの動作を説明するための図である。この図７にお
いて、先ず、適応ノイズキャンセル回路31において、雑
音信号入力回路21でカーオーディオ信号を捕捉したデジ
タル信号211 を除去し（ステップS10 ）、除去された音
声信号311 が適応ノイズキャンセル信号選択回路80に与
えられる。

【００４４】また、適応ノイズキャンセル回路32におい
ても、音声信号入力回路10で捉えた音声信号101 から、
雑音信号入力回路22で捕捉した自動車外騒音信号のデジ
タル信号221 を除去し（ステップS20 ）、除去された音
声信号321 が適応ノイズキャンセル信号選択回路80に与
えられる。さらに、適応ノイズキャンセル回路33におい
ても、音声信号入力回路10で捉えた音声信号101 から、
雑音信号入力回路23で捕捉したエンジン音信号のデジタ
ル信号231 を除去し（ステップS30 ）、除去された音声
信号331 が適応ノイズキャンセル信号選択回路80に与え
られる。

【００４５】適応ノイズキャンセル信号選択回路80で
は、適応ノイズキャンセル回路31の出力信号311 のS/N
比を求めこの値をS/N1とする（ステップS80 ）。さら
に、適応ノイズキャンセル回路32の出力信号321 のS/N
比を求めこの値をS/N2とする（ステップS90 ）。さら
に、適応ノイズキャンセル回路33の出力信号331 のS/N
比を求めこの値をS/N3とする（ステップS100）。これら
のS/N 比が一番大きい出力信号801 を選択し（ステップ
S110）、音声認識回路90に与え音声認識結果901 を出力
する（ステップS120）。

【００４６】上述の図７の音声認識システム70の動作を
現実的に実行するために、適応ノイズキャンセル回路31
〜33や、適応ノイズキャンセル信号選択回路80や、音声
認識回路90などの処理をプログラム処理で行うことがで
きる。このような処理を行うプログラム処理で実行し、
しかもカーナビゲーションシステムに小型で組み込むた
めには、フラッシュメモリやROM にプログラムを搭載す
るとよい。また、バックアップのために磁気ディスク装
置に記憶しておくこともよい。

【００４７】図８は、上述のS/N 比の求め方を説明する
ための図である。この図８において、適応ノイズキャン
セル回路31〜33の出力信号331 、321 、331 の信号を、
有音／無音検出制御回路30からの有音／無音区間検出信
号302 に基づき、ユーザが発話している判定される有音
区間（発話区間82）と、それ以外、すなわち、ユーザが
発話していないと判定される無音区間（非発話区間81）
とに分け、非発話区間81での信号の振幅の区間に亘る平
均レベルANと、発話区間82での信号の振幅の区間に亘る
平均レベルASとを求め、その比AN/AS をS/N 比とすると
よい。

【００４８】以上のようにして、第２の実施例の音声認
識システムの構成によれば、各雑音信号に対して適応ノ
イズキャンセルを行い、各適応ノイズキャンセル出力信
号のS/N 比を求め、これらの中で最もS/N 比の高い出力
信号に対して音声認識を行うように構成したので、計算
量を少なく抑えながら、雑音の多い環境においても音声
認識精度の向上を図ることができるようになる。なお、
適応ノイズキャンセル出力信号の品質の良否を判定する
ために、信号歪み量を測定し、この信号歪み量（たとえ
ば、高調波歪み量）の大小によって信号品質を判定する
こともよい。

【００４９】

【発明の効果】以上で述べたように本発明は、複数の雑
音源からの雑音信号が主音響信号に混入している場合
に、ある一つの雑音源からの雑音信号を主音響信号から
除去するためのある一つの適応ノイズキャンセル手段の
出力主音響信号を統計的音響モデルを使用して音声認識
し、認識単語を求めると共にその認識の確からしさを求
め、別の雑音源からの雑音信号を除去するための別の適
応ノイズキャンセル手段の出力主音響信号も統計的音響
モデルを使用して音声認識し、認識単語を求めると共に
その認識の確からしさを求め、これらの認識結果から、
音声認識の確からしさが高い認識単語を認識結果として
出力するように構成したことで、たとえば、自動車外か
らの雑音やカーオーディオシステムからの音響信号な
ど、異なる種類の複数の雑音信号が存在する音響環境に
おいて、少ない処理量で音声認識の認識精度を向上させ
ることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例において自動車内に設置
されている音声認識システムの機能構成図である。

【図２】図１に示す実施例の音声認識システムの動作を
説明するための図である。

【図３】同実施例の音声認識システムの適応ノイズキャ
ンセル回路の機能構成図である。

【図４】図３に示す実施例の適応ノイズキャンセル回路
の適応デジタルフィルタ回路の機能構成図である。

【図５】図１に示す実施例の音声認識システムの音声認
識回路の機能構成図である。

【図６】第２の実施例の音声認識システムの機能構成図
である。

【図７】図６に示す実施例の音声認識システムの動作を
説明するための図である。

【図８】図６に示す音声認識システムの適応ノイズキャ
ンセル信号選択回路におけるS/N 比の求め方の説明図で
ある。

【符号の説明】

10 音声信号入力回路 21〜23 雑音信号入力回路 31〜33 適応ノイズキャンセル回路 40 音声認識回路 50 音声認識確率比較回路

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平２−184898（ＪＰ，Ａ) 特開平６−83388（ＪＰ，Ａ) 特開平３−96999（ＪＰ，Ａ) 特開昭59−23397（ＪＰ，Ａ) 特開平４−240898（ＪＰ，Ａ) 特開平４−273298（ＪＰ，Ａ) 特開2000−148185（ＪＰ，Ａ) 特許3074952（ＪＰ，Ｂ２) 特許3163109（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 G10L 21/00 - 21/02

Claims

(57)【特許請求の範囲】

【請求項１】主音響を捕捉し主音響信号を出力すると
共に、少なくとも２以上の雑音源からの雑音を捕捉し得
る主音響信号捕捉手段を含む音声認識システムにおい
て、該システムは、少なくとも２以上の雑音源からの雑音信
号を除去するために少なくとも２以上の雑音信号捕捉手
段と適応ノイズキャンセル手段とを含むシステムであっ
て、該システムは、ある一つの雑音源からの雑音を捕捉し雑音捕捉信号を出
力する第１の雑音信号捕捉手段と、他の雑音源からの雑音を捕捉し雑音捕捉信号を出力する
第２の雑音信号捕捉手段と、前記主音響信号から前記第１の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去し、該除去した主音響信号
を出力する第１の適応ノイズキャンセル手段と、前記主音響信号から前記第２の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去し、該除去した主音響信号
を出力する第２の適応ノイズキャンセル手段と、前記第１の適応ノイズキャンセル手段の出力主音響信号
を統計的音響モデルを使用して音声認識し、認識単語を
求めると共にその認識の確からしさを求め、前記第２の
適応ノイズキャンセル手段の出力主音響信号も前記統計
的音響モデルを使用して音声認識し、認識単語を求める
と共にその認識の確からしさを求め、これらの認識結果
から、音声認識の確からしさが高い認識単語を認識結果
として出力する音声認識手段とを含むことを特徴とする
音声認識システム。
【請求項２】請求項１に記載の音声認識システムにお
いて、該システムは、前記音声認識の統計的音響モデル
として隠れマルコフモデル法を使用して前記音声認識を
行うことを特徴とする音声認識システム。
【請求項３】主音響を捕捉し主音響信号を出力すると
共に、少なくとも２以上の雑音源からの雑音を捕捉し得
る主音響信号捕捉手段を含む音声認識システムにおい
て、該システムは、少なくとも２以上の雑音源からの雑音信
号を除去するために少なくとも２以上の雑音信号捕捉手
段と適応ノイズキャンセル手段とを含むシステムであっ
て、該システムは、ある一つの雑音源からの雑音を捕捉し雑音捕捉信号を出
力する第１の雑音信号捕捉手段と、他の雑音源からの雑音を捕捉し雑音捕捉信号を出力する
第２の雑音信号捕捉手段と、前記主音響信号から前記第１の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去し、該除去した主音響信号
を出力する第１の適応ノイズキャンセル手段と、前記主音響信号から前記第２の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去し、該除去した主音響信号
を出力する第２の適応ノイズキャンセル手段と、前記第１の適応ノイズキャンセル手段の出力主音響信号
を動的計画法を使用して音声認識し、類似度とその単語
とを求め、前記第２の適応ノイズキャンセル手段の出力
主音響信号も前記動的計画法を使用して音声認識し、類
似度とその単語とを求め、これらの認識結果から、類似
度が高い認識単語を認識結果として出力する音声認識手
段とを含むことを特徴とする音声認識システム。
【請求項４】コンピュータによって、主音響を捕捉し
主音響信号を出力すると共に、少なくとも２以上の雑音
源からの雑音を捕捉し得る主音響信号捕捉手段で捕捉し
た主音響信号から、少なくとも２以上の雑音源からの雑
音信号を捕捉するために少なくとも２以上の雑音信号捕
捉手段を含み、ある一つの雑音源からの雑音を捕捉し雑
音捕捉信号を出力する第１の雑音信号捕捉手段、および
他の雑音源からの雑音を捕捉し雑音捕捉信号を出力する
第２の雑音信号捕捉手段によって捕捉された雑音捕捉信
号を除去し、該除去した主音響信号に対する音声認識を
行わせるための音声認識制御プログラムを記録した記録
媒体であって、前記音声認識制御プログラムは、前記主音響信号から少
なくとも２以上の前記雑音捕捉信号を除去するために少
なくとも２以上の適応ノイズキャンセル工程を含むもの
であって、前記主音響信号から前記第１の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去させ、該除去させた主音響
信号を出力させる第１の適応ノイズキャンセル工程と、前記主音響信号から前記第２の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去させ、該除去させた主音響
信号を出力させる第２の適応ノイズキャンセル工程と、前記第１の適応ノイズキャンセル工程の出力主音響信号
を統計的音響モデルによって音声認識させ、認識単語を
求めさせると共にその認識の確からしさを求めさせ、前
記第２の適応ノイズキャンセル工程の出力主音響信号も
前記統計的音響モデルによって音声認識させ、認識単語
を求めさせると共にその認識の確からしさを求めさせ、
これらの認識結果から、音声認識の確からしさが高い認
識単語を認識結果として出力させる音声認識工程とを含
むことを特徴とする音声認識制御プログラムを記録した
記録媒体。
【請求項５】コンピュータによって、主音響を捕捉し
主音響信号を出力すると共に、少なくとも２以上の雑音
源からの雑音を捕捉し得る主音響信号捕捉手段で捕捉し
た主音響信号から、少なくとも２以上の雑音源からの雑
音信号を捕捉するために少なくとも２以上の雑音信号捕
捉手段を含み、ある一つの雑音源からの雑音を捕捉し雑
音捕捉信号を出力する第１の雑音信号捕捉手段および他
の雑音源からの雑音を捕捉し雑音捕捉信号を出力する第
２の雑音信号捕捉手段によって捕捉された雑音捕捉信号
を除去し、該除去した主音響信号に対する音声認識を行
わせるための音声認識制御プログラムを記録した記録媒
体であって、前記音声認識制御プログラムは、前記主音響信号から少
なくとも２以上の前記雑音捕捉信号を除去するために少
なくとも２以上の適応ノイズキャンセル工程を含むもの
であって、前記主音響信号から前記第１の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去させ、該除去させた主音響
信号を出力させる第１の適応ノイズキャンセル工程と、前記主音響信号から前記第２の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去させ、該除去させた主音響
信号を出力させる第２の適応ノイズキャンセル工程と、前記第１の適応ノイズキャンセル工程の出力主音響信号
を動的計画法を使用して音声認識させ、類似度とその単
語を求めさせ、前記第２の適応ノイズキャンセル工程の
出力主音響信号も前記動的計画法を使用して音声認識
し、類似度とその単語を求めさせ、これらの認識結果か
ら、類似度が高い認識単語を認識結果として出力させる
音声認識工程とを含むことを特徴とする音声認識制御プ
ログラムを記録した記録媒体。