JP3510458B2 - 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 - Google Patents
音声認識システムおよび音声認識制御プログラムを記録した記録媒体Info
- Publication number
- JP3510458B2 JP3510458B2 JP24108397A JP24108397A JP3510458B2 JP 3510458 B2 JP3510458 B2 JP 3510458B2 JP 24108397 A JP24108397 A JP 24108397A JP 24108397 A JP24108397 A JP 24108397A JP 3510458 B2 JP3510458 B2 JP 3510458B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal
- recognition
- captured
- capturing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
および音声認識制御プログラムを記録した記録媒体に関
し、たとえば、複数の雑音源からの雑音信号が主音響信
号に混入している場合に、主音響信号から雑音信号を除
去し音声認識を行うシステムに関する。
の商品において、その操作制御を、音声認識を用いてユ
ーザの音声によって行うことが試みられている。しかし
ながら、自動車内のカーオーディオシステムからの音響
や車外からの騒音といった、音声認識装置にとっては雑
音が激しい環境である自動車内などでは、音声認識装置
をそのまま適用したのでは認識率が低くく実用的ではな
い。
して捕捉された音響信号から、適応ノイズキャンセラを
使用して、カーオーディオ信号などに重畳している雑音
信号を軽減し、その後に音声認識を行うことがなされて
きた。
号としては、カーオーディオ信号にとどまらず、車外騒
音や風を切る音やエンジンオ音やタイヤ走行音など異な
る種類の多数の雑音信号が存在する。このような複数の
種類の雑音が存在する雑音信号に対処するには、入力を
多数備える適応ノイズキャンセラが必要になる。しか
し、多入力の適応ノイズキャンセラは、アルゴリズムが
複雑で計算量が膨大になり、処理時間が長くなり実用的
ではないとされてきた。
やカーオーディオシステムからの音響信号など、異なる
種類の複数の雑音信号が存在する音響環境において、現
実的な処理量(少ない処理量)で音声認識の認識精度を
向上させることができる音声認識システムおよび音声認
識制御プログラムを記録した記録媒体の実現が要請され
ている。
ば、主音響を捕捉し主音響信号を出力すると共に、少な
くとも2以上の雑音源からの雑音を捕捉し得る主音響信
号捕捉手段を含む音声認識システムは、少なくとも2以
上の雑音源からの雑音信号を除去するために少なくとも
2以上の雑音信号捕捉手段と適応ノイズキャンセル手段
とを含むシステムであって、ある一つの雑音源からの雑
音を捕捉し雑音捕捉信号を出力する第1の雑音信号捕捉
手段と、他の雑音源からの雑音を捕捉し雑音捕捉信号を
出力する第2の雑音信号捕捉手段と、主音響信号から第
1の雑音信号捕捉手段で捕捉した雑音捕捉信号を除去
し、この除去した主音響信号を出力する第1の適応ノイ
ズキャンセル手段と、主音響信号から第2の雑音信号捕
捉手段で捕捉した雑音捕捉信号を除去し、この除去した
主音響信号を出力する第2の適応ノイズキャンセル手段
と、第1の適応ノイズキャンセル手段の出力主音響信号
を統計的音響モデルを使用して音声認識し、認識単語を
求めると共にその認識の確からしさを求め、第2の適応
ノイズキャンセル手段の出力主音響信号も統計的音響モ
デルを使用して音声認識し、認識単語を求めると共にそ
の認識の確からしさを求め、これらの認識結果から、音
声認識の確からしさが高い認識単語を認識結果として出
力する音声認識手段とを含む。
から、ある一つの雑音源からの雑音を捕捉した雑音捕捉
信号を第1の適応ノイズキャンセル手段で除去でき、さ
らに、他の雑音源からの雑音を捕捉した雑音捕捉信号を
第2の適応ノイズキャンセル手段で除去でき、これらの
除去された主音響信号に対してそれぞれ音声認識を行
い、認識の確からしさが高い単語を認識結果とする。こ
のため、複数の雑音源からの雑音信号が主音響信号に含
まれている場合であっても、複雑な処理を行うことなく
簡単な構成で音声認識を行うことができ、統計的音響モ
デルを使用して音声認識を行い認識率の高い認識単語を
選択するように構成しているため、認識精度も向上させ
ることができる。
セル手段を2つとしているが、これは、雑音源からの雑
音信号が少なくとも2種類としているためであり、3以
上であった場合は、雑音信号捕捉手段および適応ノイズ
キャンセル手段は、それぞれ3以上備えれば、同じよう
な処理で音声認識処理を行うことができる。
音響信号を出力すると共に、少なくとも2以上の雑音源
からの雑音を捕捉し得る主音響信号捕捉手段を含む音声
認識システムは、少なくとも2以上の雑音源からの雑音
信号を除去するために少なくとも2以上の雑音信号捕捉
手段と適応ノイズキャンセル手段とを含むシステムであ
って、ある一つの雑音源からの雑音を捕捉し雑音捕捉信
号を出力する第1の雑音信号捕捉手段と、他の雑音源か
らの雑音を捕捉し雑音捕捉信号を出力する第2の雑音信
号捕捉手段と、主音響信号から第1の雑音信号捕捉手段
で捕捉した前記雑音捕捉信号を除去し、この除去した主
音響信号を出力する第1の適応ノイズキャンセル手段
と、主音響信号から第2の雑音信号捕捉手段で捕捉した
雑音捕捉信号を除去し、この除去した主音響信号を出力
する第2の適応ノイズキャンセル手段と、第1の適応ノ
イズキャンセル手段の出力主音響信号および第2の適応
ノイズキャンセル手段の出力主音響信号の信号品質を求
め、信号品質の良い出力主音響信号を選択し、この選択
した出力主音響信号に対して音声認識を行う音声認識手
段とを含む。
して、信号対雑音比または信号歪み量などから第1の適
応ノイズキャンセル手段の出力主音響信号および第2の
適応ノイズキャンセル手段の出力主音響信号の信号品質
を判定することができ、信号品質の良い適応ノイズキャ
ンセル手段の出力主音響信号に対して音声認識を行うの
で、認識精度を向上させることができると共に音声認識
の計算処理量を少なくすることができるので認識のため
の時間を短くすることができる。
って、主音響を捕捉し主音響信号を出力すると共に、少
なくとも2以上の雑音源からの雑音を捕捉し得る主音響
信号捕捉手段で捕捉した主音響信号から、少なくとも2
以上の雑音源からの雑音信号を捕捉するために少なくと
も2以上の雑音信号捕捉手段を含み、ある一つの雑音源
からの雑音を捕捉し雑音捕捉信号を出力する第1の雑音
信号捕捉手段、および他の雑音源からの雑音を捕捉し雑
音捕捉信号を出力する第2の雑音信号捕捉手段によって
捕捉された雑音捕捉信号を除去し、この除去した主音響
信号に対する音声認識を行わせるための音声認識制御プ
ログラムを記録した記録媒体の音声認識制御プログラム
は、主音響信号から少なくとも2以上の雑音捕捉信号を
除去するために少なくとも2以上の適応ノイズキャンセ
ル工程を含むものであって、主音響信号から第1の雑音
信号捕捉手段で捕捉した雑音捕捉信号を除去させ、この
除去させた主音響信号を出力させる第1の適応ノイズキ
ャンセル工程と、主音響信号から第2の雑音信号捕捉手
段で捕捉した雑音捕捉信号を除去させ、この除去させた
主音響信号を出力させる第2の適応ノイズキャンセル工
程と、第1の適応ノイズキャンセル工程の出力主音響信
号を統計的音響モデルによって音声認識させ、認識単語
を求めさせると共にその認識の確からしさを求めさせ、
第2の適応ノイズキャンセル工程の出力主音響信号も統
計的音響モデルによって音声認識させ、認識単語を求め
させると共にその認識の確からしさを求めさせ、これら
の認識結果から、音声認識の確からしさが高い認識単語
を認識結果として出力させる音声認識工程とを含む。
グラム処理を行うことなく簡単な構成で音声認識を行う
ことができ、統計的音響モデルを使用して音声認識を行
い認識率の高い認識単語を選択するように構成している
ため、認識精度も向上させることができ、ROM やフラッ
シュメモリや磁気ディスク装置に記憶して音声認識シス
テムの小型化を図ることも可能になる。
を用いて説明する。本実施例においては、音声信号に含
まれる雑音信号を低減するために適応ノイズキャンセラ
を組み合わせた音声認識システムにおいて、複数の雑音
信号を入力し、各雑音入力部に対応した適応ノイズキャ
ンセラ部を備え、これらの複数の適応ノイズキャンセル
部と、統計的音響モデルである隠れマルコフモデル (Hi
dden Markov Model)法などによる音声認識処理部とが共
同して高認識率を達成する手段を備える。
声認識処理部とが共同して高認識率を達成する手段とし
て、各適応ノイズキャンセル部の各出力についておのお
の音声認識を行い、こうして得られた複数の認識結果の
うち、その確からしさが最も高い認識結果を選択するよ
うに構成する。
音声認識部とが共同して高認識率を達成する手段とし
て、各適応ノイズキャンセル部の各出力信号について発
見的な方法で(簡易的な方法で)、信号対雑音比(S/N
比)を求め、このS/N 比が最も大きい適応ノイズキャン
セル部を選択し、その適応ノイズキャンセル部の出力信
号について音声認識を行い、この結果を認識結果とする
ように構成する。
力信号についての発見的な方法ではS/N 比を求める方法
として、その出力信号を発声区間と非発声区間とに時間
的に分け、各区間についてその振幅の平均値を求め、こ
のようにして得られる発声区間での振幅の平均ASと非発
声区間での振幅の平均ANとの比、AS/AN を求めるS/N比
とするように構成する。
識システム60の機能構成図である。この図1において、
音声認識システム60は、認識対象の音声を捕捉し、捕捉
した音声信号をデジタル信号101 に変換して適応ノイズ
キャンセル回路31〜33に与えるための音声信号入力回路
10と、捕捉した音声信号101 に混入している雑音信号を
除去するために使用する特定の雑音信号を捕捉するため
の回路であり自動車内のカーオーディオ信号を捕捉し、
デジタル信号211 に変換して適応ノイズキャンセル回路
31に与える雑音信号入力回路21と、自動車外の騒音を例
えば、マイクロフォンなどで捕捉し、捕捉した自動車外
騒音信号をデジタル信号221 に変換して適応ノイズキャ
ンセル部32に与える雑音信号入力回路22と、自動車のエ
ンジン音を捕捉し、捕捉したエンジン音信号をデジタル
信号231 に変換して適応ノイズキャンセル回路33に与え
る雑音信号入力回路33とを備える。
入力回路10から供給される捕捉した音声信号101 から判
断して有音区間であるか、無音区間であるかを検出し、
この検出に対応して無音区間に適応ノイズキャンセル回
路31、32、33のフィルタ係数(重み付け係数)を更新さ
せるための係数更新命令信号301 を与える有音/無音検
出制御回路30と、デジタルフィルタを使用して、捕捉し
た音声信号101 から、カーオーディオ信号を捕捉したデ
ジタル信号211 を除去し、除去した音声信号311 を音声
認識回路40に与える適応ノイズキャンセル回路31と、デ
ジタルフィルタを使用して、捕捉した音声信号101 か
ら、捕捉した自動車外騒音信号のデジタル信号221 を除
去し、除去した音声信号321 を音声認識回路40に与える
適応ノイズキャンセル回路32と、デジタルフィルタを使
用して、捕捉した音声信号101 から、捕捉したエンジン
音信号のデジタル信号231 を除去し、除去した音声信号
331を音声認識回路40に与える適応ノイズキャンセル回
路33とを備える。
音声信号311 と、除去した音声信号321 と、除去した音
声信号331 とに対する隠れマルコフモデル法による音声
認識を別々に行い、確からしさを確率で求め、音声認識
結果をそれぞれ求め、除去した音声信号311 に対する音
声認識確率41を音声認識確率比較回路50に与え、除去し
た音声信号321 に対する音声認識確率42を音声認識確率
比較回路50に与え、除去した音声信号331 に対する音声
認識確率43を音声認識確率比較回路50に与える音声認識
回路40と、音声認識確率41と音声認識確率42と音声認識
確率43とから最も音声認識確率の高い音声の単語を認識
結果51として出力する音声認識確率比較回路50とから構
成されている。
ィオシステムが出力する音響として、ライン出力電気信
号を直接取り込み、これをカーオーディオ信号を捕捉し
たデジタル信号211 として適応ノイズキャンセル回路31
に供給するように構成してもよい。
明するための図である。本音声認識システムにおいて、
先ず、適応ノイズキャンセル回路31において、音声信号
入力回路10で捉えた音声信号101 から、雑音信号入力回
路21でカーオーディオ信号を捕捉したデジタル信号211
を除去し(ステップS10 )、除去された音声信号311が
音声認識回路40で隠れマルコフモデル法によって音声認
識され(ステップS40)、音声認識シンボル(音声認識
単語)S1と、音声認識確率P1とが求められる。
ても、音声信号入力回路10で捉えた音声信号101 から、
雑音信号入力回路22で捕捉した自動車外騒音信号のデジ
タル信号221 を除去し(ステップS20 )、除去された音
声信号321 が音声認識回路40で隠れマルコフモデル法に
よって音声認識され(ステップS50 )、音声認識シンボ
ルS2と、音声認識確率P2とが求められる。更に、適応ノ
イズキャンセル回路33においても、音声信号入力回路10
で捉えた音声信号101 から、雑音信号入力回路23で捕捉
したエンジン音信号のデジタル信号231 を除去し(ステ
ップS30 )、除去された音声信号331 が音声認識回路40
で隠れマルコフモデル法によって音声認識され(ステッ
プS60 )、音声認識シンボルS3と、音声認識確率P3とが
求められる。
これらの音声認識確率P1、P2、P3の中から確率の一番高
い音声認識シンボルS1、S2、S3が選択されて出力され
る。選択された音声認識シンボルは、カーナビゲーショ
ンシステムの場合は、コマンドとして、システムの制御
に使用される。
現実的に実行するために、適応ノイズキャンセル回路31
〜33や、音声認識回路40や、音声認識確率比較回路50な
どの処理をプログラム処理で行うことができる。このよ
うな処理をプログラム処理で行い、しかもカーナビゲー
ションシステムに小型で組み込むためには、フラッシュ
メモリやROM にプログラムを搭載するとよい。また、バ
ックアップのために磁気ディスク装置に記憶しておくこ
ともよい。
2、33の一例の構成例の図である。上述の適応ノイズキ
ャンセル回路31、32、33は、それぞれ同じ回路構成で実
現することができる。この図3において、適応ノイズキ
ャンセル回路31、32、33は、適応デジタルフィルタ回路
312 と、減算回路313 とから構成されている。適応デジ
タルフィルタ回路312 には、自動車内のカーオーディオ
信号を捕捉したデジタル信号211 、自動車外騒音信号の
デジタル信号221 、エンジン音信号のデジタル信号231
のいずれかが与えられると、音声信号入力回路10で捉え
た音声信号101 に含まれている雑音を除去するために疑
似ノイズ3121を生成し減算回路313 に与える。
えた音声信号101 から、適応デジタルフィルタ回路312
で求めた疑似ノイズ3121を差し引き、カーオーディオ信
号が除去された音声信号311 を出力し、または自動車外
騒音信号のデジタル信号221が除去された音声信号321
を出力し、またはエンジン音信号のデジタル信号231が
除去された音声信号331 を出力する。これらの音声信号
311 、音声信号321 、音声信号331 は、適応デジタルフ
ィルタ回路312 にフィードバックされ、より雑音信号の
残存成分が減少できるようにフィルタの係数を更新す
る。
31、32、33の一例の適応デジタルフィルタ回路312 の構
成例の図である。この図4において、適応ノイズキャン
セル回路31、32、33は、自動車内のカーオーディオ信号
を捕捉したデジタル信号211または自動車外騒音信号の
デジタル信号221 またはエンジン音信号のデジタル信号
231 などを遅延させる遅延回路3122〜3125と、音声信号
311 、音声信号321 、音声信号331 などからフィルタ係
数の更新を行うためのフィルタ係数更新回路3130と、フ
ィルタ係数と遅延信号とを乗算する乗算器3126〜3129
と、それぞれの乗算結果を加算する加算器3131とから構
成されている。
検出制御回路30から係数更新命令信号301 が与えられて
いるときに、カーオーディオ信号が除去された音声信号
311、自動車外騒音信号のデジタル信号221 が除去され
た音声信号321 、エンジン音信号のデジタル信号231 が
除去された音声信号331 などに混入する雑音信号成分が
減少するように係数を更新し、乗算器3126、3127、312
8、3129に与える。有音区間においては、係数更新を停
止し、自動車内のカーオーディオ信号を捕捉したデジタ
ル信号211 または自動車外騒音信号のデジタル信号221
またはエンジン音信号のデジタル信号231 などを遅延回
路3122〜3125を通して、遅延された信号に対して乗算器
3126〜3129でフィルタ係数を乗算し、それぞれの乗算結
果を加算器3131で加算し、加算結果3121を疑似雑音信号
として出力する。
デジタルフィルタで構成したが、巡回型デジタルフィル
タを採用することもできる。また、巡回型と非巡回型の
多段数のデジタルフィルタとで構成することもできる。
図である。この図5において、音声認識回路40は、LPC
分析回路401 と、HMM 音声辞書回路402 と、ビタビ照合
回路403 とから構成されている。
オ信号が除去された音声信号311 、自動車外騒音信号の
デジタル信号221 が除去された音声信号321 、エンジン
音信号のデジタル信号231 が除去された音声信号331 な
どから音声波形を短い区間(フレーム、長さは例えば、
10msec〜30msec程度)に区切り、フレームごとに特徴パ
ラメータを抽出する。
率的方法として広く使用されているLPC (Linear Predi
ction Coding:線形予測)分析を行い、LPC 係数からLP
C ケプストラムを算出する。このLPC ケプストラムは、
対数スペクトルを逆フーリエ変換したもので、人間の聴
覚特性に近い性質を持ち、比較的に少ない数のパラメー
タで効率よく音声を表現する。更に加えて、特徴パラメ
ータには、スペクトルの動的性質を表すケプストラムの
時間変化量であるデルタケプストラムや、音声の強さを
表す対数パワー、その時間変化量であるデルタ対数パワ
ーを用いる。このようなLPC 分析結果の情報をビタビ照
合回路403 に与える。
402 を使用して、ビタビ(Viterbi)アルゴリズムによ
って、音素や単語を表現したHMM モデルと未知入力音声
とを比較し、類似度を求める。すなわち、音声の特徴量
のベクトルの時系列Cが各単語モデルMから生成される
音声認識確率Pを求め、最大認識確率を与えたモデルに
対応する単語を音声認識結果として出力する。
によって音声認識を行う例を説明したが、他に、動的計
画法(Dynamic Programming )によって音声認識を行う
こともできる。
ーオーディオ信号と自動車外からの雑音信号の2つをキ
ャンセルする場合の例を説明する。このような場合、マ
イクロフォンからの音声信号を認識するために妨げとな
る要因として、カーオーディオシステムからの雑音信号
と自動車外からの雑音信号との2つがある。このうち、
例えば、カーオーディオシステムからの雑音信号が大き
く、自動車外からの雑音信号が小さい場合を説明する。
するための適応ノイズキャンセル回路31では、その適応
ノイズキャンセルの効果が発揮されマイクフォン入力中
のカーオーディオシステムによる雑音信号を低減するこ
とができ、純粋な音声信号に近い音声信号を出力するこ
とができる。この結果、この音声信号を与えられた音声
認識回路40では、正しい音声信号を単語S1として認識で
きると同時に、この確からしさP1(音声認識率)も高い
値を得ることができる。
ための適応ノイズキャンセル回路32では、雑音成分中の
小さい部分である自動車外の雑音成分はある程度低減で
きるものの、より大きな雑音成分であるカーオーディオ
システムからの雑音信号は低減されない。したがって、
適応ノイズキャンセル回路32の出力信号には、カーオー
ディオシステムからの雑音信号が混入されたままとな
る。音声認識回路40では、カーオーディオシステムから
の雑音信号が混入されたまま与えられるので、誤った認
識単語S2を出力し易くなり、音声認識確率P2も低い値と
なる。
路50では、音声認識確率P2に比べて高い音声認識確率の
P1の認識単語S1が選択されて出力される。
オーディオシステムからの雑音信号が小さい場合は、音
声認識確率P1に比べて高い音声認識確率のP2の認識単語
S2が選択されて出力される。このように、確からしさを
最大とする適応ノイズキャンセル回路の出力の認識結果
を選択することで、複数の雑音源のうち最も音声認識に
とって悪い影響を与える雑音信号を識別し、音声認識回
路では、最も悪い影響を及ぼしている雑音信号を除去し
た音声信号を認識することで、最も確からしい認識結果
を得ることができる。
個部に適応ノイズキャンセル回路を用いて雑音除去し、
その中で音声認識結果の最も確からしい音声認識単語を
選択するようにし、複数の雑音源の内、最も音声認識に
悪い影響を与えている雑音信号を識別して、その悪い影
響を与えている雑音信号を除去するように構成したの
で、雑音の多い音響環境において音声認識精度の向上を
図ることができる。しかも、計算処理も複雑でなく、処
理量も多くなる要素がないので容易に実現することがで
きる。
においては、雑音信号に対して簡単な構成で音声認識を
行うことができるものの、各雑音信号に対応した適応ノ
イズキャンセル回路31、32、33のすべての出力に対して
音声認識を行うため、対応する雑音信号の数が多くなる
ほど計算量が多くなり得る。そこで、第2の実施例にお
いては、音声認識を行う前に、いずれの適応ノイズキャ
ンセル回路の出力信号が品質の良い信号であるかを確認
し、品質の良い適応ノイズキャンセル回路の出力信号に
対してだけ音声認識を行うように構成する。これによっ
て、より少ない計算量で良好な音声認識システムを実現
することができる。
70の機能構成図である。この図6において、音声認識シ
ステム70は、音声信号入力回路10と、雑音信号入力回路
21〜23と、音声信号入力回路10からの音声信号101 から
有音/無音区間の検出を行い、係数更新命令信号301 を
出力し適応ノイズキャンセル回路31〜33に与えると共に
有音/無音区間検出信号302 を適応ノイズキャンセル信
号選択回路80に与える有音/無音検出制御回路30と、適
応ノイズキャンセル回路31〜33の出力信号311、321 、3
31 のそれぞれのS/N 比を求め、最もS/N 比の高い出力
信号を選択する適応ノイズキャンセル信号選択回路80
と、S/N 比の高い適応ノイズキャンセル出力信号に対す
る音声認識を隠れマルコフモデル法または動的計画法に
よって行い認識結果901 を出力する音声認識回路90とか
ら構成されている。
ステムの動作を説明するための図である。この図7にお
いて、先ず、適応ノイズキャンセル回路31において、雑
音信号入力回路21でカーオーディオ信号を捕捉したデジ
タル信号211 を除去し(ステップS10 )、除去された音
声信号311 が適応ノイズキャンセル信号選択回路80に与
えられる。
ても、音声信号入力回路10で捉えた音声信号101 から、
雑音信号入力回路22で捕捉した自動車外騒音信号のデジ
タル信号221 を除去し(ステップS20 )、除去された音
声信号321 が適応ノイズキャンセル信号選択回路80に与
えられる。さらに、適応ノイズキャンセル回路33におい
ても、音声信号入力回路10で捉えた音声信号101 から、
雑音信号入力回路23で捕捉したエンジン音信号のデジタ
ル信号231 を除去し(ステップS30 )、除去された音声
信号331 が適応ノイズキャンセル信号選択回路80に与え
られる。
は、適応ノイズキャンセル回路31の出力信号311 のS/N
比を求めこの値をS/N1とする(ステップS80 )。さら
に、適応ノイズキャンセル回路32の出力信号321 のS/N
比を求めこの値をS/N2とする(ステップS90 )。さら
に、適応ノイズキャンセル回路33の出力信号331 のS/N
比を求めこの値をS/N3とする(ステップS100)。これら
のS/N 比が一番大きい出力信号801 を選択し(ステップ
S110)、音声認識回路90に与え音声認識結果901 を出力
する(ステップS120)。
現実的に実行するために、適応ノイズキャンセル回路31
〜33や、適応ノイズキャンセル信号選択回路80や、音声
認識回路90などの処理をプログラム処理で行うことがで
きる。このような処理を行うプログラム処理で実行し、
しかもカーナビゲーションシステムに小型で組み込むた
めには、フラッシュメモリやROM にプログラムを搭載す
るとよい。また、バックアップのために磁気ディスク装
置に記憶しておくこともよい。
ための図である。この図8において、適応ノイズキャン
セル回路31〜33の出力信号331 、321 、331 の信号を、
有音/無音検出制御回路30からの有音/無音区間検出信
号302 に基づき、ユーザが発話している判定される有音
区間(発話区間82)と、それ以外、すなわち、ユーザが
発話していないと判定される無音区間(非発話区間81)
とに分け、非発話区間81での信号の振幅の区間に亘る平
均レベルANと、発話区間82での信号の振幅の区間に亘る
平均レベルASとを求め、その比AN/AS をS/N 比とすると
よい。
識システムの構成によれば、各雑音信号に対して適応ノ
イズキャンセルを行い、各適応ノイズキャンセル出力信
号のS/N 比を求め、これらの中で最もS/N 比の高い出力
信号に対して音声認識を行うように構成したので、計算
量を少なく抑えながら、雑音の多い環境においても音声
認識精度の向上を図ることができるようになる。なお、
適応ノイズキャンセル出力信号の品質の良否を判定する
ために、信号歪み量を測定し、この信号歪み量(たとえ
ば、高調波歪み量)の大小によって信号品質を判定する
こともよい。
音源からの雑音信号が主音響信号に混入している場合
に、ある一つの雑音源からの雑音信号を主音響信号から
除去するためのある一つの適応ノイズキャンセル手段の
出力主音響信号を統計的音響モデルを使用して音声認識
し、認識単語を求めると共にその認識の確からしさを求
め、別の雑音源からの雑音信号を除去するための別の適
応ノイズキャンセル手段の出力主音響信号も統計的音響
モデルを使用して音声認識し、認識単語を求めると共に
その認識の確からしさを求め、これらの認識結果から、
音声認識の確からしさが高い認識単語を認識結果として
出力するように構成したことで、たとえば、自動車外か
らの雑音やカーオーディオシステムからの音響信号な
ど、異なる種類の複数の雑音信号が存在する音響環境に
おいて、少ない処理量で音声認識の認識精度を向上させ
ることができる。
されている音声認識システムの機能構成図である。
説明するための図である。
ンセル回路の機能構成図である。
の適応デジタルフィルタ回路の機能構成図である。
識回路の機能構成図である。
である。
説明するための図である。
ンセル信号選択回路におけるS/N 比の求め方の説明図で
ある。
Claims (5)
- 【請求項1】 主音響を捕捉し主音響信号を出力すると
共に、少なくとも2以上の雑音源からの雑音を捕捉し得
る主音響信号捕捉手段を含む音声認識システムにおい
て、 該システムは、少なくとも2以上の雑音源からの雑音信
号を除去するために少なくとも2以上の雑音信号捕捉手
段と適応ノイズキャンセル手段とを含むシステムであっ
て、 該システムは、 ある一つの雑音源からの雑音を捕捉し雑音捕捉信号を出
力する第1の雑音信号捕捉手段と、 他の雑音源からの雑音を捕捉し雑音捕捉信号を出力する
第2の雑音信号捕捉手段と、 前記主音響信号から前記第1の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去し、該除去した主音響信号
を出力する第1の適応ノイズキャンセル手段と、 前記主音響信号から前記第2の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去し、該除去した主音響信号
を出力する第2の適応ノイズキャンセル手段と、 前記第1の適応ノイズキャンセル手段の出力主音響信号
を統計的音響モデルを使用して音声認識し、認識単語を
求めると共にその認識の確からしさを求め、前記第2の
適応ノイズキャンセル手段の出力主音響信号も前記統計
的音響モデルを使用して音声認識し、認識単語を求める
と共にその認識の確からしさを求め、これらの認識結果
から、音声認識の確からしさが高い認識単語を認識結果
として出力する音声認識手段とを含むことを特徴とする
音声認識システム。 - 【請求項2】 請求項1に記載の音声認識システムにお
いて、該システムは、前記音声認識の統計的音響モデル
として隠れマルコフモデル法を使用して前記音声認識を
行うことを特徴とする音声認識システム。 - 【請求項3】 主音響を捕捉し主音響信号を出力すると
共に、少なくとも2以上の雑音源からの雑音を捕捉し得
る主音響信号捕捉手段を含む音声認識システムにおい
て、 該システムは、少なくとも2以上の雑音源からの雑音信
号を除去するために少なくとも2以上の雑音信号捕捉手
段と適応ノイズキャンセル手段とを含むシステムであっ
て、 該システムは、 ある一つの雑音源からの雑音を捕捉し雑音捕捉信号を出
力する第1の雑音信号捕捉手段と、 他の雑音源からの雑音を捕捉し雑音捕捉信号を出力する
第2の雑音信号捕捉手段と、 前記主音響信号から前記第1の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去し、該除去した主音響信号
を出力する第1の適応ノイズキャンセル手段と、 前記主音響信号から前記第2の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去し、該除去した主音響信号
を出力する第2の適応ノイズキャンセル手段と、 前記第1の適応ノイズキャンセル手段の出力主音響信号
を動的計画法を使用して音声認識し、類似度とその単語
とを求め、前記第2の適応ノイズキャンセル手段の出力
主音響信号も前記動的計画法を使用して音声認識し、類
似度とその単語とを求め、これらの認識結果から、類似
度が高い認識単語を認識結果として出力する音声認識手
段とを含むことを特徴とする音声認識システム。 - 【請求項4】 コンピュータによって、主音響を捕捉し
主音響信号を出力すると共に、少なくとも2以上の雑音
源からの雑音を捕捉し得る主音響信号捕捉手段で捕捉し
た主音響信号から、少なくとも2以上の雑音源からの雑
音信号を捕捉するために少なくとも2以上の雑音信号捕
捉手段を含み、ある一つの雑音源からの雑音を捕捉し雑
音捕捉信号を出力する第1の雑音信号捕捉手段、および
他の雑音源からの雑音を捕捉し雑音捕捉信号を出力する
第2の雑音信号捕捉手段によって捕捉された雑音捕捉信
号を除去し、該除去した主音響信号に対する音声認識を
行わせるための音声認識制御プログラムを記録した記録
媒体であって、 前記音声認識制御プログラムは、前記主音響信号から少
なくとも2以上の前記 雑音捕捉信号を除去するために少
なくとも2以上の適応ノイズキャンセル工程を含むもの
であって、 前記主音響信号から前記第1の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去させ、該除去させた主音響
信号を出力させる第1の適応ノイズキャンセル工程と、 前記主音響信号から前記第2の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去させ、該除去させた主音響
信号を出力させる第2の適応ノイズキャンセル工程と、 前記第1の適応ノイズキャンセル工程の出力主音響信号
を統計的音響モデルによって音声認識させ、認識単語を
求めさせると共にその認識の確からしさを求めさせ、前
記第2の適応ノイズキャンセル工程の出力主音響信号も
前記統計的音響モデルによって音声認識させ、認識単語
を求めさせると共にその認識の確からしさを求めさせ、
これらの認識結果から、音声認識の確からしさが高い認
識単語を認識結果として出力させる音声認識工程 とを含
むことを特徴とする音声認識制御プログラムを記録した
記録媒体。 - 【請求項5】 コンピュータによって、主音響を捕捉し
主音響信号を出力すると共に、少なくとも2以上の雑音
源からの雑音を捕捉し得る主音響信号捕捉手段で捕捉し
た主音響信号から、少なくとも2以上の雑音源からの雑
音信号を捕捉するために少なくとも2以上の雑音信号捕
捉手段を含み、ある一つの雑音源からの雑音を捕捉し雑
音捕捉信号を出力する第1の雑音信号捕捉手段および他
の雑音源からの雑音を捕捉し雑音捕捉信号を出力する第
2の雑音信号捕捉手段によって捕捉された雑音捕捉信号
を除去し、該除去した主音響信号に対する音声認識を行
わせるための音声認識制御プログラムを記録した記録媒
体であって、 前記音声認識制御プログラムは、前記主音響信号から少
なくとも2以上の前記雑音捕捉信号を除去するために少
なくとも2以上の適応ノイズキャンセル工程を含むもの
であって、 前記主音響信号から前記第1の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去させ、該除去させた主音響
信号を出力させる第1の適応ノイズキャンセル工程と、 前記主音響信号から前記第2の雑音信号捕捉手段で捕捉
した前記雑音捕捉信号を除去させ、該除去させた主音響
信号を出力させる第2の適応ノイズキャンセル工程と、 前記第1の適応ノイズキャンセル工程の出力主音響信号
を動的計画法を使用して音声認識させ、類似度とその単
語を求めさせ、前記第2の適応ノイズキャンセル工程の
出力主音響信号も前記動的計画法を使用して音声認識
し、類似度とその単語を求めさせ、これらの認識結果か
ら、類似度が高い認識単語を認識結果として出力させる
音声認識工程とを含む ことを特徴とする音声認識制御プ
ログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24108397A JP3510458B2 (ja) | 1997-09-05 | 1997-09-05 | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24108397A JP3510458B2 (ja) | 1997-09-05 | 1997-09-05 | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185185A JPH1185185A (ja) | 1999-03-30 |
JP3510458B2 true JP3510458B2 (ja) | 2004-03-29 |
Family
ID=17069046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24108397A Expired - Fee Related JP3510458B2 (ja) | 1997-09-05 | 1997-09-05 | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3510458B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4897169B2 (ja) * | 1999-09-23 | 2012-03-14 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識装置及び消費者電子システム |
KR20030010432A (ko) * | 2001-07-28 | 2003-02-05 | 주식회사 엑스텔테크놀러지 | 잡음환경에서의 음성인식장치 |
JP4549243B2 (ja) * | 2005-07-05 | 2010-09-22 | アルパイン株式会社 | 車載オーディオ処理装置 |
JP5109319B2 (ja) * | 2006-09-27 | 2012-12-26 | トヨタ自動車株式会社 | 音声認識装置、音声認識方法、移動体、及びロボット |
JP5641186B2 (ja) * | 2010-01-13 | 2014-12-17 | ヤマハ株式会社 | 雑音抑圧装置およびプログラム |
JP6109373B2 (ja) * | 2016-04-04 | 2017-04-05 | クラリオン株式会社 | サーバー装置および検索方法 |
CN110931028B (zh) * | 2018-09-19 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN112102816A (zh) * | 2020-08-17 | 2020-12-18 | 北京百度网讯科技有限公司 | 语音识别方法、装置、系统、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3074952B2 (ja) | 1992-08-18 | 2000-08-07 | 日本電気株式会社 | 雑音除去装置 |
JP3163109B2 (ja) | 1991-04-18 | 2001-05-08 | 沖電気工業株式会社 | 多方向同時収音式音声認識方法 |
-
1997
- 1997-09-05 JP JP24108397A patent/JP3510458B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3163109B2 (ja) | 1991-04-18 | 2001-05-08 | 沖電気工業株式会社 | 多方向同時収音式音声認識方法 |
JP3074952B2 (ja) | 1992-08-18 | 2000-08-07 | 日本電気株式会社 | 雑音除去装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH1185185A (ja) | 1999-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4283212B2 (ja) | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 | |
US7065487B2 (en) | Speech recognition method, program and apparatus using multiple acoustic models | |
US8170879B2 (en) | Periodic signal enhancement system | |
EP0459382B1 (en) | Speech signal processing apparatus for detecting a speech signal from a noisy speech signal | |
EP1208563B1 (en) | Noisy acoustic signal enhancement | |
US7117148B2 (en) | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization | |
US8391471B2 (en) | Echo suppressing apparatus, echo suppressing system, echo suppressing method and recording medium | |
JP2006215568A (ja) | 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 | |
JPH09212196A (ja) | 雑音抑圧装置 | |
JP2017506767A (ja) | 話者辞書に基づく発話モデル化のためのシステムおよび方法 | |
US20060165202A1 (en) | Signal processor for robust pattern recognition | |
US20120203549A1 (en) | Noise rejection apparatus, noise rejection method and noise rejection program | |
JPWO2018163328A1 (ja) | 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置 | |
EP0459384B1 (en) | Speech signal processing apparatus for cutting out a speech signal from a noisy speech signal | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP3510458B2 (ja) | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 | |
US20050010406A1 (en) | Speech recognition apparatus, method and computer program product | |
US6868378B1 (en) | Process for voice recognition in a noisy acoustic signal and system implementing this process | |
US20030036902A1 (en) | Method and apparatus for recognizing speech in a noisy environment | |
US8990092B2 (en) | Voice recognition device | |
JP2019020678A (ja) | ノイズ低減装置および音声認識装置 | |
Kawamura et al. | A new noise reduction method using estimated noise spectrum | |
JP3270866B2 (ja) | 雑音除去方法および雑音除去装置 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP4313728B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20031202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20031225 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100109 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100109 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110109 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |