JPH06236196A

JPH06236196A - 音声認識方法および装置

Info

Publication number: JPH06236196A
Application number: JP5020250A
Authority: JP
Inventors: Mizuhiro Hida; 瑞広飛田; Yoshitake Suzuki; 義武鈴木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-02-08
Filing date: 1993-02-08
Publication date: 1994-08-23

Abstract

(57)【要約】【目的】周囲騒音が大きな場所においても高い認識性
能を示す音声認識方法および装置を提供する。【構成】普通の発声レベルおよび発声変形を生ぜしめ
るこれとは異なる発声レベルにより発声した音声を使用
して作成した複数の標準音声パターンを蓄積１１し、音
声認識時の騒音レベル４および音声の収音距離９の値か
ら被認識音声の発声変形量を予測し、この予測発声変形
量に基づいて被認識単語の発声レベルに近い発声音声に
より作成した標準音声パターンを選択し、選択された標
準音声パターンと被認識音声パターンとを照合１２する
音声認識方法および装置。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声認識方法および
装置に関し、特に、周囲騒音が大きな場所において使用
した場合も良好なマンマシンインタフェースを確保する
と共に高い認識性能を示す音声認識方法および装置に関
する。

【０００２】

【従来の技術】マンマシンインタフェースにおいて、情
報の伝達手段としては一般に手動操作によるタイプライ
タ、押しボタンその他の手段が採用されているが、音声
を使用した情報伝達手段はこれら手動による伝達手段と
比較して伝送速度、操作性に関して優れている。音声を
情報伝達手段に使用し、情報を伝達する相手が機械の場
合、伝達内容である発声内容を正しく認識する音声認識
装置が必要とされる。

【０００３】ところで、音声認識装置は静寂な室内のみ
に留まらずに音声認識性能を低下させる騒音の大きな環
境条件下においても使用される。音声認識装置をこの様
な高騒音環境下において使用した場合の音声認識装置の
認識性能を向上せしめる手法としては、ＳＮ比を改善し
てクリヤな音声を獲得することを目的として騒音の影響
を極力排除する処理を施した後に音声認識計算処理を実
行する手法が一般的である。騒音の影響を極力排除する
処理をするに、指向性の鋭いマイクロホンを使用して騒
音を除去する手法、或は２個のマイクロホンを適切に配
置した２入力回路を構成してサブトラクション法により
騒音を除去する手法を採用してＳＮ比の改善を図ること
が行われている。

【０００４】しかし、騒音レベルの大きな場所において
発声する場合の音声レベルは、図１に示される如く、騒
音レベルに依存して大きくなることが知られている。こ
のことに起因して、発声変形を伴なった音声を生ずるこ
ととなる。図１における実線は、日本国内における電話
伝送について考慮した場合の騒音レベルに対する発声レ
ベルの変化の様子を示す（出典：電子通信学会編“新版
聴覚と音声”，Ｐ．４２２，昭和５７年７月３０日
刊）。破線により示されるRichards曲線は外国における
商用電話伝送について求めた例を示し、そして、鎖線に
より示されるKorn曲線は室内騒音下において文章を朗読
した場合の実験結果を示す。図１から明らかな如く、騒
音レベルが８０ｄＢＡ程度になると、通常の発声レベル
に対して１０ｄＢ程度の発声レベルの上昇を生じてく
る。

【０００５】一方、周囲の騒音レベルが大きな場合であ
っても、当該騒音レベルを上回って発声レベルの方をよ
り大きくすれば、所望のＳＮ比は確保されることとなっ
て音声認識には有利に働く様に考えられる。しかし、こ
の様な場合は、騒音の少ない室内において収音した通常
の発声レベルの音声を使用して作成した標準パターンと
比較して発声音声の認識照合を行っても、発声を大きく
したことによる発声変形に起因して実用上充分な認識性
能を得ることが困難となる。

【０００６】これを避けるための方法としては、通常レ
ベルの発声音声から大声で発声した音声への変換、若し
くはこの逆の変換を、物理的な特性変化のパラメータを
明らかにし且つ発声レベルの変化に伴って各パラメータ
の変化量を定量化して規則的に創り出し、これを使用し
て標準テンプレートを作成して音声認識に使用すれば良
い結果を得ることができるものと考えられる。

【０００７】

【発明が解決しようとする課題】上述の方法によれば、
普通の発声レベルで１回だけ発声すればこれで標準パタ
ーン作成のための発声は終了したことになるところか
ら、これは音声認識使用者に多大の利点をもたらすこと
となる。しかし、大声で発声した場合にフォルマント周
波数の上昇、下降を伴うことその他、物理的な変化のメ
カニズムの一部が明らかにされつつあるが、普通の発声
音声データから発声変形を施した音声データを音声認識
を行う場合に充分な特性を有して復元する手法、或はこ
の逆を行う手法は確立されていないのが実状であり、結
局、上述の方法は現実的な方法であると言うことはでき
ない。

【０００８】この発明は、従って、騒音レベルの大きな
環境下において発声した音声を認識する場合、事前に発
声変形を伴った音声を使用して標準パターンを作成して
蓄積しておき、実際の音声認識時の騒音レベルおよび音
声の収音距離の値から被認識音声の発声変形量を予測し
て、音声認識照合に使用する標準パターンを抽出選択し
て音声認識を行い、これを実行するに際して良好なマン
マシンインタフェースを確保すると共に実用上充分な音
声認識性能を示す音声認識方法および装置を提供するも
のである。

【０００９】

【課題を解決するための手段】普通の発声レベルおよび
発声変形を生ぜしめるこれとは異なる発声レベルにより
発声した音声を使用して作成した複数の標準音声パター
ンを蓄積し、音声認識時の騒音レベルおよび音声の収音
距離の値から被認識音声の発声変形量を予測し、この予
測発声変形量に基づいて被認識単語の発声レベルに近い
発声音声により作成した標準音声パターンを選択し、選
択された標準音声パターンと被認識音声パターンとを照
合する音声認識方法を構成した。

【００１０】そして、この方法を実施する装置として、
音響を音響信号に変換するマイクロホン１を具備し、マ
イクロホン１と話者０との間の距離Ｌを測定する距離セ
ンサ９を具備し、音響信号が入力されたときマイクロホ
ン１の感度特性を含めた系利得を出力レベルが所定レベ
ルとされる如くに可変設定する増幅部２を具備し、音響
信号の音圧レベルを測定するレベル測定部４を具備し、
増幅部２の出力レベルに比例して指示が変化するレベル
表示部５を具備し、音声信号の特徴量を抽出して分析す
る特徴量分析部１０を具備し、普通の発声レベルおよび
発声変形を生ぜしめるこれとは異なる発声レベルにより
発声した音声を使用して作成した複数の標準音声パター
ンを蓄積すると共に被認識単語の発声レベルに近い発声
音声により作成した標準音声パターンを選択出力する標
準パターン蓄積部１１を具備し、被認識音声パターンと
標準音声パターンとを照合するパターン照合部１２を具
備し、パターン照合結果を出力する照合結果出力部１３
を具備する音声認識装置を構成した。

【００１１】また、上述の音声認識装置に、更に、音響
信号の音圧レベルを視覚的に表示するレベル表示部５、
指示および音声認識結果を出力する音声ガイダンス出力
部７を具備せしめた音声認識装置をも構成した。

【００１２】

【実施例】この発明の実施例を図２を参照して説明す
る。図２において、１は音声、騒音その他の音響を音響
信号に変換するマイクロホンである。２は音響信号を増
幅する増幅部であり、その利得は制御部６から供給され
る制御信号により変化設定される。３は増幅部２から供
給されるアナログ音響信号をディジタル音響信号に変換
するＡＤ変換部である。４は音圧レベル測定部であり、
ＡＤ変換部３から送り込まれるディジタル音響信号に基
づいて相対的な音圧レベルを測定し、或は騒音レベルを
測定する。５はマイクロホン１から出力される音響信号
が増幅部２を介して送り込まれるレベル表示部であり、
この音響信号の出力レベルを表示する。７は音声ガイダ
ンス出力部であり、制御部６の制御により種々のメッセ
ージを出力して音声認識装置の使用者にこれを周知せし
め、指示を行うものである。８は音声ガイダンスを音響
として出力するスピーカである。９は話者とマイクロホ
ンとの間の距離を測定する距離センサである。結局、上
述された１〜９の各部分は音響信号入出力部Ｓを構成す
る。

【００１３】１０は発声された音声信号の音声区間を音
声のパワ情報その他の特徴量を使用して判定検出すると
共に当該音声区間の特徴パラメータを抽出分析する音声
の特徴量分析部である。１１は標準音声のパターンを登
録蓄積する標準パターン蓄積部である。１２は被認識音
声と標準音声との間のパターン照合を行うパターン照合
部である。１３はパターン照合部１２により得られる照
合結果を出力するための照合結果の出力部である。図２
の実線は各部間の電気信号の接続を示す線であり、破線
は制御部６を介して各部を制御する制御線を示す。

【００１４】図３は音声、騒音その他の音響信号を収音
してＡＤ変換部３に入力する部分の詳細を示す図であ
る。図３において、話者０とマイクロホン１との間の距
離Ｌは、距離センサ９により測定され、この距離測定結
果は制御部６に取り込まれる。標準音声パターンの作成
および実際の音声認識を行う場合、増幅部２の利得は、
制御部６により音声の収音距離Ｌおよび発声レベルの変
化に対応して、以下に説明される如くに制御される。

【００１５】図３において、話者とマイクロホン間の距
離を１ｍと仮定すると、普通の会話における発声音声の
音圧レベルは、マイクロホンの位置において約−３０ｄ
Ｂ（０ｄＢ＝１Ｐａ）であることが知られている［例え
ば、早坂、石井、吉川；音響工学概論、日刊工業新聞社
刊、ｐ１５、ｓ５１年１１月３０日改定版］。マイクロ
ホン１の感度が例えば−５０ｄＢ（０ｄＢ＝１Ｖ／Ｐ
ａ）である場合、増幅部２の出力端におけるレベルを０
ｄＢ（１Ｖ）とするには、増幅部２の利得を８０ｄＢと
すれば良い（当然のことながら、マイクロホン１として
感度が例えば２０ｄＢ高い−３０ｄＢのものを使用すれ
ば、増幅部２の利得は６０ｄＢとすれば良い。更に、話
者とマイクロホンとの間の距離が１０ｃｍに接近すれ
ば、同一の発声レベルである−３０ｄＢであっても、マ
イクロホン１への入力音圧レベルは更に２０ｄＢ上昇す
ることから、増幅部２の出力端におけるレベルを０ｄＢ
とするに必要な増幅部２の利得は４０ｄＢとなる）。こ
こにおいては、マイクロホン１の感度と増幅部２の利得
とを含めて増幅部の系利得をＧと表現することにする。
この場合の系利得Ｇは３０ｄＢ（Ｇ＝−５０＋８０）で
ある。

【００１６】増幅部２の出力は、一方においてレベル表
示部５に接続している。レベル表示部５のレベル表示の
具体的な例を図４に示す。図４において、○印は入力信
号レベルの大小に応じて点滅するランプであり、適正レ
ベルである０ｄＢを基準にして５ｄＢ間隔のレベル表示
をする様に構成されている。このレベル表示部５は、増
幅部２の出力レベルが０ｄＢ（１Ｖ）のときに適正表示
である０ｄＢのランプが点灯する様に調整されている場
合、例えば１０ｄＢ大きな声で発声して増幅部の系利得
を変更しないとすればレベル表示部５のランプは＋１０
ｄＢを示すに到る。

【００１７】上述した通りの音声認識装置により音声の
標準パターンを作成する方法を図５のフローチャートを
参照して説明をする。図５は標準音声パターンを作成す
るフローチャートを示す。標準音声パターンの作成は、
制御部６に設けられた例えば起動ボタンを操作すること
により開始され、音声ガイダンス出力部７を介して例え
ば“発声して下さい”というメッセージがスピーカ８か
ら出力される。話者はこの音声ガイダンスに従って被認
識単語を発声する。この場合、話者とマイクロホンとの
間の距離を距離センサ９により測定し、測定結果を制御
部６に記憶しておく。標準音声パターンを作成する場合
の発声は、互いに異なる発声レベルにより２回以上異な
る発声をすることを基本とする。即ち、１回目は例えば
普通の発声レベルにより発声し、２回目は発声変形を生
ずる程度の１回目より大きな発声レベル（この時のレベ
ル差をＣ（ｄＢ）と表示する）により発声し、３回目は
２回目より更にに大きな発声レベルにより発声すること
とする。

【００１８】標準音声パターンの作成は、先ず第１回目
の普通の発声レベルにより発声したときの音声を使用し
て行う。マイクロホン１の感度特性および増幅部２の利
得特性を含めた増幅部の系利得ＧをＡＤ変換部３の入力
端において過大或は過小とならない適正な値Ｇ₁（ｄ
Ｂ）に制御部６により設定し、このときの増幅部２の出
力レベルをＶ₀（ｄＢ）とする。同時に、話者とマイク
ロホン間の距離Ｌ₁（単位：ｍ）を距離センサ９により
測定し、この測定値を制御部６に蓄積する。レベル表示
部５は、話者の発声レベルに応じたレベル変化を視覚的
に表示、確認することができるものである。このレベル
表示部５は、図４に示される如く、音声の発声レベルが
“大きい”、“適正”および“小さい”という表示が一
目瞭然となる様に構成されている。ここで、普通のレベ
ルにより発声し且つ増幅部２の出力レベルがＶ₀のと
き、“適正”表示の値（図４の例においては０ｄＢ）と
なる様に設定、調整する。

【００１９】この様な設定をした音響信号入出力部Ｓを
使用して、先ず普通のレベルにより発声した音声の特徴
パラメータの抽出、分析を音声の特徴量分析部１０にお
いて行い、その分析結果を第１の標準パターン単語列Ｓ
₁として標準パターン蓄積部１１に蓄積し、ここにおい
て第１回目の普通の発声レベルによる標準パターンの作
成は終了とする。この時、話者の口元から１ｍ前方の仮
想の点を基準位置としたこの位置における相対音圧レベ
ルＰ₁（単位：ｄＢ、０ｄＢ＝１Ｐａ）を式（１）によ
り求めて制御部６に蓄積する。

【００２０】Ｐ₁＝２０log₁₀Ｌ₁−Ｇ₁＋Ｖ₀ （１）次いで、第２回目は、第１回目より大きな音圧レベルＰ
₂（単位：ｄＢ、０ｄＢ＝１Ｐａ）の音声により発声す
ることを制御部６から音声ガイダンスにより使用者に指
示する。Ｐ₁、Ｐ₂は上述の基準位置における発声レベ
ルを示し、Ｐ2はＰ₁より一定のレベルＣ（ｄＢ）大き
く発声した音声を準備したいものとすれば、以下に示さ
れる式（２）においてｊ＝２として与えられる値とな
る。

【００２１】この場合、増幅部の系利得Ｇ₂（単位：ｄ
Ｂ）は、普通のレベルにより発声した時に設定されてい
た増幅部の系利得Ｇ₁（単位：ｄＢ）に対して、話者と
マイクロホンとの間の距離をＬ₂（単位：ｍ）とした
時、距離の違いによる音圧レベルの変化量を補正する項
を含めて、制御部６からの制御信号により式（３）にお
いてｊ＝２として示される値に設定する。

【００２２】Ｐ_j＝Ｐ₁＋（ｊ−１）Ｃ（２）Ｇ_j＝Ｇ₁＋２０ log₁₀（Ｌ_j／Ｌ₁）＋（Ｐ₁−Ｐ_j）（３）ここで、ｊ＝２、３、・・・・、ｍこの様な設定がなされた後、音声ガイダンスにより“大
きな声で発声して下さい”というメッセージがスピーカ
から出力され、これに従って話者が発声することとなる
が、ここでＬ₂＝Ｌ₁であれば、増幅部の系利得は先の
普通に発声した場合よりもＣ（ｄＢ）低減しているがた
めに（ｊ＝２の場合、式（２）、（３）から、Ｇ₂＝Ｇ
₁−Ｃ）、その分だけ大きな音声により発声しなけれ
ば、レベル表示部５の“適正”という値にはならないこ
とに加えて、この状態が発声者に視覚的に伝わると共
に、話者にとっては音声認識装置側が要求している適正
なレベルに到る発声量の調整が感覚的に把握することが
できるので、この音声認識装置は標準音声パターンの作
成に関して使用者にとって使いやすい構成のものである
と言うことができる。

【００２３】更に、発声レベルの適否は、音圧レベル測
定部４の測定結果に基づいて制御部６を介して音声ガイ
ダンス出力部７に測定結果の内容に応じたメッセージ、
例えば“発声レベルが大きすぎるので、もう少し小さな
声で発声して下さい”或はこの逆のメッセージ内容を選
択する制御が行われ、スピーカ８から出力される音声に
より聴覚的にも確認することが併せて行われる。

【００２４】なお、音声の収音に使用するマイクロホン
の種類によっては、収音する距離が変化したときにその
感度周波数特性が大きく変化するものもあるので、この
様な場合はその距離変化によるｆ特性の変化を補正する
ことが必要となる。収音距離が変化したとき、マイクロ
ホンの感度ｆ特性の変化量が既知であるときのｆ特性の
補正方法に関しては、当該特許出願人が以前に出願した
特願平１−５１４５５“音響信号入力装置”において開
示した通り公知であるが、この場合、ｆ特性を平坦化す
るか或は標準音声と被認識音声間の周波数スペクトル特
性の傾きを等しくすることが認識性能の向上には大切な
要因であるため、このｆ特性の傾きを補正する機能を増
幅部２に持たせることは有効なことである。

【００２５】発声レベルが指示値に対して適正な場合
は、当該音声について先に述べたと同じ手順に従って音
声の特徴量分析部１０において特徴パラメータの分析を
行い、その結果を標準パターン蓄積部１１に単語内容を
ラベル付けして第２の標準パターンの単語列Ｓ₂として
蓄積する。以上の手順により２個以上の複数の発声レベ
ル、即ち式（２）においてＰ_j（ｊ＝２〜ｍ）として求
まる異なる条件における単語列の発声を完了し、標準パ
ターンの単語列（Ｓ_i）（ｉ＝１〜ｍ）の作成および蓄
積のフローを終了し、ここにおいて音声認識装置を使用
するための準備が完了したことになる。

【００２６】ここで、騒音がある環境下における音声認
識装置の実音声認識時の動作を図６を参照して説明をす
る。図６は実音声認識時のフローを示す図である。音声
認識装置は、起動せしめられると、音声ガイダンスによ
り例えば“発声して下さい”というメッセージが出力さ
れ、音声認識装置使用者はこれに従って被認識単語を発
声する。この時の発声レベルは、例えば上述の音声ガイ
ダンスの終了直後の騒音レベルを音圧レベル測定部４に
より測定し、この騒音レベルに応じて音声区間の検出お
よび音声認識性能の低下を生じない様に設定した、予め
定めた値以上のＳＮ比が確保される様に、増幅部の系利
得Ｇを制御部６により制御し、レベル表示部５が適正レ
ベル範囲となる様に発声することを音声認識装置側から
要求する。これと共に、騒音レベルおよび話者、マイク
ロホン間の音声収音の距離の大小に応じて、標準パター
ン蓄積部１１に蓄積されている発声レベルの異なる音声
により作成した複数の認識照合用の標準パターン列の中
の１組を選択する。

【００２７】標準パターン選択の基準は下記の通りであ
る。マイクロホン位置における周囲騒音の相対音圧レベ
ルＰ_N（単位：ｄＢ、０ｄＢ＝１Ｐａ）が小さく、且つ
音声の収音距離Ｌ_Tが大であっても、普通のレベルで発
声した音声により所望とする予め設定したＳＮ比の値Ｐ
_SN（単位：ｄＢ）が得られるとすれば、式（４）が成り
立つので、この時の増幅部の系利得Ｇ_T（単位：ｄＢ）
は、式（５）により求まる値とする。この場合、当然普
通のレベルにより発声したときにレベル表示部５の“適
当な範囲”の表示範囲に入ることとなる。

【００２８】Ｐ₁≧Ｐ_N＋Ｐ_SN （４）Ｇ_T＝Ｇ₁＋２０ log₁₀（Ｌ_T／Ｌ₁）（５）従って、この場合は、標準パターン蓄積部１１に蓄積さ
れている標準音声パターンは普通の発声音圧レベルＰ₁
（単位：ｄＢ、０ｄＢ＝１Ｐａ）により発声した音声で
作成したものを認識照合用として選択する。

【００２９】一方、周囲騒音の相対音圧レベルＰ_N（単
位：ｄＢ、０ｄＢ＝１Ｐａ）が大の場合は、Ｐ₁＜Ｐ_N＋Ｐ_SN （６）となり、十分な音声認識性能を確保するに必要な所望の
ＳＮ比（Ｐ_SN）を得るためには、話者とマイクロホン間
の距離Ｌ_Tに依存して発声レベルを変化する必要があ
る。

【００３０】例えば、周囲騒音の音圧レベルＰ_Nがマイ
クロホン位置で−１４ｄＢ（＝８０ｄＢＡ）程度ある場
合であって所望のＳＮ比Ｐ_SNを１０ｄＢと仮定すれば、
マイクロホン１に入力される音声の発声レベルは−４ｄ
Ｂ（＝９０ｄＢＡ）が必要となるが、これはマイクロホ
ンと発声者の口元との間の距離Ｌ_Tの違いにより変化す
る。即ち、口元とマイクロホンとの間の音声の収音距離
Ｌ_Tが小さく、これが例えば約５ｃｍであれば普通に発
声した場合であってもその音量は、収音距離が１ｍの場
合に比べて２６ｄＢ上昇して約−４ｄＢ（＝９０ｄＢ
Ａ）となるから、図１に示される周囲騒音の影響による
発声レベルの上昇効果を期待するまでもなく（図１から
は、約１０ｄＢ上昇することが分かる）、上述の所望の
ＳＮ比が満足される値を採る。しかし、口元とマイクロ
ホンとの間の距離ＬT が例えば５０ｃｍ程度に離れたと
ころにおいて使用した場合のＳＮ比は、普通の発声レベ
ルにおいてはマイクロホンの位置で約−２４ｄＢ（＝７
０ｄＢＡ）であるところから−１０ｄＢとなり、図１に
示される騒音の影響による発声音量の増加分（いわゆる
ロンバート効果）を１０ｄＢと見込んでも、ＳＮ比は０
ｄＢの値しか得られないことになる。この結果、良好な
音声認識は勿論、音声区間の検出を行うことさえ困難と
なる。この様な条件下においては、普通の発声より約１
０倍（２０ｄＢ）の大きさにより発声することが要求さ
れ、これを満たすことにより所望のＳＮ比として仮定し
た１０ｄＢの値が確保され、この結果、音声区間の検出
および良好な音声認識効果が期待される。即ち、式
（６）が成り立つ騒音条件下における増幅部の系利得Ｇ
_T（単位：ｄＢ）は増幅部の出力レベルがＶ₀（単位：
ｄＢ）となる様に式（７）により与えられ、基準位置に
おける発声レベルが式（８）により求められるＰ_T（単
位：ｄＢ、０ｄＢ＝１Ｐａ）となるように制御される。

【００３１】Ｇ_T＝Ｇ₁＋２０ log₁₀（Ｌ_T／Ｌ₁）＋Ｐ₁−（Ｐ_N＋Ｐ_SN）（７）Ｐ_T＝Ｇ₁−Ｇ_T＋２０ log₁₀Ｌ_T＋Ｐ₁ （８）以上のことから、騒音環境下において音声認識装置を使
用する時の発声レベルは、普通のレベルにより発声した
ときの基準位置における音圧レベルＰ₁の値を基準とし
て、周囲騒音レベルＰ_Nと、所望とするＳＮ比Ｐ_SNと、
話者とマイクロホンとの間の距離Ｌ_Tとから算出するこ
とができる。従って、音声認識照合に使用する発声レベ
ルの異なる音声により作成した標準パターンの選択は、
Ｐ_Tに近い発声レベルＰ_i（ｉ＝１〜ｍの中のいずれ
か）により作成されたものを一義的に決定することがで
きる。なお、認識処理時間が多少長くなることが許容さ
れれば、発声レベルの異なる標準パターンを複数組使用
するいわゆるマルチテンプレート法による照合を行え
ば、より被認識単語の発声音声に近いものが認識距離の
計算結果として選択される可能性が高くなり、より良い
音声認識性能の達成が期待される。

【００３２】上述の通りの手順により音声認識された結
果が、音声ガイダンス出力部を介してスピーカ８より出
力される。例えば音声ダイヤルである場合、認識結果が
正しければ、動作モードはダイヤル信号の送出処理へ移
行する。もし、照合結果が誤りであれば、次の順位の認
識結果を選出する処理過程を経て出力がなされることと
なる。

【００３３】

【発明の効果】以上の通りであって、この発明による音
声認識方法および装置は、周囲騒音レベルの大きな環境
下において使用する場合であっても高い認識性能を示
す。即ち、標準音声パターンの作成を高騒音レベル下に
おける発声を想定した発声変形を伴った音声を使用して
行うことと、実際に高騒音下において音声認識装置を使
用する場合に話者とマイクロホンとの間の距離、周囲の
騒音レベルおよび所望のＳＮ比を満足する発声を音声ガ
イダンスおよびレベル表示部により話者に適切に指示す
ると共に、これらの各部の条件の設定値および測定値か
ら発声変形量を予測して認識照合に使用する標準テンプ
レートを選択して認識処理を実行することにより、マン
マシンインタフェースを向上し、高い認識性能を示す音
声認識方法および装置を構成することができた。

【図面の簡単な説明】

【図１】室内の騒音レベルの変化が発声レベルに及ぼす
影響を示す図。

【図２】この発明による音声認識装置のブロック図。

【図３】音声収音の構成を示す図。

【図４】レベル表示部の表示の実施例を示す図。

【図５】この発明による音声の標準パターン作成を説明
するフロー図。

【図６】音声認識を説明するフロー図。

【符号の説明】

１マイクロホン２増幅部３ＡＤ変換部４パワーレベル測定部５レベル表示部６制御部７音声ガイダンス出力部８スピーカ９距離センサ１０音声の特徴量分析部１１標準パターン蓄積部１２パターン照合部１３照合結果の出力部０話者Ｌ収音距離

Claims

【特許請求の範囲】

【請求項１】普通の発声レベルおよび発声変形を生ぜ
しめるこれとは異なるる発声レベルにより発声した音声
を使用して作成した複数の標準音声パターンを蓄積し、
音声認識時の騒音レベルおよび音声の収音距離の値から
被認識音声の発声変形量を予測し、この予測発声変形量
に基づいて被認識単語の発声レベルに近い発声音声によ
り作成した標準音声パターンを選択し、選択された標準
音声パターンと被認識音声パターンとを照合することを
特徴とする音声認識方法。
【請求項２】音響信号を電気信号に変換するマイクロ
ホンを具備し、マイクロホンと話者との間の距離を測定
する距離センサを具備し、音響信号が入力されたときマ
イクロホンの感度特性を含めた系利得を出力レベルが所
定レベルとされる如くに可変設定する増幅部を具備し、
音響信号の音圧レベルを測定するレベル測定部を具備
し、増幅部の出力レベルに比例して指示が変化するレベ
ル表示部を具備し、音声信号の特徴量を抽出して分析す
る特徴量分析部を具備し、普通の発声レベルおよび発声
変形を生ぜしめるこれとは異なる発声レベルにより発声
した音声を使用して作成した複数の標準音声パターンを
蓄積すると共に被認識単語の発声レベルに近い発声音声
により作成した標準音声パターンを選択出力する標準パ
ターン蓄積部を具備し、被認識音声パターンと標準音声
パターンとを照合するパターン照合部を具備し、パター
ン照合結果を出力する照合結果出力部を具備することを
特徴とする音声認識装置。
【請求項３】請求項２に記載される音声認識装置にお
いて、音響信号の音圧レベルを視覚的に表示するレベル
表示部を具備し、指示および音声認識結果を出力する音
声ガイダンス出力部を具備することを特徴とする音声認
識装置。