JPH0315898A

JPH0315898A - 音声認識方法

Info

Publication number: JPH0315898A
Application number: JP2120173A
Authority: JP
Inventors: Ian Bickerton; イアン　ビッカートン
Original assignee: Smiths Group PLC
Current assignee: Smiths Group PLC
Priority date: 1989-05-18
Filing date: 1990-05-11
Publication date: 1991-01-24
Also published as: GB2231698A; DE4012337A1; GB2231698B; FR2647249B1; GB9010291D0; FR2647249A1; GB8911461D0

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（技術分野）この発明は音声認識方法に関連している。

（背景技術）多重機能を有する複雑な装置において、会話された指令
（ｓｐｏｋｅｎ　ｃｏｍｍａｎｄｓ）により装置を制御
できることは有用である。これはまたユーザーの手が別
の仕事により占有されていたり、あるいはユーザーに故
障がありかつ通常の機械的スイッチや制御装置を操作す
るために自分の手が使用できないところでは有用である
．音声認識装置のプログラミングは参照語彙（ｒｅｆｅｒ
ｅｎｃｅ　ｖｏｃａｂｕｌａｒｙ）に入れるべき語（ｗ
ｏｒｄｓ）あるいは句（ｐｈｒａｓｅｓ）のリストの読
みだしにより遂行される。音声波（ｓｐｅｅｃｈ　ｓｏ
ｕｎｄ）はスペクトル戒分に分解され、スペクトル・時
間語モデル（ｓｐｅｃｔｒａｌ−ｔｅｍｐｏｒａｌ　ｗ
ｏｒｄ　ｍｏｄｅｌ）あるいはテンプレートとして蓄積
される。

未知の語が連続して会話される場合、それはまたスペク
トル成分に分解され、かつそれらはヒドンセξマルコフ
モデル（Ｈｉｄｄｅｎ　Ｓｅｍｉ−Ｍａｒｋｏｖ　Ｍｏ
ｄｅｌ）のような適当なアルゴリズムにより参照語案と
比較される．この参照語彙は異なる環境においてかつ異
なる人間による同じ語の多重繰り返しにより確定される
ことが好ましい。これは語モデルの拡張（ｓｐｒｅａｄ
）あるいは拡大（ｂｒｏａｄｅｎｉｎｇ）を導入し、従
って同じ語が引き続いて会話される場合にそれがその語
モデルに対して識別される高い確率が存在する。しかし
、類似の語モデルのオーバーラップが不正確な識別とな
る大きな確率を導く結果となり得る。

神経網（ｎｅｕｒａｌ　ｎｅｔｓ）の使用がまた提案さ
れているが、しかし連続音声の識別には適していない。

会話された語の正確な識別を達成する能力は高い背景雑
音がある場合あるいは会話者が緊張している場合のよう
な劣悪な環境ではさらに困難となる。

（発明の開示）本発明の目的は音声波の認識の改善に使用できる音声認
識方法を与えることである．本発明によると、音声認識方法が与えられ、それは複数の既知の語あるいは句に関する音声信号を神経綱に
供給すること、各語あるいは句の特徴（４６ａｔｕｒｅ）を別の語ある
いは句の特徴から弁別するよう神経網で識別すること、語あるいは句を識別する情報と共にこれらの弁別できる
特徴に関する情報を供給し、それによりそれらの特徴が
参照語彙を更新する（ｂｕｉｌｄ　ｕｐ）ためメモリに
連合（ａｓｓｏｃｉａｔｅ）され、かつ語あるいは句を
識別するよう引き続いて未知の１つの語あるいは句に関
する音声信号を上記の語堂メモリの弁別できる特徴と比
較すること、の各ステップを含むことを特徴としている
．本方法は複数回既知の各語あるいは句を会話し、かつ
神経網に供給される音声信号を生成するために各語の例
（ｅｘａｍｐｌｅ）を時間的に整列する各ステップを含
むことが好ましい。別の語あるいは句から各語あるいは
句を弁別するそれらの特徴は例えばスペクトル特ｌ！！
［（ｓｐｅｃｔｒａｌ　ｆｅａｔｕｒｅ）であるか、あ
るいは線形予測係数（ｌｉｎｅａｒ　ｐｒｅｄｉｃｔｉ
ｖｅ　ｃｏｅ−ｆｆｉｃｉｅｎｔ）であろう。未知の語
あるいは句に関する音声信号と弁別できる特徴（ｄｉｓ
ｃｒｉｍｉｎａｔｉｖｅｆｅａｔｕｒｅ　）の参照語賃
との比較がヒドンセミマルコフモデル技術（ＨＳＭＭ　
：旧ｄｄｅｎ　Ｓｅｎ＋ｉ−Ｍａｒｋｏｖ　Ｍｏｄｅｌ
ｔｅｃｈｎｉｑｕｅ　）により遂行されることが好まし
い。

メモリ中の参照語案が弁別できる特徴のダＱ　’）ク時
間ワーピングテンプレート（ｄｙｎａｍｉｃ　ｔｉｎｇ
ｅ　ｗａｒｐｉｎｇ　ｔｅ＋＋＋ｐｌａｔｅｓ）を含む
ことができる。参照語粟のシンタックス制限（ｓｙｎｔ
ａｘ　ｒｅｓｔｒｉｃｔｉｏｎ）が前に識別された語の
シンタックスに従って実行されることが好ましい。

本発明による音声認識装置とその動作方法を添付図面を
参照して実例により説明する。

（実施例）音声認識装置は参照記号１により一般的に示され、かつ
例えば航空機ペイロフトの酸素マスクに取り付けられた
マイクロホン２からの音声入力信号を受信する。識別さ
れた語を表す出力信号は装置１によりフィードバックデ
バイス３および利用デバイス（ｕｔｉｌｉｓａｔｉｏｎ
　ｄｅｖｉｃｅ）　４に供給される。

フィードバックデバイス３は装置ｌにより識別された語
を会話者に通知するために配設された可視表示あるいは
可聴デバイスであろう．利用デバイス４は装置の出力信
号から利用デバイスにより認識された会話指令に応じて
航空機機器の機能を制御するよう配設されている．マイクロホン２からの信号は前置増幅器１０に供給され
、この前置増幅器ｌＯはすべての周波数チャネル出力が
同様なダイナミックレンジを占有することを保証するた
めに平坦長期平均音声スペクトル（ｆｌａｔ　ｌｏｎｇ
−ｔｅｒｍ　ａｖｅｒａｇｅ　ｓｐｅｅｃｈ　ｓｐｅｃ
ｔｒｕ＋ｗ）を生成するブリエンファシス段１１を含み
、その特性は公称的には１ｋＨｚまで平坦である。スイ
ッチ１２は高い周波数で３　ｄＢ／オクターブあるいは
６ｄＢ／オクターブの上昇（ｌｉｆｔ）のいずれかを与
えるよう設定できる。前置増幅器１０はまた４ｋＨｚに
設定された−３ｄＢ遮断周波数を持つ８次バッターワー
ス低域通過フィルタの形をしたアンチアライアシングフ
ィルタ２１を含んでいる。

前置増幅器１０からの出力はアナログ対ディジタル変換
器１３を介してディジタルフィルタバンクＩ４に伝達さ
れる。フィルタバンクｌ４はＴＭＳ３２０１０マイクロ
プロセッサのアセンブリソフトウエアーとして実現され
た１９個のチャネルを有し、かつこれはジエー・エヌ・
ホルメス（Ｊ，　Ｎ．　Ｈｏｌｍｅｓ）のｒ　ＪＳＲＵ
チャネルボコーダ−（ＪＳＲＵ　Ｃｈａｎｎｅｌ　Ｖｏ
ｃｏｄ−ｅｒ）」、アイイーイー議事録（ＩＥＥ　Ｐｒ
ｏｃ．）、第１２７巻、パー｝Ｆ、第１号、１９８０年
２月に基づいている。フィルタバンクｌ４は周波数範囲
２５０　−　４０００Ｈｚの聴覚（ａｕｄｉｔｏｒｙ　
ｐｅｒｃｅｐｔｉｏｎ）の臨界帯域にほぼ対応する不均
等なチャネル間隔を有している。隣接チャネルの応答は
それらのピークより約３ｄＢ下で交差している。チャネ
ルの中央で近傍チャネルの減衰は約１　１ｄＢである。

フィルタバンク１４からの信号は積分・雑音マーキング
ユニット（ｉｎｔｅｇｒａ．ｔｉｏｎ　ａｎｄ　ｎｏｉ
ｓｅ　ｍａｒｋｉｎｇｕｎｉｔ）　１５に供給され、こ
れはジエー・エス・プライドル（Ｊ．　Ｓ．　Ｂｒｉｄ
ｌｅ）等の「自動音声認識に適用された雑音補償スペク
トル距離測度（Ａ　ｎｏｉｓｅｃｏｍｐｅｎｓａｔｉｎ
ｇ　ｓｐｅｃｔｒｕｍ　ｄｉｓｔａｎｃｅ　ｍｅｓｕｒ
ｅ　ａｐｐｌｉｅｄｔｏ　ａｕｔｏｍａｔｉｃ　ｓｐｅ
ｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ）　」、音響学会議事
録（Ｐｒｏｃ．　［ｎｓｔ．　Ａｃｏｕｓｔ．）、ウイ
ンドメアー（Ｗｉｎｄａ＋ｅｒｅ）、１９８４年１１月
に記載されたような種類の雑音マーキングアルゴリズム
を組み込んでいる．周期性雑音を低減する適応雑音消去
技術（Ａｄａｐｔｉｖｅｎｏｉｓｅ　ｃａｎｃｅｌｌａ
ｔｉｏｎ　ｔｅｃｈｎｉｑｕｅ　）はこのユニッ｝１５
により実現でき、これは例えば周期性ヘリコプター雑音
の低減に有用である。　雑音マーキングユニットｌ５の
出力は種々のパターンマッチングアルゴリズムを実行す
るパターンマッチングユニット１６に供給される。パタ
ーンマッチングユニット１６は参照語堂の各語あるいは
句の弁別できる特徴に関するマルコフモデルを含む語彙
メモリ１７に接続されている。弁別できる特徴は第２図
と第３図に示された態様で語堂に入れられる。

最初に参照語粟に入れるべき各語あるいは句の孤立した
例（ｉｓｏｌａｔｅｄ　ｅｘａｍｐｌｅ）が記録される
。

これが操り返されて各語あるいは句の多重例（ｍｕｌｔ
ｉｐｌｅ　ｅｘａｎ＋ｐｌｅ　）が利用可能となる。次
に、個別に記録された発声（ｕｔｔｅｒａｎｃｅ）がダ
イナ藁１７クプログラミングにより発声の中央（ｍｅｄ
ｉａｎ）に時間的に整列される。これは自然音声の時間
変動（ｔｅｍｐｏｒａｌ　ｖａｒｉａｔｉｏｎ）を除去
し、ここで同じ語は異なる会話速度（ｓｐｅａｋｉｎｇ
　ｒａｔｅ）で会話できる。

中央語（ｍｅｄｉａｎ　ｗｏｒｄ）は平均期間のものと
して選択されるか、あるいは語を語のグループのまん中
に置く別のいくつかの距離測度（ｄｉｓｔａｎｃｅ　ｍ
ｅヒｒｉｃ）を使用して選択される。例えば、もし参照
語量がディジット「０」より「９」までからなるなら、
ダイナミックプロセシングの後で各数のすべての訓練繰
り返し（ｔｒａｉｎｉｎｇ　ｒｅｐｅｔｉｔｉｏｎ）は
同じ期間を有するであろう。

訓練語の時間整列組（ｔｉｍｅ　ａｌｉｇｎｅｄ　ｓｅ
ｔ）が神経網に与えられる。神経網構造はありふれた任
意のエラー後方伝搬学習戦略（ｅｒｒｏｒ　ｂａｃｋ　
ｐｒｏｐａｇａ−ｔｉｏｎ　ｌｅａｒｎｉｎｇ　ｓＬｒ
ａｔｅｇ，ｙ）により単層化あるいは多層化（ｓｉｎｇ
ｌｅ　ｏｒ　ｍｕｌｔｉｐｌｅ　ｌａｙｅｒｅｄ）され
よう。

神経網は語粟の弁別できるスペクトル特徴を学習するよ
う配設され、すなわち語彙中の別の語からそれを弁別す
る１つの語の特徴を学習する。その一例は第３図に例示
され、これはその左手に会話されたディジソト「ｌ」の
スペクトル時間分析（ｓｐｅｃｔｒａｌ−ｔｅｍｐｏｒ
ａｌ　ａｎａｌｙｓｉｓ　）を示している。

第３図の右手はディジット「０」、「２」、「３」等々
からそれを弁別するディジット「１」の特徴を示してい
る．次にこれらの弁別できる特徴は自然音声の時間変動性に
打ち勝つことのできるありふれたアルゴリズムに転送さ
れる。この例ではヒドンセミマルコフモデルが使用され
ている。神経網により識別された弁別できる特徴はメモ
リ１７に蓄積するＨＳＭＭパラメータで統合されている
。

このようにして、メモリＩ７は語彙中の各語あるいは句
を含み、これは語粟中でその語と別の語との混同性（ｃ
ｏｎｆｕｓｉｂｉｌｉｔｙ）を考慮している。引き続く
パターンマッチングの登録手順（ｅｎｒｏｌｅｍｅｎｔ
ｐｒｏｃｅｄｕｒｅ）がそれによって改善される。

各語の識別に使用された弁別できる特徴はスペクトル特
徴である必要はなく、線形予測係数あるいは音声信号の
別の任意の特徴でもあり得る。

メモリ中の語モデルは時間変動性と語にわたって集計さ
れた神経網距離測度（ｎｅｕｒａｌ　ｎｅｔ　ｄｉｓＬ
ａｎｃｅｍｅｔｒｉｃ）を考慮するためにダイナミック
時間ワービング（ＤＴＷ　：　Ｄｙｎａｍｉｃ　Ｔｉｍ
ｅ　Ｗａｒｐｉｎｇ）テンプレートでもよい。語党メモ
リ１７とパターンマッヂングユニント１６の間に接続さ
れたシンタックスユニッ目８は、以前に識別された語の
シンタックスに従って、音声が比較される蓄積語案にあ
りふれたシンタックス制限を実行するよう使用できる。

この方法は改善された認識性能を持つ神経網登録プロセ
スを使用して連続音声の認識を可能にし、これは余分の
処理能力が無くても達或できる。

【図面の簡単な説明】

第１図は装置を概略的に示し、第２図はこの方法の処理ステップを例示し、第３図は弁
別できる特徴の識別の前後における語の周波数／時間分
布を例示し、第３図（ａ）は語「１」が会話された場合
の１２個の異なる時間における周波数分布を示し、第３
図（ｂ）は語党中の別の語からそれを弁別するそれらの
語の特徴を示している。１・・・音声認識装置２・・・マイクロホン３・・・フィードバックデバイス４・・・利用デバイス１０・・・前置増幅器１１・・・ブリエンファシス段１２・・・スイッチ１３・・・アナログ対ディジタル変換器１４・・・ディ
ジタルフィルタバンクｌ５・・・雑音マーキングユニット１６・・・ハターンマンチングユニット１７・・・語彙
メモリｌ８・・・シンタンクスユニノト２０・・・神経網ユニソト

Claims

【特許請求の範囲】１、音声認識方法であって、該方法が複数の既知の語あ
るいは句に関する音声信号を神経網（２０）に供給する
こと、各語あるいは句の特徴を別の語あるいは句の特徴から弁
別するよう神経網（２０）で識別すること、語あるいは句を識別する情報と共にこれらの弁別できる
特徴に関する情報を供給し、それによりそれらの特徴が
参照語彙を更新するためメモリ（１７）に連合され、か
つ語あるいは句を識別するよう引き続いて未知の１つの語
あるいは句に関する音声信号を上記の語彙メモリの弁別
できる特徴と比較すること、の各ステップを含むことを特徴とする方法。２、該方法が複数回既知の各語あるいは句を会話し、か
つ神経網（２０）に供給される音声信号を生成するため
に各語の例を時間的に整列する各ステップを含むことを
特徴とする請求項１に記載の方法。３、別の語あるいは句から各語あるいは句を弁別するそ
れらの特徴がスペクトル特徴であることを特徴とする請
求項１あるいは２に記載の方法。４、別の語あるいは句から各語あるいは句を弁別するそ
れらの特徴が線形予測係数であることを特徴とする請求
項１あるいは２に記載の方法。５、未知の語あるいは句に関する音声信号と弁別できる
特徴の参照語彙との比較がヒドンセミマルコフモデル技
術により遂行されることを特徴とする請求項１から４の
いずれか１つに記載の方法。６、メモリ（１７）中の参照語彙が弁別できる特徴のダ
イナミック時間ワーピングテンプレートを含むことを特
徴とする請求項１から５のいずれか１つに記載の方法。７．参照語彙のシンタックス制限が前に識別された語の
シンタックスに従って実行されることを特徴とする請求
項１から６のいずれか１つに記載の方法。