JP2001000007U

JP2001000007U - 音声認識装置

Info

Publication number: JP2001000007U
Application number: JP2000004957U
Authority: JP
Inventors: ビッカートンイアン
Original assignee: スミスズインダストリーズパブリックリミテッドカンパニー
Priority date: 1989-04-12
Filing date: 2000-07-13
Publication date: 2001-02-09
Also published as: FR2645999A1; GB2230370A; DE4010028A1; DE4010028C2; GB2230370B; GB8908205D0; JPH02298998A; FR2645999B1; GB9007067D0

Abstract

(57)【要約】【課題】改良された音声認識装置を提供する。【解決手段】音声認識は、ヒドンセミマルコフモデル
を用いる音声信号の第１分析及び神経回路網に関する多
層パーセプトロン技術を用いる音声信号の第２分析によ
って遂行される。第１分析は、第２分析により単語の境
界を識別するために用いられる。第１分析が発音された
単語を或るレベル以上の確度で表示できる場合は、第１
分析のみに対応して発音された単語の表示が出力され、
確度のレベルが低い場合に第２分析が用いられるように
してもよい。その出力が航空機の機能を制御し、単語を
発音した話者にフィードバックされる。

Description

【考案の詳細な説明】

【０００１】

【考案の属する技術分野】

本考案は、神経回路網技術以外の技術を用いて音声信号の第１分析を行って異なる単語の間の境界を識別し、更に神経回路網技術を用いて蓄積された語彙との比較を行って発声された単語の表示を与える種類の音声認識装置に関する。

【０００２】

【従来の技術】

多くの機能を有する複雑な装置においては、そのような装置を音声によるコマンドにより制御できることが有用である。これはまた、ユーザーの手が他の作業のために塞がっている場合、又はユーザーが障害を持ち、手で通常の機械的スイッチ及び制御装置を操作できない場合に有用である。

【０００３】音声によって制御される装置における問題点は、音声認識の信頼性が低いことである。特に、話者の声が例えば振動等の環境のファクタにより変化することである。これは、動作の失敗又は更に悪い場合は不正動作の原因になる。

【０００４】音声認識には種々の技術が用いられている。一つの技術は、連続的な音声の中における単語の間の境界を容易に識別することができることにより有用なマルコフモデルの使用を含む。しかしながら、ノイズの多い環境又は話者の緊張により音声の質が劣化した場合、マルコフモデル技術からは発声された単語について充分に信頼性のある識別が得られない場合がある。最近では、ノイズ補償、補償、シンタックス選択及び他の方法により、この技術の性能を改良するための真剣な努力がなされている。

【０００５】音声認識のために提案された他の技術は神経回路網を用いる。この神経回路網技術は、音声が低品位の場合においても、個々の単語を高精度で識別する能力を具える。しかしながら、これらは、単語の境界を正確に認識することができないため連続的な音声の認識には適していない。

【０００６】

【考案が解決しようとする課題】

本考案の目的は、改良された音声認識装置を提供することにある。

【０００７】

【課題を解決するための手段】

本考案の音声認識装置は、認識可能の単語の語彙に関する音声情報を含むメモリー、マルコフモデルを用いて異なる単語の間の境界を識別し且つ音声信号と蓄積された語彙とを比較して発声された単語の第１表示を与えるための音声信号の第１分析を実行するパターンマッチングユニット、及び、パターンマッチングユニットに接続された神経回路網ユニットを具え、パターンマッチングユニットが、第１分析から得られた単語の境界の識別及び神経回路網ユニットの出力の両者を用いて音声信号の第２分析を実行し、少なくとも第２分析から発声された単語を表現する出力信号を与えることを特徴とする。

【０００８】第１分析はマルコフモデルを用いて実行することができる。語彙が時間軸正規化テンプレートを含む場合は、非対称時間軸正規化アルゴリズムを用いて第１分析を実行することができる。

【０００９】第１分析は複数の異なるアルゴリズムを用いて実行し、それぞれのアルゴリズムにより、語彙メモリーの中でその音声信号に最も近い単語を表示する信号、及び表示された単語が発声された単語であることの確度の表示を与え、更に、複数の異なるアルゴリズムによって与えられた信号の間で比較を行うようにしてもよい。発声された単語の第１表示を確度の尺度と共に与える場合には、確度の尺度が所定の値より大きい時は第１表示のみに応答して出力信号を与えるようにしてもよい。

【００１０】第２分析は、神経回路網に関する多層パーセプトロン技術を用いて実行することができる。また、発声された単語の話者に、出力信号をフィードバックすることができる。

【００１１】本考案の装置においては、音声信号に対してノイズマーキングアルゴリズムを実行するステップを含むことができ、また、前段で識別された単語のシンタックスに従い、蓄積された語彙に対してシンタックス限定を実行するステップを含むことができる。

【００１２】

【考案の実施の形態】

以下に、本考案による音声認識装置について、図面を用いて例示により説明する。

【００１３】音声認識装置は全体として数字１で表され、例えば、航空機パイロットの酸素マスクに取付けられたマイクロホン２からの音声入力信号を受信する。識別された単語を表す出力信号は、装置１によりフィードバック装置３及び応用装置４に供給される。フィードバック装置３は、装置１によって識別された単語をその単語の話者に知らせるために具えられる可視ディスプレイ又は可聴装置とすることができる。応用装置４は、音声認識装置の出力信号から発声コマンドを認識し、それに応答して航空機の機能を制御するように配置されるものである。

【００１４】マイクロホン２からの信号は、プリエンファシス段11を含む前置増幅器10に供給される。プリエンファシス段11は、平坦な長期平均音声スペクトルを生成するものであり、それにより確実に、全ての周波数チャネルの出力が同じダイナミックレンジを有し、公称１kHz まで平坦な特性を持つようになる。スイッチ12は、高い周波数で３又は６dB／オクターブのいずれかのリフトを与えるように設定することができる。前置増幅器10は、更に、−３dBのカットオフ周波数が４kHz に設定された８次バターワース低域通過フィルタの形のアンチアライアシングフィルタ21を含む。

【００１５】前置増幅器10からの出力は、アナログディジタル変換器13を介してディジタルフィルタバンク14に送られる。フィルタバンク14は、TMS32010マイクロプロセッサ中でアセンブリソフトウェアとして実現される19個のチャネルを有するものであり、J.N.HolmesによりIEE Proc.,第127 巻，パートＦ，第１号（1980年２月）に記載されたＪＳＲＵチャネルボコーダに基づくものである。フィルタバンク14 は、250-4000Hzの範囲のほぼ聴覚の限界帯域に対応する不均等のチャネル間隔を有する。隣接チャネルの応答は、それらのピークのほぼ３dB下で交差する。チャネルの中心においては、隣接チャネルの減衰はほぼ１１dBである。

【００１６】フィルタバンク14からの信号は、J.S.Bridle等により「自動音声認識に適用されるノイズ補償スペクトル距離測度(A noise compensating spectrum distance measure applied to automatic speech recognition)」(Proc. Inst. Acoust., Windemere, 1984 年11月) に記載されたような種類のノイズマーキングアルゴリズムが組込まれたノイズマーキングユニット15に供給される。周期的なノイズを減らすために適用し得るノイズ消去技術は、ユニット15によって実現される。それは、例えば、周期的なヘリコプターのノイズを低減する場合に有用である。

【００１７】ノイズマーキングユニット15の出力は、パターンマッチングユニット16に供給される。パターンマッチングユニット16は、種々のパターンマッチングアルゴリズムを実行する。パターンマッチングユニット16は、語彙メモリー17に接続される。語彙メモリー17は、語彙の中に、各単語の時間軸正規化（ＤＴＷ）テンプレート及びマルコフモデルを含む。

【００１８】ＤＴＷテンプレートは、単一経路の時間整合平均化技術又は埋め込みトレーニング技術のいずれかを用いて作ることができる。テンプレートは、周波数と時間及びスペクトルエネルギーとの関係を表す。

【００１９】マルコフモデルは装置のトレーニングの間に同一の単語の多数回の発声から導出され、スペクトル及び時間的な変化は確率モデルにより得られる。マルコフモデルは多数の離散状態からなり、各状態はスペクトルフレームと分散フレームとの対から構成される。スペクトルフレームは、120Hz から４kHz までの周波数範囲をカバーする19個の値を含む。分散フレームは、各スペクトルベクトル／特徴に対応する状態平均期間の形の分散情報及び標準偏差情報を含む。

【００２０】トレーニングの間の個々の発声は、定常音声状態及びそれらのスペクトル遷移を分類するために分析される。モデルパラメータは、M.J.Russel及びR.H.Moore により「自動音声認識のためのヒドンマルコフモデルにおける状態占有の明確なモデル化(Explicit modelling of state occupancy in hidden Marcov Models f or automatic speech recognition) 」(Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Tampa, 1985 年３月26−29日) に記載されたような、ビタビの再評価アルゴリズムを用いる反復処理によって評価される。最終的な単語モデルは、自然に発声された単語の時間的及び音声的の両者の変化を含む。

【００２１】メモリー17とパターンマッチングユニット16との間に、シンタックスユニット 18がある。シンタックスユニット18は、前段で識別された単語のシンタックスに基づいて、音声信号が比較される蓄積語彙に対して通常のシンタックス限定を実行する。

【００２２】パターンマッチングユニット16は、更に神経回路網ユニット20に接続される。神経回路網ユニット20は、例えば、S.M.Peeling 及びR.H.Moore により「多層パーセプトロンを用いる孤立数字の認識の実験(Experiments in isolated digit r ecognition using the multi-layer perceptron) 」(RSRE Memorandum, 第4073 号, 1987年) に記載されたような多層パーセプトロン（ＭＬＰ）を含む。

【００２３】ＭＬＰは、高い背景ノイズが低エネルギーの摩擦音をマスクする場合に発生することがあるような不完全なパターンを認識することができる性質を有する。ＭＬＰは、D.H.Rumelhart 等により「エラー後方伝搬による学習内部表現(Learnin g internal representations by error back propagation)」(Institute for Co gnitive Science, USCD, ICS Report 8506,1985 年９月) に記載された方法によって実行される。

【００２４】パターンマッチングユニット16は、発声された単語と語彙中の単語との間の最良の一致を選択するために三つの異なるアルゴリズムを用いる。

【００２５】その一つは、J.S.Bridleにより「確率モデル及びテンプレートマッチング：自動音声認識のための二つの明らかに異なる技術間におけるいくつかの重要な関係 (Stochastic models and template matching : some important relationships between two apparently different techniques for automatic speech recogni tion) 」(Proc. Inst. of Acoustics, Windemere, 1984年11月）に記載され、及び、J.S.Bridle等により「全体単語テンプレートを用いる連続的に結合された単語の認識(Continuous connected word recognition using whole word template s)」(The Radio and Electronic Engineer, 第53巻，第４号，1983年４月）に記載された種類の非対称ＤＴＷアルゴリズムである。これは、特にリアルタイムの音声認識に適している効率的な単一経路プロセスである。このアルゴリズムは、ユニット15によって実現されるノイズ補償技術と共に効果的に作用する。

【００２６】第２のアルゴリズムは、ヒドンセミマルコフモデル（ＨＳＭＭ）技術を用い、上述の語彙メモリー17に含まれるマルコフモデルと発声された単語の信号とを比較する。発声された単語の時間的及び音声的変化についてのマルコフモデルにおける追加の情報が、パターンマッチングの際の認識性能を向上させる。実際には、ＤＴＷアルゴリズムとＨＳＭＭアルゴリズムとは相互に統合される。統合されたＤＴＷ及びＨＳＭＭ技術は、連続的な音声中の隣接する単語の間の境界を識別することができる。

【００２７】第３のアルゴリズムは、神経回路網20に関するＭＬＰ技術を用いる。ＭＬＰは、ＤＴＷ／ＨＳＭＭアルゴリズムによって制御され、パターンマッチングユニット16内の（図示していない）音声バッファを見る可変ウィンドウを有する。このウィンドウの大きさ及び位置は、ＤＴＷ／ＨＳＭＭアルゴリズムによって決定される。この方法においては、ＨＳＭＭアルゴリズムがＭＬＰにより単語境界又は端点を識別するために用いられ、次に、ＭＬＰによりスペクトル時間セグメント又は単語候補が処理される。

【００２８】各アルゴリズムは、例えば、そのアルゴリズムにより音声に最も近いと識別された語彙メモリー中の単語を確度の尺度と共に表示することにより、音声信号の表現を示す信号を与える。各アルゴリズムにより、それぞれ対応する確度の尺度と共に複数の単語のリストが生成される。ユニット16中のより高いレベルのソフトウェアが、各アルゴリズムによって達成された独立の結果を比較し、何らかの重み付けを行った後、それらの結果に基づいてフィードバック装置３及び応用装置４への出力を生成する。

【００２９】このようにして、本考案の装置により、神経回路網技術を自然の連続的な音声の認識に利用することができるようになる。これは以前には不可能なことであった。本考案の装置の一つの利点は、応答時間を短くすることができ、話者に対して素早くフィードバックできることである。これは、航空機への応用の場合に特に重要である。

【００３０】神経回路網アルゴリズムを全ての単語に対して用いなくてもよい。確度の尺度が所定のレベルを超えている場合は、マルコフアルゴリズムのみが出力を与えるようにしてもよい。難しい単語が発声された場合、又は不明瞭或いは背景ノイズが高く確度の尺度が低下した場合には、装置が神経回路網アルゴリズムに対して独立の意見を求める。

【００３１】上述の諸ユニットによって遂行される諸機能は、１又は複数のコンピュータのプログラミングによって遂行することができ、必ずしも上述のような個別のユニットによって実行する必要はないことは明らかである。

【００３２】

【考案の効果】本考案の装置は多くの用途に適用できるが、例えば機械及び移動手段の制御、特に、固定翼及び回転翼の航空機の制御のような高ノイズの環境で用いるのに特に適している。

【図面の簡単な説明】

【図１】本考案の音声認識装置の実施例を示す図であ
る。

【符号の説明】

１音声認識装置２マイクロホン３フィードバック装置４応用装置１０前置増幅器１１プリエンファシス段１２スイッチ１３アナログディジタル変換器１４ディジタルフィルタバンク１５ノイズマーキングユニット１６パターンマッチングユニット１７語彙メモリー１８シンタックスユニット２０神経回路網ユニット２１アンチアライアシングフィルタ

───────────────────────────────────────────────────── フロントページの続き (72)考案者イアンビッカートンイギリス国グロウセスターシャーシェルテンハムレックハンプトンブリツェンレイン３

Claims

【実用新案登録請求の範囲】

【請求項１】認識可能の単語の語彙に関する音声情報
を含むメモリー(17)、マルコフモデルを用いて異なる単
語の間の境界を識別し且つ音声信号と蓄積された語彙と
を比較して発声された単語の第１表示を与えるための音
声信号の第１分析を実行するパターンマッチングユニッ
ト(16)、及び、パターンマッチングユニット(16)に接続
された神経回路網ユニット(20)を具え、パターンマッチ
ングユニット(16)が、第１分析から得られた単語の境界
の識別及び神経回路網ユニット(20)の出力の両者を用い
て音声信号の第２分析を実行し、少なくとも第２分析か
ら発声された単語を表現する出力信号を与えることを特
徴とする音声認識装置。