JPH08506430A

JPH08506430A - ２経路検索による音声認識方法

Info

Publication number: JPH08506430A
Application number: JP7502266A
Authority: JP
Inventors: グプタ・ウィシュワ・ナス; レニグ・マシュー
Original assignee: ノーザン・テレコム・リミテッド
Priority date: 1993-06-24
Filing date: 1994-05-18
Publication date: 1996-07-09
Anticipated expiration: 2015-06-05
Also published as: JP3049259B2; US5515475A; DE69420842T2; CA2163017A1; EP0705473A1; WO1995000949A1; EP0705473B1; CA2163017C; DE69420842D1

Abstract

(57)【要約】本発明の音声認識方法は、２経路の検索を用い、未知の音声の語彙ワードを認識する。語彙中のワードは連鎖状の異音モデルによって表され、語彙はネットワークとして表される。第１経路の検索において、１状態区間に限定されたモデルを語彙ネットワークの検索に用いる。１状態モデルは、対応する異音モデルに対して、そのモデルの遷移確率として、未知の音声の最大観測遷移確率（モデル距離）を有する。上位の計算値を有するワードは、第１経路の検索により選択され、全ビタビトレリスを用いて、完全な異音モデルおよびモデル距離によって再計算が行われる。再計算結果は少数の上位選択を供給するためにストアされる。第２組の音声パラメータを用いて、これら少数の上位選択がさらに再計算される。各組の音声パラメータを用いて導かれた計算値を比較し、認識となる選択を決定する。また後処理を行い認識の正確さを高めることも可能である。実験結果によれば、２経路検索は全ビタビ法による語彙ネットワークの検索とほぼ同程度の認識の正確さが得られた。

Description

【発明の詳細な説明】発明の名称２経路検索による音声認識方法背景技術音声認識において認識語彙を相互接続されたノード間のネットワークとして表すことはよく知られている。ノードの間の分岐は、ワード、音素または異音（同じ音素に属する異なる音）の一部である。異音モデルは、コンテキスト依存音素モデルである。異音および音素はしばしば隠れマルコフ・モデル（以下ＨＭＭ）によって表される。したがっていかなる語彙ワードも連鎖状のＨＭＭのチェーンとして表すことができる。未知の音声を認識するには、ＨＭＭ鎖の中の状態の最尤シーケンスを計算しなくてはならないが、中型から大型の語彙音声認識システムにとって、これは非常に大きな計算負荷となる。良く知られているビタビ法では、トレリス（棚構造）を確立することによって、語彙ネットワークの蓋然性を計算する。あるトレリスは語彙ネットワーク中の各分岐と関連する。トレリスは、横座標に軸フレーム番号、縦座標にモデル状態を有する。トレリスは、対応する異音モデル中の状態数と同様に多くの関連する状態を有する。例えば、１０の状態を有する異音モデルでは、そのラベルを有する語彙ネットワーク中のあらゆる分岐に関連する１０の状態を有する。各トレリスの１フレームあたりの処理総数は、対応モデル中の全遷移数に比例する。したがって３０の遷移を有する１０の状態の異音モデル中では、ビタビ法に含まれる全処理数は、約５０（３０の遷移を見積もるための和３０と、各状態で最適な遷移を決定するための最大２０との和）となる。この良く知られたビタビ法を用い、所与の音声について語彙ネットワーク全体で最尤経路を見つけることが可能である。しかしビタビ法には２つの問題がある。ひとつは計算が複雑なことである。これは、全語彙ネットワークの全分岐においてあらゆる遷移が計算されるためであり、したがって、ハードウェアのコストは非常に高価になる。計算の複雑さは音声認識のチャネル当たりのコストに影響する。第２に、ビタビ法ではただ一つの選択しか行われず、他の選択を行うにはさらなる計算およびメモリが必要となる。また選択が一つであるため、後処理による修正も限られるために、認識の正確さを高めることも不可能である。そこで１モデル当たり５０もの処理を要する計算の負荷を減らすため、いくつかの提言がなされている。Bahl他（出典：１９８９年、A Fast Approximate Aco ustic Match for Large Vocabulary Speech Recognition、Proceedings of Euro speech 89：European Conference on Speech Communication and Technology、P aris、１５６〜１５８頁）によれば、各ＨＭＭモデルにつき１つの遷移確率を用いて（すなわち最尤遷移を選択して）、各遷移毎に計算を追加する。したがって、３つのトレリス遷移における異なった対数観測確率を加えた後に最大をとるのではなく、初めに３つのトレリス値全体の最大をとった後に対数観測確率が加られる。これにより各遷移につき５を要した計算が３へ、あるいは１０の状態のモデルにおいては５０を要していた計算が３０へ減少する。しかし計算は減少するが、許容された遅延の後の応答が不十分である。 Bahl他のもう一つの提案（出典：１９９２年、Constructing Candidate Word Lists Using Acoustically Similar Word Groups、IEEE Transactions on Signa l Processing、第４０巻、１１、２８１４〜２８１６頁）においても計算負荷を減らす試みがなされている。この方法では、より複素トポロジを用いないで、３状態モデルを用いて初めにビタビ法で計算を行い、その後複素トポロジで再計算を行う。しかし、この方法では実際には計算負荷が増えることがある。例えば、新たに編成された３状態が、複素トポロジと同様の内容を有すれば、同数の対数観測確率の計算が２回行われることになる。すなわち３状態モデルに１回、複素トポロジに１回である。同様に２セットのモデルをストアする全必要メモリも増加する。最尤経路を探索し、それにより未知の音声の語葉ワードを一致させるのに要する時間は音声認識システムの認識の遅れとなる。許容遅延内で低コストのハードウェア計算プラットホームを使用して応答するには、より簡素な認識方法が必要となる。このような方法は計算負荷を減少させるはずであり、結果として時間の遅れは、認識の正確さを損なうことなく先行技術にくらべて大幅に改善される。発明の概要本発明の目的は、音声認識方法の改善にある。本発明の一見地によれば本発明の音声認識方法は、第１組の異音モデルを第１型の音声パラメータベクトルと共に用いるために供給し；第２組の異音モデルを第２型の音声パラメータベクトルと共に用いるために供給し；認識語彙を表すネットワークを供給し、そこで、ネットワークの各分岐は異音モデルの１つであり、ネットワークを通じる各全経路は認識語葉中のワードを表わすモデルのシーケンスであり；第１および第２型の各音声パラメータベクトルに対して音声パラメータベクトルのフレームシーケンスを生成するために未知の音声を分析し；ネットワークの全経路で最尤経路を決定するために減少トレリスを供給し；第１型の音声パラメータベクトルの各フレームのモデル距離を第１組の全ての異音モデルについて計算し；第１組の各モデルの最大モデル距離を算出し;各異音モデルは２フレームの最小区間を有する１状態モデルであり、および遷移確率がその最大モデル距離に等しいと仮定して、全てのフレームについて減少トレリスを更新し;語彙ネットワークを通じて各経路のトレリスから最終値を検索し;最も高い最終値を有する第１の複数の認識候補を選択し；語彙ネットワークに対応する完全なビタビ法のトレリス（棚）を用いて第１組の異音モデルに対して算出されたモデル距離でこの第１の複数候補の再計算を行い；計算値が大きい順に候補を検索し；第１の複数候補から第１の候補よりも少ない数の第２の複数候補を選択して、さらに第２組の異音モデルおよび第２型の音声パラメータベクトルを用いて再計算し；第２型の音声パラメータベクトルのモデル距離計算に対するフレームを認識するために第１型の音声パラメータベクトルを用いて異音セグメンテーションを検索し；第２の複数候補中に検索される第２組の異音モデルに対して認識される第２型の音声パラメータベクトルのフレームのモデル距離を計算し；ビタビ法を用いて第２組の異音モデルに対し計算されたモデル距離で第２の複数候補を再計算し；第１および第２型の音声パラメータベクトルに対する第２の複数候補の計算値を比較して認識候補を選択するステップを含む。本発明の他の見地によれば、本発明の音声認識方法は、第１組の異音モデルをケプストラムパラメータベクトルと共に用いるために供給し;第２組の異音モデルをＬＳＰパラメータベクトルと共に用いるために供給し；認識語彙を表すネットワークを供給し、そこで、ネットワークの各分岐は異音モデルの１つであり、ネットワークを通じる各全経路は認識語彙中のワードを表わすモデルのシーケンスであり；ネットワークの全経路で最尤経路を決定するために減少トレリスを供給し；ケプストラムおよびＬＳＰパラメータベクトルのフレームシーケンスを生成するために未知の音声を分析し；全てのケプストラム異音モデルに対してフレーム毎にケプストラムモデル距離を計算し；各モデルに対して最大モデル距離を算出し；２フレームの最小区間を有する１状態モデルおよび遷移確率がその最大モデル距離に等しいと仮定して、全てのフレームについて減少トレリスを更新し；減少トレリスに対して各語彙ネットワーク経路の最終値を検索し；上位ｎの値を選択しｎの認識候補を供給し；完全なビタビ法のトレリスを用いて、算出されたモデル距離で上位ｎの候補を再計算し；計算値が大きい順に候補を検索し；ＬＳＰパラメータベクトルを用いて、さらに再計算を行うために上位ｍ（ｍ＜ｎ）を選択し；ＬＳＰパラメータに対しモデル距離の計算に必要なフレームを認識するため、ケプストラムパラメータを用いて異音セグメンテーションを探索し；認識されたフレームおよびｍ候補中で検索されたＬＳＰモデルに対してＬＳＰモデル距離を計算し；ビタビ法を用いて算出されたＬＳＰモデル距離でｍの候補を再計算し；ケプストラムおよびＬＳＰパラメータに対して上位ｍの候補の計算値を比較して認識候補を選択するステッブを含む。本発明によれば、２経路検索が用いられる。第１の経路は減少１状態モデルを用い、その遷移確率は対応の異音モデルの観測確率に対して算出された最大値に割り当てられる。この減少モデルとそれに対応する異音モデルの間には１対１の関係がある。この減少された１状態モデルの最小区間は数フレームに限定される。便宜的には、２あるいは３フレームの最小区間が用いられる。本発明の利点は、低コスト処理ハードウェアを用いて認識の正確さを損なうことなく認識方法の煩雑さを簡素化したことにある。図面の簡単な説明本発明を、図面を参照しながら以下に説明する。図１ａおよび１ｂは本発明の実施の形態の語彙ネットワーク部を示す図である。図２は本発明の実施の形態の異音を表わす４状態の隠れマルコフモデル（ＨＭＭ）を示す図である。図３は本発明の実施の形態の音声認識方法を示すチャート図である。図４は図３の減少トレリスを視覚的に示す図である。図５はケプストラムパラメータからの異音セグメンテーションおよび図３のＬＳＰモデル距離の算出に使用されるフレームを視覚的に示す図である。図６は本発明の実施の形態の音声認識方法による典型的な音声認識装置を示すブロック図である。実施の形態図１ａおよび１ｂは本発明の実施の形態の語彙ネットワーク部を示す図である。図１ａにおいて各経路１０、１２、および１４は、エントリノード１６より始まる。経路１０の分岐１８はノード１６からノード２０で異音ｒを表し、分岐２２はノード２０からノード２４で異音ａを表し、分岐２６はノード２４からノード２８で異音ｂを表し、分岐３０はノード２８からノード３２で異音ｉを表し、分岐３４はノード３２から終了ノード３６で異音ｄを表す。同様に経路１２は、分岐３８、ノード４０、分岐４２、ノード４４、分岐４６、ノード４８、分岐５０および出口ノード５２からなり、経路１４は、分岐５４、ノード５６、分岐５８、ノード６０、分岐６２、ノード６４、分岐６６、および出口ノード６８からなる。語彙ネットワークは、図１ａで示されるように、一般に木構造を有する。しかし「ｒｅｃｏｒｄ」という語の２つの異音の転写を表す図１ｂが示すように２つの枝が再び合流する経路を有してもよい。「ｒｅｃｏｒｄ」の転写は、エントリノード６８、分岐７０、ノードの７２、分岐７４、ノード７６、分岐７８、ノード８０、分岐８２、ノード８４、分岐８６、ノード８８、分岐９０、出口ノード９２、および分岐６８、ノード７０、分岐９６、ノード９８、分岐１００、ノード１０２、分岐１０４、ノード８８、分岐９０、出口ノード９２からなる。語彙ネットワークの各分岐は、隠れマルコフモデルによって表される。図２は本発明の実施の形態による異音を表す４状態の隠れマルコフモデル（ＨＨＭ）を示す。４状態のＨＭＭは第１、第２、第３、第４状態を含み、それぞれ１１０、１１２、１１４、１１６で示されている。ある状態からの遷移には大方３形式がある。すなわち、それ自身への遷移、次状態への遷移、そして一つ飛び遷移である。第１状態１１０においては、それ自身への遷移は遷移１１８、次状態への遷移は遷移１２０、一つ飛び遷移は遷移１２２で示される。同様に、第２状態１１２においては、それ自身への遷移は遷移１２４、次状態への遷移は遷移１２６、一つ飛び遷移は遷移１２８で示される。第４状態１１６は出口状態であるので、第３状態は一つ飛び状態を有さない。したがって、第３状態１１４は、それ自身への遷移は遷移１３０、次状態への遷移は遷移１３２を有する。第４状態は出口状態であるので、モデル間遷移１３６を有するのみである。同様に第１状態は開始状態であるのでモデル間遷移１３８を有する。これらモデル間遷移１３６、１３８により複数のモデルが語彙ワードを表わす一つのチェーンへ収斂する。図３は本発明の実施の形態の音声認識方法を示すチャート図である。このチャートは２つのタイムフレーム中に行われるステップおよび動作を示す。すなわち第１のタイムフレームは入力音声に関してリアルタイムであり、「Ａ）フレーム同期」と表される。第２のタイムフレームは音声受信に続く処理時間であって「Ｂ）認識遅延」と表される。Ａ）部には７ステップが含まれる。ステップ１）エンドポインタを用いてワードおよびフレーズの始めを認識し、減少トレリスを初期化することによりフレーム同期検索方法を開始する。ステップ２）ケプストラムモデル距離を全ての異音モデルについてフレーム毎に計算する。ステップ３）各モデルの最大モデル距離を検索する（例えば、１３０のモデルにおいて１３０の最大値が検索される）。ステップ４）２フレームの最小区間を有する１状態モデルを仮定し、各フレームについて減少トレリスを更新する。このモデルの遷移確率は、ステップ３で計算された最大モデル距離に一致する。ステップ５）エンドポインタを用いて音声の終了を認識し減少トレリスの更新を終える。ステップ６）各語彙ネットワーク経路の最終値を減少トレリスに対して検索卜する。ステッブ７）上位ｎ値を選択し認識のためｎの候補を供給する。例えば、このｎの典型的な値は３０である。このようにして本発明の音声認識のフレーム同期検索部が完了する。Ｂ）部には７つのステップ（ステップ８〜１４）が含まれ、さらに認識の正確さを高めるために、あるいはそれ以上の追加ステップ（ステップ１５によって表される）が含まれることもある。ステップ８）ビタビ法を用いてステップ２）で計算されたモデル距離で上位ｎ候補を再計算する。フレーム同期処理であらゆる語彙ワードの認識候補数がｎの候補へ減らされたので、計算的な複素ビタビ法が能率的に使用され、これら各々のｎ候補をステップ２）で算出されたモデル距離の完全なセットを用いて再計算することが可能となる。ステップ９）計算値の大きい順に候補を検索する。ステップ１０）例えば、ＬＳＰパラメータなどの交互のパラメータを使用してさらに再計算を行うため上位ｍの候補を選択する。このようなｍの典型的な値は３である。ステップ１１）ケプストラムパラメータを使用して異音セグメンテーションを探索する。これらのセグメント境界は、ステップ１２のモデル距離計算に必要なフレームを限定するために使用される。モデル距離の計算による負荷のため、ステップ１１で認識されたフレームおよびステップ１０で認識された候補を限定しない限り、代替パラメータの使用によって許容できない遅延がおこる。ステップ１２）ｍ候補についてＬＳＰモデル距離を計算する。例えば、図５において上部の括弧はケプストラムを用いて生成されたセグメンテーションを示し、下部の括弧はＬＳＰモデル距離の計算に必要なフレームを示す。ステップ１３）ステップ１２で計算されたＬＳＰモデル距離を用いてビタビ法によってｍ候補を再計算する。セグメント境界は、ステップ１１）で得られたセグメント境界のうち２３０ミリセカンド（１８フレーム）以内に制限される。ステップ1４）ケプストラムおよびＬＳＰパラメータに対して上位ｍ候補の計算値を比較する。またステップ１４）好ましくは、各々の候補についてケプストラムおよびＬＳＰパラメータより結果として得られる確率を乗算してもよい。例えば、ｍ＝３のとき： (P1Cep)×(P1LSP)=P1Combined｝ (P2Cep)×(P2LSP)=P2Combined｝ (P3Cep)×(P3LSP)=P3Combined｝のうち、もっとも大きな確率組み合わせを有するワードを選択をする。ステップ１５）追加オプションの後処理であり、選択の正確さを高めるものである。ここで唯一２、３の候補が残っているだけなので、計算負荷の実質的な追加をすることなく、さらにオプション後処理が認識方法に含まれてもよい。したがって認識の遅れの実質的増加となることもない。例えば、オプション後処理として異音の区間を制限し認識の正確さを高めることが挙げられる。以上の実施の形態では、２フレーム最小区間の１状態モデルをフレーム同期検索に用いた。表Ａは、最小区間を２〜３とし、４３２１語のテストを行った場合の正しい選択の包含率を示す。表Ｂは、４３２１語のテストで上位ｎ候補をビタビ法を用いて再計算した後の認識の正確さを示す。表Ａから明らかなように、正しい選択の包含率は２フレームよりも３フレームの最小区間において高くなる。しかし表Ｂから明らかなように、ビタビ法を使用して上位ｎの候補を再計算した後では、双方の認識の正確さはほとんど同一である。よって、２フレーム認識装置の方が少ない計算ですむために好ましい。もし再計算法のパフォーマンスがビタビ法よりも優れるならば、３フレーム区間の高包含率のメリットによって、３フレー区間に高い計算負荷を課すことが望ましい。図４は図３のステップ３に示された減少トレリスを視覚的に示す図である。減少トレリスを生成するには、２フレームの区間を有する１状態モデルを用いる。一例として、「ｆｏｒ」という語の異音の転写が垂直にプロットされている。各々の異音は軸上の２点に割り当てられる。各々の異音モデルに用いられる遷移確率は、実際のモデル距離計算の間に得られた最大値である。したがって、減少トレリスのための１状態モデルではモデル距離の追加計算が不要となり、各モデルについて計算されたこれら距離の最大値を決定するだけである。これらモデル距離は第２経路で使用するためにストアされる。トレリスの初期条件がセットされ、各フレーム毎に、最大遷移確率を語彙ネットワークの各分岐中の各遷移に対して加えることによって、トレリスが更新される。簡単な例として「ｆｏｒ」という語彙ワードの異音の転写を考える。初期状態を設定するために、語彙ネットワークにおいて、確率「月を無音モデル（｛）の初期状態１５０およびモデル（ｆ）の初期状態１５４に割り当て、確率「０」を他の全てのトレリス縦軸１５６〜１６８に割り当てる。語彙ネットワーク中の各分岐（異音モデル）について３動作、すなわち乗算２回、比較１回を実行し、トレリスを更新する。したがってトレリス更新のステップは、転写の各異音について初期確率と最大遷移確率を乗算することからなる。例では、遷移１７０、１７２で乗算一つとして最大遷移確率（p{）が初期値「１」にかけられる。遷移１７４で確率（p{）は初期値「０」にかけられる。これら遷移の１７０、１７２、１７４によってそれぞれ３つの新状態１７６、１７８、１８０が生ずる。比較は次の異音の初期状態を表わす状態で行われ、本例では状態１８０である。遷移１７４から得られた状態１８０での確率値は、異音（ｆ）の初期状態１５４から得られた遷移１８２得られる値と比較される。これらのうちどちらか大きい確率値を有する方が状態１８０に保持され、次回のトレリス更新の反復に用いられる。無音モデル（｛）の場合のように（ｆ）モデルの遷移が計算される。遷移１８２、１８４のそれぞれにおいて、状態１５４の初期値「１」と異音（ｆ）の最大遷移確率（ｐｆ）の乗算が行われる。遷移１８６で状態１５６の初期値「０」と異音（ｆ）の最大遷移確率（ｐｆ）の乗算が行われる。これら遷移１８２、１８４、１８６によってそれぞれ３つの新状態１８０、１８８、１９０が生ずる。同様に新状態１９２〜２０２についても計算が行われる。各トレリス更新のサイクルは、状態１７６〜２０２の値を状態１５０〜１６９に複写して完結する。その後に次フレームの処理が開始される。初期状態１５０および１５４の初期確率１はワード「ｆｏｒ」が最初の無音あるいは息継ぎを含むことを示している。同様に、状態１６４から２０２への遷移２０４は、最後の無音あるいは息継ぎが選択的に存在することを示している。状態２０２において、現在フレームの最尤値が保持される。これら記述によれば、遷移確率は「０」と「１」の間に位置し、トレリス更新の新しい値は現在値と次への遷移確率を乗算することにより得られる。しかし音声認識技術の通例では、典型的には遷移確率は対数演算によって表されるので、確率の乗算は計算が簡単な加算によって行われる。モデル距離の計算は複雑な作業であり、それゆえに計算機に大きな負荷がかかる。ＬＳＰモデル距離を音声認識方法の「認識遅延」の部分で許容を越えて遅延を増加させないで計算するには、計算に必要なフレーム数を制限しなくてはならない。ケプストラムパラメータを用いて異音セグメンテーションを検索するステップおよびＬＳＰモデル距離を計算するステップを図５を参照して説明する。一例として、語彙ワード「ｆｏｒ」の異音転写が図５に視覚的に示されている。横軸は音声のフレームを表す。ケプストラムパラメータの異音セグメントは、縦線２１０、２１２、２１４および２１６によって示され、異音のセグメンテーションｆ、ｏ、ｒは括弧２１８、２２０、２２２によってそれぞれ表される。これは図３のステップ１１に対応する。図５の例においては、モデル距離が計算されることとなる異音のフレームは、ケプストラムパラメータを用いて決定されたセグメント境界の１８フレーム（２３０ミリセカンド）以内に制限される。したがって、ＬＳＰモデル距離の計算を異音f、ｏ、ｒについて行うとき、それらの計算はそれぞれ括弧２２４、２２６、２２８によって示されるフレームで実行される。図６は本発明の音声認識方法を用いるために構成された典型的な音声認識装置を示すブロック図である。音声認識装置は音声入力２９０、ケプストラムおよびＬＳＰパラメータ各解析器２９２、２９４を有し、各パラメータの出力２９６、２９８を入力データバッファ３０２入力する。入力データバッファは、データバス３０４に接続される。また、このデータバスに接続されるのは、処理装置３０６、認識データテーブル記憶装置３０８、中間結果記憶装置３１０、および出力３１４を有する認識結果出力ブロック３１２である。動作を説明すると、入力２９０に印加された音声はケプストラム分析器２９２およびＬＳＰ分析器２９４で分析され、ケプストラムおよびＬＳＰパラメータベクトル出力を、それぞれ２９６、２９８を介して１２．７５ミリセカンド毎に入力データバッファ３０２に対して生成する。フレーム同期計算のため、処理装置３０６は、音声データのフレーム毎に認識データテーブル記憶装置３０８にストアされたすべてのケプストラム異音モデルについてモデル距離を計算する。計算されたモデル距離は中間結果記憶装置３１０にストアされ、後にビタビ法において上位ｎの選択を再計算する際に使用される。トレリスは中間結果記憶装置３１０で形成され、フレーム毎に更新される。第１回目のバスで上位ｎが決定されると、音声認識方法の「認識遅延」部分が始まる。ストアされたケプストラムモデル距離は、ビタビ法によって使用され、中間結果記憶装置３１０にストアされた命令リストによって、上位ｎの選択を再計算する。上位ｎの選択はさらにビタビ法を用いて再計算される。その後、上位ｍの選択は入力データバッファ３０２からのＬＳＰパラメータを使用して再計算される。ＬＳＰモデル距離は、処理装置３０６によって上位ｍの選択で検索されたＬＳＰ異音モデルに対して計算され、その際に認識データテーブル記憶装置３０８にストアされたモデル距離が使用される。各異音モデルに対しては、ケプストラムセグメンテーションにより供給されるフレームのみが使用される。算出されたモデル距離は中間結果記憶装置３１０にストアされ、上位ｍの選択を再計算するためにビタビ法で使用される。ケプストラムおよびＬＳＰの上位ｍの選択の比較を行い、認識結果出力ブロック３１２にその認識結果をストアする。その結果は出力３１４を介し、「認識」としてアプリケーションに送られる。上に述べたように、さらに後処理を行い認識の正確さを高める。図６の音声認識装置のハードウェアは、テキサスインスツルメンツ社のマイクロプロセッサＴＭＳ３２０Ｃ３１を６つ用いて処理装置３０６を構成し、入力データバッファ３０２、認識データテーブル記憶装置３０８および中間結果記憶装置３１０を構成するために約１６メガバイトのメモリが使用されている。上に述べた本発明の実施の形態について、請求項において定義された本発明の主旨から逸れることなく様々な変更、バリエーション、適用を加えることが可能である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者レニグ・マシューカナダ国，エイチ３ゼット１ジェイ１, ケベック，ウェストマウント，ウィンチェスターアベニュー２

Claims

【特許請求の範囲】１．第１組の異音モデルを第１型の音声パラメータベクトルと共に用いるために供給し；第２組の異音モデルを第２型の音声パラメータベクトルと共に用いるために供給し；認識語彙を表すネットワークを供給し、そこで、ネットワークの各分岐は異音モデルの１つであり、ネットワークを通じる各全経路は認識語葉中のワードを表わすモデルのシーケンスであり；第１および第２型の各音声パラメータベクトルに対して音声パラメータベクトルのフレームシーケンスを生成するために未知の音声を分析し；ネットワークの全経路で最尤経路を決定するために減少トレリスを供給し；第１型の音声パラメータベクトルの各フレームのモデル距離を第１組の全ての異音モデルについて計算し；第１組の各モデルの最大モデル距離を算出し；各異音モデルは２フレームの最小区間を有する１状態モデルであり、および遷移確率がその最大モデル距離に等しいと仮定して、全てのフレームについて減少トレリスを更新し；語彙ネットワークを通じて各経路のトレリスから最終値を検索し；最も高い最終値を有する第１の複数の認識候補を選択し；語彙ネットワークに対応する完全なビタビ法のトレリス（棚）を用いて第１組の異音モデルに対して算出されたモデル距離でこの第１の複数候補の再計算を行い；計算値が大きい順に候補を検索し；第１の複数候補から第１の候補よりも少ない数の第２の複数候補を選択して、さらに第２組の異音モデルおよび第２型の音声パラメータベクトルを用いて再計算し；第２型の音声パラメータベクトルのモデル距離計算に対するフレームを認識するために第１型の音声パラメータベクトルを用いて異音セグメンテーションを検索し；第２の複数候補中に検索される第２組の異音モデルに対して認識される第２型の音声パラメータベクトルのフレームのモデル距離を計算し；ビタビ法を用いて第２組の異音モデルに対し計算されたモデル距離で第２の複数候補を再計算し；第１および第２型の音声パラメータベクトルに対する第２の複数候補の計算値を比較して認識候補を選択するステップを含むことを特徴とする音声認識方法。２．請求項１の音声認識方法において；第１型の音声パラメータベクトルは、ケプストラムパラメータベクトルを含むことを特徴とする音声認識方法。３．請求項２の音声認識方法において：第２型の音声パラメータベクトルは、ＬＳＰパラメータベクトルを含むことを特徴とする音声認識方法。４．請求項１の音声認識方法において：さらにエンドポインタを用いて減少トレリスを供給するステッブの前に、ワードおよびフレーズの始めを認識し；エンドポインタを用いて音声の終了を認識し、減少トレリスの更新を止めることを特徴とする音声認識方法。５．第１組の異音モデルをケプストラムパラメータベクトルと共に用いるために供給し；第２組の異音モデルをＬＳＰパラメータベクトルと共に用いるために供給し；認識語彙を表すネットワークを供給し、そこで、ネットワークの各分岐は異音モデルの１つであり、ネットワークを通じる各全経路は認識語彙中のワードを表わすモデルのシーケンスであり；ネットワークの全経路で最尤経路を決定するために減少トレリスを供給し；ケプストラムおよびＬＳＰパラメータベクトルのフレームシーケンスを生成するために未知の音声を分析し；全てのケプストラム異音モデルに対してフレーム毎にケプストラムモデル距離を計算し；各モデルに対して最大モデル距離を算出し；２フレームの最小区間を有する1状態モデルおよび遷移確率がその最大モデル距離に等しいと仮定して、全てのフレームについて減少トレリスを更新し；減少トレリスに対して各語彙ネットワーク経路の最終値を検索し；上位ｎの値を選択しｎの認識候補を供給し；完全なビタビ法のトレリスを用いて、算出されたモデル距離で上位ｎの候補を再計算し；計算値が大きい順に候補を検索し；ＬＳＰパラメータベクトルを用いて、さらに再計算を行うために上位ｍ（ｍ＜ｎ）を選択し；ＬＳＰパラメータに対しモデル距離の計算に必要なフレームを認識するため、ケプストラムパラメータを用いて異音セグメンテーションを探索し；認識されたフレームおよびｍ候補中で検索されたＬＳＰモデルに対してＬＳＰモデル距離を計算し；ビタビ法を用いて算出されたＬＳＰモデル距離でｍの候補を再計算し；ケプストラムおよびＬＳＰパラメータに対して上位ｍの候補の計算値を比較して認識候補を選択するステップを含むことを特徴とする音声認識方法。６．請求項５の音声認識方法において：さらにエンドポインタを用いて減少トレリスを供給するステップの前に、ワードおよびフレーズの始めを認識し；エンドポインタを用いて音声の終了を認識し、減少トレリスの更新を止めることを特徴とする音声認識方法。７．請求項６の音声認識方法において：上位ｍの候補を比較するステップは、各々の候補に対してケプストラムおよびＬＳＰパラメータから得られる確率を共に乗算し、最も高い組み合わせ確率を有する候補を認識候補として選択するステップを含むことを特徴とする音声認識方法。８．請求項７の音声認識方法において：ケプストラムパラメータを用いて検索されるセグメント境界の１８フレーム以内にフレームが制限されることを特徴とする音声認識方法。