JP3568785B2

JP3568785B2 - 音声認識方法

Info

Publication number: JP3568785B2
Application number: JP21318498A
Authority: JP
Inventors: ランガスワミーセトラーアナンド; アントゥーンサッカーラフィド
Original assignee: ルーセントテクノロジーズインコーポレーテッド
Priority date: 1997-07-31
Filing date: 1998-07-28
Publication date: 2004-09-22
Anticipated expiration: 2018-07-28
Also published as: CA2238642C; USRE38649E1; KR100512662B1; CA2238642A1; EP0895224A3; US5956675A; EP0895224B1; JPH1195791A; DE69827202T2; KR19990014292A; DE69827202D1; EP0895224A2

Description

【０００１】
【発明の属する技術分野】
本発明は自動音声認識方法及び装置に関する。更に詳細には、本発明は連接されたワード（語）の認識速度を高める方法及び装置に関する。
【０００２】
【従来の技術】
様々な自動音声認識方法や装置が存在し、広く知られている。動的計画法（ｄｙｎａｍｉｃｐｒｏｇｒａｍｉｎｇ）及び隠れマルコフ・モデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を使用する方法は、Ｆｒａｍｅ−ＳｙｎｃｈｒｏｎｏｕｓＮｅｔｗｏｒｋＳｅａｒｃｈＡｌｇｏｒｉｔｈｍｆｏｒＣｏｎｎｅｃｔｅｄＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎｂｙＣｈｉｎ−ＨｕｉＬｅｅａｎｄＬａｗｒｅｎｃｅＲ．ＲａｂｉｎｅｒｐｕｂｌｉｓｈｅｄｉｎｔｈｅＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＶｏｌ．３７，Ｎｏ．１１，Ｎｏｖｅｍｂｅｒ１９８９などの文献に記載され公知である。Ｌｅｅ−Ｒａｂｉｎｅｒの前掲書は１９８９年における連接ワード（ｃｏｎｎｅｃｔｅｄｗｏｒｄ）の自動音声認識に関する方法とシステムの状態の全体像について優れた知見を与える。
【０００３】
１９９６年１０月発行のＩＣＳＬＰ会報に掲載されたＥ．Ｂｕｈｒｋｅ，Ｗ．Ｃｈｏｕ及びＱ．Ｚｈｏｕらの“ＡＷａｖｅＤｅｃｏｄｅｒｆｏｒＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”という表題の論文には、音声認識性能とハードウエア要件を改善するためのビームサーチ法と呼ばれる技法が記載されている。Ｂｕｈｒｋｅらの論文には、最良優先探索戦略（ｂｅｓｔ−ｆｉｒｓｔｓｅａｒｃｈｉｎｇｓｔｒａｔｅｇｙ）とその技術について説明したＤ．Ｂ．Ｐａｕｌの“ＡｎＥｆｆｉｃｉｅｎｔＡ^＊ＳｔａｃｋＤｅｃｏｄｅｒ．．．”という表題の論文についても言及している。
【０００４】
前掲論文に説明されるような音声認識は、ワード（Ｗ_１−Ｗ_ｎ）の最良（すなわち、最尤スコア）シーケンスをサーチ（探索）することからなる。ワード最良シーケンスは入力音声発声に対応する。音声認識に使用されている有力なサーチアルゴリズムは動的ビタビ（Ｖｉｔｅｒｂｉ）デコーダである。このデコーダは、その処理系の能率がよい。発声に対応する最良ワードシーケンスを発見するための可能性のある全てのワードの完全サーチは依然として規模が大きすぎるし、時間がかかりすぎる。
【０００５】
サーチ規模とサーチ時間の問題に取り組むために、ビームサーチ法がしばしば実行されてきた。ビームサーチ法では、有望な（すなわち、現在の最良スコアから規定された数学的距離内のもの）ワードシーケンス仮体（ｗｏｒｄｓｅｑｕｅｎｃｅｈｙｐｏｔｈｅｓｅｓ）を保持し、拡張する。非有望な仮体はこのサーチから“剪定（ｐｒｕｎ）”されるか又は取除かれる。この非有望なワードシーケンス仮体の剪定は、サーチ規模の縮小及びサーチに必要な時間の短縮には効果的であり、構築されるべき音声認識システムの実際的な処理を可能にする。
【０００６】
認識されるべき発声の開始時点で、所定の文法に基づくシーケンスを開始するための有効なワードである発声ワードだけを起動させることができる。各タイムフレームにおいて、ビタビアルゴリズムを使用する動的計画法はワードネットワークのアクティブ部分により行われる。ビームサーチ戦略が使用される間中、ワードネットワークのアクティブ部分は変化する。非有望なワードシーケンスは剪定され、一層有望なワードシーケンスは所定の文法で特定されるように拡張され、そしてワードネットワークのアクティブ部分に包含されるようになる。
【０００７】
各タイムフレームにおいて、この音声認識システムは、復号化ツリー上の各ノードにリンクされる全ての存続可能なワードシーケンスをコンパイルする。この復号化ツリーは、そのノードと共に、タイムフレーム毎に更新される。もはやアクティブでなくなったノードは除去され、新たなノードが、新たにアクティブになったワードに付加される。従って、復号化ツリーは、リンク化されたリストを使用するビームサーチアルゴリズムにより剪定されない存続可能なワードシーケンスを保持する。
【０００８】
復号化ツリーの各ノードは一ワードに対応し、ワードエンドタイム、ワードシーケンスの先行ワードノードに対するポインタ及び格納されたワードシーケンスの累積スコアなどのような情報を有する。発声の終了時点で、最高累積スコアを有するワードノードを、復号化ツリー内のポインタエントリ列に逆走査される。この逆走査は音声認識において一般的に、“バックトラッキング（後戻り）”として知られている。
【０００９】
自動音声認識の従来の方法及びシステムの共通の欠点は、会話された発声の終点を検出するためにエネルギー検出器を使用することである。エネルギー検出は、信号処理における周知の方法と発声の開始と終了を検出する関連フィールドを与える。音声認識方法２００に基づくエネルギー検出を図２に示す。音声認識方法２００は、音声認識用のタイムフレーム内で電話回線を介して受信されるような入力信号をデジタル化するために、バックグラウンドタイムフレーム化装置（図示されていない）を使用する。
【００１０】
タイムフレームはステップ２０２で分析され、フレームが音声処理を開始するのに十分なほど有意であるエネルギーを有するか否か決定する。フレームが考慮するほど十分なエネルギーを有しない場合、ステップ２０２は次のフレームについて繰り返される。一方、考慮するほど十分なエネルギーが存在する場合、音声認識方法２００はステップ２０４〜ステップ２１０に進む。これらのステップは代表的な音声認識ステップである。
【００１１】
次に、ステップ２２０において、音声認識処理を開始するフレームをチェックし、受信エネルギー及びシステムが、同時に発生した聴覚プロンプトを鳴らしたか否か決定する。答えが“ＹＥＳ”である場合、バージ・イン（ｂａｒｇｅ−ｉｎ）状態が発生し、発声の音声処理のその他については、ステップ２２２で聴覚プロンプトが停止される。
【００１２】
次いで、ステップ２２０における否定的決定又はステップ２２２におけるプロンプト停止の何れかから、ステップ２２４において、有意なエネルギー無しにギャップタイムが発生したか否か決定する。このようなギャップタイムは現在の発声の終点を示す。
【００１３】
ギャップタイムが発生していない場合、これは、分析すべき音声が更に存在することを意味し、音声認識処理はステップ２０４へ戻る。さもなければ、即ち発生している場合、エネルギーを伴わないギャップタイムは現在の発声の終了と解釈され、発声に対応する最も有望なワードシーケンスを発見するために、“バックトラッキング”を開始する。
【００１４】
生憎、このギャップタイムは、一般的に、１秒から１．５秒の範囲内の時間遅延に等しい。個人的な起呼者の場合、この遅延は殆ど問題にならないが、電話サービスプロバイダーの場合、自動コレクトプレーシングサービスに対するような、１日当たり数千コールについて、１秒〜１．５秒を合計することができる。６０００コールの場合、音声認識システムを使用中に、１．５秒は総計で２．５時間の遅延になる。
【００１５】
多量に使用されるシステムの場合、この１秒〜１．５秒の遅延は、電話サービスプロバイダーに多数の音声認識装置を購入させるか、若しくは、料金請求可能な電話サービスの膨大な損失を被らせる。更に、エネルギーギャップタイムに基づいて発声終了の決定が行われるまで、最も有望なワードシーケンスを発見するためのバックトラッキングが開始されないので、並列処理及び／又はパイプライン処理のための部分的ワードシーケンスの使用は不可能である。
【００１６】
【発明が解決しようとする課題】
従って、本発明の目的は、時間遅延の生じない新規な音声認識方法及び装置を提供することである。
【００１７】
【課題を解決するための手段】
前記課題は、音声発声が開始されたか否か決定するステップを有し、発声が開始されていない場合、次のフレームを取得し、そして、この音声発声開始決定ステップを再実行するステップを有する方法により解決される。
【００１８】
発声（ｕｔｔｅｒａｎｃｅ）を開始した場合、次のステップにおいて、次の時点のフレーム期間を示す音声発声の音声フレームを取得する。次いで、音声認識で使用される音声フレームから特徴（ｆｅａｔｕｒｅ）を抽出する。次のステップにおいて、動的計画法を実行し、音声認識ネットワークを構築し、次いで、この音声認識ネットワークを用いてビームサーチ（ｂｅａｍｓｅａｒｃｈ）を実行する。次のステップにおいて、ビームサーチ後に、音声発声の復号化ツリーを更新する。
【００１９】
次のステップにおいて、音声発声の最初のワードが受信されたか否か決定し、受信された場合、聴覚プロンプトを機能停止させ、次のステップを継続するか、さもなければ、即ち最初のワードの受信が決定されない場合、次のステップを継続する。この次のステップでは、Ｎ個のワードが受信されたか否か決定し、Ｎ個のワードが受信されない場合、次のフレームの取得ステップへ戻るか、さもなければ、即ち受信された場合、次のステップを継続する。
【００２０】
Ｎは、音声発声の終点を示す音声発声の最大ワードカウント数なので、この次のステップでは、受信音声発声に対応する最大有望度を有するワードストリングを取得するために、最大有望度スコア（ｇｒｅａｔｅｓｔｌｉｋｅｌｙｈｏｏｄｓｃｏｒｅ）を有するビームサーチパスを介してバックトラッキングする。ストリングが決定された後、次のステップで、ワードストリングを出力する。
【００２１】
また、前記課題は、本発明の音声発声の音声認識システムによっても解決される。本発明の音声認識システムは、（１）音声発声が開始されたか否か決定する手段と、（２）前記音声発声開始決定手段に応答して、次の時点のフレーム期間を示す音声発声の音声フレームを取得する手段と、（３）前記音声フレームから特徴を抽出する手段と、（４）動的計画法を用いて音声認識ネットワークを構築する手段と、（５）音声認識ネットワークを用いてビームサーチを実行する手段と、（６）ビームサーチ後に、音声発声の復号化ツリーを更新する手段と、（７）音声発声の最初のワードが受信されたか否か決定し、受信された場合、聴覚プロンプトを機能停止させる手段と、（８）音声発声の更なる音声認識を素速く終了させるために、Ｎ個のワードが受信されたか否か決定する手段と、（９）前記Ｎ個のワード決定手段に応答して、受信された音声発声に対応する最大有望度を有するワードストリングを取得するために、最大有望度スコアを有するビームサーチパスを介してバックトラッキングする手段と、（１０）前記ワードストリングを出力する手段とを有する。このシステムは、接続されたメモリに格納され、このメモリから検索される格納プログラムを実行するプロセッサにより実現される。
【００２２】
【発明の実施の形態】
図１は、本発明による音声認識システム１０２を使用する集成装置１０のブロック図である。
【００２３】
この音声認識システム１０２は、プロセッサ１０４を有する。プロセッサ１０４は、メモリ１０６に格納されたプログラムを実行する。音声認識システム１０２の多数の事例を１枚の回路基板で実現できるので、音声認識の多数のチャネルが供給される。メモリ１０６は、音声認識プログラムとサポーティングデータを格納するための全てのタイプのメモリを含む。例えば、ＲＯＭ、ＲＡＭ及び大容量記憶装置などである。
【００２４】
音声認識システム１０２は電話ネットワーク８０からデータを連続的に取得し、このデータをフレームに分割し、次いで、各タイムフレームを処理し、プロセッサ及び格納プログラムにより提供される音声認識方法により分析されるべき受信入力信号の多数の特性及び係数を供給する。従来技術の欄で述べたように、これらの音声認識技法は、隠れマルコフ・モデル（ＨＭＭ）及びビームサーチ技法を含む。
【００２５】
従来技術の欄で述べたように、図２は音声認識の公知の方法２００を示す流れ図である。この方法２００は、図１に示された音声認識システム１０２を使用することにより実行することができる。
【００２６】
図１及び図３を参照しながら、音声認識システム１０２を用いて実行できる別の方法について説明する。音声認識方法３００は本発明による方法である。音声認識方法３００はステップ３０２から開始される。ステップ３０２では、音声エネルギーが音声認識システム１０２で受信されたか否かの決定を行う。
【００２７】
音声エネルギーが受信されていないと決定されると、次の期間についてステップ３０２を繰り返す。従って、図２におけるステップ２０２と同様に、ステップ３０２では、電話ネットワーク８０から受信される信号を連続的にフレームするために、タイムフレーム処理が必要である。往々にして、これらのフレームは空であるか、又は、ノイズ信号しか有しない。このような場合、エネルギーレベルは低いので、ステップ３０２は、認識されるべき音声として、空フレーム又は低エネルギーレベルフレームを考慮しない。
【００２８】
大量のノイズが存在するか又は誰かが騒音を立てるか若しくは咳払い、呼吸又は会話などのような或る種の発声が存在する場合、ステップ３０２は、音声認識方法を開始させるのに十分な音声エネルギーが存在することを決定し、音声認識方法を開始する。
【００２９】
次に、ステップ３０４では、最新のタイムフレームを連続的にロードし、この最新のフレームが丁度開始時点のものであれば、このフレームが第１のフレームとなる。第１のフレームを取得した後、ステップ３０４は、現在の発声の音声処理が完了するまで、全てのタイムフレームを連続的にロードする。ステップ３０４におけるロード終了後、ステップ３０６で、各フレームからその特徴を抽出し、格納する。この特徴抽出は一般的な特徴抽出である。
【００３０】
ステップ３０８において、抽出された特徴を、ワード及び所定の文法のワードシーケンスのモデル（例えば、隠れマルコフモデル）と比較する。抽出された特徴がアクティブなワードモデルと比較されるに応じて、ステップ３０８において、最尤スコアにコンパイルされる。
【００３１】
ステップ３１０では、アクティブノードモデルスコアを取得し、動的計画法を実行し、被認識発声であり得るような可能性のあるワードシーケンスのワードネットワークを構築する。この動的計画法は、その動作においてビタビアルゴリズムを使用する。現在のフレームについて動的計画法が完了したら、ステップ３１２において、ビームサーチを実行する。
【００３２】
このビームサーチは、非有望な（ｕｎｌｉｋｅｌｙ）ワードシーケンスを剪定（ｐｒｕｎ）し、有望な（ｌｉｋｅｌｙ）ワードシーケンスを拡張し、更新されたアクティブワードリストを格納する。次に、ステップ３１４で、構築された復号化ツリーを更新し、発声の終了時点で、発声に対応する最も有望な（ｍｏｓｔｌｉｋｅｌｙ）ワードシーケンスを供給する。ステップ３１４の後、音声認識方法３００は２つの並列パスで動作する。両方のパスともアクティブであり、発声の終了のそれぞれの定義に従って発声の終了を捜索する。
【００３３】
ステップ３２０で、所定の文法の最初のワードが発声内で認識されたか否か決定する。この決定は音声認識に基づくものであり、エネルギーに基づくものではない。この決定は、復号化ツリー内に含まれる生き残り（ｖｉａｂｌｅ）ワードシーケンスを、復号化ツリーの非無音ノードに結合されるポインタを介して走査することにより試験することによって行われる。
【００３４】
全ての生き残りパスが、所定の文法内に存在する少なくとも一つの非無音ワードを含む場合、最初のワードが発声されたと決定される。文法の最初のワードが発声されると、ステップ３２２において、音声認識に基づくバージ・イン（ｂａｒｇｅ−ｉｎ）が宣言され、聴覚プロンプトが機能停止される。これが最初のワードでないか又は次のステップが最初のワードの処理ステップ３２２の後である場合、音声認識方法３００はステップ３２４へ進む。
【００３５】
ステップ３２０及び３２２の音声認識系バージ・インは、絶対的な意味において、エネルギー検出方法よりも緩慢ではあるが、所定の文法の一部ではないワード又は騒音については、音声認識系バージ・インは高信頼性である。この優れたバージ・イン信頼性は、バージ・インのために停止される聴覚プロンプトが、聴覚プロンプトに対する予想応答に関連しない、咳払い、周囲の会話又はその他の騒音のために停止されないことを意味する。
【００３６】
従って、真性なバージ・イン音声以外の何らかの騒音により不意に停止される聴覚プロンプトにより、話者が混乱させられたり、スローダウンさせられたりすることはない。
【００３７】
ステップ３２４において、最も有望なワードシーケンスにおけるワード数のカウントを行う。ステップ３２４において、復号化ツリーは現在のフレームを満足させ、試験される全ての生き残りワードシーケンスの語数をカウントする。この試験は、復号化ツリーに含まれる生き残りワードシーケンスを試験し、次いで、復号化ツリーの非無音ノードに結合されるポインタを介して走査することにより行われる。
【００３８】
復号化ツリー内の各ワードシーケンスが正確に各シーケンス内にｎ個のワードを有する場合、ｎ個のワードが発声されたと決定される。しかし、少なくとも一つの生き残りワードシーケンスがｎ個以外のワードを有する場合、試験は、現在のフレームのワード数のカウントはｎ個であると結論しない。ｎ個のワードカウントは、最大ワードカウントＮ個を有するワードカウントｎ個に達する。
【００３９】
カウントｎ個が、ワードシーケンス内のワード数の最大予想個数のＮ個に等しい場合、発声の音声認識処理の完了宣言がなされ、最も有望なワードシーケンスを出力するために、走査が開始される。Ｎ個のワードの最も有望なワードシーケンスの出力により、現在の発声の認識作業を終える。音声認識に基づく発声終了は、結果の正確度に対して有害な影響無く処理された全てのワードシーケンスについて約１秒間短縮する。
【００４０】
ステップ３２０〜３２４と並列するのはステップ３３０である。ステップ３３０は、有意なエネルギーを有する最後のフレームと現在の空フレームとの間のギャップタイムを計測する。このギャップタイムが限度を越えている場合、予想ワード数（Ｎ個）が認識される前に発声が止んだことを意味する。Ｎ番目のワードが決定される前にギャップタイムが決定される場合、ステップ３３０は発声完了を宣言し、最も有望なワードシーケンスを出力するための走査を開始する。
【００４１】
一般的に、音声認識方法３００では、ギャップタイム終了はエラーを意味するが、音声認識装置の出力は、使用するために受け入れられるか又は音声合成装置（図示されていない）により発声者に読み返される。Ｎの具体例は、長距離電話番号及び大抵のクレジットカードの１６桁番号である。
【００４２】
図４は本発明の別の実施例を示す流れ図である。図４に示された音声認識方法４００は、図３における音声認識方法３００とよく似ている。音声認識方法４００のステップ４０２〜４１４は、音声認識方法３００のステップ３０２〜３１４と概ね同一である。従って、これ以上の説明は省略する。
【００４３】
ステップ４１４で復号化ツリーを更新した後、音声認識方法４００は、音声認識方法３００と同様に、２つの並列パスに分れる。ステップ４２１は、現在のフレームに関する復号化ツリー内容を試験し、全ての生き残りワードシーケンスのワード数をカウントする。
【００４４】
この試験は、復号化ツリー内に含まれる生き残りワードシーケンスを試験し、次いで、復号化ツリーの非無音ノードに結合されるポインタを介して走査することにより行われる。復号化ツリー内の各ワードシーケンスが正確に各シーケンス内にｎ個のワードを有する場合、ｎ個のワードが発声されたと決定される。しかし、少なくとも一つの生き残りワードシーケンスがｎ個以外のワードを有する場合、試験は、現在のフレームのワード数のカウントはｎ個であると結論しない。
【００４５】
ｎ個のワードカウントがステップ４２１により到達されると、ワードカウント数ｎはステップ４２４で使用するために出力され、音声認識方法４００はステップ４２４まで継続される。ステップ４２４において、ワードカウント数ｎは１及び最大ワードカウント数Ｎと比較される。１との比較は、音声認識方法３００のステップ３２０とよく似ている。
【００４６】
すなわち、最初のワードが発声され、現在のワードが最初のワードである場合、音声認識に基づくバージ・インが宣言され、ステップ４２６で聴覚プロンプトが機能停止される。ステップ４２４において、ワードカウント数ｎとの比較により、ｎが１よりも大きいが、Ｎよりも小さいことが示されたら、有効ワードシーケンス又は群が存在する。
【００４７】
一方、ｎとの合致が存在せず、ステップ４２１の結果が不確定のｎである場合、音声認識方法４００はステップ４０４へ戻る。音声認識方法４００のこの部分の利点は、１０桁の長距離電話番号又は１６桁のクレジットカード番号の場合、最初の３桁又は４桁の数字が安定すると直ぐに、ワードシーケンスの終了前に、これらを出力用に利用できることである。
【００４８】
これらの最初の３桁又は４桁の数字群、さらに７桁の数字群は全体の発声前に出力することができ、全体的な音声認識ワードシーケンスが完了される。従って、市外局番、市外局番と交換局又はクレジットカード会社アクセス回線にアクセスし、ワードシーケンスが完了する場合、残りのワードシーケンスを待っていることができる。
【００４９】
これにより、発声の初めの方の部分の間に認識されるデータのパイプラインを即座に使用することが可能になり、更に、発声の残部は、その到着時に、パイプライン化使用を完了することができる。ステップ４２６又はステップ４２７の何れかの後で、音声認識方法４００はステップ４０４へ戻り、発声が終了するまで、データの次の時点のフレームを処理する。
【００５０】
ステップ４２１の結果がワードカウント数ｎ＝Ｎである場合、発声の最大ワードカウント数に達し、音声認識は処理を停止し、発声に対応する最尤ワードシーケンスを発見するために走査を開始することができる。ｎ＝Ｎである場合、この走査は即座に開始することができ、発声が完了したことを結論するために行われるエネルギー検出決定により使用される１秒〜１．５秒間を待つ必要は無い。ワードカウント作業が前記のように行われるため、ワードの正しい個数が認識されたら、処理を終了し、最も有望な答のための走査を開始する。
【００５１】
部分的なワードシーケンスをルックアップテーブルと共に使用して、最大ワードカウント数Ｎを変更することもできる。例えば、或るクレジットカード会社が、そのワードシーケンス内に非標準的な個数のワードを有する場合、このクレジットカード会社のアカウントのうちの一つを示す部分的なワードシーケンスを認識すると、発声の最後のワードが到着する前に、音声認識方法４００に、最大ワードカウント数Ｎを変更させる。
【００５２】
電話プレフィックスに関する同様な方法で、市外局番又は交換局ではないプレフィックスを使用し、通常の１０桁の市外局番及び市内番号から、必要に応じて大きな又は小さな最大ワードカウント数に変更できる。明らかに市外局番又はプレフィックスではなく、クレジットカード会社の指名子である部分的ワードシーケンスを使用し、電話番号認識からクレジットカード番号認識へ機能をシフトさせることもできる。これと反対の、クレジットカード番号取得機能から電話番号取得機能への切り替えも可能である。このような切り替えの場合、最大ワードカウント数Ｎを変更しなければならない。
【００５３】
音声認識方法３００と同様に、音声認識方法４００も、並列的なステップ４２１〜４２７で行われる、エネルギーに基づく決定分岐も有する。ステップ４３０では、有意なエネルギーを有する最後のフレームと現在の空フレームとの間のギャップタイムを計測する。
【００５４】
このギャップタイムが限度を越えている場合、予想ワード数（ｎ個）が認識される前に発声が停止される。ｎ番目のワードが決定される前にギャップタイムが決定される場合、ステップ４３０は発声完了を宣言し、最も有望なワードシーケンスを出力するための走査を開始する。
【００５５】
一般的に、音声認識方法４００では、エネルギーに基づくギャップタイム終了はエラーを意味するが、音声認識装置の出力は適宜、使用するために受け入れられか又は音声合成装置（図示されていない）により発声者に読み返される。
【００５６】
音声認識方法４００の終了時点で、音声認識又はエネルギー検出に何れかにより決定され、走査動作が復号化ツリーに対して行われ、入力発声に対応する最も有望なワードシーケンスを取得し、そのワードシーケンスは音声認識方法４００により出力される。
【００５７】
以上説明したように、ワード数をカウントすることによる高速音声認識方法と装置が得られる。この高速音声認識方法及び装置は、音声認識に付随するタスクの並列処理又はパイプライン処理のために部分的ワードシーケンスを出力することができる。更に、この方法及び装置は音声応答装置のための高信頼性バージ・イン動作を実行することもできる。
【００５８】
【発明の効果】
以上説明したように、本発明によれば、ワード数をカウントすることによる高速音声認識方法と装置が得られる。この高速音声認識方法及び装置は、音声認識に付随するタスクの並列処理又はパイプライン処理のために部分的ワードシーケンスを出力することができる。更に、この方法及び装置は音声応答装置のための高信頼性バージ・イン動作を実行することもできる。本発明の方法及び装置は、従来の音声認識方法及び装置と異なり、音声認識における時間遅延が発生しない。
【図面の簡単な説明】
【図１】図１は、本発明による音声認識装置を含むシステムのブロック図である。
【図２】図２は、エネルギーレベルをトリガすることからなる従来の音声認識方法の流れ図である。
【図３】図３は、エネルギーと認識に基づく音声認識方法の流れ図である。
【図４】図４は、発声の部分的結果を出力するための、認識に基づく音声認識方法の流れ図である。
【符号の説明】
１０本発明の音声認識システムを使用する装置
６０電話機
８０電話ネットワーク
１０２本発明の音声認識システム
１０４プロセッサ
１０６メモリ

Claims

(a) 聴覚プロンプトが利用者に対して鳴らされている間に音声発声が開始されたか否か決定するステップと、
前記(a)ステップで、発声が開始されていないと決定された場合、次のフレームを取得し、且つ当該ステップ(a)を再実行し、発声が開始されていると決定された場合、次のステップ(b)以降を実行し、
(b) 次の時点のフレーム期間を示す前記音声発声の音声フレームを取得するステップと、
(c) 前記音声フレームから特徴を抽出するステップと、
(d) 音声認識ネットワークを構築するために、動的計画法を実行するステップと、
(e) 前記音声認識ネットワークを用いて、ビームサーチを実行するステップと、
(f) 前記ビームサーチ後に、前記音声発声の復号化ツリーを更新するステップと、
(g) 最初に受信されたワードが、鳴らされている聴覚プロンプトに応動して入力されることが予期される、予め定められ記憶されたワード群に見いだされるかを決定するステップと、ここで、最初のワードが見いだされたと決定された場合、聴覚プロンプトを機能停止させ、且つ次のステップ(h)を続け、最初のワードが見いだされたと決定されない場合、ステップ(b)を実行し、
(h) ｎ個のワードが受信されたかを決定するステップと、
ここで、ｎ個のワードは、受信されることが予期される、予め定められ記憶されたワード群からのものであり、そして、ｎ個のワードが受信されないと決定された場合、前記ステップ(b)に戻り、ｎ個のワードが受信されたと決定された場合、次のステップ(i)を実行し、
(i) ワードシーケンスの音声認識が完了した時、受信した発声に対応する最大有望度を有するストリングを取得するために、最大有望度スコアを有するビームサーチパスを介してバックトラッキングするステップと、
(j) 前記ストリングを出力するステップと
を有することを特徴とする音声認識方法。
認識される前記最初のワードは、予め指定された文法内に見いだされるワードである
ことを特徴とする請求項１に記載の方法。
前記ステップ(h)と並行して、
(k) 低エネルギーギャップタイムがフレームのシーケンスに到達したか否かを決定するステップ
をさらに有し、
前記低エネルギーギャップタイムが到達していないと決定した場合、前記ステップ(b)に戻り、前記低エネルギーギャップタイムが到達したと決定した場合、前記ステップ(i)に戻る
ことを特徴とする請求項１に記載の方法。
(a) 音声発声が開始されたか否かを決定するステップと、
前記(a)ステップで、発声が開始されていないと決定された場合、次のフレームを取得し、且つ当該ステップ(a)を再実行し、発声が開始されていると決定された場合、次のステップ(b)以降を実行し、
(b) 次の時点のフレーム期間を示す前記音声発声の音声フレームを取得するステップと、
(c) 前記音声フレームから特徴を抽出するステップと、
(d) 前記発声の所定のワード数が認識されたかを決定するステップと
を有し、前記ワードが、鳴らされている聴覚プロンプトに応動して入力されることが予期される、予め決定され記憶されたワード群に見出されるものであり、そして、
前記所定のワード数が認識されたと決定された場合、聴覚プロンプトを機能停止させることを特徴とする、聴覚プロンプトが利用者に対して鳴らされている間に使用される対話式音声認識方法。
(a) 音声発声が開始されたか否か決定するステップと、
前記(a)ステップで、発声が開始されていないと決定された場合、次のフレームを取得し、且つ当該ステップ(a)を再実行し、発声が開始されていると決定された場合、次のステップ(b)以降を実行し、
(b) 次の時点のフレーム期間を示す前記音声発声の音声フレームを取得するステップと、
(c) 前記音声フレームから特徴を抽出するステップと、
(d) 前記発声の所定のワード数が認識されることに基づく結果に基づいた発声認識の終了の決定に応じて、聴覚プロンプトを機能停止させるステップと
を有し、前記所定の数のワードが、鳴らされている聴覚プロンプトに応動して入力されることが予期される、予め決定された記憶されたワード群に見出されるものであることを特徴とする、聴覚プロンプトが利用者に対して鳴らされている間に使用される対話式音声認識方法。