JP3568785B2 - 音声認識方法 - Google Patents
音声認識方法 Download PDFInfo
- Publication number
- JP3568785B2 JP3568785B2 JP21318498A JP21318498A JP3568785B2 JP 3568785 B2 JP3568785 B2 JP 3568785B2 JP 21318498 A JP21318498 A JP 21318498A JP 21318498 A JP21318498 A JP 21318498A JP 3568785 B2 JP3568785 B2 JP 3568785B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- word
- words
- determined
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 68
- 230000004044 response Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000007476 Maximum Likelihood Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims 2
- 238000012360 testing method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 244000141353 Prunus domestica Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は自動音声認識方法及び装置に関する。更に詳細には、本発明は連接されたワード(語)の認識速度を高める方法及び装置に関する。
【0002】
【従来の技術】
様々な自動音声認識方法や装置が存在し、広く知られている。動的計画法(dynamic programing)及び隠れマルコフ・モデル(HMM:Hidden Markov Model)を使用する方法は、Frame−Synchronous Network Search Algorithm for Connected Word Recognition by Chin−Hui Lee and Lawrence R. Rabiner published in the IEEE Transactions on Acoustics, Speech and Signal Processing Vol. 37, No. 11, November 1989などの文献に記載され公知である。Lee−Rabinerの前掲書は1989年における連接ワード(connected word)の自動音声認識に関する方法とシステムの状態の全体像について優れた知見を与える。
【0003】
1996年10月発行のICSLP会報に掲載されたE.Buhrke,W.Chou及びQ.Zhouらの“A Wave Decoder for Continuous Speech Recognition”という表題の論文には、音声認識性能とハードウエア要件を改善するためのビームサーチ法と呼ばれる技法が記載されている。Buhrkeらの論文には、最良優先探索戦略(best−first searching strategy)とその技術について説明したD.B.Paulの“An Efficient A* Stack Decoder...”という表題の論文についても言及している。
【0004】
前掲論文に説明されるような音声認識は、ワード(W1−Wn)の最良(すなわち、最尤スコア)シーケンスをサーチ(探索)することからなる。ワード最良シーケンスは入力音声発声に対応する。音声認識に使用されている有力なサーチアルゴリズムは動的ビタビ(Viterbi)デコーダである。このデコーダは、その処理系の能率がよい。発声に対応する最良ワードシーケンスを発見するための可能性のある全てのワードの完全サーチは依然として規模が大きすぎるし、時間がかかりすぎる。
【0005】
サーチ規模とサーチ時間の問題に取り組むために、ビームサーチ法がしばしば実行されてきた。ビームサーチ法では、有望な(すなわち、現在の最良スコアから規定された数学的距離内のもの)ワードシーケンス仮体(word sequence hypotheses)を保持し、拡張する。非有望な仮体はこのサーチから“剪定(prun)”されるか又は取除かれる。この非有望なワードシーケンス仮体の剪定は、サーチ規模の縮小及びサーチに必要な時間の短縮には効果的であり、構築されるべき音声認識システムの実際的な処理を可能にする。
【0006】
認識されるべき発声の開始時点で、所定の文法に基づくシーケンスを開始するための有効なワードである発声ワードだけを起動させることができる。各タイムフレームにおいて、ビタビアルゴリズムを使用する動的計画法はワードネットワークのアクティブ部分により行われる。ビームサーチ戦略が使用される間中、ワードネットワークのアクティブ部分は変化する。非有望なワードシーケンスは剪定され、一層有望なワードシーケンスは所定の文法で特定されるように拡張され、そしてワードネットワークのアクティブ部分に包含されるようになる。
【0007】
各タイムフレームにおいて、この音声認識システムは、復号化ツリー上の各ノードにリンクされる全ての存続可能なワードシーケンスをコンパイルする。この復号化ツリーは、そのノードと共に、タイムフレーム毎に更新される。もはやアクティブでなくなったノードは除去され、新たなノードが、新たにアクティブになったワードに付加される。従って、復号化ツリーは、リンク化されたリストを使用するビームサーチアルゴリズムにより剪定されない存続可能なワードシーケンスを保持する。
【0008】
復号化ツリーの各ノードは一ワードに対応し、ワードエンドタイム、ワードシーケンスの先行ワードノードに対するポインタ及び格納されたワードシーケンスの累積スコアなどのような情報を有する。発声の終了時点で、最高累積スコアを有するワードノードを、復号化ツリー内のポインタエントリ列に逆走査される。この逆走査は音声認識において一般的に、“バックトラッキング(後戻り)”として知られている。
【0009】
自動音声認識の従来の方法及びシステムの共通の欠点は、会話された発声の終点を検出するためにエネルギー検出器を使用することである。エネルギー検出は、信号処理における周知の方法と発声の開始と終了を検出する関連フィールドを与える。音声認識方法200に基づくエネルギー検出を図2に示す。音声認識方法200は、音声認識用のタイムフレーム内で電話回線を介して受信されるような入力信号をデジタル化するために、バックグラウンドタイムフレーム化装置(図示されていない)を使用する。
【0010】
タイムフレームはステップ202で分析され、フレームが音声処理を開始するのに十分なほど有意であるエネルギーを有するか否か決定する。フレームが考慮するほど十分なエネルギーを有しない場合、ステップ202は次のフレームについて繰り返される。一方、考慮するほど十分なエネルギーが存在する場合、音声認識方法200はステップ204〜ステップ210に進む。これらのステップは代表的な音声認識ステップである。
【0011】
次に、ステップ220において、音声認識処理を開始するフレームをチェックし、受信エネルギー及びシステムが、同時に発生した聴覚プロンプトを鳴らしたか否か決定する。答えが“YES”である場合、バージ・イン(barge−in)状態が発生し、発声の音声処理のその他については、ステップ222で聴覚プロンプトが停止される。
【0012】
次いで、ステップ220における否定的決定又はステップ222におけるプロンプト停止の何れかから、ステップ224において、有意なエネルギー無しにギャップタイムが発生したか否か決定する。このようなギャップタイムは現在の発声の終点を示す。
【0013】
ギャップタイムが発生していない場合、これは、分析すべき音声が更に存在することを意味し、音声認識処理はステップ204へ戻る。さもなければ、即ち発生している場合、エネルギーを伴わないギャップタイムは現在の発声の終了と解釈され、発声に対応する最も有望なワードシーケンスを発見するために、“バックトラッキング”を開始する。
【0014】
生憎、このギャップタイムは、一般的に、1秒から1.5秒の範囲内の時間遅延に等しい。個人的な起呼者の場合、この遅延は殆ど問題にならないが、電話サービスプロバイダーの場合、自動コレクトプレーシングサービスに対するような、1日当たり数千コールについて、1秒〜1.5秒を合計することができる。6000コールの場合、音声認識システムを使用中に、1.5秒は総計で2.5時間の遅延になる。
【0015】
多量に使用されるシステムの場合、この1秒〜1.5秒の遅延は、電話サービスプロバイダーに多数の音声認識装置を購入させるか、若しくは、料金請求可能な電話サービスの膨大な損失を被らせる。更に、エネルギーギャップタイムに基づいて発声終了の決定が行われるまで、最も有望なワードシーケンスを発見するためのバックトラッキングが開始されないので、並列処理及び/又はパイプライン処理のための部分的ワードシーケンスの使用は不可能である。
【0016】
【発明が解決しようとする課題】
従って、本発明の目的は、時間遅延の生じない新規な音声認識方法及び装置を提供することである。
【0017】
【課題を解決するための手段】
前記課題は、音声発声が開始されたか否か決定するステップを有し、発声が開始されていない場合、次のフレームを取得し、そして、この音声発声開始決定ステップを再実行するステップを有する方法により解決される。
【0018】
発声(utterance)を開始した場合、次のステップにおいて、次の時点のフレーム期間を示す音声発声の音声フレームを取得する。次いで、音声認識で使用される音声フレームから特徴(feature)を抽出する。次のステップにおいて、動的計画法を実行し、音声認識ネットワークを構築し、次いで、この音声認識ネットワークを用いてビームサーチ(beam search)を実行する。次のステップにおいて、ビームサーチ後に、音声発声の復号化ツリーを更新する。
【0019】
次のステップにおいて、音声発声の最初のワードが受信されたか否か決定し、受信された場合、聴覚プロンプトを機能停止させ、次のステップを継続するか、さもなければ、即ち最初のワードの受信が決定されない場合、次のステップを継続する。この次のステップでは、N個のワードが受信されたか否か決定し、N個のワードが受信されない場合、次のフレームの取得ステップへ戻るか、さもなければ、即ち受信された場合、次のステップを継続する。
【0020】
Nは、音声発声の終点を示す音声発声の最大ワードカウント数なので、この次のステップでは、受信音声発声に対応する最大有望度を有するワードストリングを取得するために、最大有望度スコア(greatest likelyhood score)を有するビームサーチパスを介してバックトラッキングする。ストリングが決定された後、次のステップで、ワードストリングを出力する。
【0021】
また、前記課題は、本発明の音声発声の音声認識システムによっても解決される。本発明の音声認識システムは、(1)音声発声が開始されたか否か決定する手段と、(2)前記音声発声開始決定手段に応答して、次の時点のフレーム期間を示す音声発声の音声フレームを取得する手段と、(3)前記音声フレームから特徴を抽出する手段と、(4)動的計画法を用いて音声認識ネットワークを構築する手段と、(5)音声認識ネットワークを用いてビームサーチを実行する手段と、(6)ビームサーチ後に、音声発声の復号化ツリーを更新する手段と、(7)音声発声の最初のワードが受信されたか否か決定し、受信された場合、聴覚プロンプトを機能停止させる手段と、(8)音声発声の更なる音声認識を素速く終了させるために、N個のワードが受信されたか否か決定する手段と、(9)前記N個のワード決定手段に応答して、受信された音声発声に対応する最大有望度を有するワードストリングを取得するために、最大有望度スコアを有するビームサーチパスを介してバックトラッキングする手段と、(10)前記ワードストリングを出力する手段とを有する。このシステムは、接続されたメモリに格納され、このメモリから検索される格納プログラムを実行するプロセッサにより実現される。
【0022】
【発明の実施の形態】
図1は、本発明による音声認識システム102を使用する集成装置10のブロック図である。
【0023】
この音声認識システム102は、プロセッサ104を有する。プロセッサ104は、メモリ106に格納されたプログラムを実行する。音声認識システム102の多数の事例を1枚の回路基板で実現できるので、音声認識の多数のチャネルが供給される。メモリ106は、音声認識プログラムとサポーティングデータを格納するための全てのタイプのメモリを含む。例えば、ROM、RAM及び大容量記憶装置などである。
【0024】
音声認識システム102は電話ネットワーク80からデータを連続的に取得し、このデータをフレームに分割し、次いで、各タイムフレームを処理し、プロセッサ及び格納プログラムにより提供される音声認識方法により分析されるべき受信入力信号の多数の特性及び係数を供給する。従来技術の欄で述べたように、これらの音声認識技法は、隠れマルコフ・モデル(HMM)及びビームサーチ技法を含む。
【0025】
従来技術の欄で述べたように、図2は音声認識の公知の方法200を示す流れ図である。この方法200は、図1に示された音声認識システム102を使用することにより実行することができる。
【0026】
図1及び図3を参照しながら、音声認識システム102を用いて実行できる別の方法について説明する。音声認識方法300は本発明による方法である。音声認識方法300はステップ302から開始される。ステップ302では、音声エネルギーが音声認識システム102で受信されたか否かの決定を行う。
【0027】
音声エネルギーが受信されていないと決定されると、次の期間についてステップ302を繰り返す。従って、図2におけるステップ202と同様に、ステップ302では、電話ネットワーク80から受信される信号を連続的にフレームするために、タイムフレーム処理が必要である。往々にして、これらのフレームは空であるか、又は、ノイズ信号しか有しない。このような場合、エネルギーレベルは低いので、ステップ302は、認識されるべき音声として、空フレーム又は低エネルギーレベルフレームを考慮しない。
【0028】
大量のノイズが存在するか又は誰かが騒音を立てるか若しくは咳払い、呼吸又は会話などのような或る種の発声が存在する場合、ステップ302は、音声認識方法を開始させるのに十分な音声エネルギーが存在することを決定し、音声認識方法を開始する。
【0029】
次に、ステップ304では、最新のタイムフレームを連続的にロードし、この最新のフレームが丁度開始時点のものであれば、このフレームが第1のフレームとなる。第1のフレームを取得した後、ステップ304は、現在の発声の音声処理が完了するまで、全てのタイムフレームを連続的にロードする。ステップ304におけるロード終了後、ステップ306で、各フレームからその特徴を抽出し、格納する。この特徴抽出は一般的な特徴抽出である。
【0030】
ステップ308において、抽出された特徴を、ワード及び所定の文法のワードシーケンスのモデル(例えば、隠れマルコフモデル)と比較する。抽出された特徴がアクティブなワードモデルと比較されるに応じて、ステップ308において、最尤スコアにコンパイルされる。
【0031】
ステップ310では、アクティブノードモデルスコアを取得し、動的計画法を実行し、被認識発声であり得るような可能性のあるワードシーケンスのワードネットワークを構築する。この動的計画法は、その動作においてビタビアルゴリズムを使用する。現在のフレームについて動的計画法が完了したら、ステップ312において、ビームサーチを実行する。
【0032】
このビームサーチは、非有望な(unlikely)ワードシーケンスを剪定(prun)し、有望な(likely)ワードシーケンスを拡張し、更新されたアクティブワードリストを格納する。次に、ステップ314で、構築された復号化ツリーを更新し、発声の終了時点で、発声に対応する最も有望な(most likely)ワードシーケンスを供給する。ステップ314の後、音声認識方法300は2つの並列パスで動作する。両方のパスともアクティブであり、発声の終了のそれぞれの定義に従って発声の終了を捜索する。
【0033】
ステップ320で、所定の文法の最初のワードが発声内で認識されたか否か決定する。この決定は音声認識に基づくものであり、エネルギーに基づくものではない。この決定は、復号化ツリー内に含まれる生き残り(viable)ワードシーケンスを、復号化ツリーの非無音ノードに結合されるポインタを介して走査することにより試験することによって行われる。
【0034】
全ての生き残りパスが、所定の文法内に存在する少なくとも一つの非無音ワードを含む場合、最初のワードが発声されたと決定される。文法の最初のワードが発声されると、ステップ322において、音声認識に基づくバージ・イン(barge−in)が宣言され、聴覚プロンプトが機能停止される。これが最初のワードでないか又は次のステップが最初のワードの処理ステップ322の後である場合、音声認識方法300はステップ324へ進む。
【0035】
ステップ320及び322の音声認識系バージ・インは、絶対的な意味において、エネルギー検出方法よりも緩慢ではあるが、所定の文法の一部ではないワード又は騒音については、音声認識系バージ・インは高信頼性である。この優れたバージ・イン信頼性は、バージ・インのために停止される聴覚プロンプトが、聴覚プロンプトに対する予想応答に関連しない、咳払い、周囲の会話又はその他の騒音のために停止されないことを意味する。
【0036】
従って、真性なバージ・イン音声以外の何らかの騒音により不意に停止される聴覚プロンプトにより、話者が混乱させられたり、スローダウンさせられたりすることはない。
【0037】
ステップ324において、最も有望なワードシーケンスにおけるワード数のカウントを行う。ステップ324において、復号化ツリーは現在のフレームを満足させ、試験される全ての生き残りワードシーケンスの語数をカウントする。この試験は、復号化ツリーに含まれる生き残りワードシーケンスを試験し、次いで、復号化ツリーの非無音ノードに結合されるポインタを介して走査することにより行われる。
【0038】
復号化ツリー内の各ワードシーケンスが正確に各シーケンス内にn個のワードを有する場合、n個のワードが発声されたと決定される。しかし、少なくとも一つの生き残りワードシーケンスがn個以外のワードを有する場合、試験は、現在のフレームのワード数のカウントはn個であると結論しない。n個のワードカウントは、最大ワードカウントN個を有するワードカウントn個に達する。
【0039】
カウントn個が、ワードシーケンス内のワード数の最大予想個数のN個に等しい場合、発声の音声認識処理の完了宣言がなされ、最も有望なワードシーケンスを出力するために、走査が開始される。N個のワードの最も有望なワードシーケンスの出力により、現在の発声の認識作業を終える。音声認識に基づく発声終了は、結果の正確度に対して有害な影響無く処理された全てのワードシーケンスについて約1秒間短縮する。
【0040】
ステップ320〜324と並列するのはステップ330である。ステップ330は、有意なエネルギーを有する最後のフレームと現在の空フレームとの間のギャップタイムを計測する。このギャップタイムが限度を越えている場合、予想ワード数(N個)が認識される前に発声が止んだことを意味する。N番目のワードが決定される前にギャップタイムが決定される場合、ステップ330は発声完了を宣言し、最も有望なワードシーケンスを出力するための走査を開始する。
【0041】
一般的に、音声認識方法300では、ギャップタイム終了はエラーを意味するが、音声認識装置の出力は、使用するために受け入れられるか又は音声合成装置(図示されていない)により発声者に読み返される。Nの具体例は、長距離電話番号及び大抵のクレジットカードの16桁番号である。
【0042】
図4は本発明の別の実施例を示す流れ図である。図4に示された音声認識方法400は、図3における音声認識方法300とよく似ている。音声認識方法400のステップ402〜414は、音声認識方法300のステップ302〜314と概ね同一である。従って、これ以上の説明は省略する。
【0043】
ステップ414で復号化ツリーを更新した後、音声認識方法400は、音声認識方法300と同様に、2つの並列パスに分れる。ステップ421は、現在のフレームに関する復号化ツリー内容を試験し、全ての生き残りワードシーケンスのワード数をカウントする。
【0044】
この試験は、復号化ツリー内に含まれる生き残りワードシーケンスを試験し、次いで、復号化ツリーの非無音ノードに結合されるポインタを介して走査することにより行われる。復号化ツリー内の各ワードシーケンスが正確に各シーケンス内にn個のワードを有する場合、n個のワードが発声されたと決定される。しかし、少なくとも一つの生き残りワードシーケンスがn個以外のワードを有する場合、試験は、現在のフレームのワード数のカウントはn個であると結論しない。
【0045】
n個のワードカウントがステップ421により到達されると、ワードカウント数nはステップ424で使用するために出力され、音声認識方法400はステップ424まで継続される。ステップ424において、ワードカウント数nは1及び最大ワードカウント数Nと比較される。1との比較は、音声認識方法300のステップ320とよく似ている。
【0046】
すなわち、最初のワードが発声され、現在のワードが最初のワードである場合、音声認識に基づくバージ・インが宣言され、ステップ426で聴覚プロンプトが機能停止される。ステップ424において、ワードカウント数nとの比較により、nが1よりも大きいが、Nよりも小さいことが示されたら、有効ワードシーケンス又は群が存在する。
【0047】
一方、nとの合致が存在せず、ステップ421の結果が不確定のnである場合、音声認識方法400はステップ404へ戻る。音声認識方法400のこの部分の利点は、10桁の長距離電話番号又は16桁のクレジットカード番号の場合、最初の3桁又は4桁の数字が安定すると直ぐに、ワードシーケンスの終了前に、これらを出力用に利用できることである。
【0048】
これらの最初の3桁又は4桁の数字群、さらに7桁の数字群は全体の発声前に出力することができ、全体的な音声認識ワードシーケンスが完了される。従って、市外局番、市外局番と交換局又はクレジットカード会社アクセス回線にアクセスし、ワードシーケンスが完了する場合、残りのワードシーケンスを待っていることができる。
【0049】
これにより、発声の初めの方の部分の間に認識されるデータのパイプラインを即座に使用することが可能になり、更に、発声の残部は、その到着時に、パイプライン化使用を完了することができる。ステップ426又はステップ427の何れかの後で、音声認識方法400はステップ404へ戻り、発声が終了するまで、データの次の時点のフレームを処理する。
【0050】
ステップ421の結果がワードカウント数n=Nである場合、発声の最大ワードカウント数に達し、音声認識は処理を停止し、発声に対応する最尤ワードシーケンスを発見するために走査を開始することができる。n=Nである場合、この走査は即座に開始することができ、発声が完了したことを結論するために行われるエネルギー検出決定により使用される1秒〜1.5秒間を待つ必要は無い。ワードカウント作業が前記のように行われるため、ワードの正しい個数が認識されたら、処理を終了し、最も有望な答のための走査を開始する。
【0051】
部分的なワードシーケンスをルックアップテーブルと共に使用して、最大ワードカウント数Nを変更することもできる。例えば、或るクレジットカード会社が、そのワードシーケンス内に非標準的な個数のワードを有する場合、このクレジットカード会社のアカウントのうちの一つを示す部分的なワードシーケンスを認識すると、発声の最後のワードが到着する前に、音声認識方法400に、最大ワードカウント数Nを変更させる。
【0052】
電話プレフィックスに関する同様な方法で、市外局番又は交換局ではないプレフィックスを使用し、通常の10桁の市外局番及び市内番号から、必要に応じて大きな又は小さな最大ワードカウント数に変更できる。明らかに市外局番又はプレフィックスではなく、クレジットカード会社の指名子である部分的ワードシーケンスを使用し、電話番号認識からクレジットカード番号認識へ機能をシフトさせることもできる。これと反対の、クレジットカード番号取得機能から電話番号取得機能への切り替えも可能である。このような切り替えの場合、最大ワードカウント数Nを変更しなければならない。
【0053】
音声認識方法300と同様に、音声認識方法400も、並列的なステップ421〜427で行われる、エネルギーに基づく決定分岐も有する。ステップ430では、有意なエネルギーを有する最後のフレームと現在の空フレームとの間のギャップタイムを計測する。
【0054】
このギャップタイムが限度を越えている場合、予想ワード数(n個)が認識される前に発声が停止される。n番目のワードが決定される前にギャップタイムが決定される場合、ステップ430は発声完了を宣言し、最も有望なワードシーケンスを出力するための走査を開始する。
【0055】
一般的に、音声認識方法400では、エネルギーに基づくギャップタイム終了はエラーを意味するが、音声認識装置の出力は適宜、使用するために受け入れられか又は音声合成装置(図示されていない)により発声者に読み返される。
【0056】
音声認識方法400の終了時点で、音声認識又はエネルギー検出に何れかにより決定され、走査動作が復号化ツリーに対して行われ、入力発声に対応する最も有望なワードシーケンスを取得し、そのワードシーケンスは音声認識方法400により出力される。
【0057】
以上説明したように、ワード数をカウントすることによる高速音声認識方法と装置が得られる。この高速音声認識方法及び装置は、音声認識に付随するタスクの並列処理又はパイプライン処理のために部分的ワードシーケンスを出力することができる。更に、この方法及び装置は音声応答装置のための高信頼性バージ・イン動作を実行することもできる。
【0058】
【発明の効果】
以上説明したように、本発明によれば、ワード数をカウントすることによる高速音声認識方法と装置が得られる。この高速音声認識方法及び装置は、音声認識に付随するタスクの並列処理又はパイプライン処理のために部分的ワードシーケンスを出力することができる。更に、この方法及び装置は音声応答装置のための高信頼性バージ・イン動作を実行することもできる。本発明の方法及び装置は、従来の音声認識方法及び装置と異なり、音声認識における時間遅延が発生しない。
【図面の簡単な説明】
【図1】図1は、本発明による音声認識装置を含むシステムのブロック図である。
【図2】図2は、エネルギーレベルをトリガすることからなる従来の音声認識方法の流れ図である。
【図3】図3は、エネルギーと認識に基づく音声認識方法の流れ図である。
【図4】図4は、発声の部分的結果を出力するための、認識に基づく音声認識方法の流れ図である。
【符号の説明】
10 本発明の音声認識システムを使用する装置
60 電話機
80 電話ネットワーク
102 本発明の音声認識システム
104 プロセッサ
106 メモリ
【発明の属する技術分野】
本発明は自動音声認識方法及び装置に関する。更に詳細には、本発明は連接されたワード(語)の認識速度を高める方法及び装置に関する。
【0002】
【従来の技術】
様々な自動音声認識方法や装置が存在し、広く知られている。動的計画法(dynamic programing)及び隠れマルコフ・モデル(HMM:Hidden Markov Model)を使用する方法は、Frame−Synchronous Network Search Algorithm for Connected Word Recognition by Chin−Hui Lee and Lawrence R. Rabiner published in the IEEE Transactions on Acoustics, Speech and Signal Processing Vol. 37, No. 11, November 1989などの文献に記載され公知である。Lee−Rabinerの前掲書は1989年における連接ワード(connected word)の自動音声認識に関する方法とシステムの状態の全体像について優れた知見を与える。
【0003】
1996年10月発行のICSLP会報に掲載されたE.Buhrke,W.Chou及びQ.Zhouらの“A Wave Decoder for Continuous Speech Recognition”という表題の論文には、音声認識性能とハードウエア要件を改善するためのビームサーチ法と呼ばれる技法が記載されている。Buhrkeらの論文には、最良優先探索戦略(best−first searching strategy)とその技術について説明したD.B.Paulの“An Efficient A* Stack Decoder...”という表題の論文についても言及している。
【0004】
前掲論文に説明されるような音声認識は、ワード(W1−Wn)の最良(すなわち、最尤スコア)シーケンスをサーチ(探索)することからなる。ワード最良シーケンスは入力音声発声に対応する。音声認識に使用されている有力なサーチアルゴリズムは動的ビタビ(Viterbi)デコーダである。このデコーダは、その処理系の能率がよい。発声に対応する最良ワードシーケンスを発見するための可能性のある全てのワードの完全サーチは依然として規模が大きすぎるし、時間がかかりすぎる。
【0005】
サーチ規模とサーチ時間の問題に取り組むために、ビームサーチ法がしばしば実行されてきた。ビームサーチ法では、有望な(すなわち、現在の最良スコアから規定された数学的距離内のもの)ワードシーケンス仮体(word sequence hypotheses)を保持し、拡張する。非有望な仮体はこのサーチから“剪定(prun)”されるか又は取除かれる。この非有望なワードシーケンス仮体の剪定は、サーチ規模の縮小及びサーチに必要な時間の短縮には効果的であり、構築されるべき音声認識システムの実際的な処理を可能にする。
【0006】
認識されるべき発声の開始時点で、所定の文法に基づくシーケンスを開始するための有効なワードである発声ワードだけを起動させることができる。各タイムフレームにおいて、ビタビアルゴリズムを使用する動的計画法はワードネットワークのアクティブ部分により行われる。ビームサーチ戦略が使用される間中、ワードネットワークのアクティブ部分は変化する。非有望なワードシーケンスは剪定され、一層有望なワードシーケンスは所定の文法で特定されるように拡張され、そしてワードネットワークのアクティブ部分に包含されるようになる。
【0007】
各タイムフレームにおいて、この音声認識システムは、復号化ツリー上の各ノードにリンクされる全ての存続可能なワードシーケンスをコンパイルする。この復号化ツリーは、そのノードと共に、タイムフレーム毎に更新される。もはやアクティブでなくなったノードは除去され、新たなノードが、新たにアクティブになったワードに付加される。従って、復号化ツリーは、リンク化されたリストを使用するビームサーチアルゴリズムにより剪定されない存続可能なワードシーケンスを保持する。
【0008】
復号化ツリーの各ノードは一ワードに対応し、ワードエンドタイム、ワードシーケンスの先行ワードノードに対するポインタ及び格納されたワードシーケンスの累積スコアなどのような情報を有する。発声の終了時点で、最高累積スコアを有するワードノードを、復号化ツリー内のポインタエントリ列に逆走査される。この逆走査は音声認識において一般的に、“バックトラッキング(後戻り)”として知られている。
【0009】
自動音声認識の従来の方法及びシステムの共通の欠点は、会話された発声の終点を検出するためにエネルギー検出器を使用することである。エネルギー検出は、信号処理における周知の方法と発声の開始と終了を検出する関連フィールドを与える。音声認識方法200に基づくエネルギー検出を図2に示す。音声認識方法200は、音声認識用のタイムフレーム内で電話回線を介して受信されるような入力信号をデジタル化するために、バックグラウンドタイムフレーム化装置(図示されていない)を使用する。
【0010】
タイムフレームはステップ202で分析され、フレームが音声処理を開始するのに十分なほど有意であるエネルギーを有するか否か決定する。フレームが考慮するほど十分なエネルギーを有しない場合、ステップ202は次のフレームについて繰り返される。一方、考慮するほど十分なエネルギーが存在する場合、音声認識方法200はステップ204〜ステップ210に進む。これらのステップは代表的な音声認識ステップである。
【0011】
次に、ステップ220において、音声認識処理を開始するフレームをチェックし、受信エネルギー及びシステムが、同時に発生した聴覚プロンプトを鳴らしたか否か決定する。答えが“YES”である場合、バージ・イン(barge−in)状態が発生し、発声の音声処理のその他については、ステップ222で聴覚プロンプトが停止される。
【0012】
次いで、ステップ220における否定的決定又はステップ222におけるプロンプト停止の何れかから、ステップ224において、有意なエネルギー無しにギャップタイムが発生したか否か決定する。このようなギャップタイムは現在の発声の終点を示す。
【0013】
ギャップタイムが発生していない場合、これは、分析すべき音声が更に存在することを意味し、音声認識処理はステップ204へ戻る。さもなければ、即ち発生している場合、エネルギーを伴わないギャップタイムは現在の発声の終了と解釈され、発声に対応する最も有望なワードシーケンスを発見するために、“バックトラッキング”を開始する。
【0014】
生憎、このギャップタイムは、一般的に、1秒から1.5秒の範囲内の時間遅延に等しい。個人的な起呼者の場合、この遅延は殆ど問題にならないが、電話サービスプロバイダーの場合、自動コレクトプレーシングサービスに対するような、1日当たり数千コールについて、1秒〜1.5秒を合計することができる。6000コールの場合、音声認識システムを使用中に、1.5秒は総計で2.5時間の遅延になる。
【0015】
多量に使用されるシステムの場合、この1秒〜1.5秒の遅延は、電話サービスプロバイダーに多数の音声認識装置を購入させるか、若しくは、料金請求可能な電話サービスの膨大な損失を被らせる。更に、エネルギーギャップタイムに基づいて発声終了の決定が行われるまで、最も有望なワードシーケンスを発見するためのバックトラッキングが開始されないので、並列処理及び/又はパイプライン処理のための部分的ワードシーケンスの使用は不可能である。
【0016】
【発明が解決しようとする課題】
従って、本発明の目的は、時間遅延の生じない新規な音声認識方法及び装置を提供することである。
【0017】
【課題を解決するための手段】
前記課題は、音声発声が開始されたか否か決定するステップを有し、発声が開始されていない場合、次のフレームを取得し、そして、この音声発声開始決定ステップを再実行するステップを有する方法により解決される。
【0018】
発声(utterance)を開始した場合、次のステップにおいて、次の時点のフレーム期間を示す音声発声の音声フレームを取得する。次いで、音声認識で使用される音声フレームから特徴(feature)を抽出する。次のステップにおいて、動的計画法を実行し、音声認識ネットワークを構築し、次いで、この音声認識ネットワークを用いてビームサーチ(beam search)を実行する。次のステップにおいて、ビームサーチ後に、音声発声の復号化ツリーを更新する。
【0019】
次のステップにおいて、音声発声の最初のワードが受信されたか否か決定し、受信された場合、聴覚プロンプトを機能停止させ、次のステップを継続するか、さもなければ、即ち最初のワードの受信が決定されない場合、次のステップを継続する。この次のステップでは、N個のワードが受信されたか否か決定し、N個のワードが受信されない場合、次のフレームの取得ステップへ戻るか、さもなければ、即ち受信された場合、次のステップを継続する。
【0020】
Nは、音声発声の終点を示す音声発声の最大ワードカウント数なので、この次のステップでは、受信音声発声に対応する最大有望度を有するワードストリングを取得するために、最大有望度スコア(greatest likelyhood score)を有するビームサーチパスを介してバックトラッキングする。ストリングが決定された後、次のステップで、ワードストリングを出力する。
【0021】
また、前記課題は、本発明の音声発声の音声認識システムによっても解決される。本発明の音声認識システムは、(1)音声発声が開始されたか否か決定する手段と、(2)前記音声発声開始決定手段に応答して、次の時点のフレーム期間を示す音声発声の音声フレームを取得する手段と、(3)前記音声フレームから特徴を抽出する手段と、(4)動的計画法を用いて音声認識ネットワークを構築する手段と、(5)音声認識ネットワークを用いてビームサーチを実行する手段と、(6)ビームサーチ後に、音声発声の復号化ツリーを更新する手段と、(7)音声発声の最初のワードが受信されたか否か決定し、受信された場合、聴覚プロンプトを機能停止させる手段と、(8)音声発声の更なる音声認識を素速く終了させるために、N個のワードが受信されたか否か決定する手段と、(9)前記N個のワード決定手段に応答して、受信された音声発声に対応する最大有望度を有するワードストリングを取得するために、最大有望度スコアを有するビームサーチパスを介してバックトラッキングする手段と、(10)前記ワードストリングを出力する手段とを有する。このシステムは、接続されたメモリに格納され、このメモリから検索される格納プログラムを実行するプロセッサにより実現される。
【0022】
【発明の実施の形態】
図1は、本発明による音声認識システム102を使用する集成装置10のブロック図である。
【0023】
この音声認識システム102は、プロセッサ104を有する。プロセッサ104は、メモリ106に格納されたプログラムを実行する。音声認識システム102の多数の事例を1枚の回路基板で実現できるので、音声認識の多数のチャネルが供給される。メモリ106は、音声認識プログラムとサポーティングデータを格納するための全てのタイプのメモリを含む。例えば、ROM、RAM及び大容量記憶装置などである。
【0024】
音声認識システム102は電話ネットワーク80からデータを連続的に取得し、このデータをフレームに分割し、次いで、各タイムフレームを処理し、プロセッサ及び格納プログラムにより提供される音声認識方法により分析されるべき受信入力信号の多数の特性及び係数を供給する。従来技術の欄で述べたように、これらの音声認識技法は、隠れマルコフ・モデル(HMM)及びビームサーチ技法を含む。
【0025】
従来技術の欄で述べたように、図2は音声認識の公知の方法200を示す流れ図である。この方法200は、図1に示された音声認識システム102を使用することにより実行することができる。
【0026】
図1及び図3を参照しながら、音声認識システム102を用いて実行できる別の方法について説明する。音声認識方法300は本発明による方法である。音声認識方法300はステップ302から開始される。ステップ302では、音声エネルギーが音声認識システム102で受信されたか否かの決定を行う。
【0027】
音声エネルギーが受信されていないと決定されると、次の期間についてステップ302を繰り返す。従って、図2におけるステップ202と同様に、ステップ302では、電話ネットワーク80から受信される信号を連続的にフレームするために、タイムフレーム処理が必要である。往々にして、これらのフレームは空であるか、又は、ノイズ信号しか有しない。このような場合、エネルギーレベルは低いので、ステップ302は、認識されるべき音声として、空フレーム又は低エネルギーレベルフレームを考慮しない。
【0028】
大量のノイズが存在するか又は誰かが騒音を立てるか若しくは咳払い、呼吸又は会話などのような或る種の発声が存在する場合、ステップ302は、音声認識方法を開始させるのに十分な音声エネルギーが存在することを決定し、音声認識方法を開始する。
【0029】
次に、ステップ304では、最新のタイムフレームを連続的にロードし、この最新のフレームが丁度開始時点のものであれば、このフレームが第1のフレームとなる。第1のフレームを取得した後、ステップ304は、現在の発声の音声処理が完了するまで、全てのタイムフレームを連続的にロードする。ステップ304におけるロード終了後、ステップ306で、各フレームからその特徴を抽出し、格納する。この特徴抽出は一般的な特徴抽出である。
【0030】
ステップ308において、抽出された特徴を、ワード及び所定の文法のワードシーケンスのモデル(例えば、隠れマルコフモデル)と比較する。抽出された特徴がアクティブなワードモデルと比較されるに応じて、ステップ308において、最尤スコアにコンパイルされる。
【0031】
ステップ310では、アクティブノードモデルスコアを取得し、動的計画法を実行し、被認識発声であり得るような可能性のあるワードシーケンスのワードネットワークを構築する。この動的計画法は、その動作においてビタビアルゴリズムを使用する。現在のフレームについて動的計画法が完了したら、ステップ312において、ビームサーチを実行する。
【0032】
このビームサーチは、非有望な(unlikely)ワードシーケンスを剪定(prun)し、有望な(likely)ワードシーケンスを拡張し、更新されたアクティブワードリストを格納する。次に、ステップ314で、構築された復号化ツリーを更新し、発声の終了時点で、発声に対応する最も有望な(most likely)ワードシーケンスを供給する。ステップ314の後、音声認識方法300は2つの並列パスで動作する。両方のパスともアクティブであり、発声の終了のそれぞれの定義に従って発声の終了を捜索する。
【0033】
ステップ320で、所定の文法の最初のワードが発声内で認識されたか否か決定する。この決定は音声認識に基づくものであり、エネルギーに基づくものではない。この決定は、復号化ツリー内に含まれる生き残り(viable)ワードシーケンスを、復号化ツリーの非無音ノードに結合されるポインタを介して走査することにより試験することによって行われる。
【0034】
全ての生き残りパスが、所定の文法内に存在する少なくとも一つの非無音ワードを含む場合、最初のワードが発声されたと決定される。文法の最初のワードが発声されると、ステップ322において、音声認識に基づくバージ・イン(barge−in)が宣言され、聴覚プロンプトが機能停止される。これが最初のワードでないか又は次のステップが最初のワードの処理ステップ322の後である場合、音声認識方法300はステップ324へ進む。
【0035】
ステップ320及び322の音声認識系バージ・インは、絶対的な意味において、エネルギー検出方法よりも緩慢ではあるが、所定の文法の一部ではないワード又は騒音については、音声認識系バージ・インは高信頼性である。この優れたバージ・イン信頼性は、バージ・インのために停止される聴覚プロンプトが、聴覚プロンプトに対する予想応答に関連しない、咳払い、周囲の会話又はその他の騒音のために停止されないことを意味する。
【0036】
従って、真性なバージ・イン音声以外の何らかの騒音により不意に停止される聴覚プロンプトにより、話者が混乱させられたり、スローダウンさせられたりすることはない。
【0037】
ステップ324において、最も有望なワードシーケンスにおけるワード数のカウントを行う。ステップ324において、復号化ツリーは現在のフレームを満足させ、試験される全ての生き残りワードシーケンスの語数をカウントする。この試験は、復号化ツリーに含まれる生き残りワードシーケンスを試験し、次いで、復号化ツリーの非無音ノードに結合されるポインタを介して走査することにより行われる。
【0038】
復号化ツリー内の各ワードシーケンスが正確に各シーケンス内にn個のワードを有する場合、n個のワードが発声されたと決定される。しかし、少なくとも一つの生き残りワードシーケンスがn個以外のワードを有する場合、試験は、現在のフレームのワード数のカウントはn個であると結論しない。n個のワードカウントは、最大ワードカウントN個を有するワードカウントn個に達する。
【0039】
カウントn個が、ワードシーケンス内のワード数の最大予想個数のN個に等しい場合、発声の音声認識処理の完了宣言がなされ、最も有望なワードシーケンスを出力するために、走査が開始される。N個のワードの最も有望なワードシーケンスの出力により、現在の発声の認識作業を終える。音声認識に基づく発声終了は、結果の正確度に対して有害な影響無く処理された全てのワードシーケンスについて約1秒間短縮する。
【0040】
ステップ320〜324と並列するのはステップ330である。ステップ330は、有意なエネルギーを有する最後のフレームと現在の空フレームとの間のギャップタイムを計測する。このギャップタイムが限度を越えている場合、予想ワード数(N個)が認識される前に発声が止んだことを意味する。N番目のワードが決定される前にギャップタイムが決定される場合、ステップ330は発声完了を宣言し、最も有望なワードシーケンスを出力するための走査を開始する。
【0041】
一般的に、音声認識方法300では、ギャップタイム終了はエラーを意味するが、音声認識装置の出力は、使用するために受け入れられるか又は音声合成装置(図示されていない)により発声者に読み返される。Nの具体例は、長距離電話番号及び大抵のクレジットカードの16桁番号である。
【0042】
図4は本発明の別の実施例を示す流れ図である。図4に示された音声認識方法400は、図3における音声認識方法300とよく似ている。音声認識方法400のステップ402〜414は、音声認識方法300のステップ302〜314と概ね同一である。従って、これ以上の説明は省略する。
【0043】
ステップ414で復号化ツリーを更新した後、音声認識方法400は、音声認識方法300と同様に、2つの並列パスに分れる。ステップ421は、現在のフレームに関する復号化ツリー内容を試験し、全ての生き残りワードシーケンスのワード数をカウントする。
【0044】
この試験は、復号化ツリー内に含まれる生き残りワードシーケンスを試験し、次いで、復号化ツリーの非無音ノードに結合されるポインタを介して走査することにより行われる。復号化ツリー内の各ワードシーケンスが正確に各シーケンス内にn個のワードを有する場合、n個のワードが発声されたと決定される。しかし、少なくとも一つの生き残りワードシーケンスがn個以外のワードを有する場合、試験は、現在のフレームのワード数のカウントはn個であると結論しない。
【0045】
n個のワードカウントがステップ421により到達されると、ワードカウント数nはステップ424で使用するために出力され、音声認識方法400はステップ424まで継続される。ステップ424において、ワードカウント数nは1及び最大ワードカウント数Nと比較される。1との比較は、音声認識方法300のステップ320とよく似ている。
【0046】
すなわち、最初のワードが発声され、現在のワードが最初のワードである場合、音声認識に基づくバージ・インが宣言され、ステップ426で聴覚プロンプトが機能停止される。ステップ424において、ワードカウント数nとの比較により、nが1よりも大きいが、Nよりも小さいことが示されたら、有効ワードシーケンス又は群が存在する。
【0047】
一方、nとの合致が存在せず、ステップ421の結果が不確定のnである場合、音声認識方法400はステップ404へ戻る。音声認識方法400のこの部分の利点は、10桁の長距離電話番号又は16桁のクレジットカード番号の場合、最初の3桁又は4桁の数字が安定すると直ぐに、ワードシーケンスの終了前に、これらを出力用に利用できることである。
【0048】
これらの最初の3桁又は4桁の数字群、さらに7桁の数字群は全体の発声前に出力することができ、全体的な音声認識ワードシーケンスが完了される。従って、市外局番、市外局番と交換局又はクレジットカード会社アクセス回線にアクセスし、ワードシーケンスが完了する場合、残りのワードシーケンスを待っていることができる。
【0049】
これにより、発声の初めの方の部分の間に認識されるデータのパイプラインを即座に使用することが可能になり、更に、発声の残部は、その到着時に、パイプライン化使用を完了することができる。ステップ426又はステップ427の何れかの後で、音声認識方法400はステップ404へ戻り、発声が終了するまで、データの次の時点のフレームを処理する。
【0050】
ステップ421の結果がワードカウント数n=Nである場合、発声の最大ワードカウント数に達し、音声認識は処理を停止し、発声に対応する最尤ワードシーケンスを発見するために走査を開始することができる。n=Nである場合、この走査は即座に開始することができ、発声が完了したことを結論するために行われるエネルギー検出決定により使用される1秒〜1.5秒間を待つ必要は無い。ワードカウント作業が前記のように行われるため、ワードの正しい個数が認識されたら、処理を終了し、最も有望な答のための走査を開始する。
【0051】
部分的なワードシーケンスをルックアップテーブルと共に使用して、最大ワードカウント数Nを変更することもできる。例えば、或るクレジットカード会社が、そのワードシーケンス内に非標準的な個数のワードを有する場合、このクレジットカード会社のアカウントのうちの一つを示す部分的なワードシーケンスを認識すると、発声の最後のワードが到着する前に、音声認識方法400に、最大ワードカウント数Nを変更させる。
【0052】
電話プレフィックスに関する同様な方法で、市外局番又は交換局ではないプレフィックスを使用し、通常の10桁の市外局番及び市内番号から、必要に応じて大きな又は小さな最大ワードカウント数に変更できる。明らかに市外局番又はプレフィックスではなく、クレジットカード会社の指名子である部分的ワードシーケンスを使用し、電話番号認識からクレジットカード番号認識へ機能をシフトさせることもできる。これと反対の、クレジットカード番号取得機能から電話番号取得機能への切り替えも可能である。このような切り替えの場合、最大ワードカウント数Nを変更しなければならない。
【0053】
音声認識方法300と同様に、音声認識方法400も、並列的なステップ421〜427で行われる、エネルギーに基づく決定分岐も有する。ステップ430では、有意なエネルギーを有する最後のフレームと現在の空フレームとの間のギャップタイムを計測する。
【0054】
このギャップタイムが限度を越えている場合、予想ワード数(n個)が認識される前に発声が停止される。n番目のワードが決定される前にギャップタイムが決定される場合、ステップ430は発声完了を宣言し、最も有望なワードシーケンスを出力するための走査を開始する。
【0055】
一般的に、音声認識方法400では、エネルギーに基づくギャップタイム終了はエラーを意味するが、音声認識装置の出力は適宜、使用するために受け入れられか又は音声合成装置(図示されていない)により発声者に読み返される。
【0056】
音声認識方法400の終了時点で、音声認識又はエネルギー検出に何れかにより決定され、走査動作が復号化ツリーに対して行われ、入力発声に対応する最も有望なワードシーケンスを取得し、そのワードシーケンスは音声認識方法400により出力される。
【0057】
以上説明したように、ワード数をカウントすることによる高速音声認識方法と装置が得られる。この高速音声認識方法及び装置は、音声認識に付随するタスクの並列処理又はパイプライン処理のために部分的ワードシーケンスを出力することができる。更に、この方法及び装置は音声応答装置のための高信頼性バージ・イン動作を実行することもできる。
【0058】
【発明の効果】
以上説明したように、本発明によれば、ワード数をカウントすることによる高速音声認識方法と装置が得られる。この高速音声認識方法及び装置は、音声認識に付随するタスクの並列処理又はパイプライン処理のために部分的ワードシーケンスを出力することができる。更に、この方法及び装置は音声応答装置のための高信頼性バージ・イン動作を実行することもできる。本発明の方法及び装置は、従来の音声認識方法及び装置と異なり、音声認識における時間遅延が発生しない。
【図面の簡単な説明】
【図1】図1は、本発明による音声認識装置を含むシステムのブロック図である。
【図2】図2は、エネルギーレベルをトリガすることからなる従来の音声認識方法の流れ図である。
【図3】図3は、エネルギーと認識に基づく音声認識方法の流れ図である。
【図4】図4は、発声の部分的結果を出力するための、認識に基づく音声認識方法の流れ図である。
【符号の説明】
10 本発明の音声認識システムを使用する装置
60 電話機
80 電話ネットワーク
102 本発明の音声認識システム
104 プロセッサ
106 メモリ
Claims (5)
- (a) 聴覚プロンプトが利用者に対して鳴らされている間に音声発声が開始されたか否か決定するステップと、
前記(a)ステップで、発声が開始されていないと決定された場合、次のフレームを取得し、且つ当該ステップ(a)を再実行し、発声が開始されていると決定された場合、次のステップ(b)以降を実行し、
(b) 次の時点のフレーム期間を示す前記音声発声の音声フレームを取得するステップと、
(c) 前記音声フレームから特徴を抽出するステップと、
(d) 音声認識ネットワークを構築するために、動的計画法を実行するステップと、
(e) 前記音声認識ネットワークを用いて、ビームサーチを実行するステップと、
(f) 前記ビームサーチ後に、前記音声発声の復号化ツリーを更新するステップと、
(g) 最初に受信されたワードが、鳴らされている聴覚プロンプトに応動して入力されることが予期される、予め定められ記憶されたワード群に見いだされるかを決定するステップと、ここで、最初のワードが見いだされたと決定された場合、聴覚プロンプトを機能停止させ、且つ次のステップ(h)を続け、最初のワードが見いだされたと決定されない場合、ステップ(b)を実行し、
(h) n個のワードが受信されたかを決定するステップと、
ここで、n個のワードは、受信されることが予期される、予め定められ記憶されたワード群からのものであり、そして、n個のワードが受信されないと決定された場合、前記ステップ(b)に戻り、n個のワードが受信されたと決定された場合、次のステップ(i)を実行し、
(i) ワードシーケンスの音声認識が完了した時、受信した発声に対応する最大有望度を有するストリングを取得するために、最大有望度スコアを有するビームサーチパスを介してバックトラッキングするステップと、
(j) 前記ストリングを出力するステップと
を有することを特徴とする音声認識方法。 - 認識される前記最初のワードは、予め指定された文法内に見いだされるワードである
ことを特徴とする請求項1に記載の方法。 - 前記ステップ(h)と並行して、
(k) 低エネルギーギャップタイムがフレームのシーケンスに到達したか否かを決定するステップ
をさらに有し、
前記低エネルギーギャップタイムが到達していないと決定した場合、前記ステップ(b)に戻り、前記低エネルギーギャップタイムが到達したと決定した場合、前記ステップ(i)に戻る
ことを特徴とする請求項1に記載の方法。 - (a) 音声発声が開始されたか否かを決定するステップと、
前記(a)ステップで、発声が開始されていないと決定された場合、次のフレームを取得し、且つ当該ステップ(a)を再実行し、発声が開始されていると決定された場合、次のステップ(b)以降を実行し、
(b) 次の時点のフレーム期間を示す前記音声発声の音声フレームを取得するステップと、
(c) 前記音声フレームから特徴を抽出するステップと、
(d) 前記発声の所定のワード数が認識されたかを決定するステップと
を有し、前記ワードが、鳴らされている聴覚プロンプトに応動して入力されることが予期 される、予め決定され記憶されたワード群に見出されるものであり、そして、
前記所定のワード数が認識されたと決定された場合、聴覚プロンプトを機能停止させることを特徴とする、聴覚プロンプトが利用者に対して鳴らされている間に使用される対話式音声認識方法。 - (a) 音声発声が開始されたか否か決定するステップと、
前記(a)ステップで、発声が開始されていないと決定された場合、次のフレームを取得し、且つ当該ステップ(a)を再実行し、発声が開始されていると決定された場合、次のステップ(b)以降を実行し、
(b) 次の時点のフレーム期間を示す前記音声発声の音声フレームを取得するステップと、
(c) 前記音声フレームから特徴を抽出するステップと、
(d) 前記発声の所定のワード数が認識されることに基づく結果に基づいた発声認識の終了の決定に応じて、聴覚プロンプトを機能停止させるステップと
を有し、前記所定の数のワードが、鳴らされている聴覚プロンプトに応動して入力されることが予期される、予め決定された記憶されたワード群に見出されるものであることを特徴とする、聴覚プロンプトが利用者に対して鳴らされている間に使用される対話式音声認識方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/903633 | 1997-07-31 | ||
US08/903,633 US5956675A (en) | 1997-07-31 | 1997-07-31 | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1195791A JPH1195791A (ja) | 1999-04-09 |
JP3568785B2 true JP3568785B2 (ja) | 2004-09-22 |
Family
ID=25417832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21318498A Expired - Fee Related JP3568785B2 (ja) | 1997-07-31 | 1998-07-28 | 音声認識方法 |
Country Status (6)
Country | Link |
---|---|
US (2) | US5956675A (ja) |
EP (1) | EP0895224B1 (ja) |
JP (1) | JP3568785B2 (ja) |
KR (1) | KR100512662B1 (ja) |
CA (1) | CA2238642C (ja) |
DE (1) | DE69827202T2 (ja) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US6574601B1 (en) * | 1999-01-13 | 2003-06-03 | Lucent Technologies Inc. | Acoustic speech recognizer system and method |
US7224790B1 (en) * | 1999-05-27 | 2007-05-29 | Sbc Technology Resources, Inc. | Method to identify and categorize customer's goals and behaviors within a customer service center environment |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6574595B1 (en) * | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
DE10040466C2 (de) * | 2000-08-18 | 2003-04-10 | Bosch Gmbh Robert | Verfahren zur Steuerung einer Spracheingabe und -ausgabe |
US6606595B1 (en) | 2000-08-31 | 2003-08-12 | Lucent Technologies Inc. | HMM-based echo model for noise cancellation avoiding the problem of false triggers |
AU2002246550A1 (en) * | 2000-11-30 | 2002-08-06 | Enterprise Integration Group, Inc. | Method and system for preventing error amplification in natural language dialogues |
US7437286B2 (en) * | 2000-12-27 | 2008-10-14 | Intel Corporation | Voice barge-in in telephony speech recognition |
US6850887B2 (en) * | 2001-02-28 | 2005-02-01 | International Business Machines Corporation | Speech recognition in noisy environments |
WO2002087201A1 (en) * | 2001-04-19 | 2002-10-31 | British Telecommunications Public Limited Company | Voice response system |
US20030023439A1 (en) * | 2001-05-02 | 2003-01-30 | Gregory Ciurpita | Method and apparatus for automatic recognition of long sequences of spoken digits |
US20020173333A1 (en) * | 2001-05-18 | 2002-11-21 | Buchholz Dale R. | Method and apparatus for processing barge-in requests |
GB0113583D0 (en) * | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Speech system barge-in control |
US7058575B2 (en) * | 2001-06-27 | 2006-06-06 | Intel Corporation | Integrating keyword spotting with graph decoder to improve the robustness of speech recognition |
US20030088403A1 (en) * | 2001-10-23 | 2003-05-08 | Chan Norman C | Call classification by automatic recognition of speech |
US7069221B2 (en) * | 2001-10-26 | 2006-06-27 | Speechworks International, Inc. | Non-target barge-in detection |
US7069213B2 (en) * | 2001-11-09 | 2006-06-27 | Netbytel, Inc. | Influencing a voice recognition matching operation with user barge-in time |
US7305070B2 (en) | 2002-01-30 | 2007-12-04 | At&T Labs, Inc. | Sequential presentation of long instructions in an interactive voice response system |
US6914975B2 (en) | 2002-02-21 | 2005-07-05 | Sbc Properties, L.P. | Interactive dialog-based training method |
US6910911B2 (en) | 2002-06-27 | 2005-06-28 | Vocollect, Inc. | Break-away electrical connector |
US20040064315A1 (en) * | 2002-09-30 | 2004-04-01 | Deisher Michael E. | Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments |
JP3984526B2 (ja) * | 2002-10-21 | 2007-10-03 | 富士通株式会社 | 音声対話システム及び方法 |
DE10251113A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren zum Betrieb eines Spracherkennungssystems |
EP1494208A1 (en) * | 2003-06-30 | 2005-01-05 | Harman Becker Automotive Systems GmbH | Method for controlling a speech dialog system and speech dialog system |
US20050010418A1 (en) * | 2003-07-10 | 2005-01-13 | Vocollect, Inc. | Method and system for intelligent prompt control in a multimodal software application |
US7073203B2 (en) * | 2003-08-08 | 2006-07-11 | Simms Fishing Products Corporation | Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing |
US20050049873A1 (en) * | 2003-08-28 | 2005-03-03 | Itamar Bartur | Dynamic ranges for viterbi calculations |
US20050065789A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method with automated speech recognition engines |
US7027586B2 (en) | 2003-12-18 | 2006-04-11 | Sbc Knowledge Ventures, L.P. | Intelligently routing customer communications |
US9117460B2 (en) | 2004-05-12 | 2015-08-25 | Core Wireless Licensing S.A.R.L. | Detection of end of utterance in speech recognition system |
US8054951B1 (en) | 2005-04-29 | 2011-11-08 | Ignite Media Solutions, Llc | Method for order taking using interactive virtual human agents |
US8185400B1 (en) | 2005-10-07 | 2012-05-22 | At&T Intellectual Property Ii, L.P. | System and method for isolating and processing common dialog cues |
USD626949S1 (en) | 2008-02-20 | 2010-11-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
EP2148325B1 (en) * | 2008-07-22 | 2014-10-01 | Nuance Communications, Inc. | Method for determining the presence of a wanted signal component |
US8442831B2 (en) * | 2008-10-31 | 2013-05-14 | International Business Machines Corporation | Sound envelope deconstruction to identify words in continuous speech |
US8386261B2 (en) | 2008-11-14 | 2013-02-26 | Vocollect Healthcare Systems, Inc. | Training/coaching system for a voice-enabled work environment |
US8639513B2 (en) * | 2009-08-05 | 2014-01-28 | Verizon Patent And Licensing Inc. | Automated communication integrator |
US8659397B2 (en) | 2010-07-22 | 2014-02-25 | Vocollect, Inc. | Method and system for correctly identifying specific RFID tags |
USD643400S1 (en) | 2010-08-19 | 2011-08-16 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
USD643013S1 (en) | 2010-08-20 | 2011-08-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
US9600135B2 (en) | 2010-09-10 | 2017-03-21 | Vocollect, Inc. | Multimodal user notification system to assist in data capture |
US9118669B2 (en) | 2010-09-30 | 2015-08-25 | Alcatel Lucent | Method and apparatus for voice signature authentication |
US8914288B2 (en) | 2011-09-01 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for advanced turn-taking for interactive spoken dialog systems |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10546597B2 (en) * | 2016-08-01 | 2020-01-28 | International Business Machines Corporation | Emotional state-based control of a device |
US11488590B2 (en) * | 2018-05-09 | 2022-11-01 | Staton Techiya Llc | Methods and systems for processing, storing, and publishing data collected by an in-ear device |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1557286A (en) * | 1975-10-31 | 1979-12-05 | Nippon Electric Co | Speech recognition |
US4156868A (en) * | 1977-05-05 | 1979-05-29 | Bell Telephone Laboratories, Incorporated | Syntactic word recognizer |
JPS5734599A (en) * | 1980-08-12 | 1982-02-24 | Nippon Electric Co | Continuous voice recognizing device |
JPS5962900A (ja) * | 1982-10-04 | 1984-04-10 | 株式会社日立製作所 | 音声認識方式 |
JPS59111529A (ja) * | 1982-12-17 | 1984-06-27 | Hitachi Ltd | 音声応答装置の入力機器識別方式 |
JPS59195739A (ja) * | 1983-04-20 | 1984-11-06 | Sanyo Electric Co Ltd | 音声応答装置 |
JPS6085655A (ja) * | 1983-10-15 | 1985-05-15 | Fujitsu Ten Ltd | 音声ダイヤリング装置 |
JPH068999B2 (ja) * | 1985-08-21 | 1994-02-02 | 株式会社日立製作所 | 音声入力方法 |
JPS62291700A (ja) * | 1986-06-10 | 1987-12-18 | 富士通株式会社 | 連続数字音声認識方式 |
JP2646080B2 (ja) * | 1986-08-05 | 1997-08-25 | 沖電気工業 株式会社 | 音声認識方法 |
JPS63121096A (ja) * | 1986-11-10 | 1988-05-25 | 松下電器産業株式会社 | 対話型音声入出力装置 |
JPS63142950A (ja) * | 1986-12-05 | 1988-06-15 | Toshiba Corp | 音声ダイヤル電話方式 |
JPH0618395B2 (ja) * | 1986-12-26 | 1994-03-09 | 株式会社日立製作所 | 音声ダイヤル装置 |
US4910784A (en) * | 1987-07-30 | 1990-03-20 | Texas Instruments Incorporated | Low cost speech recognition system and method |
US4914692A (en) * | 1987-12-29 | 1990-04-03 | At&T Bell Laboratories | Automatic speech recognition using echo cancellation |
CA2006230C (en) * | 1989-12-20 | 1993-10-26 | Timothy James Littlewood | Method and apparatus for validating character strings |
US5125024A (en) * | 1990-03-28 | 1992-06-23 | At&T Bell Laboratories | Voice response unit |
JP2734750B2 (ja) | 1990-07-02 | 1998-04-02 | 日本電気株式会社 | 音声認識装置 |
US5155760A (en) * | 1991-06-26 | 1992-10-13 | At&T Bell Laboratories | Voice messaging system with voice activated prompt interrupt |
JP3398401B2 (ja) * | 1992-03-16 | 2003-04-21 | 株式会社東芝 | 音声認識方法及び音声対話装置 |
JPH0582703U (ja) * | 1992-04-14 | 1993-11-09 | ナイルス部品株式会社 | 音声認識装置 |
US5390279A (en) * | 1992-12-31 | 1995-02-14 | Apple Computer, Inc. | Partitioning speech rules by context for speech recognition |
US5515475A (en) * | 1993-06-24 | 1996-05-07 | Northern Telecom Limited | Speech recognition method using a two-pass search |
JPH08146991A (ja) * | 1994-11-17 | 1996-06-07 | Canon Inc | 情報処理装置及びその制御方法 |
US5708704A (en) * | 1995-04-07 | 1998-01-13 | Texas Instruments Incorporated | Speech recognition method and system with improved voice-activated prompt interrupt capability |
JP3535292B2 (ja) * | 1995-12-27 | 2004-06-07 | Kddi株式会社 | 音声認識システム |
US5799065A (en) * | 1996-05-06 | 1998-08-25 | Matsushita Electric Industrial Co., Ltd. | Call routing device employing continuous speech |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
US5884259A (en) * | 1997-02-12 | 1999-03-16 | International Business Machines Corporation | Method and apparatus for a time-synchronous tree-based search strategy |
GB2325112B (en) * | 1997-05-06 | 2002-07-31 | Ibm | Voice processing system |
US5991726A (en) * | 1997-05-09 | 1999-11-23 | Immarco; Peter | Speech recognition devices |
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US6246986B1 (en) * | 1998-12-31 | 2001-06-12 | At&T Corp. | User barge-in enablement in large vocabulary speech recognition systems |
-
1997
- 1997-07-31 US US08/903,633 patent/US5956675A/en not_active Ceased
-
1998
- 1998-05-25 CA CA002238642A patent/CA2238642C/en not_active Expired - Fee Related
- 1998-07-28 JP JP21318498A patent/JP3568785B2/ja not_active Expired - Fee Related
- 1998-07-30 KR KR10-1998-0030787A patent/KR100512662B1/ko not_active IP Right Cessation
- 1998-07-31 EP EP98305809A patent/EP0895224B1/en not_active Expired - Lifetime
- 1998-07-31 DE DE69827202T patent/DE69827202T2/de not_active Expired - Fee Related
-
2001
- 2001-07-13 US US09/905,596 patent/USRE38649E1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CA2238642C (en) | 2002-02-26 |
USRE38649E1 (en) | 2004-11-09 |
KR100512662B1 (ko) | 2005-11-21 |
CA2238642A1 (en) | 1999-01-31 |
EP0895224A3 (en) | 1999-08-18 |
US5956675A (en) | 1999-09-21 |
EP0895224B1 (en) | 2004-10-27 |
JPH1195791A (ja) | 1999-04-09 |
DE69827202T2 (de) | 2006-02-16 |
KR19990014292A (ko) | 1999-02-25 |
DE69827202D1 (de) | 2004-12-02 |
EP0895224A2 (en) | 1999-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3568785B2 (ja) | 音声認識方法 | |
US6574595B1 (en) | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition | |
US6292778B1 (en) | Task-independent utterance verification with subword-based minimum verification error training | |
US6138095A (en) | Speech recognition | |
US6850887B2 (en) | Speech recognition in noisy environments | |
AU672895B2 (en) | Connected speech recognition | |
US8670977B2 (en) | System and method of lattice-based search for spoken utterance retrieval | |
US5907634A (en) | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars | |
US6125345A (en) | Method and apparatus for discriminative utterance verification using multiple confidence measures | |
US5799065A (en) | Call routing device employing continuous speech | |
EP1159737B9 (en) | Speaker recognition | |
EP1220197A2 (en) | Speech recognition method and system | |
Cook et al. | Real-time recognition of broadcast radio speech | |
Rose et al. | Speech recognition using automatically derived acoustic baseforms | |
Raman et al. | Robustness issues and solutions in speech recognition based telephony services | |
JP4636695B2 (ja) | 音声認識 | |
Setlur et al. | Recognition-based word counting for reliable barge-in and early endpoint detection in continuous speech recognition | |
Song et al. | A robust speaker-independent isolated word HMM recognizer for operation over the telephone network | |
Galler et al. | Robustness improvements in continuously spelled names over the telephone | |
Dong et al. | Fast confidence measure algorithm for continuous speech recognition. | |
Rose et al. | A user-configurable system for voice label recognition | |
Jeanrenaud et al. | A multimodal, multilingual telephone application: the wildfire electronic assistant | |
Tan et al. | Evaluation and implementation of a voice-activated dialing system with utterance verification. | |
Ortmanns et al. | Architecture and search organization for large vocabulary continuous speech recognition | |
Lee et al. | Using keyword spotting and utterance verification to a prank call rejection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040616 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |