JP4960596B2 - 音声認識の方法およびシステム - Google Patents

音声認識の方法およびシステム Download PDF

Info

Publication number
JP4960596B2
JP4960596B2 JP2004549439A JP2004549439A JP4960596B2 JP 4960596 B2 JP4960596 B2 JP 4960596B2 JP 2004549439 A JP2004549439 A JP 2004549439A JP 2004549439 A JP2004549439 A JP 2004549439A JP 4960596 B2 JP4960596 B2 JP 4960596B2
Authority
JP
Japan
Prior art keywords
recognition result
segment
user
output
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004549439A
Other languages
English (en)
Other versions
JP2006505002A5 (ja
JP2006505002A (ja
Inventor
コーイマン,アルベルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2006505002A publication Critical patent/JP2006505002A/ja
Publication of JP2006505002A5 publication Critical patent/JP2006505002A5/ja
Application granted granted Critical
Publication of JP4960596B2 publication Critical patent/JP4960596B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本発明は、ユーザの音声信号に含まれる音声情報を認識するように音声信号を分析し、最も確実にマッチする認識結果をテスト手順内でサイド音声信号に変換して、確認修正のためにユーザに出力する音声認識方法に関する。本発明はソフトウェア製品およびコンピュータ読み取り可能な記録媒体にも関する。本発明は、ユーザの音声信号を検出するデバイスを含む音声認識システムにも関する。その音声認識システムは、音声信号に含まれる音声情報を認識し最も確実にマッチする認識結果を決定するために、検出した音声信号を分析する音声認識デバイスも含む。また、その音声認識システムは、テスト手順において前記最も確実な認識結果を音声情報に再変換し、確認・修正のためユーザに出力する音声出力デバイスも含む。
音声認識システムは、音声信号をスペクトルまたは時間的に分析し、分析した音声信号を既知の音声情報の可能性のある信号シーケンスのモデルとセグメントごとに比較する。このために、音声出力デバイスは、例えば一つの言語で意味のある言葉である、可能な異なる信号シーケンスの完全なライブラリを有する。受け取った音声信号をモデルと比較して認識結果を得るために、音声信号のセグメントと最もよくマッチするモデルを毎回検索する。通常は、音声信号が付随するセグメントに属する確率が各モデルについて計算される。音声信号に関する限り長いテキスト、例えば1〜2センテンスにおいて、音声信号のセグメントに個々のモデルがいかによくマッチするかを分析しその確率を計算するときに、文法的および/または言語学的ルールが考慮される。長い音声信号の個々のセグメントが利用可能なモデルにマッチすることだけでなく、全体的によりよい認識結果を取得し間違いを減らすために、音声信号セグメントが現れる文脈も考慮される。しかし、それにもかかわらず、話されたテキストの文、その一部、単語等が間違って認識される確率は残っている。
それゆえ、ほとんどのアプリケーションにおいては、音声認識システムのユーザが認識結果をテストし、必要に応じて訂正する機械を与える必要がある。このことは、ユーザが入力に関して直接フィードバックを得られない場合に特に必要であり、例えば、ユーザが長いテキストを話し、そのテキストが書かれたテキストやその他の機械読み取り可能な形式(以下、簡単のためテキスト形式と呼ぶ)で格納されるアプリケーションなどで必要である。この点で一般的な例としては、ディクテーションシステムや、初めメッセージをテキスト形式に変換し、その後処理したり通信ネットワークを介して伝送するアプリケーションである電子メール、ファックス、SMSなどがある。この種のアプリケーションとしては自動翻訳システムがある。その自動翻訳システムでは、音声信号が初めテキスト形式に変換され、このテキスト形式に基づき異なる言語に翻訳され、最後に音声出力デバイスにより出力するために、翻訳されたテキストが再度音声信号に変換される。PCにリンクした従来のディクテーションシステムにおいて、ユーザが従来の編集機能により適すとを修正できるように、認識結果はPCの表示スクリーン上にテキスト形式で直接表示される。しかし、この訂正方法は認識したテキストを視覚的に表示できないアプリケーションには適さない。例えば、「通常の」電話等の好適な表示デバイスを有さないデバイスを使用している場合などである。また、弱視の人用のアプリケーションにも適さない。このような場合、ユーザが認識結果を確認または訂正できるように、例えばテキスト音声ジェネレータなどの自動音声出力デバイスを介してユーザに音声の形式で認識結果を出力することが必要である。
この種の方法は例えば特許文献1に記載されている。特許文献1は訂正の方法に触れている。一つの方法によると、認識されたメッセージ全体が再生され、認識結果が実際に話したメッセージとマッチしないとき、ユーザはそのメッセージをもう一度しゃべる。ノイズが大きい状況でテキストが話されたときなど、認識エラーが比較的多い環境においてこの方法は満足の行くものではない。なぜなら、所望の結果を得るまでにユーザは完全なメッセージを何度も話さなければならないかも知れないからである。第2の方法によると、音声信号の分析中に、音声信号のセグメントに対して確実性ファクタが自動的に決定される。そして、そのテキストの確実性ファクタが低いセグメント、すなわちエラーが発声した確率が最も高いセグメントだけがユーザに出力される。しかし、このやり方でテキストを完全にチェックすることはできない。第3の方法によると、テキストを単語やセンテンス等のセグメントで再生し、各セグメントの終わりに待ち時間を挿入するように構成される。ユーザは、例えば「イエス」や「ノー」という言葉により、1つひとつのセグメントを個別に確認したり拒絶したりする機会を有する。ユーザがポーズの間に長い時間だまっていれば、これは確認と解釈される。再生されたセグメントをユーザが拒絶した場合、ユーザはこのセグメントを再度完全なものとしてしゃべる機会を有する。
その通り、この第3の方法は、ユーザの時間を大幅に節約し、完全なテキストを再度話さなければならない第1の方法より快適である。しかし、ユーザは、エラーが多く生じた困難な認識環境においては特に、訂正するセグメントを何度も話さなければならないかも知れない。この方法にはさらに別の問題があり、例えば、ユーザが(例えばユーザの方言により)テキストの一部を変わった発音で話すような場合、音声認識システムが最適なモデルを持っておらず、テキストを何回話しても、間違った認識結果を最も確実な認識結果としてしまうことがある。
米国特許第6,219,628B1号
本発明の目的は、上記種類の音声認識方法および音声認識システムを改良して、間違って認識された音声信号の訂正が速く簡単にでき、ユーザをより快適にすることである。
この目的は、分析の際に、認識すべき音声信号に次に高い確率でマッチする幾つかの代替的認識結果、すなわち少なくともひとつの代替案を生成することにより達成される。テスト手続き中の出力は、供給された認識結果が間違っている場合、ユーザが出力を中断できるようにされる。中断前最後に出力された認識結果のセグメントに対して、代替的認識結果の対応するセグメントが音声形式で自動的に出力され、ユーザは選択することができる。その後、供給された認識結果のセグメントは、ユーザが選択した代替的認識結果のひとつに基づき訂正される。最後に、認識すべき音声信号の後続の残りのセグメントについてテスト手続きが継続される。
該方法は、最も確実そうな認識結果を判断するために、音声認識デバイスが複数の代替的認識結果をそれらの確率についてテストしなければならないことを利用している。分析中にあまり確実相ではない結果を拒絶するのではなく、音声認識デバイスはn番目までの最もよい文または単語仮説グラフを代替的認識結果として生成し、これらの代替的認識結果をテスト手続きに使用するために、例えばバッファメモリに格納する。音声認識デバイスが追加的にしなければならない仕事は非常に少なくてすむ。テスト手続き中に、この追加的情報を認識結果の正しくなく認識されたセグメントに対して、代替案を提供するために使用する。この代替案の確率にはほとんど違いがないので、ユーザが代替案中に正しい認識結果を発見する確率は高い。ユーザは、テキストのセグメントを再びしゃべらずに、この正しい代替案を選択するだけでよい。これにより、訂正のために再度話されたテキストセグメントが再び間違って認識されるというリスクをなくすことができる。
テスト手続き中に認識結果は、セグメントの後に短いポーズが挿入され、このポーズにおいてユーザが例えば「ストップ」や「ノー」という言葉により認識結果の最後のセグメントを拒絶するかどうかをチェックする。しかし、ユーザのボイスアクティビティは認識結果の出力中常にモニターしておくことが好ましい。出力中にユーザがコメントをするとすぐに、出力が」中断される。これは、いわゆる「バージイン」法を使用していることを意味する。出力中に不要なポーズはなくすことができるので、テスト手続きは非常に速く終了することができる。
音声出力中にユーザが発話した場合、認識結果の音声出力は中断される。これは、部屋にいる別の人間に対する発話であって、音声出力を中断することを意図したものでなくても、中断してしまう。これを防ぐため、ユーザは、例えば「続けろ」などの所与のコマンドを話すことによって、代替的認識結果を聴かずとも、出力を継続することができる。
非常に有利な方法によれば、例えばすべての認識結果が正しくなくてユーザがどの代替的認識結果のセグメントをも選択しなかったとき、ユーザに要求信号が出力され、訂正のためそのセグメントをもう一度しゃべるように要求する。
供給された代替的認識結果の選択には様々な可能性がある。
第1の態様によれば、認識結果が逐次に出力され、ユーザがその認識結果を確認するかどうかを待つ。確認された場合、その代替的認識結果が正しいとして受け入れられる。確認されない場合、次の代替的認識結果が出力される。
第2の態様によれば、すべての代替的認識結果、または代替的認識結果のセグメントが、連続して出力され、出力された後にユーザは適当な認識結果を選択する。好ましくは、各代替的認識結果は、例えば数字や文字であるインジケータとともに出力される。そのインジケータは認識結果と関連づけられている。ユーザは、その数字や文字を話すことにより、インジケータを入力し、代替的認識結果のセグメントを選択することができる。
さらに好ましい態様において、例えば電話機のDTMF信号のような通信端末のキー信号がインジケータに関連づけられる。通信端末のキーを操作することによりセグメントを選択する。これにより、音声認識動作を使用しないで認識結果の選択をすることができ、音声認識により生じうるエラーを排除することができる。
あるいは、代替的認識結果の出力にバージイン法を用いることもできる。これは、代替的認識結果がポーズなしで出力され、正しい認識結果が出力されたときに、ユーザは「ストップ」や「イエス」等の言葉を言うことを意味する。
非常に有利な態様におけるセグメントの訂正後に、認識すべき音声信号にマッチする確率について認識結果が再度評価される。すなわち、それまでに確認または訂正されたセグメントだけでなく、直前に訂正されたセグメントも考慮される。再評価後に最も高い確率を有する後続の認識結果のセグメントが出力されて、テスト手続きが継続される。再評価の結果、認識すべき音声信号のそれまでに訂正または確認された部分すべてに基づき、文脈に依存する確率分析において、テスト手続き中においても認識結果を向上させることができ、これによりその後のセクションで訂正が必要となる確率を減らすことができる。
長いテキストやメッセージを認識するとき、テスト手続きは様々な方法で行うことができる。
一態様において、テスト手続きはユーザが完全なテキストを入力した後に実行される。ユーザは、例えば「終わり」等の適当なコマンドにより、所望のテキストを話し終わったという合図を送ることができる。
さらに別の態様によれば、完全なテキストの一部が入力された後に、テスト手続きがすでに実行される。音声認識システムに負荷をかけることなく、すでに確認または訂正されたテキストの部分をアプリケーションの他の構成要素で処理したりメモリに格納したりすることができるという利点を有する。例えば、テキストまたは音声信号の所与の長さの部分が到達したとき、所与の長さの音声ポーズが生じたとき、および/またはユーザが特殊なコマンドにより要求したときは、それまでに入力されたテキストの部分に対しテスト手続きを実行することができる。
本発明による音声認識システムは、本発明による方法を実行する音声認識デバイスを含まなければならない。その音声認識デバイスは、分析中に、出力される最も確実にマッチする認識結果に対して、次に高い確率で認識すべき音声信号にマッチする幾つかの代替的認識結果を生成し、出力または格納する。さらにまた、該音声認識システムは、ユーザがテスト手続き中に出力を中断する手段と、中断前最後に出力された認識結果のセグメントに対して、代替的認識結果の対応するセグメントを自動的に出力する会話制御デバイスとを必要とする。さらにまた、該音声認識システムは、代替的認識結果の供給されたセグメントのひとつを選択する手段と、選択された代替的認識結果の対応するセグメントに基づき、認識結果のセグメントを訂正する訂正デバイスとを含む。
通信端末のキー信号により代替的認識結果が選択される場合、該音声認識システムは、キー信号を受信し、それを認識し、それを用いて供給されたセグメントのひとつを選択する適当なインターフェイスも含んでいる。
本発明による音声認識システムは、コンピュータ上の好適なソフトウェアにより、または装置の音声制御において有利に実現することができる。例えば、該音声認識デバイスと会話制御デバイスはソフトウェアモジュールの形式で完全に実現することができる。コンピュータ読み取り可能なテキストに基づき音声を生成するデバイスである例えばいわゆるTTSコンバータ(テキスト・ツー・音声コンバータ)も適当なソフトウェアにより実現することができる。該システムは、好適なアンプを有するマイクロホン等である音声入力手段と好適なアンプを有するラウドスピーカ等である音声出力手段とを有すればよい。
該音声認識システムは、電話ネットワークやインターネット等である従来の通信ネットワークを介してアクセスすることができるサーバで実施されてもよい。この場合、音声入力デバイスと音声出力デバイス、すなわちマイクロホン、ラウドスピーカ、およびアンプは、ネットワークを介して該音声認識システムのサーバと接続されたユーザの通信端末にある。さらにまた、該音声認識システムは、例えば単一のサーバ等である単一の装置内に実現されていなくてもよい。該システムの様々な構成要素は、好適なネットワークを介して相互に接続された異なる場所にあってもよい。本発明による音声認識システムは、通信システム内のボイスメールメッセージをSMSメッセージや電子メールに変換するアプリケーション等である特定のアプリケーションと関連づけられていてもよい。しかし、該音声認識システムは複数の異なるアプリケーションに対するサービスシステムとして利用されてもよい。このように、複数のアプリケーションに対するインターフェイスを形成してもよい。
図1に示した音声認識システム1の実施形態は入力14を有し、これにはマイクロホン2がアンプ3を介して接続されている。該音声認識システム1は、出力16も含み、これには音声信号を出力するために、アンプ5を介してラウドスピーカが接続されている。マイクロホン2、関連するアンプ3、ラウドスピーカ4、関連するアンプ5は、音声認識システム1とは離れた装置の一部を形成し、電話ネットワーク等の通信ネットワークを介して音声認識システム1と通信する。
該通信端末はキーボード6も含み、そのキーボード6を介してDTMF(Dual Tone Multi Frequency)等の音響信号を生成できる。この信号も音声信号チャンネルを介して音声認識システムの入力14に送られる。
マイクロホン2からアンプ3を介して入力14に到達した音声信号SIは、音声認識システム1により読み取り可能または機械読み取り可能なテキストに変換され、例えばSMSメッセージや電子メールを送信するアプリケーション15に送られる。このアプリケーション15はテキストデータをしかるべく処理したり送信したりする。
このために、入力側では、音響信号は最初にいわゆるボイスアクティビティディテクタ(VAD)12に到達する。ボイスアクティビティディテクタ12は、到来信号にユーザからの到来音声信号SIが実際に含まれているかどうか、または到来信号がバックグラウンドノイズのみかどうかをテストする。音声信号SIは次に音声認識デバイス7に送られる。その音声認識デバイス7は、音声信号SIに含まれた音声情報を認識するために、従来の方法で音声信号SIを分析し、最も確実なマッチを示す認識結果を決定する。
本発明に従って、音声認識デバイス7は、認識すべき音声認識信号SIと最も高い確率でマッチする認識結果に加え、認識すべき音声認識信号SIと次に高い確率でマッチするいくつかの認識結果も生成するように構成されている。
認識すべき音声認識信号SIと最も高い確率でマッチする認識結果は、会話制御デバイス10にテキスト形式で送られる。その会話制御デバイス10はこの最も確実な認識結果をテキスト音声ジェネレータ(TTSジェネレータ)9に送る。代替認識結果は、会話制御デバイス10に直接送られバッファされるか、または音声認識デバイス7により別のメモリ8に格納される。会話制御デバイス10はこの別のメモリ8にいつでもアクセスできる。最も確実な認識結果は、ユーザによる確認および/または訂正のためテスト手続きにおいて、TTSジェネレータ9を用いて音声信号に変換され、音声の形式でアンプ5とラウドスピーカ4を介して出力される。
このテスト手続きの実行については、以下図2を参照して詳細に説明する。
ステップIにおいて、上で説明したように最初に音声が入力される。その後、ステップIIにおいて、様々な代替的認識結果が決定され、どの認識結果が認識すべき音声認識信号SIと最もよくマッチするか決定するために、ステップIIIにおいて評価される。その後、ステップIVにおいて、最も確実そうな認識結果がセグメントで出力される。このセグメントによる出力は、ユーザがセグメントに別れていることに気がつかないように、連続して実行される。個々のセグメントは、例えば、文の個々の単語、単語仮説グラフ、文の一部、または単語仮説グラフの一部であってもよい。
ステップVにおいて、各セグメントの後に、ユーザが出力を理解したかどうかテストする。例えば、このテストは、認識結果の出力中のユーザの表示により可能である。ユーザのボイスアクティビティはVAD12によりすぐに認識される。そのVAD12は、対応する制御信号SCを介してTTSジェネレータ9を停止するとともに、会話制御デバイス10がユーザによる中断を登録するように、制御信号SCを会話制御デバイス10にも同時に送る。中断がなければ、入力されたテキストの終わりに来たかどうかテストする(ステップVI)。テキストの終わりに来た場合、認識結果はユーザにより確認されたものとみなされ、アプリケーション15に送られる(ステップVII)。テキストの終わりに来ていない場合、最も確実そうな認識結果の出力が続けられる。
しかし、ステップVで中断が登録された場合、ステップVIIIにおいて、最初にどのセグメントが問題なのか決定する。説明を簡単にするため、ここでは正しくないセグメントは最後に出力されたセグメントであると仮定する。すなわち、ユーザにより出力が中断される直前に出力されたセグメントであると仮定する。
会話制御デバイス10は、代替認識結果がそれに格納されていない限り、バッファ8にアクセスし、ステップVIIIにおいて決定された正しくないセグメントに対応する代替的認識結果の対応するセグメントを決定する。対応するセグメント、または代替的認識結果は、例えば1から0までの数字であるインジケータと関連づけられる。
代替的セグメントは、関連づけられたインジケータとともにTTSジェネレータ9を介して音声の形式でユーザに出力される(ステップIX)。
ステップXにおいて、ユーザは、キーボード6上でインジケータに対応するキーを押すことにより、代替的認識結果から好適なセグメントを選択することができる。キーを押すことによりDTMF信号が生成され、音声チャンネルを介して音声認識システム1の入力14に送信される。このDTMF信号はDTMF認識部13により認識される。そのDTMF認識部は、音声認識デバイス7と並列に接続されている。DTMF認識部13は対応する選択信号SAを会話制御デバイス10に出力する。この選択信号SAにより、訂正部11は間違って認識されたセグメントを選択された代替的認識結果のセグメントで置き換える(ステップXI)。DTMF認識部13はDTMF信号を認識すると、音声認識デバイス7に信号を送り、例えば、音声認識デバイス7がDTMF信号の不要な分析をしないように、その音声認識デバイスを不活性化する。
訂正後、ステップXIIにおいて、すべての認識結果、すなわち最も確実そうな認識結果および代替的認識結果を再評価する。好ましくは、この再評価は音声認識デバイス7で実行する。音声認識デバイス7はバッファ8にアクセスすることができるか、または会話制御デバイス10からこの目的に必要なデータを受け取る。この文脈に依存する認識結果の再評価は、それ以前に確認または訂正されたセグメントのすべてを考慮に入れて行われる。つまり、正しいセグメントの確率は100%であるが、正しいセグメントとされなかった代替的セグメントの確率は0%であるということを考慮する。例えば、すでに分かっているセグメントに基づき、この知識がないときには確率が高いとされた仮説が拒絶され、一方、もともと確率が低いとされていた仮説が非常に確実なものになる。その結果、後続のセグメントの出力においてエラーの数が大幅に減少し、訂正が加速される。追加的に、または代替的に、ユーザの発話の信頼性高く認識された部分は、言語モデルおよび/または音響モデルの適応において考慮することができる。
上で説明した音声認識システムと方法は本発明の特殊な実施形態であり、当業者は様々な方法でこれらを修正することができることに注意すべきである。例えば、代替的認識結果のセグメントがどれも正しいとは考えられない限り、ユーザがセグメントを再度しゃべる機会を有するステップを上記方法に挿入することは可能であり、また意味がある。DTMF対応のキーボード6により選択するのではなく、音声入力により選択を行うことも可能である。また、キーボードが他の信号を送信し、別のデータチャンネルを介して音声認識システム1に送って信号を処理させてもよい。同様に、テスト手続き中の音声出力の中断を特定のDTMF信号等で行ってもよい。
本発明による音声認識システムを示すブロック図である。 訂正方法を示すフローチャートである。

Claims (11)

  1. ユーザの音声信号に含まれる音声情報を認識するために前記音声信号を分析し、最も確実なマッチをしている認識結果を、テスト手続きにおいて再度音声信号に変換し、確認及び/または訂正のために前記ユーザに出力する音声認識方法であって、
    認識すべき前記音声信号と次に高い確率でマッチする複数の代替認識結果を前記分析中に生成し、
    供給された前記認識結果が間違っている場合、前記ユーザは前記出力を中断し、中断前最後に出力された認識結果のセグメントに対して、これに対応する前記複数の代替認識結果のセグメントが前記ユーザの選択のため自動的に音声の形式で出力されるように、前記テスト手続きにおいて出力し、
    選択された代替認識結果の対応するセグメントに基づき、前記供給された認識結果中のセグメントを訂正し、
    その後認識すべき前記音声信号の後続の残りのセグメントに対して前記テスト手続きを継続することを特徴とする方法。
  2. 請求項1に記載の方法であって、
    前記ユーザのボイスアクティビティは前記テスト手続きにおける前記認識結果の出力中にも引き続きモニターされ、
    前記ユーザの音声信号の受信に応じて前記出力が中断されることを特徴とする方法。
  3. 請求項1または2に記載の方法であって、
    前記代替認識結果のセグメントが選択されなかったとき、前記ユーザに訂正のため前記一セグメントを再度しゃべるように要求する要求信号を出力することを特徴とする方法。
  4. 請求項1ないし3いずれか一項に記載の方法であって、
    各代替認識結果にインジケータが付随し、
    前記テスト手続き中に、前記代替認識結果のセグメントは前記付随したインジケータとともに出力され、代替認識結果のセグメントの選択は前記インジケータの入力により行われることを特徴とする方法。
  5. 請求項1ないし4いずれか一項に記載の方法であって、
    前記インジケータは数字または文字であることを特徴とする方法。
  6. 請求項4または5に記載の方法であって、
    通信端末のキー信号が前記インジケータに関連づけられ、
    代替認識結果のセグメントの前記選択は前記通信端末の前記キーの操作により行われることを特徴とする方法。
  7. 請求項1ないし6いずれか一項に記載の方法であって、
    前記テスト手続き中のセグメント出力の訂正後、前記様々な認識結果が認識すべき前記音声信号とマッチする確率の点において再評価され、すなわち、最後に訂正したセグメントおよび/またはすでに確認または訂正されたセグメントを考慮して、前記テスト手続きで前記再評価後に最も高い確率を示す認識結果の次のセグメントが出力されることを特徴とする方法。
  8. 請求項1ないし7いずれか一項に記載の方法であって、
    前記テスト手続きは、前記ユーザによる完全なテキストの入力の終了後行われることを特徴とする方法。
  9. 請求項1ないし7いずれか一項に記載の方法であって、
    前記テスト手続きは、前記ユーザによる完全なテキストの入力後、すでに行われていることを特徴とする方法。
  10. 音声認識システムであって、
    ユーザの音声信号を検知するデバイスと、
    前記音声信号に含まれる音声情報を認識するために、前記検知された音声信号を分析し、最も確実なマッチをしている認識結果を決定する音声認識デバイスと、
    テスト手続きにおいて、前記最も確実なマッチをしている認識結果を音声情報に変換し、確認及び/または訂正のため前記ユーザに出力する音声出力デバイスとを有し、
    前記音声認識デバイスは、認識すべき前記音声信号と次に高い確率でマッチする複数の代替認識結果を前記分析中に生成し、
    前記音声認識システムは、
    − 前記テスト手続き中に前記出力を前記ユーザにより中断する手段と、
    − 中断前最後に出力された認識結果のセグメントに対して、これに対応する前記複数の代替認識結果のセグメントをそれぞれ自動的に音声の形式で出力する会話制御デバイスと、
    − 前記代替認識結果の供給されたセグメントのうちの一つを選択する手段と、
    − 選択された代替認識結果の対応するセグメントに基づき、次に出力される前記認識結果のセグメントを訂正する訂正部とを有することを特徴とする音声認識システム。
  11. コンピュータプログラムであって、
    コンピュータで実行されたとき、請求項1ないし9いずれか一項記載の方法のすべてのステップを実行するプログラムコード手段を有することを特徴とするコンピュータプログラム。
JP2004549439A 2002-11-02 2003-10-24 音声認識の方法およびシステム Expired - Fee Related JP4960596B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10251112.8 2002-11-02
DE10251112A DE10251112A1 (de) 2002-11-02 2002-11-02 Verfahren und System zur Spracherkennung
PCT/IB2003/004717 WO2004042699A1 (en) 2002-11-02 2003-10-24 Method and system for speech recognition

Publications (3)

Publication Number Publication Date
JP2006505002A JP2006505002A (ja) 2006-02-09
JP2006505002A5 JP2006505002A5 (ja) 2006-12-21
JP4960596B2 true JP4960596B2 (ja) 2012-06-27

Family

ID=32115142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004549439A Expired - Fee Related JP4960596B2 (ja) 2002-11-02 2003-10-24 音声認識の方法およびシステム

Country Status (8)

Country Link
US (1) US20050288922A1 (ja)
EP (1) EP1561204B1 (ja)
JP (1) JP4960596B2 (ja)
CN (1) CN100524459C (ja)
AT (1) ATE421748T1 (ja)
AU (1) AU2003274432A1 (ja)
DE (2) DE10251112A1 (ja)
WO (1) WO2004042699A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004029873B3 (de) * 2004-06-16 2005-12-29 Deutsche Telekom Ag Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme
US7912186B2 (en) * 2004-10-20 2011-03-22 Microsoft Corporation Selectable state machine user interface system
US7551727B2 (en) 2004-10-20 2009-06-23 Microsoft Corporation Unified messaging architecture
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
DE102006058758B4 (de) * 2006-12-12 2018-02-22 Deutsche Telekom Ag Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
JP5610197B2 (ja) * 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
CN102723080B (zh) * 2012-06-25 2014-06-11 惠州市德赛西威汽车电子有限公司 一种语音识别测试系统及方法
US10229676B2 (en) * 2012-10-05 2019-03-12 Avaya Inc. Phrase spotting systems and methods
CN102945671A (zh) * 2012-10-31 2013-02-27 四川长虹电器股份有限公司 语音识别方法
KR20140065897A (ko) * 2012-11-22 2014-05-30 삼성전자주식회사 전력 부하 모니터링 장치 및 방법
US9620115B2 (en) 2013-01-03 2017-04-11 Telenav, Inc. Content delivery system with barge-in mechanism and method of operation thereof
CN104618456A (zh) * 2015-01-13 2015-05-13 小米科技有限责任公司 信息发布方法及装置
US9773483B2 (en) * 2015-01-20 2017-09-26 Harman International Industries, Incorporated Automatic transcription of musical content and real-time musical accompaniment
KR102561711B1 (ko) * 2016-02-26 2023-08-01 삼성전자주식회사 컨텐트를 인식하는 방법 및 장치
DE102016115243A1 (de) * 2016-04-28 2017-11-02 Masoud Amri Programmieren in natürlicher Sprache
US11151986B1 (en) * 2018-09-21 2021-10-19 Amazon Technologies, Inc. Learning how to rewrite user-specific input for natural language understanding
KR102368193B1 (ko) * 2018-10-29 2022-03-02 어니컴 주식회사 음성합성을 이용한 음성인식기능 검증 방법 및 장치
CN110853639B (zh) * 2019-10-23 2023-09-01 天津讯飞极智科技有限公司 语音转写方法及相关装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2585547B2 (ja) * 1986-09-19 1997-02-26 株式会社日立製作所 音声入出力装置における入力音声の修正方法
JPH0351898A (ja) * 1989-07-20 1991-03-06 Sanyo Electric Co Ltd 音声認識装置
JPH0854894A (ja) * 1994-08-10 1996-02-27 Fujitsu Ten Ltd 音声処理装置
JPH09114482A (ja) * 1995-10-17 1997-05-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識のための話者適応化方法
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
JPH10143503A (ja) * 1996-11-08 1998-05-29 Nec Corp 音声ワードプロセッサ
US6154526A (en) * 1996-12-04 2000-11-28 Intellivoice Communications, Inc. Data acquisition and error correcting speech recognition system
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6219628B1 (en) * 1997-08-18 2001-04-17 National Instruments Corporation System and method for configuring an instrument to perform measurement functions utilizing conversion of graphical programs into hardware implementations
JPH11338493A (ja) * 1998-05-26 1999-12-10 Sony Corp 情報処理装置および方法、並びに提供媒体
US6405170B1 (en) * 1998-09-22 2002-06-11 Speechworks International, Inc. Method and system of reviewing the behavior of an interactive speech recognition application
US6219638B1 (en) * 1998-11-03 2001-04-17 International Business Machines Corporation Telephone messaging and editing system
JP2000250587A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 音声認識装置及び音声認識翻訳装置
JP3980791B2 (ja) * 1999-05-03 2007-09-26 パイオニア株式会社 音声認識装置を備えたマンマシンシステム
DE50008703D1 (de) * 1999-06-10 2004-12-23 Infineon Technologies Ag Spracherkennungsverfahren und -einrichtung
JP2001005809A (ja) * 1999-06-25 2001-01-12 Toshiba Corp 文書作成装置、文書作成方法、及び文書作成プログラムが記録された記録媒体
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
JP2001100786A (ja) * 1999-09-28 2001-04-13 Canon Inc 音声認識方法、装置及び記憶媒体
EP1169678B1 (en) * 1999-12-20 2015-01-21 Nuance Communications Austria GmbH Audio playback for text edition in a speech recognition system
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
WO2002021510A1 (en) * 2000-09-08 2002-03-14 Koninklijke Philips Electronics N.V. Speech recognition method with a replace command
EP1189203B1 (en) * 2000-09-18 2006-05-17 L &amp; H Holdings USA, Inc. Homophone selection in speech recognition
ATE317583T1 (de) 2001-03-29 2006-02-15 Koninkl Philips Electronics Nv Texteditierung von erkannter sprache bei gleichzeitiger wiedergabe
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US6910012B2 (en) * 2001-05-16 2005-06-21 International Business Machines Corporation Method and system for speech recognition using phonetically similar word alternatives
US6963834B2 (en) * 2001-05-29 2005-11-08 International Business Machines Corporation Method of speech recognition using empirically determined word candidates
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
US7260534B2 (en) * 2002-07-16 2007-08-21 International Business Machines Corporation Graphical user interface for determining speech recognition accuracy

Also Published As

Publication number Publication date
US20050288922A1 (en) 2005-12-29
EP1561204A1 (en) 2005-08-10
CN100524459C (zh) 2009-08-05
AU2003274432A1 (en) 2004-06-07
ATE421748T1 (de) 2009-02-15
WO2004042699A1 (en) 2004-05-21
JP2006505002A (ja) 2006-02-09
EP1561204B1 (en) 2009-01-21
CN1708783A (zh) 2005-12-14
DE10251112A1 (de) 2004-05-19
DE60325997D1 (de) 2009-03-12

Similar Documents

Publication Publication Date Title
JP4960596B2 (ja) 音声認識の方法およびシステム
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
KR100908358B1 (ko) 음성 인식을 위한 방법, 모듈, 디바이스 및 서버
US6308151B1 (en) Method and system using a speech recognition system to dictate a body of text in response to an available body of text
US7668710B2 (en) Determining voice recognition accuracy in a voice recognition system
US20140365200A1 (en) System and method for automatic speech translation
US20120150538A1 (en) Voice message converter
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP5426363B2 (ja) 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
JP2006154724A (ja) 対話システム、対話方法、及びコンピュータプログラム
JP2008077601A (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
US7167544B1 (en) Telecommunication system with error messages corresponding to speech recognition errors
CN113362828A (zh) 用于识别语音的方法和装置
USH2187H1 (en) System and method for gender identification in a speech application environment
JP2017167247A (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2019197221A (ja) 用件判定装置、用件判定方法およびプログラム
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
JP2006113439A (ja) 音声自動応答装置及びプログラム
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
CN113936660B (zh) 具有多个语音理解引擎的智能语音理解系统和交互方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061023

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100105

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100406

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100914

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20101005

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20101112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110628

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110701

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees