JP5025261B2 - 信頼水準の指示により音声認識の結果を訂正するためのシステム - Google Patents

信頼水準の指示により音声認識の結果を訂正するためのシステム Download PDF

Info

Publication number
JP5025261B2
JP5025261B2 JP2006506791A JP2006506791A JP5025261B2 JP 5025261 B2 JP5025261 B2 JP 5025261B2 JP 2006506791 A JP2006506791 A JP 2006506791A JP 2006506791 A JP2006506791 A JP 2006506791A JP 5025261 B2 JP5025261 B2 JP 5025261B2
Authority
JP
Japan
Prior art keywords
information
confidence level
words
recognized
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006506791A
Other languages
English (en)
Other versions
JP2006522363A (ja
JP2006522363A5 (ja
Inventor
スタングルマイヤー,クラウス
Original Assignee
ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー filed Critical ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Publication of JP2006522363A publication Critical patent/JP2006522363A/ja
Publication of JP2006522363A5 publication Critical patent/JP2006522363A5/ja
Application granted granted Critical
Publication of JP5025261B2 publication Critical patent/JP5025261B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、認識されたテキスト情報が音声情報から音声認識装置により認識され、したがって音声情報に関連される認識されたテキスト情報におけるテキストパッセージを訂正するための訂正装置に関する。
また、本発明は、認識されたテキスト情報が音声情報から音声認識装置により認識され、したがって音声情報に関連される認識されたテキスト情報におけるテキストパッセージを訂正するための訂正方法に関する。
さらに、本発明は、コンピュータにより実行されるワードコレクションソフトウェアからなるコレクションソフトウェアを有するコンピュータプログラムプロダクトに関する。
かかる訂正装置及びかかる訂正方法は、たとえば文献US-A-6,173259より知られている。公知の訂正装置は、トランスクリプションサービスのコレクターのワードプロセッシングソフトウェアを実行するコンピュータにより実現される。コレクターは、音声認識プログラムで自動的に音声情報から認識されたテキスト情報を手動的に訂正する従業員である。
このケースにおける音声情報は、著者により生成されたディクテーションであり、このディクテーションは、コンピュータネットワークを介してサーバに送信される。サーバは、受信されたディクテーションの音声情報を様々なコンピュータに配信し、それぞれのコンピュータは、このケースでは音声認識装置を構成する音声認識ソフトウェアを実行する。
公知の音声認識装置は、確立されているリンク情報により、著者によるディクテーションの音声情報からのテキスト情報を認識する。リンク情報は、認識されたテキスト情報のそれぞれの単語を記録し、単語が音声認識装置により認識された音声情報の一部について記録する。ディクテーションの音声情報及び認識されたテキスト情報並びにリンク情報は、音声認識装置から訂正処理のためにコレクターのコンピュータに転送される。
公知の訂正装置は、同期再生手段を含んでおり、この同期再生手段により、同期再生モードを実行することができる。同期再生モードが訂正装置でアクティブであるとき、ディクテーションの音声情報は再生され、音声情報のそれぞれ音響的に再生された単語と同期して、音声認識システムにより再生された単語から認識された単語は、オーディオカーソルで記録される。したがって、オーディオカーソルは、認識されたテキスト情報で音響的に再生されている単語の位置を記録する。
不適切に又は誤って認識されたテキストパッセージがコレクターにより採取された場合、不適切に又は誤って認識されたテキストパッセージは、異なる、正しきそれぞれ適切なテキストパッセージで置き換えることができる。かかる訂正作業は、非常に時間のかかる作業であって、これにより、トランスクリプションのコストが著しく増加する。他方で、認識されたテキストの認識及び訂正の品質が最大である場合、コレクターは、認識されたテキスト全体をそれぞれ見る全体の音を聞く必要がある。したがって、1つの目的は、認識に続く訂正作業を認識されたそれぞれ訂正されたテキストの最大品質によりできるだけ迅速かつ効率的にすることである。
本発明の目的は、第一のパラグラフに記載されたタイプに従う訂正装置、第二のパラグラフに記載されたタイプに従う訂正方法、及び第三のパラグラフに記載されるタイプに従うコンピュータプログラムプロダクトを提供することにあって、これらによって、上述された課題及び問題点が回避される。
上述された目的を達成するため、かかる訂正装置では、訂正装置が以下に述べるやり方で特徴付けすることができる本発明に係る機能が提供される。
認識されたテキスト情報が音声情報から音声認識装置により認識され、したがって音声情報に関連付けされる、認識されたテキスト情報におけるテキストパッセージを訂正するための訂正装置は、以下の構成を有している。音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれのテキストパッセージでのリンク情報が、テキストパッセージが音声認識装置により認識された音声情報の部分を記録するリンク情報、並びに、認識されたテキスト情報のそれぞれのテキストパッセージでの信頼水準の情報が該テキストパッセージの認識の正しさを表す信頼水準情報を受信する手段。音声情報の音響再生の間、まさに再生されリンク情報により記録された音声情報に関連される認識されたテキスト情報のテキストパッセージが同期して記録される同期再生モードを実行するための同期再生手段。同期再生の間にテキスト情報のテキストパッセージの信頼水準の情報を示すための指示手段。
上述された目的を達成するため、本発明に係る機能がかかる訂正方法において考案され、訂正方法は、以下に述べられるやり方で特徴付けすることができる。
認識されたテキスト情報は音声情報から音声認識装置により認識され、したがって音声情報に関連される、認識されたテキスト情報におけるテキストパッセージを訂正する訂正方法では、以下のステップが実行される。音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれのテキストパッセージでのリンク情報が、テキストパッセージが音声認識装置により認識された音声情報の部分を記録するリンク情報、並びに、認識されたテキスト情報のそれぞれのテキストパッセージでの信頼水準の情報が該テキストパッセージの認識の正しさを表す信頼水準情報を受信するステップ。音声情報の音響再生の間、まさに再生されリンク情報により記録された音声情報に関連される認識されたテキスト情報のテキストパッセージが同期して記録される同期再生モードを実行するステップ。同期再生の間にテキスト情報のテキストパッセージの信頼水準の情報を示すステップ。
上述された目的を達成するため、かかるコンピュータプログラムプロダクトは、本発明に係る機能を含んでおり、コンピュータプログラムプロダクトは、以下に述べられるやり方で特徴づけすることができる。
コンピュータ向けコンピュータプログラムプロダクトは、該プロダクトがコンピュータ上で実行されたときに、上述された訂正方法のステップを実行するためのソフトウェアコード部分を含んでいる。
本発明の特徴的な機能によって、比較的シンプルなやり方で達成される。たとえば、本発明に係る訂正装置を使用したトランスクリプションシステムのコレクターは、比較的迅速かつ効率的に認識に従う訂正作業を行うことができ、これにより、認識又は訂正されたテキスト情報の最良の品質が保証される。特に、テキスト情報の全てのテキストパッセージの信頼値の同時及び永続的な指示よりはむしろ、同期再生の間に認識されたテキスト情報のテキストパッセージの信頼水準の情報を示すことにより、永続的な指示に転換又は集中することなしに、間違った又は正しくないテキストパッセージをコレクターは容易に認識することができるという利点を有する。
本発明に係る実施の形態では、請求項2及び請求項7に記載される手段が提供されるとき有利であることがわかる。コレクターは、個々のパッセージに焦点を合わせるだけでなく、全体の文書に焦点を合わせることができ、これにより、より高い品質及び精度を保証することができる。
本発明に係る実施の形態では、テキスト情報のテキストパッセージの信頼水準の情報の指示は、音響的に実行される場合がある。本発明に係る実施の形態では、請求項3及び請求項8に記載の手段が提供されるときに非常に有利であることがわかる。視覚的なフィードバックは、コレクターへの特定のテキストパッセージへの注意を増加するシグナル、手段としての役割を果たす。
請求項4及び請求項9に記載の手段が提供されるとき、本発明に係る実施の形態において非常に有利であることが更にわかる。信頼水準の情報に依存してディクテーションの特定のセクションについての再生速度を自動的に変えることで、コレクターの注意が増加され、訂正されたテキスト情報の精度が増加される。たとえば、より低い信頼水準を持つテキストパッセージについて、再生速度の自動的なスローダウンが実行される場合がある。
本発明に係る実施の形態では、請求項5及び請求項10に記載される手段が提供されるときに有利であることがわかる。これにより、訂正されたテキストの精度が更に改善される場合がある。
本発明は、実現の限定されるものではない例として、本発明の好適な実施の形態を示す添付図面に基づいて、本発明の物理的な基礎を説明する以下の説明に従って良好に理解されるであろう。
図1は、コンピュータ1aを有する訂正システム1を示している。コンピュータ1aにより、音声認識ソフトウェア及びテキスト処理ソフトウェアが実行される。訂正システム1は、このシステムに接続される、音声信号入力2、入力手段3、フットスイッチ4、及びラウドスピーカ5、並びにスクリーン6を有している。このケースでは、入力手段3は、キーボード及びマウスにより実現される。
音声信号SSは、音声信号入力2で受信され、スピーチエンジン7に転送される。音声信号SSは、このケースでは、ネットワーク(図示せず)を介してサーバから受信されたディクテーション(dictation)である。かかる音声信号SSを受信する詳細な記載は、文献US6,173,259 B1から導出され、この文献は、引用により本実施の形態に盛り込まれる。
スピーチエンジン7は、A/Dコンバータ8を含んでいる。A/Dコンバータ8により、音声信号SSがデジタル化され、これに応じて、A/Dコンバータ8は、デジタル音声データDSを音声リコグナイザ9に転送する。
音声リコグナイザ9は、受信されたデジタル音声データDSに割り当てられるテキスト情報を認識するために設計される。以下では、該テキスト情報は、認識されたテキスト情報RTIと呼ばれる。音声リコグナイザ9は、リンク情報LIを確立するために更に設計され、このリンク情報LIは、認識されたテキスト情報RTIのそれぞれのテキストパッセージ(text passage)について、テキストパッセージが音声リコグナイザ9により認識されるデジタル音声データDSの一部を記録する。かかる音声リコグナイザ9は、たとえば、文献US-A-5,031,113から知られており、この開示は、この引用により本明細書の開示に含まれる。
当業者であれば、それぞれ認識されたテキストパッセージについて音声リコグナイザ9により提供される情報は、静的に分析できることが理解される。特に、音声リコグナイザ9は、音声リコグナイザ9により割り当てられた信頼水準を示すスコアを特定の単語の特定の認識に提供することができる。これらのスコアは、音声リコグナイザ9の信頼水準のスコアラー10により分析される。以下では、かかるスコアは、信頼水準の情報CLIと呼ばれる。
また、音声エンジン7は、メモリ手段11を有している。かかるメモリ手段11により、音声リコグナイザ9により転送されたデジタル音声データDSは、認識されたテキスト情報RTI及びリンク情報LI並びに音声信号SSの信頼水準の情報CLIと共に記憶される。
また、訂正システム1は、誤った又は不適切な認識されたテキスト又は単語を認識及び訂正するための訂正装置12を有している。訂正装置12は、テキスト編集ソフトウェアを処理するコンピュータ1aにより実現され、このテキスト編集ソフトウェアは、認識されたテキスト情報のテキストパッセージを訂正するための特別の訂正ソフトウェアを含んでいる。訂正装置12は、訂正ソフトウェア12とも呼ばれ、編集手段13及び同期再生手段14を含んでいる。
編集手段13は、変更される必要があるテキストパッセージ、又は認識されたテキスト情報RTIの誤ったテキストパッセージでテキストカーソルTCを位置合わせし、このケースではコレクターである訂正システム1のユーザにより入力された編集情報EIに従って認識されたテキストパッセージを編集するために設計されている。編集情報EIは、このケースでは、一般に公知のやり方で、編集手段3のキーボードのキーによりユーザにより入力される。
同期再生手段14は、訂正システム1の同期再生モードを可能にし、この同期再生モードでは、ちょうど再生された音声情報に関するリンク情報LIによりマークされた認識されたテキスト情報RTIのテキストパッセージは、ディクテーションの音声情報の音響的な再生の間に同期して再生される。かかる同期再生モードは、たとえば文献WO 01/46853 A1から公知であり、この開示は、引用により本明細書の開示に含まれる。
同期再生モードがアクティブであるとき、デジタル音声データDSとしてメモリ手段11に記憶されたディクテーションのオーディオデータは、同期再生手段14により読み出すことができ、D/Aコンバータ15に連続的に転送される。次いで、D/Aコンバータ15は、デジタル音声データDSを音声信号SSに変換する。かかる音声信号SSは、ディクテーションの音響的な再生のために、ダウンストリームにあるラウドスピーカ5に転送される。
同期再生モードをアクチベートするため、訂正システム1のユーザは、彼の足をフットスイッチ4により提供される2つのスイッチのうちの1つに位置することができ、これに応じて、制御情報CIは、同期再生手段14に転送される。次いで、同期再生手段14は、ディクテーションのデジタル音声データSDに加えて、メモリ手段11におけるかかるディクテーションについて記憶されるリンク情報LIを読み出す。
同期再生モードでは、同期再生手段14は、オーディオカーソル情報ACIを生成して、編集手段13に転送するために更に設計される。同期再生モードのアクチベーションの直後に、編集手段13は、メモリ手段11から認識されたテキスト情報RTIを読出し、表示されるべきテキスト情報TIとして一時的に記憶するために設計される。表示されるべきかかる一時的に記憶されたテキスト情報TIは、当面、認識されたテキスト情報RTIに対応し、誤りのないテキスト情報を最終的に達成するため、誤ったテキストパッセージへの訂正により、コレクターにより訂正される場合がある。
編集手段13に一時的に記憶されるテキスト情報TIは、編集手段13から画像処理手段17に転送される。画像処理手段17は、表示されるべきテキスト情報TIを処理し、体裁のよい表示情報DIをスクリーン6に転送する。かかる表示情報DIは、表示されるべきテキスト情報TIを含んでいる。
既に述べたように、表示処理は、ウィンドウズ(登録商標)ベースである。ユーザにとって、以下は、同期再生の間に認識可能である。はじめに、スクリーン又はディスプレイ上のウィンドウは、認識されたテキストで満たされる。既に上述されたように再生されたオーディオデータである音声セグメントにそれぞれ対応する認識された単語は、スクリーン上の単語をハイライト表示することで示される。かかるように、ハイライト表示は、音声の再生に追従する。
図1に示される実施の形態では、編集手段13は、指示手段16を含んでいる。指示手段16は、信頼水準の情報CLIがメモリ手段11から受信される同期再生の間に表示されるべきテキスト情報TIのテキストパッセージの信頼水準の情報CLIを示すために構築されている。このケースでは、テキストパッセージは単一の単語である。いわゆるバイグラム又はトリグラム、若しくは認識されたテキスト情報のフレーズの信頼水準が指示されることが確認される場合がある。
さらに、指示手段16が、編集手段13及び/又は同期再生手段14に接続されており、信頼水準の情報CLI及びオーディオカーソル情報ACI及び認識されたテキスト情報RTIを受信し、信頼値の指示をもつテキスト情報TIを出力する、訂正装置12内の個別のブロックであることが確認される場合がある。
本実施の形態では、再生される単語を意味する同期再生において現在「アクティブ」であるそれぞれの単語に色の属性を適用することで、指示が実行される。信頼限界である閾値レベルのそれぞれは、同期再生モードを開始する前に設定可能である。信頼限界は、たとえば、メモリ手段11に記憶される信頼水準の情報CLIの最大の信頼値の範囲の80%にある場合がある。したがって、それぞれ「アクティブな」単語について、かかる単語の信頼水準の情報CLIが閾値レベルよりも小さいか、等しいか、又は大きいかに関して問合せが行われる。閾値レベルがアンダーショット又は等しくされる場合、「アクティブな」単語がそれぞれ記録され、デフォルトの色属性と異なる色属性が割り当てられ、スクリーン6上に異なる色のハイライト表示を生じさせる。
表示されるテキスト情報TIにおける全ての単語の信頼値の情報CLIの永続的な指示としてよりはむしろ、まさに同期再生の間にテキスト情報TIの単語の信頼水準に関して通知されることは、コレクターが誤った又は正しくない単語を容易に認識することができるという利点を有している。
たとえば、単語が太字又は下線で示されるというように、同期再生が行われるとき、単語の信頼水準の情報CLIを示すため、他の視覚的な指示が使用される場合がある。さらに、単語を記録する代わりに、テキストウィンドウでの個別の指示がフラッシュライトの形式で提供される場合もあり、このフラッシュライトは、「アクティブな」単語の信頼値のそれぞれの信頼水準の情報CLIを示している。これにより、コレクターは、スクリーン6で表示及びハイライト表示されるテキストにおける「アクティブな」単語に続いて、同期再生モードよりはむしろ、固定された位置でのフラッシュライトでまさに集中する必要がある。
同期再生モードにおける再生速度は比較的に高速である場合があるので、再生速度は、信頼水準に依存して自動的に変化する場合がある。たとえば、最大の信頼値の80%での単語の再生速度は、最大の信頼値での単語の通常の再生速度の半分により低減される場合があり、これにより正しく認識される。
さらに、本発明に係る信頼値の信頼水準の情報CLIをそれぞれ示すことは、音響的に実行される場合がある。このケースでは、音声信号は、ラウドスピーカを介して生成及び放出される場合がある。生成された音声信号の異なるピッチ若しくは異なるラウドネス又はボリュームは、異なる信頼値を示すために使用される場合がある。
さらに、本発明に係る信頼値の信頼水準の情報CLIをそれぞれ示すことは、バイブレーションにより実行される場合がある。このケースでは、更にバイブレーション手段が設けられ、このバイブレーション手段は、コレクターであるユーザと接触させることができ、コレクターは、同期再生モードで再生される単語の信頼値に依存して振動を感じるか又は感知する場合がある。
既に記載されたように、訂正システム1は、PC又はワークステーションのような従来のコンピュータ上で実現される。パーソナルデジタルアシスタント(PDA)、ラップトップ又はモバイルフォンのようなポータブル機器には、訂正システム及び/又は音声認識が設けられている。本発明により記載される機能は、装置のプロセッサを使用して典型的に実行される。PCタイプのプロセッサ、マイクロコントローラ又はデジタルシグナルプロセッサのようなプロセッサは、本発明に係るステップを実行するためのプログラムをロードすることができる。かかるコンピュータプログラムプロダクトは、ハードディスク又はROMのようなバックグランドストレージから通常ロードされる。コンピュータプログラムプロダクトは、CD−ROMのような記憶媒体に分散された後にバックグランドストレージにはじめに記憶することができ、公衆のインターネットのようなネットワークを介してバックグランドストレージに記憶することができる。
本発明に係る訂正システムを例示するブロック図である。

Claims (12)

  1. 認識されたテキスト情報が音声情報から音声認識装置により認識され、音声情報に関連付けされる、認識されたテキスト情報における1以上の単語を訂正するのを支援する装置であって、
    音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれの1以上の単語でのリンク情報が、1以上の単語が音声認識装置により認識された音声情報の一部をマークするリンク情報、並びに、認識されたテキスト情報のそれぞれの1以上の単語での信頼水準の情報が該1以上の単語の認識の正しさを表す信頼水準情報を受信する手段と、
    音声情報の音響再生の間、再生されて前記リンク情報によりマークされた音声情報に関連される認識されたテキスト情報の1以上の単語が同期して再生される同期再生モードを実行する同期再生手段と、
    同期再生の間にテキスト情報の1以上の単語の信頼水準の情報を示す支援手段とを有し、
    前記支援手段は、音声又は振動である信頼水準の情報を示前記音声である信頼水準の情報は、信頼水準に応じた異なるピッチ又は異なるボリュームで発生され、前記振動である信頼水準の情報は、信頼水準に依存して発生され、前記音声認識装置のユーザにより感知される、
    ことを特徴とする支援装置。
  2. 前記支援手段は、再生された1以上の単語の信頼水準の情報を示す、
    請求項1記載の支援装置。
  3. 前記支援手段は、更に、視覚的な指示により信頼水準を示す、
    請求項1又は2記載の支援装置。
  4. 前記再生手段は、信頼水準の情報に依存して音響再における再生速度を変化させる、
    請求項1乃至3のいずれか記載の支援装置。
  5. 前記支援手段は、フレーズの信頼水準の情報を示す、
    請求項1乃至4のいずれか記載の支援装置。
  6. 認識されたテキスト情報が音声情報から音声認識装置により認識され、音声情報に関連付けされる、認識されたテキスト情報における1以上の単語を訂正するのを支援する方法であって、
    音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれの1以上の単語でのリンク情報が、1以上の単語が音声認識装置により認識された音声情報の一部をマークするリンク情報、並びに、認識されたテキスト情報のそれぞれの1以上の単語での信頼水準の情報が該1以上の単語の認識の正しさを表す信頼水準情報を受信手段により受信するステップと、
    音声情報の音響再生の間、再生されて前記リンク情報によりマークされた音声情報に関連される認識されたテキスト情報の1以上の単語が同期して再生される同期再生モードを同期再生手段により実行するステップと、
    同期再生の間にテキスト情報の1以上の単語の信頼水準の情報を支援手段により指示するステップと、
    音声又は振動である信頼水準の情報を前記支援手段により指示するステップとを含み前記音声である信頼水準の情報は、信頼水準に応じた異なるピッチ又は異なるボリュームで発生され、前記振動である信頼水準の情報は、信頼水準に依存して発生され、前記音声認識装置のユーザにより感知される、
    ことを特徴とする支援方法。
  7. 再生された1以上の単語の信頼水準の情報の指示が実行される、
    請求項6記載の支援方法。
  8. 信頼水準の情報の指示は、更に、視覚的な指示により実行される、
    請求項6又は7記載の支援方法。
  9. 信頼水準の情報に依存して音響再生における再生速度の切換えが実行される、
    請求項6又は8記載の支援方法。
  10. 信頼水準の情報の指示で、フレーズの信頼水準の情報の指示が行われる、
    請求項6乃至9のいずれか記載の支援方法。
  11. コンピュータのコンピュータプログラムであって、該コンピュータプログラムがコンピュータで実行されたとき、請求項6乃至10の方法における少なくとも1つのステップを実行するためのソフトウェアコード部分を含む、
    ことを特徴とするコンピュータプログラム。
  12. 請求項11記載のソフトウェアコード部分を記憶するコンピュータ読み取り可能な記録媒体。
JP2006506791A 2003-03-31 2004-03-30 信頼水準の指示により音声認識の結果を訂正するためのシステム Expired - Fee Related JP5025261B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03100853 2003-03-31
EP03100853.5 2003-03-31
PCT/IB2004/050360 WO2004088635A1 (en) 2003-03-31 2004-03-30 System for correction of speech recognition results with confidence level indication

Publications (3)

Publication Number Publication Date
JP2006522363A JP2006522363A (ja) 2006-09-28
JP2006522363A5 JP2006522363A5 (ja) 2012-06-14
JP5025261B2 true JP5025261B2 (ja) 2012-09-12

Family

ID=33104160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006506791A Expired - Fee Related JP5025261B2 (ja) 2003-03-31 2004-03-30 信頼水準の指示により音声認識の結果を訂正するためのシステム

Country Status (4)

Country Link
US (1) US20060195318A1 (ja)
EP (1) EP1611570B1 (ja)
JP (1) JP5025261B2 (ja)
WO (1) WO2004088635A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1787289B1 (en) * 2004-07-30 2018-01-10 Dictaphone Corporation A system and method for report level confidence
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
JP4659681B2 (ja) * 2005-06-13 2011-03-30 パナソニック株式会社 コンテンツタグ付け支援装置およびコンテンツタグ付け支援方法
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
WO2007150006A2 (en) * 2006-06-22 2007-12-27 Multimodal Technologies, Inc. Applying service levels to transcripts
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8667532B2 (en) * 2007-04-18 2014-03-04 Google Inc. Content recognition for targeting video advertisements
US9064024B2 (en) 2007-08-21 2015-06-23 Google Inc. Bundle generation
KR20090047159A (ko) * 2007-11-07 2009-05-12 삼성전자주식회사 오디오-북 재생 방법 및 장치
US9824372B1 (en) 2008-02-11 2017-11-21 Google Llc Associating advertisements with videos
US9152708B1 (en) 2009-12-14 2015-10-06 Google Inc. Target-video specific co-watched video clusters
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US8554558B2 (en) * 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
WO2018022301A1 (en) * 2016-07-12 2018-02-01 TekWear, LLC Systems, methods, and apparatuses for agricultural data collection, analysis, and management via a mobile device
US11169773B2 (en) 2014-04-01 2021-11-09 TekWear, LLC Systems, methods, and apparatuses for agricultural data collection, analysis, and management via a mobile device
CN106409296A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 基于分核处理技术的语音快速转写校正系统
US20230245649A1 (en) * 2022-02-03 2023-08-03 Soundhound, Inc. Token confidence scores for automatic speech recognition

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5975299A (ja) * 1982-10-25 1984-04-27 株式会社日立製作所 音声認識装置
JPS63269200A (ja) * 1987-04-28 1988-11-07 キヤノン株式会社 音声認識装置
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
GB2303955B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US6195637B1 (en) * 1998-03-25 2001-02-27 International Business Machines Corp. Marking and deferring correction of misrecognition errors
DE19821422A1 (de) * 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
JP2001142482A (ja) * 1999-11-10 2001-05-25 Nippon Hoso Kyokai <Nhk> 音声字幕化装置
EP1169678B1 (en) * 1999-12-20 2015-01-21 Nuance Communications Austria GmbH Audio playback for text edition in a speech recognition system
WO2002009093A1 (en) * 2000-07-20 2002-01-31 Koninklijke Philips Electronics N.V. Feedback of recognized command confidence level
US7092496B1 (en) * 2000-09-18 2006-08-15 International Business Machines Corporation Method and apparatus for processing information signals based on content
US20020152071A1 (en) * 2001-04-12 2002-10-17 David Chaiken Human-augmented, automatic speech recognition engine
EP1262954A1 (en) * 2001-05-30 2002-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for verbal entry of digits or commands
US20020184022A1 (en) * 2001-06-05 2002-12-05 Davenport Gary F. Proofreading assistance techniques for a voice recognition system
EP1442451B1 (en) * 2001-10-31 2006-05-03 Koninklijke Philips Electronics N.V. Method of and system for transcribing dictations in text files and for revising the texts

Also Published As

Publication number Publication date
JP2006522363A (ja) 2006-09-28
EP1611570A1 (en) 2006-01-04
WO2004088635A1 (en) 2004-10-14
EP1611570B1 (en) 2017-06-28
US20060195318A1 (en) 2006-08-31

Similar Documents

Publication Publication Date Title
JP5025261B2 (ja) 信頼水準の指示により音声認識の結果を訂正するためのシステム
JP4173371B2 (ja) 認識音声に対する同期再生中の文字編集
JP6463825B2 (ja) 多重話者音声認識修正システム
EP1430474B1 (en) Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word
US8560327B2 (en) System and method for synchronizing sound and manually transcribed text
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2019148681A (ja) テキスト修正装置、テキスト修正方法およびテキスト修正プログラム
JP2006351028A (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
US9460718B2 (en) Text generator, text generating method, and computer program product
JP2004530205A (ja) 編集中における音声カーソルとテキストカーソルの位置合わせ
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2005141089A (ja) 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP5892598B2 (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
JP2005509906A (ja) 所定ウィンドウにてテキストを編集する装置
JP4272611B2 (ja) 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003316384A (ja) リアルタイム文字修正装置、およびその方法、ならびにそのプログラム、その記憶媒体
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
KR101501705B1 (ko) 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체
JP2007512612A (ja) オーディオ信号を転記する方法及び装置
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
JP2002268683A (ja) 情報処理方法及び装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070328

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100630

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110107

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110118

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120423

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20120423

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120619

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150629

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees