JP5025261B2

JP5025261B2 - 信頼水準の指示により音声認識の結果を訂正するためのシステム

Info

Publication number: JP5025261B2
Application number: JP2006506791A
Authority: JP
Inventors: スタングルマイヤー，クラウス
Original assignee: ニュアンスコミュニケーションズオーストリアゲーエムベーハー
Priority date: 2003-03-31
Filing date: 2004-03-30
Publication date: 2012-09-12
Anticipated expiration: 2024-03-30
Also published as: JP2006522363A; EP1611570A1; WO2004088635A1; EP1611570B1; US20060195318A1

Description

本発明は、認識されたテキスト情報が音声情報から音声認識装置により認識され、したがって音声情報に関連される認識されたテキスト情報におけるテキストパッセージを訂正するための訂正装置に関する。

また、本発明は、認識されたテキスト情報が音声情報から音声認識装置により認識され、したがって音声情報に関連される認識されたテキスト情報におけるテキストパッセージを訂正するための訂正方法に関する。

さらに、本発明は、コンピュータにより実行されるワードコレクションソフトウェアからなるコレクションソフトウェアを有するコンピュータプログラムプロダクトに関する。

かかる訂正装置及びかかる訂正方法は、たとえば文献US-A-6,173259より知られている。公知の訂正装置は、トランスクリプションサービスのコレクターのワードプロセッシングソフトウェアを実行するコンピュータにより実現される。コレクターは、音声認識プログラムで自動的に音声情報から認識されたテキスト情報を手動的に訂正する従業員である。

このケースにおける音声情報は、著者により生成されたディクテーションであり、このディクテーションは、コンピュータネットワークを介してサーバに送信される。サーバは、受信されたディクテーションの音声情報を様々なコンピュータに配信し、それぞれのコンピュータは、このケースでは音声認識装置を構成する音声認識ソフトウェアを実行する。

公知の音声認識装置は、確立されているリンク情報により、著者によるディクテーションの音声情報からのテキスト情報を認識する。リンク情報は、認識されたテキスト情報のそれぞれの単語を記録し、単語が音声認識装置により認識された音声情報の一部について記録する。ディクテーションの音声情報及び認識されたテキスト情報並びにリンク情報は、音声認識装置から訂正処理のためにコレクターのコンピュータに転送される。

公知の訂正装置は、同期再生手段を含んでおり、この同期再生手段により、同期再生モードを実行することができる。同期再生モードが訂正装置でアクティブであるとき、ディクテーションの音声情報は再生され、音声情報のそれぞれ音響的に再生された単語と同期して、音声認識システムにより再生された単語から認識された単語は、オーディオカーソルで記録される。したがって、オーディオカーソルは、認識されたテキスト情報で音響的に再生されている単語の位置を記録する。

不適切に又は誤って認識されたテキストパッセージがコレクターにより採取された場合、不適切に又は誤って認識されたテキストパッセージは、異なる、正しきそれぞれ適切なテキストパッセージで置き換えることができる。かかる訂正作業は、非常に時間のかかる作業であって、これにより、トランスクリプションのコストが著しく増加する。他方で、認識されたテキストの認識及び訂正の品質が最大である場合、コレクターは、認識されたテキスト全体をそれぞれ見る全体の音を聞く必要がある。したがって、１つの目的は、認識に続く訂正作業を認識されたそれぞれ訂正されたテキストの最大品質によりできるだけ迅速かつ効率的にすることである。

本発明の目的は、第一のパラグラフに記載されたタイプに従う訂正装置、第二のパラグラフに記載されたタイプに従う訂正方法、及び第三のパラグラフに記載されるタイプに従うコンピュータプログラムプロダクトを提供することにあって、これらによって、上述された課題及び問題点が回避される。

上述された目的を達成するため、かかる訂正装置では、訂正装置が以下に述べるやり方で特徴付けすることができる本発明に係る機能が提供される。

認識されたテキスト情報が音声情報から音声認識装置により認識され、したがって音声情報に関連付けされる、認識されたテキスト情報におけるテキストパッセージを訂正するための訂正装置は、以下の構成を有している。音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれのテキストパッセージでのリンク情報が、テキストパッセージが音声認識装置により認識された音声情報の部分を記録するリンク情報、並びに、認識されたテキスト情報のそれぞれのテキストパッセージでの信頼水準の情報が該テキストパッセージの認識の正しさを表す信頼水準情報を受信する手段。音声情報の音響再生の間、まさに再生されリンク情報により記録された音声情報に関連される認識されたテキスト情報のテキストパッセージが同期して記録される同期再生モードを実行するための同期再生手段。同期再生の間にテキスト情報のテキストパッセージの信頼水準の情報を示すための指示手段。

上述された目的を達成するため、本発明に係る機能がかかる訂正方法において考案され、訂正方法は、以下に述べられるやり方で特徴付けすることができる。

認識されたテキスト情報は音声情報から音声認識装置により認識され、したがって音声情報に関連される、認識されたテキスト情報におけるテキストパッセージを訂正する訂正方法では、以下のステップが実行される。音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれのテキストパッセージでのリンク情報が、テキストパッセージが音声認識装置により認識された音声情報の部分を記録するリンク情報、並びに、認識されたテキスト情報のそれぞれのテキストパッセージでの信頼水準の情報が該テキストパッセージの認識の正しさを表す信頼水準情報を受信するステップ。音声情報の音響再生の間、まさに再生されリンク情報により記録された音声情報に関連される認識されたテキスト情報のテキストパッセージが同期して記録される同期再生モードを実行するステップ。同期再生の間にテキスト情報のテキストパッセージの信頼水準の情報を示すステップ。

上述された目的を達成するため、かかるコンピュータプログラムプロダクトは、本発明に係る機能を含んでおり、コンピュータプログラムプロダクトは、以下に述べられるやり方で特徴づけすることができる。

コンピュータ向けコンピュータプログラムプロダクトは、該プロダクトがコンピュータ上で実行されたときに、上述された訂正方法のステップを実行するためのソフトウェアコード部分を含んでいる。

本発明の特徴的な機能によって、比較的シンプルなやり方で達成される。たとえば、本発明に係る訂正装置を使用したトランスクリプションシステムのコレクターは、比較的迅速かつ効率的に認識に従う訂正作業を行うことができ、これにより、認識又は訂正されたテキスト情報の最良の品質が保証される。特に、テキスト情報の全てのテキストパッセージの信頼値の同時及び永続的な指示よりはむしろ、同期再生の間に認識されたテキスト情報のテキストパッセージの信頼水準の情報を示すことにより、永続的な指示に転換又は集中することなしに、間違った又は正しくないテキストパッセージをコレクターは容易に認識することができるという利点を有する。

本発明に係る実施の形態では、請求項２及び請求項７に記載される手段が提供されるとき有利であることがわかる。コレクターは、個々のパッセージに焦点を合わせるだけでなく、全体の文書に焦点を合わせることができ、これにより、より高い品質及び精度を保証することができる。

本発明に係る実施の形態では、テキスト情報のテキストパッセージの信頼水準の情報の指示は、音響的に実行される場合がある。本発明に係る実施の形態では、請求項３及び請求項８に記載の手段が提供されるときに非常に有利であることがわかる。視覚的なフィードバックは、コレクターへの特定のテキストパッセージへの注意を増加するシグナル、手段としての役割を果たす。

請求項４及び請求項９に記載の手段が提供されるとき、本発明に係る実施の形態において非常に有利であることが更にわかる。信頼水準の情報に依存してディクテーションの特定のセクションについての再生速度を自動的に変えることで、コレクターの注意が増加され、訂正されたテキスト情報の精度が増加される。たとえば、より低い信頼水準を持つテキストパッセージについて、再生速度の自動的なスローダウンが実行される場合がある。

本発明に係る実施の形態では、請求項５及び請求項１０に記載される手段が提供されるときに有利であることがわかる。これにより、訂正されたテキストの精度が更に改善される場合がある。

本発明は、実現の限定されるものではない例として、本発明の好適な実施の形態を示す添付図面に基づいて、本発明の物理的な基礎を説明する以下の説明に従って良好に理解されるであろう。

図１は、コンピュータ１ａを有する訂正システム１を示している。コンピュータ１ａにより、音声認識ソフトウェア及びテキスト処理ソフトウェアが実行される。訂正システム１は、このシステムに接続される、音声信号入力２、入力手段３、フットスイッチ４、及びラウドスピーカ５、並びにスクリーン６を有している。このケースでは、入力手段３は、キーボード及びマウスにより実現される。

音声信号ＳＳは、音声信号入力２で受信され、スピーチエンジン７に転送される。音声信号ＳＳは、このケースでは、ネットワーク（図示せず）を介してサーバから受信されたディクテーション（dictation）である。かかる音声信号ＳＳを受信する詳細な記載は、文献US6,173,259 B1から導出され、この文献は、引用により本実施の形態に盛り込まれる。

スピーチエンジン７は、Ａ／Ｄコンバータ８を含んでいる。Ａ／Ｄコンバータ８により、音声信号ＳＳがデジタル化され、これに応じて、Ａ／Ｄコンバータ８は、デジタル音声データＤＳを音声リコグナイザ９に転送する。

音声リコグナイザ９は、受信されたデジタル音声データＤＳに割り当てられるテキスト情報を認識するために設計される。以下では、該テキスト情報は、認識されたテキスト情報ＲＴＩと呼ばれる。音声リコグナイザ９は、リンク情報ＬＩを確立するために更に設計され、このリンク情報ＬＩは、認識されたテキスト情報ＲＴＩのそれぞれのテキストパッセージ（text passage）について、テキストパッセージが音声リコグナイザ９により認識されるデジタル音声データＤＳの一部を記録する。かかる音声リコグナイザ９は、たとえば、文献US-A-5,031,113から知られており、この開示は、この引用により本明細書の開示に含まれる。

当業者であれば、それぞれ認識されたテキストパッセージについて音声リコグナイザ９により提供される情報は、静的に分析できることが理解される。特に、音声リコグナイザ９は、音声リコグナイザ９により割り当てられた信頼水準を示すスコアを特定の単語の特定の認識に提供することができる。これらのスコアは、音声リコグナイザ９の信頼水準のスコアラー１０により分析される。以下では、かかるスコアは、信頼水準の情報ＣＬＩと呼ばれる。

また、音声エンジン７は、メモリ手段１１を有している。かかるメモリ手段１１により、音声リコグナイザ９により転送されたデジタル音声データＤＳは、認識されたテキスト情報ＲＴＩ及びリンク情報ＬＩ並びに音声信号ＳＳの信頼水準の情報ＣＬＩと共に記憶される。

また、訂正システム１は、誤った又は不適切な認識されたテキスト又は単語を認識及び訂正するための訂正装置１２を有している。訂正装置１２は、テキスト編集ソフトウェアを処理するコンピュータ１ａにより実現され、このテキスト編集ソフトウェアは、認識されたテキスト情報のテキストパッセージを訂正するための特別の訂正ソフトウェアを含んでいる。訂正装置１２は、訂正ソフトウェア１２とも呼ばれ、編集手段１３及び同期再生手段１４を含んでいる。

編集手段１３は、変更される必要があるテキストパッセージ、又は認識されたテキスト情報ＲＴＩの誤ったテキストパッセージでテキストカーソルＴＣを位置合わせし、このケースではコレクターである訂正システム１のユーザにより入力された編集情報ＥＩに従って認識されたテキストパッセージを編集するために設計されている。編集情報ＥＩは、このケースでは、一般に公知のやり方で、編集手段３のキーボードのキーによりユーザにより入力される。

同期再生手段１４は、訂正システム１の同期再生モードを可能にし、この同期再生モードでは、ちょうど再生された音声情報に関するリンク情報ＬＩによりマークされた認識されたテキスト情報ＲＴＩのテキストパッセージは、ディクテーションの音声情報の音響的な再生の間に同期して再生される。かかる同期再生モードは、たとえば文献WO 01/46853 A1から公知であり、この開示は、引用により本明細書の開示に含まれる。

同期再生モードがアクティブであるとき、デジタル音声データＤＳとしてメモリ手段１１に記憶されたディクテーションのオーディオデータは、同期再生手段１４により読み出すことができ、Ｄ／Ａコンバータ１５に連続的に転送される。次いで、Ｄ／Ａコンバータ１５は、デジタル音声データＤＳを音声信号ＳＳに変換する。かかる音声信号ＳＳは、ディクテーションの音響的な再生のために、ダウンストリームにあるラウドスピーカ５に転送される。

同期再生モードをアクチベートするため、訂正システム１のユーザは、彼の足をフットスイッチ４により提供される２つのスイッチのうちの１つに位置することができ、これに応じて、制御情報ＣＩは、同期再生手段１４に転送される。次いで、同期再生手段１４は、ディクテーションのデジタル音声データＳＤに加えて、メモリ手段１１におけるかかるディクテーションについて記憶されるリンク情報ＬＩを読み出す。

同期再生モードでは、同期再生手段１４は、オーディオカーソル情報ＡＣＩを生成して、編集手段１３に転送するために更に設計される。同期再生モードのアクチベーションの直後に、編集手段１３は、メモリ手段１１から認識されたテキスト情報ＲＴＩを読出し、表示されるべきテキスト情報ＴＩとして一時的に記憶するために設計される。表示されるべきかかる一時的に記憶されたテキスト情報ＴＩは、当面、認識されたテキスト情報ＲＴＩに対応し、誤りのないテキスト情報を最終的に達成するため、誤ったテキストパッセージへの訂正により、コレクターにより訂正される場合がある。

編集手段１３に一時的に記憶されるテキスト情報ＴＩは、編集手段１３から画像処理手段１７に転送される。画像処理手段１７は、表示されるべきテキスト情報ＴＩを処理し、体裁のよい表示情報ＤＩをスクリーン６に転送する。かかる表示情報ＤＩは、表示されるべきテキスト情報ＴＩを含んでいる。

既に述べたように、表示処理は、ウィンドウズ（登録商標）ベースである。ユーザにとって、以下は、同期再生の間に認識可能である。はじめに、スクリーン又はディスプレイ上のウィンドウは、認識されたテキストで満たされる。既に上述されたように再生されたオーディオデータである音声セグメントにそれぞれ対応する認識された単語は、スクリーン上の単語をハイライト表示することで示される。かかるように、ハイライト表示は、音声の再生に追従する。

図１に示される実施の形態では、編集手段１３は、指示手段１６を含んでいる。指示手段１６は、信頼水準の情報ＣＬＩがメモリ手段１１から受信される同期再生の間に表示されるべきテキスト情報ＴＩのテキストパッセージの信頼水準の情報ＣＬＩを示すために構築されている。このケースでは、テキストパッセージは単一の単語である。いわゆるバイグラム又はトリグラム、若しくは認識されたテキスト情報のフレーズの信頼水準が指示されることが確認される場合がある。

さらに、指示手段１６が、編集手段１３及び／又は同期再生手段１４に接続されており、信頼水準の情報ＣＬＩ及びオーディオカーソル情報ＡＣＩ及び認識されたテキスト情報ＲＴＩを受信し、信頼値の指示をもつテキスト情報ＴＩを出力する、訂正装置１２内の個別のブロックであることが確認される場合がある。

本実施の形態では、再生される単語を意味する同期再生において現在「アクティブ」であるそれぞれの単語に色の属性を適用することで、指示が実行される。信頼限界である閾値レベルのそれぞれは、同期再生モードを開始する前に設定可能である。信頼限界は、たとえば、メモリ手段１１に記憶される信頼水準の情報ＣＬＩの最大の信頼値の範囲の８０％にある場合がある。したがって、それぞれ「アクティブな」単語について、かかる単語の信頼水準の情報ＣＬＩが閾値レベルよりも小さいか、等しいか、又は大きいかに関して問合せが行われる。閾値レベルがアンダーショット又は等しくされる場合、「アクティブな」単語がそれぞれ記録され、デフォルトの色属性と異なる色属性が割り当てられ、スクリーン６上に異なる色のハイライト表示を生じさせる。

表示されるテキスト情報ＴＩにおける全ての単語の信頼値の情報ＣＬＩの永続的な指示としてよりはむしろ、まさに同期再生の間にテキスト情報ＴＩの単語の信頼水準に関して通知されることは、コレクターが誤った又は正しくない単語を容易に認識することができるという利点を有している。

たとえば、単語が太字又は下線で示されるというように、同期再生が行われるとき、単語の信頼水準の情報ＣＬＩを示すため、他の視覚的な指示が使用される場合がある。さらに、単語を記録する代わりに、テキストウィンドウでの個別の指示がフラッシュライトの形式で提供される場合もあり、このフラッシュライトは、「アクティブな」単語の信頼値のそれぞれの信頼水準の情報ＣＬＩを示している。これにより、コレクターは、スクリーン６で表示及びハイライト表示されるテキストにおける「アクティブな」単語に続いて、同期再生モードよりはむしろ、固定された位置でのフラッシュライトでまさに集中する必要がある。

同期再生モードにおける再生速度は比較的に高速である場合があるので、再生速度は、信頼水準に依存して自動的に変化する場合がある。たとえば、最大の信頼値の８０％での単語の再生速度は、最大の信頼値での単語の通常の再生速度の半分により低減される場合があり、これにより正しく認識される。

さらに、本発明に係る信頼値の信頼水準の情報ＣＬＩをそれぞれ示すことは、音響的に実行される場合がある。このケースでは、音声信号は、ラウドスピーカを介して生成及び放出される場合がある。生成された音声信号の異なるピッチ若しくは異なるラウドネス又はボリュームは、異なる信頼値を示すために使用される場合がある。

さらに、本発明に係る信頼値の信頼水準の情報ＣＬＩをそれぞれ示すことは、バイブレーションにより実行される場合がある。このケースでは、更にバイブレーション手段が設けられ、このバイブレーション手段は、コレクターであるユーザと接触させることができ、コレクターは、同期再生モードで再生される単語の信頼値に依存して振動を感じるか又は感知する場合がある。

既に記載されたように、訂正システム１は、ＰＣ又はワークステーションのような従来のコンピュータ上で実現される。パーソナルデジタルアシスタント（ＰＤＡ）、ラップトップ又はモバイルフォンのようなポータブル機器には、訂正システム及び／又は音声認識が設けられている。本発明により記載される機能は、装置のプロセッサを使用して典型的に実行される。ＰＣタイプのプロセッサ、マイクロコントローラ又はデジタルシグナルプロセッサのようなプロセッサは、本発明に係るステップを実行するためのプログラムをロードすることができる。かかるコンピュータプログラムプロダクトは、ハードディスク又はＲＯＭのようなバックグランドストレージから通常ロードされる。コンピュータプログラムプロダクトは、ＣＤ−ＲＯＭのような記憶媒体に分散された後にバックグランドストレージにはじめに記憶することができ、公衆のインターネットのようなネットワークを介してバックグランドストレージに記憶することができる。

本発明に係る訂正システムを例示するブロック図である。

Claims

認識されたテキスト情報が音声情報から音声認識装置により認識され、音声情報に関連付けされる、認識されたテキスト情報における１以上の単語を訂正するのを支援する装置であって、
音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれの１以上の単語でのリンク情報が、１以上の単語が音声認識装置により認識された音声情報の一部をマークするリンク情報、並びに、認識されたテキスト情報のそれぞれの１以上の単語での信頼水準の情報が該１以上の単語の認識の正しさを表す信頼水準情報を受信する手段と、
音声情報の音響再生の間、再生されて前記リンク情報によりマークされた音声情報に関連される認識されたテキスト情報の１以上の単語が同期して再生される同期再生モードを実行する同期再生手段と、
同期再生の間にテキスト情報の１以上の単語の信頼水準の情報を示す支援手段とを有し、
前記支援手段は、音声又は振動である信頼水準の情報を示し、前記音声である信頼水準の情報は、信頼水準に応じた異なるピッチ又は異なるボリュームで発生され、前記振動である信頼水準の情報は、信頼水準に依存して発生され、前記音声認識装置のユーザにより感知される、
ことを特徴とする支援装置。
前記支援手段は、再生された１以上の単語の信頼水準の情報を示す、
請求項１記載の支援装置。
前記支援手段は、更に、視覚的な指示により信頼水準を示す、
請求項１又は２記載の支援装置。
前記再生手段は、信頼水準の情報に依存して音響再生における再生速度を変化させる、
請求項１乃至３のいずれか記載の支援装置。
前記支援手段は、フレーズの信頼水準の情報を示す、
請求項１乃至４のいずれか記載の支援装置。
認識されたテキスト情報が音声情報から音声認識装置により認識され、音声情報に関連付けされる、認識されたテキスト情報における１以上の単語を訂正するのを支援する方法であって、
音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれの１以上の単語でのリンク情報が、１以上の単語が音声認識装置により認識された音声情報の一部をマークするリンク情報、並びに、認識されたテキスト情報のそれぞれの１以上の単語での信頼水準の情報が該１以上の単語の認識の正しさを表す信頼水準情報を受信手段により受信するステップと、
音声情報の音響再生の間、再生されて前記リンク情報によりマークされた音声情報に関連される認識されたテキスト情報の１以上の単語が同期して再生される同期再生モードを同期再生手段により実行するステップと、
同期再生の間にテキスト情報の１以上の単語の信頼水準の情報を支援手段により指示するステップと、
音声又は振動である信頼水準の情報を前記支援手段により指示するステップとを含み、前記音声である信頼水準の情報は、信頼水準に応じた異なるピッチ又は異なるボリュームで発生され、前記振動である信頼水準の情報は、信頼水準に依存して発生され、前記音声認識装置のユーザにより感知される、
ことを特徴とする支援方法。
再生された１以上の単語の信頼水準の情報の指示が実行される、
請求項６記載の支援方法。
信頼水準の情報の指示は、更に、視覚的な指示により実行される、
請求項６又は７記載の支援方法。
信頼水準の情報に依存して音響再生における再生速度の切換えが実行される、
請求項６又は８記載の支援方法。
信頼水準の情報の指示で、フレーズの信頼水準の情報の指示が行われる、
請求項６乃至９のいずれか記載の支援方法。
コンピュータのコンピュータプログラムであって、該コンピュータプログラムがコンピュータで実行されたとき、請求項６乃至１０の方法における少なくとも１つのステップを実行するためのソフトウェアコード部分を含む、
ことを特徴とするコンピュータプログラム。
請求項１１記載のソフトウェアコード部分を記憶するコンピュータ読み取り可能な記録媒体。