JP2004530205A

JP2004530205A - 編集中における音声カーソルとテキストカーソルの位置合わせ

Info

Publication number: JP2004530205A
Application number: JP2002578284A
Authority: JP
Inventors: グシュヴェントナー，ヴォルフガング
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-03-29
Filing date: 2002-03-25
Publication date: 2004-09-30
Anticipated expiration: 2022-03-25
Also published as: WO2002080143A1; US8117034B2; US8706495B2; US20130166304A1; US20120158405A1; EP1374225B1; DE60202453D1; US8380509B2; JP5093966B2; US20020143544A1; EP1374225A1; DE60202453T2; CN1460245A; ATE286294T1; CN1225721C

Abstract

音声認識装置は、ディクテーションの音声データを処理し、当該ディクテーションの認識テキスト情報及びリンク情報を生成する。音声認識装置の同期再生モードでは、ディクテーションの再生中、訂正装置は再生されている音声データに関連する認識テキスト情報のワードを音声カーソルによりマークする。音声認識装置において、ユーザが誤ったワードを認識したら、この誤ったワード上にテキストカーソルを置き、これを訂正する。カーソル同期手段は、テキストカーソルを音声カーソルの位置に合わせること、あるいは音声カーソルをテキストカーソルの位置に合わせることを可能にする。これにより各カーソルの位置決めを容易に行うことができるようになる。

Description

【０００１】
本発明は、音声認識装置によって、音声情報から認識されたテキスト情報中の誤ったワードを訂正する訂正装置に関する。
【０００２】
本発明は、また、音声認識装置によって、音声情報から認識されたテキスト情報中の誤ったワードを訂正する訂正方法に関する。
【０００３】
本発明は、さらに、受け取った音声情報からテキスト情報を認識する音声認識装置に関する。
【０００４】
本発明は、また、コンピュータにより実行される文書処理ソフトウェアの訂正ソフトウェアからなるコンピュータプログラムに関する。
【０００５】
そのような訂正装置及び訂正方法は、米国特許第６,１７３,２５９号から知られており、転写サービス（transcription service）の校正者の文書処理ソフトウェアを実行するコンピュータとして実現されている。校正者とは、音声認識プログラムで自動的に認識されたテキスト情報を手動で訂正する、転写サービスの従業員である。
【０００６】
口述を行う人は、自らのディクテーション（dictation）の音声情報を既存の転写サービスのサーバにコンピュータネットワークを通じて送る。サーバは受け取ったディクテーションの音声情報を様々なコンピュータに配信し、各コンピュータで音声認識ソフトウェアが実行される。このとき、各コンピュータは音声認識装置として機能する。
【０００７】
従来技術による音声認識装置は、口述者から送られたディクテーションの音声情報からテキスト情報を認識するとともに、リンク情報を生成する。認識されたテキスト情報の各ワードに対し、リンク情報では音声認識装置によって認識された音声情報の各ワードに該当する部分がマークされる。認識されたテキスト情報の誤ったワードを訂正するために、ディクテーションの音声情報、認識テキスト情報及びリンク情報が、音声認識装置から校正者のコンピュータへ転送される。
【０００８】
従来技術による訂正装置は同期再生モード（synchronous playback mode）を可能とする同期再生手段（synchronous play back means）を備えている。訂正装置において同期再生モードがアクティブ状態にあるとき、ディクテーションの音声情報の再生中、音声情報の再生される各ワードと同期して、音声認識システムにより再生されたワードから認識されたワードが音声カーソルによりマークされる。音声カーソルは認識されたテキスト情報における再生中のワードの位置をマークする。
【０００９】
もし校正者がテキスト情報の間違ったワードを同期再生モードにおいて認識すれば、同期再生モードを中断あるいはアクティブ状態の解除をし、コンピュータのキーボードを使い間違っているワードの上にテキストカーソルを置き、それを編集する。再び同期再生モードに戻されると、この訂正されたワードから音声情報が引き続き再生される。
【００１０】
校正者は、テキスト情報中の訂正を行ったワード数に応じて、転写サービスの提供者から手当てが支払われる。転写サービスの品質管理者は、校正者により校正されたテキスト情報から、手当てに影響を与える校正者により見過ごされた誤ったワードのサンプリングを行う。したがって、校正者は、同期フィードバックモード（synchronous feedback mode）がアクティブ状態のとき、校正者により認識された誤ったワードを最も時間がかからず、最も少ない手作業で訂正することができるワープロソフトに大きな関心を持っている。したがって校正者は、マウスで対象位置までもっていくのは時間がかかってしまうので、マウスを使うことなくコンピュータのキーボードで誤ったワードの訂正に必要な編集情報のすべての入力が可能になることを望んでいる。
【００１１】
従来技術による訂正装置及び訂正方法では、アクティブ状態の同期表示モード（synchronous display mode）において、校正者により誤りと認められたワードの訂正には、校正者側の比較的大きな手作業が必要であり、多くの時間が校正者にかかってしまう。
【００１２】
本発明の課題は、上記の問題点を解決するような、第１段落に述べられたタイプによる訂正装置、第２段落に述べられたタイプによる訂正方法、第３段落に述べられたタイプによる音声認識情報、及び第４段落に述べられたタイプのコンピュータプログラムを提供することにある。
【００１３】
上記課題を達成するために、本発明による訂正装置は以下のような特徴を有する。音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正装置であって、前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信手段であって、該受信手段は認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークする受信手段、前記認識テキスト情報の誤ったワードにテキストカーソルを置き、ユーザにより入力された編集情報に従って前期誤ったワードを編集する編集手段、前記音声情報の再生中、再生されている該音声情報に対し前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にする同期再生手段、及び前記テキストカーソルを前記音声カーソルに、あるいは前記音声カーソルを前記テキストカーソルに同期させるカーソル同期手段からなることを特徴とする訂正装置。
【００１４】
上記課題を達成するために、本発明による訂正方法は以下のような特徴を有する。音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正方法であって、前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信し、認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークするステップ、前記音声情報の再生中、再生されている該音声情報に対して前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にするステップ、及び前記訂正装置においてアクティブ状態にある前記同期再生モードにおいて可能な、ユーザにより入力された編集情報に従ってテキストカーソル上の前記誤ったワードを編集するステップからなることを特徴とする訂正方法。
【００１５】
上記課題を達成するために、本発明による音声認識装置は以下のような特徴を有する。
【００１６】
受信された音声情報においてテキスト情報を認識する音声認識装置であって、音声情報を受信する受信手段、受信された前記音声情報に対応する認識テキスト情報及びリンク情報を認識する音声認識手段であって、前記認識テキスト情報の各ワードに対して、前記リンク情報は該ワードが該音声認識手段により認識された前記音声情報の部分を示す音声認識手段、前記認識テキスト情報に含まれた誤ったワードを訂正するための上述の訂正装置からなることを特徴とする音声認識装置。
【００１７】
上記課題を達成するために、本発明によるコンピュータプログラムは以下のような特徴を有する。デジタルコンピュータの内部メモリに直接ロード可能なコンピュータプログラムであって、複数のソフトウェアコードからなり、該コンピュータプログラムが前記デジタルコンピュータ上で実行されれば、上述の訂正方法の各ステップが実行されることを特徴とするコンピュータプログラム。
【００１８】
アクティブ状態の同期再生モードの訂正装置において、ユーザは同期再生手段により音声カーソルでマークされたワードが正しいものであるかどうかチェックを行う。そしてユーザはこの音声カーソルの近くで認識テキスト情報に誤ったワードを認識する。このとき、テキストカーソルはこれと全く異なる位置に、すなわち直前の誤ったワード訂正されたテキスト情報の位置に通常置かれる。
【００１９】
本発明によると、ユーザは、例えば、キーボードのキーを操作することにより、テキストカーソルを音声カーソルに同期させる。これにより、テキストカーソルは同期再生中直前にハイライトされたワード上に置かれる。訂正対象の誤ったワードは一般的にテキストカーソルの近くに置かれるので、この訂正対象のワードの訂正は簡単な手動操作で、短時間に行うことができる。
【００２０】
本発明によると、同期再生モードがアクティブ状態のとき、テキストカーソルは音声カーソルと連続的かつ自動的に同期させられる。したがって、テキストカーソルの位置設定のため、キーボードのキーを操作する必要がなくなる。適用対象に依存して、音声カーソルをテキストカーソルに同期させ、テキストカーソルの位置に音声カーソルを置くよう構成されてもよい。
【００２１】
請求項２及び９記載の発明によると、誤ったワードを編集するために、同期再生モードが中断あるいはアクティブ状態を解除される必要はない。これにより、慣れている校正者は大幅に時間を節約することができる。
【００２２】
請求項３、４及び１０記載の発明によると、ユーザが誤ったワードを認識したとき、ユーザは認識テキスト情報の音声カーソルに先行するテキストカーソルを音声カーソルに同期させるため、単に「→」を入力しさえすればよい。また本実施例において「←」が入力されれば、音声カーソルがテキストカーソルに一致させられ、テキストカーソル上に置かれる。このような「→」キーと「←」キーの動的割り当ては、ユーザにとって特に便利なものである。
【００２３】
請求項５及び１１記載の発明によると、ユーザの反応時間を考慮したとき、誤ったワードは認識テキスト情報の音声カーソルのNワード数だけ前で通常検出されるので、認識テキスト情報の音声カーソルの位置のNワード手前にテキストカーソルを自動的に置くことができる。
【００２４】
請求項６及び１２記載の発明によると、ユーザは自らの通常の反応時間に応じてワード数Nを調整することができる。
【００２５】
請求項７記載の発明によると、同期再生モードがアクティブ状態のとき、ユーザが誤ったワードを編集するため２つのカーソルを切り離すまで、２つのカーソルは自動的に位置合わせが行われる。以上のように、誤ったワードの訂正操作が容易に実行される。
【００２６】
図面に示された実施例を参照しながら、以下で本発明の説明がなされる。しなしながら、本発明はここで例示された実施例に制限されるものではない。
【００２７】
図１は、音声認識ソフトウェア及びテキスト入力ソフトウェアが実行されるコンピュータからなる音声認識装置１を示す。音声認識装置１には、マイクロフォン２、キーボード３、フットスイッチ（foot switch）４、スピーカー５及びスクリーン６が接続される。
【００２８】
音声認識装置１のユーザは、マイクロフォン１から口述を行うことができる。ここでは、ディクテーションの音声情報を含む音声信号SSが音声認識装置１に送られる。音声認識装置１はA/D変換器７を備える。これによって、音声信号SSはデジタル化され、A/D変換器７はデジタル音声データSDを音声認識手段８に送ることができる。
【００２９】
音声認識手段８は、認識テキスト情報ETIと呼ばれる受信された音声データSDに対応するテキスト情報を認識するよう設計されている。音声認識手段８は、さらに、認識テキスト情報ETIの各ワードに対し、音声認識手段８によってそのワードの認識が行われた音声データSDの部分をマークするリンク情報LIを生成するよう設計されている。このような音声認識手段は、例えば、米国特許第５,０３１,１１３号に開示されている。これを参照することにより、本明細書の開示に当該手段の開示がなされたとみなすことにする。
【００３０】
音声認識装置１は、さらに、記憶手段９を備える。これにより音声認識手段８により転送された音声データSDを、認識テキスト情報ETI及びディクテーションのリンク情報LIとともに保存することができる。上述のようなディクテーションの音声情報に対応する認識テキスト情報ETIを認識するための音声認識方法は、従来からよく知られているものであり、さらなる詳細な説明はここでは行わない。
【００３１】
音声認識装置１は、さらに認識テキスト情報ETIの誤ったワードを訂正するための訂正装置１０を備える。訂正装置１０は、特定の訂正ソフトウェアを具備するテキスト編集ソフトウェアを実行できるコンピュータからなる。訂正ソフトウェア１０は、編集手段１１及び同期再生手段１２を備える。
【００３２】
編集手段１１は、認識テキスト情報ETIの誤ったワード上にテキストカーソルTCを置き、ユーザにより入力される編集情報EIに従い、この誤ったワードを編集するよう設計される。この場合、編集情報EIは、一般的に知られたやり方で、キーボード３のキーを使ってユーザにより入力される。
【００３３】
同期再生手段１２は、音声認識装置１での同期再生モードを可能とし、再生されている音声情報のリンク情報LIによりマークされた認識テキスト情報ETIのワードが、ディクテーションの音声情報の再生中に、同期してマークされる。米国特許第５,０３１,１１３号により開示される同期再生モードは、誤りを含んだワードの効果的な訂正を可能とするので、音声認識装置のユーザに好適である。
【００３４】
音声認識装置１の同期再生モードがアクティブ状態にあり、音声カーソルACが認識テキスト情報ETIにおいてワード間を移動しているとき、再生される各ワードが正確にマークされる。カーソルは、例えば、カーソル位置の文字に下線が引かれたり、反転させることによって表示される。カーソルの表示には様々な可能性が考えられる。
【００３５】
モニタ６に表示されるテキスト情報TIに示されるように、同期再生モードがアクティブ状態なとき、テキストカーソルTCと音声カーソルACはともに表示されていて、テキストカーソルTCは大抵１つの文字をマークし、音声カーソルACは常に１つのワード全体をマークしている。同期再生モードがアクティブ状態のとき、テキストカーソルTCはテキスト情報TIの中の編集手段１１が最後に訂正した誤ったワード上の表示位置にとどまる一方、音声カーソルACはワード間をシフトしていく。
【００３６】
同期再生モードがアクティブ状態のとき、記憶手段９に保持されているディクテーションの音声データADが同期再生手段１２によって読み出され、D/A変換器１３に連続的に供給される。その後D/A変換器１３はディクテーションの再生のため、ディクテーションに含まれる音声信号SSの音声情報SIをスピーカー５に送信する。
【００３７】
同期再生モードをアクティブ状態にするために、音声認識装置１のユーザはフットスイッチ４の２つのスイッチの一方に足を置く。これにより、制御情報SIが同期再生手段１２に転送される。そして同期再生手段１２は、ディクテーションの音声データSDに加え、ディクテーションのため記憶媒体９に保持されているリンク情報LIを読み出す。
【００３８】
同期再生モードがアクティブ状態のとき、同期再生手段１２は音声カーソル情報ACIを生成し、編集手段１１に送るよう設計されている。音声カーソル情報ACIは再生中のワード及び表示されているテキスト情報TIにおける音声カーソルACが表示されるべき位置とをマークする。
【００３９】
同期再生モードがアクティブ状態になるとすぐ、記憶手段９から認識テキスト情報ETIを読み出し、一時的にテキスト情報TIとして保存するよう編集手段１１は設計される。この表示のための一時的に保存されたテキスト情報TIは、認識テキスト情報ETIに対応し、最終的に誤りのないテキスト情報を得るために、ユーザにより校正される。
【００４０】
編集手段１１に一時的に保存されたテキスト情報TIは、編集手段１１から画像処理手段１４に送られる。画像処理手段１４は表示のためのテキスト情報TIを処理し、テキスト情報TIを含む表示用ディスプレイ情報DIをモニタ６に送る。編集手段１１はまた、テキストカーソル情報TCIを画像処理手段１４に送る。ここで、テキストカーソル情報TCIは表示されたテキスト情報TIのテキストカーソルTCの位置をマークしている。同期再生モードがアクティブ状態のとき、編集手段１１は音声カーソルACの表示のため、音声カーソル情報ACIを画像処理手段１４に送る。
【００４１】
訂正手段１０の編集手段１１はまた、テキストカーソルTCを音声カーソルACに、あるいは音声カーソルACをテキストカーソルTCに位置合わせする（synchronized）ためのカーソル同期手段１５を備える。これにより、ユーザにより認識された誤ったワードを訂正するためのテキストカーソルTCの位置決めはかなり容易になる。この点に関するさらなる詳細な説明は、音声認識装置１の適用事例を利用して以下で与えられる。
【００４２】
編集手段１１はまた、同期再生モードが訂正装置１０においてアクティブ状態のとき、テキストカーソルTCの位置決めをし、ユーザにより誤りと認識されたワードが編集できるよう設計される。このようにして、訂正を行うことのできるユーザは、同期再生モードのアクティブ状態を解除し、誤ったワードを訂正した後再びアクティブ状態に切り替える必要なく、誤ったワードの訂正を行うことができる。これによりユーザはかなりの時間の節約が可能となる。この点に関するさらなる詳細な説明は、音声認識装置１の適用事例を利用して以下で与えられる。
【００４３】
図２のフローチャート１６を使って、音声認識装置１の適用事例が以下で説明される。本適用事例では、ドクターが新しい音声認識装置を試用し、マイクロフォン２に「THIS IS A TEXT THAT … ERRORS WITHIN THIS TEXT HAVE TO THE CORRECTED WITH A TEXT EDITOR」と口述している。その後、ブロック１７において、ディクテーションのデジタル音声データSDが音声認識手段８に送られる。ブロック１８において、音声認識手段８は対応する認識テキスト情報ETI及びリンク情報LIを認識し、ブロック１９において、それらを記憶手段９に保存する。ドクターがディクテーションにおけるいくつかのワードをはっきり発音しなかったため、音声認識手段８は「IS」の代わりに「MISS」と、「TEXT」の代わりに「PEST」と認識した。
【００４４】
その後、ブロック２０において、認識テキスト情報の誤ったワードを訂正するために、ドクターの秘書が音声認識装置１の同期再生モードをアクティブ状態にした。そして、記憶手段９から、編集手段１１は認識テキスト情報ETIを読み込み、同期再生手段１２はディクテーションの音声データSDとリンク情報LIを読み込む。テキスト情報TIはモニタ６に表示され、ディクテーションの再生が開始される。このとき音声カーソルACは、「THIS」から始まって、ディクテーションのワードを次々とマークしていく。
【００４５】
秘書が「MISS」というワードが誤りだと気付くと、キーボード３から対応する入力情報EIを入力することによってこれを訂正する。「MISS」の訂正後、テキストカーソルTCは「IS」というワードの文字「I」の位置にとどまるが、音声カーソルACはテキスト情報TIのワードを次々とマークし続けていく。音声カーソルACが「PEST」をマークした時点で、秘書はブロック２１においてこのワードが誤りだと認識し、ブロック２２においてキーボードのキーを組み合わせて「Alt + →」を入力する。その結果、同期情報SIYが編集手段１１に送られ、テキストカーソルTCが音声カーソルACに位置合わせされる。これにより、テキストカーソルTCは誤ったワード「PEST」の最初の文字「P」に置かれ、ブロック２３において秘書はこの誤ったワードを訂正し始める。
【００４６】
誤ったワードの位置にテキストカーソルTCを置くために、秘書は「→」キーを繰り返し打つという時間のかかるキー操作を行う必要がなくなった。同じように、テキストカーソルTCの位置を決めるために、秘書は時間のかかる図１に図示されないコンピュータマウスの利用を避けることができるようになった。
【００４７】
誤ったワード「PEST」の訂正中、秘書はこのワードの訂正中にディクテーションの残りのワードの再生についていけるくらいすでに十分慣れているので、同期再生モードはアクティブ状態に留められる。ディクテーションの終わりでのみ、秘書はブロック２４においてフットスイッチ４の第２のスイッチを操作することにより、同期再生モードを解除する。フローチャート１６のブロック１９から２４がこのケースにおける訂正手順を示している。
【００４８】
アクティブな同期再生モードで、「MISS」と「PEST」の間違ったワードを訂正することができるので、秘書はフットスイッチを何回も操作することなくスピーディーにこの作業を終えることができる。
【００４９】
また、「Alt + →」を入力することにより、テキスト情報TIの開始地点に近いカーソルにもう一方のカーソルの位置が合わせられる。さらに、「Alt + ←」を入力することにより、テキスト情報TIの最終地点に近いカーソルにもう一方のカーソルの位置が合わせられる。
【００５０】
このキーの組み合わせによる動的な調整は、ユーザにとって特に使い勝手がよいものである。例えば、「Ctrl」キーや「Alt Gr」キーが「Alt」キーの代わりに使用されてもよい。また、アクティブな同期再生モードでは、キーの組み合わせでなく、「←」キーと「→」キーのみを使って動的な調整が行われてもよい。
【００５１】
カーソルはフットスイッチあるいはコンピュータマウスの操作により位置合わせされてもよい。同様に、テキストカーソルTCを音声カーソルACに連続的かつ自動的に位置合わせすることも可能である。これにより、編集情報EIが入力されると、音声カーソルACの現在位置がテキストカーソルTCの位置と一致するようになるであろう。
【００５２】
適用事例に依存して、逆に音声カーソルACをテキストカーソルTCの位置に合わせることが有益かもしれない。これにより、音声カーソルACはテキストカーソルTC上に置かれることになる。ディクテーションの同期再生はテキストカーソルの位置から引き続き継続される。これにより、ディクテーションの再生部分の繰り返しが容易に可能となる。
【００５３】
このような同期処理によって、２つのカーソルは必ずしも同じ位置になる必要はない。例えば、一方のカーソルがもう一方のN=３ワード分先行していてもよい。これにより、ユーザは誤ったワードを認識したとき、自らの反応時間のバランスを考慮することができる。同期後テキストカーソルTCは音声カーソルACより３ワード分先行することになる。反応の早いユーザはN=1を選び、遅いユーザはN=10を選ぶ。同期後、テキストカーソルTCは誤ったワード上に常に位置し、極めて便利である。
【００５４】
同期再生モードにおいて、音声カーソルACとNワード分のシフトで連動するテキストカーソルTCとは連続的に表示されてもよい。これにより、誤ったワードの認識後、反応の遅いユーザはテキストカーソルTCが誤ったワード上に直接置かれる場合と同じくらいの時間を編集情報EIの入力にかけることができるようになる。これにより、誤ったワードの効率的な訂正が可能となる。
【００５５】
本発明による訂正装置は、特に、労働時間の大部分を認識テキスト情報ETIの校正に費やし、それゆえこの作業に熟練しているユーザに好適である。例えば、上述の米国特許第６,１７３,２５９号で参照できるように、そのようなユーザは転写サービスのいわゆる校正者として従事している。
【００５６】
本発明による訂正装置はほとんどがテキストエディタプログラムの一部であるが、必ずしもそうである必要はない。
【００５７】
同期再生モードは同期データSYIの入力によって自動的に中断され、編集データEIの入力後続けられてもよい。この変形は、訂正処理と平行して変換されたテキスト情報ETIの誤ったワードをさらにサーチする必要がないので、訂正装置に慣れていないユーザにとりわけ有益である。
【００５８】
コンピュータ１は同期再生中、必要なハードウェアを備えていなければ、ディクテーションを再生できなくてもよい。その場合、ディクテーションの音声データを保存するデジタルディクテーション装置が、同期再生中ディクテーションの音声を再生し、さらに位置情報をコンピュータに提供してもよい。この位置情報は、音声再生の実際の再生位置をマークし、この位置情報に基づいてコンピュータは対応する認識ワードをマークする。
【図面の簡単な説明】
【００５９】
【図１】図１は、認識されたテキスト中の誤ったワードを訂正する訂正装置を備えた音声認識装置を示す。
【図２】図２は、ディクテーションの処理方法及び音声認識装置により認識されたテキスト中の誤ったワードの訂正方法を示す。

Claims

音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正装置であって：
前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信手段であって、該受信手段は前記認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークする受信手段；
前記認識テキスト情報の誤ったワードにテキストカーソルを置き、ユーザにより入力された編集情報に従って前記誤ったワードを編集する編集手段；
前記音声情報の再生中、再生されている該音声情報に対し前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にする同期再生手段；及び
前記テキストカーソルを前記音声カーソルに、あるいは前記音声カーソルを前記テキストカーソルに同期させるカーソル同期手段；
からなることを特徴とする訂正装置。
請求項１記載の訂正装置であって、前記カーソル同期手段は、該訂正装置においてアクティブ状態にある前記同期表示モードにおいて、前記テキストカーソル及び音声カーソルを同期させるよう構成されていることを特徴とする訂正装置。
請求項１記載の訂正装置であって、前記カーソル同期手段はキーボードを備え、前記テキストカーソル及び音声カーソルは少なくとも１つのキーを手動操作することにより同期させることが可能であることを特徴とする訂正装置。
請求項３記載の訂正装置であって、前記少なくとも１つのキーは「→」キーあるいは「←」キーを含み、前記「→」キーが操作されるとき、前記認識テキスト情報の開始地点により近く示されている前記テキストカーソル及び音声カーソルの一方が他方のカーソルと同期させられ、認識テキスト情報の終了地点により近く示されている前記テキストカーソル及び音声カーソルの一方が他方のカーソルと同期させられることを特徴とする訂正装置。
請求項１記載の訂正装置であって、前記カーソル同期手段は、前記同期再生モードがアクティブ状態のとき、前記認識テキスト情報の前記テキストカーソルを前記音声カーソルより所定のワード数Nだけ先行して置くことを特徴とする訂正装置。
請求項５記載の訂正装置であって、前記所定のワード数Nは、ユーザ情報に従って設定されることを特徴とする訂正装置。
請求項２記載の訂正装置であって、前記カーソル同期手段はアクティブ状態の同期再生モードにおいて前記テキストカーソル及び音声カーソルを連続的かつ自動的に同期させ、誤ったワードの編集のため、前記テキストカーソルは少なくとも１つのキーの手動操作により、さらなる少なくとも１つのキーの操作により前記テキストカーソルが前記音声カーソルに再び同期させられるまで、該音声カーソルから切り離されることを特徴とする訂正装置。
音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正方法であって：
前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信し、認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークするステップ；
前記音声情報の再生中、再生されている該音声情報に対して前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にするステップ；及び
前記訂正装置においてアクティブ状態にある前記同期再生モードにおいて可能な、ユーザにより入力された編集情報に従ってテキストカーソル上の前記誤ったワードを編集するステップ；
からなることを特徴とする訂正方法。
請求項８記載の訂正方法であって、前記入力された編集情報に依存して、前記テキストカーソルは前記音声カーソルに同期させられ、あるいは前記音声カーソルは前記テキストカーソルに同期させられることを特徴とする訂正方法。
請求項８記載の訂正方法であって、前記テキストカーソル及び音声カーソルは少なくとも１つのキーを手動操作することにより同期させられることを特徴とする訂正方法。
請求項８記載の訂正方法であって、前記テキストカーソルは前記認識テキスト情報において、前記音声カーソルより所定のワード数Nだけ先行して置くことを特徴とする訂正方法。
請求項１１記載の訂正方法であって、前記所定のワード数Nは、ユーザ情報に従って設定されることを特徴とする訂正方法。
受信された音声情報においてテキスト情報を認識する音声認識装置であって：
音声情報を受信する受信手段；
受信された前記音声情報に対応する認識テキスト情報及びリンク情報を認識する音声認識手段であって、前記認識テキスト情報の各ワードに対して、前記リンク情報は該ワードが該音声認識手段により認識された前記音声情報の部分を示す音声認識手段；
前記認識テキスト情報に含まれた誤ったワードを訂正するための請求項１記載の訂正装置；
からなることを特徴とする音声認識装置。
デジタルコンピュータの内部メモリに直接ロード可能なコンピュータプログラムであって：
複数のソフトウェアコード；
からなり、該コンピュータプログラムが前記デジタルコンピュータ上で実行されれば、請求項８記載の訂正方法の各ステップが実行されることを特徴とするコンピュータプログラム。
請求項１４記載のコンピュータプログラムであって、該コンピュータプログラムはコンピュータ読み出し可能な媒体に記録されていることを特徴とするコンピュータプログラム。