JP2008217032A - 認識音声に対する同期再生中の文字編集 - Google Patents

認識音声に対する同期再生中の文字編集 Download PDF

Info

Publication number
JP2008217032A
JP2008217032A JP2008108926A JP2008108926A JP2008217032A JP 2008217032 A JP2008217032 A JP 2008217032A JP 2008108926 A JP2008108926 A JP 2008108926A JP 2008108926 A JP2008108926 A JP 2008108926A JP 2008217032 A JP2008217032 A JP 2008217032A
Authority
JP
Japan
Prior art keywords
cursor
information
character
word
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008108926A
Other languages
English (en)
Other versions
JP4463861B2 (ja
Inventor
Dieter Hoi
ホイ,ディーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8185104&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2008217032(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2008217032A publication Critical patent/JP2008217032A/ja
Application granted granted Critical
Publication of JP4463861B2 publication Critical patent/JP4463861B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】認識文字情報の誤った単語の修正の時間の節約を可能とする。
【解決手段】音声認識装置1は、口述のスピーチデータSDを処理して、当該口述の認識文字情報ETI及びリンク情報LIを生成する。音声認識装置1の同期再生モードにおいて、口述の音響的再生中、修正装置10は、リンク情報LIによりマークされ現に再生されているスピーチデータSDに関する認識文字情報ETIの文字を同期的にマークする。修正装置10は、同期再生モードが作動状態にある間、認識文字情報ETIの誤った単語の修正を可能とし、従って、時間の節約される誤った単語の修正が可能となる。
【選択図】図1

Description

本発明は、音声認識装置により音声情報から認識された文字情報の誤った単語を修正する修正装置に関する。
本発明は、また、音声認識装置により音声情報から認識された文字情報の誤った単語を修正する修正方法に関する。
本発明は、更に、受信した音声情報から文字情報を認識する音声認識装置に関する。
本発明は、また、コンピューターにより実行される単語処理ソフトウェアの修正ソフトウェアを含むコンピューター・プログラム・プロダクトに関する。
かかる修正装置及び修正方法は、特許文献1から知られており、トランスクリプションサービスの修正者の単語処理ソフトウェアを実行するコンピューターの形態である。修正者は、トランスクリプションサービスの従業員であり、音声認識プログラムにより自動的に認識された文字情報を手で修正する。
US−A−6,173,259
口述の著者は、公知のトランスクリプションサービスのサーバーにコンピューターを介して自己の口述からの音声情報を送ることができる。サーバーは、受信した口述の音声情報を、音声認識ソフトウェアを夫々実行する種々のコンピューターであって、この場合音声認識装置を構成するコンピューターに配信する。
公知の音声認識装置は、著者によって送られて来る口述の音声情報から文字情報を認識し、リンク情報も確立される。リンク情報は、認識された文字情報の各単語、単語が音声認識装置によって認識された音声情報の部分の各単語を表し示す。口述の音声情報、認識された文字情報、及び、リンク情報は、認識された文字情報内の誤った単語の修正のために、音声認識装置から修正者のコンピューターへと転送される。
公知の修正装置は、同期再生手段を含み、これにより、同期再生モードが可能となる。同期再生モードが修正装置でアクティブの時、口述の音声情報が再生されている間、音声情報の各音響的な再生単語と同期して、音声認識システムにより再生単語から認識された文字が、オーディオカーソルによりマークされる。従って、オーディオカーソルは、音響的に現に再生されている単語の認識文字情報内の位置を表わし示す。
同期再生中に修正者が文字情報中の誤った情報を認識した場合、修正者は、動同期再生モードを中断若しくは非作動状態にし、コンピューターのキーボードにより誤った単語に文字カーソルを位置付け、それを編集する。次いで、修正者は、同期再生モードを再び作動状態にし、この際、音声情報の再生が修正された単語から続けられる。
修正者は、修正した文字情報中の単語数に基づいてトランスクリプションサービスのプロバイダーから支払いを受ける。トランスクリプションサービスでの品質コントローラは、修正者により修正された文字情報のサンプルを取り、修正者が見落した誤った単語により修正者の支払いが影響を与える。修正者は、それ故に、同期再生モードが作動状態にあるときに自己により認識される誤った単語を最も時間を浪費せずに且つ可能限り少ない労力で修正できる単語処理ソフトウェアに大きな関心を有する。修正者は、それ故に、マウスを使うことが時間の浪費であることから、マウスを使用することなくコンピューターのキーボードを用いて誤った単語の修正のために必要な全ての編集情報を入力することを要求する。
公知の修正装置及び公知の修正方法は、作動状態の同期再生モードで修正者により認識される誤った単語の修正に対して、修正者による比較的多くの回数の手による活動が必要であり、これらの修正が修正者にとって時間がかかるものであるという、欠点を有することがわかる。
本発明は、上述の欠点が回避される、最初の段落で述べた種の修正装置、第2の段落で述べた種の修正方法、第3の段落で述べた種の音声認識装置、及び、第4の段落で述べた種のコンピューター・プログラム・プロダクトを提供することを目的とする。
上述の目的を達成するため、かかる修正装置において本発明による特徴が提供され、修正装置を次のように特徴付けることができる。
音声情報から音声認識装置により認識された認識文字情報中の誤った単語を修正するための修正装置であって、
前記音声情報、関連する認識文字情報、及び、認識文字情報の各単語にて、前記音声認識装置により認識された単語の前記音声情報の部分をマークするリンク情報を受信する手段と、
前記認識文字情報の誤った単語に文字カーソルを位置付けると共に、ユーザにより入力される編集情報により誤った単語を編集する編集手段と、
前記音声情報の音響的な再生中に、現に再生され且つ前記リンク情報によりマークされている前記認識文字情報の単語が同期してマークされる一方、オーディオカーソル位置が前記現にマークされている単語により際立たされる、同期再生モードを可能とする同期再生手段とを含み、
前記修正装置で前記同期再生モードが作動状態にあるときに、前記編集手段が、前記文字カーソルを位置付けると共に、前記誤った単語を編集するように設計されている、修正装置。
上述の目的を達成するため、かかる修正方法において本発明による特徴が提供され、修正方法を次のように特徴付けることができる。
音声情報から音声認識装置により認識された認識文字情報中の誤った単語を修正するための修正方法であって、
前記音声情報、関連する認識文字情報、及び、認識文字情報の各単語に対して前記音声認識装置により認識された単語の前記音声情報の部分をマークするリンク情報を受信し、
前記音声情報の音響的な再生中に、現に再生されている音声情報に対する前記リンク情報によりマークされている前記認識文字情報の単語が、同期してマークされる一方、オーディオカーソル位置が前記現にマークされている単語により強調される、同期再生モードを可能し、
文字カーソルがある前記誤った単語をユーザにより入力される編集情報に基づいて編集する各ステップが実行され、該誤った単語の編集が、前記修正装置で前記同期再生モードが作動状態にあるときに可能とされている、修正方法。
上述の目的を達成するため、かかる音声認識装置において本発明による特徴が提供され、音声認識装置を次のように特徴付けることができる。
受信した音声情報中の文字情報を認識する音声認識装置であって、
音声情報を受信する手段を含み、
受信した音声情報に割り当てられるべき認識文字情報及びリンク情報を認識する音声認識手段を含み、認識文字情報の各文字に対するリンク情報は、前記音声認識装置により認識された単語の前記音声情報の部分を表わし示すものであり、
認識文字情報に含まれる誤った単語を修正するための請求項1記載の修正装置を含む、音声認識装置。
上述の目的を達成するため、かかるコンピューター・プログラム・プロダクトにおいて本発明による特徴が提供され、コンピューター・プログラム・プロダクトを次のように特徴付けることができる。
デジタルコンピューターの内部メモリに直接実装可能なコンピューター・プログラム・プロダクトであって、コンピューター上で実行された場合、請求項7に記載の修正方法の各ステップがコンピューターにより実行される、コンピューター・プログラム・プロダクト。
本発明によれば、ユーザは、文字カーソルを認識文字情報内の誤った単語の位置に初期的に位置付け、その後、当該誤りを修正すべく、同期再生モードが修正装置で作動状態にあるとき、従って、音声情報の連続的な音響的な再生中、編集情報を入力することができる。誤った単語の編集中に同期再生モードが継続されるので、熟練した修正者は、編集中でさえも、認識文字情報内の誤った単語を探し続けることができ、従って、多大な時間を節約することができる。
特定の効果は、同期再生モードの非作動のための手動操作、及び、編集後の同期再生モードの作動のための手動操作が、不要となり、時間をより節約できることにある。
同期再生モードが作動状態の修正装置のユーザは、同期再生手段によってオーディオカーソルで現にマークされている修正のための単語を通常的にチェックするので、ユーザは、オーディオカーソルの現在位置付近で毎回、認識文字情報内の誤った単語を認識する。このとき、文字カーソルは、通常的には全く異なる位置、即ち、直近の誤った単語が修正された文字情報の位置に位置する。
請求項1及び7の手段によれば、ユーザは、例えばキーボード上のキーを操作することによって、文字カーソルが同期再生中にマークされた直近の位置に位置するように、オーディオカーソルに文字カーソルを同期させることができるという、効果をユーザが得ることができる。修正されるべき誤った単語は、通常的には本発明により位置付けられる文字カーソルの近傍に位置するので、誤った単語のその後の修正は、非常に少ない労力及び時間の消費に関連付けられる。
本発明によれば、同期再生モードが作動状態にあるとき、文字カーソルは、オーディオカーソルに連続的且つ自動的に同期されることもできる。このように、文字カーソルを位置付けるためのキーボードのキーの操作は、効果的に完全に不要とされうる。アプリケーションによっては、オーディオカーソルを文字カーソルに同期させること、従って、文字カーソルの位置にオーディオカーソルを位置付けることが有用な場合もある。
請求項2,3及び8の手段によれば、ユーザが、誤った単語を認識した時、認識文字情報内のオーディオカーソルの前にオーディオカーソル対して文字カーソルを同期させるため、“右矢印”キーを押すだけでよくなる場合に、効果的となることがわかっている。この例では、“左矢印”キーを押すことによって、オーディオカーソルは、文字カーソルに同期されることになり、従って、文字カーソルの位置に配置されることになるだろう。この“左矢印”キー及び右矢印”キーの動的な割り当ては、特にユーザフレンドリなものである。
請求項4及び9の手段によれば、ユーザの反応時間に起因して、誤った単語は、通常的には認識文字情報内のオーディオカーソルのN単語前に見つけられるので、文字カーソルが自動的に認識文字情報内のオーディオカーソルのN単語前に位置付けられることが効果的であることがわかっている。
請求項5及び10の手段によれば、ユーザが自己の通常の反応時間により数字Nを調整できる場合に効果的であることがわかっている。
請求項6の手段によれば、カーソルが、同期再生モードが作動状態にあるときに、ユーザが誤った単語を編集するためにカーソルを分離するまで、自動的に同期される場合に効果的であることがわかっている。このように、誤った単語を修正する特に簡易な操作が、効果的に達成される。
これより、本発明は、本発明を制限するものでない図面に示す実施例を参照して以下に詳説される。
図1は、音声認識装置ソフトウェア及び文字プレスソフトウェアを実行するコンピューターを含む音声認識装置1を示す。音声認識装置1は、マイクロフォン2、キーボード3、フットスイッチ4、拡声器5及びそれに接続するスクリーン6を有する。
音声認識装置1のユーザは、マイクロフォン2に向かって口述することができ、この際、口述の音声情報を含む音声信号SSが、音声認識装置に転送される。音声認識装置1は、A/Dコンバータ7を含み、これにより、音声信号SSがデジタル化され、この際、A/Dコンバータ7は、デジタルスピーチデータSDを音声認識手段8に送る。
音声認識手段8は、以下で認識文字情報ETIと称する、受信したスピーチデータSDに割り当てられる文字情報を認識するように設計されている。音声認識手段8は、更に、認識文字情報ETIの各単語に対して、音声認識手段8により認識された単語に対応するスピーチデータSDの部分をマークするリンク情報LIを確立するように設計されている。このような音声認識手段8は、例えば、この参照により本明細書のその開示が含められる、文献US−A−5,031,113から知られている。
音声認識装置1は、また、メモリ手段9を有し、これにより、音声認識手段8により転送されたスピーチデータSDが、口述のリンク情報LI及び認識文字情報ETIと共に格納される。上述の如く口述の音声情報に割り当てられるべき認識文字情報ETIを認識する音声認識方法は、長年知られているので、ここではこれ以上詳細に説明しない。
音声認識装置1は、また、認識文字情報ETIの誤った単語の修正のための修正装置10を有する。修正装置10は、文字編集ソフトウェアを実行するコンピューターを含み、当該文字編集ソフトウェアは、特別な修正ソフトウェアを含む。修正ソフトウェア10は、修正手段11及び同期再生手段12を含む。
修正手段11は、認識文字情報ETIの誤った単語に文字カーソルTCを位置付け、ユーザにより入力される編集情報EIにより誤った単語を修正するように設計されている。編集情報EIは、この場合、ユーザによりキーボード3のキーにより一般的に知られた態様で入力される。
同期再生手段12は、音声認識装置1の同期再生モードを可能とし、この同期再生モードでは、たった今再生されている音声情報に関するリンク情報LIによってマークされている認識文字情報ETIの単語が、口述の音声情報の音響的な再生中に同期してマークされる。文献US−A−5,031,113からも知られる、この公知の同期再生モードは、誤った単語の効率的な修正を可能とするので、音声認識装置のユーザによって非常に好まれるものである。
オーディオカーソルACが認識文字情報ETIの単語から単語へと変化する同期再生モードが、音声認識装置1において作動状態にあるとき、音響的に再生される各単語が正確にマークされる。カーソルは、例えば、カーソル位置で示される下線若しくは文字の反転によって表示できるが、カーソルの表示に対しては多くの他の可能性が知られている。
モニタ6で示すような文字情報TIからわかるように、同期再生モードが作動状態にあるとき、文字カーソルTC及びオーディオカーソルACの双方が、可視であり、文字カーソルTCは、たいてい一文字をマークし、オーディオカーソルACは、全単語を常にマークする。同期再生モードが作動状態にあるとき、文字カーソルTCは、編集手段11が誤った単語を編集するために最後に使用された表示文字情報TI内の位置に、静止したままであるが、オーディオカーソルACは単語から単語へと変化する。
同期再生モードが作動状態にあるとき、メモリ手段9に記憶された口述のオーディオデータADは、同期再生手段12により読み出され、連続的にD/Aコンバータ13に転送される。D/Aコンバータ13は、次いで、口述を含む音声信号SSの音声情報SIを、口述の音響的な再生のために拡声器5に転送することができる。
同期再生モードを作動させるため、音声認識装置1のユーザが、フットスイッチ4の2つのスイッチの一方の上に足を乗せると、制御情報SIが、同期再生手段12に送られる。次いで、同期再生手段12は、口述のスピーチデータSDに加えて、記憶媒体9内の口述に対して記憶されたリンク情報LIを読み出す。
同期再生モードが作動状態にあるとき、同期再生手段12は、オーディオカーソル情報ACIを生成し、それを編集手段11に送るように設計される。オーディオカーソル情報ACIは、各場合に音響的にたった今再生されている単語をマークし、従って、表示されている文字情報TI内でのオーディオカーソルACの表示されるべき位置をマークする。
同期再生モードの起動直後、編集手段11は、メモリ手段9から認識文字情報ETIを読出し、それを、表示されるべき文字情報TIとして一時記憶するように設計されている。この表示されるべき一時記憶された文字情報TIは、当分の間は認識文字情報ETIに対応し、最終的に誤りのない文字情報を達成すべく、誤った単語への修正によりユーザによって修正される。
編集手段11内に一時記憶された文字情報TIは、編集手段11から画像処理手段14に転送される。画像処理手段14は、表示されるべき文字情報TIを処理し、モニタ6に、表示されるべき文字情報TIを含む表示可能な表示情報DIを送る。編集手段11は、また、画像処理手段14に、表示された文字情報TI内の文字カーソルTCの位置をマークする文字カーソル情報TCIを送る。同期再生モードが作動状態にあるとき、編集手段11は、また、画像処理手段14に、オーディオカーソルACの表示用のオーディオカーソル情報ACIも送る。
修正手段10の編集手段11は、また、文字カーソルTCをオーディオカーソルACに同期させるか、若しくは、オーディオカーソルACを文字カーソルTCに同期させる同期手段15を含む。このように、ユーザにより認識された誤った単語を修正するための文字カーソルTCの位置付けは、非常に容易になされ、この更なる詳細は、音声認識装置1の適用例を用いて次に説明される。
編集手段11は、修正装置10で同期再生モードが作動状態にあるときに、文字カーソルTCを位置付けるように、且つ、ユーザによって誤っていると認識される文字を編集するように設計されている。このように、修正に熟練するユーザは、同期再生モードを先ず非作動状態にし且つ修正後に再び作動状態にすることなく、誤った単語を修正でき、従って、ユーザは効果的に非常に多くの時間を節約することができる。この更なる詳細は、次の音声認識装置1の適用例に示される。
次に、音声認識装置1の適用例を、図2のフローチャートを用いて説明する。本適用例では、医者が自己の新たな音声認識装置を試用し、口述“THIS IS A TEST THAT…ERRORS WITHIN THIS TEXT HAVE TO THE CORRECTED WITH A TEXT EDITOR”をマイクロフォン2に行ったと想定し、その後、ブロック17で、口述のデジタルスピーチデータSDが、音声認識手段8に転送される。ブロック18では、音声認識手段8は、関連する認識文字情報ETI及びリンク情報LIを認識し、それをブロック19にて記憶手段9に記憶する。医者は口述の幾つかの単語をはっきりと発音しなかったので、音声認識手段8は、単語“IS”でなく単語“MISS”と認識し、単語“TEXT”でなく単語“PEST”と認識する。
後に、ブロック20で、医者の秘書が、認識文字情報の誤った単語を修正すべく、音声認識装置1の同期再生モードを作動状態にする。編集手段11は、このとき、認識文字情報ETIを読み出し、同期再生手段12は、口述のリンク情報LI及びスピーチデータSDを記憶手段9から読み出す。文字情報TIは、次いで、モニタ6により表示され、口述の音響的な再生が開始すると、“THIS”から始まるオーディオカーソルACは、口述の文字を連続的にマークする。
秘書は、直ぐに、単語“MISS”を誤った単語として認識し、これを、キーボード3を用いて、対応する入力情報EIを入力することによって修正する。単語“MISS”の修正後、文字カーソルTCは、文字“I”の位置で単語“IS”に位置するままである一方、オーディオカーソルACは、文字情報TIを単語毎にマークし続ける。オーディオカーソルACが単語“PEST”をマークした時点で、秘書は、ブロック21で、この単語を誤った単語として認識し、ブロック22で、“ALT+右矢印”のキーの組み合わせを押す。この結果、同期情報SIYが編集手段11に送られ、文字カーソルTCは、オーディオカーソルACに同期される。この結果、文字カーソルTCは、誤った単語“PEST”最初の単語“P”に位置付けられ、秘書は、ブロック23にて、直ぐに当該誤った単語を修正し始めることができる。
この効果は、秘書が、非常に時間を浪費することになるだろうキー操作である、誤った単語の位置に文字カーソルTCを位置付けるために“矢印”キーの多くのキー操作をする必要がなくなったことにある。同様に、文字カーソルTCを位置付けるため、秘書は、非常に時間を浪費することになるだろう図1に示すようなコンピューターマウスの使用の必要もなくなる。
秘書は、既に誤った単語“PEST”の修正中に口述の最終単語の継続した同期再生に追従するほど十分熟練しているので、この単語の修正中、同期再生モードは作動状態のままである。秘書は、口述の最後のみ、ブロック24で、フットスイッチ4の第2のスイッチを操作することで同期再生モードを非作動にする。フローチャート16のブロック19乃至24は、この場合の修正手順を示す。
秘書は、同期再生モードで誤った単語“MISS”及び“PEST”の修正を実行することができたので、秘書は、多くの回数フットスイッチを操作することが省かれ、非常に効果的であることに、自己の作業をより迅速に完了することができた。
理解できるように、キー組み合わせ“ALT+右矢印”を押すことによって、他のカーソルに比して文字情報TIの開始位置により近い側のカーソルが、他のカーソルに同期されることになる。更に、“ALT+左矢印”キーを押すことによって、他のカーソルに比して文字情報TIの終了位置により近い側のカーソルが、他のカーソルに同期されることになる。
キー組み合わせの機能のこの動的な割り当ては、特にユーザフレンドリであることがわかっている。明らかであるが、例えば、“Ctrl”キー若しくは“Alt Gr”キーが、“ALT”キーに代わってキー組み合わせに使用されて良い。更に、作動状態の同期再生モードにおいて、キー組み合わせは、如何なる方法で提供されても良く、単なる“左矢印”キーや“右矢印”キーが動的な割り当てに使用されてもよい。
尚、カーソルは、フットスイッチやコンピューターマウスの操作によって同期されうる。同様に、編集情報EIが入力された時に、オーディオカーソルACの現在位置が、文字カーソルTCの位置と同一となるように、文字カーソルTCをオーディオカーソルACに連続的且つ自動的に同期させることも可能であろう。
また、アプリケーションに依存して、オーディオカーソルACが文字カーソルTCの位置に位置するように、文字カーソルTCにオーディオカーソルACを同期させることも有効となり得る。このとき、口述の同期再生は、口述の再生の部分の繰り返しが容易に可能となるよう、文字カーソルの位置から継続する。
また、同期に続く双方のカーソルは、常に同一位置に位置する必要はない。従って、例えば、一方のカーソルが、他のカーソルよりもN=3の数の単語前に配置されてよい。これにより、ユーザは、誤った単語が認識された時の自己の反応時間との調整を取ることができ、この場合、同期後に、文字カーソルTCが、オーディオカーソルACより3単語前に毎回位置するようになる。反応の早いユーザはN=1を選択し、遅いユーザはN=10を選択しうり、この場合、同期後に、文字カーソルTCは、非常に効果的なことに、誤った単語上に実際に常に既に位置することになる。
更に、同期再生モードでN個の単語数だけずれてオーディオカーソルACに結合される文字カーソルTCは、連続的に表示されうり、誤った単語の認識後、通常的に遅いユーザは、依然として、文字カーソルTCが誤った単語上に直接位置するのにかかる時間だけ、編集情報EIの入力に時間をかけることができる。これは、誤った単語を非常に効率的な修正を提供するだろう。
また、本発明による修正装置は、特に、認識文字情報ETIを修正するのに大部分の労働時間を費やし、それ故にこれに非常に熟練しているユーザに効果的である。かかるユーザは、この参照により本明細書のその開示が含められる文献US−A−6,173,259に開示されるような、とりわけトランスクリプションサービスのいわゆる修正者である。
本発明による修正装置は、実質的に文字修正プログラムの部分でありうるといえるが、そうである必要はない。
音声認識装置によって認識されている文字中の誤った単語を修正するための修正装置を備えた音声認識装置を示す図である。 音声認識装置によって認識されている文字中の誤った単語を修正するための方法が実行される、口述の処理方法を示す図である。

Claims (13)

  1. 音声情報から音声認識装置により認識された認識文字情報中の誤った単語を修正するための修正装置であって、各々の単語が前記音声認識装置により認識された箇所の音声情報の部分を認識文字情報の各単語にてマークするリンク情報を確立する修正装置において、
    前記音声情報、関連する認識文字情報、及び、前記リンク情報を受信する受信手段と、
    前記認識文字情報の誤った単語に文字カーソルを位置付けると共に、ユーザにより入力される編集情報に従って誤った単語を修正するように構成された編集手段と、
    当該修正装置の同期再生モードを実行する同期再生手段とを含み、
    同期再生モードでは、前記音声情報の音響的な再生中に、現に再生され且つ前記リンク情報によりマークされる前記認識文字情報の単語が同期してマークされる一方、前記現にマークされた単語がオーディオカーソル位置を強調し、前記編集手段は、前記同期再生モードが作動状態にあるときに、前記文字カーソルを誤った単語に位置付けると共に、前記誤った単語を修正するように構成されており、
    当該修正装置は、前記同期再生モード中に、前記文字カーソルを前記オーディオカーソルに同期させるか、若しくは、前記オーディオカーソルを前記文字カーソルに同期させるよう構成されているカーソル同期手段を更に備える、修正装置。
  2. 前記カーソル同期手段は、キーボードを含み、前記オーディオカーソル及び前記文字カーソルは、少なくとも1つのキーを手動操作することで同期させることができる、請求項1記載の修正装置。
  3. 少なくとも1つのキーは、“右矢印”キー若しくは“左矢印”キーを含み、
    “右矢印”キーが操作されたときに、他のカーソルよりも認識文字情報の開始位置に近いカーソルが、該他のカーソルに対して同期され、他のカーソルよりも認識文字情報の終了位置に近いカーソルが、該他のカーソルに対して同期されることができる、請求項2記載の修正装置。
  4. 前記カーソル同期手段は、前記同期再生モードが作動状態にあるときに、認識文字情報中に前記文字カーソルを、前記オーディオカーソルよりも所定の単語数Nだけ前で位置付ける、請求項1記載の修正装置。
  5. 前記所定の単語数Nは、ユーザの情報に基づいて設定されることができる、請求項4記載の修正装置。
  6. 前記カーソル同期手段は、作動状態の同期再生モードで前記オーディオカーソル及び前記文字カーソルを連続的且つ自動的に同期させ、
    前記文字カーソルは、作動状態の同期再生モードで、誤った単語を修正するため、少なくとも1つのキーの手動操作により、少なくとも1つのキーの更なる操作により前記オーディオカーソルに再び同期されるまで前記オーディオカーソルから分離されることができる、請求項1記載の修正装置。
  7. 音声情報から音声認識装置により認識された認識文字情報中の誤った単語を修正するための修正方法であって、
    修正装置において、前記音声情報、関連する認識文字情報、及び、認識文字情報の各単語に対して前記音声認識装置により認識された単語の前記音声情報の部分をマークするリンク情報を受信するステップと、
    前記音声情報の音響的な再生中に、現に再生されている音声情報に対する前記リンク情報によりマークされている前記認識文字情報の単語が、同期してマークされる一方、オーディオカーソル位置が前記現にマークされている単語により強調される、同期再生モードを実行するステップと、
    入力された編集情報に依存して、前記文字カーソルを、前記オーディオカーソルに同期させるか、若しくは、前記オーディオカーソルを、前記文字カーソルに同期させるステップと、
    文字カーソルの補助により前記誤った単語をユーザにより入力される編集情報に従って修正するステップとを含み、該誤った単語の修正が、前記修正装置で前記同期再生モードが作動状態にあるときに可能である、修正方法。
  8. 前記オーディオカーソル及び前記文字カーソルは、少なくとも1つのキーを手動で作動させることによって同期される、請求項7記載の修正方法。
  9. 前記文字カーソルは、認識文字情報中で前記オーディオカーソルよりも所定の単語数Nだけ前に位置付けられる、請求項7記載の修正方法。
  10. 前記所定の単語数Nは、ユーザの情報に基づいて設定される、請求項9記載の修正方法。
  11. 受信した音声情報中の文字情報を認識する音声認識装置であって、
    音声情報を受信する手段を含み、
    文字情報を認識すると共に受信した音声情報に割り当てられるべきリンク情報を確立する音声認識手段を含み、認識文字情報の各文字に対するリンク情報は、前記音声認識装置により認識された単語の前記音声情報の部分を表わし示すものであり、
    認識文字情報に含まれる誤った単語を修正するための請求項1記載の修正装置を更に含む、音声認識装置。
  12. デジタルコンピューターの内部メモリに直接実装可能なコンピューター・プログラムであって、コンピューター上で実行された場合、請求項7に記載の修正方法の各ステップがコンピューターにより実行される、コンピューター・プログラム。
  13. コンピューター読取り可能な媒体上に記憶された請求項12記載のコンピューター・プログラム。
JP2008108926A 2001-03-29 2008-04-18 認識音声に対する同期再生中の文字編集 Expired - Fee Related JP4463861B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP01890103 2001-03-29

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002578285A Division JP4173371B2 (ja) 2001-03-29 2002-03-19 認識音声に対する同期再生中の文字編集

Publications (2)

Publication Number Publication Date
JP2008217032A true JP2008217032A (ja) 2008-09-18
JP4463861B2 JP4463861B2 (ja) 2010-05-19

Family

ID=8185104

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002578285A Expired - Fee Related JP4173371B2 (ja) 2001-03-29 2002-03-19 認識音声に対する同期再生中の文字編集
JP2008108926A Expired - Fee Related JP4463861B2 (ja) 2001-03-29 2008-04-18 認識音声に対する同期再生中の文字編集

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2002578285A Expired - Fee Related JP4173371B2 (ja) 2001-03-29 2002-03-19 認識音声に対する同期再生中の文字編集

Country Status (7)

Country Link
US (1) US6999933B2 (ja)
EP (1) EP1374224B1 (ja)
JP (2) JP4173371B2 (ja)
CN (1) CN1215458C (ja)
AT (1) ATE317583T1 (ja)
DE (1) DE60209103T2 (ja)
WO (1) WO2002080144A1 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60202453T2 (de) 2001-03-29 2006-01-19 Koninklijke Philips Electronics N.V. Synchronisierung eines audio- und eines text-cursors während der editierung
DE10251112A1 (de) 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren und System zur Spracherkennung
EP2544101A1 (en) 2002-11-28 2013-01-09 Nuance Communications Austria GmbH Method to assign word class information
AU2003279398A1 (en) * 2002-12-16 2004-07-09 Sony Ericsson Mobile Communications Ab Device for generating speech, apparatus connectable to or incorporating such a device, and computer program product therefor
EP1431958B1 (en) * 2002-12-16 2018-07-18 Sony Mobile Communications Inc. Apparatus connectable to or incorporating a device for generating speech, and computer program product therefor
US7263483B2 (en) * 2003-04-28 2007-08-28 Dictaphone Corporation USB dictation device
US8504369B1 (en) 2004-06-02 2013-08-06 Nuance Communications, Inc. Multi-cursor transcription editing
US7836412B1 (en) 2004-12-03 2010-11-16 Escription, Inc. Transcription editing
WO2007023436A1 (en) 2005-08-26 2007-03-01 Koninklijke Philips Electronics N.V. System and method for synchronizing sound and manually transcribed text
WO2007052281A1 (en) * 2005-10-31 2007-05-10 Hewlett-Packard Development Company, L.P. Method and system for selection of text for editing
JP4832158B2 (ja) * 2006-05-16 2011-12-07 富士通東芝モバイルコミュニケーションズ株式会社 音声応答装置及びその方法
EP2044804A4 (en) 2006-07-08 2013-12-18 Personics Holdings Inc PERSONAL HEARING AID AND METHOD
US8521510B2 (en) 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
KR20090047159A (ko) * 2007-11-07 2009-05-12 삼성전자주식회사 오디오-북 재생 방법 및 장치
US8352269B2 (en) * 2009-01-15 2013-01-08 K-Nfb Reading Technology, Inc. Systems and methods for processing indicia for document narration
US8370151B2 (en) 2009-01-15 2013-02-05 K-Nfb Reading Technology, Inc. Systems and methods for multiple voice document narration
US10088976B2 (en) 2009-01-15 2018-10-02 Em Acquisition Corp., Inc. Systems and methods for multiple voice document narration
CN102163379B (zh) * 2010-02-24 2013-03-13 英业达股份有限公司 听写文章之校正语音的定位与播放系统及其方法
US8392186B2 (en) * 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US9774747B2 (en) * 2011-04-29 2017-09-26 Nexidia Inc. Transcription system
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
CN103177724A (zh) * 2013-03-19 2013-06-26 华为终端有限公司 语音控制文本操作的方法、装置及终端
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
US9218811B2 (en) 2013-06-28 2015-12-22 Google Technology Holdings LLC Electronic device and method for managing voice entered text using gesturing
JP6767102B2 (ja) * 2015-10-14 2020-10-14 凸版印刷株式会社 情報処理装置、および、情報処理プログラム
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
JP6721981B2 (ja) * 2015-12-17 2020-07-15 ソースネクスト株式会社 音声再生装置、音声再生方法及びプログラム
CN105827417A (zh) * 2016-05-31 2016-08-03 安徽声讯信息技术有限公司 一种用于会议记录并可随时修改的语音速记装置
CN106409296A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 基于分核处理技术的语音快速转写校正系统
CN106448675B (zh) * 2016-10-21 2020-05-01 科大讯飞股份有限公司 识别文本修正方法及系统
CN107527618A (zh) * 2017-07-13 2017-12-29 安徽声讯信息技术有限公司 一种音频文字同步播放系统
CN108320743A (zh) * 2018-02-07 2018-07-24 上海速益网络科技有限公司 一种数据录入方法及装置
CN108364653B (zh) * 2018-02-12 2021-08-13 王磊 语音数据处理方法及处理装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54136134A (en) * 1978-04-13 1979-10-23 Toshiba Corp Aural typewriter
JPS6184771A (ja) * 1984-10-03 1986-04-30 Hitachi Ltd 音声入力装置
JPS62212870A (ja) * 1986-03-14 1987-09-18 Fujitsu Ltd 文章読み上げ校正装置
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
US5787414A (en) * 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
GB2285895A (en) * 1994-01-19 1995-07-26 Ibm Audio conferencing system which generates a set of minutes
JPH0997097A (ja) * 1995-10-02 1997-04-08 Oki Electric Ind Co Ltd 音声認識の確認訂正方法
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
JPH10134039A (ja) * 1996-10-31 1998-05-22 Toshiba Corp パーソナルコンピュータおよびカーソルの表示制御方法
EP0840287A3 (en) * 1996-10-31 1999-04-07 Microsoft Corporation Method and system for selecting recognized words when correcting recognized speech
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
JPH1185456A (ja) * 1997-09-10 1999-03-30 Matsushita Electric Ind Co Ltd 会話記録装置
JP3082746B2 (ja) * 1998-05-11 2000-08-28 日本電気株式会社 音声認識システム
US6360237B1 (en) * 1998-10-05 2002-03-19 Lernout & Hauspie Speech Products N.V. Method and system for performing text edits during audio recording playback
JP2000250584A (ja) * 1999-02-24 2000-09-14 Takada Yukihiko ディクテーション装置およびディクテーション方法
JP2003518266A (ja) * 1999-12-20 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのテキスト編集用音声再生
US6963840B2 (en) * 2001-01-12 2005-11-08 International Business Machines Corporation Method for incorporating multiple cursors in a speech recognition system

Also Published As

Publication number Publication date
EP1374224A1 (en) 2004-01-02
US20020143534A1 (en) 2002-10-03
DE60209103D1 (de) 2006-04-20
JP4173371B2 (ja) 2008-10-29
EP1374224B1 (en) 2006-02-08
WO2002080144A1 (en) 2002-10-10
DE60209103T2 (de) 2006-09-14
JP2004529381A (ja) 2004-09-24
CN1215458C (zh) 2005-08-17
JP4463861B2 (ja) 2010-05-19
ATE317583T1 (de) 2006-02-15
CN1460246A (zh) 2003-12-03
US6999933B2 (en) 2006-02-14

Similar Documents

Publication Publication Date Title
JP4463861B2 (ja) 認識音声に対する同期再生中の文字編集
US8117034B2 (en) Synchronise an audio cursor and a text cursor during editing
TWI249729B (en) Voice browser dialog enabler for a communication system
JP4972645B2 (ja) サウンド及び手作業により転写されるテキストを同期させるシステム及び方法
JP5025261B2 (ja) 信頼水準の指示により音声認識の結果を訂正するためのシステム
US8612231B2 (en) Method and system for speech based document history tracking
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
JP2005228178A (ja) 書き起こしテキスト作成支援システムおよびプログラム
JP3682922B2 (ja) リアルタイム文字修正装置およびリアルタイム文字修正プログラム
JP2008051883A (ja) 音声合成制御方法および装置
JP2005509906A (ja) 所定ウィンドウにてテキストを編集する装置
JP3813132B2 (ja) プレゼンテーション用プログラム及びプレゼンテーション用装置
JP2009080614A (ja) 表示制御装置、プログラム及び表示システム
JPH1152983A (ja) 音声認識装置
JP2006064959A (ja) 音声合成方法および装置
JP4047323B2 (ja) 情報処理装置及びその方法、プログラム
JP2010009461A (ja) 表示プログラムおよび表示装置
JP2016177311A (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
JPH0311410A (ja) 情報処理装置
JP2008219492A (ja) メニュー画面データ変更方法およびメニュー画面データ変更プログラム
JP2002297289A (ja) キーボード入力支援装置
JP2013037030A (ja) エミュレータ装置およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100217

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees