JP2004530205A - 編集中における音声カーソルとテキストカーソルの位置合わせ - Google Patents

編集中における音声カーソルとテキストカーソルの位置合わせ Download PDF

Info

Publication number
JP2004530205A
JP2004530205A JP2002578284A JP2002578284A JP2004530205A JP 2004530205 A JP2004530205 A JP 2004530205A JP 2002578284 A JP2002578284 A JP 2002578284A JP 2002578284 A JP2002578284 A JP 2002578284A JP 2004530205 A JP2004530205 A JP 2004530205A
Authority
JP
Japan
Prior art keywords
cursor
information
text
voice
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002578284A
Other languages
English (en)
Other versions
JP5093966B2 (ja
Inventor
グシュヴェントナー,ヴォルフガング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8185105&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2004530205(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004530205A publication Critical patent/JP2004530205A/ja
Application granted granted Critical
Publication of JP5093966B2 publication Critical patent/JP5093966B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Machine Translation (AREA)

Abstract

音声認識装置は、ディクテーションの音声データを処理し、当該ディクテーションの認識テキスト情報及びリンク情報を生成する。音声認識装置の同期再生モードでは、ディクテーションの再生中、訂正装置は再生されている音声データに関連する認識テキスト情報のワードを音声カーソルによりマークする。音声認識装置において、ユーザが誤ったワードを認識したら、この誤ったワード上にテキストカーソルを置き、これを訂正する。カーソル同期手段は、テキストカーソルを音声カーソルの位置に合わせること、あるいは音声カーソルをテキストカーソルの位置に合わせることを可能にする。これにより各カーソルの位置決めを容易に行うことができるようになる。

Description

【0001】
本発明は、音声認識装置によって、音声情報から認識されたテキスト情報中の誤ったワードを訂正する訂正装置に関する。
【0002】
本発明は、また、音声認識装置によって、音声情報から認識されたテキスト情報中の誤ったワードを訂正する訂正方法に関する。
【0003】
本発明は、さらに、受け取った音声情報からテキスト情報を認識する音声認識装置に関する。
【0004】
本発明は、また、コンピュータにより実行される文書処理ソフトウェアの訂正ソフトウェアからなるコンピュータプログラムに関する。
【0005】
そのような訂正装置及び訂正方法は、米国特許第6,173,259号から知られており、転写サービス(transcription service)の校正者の文書処理ソフトウェアを実行するコンピュータとして実現されている。校正者とは、音声認識プログラムで自動的に認識されたテキスト情報を手動で訂正する、転写サービスの従業員である。
【0006】
口述を行う人は、自らのディクテーション(dictation)の音声情報を既存の転写サービスのサーバにコンピュータネットワークを通じて送る。サーバは受け取ったディクテーションの音声情報を様々なコンピュータに配信し、各コンピュータで音声認識ソフトウェアが実行される。このとき、各コンピュータは音声認識装置として機能する。
【0007】
従来技術による音声認識装置は、口述者から送られたディクテーションの音声情報からテキスト情報を認識するとともに、リンク情報を生成する。認識されたテキスト情報の各ワードに対し、リンク情報では音声認識装置によって認識された音声情報の各ワードに該当する部分がマークされる。認識されたテキスト情報の誤ったワードを訂正するために、ディクテーションの音声情報、認識テキスト情報及びリンク情報が、音声認識装置から校正者のコンピュータへ転送される。
【0008】
従来技術による訂正装置は同期再生モード(synchronous playback mode)を可能とする同期再生手段(synchronous play back means)を備えている。訂正装置において同期再生モードがアクティブ状態にあるとき、ディクテーションの音声情報の再生中、音声情報の再生される各ワードと同期して、音声認識システムにより再生されたワードから認識されたワードが音声カーソルによりマークされる。音声カーソルは認識されたテキスト情報における再生中のワードの位置をマークする。
【0009】
もし校正者がテキスト情報の間違ったワードを同期再生モードにおいて認識すれば、同期再生モードを中断あるいはアクティブ状態の解除をし、コンピュータのキーボードを使い間違っているワードの上にテキストカーソルを置き、それを編集する。再び同期再生モードに戻されると、この訂正されたワードから音声情報が引き続き再生される。
【0010】
校正者は、テキスト情報中の訂正を行ったワード数に応じて、転写サービスの提供者から手当てが支払われる。転写サービスの品質管理者は、校正者により校正されたテキスト情報から、手当てに影響を与える校正者により見過ごされた誤ったワードのサンプリングを行う。したがって、校正者は、同期フィードバックモード(synchronous feedback mode)がアクティブ状態のとき、校正者により認識された誤ったワードを最も時間がかからず、最も少ない手作業で訂正することができるワープロソフトに大きな関心を持っている。したがって校正者は、マウスで対象位置までもっていくのは時間がかかってしまうので、マウスを使うことなくコンピュータのキーボードで誤ったワードの訂正に必要な編集情報のすべての入力が可能になることを望んでいる。
【0011】
従来技術による訂正装置及び訂正方法では、アクティブ状態の同期表示モード(synchronous display mode)において、校正者により誤りと認められたワードの訂正には、校正者側の比較的大きな手作業が必要であり、多くの時間が校正者にかかってしまう。
【0012】
本発明の課題は、上記の問題点を解決するような、第1段落に述べられたタイプによる訂正装置、第2段落に述べられたタイプによる訂正方法、第3段落に述べられたタイプによる音声認識情報、及び第4段落に述べられたタイプのコンピュータプログラムを提供することにある。
【0013】
上記課題を達成するために、本発明による訂正装置は以下のような特徴を有する。音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正装置であって、前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信手段であって、該受信手段は認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークする受信手段、前記認識テキスト情報の誤ったワードにテキストカーソルを置き、ユーザにより入力された編集情報に従って前期誤ったワードを編集する編集手段、前記音声情報の再生中、再生されている該音声情報に対し前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にする同期再生手段、及び前記テキストカーソルを前記音声カーソルに、あるいは前記音声カーソルを前記テキストカーソルに同期させるカーソル同期手段からなることを特徴とする訂正装置。
【0014】
上記課題を達成するために、本発明による訂正方法は以下のような特徴を有する。音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正方法であって、前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信し、認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークするステップ、前記音声情報の再生中、再生されている該音声情報に対して前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にするステップ、及び前記訂正装置においてアクティブ状態にある前記同期再生モードにおいて可能な、ユーザにより入力された編集情報に従ってテキストカーソル上の前記誤ったワードを編集するステップからなることを特徴とする訂正方法。
【0015】
上記課題を達成するために、本発明による音声認識装置は以下のような特徴を有する。
【0016】
受信された音声情報においてテキスト情報を認識する音声認識装置であって、音声情報を受信する受信手段、受信された前記音声情報に対応する認識テキスト情報及びリンク情報を認識する音声認識手段であって、前記認識テキスト情報の各ワードに対して、前記リンク情報は該ワードが該音声認識手段により認識された前記音声情報の部分を示す音声認識手段、前記認識テキスト情報に含まれた誤ったワードを訂正するための上述の訂正装置からなることを特徴とする音声認識装置。
【0017】
上記課題を達成するために、本発明によるコンピュータプログラムは以下のような特徴を有する。デジタルコンピュータの内部メモリに直接ロード可能なコンピュータプログラムであって、複数のソフトウェアコードからなり、該コンピュータプログラムが前記デジタルコンピュータ上で実行されれば、上述の訂正方法の各ステップが実行されることを特徴とするコンピュータプログラム。
【0018】
アクティブ状態の同期再生モードの訂正装置において、ユーザは同期再生手段により音声カーソルでマークされたワードが正しいものであるかどうかチェックを行う。そしてユーザはこの音声カーソルの近くで認識テキスト情報に誤ったワードを認識する。このとき、テキストカーソルはこれと全く異なる位置に、すなわち直前の誤ったワード訂正されたテキスト情報の位置に通常置かれる。
【0019】
本発明によると、ユーザは、例えば、キーボードのキーを操作することにより、テキストカーソルを音声カーソルに同期させる。これにより、テキストカーソルは同期再生中直前にハイライトされたワード上に置かれる。訂正対象の誤ったワードは一般的にテキストカーソルの近くに置かれるので、この訂正対象のワードの訂正は簡単な手動操作で、短時間に行うことができる。
【0020】
本発明によると、同期再生モードがアクティブ状態のとき、テキストカーソルは音声カーソルと連続的かつ自動的に同期させられる。したがって、テキストカーソルの位置設定のため、キーボードのキーを操作する必要がなくなる。適用対象に依存して、音声カーソルをテキストカーソルに同期させ、テキストカーソルの位置に音声カーソルを置くよう構成されてもよい。
【0021】
請求項2及び9記載の発明によると、誤ったワードを編集するために、同期再生モードが中断あるいはアクティブ状態を解除される必要はない。これにより、慣れている校正者は大幅に時間を節約することができる。
【0022】
請求項3、4及び10記載の発明によると、ユーザが誤ったワードを認識したとき、ユーザは認識テキスト情報の音声カーソルに先行するテキストカーソルを音声カーソルに同期させるため、単に「→」を入力しさえすればよい。また本実施例において「←」が入力されれば、音声カーソルがテキストカーソルに一致させられ、テキストカーソル上に置かれる。このような「→」キーと「←」キーの動的割り当ては、ユーザにとって特に便利なものである。
【0023】
請求項5及び11記載の発明によると、ユーザの反応時間を考慮したとき、誤ったワードは認識テキスト情報の音声カーソルのNワード数だけ前で通常検出されるので、認識テキスト情報の音声カーソルの位置のNワード手前にテキストカーソルを自動的に置くことができる。
【0024】
請求項6及び12記載の発明によると、ユーザは自らの通常の反応時間に応じてワード数Nを調整することができる。
【0025】
請求項7記載の発明によると、同期再生モードがアクティブ状態のとき、ユーザが誤ったワードを編集するため2つのカーソルを切り離すまで、2つのカーソルは自動的に位置合わせが行われる。以上のように、誤ったワードの訂正操作が容易に実行される。
【0026】
図面に示された実施例を参照しながら、以下で本発明の説明がなされる。しなしながら、本発明はここで例示された実施例に制限されるものではない。
【0027】
図1は、音声認識ソフトウェア及びテキスト入力ソフトウェアが実行されるコンピュータからなる音声認識装置1を示す。音声認識装置1には、マイクロフォン2、キーボード3、フットスイッチ(foot switch)4、スピーカー5及びスクリーン6が接続される。
【0028】
音声認識装置1のユーザは、マイクロフォン1から口述を行うことができる。ここでは、ディクテーションの音声情報を含む音声信号SSが音声認識装置1に送られる。音声認識装置1はA/D変換器7を備える。これによって、音声信号SSはデジタル化され、A/D変換器7はデジタル音声データSDを音声認識手段8に送ることができる。
【0029】
音声認識手段8は、認識テキスト情報ETIと呼ばれる受信された音声データSDに対応するテキスト情報を認識するよう設計されている。音声認識手段8は、さらに、認識テキスト情報ETIの各ワードに対し、音声認識手段8によってそのワードの認識が行われた音声データSDの部分をマークするリンク情報LIを生成するよう設計されている。このような音声認識手段は、例えば、米国特許第5,031,113号に開示されている。これを参照することにより、本明細書の開示に当該手段の開示がなされたとみなすことにする。
【0030】
音声認識装置1は、さらに、記憶手段9を備える。これにより音声認識手段8により転送された音声データSDを、認識テキスト情報ETI及びディクテーションのリンク情報LIとともに保存することができる。上述のようなディクテーションの音声情報に対応する認識テキスト情報ETIを認識するための音声認識方法は、従来からよく知られているものであり、さらなる詳細な説明はここでは行わない。
【0031】
音声認識装置1は、さらに認識テキスト情報ETIの誤ったワードを訂正するための訂正装置10を備える。訂正装置10は、特定の訂正ソフトウェアを具備するテキスト編集ソフトウェアを実行できるコンピュータからなる。訂正ソフトウェア10は、編集手段11及び同期再生手段12を備える。
【0032】
編集手段11は、認識テキスト情報ETIの誤ったワード上にテキストカーソルTCを置き、ユーザにより入力される編集情報EIに従い、この誤ったワードを編集するよう設計される。この場合、編集情報EIは、一般的に知られたやり方で、キーボード3のキーを使ってユーザにより入力される。
【0033】
同期再生手段12は、音声認識装置1での同期再生モードを可能とし、再生されている音声情報のリンク情報LIによりマークされた認識テキスト情報ETIのワードが、ディクテーションの音声情報の再生中に、同期してマークされる。米国特許第5,031,113号により開示される同期再生モードは、誤りを含んだワードの効果的な訂正を可能とするので、音声認識装置のユーザに好適である。
【0034】
音声認識装置1の同期再生モードがアクティブ状態にあり、音声カーソルACが認識テキスト情報ETIにおいてワード間を移動しているとき、再生される各ワードが正確にマークされる。カーソルは、例えば、カーソル位置の文字に下線が引かれたり、反転させることによって表示される。カーソルの表示には様々な可能性が考えられる。
【0035】
モニタ6に表示されるテキスト情報TIに示されるように、同期再生モードがアクティブ状態なとき、テキストカーソルTCと音声カーソルACはともに表示されていて、テキストカーソルTCは大抵1つの文字をマークし、音声カーソルACは常に1つのワード全体をマークしている。同期再生モードがアクティブ状態のとき、テキストカーソルTCはテキスト情報TIの中の編集手段11が最後に訂正した誤ったワード上の表示位置にとどまる一方、音声カーソルACはワード間をシフトしていく。
【0036】
同期再生モードがアクティブ状態のとき、記憶手段9に保持されているディクテーションの音声データADが同期再生手段12によって読み出され、D/A変換器13に連続的に供給される。その後D/A変換器13はディクテーションの再生のため、ディクテーションに含まれる音声信号SSの音声情報SIをスピーカー5に送信する。
【0037】
同期再生モードをアクティブ状態にするために、音声認識装置1のユーザはフットスイッチ4の2つのスイッチの一方に足を置く。これにより、制御情報SIが同期再生手段12に転送される。そして同期再生手段12は、ディクテーションの音声データSDに加え、ディクテーションのため記憶媒体9に保持されているリンク情報LIを読み出す。
【0038】
同期再生モードがアクティブ状態のとき、同期再生手段12は音声カーソル情報ACIを生成し、編集手段11に送るよう設計されている。音声カーソル情報ACIは再生中のワード及び表示されているテキスト情報TIにおける音声カーソルACが表示されるべき位置とをマークする。
【0039】
同期再生モードがアクティブ状態になるとすぐ、記憶手段9から認識テキスト情報ETIを読み出し、一時的にテキスト情報TIとして保存するよう編集手段11は設計される。この表示のための一時的に保存されたテキスト情報TIは、認識テキスト情報ETIに対応し、最終的に誤りのないテキスト情報を得るために、ユーザにより校正される。
【0040】
編集手段11に一時的に保存されたテキスト情報TIは、編集手段11から画像処理手段14に送られる。画像処理手段14は表示のためのテキスト情報TIを処理し、テキスト情報TIを含む表示用ディスプレイ情報DIをモニタ6に送る。編集手段11はまた、テキストカーソル情報TCIを画像処理手段14に送る。ここで、テキストカーソル情報TCIは表示されたテキスト情報TIのテキストカーソルTCの位置をマークしている。同期再生モードがアクティブ状態のとき、編集手段11は音声カーソルACの表示のため、音声カーソル情報ACIを画像処理手段14に送る。
【0041】
訂正手段10の編集手段11はまた、テキストカーソルTCを音声カーソルACに、あるいは音声カーソルACをテキストカーソルTCに位置合わせする(synchronized)ためのカーソル同期手段15を備える。これにより、ユーザにより認識された誤ったワードを訂正するためのテキストカーソルTCの位置決めはかなり容易になる。この点に関するさらなる詳細な説明は、音声認識装置1の適用事例を利用して以下で与えられる。
【0042】
編集手段11はまた、同期再生モードが訂正装置10においてアクティブ状態のとき、テキストカーソルTCの位置決めをし、ユーザにより誤りと認識されたワードが編集できるよう設計される。このようにして、訂正を行うことのできるユーザは、同期再生モードのアクティブ状態を解除し、誤ったワードを訂正した後再びアクティブ状態に切り替える必要なく、誤ったワードの訂正を行うことができる。これによりユーザはかなりの時間の節約が可能となる。この点に関するさらなる詳細な説明は、音声認識装置1の適用事例を利用して以下で与えられる。
【0043】
図2のフローチャート16を使って、音声認識装置1の適用事例が以下で説明される。本適用事例では、ドクターが新しい音声認識装置を試用し、マイクロフォン2に「THIS IS A TEXT THAT … ERRORS WITHIN THIS TEXT HAVE TO THE CORRECTED WITH A TEXT EDITOR」と口述している。その後、ブロック17において、ディクテーションのデジタル音声データSDが音声認識手段8に送られる。ブロック18において、音声認識手段8は対応する認識テキスト情報ETI及びリンク情報LIを認識し、ブロック19において、それらを記憶手段9に保存する。ドクターがディクテーションにおけるいくつかのワードをはっきり発音しなかったため、音声認識手段8は「IS」の代わりに「MISS」と、「TEXT」の代わりに「PEST」と認識した。
【0044】
その後、ブロック20において、認識テキスト情報の誤ったワードを訂正するために、ドクターの秘書が音声認識装置1の同期再生モードをアクティブ状態にした。そして、記憶手段9から、編集手段11は認識テキスト情報ETIを読み込み、同期再生手段12はディクテーションの音声データSDとリンク情報LIを読み込む。テキスト情報TIはモニタ6に表示され、ディクテーションの再生が開始される。このとき音声カーソルACは、「THIS」から始まって、ディクテーションのワードを次々とマークしていく。
【0045】
秘書が「MISS」というワードが誤りだと気付くと、キーボード3から対応する入力情報EIを入力することによってこれを訂正する。「MISS」の訂正後、テキストカーソルTCは「IS」というワードの文字「I」の位置にとどまるが、音声カーソルACはテキスト情報TIのワードを次々とマークし続けていく。音声カーソルACが「PEST」をマークした時点で、秘書はブロック21においてこのワードが誤りだと認識し、ブロック22においてキーボードのキーを組み合わせて「Alt + →」を入力する。その結果、同期情報SIYが編集手段11に送られ、テキストカーソルTCが音声カーソルACに位置合わせされる。これにより、テキストカーソルTCは誤ったワード「PEST」の最初の文字「P」に置かれ、ブロック23において秘書はこの誤ったワードを訂正し始める。
【0046】
誤ったワードの位置にテキストカーソルTCを置くために、秘書は「→」キーを繰り返し打つという時間のかかるキー操作を行う必要がなくなった。同じように、テキストカーソルTCの位置を決めるために、秘書は時間のかかる図1に図示されないコンピュータマウスの利用を避けることができるようになった。
【0047】
誤ったワード「PEST」の訂正中、秘書はこのワードの訂正中にディクテーションの残りのワードの再生についていけるくらいすでに十分慣れているので、同期再生モードはアクティブ状態に留められる。ディクテーションの終わりでのみ、秘書はブロック24においてフットスイッチ4の第2のスイッチを操作することにより、同期再生モードを解除する。フローチャート16のブロック19から24がこのケースにおける訂正手順を示している。
【0048】
アクティブな同期再生モードで、「MISS」と「PEST」の間違ったワードを訂正することができるので、秘書はフットスイッチを何回も操作することなくスピーディーにこの作業を終えることができる。
【0049】
また、「Alt + →」を入力することにより、テキスト情報TIの開始地点に近いカーソルにもう一方のカーソルの位置が合わせられる。さらに、「Alt + ←」を入力することにより、テキスト情報TIの最終地点に近いカーソルにもう一方のカーソルの位置が合わせられる。
【0050】
このキーの組み合わせによる動的な調整は、ユーザにとって特に使い勝手がよいものである。例えば、「Ctrl」キーや「Alt Gr」キーが「Alt」キーの代わりに使用されてもよい。また、アクティブな同期再生モードでは、キーの組み合わせでなく、「←」キーと「→」キーのみを使って動的な調整が行われてもよい。
【0051】
カーソルはフットスイッチあるいはコンピュータマウスの操作により位置合わせされてもよい。同様に、テキストカーソルTCを音声カーソルACに連続的かつ自動的に位置合わせすることも可能である。これにより、編集情報EIが入力されると、音声カーソルACの現在位置がテキストカーソルTCの位置と一致するようになるであろう。
【0052】
適用事例に依存して、逆に音声カーソルACをテキストカーソルTCの位置に合わせることが有益かもしれない。これにより、音声カーソルACはテキストカーソルTC上に置かれることになる。ディクテーションの同期再生はテキストカーソルの位置から引き続き継続される。これにより、ディクテーションの再生部分の繰り返しが容易に可能となる。
【0053】
このような同期処理によって、2つのカーソルは必ずしも同じ位置になる必要はない。例えば、一方のカーソルがもう一方のN=3ワード分先行していてもよい。これにより、ユーザは誤ったワードを認識したとき、自らの反応時間のバランスを考慮することができる。同期後テキストカーソルTCは音声カーソルACより3ワード分先行することになる。反応の早いユーザはN=1を選び、遅いユーザはN=10を選ぶ。同期後、テキストカーソルTCは誤ったワード上に常に位置し、極めて便利である。
【0054】
同期再生モードにおいて、音声カーソルACとNワード分のシフトで連動するテキストカーソルTCとは連続的に表示されてもよい。これにより、誤ったワードの認識後、反応の遅いユーザはテキストカーソルTCが誤ったワード上に直接置かれる場合と同じくらいの時間を編集情報EIの入力にかけることができるようになる。これにより、誤ったワードの効率的な訂正が可能となる。
【0055】
本発明による訂正装置は、特に、労働時間の大部分を認識テキスト情報ETIの校正に費やし、それゆえこの作業に熟練しているユーザに好適である。例えば、上述の米国特許第6,173,259号で参照できるように、そのようなユーザは転写サービスのいわゆる校正者として従事している。
【0056】
本発明による訂正装置はほとんどがテキストエディタプログラムの一部であるが、必ずしもそうである必要はない。
【0057】
同期再生モードは同期データSYIの入力によって自動的に中断され、編集データEIの入力後続けられてもよい。この変形は、訂正処理と平行して変換されたテキスト情報ETIの誤ったワードをさらにサーチする必要がないので、訂正装置に慣れていないユーザにとりわけ有益である。
【0058】
コンピュータ1は同期再生中、必要なハードウェアを備えていなければ、ディクテーションを再生できなくてもよい。その場合、ディクテーションの音声データを保存するデジタルディクテーション装置が、同期再生中ディクテーションの音声を再生し、さらに位置情報をコンピュータに提供してもよい。この位置情報は、音声再生の実際の再生位置をマークし、この位置情報に基づいてコンピュータは対応する認識ワードをマークする。
【図面の簡単な説明】
【0059】
【図1】図1は、認識されたテキスト中の誤ったワードを訂正する訂正装置を備えた音声認識装置を示す。
【図2】図2は、ディクテーションの処理方法及び音声認識装置により認識されたテキスト中の誤ったワードの訂正方法を示す。

Claims (15)

  1. 音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正装置であって:
    前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信手段であって、該受信手段は前記認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークする受信手段;
    前記認識テキスト情報の誤ったワードにテキストカーソルを置き、ユーザにより入力された編集情報に従って前記誤ったワードを編集する編集手段;
    前記音声情報の再生中、再生されている該音声情報に対し前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にする同期再生手段;及び
    前記テキストカーソルを前記音声カーソルに、あるいは前記音声カーソルを前記テキストカーソルに同期させるカーソル同期手段;
    からなることを特徴とする訂正装置。
  2. 請求項1記載の訂正装置であって、前記カーソル同期手段は、該訂正装置においてアクティブ状態にある前記同期表示モードにおいて、前記テキストカーソル及び音声カーソルを同期させるよう構成されていることを特徴とする訂正装置。
  3. 請求項1記載の訂正装置であって、前記カーソル同期手段はキーボードを備え、前記テキストカーソル及び音声カーソルは少なくとも1つのキーを手動操作することにより同期させることが可能であることを特徴とする訂正装置。
  4. 請求項3記載の訂正装置であって、前記少なくとも1つのキーは「→」キーあるいは「←」キーを含み、前記「→」キーが操作されるとき、前記認識テキスト情報の開始地点により近く示されている前記テキストカーソル及び音声カーソルの一方が他方のカーソルと同期させられ、認識テキスト情報の終了地点により近く示されている前記テキストカーソル及び音声カーソルの一方が他方のカーソルと同期させられることを特徴とする訂正装置。
  5. 請求項1記載の訂正装置であって、前記カーソル同期手段は、前記同期再生モードがアクティブ状態のとき、前記認識テキスト情報の前記テキストカーソルを前記音声カーソルより所定のワード数Nだけ先行して置くことを特徴とする訂正装置。
  6. 請求項5記載の訂正装置であって、前記所定のワード数Nは、ユーザ情報に従って設定されることを特徴とする訂正装置。
  7. 請求項2記載の訂正装置であって、前記カーソル同期手段はアクティブ状態の同期再生モードにおいて前記テキストカーソル及び音声カーソルを連続的かつ自動的に同期させ、誤ったワードの編集のため、前記テキストカーソルは少なくとも1つのキーの手動操作により、さらなる少なくとも1つのキーの操作により前記テキストカーソルが前記音声カーソルに再び同期させられるまで、該音声カーソルから切り離されることを特徴とする訂正装置。
  8. 音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正方法であって:
    前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信し、認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークするステップ;
    前記音声情報の再生中、再生されている該音声情報に対して前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にするステップ;及び
    前記訂正装置においてアクティブ状態にある前記同期再生モードにおいて可能な、ユーザにより入力された編集情報に従ってテキストカーソル上の前記誤ったワードを編集するステップ;
    からなることを特徴とする訂正方法。
  9. 請求項8記載の訂正方法であって、前記入力された編集情報に依存して、前記テキストカーソルは前記音声カーソルに同期させられ、あるいは前記音声カーソルは前記テキストカーソルに同期させられることを特徴とする訂正方法。
  10. 請求項8記載の訂正方法であって、前記テキストカーソル及び音声カーソルは少なくとも1つのキーを手動操作することにより同期させられることを特徴とする訂正方法。
  11. 請求項8記載の訂正方法であって、前記テキストカーソルは前記認識テキスト情報において、前記音声カーソルより所定のワード数Nだけ先行して置くことを特徴とする訂正方法。
  12. 請求項11記載の訂正方法であって、前記所定のワード数Nは、ユーザ情報に従って設定されることを特徴とする訂正方法。
  13. 受信された音声情報においてテキスト情報を認識する音声認識装置であって:
    音声情報を受信する受信手段;
    受信された前記音声情報に対応する認識テキスト情報及びリンク情報を認識する音声認識手段であって、前記認識テキスト情報の各ワードに対して、前記リンク情報は該ワードが該音声認識手段により認識された前記音声情報の部分を示す音声認識手段;
    前記認識テキスト情報に含まれた誤ったワードを訂正するための請求項1記載の訂正装置;
    からなることを特徴とする音声認識装置。
  14. デジタルコンピュータの内部メモリに直接ロード可能なコンピュータプログラムであって:
    複数のソフトウェアコード;
    からなり、該コンピュータプログラムが前記デジタルコンピュータ上で実行されれば、請求項8記載の訂正方法の各ステップが実行されることを特徴とするコンピュータプログラム。
  15. 請求項14記載のコンピュータプログラムであって、該コンピュータプログラムはコンピュータ読み出し可能な媒体に記録されていることを特徴とするコンピュータプログラム。
JP2002578284A 2001-03-29 2002-03-25 編集中における音声カーソルとテキストカーソルの位置合わせ Expired - Fee Related JP5093966B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01890104.1 2001-03-29
EP01890104 2001-03-29
PCT/IB2002/001062 WO2002080143A1 (en) 2001-03-29 2002-03-25 Synchronise an audio cursor and a text cursor during editing

Publications (2)

Publication Number Publication Date
JP2004530205A true JP2004530205A (ja) 2004-09-30
JP5093966B2 JP5093966B2 (ja) 2012-12-12

Family

ID=8185105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002578284A Expired - Fee Related JP5093966B2 (ja) 2001-03-29 2002-03-25 編集中における音声カーソルとテキストカーソルの位置合わせ

Country Status (7)

Country Link
US (3) US8117034B2 (ja)
EP (1) EP1374225B1 (ja)
JP (1) JP5093966B2 (ja)
CN (1) CN1225721C (ja)
AT (1) ATE286294T1 (ja)
DE (1) DE60202453T2 (ja)
WO (1) WO2002080143A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010537315A (ja) * 2007-08-19 2010-12-02 マルチモーダル・テクノロジーズ・インク アンカーを用いた文書編集
US8155958B2 (en) 2005-11-08 2012-04-10 Nec Corporation Speech-to-text system, speech-to-text method, and speech-to-text program
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP2023501283A (ja) * 2019-10-29 2023-01-18 パズル エイアイ カンパニー リミテッド キーボードマクロ機能を活用した自動音声認識器および音声認識方法

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
WO2002080143A1 (en) 2001-03-29 2002-10-10 Koninklijke Philips Electronics N.V. Synchronise an audio cursor and a text cursor during editing
US7231351B1 (en) * 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
EP1567941A2 (en) 2002-11-28 2005-08-31 Koninklijke Philips Electronics N.V. Method to assign word class information
US7774694B2 (en) * 2002-12-06 2010-08-10 3M Innovation Properties Company Method and system for server-based sequential insertion processing of speech recognition results
US7444285B2 (en) * 2002-12-06 2008-10-28 3M Innovative Properties Company Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services
US20050096910A1 (en) * 2002-12-06 2005-05-05 Watson Kirk L. Formed document templates and related methods and systems for automated sequential insertion of speech recognition results
KR100668297B1 (ko) * 2002-12-31 2007-01-12 삼성전자주식회사 음성인식방법 및 장치
US7263483B2 (en) * 2003-04-28 2007-08-28 Dictaphone Corporation USB dictation device
US7346506B2 (en) 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
US20050144015A1 (en) * 2003-12-08 2005-06-30 International Business Machines Corporation Automatic identification of optimal audio segments for speech applications
US7629989B2 (en) * 2004-04-02 2009-12-08 K-Nfb Reading Technology, Inc. Reducing processing latency in optical character recognition for portable reading machine
US8504369B1 (en) 2004-06-02 2013-08-06 Nuance Communications, Inc. Multi-cursor transcription editing
US7836412B1 (en) 2004-12-03 2010-11-16 Escription, Inc. Transcription editing
US8521510B2 (en) * 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
US20100324895A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Synchronization for document narration
US20100299131A1 (en) * 2009-05-21 2010-11-25 Nexidia Inc. Transcript alignment
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
US9292161B2 (en) * 2010-03-24 2016-03-22 Microsoft Technology Licensing, Llc Pointer tool with touch-enabled precise placement
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
CN101887346A (zh) * 2010-06-22 2010-11-17 宇龙计算机通信科技(深圳)有限公司 一种信息输入控制方法、装置及通信终端
CN102314874A (zh) * 2010-06-29 2012-01-11 鸿富锦精密工业(深圳)有限公司 文本到语音转换系统与方法
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US9361282B2 (en) * 2011-05-24 2016-06-07 Lg Electronics Inc. Method and device for user interface
US20130035936A1 (en) * 2011-08-02 2013-02-07 Nexidia Inc. Language transcription
US9317196B2 (en) 2011-08-10 2016-04-19 Microsoft Technology Licensing, Llc Automatic zooming for text selection/cursor placement
US9318110B2 (en) * 2011-09-09 2016-04-19 Roe Mobile Development Llc Audio transcription generator and editor
KR101921203B1 (ko) * 2012-03-02 2018-11-22 삼성전자 주식회사 녹음 기능이 연동된 메모 기능 운용 방법 및 장치
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9805118B2 (en) 2012-06-29 2017-10-31 Change Healthcare Llc Transcription method, apparatus and computer program product
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
KR20140008835A (ko) * 2012-07-12 2014-01-22 삼성전자주식회사 음성 인식 오류 수정 방법 및 이를 적용한 방송 수신 장치
JP2014142501A (ja) * 2013-01-24 2014-08-07 Toshiba Corp テキスト再生装置、方法、及びプログラム
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
CN103885596B (zh) * 2014-03-24 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
CN106098060B (zh) * 2016-05-19 2020-01-31 北京搜狗科技发展有限公司 语音的纠错处理方法和装置、用于语音的纠错处理的装置
CN106448675B (zh) * 2016-10-21 2020-05-01 科大讯飞股份有限公司 识别文本修正方法及系统
US10529330B2 (en) * 2017-11-24 2020-01-07 Sorizava Co., Ltd. Speech recognition apparatus and system
CN108366182B (zh) * 2018-02-13 2020-07-07 京东方科技集团股份有限公司 文字语音同步播报的校准方法及装置、计算机存储介质
CN110265031A (zh) * 2019-07-25 2019-09-20 秒针信息技术有限公司 一种语音处理方法及装置
CN111079760B (zh) * 2019-08-02 2023-11-28 广东小天才科技有限公司 一种文字识别方法及电子设备
CN110534112B (zh) * 2019-08-23 2021-09-10 王晓佳 基于位置与时间的分布式语音识别纠错方法
CN113936699B (zh) * 2020-06-29 2023-05-26 腾讯科技(深圳)有限公司 音频处理方法、装置、设备及存储介质
US11947894B2 (en) 2021-04-28 2024-04-02 International Business Machines Corporation Contextual real-time content highlighting on shared screens

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3676856A (en) * 1970-08-11 1972-07-11 Ron Manly Automatic editing system and method
US3648249A (en) 1970-12-08 1972-03-07 Ibm Audio-responsive visual display system incorporating audio and digital information segmentation and coordination
JPS6184771A (ja) 1984-10-03 1986-04-30 Hitachi Ltd 音声入力装置
US4637797A (en) 1985-01-11 1987-01-20 Access Learning Technology Corporation Software training system
US4701130A (en) 1985-01-11 1987-10-20 Access Learning Technology Corporation Software training system
JPS62212870A (ja) 1986-03-14 1987-09-18 Fujitsu Ltd 文章読み上げ校正装置
AT390685B (de) 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
US5146439A (en) 1989-01-04 1992-09-08 Pitney Bowes Inc. Records management system having dictation/transcription capability
JPH05108608A (ja) 1991-10-18 1993-04-30 Olympus Optical Co Ltd 情報信号処理装置
US5553289A (en) * 1991-12-26 1996-09-03 International Business Machines Corporation System for automatically assigning attributes to objects of multimedia distribution when the objects being within a predetermined relationship
US5519808A (en) 1993-03-10 1996-05-21 Lanier Worldwide, Inc. Transcription interface for a word processing station
US5369704A (en) 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
US5602982A (en) 1994-09-23 1997-02-11 Kelly Properties, Inc. Universal automated training and testing software system
US5664227A (en) * 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
US5812882A (en) 1994-10-18 1998-09-22 Lanier Worldwide, Inc. Digital dictation system having a central station that includes component cards for interfacing to dictation stations and transcription stations and for processing and storing digitized dictation segments
US5616876A (en) * 1995-04-19 1997-04-01 Microsoft Corporation System and methods for selecting music on the basis of subjective content
US5857212A (en) 1995-07-06 1999-01-05 Sun Microsystems, Inc. System and method for horizontal alignment of tokens in a structural representation program editor
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
JP3416007B2 (ja) * 1995-12-06 2003-06-16 インターナショナル・ビジネス・マシーンズ・コーポレーション オーディオビジュアル・マテリアルをスクリーニングする装置及び方法
US5911485A (en) 1995-12-11 1999-06-15 Unwired Planet, Inc. Predictive data entry method for a keypad
US5898830A (en) 1996-10-17 1999-04-27 Network Engineering Software Firewall providing enhanced network security and user transparency
US5983176A (en) * 1996-05-24 1999-11-09 Magnifi, Inc. Evaluation of media content in media files
US5748888A (en) 1996-05-29 1998-05-05 Compaq Computer Corporation Method and apparatus for providing secure and private keyboard communications in computer systems
EP0811906B1 (en) * 1996-06-07 2003-08-27 Hewlett-Packard Company, A Delaware Corporation Speech segmentation
US5664896A (en) 1996-08-29 1997-09-09 Blumberg; Marvin R. Speed typing apparatus and method
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5875448A (en) 1996-10-08 1999-02-23 Boys; Donald R. Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator
EP0840287A3 (en) * 1996-10-31 1999-04-07 Microsoft Corporation Method and system for selecting recognized words when correcting recognized speech
US6173259B1 (en) 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US5875429A (en) 1997-05-20 1999-02-23 Applied Voice Recognition, Inc. Method and apparatus for editing documents through voice recognition
US5974413A (en) 1997-07-03 1999-10-26 Activeword Systems, Inc. Semantic user interface
US6141011A (en) 1997-08-04 2000-10-31 Starfish Software, Inc. User interface methodology supporting light data entry for microprocessor device having limited user input
US6076059A (en) 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals
JP4037608B2 (ja) 1997-09-25 2008-01-23 テジック・コミュニケーションズ・インコーポレーテッド 減少されたキーボード明瞭化システム
US6363380B1 (en) * 1998-01-13 2002-03-26 U.S. Philips Corporation Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser
US6195637B1 (en) * 1998-03-25 2001-02-27 International Business Machines Corp. Marking and deferring correction of misrecognition errors
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6338038B1 (en) * 1998-09-02 2002-01-08 International Business Machines Corp. Variable speed audio playback in speech recognition proofreader
US6064965A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Combined audio playback in speech recognition proofreader
US6374225B1 (en) 1998-10-09 2002-04-16 Enounce, Incorporated Method and apparatus to prepare listener-interest-filtered works
US6122614A (en) 1998-11-20 2000-09-19 Custom Speech Usa, Inc. System and method for automating transcription services
US6363342B2 (en) 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6802041B1 (en) 1999-01-20 2004-10-05 Perfectnotes Corporation Multimedia word processor
US20030004724A1 (en) 1999-02-05 2003-01-02 Jonathan Kahn Speech recognition program mapping tool to align an audio file to verbatim text
US6434523B1 (en) 1999-04-23 2002-08-13 Nuance Communications Creating and editing grammars for speech recognition graphically
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6370503B1 (en) 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
JP2001043062A (ja) 1999-07-27 2001-02-16 Nec Corp パーソナルコンピュータ、その音量調整方法及び記録媒体
US6865258B1 (en) 1999-08-13 2005-03-08 Intervoice Limited Partnership Method and system for enhanced transcription
US6542091B1 (en) 1999-10-01 2003-04-01 Wayne Allen Rasanen Method for encoding key assignments for a data input device
EP2261893B1 (en) * 1999-12-20 2016-03-30 Nuance Communications Austria GmbH Audio playback for text edition in a speech recognition system
US7082615B1 (en) 2000-03-31 2006-07-25 Intel Corporation Protecting software environment in isolated execution
US6912498B2 (en) 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
DE60142967D1 (de) 2000-06-09 2010-10-14 British Broadcasting Corp Erzeugung von untertiteln für bewegte bilder
US7624356B1 (en) 2000-06-21 2009-11-24 Microsoft Corporation Task-sensitive methods and systems for displaying command sets
US6950994B2 (en) 2000-08-31 2005-09-27 Yahoo! Inc. Data list transmutation and input mapping
US6993246B1 (en) * 2000-09-15 2006-01-31 Hewlett-Packard Development Company, L.P. Method and system for correlating data streams
US6975985B2 (en) 2000-11-29 2005-12-13 International Business Machines Corporation Method and system for the automatic amendment of speech recognition vocabularies
CA2328566A1 (en) 2000-12-15 2002-06-15 Ibm Canada Limited - Ibm Canada Limitee System and method for providing language-specific extensions to the compare facility in an edit system
US7735021B2 (en) 2001-02-16 2010-06-08 Microsoft Corporation Shortcut system for use in a mobile electronic device and method thereof
WO2002080143A1 (en) 2001-03-29 2002-10-10 Koninklijke Philips Electronics N.V. Synchronise an audio cursor and a text cursor during editing
CN1215458C (zh) * 2001-03-29 2005-08-17 皇家菲利浦电子有限公司 在同步回放的过程中文本编辑所识别的语音
US20030007018A1 (en) 2001-07-09 2003-01-09 Giovanni Seni Handwriting user interface for personal digital assistants and the like
US7152213B2 (en) 2001-10-04 2006-12-19 Infogation Corporation System and method for dynamic key assignment in enhanced user interface
EP1442451B1 (en) * 2001-10-31 2006-05-03 Koninklijke Philips Electronics N.V. Method of and system for transcribing dictations in text files and for revising the texts
US7196691B1 (en) 2001-11-14 2007-03-27 Bruce Martin Zweig Multi-key macros to speed data input
US7292975B2 (en) 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US6986106B2 (en) 2002-05-13 2006-01-10 Microsoft Corporation Correction widget
KR20050027093A (ko) 2002-05-24 2005-03-17 에스엠티엠 테크놀러지스 엘엘씨 숙련 기반 테스트 및 트레이닝을 위한 방법 및 시스템
US7260529B1 (en) 2002-06-25 2007-08-21 Lengen Nicholas D Command insertion system and method for voice recognition applications
US7137076B2 (en) 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
US6763320B2 (en) 2002-08-15 2004-07-13 International Business Machines Corporation Data input device for individuals with limited hand function
AU2003279071A1 (en) * 2002-09-23 2004-04-08 Wimetrics Corporation System and method for wireless local area network monitoring and intrusion detection
US7206938B2 (en) 2002-09-24 2007-04-17 Imagic Software, Inc. Key sequence rhythm recognition system and method
US20080034218A1 (en) 2002-09-24 2008-02-07 Bender Steven L Key sequence rhythm guidance recognition system and method
US7016844B2 (en) 2002-09-26 2006-03-21 Core Mobility, Inc. System and method for online transcription services
US7515903B1 (en) 2002-10-28 2009-04-07 At&T Mobility Ii Llc Speech to message processing
EP1422692A3 (en) 2002-11-22 2004-07-14 ScanSoft, Inc. Automatic insertion of non-verbalized punctuation in speech recognition
US7107397B2 (en) 2003-05-29 2006-09-12 International Business Machines Corporation Magnetic tape data storage system buffer management
GB2405728A (en) 2003-09-03 2005-03-09 Business Integrity Ltd Punctuation of automated documents
CA2558309A1 (en) 2004-03-05 2005-09-15 Secure Systems Limited Partition access control system and method for controlling partition access
US7382359B2 (en) 2004-06-07 2008-06-03 Research In Motion Limited Smart multi-tap text input
US20060176283A1 (en) 2004-08-06 2006-08-10 Daniel Suraqui Finger activated reduced keyboard and a method for performing text input
US7508324B2 (en) 2004-08-06 2009-03-24 Daniel Suraqui Finger activated reduced keyboard and a method for performing text input
KR100713128B1 (ko) 2004-11-08 2007-05-02 주식회사 비젯 바이러스 방역 장치 및 시스템
EP1864455A2 (en) 2005-03-29 2007-12-12 Glowpoint, Inc. Video communication call authorization
FI20050561A0 (fi) 2005-05-26 2005-05-26 Nokia Corp Pakettidatan käsittely viestintäjärjestelmässä
US20070143857A1 (en) 2005-12-19 2007-06-21 Hazim Ansari Method and System for Enabling Computer Systems to Be Responsive to Environmental Changes
US9904809B2 (en) 2006-02-27 2018-02-27 Avago Technologies General Ip (Singapore) Pte. Ltd. Method and system for multi-level security initialization and configuration

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155958B2 (en) 2005-11-08 2012-04-10 Nec Corporation Speech-to-text system, speech-to-text method, and speech-to-text program
JP2010537315A (ja) * 2007-08-19 2010-12-02 マルチモーダル・テクノロジーズ・インク アンカーを用いた文書編集
US8959433B2 (en) 2007-08-19 2015-02-17 Multimodal Technologies, Llc Document editing using anchors
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP2023501283A (ja) * 2019-10-29 2023-01-18 パズル エイアイ カンパニー リミテッド キーボードマクロ機能を活用した自動音声認識器および音声認識方法
US11977812B2 (en) 2019-10-29 2024-05-07 Puzzle Ai Co., Ltd. Automatic speech recognizer and speech recognition method using keyboard macro function

Also Published As

Publication number Publication date
WO2002080143A1 (en) 2002-10-10
US8117034B2 (en) 2012-02-14
US8706495B2 (en) 2014-04-22
US20130166304A1 (en) 2013-06-27
US20120158405A1 (en) 2012-06-21
EP1374225B1 (en) 2004-12-29
DE60202453D1 (de) 2005-02-03
US8380509B2 (en) 2013-02-19
JP5093966B2 (ja) 2012-12-12
US20020143544A1 (en) 2002-10-03
EP1374225A1 (en) 2004-01-02
DE60202453T2 (de) 2006-01-19
CN1460245A (zh) 2003-12-03
ATE286294T1 (de) 2005-01-15
CN1225721C (zh) 2005-11-02

Similar Documents

Publication Publication Date Title
JP5093966B2 (ja) 編集中における音声カーソルとテキストカーソルの位置合わせ
JP4463861B2 (ja) 認識音声に対する同期再生中の文字編集
JP6605995B2 (ja) 音声認識誤り修正装置、方法及びプログラム
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
EP1611570B1 (en) System for correction of speech recognition results with confidence level indication
JP6865701B2 (ja) 音声認識誤り修正支援装置およびそのプログラム
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
JP2017032693A (ja) 映像記録再生装置
CN110782899B (zh) 信息处理装置、存储介质及信息处理方法
JP3682922B2 (ja) リアルタイム文字修正装置およびリアルタイム文字修正プログラム
JP6543755B1 (ja) 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
JP7117228B2 (ja) カラオケシステム、カラオケ装置
WO2016151761A1 (ja) 音訳支援装置、音訳支援方法及び音訳支援プログラム
JP2012022447A (ja) 音声合成装置、音声合成プログラムおよび音声合成方法
JP2013003430A (ja) カラオケ装置
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
GB2390930A (en) Foreign language speech recognition
JP2021140084A (ja) 音声認識誤り修正支援装置、プログラムおよび方法、ならびに、音声認識装置
KR101694365B1 (ko) 피아노 연주 보조 방법 및 이를 실행하는 피아노 연주 보조 장치
JP2015187733A (ja) 書き起こし支援システムおよび書き起こし支援方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080205

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080617

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120918

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees