JP2004530205A - 編集中における音声カーソルとテキストカーソルの位置合わせ - Google Patents
編集中における音声カーソルとテキストカーソルの位置合わせ Download PDFInfo
- Publication number
- JP2004530205A JP2004530205A JP2002578284A JP2002578284A JP2004530205A JP 2004530205 A JP2004530205 A JP 2004530205A JP 2002578284 A JP2002578284 A JP 2002578284A JP 2002578284 A JP2002578284 A JP 2002578284A JP 2004530205 A JP2004530205 A JP 2004530205A
- Authority
- JP
- Japan
- Prior art keywords
- cursor
- information
- text
- voice
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001360 synchronised effect Effects 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 241000607479 Yersinia pestis Species 0.000 description 5
- 230000035484 reaction time Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 101100460719 Mus musculus Noto gene Proteins 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Document Processing Apparatus (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Machine Translation (AREA)
Abstract
Description
本発明は、音声認識装置によって、音声情報から認識されたテキスト情報中の誤ったワードを訂正する訂正装置に関する。
【0002】
本発明は、また、音声認識装置によって、音声情報から認識されたテキスト情報中の誤ったワードを訂正する訂正方法に関する。
【0003】
本発明は、さらに、受け取った音声情報からテキスト情報を認識する音声認識装置に関する。
【0004】
本発明は、また、コンピュータにより実行される文書処理ソフトウェアの訂正ソフトウェアからなるコンピュータプログラムに関する。
【0005】
そのような訂正装置及び訂正方法は、米国特許第6,173,259号から知られており、転写サービス(transcription service)の校正者の文書処理ソフトウェアを実行するコンピュータとして実現されている。校正者とは、音声認識プログラムで自動的に認識されたテキスト情報を手動で訂正する、転写サービスの従業員である。
【0006】
口述を行う人は、自らのディクテーション(dictation)の音声情報を既存の転写サービスのサーバにコンピュータネットワークを通じて送る。サーバは受け取ったディクテーションの音声情報を様々なコンピュータに配信し、各コンピュータで音声認識ソフトウェアが実行される。このとき、各コンピュータは音声認識装置として機能する。
【0007】
従来技術による音声認識装置は、口述者から送られたディクテーションの音声情報からテキスト情報を認識するとともに、リンク情報を生成する。認識されたテキスト情報の各ワードに対し、リンク情報では音声認識装置によって認識された音声情報の各ワードに該当する部分がマークされる。認識されたテキスト情報の誤ったワードを訂正するために、ディクテーションの音声情報、認識テキスト情報及びリンク情報が、音声認識装置から校正者のコンピュータへ転送される。
【0008】
従来技術による訂正装置は同期再生モード(synchronous playback mode)を可能とする同期再生手段(synchronous play back means)を備えている。訂正装置において同期再生モードがアクティブ状態にあるとき、ディクテーションの音声情報の再生中、音声情報の再生される各ワードと同期して、音声認識システムにより再生されたワードから認識されたワードが音声カーソルによりマークされる。音声カーソルは認識されたテキスト情報における再生中のワードの位置をマークする。
【0009】
もし校正者がテキスト情報の間違ったワードを同期再生モードにおいて認識すれば、同期再生モードを中断あるいはアクティブ状態の解除をし、コンピュータのキーボードを使い間違っているワードの上にテキストカーソルを置き、それを編集する。再び同期再生モードに戻されると、この訂正されたワードから音声情報が引き続き再生される。
【0010】
校正者は、テキスト情報中の訂正を行ったワード数に応じて、転写サービスの提供者から手当てが支払われる。転写サービスの品質管理者は、校正者により校正されたテキスト情報から、手当てに影響を与える校正者により見過ごされた誤ったワードのサンプリングを行う。したがって、校正者は、同期フィードバックモード(synchronous feedback mode)がアクティブ状態のとき、校正者により認識された誤ったワードを最も時間がかからず、最も少ない手作業で訂正することができるワープロソフトに大きな関心を持っている。したがって校正者は、マウスで対象位置までもっていくのは時間がかかってしまうので、マウスを使うことなくコンピュータのキーボードで誤ったワードの訂正に必要な編集情報のすべての入力が可能になることを望んでいる。
【0011】
従来技術による訂正装置及び訂正方法では、アクティブ状態の同期表示モード(synchronous display mode)において、校正者により誤りと認められたワードの訂正には、校正者側の比較的大きな手作業が必要であり、多くの時間が校正者にかかってしまう。
【0012】
本発明の課題は、上記の問題点を解決するような、第1段落に述べられたタイプによる訂正装置、第2段落に述べられたタイプによる訂正方法、第3段落に述べられたタイプによる音声認識情報、及び第4段落に述べられたタイプのコンピュータプログラムを提供することにある。
【0013】
上記課題を達成するために、本発明による訂正装置は以下のような特徴を有する。音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正装置であって、前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信手段であって、該受信手段は認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークする受信手段、前記認識テキスト情報の誤ったワードにテキストカーソルを置き、ユーザにより入力された編集情報に従って前期誤ったワードを編集する編集手段、前記音声情報の再生中、再生されている該音声情報に対し前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にする同期再生手段、及び前記テキストカーソルを前記音声カーソルに、あるいは前記音声カーソルを前記テキストカーソルに同期させるカーソル同期手段からなることを特徴とする訂正装置。
【0014】
上記課題を達成するために、本発明による訂正方法は以下のような特徴を有する。音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正方法であって、前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信し、認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークするステップ、前記音声情報の再生中、再生されている該音声情報に対して前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にするステップ、及び前記訂正装置においてアクティブ状態にある前記同期再生モードにおいて可能な、ユーザにより入力された編集情報に従ってテキストカーソル上の前記誤ったワードを編集するステップからなることを特徴とする訂正方法。
【0015】
上記課題を達成するために、本発明による音声認識装置は以下のような特徴を有する。
【0016】
受信された音声情報においてテキスト情報を認識する音声認識装置であって、音声情報を受信する受信手段、受信された前記音声情報に対応する認識テキスト情報及びリンク情報を認識する音声認識手段であって、前記認識テキスト情報の各ワードに対して、前記リンク情報は該ワードが該音声認識手段により認識された前記音声情報の部分を示す音声認識手段、前記認識テキスト情報に含まれた誤ったワードを訂正するための上述の訂正装置からなることを特徴とする音声認識装置。
【0017】
上記課題を達成するために、本発明によるコンピュータプログラムは以下のような特徴を有する。デジタルコンピュータの内部メモリに直接ロード可能なコンピュータプログラムであって、複数のソフトウェアコードからなり、該コンピュータプログラムが前記デジタルコンピュータ上で実行されれば、上述の訂正方法の各ステップが実行されることを特徴とするコンピュータプログラム。
【0018】
アクティブ状態の同期再生モードの訂正装置において、ユーザは同期再生手段により音声カーソルでマークされたワードが正しいものであるかどうかチェックを行う。そしてユーザはこの音声カーソルの近くで認識テキスト情報に誤ったワードを認識する。このとき、テキストカーソルはこれと全く異なる位置に、すなわち直前の誤ったワード訂正されたテキスト情報の位置に通常置かれる。
【0019】
本発明によると、ユーザは、例えば、キーボードのキーを操作することにより、テキストカーソルを音声カーソルに同期させる。これにより、テキストカーソルは同期再生中直前にハイライトされたワード上に置かれる。訂正対象の誤ったワードは一般的にテキストカーソルの近くに置かれるので、この訂正対象のワードの訂正は簡単な手動操作で、短時間に行うことができる。
【0020】
本発明によると、同期再生モードがアクティブ状態のとき、テキストカーソルは音声カーソルと連続的かつ自動的に同期させられる。したがって、テキストカーソルの位置設定のため、キーボードのキーを操作する必要がなくなる。適用対象に依存して、音声カーソルをテキストカーソルに同期させ、テキストカーソルの位置に音声カーソルを置くよう構成されてもよい。
【0021】
請求項2及び9記載の発明によると、誤ったワードを編集するために、同期再生モードが中断あるいはアクティブ状態を解除される必要はない。これにより、慣れている校正者は大幅に時間を節約することができる。
【0022】
請求項3、4及び10記載の発明によると、ユーザが誤ったワードを認識したとき、ユーザは認識テキスト情報の音声カーソルに先行するテキストカーソルを音声カーソルに同期させるため、単に「→」を入力しさえすればよい。また本実施例において「←」が入力されれば、音声カーソルがテキストカーソルに一致させられ、テキストカーソル上に置かれる。このような「→」キーと「←」キーの動的割り当ては、ユーザにとって特に便利なものである。
【0023】
請求項5及び11記載の発明によると、ユーザの反応時間を考慮したとき、誤ったワードは認識テキスト情報の音声カーソルのNワード数だけ前で通常検出されるので、認識テキスト情報の音声カーソルの位置のNワード手前にテキストカーソルを自動的に置くことができる。
【0024】
請求項6及び12記載の発明によると、ユーザは自らの通常の反応時間に応じてワード数Nを調整することができる。
【0025】
請求項7記載の発明によると、同期再生モードがアクティブ状態のとき、ユーザが誤ったワードを編集するため2つのカーソルを切り離すまで、2つのカーソルは自動的に位置合わせが行われる。以上のように、誤ったワードの訂正操作が容易に実行される。
【0026】
図面に示された実施例を参照しながら、以下で本発明の説明がなされる。しなしながら、本発明はここで例示された実施例に制限されるものではない。
【0027】
図1は、音声認識ソフトウェア及びテキスト入力ソフトウェアが実行されるコンピュータからなる音声認識装置1を示す。音声認識装置1には、マイクロフォン2、キーボード3、フットスイッチ(foot switch)4、スピーカー5及びスクリーン6が接続される。
【0028】
音声認識装置1のユーザは、マイクロフォン1から口述を行うことができる。ここでは、ディクテーションの音声情報を含む音声信号SSが音声認識装置1に送られる。音声認識装置1はA/D変換器7を備える。これによって、音声信号SSはデジタル化され、A/D変換器7はデジタル音声データSDを音声認識手段8に送ることができる。
【0029】
音声認識手段8は、認識テキスト情報ETIと呼ばれる受信された音声データSDに対応するテキスト情報を認識するよう設計されている。音声認識手段8は、さらに、認識テキスト情報ETIの各ワードに対し、音声認識手段8によってそのワードの認識が行われた音声データSDの部分をマークするリンク情報LIを生成するよう設計されている。このような音声認識手段は、例えば、米国特許第5,031,113号に開示されている。これを参照することにより、本明細書の開示に当該手段の開示がなされたとみなすことにする。
【0030】
音声認識装置1は、さらに、記憶手段9を備える。これにより音声認識手段8により転送された音声データSDを、認識テキスト情報ETI及びディクテーションのリンク情報LIとともに保存することができる。上述のようなディクテーションの音声情報に対応する認識テキスト情報ETIを認識するための音声認識方法は、従来からよく知られているものであり、さらなる詳細な説明はここでは行わない。
【0031】
音声認識装置1は、さらに認識テキスト情報ETIの誤ったワードを訂正するための訂正装置10を備える。訂正装置10は、特定の訂正ソフトウェアを具備するテキスト編集ソフトウェアを実行できるコンピュータからなる。訂正ソフトウェア10は、編集手段11及び同期再生手段12を備える。
【0032】
編集手段11は、認識テキスト情報ETIの誤ったワード上にテキストカーソルTCを置き、ユーザにより入力される編集情報EIに従い、この誤ったワードを編集するよう設計される。この場合、編集情報EIは、一般的に知られたやり方で、キーボード3のキーを使ってユーザにより入力される。
【0033】
同期再生手段12は、音声認識装置1での同期再生モードを可能とし、再生されている音声情報のリンク情報LIによりマークされた認識テキスト情報ETIのワードが、ディクテーションの音声情報の再生中に、同期してマークされる。米国特許第5,031,113号により開示される同期再生モードは、誤りを含んだワードの効果的な訂正を可能とするので、音声認識装置のユーザに好適である。
【0034】
音声認識装置1の同期再生モードがアクティブ状態にあり、音声カーソルACが認識テキスト情報ETIにおいてワード間を移動しているとき、再生される各ワードが正確にマークされる。カーソルは、例えば、カーソル位置の文字に下線が引かれたり、反転させることによって表示される。カーソルの表示には様々な可能性が考えられる。
【0035】
モニタ6に表示されるテキスト情報TIに示されるように、同期再生モードがアクティブ状態なとき、テキストカーソルTCと音声カーソルACはともに表示されていて、テキストカーソルTCは大抵1つの文字をマークし、音声カーソルACは常に1つのワード全体をマークしている。同期再生モードがアクティブ状態のとき、テキストカーソルTCはテキスト情報TIの中の編集手段11が最後に訂正した誤ったワード上の表示位置にとどまる一方、音声カーソルACはワード間をシフトしていく。
【0036】
同期再生モードがアクティブ状態のとき、記憶手段9に保持されているディクテーションの音声データADが同期再生手段12によって読み出され、D/A変換器13に連続的に供給される。その後D/A変換器13はディクテーションの再生のため、ディクテーションに含まれる音声信号SSの音声情報SIをスピーカー5に送信する。
【0037】
同期再生モードをアクティブ状態にするために、音声認識装置1のユーザはフットスイッチ4の2つのスイッチの一方に足を置く。これにより、制御情報SIが同期再生手段12に転送される。そして同期再生手段12は、ディクテーションの音声データSDに加え、ディクテーションのため記憶媒体9に保持されているリンク情報LIを読み出す。
【0038】
同期再生モードがアクティブ状態のとき、同期再生手段12は音声カーソル情報ACIを生成し、編集手段11に送るよう設計されている。音声カーソル情報ACIは再生中のワード及び表示されているテキスト情報TIにおける音声カーソルACが表示されるべき位置とをマークする。
【0039】
同期再生モードがアクティブ状態になるとすぐ、記憶手段9から認識テキスト情報ETIを読み出し、一時的にテキスト情報TIとして保存するよう編集手段11は設計される。この表示のための一時的に保存されたテキスト情報TIは、認識テキスト情報ETIに対応し、最終的に誤りのないテキスト情報を得るために、ユーザにより校正される。
【0040】
編集手段11に一時的に保存されたテキスト情報TIは、編集手段11から画像処理手段14に送られる。画像処理手段14は表示のためのテキスト情報TIを処理し、テキスト情報TIを含む表示用ディスプレイ情報DIをモニタ6に送る。編集手段11はまた、テキストカーソル情報TCIを画像処理手段14に送る。ここで、テキストカーソル情報TCIは表示されたテキスト情報TIのテキストカーソルTCの位置をマークしている。同期再生モードがアクティブ状態のとき、編集手段11は音声カーソルACの表示のため、音声カーソル情報ACIを画像処理手段14に送る。
【0041】
訂正手段10の編集手段11はまた、テキストカーソルTCを音声カーソルACに、あるいは音声カーソルACをテキストカーソルTCに位置合わせする(synchronized)ためのカーソル同期手段15を備える。これにより、ユーザにより認識された誤ったワードを訂正するためのテキストカーソルTCの位置決めはかなり容易になる。この点に関するさらなる詳細な説明は、音声認識装置1の適用事例を利用して以下で与えられる。
【0042】
編集手段11はまた、同期再生モードが訂正装置10においてアクティブ状態のとき、テキストカーソルTCの位置決めをし、ユーザにより誤りと認識されたワードが編集できるよう設計される。このようにして、訂正を行うことのできるユーザは、同期再生モードのアクティブ状態を解除し、誤ったワードを訂正した後再びアクティブ状態に切り替える必要なく、誤ったワードの訂正を行うことができる。これによりユーザはかなりの時間の節約が可能となる。この点に関するさらなる詳細な説明は、音声認識装置1の適用事例を利用して以下で与えられる。
【0043】
図2のフローチャート16を使って、音声認識装置1の適用事例が以下で説明される。本適用事例では、ドクターが新しい音声認識装置を試用し、マイクロフォン2に「THIS IS A TEXT THAT … ERRORS WITHIN THIS TEXT HAVE TO THE CORRECTED WITH A TEXT EDITOR」と口述している。その後、ブロック17において、ディクテーションのデジタル音声データSDが音声認識手段8に送られる。ブロック18において、音声認識手段8は対応する認識テキスト情報ETI及びリンク情報LIを認識し、ブロック19において、それらを記憶手段9に保存する。ドクターがディクテーションにおけるいくつかのワードをはっきり発音しなかったため、音声認識手段8は「IS」の代わりに「MISS」と、「TEXT」の代わりに「PEST」と認識した。
【0044】
その後、ブロック20において、認識テキスト情報の誤ったワードを訂正するために、ドクターの秘書が音声認識装置1の同期再生モードをアクティブ状態にした。そして、記憶手段9から、編集手段11は認識テキスト情報ETIを読み込み、同期再生手段12はディクテーションの音声データSDとリンク情報LIを読み込む。テキスト情報TIはモニタ6に表示され、ディクテーションの再生が開始される。このとき音声カーソルACは、「THIS」から始まって、ディクテーションのワードを次々とマークしていく。
【0045】
秘書が「MISS」というワードが誤りだと気付くと、キーボード3から対応する入力情報EIを入力することによってこれを訂正する。「MISS」の訂正後、テキストカーソルTCは「IS」というワードの文字「I」の位置にとどまるが、音声カーソルACはテキスト情報TIのワードを次々とマークし続けていく。音声カーソルACが「PEST」をマークした時点で、秘書はブロック21においてこのワードが誤りだと認識し、ブロック22においてキーボードのキーを組み合わせて「Alt + →」を入力する。その結果、同期情報SIYが編集手段11に送られ、テキストカーソルTCが音声カーソルACに位置合わせされる。これにより、テキストカーソルTCは誤ったワード「PEST」の最初の文字「P」に置かれ、ブロック23において秘書はこの誤ったワードを訂正し始める。
【0046】
誤ったワードの位置にテキストカーソルTCを置くために、秘書は「→」キーを繰り返し打つという時間のかかるキー操作を行う必要がなくなった。同じように、テキストカーソルTCの位置を決めるために、秘書は時間のかかる図1に図示されないコンピュータマウスの利用を避けることができるようになった。
【0047】
誤ったワード「PEST」の訂正中、秘書はこのワードの訂正中にディクテーションの残りのワードの再生についていけるくらいすでに十分慣れているので、同期再生モードはアクティブ状態に留められる。ディクテーションの終わりでのみ、秘書はブロック24においてフットスイッチ4の第2のスイッチを操作することにより、同期再生モードを解除する。フローチャート16のブロック19から24がこのケースにおける訂正手順を示している。
【0048】
アクティブな同期再生モードで、「MISS」と「PEST」の間違ったワードを訂正することができるので、秘書はフットスイッチを何回も操作することなくスピーディーにこの作業を終えることができる。
【0049】
また、「Alt + →」を入力することにより、テキスト情報TIの開始地点に近いカーソルにもう一方のカーソルの位置が合わせられる。さらに、「Alt + ←」を入力することにより、テキスト情報TIの最終地点に近いカーソルにもう一方のカーソルの位置が合わせられる。
【0050】
このキーの組み合わせによる動的な調整は、ユーザにとって特に使い勝手がよいものである。例えば、「Ctrl」キーや「Alt Gr」キーが「Alt」キーの代わりに使用されてもよい。また、アクティブな同期再生モードでは、キーの組み合わせでなく、「←」キーと「→」キーのみを使って動的な調整が行われてもよい。
【0051】
カーソルはフットスイッチあるいはコンピュータマウスの操作により位置合わせされてもよい。同様に、テキストカーソルTCを音声カーソルACに連続的かつ自動的に位置合わせすることも可能である。これにより、編集情報EIが入力されると、音声カーソルACの現在位置がテキストカーソルTCの位置と一致するようになるであろう。
【0052】
適用事例に依存して、逆に音声カーソルACをテキストカーソルTCの位置に合わせることが有益かもしれない。これにより、音声カーソルACはテキストカーソルTC上に置かれることになる。ディクテーションの同期再生はテキストカーソルの位置から引き続き継続される。これにより、ディクテーションの再生部分の繰り返しが容易に可能となる。
【0053】
このような同期処理によって、2つのカーソルは必ずしも同じ位置になる必要はない。例えば、一方のカーソルがもう一方のN=3ワード分先行していてもよい。これにより、ユーザは誤ったワードを認識したとき、自らの反応時間のバランスを考慮することができる。同期後テキストカーソルTCは音声カーソルACより3ワード分先行することになる。反応の早いユーザはN=1を選び、遅いユーザはN=10を選ぶ。同期後、テキストカーソルTCは誤ったワード上に常に位置し、極めて便利である。
【0054】
同期再生モードにおいて、音声カーソルACとNワード分のシフトで連動するテキストカーソルTCとは連続的に表示されてもよい。これにより、誤ったワードの認識後、反応の遅いユーザはテキストカーソルTCが誤ったワード上に直接置かれる場合と同じくらいの時間を編集情報EIの入力にかけることができるようになる。これにより、誤ったワードの効率的な訂正が可能となる。
【0055】
本発明による訂正装置は、特に、労働時間の大部分を認識テキスト情報ETIの校正に費やし、それゆえこの作業に熟練しているユーザに好適である。例えば、上述の米国特許第6,173,259号で参照できるように、そのようなユーザは転写サービスのいわゆる校正者として従事している。
【0056】
本発明による訂正装置はほとんどがテキストエディタプログラムの一部であるが、必ずしもそうである必要はない。
【0057】
同期再生モードは同期データSYIの入力によって自動的に中断され、編集データEIの入力後続けられてもよい。この変形は、訂正処理と平行して変換されたテキスト情報ETIの誤ったワードをさらにサーチする必要がないので、訂正装置に慣れていないユーザにとりわけ有益である。
【0058】
コンピュータ1は同期再生中、必要なハードウェアを備えていなければ、ディクテーションを再生できなくてもよい。その場合、ディクテーションの音声データを保存するデジタルディクテーション装置が、同期再生中ディクテーションの音声を再生し、さらに位置情報をコンピュータに提供してもよい。この位置情報は、音声再生の実際の再生位置をマークし、この位置情報に基づいてコンピュータは対応する認識ワードをマークする。
【図面の簡単な説明】
【0059】
【図1】図1は、認識されたテキスト中の誤ったワードを訂正する訂正装置を備えた音声認識装置を示す。
【図2】図2は、ディクテーションの処理方法及び音声認識装置により認識されたテキスト中の誤ったワードの訂正方法を示す。
Claims (15)
- 音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正装置であって:
前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信手段であって、該受信手段は前記認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークする受信手段;
前記認識テキスト情報の誤ったワードにテキストカーソルを置き、ユーザにより入力された編集情報に従って前記誤ったワードを編集する編集手段;
前記音声情報の再生中、再生されている該音声情報に対し前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にする同期再生手段;及び
前記テキストカーソルを前記音声カーソルに、あるいは前記音声カーソルを前記テキストカーソルに同期させるカーソル同期手段;
からなることを特徴とする訂正装置。 - 請求項1記載の訂正装置であって、前記カーソル同期手段は、該訂正装置においてアクティブ状態にある前記同期表示モードにおいて、前記テキストカーソル及び音声カーソルを同期させるよう構成されていることを特徴とする訂正装置。
- 請求項1記載の訂正装置であって、前記カーソル同期手段はキーボードを備え、前記テキストカーソル及び音声カーソルは少なくとも1つのキーを手動操作することにより同期させることが可能であることを特徴とする訂正装置。
- 請求項3記載の訂正装置であって、前記少なくとも1つのキーは「→」キーあるいは「←」キーを含み、前記「→」キーが操作されるとき、前記認識テキスト情報の開始地点により近く示されている前記テキストカーソル及び音声カーソルの一方が他方のカーソルと同期させられ、認識テキスト情報の終了地点により近く示されている前記テキストカーソル及び音声カーソルの一方が他方のカーソルと同期させられることを特徴とする訂正装置。
- 請求項1記載の訂正装置であって、前記カーソル同期手段は、前記同期再生モードがアクティブ状態のとき、前記認識テキスト情報の前記テキストカーソルを前記音声カーソルより所定のワード数Nだけ先行して置くことを特徴とする訂正装置。
- 請求項5記載の訂正装置であって、前記所定のワード数Nは、ユーザ情報に従って設定されることを特徴とする訂正装置。
- 請求項2記載の訂正装置であって、前記カーソル同期手段はアクティブ状態の同期再生モードにおいて前記テキストカーソル及び音声カーソルを連続的かつ自動的に同期させ、誤ったワードの編集のため、前記テキストカーソルは少なくとも1つのキーの手動操作により、さらなる少なくとも1つのキーの操作により前記テキストカーソルが前記音声カーソルに再び同期させられるまで、該音声カーソルから切り離されることを特徴とする訂正装置。
- 音声情報から音声認識装置によって認識されたテキスト情報の誤ったワードを訂正する訂正方法であって:
前記音声情報、それに対応する認識テキスト情報及びリンク情報を受信する受信し、認識テキスト情報の各ワードに対し、該ワードが前記音声認識装置により認識された前記音声情報の部分をマークするステップ;
前記音声情報の再生中、再生されている該音声情報に対して前記リンク情報によりマークされている前記認識テキスト情報のワードが音声カーソルの位置を示す間、同期してマークされる同期再生モードを可能にするステップ;及び
前記訂正装置においてアクティブ状態にある前記同期再生モードにおいて可能な、ユーザにより入力された編集情報に従ってテキストカーソル上の前記誤ったワードを編集するステップ;
からなることを特徴とする訂正方法。 - 請求項8記載の訂正方法であって、前記入力された編集情報に依存して、前記テキストカーソルは前記音声カーソルに同期させられ、あるいは前記音声カーソルは前記テキストカーソルに同期させられることを特徴とする訂正方法。
- 請求項8記載の訂正方法であって、前記テキストカーソル及び音声カーソルは少なくとも1つのキーを手動操作することにより同期させられることを特徴とする訂正方法。
- 請求項8記載の訂正方法であって、前記テキストカーソルは前記認識テキスト情報において、前記音声カーソルより所定のワード数Nだけ先行して置くことを特徴とする訂正方法。
- 請求項11記載の訂正方法であって、前記所定のワード数Nは、ユーザ情報に従って設定されることを特徴とする訂正方法。
- 受信された音声情報においてテキスト情報を認識する音声認識装置であって:
音声情報を受信する受信手段;
受信された前記音声情報に対応する認識テキスト情報及びリンク情報を認識する音声認識手段であって、前記認識テキスト情報の各ワードに対して、前記リンク情報は該ワードが該音声認識手段により認識された前記音声情報の部分を示す音声認識手段;
前記認識テキスト情報に含まれた誤ったワードを訂正するための請求項1記載の訂正装置;
からなることを特徴とする音声認識装置。 - デジタルコンピュータの内部メモリに直接ロード可能なコンピュータプログラムであって:
複数のソフトウェアコード;
からなり、該コンピュータプログラムが前記デジタルコンピュータ上で実行されれば、請求項8記載の訂正方法の各ステップが実行されることを特徴とするコンピュータプログラム。 - 請求項14記載のコンピュータプログラムであって、該コンピュータプログラムはコンピュータ読み出し可能な媒体に記録されていることを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01890104.1 | 2001-03-29 | ||
EP01890104 | 2001-03-29 | ||
PCT/IB2002/001062 WO2002080143A1 (en) | 2001-03-29 | 2002-03-25 | Synchronise an audio cursor and a text cursor during editing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004530205A true JP2004530205A (ja) | 2004-09-30 |
JP5093966B2 JP5093966B2 (ja) | 2012-12-12 |
Family
ID=8185105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002578284A Expired - Fee Related JP5093966B2 (ja) | 2001-03-29 | 2002-03-25 | 編集中における音声カーソルとテキストカーソルの位置合わせ |
Country Status (7)
Country | Link |
---|---|
US (3) | US8117034B2 (ja) |
EP (1) | EP1374225B1 (ja) |
JP (1) | JP5093966B2 (ja) |
CN (1) | CN1225721C (ja) |
AT (1) | ATE286294T1 (ja) |
DE (1) | DE60202453T2 (ja) |
WO (1) | WO2002080143A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010537315A (ja) * | 2007-08-19 | 2010-12-02 | マルチモーダル・テクノロジーズ・インク | アンカーを用いた文書編集 |
US8155958B2 (en) | 2005-11-08 | 2012-04-10 | Nec Corporation | Speech-to-text system, speech-to-text method, and speech-to-text program |
JP2013025299A (ja) * | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
JP2023501283A (ja) * | 2019-10-29 | 2023-01-18 | パズル エイアイ カンパニー リミテッド | キーボードマクロ機能を活用した自動音声認識器および音声認識方法 |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
WO2002080143A1 (en) | 2001-03-29 | 2002-10-10 | Koninklijke Philips Electronics N.V. | Synchronise an audio cursor and a text cursor during editing |
US7231351B1 (en) * | 2002-05-10 | 2007-06-12 | Nexidia, Inc. | Transcript alignment |
US7380203B2 (en) * | 2002-05-14 | 2008-05-27 | Microsoft Corporation | Natural input recognition tool |
EP1567941A2 (en) | 2002-11-28 | 2005-08-31 | Koninklijke Philips Electronics N.V. | Method to assign word class information |
US7774694B2 (en) * | 2002-12-06 | 2010-08-10 | 3M Innovation Properties Company | Method and system for server-based sequential insertion processing of speech recognition results |
US7444285B2 (en) * | 2002-12-06 | 2008-10-28 | 3M Innovative Properties Company | Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services |
US20050096910A1 (en) * | 2002-12-06 | 2005-05-05 | Watson Kirk L. | Formed document templates and related methods and systems for automated sequential insertion of speech recognition results |
KR100668297B1 (ko) * | 2002-12-31 | 2007-01-12 | 삼성전자주식회사 | 음성인식방법 및 장치 |
US7263483B2 (en) * | 2003-04-28 | 2007-08-28 | Dictaphone Corporation | USB dictation device |
US7346506B2 (en) | 2003-10-08 | 2008-03-18 | Agfa Inc. | System and method for synchronized text display and audio playback |
US20050144015A1 (en) * | 2003-12-08 | 2005-06-30 | International Business Machines Corporation | Automatic identification of optimal audio segments for speech applications |
US7629989B2 (en) * | 2004-04-02 | 2009-12-08 | K-Nfb Reading Technology, Inc. | Reducing processing latency in optical character recognition for portable reading machine |
US8504369B1 (en) | 2004-06-02 | 2013-08-06 | Nuance Communications, Inc. | Multi-cursor transcription editing |
US7836412B1 (en) | 2004-12-03 | 2010-11-16 | Escription, Inc. | Transcription editing |
US8521510B2 (en) * | 2006-08-31 | 2013-08-27 | At&T Intellectual Property Ii, L.P. | Method and system for providing an automated web transcription service |
US20100324895A1 (en) * | 2009-01-15 | 2010-12-23 | K-Nfb Reading Technology, Inc. | Synchronization for document narration |
US20100299131A1 (en) * | 2009-05-21 | 2010-11-25 | Nexidia Inc. | Transcript alignment |
US20100332225A1 (en) * | 2009-06-29 | 2010-12-30 | Nexidia Inc. | Transcript alignment |
US9292161B2 (en) * | 2010-03-24 | 2016-03-22 | Microsoft Technology Licensing, Llc | Pointer tool with touch-enabled precise placement |
US8392186B2 (en) | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
CN101887346A (zh) * | 2010-06-22 | 2010-11-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种信息输入控制方法、装置及通信终端 |
CN102314874A (zh) * | 2010-06-29 | 2012-01-11 | 鸿富锦精密工业(深圳)有限公司 | 文本到语音转换系统与方法 |
US8768723B2 (en) | 2011-02-18 | 2014-07-01 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US10460288B2 (en) | 2011-02-18 | 2019-10-29 | Nuance Communications, Inc. | Methods and apparatus for identifying unspecified diagnoses in clinical documentation |
US10032127B2 (en) | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US9904768B2 (en) | 2011-02-18 | 2018-02-27 | Nuance Communications, Inc. | Methods and apparatus for presenting alternative hypotheses for medical facts |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US9361282B2 (en) * | 2011-05-24 | 2016-06-07 | Lg Electronics Inc. | Method and device for user interface |
US20130035936A1 (en) * | 2011-08-02 | 2013-02-07 | Nexidia Inc. | Language transcription |
US9317196B2 (en) | 2011-08-10 | 2016-04-19 | Microsoft Technology Licensing, Llc | Automatic zooming for text selection/cursor placement |
US9318110B2 (en) * | 2011-09-09 | 2016-04-19 | Roe Mobile Development Llc | Audio transcription generator and editor |
KR101921203B1 (ko) * | 2012-03-02 | 2018-11-22 | 삼성전자 주식회사 | 녹음 기능이 연동된 메모 기능 운용 방법 및 장치 |
US9569594B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US9805118B2 (en) | 2012-06-29 | 2017-10-31 | Change Healthcare Llc | Transcription method, apparatus and computer program product |
US9064492B2 (en) | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
KR20140008835A (ko) * | 2012-07-12 | 2014-01-22 | 삼성전자주식회사 | 음성 인식 오류 수정 방법 및 이를 적용한 방송 수신 장치 |
JP2014142501A (ja) * | 2013-01-24 | 2014-08-07 | Toshiba Corp | テキスト再生装置、方法、及びプログラム |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
US10496743B2 (en) | 2013-06-26 | 2019-12-03 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
CN103885596B (zh) * | 2014-03-24 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9940929B2 (en) * | 2015-12-09 | 2018-04-10 | Lenovo (Singapore) Pte. Ltd. | Extending the period of voice recognition |
CN106098060B (zh) * | 2016-05-19 | 2020-01-31 | 北京搜狗科技发展有限公司 | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 |
CN106448675B (zh) * | 2016-10-21 | 2020-05-01 | 科大讯飞股份有限公司 | 识别文本修正方法及系统 |
US10529330B2 (en) * | 2017-11-24 | 2020-01-07 | Sorizava Co., Ltd. | Speech recognition apparatus and system |
CN108366182B (zh) * | 2018-02-13 | 2020-07-07 | 京东方科技集团股份有限公司 | 文字语音同步播报的校准方法及装置、计算机存储介质 |
CN110265031A (zh) * | 2019-07-25 | 2019-09-20 | 秒针信息技术有限公司 | 一种语音处理方法及装置 |
CN111079760B (zh) * | 2019-08-02 | 2023-11-28 | 广东小天才科技有限公司 | 一种文字识别方法及电子设备 |
CN110534112B (zh) * | 2019-08-23 | 2021-09-10 | 王晓佳 | 基于位置与时间的分布式语音识别纠错方法 |
CN113936699B (zh) * | 2020-06-29 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、设备及存储介质 |
US11947894B2 (en) | 2021-04-28 | 2024-04-02 | International Business Machines Corporation | Contextual real-time content highlighting on shared screens |
Family Cites Families (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3676856A (en) * | 1970-08-11 | 1972-07-11 | Ron Manly | Automatic editing system and method |
US3648249A (en) | 1970-12-08 | 1972-03-07 | Ibm | Audio-responsive visual display system incorporating audio and digital information segmentation and coordination |
JPS6184771A (ja) | 1984-10-03 | 1986-04-30 | Hitachi Ltd | 音声入力装置 |
US4637797A (en) | 1985-01-11 | 1987-01-20 | Access Learning Technology Corporation | Software training system |
US4701130A (en) | 1985-01-11 | 1987-10-20 | Access Learning Technology Corporation | Software training system |
JPS62212870A (ja) | 1986-03-14 | 1987-09-18 | Fujitsu Ltd | 文章読み上げ校正装置 |
AT390685B (de) | 1988-10-25 | 1990-06-11 | Philips Nv | System zur textverarbeitung |
US5146439A (en) | 1989-01-04 | 1992-09-08 | Pitney Bowes Inc. | Records management system having dictation/transcription capability |
JPH05108608A (ja) | 1991-10-18 | 1993-04-30 | Olympus Optical Co Ltd | 情報信号処理装置 |
US5553289A (en) * | 1991-12-26 | 1996-09-03 | International Business Machines Corporation | System for automatically assigning attributes to objects of multimedia distribution when the objects being within a predetermined relationship |
US5519808A (en) | 1993-03-10 | 1996-05-21 | Lanier Worldwide, Inc. | Transcription interface for a word processing station |
US5369704A (en) | 1993-03-24 | 1994-11-29 | Engate Incorporated | Down-line transcription system for manipulating real-time testimony |
US5602982A (en) | 1994-09-23 | 1997-02-11 | Kelly Properties, Inc. | Universal automated training and testing software system |
US5664227A (en) * | 1994-10-14 | 1997-09-02 | Carnegie Mellon University | System and method for skimming digital audio/video data |
US5812882A (en) | 1994-10-18 | 1998-09-22 | Lanier Worldwide, Inc. | Digital dictation system having a central station that includes component cards for interfacing to dictation stations and transcription stations and for processing and storing digitized dictation segments |
US5616876A (en) * | 1995-04-19 | 1997-04-01 | Microsoft Corporation | System and methods for selecting music on the basis of subjective content |
US5857212A (en) | 1995-07-06 | 1999-01-05 | Sun Microsystems, Inc. | System and method for horizontal alignment of tokens in a structural representation program editor |
US5960447A (en) * | 1995-11-13 | 1999-09-28 | Holt; Douglas | Word tagging and editing system for speech recognition |
JP3416007B2 (ja) * | 1995-12-06 | 2003-06-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | オーディオビジュアル・マテリアルをスクリーニングする装置及び方法 |
US5911485A (en) | 1995-12-11 | 1999-06-15 | Unwired Planet, Inc. | Predictive data entry method for a keypad |
US5898830A (en) | 1996-10-17 | 1999-04-27 | Network Engineering Software | Firewall providing enhanced network security and user transparency |
US5983176A (en) * | 1996-05-24 | 1999-11-09 | Magnifi, Inc. | Evaluation of media content in media files |
US5748888A (en) | 1996-05-29 | 1998-05-05 | Compaq Computer Corporation | Method and apparatus for providing secure and private keyboard communications in computer systems |
EP0811906B1 (en) * | 1996-06-07 | 2003-08-27 | Hewlett-Packard Company, A Delaware Corporation | Speech segmentation |
US5664896A (en) | 1996-08-29 | 1997-09-09 | Blumberg; Marvin R. | Speed typing apparatus and method |
GB2302199B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5875448A (en) | 1996-10-08 | 1999-02-23 | Boys; Donald R. | Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator |
EP0840287A3 (en) * | 1996-10-31 | 1999-04-07 | Microsoft Corporation | Method and system for selecting recognized words when correcting recognized speech |
US6173259B1 (en) | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
US5875429A (en) | 1997-05-20 | 1999-02-23 | Applied Voice Recognition, Inc. | Method and apparatus for editing documents through voice recognition |
US5974413A (en) | 1997-07-03 | 1999-10-26 | Activeword Systems, Inc. | Semantic user interface |
US6141011A (en) | 1997-08-04 | 2000-10-31 | Starfish Software, Inc. | User interface methodology supporting light data entry for microprocessor device having limited user input |
US6076059A (en) | 1997-08-29 | 2000-06-13 | Digital Equipment Corporation | Method for aligning text with audio signals |
JP4037608B2 (ja) | 1997-09-25 | 2008-01-23 | テジック・コミュニケーションズ・インコーポレーテッド | 減少されたキーボード明瞭化システム |
US6363380B1 (en) * | 1998-01-13 | 2002-03-26 | U.S. Philips Corporation | Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser |
US6195637B1 (en) * | 1998-03-25 | 2001-02-27 | International Business Machines Corp. | Marking and deferring correction of misrecognition errors |
US6457031B1 (en) * | 1998-09-02 | 2002-09-24 | International Business Machines Corp. | Method of marking previously dictated text for deferred correction in a speech recognition proofreader |
US6338038B1 (en) * | 1998-09-02 | 2002-01-08 | International Business Machines Corp. | Variable speed audio playback in speech recognition proofreader |
US6064965A (en) * | 1998-09-02 | 2000-05-16 | International Business Machines Corporation | Combined audio playback in speech recognition proofreader |
US6374225B1 (en) | 1998-10-09 | 2002-04-16 | Enounce, Incorporated | Method and apparatus to prepare listener-interest-filtered works |
US6122614A (en) | 1998-11-20 | 2000-09-19 | Custom Speech Usa, Inc. | System and method for automating transcription services |
US6363342B2 (en) | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US6802041B1 (en) | 1999-01-20 | 2004-10-05 | Perfectnotes Corporation | Multimedia word processor |
US20030004724A1 (en) | 1999-02-05 | 2003-01-02 | Jonathan Kahn | Speech recognition program mapping tool to align an audio file to verbatim text |
US6434523B1 (en) | 1999-04-23 | 2002-08-13 | Nuance Communications | Creating and editing grammars for speech recognition graphically |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
US6370503B1 (en) | 1999-06-30 | 2002-04-09 | International Business Machines Corp. | Method and apparatus for improving speech recognition accuracy |
JP2001043062A (ja) | 1999-07-27 | 2001-02-16 | Nec Corp | パーソナルコンピュータ、その音量調整方法及び記録媒体 |
US6865258B1 (en) | 1999-08-13 | 2005-03-08 | Intervoice Limited Partnership | Method and system for enhanced transcription |
US6542091B1 (en) | 1999-10-01 | 2003-04-01 | Wayne Allen Rasanen | Method for encoding key assignments for a data input device |
EP2261893B1 (en) * | 1999-12-20 | 2016-03-30 | Nuance Communications Austria GmbH | Audio playback for text edition in a speech recognition system |
US7082615B1 (en) | 2000-03-31 | 2006-07-25 | Intel Corporation | Protecting software environment in isolated execution |
US6912498B2 (en) | 2000-05-02 | 2005-06-28 | Scansoft, Inc. | Error correction in speech recognition by correcting text around selected area |
DE60142967D1 (de) | 2000-06-09 | 2010-10-14 | British Broadcasting Corp | Erzeugung von untertiteln für bewegte bilder |
US7624356B1 (en) | 2000-06-21 | 2009-11-24 | Microsoft Corporation | Task-sensitive methods and systems for displaying command sets |
US6950994B2 (en) | 2000-08-31 | 2005-09-27 | Yahoo! Inc. | Data list transmutation and input mapping |
US6993246B1 (en) * | 2000-09-15 | 2006-01-31 | Hewlett-Packard Development Company, L.P. | Method and system for correlating data streams |
US6975985B2 (en) | 2000-11-29 | 2005-12-13 | International Business Machines Corporation | Method and system for the automatic amendment of speech recognition vocabularies |
CA2328566A1 (en) | 2000-12-15 | 2002-06-15 | Ibm Canada Limited - Ibm Canada Limitee | System and method for providing language-specific extensions to the compare facility in an edit system |
US7735021B2 (en) | 2001-02-16 | 2010-06-08 | Microsoft Corporation | Shortcut system for use in a mobile electronic device and method thereof |
WO2002080143A1 (en) | 2001-03-29 | 2002-10-10 | Koninklijke Philips Electronics N.V. | Synchronise an audio cursor and a text cursor during editing |
CN1215458C (zh) * | 2001-03-29 | 2005-08-17 | 皇家菲利浦电子有限公司 | 在同步回放的过程中文本编辑所识别的语音 |
US20030007018A1 (en) | 2001-07-09 | 2003-01-09 | Giovanni Seni | Handwriting user interface for personal digital assistants and the like |
US7152213B2 (en) | 2001-10-04 | 2006-12-19 | Infogation Corporation | System and method for dynamic key assignment in enhanced user interface |
EP1442451B1 (en) * | 2001-10-31 | 2006-05-03 | Koninklijke Philips Electronics N.V. | Method of and system for transcribing dictations in text files and for revising the texts |
US7196691B1 (en) | 2001-11-14 | 2007-03-27 | Bruce Martin Zweig | Multi-key macros to speed data input |
US7292975B2 (en) | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US7236931B2 (en) | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US6986106B2 (en) | 2002-05-13 | 2006-01-10 | Microsoft Corporation | Correction widget |
KR20050027093A (ko) | 2002-05-24 | 2005-03-17 | 에스엠티엠 테크놀러지스 엘엘씨 | 숙련 기반 테스트 및 트레이닝을 위한 방법 및 시스템 |
US7260529B1 (en) | 2002-06-25 | 2007-08-21 | Lengen Nicholas D | Command insertion system and method for voice recognition applications |
US7137076B2 (en) | 2002-07-30 | 2006-11-14 | Microsoft Corporation | Correcting recognition results associated with user input |
US6763320B2 (en) | 2002-08-15 | 2004-07-13 | International Business Machines Corporation | Data input device for individuals with limited hand function |
AU2003279071A1 (en) * | 2002-09-23 | 2004-04-08 | Wimetrics Corporation | System and method for wireless local area network monitoring and intrusion detection |
US7206938B2 (en) | 2002-09-24 | 2007-04-17 | Imagic Software, Inc. | Key sequence rhythm recognition system and method |
US20080034218A1 (en) | 2002-09-24 | 2008-02-07 | Bender Steven L | Key sequence rhythm guidance recognition system and method |
US7016844B2 (en) | 2002-09-26 | 2006-03-21 | Core Mobility, Inc. | System and method for online transcription services |
US7515903B1 (en) | 2002-10-28 | 2009-04-07 | At&T Mobility Ii Llc | Speech to message processing |
EP1422692A3 (en) | 2002-11-22 | 2004-07-14 | ScanSoft, Inc. | Automatic insertion of non-verbalized punctuation in speech recognition |
US7107397B2 (en) | 2003-05-29 | 2006-09-12 | International Business Machines Corporation | Magnetic tape data storage system buffer management |
GB2405728A (en) | 2003-09-03 | 2005-03-09 | Business Integrity Ltd | Punctuation of automated documents |
CA2558309A1 (en) | 2004-03-05 | 2005-09-15 | Secure Systems Limited | Partition access control system and method for controlling partition access |
US7382359B2 (en) | 2004-06-07 | 2008-06-03 | Research In Motion Limited | Smart multi-tap text input |
US20060176283A1 (en) | 2004-08-06 | 2006-08-10 | Daniel Suraqui | Finger activated reduced keyboard and a method for performing text input |
US7508324B2 (en) | 2004-08-06 | 2009-03-24 | Daniel Suraqui | Finger activated reduced keyboard and a method for performing text input |
KR100713128B1 (ko) | 2004-11-08 | 2007-05-02 | 주식회사 비젯 | 바이러스 방역 장치 및 시스템 |
EP1864455A2 (en) | 2005-03-29 | 2007-12-12 | Glowpoint, Inc. | Video communication call authorization |
FI20050561A0 (fi) | 2005-05-26 | 2005-05-26 | Nokia Corp | Pakettidatan käsittely viestintäjärjestelmässä |
US20070143857A1 (en) | 2005-12-19 | 2007-06-21 | Hazim Ansari | Method and System for Enabling Computer Systems to Be Responsive to Environmental Changes |
US9904809B2 (en) | 2006-02-27 | 2018-02-27 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Method and system for multi-level security initialization and configuration |
-
2002
- 2002-03-25 WO PCT/IB2002/001062 patent/WO2002080143A1/en active IP Right Grant
- 2002-03-25 CN CNB028008294A patent/CN1225721C/zh not_active Expired - Fee Related
- 2002-03-25 AT AT02713150T patent/ATE286294T1/de not_active IP Right Cessation
- 2002-03-25 DE DE60202453T patent/DE60202453T2/de not_active Expired - Lifetime
- 2002-03-25 EP EP02713150A patent/EP1374225B1/en not_active Expired - Lifetime
- 2002-03-25 JP JP2002578284A patent/JP5093966B2/ja not_active Expired - Fee Related
- 2002-03-26 US US10/106,981 patent/US8117034B2/en not_active Expired - Fee Related
-
2012
- 2012-02-13 US US13/371,523 patent/US8380509B2/en not_active Expired - Lifetime
-
2013
- 2013-01-17 US US13/743,575 patent/US8706495B2/en not_active Expired - Lifetime
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8155958B2 (en) | 2005-11-08 | 2012-04-10 | Nec Corporation | Speech-to-text system, speech-to-text method, and speech-to-text program |
JP2010537315A (ja) * | 2007-08-19 | 2010-12-02 | マルチモーダル・テクノロジーズ・インク | アンカーを用いた文書編集 |
US8959433B2 (en) | 2007-08-19 | 2015-02-17 | Multimodal Technologies, Llc | Document editing using anchors |
JP2013025299A (ja) * | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
JP2023501283A (ja) * | 2019-10-29 | 2023-01-18 | パズル エイアイ カンパニー リミテッド | キーボードマクロ機能を活用した自動音声認識器および音声認識方法 |
US11977812B2 (en) | 2019-10-29 | 2024-05-07 | Puzzle Ai Co., Ltd. | Automatic speech recognizer and speech recognition method using keyboard macro function |
Also Published As
Publication number | Publication date |
---|---|
WO2002080143A1 (en) | 2002-10-10 |
US8117034B2 (en) | 2012-02-14 |
US8706495B2 (en) | 2014-04-22 |
US20130166304A1 (en) | 2013-06-27 |
US20120158405A1 (en) | 2012-06-21 |
EP1374225B1 (en) | 2004-12-29 |
DE60202453D1 (de) | 2005-02-03 |
US8380509B2 (en) | 2013-02-19 |
JP5093966B2 (ja) | 2012-12-12 |
US20020143544A1 (en) | 2002-10-03 |
EP1374225A1 (en) | 2004-01-02 |
DE60202453T2 (de) | 2006-01-19 |
CN1460245A (zh) | 2003-12-03 |
ATE286294T1 (de) | 2005-01-15 |
CN1225721C (zh) | 2005-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5093966B2 (ja) | 編集中における音声カーソルとテキストカーソルの位置合わせ | |
JP4463861B2 (ja) | 認識音声に対する同期再生中の文字編集 | |
JP6605995B2 (ja) | 音声認識誤り修正装置、方法及びプログラム | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
EP1611570B1 (en) | System for correction of speech recognition results with confidence level indication | |
JP6865701B2 (ja) | 音声認識誤り修正支援装置およびそのプログラム | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2009042968A (ja) | 情報選別システム、情報選別方法及び情報選別用プログラム | |
JP2017032693A (ja) | 映像記録再生装置 | |
CN110782899B (zh) | 信息处理装置、存储介质及信息处理方法 | |
JP3682922B2 (ja) | リアルタイム文字修正装置およびリアルタイム文字修正プログラム | |
JP6543755B1 (ja) | 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム | |
JP7117228B2 (ja) | カラオケシステム、カラオケ装置 | |
WO2016151761A1 (ja) | 音訳支援装置、音訳支援方法及び音訳支援プログラム | |
JP2012022447A (ja) | 音声合成装置、音声合成プログラムおよび音声合成方法 | |
JP2013003430A (ja) | カラオケ装置 | |
JP6387044B2 (ja) | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム | |
GB2390930A (en) | Foreign language speech recognition | |
JP2021140084A (ja) | 音声認識誤り修正支援装置、プログラムおよび方法、ならびに、音声認識装置 | |
KR101694365B1 (ko) | 피아노 연주 보조 방법 및 이를 실행하는 피아노 연주 보조 장치 | |
JP2015187733A (ja) | 書き起こし支援システムおよび書き起こし支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071106 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080205 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080507 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080617 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090715 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120918 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |