JP4336580B2 - 認識されたテキストの一部をマークする補正装置 - Google Patents

認識されたテキストの一部をマークする補正装置 Download PDF

Info

Publication number
JP4336580B2
JP4336580B2 JP2003537052A JP2003537052A JP4336580B2 JP 4336580 B2 JP4336580 B2 JP 4336580B2 JP 2003537052 A JP2003537052 A JP 2003537052A JP 2003537052 A JP2003537052 A JP 2003537052A JP 4336580 B2 JP4336580 B2 JP 4336580B2
Authority
JP
Japan
Prior art keywords
text
recognized
marking
spoken
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003537052A
Other languages
English (en)
Other versions
JP2005505805A (ja
Inventor
ウォルフガング ゲシュヴェントナー
クレシミル ラジク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2005505805A publication Critical patent/JP2005505805A/ja
Application granted granted Critical
Publication of JP4336580B2 publication Critical patent/JP4336580B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Image Processing (AREA)
  • Facsimile Heads (AREA)

Description

本発明は、話されたテキストから音声認識装置によって認識されたテキストを補正するための補正装置であって、認識されたテキストが、話されたテキストの話されたワードについて正しく認識されているワードと、該話されたワードについて正しく認識されていないワードとを含む補正装置に関する。
本発明は、話されたテキストから音声認識装置によって認識されたテキストを補正するための補正方法に関し、認識されたテキストが、話されたテキストの話されたワードについて正しく認識されているワードと、該話されたワードについて正しく認識されていないワードとを含む補正方法に関する。
この種の補正装置及びこの種の補正方法は米国特許第5,031,113号公報から既知であり、この公報にはディクテーティング装置が開示されている。既知のディクテーティング装置は、音声認識ソフトウェア及びテキスト処理ソフトウェアを走らせるコンピュータによって形成される。既知のディクテーティング装置のユーザは、コンピュータに接続されたマイクロフォンに向かって話されたテキストを話すことができる。音声認識装置を形成する音声認識ソフトウェアは、音声認識プロセスを実施し、その際、認識されたワードを話されたテキストのそれぞれの話されたワードに割り当てる。この結果、話されたテキストについて、認識されたテキストが得られる。更に、音声認識プロセス中、話されたテキストのそれぞれの話されたワードについて認識された認識されたテキストのワードにフラグを立てるリンク情報が決定される。
既知のディクテーティング装置は更に、間違って認識されたワードが補正装置を用いて補正ワードと置き換えられることができる該補正装置を形成する。この目的のため、補正装置のユーザは、補正装置の同期再生モードを起動することができ、この同期再生モードにおいて、話されたテキストが音響的に再生され、これと同時に、リンク情報によってフラグを立てられた認識されたテキストのワードが視覚的に強調される(すなわちマークされる)。同期再生モードは、実際に、音声認識装置によって認識されたテキストの補正に特に有利であることがわかった。更に、多くのユーザは、同期再生モードの助けにより認識されたテキスト全体をチェックするわけではなく、テキストの特定の部分のみをチェックすることが分かった。これらの特定の部分は、例えばテキストのうち特に重要であって絶対にエラーがないようにしなければならない部分であり、又はテキストのうち音声認識ソフトウェアにとって認識するのが特に困難であり、それゆえ多数の間違って認識されたワードを含む可能性がある部分でありうる。
既知の補正装置において、認識されたテキストを補正装置を用いて補正したのち、ユーザは、同期再生モードの助けにより認識されたテキストのどの部分が補正されたか及びどの部分がなお補正されなければならないかを決定する方法をもたないことが不利益であることが分かった。
本発明の目的は、上述の不利益が回避されるような上述の第1段落に規定された種類の補正装置及び上述の第2段落に規定された種類の補正方法を提供することである。
上述の目的を達成するため、この種の補正装置について本発明による特徴が提案され、そのような補正装置は、以下に詳細に記述される態様において特徴付けられることができる。
話されたテキストから音声認識装置によって認識されたテキストを補正するための補正装置であって、話されたテキストのそれぞれの部分に関するリンク情報のアイテムが関連する認識されたテキストにフラグを立てる補正装置は、少なくとも話されたテキスト及び認識されたテキストを記憶するためのメモリ手段と、同期再生モードが補正装置において起動されるとき、話されたテキストを音響的に再生し、同時に、リンク情報によってフラグを立てられる関連する認識されたテキストを視覚的にマークするための再生手段と、認識されたテキスト及び/又は話されたテキストのうち同期再生モードが起動されたとき再生手段によって少なくとも一度再生された部分にフラグを立てるマーキング情報をメモリ手段に記憶するためのマーキング手段と、を有する。
上述の目的を達成するため、上述の種類の補正方法について本発明による特徴が提案され、そのような補正方法は、以下に詳しく記述される態様において特徴付けられることができる。
話されたテキストから音声認識装置によって認識されたテキストを補正するための補正方法であって、話されたテキストのそれぞれの部分に関するリンク情報のアイテムが関連する認識されたテキストにフラグを立てる補正方法において、少なくとも話されたテキスト及び認識されたテキストを記憶するステップと、同期再生モードが起動されるとき、話されたテキストを音響的に再生し、同時に、リンク情報によってフラグを立てられる関連する認識されたテキストを視覚的にマークするステップと、認識されたテキスト及び/又は話されたテキストのうち同期再生モードが起動されたときすでに少なくとも一度再生された部分にフラグを立てるマーキング情報を記憶するステップとが実施される。
本発明による特徴は、認識されたテキスト及び/又は話されたテキストのうち、同期再生モードが起動されたとき音響的に再生され視覚的にマークされた部分が、マーキング情報によってフラグを立てられることを達成する。このようにして、有利には、補正装置は、認識されたテキストのうち同期再生モードの助けによりすでに一度補正された部分を視覚的にマークし、又は話されたテキストの関連する部分を音響的にマークすることを可能にする。これは、本発明による補正装置のユーザが、認識されたテキストをより一層効率的に補正することを可能にする。
請求項2及び請求項8の規定は、話されたテキストのうち、音声認識装置又は補正装置によって抑制情報としてフラグを立てられた所望されない部分が、同期再生モード中に音響的に再生されないという利点を提供する。こうしてユーザは、同期再生モードの間、話されたテキストの重要な部分及び認識されたテキストの関連する部分に一層満足に集中することができる。また、音響再生は速められることができ、それによって有利には、認識されたテキストがより迅速に補正されうる。
請求項3及び請求項9の規定は、話されたテキストの特定の部分が、所望されないが、すなわちユーザが話されたテキストのそのような部分を2回目に又はより多くの回数聞くときになお再生されるという利点を提供する。これが特に有利であるのは、多くの場合、この種の話されたテキストの所望されない部分により、間違って認識されたワードが音声認識プロセスが実行されるときに認識されるようになるとともに、ユーザが、テキストのこれらの所望されない部分を聞くことによって、本当に認識されなければならなかったワードに関して一層容易に結論を導くことができるからである。
請求項4の規定は、抑制情報によって所望されないものとしてマークしてあることが特に有利である話されたテキストの部分のリストを提供する。こうして、テキストのこのような所望されない部分は、話されたテキストのうちユーザがディクテーティング中にポーズ(=無音)をおく部分、ユーザがワードを繰り返した部分、又はユーザが次の文章について考えるときに例えばあー(aah)、んー(mm..)のようないわゆる言いよどみサウンド(hesitating sound)を発した部分である。
請求項5の規定は、補正装置が、補正装置のユーザの作業をチェックしなければならないユーザ又は人のために、同期再生モードにおいて、すでに少なくとも一度再生され、それゆえ補正された認識されたテキストの部分を視覚的にマークするという利点を有する。その結果、専門的なトランスクリプションサービスは、効果的な品質管理を提供することができる。
請求項6の規定は、認識されたテキスト及び関連する話されたテキストがすでに同期再生モード中に一度再生されたか否かに依存して、補正装置に属する位置付け手段が、同期再生モードが中断されたときにマークされるワードのNワード又はMワード上流にテキストカーソルを位置付けるという利点を提供する。規定される数は、例えばM=3及びN=1でありえる。この結果として、間違って認識されたワードが認識されたテキストにおいて初めて見つけられるとき、補正者のより長い応答時間が許される。同期再生モードが一旦中断されると、テキストカーソルは、補正されるべき間違って認識されたワードに通常すでに位置付けられており、それゆえテキストカーソルを手動で位置付けるために要する時間が節約されるので、上述の規定は特に有利である。
本発明は、1つの実施例を例示として示す図面を参照してより詳しく記述されるが、本発明はこれに限定されない。
図1は、話されたテキストGTを認識されたテキストETに転写し、認識されたテキストETのうち正しく認識されなかった部分を編集するためのトランスクリプション装置1を示している。トランスクリプション装置1は、第1のコンピュータによって並びに第2及び第3のコンピュータによって形成される。第1のコンピュータは、音声認識ソフトウェアを走らせ、音声認識装置2を形成する。第2及び第3のコンピュータはそれぞれテキスト処理ソフトウェアを走らせ、テキストの正しく認識されなかった部分を補正するために第1の補正装置3及び第2の補正装置4を形成する。本発明によるトランスクリプション装置は、音声認識装置及び補正装置の双方を形成するただ1つのコンピュータによって形成されることもできることを述べることができる。そのようなコンピュータは、音声認識ソフトウェア及びテキスト処理ソフトウェアの双方を走らせる必要がある。
音声認識装置2を形成する第1のコンピュータにはマイクロフォン5が接続され、話されたテキストGTを表すオーディオ信号Aはマイクロフォン5から送り出されることができる。音声認識装置2は、A/Dコンバータ6、音声認識手段7、メモリ手段8、パラメータメモリ手段9、コマンドメモリ手段10及び適応化段11を有する。マイクロフォン5によって送り出されるオーディオ信号AはA/Dコンバータ6に供給されることができ、A/Dコンバータ6はオーディオ信号AをデジタルオーディオデータADに変換する。
話されたテキストGTを表すオーディオデータADは音声認識手段7に供給されることができ、それによってメモリ手段8に記憶されることができる。音声認識プロセスが音声認識手段7によって実施されているとき、音声認識手段7は、認識されたテキストETを決定し、その際、パラメータメモリ手段9に記憶されているパラメータ情報PIが考慮に入れられる。パラメータ情報PIは、この例ではボキャブラリ情報、言語モデル情報及び音響情報を含む。
ボキャブラリ情報は、音声認識手段7によって認識されることができるすべてのワードと、関連する音素シーケンスとを含む。言語モデル情報は、話されたテキストGTの言語において通常使用されるワードシーケンスに関する統計情報を含む。音響情報は、トランスクリプション装置1のユーザの発音の特徴に関する情報と、マイクロフォン5及びA/Dコンバータ6の音響特性に関する情報とを含む。
米国特許第5,031,113号公報の開示は、参照によって本発明の開示に盛り込まれるものとする。この種のパラメータ情報PIを考慮した音声認識プロセスの実施は、前述の米国特許公報に開示されているので、その詳細な記述はここに示されない。音声認識プロセスの結果として、認識されたテキストETを含むテキストデータが音声認識手段7によってメモリ手段8に記憶されることができる。
音声認識プロセスの実施中、話されたテキストGTのそれぞれの部分について音声認識手段7によって認識される関連するテキストETにフラグを立てるリンク情報LIもまた、音声認識手段7によって決定されることができる。リンク情報LIの生成は、米国特許第5,031,113号公報に同様に開示されており、この理由のためここに詳細に記述されない。
図2において、作成者(author、話者)すなわち音声認識装置2のユーザによってマイクロフォン5に向かって話されたテキストGTが、時間軸tに沿って記号的な形式で図示されている。この話されたテキストGTについて音声認識手段7によって認識されたテキストETも図示されている。音声認識プロセスが実施されているとき、話されたテキストGTは、関連する音響情報を含むオーディオセグメントASに分割される。この種の関連する音響情報は、例えばワード、2つのワード間の長めの音声ポーズ、「あー(aah)」又は「んー(mm)」のようないわゆる言いよどみサウンド、又はノイズでありうる。
リンク情報LIは、話されたテキストGTのそれぞれのオーディオセグメントAS及び認識されたテキストETの関連するセグメントTSの始め及び終わりにフラグを立てる。第1のオーディオセグメントAS1は、例えば話されたテキストGTの第1のワード「The」について1.5秒間つづく音響情報を含み、リンク情報LIによって割り当てられる第1のテキストセグメントTS1は、音声認識手段7によって認識されたワード「The」のテキストを含む。
コマンドメモリ段10は、音声認識装置2によって認識されるワードのシーケンス(以後、ワードシーケンスと呼ぶ)をコマンドとして記憶する。コマンドメモリ段10に記憶されるコマンドテーブルBTの一部が図3に示されている。コマンドテーブルBTを参照することにより、音声認識手段7は、「next word bold」なるワードシーケンスを、例えば認識されたテキストETにおける次のワードがボールド体で示されるようにするためのコマンドとして認識する。コマンドテーブルBTにおいて、このコマンドにはコマンド番号BI12が割り当てられる。「insert text of module 1」なるワードシーケンスは、同様に、このケースではコマンドメモリ段10の位置「2341」のメモリ位置に記憶されたテキストモジュールから標準テキストが認識されたテキストETに挿入されるようにするためのコマンドとして認識される。
音声認識手段7は第1のマーキング段12を更に有し、この第1のマーキング段12は、マーキング情報MIのさまざまな異なるアイテムを自動的に決定し、そのように決定されたマーキング情報MIのアイテムをメモリ手段8に記憶するように構成される。マーキング情報MIのアイテムは、認識されたテキストET及び話されたテキストGTのうち、テキストのそのようにマークされた部分すべてに共通する特定の特性を有する部分にフラグを立てる。「自動的」なる語は、「トランスクリプション装置1のユーザによるいかなるアクションもなしで」という意味としてこのコンテキストにおいて理解されるべきである。第1のマーキング段12は、ポーズマーキング情報PMIによって長めの音声ポーズを、言いよどみサウンドマーキング情報HMIによって言いよどみサウンドを、コマンドマーキング情報CMIによってコマンドを、反復マーキング情報RMIによって反復されたワードを、日付マーキング情報DMIによって日付を、ノイズマーキング情報GMIによってノイズを、自動的にマークするように構成される。
図4は、メモリ手段8に記憶されるマーキングテーブルMTを示しており、マーキングテーブルMTには、第1のマーキング段12によって自動的に決定されたマーキング情報MIのアイテムが第1のマーキング段12によって入力される。認識されたテキストETにおけるコマンドを自動的にマークするために、第1のマーキング段12は、コマンドテーブルBTに含まれるワードシーケンスを、認識されたテキストETに含まれるワードシーケンスと比較する。コマンドテーブルBTに含まれるワードシーケンスが認識されたテキストETに見つけられると、第1のマーキング段12は、このワードシーケンスを識別する認識されたテキストETのテキストセグメントTSと、関連するコマンド番号BIとを、マーキングテーブルMTにコマンドマーキング情報CMIとして入力する。これは、適用例を参照して以下により詳しく記述される。
マーキングテーブルMTにおいて認識されたテキストETの特定のテキストセグメントTSを識別するのではなく、話されたテキストGTの適当なオーディオセグメントASがそれぞれのケースにおいて入力されることも可能であることを述べることができる。それぞれのケースにおいて関連付けられるオーディオセグメントAS及びテキストセグメントTSは、リンク情報LIの助けによって決定されることができる。
音声認識手段7は、2つのワード間の音声ポーズ(無音)を認識するように構成され、第1のマーキング段12は、マーキングテーブルMTにおいて話されたテキストGTの対応するオーディオセグメントASをポーズマーキング情報PMIにより自動的にマークするように構成される。
第1のマーキング段12は、第1のマーキング段12に記憶された言いよどみサウンド(例えば「あー(aah)」又は「んー(mhh)」)を、認識されたテキストETに含まれるワードと比較し、このような言いよどみサウンドを含む認識されたテキストETのテキストセグメントTSを言いよどみサウンドマーキング情報ZMIにより自動的にマークするように構成される。
第1のマーキング段12は更に、話されたテキストGTのオーディオセグメントASがノイズ及び/又はサウンドを含む場合、話されたテキストGTのこれらオーディオセグメントASをノイズマーキング情報GMIにより自動的にマークするように構成される。この目的のため、マーキング段12は、ノイズ及び/又はサウンドを、ワードを含むオーディオセグメントと区別することができるノイズ検出器を有する。
認識されたテキストETにおける反復されたワードを反復マーキング情報RMIによりマークするために、第1のマーキング段12は、認識されたテキストETにおいて次々と続くワード又はワードシーケンスを比較するように構成される。マーキングテーブルMTは更に、適用例を参照してより詳しく以下に示される日付マーキング情報DMIを含む。
トランスクリプション装置1の第1の補正装置3は再生手段13を有し、再生手段13は、メモリ手段8及びコマンドメモリ段10と共に、テキスト処理ソフトウェアを走らせる第2のコンピュータによって形成される。更に第2のコンピュータには、モニタ14、キーボード15及びスピーカ16が接続され、これらは、第1の補正装置3にも同様に関連付けられる。再生手段13は、同期再生モードが第1の補正装置3において起動されるとき、話されたテキストGTを音響的に再生し、同時に、リンク情報LIによってフラグを立てられる関連する認識されたテキストETを視覚的又は光学的にマークするように構成される。
起動された同期再生モードにおける認識されたテキストETの補正は再び米国特許第5,031,113号公報に開示されており、実際に非常に有利であることがわかった。このケースでは、補正者すなわち認識されたテキストETを補正している第1の補正装置3のユーザは、作成者によってマイクロフォン5に向かって話されたテキストGTを聞くことと、その話されたテキストGTについて音声認識手段7によって認識されたテキストETをチェックし又は編集することが同時に可能である。認識されたテキストETは、モニタ14上に光学的に表示され、ちょうど音響的に再生された話されたワードについて音声認識手段7によって認識されたワードは、再生手段13によって光学的にマークされ、それゆえモニタ14に表示される。補正者は、同期再生モードを起動させ、中断し、停止させることができるとともに、認識されたテキストETをキーボード15を用いて編集することができる。
第2の補正装置4の構造は、図1に詳しく示された第1の補正装置3の構造とほぼ同じであり、この理由で、第2の補正装置4は、図1に単にブロックとして図示されている。しかしながら、第2の補正装置4は、音声認識装置2とは物理的に異なる。この理由で、第2の補正装置4は更に、第1の補正装置3により補正された認識されたテキストETが編集される前に、メモリ手段8及びコマンドメモリ段10に記憶された情報が記憶されるメモリ手段及びコマンドメモリ手段を有する。
第2の補正装置4は、例えば検査者、すなわち第2の補正装置4のユーザによって使用されることができる。検査者は、メモリ手段8に記憶された認識されたテキストETが補正者によって補正されたのち、補正者によってなされた作業の品質をチェックする。この目的のため、検査者は、認識されたテキストETにおけるエラーを補正者が見逃がしたかどうかチェックする。このような検査者は主にトランスクリプション会社によって雇われており、そのような会社は、補正された認識されたテキストをランダムにチェックすることによって転写されたテキストの品質を保証する。これは、トランスクリプション装置1の適用例を参照して詳しく記述される。
トランスクリプション装置1の再生手段13は、第2のマーキング段17を更に有し、この第2のマーキング段17は、キーボード15及び第1のマーキング段12と共に、話されたテキストGT又は認識されたテキストETの一部を自動的に及び手動でマークするためのマーキング手段を形成する。第2のマーキング段17により、補正者は、認識されたテキストETを補正する際、自動的にマークされなかったテキストの他の部分を手動でマークする機会をもつ。
テキストの一部のこの手動マーキングは、すでに自動的にマークされたテキストの部分と同じ特性をもつ認識されたテキストETの部分を手動でマークするために使用されることができ、これによりパラメータ情報PI又はコマンドテーブルBTに記憶された情報が、適応化段11の助けにより適応化されることを可能にする。この適応化により、第1のマーキング段12は、手動でマークされたテキストの部分を次回は自動的にマークすることができるようになる。加えて、音声認識装置2の認識率が、それぞれの適応化ごとに改善される。その結果、トランスクリプション装置は、それぞれの更なる使用により、補正者が果たさなければならない作業をますます低減することができるという利点が得られる。
テキストの一部のこの手動のマーキングは、テキストの一部を削除されるものとしてマークするために使用されることもできる。このようなテキストの一部は、作成者に伝えられる認識されたテキストには現れないが、それにもかかわらず全面的に削除されるわけではない。テキストの一部を削除されるものとしてマークすることは、テキストのこのような部分が必要に応じて後になって認識されたテキストに再び含められることができるとともに、検査者がテキストのこれらの部分が削除されることが正しかったかどうかチェックすることができるという利点をもつ。しかしながら、認識されたテキストETのどの部分も実際には削除されていないので、話されたテキストGTと認識されたテキストETとの間のリンク情報LIによって提供される関係はまったく損なわれないままであることは特に有利である。それゆえ、同期再生モードが起動されるとき、削除されるものとしてマークされた話されたテキストGTの部分が音響的に再生されている間に、テキストの削除される部分に代わって置き換えテキストが光学的にマークされることができる。これについては以下に詳しく記述される。
こうして同じ特性を持つテキストの部分の手動マーキングによりテキストの一部の自動マーキングを補足することは、編集された認識されたテキストETが特に効率的なやり方で更に編集されることができるという他の利点をもつ。こうして、例えば、認識されたテキストのうち日付としてマークされたすべての部分のフォーマッティングは特に効率的に一様に修正されることができる。これについては、以下に詳しく記述される。
マーキング手段の第2のマーキング段17は更に、メモリ手段8に再生マーキング情報WMIを記憶するように構成される。この再生マーキング情報WMIは、起動された同期再生モード中に再生手段13によって少なくとも一度再生された認識されたテキストET及び/又は話されたテキストGTの部分にフラグを立てる。
この結果、マーキングテーブルMTに含まれる再生マーキング情報WMIを評価することによって、再生手段13は、認識されたテキストETのうち同期再生モードの助けにより一度すでに補正された部分を視覚的にマークし、又は話されたテキストGTの関連する部分を音響的にマークすることができるという利点が得られる。その結果、本発明による補正装置のユーザは、認識されたテキストをより一層効率的に補正することができる。これについては適用例を参照して以下に詳しく記述される。
再生手段13は更に、同期再生モードが起動されるとき、話されたテキストGTの所望されない部分の音響再生を抑制するように構成される。このような所望されない部分は、メモリ手段8に記憶された抑制情報によってフラグを立てられる。この場合、補正者は、キーボード15を使用して、マーキングテーブルMTに含まれるマーキング情報MIのどのアイテムが抑制情報として使用されるべきかを設定することができる。ユーザは、例えばポーズマーキング情報PMI及び言いよどみサウンドマーキング情報HMIを抑制情報として選択することができ、そのようにマークされたテキストの部分は、話されたテキストGTが初めて再生されるときに抑制される。これについては適用例を参照して詳しく記述される。
以下、トランスクリプション装置1の利点について図3乃至図9に示される適用例を参照して詳しく説明される。図5は、作成者によってマイクロフォン5に向かって話されたテキストGTの5つの部分を示している。図6は、話されたテキストGTの5つの部分について音声認識手段7によって認識されたテキストETを示しており、ここで、認識されたテキストETの一部はすでに第1のマーキング段12によって自動的にマークされている。更に図6には、第2のマーキング段17の助けにより補正者によって手動でマークされたテキストの部分が示されている。図7は、テキストの自動的に及び手動でマークされた部分が置き換えテキストと置き換えられて示されている形式で、認識されたテキストETを示している。図8は、テキストのすべてのマークされた部分が抑制された形式で、認識されたテキストETを示しており、認識されたテキストETはこの形式で作成者に伝えられる。
第1の例において、作成者は、マイクロフォンに向かってテキスト「...company PHILIPS....」と言い、同時に、ワード「PHILIPS」をボールド体としてマークすること望んだ。しかしながら、ワード「company」ののち、作成者は、ボールドフォーマッティング用のコマンドのための言い方は正確にはどんなであるかを少しの間思案し、多くの作成者と同じように、思案するときに言いよどみサウンド「aah」を発する。作成者はそれから「bold next」と言うが、そのように言うとき、このコマンドのための正しいワードシーケンスが「next word bold」であることに気づき、このため「no」と言う。作成者はそれから正しいコマンド「next word bold」と言い、ワード「PHILIPS」とテキストを続ける。
図6から分かるように、音声認識手段7は、オーディオセグメントAS3についてテキストセグメントTS3=「aah」を認識し、マーキングテーブルMTの第4行において、第1のマーキング段12は、この言いよどみサウンドを言いよどみサウンドマーキング情報HMIにより自動的にマークする。言いよどみサウンドの代わりに、図6には置き換えテキスト「<hes>」が示されており、これにより、補正者は、言いよどみサウンドがこの点でマークされていることを見ることができる。補正者が、認識されたテキストETを編集する際にこの置き換えテキスト上に再生手段13のテキストカーソルを位置付ける場合、音声認識手段7によって認識された言いよどみサウンドが表示される。この結果、補正者は、補正する際に認識されたテキストETの重要な部分に集中することができるが、補正者は、言いよどみサウンドに隣接するワードを補正することができるようにするため作成者がここでどんな言いよどみサウンドを発したかを知りたいと思う場合、補正者は、この言いよどみサウンドをいかなるときにも見ることができるという利点が得られる。
更に、音声認識手段7は、オーディオセグメントAS7−AS9について、テキストセグメントTS7−TS9によって形成されるワードシーケンス「next word bold」を認識し、これらのテキストセグメントTS7−TS9に対して、コマンドテーブルBTにおいてコマンド番号BI12をもつコマンドが割り当てられる。有利には、第1のマーキング段12は、これらのテキストセグメント及びこのコマンド番号を、マーキングテーブルMTの第4行にコマンドマーキング情報CMIとして自動的に入力する。図6にはこれらのテキストセグメントの代わりに置き換えテキスト「<com>」が図示されており、この結果として前述の利点が得られる。更に、コマンドBI12が実行され、オーディオセグメントAS10について認識されたテキストセグメントTS10を形成するワード「PHILIPS」がボールド体で表示される。
補正者は、キーボード15及び第2のマーキング段17を使用して、テキストセグメントTS4及びTS5をコマンド番号BI12をもつコマンドとしてマークし、これによって、ワードシーケンス「bold next」は、次回、第1のマーキング段12によってコマンドとして自動的に認識される。図7において、テキストのこの部分は、コマンドに関する置き換えテキスト「<com>」によって同様に表わされている。
第2のマーキング段17は、コマンド番号BI12を使用して、このワードシーケンスTS4+TS5をコマンドマーキング情報CMIとしてマーキングテーブルMTの第5行に入力する。適応化モードが音声認識装置2において起動されると、適応化段11は、メモリ手段8から新しいコマンドマーキング情報CMIを読み取り、コマンド番号BI12をもつコマンドについてコマンドテーブルBTに更なるエントリを設ける。
これは、補正者が特に容易に且つ効率的に他のワードシーケンスをコマンドとして規定することができ、このようなワードシーケンスが適応化モードにおいて音声認識装置2によって引き継がれるという利点を与える。こうして、音声認識プロセスが次に実施されるとき、ワードシーケンス「bold next」はコマンドとして自動的に認識される。
補正者は、キーボード15及び第2のマーキング段17によって、テキストセグメントTS6「no」を削除されるテキストとしてマークすることを続ける。補正者は、作成者がこのワードを意図せずに言い、これが作成者に伝えられる最終のテキストに含められるべきではないことが分かっているからである。この削除されるテキストに関する置き換えテキスト「<skip>」が図7に示されている。
コマンド番号BI12をもつコマンドは二度生じるべきでないので、補正者は更に、テキストセグメントTS4−TS6を削除されるテキストとしてマークすることができることを述べることができる。
削除されるテキストとしてテキストセグメントTS6を手動でマークすることは、リンク情報LIによって与えられる相関関係が例えば第2の補正装置4により実施される後続の同期再生モード中にも完全に保存され、それゆえ同期再生がいかなるエラーもなく行われるという利点を与える。
図8は、第1の例において作成者に最終的に伝えられる認識されたテキスト「....company PHILIPS....」を示しており、このテキストは、言いよどみサウンド、意図せずに話された1つのワード及び間違ったコマンドにもかかわらず作成者が本当に意味したものである。
第2の例において、作成者がマイクロフォン5に向かって話したいと思うテキストは「....I fixed the left leg....」であるが、このケースでは、作成者は、オーディオセグメントAS20ののち思案し、3秒間黙っている。これは、第1のマーキング段12によってポーズとして自動的に認識され、ポーズマーキング情報PMIとしてマーキングテーブルMTに入力される。図6には、思案のためのこのポーズに関する置き換えテキスト「<sil>」が示されている。
ポーズに続いて、作成者はワード「I」を反復し、これは、第1のマーキング段12によって反復されたワードとして自動的に認識され、反復マーキング情報RMIとしてマーキングテーブルMTに入力される。図6には、テキストセグメントTS22に関する置き換えテキスト「<rep>」が示されている。
反復されたワードに続いて、作成者は、「fixed the left」と言い、思案のために別のポーズをおき、最後に「the left leg」と言う。思案のためのポーズは、第1のマーキング段12によって再び自動的にマークされるが、ワード「the left」の反復は、自動的に認識されることができず、マークされることができない。ここで補正者は、テキストセグメントTS26−TS28を反復されたワードとして手動でマークし、こうして対応する反復マーキング情報RMIがマーキングテーブルMTに入力されるようにする。
図8は、第2の例において作成者に最終的に伝えられる認識されたテキスト「...the left leg...」を示しており、これは、反復されたワード及び思案のためのポーズにもかかわらず作成者が本当に意味したものである。自動マーキングに加えて実施された手動マーキングの結果として、すべての反復されたワードは、認識されたテキストにおいてマークされ、更なる処理では、それらは例えばすべてディスプレイ上で抑制され又は適応化モードのために使用されることができる。
第3の例において、作成者がマイクロフォン5に向かって言いたいテキストは、「...and company PHILIPS will...」であるが、作成者は、ワード「and」ののち、くしゃみをする必要がある。従って、オーディオセグメントAS51は、作成者がくしゃみをするときに発するノイズを含む。音声認識手段7は、このオーディオセグメントAS51についてワードを認識することができず、この理由で、第1のマーキング段12は、自動的に、このオーディオセグメントAS51をノイズマーキング情報GMIによりノイズとしてマークし、マーキングテーブルMTにそのように入力する。図6には、置き換えテキスト「<non sp>」が示されている。
くしゃみに続いて、作成者は、ハンカチを見つけるのに5秒かかり、それから鼻をかむ。オーディオセグメントAS52は、ポーズとして自動的にマークされ、マーキングテーブルMTにそのように入力される。作成者が鼻をかむときに発するノイズは、ノイズ「tata」に似ており、この理由で、音声認識手段7は、テキストセグメントTS53としてワード「that」を間違って認識する。
有利には、補正者は、同期再生モードが起動されるとこのエラーを直ちに認識し、テキストセグメントTS53をノイズマーキング情報GMIによりノイズとして手動でマークすることができる。これによって、第3の例において、認識されたテキストETにおけるすべてのノイズは実際にそのようにマークされ、これらはすべて、他の処理段階中に同じように処理されることが可能であるという利点が得られる。第1のマーキング段12のノイズ検出器は、例えば、テキストのこれらマークされた部分により適応化されることができ、それによってこのようなそのノイズは将来は自動的に認識されることができる。
第4の例において、作成者は、実際にディクテートしている間に、コマンドメモリ段10に名前「モジュールl」の下でテキストモジュールとして記憶されている標準テキストを、認識されたテキストETに挿入することを望む。この目的のため、作成者は、「...is the best. Insert text module one. All...」とディクテートする。認識されるテキストセグメントTS73−TS76は、コマンド番号BI13をもつコマンドとして認識され、図6には置き換えテキスト「<module 1>」が示されている。
これは、テキストモジュールが特に簡単なやり方で認識されたテキストETに自動的に挿入されたという利点を与える。有利には、補正者又は検査者は、このケースでは3種類の表示の中から選択することができる。補正者又は検査者は、実際に認識されたテキストであるテキストセグメントTS73−TS76、置き換えテキスト、又は図8に見られるコマンドメモリ段10から加えられる標準テキストを見ることができる。
第5の例において、作成者がマイクロフォン5に向かって話すテキストは、「...tenth of October two thousand and one...」である。第1のマーキング段12が自動的に認識し、日付としてマークしたワードシーケンスは、「October tenth two thousand and one」であった。しかしながら、話されたワードシーケンスは日付として認識されず、この理由のため、補正者は、テキストセグメントTS80−TS86を日付マーキング情報DMIにより日付としてマークする。
これは、認識されたテキストにおいて日付として自動的に又は手動でマークされたテキストのすべての部分のフォーマットが後続の処理動作において特に容易に且つ統一されたやり方で変更されることができるという利点を与える。このために、補正者は、例えば日付マーキング情報DMIによりマークされたすべての日付がフォーマット「MM.DD.YYYY」で示されることを選択することができる。
第1の補正装置3の適用例は図9を参照して説明される。この例において、補正者が同期再生モードを起動させ、そのとき、話されたテキストGT及び認識されたテキストETが同時に、オーディオセグメントAS1及びテキストセグメントTS1からそれぞれ始まって初めて再生されるものとする。これは、矢印P1によって記号的に表されている。補正者は、一度目の再生中、ポーズマーキング情報PMI、言いよどみサウンドマーキング情報HMI及びノイズマーキング情報GMIによりマークされるテキストの部分に対するオーディオセグメントが音響的に再生されないように再生手段13を構成した。これは、補正者が、話されたテキストGTを特に速く再生し、同じ時間により多くの認識されたテキストETを補正することを可能にする。
再生中、マーキングテーブルMTにおける再生マーキング情報WMIは連続的に更新される。オーディオセグメントAS53(作成者が鼻をかむ)がちょうど音響的に再生されており、テキストセグメントTS53が視覚的にマークされているとき、補正者は、ワード「that」が正しく認識されなかったことを知る。図9には、このときのテキストカーソルの位置がP2によって記号的に示されている。しかしながら、補正者は、何が本当に認識されるべきであったかを確信していないので、オーディオセグメントAS50から始まる同期再生モードを再び起動させる。これは、図9において矢印P3によって記号的に示されている。
再生手段13は、マーキングテーブルMTの第4行に入力された再生マーキング情報WMIから、オーディオセグメントAS1乃至AS53がすでに同期再生モードにおいて一度再生されたことを認識し、それゆえオーディオセグメントAS50乃至AS53のすべてを音響的に再生する。これは、図9において矢印P4によって記号的に示されている。マークされたテキスト(PMI、GMI、HMI)が音響再生中に再び抑制されるのは、オーディオセグメントS54の再生から始まるときだけである(矢印P5参照)。
これにより、補正者が、認識されたテキストETを正しく補正することを可能にするために利用できるすべてのマーキング情報を必要とするディクテーション中の節において、ディクテーションのすべてのオーディオセグメントASが再生されるという利点が与えられる。補正者が一度だけ聞くことによって補正することができる他の節においては、不必要なオーディオセグメントASが抑制される。
同様に、テキストのマークされた部分に関する置き換えテキストは、認識されたテキストETが初めて再生されるときに有利に表示されることができ、再生が繰り返されるときだけ、実際に認識されたテキストETへの切り替えが自動的に行われうる。
同期再生モードにおいてすでに一度再生されたテキストの部分の自動マーキングは更なる優れた利点をもつ。補正者が認識されたテキストETをどれくらいよく補正したかをランダムサンプリングによって決定するのは検査者の仕事である。再生マーキング情報WMIはこの点で検査者にとって非常に有用である。これは、補正者が同期再生モードの助けによりテキストのどの部分をチェックし、テキストのどの部分をスキップし、それゆえ全くチェックしなかったかを検査者が直ちに確認することができるからである。こうして検査者は、認識されたテキストETにエラーがあるかどうかを見るために、再生マーキング情報WMIによりマークされないテキストの部分を特別に調べることができる。
再生マーキング情報WMIは、補正者が自身の作業を中断され、あとからそれを続けたいと思う場合にも有利である。再生マーキング情報WMIによってフラグを立てられるテキストの音響的マーキング(例えば話されたテキストのバックグラウンドとしての連続トーン)又は視覚的マーキング(例えば反転文字で示される認識されたテキスト)の結果として、補正者は、直ちに自身の仕事を続けることができる。
第1の補正装置3は更に、同期再生モードが間違って認識されたワードを補正するために中断される場合、テキスト入力位置をマークするテキストカーソルが位置付けられることを可能にするために設けられる位置付け手段18を有する。位置付け手段18は、前記同期再生モードが中断されるとき認識されたテキストETにおいてマークされるワードのNワード手前にテキストカーソルを位置付ける。これは、認識されたテキストETのこの部分が、再生マーキング情報WMIによりすでにマークされている場合である。位置付け手段18はまた、同期再生モードが中断されるとき認識されたテキストETにおいてマークされるワードのMワード手前にテキストカーソルを位置付ける。これは、認識されたテキストETのこの部分が、再生マーキング情報WMIによりマークされていない場合である。
例えば、規定される数字は、M=3及びN=1でありえる。この結果として、間違って認識されたワードが認識されたテキストETにおいて初めて見つけられるとき、補正者のより長い応答時間が許される。これらの規定は、同期再生モードが一旦中断されると、テキストカーソルが通常、間違って認識されたワード上にすでに位置付けられており、テキストカーソルを手動で位置付けるために要する時間が節約されうるので、特に有利である。これは、当業者には明らかなM及びNの有利な値の多くの他の組み合わせを与える。
位置付け手段18が自己学習するように構成される場合は特に有利である。このケースでは、位置付け手段18は、同期再生モードが中断されたあと補正者によって為される位置付けエントリからN及びMに関する最適値を決定し(例えばテキストカーソルを2ワード先に又は5ワード後ろに置く)、それらの値を絶えずユーザの応答時間に適応化させる。
適応化段11は更に、パラメータメモリ手段9に記憶されたパラメータ情報PIを適応化させるために使用されることができる。これは、音声認識手段7の認識率が着実に改善され、認識されたテキストETに含まれるエラーはより少なくなるという利点を与える。
上述の適用例から分かるように、個々のオーディオセグメント又はテキストセグメントは、マーキング情報MIの1つ又は複数のアイテムによってマークされることができる。これは、認識されたテキストがいわゆるレベルにおいて有利な態様で処理されることを可能にする。この場合、コマンドに含まれる言いよどみサウンドは、例えば言いよどみサウンドとしてマークされる認識されたテキストETの他のすべての部分と同様に編集されることができる(例えば抑制され、削除され、置き換えテキストが表示され、認識されたテキストが表示される)。これは、言いよどみサウンドを含むコマンドの編集を妨げることもない。テキストの一部がマーキング情報MIの複数のアイテムによりマークされる場合、これらのレベルが光学的に表示されることも可能になる。
本発明によるテキストの自動及び手動マーキングは、マーキング情報MIの複数の異なるアイテムにより実行されることができることを述べることができる。この種のマーキング情報MIのアイテムは、例えば自動句読点(AutoPunctuation)、無音(Silence)、非音声(NonSpeech)、ノイズ、音楽、スペリング(Spelling)、言いよどみ(Hesitation)、挿入(Insertion)、数字形式(NumberFormatting)、日付形式(DateFormatting)、ヘッダ形式(HeaderFormatting)、列挙形式(EnumerationFormatting)、数量形式(QuantityFormatting)、自己補正(SelfCorrection)、フレーズ反復(PhraseRepetition)、どもり(Stutter)、散漫さ(Discursiveness)、スペリングシーケンス(SpellingSequence)、冗長フレーズ(RedundantPhrase)、不理解(NotUnderstood)、注釈(Remark)、削除、コマンドである。
テキストの一部のマーキングは、上述で説明されたようにテーブルによって実施されなくてもよく、代わりに木構造の形で行われてもよい。この場合、他のマークされたテキストセグメントを含むマークされたテキストセグメントは、木に似た形で枝の上に示される。
自動マーキングが、あとからではなく音声認識プロセスが実施されている間に行われることができることを述べることができる。
音声認識手段7によって困難を伴ってすなわちおそらく認識の多くのエラーを伴ってのみ認識されるテキストのすべての部分は、第1のマーキング段12によって自動的にマークされることができ、同期再生モードにおいて補正者によって困難なものとして認識されるテキストのすべての部分は手動でマークされることができ、それによって話されたテキストの検査者又は作成者にチェックの目的でテキストのこれらのマークされた部分に対する注意を喚起する。これは、認識されたテキストに関する情報を渡す特に有利なやり方である。
話されたテキストを認識されたテキストに転写するためのトランスクリプション装置を示し、認識されたテキストを補正するための補正装置が設けられることを示す図。 話されたテキストと、トランスクリプション装置によって認識された対応するテキストと、話されたテキストのそれぞれのオーディオセグメントに対する認識されたテキストの関連するセグメントにフラグを立てるリンク情報とを記号的な形式で示す図。 トランスクリプション装置のコマンドメモリ段に記憶されるコマンドテーブルを示す図。 トランスクリプション装置のメモリ手段に記憶されるマーキングテーブルを示す図。 トランスクリプション装置のユーザによって話されたテキストの5つの例を記号的な形式で示す図。 話されたテキストの5つの例についてトランスクリプション装置の音声認識手段によって認識されるテキストを記号的な形式で示し、認識されたテキストの一部が音声認識手段の第1のマーキング段によって自動的にマークされており、ユーザが第2のマーキング段により手動でテキストの他の部分をマークしていることを示す図。 5つの例についてトランスクリプション装置の補正装置によって表示されるテキストを記号的な形式で示し、認識されたテキストのうち自動的にマークされたテキスト及び手動でマークされたテキストの双方が置き換えテキストとして表示されることを示す図。 テキストのマークされた部分に関するすべての置き換えテキストが抑制されるとき、補正装置によって表示されるテキストを記号的な形式で示す図。 話されたテキスト及び認識されたテキストの一度目及び後続の二度目の同期再生中にテキストのどの部分が再生されるかを記号的な形式で示す図。

Claims (9)

  1. 話されたテキストから音声認識装置によって認識されたテキストを補正するための補正装置であって、前記話されたテキストのそれぞれの部分に関するリンク情報のアイテムが、関連する前記認識されたテキストを識別する補正装置であって、
    少なくとも前記話されたテキスト及び前記認識されたテキストを記憶するためのメモリ手段と、
    同期再生モードが前記補正装置において起動されるとき、前記話されたテキストを音響的に再生し、同時に、前記リンク情報のアイテムによって識別された前記関連する認識されたテキストを視覚的にマークするための再生手段と、
    前記認識されたテキスト及び/又は前記話されたテキストのうち前記同期再生モードが起動されたとき前記再生手段によって少なくとも一度再生された部分を識別するマーキング情報を前記メモリ手段に記憶するためのマーキング手段と、
    を有する補正装置。
  2. 前記再生手段は、前記同期再生モードが起動されるとき、前記話されたテキストの所望されない部分の音響再生を抑制するように構成され、前記所望されない部分は、前記メモリ手段に記憶された抑制情報によって識別される、請求項1に記載の補正装置。
  3. 前記抑制情報によって識別された前記話されたテキストの前記所望されない部分が、前記同期再生モードが起動されるとき、前記マーキング情報によっても識別される場合、前記再生手段は、前記所望されない部分を音響的に再生するように構成される、請求項2に記載の補正装置。
  4. 前記抑制情報によって識別された前記話されたテキストの前記所望されない部分は、前記話されたテキストにおけるポーズ、反復されたワード又は言いよどみサウンドによって形成される、請求項2に記載の補正装置。
  5. 前記再生手段は、前記認識されたテキストのうち前記マーキング情報により識別された部分を視覚的にマークするように構成される、請求項1に記載の補正装置。
  6. 前記同期再生モードが間違って認識されたワードを補正するために中断されるとき、テキスト入力位置を識別するテキストカーソルを位置付けるための位置付け手段が設けられ、前記位置付け手段は、前記認識されたテキストの当該部分が前記マーキング情報によって識別される場合、前記同期再生モードの中断時にマークされた前記認識されたテキストのワードよりNワード上流にテキストカーソルを位置付けるように構成されるとともに、前記認識されたテキストの当該部分がいかなる前記マーキング情報によっても識別されない場合、前記同期再生モードの中断時にマークされた前記認識されたテキストのワードのMワード上流にテキストカーソルを位置付けるように構成される、請求項1に記載の補正装置。
  7. メモリ手段と再生手段とマーキング手段とを有する補正装置で、話されたテキストから音声認識装置によって認識されたテキストを補正する方法であって、前記話されたテキストのそれぞれの部分に関するリンク情報のアイテムが、関連する前記認識されたテキストを識別する補正方法であって、
    前記メモリ手段により、少なくとも前記話されたテキスト及び前記認識されたテキストを記憶するステップと、
    前記再生手段により、同期再生モードが起動されるとき、前記話されたテキストを音響的に再生し、同時に、前記リンク情報によって識別された前記関連する認識されたテキストを視覚的にマークするステップと、
    前記マーキング手段により、前記認識されたテキスト及び/又は前記話されたテキストのうち前記同期再生モードが起動されたとき少なくとも一度再生された部分を識別するマーキング情報を記憶するステップと、
    を含む補正方法。
  8. 前記再生手段により、前記同期再生モードが起動されるとき、前記話されたテキストの所望されない部分の音響再生を抑制するステップを更に含み、前記所望されない部分は、記憶された抑制情報により識別される、請求項7に記載の補正方法。
  9. 前記再生手段により、前記話されたテキストの前記所望されない部分が前記マーキング情報により付加的に識別される場合、前記同期再生モードが起動されるとき、前記抑制情報によって識別された前記話されたテキストの前記所望されない部分を音響的に再生するステップを更に含む、請求項8に記載の補正方法。
JP2003537052A 2001-10-12 2002-10-10 認識されたテキストの一部をマークする補正装置 Expired - Fee Related JP4336580B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01000534 2001-10-12
PCT/IB2002/004178 WO2003034405A1 (en) 2001-10-12 2002-10-10 Correction device marking parts of a recognized text

Publications (2)

Publication Number Publication Date
JP2005505805A JP2005505805A (ja) 2005-02-24
JP4336580B2 true JP4336580B2 (ja) 2009-09-30

Family

ID=8176072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003537052A Expired - Fee Related JP4336580B2 (ja) 2001-10-12 2002-10-10 認識されたテキストの一部をマークする補正装置

Country Status (7)

Country Link
US (1) US6708148B2 (ja)
EP (1) EP1442452B1 (ja)
JP (1) JP4336580B2 (ja)
CN (1) CN1312612C (ja)
AT (1) ATE319161T1 (ja)
DE (1) DE60209518T2 (ja)
WO (1) WO2003034405A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999045475A2 (en) * 1998-03-03 1999-09-10 Koninklijke Philips Electronics N.V. Text processing system including a speech recognition device and text change means for changing a text-block data
DE10204924A1 (de) * 2002-02-07 2003-08-21 Philips Intellectual Property Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040021765A1 (en) * 2002-07-03 2004-02-05 Francis Kubala Speech recognition system for managing telemeetings
US20040024585A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Linguistic segmentation of speech
US20040138894A1 (en) * 2002-10-17 2004-07-15 Daniel Kiecza Speech transcription tool for efficient speech transcription
US8818793B1 (en) 2002-12-24 2014-08-26 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
US8849648B1 (en) * 2002-12-24 2014-09-30 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
US7263483B2 (en) * 2003-04-28 2007-08-28 Dictaphone Corporation USB dictation device
US8560327B2 (en) * 2005-08-26 2013-10-15 Nuance Communications, Inc. System and method for synchronizing sound and manually transcribed text
US20070067348A1 (en) * 2005-09-18 2007-03-22 Andreyev Dmitriy S Repeated Segment Manager
US20070094022A1 (en) * 2005-10-20 2007-04-26 Hahn Koo Method and device for recognizing human intent
US8036889B2 (en) * 2006-02-27 2011-10-11 Nuance Communications, Inc. Systems and methods for filtering dictated and non-dictated sections of documents
JP5167256B2 (ja) * 2006-06-22 2013-03-21 マルチモーダル・テクノロジーズ・エルエルシー コンピュータ実装方法
WO2008045690A2 (en) 2006-10-06 2008-04-17 Veveo, Inc. Linear character selection display interface for ambiguous text input
US20080313574A1 (en) * 2007-05-25 2008-12-18 Veveo, Inc. System and method for search with reduced physical interaction requirements
JP2009169139A (ja) * 2008-01-17 2009-07-30 Alpine Electronics Inc 音声認識装置
US8121842B2 (en) 2008-12-12 2012-02-21 Microsoft Corporation Audio output of a document from mobile device
CN105955503A (zh) * 2011-08-29 2016-09-21 王道平 一种修改文字的方法
KR20140008835A (ko) * 2012-07-12 2014-01-22 삼성전자주식회사 음성 인식 오류 수정 방법 및 이를 적용한 방송 수신 장치
JP2014240940A (ja) * 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
JP6417104B2 (ja) * 2014-04-16 2018-10-31 株式会社日立システムズ テキスト編集装置、テキスト編集方法、及びプログラム
CN105702252B (zh) * 2016-03-31 2019-09-17 海信集团有限公司 一种语音识别方法及装置
CN106710597B (zh) * 2017-01-04 2020-12-11 广东小天才科技有限公司 语音数据的录音方法及装置
US10229685B2 (en) 2017-01-18 2019-03-12 International Business Machines Corporation Symbol sequence estimation in speech
CN108364653B (zh) * 2018-02-12 2021-08-13 王磊 语音数据处理方法及处理装置
KR20210047173A (ko) * 2019-10-21 2021-04-29 엘지전자 주식회사 오인식된 단어를 바로잡아 음성을 인식하는 인공 지능 장치 및 그 방법
CN111460765B (zh) * 2020-03-30 2020-12-29 掌阅科技股份有限公司 电子书籍标注处理方法、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
JP2619962B2 (ja) * 1990-02-28 1997-06-11 株式会社日立製作所 図形編集方法および装置
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
KR100223300B1 (ko) * 1997-09-10 1999-10-15 서평원 분산 제어와 난블로킹 교환 시스템
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6360237B1 (en) * 1998-10-05 2002-03-19 Lernout & Hauspie Speech Products N.V. Method and system for performing text edits during audio recording playback
US6161087A (en) * 1998-10-05 2000-12-12 Lernout & Hauspie Speech Products N.V. Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
WO2001046853A1 (en) * 1999-12-20 2001-06-28 Koninklijke Philips Electronics N.V. Audio playback for text edition in a speech recognition system

Also Published As

Publication number Publication date
DE60209518D1 (de) 2006-04-27
EP1442452B1 (en) 2006-03-01
CN1312612C (zh) 2007-04-25
WO2003034405A1 (en) 2003-04-24
JP2005505805A (ja) 2005-02-24
US20030110030A1 (en) 2003-06-12
US6708148B2 (en) 2004-03-16
CN1568501A (zh) 2005-01-19
DE60209518T2 (de) 2006-08-24
ATE319161T1 (de) 2006-03-15
EP1442452A1 (en) 2004-08-04

Similar Documents

Publication Publication Date Title
JP4336580B2 (ja) 認識されたテキストの一部をマークする補正装置
JP2005505804A (ja) 認識されたテキストの一部をマークするための音声認識装置
US6161087A (en) Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
US7490039B1 (en) Text to speech system and method having interactive spelling capabilities
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
US8219397B2 (en) Data processing system for autonomously building speech identification and tagging data
US9396166B2 (en) System and method for structuring speech recognized text into a pre-selected document format
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US12099815B2 (en) Providing subtitle for video content in spoken language
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2001325250A (ja) 議事録作成装置および議事録作成方法および記録媒体
JP2009288523A (ja) 音声認識装置及びその方法
JP2007248750A (ja) 音声再生装置
CN116013303A (zh) 音频优化方法、装置、电子设备和存储介质
JP2015187733A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2008046373A (ja) 音声多重トラックコンテンツ作成装置及び音声多重トラックコンテンツ作成プログラム
JP2010081529A (ja) 表示制御装置、表示制御方法、及び表示制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090501

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090629

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees