JP2005505804A - 認識されたテキストの一部をマークするための音声認識装置 - Google Patents
認識されたテキストの一部をマークするための音声認識装置 Download PDFInfo
- Publication number
- JP2005505804A JP2005505804A JP2003537051A JP2003537051A JP2005505804A JP 2005505804 A JP2005505804 A JP 2005505804A JP 2003537051 A JP2003537051 A JP 2003537051A JP 2003537051 A JP2003537051 A JP 2003537051A JP 2005505804 A JP2005505804 A JP 2005505804A
- Authority
- JP
- Japan
- Prior art keywords
- text
- recognized
- marking
- spoken
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013518 transcription Methods 0.000 claims abstract description 53
- 230000035897 transcription Effects 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000001360 synchronised effect Effects 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 22
- 230000006978 adaptation Effects 0.000 claims description 13
- 230000003287 optical effect Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 description 26
- 230000005236 sound signal Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 208000003028 Stuttering Diseases 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
Description
【0001】
本発明は、話されたテキストを認識されたテキストに転写し、認識されたテキストの間違って認識された部分を編集するためのトランスクリプション装置であって、話されたテキストのそれぞれの部分に関するリンク情報が関連する認識されたテキストにフラグを立てる装置に関する。
【0002】
本発明は更に、話されたテキストを認識されたテキストに転写し、認識されたテキストの間違って認識された部分を編集するためのトランスクリプション方法であって、話されたテキストのそれぞれの部分に関するリンク情報が関連する認識されたテキストにフラグを立てる方法に関する。
【背景技術】
【0003】
この種のトランスクリプション装置及びこの種のトランスクリプション方法は米国特許第5,031,113号公報から既知であり、この公報にはディクテーティング装置が開示されている。既知のディクテーティング装置は、音声認識ソフトウェア及びテキスト処理ソフトウェアを走らせるコンピュータによって形成される。既知のディクテーティング装置のユーザは、コンピュータに接続されたマイクロフォンに向かって話されたテキストを話すことができる。トランスクリプション装置を形成する音声認識ソフトウェアは、トランスクリプション方法を実施し、その際、認識されたワードを話されたテキストのそれぞれの話されたワードに割り当てる。この結果、話されたテキストについて、認識されたテキストが得られる。更に、トランスクリプション方法の一部分として、話されたテキストのそれぞれの話されたワードについて認識された認識されたテキストのワードにフラグを立てるリンク情報が決定される。
【0004】
既知のディクテーション装置は更に、マーキング情報を自動的に決定し記憶するためのマーキング手段を有する。認識されたテキストのうち1つ又は複数のワードは、例えばこのケースではコマンドとして認識されることができ、このコマンドは、例えば認識されたテキストをフォーマットする際に実行されうる。こうして、認識されたテキストにおけるワードのシーケンス(以後、ワードシーケンスと呼ぶ)「...next word bold...」は、認識されたテキストにおける後続のワードをフォーマットするためのコマンドとして解釈されることができる。これらの既知のマーキング手段は、共通の特性をもつ認識されたテキストにおけるワードシーケンスをマークするコマンドマーキング情報を自動的に決定し記憶するように構成されており、これによって、このようなワードシーケンスは、認識されたテキストのワードをフォーマットするためのコマンドとして使用されることができる。
【0005】
既知のディクテーション装置は更に、テキスト処理ソフトウェアを走らせ、こうして補正装置を形成し、この補正装置により、間違って認識されたワードが編集されることができる。この目的で、補正装置のユーザは、補正装置の同期再生モードを起動させることができ、同期再生モードにおいて、話されたテキストが音響的に再生され、これと同時に、リンク情報によってフラグを立てられた認識されたテキストのワードが、視覚的に強調される(すなわちマークされる)。同期再生モードは、実際には、音声認識装置により認識されたテキストの補正に特に有利なことがわかった。
【発明の開示】
【発明が解決しようとする課題】
【0006】
実際には、多くのユーザにとってコマンドのための正しいワードシーケンスを覚えることが困難であることが分かった。従ってユーザは、例えば「...next word should be bold...」と言うが、マーキング手段はこのワードシーケンスをコマンドとして認識せず、それゆえそれをマークしない。従って、ユーザは、この認識されたテキストを補正するとき、認識されたテキストからそのようなワードシーケンス全体を削除し、そのシーケンスのあとに続くワードを手動でフォーマットしなければならず、これは非常に時間がかかる。更に同期再生モードに関連して生じる不利益がある。すなわち、認識されたテキストがこのようにして補正されたのち、認識されたテキストから削除されたこのワードシーケンスの話されたテキストに関するリンク情報が、認識されたテキストにおける間違ったワードを指すか又はその中のいかなるワードも指さないかのいずれかであり、これは、後続の同期再生においてエラーを生じさせ、ユーザを混乱させる。
【0007】
本発明の目的は、上述の不利益が回避されるような上述の第1の段落に規定される種類のトランスクリプション装置及び上述の第2の段落に規定される種類のトランスクリプション方法を提供することである。
【課題を解決するための手段】
【0008】
この目的を達成するため、本発明による特徴は、この種のトランスクリプション装置において提供され、このようなトランスクリプション装置は、以下に記述される態様において特徴付けられることができる。
【0009】
話されたテキストを認識されたテキストに転写し、認識されたテキストの間違って認識された部分を編集するためのトランスクリプション装置であって、話されたテキストのそれぞれの部分に関するリンク情報が関連する認識されたテキストにフラグを立て、前記トランスクリプション装置は、受け取られた話されたテキストを認識されたテキストに転写し、リンク情報を生成するための音声認識手段と、話されたテキスト、認識されたテキスト及びリンク情報を記憶するためのメモリ手段と、認識されたテキスト及び/又は話されたテキストのうち、該テキストのすべてのマークされた部分に共通する特定の特性をもつ部分にフラグを立てるマーキング情報を自動的に決定し、決定された該マーキング情報をメモリ手段に記憶するためのマーキング手段であって、認識された又は話されたテキストのうちこの共通の特性をもつ他の部分が、このマーキング情報によりマークされることを可能にするために、マーキング情報を手動で入力するための入力手段を有するマーキング手段と、テキストのマークされた部分を統一的に処理するための処理手段とを有する。
【0010】
上述の目的を達成するため、本発明による特徴は、上述の種類のトランスクリプション方法において提供され、このようなトランスクリプション方法は、以下に記述される態様において特徴付けられることができる。
【0011】
話されたテキストを認識されたテキストに転写し、認識されたテキストの間違って認識された部分を編集するためのトランスクリプション方法において、話されたテキストのそれぞれの部分に関するリンク情報が関連する認識されたテキストにフラグを立て、受け取られた話されたテキストを認識されたテキストに転写し、リンク情報を生成するステップと、話されたテキスト、認識されたテキスト及びリンク情報を記憶するステップと、マーキング情報を自動的に決定し、決定されたマーキング情報を記憶するステップであって、該マーキング情報が、認識されたテキスト及び/又は話されたテキストのうち該テキストのすべてのマークされた部分に共通する特定の特性をもつ部分にフラグを立てるものである、ステップと、認識された又は話されたテキストのうちこの共通の特性をもつ他の部分がこのマーキング情報によりマークされることを可能にするためにマーキング情報を手動で入力するステップと、テキストのマークされた部分を統一的に処理するステップとが実施される。
【0012】
本発明による特徴は、ユーザが、認識されたテキスト及び/又は話されたテキストの一部を、認識されたテキストの特定の他の部分が以前に自動的にマークされたことがありうる同じマーキング情報により手動でマークすることができるようにする。後続の処理動作において、テキストのうち共通の特性をもつこれらの自動的に又は手動でマークされた部分は、処理手段により統一されたやり方で処理されることができる。テキストのマークされた部分の共通の特性は、このケースでは例えば以下のが挙げられる。認識されたテキストにおけるマークされたワードのシーケンスはコマンドに割り当てられ又はヘッダとしてフラグを立てられる。認識されたテキストのマークされた部分は、リンク情報によって、言いよどみサウンド、ポーズ、話されたテキストの不明瞭な部分、又は繰り返されたワードのようなテキストの冗長な部分を含む話されたテキストの部分に割り当てられる。
【0013】
その結果として、テキストのすでに自動的にマークされた部分は、手動マーキングにより補足されることができ、それによって話されたテキスト及び/又は認識されたテキストのうち特定の特性をもつすべてのマークされた部分が、後続の処理動作において統一されたやり方で処理されることができるという利点が得られる。こうして、例えば、テキストのうち音声認識手段によって困難を伴って、すなわちおそらく認識の多くのエラーを伴って認識されるの部分のすべて及びテキストのうち同期再生モードにおいて補正者によって困難なものとして手動で認識される部分のすべては、話されたテキストの作者をチェックの目的でテキストのこれらのマークされた部分に注目させるために、統一されたやり方でマークされることができる。同様に、マーキング手段がコマンドが割り当てられているワードシーケンスを自動的にマークするためにすでに使用したのと同じコマンドマーキング情報により、異なるワードシーケンスがマークされることができる。この結果、そのコマンドは、テキストのこれらの手動でマークされた部分にも割り当てられる。
【0014】
請求項2の規定は、テキストの自動的に及び手動でマークされた部分がパラメータ適応化のために評価されることができ、このパラメータ適合化によって、認識されたテキストの品質が改善されることができるという利点を与える。更に、認識されたテキストにおけるワードシーケンスは、手動マーキングによってコマンドマーキング情報を用いてコマンドに割り当てられることができ、このようなワードシーケンスは、適合化中にマーキング手段においてコマンドの組に加えられ、次回は自動的にマークされる。
【0015】
請求項3及び請求項10の規定は、例えばテキストのうち言いよどみサウンドとして自動的に及び手動でマークされた部分のすべてが、同期再生モードにおいて音響的に再生されるわけではなく、認識されたテキストの光学的な再生中は隠されるという利点を与える。その結果、音響再生中の時間が節約されるとともに、ユーザは認識されたテキストの重要な部分に集中できるので、認識されたテキストは、より一層効率的に補正されることができる。
【0016】
請求項4及び請求項11の規定は、認識されたテキスト及び/又は話されたテキストのうち同期再生モードが起動されたとき少なくとも一度音響的に再生され視覚的にマークされた部分が、マーキング手段によって再生マーキング情報を用いて自動的にマークされるという利点を与える。補正をより容易にするため、トランスクリプション装置は、有利には、テキストのうち再生マーキング情報によりすでにマークされた部分の同期再生中に、例えば言いよどみサウンド及び反復されたワードのすべてを音響的に再生することができる。その結果、本発明による補正装置のユーザは、認識されたテキストをより一層効率的に補正することができる。
【0017】
請求項5の規定は、認識されたテキストにおいて、テキストのうち抑制されているマークされた部分が位置するところに置き換えテキストが表示されるという利点を与える。この置き換え情報がテキストのうち抑制されたマークされた部分の特性にフラグを立てる場合は特に有利である。
【0018】
請求項6の規定は、ユーザが、そのときにより有利であるような認識されたテキストの表示の態様を簡単なやり方で選択できるという利点を与える。
【0019】
請求項7の規定は、テキストモジュールを表示する他の有利な態様に切り替えることが可能であるという利点を与える。
【0020】
請求項8及び請求項12の規定は、テキストのうち複数の特性をもつ部分は、マーキング情報の適当な異なるアイテムによりマークされることができるという利点をもつ。テキストの一部は、例えばヘッダとしてマークされるとともに、言いよどみサウンドを含むことができる。この場合、言いよどみサウンドは、ヘッダマーキング情報と、言いよどみサウンドマーキング情報との双方によりマークされ、こうして話された及び認識されたテキストにおけるヘッダの後続の編集中及びこれらのテキストにおける言いよどみサウンドの編集中に編集される。
【発明を実施するための最良の形態】
【0021】
本発明は、1つの実施例を示す図面を参照してより詳しく記述されるが、本発明はこれに限定されない。
【0022】
図1は、話されたテキストGTを認識されたテキストETに転写し、認識されたテキストETのうち正しく認識されなかった部分を編集するためのトランスクリプション装置1を示している。トランスクリプション装置1は、第1のコンピュータによって並びに第2及び第3のコンピュータによって形成される。第1のコンピュータは、音声認識ソフトウェアを走らせ、音声認識装置2を形成する。第2及び第3のコンピュータはそれぞれテキスト処理ソフトウェアを走らせ、テキストの正しく認識されなかった部分を補正するために第1の補正装置3及び第2の補正装置4を形成する。本発明によるトランスクリプション装置は、音声認識装置及び補正装置の双方を形成するただ1つのコンピュータによって形成されることもできることを述べることができる。そのようなコンピュータは、音声認識ソフトウェア及びテキスト処理ソフトウェアの双方を走らせる必要がある。
【0023】
音声認識装置2を形成する第1のコンピュータにはマイクロフォン5が接続され、話されたテキストGTを表すオーディオ信号Aはマイクロフォン5から送り出されることができる。音声認識装置2は、A/Dコンバータ6、音声認識手段7、メモリ手段8、パラメータメモリ手段9、コマンドメモリ手段10及び適応化段11を有する。マイクロフォン5によって送り出されるオーディオ信号AはA/Dコンバータ6に供給されることができ、A/Dコンバータ6はオーディオ信号AをデジタルオーディオデータADに変換する。
【0024】
話されたテキストGTを表すオーディオデータADは音声認識手段7に供給されることができ、それによってメモリ手段8に記憶されることができる。音声認識プロセスが音声認識手段7によって実施されているとき、音声認識手段7は、認識されたテキストETを決定し、その際、パラメータメモリ手段9に記憶されているパラメータ情報PIが考慮に入れられる。パラメータ情報PIは、この例ではボキャブラリ情報、言語モデル情報及び音響情報を含む。
【0025】
ボキャブラリ情報は、音声認識手段7によって認識されることができるすべてのワードと、関連する音素シーケンスとを含む。言語モデル情報は、話されたテキストGTの言語において通常使用されるワードシーケンスに関する統計情報を含む。音響情報は、トランスクリプション装置1のユーザの発音の特徴に関する情報と、マイクロフォン5及びA/Dコンバータ6の音響特性に関する情報とを含む。
【0026】
米国特許第5,031,113号公報の開示は、参照によって本発明の開示に盛り込まれるものとする。この種のパラメータ情報PIを考慮した音声認識プロセスの実施は、前述の米国特許公報に開示されているので、その詳細な記述はここに示されない。音声認識プロセスの結果として、認識されたテキストETを含むテキストデータが音声認識手段7によってメモリ手段8に記憶されることができる。
【0027】
音声認識プロセスの実施中、話されたテキストGTのそれぞれの部分について音声認識手段7によって認識される関連するテキストETにフラグを立てるリンク情報LIもまた、音声認識手段7によって決定されることができる。リンク情報LIの生成は、米国特許第5,031,113号公報に同様に開示されており、この理由のためここに詳細に記述されない。
【0028】
図2において、作成者(author、話者)すなわち音声認識装置2のユーザによってマイクロフォン5に向かって話されたテキストGTが、時間軸tに沿って記号的な形式で図示されている。この話されたテキストGTについて音声認識手段7によって認識されたテキストETも図示されている。音声認識プロセスが実施されているとき、話されたテキストGTは、関連する音響情報を含むオーディオセグメントASに分割される。この種の関連する音響情報は、例えばワード、2つのワード間の長めの音声ポーズ、「あー(aah)」又は「んー(mm)」のようないわゆる言いよどみサウンド、又はノイズでありうる。
【0029】
リンク情報LIは、話されたテキストGTのそれぞれのオーディオセグメントAS及び認識されたテキストETの関連するセグメントTSの始め及び終わりにフラグを立てる。第1のオーディオセグメントAS1は、例えば話されたテキストGTの第1のワード「The」について1.5秒間つづく音響情報を含み、リンク情報LIによって割り当てられる第1のテキストセグメントTS1は、音声認識手段7によって認識されたワード「The」のテキストを含む。
【0030】
コマンドメモリ段10は、音声認識装置2によって認識されるワードシーケンスをコマンドとして記憶する。コマンドメモリ段10に記憶されるコマンドテーブルBTの一部が図3に示されている。コマンドテーブルBTを参照することにより、音声認識手段7は、「next word bold」なるワードシーケンスを、例えば認識されたテキストETにおける次のワードがボールド体で示されるようにするためのコマンドとして認識する。コマンドテーブルBTにおいて、このコマンドにはコマンド番号BI12が割り当てられる。「insert text of module 1」なるワードシーケンスは、同様に、このケースではコマンドメモリ段10の位置「2341」のメモリ位置に記憶されたテキストモジュールから標準テキストが認識されたテキストETに挿入されるようにするためのコマンドとして認識される。
【0031】
音声認識手段7は第1のマーキング段12を更に有し、この第1のマーキング段12は、マーキング情報MIのさまざまな異なるアイテムを自動的に決定し、そのように決定されたマーキング情報MIのアイテムをメモリ手段8に記憶するように構成される。マーキング情報MIのアイテムは、認識されたテキストET及び話されたテキストGTのうち、テキストのそのようにマークされた部分すべてに共通する特定の特性を有する部分にフラグを立てる。「自動的」なる語は、「トランスクリプション装置1のユーザによるいかなるアクションもなしで」という意味としてこのコンテキストにおいて理解されるべきである。第1のマーキング段12は、ポーズマーキング情報PMIによって長めの音声ポーズを、言いよどみサウンドマーキング情報HMIによって言いよどみサウンドを、コマンドマーキング情報CMIによってコマンドを、反復マーキング情報RMIによって反復されたワードを、日付マーキング情報DMIによって日付を、ノイズマーキング情報GMIによってノイズを、自動的にマークするように構成される。
【0032】
図4は、メモリ手段8に記憶されるマーキングテーブルMTを示しており、マーキングテーブルMTには、第1のマーキング段12によって自動的に決定されたマーキング情報MIのアイテムが第1のマーキング段12によって入力される。認識されたテキストETにおけるコマンドを自動的にマークするために、第1のマーキング段12は、コマンドテーブルBTに含まれるワードシーケンスを、認識されたテキストETに含まれるワードシーケンスと比較する。コマンドテーブルBTに含まれるワードシーケンスが認識されたテキストETに見つけられると、第1のマーキング段12は、このワードシーケンスを識別する認識されたテキストETのテキストセグメントTSと、関連するコマンド番号BIとを、マーキングテーブルMTにコマンドマーキング情報CMIとして入力する。これは、適用例を参照して以下により詳しく記述される。
【0033】
マーキングテーブルMTにおいて認識されたテキストETの特定のテキストセグメントTSを識別するのではなく、話されたテキストGTの適当なオーディオセグメントASがそれぞれのケースにおいて入力されることも可能であることを述べることができる。それぞれのケースにおいて関連付けられるオーディオセグメントAS及びテキストセグメントTSは、リンク情報LIの助けによって決定されることができる。
【0034】
音声認識手段7は、2つのワード間の音声ポーズ(無音)を認識するように構成され、第1のマーキング段12は、マーキングテーブルMTにおいて話されたテキストGTの対応するオーディオセグメントASをポーズマーキング情報PMIにより自動的にマークするように構成される。
【0035】
第1のマーキング段12は、第1のマーキング段12に記憶された言いよどみサウンド(例えば「あー(aah)」又は「んー(mhh)」)を、認識されたテキストETに含まれるワードと比較し、このような言いよどみサウンドを含む認識されたテキストETのテキストセグメントTSを言いよどみサウンドマーキング情報ZMIにより自動的にマークするように構成される。
【0036】
第1のマーキング段12は更に、話されたテキストGTのオーディオセグメントASがノイズ及び/又はサウンドを含む場合、話されたテキストGTのこれらオーディオセグメントASをノイズマーキング情報GMIにより自動的にマークするように構成される。この目的のため、マーキング段12は、ノイズ及び/又はサウンドを、ワードを含むオーディオセグメントと区別することができるノイズ検出器を有する。
【0037】
認識されたテキストETにおける反復されたワードを反復マーキング情報RMIによりマークするために、第1のマーキング段12は、認識されたテキストETにおいて次々と続くワード又はワードシーケンスを比較するように構成される。マーキングテーブルMTは更に、適用例を参照してより詳しく以下に示される日付マーキング情報DMIを含む。
【0038】
トランスクリプション装置1の第1の補正装置3は再生手段13を有し、再生手段13は、メモリ手段8及びコマンドメモリ段10と共に、テキスト処理ソフトウェアを走らせる第2のコンピュータによって形成される。更に第2のコンピュータには、モニタ14、キーボード15及びスピーカ16が接続され、これらは、第1の補正装置3にも同様に関連付けられる。再生手段13は、同期再生モードが第1の補正装置3において起動されるとき、話されたテキストGTを音響的に再生し、同時に、リンク情報LIによってフラグを立てられる関連する認識されたテキストETを視覚的又は光学的にマークするように構成される。
【0039】
起動された同期再生モードにおける認識されたテキストETの補正は再び米国特許第5,031,113号公報に開示されており、実際に非常に有利であることがわかった。このケースでは、補正者すなわち認識されたテキストETを補正している第1の補正装置3のユーザは、作成者によってマイクロフォン5に向かって話されたテキストGTを聞くことと、その話されたテキストGTについて音声認識手段7によって認識されたテキストETをチェックし又は編集することが同時に可能である。認識されたテキストETは、モニタ14上に光学的に表示され、ちょうど音響的に再生された話されたワードについて音声認識手段7によって認識されたワードは、再生手段13によって光学的にマークされ、それゆえモニタ14に表示される。補正者は、同期再生モードを起動させ、中断し、停止させることができるとともに、認識されたテキストETをキーボード15を用いて編集することができる。
【0040】
第2の補正装置4の構造は、図1に詳しく示された第1の補正装置3の構造とほぼ同じであり、この理由で、第2の補正装置4は、図1に単にブロックとして図示されている。しかしながら、第2の補正装置4は、音声認識装置2とは物理的に異なる。この理由で、第2の補正装置4は更に、第1の補正装置3により補正された認識されたテキストETが編集される前に、メモリ手段8及びコマンドメモリ段10に記憶された情報が記憶されるメモリ手段及びコマンドメモリ手段を有する。
【0041】
第2の補正装置4は、例えば検査者、すなわち第2の補正装置4のユーザによって使用されることができる。検査者は、メモリ手段8に記憶された認識されたテキストETが補正者によって補正されたのち、補正者によってなされた作業の品質をチェックする。この目的のため、検査者は、認識されたテキストETにおけるエラーを補正者が見逃がしたかどうかチェックする。このような検査者は主にトランスクリプション会社によって雇われており、そのような会社は、補正された認識されたテキストをランダムにチェックすることによって転写されたテキストの品質を保証する。これは、トランスクリプション装置1の適用例を参照して詳しく記述される。
【0042】
トランスクリプション装置1の再生手段13は、第2のマーキング段17を更に有し、この第2のマーキング段17は、キーボード15及び第1のマーキング段12と共に、話されたテキストGT又は認識されたテキストETの一部を自動的に及び手動でマークするためのマーキング手段を形成する。第2のマーキング段17により、補正者は、認識されたテキストETを補正する際、自動的にマークされなかったテキストの他の部分を手動でマークする機会をもつ。
【0043】
テキストの一部のこの手動マーキングは、すでに自動的にマークされたテキストの部分と同じ特性をもつ認識されたテキストETの部分を手動でマークするために使用されることができ、これによりパラメータ情報PI又はコマンドテーブルBTに記憶された情報が、適応化段11の助けにより適応化されることを可能にする。この適応化により、第1のマーキング段12は、手動でマークされたテキストの部分を次回は自動的にマークすることができるようになる。加えて、音声認識装置2の認識率が、それぞれの適応化ごとに改善される。その結果、トランスクリプション装置は、それぞれの更なる使用により、補正者が果たさなければならない作業をますます低減することができるという利点が得られる。
【0044】
テキストの一部のこの手動のマーキングは、テキストの一部を削除されるものとしてマークするために使用されることもできる。このようなテキストの一部は、作成者に伝えられる認識されたテキストには現れないが、それにもかかわらず全面的に削除されるわけではない。テキストの一部を削除されるものとしてマークすることは、テキストのこのような部分が必要に応じて後になって認識されたテキストに再び含められることができるとともに、検査者がテキストのこれらの部分が削除されることが正しかったかどうかチェックすることができるという利点をもつ。しかしながら、認識されたテキストETのどの部分も実際には削除されていないので、話されたテキストGTと認識されたテキストETとの間のリンク情報LIによって提供される関係はまったく損なわれないままであることは特に有利である。それゆえ、同期再生モードが起動されるとき、削除されるものとしてマークされた話されたテキストGTの部分が音響的に再生されている間に、テキストの削除される部分に代わって置き換えテキストが光学的にマークされることができる。これについては以下に詳しく記述される。
【0045】
こうして同じ特性を持つテキストの部分の手動マーキングによりテキストの一部の自動マーキングを補足することは、編集された認識されたテキストETが特に効率的なやり方で更に編集されることができるという他の利点をもつ。こうして、例えば、認識されたテキストのうち日付としてマークされたすべての部分のフォーマッティングは特に効率的に一様に修正されることができる。これについては、以下に詳しく記述される。
【0046】
マーキング手段の第2のマーキング段17は更に、メモリ手段8に再生マーキング情報WMIを記憶するように構成される。この再生マーキング情報WMIは、起動された同期再生モード中に再生手段13によって少なくとも一度再生された認識されたテキストET及び/又は話されたテキストGTの部分にフラグを立てる。
【0047】
この結果、マーキングテーブルMTに含まれる再生マーキング情報WMIを評価することによって、再生手段13は、認識されたテキストETのうち同期再生モードの助けにより一度すでに補正された部分を視覚的にマークし、又は話されたテキストGTの関連する部分を音響的にマークすることができるという利点が得られる。その結果、本発明による補正装置のユーザは、認識されたテキストをより一層効率的に補正することができる。これについては適用例を参照して以下に詳しく記述される。
【0048】
再生手段13は更に、同期再生モードが起動されるとき、話されたテキストGTの所望されない部分の音響再生を抑制するように構成される。このような所望されない部分は、メモリ手段8に記憶された抑制情報によってフラグを立てられる。この場合、補正者は、キーボード15を使用して、マーキングテーブルMTに含まれるマーキング情報MIのどのアイテムが抑制情報として使用されるべきかを設定することができる。ユーザは、例えばポーズマーキング情報PMI及び言いよどみサウンドマーキング情報HMIを抑制情報として選択することができ、そのようにマークされたテキストの部分は、話されたテキストGTが初めて再生されるときに抑制される。これについては適用例を参照して詳しく記述される。
【0049】
以下、トランスクリプション装置1の利点について図3乃至図9に示される適用例を参照して詳しく説明される。図5は、作成者によってマイクロフォン5に向かって話されたテキストGTの5つの部分を示している。図6は、話されたテキストGTの5つの部分について音声認識手段7によって認識されたテキストETを示しており、ここで、認識されたテキストETの一部はすでに第1のマーキング段12によって自動的にマークされている。更に図6には、第2のマーキング段17の助けにより補正者によって手動でマークされたテキストの部分が示されている。図7は、テキストの自動的に及び手動でマークされた部分が置き換えテキストと置き換えられて示されている形式で、認識されたテキストETを示している。図8は、テキストのすべてのマークされた部分が抑制された形式で、認識されたテキストETを示しており、認識されたテキストETはこの形式で作成者に伝えられる。
【0050】
第1の例において、作成者は、マイクロフォンに向かってテキスト「...company PHILIPS....」と言い、同時に、ワード「PHILIPS」をボールド体としてマークすること望んだ。しかしながら、ワード「company」ののち、作成者は、ボールドフォーマッティング用のコマンドのための言い方は正確にはどんなであるかを少しの間思案し、多くの作成者と同じように、思案するときに言いよどみサウンド「aah」を発する。作成者はそれから「bold next」と言うが、そのように言うとき、このコマンドのための正しいワードシーケンスが「next word bold」であることに気づき、このため「no」と言う。作成者はそれから正しいコマンド「next word bold」と言い、ワード「PHILIPS」とテキストを続ける。
【0051】
図6から分かるように、音声認識手段7は、オーディオセグメントAS3についてテキストセグメントTS3=「aah」を認識し、マーキングテーブルMTの第4行において、第1のマーキング段12は、この言いよどみサウンドを言いよどみサウンドマーキング情報HMIにより自動的にマークする。言いよどみサウンドの代わりに、図6には置き換えテキスト「<hes>」が示されており、これにより、補正者は、言いよどみサウンドがこの点でマークされていることを見ることができる。補正者が、認識されたテキストETを編集する際にこの置き換えテキスト上に再生手段13のテキストカーソルを位置付ける場合、音声認識手段7によって認識された言いよどみサウンドが表示される。この結果、補正者は、補正する際に認識されたテキストETの重要な部分に集中することができるが、補正者は、言いよどみサウンドに隣接するワードを補正することができるようにするため作成者がここでどんな言いよどみサウンドを発したかを知りたいと思う場合、補正者は、この言いよどみサウンドをいかなるときにも見ることができるという利点が得られる。
【0052】
更に、音声認識手段7は、オーディオセグメントAS7−AS9について、テキストセグメントTS7−TS9によって形成されるワードシーケンス「next word bold」を認識し、これらのテキストセグメントTS7−TS9に対して、コマンドテーブルBTにおいてコマンド番号BI12をもつコマンドが割り当てられる。有利には、第1のマーキング段12は、これらのテキストセグメント及びこのコマンド番号を、マーキングテーブルMTの第4行にコマンドマーキング情報CMIとして自動的に入力する。図6にはこれらのテキストセグメントの代わりに置き換えテキスト「<com>」が図示されており、この結果として前述の利点が得られる。更に、コマンドBI12が実行され、オーディオセグメントAS10について認識されたテキストセグメントTS10を形成するワード「PHILIPS」がボールド体で表示される。
【0053】
補正者は、キーボード15及び第2のマーキング段17を使用して、テキストセグメントTS4及びTS5をコマンド番号BI12をもつコマンドとしてマークし、これによって、ワードシーケンス「bold next」は、次回、第1のマーキング段12によってコマンドとして自動的に認識される。図7において、テキストのこの部分は、コマンドに関する置き換えテキスト「<com>」によって同様に表わされている。
【0054】
第2のマーキング段17は、コマンド番号BI12を使用して、このワードシーケンスTS4+TS5をコマンドマーキング情報CMIとしてマーキングテーブルMTの第5行に入力する。適応化モードが音声認識装置2において起動されると、適応化段11は、メモリ手段8から新しいコマンドマーキング情報CMIを読み取り、コマンド番号BI12をもつコマンドについてコマンドテーブルBTに更なるエントリを設ける。
【0055】
これは、補正者が特に容易に且つ効率的に他のワードシーケンスをコマンドとして規定することができ、このようなワードシーケンスが適応化モードにおいて音声認識装置2によって引き継がれるという利点を与える。こうして、音声認識プロセスが次に実施されるとき、ワードシーケンス「bold next」はコマンドとして自動的に認識される。
【0056】
補正者は、キーボード15及び第2のマーキング段17によって、テキストセグメントTS6「no」を削除されるテキストとしてマークすることを続ける。補正者は、作成者がこのワードを意図せずに言い、これが作成者に伝えられる最終のテキストに含められるべきではないことが分かっているからである。この削除されるテキストに関する置き換えテキスト「<skip>」が図7に示されている。
【0057】
コマンド番号BI12をもつコマンドは二度生じるべきでないので、補正者は更に、テキストセグメントTS4−TS6を削除されるテキストとしてマークすることができることを述べることができる。
【0058】
削除されるテキストとしてテキストセグメントTS6を手動でマークすることは、リンク情報LIによって与えられる相関関係が例えば第2の補正装置4により実施される後続の同期再生モード中にも完全に保存され、それゆえ同期再生がいかなるエラーもなく行われるという利点を与える。
【0059】
図8は、第1の例において作成者に最終的に伝えられる認識されたテキスト「....company PHILIPS....」を示しており、このテキストは、言いよどみサウンド、意図せずに話された1つのワード及び間違ったコマンドにもかかわらず作成者が本当に意味したものである。
【0060】
第2の例において、作成者がマイクロフォン5に向かって話したいと思うテキストは「....I fixed the left leg....」であるが、このケースでは、作成者は、オーディオセグメントAS20ののち思案し、3秒間黙っている。これは、第1のマーキング段12によってポーズとして自動的に認識され、ポーズマーキング情報PMIとしてマーキングテーブルMTに入力される。図6には、思案のためのこのポーズに関する置き換えテキスト「<sil>」が示されている。
【0061】
ポーズに続いて、作成者はワード「I」を反復し、これは、第1のマーキング段12によって反復されたワードとして自動的に認識され、反復マーキング情報RMIとしてマーキングテーブルMTに入力される。図6には、テキストセグメントTS22に関する置き換えテキスト「<rep>」が示されている。
【0062】
反復されたワードに続いて、作成者は、「fixed the left」と言い、思案のために別のポーズをおき、最後に「the left leg」と言う。思案のためのポーズは、第1のマーキング段12によって再び自動的にマークされるが、ワード「the left」の反復は、自動的に認識されることができず、マークされることができない。ここで補正者は、テキストセグメントTS26−TS28を反復されたワードとして手動でマークし、こうして対応する反復マーキング情報RMIがマーキングテーブルMTに入力されるようにする。
【0063】
図8は、第2の例において作成者に最終的に伝えられる認識されたテキスト「...the left leg...」を示しており、これは、反復されたワード及び思案のためのポーズにもかかわらず作成者が本当に意味したものである。自動マーキングに加えて実施された手動マーキングの結果として、すべての反復されたワードは、認識されたテキストにおいてマークされ、更なる処理では、それらは例えばすべてディスプレイ上で抑制され又は適応化モードのために使用されることができる。
【0064】
第3の例において、作成者がマイクロフォン5に向かって言いたいテキストは、「...and company PHILIPS will...」であるが、作成者は、ワード「and」ののち、くしゃみをする必要がある。従って、オーディオセグメントAS51は、作成者がくしゃみをするときに発するノイズを含む。音声認識手段7は、このオーディオセグメントAS51についてワードを認識することができず、この理由で、第1のマーキング段12は、自動的に、このオーディオセグメントAS51をノイズマーキング情報GMIによりノイズとしてマークし、マーキングテーブルMTにそのように入力する。図6には、置き換えテキスト「<non sp>」が示されている。
【0065】
くしゃみに続いて、作成者は、ハンカチを見つけるのに5秒かかり、それから鼻をかむ。オーディオセグメントAS52は、ポーズとして自動的にマークされ、マーキングテーブルMTにそのように入力される。作成者が鼻をかむときに発するノイズは、ノイズ「tata」に似ており、この理由で、音声認識手段7は、テキストセグメントTS53としてワード「that」を間違って認識する。
【0066】
有利には、補正者は、同期再生モードが起動されるとこのエラーを直ちに認識し、テキストセグメントTS53をノイズマーキング情報GMIによりノイズとして手動でマークすることができる。これによって、第3の例において、認識されたテキストETにおけるすべてのノイズは実際にそのようにマークされ、これらはすべて、他の処理段階中に同じように処理されることが可能であるという利点が得られる。第1のマーキング段12のノイズ検出器は、例えば、テキストのこれらマークされた部分により適応化されることができ、それによってこのようなそのノイズは将来は自動的に認識されることができる。
【0067】
第4の例において、作成者は、実際にディクテートしている間に、コマンドメモリ段10に名前「モジュールl」の下でテキストモジュールとして記憶されている標準テキストを、認識されたテキストETに挿入することを望む。この目的のため、作成者は、「...is the best. Insert text module one. All...」とディクテートする。認識されるテキストセグメントTS73−TS76は、コマンド番号BI13をもつコマンドとして認識され、図6には置き換えテキスト「<module 1>」が示されている。
【0068】
これは、テキストモジュールが特に簡単なやり方で認識されたテキストETに自動的に挿入されたという利点を与える。有利には、補正者又は検査者は、このケースでは3種類の表示の中から選択することができる。補正者又は検査者は、実際に認識されたテキストであるテキストセグメントTS73−TS76、置き換えテキスト、又は図8に見られるコマンドメモリ段10から加えられる標準テキストを見ることができる。
【0069】
第5の例において、作成者がマイクロフォン5に向かって話すテキストは、「...tenth of October two thousand and one...」である。第1のマーキング段12が自動的に認識し、日付としてマークしたワードシーケンスは、「October tenth two thousand and one」であった。しかしながら、話されたワードシーケンスは日付として認識されず、この理由のため、補正者は、テキストセグメントTS80−TS86を日付マーキング情報DMIにより日付としてマークする。
【0070】
これは、認識されたテキストにおいて日付として自動的に又は手動でマークされたテキストのすべての部分のフォーマットが後続の処理動作において特に容易に且つ統一されたやり方で変更されることができるという利点を与える。このために、補正者は、例えば日付マーキング情報DMIによりマークされたすべての日付がフォーマット「MM.DD.YYYY」で示されることを選択することができる。
【0071】
第1の補正装置3の適用例は図9を参照して説明される。この例において、補正者が同期再生モードを起動させ、そのとき、話されたテキストGT及び認識されたテキストETが同時に、オーディオセグメントAS1及びテキストセグメントTS1からそれぞれ始まって初めて再生されるものとする。これは、矢印P1によって記号的に表されている。補正者は、一度目の再生中、ポーズマーキング情報PMI、言いよどみサウンドマーキング情報HMI及びノイズマーキング情報GMIによりマークされるテキストの部分に対するオーディオセグメントが音響的に再生されないように再生手段13を構成した。これは、補正者が、話されたテキストGTを特に速く再生し、同じ時間により多くの認識されたテキストETを補正することを可能にする。
【0072】
再生中、マーキングテーブルMTにおける再生マーキング情報WMIは連続的に更新される。オーディオセグメントAS53(作成者が鼻をかむ)がちょうど音響的に再生されており、テキストセグメントTS53が視覚的にマークされているとき、補正者は、ワード「that」が正しく認識されなかったことを知る。図9には、このときのテキストカーソルの位置がP2によって記号的に示されている。しかしながら、補正者は、何が本当に認識されるべきであったかを確信していないので、オーディオセグメントAS50から始まる同期再生モードを再び起動させる。これは、図9において矢印P3によって記号的に示されている。
【0073】
再生手段13は、マーキングテーブルMTの第4行に入力された再生マーキング情報WMIから、オーディオセグメントAS1乃至AS53がすでに同期再生モードにおいて一度再生されたことを認識し、それゆえオーディオセグメントAS50乃至AS53のすべてを音響的に再生する。これは、図9において矢印P4によって記号的に示されている。マークされたテキスト(PMI、GMI、HMI)が音響再生中に再び抑制されるのは、オーディオセグメントS54の再生から始まるときだけである(矢印P5参照)。
【0074】
これにより、補正者が、認識されたテキストETを正しく補正することを可能にするために利用できるすべてのマーキング情報を必要とするディクテーション中の節において、ディクテーションのすべてのオーディオセグメントASが再生されるという利点が与えられる。補正者が一度だけ聞くことによって補正することができる他の節においては、不必要なオーディオセグメントASが抑制される。
【0075】
同様に、テキストのマークされた部分に関する置き換えテキストは、認識されたテキストETが初めて再生されるときに有利に表示されることができ、再生が繰り返されるときだけ、実際に認識されたテキストETへの切り替えが自動的に行われうる。
【0076】
同期再生モードにおいてすでに一度再生されたテキストの部分の自動マーキングは更なる優れた利点をもつ。補正者が認識されたテキストETをどれくらいよく補正したかをランダムサンプリングによって決定するのは検査者の仕事である。再生マーキング情報WMIはこの点で検査者にとって非常に有用である。これは、補正者が同期再生モードの助けによりテキストのどの部分をチェックし、テキストのどの部分をスキップし、それゆえ全くチェックしなかったかを検査者が直ちに確認することができるからである。こうして検査者は、認識されたテキストETにエラーがあるかどうかを見るために、再生マーキング情報WMIによりマークされないテキストの部分を特別に調べることができる。
【0077】
再生マーキング情報WMIは、補正者が自身の作業を中断され、あとからそれを続けたいと思う場合にも有利である。再生マーキング情報WMIによってフラグを立てられるテキストの音響的マーキング(例えば話されたテキストのバックグラウンドとしての連続トーン)又は視覚的マーキング(例えば反転文字で示される認識されたテキスト)の結果として、補正者は、直ちに自身の仕事を続けることができる。
【0078】
第1の補正装置3は更に、同期再生モードが間違って認識されたワードを補正するために中断される場合、テキスト入力位置をマークするテキストカーソルが位置付けられることを可能にするために設けられる位置付け手段18を有する。位置付け手段18は、前記同期再生モードが中断されるとき認識されたテキストETにおいてマークされるワードのNワード手前にテキストカーソルを位置付ける。これは、認識されたテキストETの当該部分が、再生マーキング情報WMIによりすでにマークされている場合である。位置付け手段18はまた、同期再生モードが中断されるとき認識されたテキストETにおいてマークされるワードのMワード手前にテキストカーソルを位置付ける。これは、認識されたテキストETの当該部分が、再生マーキング情報WMIによりマークされていない場合である。
【0079】
例えば、規定される数字は、M=3及びN=1でありえる。この結果として、間違って認識されたワードが認識されたテキストETにおいて初めて見つけられるとき、補正者のより長い応答時間が許される。これらの規定は、同期再生モードが一旦中断されると、テキストカーソルが通常、間違って認識されたワード上にすでに位置付けられており、テキストカーソルを手動で位置付けるために要する時間が節約されうるので、特に有利である。これは、当業者には明らかなM及びNの有利な値の多くの他の組み合わせを与える。
【0080】
位置付け手段18が自己学習するように構成される場合は特に有利である。このケースでは、位置付け手段18は、同期再生モードが中断されたあと補正者によって為される位置付けエントリからN及びMに関する最適値を決定し(例えばテキストカーソルを2ワード先に又は5ワード後ろに置く)、それらの値を絶えずユーザの応答時間に適応化させる。
【0081】
適応化段11は更に、パラメータメモリ手段9に記憶されたパラメータ情報PIを適応化させるために使用されることができる。これは、音声認識手段7の認識率が着実に改善され、認識されたテキストETに含まれるエラーはより少なくなるという利点を与える。
【0082】
上述の適用例から分かるように、個々のオーディオセグメント又はテキストセグメントは、マーキング情報MIの1つ又は複数のアイテムによってマークされることができる。これは、認識されたテキストがいわゆるレベルにおいて有利な態様で処理されることを可能にする。この場合、コマンドに含まれる言いよどみサウンドは、例えば言いよどみサウンドとしてマークされる認識されたテキストETの他のすべての部分と同様に編集されることができる(例えば抑制され、削除され、置き換えテキストが表示され、認識されたテキストが表示される)。これは、言いよどみサウンドを含むコマンドの編集を妨げることもない。テキストの一部がマーキング情報MIの複数のアイテムによりマークされる場合、これらのレベルが光学的に表示されることも可能になる。
【0083】
本発明によるテキストの自動及び手動マーキングは、マーキング情報MIの複数の異なるアイテムにより実行されることができることを述べることができる。この種のマーキング情報MIのアイテムは、例えば自動句読点(AutoPunctuation)、無音(Silence)、非音声(NonSpeech)、ノイズ、音楽、スペリング(Spelling)、言いよどみ(Hesitation)、挿入(Insertion)、数字形式(NumberFormatting)、日付形式(DateFormatting)、ヘッダ形式(HeaderFormatting)、列挙形式(EnumerationFormatting)、数量形式(QuantityFormatting)、自己補正(SelfCorrection)、フレーズ反復(PhraseRepetition)、どもり(Stutter)、散漫さ(Discursiveness)、スペリングシーケンス(SpellingSequence)、冗長フレーズ(RedundantPhrase)、不理解(NotUnderstood)、注釈(Remark)、削除、コマンドである。
【0084】
テキストの一部のマーキングは、上述で説明されたようにテーブルによって実施されなくてもよく、代わりに木構造の形で行われてもよい。この場合、他のマークされたテキストセグメントを含むマークされたテキストセグメントは、木に似た形で枝の上に示される。
【0085】
自動マーキングが、あとからではなく音声認識プロセスが実施されている間に行われることができることを述べることができる。
【0086】
音声認識手段7によって困難を伴ってすなわちおそらく認識の多くのエラーを伴ってのみ認識されるテキストのすべての部分は、第1のマーキング段12によって自動的にマークされることができ、同期再生モードにおいて補正者によって困難なものとして認識されるテキストのすべての部分は手動でマークされることができ、それによって話されたテキストの検査者又は作成者にチェックの目的でテキストのこれらのマークされた部分に対する注意を喚起する。これは、認識されたテキストに関する情報を渡す特に有利なやり方である。
【図面の簡単な説明】
【0087】
【図1】話されたテキストを認識されたテキストに転写するためのトランスクリプション装置を示し、認識されたテキストを補正するための補正装置が設けられることを示す図。
【図2】話されたテキストと、トランスクリプション装置によって認識された対応するテキストと、話されたテキストのそれぞれのオーディオセグメントに対する認識されたテキストの関連するセグメントにフラグを立てるリンク情報とを記号的な形式で示す図。
【図3】トランスクリプション装置のコマンドメモリ段に記憶されるコマンドテーブルを示す図。
【図4】トランスクリプション装置のメモリ手段に記憶されるマーキングテーブルを示す図。
【図5】トランスクリプション装置のユーザによって話されたテキストの5つの例を記号的な形式で示す図。
【図6】話されたテキストの5つの例についてトランスクリプション装置の音声認識手段によって認識されるテキストを記号的な形式で示し、認識されたテキストの一部が音声認識手段の第1のマーキング段によって自動的にマークされており、ユーザが第2のマーキング段により手動でテキストの他の部分をマークしていることを示す図。
【図7】5つの例についてトランスクリプション装置の補正装置によって表示されるテキストを記号的な形式で示し、認識されたテキストのうち自動的にマークされたテキスト及び手動でマークされたテキストの双方が置き換えテキストとして表示されることを示す図。
【図8】テキストのマークされた部分に関するすべての置き換えテキストが抑制されるとき、補正装置によって表示されるテキストを記号的な形式で示す図。
【図9】話されたテキスト及び認識されたテキストの一度目及び後続の二度目の同期再生中にテキストのどの部分が再生されるかを記号的な形式で示す図。
Claims (12)
- 話されたテキストを認識されたテキストに転写し、前記認識されたテキストの間違って認識された部分を編集するためのトランスクリプション装置であって、前記話されたテキストのそれぞれの部分に関するリンク情報が、関連する前記認識されたテキストにフラグを立てるトランスクリプション装置であって、
受け取られた前記話されたテキストを前記認識されたテキストに転写し、前記リンク情報を生成するための音声認識手段と、
前記話されたテキスト、前記認識されたテキスト及び前記リンク情報を記憶するためのメモリ手段と、
前記認識されたテキスト及び/又は前記話されたテキストのうち該テキストのすべてのマークされた部分に共通する特定の特性をもつ部分にフラグを立てるマーキング情報を自動的に決定し、決定された該マーキング情報を前記メモリ手段に記憶するためのマーキング手段であって、前記共通の特性をもつ前記認識された又は前記話されたテキストの他の部分が前記マーキング情報によりマークされることを可能にするために、前記マーキング情報を手動で入力するための入力手段を有する、マーキング手段と、
前記テキストのマークされた部分を統一的に処理するための処理手段と、
を有するトランスクリプション装置。 - 前記音声認識手段のパラメータが適応化されることを可能にするために、前記テキストのうち共通の特性をもつ自動的に及び手動でマークされた部分を評価するように構成される適応化段が設けられる、請求項1に記載のトランスクリプション装置。
- 前記トランスクリプション装置において同期再生モードが起動されるとき、前記話されたテキストを音響的に再生し、同時に、前記リンク情報によってフラグを立てられ光学的に再生される前記関連する認識されたテキストを視覚的にマークするための再生手段が設けられ、前記テキストの自動的に又は手動でマークされた部分の音響的又は光学的な再生は抑制されることが可能である、請求項1に記載のトランスクリプション装置。
- 前記マーキング手段は、前記認識されたテキスト及び/又は前記話されたテキストのうち前記同期再生モードが起動されたとき前記再生手段によって少なくとも一度再生された部分にフラグを立てる再生マーキング情報を自動的に決定し、前記メモリ手段に記憶するように構成される、請求項3に記載のトランスクリプション装置。
- 前記再生手段は、前記認識されたテキストの抑制される前記マークされた部分について、置き換えテキストを光学的に再生するように構成される、請求項3に記載のトランスクリプション装置。
- 前記再生手段は、前記置き換えテキストの光学的な表示と、前記テキストの前記マークされた部分の光学的な表示との間の切り替えを行うことができる、請求項5に記載のトランスクリプション装置。
- テキストモジュールを形成する前記テキストの前記マークされた部分について、前記テキストモジュールに関して規定されるテキストの光学的な表示への他の切り替えが行われることができる、請求項6に記載のトランスクリプション装置。
- 前記マーキング手段は、前記話された又は前記認識されたテキストの一部が前記マーキング情報の少なくとも2つの異なるアイテムによってフラグを立てられる少なくとも2つの共通する特性をもつとき、前記話された又は前記認識されたテキストの前記一部を前記マーキング情報の前記少なくとも2つの異なるアイテムによりマークするように構成される、請求項1に記載のトランスクリプション装置。
- 話されたテキストを認識されたテキストに転写し、前記認識されたテキストの間違って認識された部分を編集するトランスクリプション方法であって、前記話されたテキストのそれぞれの部分に関するリンク情報が、関連する前記認識されたテキストにフラグを立てるトランスクリプション方法であって、
受け取られた前記話されたテキストを前記認識されたテキストに転写し、前記リンク情報を生成するステップと、
前記話されたテキスト、前記認識されたテキスト及び前記リンク情報を記憶するステップと、
前記認識されたテキスト及び/又は前記話されたテキストのうち該テキストのすべてのマークされた部分に共通する特定の特性をもつ部分にフラグを立てるマーキング情報を自動的に決定し、決定された該マーキング情報を記憶するステップと、
前記認識された又は前記話されたテキストの前記共通の特性をもつ他の部分が前記マーキング情報によりマークされることを可能にするため、前記マーキング情報を手動で入力するステップと、
前記テキストのマークされた部分を統一的に処理するステップと、
を含むトランスクリプション方法。 - 同期再生モードが起動されるとき、前記話されたテキストを音響的に再生し、同時に、前記リンク情報によってフラグを立てられ光学的に再生される前記関連する認識されたテキストを視覚的にマークするステップを含み、前記テキストの自動的に又は手動でマークされた部分の音響的及び光学的な再生は抑制されることが可能である、請求項9に記載のトランスクリプション方法。
- 前記認識されたテキスト及び/又は前記話されたテキストのうち起動された前記期再生モードにおいて以前に少なくとも一度再生された部分にフラグを立てる再生マーキング情報を自動的に決定し、記憶するステップを含む、請求項9に記載のトランスクリプション方法。
- 前記話された又は前記認識されたテキストの一部が前記マーキング情報の少なくとも2つの異なるアイテムによってフラグを立てられる少なくとも2つの共通の特性をもつとき、前記話された又は前記認識されたテキストの前記一部を前記マーキング情報の前記少なくとも2つの異なるアイテムによりマークするステップを含む、請求項9に記載のトランスクリプション方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01000535 | 2001-10-12 | ||
PCT/IB2002/004107 WO2003034404A1 (en) | 2001-10-12 | 2002-10-07 | Speech recognition device to mark parts of a recognized text |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005505804A true JP2005505804A (ja) | 2005-02-24 |
Family
ID=8176073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003537051A Pending JP2005505804A (ja) | 2001-10-12 | 2002-10-07 | 認識されたテキストの一部をマークするための音声認識装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7376560B2 (ja) |
EP (1) | EP1438710B1 (ja) |
JP (1) | JP2005505804A (ja) |
CN (1) | CN1312657C (ja) |
AT (1) | ATE496363T1 (ja) |
DE (1) | DE60239005D1 (ja) |
WO (1) | WO2003034404A1 (ja) |
Families Citing this family (114)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8504369B1 (en) | 2004-06-02 | 2013-08-06 | Nuance Communications, Inc. | Multi-cursor transcription editing |
US7836412B1 (en) | 2004-12-03 | 2010-11-16 | Escription, Inc. | Transcription editing |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20080256071A1 (en) * | 2005-10-31 | 2008-10-16 | Prasad Datta G | Method And System For Selection Of Text For Editing |
US20070244700A1 (en) * | 2006-04-12 | 2007-10-18 | Jonathan Kahn | Session File Modification with Selective Replacement of Session File Components |
US7693717B2 (en) * | 2006-04-12 | 2010-04-06 | Custom Speech Usa, Inc. | Session file modification with annotation using speech recognition or text to speech |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9020811B2 (en) * | 2006-10-13 | 2015-04-28 | Syscom, Inc. | Method and system for converting text files searchable text and for processing the searchable text |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US20100324895A1 (en) * | 2009-01-15 | 2010-12-23 | K-Nfb Reading Technology, Inc. | Synchronization for document narration |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110167350A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Assist Features For Content Display Device |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8572488B2 (en) * | 2010-03-29 | 2013-10-29 | Avid Technology, Inc. | Spot dialog editor |
US9355683B2 (en) | 2010-07-30 | 2016-05-31 | Samsung Electronics Co., Ltd. | Audio playing method and apparatus |
EP2413325A1 (en) * | 2010-07-30 | 2012-02-01 | Samsung Electronics Co., Ltd. | Audio playing method and apparatus |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
JP2013025299A (ja) * | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN103177724A (zh) * | 2013-03-19 | 2013-06-26 | 华为终端有限公司 | 语音控制文本操作的方法、装置及终端 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
JP2014240940A (ja) * | 2013-06-12 | 2014-12-25 | 株式会社東芝 | 書き起こし支援装置、方法、及びプログラム |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN107274903B (zh) * | 2017-05-26 | 2020-05-19 | 北京搜狗科技发展有限公司 | 文本处理方法和装置、用于文本处理的装置 |
CN108039175B (zh) * | 2018-01-29 | 2021-03-26 | 北京百度网讯科技有限公司 | 语音识别方法、装置及服务器 |
CN108647190B (zh) * | 2018-04-25 | 2022-04-29 | 北京华夏电通科技股份有限公司 | 一种语音识别文本插入笔录文档的方法、装置及系统 |
KR20190089128A (ko) * | 2019-07-10 | 2019-07-30 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20210050901A (ko) * | 2019-10-29 | 2021-05-10 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AT390685B (de) * | 1988-10-25 | 1990-06-11 | Philips Nv | System zur textverarbeitung |
CN1150448C (zh) * | 1996-03-08 | 2004-05-19 | 皇家菲利浦电子有限公司 | 口述录音和放音设备 |
US6076059A (en) * | 1997-08-29 | 2000-06-13 | Digital Equipment Corporation | Method for aligning text with audio signals |
US6195637B1 (en) * | 1998-03-25 | 2001-02-27 | International Business Machines Corp. | Marking and deferring correction of misrecognition errors |
US6473778B1 (en) * | 1998-12-24 | 2002-10-29 | At&T Corporation | Generating hypermedia documents from transcriptions of television programs using parallel text alignment |
US6332122B1 (en) * | 1999-06-23 | 2001-12-18 | International Business Machines Corporation | Transcription system for multiple speakers, using and establishing identification |
US6263308B1 (en) * | 2000-03-20 | 2001-07-17 | Microsoft Corporation | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process |
US6505153B1 (en) * | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
-
2002
- 2002-10-07 CN CNB028202090A patent/CN1312657C/zh not_active Expired - Lifetime
- 2002-10-07 JP JP2003537051A patent/JP2005505804A/ja active Pending
- 2002-10-07 DE DE60239005T patent/DE60239005D1/de not_active Expired - Lifetime
- 2002-10-07 WO PCT/IB2002/004107 patent/WO2003034404A1/en active Application Filing
- 2002-10-07 AT AT02772696T patent/ATE496363T1/de not_active IP Right Cessation
- 2002-10-07 EP EP02772696A patent/EP1438710B1/en not_active Expired - Lifetime
- 2002-10-09 US US10/267,293 patent/US7376560B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN1312657C (zh) | 2007-04-25 |
US20030074195A1 (en) | 2003-04-17 |
US7376560B2 (en) | 2008-05-20 |
EP1438710A1 (en) | 2004-07-21 |
ATE496363T1 (de) | 2011-02-15 |
WO2003034404A1 (en) | 2003-04-24 |
EP1438710B1 (en) | 2011-01-19 |
DE60239005D1 (de) | 2011-03-03 |
CN1568500A (zh) | 2005-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4336580B2 (ja) | 認識されたテキストの一部をマークする補正装置 | |
JP2005505804A (ja) | 認識されたテキストの一部をマークするための音声認識装置 | |
JP4558308B2 (ja) | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム | |
US6161087A (en) | Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording | |
US7490039B1 (en) | Text to speech system and method having interactive spelling capabilities | |
JP4241376B2 (ja) | 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 | |
US8219397B2 (en) | Data processing system for autonomously building speech identification and tagging data | |
WO2007055233A1 (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
IL131712A (en) | Automatic update to language templates | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JPH09325796A (ja) | 文書朗読装置 | |
JP2014134640A (ja) | 文字起こし装置およびプログラム | |
JP2001325250A (ja) | 議事録作成装置および議事録作成方法および記録媒体 | |
JP2009288523A (ja) | 音声認識装置及びその方法 | |
US11947924B2 (en) | Providing translated subtitle for video content | |
JP2007248750A (ja) | 音声再生装置 | |
CA2380433A1 (en) | System and method for improving the accuracy of a speech recognition program | |
CN116013303A (zh) | 音频优化方法、装置、电子设备和存储介质 | |
Bateman et al. | The quest for the last 5% interfaces for correcting real-time speech-generated subtitles | |
JP2002049389A (ja) | 音声認識方法およびそのプログラム記録媒体 | |
JP2015187733A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2009245495A (ja) | 録音プログラム、録音装置および録音方法 | |
JP2008046373A (ja) | 音声多重トラックコンテンツ作成装置及び音声多重トラックコンテンツ作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090406 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090501 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090930 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091201 |