JP4241376B2 - 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 - Google Patents

認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 Download PDF

Info

Publication number
JP4241376B2
JP4241376B2 JP2003529447A JP2003529447A JP4241376B2 JP 4241376 B2 JP4241376 B2 JP 4241376B2 JP 2003529447 A JP2003529447 A JP 2003529447A JP 2003529447 A JP2003529447 A JP 2003529447A JP 4241376 B2 JP4241376 B2 JP 4241376B2
Authority
JP
Japan
Prior art keywords
word
correction
recognized
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003529447A
Other languages
English (en)
Other versions
JP2005503590A (ja
Inventor
ウォルフガング ゲシュヴェントナー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2005503590A publication Critical patent/JP2005503590A/ja
Application granted granted Critical
Publication of JP4241376B2 publication Critical patent/JP4241376B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Description

本発明は、話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正装置であって、話されたテキストの話されたワードに関する認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む補正装置に関する。
本発明は更に、話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正方法であって、話されたテキストの話されたワードに関する認識されたテキストが、正しく認識されたワード及び間違って認識されたワードを含む補正方法に関する。
このような補正装置及びこのような補正方法は、ディクテーション装置が開示されている米国特許第5,909,667号公報から既知である。既知のディクテーション装置は、音声認識ソフトウェア及びワードプロセシングソフトウェア(以下、ワープロソフトと呼ぶ)を動作させるコンピュータによって形成される。既知のディクテーション装置のユーザは、コンピュータに接続されたマイクロフォンに向かってテキストを話すことができる。音声認識機能を形成する音声認識ソフトウェアは、既知のワードを、話されたテキストのそれぞれの話されたワードに割り当て、これによって、話されたテキストについて、認識されたテキストが得られる。認識されたテキストは、ユーザが実際に話したワードに合致するいわゆる正しく認識されたワードと、ユーザが実際に話したワードに合致しないいわゆる間違って認識されたワードとを含む。認識されたテキストは、ワードプロセシング機能を形成するワープロソフトによって、コンピュータに接続されたスクリーン上に表される。
既知のディクテーション装置は更に、ワープロソフト及び音声認識ソフトウェアの双方を含む補正装置を形成し、この補正装置を用いて、間違って認識されたワードが正しく認識されたワードと置き換えられることができる。この目的のため、ユーザは、間違って認識されたワードをマークし、コンピュータのキーボードを用いて1つ又は複数の補正ワードを入力し、確認をエンターする。その結果、間違って認識されたワードが、入力された補正ワードと置き換えられる。
置き換えられるべき間違って認識されたワードをマークすることを簡略化するために、既知のディクテーション装置のユーザは、置き換えられるべき間違って認識されたワード、いわゆるマーカワードを、もう一度マイクロフォンに向かって話すことができる。すると音声認識ソフトウェアは、この話されたマーカワードについて認識されたマーカワードを認識し、ワープロソフトは、認識されたマーカワードについて認識されたテキストのワードをサーチする。認識されたマーカワードが、認識されたテキスト中のワードの文字シーケンスの比較を通して見つけられる場合、ワードプロセシング装置はこのマーカワードをマークする。ユーザは、マーカワードを話したのち、置き換えられるべきワードが実際にマークされたかどうかをチェックしなければならない。置き換えられるべきワードがマークされた場合、ユーザは、置き換えを実現するために、キーボードを使用して補正ワード及び確認を入力する。
既知のディクテーション装置を用いると、音声認識ソフトウェアにとって認識するのが困難であるのはまさに認識されたテキストに含まれる間違って認識されたワードであり、それゆえマーカワードの認識に際し高いエラーレートがまた生じてしまうという不利益が明らかになった。その結果、間違って認識されたワードではなくむしろ認識されたテキスト情報の他のワードが、かなり頻繁に置き換えのためにマークされてしまい、これは付加的な作業を意味する。既知のディクテーション装置の他の不利益として、間違って認識されたワードを置き換えるために、ユーザがかなり多くのさまざまなアクション(マイクロフォン及びキーボード)を実行しなければならないことが分かった。
本発明の目的は、前述の不利益が回避される第1の段落に明示されるような補正装置及び第2の段落に明示されるような補正方法を生み出すことである。
上述の目的を達成するため、本発明の特徴は、以下のように特徴付けられるような補正装置において与えられる。話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正装置であって、話されたテキストの話されたワードに関する認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む補正装置は、間違って認識されたワードの少なくとも1つを少なくとも1つの補正ワードと置き換えるために、手動入力される少なくとも1つの補正ワードを受け取るための入力手段と、少なくとも入力された補正ワードを音素シーケンスに音声学的に転写(変換)するためのトランスクリプション手段と、認識されたテキストのワードの音素シーケンスの中から少なくとも1つの補正ワードの音素シーケンスを見つけ出し、ワードの音素シーケンスが少なくとも1つの補正ワードの音素シーケンスと本質的に合致する認識されたテキスト中の少なくとも1つの前記ワードの位置を識別する位置情報を出す(生じさせる)ためのサーチ手段と、認識されたテキスト情報の中の位置情報によって識別される少なくとも1つのワードのマーキングを可能にするように前記位置情報を送出するための出力手段とを有する。
上述の目的を達成するために、本発明の特徴は、以下のようにして特徴付けられるような補正方法において与えられる。話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正方法であって、話されたテキストの話されたワードに関する認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む補正方法は、間違って認識されたワードの少なくとも1つを少なくとも1つの補正ワードと置き換えるために、手動入力された少なくとも1つの補正ワードを受け取るステップと、少なくとも入力された補正ワードを音素シーケンスに音声学的に転写するステップと、少なくとも1つの補正ワードの音素シーケンスについて、認識されたテキストのワードの音素シーケンスをサーチし、ワードの音素シーケンスが少なくとも1つの補正ワードの音素シーケンスと本質的に合致する認識されたテキスト中の少なくとも1つの前記ワードの位置を識別する位置情報を出す(生じさせる)ステップと、認識されたテキスト情報の中の位置情報によって識別される少なくとも1つのワードのマーキングを可能にするように位置情報を送出するステップとが処理されることを含む。
本発明は、音声認識装置によって間違って認識されたワードと、実際に認識されなければならなかったワード、すなわち正しく認識されるべきワードとが、非常に多くの場合非常に似たように聞こえるという認識に基づく。このような似たように聞こえるワード、具体的には例えば「four」及び「for」のようなワードの場合、既知の音声認識装置のエラーレートは多くの場合特に高い。
本発明による特徴の結果、ユーザは、実際に認識されなければならなかった補正ワードと置き換えたいと思う間違って認識されたワードをマークする必要がない。補正装置は、統計的な方法によって、入力された補正ワードの音素シーケンスを決定し、この音素シーケンスは補正ワードの音(サウンド)を表す。音素シーケンスを比較することによって、補正装置は、認識されたテキストの中の補正ワードと似たように(同様に)聞こえるワードをサーチする。
有利には、認識されたテキスト情報の中の非常に高い可能性で置き換えられるべきである間違って認識されたワードは、こうして補正ワードの入力によって自動的にマークされる。ユーザは、確認を入力することによって、マークされたワードの置き換えを実施することができ、又は、次の情報を入力することによって認識されたテキスト情報の他の似たように聞こえるワードのマーキングを生じさせることができる。
音声認識装置の既知の補正装置は、間違って認識されたワードの補正のために話されたワード及び認識されたテキストの関連付けられた認識されたワードの同時再生を可能にする。これらの既知の補正装置のユーザは、間違って認識されたワードに気付くと、同期再生を中断し、間違って認識されたワードのユーザによって入力されたワードとの置き換えを実行する。ユーザは、認識されたテキストの中の他の間違って認識されたワードを見つけ出し補正するために、再び同時再生を起動させる。
請求項2及び請求項9の方策によると、ユーザが補正ワードを入力し始めるとすぐに同期再生が自動的に中断されるという利点が得られる。
請求項3及び請求項10の方策によると、ユーザが、自動的にマークされたワードが入力された補正ワードと置き換えられなければならないことを確認の入力によって確認するとすぐに、同期再生の中断が再び自動的に終了されるという利点が得られる。
同期再生において、補正装置のユーザは、ワードの環境において間違って認識されたワードを認識する。そのようなワードは、同期再生中に音響的に再生され、視覚的にマークされる。請求項4及び請求項11の方策によると、サーチ手段は、似たように聞こえるワードについて中断時に認識されたテキストの中のマークされたワードのすぐ近傍を最初に調べ、これを最初にマークするという利点が得られる。ユーザが次の情報を入れることによって他のサーチを始める場合、サーチエリアが広げられる。
音声認識プロシージャにおいて、音声認識装置は、まず、話されたテキストに関連付けられた音素シーケンスを決定し、この音素シーケンスに基づいて、認識されたテキストを認識する。請求項5及び請求項12の方策によると、補正ワードの音素シーケンスを探すサーチにおいて、サーチ手段は、音声認識装置によって既に決定された音素シーケンスを使用するという利点が得られる。これは、補正装置が音声認識装置の一部を形成する場合に特に有利である。
サーチ手段の信頼性を高めるため、非常に似たように聞こえる音素はサーチにおいて同一の音素とみなされることが有利であることが分かった。こうして、例えば英語の単語の音素シーケンスにおいて、音素「v」及び「f」並びに「t」及び「d」は、サーチ手段によるサーチにおいて同一であるとみなされる。
本発明は、実施例を参照して以下に更に詳しく説明されるが、本発明はその実施例に限定されない。
図1は、音声認識装置2、ワープロ装置3及び補正装置4を形成するコンピュータ1を示す。音声認識装置2及び補正装置4は、コンピュータ1によって処理される音声認識ソフトウェアと共に形成され、ワープロ装置3は、コンピュータ1によって処理されるワープロソフトと共に形成される。
マイクロフォン5、スピーカ6、モニタ7及びキーボード8は、コンピュータ1に接続される。コンピュータ1のユーザは、マイクロフォン5に向かってテキストを話すことができ、するとこの話されたテキストを含む話されたテキスト情報GTIは、音声認識装置2の音声認識手段9にアナログオーディオ信号として出力される。
音声認識手段9は、長く知られているように、話されたテキスト情報GTIに関連すべき認識されたテキスト情報ETIを認識するように設計される。この目的のため、音声認識手段9は、話されたテキスト情報GTIをデジタルオーディオデータとして初期記憶レベル10に記憶する。音声認識手段9による音声認識プロシージャの処理において、音声認識手段9は、まず、音素を含む音素シーケンスを話されたテキスト情報GTIに関連させる。一般に知られていているように、音素は、小さい音響(アコースティック)単位であり、ワードの音素シーケンスは、話されたワードの音響的な印象(効果)を再生する。例えば「DAYS」という語には、音素シーケンス「d Y z」が割り当てられる。
音声認識プロシージャの後続する処理において、話されたテキスト情報GTIから決定された音素シーケンスは、多数のワードの各々について関連する音素シーケンスが記憶されている辞書メモリの中をサーチされる。検出された音素シーケンスが辞書(語彙目録)メモリの中に見つけられた場合、関連する記憶されたワードは、高い可能性をもって認識されたワードとして決定される。検出された音素シーケンスに関する高い可能性をもって認識されたワードのシーケンスは、音声モデルメモリの中をサーチされ、高い可能性をもって認識されたワードの最も可能性があるシーケンスが、話されたテキスト情報GTIに関する認識されたテキスト情報として第2の記憶レベル11に記憶される。
認識されたテキスト情報ETIは、ユーザが実際に話したワードと合致するいわゆる正しく認識されたワードによって形成される正しく認識されたテキスト情報RETIを含む。認識されたテキスト情報ETIはまた、ユーザが実際に話したワードと合致しないいわゆる間違って認識されたワードによって形成される間違って認識されたテキスト情報FETIを含む。音声認識装置9によって間違って認識されたワードと、実際に認識されなければならなかったワード、すなわち話されたワードとは、多くの場合、以下により詳しく述べるように非常に似たように聞こえる。
音声認識プロシージャにおいて、更にリンク情報LIが決定され、第3のメモリレベル12に記憶される。リンク情報LIは、話されたテキスト情報GTIのそれぞれのワードについて、認識されたテキスト情報ETIの関連付けられた認識されたワードを識別し、以下により詳しく述べるように同期再生動作モードを可能にする。上述の音声認識プロシージャは長く知られており、これ以上詳しく論じない。
ワープロ装置3は、第2のメモリレベル11に記憶された認識されたテキスト情報ETIを読み取り、この認識されたテキスト情報ETIを含む画面情報BIをモニタ7に出力するように設計される。補正情報は、キーボード8から、補正装置4の入力手段13を通してワープロ装置3に渡されることができ、それにより認識されたテキスト情報ETIが編集され又は変更され、これは、補正装置4の第4のメモリレベル14に記憶されることができる補正されたテキスト情報KTIを規定する。
同期再生動作モードが起動させられると、コンピュータ1は、モニタ7上に表された認識されたテキスト情報ETIのワードを自動的にマークするとともに、リンク情報LIによって割り当てられた話されたワードをスピーカ6を通して同期してすなわち同時に音響再生するように設計される。このために、ワープロ装置3は、認識されたテキスト情報ETI、話されたテキスト情報GTI及びリンク情報LIを対応するメモリレベル10、11及び12から読み取る。
同期再生動作モードが起動させられると、ユーザは、たった今音響的に再生された話されたワードについて、表されたマークされたワードが正しく認識されたかどうかチェックすることができる。この機能は、「同期再生」として知られ、例えば米国特許第5,031,113号明細書に記載されており、それゆえここではこれ以上詳しく論じない。
補正装置4は更に、入力手段13、第4のメモリレベル14、第5のメモリレベル15、トランスクリプション手段16及びサーチ手段17を有する。トランスクリプション手段16は、統計的な方法によってワードを音声学的に転写するように設計される。辞書メモリに記憶されているワードに割り当てられた記憶された音素シーケンスは、これらの手段により読み取られる。辞書メモリに記憶されていないワードは別々の音節(シラブル)に分けられ、辞書メモリからこれらの音節の音素を集める(アセンブルする)ことによって関連付けられた音素シーケンスが決定される。
同期再生動作モードが、キーボード8上のキーを押すことによってコンピュータ1において起動させられると、トランスクリプション手段16は、第2のメモリレベル11から認識されたテキスト情報ETIを読み取り、認識されたテキスト情報ETI全体の音声転写(音声表記、phonetic transcription)を実行する。認識されたテキスト情報ETIの音声転写の結果、トランスクリプション手段16は、認識されたテキスト情報ETIに関する音素情報PI(ETI)を出す。この音素情報PI(ETI)は、認識されたテキストのワードに関する音素シーケンスを含み、第5のメモリレベル15に記憶される。
入力手段13は更に、認識されたテキストの間違って認識されたワードを補正ワードと置き換えるために、キーボード8を用いて手動で入力される補正ワードの補正情報KWIを受け取るように設計される。トランスクリプション手段16は更に、補正情報KWIを音声転写し、補正情報KWIに関する音素情報PI(KWI)を出すように設計される。この目的のため、補正情報KWIは、トランスクリプション手段16に供給されることができる。
トランスクリプション手段16は、サーチ手段17に補正情報KWIに関する音素情報PI(KWI)を出すように設計される。サーチ手段17は、認識されたテキストのワードの音素シーケンスの中の少なくとも1つの補正ワードの音素シーケンスを見つけ、ワードの音素シーケンスが少なくとも1つの補正ワードの音素シーケンスと本質的に合致する認識されたテキスト中の少なくとも1つの前記ワードの位置を識別する位置情報PIを出すように設計される。
サーチ手段17は更に、認識されたテキスト情報ETIの中の位置情報PIによって識別される少なくとも1つのワードをマークすることを可能にするように位置情報PIを送出するための手段を形成する。この目的のため、サーチ手段は、ワープロ手段3にマークされるべき1つ又は複数のワードに関する位置情報PIを渡し、ワープロ手段3は、対応する画面情報BIをモニタ7に渡す。以下、本発明による補正装置の他の機能及び利点について、コンピュータ1に関して図2乃至図5に示される適用例に基づき更に詳しく説明する。
適用例において、コンピュータ1のユーザは、マイクロフォン5に向かって「ONE TWO THREE FOUR FIVE SIX SEVEN EIGHT NINE TEN」というワードを話すものとする。音声認識手段9の音声認識プロシージャにおいて、認識されたワード「1 2 3 FOR 5 6 7 DAYS 9 THEN」の認識されたテキスト情報ETIが、対応する話されたテキスト情報GTIに関連付けられる。
認識されたテキスト情報ETIは、間違って認識されたワード「FOR」、「DAYS」及び「THEN」に関する間違って認識されたテキスト情報FETIを含む。表1から分かるように、間違って認識されたワードと実際に認識されなければならなかった話されたワードとの音素シーケンスは非常に似ており、こういうわけで音声認識手段9が認識の間違いをした。
Figure 0004241376
適用例において、更に、ユーザはキーボード8上のキーを押すことによって同期再生動作モードを起動させるものとする。図2に示す画面情報BIがモニタ7上に表される。同期再生動作モードが起動させられると、モニタ7上の表示は、補正エディタと補正ウィンドウとに分割される。補正エディタは、同期再生動作モードの起動のすぐあと、認識されたテキストの認識されたテキスト情報ETIと合致する補正されたテキストの補正されたテキスト情報KTIを示す。補正ウィンドウは、キーボード8を用いてユーザにより入れられる補正ワードを示す。以下、これらについて詳しく論じる。
同期再生動作モードの起動の直後、ワープロ手段3は、話されたテキスト情報GTIの第1のワード「ONE」の音響再生で始まり、マーカ情報MIを用いて、認識されたテキスト情報ETIの関連付けられた認識されたワード「1」をマークする。こうして、ユーザは、認識されたワードが話されたワードと実際に合致するということを非常に容易に知ることができる。
話されたテキスト情報GTIの第4のワード「4」が音響再生され視覚的にマークされると、ユーザは、このワードが間違って認識されたことに気づき、実際に認識されなければならなかったワード「4」を補正ワード又は補正情報KWIとしてキーボード8上に入力する。
補正装置4は、ユーザがキーボード8を用いて補正ワードを入力し始めると、同期再生動作モードを自動的に中断するように有利に設計される。この結果、話されたテキスト情報GTIの音響再生が中断され、図3に見られるように、カーソル情報CIがマーカ情報MIの現在位置に示される。従って、有利には、ユーザは同期再生動作モードを中断するためにいかなる他のキーも押す必要がない。
同期再生動作モードの起動の直後、トランスクリプション手段16は、認識されたテキスト情報ETIを転写し、こうして決定された認識されたテキスト情報ETIに関する音素情報PI(ETI)を第5のメモリレベル15に記憶した。ユーザが補正ワードを入力するとすぐに、トランスクリプション手段16は、入力された補正情報KWIを転写し、補正情報KWIに関する決定された音素情報PI(KWI)をサーチ手段17に渡す。
サーチ手段17は、認識されたテキスト情報ETIの音素情報PI(ETI)の中の補正ワードの補正情報KWIに関する音素情報PI(KWI)を探すために、カーソル情報CIの現在位置の前M=5ワード及び後ろN=3ワードの調整可能なサーチエリアをサーチし始める。音素情報PI(KWI)=「f o r」は、認識されたテキスト情報ETIのサーチエリア内の間違って認識されたテキスト情報FETIの音素情報PI(ETI)「f o r」と合致するので、サーチ手段17は、認識されたテキスト情報ETIの第4のワードの位置を位置情報PIとして決定する。サーチ手段17は、決定された位置情報PIをワープロ装置3に渡し、すると図4に示すように、間違って認識されたワード「FOR」が、マーカ情報MIを用いてマークされる。
これは、ユーザが、間違って認識されたワードに気づき同期再生動作モードを中断したのち、置き換えられるべき間違って認識されたワードをマークする必要がないという利点をもつ。有利には、間違って認識されたワード「FOR」を入力された補正ワード「4」と置き換えるために、ユーザは確認を入れるだけでよい。これは、例えばキーボード8の「ENTER」キーを押すことによって行うことができる。従って、間違って認識されたワードの実際に認識されなければならなかったワードとの置き換えは、とりわけ簡潔で迅速なやり方で実行されることができる。
有利には、同期再生動作モードの中断が更に、確認の入力によって終了され、それにより認識されたテキスト情報ETIの関連付けられた認識されたワードの同期音響再生及び視覚的なマーキングが再び始められる。
補正情報KWIの音素情報PI(KWI)を探して認識されたテキスト情報ETIの音素情報PI(ETI)のサーチエリア内をサーチすることは、同じワードが認識されたテキストの中の異なる場所に再び現れる場合に置き換えられるべき間違って認識されたワードが特定の信頼性をもって見つけられるという利点を生む。サーチがサーチエリアにおいて成功しない場合、サーチ手段17は、サーチエリアを段階的に広げるように有利に設計される。
図4にマークされたワードが、ユーザが入力された補正ワードと置き換えたいと思うワードでない場合、ユーザは、適用可能であれば、サーチ手段17が広げられたサーチエリアを再びサーチするように次の情報NIを入力することができる。サーチ手段17が以前にマークされなかった別のワードの音素情報PI(ETI)とPI(KWI)との満足のいく合致を検出するとすぐに、サーチ手段17は、この検出されたワードの位置を位置情報PIとしてワープロ装置3に渡す。
これは、補正装置4によって自動的にマークされたワードがユーザが入力された補正ワードと置き換えたいと思うワードでない場合、ユーザは、キーボード8上のただ1つのキーを押すことによって、ワードの音素情報PI(ETI)が補正ワードの音素情報PI(KWI)との緊密な合致を示すサーチエリア内の別の前記ワードの自動的なマーキングを生じさせることができるという利点をもたらす。
本質的に合致する音素シーケンスを探すサーチにおいて、サーチ手段17は、比較される音素シーケンスと異なるが似たように聞こえる音素を無視するように作られる。ここで、例えば音素「o」及び「@」は、音が非常に似ているものとして分類されるので、これらの2つの音素のみが異なる比較される音素シーケンスは合致すると判断される。
これは、サーチ手段17が、認識されたテキスト情報ETIのワードをマークするために、音素シーケンスにたとえ小さい差があっても比較されるという結果に達するという利点を与える。
代替例として、サーチ手段17は、音声認識プロシージャの処理において音声認識手段によって決定された音素情報を、認識されたテキスト情報ETIに関する音素情報PI(ETI)として使用することができることを述べることができる。これは、トランスクリプション手段が認識されたテキスト情報ETIを転写する必要がなく、第5のメモリレベルが設けられる必要がないという利点をもたらす。
更に、音声認識装置の一部として補正装置を設け、補正装置によって同期再生動作モードを実行させることは特に有利である。それゆえ「Word for Windows(R)」のような市販されているワープロソフトが使用されてもよい。
1つ又はいくつかの間違って認識されたワードをすぐに置き換えるために、いくつかのワードが補正情報KWIとして入れられてもよいことが留意されるべきである。
サーチエリアがコンピュータユーザによって設定されてもよいことが留意されるべきである。こうしてユーザは、例えばN=1乃至N=500及びM=1乃至M=500の範囲内のいかなる値をも実際に選択することができる。
代替例として、音声転写は、サーチエリアにおいて見つけられるべき認識されたテキスト情報ETIのワードに関してのみ有利に実行されることができることが留意されるべきである。
本発明による補正装置は、職業的なトランスクリプションサービスに関して特に有利に使用されることができることが留意されるべきである。これは、このようなトランスクリプションサービスにおけるトランスクライバが音声認識装置により間違って認識されたワードだけを手動で補正し、間違って認識されたワード及び認識されるべき実際に話されたワードの音素シーケンスが非常に似ているという条件が実際に常に満たされるからである。
音声認識ソフトウェア及びワープロソフトを処理し、話されたテキストについて音声認識装置によって認識されたテキストを補正するための補正装置を形成するコンピュータを示す図。 図1のコンピュータの補正装置によってモニタ上に表される画面情報を示す図。 図1のコンピュータの補正装置によってモニタ上に表される画面情報を示す図。 図1のコンピュータの補正装置によってモニタ上に表される画面情報を示す図。 図1のコンピュータの補正装置によってモニタ上に表される画面情報を示す図。

Claims (13)

  1. 話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正装置であって、前記話されたテキストの話されたワードに関する前記認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む、補正装置であって、
    前記間違って認識されたワードの少なくとも1つを少なくとも1つの補正ワードと置き換えるために、手動入力される前記少なくとも1つの補正ワードを受け取るための入力手段と、
    少なくとも前記入力された補正ワードを音素シーケンスに音声学的に転写するためのトランスクリプション手段と、
    前記認識されたテキストの前記ワードの音素シーケンスの中の前記少なくとも1つの補正ワードの前記音素シーケンスを見つけ出し、ワードの音素シーケンスが前記少なくとも1つの補正ワードの前記音素シーケンスと本質的に合致する前記認識されたテキスト中の少なくとも1つの該ワードの位置を識別する位置情報を出すためのサーチ手段と、
    前記認識されたテキスト情報の中の前記位置情報によって識別される前記少なくとも1つのワードのマーキングを可能にするように前記位置情報を送出するための出力手段と、
    を有する補正装置。
  2. 補正ワードが手動入力されるとき、前記話されたテキストの前記話されたワードが音響的に再生され、前記話されたワードに関する前記認識されたテキストの前記認識されたワードが同時に視覚的にマークされる同期再生を中断するように設計される、請求項1に記載の補正装置。
  3. 前記位置情報により識別される前記少なくとも1つのワードの前記少なくとも1つの補正ワードとの置き換えが確認の手動入力により確かめられると、前記同期再生の前記中断を終了するように設計される、請求項2に記載の補正装置。
  4. 前記サーチ手段が、前記少なくとも1つの補正ワードの前記音素シーケンスについて、前記認識されたテキストのサーチエリアに含まれるワードの音素シーケンスをサーチするように設計され、前記サーチエリアが、前記同期再生の中断前に前記認識されたテキストの中の最後にマークされたワードの前Mワード及び後ろNワードによって規定される、請求項2に記載の補正装置。
  5. 前記サーチ手段が、前記少なくとも1つの補正ワードの前記音素シーケンスについて、前記話されたテキストの前記話されたワードから前記音声認識装置によって決定された音素シーケンスをサーチするように設計される、請求項1に記載の補正装置。
  6. 前記音声認識装置の一部を形成するように設計される、請求項5に記載の補正装置。
  7. 前記サーチ手段が、本質的に合致する音素シーケンスについてのサーチにおいて、前記比較される音素シーケンスと異なるが似たように聞こえる音素を無視するように設計される、請求項1に記載の補正装置。
  8. 話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正方法であって、前記話されたテキストの話されたワードに関する前記認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む、補正方法であって、
    前記間違って認識されたワードの少なくとも1つを少なくとも1つの補正ワードと置き換えるために、手動入力される前記少なくとも1つの補正ワードを受け取るステップと、
    少なくとも前記入力された補正ワードを音素シーケンスに音声学的に転写するステップと、
    前記少なくとも1つの補正ワードの前記音素シーケンスについて、前記認識されたテキストの前記ワードの音素シーケンスをサーチし、ワードの音素シーケンスが前記少なくとも1つの補正ワードの前記音素シーケンスと合致する前記認識されたテキスト中の少なくとも1つの該ワードの位置を識別する位置情報を出すステップと、
    前記認識されたテキスト情報の中の前記位置情報によって識別される前記少なくとも1つのワードのマーキングを可能にするように前記位置情報を送出するステップと、
    を含む補正方法。
  9. 補正ワードが手動入力されると、前記話されたテキストの前記話されたワードが音響的に再生され、前記認識されたテキストの前記認識されたワードが前記話されたワードに関して同時に視覚的にマークされる同期再生を中断する他のステップが実施される、請求項8に記載の補正方法。
  10. 前記位置情報によって識別される前記少なくとも1つのワードの前記少なくとも1つの補正ワードとの置き換えが確認の手動入力によって確かめられると、前記同期再生の中断を終了する他のステップが実施される、請求項9に記載の補正方法。
  11. 前記少なくとも1つの補正ワードの前記音素シーケンスについて、前記認識されたテキストのサーチエリアに含まれるワードの音素シーケンスをサーチする他のステップが実施され、前記サーチエリアは、前記同期再生の中断前に前記認識されたテキストの中の最後にマークされたワードの前Mワード及び後ろNワードによって規定される、請求項9に記載の補正方法。
  12. 前記少なくとも1つの補正ワードの前記音素シーケンスについて、前記話されたテキストの前記話されたワードから前記音声認識装置によって決定された音素シーケンスをサーチする他のステップが実施される、請求項8に記載の補正方法。
  13. 本質的に合致する音素シーケンスをサーチする他のステップであって、前記比較される音素シーケンスと異なるが似たように聞こえる音素が無視されるステップが実施される、請求項8に記載の補正方法。
JP2003529447A 2001-09-17 2002-09-10 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 Expired - Fee Related JP4241376B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01000468 2001-09-17
PCT/IB2002/003688 WO2003025904A1 (en) 2001-09-17 2002-09-10 Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word

Publications (2)

Publication Number Publication Date
JP2005503590A JP2005503590A (ja) 2005-02-03
JP4241376B2 true JP4241376B2 (ja) 2009-03-18

Family

ID=8176063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003529447A Expired - Fee Related JP4241376B2 (ja) 2001-09-17 2002-09-10 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正

Country Status (7)

Country Link
US (1) US6735565B2 (ja)
EP (1) EP1430474B1 (ja)
JP (1) JP4241376B2 (ja)
CN (1) CN1235188C (ja)
AT (1) ATE311650T1 (ja)
DE (1) DE60207742T2 (ja)
WO (1) WO2003025904A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10062385B2 (en) 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263483B2 (en) * 2003-04-28 2007-08-28 Dictaphone Corporation USB dictation device
US7310602B2 (en) * 2004-09-27 2007-12-18 Kabushiki Kaisha Equos Research Navigation apparatus
JP4784120B2 (ja) * 2005-03-23 2011-10-05 日本電気株式会社 音声書き起こし支援装置及びその方法ならびにプログラム
US9020811B2 (en) * 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US8423366B1 (en) * 2012-07-18 2013-04-16 Google Inc. Automatically training speech synthesizers
CN103714048B (zh) 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
KR101892734B1 (ko) * 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition
CN110675866B (zh) * 2014-04-22 2023-09-29 纳宝株式会社 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US9978370B2 (en) 2015-07-31 2018-05-22 Lenovo (Singapore) Pte. Ltd. Insertion of characters in speech recognition
US10049655B1 (en) 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
CN105827417A (zh) * 2016-05-31 2016-08-03 安徽声讯信息技术有限公司 一种用于会议记录并可随时修改的语音速记装置
US10019986B2 (en) 2016-07-29 2018-07-10 Google Llc Acoustic model training using corrected terms
CN106710597B (zh) * 2017-01-04 2020-12-11 广东小天才科技有限公司 语音数据的录音方法及装置
CN106875949B (zh) * 2017-04-28 2020-09-22 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
CN109145281B (zh) * 2017-06-15 2020-12-25 北京嘀嘀无限科技发展有限公司 语音识别方法、装置及存储介质
CN110770819B (zh) 2017-06-15 2023-05-12 北京嘀嘀无限科技发展有限公司 语音识别系统和方法
JP7173049B2 (ja) * 2018-01-10 2022-11-16 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10269376B1 (en) * 2018-06-28 2019-04-23 Invoca, Inc. Desired signal spotting in noisy, flawed environments
US10832679B2 (en) 2018-11-20 2020-11-10 International Business Machines Corporation Method and system for correcting speech-to-text auto-transcription using local context of talk
US11790916B2 (en) 2020-05-04 2023-10-17 Rovi Guides, Inc. Speech-to-text system
US11532308B2 (en) * 2020-05-04 2022-12-20 Rovi Guides, Inc. Speech-to-text system
CN112530402B (zh) * 2020-11-30 2024-01-12 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
US20230386472A1 (en) * 2022-05-27 2023-11-30 Microsoft Technology Licensing, Llc Phoneme-based text transcription searching

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6269335B1 (en) * 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6064961A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
JP2003518266A (ja) * 1999-12-20 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのテキスト編集用音声再生
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10062385B2 (en) 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection

Also Published As

Publication number Publication date
CN1555553A (zh) 2004-12-15
US6735565B2 (en) 2004-05-11
ATE311650T1 (de) 2005-12-15
DE60207742D1 (de) 2006-01-05
EP1430474B1 (en) 2005-11-30
EP1430474A1 (en) 2004-06-23
JP2005503590A (ja) 2005-02-03
DE60207742T2 (de) 2006-08-03
CN1235188C (zh) 2006-01-04
US20030061043A1 (en) 2003-03-27
WO2003025904A1 (en) 2003-03-27

Similar Documents

Publication Publication Date Title
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
US7376560B2 (en) Speech recognition device to mark parts of a recognized text
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US7143033B2 (en) Automatic multi-language phonetic transcribing system
US6708148B2 (en) Correction device to mark parts of a recognized text
CN108231065A (zh) 多语者语音识别校正系统
US7617106B2 (en) Error detection for speech to text transcription systems
JPH10133684A (ja) 音声認識中に代替ワードを選択する方法及びシステム
JP4960596B2 (ja) 音声認識の方法およびシステム
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2021529337A (ja) 音声認識技術を利用した多者間対話記録/出力方法及びこのため装置
JP2006351028A (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
JPH10133685A (ja) 連続音声認識中にフレーズを編集する方法及びシステム
US20170270923A1 (en) Voice processing device and voice processing method
JPH10173769A (ja) 音声メッセージ検索装置
JP2003504675A (ja) 転送手段を有するスピーチ認識装置
JP3277579B2 (ja) 音声認識方法および装置
JP2000122678A (ja) 音声認識機器制御装置
JP2002244694A (ja) 字幕送出タイミング検出装置
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP2001005482A (ja) 音声認識方法及び装置
JP2000259177A (ja) 音声出力装置
EP1422691B1 (en) Method for adapting a speech recognition system
JP2001134276A (ja) 音声文字化誤り検出装置および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4241376

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees