JP4241376B2

JP4241376B2 - 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正

Info

Publication number: JP4241376B2
Application number: JP2003529447A
Authority: JP
Inventors: ウォルフガングゲシュヴェントナー
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-09-17
Filing date: 2002-09-10
Publication date: 2009-03-18
Anticipated expiration: 2022-09-10
Also published as: DE60207742T2; WO2003025904A1; CN1235188C; EP1430474B1; EP1430474A1; DE60207742D1; US20030061043A1; CN1555553A; ATE311650T1; JP2005503590A; US6735565B2

Description

本発明は、話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正装置であって、話されたテキストの話されたワードに関する認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む補正装置に関する。

本発明は更に、話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正方法であって、話されたテキストの話されたワードに関する認識されたテキストが、正しく認識されたワード及び間違って認識されたワードを含む補正方法に関する。

このような補正装置及びこのような補正方法は、ディクテーション装置が開示されている米国特許第５，９０９，６６７号公報から既知である。既知のディクテーション装置は、音声認識ソフトウェア及びワードプロセシングソフトウェア（以下、ワープロソフトと呼ぶ）を動作させるコンピュータによって形成される。既知のディクテーション装置のユーザは、コンピュータに接続されたマイクロフォンに向かってテキストを話すことができる。音声認識機能を形成する音声認識ソフトウェアは、既知のワードを、話されたテキストのそれぞれの話されたワードに割り当て、これによって、話されたテキストについて、認識されたテキストが得られる。認識されたテキストは、ユーザが実際に話したワードに合致するいわゆる正しく認識されたワードと、ユーザが実際に話したワードに合致しないいわゆる間違って認識されたワードとを含む。認識されたテキストは、ワードプロセシング機能を形成するワープロソフトによって、コンピュータに接続されたスクリーン上に表される。

既知のディクテーション装置は更に、ワープロソフト及び音声認識ソフトウェアの双方を含む補正装置を形成し、この補正装置を用いて、間違って認識されたワードが正しく認識されたワードと置き換えられることができる。この目的のため、ユーザは、間違って認識されたワードをマークし、コンピュータのキーボードを用いて１つ又は複数の補正ワードを入力し、確認をエンターする。その結果、間違って認識されたワードが、入力された補正ワードと置き換えられる。

置き換えられるべき間違って認識されたワードをマークすることを簡略化するために、既知のディクテーション装置のユーザは、置き換えられるべき間違って認識されたワード、いわゆるマーカワードを、もう一度マイクロフォンに向かって話すことができる。すると音声認識ソフトウェアは、この話されたマーカワードについて認識されたマーカワードを認識し、ワープロソフトは、認識されたマーカワードについて認識されたテキストのワードをサーチする。認識されたマーカワードが、認識されたテキスト中のワードの文字シーケンスの比較を通して見つけられる場合、ワードプロセシング装置はこのマーカワードをマークする。ユーザは、マーカワードを話したのち、置き換えられるべきワードが実際にマークされたかどうかをチェックしなければならない。置き換えられるべきワードがマークされた場合、ユーザは、置き換えを実現するために、キーボードを使用して補正ワード及び確認を入力する。

既知のディクテーション装置を用いると、音声認識ソフトウェアにとって認識するのが困難であるのはまさに認識されたテキストに含まれる間違って認識されたワードであり、それゆえマーカワードの認識に際し高いエラーレートがまた生じてしまうという不利益が明らかになった。その結果、間違って認識されたワードではなくむしろ認識されたテキスト情報の他のワードが、かなり頻繁に置き換えのためにマークされてしまい、これは付加的な作業を意味する。既知のディクテーション装置の他の不利益として、間違って認識されたワードを置き換えるために、ユーザがかなり多くのさまざまなアクション（マイクロフォン及びキーボード）を実行しなければならないことが分かった。

本発明の目的は、前述の不利益が回避される第１の段落に明示されるような補正装置及び第２の段落に明示されるような補正方法を生み出すことである。

上述の目的を達成するため、本発明の特徴は、以下のように特徴付けられるような補正装置において与えられる。話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正装置であって、話されたテキストの話されたワードに関する認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む補正装置は、間違って認識されたワードの少なくとも１つを少なくとも１つの補正ワードと置き換えるために、手動入力される少なくとも１つの補正ワードを受け取るための入力手段と、少なくとも入力された補正ワードを音素シーケンスに音声学的に転写（変換）するためのトランスクリプション手段と、認識されたテキストのワードの音素シーケンスの中から少なくとも１つの補正ワードの音素シーケンスを見つけ出し、ワードの音素シーケンスが少なくとも１つの補正ワードの音素シーケンスと本質的に合致する認識されたテキスト中の少なくとも１つの前記ワードの位置を識別する位置情報を出す（生じさせる）ためのサーチ手段と、認識されたテキスト情報の中の位置情報によって識別される少なくとも１つのワードのマーキングを可能にするように前記位置情報を送出するための出力手段とを有する。

上述の目的を達成するために、本発明の特徴は、以下のようにして特徴付けられるような補正方法において与えられる。話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正方法であって、話されたテキストの話されたワードに関する認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む補正方法は、間違って認識されたワードの少なくとも１つを少なくとも１つの補正ワードと置き換えるために、手動入力された少なくとも１つの補正ワードを受け取るステップと、少なくとも入力された補正ワードを音素シーケンスに音声学的に転写するステップと、少なくとも１つの補正ワードの音素シーケンスについて、認識されたテキストのワードの音素シーケンスをサーチし、ワードの音素シーケンスが少なくとも１つの補正ワードの音素シーケンスと本質的に合致する認識されたテキスト中の少なくとも１つの前記ワードの位置を識別する位置情報を出す（生じさせる）ステップと、認識されたテキスト情報の中の位置情報によって識別される少なくとも１つのワードのマーキングを可能にするように位置情報を送出するステップとが処理されることを含む。

本発明は、音声認識装置によって間違って認識されたワードと、実際に認識されなければならなかったワード、すなわち正しく認識されるべきワードとが、非常に多くの場合非常に似たように聞こえるという認識に基づく。このような似たように聞こえるワード、具体的には例えば「ｆｏｕｒ」及び「ｆｏｒ」のようなワードの場合、既知の音声認識装置のエラーレートは多くの場合特に高い。

本発明による特徴の結果、ユーザは、実際に認識されなければならなかった補正ワードと置き換えたいと思う間違って認識されたワードをマークする必要がない。補正装置は、統計的な方法によって、入力された補正ワードの音素シーケンスを決定し、この音素シーケンスは補正ワードの音（サウンド）を表す。音素シーケンスを比較することによって、補正装置は、認識されたテキストの中の補正ワードと似たように（同様に）聞こえるワードをサーチする。

有利には、認識されたテキスト情報の中の非常に高い可能性で置き換えられるべきである間違って認識されたワードは、こうして補正ワードの入力によって自動的にマークされる。ユーザは、確認を入力することによって、マークされたワードの置き換えを実施することができ、又は、次の情報を入力することによって認識されたテキスト情報の他の似たように聞こえるワードのマーキングを生じさせることができる。

音声認識装置の既知の補正装置は、間違って認識されたワードの補正のために話されたワード及び認識されたテキストの関連付けられた認識されたワードの同時再生を可能にする。これらの既知の補正装置のユーザは、間違って認識されたワードに気付くと、同期再生を中断し、間違って認識されたワードのユーザによって入力されたワードとの置き換えを実行する。ユーザは、認識されたテキストの中の他の間違って認識されたワードを見つけ出し補正するために、再び同時再生を起動させる。

請求項２及び請求項９の方策によると、ユーザが補正ワードを入力し始めるとすぐに同期再生が自動的に中断されるという利点が得られる。

請求項３及び請求項１０の方策によると、ユーザが、自動的にマークされたワードが入力された補正ワードと置き換えられなければならないことを確認の入力によって確認するとすぐに、同期再生の中断が再び自動的に終了されるという利点が得られる。

同期再生において、補正装置のユーザは、ワードの環境において間違って認識されたワードを認識する。そのようなワードは、同期再生中に音響的に再生され、視覚的にマークされる。請求項４及び請求項１１の方策によると、サーチ手段は、似たように聞こえるワードについて中断時に認識されたテキストの中のマークされたワードのすぐ近傍を最初に調べ、これを最初にマークするという利点が得られる。ユーザが次の情報を入れることによって他のサーチを始める場合、サーチエリアが広げられる。

音声認識プロシージャにおいて、音声認識装置は、まず、話されたテキストに関連付けられた音素シーケンスを決定し、この音素シーケンスに基づいて、認識されたテキストを認識する。請求項５及び請求項１２の方策によると、補正ワードの音素シーケンスを探すサーチにおいて、サーチ手段は、音声認識装置によって既に決定された音素シーケンスを使用するという利点が得られる。これは、補正装置が音声認識装置の一部を形成する場合に特に有利である。

サーチ手段の信頼性を高めるため、非常に似たように聞こえる音素はサーチにおいて同一の音素とみなされることが有利であることが分かった。こうして、例えば英語の単語の音素シーケンスにおいて、音素「ｖ」及び「ｆ」並びに「ｔ」及び「ｄ」は、サーチ手段によるサーチにおいて同一であるとみなされる。

本発明は、実施例を参照して以下に更に詳しく説明されるが、本発明はその実施例に限定されない。

図１は、音声認識装置２、ワープロ装置３及び補正装置４を形成するコンピュータ１を示す。音声認識装置２及び補正装置４は、コンピュータ１によって処理される音声認識ソフトウェアと共に形成され、ワープロ装置３は、コンピュータ１によって処理されるワープロソフトと共に形成される。

マイクロフォン５、スピーカ６、モニタ７及びキーボード８は、コンピュータ１に接続される。コンピュータ１のユーザは、マイクロフォン５に向かってテキストを話すことができ、するとこの話されたテキストを含む話されたテキスト情報ＧＴＩは、音声認識装置２の音声認識手段９にアナログオーディオ信号として出力される。

音声認識手段９は、長く知られているように、話されたテキスト情報ＧＴＩに関連すべき認識されたテキスト情報ＥＴＩを認識するように設計される。この目的のため、音声認識手段９は、話されたテキスト情報ＧＴＩをデジタルオーディオデータとして初期記憶レベル１０に記憶する。音声認識手段９による音声認識プロシージャの処理において、音声認識手段９は、まず、音素を含む音素シーケンスを話されたテキスト情報ＧＴＩに関連させる。一般に知られていているように、音素は、小さい音響（アコースティック）単位であり、ワードの音素シーケンスは、話されたワードの音響的な印象（効果）を再生する。例えば「ＤＡＹＳ」という語には、音素シーケンス「ｄＹｚ」が割り当てられる。

音声認識プロシージャの後続する処理において、話されたテキスト情報ＧＴＩから決定された音素シーケンスは、多数のワードの各々について関連する音素シーケンスが記憶されている辞書メモリの中をサーチされる。検出された音素シーケンスが辞書（語彙目録）メモリの中に見つけられた場合、関連する記憶されたワードは、高い可能性をもって認識されたワードとして決定される。検出された音素シーケンスに関する高い可能性をもって認識されたワードのシーケンスは、音声モデルメモリの中をサーチされ、高い可能性をもって認識されたワードの最も可能性があるシーケンスが、話されたテキスト情報ＧＴＩに関する認識されたテキスト情報として第２の記憶レベル１１に記憶される。

認識されたテキスト情報ＥＴＩは、ユーザが実際に話したワードと合致するいわゆる正しく認識されたワードによって形成される正しく認識されたテキスト情報ＲＥＴＩを含む。認識されたテキスト情報ＥＴＩはまた、ユーザが実際に話したワードと合致しないいわゆる間違って認識されたワードによって形成される間違って認識されたテキスト情報ＦＥＴＩを含む。音声認識装置９によって間違って認識されたワードと、実際に認識されなければならなかったワード、すなわち話されたワードとは、多くの場合、以下により詳しく述べるように非常に似たように聞こえる。

音声認識プロシージャにおいて、更にリンク情報ＬＩが決定され、第３のメモリレベル１２に記憶される。リンク情報ＬＩは、話されたテキスト情報ＧＴＩのそれぞれのワードについて、認識されたテキスト情報ＥＴＩの関連付けられた認識されたワードを識別し、以下により詳しく述べるように同期再生動作モードを可能にする。上述の音声認識プロシージャは長く知られており、これ以上詳しく論じない。

ワープロ装置３は、第２のメモリレベル１１に記憶された認識されたテキスト情報ＥＴＩを読み取り、この認識されたテキスト情報ＥＴＩを含む画面情報ＢＩをモニタ７に出力するように設計される。補正情報は、キーボード８から、補正装置４の入力手段１３を通してワープロ装置３に渡されることができ、それにより認識されたテキスト情報ＥＴＩが編集され又は変更され、これは、補正装置４の第４のメモリレベル１４に記憶されることができる補正されたテキスト情報ＫＴＩを規定する。

同期再生動作モードが起動させられると、コンピュータ１は、モニタ７上に表された認識されたテキスト情報ＥＴＩのワードを自動的にマークするとともに、リンク情報ＬＩによって割り当てられた話されたワードをスピーカ６を通して同期してすなわち同時に音響再生するように設計される。このために、ワープロ装置３は、認識されたテキスト情報ＥＴＩ、話されたテキスト情報ＧＴＩ及びリンク情報ＬＩを対応するメモリレベル１０、１１及び１２から読み取る。

同期再生動作モードが起動させられると、ユーザは、たった今音響的に再生された話されたワードについて、表されたマークされたワードが正しく認識されたかどうかチェックすることができる。この機能は、「同期再生」として知られ、例えば米国特許第５，０３１，１１３号明細書に記載されており、それゆえここではこれ以上詳しく論じない。

補正装置４は更に、入力手段１３、第４のメモリレベル１４、第５のメモリレベル１５、トランスクリプション手段１６及びサーチ手段１７を有する。トランスクリプション手段１６は、統計的な方法によってワードを音声学的に転写するように設計される。辞書メモリに記憶されているワードに割り当てられた記憶された音素シーケンスは、これらの手段により読み取られる。辞書メモリに記憶されていないワードは別々の音節（シラブル）に分けられ、辞書メモリからこれらの音節の音素を集める（アセンブルする）ことによって関連付けられた音素シーケンスが決定される。

同期再生動作モードが、キーボード８上のキーを押すことによってコンピュータ１において起動させられると、トランスクリプション手段１６は、第２のメモリレベル１１から認識されたテキスト情報ＥＴＩを読み取り、認識されたテキスト情報ＥＴＩ全体の音声転写（音声表記、phonetic transcription）を実行する。認識されたテキスト情報ＥＴＩの音声転写の結果、トランスクリプション手段１６は、認識されたテキスト情報ＥＴＩに関する音素情報ＰＩ（ＥＴＩ）を出す。この音素情報ＰＩ（ＥＴＩ）は、認識されたテキストのワードに関する音素シーケンスを含み、第５のメモリレベル１５に記憶される。

入力手段１３は更に、認識されたテキストの間違って認識されたワードを補正ワードと置き換えるために、キーボード８を用いて手動で入力される補正ワードの補正情報ＫＷＩを受け取るように設計される。トランスクリプション手段１６は更に、補正情報ＫＷＩを音声転写し、補正情報ＫＷＩに関する音素情報ＰＩ（ＫＷＩ）を出すように設計される。この目的のため、補正情報ＫＷＩは、トランスクリプション手段１６に供給されることができる。

トランスクリプション手段１６は、サーチ手段１７に補正情報ＫＷＩに関する音素情報ＰＩ（ＫＷＩ）を出すように設計される。サーチ手段１７は、認識されたテキストのワードの音素シーケンスの中の少なくとも１つの補正ワードの音素シーケンスを見つけ、ワードの音素シーケンスが少なくとも１つの補正ワードの音素シーケンスと本質的に合致する認識されたテキスト中の少なくとも１つの前記ワードの位置を識別する位置情報ＰＩを出すように設計される。

サーチ手段１７は更に、認識されたテキスト情報ＥＴＩの中の位置情報ＰＩによって識別される少なくとも１つのワードをマークすることを可能にするように位置情報ＰＩを送出するための手段を形成する。この目的のため、サーチ手段は、ワープロ手段３にマークされるべき１つ又は複数のワードに関する位置情報ＰＩを渡し、ワープロ手段３は、対応する画面情報ＢＩをモニタ７に渡す。以下、本発明による補正装置の他の機能及び利点について、コンピュータ１に関して図２乃至図５に示される適用例に基づき更に詳しく説明する。

適用例において、コンピュータ１のユーザは、マイクロフォン５に向かって「ＯＮＥＴＷＯＴＨＲＥＥＦＯＵＲＦＩＶＥＳＩＸＳＥＶＥＮＥＩＧＨＴＮＩＮＥＴＥＮ」というワードを話すものとする。音声認識手段９の音声認識プロシージャにおいて、認識されたワード「１２３ＦＯＲ５６７ＤＡＹＳ９ＴＨＥＮ」の認識されたテキスト情報ＥＴＩが、対応する話されたテキスト情報ＧＴＩに関連付けられる。

認識されたテキスト情報ＥＴＩは、間違って認識されたワード「ＦＯＲ」、「ＤＡＹＳ」及び「ＴＨＥＮ」に関する間違って認識されたテキスト情報ＦＥＴＩを含む。表１から分かるように、間違って認識されたワードと実際に認識されなければならなかった話されたワードとの音素シーケンスは非常に似ており、こういうわけで音声認識手段９が認識の間違いをした。

適用例において、更に、ユーザはキーボード８上のキーを押すことによって同期再生動作モードを起動させるものとする。図２に示す画面情報ＢＩがモニタ７上に表される。同期再生動作モードが起動させられると、モニタ７上の表示は、補正エディタと補正ウィンドウとに分割される。補正エディタは、同期再生動作モードの起動のすぐあと、認識されたテキストの認識されたテキスト情報ＥＴＩと合致する補正されたテキストの補正されたテキスト情報ＫＴＩを示す。補正ウィンドウは、キーボード８を用いてユーザにより入れられる補正ワードを示す。以下、これらについて詳しく論じる。

同期再生動作モードの起動の直後、ワープロ手段３は、話されたテキスト情報ＧＴＩの第１のワード「ＯＮＥ」の音響再生で始まり、マーカ情報ＭＩを用いて、認識されたテキスト情報ＥＴＩの関連付けられた認識されたワード「１」をマークする。こうして、ユーザは、認識されたワードが話されたワードと実際に合致するということを非常に容易に知ることができる。

話されたテキスト情報ＧＴＩの第４のワード「４」が音響再生され視覚的にマークされると、ユーザは、このワードが間違って認識されたことに気づき、実際に認識されなければならなかったワード「４」を補正ワード又は補正情報ＫＷＩとしてキーボード８上に入力する。

補正装置４は、ユーザがキーボード８を用いて補正ワードを入力し始めると、同期再生動作モードを自動的に中断するように有利に設計される。この結果、話されたテキスト情報ＧＴＩの音響再生が中断され、図３に見られるように、カーソル情報ＣＩがマーカ情報ＭＩの現在位置に示される。従って、有利には、ユーザは同期再生動作モードを中断するためにいかなる他のキーも押す必要がない。

同期再生動作モードの起動の直後、トランスクリプション手段１６は、認識されたテキスト情報ＥＴＩを転写し、こうして決定された認識されたテキスト情報ＥＴＩに関する音素情報ＰＩ（ＥＴＩ）を第５のメモリレベル１５に記憶した。ユーザが補正ワードを入力するとすぐに、トランスクリプション手段１６は、入力された補正情報ＫＷＩを転写し、補正情報ＫＷＩに関する決定された音素情報ＰＩ（ＫＷＩ）をサーチ手段１７に渡す。

サーチ手段１７は、認識されたテキスト情報ＥＴＩの音素情報ＰＩ（ＥＴＩ）の中の補正ワードの補正情報ＫＷＩに関する音素情報ＰＩ（ＫＷＩ）を探すために、カーソル情報ＣＩの現在位置の前Ｍ＝５ワード及び後ろＮ＝３ワードの調整可能なサーチエリアをサーチし始める。音素情報ＰＩ（ＫＷＩ）＝「ｆｏｒ」は、認識されたテキスト情報ＥＴＩのサーチエリア内の間違って認識されたテキスト情報ＦＥＴＩの音素情報ＰＩ（ＥＴＩ）「ｆｏｒ」と合致するので、サーチ手段１７は、認識されたテキスト情報ＥＴＩの第４のワードの位置を位置情報ＰＩとして決定する。サーチ手段１７は、決定された位置情報ＰＩをワープロ装置３に渡し、すると図４に示すように、間違って認識されたワード「ＦＯＲ」が、マーカ情報ＭＩを用いてマークされる。

これは、ユーザが、間違って認識されたワードに気づき同期再生動作モードを中断したのち、置き換えられるべき間違って認識されたワードをマークする必要がないという利点をもつ。有利には、間違って認識されたワード「ＦＯＲ」を入力された補正ワード「４」と置き換えるために、ユーザは確認を入れるだけでよい。これは、例えばキーボード８の「ＥＮＴＥＲ」キーを押すことによって行うことができる。従って、間違って認識されたワードの実際に認識されなければならなかったワードとの置き換えは、とりわけ簡潔で迅速なやり方で実行されることができる。

有利には、同期再生動作モードの中断が更に、確認の入力によって終了され、それにより認識されたテキスト情報ＥＴＩの関連付けられた認識されたワードの同期音響再生及び視覚的なマーキングが再び始められる。

補正情報ＫＷＩの音素情報ＰＩ（ＫＷＩ）を探して認識されたテキスト情報ＥＴＩの音素情報ＰＩ（ＥＴＩ）のサーチエリア内をサーチすることは、同じワードが認識されたテキストの中の異なる場所に再び現れる場合に置き換えられるべき間違って認識されたワードが特定の信頼性をもって見つけられるという利点を生む。サーチがサーチエリアにおいて成功しない場合、サーチ手段１７は、サーチエリアを段階的に広げるように有利に設計される。

図４にマークされたワードが、ユーザが入力された補正ワードと置き換えたいと思うワードでない場合、ユーザは、適用可能であれば、サーチ手段１７が広げられたサーチエリアを再びサーチするように次の情報ＮＩを入力することができる。サーチ手段１７が以前にマークされなかった別のワードの音素情報ＰＩ（ＥＴＩ）とＰＩ（ＫＷＩ）との満足のいく合致を検出するとすぐに、サーチ手段１７は、この検出されたワードの位置を位置情報ＰＩとしてワープロ装置３に渡す。

これは、補正装置４によって自動的にマークされたワードがユーザが入力された補正ワードと置き換えたいと思うワードでない場合、ユーザは、キーボード８上のただ１つのキーを押すことによって、ワードの音素情報ＰＩ（ＥＴＩ）が補正ワードの音素情報ＰＩ（ＫＷＩ）との緊密な合致を示すサーチエリア内の別の前記ワードの自動的なマーキングを生じさせることができるという利点をもたらす。

本質的に合致する音素シーケンスを探すサーチにおいて、サーチ手段１７は、比較される音素シーケンスと異なるが似たように聞こえる音素を無視するように作られる。ここで、例えば音素「ｏ」及び「＠」は、音が非常に似ているものとして分類されるので、これらの２つの音素のみが異なる比較される音素シーケンスは合致すると判断される。

これは、サーチ手段１７が、認識されたテキスト情報ＥＴＩのワードをマークするために、音素シーケンスにたとえ小さい差があっても比較されるという結果に達するという利点を与える。

代替例として、サーチ手段１７は、音声認識プロシージャの処理において音声認識手段によって決定された音素情報を、認識されたテキスト情報ＥＴＩに関する音素情報ＰＩ（ＥＴＩ）として使用することができることを述べることができる。これは、トランスクリプション手段が認識されたテキスト情報ＥＴＩを転写する必要がなく、第５のメモリレベルが設けられる必要がないという利点をもたらす。

更に、音声認識装置の一部として補正装置を設け、補正装置によって同期再生動作モードを実行させることは特に有利である。それゆえ「Word for Windows（Ｒ）」のような市販されているワープロソフトが使用されてもよい。

１つ又はいくつかの間違って認識されたワードをすぐに置き換えるために、いくつかのワードが補正情報ＫＷＩとして入れられてもよいことが留意されるべきである。

サーチエリアがコンピュータユーザによって設定されてもよいことが留意されるべきである。こうしてユーザは、例えばＮ＝１乃至Ｎ＝５００及びＭ＝１乃至Ｍ＝５００の範囲内のいかなる値をも実際に選択することができる。

代替例として、音声転写は、サーチエリアにおいて見つけられるべき認識されたテキスト情報ＥＴＩのワードに関してのみ有利に実行されることができることが留意されるべきである。

本発明による補正装置は、職業的なトランスクリプションサービスに関して特に有利に使用されることができることが留意されるべきである。これは、このようなトランスクリプションサービスにおけるトランスクライバが音声認識装置により間違って認識されたワードだけを手動で補正し、間違って認識されたワード及び認識されるべき実際に話されたワードの音素シーケンスが非常に似ているという条件が実際に常に満たされるからである。

音声認識ソフトウェア及びワープロソフトを処理し、話されたテキストについて音声認識装置によって認識されたテキストを補正するための補正装置を形成するコンピュータを示す図。図１のコンピュータの補正装置によってモニタ上に表される画面情報を示す図。図１のコンピュータの補正装置によってモニタ上に表される画面情報を示す図。図１のコンピュータの補正装置によってモニタ上に表される画面情報を示す図。図１のコンピュータの補正装置によってモニタ上に表される画面情報を示す図。

Claims

話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正装置であって、前記話されたテキストの話されたワードに関する前記認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む、補正装置であって、
前記間違って認識されたワードの少なくとも１つを少なくとも１つの補正ワードと置き換えるために、手動入力される前記少なくとも１つの補正ワードを受け取るための入力手段と、
少なくとも前記入力された補正ワードを音素シーケンスに音声学的に転写するためのトランスクリプション手段と、
前記認識されたテキストの前記ワードの音素シーケンスの中の前記少なくとも１つの補正ワードの前記音素シーケンスを見つけ出し、ワードの音素シーケンスが前記少なくとも１つの補正ワードの前記音素シーケンスと本質的に合致する前記認識されたテキスト中の少なくとも１つの該ワードの位置を識別する位置情報を出すためのサーチ手段と、
前記認識されたテキスト情報の中の前記位置情報によって識別される前記少なくとも１つのワードのマーキングを可能にするように前記位置情報を送出するための出力手段と、
を有する補正装置。
補正ワードが手動入力されるとき、前記話されたテキストの前記話されたワードが音響的に再生され、前記話されたワードに関する前記認識されたテキストの前記認識されたワードが同時に視覚的にマークされる同期再生を中断するように設計される、請求項１に記載の補正装置。
前記位置情報により識別される前記少なくとも１つのワードの前記少なくとも１つの補正ワードとの置き換えが確認の手動入力により確かめられると、前記同期再生の前記中断を終了するように設計される、請求項２に記載の補正装置。
前記サーチ手段が、前記少なくとも１つの補正ワードの前記音素シーケンスについて、前記認識されたテキストのサーチエリアに含まれるワードの音素シーケンスをサーチするように設計され、前記サーチエリアが、前記同期再生の中断前に前記認識されたテキストの中の最後にマークされたワードの前Ｍワード及び後ろＮワードによって規定される、請求項２に記載の補正装置。
前記サーチ手段が、前記少なくとも１つの補正ワードの前記音素シーケンスについて、前記話されたテキストの前記話されたワードから前記音声認識装置によって決定された音素シーケンスをサーチするように設計される、請求項１に記載の補正装置。
前記音声認識装置の一部を形成するように設計される、請求項５に記載の補正装置。
前記サーチ手段が、本質的に合致する音素シーケンスについてのサーチにおいて、前記比較される音素シーケンスと異なるが似たように聞こえる音素を無視するように設計される、請求項１に記載の補正装置。
話されたテキストに関する音声認識装置によって認識されたテキストを補正するための補正方法であって、前記話されたテキストの話されたワードに関する前記認識されたテキストが正しく認識されたワード及び間違って認識されたワードを含む、補正方法であって、
前記間違って認識されたワードの少なくとも１つを少なくとも１つの補正ワードと置き換えるために、手動入力される前記少なくとも１つの補正ワードを受け取るステップと、
少なくとも前記入力された補正ワードを音素シーケンスに音声学的に転写するステップと、
前記少なくとも１つの補正ワードの前記音素シーケンスについて、前記認識されたテキストの前記ワードの音素シーケンスをサーチし、ワードの音素シーケンスが前記少なくとも１つの補正ワードの前記音素シーケンスと合致する前記認識されたテキスト中の少なくとも１つの該ワードの位置を識別する位置情報を出すステップと、
前記認識されたテキスト情報の中の前記位置情報によって識別される前記少なくとも１つのワードのマーキングを可能にするように前記位置情報を送出するステップと、
を含む補正方法。
補正ワードが手動入力されると、前記話されたテキストの前記話されたワードが音響的に再生され、前記認識されたテキストの前記認識されたワードが前記話されたワードに関して同時に視覚的にマークされる同期再生を中断する他のステップが実施される、請求項８に記載の補正方法。
前記位置情報によって識別される前記少なくとも１つのワードの前記少なくとも１つの補正ワードとの置き換えが確認の手動入力によって確かめられると、前記同期再生の中断を終了する他のステップが実施される、請求項９に記載の補正方法。
前記少なくとも１つの補正ワードの前記音素シーケンスについて、前記認識されたテキストのサーチエリアに含まれるワードの音素シーケンスをサーチする他のステップが実施され、前記サーチエリアは、前記同期再生の中断前に前記認識されたテキストの中の最後にマークされたワードの前Ｍワード及び後ろＮワードによって規定される、請求項９に記載の補正方法。
前記少なくとも１つの補正ワードの前記音素シーケンスについて、前記話されたテキストの前記話されたワードから前記音声認識装置によって決定された音素シーケンスをサーチする他のステップが実施される、請求項８に記載の補正方法。
本質的に合致する音素シーケンスをサーチする他のステップであって、前記比較される音素シーケンスと異なるが似たように聞こえる音素が無視されるステップが実施される、請求項８に記載の補正方法。