JP4336580B2

JP4336580B2 - 認識されたテキストの一部をマークする補正装置

Info

Publication number: JP4336580B2
Application number: JP2003537052A
Authority: JP
Inventors: ウォルフガングゲシュヴェントナー; クレシミルラジク
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-10-12
Filing date: 2002-10-10
Publication date: 2009-09-30
Anticipated expiration: 2022-10-10
Also published as: US20030110030A1; EP1442452B1; WO2003034405A1; DE60209518T2; EP1442452A1; CN1568501A; ATE319161T1; CN1312612C; JP2005505805A; US6708148B2; DE60209518D1

Description

本発明は、話されたテキストから音声認識装置によって認識されたテキストを補正するための補正装置であって、認識されたテキストが、話されたテキストの話されたワードについて正しく認識されているワードと、該話されたワードについて正しく認識されていないワードとを含む補正装置に関する。

本発明は、話されたテキストから音声認識装置によって認識されたテキストを補正するための補正方法に関し、認識されたテキストが、話されたテキストの話されたワードについて正しく認識されているワードと、該話されたワードについて正しく認識されていないワードとを含む補正方法に関する。

この種の補正装置及びこの種の補正方法は米国特許第５，０３１，１１３号公報から既知であり、この公報にはディクテーティング装置が開示されている。既知のディクテーティング装置は、音声認識ソフトウェア及びテキスト処理ソフトウェアを走らせるコンピュータによって形成される。既知のディクテーティング装置のユーザは、コンピュータに接続されたマイクロフォンに向かって話されたテキストを話すことができる。音声認識装置を形成する音声認識ソフトウェアは、音声認識プロセスを実施し、その際、認識されたワードを話されたテキストのそれぞれの話されたワードに割り当てる。この結果、話されたテキストについて、認識されたテキストが得られる。更に、音声認識プロセス中、話されたテキストのそれぞれの話されたワードについて認識された認識されたテキストのワードにフラグを立てるリンク情報が決定される。

既知のディクテーティング装置は更に、間違って認識されたワードが補正装置を用いて補正ワードと置き換えられることができる該補正装置を形成する。この目的のため、補正装置のユーザは、補正装置の同期再生モードを起動することができ、この同期再生モードにおいて、話されたテキストが音響的に再生され、これと同時に、リンク情報によってフラグを立てられた認識されたテキストのワードが視覚的に強調される（すなわちマークされる）。同期再生モードは、実際に、音声認識装置によって認識されたテキストの補正に特に有利であることがわかった。更に、多くのユーザは、同期再生モードの助けにより認識されたテキスト全体をチェックするわけではなく、テキストの特定の部分のみをチェックすることが分かった。これらの特定の部分は、例えばテキストのうち特に重要であって絶対にエラーがないようにしなければならない部分であり、又はテキストのうち音声認識ソフトウェアにとって認識するのが特に困難であり、それゆえ多数の間違って認識されたワードを含む可能性がある部分でありうる。

既知の補正装置において、認識されたテキストを補正装置を用いて補正したのち、ユーザは、同期再生モードの助けにより認識されたテキストのどの部分が補正されたか及びどの部分がなお補正されなければならないかを決定する方法をもたないことが不利益であることが分かった。

本発明の目的は、上述の不利益が回避されるような上述の第１段落に規定された種類の補正装置及び上述の第２段落に規定された種類の補正方法を提供することである。

上述の目的を達成するため、この種の補正装置について本発明による特徴が提案され、そのような補正装置は、以下に詳細に記述される態様において特徴付けられることができる。

話されたテキストから音声認識装置によって認識されたテキストを補正するための補正装置であって、話されたテキストのそれぞれの部分に関するリンク情報のアイテムが関連する認識されたテキストにフラグを立てる補正装置は、少なくとも話されたテキスト及び認識されたテキストを記憶するためのメモリ手段と、同期再生モードが補正装置において起動されるとき、話されたテキストを音響的に再生し、同時に、リンク情報によってフラグを立てられる関連する認識されたテキストを視覚的にマークするための再生手段と、認識されたテキスト及び／又は話されたテキストのうち同期再生モードが起動されたとき再生手段によって少なくとも一度再生された部分にフラグを立てるマーキング情報をメモリ手段に記憶するためのマーキング手段と、を有する。

上述の目的を達成するため、上述の種類の補正方法について本発明による特徴が提案され、そのような補正方法は、以下に詳しく記述される態様において特徴付けられることができる。

話されたテキストから音声認識装置によって認識されたテキストを補正するための補正方法であって、話されたテキストのそれぞれの部分に関するリンク情報のアイテムが関連する認識されたテキストにフラグを立てる補正方法において、少なくとも話されたテキスト及び認識されたテキストを記憶するステップと、同期再生モードが起動されるとき、話されたテキストを音響的に再生し、同時に、リンク情報によってフラグを立てられる関連する認識されたテキストを視覚的にマークするステップと、認識されたテキスト及び／又は話されたテキストのうち同期再生モードが起動されたときすでに少なくとも一度再生された部分にフラグを立てるマーキング情報を記憶するステップとが実施される。

本発明による特徴は、認識されたテキスト及び／又は話されたテキストのうち、同期再生モードが起動されたとき音響的に再生され視覚的にマークされた部分が、マーキング情報によってフラグを立てられることを達成する。このようにして、有利には、補正装置は、認識されたテキストのうち同期再生モードの助けによりすでに一度補正された部分を視覚的にマークし、又は話されたテキストの関連する部分を音響的にマークすることを可能にする。これは、本発明による補正装置のユーザが、認識されたテキストをより一層効率的に補正することを可能にする。

請求項２及び請求項８の規定は、話されたテキストのうち、音声認識装置又は補正装置によって抑制情報としてフラグを立てられた所望されない部分が、同期再生モード中に音響的に再生されないという利点を提供する。こうしてユーザは、同期再生モードの間、話されたテキストの重要な部分及び認識されたテキストの関連する部分に一層満足に集中することができる。また、音響再生は速められることができ、それによって有利には、認識されたテキストがより迅速に補正されうる。

請求項３及び請求項９の規定は、話されたテキストの特定の部分が、所望されないが、すなわちユーザが話されたテキストのそのような部分を２回目に又はより多くの回数聞くときになお再生されるという利点を提供する。これが特に有利であるのは、多くの場合、この種の話されたテキストの所望されない部分により、間違って認識されたワードが音声認識プロセスが実行されるときに認識されるようになるとともに、ユーザが、テキストのこれらの所望されない部分を聞くことによって、本当に認識されなければならなかったワードに関して一層容易に結論を導くことができるからである。

請求項４の規定は、抑制情報によって所望されないものとしてマークしてあることが特に有利である話されたテキストの部分のリストを提供する。こうして、テキストのこのような所望されない部分は、話されたテキストのうちユーザがディクテーティング中にポーズ（＝無音）をおく部分、ユーザがワードを繰り返した部分、又はユーザが次の文章について考えるときに例えばあー（aah）、んー（mm..）のようないわゆる言いよどみサウンド（hesitating sound）を発した部分である。

請求項５の規定は、補正装置が、補正装置のユーザの作業をチェックしなければならないユーザ又は人のために、同期再生モードにおいて、すでに少なくとも一度再生され、それゆえ補正された認識されたテキストの部分を視覚的にマークするという利点を有する。その結果、専門的なトランスクリプションサービスは、効果的な品質管理を提供することができる。

請求項６の規定は、認識されたテキスト及び関連する話されたテキストがすでに同期再生モード中に一度再生されたか否かに依存して、補正装置に属する位置付け手段が、同期再生モードが中断されたときにマークされるワードのＮワード又はＭワード上流にテキストカーソルを位置付けるという利点を提供する。規定される数は、例えばＭ＝３及びＮ＝１でありえる。この結果として、間違って認識されたワードが認識されたテキストにおいて初めて見つけられるとき、補正者のより長い応答時間が許される。同期再生モードが一旦中断されると、テキストカーソルは、補正されるべき間違って認識されたワードに通常すでに位置付けられており、それゆえテキストカーソルを手動で位置付けるために要する時間が節約されるので、上述の規定は特に有利である。

本発明は、１つの実施例を例示として示す図面を参照してより詳しく記述されるが、本発明はこれに限定されない。

図１は、話されたテキストＧＴを認識されたテキストＥＴに転写し、認識されたテキストＥＴのうち正しく認識されなかった部分を編集するためのトランスクリプション装置１を示している。トランスクリプション装置１は、第１のコンピュータによって並びに第２及び第３のコンピュータによって形成される。第１のコンピュータは、音声認識ソフトウェアを走らせ、音声認識装置２を形成する。第２及び第３のコンピュータはそれぞれテキスト処理ソフトウェアを走らせ、テキストの正しく認識されなかった部分を補正するために第１の補正装置３及び第２の補正装置４を形成する。本発明によるトランスクリプション装置は、音声認識装置及び補正装置の双方を形成するただ１つのコンピュータによって形成されることもできることを述べることができる。そのようなコンピュータは、音声認識ソフトウェア及びテキスト処理ソフトウェアの双方を走らせる必要がある。

音声認識装置２を形成する第１のコンピュータにはマイクロフォン５が接続され、話されたテキストＧＴを表すオーディオ信号Ａはマイクロフォン５から送り出されることができる。音声認識装置２は、Ａ／Ｄコンバータ６、音声認識手段７、メモリ手段８、パラメータメモリ手段９、コマンドメモリ手段１０及び適応化段１１を有する。マイクロフォン５によって送り出されるオーディオ信号ＡはＡ／Ｄコンバータ６に供給されることができ、Ａ／Ｄコンバータ６はオーディオ信号ＡをデジタルオーディオデータＡＤに変換する。

話されたテキストＧＴを表すオーディオデータＡＤは音声認識手段７に供給されることができ、それによってメモリ手段８に記憶されることができる。音声認識プロセスが音声認識手段７によって実施されているとき、音声認識手段７は、認識されたテキストＥＴを決定し、その際、パラメータメモリ手段９に記憶されているパラメータ情報ＰＩが考慮に入れられる。パラメータ情報ＰＩは、この例ではボキャブラリ情報、言語モデル情報及び音響情報を含む。

ボキャブラリ情報は、音声認識手段７によって認識されることができるすべてのワードと、関連する音素シーケンスとを含む。言語モデル情報は、話されたテキストＧＴの言語において通常使用されるワードシーケンスに関する統計情報を含む。音響情報は、トランスクリプション装置１のユーザの発音の特徴に関する情報と、マイクロフォン５及びＡ／Ｄコンバータ６の音響特性に関する情報とを含む。

米国特許第５，０３１，１１３号公報の開示は、参照によって本発明の開示に盛り込まれるものとする。この種のパラメータ情報ＰＩを考慮した音声認識プロセスの実施は、前述の米国特許公報に開示されているので、その詳細な記述はここに示されない。音声認識プロセスの結果として、認識されたテキストＥＴを含むテキストデータが音声認識手段７によってメモリ手段８に記憶されることができる。

音声認識プロセスの実施中、話されたテキストＧＴのそれぞれの部分について音声認識手段７によって認識される関連するテキストＥＴにフラグを立てるリンク情報ＬＩもまた、音声認識手段７によって決定されることができる。リンク情報ＬＩの生成は、米国特許第５，０３１，１１３号公報に同様に開示されており、この理由のためここに詳細に記述されない。

図２において、作成者（author、話者）すなわち音声認識装置２のユーザによってマイクロフォン５に向かって話されたテキストＧＴが、時間軸ｔに沿って記号的な形式で図示されている。この話されたテキストＧＴについて音声認識手段７によって認識されたテキストＥＴも図示されている。音声認識プロセスが実施されているとき、話されたテキストＧＴは、関連する音響情報を含むオーディオセグメントＡＳに分割される。この種の関連する音響情報は、例えばワード、２つのワード間の長めの音声ポーズ、「あー（aah）」又は「んー（mm）」のようないわゆる言いよどみサウンド、又はノイズでありうる。

リンク情報ＬＩは、話されたテキストＧＴのそれぞれのオーディオセグメントＡＳ及び認識されたテキストＥＴの関連するセグメントＴＳの始め及び終わりにフラグを立てる。第１のオーディオセグメントＡＳ１は、例えば話されたテキストＧＴの第１のワード「The」について１．５秒間つづく音響情報を含み、リンク情報ＬＩによって割り当てられる第１のテキストセグメントＴＳ１は、音声認識手段７によって認識されたワード「The」のテキストを含む。

コマンドメモリ段１０は、音声認識装置２によって認識されるワードのシーケンス（以後、ワードシーケンスと呼ぶ）をコマンドとして記憶する。コマンドメモリ段１０に記憶されるコマンドテーブルＢＴの一部が図３に示されている。コマンドテーブルＢＴを参照することにより、音声認識手段７は、「next word bold」なるワードシーケンスを、例えば認識されたテキストＥＴにおける次のワードがボールド体で示されるようにするためのコマンドとして認識する。コマンドテーブルＢＴにおいて、このコマンドにはコマンド番号ＢＩ１２が割り当てられる。「insert text of module 1」なるワードシーケンスは、同様に、このケースではコマンドメモリ段１０の位置「２３４１」のメモリ位置に記憶されたテキストモジュールから標準テキストが認識されたテキストＥＴに挿入されるようにするためのコマンドとして認識される。

音声認識手段７は第１のマーキング段１２を更に有し、この第１のマーキング段１２は、マーキング情報ＭＩのさまざまな異なるアイテムを自動的に決定し、そのように決定されたマーキング情報ＭＩのアイテムをメモリ手段８に記憶するように構成される。マーキング情報ＭＩのアイテムは、認識されたテキストＥＴ及び話されたテキストＧＴのうち、テキストのそのようにマークされた部分すべてに共通する特定の特性を有する部分にフラグを立てる。「自動的」なる語は、「トランスクリプション装置１のユーザによるいかなるアクションもなしで」という意味としてこのコンテキストにおいて理解されるべきである。第１のマーキング段１２は、ポーズマーキング情報ＰＭＩによって長めの音声ポーズを、言いよどみサウンドマーキング情報ＨＭＩによって言いよどみサウンドを、コマンドマーキング情報ＣＭＩによってコマンドを、反復マーキング情報ＲＭＩによって反復されたワードを、日付マーキング情報ＤＭＩによって日付を、ノイズマーキング情報ＧＭＩによってノイズを、自動的にマークするように構成される。

図４は、メモリ手段８に記憶されるマーキングテーブルＭＴを示しており、マーキングテーブルＭＴには、第１のマーキング段１２によって自動的に決定されたマーキング情報ＭＩのアイテムが第１のマーキング段１２によって入力される。認識されたテキストＥＴにおけるコマンドを自動的にマークするために、第１のマーキング段１２は、コマンドテーブルＢＴに含まれるワードシーケンスを、認識されたテキストＥＴに含まれるワードシーケンスと比較する。コマンドテーブルＢＴに含まれるワードシーケンスが認識されたテキストＥＴに見つけられると、第１のマーキング段１２は、このワードシーケンスを識別する認識されたテキストＥＴのテキストセグメントＴＳと、関連するコマンド番号ＢＩとを、マーキングテーブルＭＴにコマンドマーキング情報ＣＭＩとして入力する。これは、適用例を参照して以下により詳しく記述される。

マーキングテーブルＭＴにおいて認識されたテキストＥＴの特定のテキストセグメントＴＳを識別するのではなく、話されたテキストＧＴの適当なオーディオセグメントＡＳがそれぞれのケースにおいて入力されることも可能であることを述べることができる。それぞれのケースにおいて関連付けられるオーディオセグメントＡＳ及びテキストセグメントＴＳは、リンク情報ＬＩの助けによって決定されることができる。

音声認識手段７は、２つのワード間の音声ポーズ（無音）を認識するように構成され、第１のマーキング段１２は、マーキングテーブルＭＴにおいて話されたテキストＧＴの対応するオーディオセグメントＡＳをポーズマーキング情報ＰＭＩにより自動的にマークするように構成される。

第１のマーキング段１２は、第１のマーキング段１２に記憶された言いよどみサウンド（例えば「あー（aah）」又は「んー（mhh）」）を、認識されたテキストＥＴに含まれるワードと比較し、このような言いよどみサウンドを含む認識されたテキストＥＴのテキストセグメントＴＳを言いよどみサウンドマーキング情報ＺＭＩにより自動的にマークするように構成される。

第１のマーキング段１２は更に、話されたテキストＧＴのオーディオセグメントＡＳがノイズ及び／又はサウンドを含む場合、話されたテキストＧＴのこれらオーディオセグメントＡＳをノイズマーキング情報ＧＭＩにより自動的にマークするように構成される。この目的のため、マーキング段１２は、ノイズ及び／又はサウンドを、ワードを含むオーディオセグメントと区別することができるノイズ検出器を有する。

認識されたテキストＥＴにおける反復されたワードを反復マーキング情報ＲＭＩによりマークするために、第１のマーキング段１２は、認識されたテキストＥＴにおいて次々と続くワード又はワードシーケンスを比較するように構成される。マーキングテーブルＭＴは更に、適用例を参照してより詳しく以下に示される日付マーキング情報ＤＭＩを含む。

トランスクリプション装置１の第１の補正装置３は再生手段１３を有し、再生手段１３は、メモリ手段８及びコマンドメモリ段１０と共に、テキスト処理ソフトウェアを走らせる第２のコンピュータによって形成される。更に第２のコンピュータには、モニタ１４、キーボード１５及びスピーカ１６が接続され、これらは、第１の補正装置３にも同様に関連付けられる。再生手段１３は、同期再生モードが第１の補正装置３において起動されるとき、話されたテキストＧＴを音響的に再生し、同時に、リンク情報ＬＩによってフラグを立てられる関連する認識されたテキストＥＴを視覚的又は光学的にマークするように構成される。

起動された同期再生モードにおける認識されたテキストＥＴの補正は再び米国特許第５，０３１，１１３号公報に開示されており、実際に非常に有利であることがわかった。このケースでは、補正者すなわち認識されたテキストＥＴを補正している第１の補正装置３のユーザは、作成者によってマイクロフォン５に向かって話されたテキストＧＴを聞くことと、その話されたテキストＧＴについて音声認識手段７によって認識されたテキストＥＴをチェックし又は編集することが同時に可能である。認識されたテキストＥＴは、モニタ１４上に光学的に表示され、ちょうど音響的に再生された話されたワードについて音声認識手段７によって認識されたワードは、再生手段１３によって光学的にマークされ、それゆえモニタ１４に表示される。補正者は、同期再生モードを起動させ、中断し、停止させることができるとともに、認識されたテキストＥＴをキーボード１５を用いて編集することができる。

第２の補正装置４の構造は、図１に詳しく示された第１の補正装置３の構造とほぼ同じであり、この理由で、第２の補正装置４は、図１に単にブロックとして図示されている。しかしながら、第２の補正装置４は、音声認識装置２とは物理的に異なる。この理由で、第２の補正装置４は更に、第１の補正装置３により補正された認識されたテキストＥＴが編集される前に、メモリ手段８及びコマンドメモリ段１０に記憶された情報が記憶されるメモリ手段及びコマンドメモリ手段を有する。

第２の補正装置４は、例えば検査者、すなわち第２の補正装置４のユーザによって使用されることができる。検査者は、メモリ手段８に記憶された認識されたテキストＥＴが補正者によって補正されたのち、補正者によってなされた作業の品質をチェックする。この目的のため、検査者は、認識されたテキストＥＴにおけるエラーを補正者が見逃がしたかどうかチェックする。このような検査者は主にトランスクリプション会社によって雇われており、そのような会社は、補正された認識されたテキストをランダムにチェックすることによって転写されたテキストの品質を保証する。これは、トランスクリプション装置１の適用例を参照して詳しく記述される。

トランスクリプション装置１の再生手段１３は、第２のマーキング段１７を更に有し、この第２のマーキング段１７は、キーボード１５及び第１のマーキング段１２と共に、話されたテキストＧＴ又は認識されたテキストＥＴの一部を自動的に及び手動でマークするためのマーキング手段を形成する。第２のマーキング段１７により、補正者は、認識されたテキストＥＴを補正する際、自動的にマークされなかったテキストの他の部分を手動でマークする機会をもつ。

テキストの一部のこの手動マーキングは、すでに自動的にマークされたテキストの部分と同じ特性をもつ認識されたテキストＥＴの部分を手動でマークするために使用されることができ、これによりパラメータ情報ＰＩ又はコマンドテーブルＢＴに記憶された情報が、適応化段１１の助けにより適応化されることを可能にする。この適応化により、第１のマーキング段１２は、手動でマークされたテキストの部分を次回は自動的にマークすることができるようになる。加えて、音声認識装置２の認識率が、それぞれの適応化ごとに改善される。その結果、トランスクリプション装置は、それぞれの更なる使用により、補正者が果たさなければならない作業をますます低減することができるという利点が得られる。

テキストの一部のこの手動のマーキングは、テキストの一部を削除されるものとしてマークするために使用されることもできる。このようなテキストの一部は、作成者に伝えられる認識されたテキストには現れないが、それにもかかわらず全面的に削除されるわけではない。テキストの一部を削除されるものとしてマークすることは、テキストのこのような部分が必要に応じて後になって認識されたテキストに再び含められることができるとともに、検査者がテキストのこれらの部分が削除されることが正しかったかどうかチェックすることができるという利点をもつ。しかしながら、認識されたテキストＥＴのどの部分も実際には削除されていないので、話されたテキストＧＴと認識されたテキストＥＴとの間のリンク情報ＬＩによって提供される関係はまったく損なわれないままであることは特に有利である。それゆえ、同期再生モードが起動されるとき、削除されるものとしてマークされた話されたテキストＧＴの部分が音響的に再生されている間に、テキストの削除される部分に代わって置き換えテキストが光学的にマークされることができる。これについては以下に詳しく記述される。

こうして同じ特性を持つテキストの部分の手動マーキングによりテキストの一部の自動マーキングを補足することは、編集された認識されたテキストＥＴが特に効率的なやり方で更に編集されることができるという他の利点をもつ。こうして、例えば、認識されたテキストのうち日付としてマークされたすべての部分のフォーマッティングは特に効率的に一様に修正されることができる。これについては、以下に詳しく記述される。

マーキング手段の第２のマーキング段１７は更に、メモリ手段８に再生マーキング情報ＷＭＩを記憶するように構成される。この再生マーキング情報ＷＭＩは、起動された同期再生モード中に再生手段１３によって少なくとも一度再生された認識されたテキストＥＴ及び／又は話されたテキストＧＴの部分にフラグを立てる。

この結果、マーキングテーブルＭＴに含まれる再生マーキング情報ＷＭＩを評価することによって、再生手段１３は、認識されたテキストＥＴのうち同期再生モードの助けにより一度すでに補正された部分を視覚的にマークし、又は話されたテキストＧＴの関連する部分を音響的にマークすることができるという利点が得られる。その結果、本発明による補正装置のユーザは、認識されたテキストをより一層効率的に補正することができる。これについては適用例を参照して以下に詳しく記述される。

再生手段１３は更に、同期再生モードが起動されるとき、話されたテキストＧＴの所望されない部分の音響再生を抑制するように構成される。このような所望されない部分は、メモリ手段８に記憶された抑制情報によってフラグを立てられる。この場合、補正者は、キーボード１５を使用して、マーキングテーブルＭＴに含まれるマーキング情報ＭＩのどのアイテムが抑制情報として使用されるべきかを設定することができる。ユーザは、例えばポーズマーキング情報ＰＭＩ及び言いよどみサウンドマーキング情報ＨＭＩを抑制情報として選択することができ、そのようにマークされたテキストの部分は、話されたテキストＧＴが初めて再生されるときに抑制される。これについては適用例を参照して詳しく記述される。

以下、トランスクリプション装置１の利点について図３乃至図９に示される適用例を参照して詳しく説明される。図５は、作成者によってマイクロフォン５に向かって話されたテキストＧＴの５つの部分を示している。図６は、話されたテキストＧＴの５つの部分について音声認識手段７によって認識されたテキストＥＴを示しており、ここで、認識されたテキストＥＴの一部はすでに第１のマーキング段１２によって自動的にマークされている。更に図６には、第２のマーキング段１７の助けにより補正者によって手動でマークされたテキストの部分が示されている。図７は、テキストの自動的に及び手動でマークされた部分が置き換えテキストと置き換えられて示されている形式で、認識されたテキストＥＴを示している。図８は、テキストのすべてのマークされた部分が抑制された形式で、認識されたテキストＥＴを示しており、認識されたテキストＥＴはこの形式で作成者に伝えられる。

第１の例において、作成者は、マイクロフォンに向かってテキスト「...company PHILIPS....」と言い、同時に、ワード「PHILIPS」をボールド体としてマークすること望んだ。しかしながら、ワード「company」ののち、作成者は、ボールドフォーマッティング用のコマンドのための言い方は正確にはどんなであるかを少しの間思案し、多くの作成者と同じように、思案するときに言いよどみサウンド「aah」を発する。作成者はそれから「bold next」と言うが、そのように言うとき、このコマンドのための正しいワードシーケンスが「next word bold」であることに気づき、このため「no」と言う。作成者はそれから正しいコマンド「next word bold」と言い、ワード「PHILIPS」とテキストを続ける。

図６から分かるように、音声認識手段７は、オーディオセグメントＡＳ３についてテキストセグメントＴＳ３＝「aah」を認識し、マーキングテーブルＭＴの第４行において、第１のマーキング段１２は、この言いよどみサウンドを言いよどみサウンドマーキング情報ＨＭＩにより自動的にマークする。言いよどみサウンドの代わりに、図６には置き換えテキスト「<hes>」が示されており、これにより、補正者は、言いよどみサウンドがこの点でマークされていることを見ることができる。補正者が、認識されたテキストＥＴを編集する際にこの置き換えテキスト上に再生手段１３のテキストカーソルを位置付ける場合、音声認識手段７によって認識された言いよどみサウンドが表示される。この結果、補正者は、補正する際に認識されたテキストＥＴの重要な部分に集中することができるが、補正者は、言いよどみサウンドに隣接するワードを補正することができるようにするため作成者がここでどんな言いよどみサウンドを発したかを知りたいと思う場合、補正者は、この言いよどみサウンドをいかなるときにも見ることができるという利点が得られる。

更に、音声認識手段７は、オーディオセグメントＡＳ７−ＡＳ９について、テキストセグメントＴＳ７−ＴＳ９によって形成されるワードシーケンス「next word bold」を認識し、これらのテキストセグメントＴＳ７−ＴＳ９に対して、コマンドテーブルＢＴにおいてコマンド番号ＢＩ１２をもつコマンドが割り当てられる。有利には、第１のマーキング段１２は、これらのテキストセグメント及びこのコマンド番号を、マーキングテーブルＭＴの第４行にコマンドマーキング情報ＣＭＩとして自動的に入力する。図６にはこれらのテキストセグメントの代わりに置き換えテキスト「<com>」が図示されており、この結果として前述の利点が得られる。更に、コマンドＢＩ１２が実行され、オーディオセグメントＡＳ１０について認識されたテキストセグメントＴＳ１０を形成するワード「PHILIPS」がボールド体で表示される。

補正者は、キーボード１５及び第２のマーキング段１７を使用して、テキストセグメントＴＳ４及びＴＳ５をコマンド番号ＢＩ１２をもつコマンドとしてマークし、これによって、ワードシーケンス「bold next」は、次回、第１のマーキング段１２によってコマンドとして自動的に認識される。図７において、テキストのこの部分は、コマンドに関する置き換えテキスト「<com>」によって同様に表わされている。

第２のマーキング段１７は、コマンド番号ＢＩ１２を使用して、このワードシーケンスＴＳ４＋ＴＳ５をコマンドマーキング情報ＣＭＩとしてマーキングテーブルＭＴの第５行に入力する。適応化モードが音声認識装置２において起動されると、適応化段１１は、メモリ手段８から新しいコマンドマーキング情報ＣＭＩを読み取り、コマンド番号ＢＩ１２をもつコマンドについてコマンドテーブルＢＴに更なるエントリを設ける。

これは、補正者が特に容易に且つ効率的に他のワードシーケンスをコマンドとして規定することができ、このようなワードシーケンスが適応化モードにおいて音声認識装置２によって引き継がれるという利点を与える。こうして、音声認識プロセスが次に実施されるとき、ワードシーケンス「bold next」はコマンドとして自動的に認識される。

補正者は、キーボード１５及び第２のマーキング段１７によって、テキストセグメントＴＳ６「no」を削除されるテキストとしてマークすることを続ける。補正者は、作成者がこのワードを意図せずに言い、これが作成者に伝えられる最終のテキストに含められるべきではないことが分かっているからである。この削除されるテキストに関する置き換えテキスト「<skip>」が図７に示されている。

コマンド番号ＢＩ１２をもつコマンドは二度生じるべきでないので、補正者は更に、テキストセグメントＴＳ４−ＴＳ６を削除されるテキストとしてマークすることができることを述べることができる。

削除されるテキストとしてテキストセグメントＴＳ６を手動でマークすることは、リンク情報ＬＩによって与えられる相関関係が例えば第２の補正装置４により実施される後続の同期再生モード中にも完全に保存され、それゆえ同期再生がいかなるエラーもなく行われるという利点を与える。

図８は、第１の例において作成者に最終的に伝えられる認識されたテキスト「....company PHILIPS....」を示しており、このテキストは、言いよどみサウンド、意図せずに話された１つのワード及び間違ったコマンドにもかかわらず作成者が本当に意味したものである。

第２の例において、作成者がマイクロフォン５に向かって話したいと思うテキストは「....I fixed the left leg....」であるが、このケースでは、作成者は、オーディオセグメントＡＳ２０ののち思案し、３秒間黙っている。これは、第１のマーキング段１２によってポーズとして自動的に認識され、ポーズマーキング情報ＰＭＩとしてマーキングテーブルＭＴに入力される。図６には、思案のためのこのポーズに関する置き換えテキスト「<sil>」が示されている。

ポーズに続いて、作成者はワード「I」を反復し、これは、第１のマーキング段１２によって反復されたワードとして自動的に認識され、反復マーキング情報ＲＭＩとしてマーキングテーブルＭＴに入力される。図６には、テキストセグメントＴＳ２２に関する置き換えテキスト「<rep>」が示されている。

反復されたワードに続いて、作成者は、「fixed the left」と言い、思案のために別のポーズをおき、最後に「the left leg」と言う。思案のためのポーズは、第１のマーキング段１２によって再び自動的にマークされるが、ワード「the left」の反復は、自動的に認識されることができず、マークされることができない。ここで補正者は、テキストセグメントＴＳ２６−ＴＳ２８を反復されたワードとして手動でマークし、こうして対応する反復マーキング情報ＲＭＩがマーキングテーブルＭＴに入力されるようにする。

図８は、第２の例において作成者に最終的に伝えられる認識されたテキスト「...the left leg...」を示しており、これは、反復されたワード及び思案のためのポーズにもかかわらず作成者が本当に意味したものである。自動マーキングに加えて実施された手動マーキングの結果として、すべての反復されたワードは、認識されたテキストにおいてマークされ、更なる処理では、それらは例えばすべてディスプレイ上で抑制され又は適応化モードのために使用されることができる。

第３の例において、作成者がマイクロフォン５に向かって言いたいテキストは、「...and company PHILIPS will...」であるが、作成者は、ワード「and」ののち、くしゃみをする必要がある。従って、オーディオセグメントＡＳ５１は、作成者がくしゃみをするときに発するノイズを含む。音声認識手段７は、このオーディオセグメントＡＳ５１についてワードを認識することができず、この理由で、第１のマーキング段１２は、自動的に、このオーディオセグメントＡＳ５１をノイズマーキング情報ＧＭＩによりノイズとしてマークし、マーキングテーブルＭＴにそのように入力する。図６には、置き換えテキスト「<non sp>」が示されている。

くしゃみに続いて、作成者は、ハンカチを見つけるのに５秒かかり、それから鼻をかむ。オーディオセグメントＡＳ５２は、ポーズとして自動的にマークされ、マーキングテーブルＭＴにそのように入力される。作成者が鼻をかむときに発するノイズは、ノイズ「tata」に似ており、この理由で、音声認識手段７は、テキストセグメントＴＳ５３としてワード「that」を間違って認識する。

有利には、補正者は、同期再生モードが起動されるとこのエラーを直ちに認識し、テキストセグメントＴＳ５３をノイズマーキング情報ＧＭＩによりノイズとして手動でマークすることができる。これによって、第３の例において、認識されたテキストＥＴにおけるすべてのノイズは実際にそのようにマークされ、これらはすべて、他の処理段階中に同じように処理されることが可能であるという利点が得られる。第１のマーキング段１２のノイズ検出器は、例えば、テキストのこれらマークされた部分により適応化されることができ、それによってこのようなそのノイズは将来は自動的に認識されることができる。

第４の例において、作成者は、実際にディクテートしている間に、コマンドメモリ段１０に名前「モジュールｌ」の下でテキストモジュールとして記憶されている標準テキストを、認識されたテキストＥＴに挿入することを望む。この目的のため、作成者は、「...is the best. Insert text module one. All...」とディクテートする。認識されるテキストセグメントＴＳ７３−ＴＳ７６は、コマンド番号ＢＩ１３をもつコマンドとして認識され、図６には置き換えテキスト「<module 1>」が示されている。

これは、テキストモジュールが特に簡単なやり方で認識されたテキストＥＴに自動的に挿入されたという利点を与える。有利には、補正者又は検査者は、このケースでは３種類の表示の中から選択することができる。補正者又は検査者は、実際に認識されたテキストであるテキストセグメントＴＳ７３−ＴＳ７６、置き換えテキスト、又は図８に見られるコマンドメモリ段１０から加えられる標準テキストを見ることができる。

第５の例において、作成者がマイクロフォン５に向かって話すテキストは、「...tenth of October two thousand and one...」である。第１のマーキング段１２が自動的に認識し、日付としてマークしたワードシーケンスは、「October tenth two thousand and one」であった。しかしながら、話されたワードシーケンスは日付として認識されず、この理由のため、補正者は、テキストセグメントＴＳ８０−ＴＳ８６を日付マーキング情報ＤＭＩにより日付としてマークする。

これは、認識されたテキストにおいて日付として自動的に又は手動でマークされたテキストのすべての部分のフォーマットが後続の処理動作において特に容易に且つ統一されたやり方で変更されることができるという利点を与える。このために、補正者は、例えば日付マーキング情報ＤＭＩによりマークされたすべての日付がフォーマット「MM.DD.YYYY」で示されることを選択することができる。

第１の補正装置３の適用例は図９を参照して説明される。この例において、補正者が同期再生モードを起動させ、そのとき、話されたテキストＧＴ及び認識されたテキストＥＴが同時に、オーディオセグメントＡＳ１及びテキストセグメントＴＳ１からそれぞれ始まって初めて再生されるものとする。これは、矢印Ｐ１によって記号的に表されている。補正者は、一度目の再生中、ポーズマーキング情報ＰＭＩ、言いよどみサウンドマーキング情報ＨＭＩ及びノイズマーキング情報ＧＭＩによりマークされるテキストの部分に対するオーディオセグメントが音響的に再生されないように再生手段１３を構成した。これは、補正者が、話されたテキストＧＴを特に速く再生し、同じ時間により多くの認識されたテキストＥＴを補正することを可能にする。

再生中、マーキングテーブルＭＴにおける再生マーキング情報ＷＭＩは連続的に更新される。オーディオセグメントＡＳ５３（作成者が鼻をかむ）がちょうど音響的に再生されており、テキストセグメントＴＳ５３が視覚的にマークされているとき、補正者は、ワード「that」が正しく認識されなかったことを知る。図９には、このときのテキストカーソルの位置がＰ２によって記号的に示されている。しかしながら、補正者は、何が本当に認識されるべきであったかを確信していないので、オーディオセグメントＡＳ５０から始まる同期再生モードを再び起動させる。これは、図９において矢印Ｐ３によって記号的に示されている。

再生手段１３は、マーキングテーブルＭＴの第４行に入力された再生マーキング情報ＷＭＩから、オーディオセグメントＡＳ１乃至ＡＳ５３がすでに同期再生モードにおいて一度再生されたことを認識し、それゆえオーディオセグメントＡＳ５０乃至ＡＳ５３のすべてを音響的に再生する。これは、図９において矢印Ｐ４によって記号的に示されている。マークされたテキスト（ＰＭＩ、ＧＭＩ、ＨＭＩ）が音響再生中に再び抑制されるのは、オーディオセグメントＳ５４の再生から始まるときだけである（矢印Ｐ５参照）。

これにより、補正者が、認識されたテキストＥＴを正しく補正することを可能にするために利用できるすべてのマーキング情報を必要とするディクテーション中の節において、ディクテーションのすべてのオーディオセグメントＡＳが再生されるという利点が与えられる。補正者が一度だけ聞くことによって補正することができる他の節においては、不必要なオーディオセグメントＡＳが抑制される。

同様に、テキストのマークされた部分に関する置き換えテキストは、認識されたテキストＥＴが初めて再生されるときに有利に表示されることができ、再生が繰り返されるときだけ、実際に認識されたテキストＥＴへの切り替えが自動的に行われうる。

同期再生モードにおいてすでに一度再生されたテキストの部分の自動マーキングは更なる優れた利点をもつ。補正者が認識されたテキストＥＴをどれくらいよく補正したかをランダムサンプリングによって決定するのは検査者の仕事である。再生マーキング情報ＷＭＩはこの点で検査者にとって非常に有用である。これは、補正者が同期再生モードの助けによりテキストのどの部分をチェックし、テキストのどの部分をスキップし、それゆえ全くチェックしなかったかを検査者が直ちに確認することができるからである。こうして検査者は、認識されたテキストＥＴにエラーがあるかどうかを見るために、再生マーキング情報ＷＭＩによりマークされないテキストの部分を特別に調べることができる。

再生マーキング情報ＷＭＩは、補正者が自身の作業を中断され、あとからそれを続けたいと思う場合にも有利である。再生マーキング情報ＷＭＩによってフラグを立てられるテキストの音響的マーキング（例えば話されたテキストのバックグラウンドとしての連続トーン）又は視覚的マーキング（例えば反転文字で示される認識されたテキスト）の結果として、補正者は、直ちに自身の仕事を続けることができる。

第１の補正装置３は更に、同期再生モードが間違って認識されたワードを補正するために中断される場合、テキスト入力位置をマークするテキストカーソルが位置付けられることを可能にするために設けられる位置付け手段１８を有する。位置付け手段１８は、前記同期再生モードが中断されるとき認識されたテキストＥＴにおいてマークされるワードのＮワード手前にテキストカーソルを位置付ける。これは、認識されたテキストＥＴのこの部分が、再生マーキング情報ＷＭＩによりすでにマークされている場合である。位置付け手段１８はまた、同期再生モードが中断されるとき認識されたテキストＥＴにおいてマークされるワードのＭワード手前にテキストカーソルを位置付ける。これは、認識されたテキストＥＴのこの部分が、再生マーキング情報ＷＭＩによりマークされていない場合である。

例えば、規定される数字は、Ｍ＝３及びＮ＝１でありえる。この結果として、間違って認識されたワードが認識されたテキストＥＴにおいて初めて見つけられるとき、補正者のより長い応答時間が許される。これらの規定は、同期再生モードが一旦中断されると、テキストカーソルが通常、間違って認識されたワード上にすでに位置付けられており、テキストカーソルを手動で位置付けるために要する時間が節約されうるので、特に有利である。これは、当業者には明らかなＭ及びＮの有利な値の多くの他の組み合わせを与える。

位置付け手段１８が自己学習するように構成される場合は特に有利である。このケースでは、位置付け手段１８は、同期再生モードが中断されたあと補正者によって為される位置付けエントリからＮ及びＭに関する最適値を決定し（例えばテキストカーソルを２ワード先に又は５ワード後ろに置く）、それらの値を絶えずユーザの応答時間に適応化させる。

適応化段１１は更に、パラメータメモリ手段９に記憶されたパラメータ情報ＰＩを適応化させるために使用されることができる。これは、音声認識手段７の認識率が着実に改善され、認識されたテキストＥＴに含まれるエラーはより少なくなるという利点を与える。

上述の適用例から分かるように、個々のオーディオセグメント又はテキストセグメントは、マーキング情報ＭＩの１つ又は複数のアイテムによってマークされることができる。これは、認識されたテキストがいわゆるレベルにおいて有利な態様で処理されることを可能にする。この場合、コマンドに含まれる言いよどみサウンドは、例えば言いよどみサウンドとしてマークされる認識されたテキストＥＴの他のすべての部分と同様に編集されることができる（例えば抑制され、削除され、置き換えテキストが表示され、認識されたテキストが表示される）。これは、言いよどみサウンドを含むコマンドの編集を妨げることもない。テキストの一部がマーキング情報ＭＩの複数のアイテムによりマークされる場合、これらのレベルが光学的に表示されることも可能になる。

本発明によるテキストの自動及び手動マーキングは、マーキング情報ＭＩの複数の異なるアイテムにより実行されることができることを述べることができる。この種のマーキング情報ＭＩのアイテムは、例えば自動句読点（AutoPunctuation）、無音（Silence）、非音声（NonSpeech）、ノイズ、音楽、スペリング（Spelling）、言いよどみ（Hesitation）、挿入（Insertion）、数字形式（NumberFormatting）、日付形式（DateFormatting）、ヘッダ形式（HeaderFormatting）、列挙形式（EnumerationFormatting）、数量形式（QuantityFormatting）、自己補正（SelfCorrection）、フレーズ反復（PhraseRepetition）、どもり（Stutter）、散漫さ（Discursiveness）、スペリングシーケンス（SpellingSequence）、冗長フレーズ（RedundantPhrase）、不理解（NotUnderstood）、注釈（Remark）、削除、コマンドである。

テキストの一部のマーキングは、上述で説明されたようにテーブルによって実施されなくてもよく、代わりに木構造の形で行われてもよい。この場合、他のマークされたテキストセグメントを含むマークされたテキストセグメントは、木に似た形で枝の上に示される。

自動マーキングが、あとからではなく音声認識プロセスが実施されている間に行われることができることを述べることができる。

音声認識手段７によって困難を伴ってすなわちおそらく認識の多くのエラーを伴ってのみ認識されるテキストのすべての部分は、第１のマーキング段１２によって自動的にマークされることができ、同期再生モードにおいて補正者によって困難なものとして認識されるテキストのすべての部分は手動でマークされることができ、それによって話されたテキストの検査者又は作成者にチェックの目的でテキストのこれらのマークされた部分に対する注意を喚起する。これは、認識されたテキストに関する情報を渡す特に有利なやり方である。

話されたテキストを認識されたテキストに転写するためのトランスクリプション装置を示し、認識されたテキストを補正するための補正装置が設けられることを示す図。話されたテキストと、トランスクリプション装置によって認識された対応するテキストと、話されたテキストのそれぞれのオーディオセグメントに対する認識されたテキストの関連するセグメントにフラグを立てるリンク情報とを記号的な形式で示す図。トランスクリプション装置のコマンドメモリ段に記憶されるコマンドテーブルを示す図。トランスクリプション装置のメモリ手段に記憶されるマーキングテーブルを示す図。トランスクリプション装置のユーザによって話されたテキストの５つの例を記号的な形式で示す図。話されたテキストの５つの例についてトランスクリプション装置の音声認識手段によって認識されるテキストを記号的な形式で示し、認識されたテキストの一部が音声認識手段の第１のマーキング段によって自動的にマークされており、ユーザが第２のマーキング段により手動でテキストの他の部分をマークしていることを示す図。５つの例についてトランスクリプション装置の補正装置によって表示されるテキストを記号的な形式で示し、認識されたテキストのうち自動的にマークされたテキスト及び手動でマークされたテキストの双方が置き換えテキストとして表示されることを示す図。テキストのマークされた部分に関するすべての置き換えテキストが抑制されるとき、補正装置によって表示されるテキストを記号的な形式で示す図。話されたテキスト及び認識されたテキストの一度目及び後続の二度目の同期再生中にテキストのどの部分が再生されるかを記号的な形式で示す図。

Claims

話されたテキストから音声認識装置によって認識されたテキストを補正するための補正装置であって、前記話されたテキストのそれぞれの部分に関するリンク情報のアイテムが、関連する前記認識されたテキストを識別する補正装置であって、
少なくとも前記話されたテキスト及び前記認識されたテキストを記憶するためのメモリ手段と、
同期再生モードが前記補正装置において起動されるとき、前記話されたテキストを音響的に再生し、同時に、前記リンク情報のアイテムによって識別された前記関連する認識されたテキストを視覚的にマークするための再生手段と、
前記認識されたテキスト及び／又は前記話されたテキストのうち前記同期再生モードが起動されたとき前記再生手段によって少なくとも一度再生された部分を識別するマーキング情報を前記メモリ手段に記憶するためのマーキング手段と、
を有する補正装置。
前記再生手段は、前記同期再生モードが起動されるとき、前記話されたテキストの所望されない部分の音響再生を抑制するように構成され、前記所望されない部分は、前記メモリ手段に記憶された抑制情報によって識別される、請求項１に記載の補正装置。
前記抑制情報によって識別された前記話されたテキストの前記所望されない部分が、前記同期再生モードが起動されるとき、前記マーキング情報によっても識別される場合、前記再生手段は、前記所望されない部分を音響的に再生するように構成される、請求項２に記載の補正装置。
前記抑制情報によって識別された前記話されたテキストの前記所望されない部分は、前記話されたテキストにおけるポーズ、反復されたワード又は言いよどみサウンドによって形成される、請求項２に記載の補正装置。
前記再生手段は、前記認識されたテキストのうち前記マーキング情報により識別された部分を視覚的にマークするように構成される、請求項１に記載の補正装置。
前記同期再生モードが間違って認識されたワードを補正するために中断されるとき、テキスト入力位置を識別するテキストカーソルを位置付けるための位置付け手段が設けられ、前記位置付け手段は、前記認識されたテキストの当該部分が前記マーキング情報によって識別される場合、前記同期再生モードの中断時にマークされた前記認識されたテキストのワードよりＮワード上流にテキストカーソルを位置付けるように構成されるとともに、前記認識されたテキストの当該部分がいかなる前記マーキング情報によっても識別されない場合、前記同期再生モードの中断時にマークされた前記認識されたテキストのワードのＭワード上流にテキストカーソルを位置付けるように構成される、請求項１に記載の補正装置。
メモリ手段と再生手段とマーキング手段とを有する補正装置で、話されたテキストから音声認識装置によって認識されたテキストを補正する方法であって、前記話されたテキストのそれぞれの部分に関するリンク情報のアイテムが、関連する前記認識されたテキストを識別する補正方法であって、
前記メモリ手段により、少なくとも前記話されたテキスト及び前記認識されたテキストを記憶するステップと、
前記再生手段により、同期再生モードが起動されるとき、前記話されたテキストを音響的に再生し、同時に、前記リンク情報によって識別された前記関連する認識されたテキストを視覚的にマークするステップと、
前記マーキング手段により、前記認識されたテキスト及び／又は前記話されたテキストのうち前記同期再生モードが起動されたとき少なくとも一度再生された部分を識別するマーキング情報を記憶するステップと、
を含む補正方法。
前記再生手段により、前記同期再生モードが起動されるとき、前記話されたテキストの所望されない部分の音響再生を抑制するステップを更に含み、前記所望されない部分は、記憶された抑制情報により識別される、請求項７に記載の補正方法。
前記再生手段により、前記話されたテキストの前記所望されない部分が前記マーキング情報により付加的に識別される場合、前記同期再生モードが起動されるとき、前記抑制情報によって識別された前記話されたテキストの前記所望されない部分を音響的に再生するステップを更に含む、請求項８に記載の補正方法。