JP2006521578A

JP2006521578A - 音声認識システム

Info

Publication number: JP2006521578A
Application number: JP2006506741A
Authority: JP
Inventors: ハインリッヒバルトシク; カルステンメイエル
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-03-26
Filing date: 2004-03-22
Publication date: 2006-09-21
Anticipated expiration: 2024-03-22
Also published as: JP4994834B2; EP1611569A2; DE602004018290D1; EP1611569B1; US20070033026A1; EP1611569B8; ATE417346T1; WO2004086359A3; WO2004086359A2; CN1764944A; US8447602B2; CN100578615C

Abstract

認識テキスト（ＥＴ）に変換可能な口語テキスト（ＧＴ）が供給されることのできる少なくとも１つの音声認識装置（１）と、少なくとも１つの音声認識装置（１）によって認識されたテキスト（ＥＴ）を訂正する訂正装置とを有する音声認識及び訂正システムにおいて、この訂正装置は、認識テキスト（ＥＴ）及び必要に応じて口語テキスト（ＧＴ）の伝送のためにデータネットワーク（２）を介して少なくとも１つの音声認識装置（１）に接続される。訂正装置（３）は、代替情報（２３）の辞書を有し、この辞書には、認識テキストの個々の単語部、単語及び単語列の代替情報として訂正装置（３）により表示（２２）されることができる単語部、単語及び単語列を含む。

Description

本発明は、口語テキストが供給されることが可能で当該口語テキストを認識テキストへ変換可能とする少なくとも１つの音声認識装置と、その少なくとも１つの音声認識装置によって認識されたテキストを訂正するためのものであって当該認識テキスト及び必要に応じて口語テキストの伝送をなすためにデータネットワークを介して当該少なくとも１つの音声認識装置に接続される訂正装置とを有する音声認識及び訂正システムに関する。

本発明はまた、音声認識装置によって認識されたテキストを訂正する訂正装置に関する。

本発明はさらに、音声認識装置により口語テキストから変換された認識テキストの訂正のための代替情報（選択肢）の辞書のためのデータ記録エントリを決定するために代替情報の辞書を形成する方法に関する。

このような音声認識及び訂正システムは、ＵＳ５，８６４，８０５の文献から知られている。この文献は、連続して動作し単語及び単語列内のエラーを認識し訂正することができる音声認識システムを開示している。エラーを訂正するため、当該音声認識システムの内部メモリにデータが記憶され、これにより音声認識システムに記録された確率テーブルを更新し、この確率テーブルを誤って認識されたテキストに対する代替情報のリストを発達させるのに用いている。

この既知の音声認識及び訂正システムにおいては、スタンドアロン型の方策にしか用いることができないという不利な面があることが分かっている。すなわち、この音声認識及び訂正システムは、当該音声認識及び訂正システムによって要求されるデータ全てを記憶する個々のコンピュータに限定されてしまうのである。しかし、近年の音声認識システムは、そこで実行する音声認識ソフトウェア又はその一部を備える多数のコンピュータがデータネットワークを介して互いに接続された分散されたシステムとして構成されることがある。こうした先進のシステムにおいては、多数のコンピュータ上において音声認識及び訂正システムのタスクの分配もある。これについての一例として、病院における臨床診断に用いられるような音声認識システムについて述べることができる。この場合、診断は、異なる診察室において多数の医師により音声認識システムへ口述され、これらの診断は、音声認識システムにより認識テキストへ変換され、その話されたテキストの音声記録と共に集中して記憶される。しかしながら、この認識テキストは、まだ訂正処理により認識エラーを取り除かなければならない粗いバージョンである。この訂正は、大抵は秘書によって行われ、秘書が単独で多数の医師の口述内容を訂正するのが慣習となっている。この音声認識システムにおいては、個別の診察室における医師と事務所にいる秘書が互いに離れており異なる時間で働くのが普通でもあるので、文献ＵＳ５，８６４，８０５に提案された方策は、分散した音声認識システムには使えない。一方、音声認識システムの変換処理において得られ訂正用の代替情報のリストをコンパイルするために用いることができる情報が認識テキストを訂正するものとされる当該コンピュータへデータネットワークを介して伝送されることも実用的ではない。何故なら、得られるデータの量があまりにも膨大であるからである。したがって、文献ＵＳ５，８６４，８０５に記載の確率テーブルは、特に用いられるデータネットワークが小帯域幅のデータネットワークである場合、データネットワークを介して訂正装置に対し連続して更新される形で伝送されるにはサイズ的にあまりにも高速に増大すると考えられる。また、音声認識システムの変換処理において得られる情報が訂正装置に直接伝送されること、及びそこで当該情報が分析されることも実際は不可能である。これは、この場合も必要なネットワーク帯域幅が特に小帯域幅のネットワークに対し非常に大き過ぎるからである。より詳しくは、現代の音声認識システムは、口語テキストが認識テキストにどのようにして変換されることが可能かについて５０００ないし８０００個の見込み仮定情報を並列に処理するのが普通であると考えられるものである。しかし、こうした見込み仮定情報からの情報は、訂正装置には必要と思われる。例えば、ある認識結果すなわち１０００語中の最良の仮定情報があり各単語が元の単語グラフにおいて極端な例として１０回現れた場合、１０００の１０乗もの数の単語からなり異なる時間分布の面でのみ異なる異形情報を伝送する必要があると考えられる。

他方、音声認識システムの開発者はそのシステムを改良すべく一生懸命に働いているが、１００％の認識レートをすぐに期待することはできない。これは、認識テキストに対する訂正が依然として必要であることを意味する。したがって、訂正動作において誤って認識された単語の代替情報の訂正をなすことを人に提示することによってこの訂正を簡単にし、その提示された代替情報の１つを迅速に選択することができるようにする必要がある。

したがって、本発明の目的は、第１段落に記載したタイプの音声認識及び訂正システム、第２段落に記載したタイプの訂正装置及び第３段落に記載したタイプの代替情報の辞書を作成する方法であって、上述した不利な点を回避するものを提供することである。

上記目的を達成するため、かかる音声認識及び訂正システムにおいて、認識テキストに書き換えられることの可能な口語テキストが供給されることの可能な少なくとも１つの音声認識装置と、前記少なくとも１つの音声認識装置によって認識されるテキストを訂正する訂正装置とを有し、前記訂正装置は、前記認識テキスト及び必要に応じて前記口語テキストの伝送のためにデータネットワークを介して前記少なくとも１つの音声認識装置に接続され、前記訂正装置は、前記認識テキストの個々の単語部、単語及び単語列の代替情報として前記訂正装置によって表示されることの可能な単語部、単語及び単語列を含む代替情報の辞書を有する、システムが提供される。

上記目的を達成するため、かかる訂正装置において、当該訂正装置に代替情報の辞書が記憶され、当該代替情報の辞書は、前記認識テキストの個々の単語部、単語及び単語列の代替情報として当該訂正装置によって表示されることのできる単語部、単語及び単語列を含むものが提供される。

用語「代替情報の辞書」は、音声認識装置の書換処理とは独立した情報に基づいたものであることを意味するものとして理解されたい。特に、代替情報の辞書は、書換処理において音声認識装置によって作成され認識テキストに反映された認識仮定（情報）よりもそれが正しいという可能性に関して不適切であるとみなされた代替認識仮定情報に基づいていない。

上記目的を達成するため、代替情報の辞書を作成する方法において、医学的若しくは法的テキスト、又は複数の訂正テキスト及び音声認識装置により発生される関連の認識テキストからコンパイルされた混同統計値その他の適用分野に特有のテキストファイルその他の音声認識装置とは独立した情報のソースが、互いに混同しうる単語部、単語又は単語列その他のテキスト要素に対して検査され、互いに混同しうるテキスト要素は、データ記録エントリにおいて代替情報として組み合わされるものが提供される。

本発明によるこれらの特徴によって、音声認識システムにより認識されたテキストの訂正は、現在までに可能となっているものよりも簡単かつ迅速に行われ、同じコンピュータ上で認識と訂正が行われない音声認識システムに本発明が特に効果的な態様で用いられることが可能となる。本発明によりもたらされる代替情報の付与は、さらに極めて効率的で、柔軟性がありかつ頑強なものであり、いわば特定の認識エラーとは独立したものである。訂正動作における音声認識システムと訂正装置との間のデータの広範な伝送を省くほかにも、本発明は、代替情報の辞書からの代替情報の提案が音声認識装置のそれぞれの認識能力とは独立しているというさらに重要な利点も奏する。対照的に、これまで知られているシステムには、音声認識装置が低認識レートを有する場合に多くのケースにおいてこれら代替情報も不適正であるので訂正処理において有用な代替情報が提供されないという不利な面があった。

請求項２の方策によれば、訂正装置が音声認識システムにおける書換処理において得られる情報とは独立して動作可能なので、認識テキスト及び必要に応じて口語テキストの伝送とは別に、音声認識システムと訂正装置との間のデータ通信は必要ではない。本発明による対策の高度な柔軟性のために、話し言葉の新しい文脈又はスタイルに対して簡単に適応することが可能となる。好ましい実施例においては、訂正装置は、認識テキストの選択されたテキストの句を分析する分析手段に基づき、この手段が好ましくは文字（キャラクタ）チェーン比較又は比較的レベルの高い構文解析法によって代替情報の辞書から選択テキスト句の代替情報を決定する。構文解析法は、例えば、名詞／動詞対や名詞フレーズなどのシンタックスの構成要素の検出を有する。

請求項４の方策は、例えば訂正装置のキーボード上の規定のホットキーにより既に処理された認識テキストの句に対する代替情報をユーザに示すことが可能になるという利点を奏する。

請求項５の方策は、訂正装置が背景において断続的に動作する分析手段によって選択テキスト句の代替情報を断続的に提供することができるという利点を奏する。

請求項７の方策は、代替情報の辞書が音声認識システムとは独立してオフライン及びオンラインの双方でコンパイル及び更新が行われることが可能となるという利点を奏する。これは、用いられる情報のソースが音声認識システムの書換処理において大抵は或いは断続的に利用可能となる情報に独立していることに起因している。

請求項８の方策は、データ記録エントリを判定するための認識情報が音声認識システムにより特に頻繁にどの混乱がなされているかを知り又は見つけることによる、という利点を奏する。例を挙げると、同じ音の単語、いわゆる同音異義語は、当然、音声認識システムによって特に頻繁に混同される。代替情報の辞書をコンパイルするために訂正情報を用いることにより、形成されたエラーの面で再度音声認識システムを養成する必要なく音声認識システムの能力をさらに向上させることができる。すなわち、訂正システムは、音声認識システムによって生じたエラーから学ぶのである。

代替情報の辞書におけるデータ記録エントリを生成する方法の頑強さを高めるため、請求項８ないし１０に記載されているような統計学的方法を用いることができ、これは有利である。こうした統計学的方法によって、置換されるべき単語要素の代替情報のリストは、当該訂正において十分に頻繁に生じるそうした代替情報のみが記録される点で、あまり多くのエントリを含まず、したがってユーザに対して扱いにくくはならない。他方、訂正動作における置換の頻度の上限値を導入することによって、口述における「手紙の結語」（“end of letter”）の指示を例えば「敬具メイヤー様」（“Regards，Mr. Meyer”）に置き換えることなど、同じ単語要素によって（殆ど）常に訂正される体系化された置き換えが代替情報のみとして提示されないことが保証される。このようなケースは、他のメカニズムによって統制されるのがよい。

請求項１１の方策は、該当の件が例えばドイツ語の場合に、“mein−dein”や“dem−den”など「慎重に行うべき」置換であるかどうかを認識するという利点を有する。必要な音声上の類似性は、この場合訂正装置に伝送される口語テキストを介して、或いは訂正装置に知られている該当の単語の音声から判定可能である。

請求項１２の方策には、口語テキストにおいて概して同じポイントで時間的に生じる単語だけが代替情報のリストに記録される、という利点がある。例えば、口語テキストを処理するものがないテキストの幾つかの単語又は部分が訂正動作中にユーザにより体系的に付加され、又は訂正されたテキストにおいてその後に現われない単語が体系的に除外される場合、代替情報のリストを用いた訂正をなすことは得策ではない。

代替情報の辞書におけるデータ記録エントリは、細目の変形程度を有するものとしてもよい。これにより、代替情報の異なるリストは、口語テキストにおいて用いられた音声に基づいてコンパイル可能となる。さらに、代替情報の辞書のデータ記録エントリは、技術分野又は適用分野に応じて細分化され、又は元の口語の若しくは訂正されたテキストの著者に応じて細分化されるようにしてもよい。細目の上記した程度の組み合わせも可能である。

請求項１７の方策は、代替情報の辞書が認識テキストの訂正において断続的に改良され、これにより自らを養成する、という効果を奏する。

以下、図面に示される実施例を参照してさらに詳細に説明する。但し、本発明は、これらに限定されない。

図１は、口語テキストＧＴを書き換える音声認識装置１を示している。音声認識装置１は、音声認識ソフトウェアアプリケーションを実行するコンピュータによって形成することができる。この音声認識装置１は、音声認識手段７と、パラメータ記憶手段９と、コマンド記憶手段１０と、適応ステージ１１とを有する。口語テキストＧＴを表すオーディオ信号Ａは、マイクロフォン５を介してＡ／Ｄ変換器６に伝送可能であり、かかる変換器は、オーディオ信号Ａを音声認識手段７に供給可能なディジタルオーディオデータＡＤに変換する。ディジタルオーディオデータＡＤは、音声認識手段７によって認識テキストＥＴに変換され、このテキストＥＴは、データネットワーク２を介して記憶手段８に記憶される。このために考慮されているのは、ボキャブラリ（文脈）情報、音声モデル情報及び音響情報を含みパラメータ記憶手段９に記憶されるパラメータ情報ＰＩである。

文脈情報は、関連する音素列とともに音声認識手段７によって認識可能な全ての単語を含む。文脈情報は、想定される用途に関連した多数のテキストを分析することによって得られる。例を挙げると、放射線医学の分野において用いられる音声認識システムにおいては、総数が５千万ないし１億の単語を有する結果が分析される。音声モデル情報は、口語テキストＧＴの音声において慣用されている単語の列に関する統計情報、特に単語及びその前後の単語への結合の発生確率を含んでいる。音響情報は、音声認識装置１のユーザに特有の音声のタイプや、マイクロフォン５及びＡ／Ｄ変換器６の音響上の特性に関する情報を含む。

文献ＵＳ５，０３１，１１３は、その開示内容が本願の開示に参照によりここで導入されるものであり、パラメータ情報ＰＩを考慮した音声認識方法の実施形態を開示しているので、本文においてはこの詳細に触れない。この音声認識方法に従い、音声認識手段７は、記憶手段８に認識テキストＥＴを含むテキストデータを記憶することができる。さらに、口語テキストＧＴを、ディジタル化された形式で記憶手段８に記憶することができる。これに加え、用いられた音声１４、用途１５及び著者１６についての情報は、認識テキストＥＴと共にデータネットワーク２により音声認識システム１によって伝送され記憶手段８に記憶されることが可能である。

コマンド記憶ステージ１０において単語列は記憶されるが、これは音声認識手段７によってコマンドとして認識される。このようなコマンドは、例えば認識テキストＥＴボルードにおいて次の単語を形成するための「次の単語ボルード」なる単語の列を含む。

訂正装置３は、認識テキストＥＴを元の口語テキストＧＴに関する音響上の情報並びに音声１４、用途（技術分野）１５及び著者１６に関する情報と共に読み出すために記憶手段８に記憶された認識テキストＥＴにアクセスし、認識テキストＥＴがテキスト処理システムにより訂正されることができるようにしている。特に、以下に述べるような先進の音声認識ソフトウェアアプリケーションの全ての機能を認識テキストＥＴに対して用いることができる。訂正装置３は、キーボード１９、モニタ２０及びラウドスピーカ２１が接続される再生及び訂正手段１８を有する。再生及び訂正手段１８は、モニタ２０において認識テキストＥＴの視覚的再生をなし、ラウドスピーカ２１により口語テキストＧＴの音響再生をなし、当該再生及び訂正手段１８が起動された同期再生モードにある場合に音響的に再生されている口語テキストの各句の認識テキストＥＴにおける同期化視覚マーキングをなすよう構成される。この再生モードにおいては、キーボード入力により、また必要に応じてマイクロフォン（図示せず）による音声コマンドによっても認識テキストが同時に訂正されることが可能である。訂正テキストＫＴは、記憶手段１７に記憶可能である。

再生及び訂正手段１８は、訂正装置３に記憶される代替情報２３の辞書から選択テキスト句の代替情報を当該訂正装置のユーザへ提案するために、選択された認識テキストＥＴのテキスト句を分析するための分析手段２４を有する。これら代替情報は、モニタ上に代替情報２２のリストの形でユーザに提示され、ユーザは、置換を選択するか又はマニュアルで訂正を行うためにキーボード１９上のカーソルキーやマウス（図示せず）などによってこのリストの中でナビゲート可能となる。分析手段２４は、バックグラウンドにおいて連続的に動作し、又はキー若しくはキーの組み合わせ（ホットキー）をユーザが押すことによって訂正装置３のユーザによって起動可能である。分析手段は、好ましくはキャラクタチェーン比較又は構文解析法によって選択テキスト句を分析する。キャラクタチェーン比較は、個々の単語若しくは個々の単語の要素、又はフレーズ（検出されるべきもの）に基づくものとすることができる。この比較はさらに、名詞／動詞の対や名詞フレーズなどの多数の構文上の構成要素から形成された表現に基づくものとすることができる。これら全ての表現はまた、本特許出願において概略的に「テキスト要素」なる文言によって表される。分析手段２４によって提示された代替情報のリストは、ここでは個々の単語若しくはその部分又は全体のフレーズを有するものとすることができる。認識テキストである、“The epigastric vessels were seen 「interiorly」, and he had history of 「edema」”は個々の単語の置き換えを例として説明するものである。鉤括弧で示される単語は、誤って認識されたものである。この認識テキストの訂正においてカーソルを「interiorly」の単語の上に位置づけると、１つ以上のエントリを有する代替情報のリストが訂正のために分析手段によって提示される。ここでの代替情報のリストは、本例の場合正しい単語である「anteriorly」なる単語を含む。単語「anteriorly」を簡単に選択することによって、ユーザは当該単語で「interiorly」の迅速な置換を行うことができる。同様に単語「edema」についても行われる。ここでは他の代替情報のリストにおいて提示される単語「anemia」によって置き換えられることになる。ユーザは、こうして少数のキーを押すだけで誤って認識された文章を訂正し、“The epigastric vessels were seen anteriorly，and he had history of anemia.”とすることができる。フレーズの置換の一例においては、“rhythm without lists”の代替情報として正しいフレーズ“rhythm without lifts”を提示することができる。なお、この場合、置換中に認識テキストにおいて唯１つの文字だけが変更されるが、引用されたフレーズ全体は、検査され、代替情報として提示され、訂正装置のユーザによって選択されたときに置換される。他の例は、多数の構成要素を有する代替情報に関する。これら構成要素は、技術的表現、名詞／動詞の対などとすることができる。分析手段２４は、本例では認識テキストのタグ付け及び個々の単語（要素）の信頼度の計算を最初に行うアルゴリズムを用いることができる。名詞／動詞の対又は名詞のフレーズは、その後低い信頼度の名詞のために決定される。その後、代替情報の関連リストの同一性がキャラクタチェーン比較によって補足的な要素（動詞又は名詞）のために決定され、他の要素が代替情報のリストの形式で表示される。この方法により、例えば誤って認識された文章“The extraneous tendinous「materials」were all debrided.”において、単語「materials」を「trails」で訂正することが代替情報のリストにおいて提示可能である。ここでは分析手段２４が単語「materials」の低い信頼度を見つけ、名詞／動詞対「material debrided」を識別し、この動詞「debrided」により、「trails derided」なるエントリが現われる代替情報の関連リストを判定する。このエントリがユーザにより選択されると、当該テキストにおいて「trails」での「materials」の置換だけしかユーザが視認できない場合でも当該名詞及び動詞が置換される。多数の構成要素を有する代替情報の判定に関しての他の例として、“Discharge medications two CCU”（これは実際には“Disposition to CCU”と認識されるべきであったもの）という誤った認識フレーズを説明することができる。分析手段２４は、単語「medications」の低い信頼度を検出し、名詞のフレーズ「Discharge medications」を識別する。代替情報のリストにおける関連エントリの判定は、用語「ＣＣＵ」によって行われ、“Disposition to CCU”と読む。このエントリは、ユーザによって選択可能であり、上述した誤って認識されたフレーズの全体を置き換える。

分析手段２４は、例えば認識テキストを訂正するために用いられるテキスト処理プログラムのカーソル位置から、又は口語テキスト句の時間位置及びその認識テキストとの関連から、認識テキストＥＴの選択した句を判定する。これにより、訂正装置３のユーザが代替の言い回しを選択することにより認識テキストを効率的かつ迅速に訂正することができる。

訂正装置３はまた、代替情報２３の辞書又はその個々のエントリを作成するための評価手段４も有する。なお、評価手段は、音声認識システム１とは独立した各種の情報源から代替情報の基本的辞書をコンパイルし、当該代替情報の基本的辞書がその後に訂正装置３に使用目的で記憶されることが可能となるように、訂正装置３とは独立して設けられるようにしてもよい。提示の実施例の場合、評価手段４は、再生及び訂正手段１８によって、記憶手段８に記憶された口語テキスト及び認識テキストＧＴ，ＥＴの他、音声１４、用途１５及び著者１６についての情報もアクセスし、代替実施例において、評価手段４が記憶手段８に直接アクセスすることも可能としている。評価手段４はさらに、記憶手段１７から訂正されたテキストＫＴを読み、これを認識テキストＥＴと比較し、これにより認識テキストＥＴに対して行われたテキスト要素置換を決定する。これらテキスト要素置換は、以下により詳しく説明する特定の条件に合致する場合に、統計的に分析され代替情報２３の辞書のデータ記録エントリに代替情報として記録される。したがって、１つの好適実施例においては、認識テキストＥＴが訂正テキストＫＴと比較され、全体として最も低い偏倚すなわちテキスト全体にわたり最も少ない数のエラーを示す置換が決定される。この情報は、代替情報のリストをコンパイルするのに用いられる。当該システムの強固さを向上させるため、すなわち代替情報のリストを多すぎるエントリで満たさないようにするために、どの程度頻繁に単語要素が別のものに置き換えられるかを示す統計をコンパイルすることは有益である。置換として作用する単語要素は、相対的又は絶対的頻度の所定の下限値を超過した場合にのみ、代替情報のリストに記録される。単語要素の別のものによる置換の頻度の上限値を導入し、当該単語要素を当該上限値に到達しなかった場合にのみ代替情報のリストに記録することも有益となりうる。上限値を超過した場合、代替情報のリストによっては訂正できない当該音声認識システムの体系的エラー又は誤った認識の事例のために実行することのできないテキスト部分の置換を示す。

代替情報の辞書がコンパイルされるところの頑強さを向上させる他の方策は、置換される用語であって置換情報として働くものの音声上の類似性の分析に関連する。これにより、これら用語の対が音声学的類似性の十分な程度を持つことを確実にすることができる。例えば、代替情報のリストに記録されるべき音声認識システムによって誤った認識の事例とみなされるべきドイツ語におけるmeinとdeinやdemとdenである。

代替情報の辞書がコンパイルされるところの頑強さを向上させるさらに他の方策は、訂正されたテキスト要素が存在する時間位置の分析に関連する。したがって、口語テキストにおいて概ね同じポイントで時間的に存在するそうしたテキスト要素だけが代替情報のリストに記録される。したがって、例えば、訂正装置のユーザがフォーマッティング又は内容のために認識テキストに対し追加又は削除した単語ではあるものの、誤った認識の事例の訂正を処理するものがないものが代替情報のリストに入ることを回避することができる。

さらに、代替情報の辞書におけるデータレコードを、用いられる音声、用途（技術分野）若しくは著者又はこれらの組み合わせによってさらに細分化されるようにしてもよい。認識テキストＥＴは、これについて音声１４、用途（技術分野）１５及び著者１６に関し付加的に情報が知られている訂正において通過すると、代替情報２３の辞書から代替情報の適切なリストがロードされ代替情報の迅速な呼び出しのために利用可能となる。

図示の実施例においては、評価手段４は、バックグラウンドで連続的に動作するので、代替情報２３の辞書が改良され、いわばオンラインで養成される。

代替情報２３の辞書を作成するために訂正テキストＫＴを評価することの他に、評価手段４は、この目的のために付加的又は代替的に、音声認識システム１とは独立した情報、特に例えば臨床結果や、必要に応じて代替情報２３の辞書におけるデータ記録エントリをコンパイルするために分析される混同統計値などのテキストファイル１２の他のソースを用いてもよい。これらのファイルは分析手段４が動作するコンピュータのハードディスクに記憶されるようにしてもよいし、データネットワークを介してアクセスされるようにしてもよい。効果的なのは、適正なインターネットファイル１３を分析するためにインターネットが検索されることができ、この処理が、代替情報の辞書におけるデータ記録エントリを判定するための方法全体のように自動的動作に非常に適したものとなる点である。

データネットワークを介して接続される訂正システムを有する音声認識システムを示す図。

Claims

音声認識及び訂正システムであって、認識テキストに書き換えられることの可能な口語テキストが供給されることの可能な少なくとも１つの音声認識装置と、前記少なくとも１つの音声認識装置によって認識されるテキストを訂正する訂正装置とを有し、前記訂正装置は、前記認識テキスト及び必要に応じて前記口語テキストの伝送のためにデータネットワークを介して前記少なくとも１つの音声認識装置に接続され、前記訂正装置は、前記認識テキストの個々の単語部、単語及び単語列の代替情報として前記訂正装置によって表示されることの可能な単語部、単語及び単語列を含む代替情報の辞書を有する、システム。
音声認識装置によって認識されるテキストを訂正する訂正装置であって、当該訂正装置に代替情報の辞書が記憶され、当該代替情報の辞書は、前記認識テキストの個々の単語部、単語及び単語列の代替情報として当該訂正装置によって表示されることのできる単語部、単語及び単語列を含む、訂正装置。
請求項２に記載の訂正装置であって、キャラクタチェーン比較又は構文解析その他の手段によって前記認識テキストの選択テキスト句を分析し、前記代替情報の辞書から前記選択テキスト句の代替情報を決定する分析手段を備えた訂正装置。
請求項３に記載の訂正装置であって、前記分析手段は、前記訂正装置のユーザにより起動可能である、訂正装置。
請求項３に記載の訂正装置であって、前記分析手段は、カーソル位置又はテキスト処理プログラムのマーク情報から選択テキスト句を決定する、訂正装置。
請求項３に記載の訂正装置であって、前記分析手段は、前記口語テキストの時間位置及びその前記認識テキストとの関連から選択テキスト句を決定する、訂正装置。
音声認識装置によって口語テキストから書き換えられた認識テキストの訂正のために代替情報の辞書のデータ記録エントリを決定するための代替情報の辞書を作成する方法であって、医学的若しくは法的テキスト、又は複数の訂正テキスト及び音声認識装置により発生される関連の認識テキストからコンパイルされた混同統計値その他の適用分野に特有のテキストファイルその他の音声認識装置とは独立した情報のソースが、互いに混同しうる単語部、単語又は単語列その他のテキスト要素に対して検査され、互いに混同しうるテキスト要素は、前記代替情報の辞書のデータ記録エントリにおいて代替情報として組み合わされる、方法。
請求項７に記載の代替情報の辞書を作成する方法であって、音声認識装置によって書き換えられる元の認識テキストに対して訂正テキストにおいてなされるテキスト要素置換は、判定されて前記代替情報の辞書のデータ記録エントリに代替情報として記録される、方法。
請求項８に記載の代替情報の辞書を作成する方法であって、各テキスト要素置換の頻度は、統計的に評価され、前記代替情報の辞書のデータ記録エントリにおける代替情報としての記録は、置換の絶対数、又は検査された単語の全部の数若しくは付与された単語の全部の発生に対する置換の比によって表される前記頻度の所定の下限値を超過したときにのみ行われる、方法。
請求項９に記載の代替情報の辞書を作成する方法であって、各テキスト要素置換の頻度は、統計学的に評価され、前記代替情報の辞書のデータ記録エントリにおける代替情報としての記録は、置換の絶対数又は検査される単語の総数に対する置換の比によって表される当該頻度の所定の上限値に達しないときにのみ行われる、方法。
請求項８に記載の代替情報の辞書を作成する方法であって、当該テキスト要素置換の音響上の類似性の分析が行われ、音声学的類似性が所定の程度となったときにのみ前記代替情報の辞書のデータ記録エントリにおける代替情報としての記録が行われる、方法。
請求項８に記載の代替情報の辞書を作成する方法であって、前記テキスト要素置換の時間位置の分析が行われ、前記代替情報の辞書のデータ記録エントリにおける代替情報としての記録は、元の口語テキストにおける置換されたテキスト要素に対し時間的に十分に近接している対応のテキスト要素があるときにのみ行われる、方法。
請求項７に記載の代替情報の辞書を作成する方法であって、前記代替情報の辞書のデータ記録エントリは、音声によって細分化される、方法。
請求項７に記載の代替情報の辞書を作成する方法であって、前記代替情報の辞書のデータ記録エントリは、技術分野又は適用分野によって細分化される、方法。
請求項７に記載の代替情報の辞書を作成する方法であって、前記代替情報の辞書のデータ記録エントリは、元の口語テキスト又は訂正テキストの著者によって細分化される、方法。
請求項７に記載の代替情報の辞書を作成する方法であって、前記代替情報の辞書は、認識テキストの訂正においてオンラインで適応させられる、方法。