JP2006521578A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2006521578A
JP2006521578A JP2006506741A JP2006506741A JP2006521578A JP 2006521578 A JP2006521578 A JP 2006521578A JP 2006506741 A JP2006506741 A JP 2006506741A JP 2006506741 A JP2006506741 A JP 2006506741A JP 2006521578 A JP2006521578 A JP 2006521578A
Authority
JP
Japan
Prior art keywords
text
dictionary
information
alternative information
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006506741A
Other languages
English (en)
Other versions
JP4994834B2 (ja
JP2006521578A5 (ja
Inventor
ハインリッヒ バルトシク
カルステン メイエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2006521578A publication Critical patent/JP2006521578A/ja
Publication of JP2006521578A5 publication Critical patent/JP2006521578A5/ja
Application granted granted Critical
Publication of JP4994834B2 publication Critical patent/JP4994834B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

認識テキスト(ET)に変換可能な口語テキスト(GT)が供給されることのできる少なくとも1つの音声認識装置(1)と、少なくとも1つの音声認識装置(1)によって認識されたテキスト(ET)を訂正する訂正装置とを有する音声認識及び訂正システムにおいて、この訂正装置は、認識テキスト(ET)及び必要に応じて口語テキスト(GT)の伝送のためにデータネットワーク(2)を介して少なくとも1つの音声認識装置(1)に接続される。訂正装置(3)は、代替情報(23)の辞書を有し、この辞書には、認識テキストの個々の単語部、単語及び単語列の代替情報として訂正装置(3)により表示(22)されることができる単語部、単語及び単語列を含む。

Description

本発明は、口語テキストが供給されることが可能で当該口語テキストを認識テキストへ変換可能とする少なくとも1つの音声認識装置と、その少なくとも1つの音声認識装置によって認識されたテキストを訂正するためのものであって当該認識テキスト及び必要に応じて口語テキストの伝送をなすためにデータネットワークを介して当該少なくとも1つの音声認識装置に接続される訂正装置とを有する音声認識及び訂正システムに関する。
本発明はまた、音声認識装置によって認識されたテキストを訂正する訂正装置に関する。
本発明はさらに、音声認識装置により口語テキストから変換された認識テキストの訂正のための代替情報(選択肢)の辞書のためのデータ記録エントリを決定するために代替情報の辞書を形成する方法に関する。
このような音声認識及び訂正システムは、US5,864,805の文献から知られている。この文献は、連続して動作し単語及び単語列内のエラーを認識し訂正することができる音声認識システムを開示している。エラーを訂正するため、当該音声認識システムの内部メモリにデータが記憶され、これにより音声認識システムに記録された確率テーブルを更新し、この確率テーブルを誤って認識されたテキストに対する代替情報のリストを発達させるのに用いている。
この既知の音声認識及び訂正システムにおいては、スタンドアロン型の方策にしか用いることができないという不利な面があることが分かっている。すなわち、この音声認識及び訂正システムは、当該音声認識及び訂正システムによって要求されるデータ全てを記憶する個々のコンピュータに限定されてしまうのである。しかし、近年の音声認識システムは、そこで実行する音声認識ソフトウェア又はその一部を備える多数のコンピュータがデータネットワークを介して互いに接続された分散されたシステムとして構成されることがある。こうした先進のシステムにおいては、多数のコンピュータ上において音声認識及び訂正システムのタスクの分配もある。これについての一例として、病院における臨床診断に用いられるような音声認識システムについて述べることができる。この場合、診断は、異なる診察室において多数の医師により音声認識システムへ口述され、これらの診断は、音声認識システムにより認識テキストへ変換され、その話されたテキストの音声記録と共に集中して記憶される。しかしながら、この認識テキストは、まだ訂正処理により認識エラーを取り除かなければならない粗いバージョンである。この訂正は、大抵は秘書によって行われ、秘書が単独で多数の医師の口述内容を訂正するのが慣習となっている。この音声認識システムにおいては、個別の診察室における医師と事務所にいる秘書が互いに離れており異なる時間で働くのが普通でもあるので、文献US5,864,805に提案された方策は、分散した音声認識システムには使えない。一方、音声認識システムの変換処理において得られ訂正用の代替情報のリストをコンパイルするために用いることができる情報が認識テキストを訂正するものとされる当該コンピュータへデータネットワークを介して伝送されることも実用的ではない。何故なら、得られるデータの量があまりにも膨大であるからである。したがって、文献US5,864,805に記載の確率テーブルは、特に用いられるデータネットワークが小帯域幅のデータネットワークである場合、データネットワークを介して訂正装置に対し連続して更新される形で伝送されるにはサイズ的にあまりにも高速に増大すると考えられる。また、音声認識システムの変換処理において得られる情報が訂正装置に直接伝送されること、及びそこで当該情報が分析されることも実際は不可能である。これは、この場合も必要なネットワーク帯域幅が特に小帯域幅のネットワークに対し非常に大き過ぎるからである。より詳しくは、現代の音声認識システムは、口語テキストが認識テキストにどのようにして変換されることが可能かについて5000ないし8000個の見込み仮定情報を並列に処理するのが普通であると考えられるものである。しかし、こうした見込み仮定情報からの情報は、訂正装置には必要と思われる。例えば、ある認識結果すなわち1000語中の最良の仮定情報があり各単語が元の単語グラフにおいて極端な例として10回現れた場合、1000の10乗もの数の単語からなり異なる時間分布の面でのみ異なる異形情報を伝送する必要があると考えられる。
他方、音声認識システムの開発者はそのシステムを改良すべく一生懸命に働いているが、100%の認識レートをすぐに期待することはできない。これは、認識テキストに対する訂正が依然として必要であることを意味する。したがって、訂正動作において誤って認識された単語の代替情報の訂正をなすことを人に提示することによってこの訂正を簡単にし、その提示された代替情報の1つを迅速に選択することができるようにする必要がある。
したがって、本発明の目的は、第1段落に記載したタイプの音声認識及び訂正システム、第2段落に記載したタイプの訂正装置及び第3段落に記載したタイプの代替情報の辞書を作成する方法であって、上述した不利な点を回避するものを提供することである。
上記目的を達成するため、かかる音声認識及び訂正システムにおいて、認識テキストに書き換えられることの可能な口語テキストが供給されることの可能な少なくとも1つの音声認識装置と、前記少なくとも1つの音声認識装置によって認識されるテキストを訂正する訂正装置とを有し、前記訂正装置は、前記認識テキスト及び必要に応じて前記口語テキストの伝送のためにデータネットワークを介して前記少なくとも1つの音声認識装置に接続され、前記訂正装置は、前記認識テキストの個々の単語部、単語及び単語列の代替情報として前記訂正装置によって表示されることの可能な単語部、単語及び単語列を含む代替情報の辞書を有する、システムが提供される。
上記目的を達成するため、かかる訂正装置において、当該訂正装置に代替情報の辞書が記憶され、当該代替情報の辞書は、前記認識テキストの個々の単語部、単語及び単語列の代替情報として当該訂正装置によって表示されることのできる単語部、単語及び単語列を含むものが提供される。
用語「代替情報の辞書」は、音声認識装置の書換処理とは独立した情報に基づいたものであることを意味するものとして理解されたい。特に、代替情報の辞書は、書換処理において音声認識装置によって作成され認識テキストに反映された認識仮定(情報)よりもそれが正しいという可能性に関して不適切であるとみなされた代替認識仮定情報に基づいていない。
上記目的を達成するため、代替情報の辞書を作成する方法において、医学的若しくは法的テキスト、又は複数の訂正テキスト及び音声認識装置により発生される関連の認識テキストからコンパイルされた混同統計値その他の適用分野に特有のテキストファイルその他の音声認識装置とは独立した情報のソースが、互いに混同しうる単語部、単語又は単語列その他のテキスト要素に対して検査され、互いに混同しうるテキスト要素は、データ記録エントリにおいて代替情報として組み合わされるものが提供される。
本発明によるこれらの特徴によって、音声認識システムにより認識されたテキストの訂正は、現在までに可能となっているものよりも簡単かつ迅速に行われ、同じコンピュータ上で認識と訂正が行われない音声認識システムに本発明が特に効果的な態様で用いられることが可能となる。本発明によりもたらされる代替情報の付与は、さらに極めて効率的で、柔軟性がありかつ頑強なものであり、いわば特定の認識エラーとは独立したものである。訂正動作における音声認識システムと訂正装置との間のデータの広範な伝送を省くほかにも、本発明は、代替情報の辞書からの代替情報の提案が音声認識装置のそれぞれの認識能力とは独立しているというさらに重要な利点も奏する。対照的に、これまで知られているシステムには、音声認識装置が低認識レートを有する場合に多くのケースにおいてこれら代替情報も不適正であるので訂正処理において有用な代替情報が提供されないという不利な面があった。
請求項2の方策によれば、訂正装置が音声認識システムにおける書換処理において得られる情報とは独立して動作可能なので、認識テキスト及び必要に応じて口語テキストの伝送とは別に、音声認識システムと訂正装置との間のデータ通信は必要ではない。本発明による対策の高度な柔軟性のために、話し言葉の新しい文脈又はスタイルに対して簡単に適応することが可能となる。好ましい実施例においては、訂正装置は、認識テキストの選択されたテキストの句を分析する分析手段に基づき、この手段が好ましくは文字(キャラクタ)チェーン比較又は比較的レベルの高い構文解析法によって代替情報の辞書から選択テキスト句の代替情報を決定する。構文解析法は、例えば、名詞/動詞対や名詞フレーズなどのシンタックスの構成要素の検出を有する。
請求項4の方策は、例えば訂正装置のキーボード上の規定のホットキーにより既に処理された認識テキストの句に対する代替情報をユーザに示すことが可能になるという利点を奏する。
請求項5の方策は、訂正装置が背景において断続的に動作する分析手段によって選択テキスト句の代替情報を断続的に提供することができるという利点を奏する。
請求項7の方策は、代替情報の辞書が音声認識システムとは独立してオフライン及びオンラインの双方でコンパイル及び更新が行われることが可能となるという利点を奏する。これは、用いられる情報のソースが音声認識システムの書換処理において大抵は或いは断続的に利用可能となる情報に独立していることに起因している。
請求項8の方策は、データ記録エントリを判定するための認識情報が音声認識システムにより特に頻繁にどの混乱がなされているかを知り又は見つけることによる、という利点を奏する。例を挙げると、同じ音の単語、いわゆる同音異義語は、当然、音声認識システムによって特に頻繁に混同される。代替情報の辞書をコンパイルするために訂正情報を用いることにより、形成されたエラーの面で再度音声認識システムを養成する必要なく音声認識システムの能力をさらに向上させることができる。すなわち、訂正システムは、音声認識システムによって生じたエラーから学ぶのである。
代替情報の辞書におけるデータ記録エントリを生成する方法の頑強さを高めるため、請求項8ないし10に記載されているような統計学的方法を用いることができ、これは有利である。こうした統計学的方法によって、置換されるべき単語要素の代替情報のリストは、当該訂正において十分に頻繁に生じるそうした代替情報のみが記録される点で、あまり多くのエントリを含まず、したがってユーザに対して扱いにくくはならない。他方、訂正動作における置換の頻度の上限値を導入することによって、口述における「手紙の結語」(“end of letter”)の指示を例えば「敬具 メイヤー様」(“Regards,Mr. Meyer”)に置き換えることなど、同じ単語要素によって(殆ど)常に訂正される体系化された置き換えが代替情報のみとして提示されないことが保証される。このようなケースは、他のメカニズムによって統制されるのがよい。
請求項11の方策は、該当の件が例えばドイツ語の場合に、“mein−dein”や“dem−den”など「慎重に行うべき」置換であるかどうかを認識するという利点を有する。必要な音声上の類似性は、この場合訂正装置に伝送される口語テキストを介して、或いは訂正装置に知られている該当の単語の音声から判定可能である。
請求項12の方策には、口語テキストにおいて概して同じポイントで時間的に生じる単語だけが代替情報のリストに記録される、という利点がある。例えば、口語テキストを処理するものがないテキストの幾つかの単語又は部分が訂正動作中にユーザにより体系的に付加され、又は訂正されたテキストにおいてその後に現われない単語が体系的に除外される場合、代替情報のリストを用いた訂正をなすことは得策ではない。
代替情報の辞書におけるデータ記録エントリは、細目の変形程度を有するものとしてもよい。これにより、代替情報の異なるリストは、口語テキストにおいて用いられた音声に基づいてコンパイル可能となる。さらに、代替情報の辞書のデータ記録エントリは、技術分野又は適用分野に応じて細分化され、又は元の口語の若しくは訂正されたテキストの著者に応じて細分化されるようにしてもよい。細目の上記した程度の組み合わせも可能である。
請求項17の方策は、代替情報の辞書が認識テキストの訂正において断続的に改良され、これにより自らを養成する、という効果を奏する。
以下、図面に示される実施例を参照してさらに詳細に説明する。但し、本発明は、これらに限定されない。
図1は、口語テキストGTを書き換える音声認識装置1を示している。音声認識装置1は、音声認識ソフトウェアアプリケーションを実行するコンピュータによって形成することができる。この音声認識装置1は、音声認識手段7と、パラメータ記憶手段9と、コマンド記憶手段10と、適応ステージ11とを有する。口語テキストGTを表すオーディオ信号Aは、マイクロフォン5を介してA/D変換器6に伝送可能であり、かかる変換器は、オーディオ信号Aを音声認識手段7に供給可能なディジタルオーディオデータADに変換する。ディジタルオーディオデータADは、音声認識手段7によって認識テキストETに変換され、このテキストETは、データネットワーク2を介して記憶手段8に記憶される。このために考慮されているのは、ボキャブラリ(文脈)情報、音声モデル情報及び音響情報を含みパラメータ記憶手段9に記憶されるパラメータ情報PIである。
文脈情報は、関連する音素列とともに音声認識手段7によって認識可能な全ての単語を含む。文脈情報は、想定される用途に関連した多数のテキストを分析することによって得られる。例を挙げると、放射線医学の分野において用いられる音声認識システムにおいては、総数が5千万ないし1億の単語を有する結果が分析される。音声モデル情報は、口語テキストGTの音声において慣用されている単語の列に関する統計情報、特に単語及びその前後の単語への結合の発生確率を含んでいる。音響情報は、音声認識装置1のユーザに特有の音声のタイプや、マイクロフォン5及びA/D変換器6の音響上の特性に関する情報を含む。
文献US5,031,113は、その開示内容が本願の開示に参照によりここで導入されるものであり、パラメータ情報PIを考慮した音声認識方法の実施形態を開示しているので、本文においてはこの詳細に触れない。この音声認識方法に従い、音声認識手段7は、記憶手段8に認識テキストETを含むテキストデータを記憶することができる。さらに、口語テキストGTを、ディジタル化された形式で記憶手段8に記憶することができる。これに加え、用いられた音声14、用途15及び著者16についての情報は、認識テキストETと共にデータネットワーク2により音声認識システム1によって伝送され記憶手段8に記憶されることが可能である。
コマンド記憶ステージ10において単語列は記憶されるが、これは音声認識手段7によってコマンドとして認識される。このようなコマンドは、例えば認識テキストETボルードにおいて次の単語を形成するための「次の単語ボルード」なる単語の列を含む。
訂正装置3は、認識テキストETを元の口語テキストGTに関する音響上の情報並びに音声14、用途(技術分野)15及び著者16に関する情報と共に読み出すために記憶手段8に記憶された認識テキストETにアクセスし、認識テキストETがテキスト処理システムにより訂正されることができるようにしている。特に、以下に述べるような先進の音声認識ソフトウェアアプリケーションの全ての機能を認識テキストETに対して用いることができる。訂正装置3は、キーボード19、モニタ20及びラウドスピーカ21が接続される再生及び訂正手段18を有する。再生及び訂正手段18は、モニタ20において認識テキストETの視覚的再生をなし、ラウドスピーカ21により口語テキストGTの音響再生をなし、当該再生及び訂正手段18が起動された同期再生モードにある場合に音響的に再生されている口語テキストの各句の認識テキストETにおける同期化視覚マーキングをなすよう構成される。この再生モードにおいては、キーボード入力により、また必要に応じてマイクロフォン(図示せず)による音声コマンドによっても認識テキストが同時に訂正されることが可能である。訂正テキストKTは、記憶手段17に記憶可能である。
再生及び訂正手段18は、訂正装置3に記憶される代替情報23の辞書から選択テキスト句の代替情報を当該訂正装置のユーザへ提案するために、選択された認識テキストETのテキスト句を分析するための分析手段24を有する。これら代替情報は、モニタ上に代替情報22のリストの形でユーザに提示され、ユーザは、置換を選択するか又はマニュアルで訂正を行うためにキーボード19上のカーソルキーやマウス(図示せず)などによってこのリストの中でナビゲート可能となる。分析手段24は、バックグラウンドにおいて連続的に動作し、又はキー若しくはキーの組み合わせ(ホットキー)をユーザが押すことによって訂正装置3のユーザによって起動可能である。分析手段は、好ましくはキャラクタチェーン比較又は構文解析法によって選択テキスト句を分析する。キャラクタチェーン比較は、個々の単語若しくは個々の単語の要素、又はフレーズ(検出されるべきもの)に基づくものとすることができる。この比較はさらに、名詞/動詞の対や名詞フレーズなどの多数の構文上の構成要素から形成された表現に基づくものとすることができる。これら全ての表現はまた、本特許出願において概略的に「テキスト要素」なる文言によって表される。分析手段24によって提示された代替情報のリストは、ここでは個々の単語若しくはその部分又は全体のフレーズを有するものとすることができる。認識テキストである、“The epigastric vessels were seen 「interiorly」, and he had history of 「edema」”は個々の単語の置き換えを例として説明するものである。鉤括弧で示される単語は、誤って認識されたものである。この認識テキストの訂正においてカーソルを「interiorly」の単語の上に位置づけると、1つ以上のエントリを有する代替情報のリストが訂正のために分析手段によって提示される。ここでの代替情報のリストは、本例の場合正しい単語である「anteriorly」なる単語を含む。単語「anteriorly」を簡単に選択することによって、ユーザは当該単語で「interiorly」の迅速な置換を行うことができる。同様に単語「edema」についても行われる。ここでは他の代替情報のリストにおいて提示される単語「anemia」によって置き換えられることになる。ユーザは、こうして少数のキーを押すだけで誤って認識された文章を訂正し、“The epigastric vessels were seen anteriorly,and he had history of anemia.”とすることができる。フレーズの置換の一例においては、“rhythm without lists”の代替情報として正しいフレーズ“rhythm without lifts”を提示することができる。なお、この場合、置換中に認識テキストにおいて唯1つの文字だけが変更されるが、引用されたフレーズ全体は、検査され、代替情報として提示され、訂正装置のユーザによって選択されたときに置換される。他の例は、多数の構成要素を有する代替情報に関する。これら構成要素は、技術的表現、名詞/動詞の対などとすることができる。分析手段24は、本例では認識テキストのタグ付け及び個々の単語(要素)の信頼度の計算を最初に行うアルゴリズムを用いることができる。名詞/動詞の対又は名詞のフレーズは、その後低い信頼度の名詞のために決定される。その後、代替情報の関連リストの同一性がキャラクタチェーン比較によって補足的な要素(動詞又は名詞)のために決定され、他の要素が代替情報のリストの形式で表示される。この方法により、例えば誤って認識された文章“The extraneous tendinous「materials」were all debrided.”において、単語「materials」を「trails」で訂正することが代替情報のリストにおいて提示可能である。ここでは分析手段24が単語「materials」の低い信頼度を見つけ、名詞/動詞対「material debrided」を識別し、この動詞「debrided」により、「trails derided」なるエントリが現われる代替情報の関連リストを判定する。このエントリがユーザにより選択されると、当該テキストにおいて「trails」での「materials」の置換だけしかユーザが視認できない場合でも当該名詞及び動詞が置換される。多数の構成要素を有する代替情報の判定に関しての他の例として、“Discharge medications two CCU”(これは実際には“Disposition to CCU”と認識されるべきであったもの)という誤った認識フレーズを説明することができる。分析手段24は、単語「medications」の低い信頼度を検出し、名詞のフレーズ「Discharge medications」を識別する。代替情報のリストにおける関連エントリの判定は、用語「CCU」によって行われ、“Disposition to CCU”と読む。このエントリは、ユーザによって選択可能であり、上述した誤って認識されたフレーズの全体を置き換える。
分析手段24は、例えば認識テキストを訂正するために用いられるテキスト処理プログラムのカーソル位置から、又は口語テキスト句の時間位置及びその認識テキストとの関連から、認識テキストETの選択した句を判定する。これにより、訂正装置3のユーザが代替の言い回しを選択することにより認識テキストを効率的かつ迅速に訂正することができる。
訂正装置3はまた、代替情報23の辞書又はその個々のエントリを作成するための評価手段4も有する。なお、評価手段は、音声認識システム1とは独立した各種の情報源から代替情報の基本的辞書をコンパイルし、当該代替情報の基本的辞書がその後に訂正装置3に使用目的で記憶されることが可能となるように、訂正装置3とは独立して設けられるようにしてもよい。提示の実施例の場合、評価手段4は、再生及び訂正手段18によって、記憶手段8に記憶された口語テキスト及び認識テキストGT,ETの他、音声14、用途15及び著者16についての情報もアクセスし、代替実施例において、評価手段4が記憶手段8に直接アクセスすることも可能としている。評価手段4はさらに、記憶手段17から訂正されたテキストKTを読み、これを認識テキストETと比較し、これにより認識テキストETに対して行われたテキスト要素置換を決定する。これらテキスト要素置換は、以下により詳しく説明する特定の条件に合致する場合に、統計的に分析され代替情報23の辞書のデータ記録エントリに代替情報として記録される。したがって、1つの好適実施例においては、認識テキストETが訂正テキストKTと比較され、全体として最も低い偏倚すなわちテキスト全体にわたり最も少ない数のエラーを示す置換が決定される。この情報は、代替情報のリストをコンパイルするのに用いられる。当該システムの強固さを向上させるため、すなわち代替情報のリストを多すぎるエントリで満たさないようにするために、どの程度頻繁に単語要素が別のものに置き換えられるかを示す統計をコンパイルすることは有益である。置換として作用する単語要素は、相対的又は絶対的頻度の所定の下限値を超過した場合にのみ、代替情報のリストに記録される。単語要素の別のものによる置換の頻度の上限値を導入し、当該単語要素を当該上限値に到達しなかった場合にのみ代替情報のリストに記録することも有益となりうる。上限値を超過した場合、代替情報のリストによっては訂正できない当該音声認識システムの体系的エラー又は誤った認識の事例のために実行することのできないテキスト部分の置換を示す。
代替情報の辞書がコンパイルされるところの頑強さを向上させる他の方策は、置換される用語であって置換情報として働くものの音声上の類似性の分析に関連する。これにより、これら用語の対が音声学的類似性の十分な程度を持つことを確実にすることができる。例えば、代替情報のリストに記録されるべき音声認識システムによって誤った認識の事例とみなされるべきドイツ語におけるmeinとdeinやdemとdenである。
代替情報の辞書がコンパイルされるところの頑強さを向上させるさらに他の方策は、訂正されたテキスト要素が存在する時間位置の分析に関連する。したがって、口語テキストにおいて概ね同じポイントで時間的に存在するそうしたテキスト要素だけが代替情報のリストに記録される。したがって、例えば、訂正装置のユーザがフォーマッティング又は内容のために認識テキストに対し追加又は削除した単語ではあるものの、誤った認識の事例の訂正を処理するものがないものが代替情報のリストに入ることを回避することができる。
さらに、代替情報の辞書におけるデータレコードを、用いられる音声、用途(技術分野)若しくは著者又はこれらの組み合わせによってさらに細分化されるようにしてもよい。認識テキストETは、これについて音声14、用途(技術分野)15及び著者16に関し付加的に情報が知られている訂正において通過すると、代替情報23の辞書から代替情報の適切なリストがロードされ代替情報の迅速な呼び出しのために利用可能となる。
図示の実施例においては、評価手段4は、バックグラウンドで連続的に動作するので、代替情報23の辞書が改良され、いわばオンラインで養成される。
代替情報23の辞書を作成するために訂正テキストKTを評価することの他に、評価手段4は、この目的のために付加的又は代替的に、音声認識システム1とは独立した情報、特に例えば臨床結果や、必要に応じて代替情報23の辞書におけるデータ記録エントリをコンパイルするために分析される混同統計値などのテキストファイル12の他のソースを用いてもよい。これらのファイルは分析手段4が動作するコンピュータのハードディスクに記憶されるようにしてもよいし、データネットワークを介してアクセスされるようにしてもよい。効果的なのは、適正なインターネットファイル13を分析するためにインターネットが検索されることができ、この処理が、代替情報の辞書におけるデータ記録エントリを判定するための方法全体のように自動的動作に非常に適したものとなる点である。
データネットワークを介して接続される訂正システムを有する音声認識システムを示す図。

Claims (16)

  1. 音声認識及び訂正システムであって、認識テキストに書き換えられることの可能な口語テキストが供給されることの可能な少なくとも1つの音声認識装置と、前記少なくとも1つの音声認識装置によって認識されるテキストを訂正する訂正装置とを有し、前記訂正装置は、前記認識テキスト及び必要に応じて前記口語テキストの伝送のためにデータネットワークを介して前記少なくとも1つの音声認識装置に接続され、前記訂正装置は、前記認識テキストの個々の単語部、単語及び単語列の代替情報として前記訂正装置によって表示されることの可能な単語部、単語及び単語列を含む代替情報の辞書を有する、システム。
  2. 音声認識装置によって認識されるテキストを訂正する訂正装置であって、当該訂正装置に代替情報の辞書が記憶され、当該代替情報の辞書は、前記認識テキストの個々の単語部、単語及び単語列の代替情報として当該訂正装置によって表示されることのできる単語部、単語及び単語列を含む、訂正装置。
  3. 請求項2に記載の訂正装置であって、キャラクタチェーン比較又は構文解析その他の手段によって前記認識テキストの選択テキスト句を分析し、前記代替情報の辞書から前記選択テキスト句の代替情報を決定する分析手段を備えた訂正装置。
  4. 請求項3に記載の訂正装置であって、前記分析手段は、前記訂正装置のユーザにより起動可能である、訂正装置。
  5. 請求項3に記載の訂正装置であって、前記分析手段は、カーソル位置又はテキスト処理プログラムのマーク情報から選択テキスト句を決定する、訂正装置。
  6. 請求項3に記載の訂正装置であって、前記分析手段は、前記口語テキストの時間位置及びその前記認識テキストとの関連から選択テキスト句を決定する、訂正装置。
  7. 音声認識装置によって口語テキストから書き換えられた認識テキストの訂正のために代替情報の辞書のデータ記録エントリを決定するための代替情報の辞書を作成する方法であって、医学的若しくは法的テキスト、又は複数の訂正テキスト及び音声認識装置により発生される関連の認識テキストからコンパイルされた混同統計値その他の適用分野に特有のテキストファイルその他の音声認識装置とは独立した情報のソースが、互いに混同しうる単語部、単語又は単語列その他のテキスト要素に対して検査され、互いに混同しうるテキスト要素は、前記代替情報の辞書のデータ記録エントリにおいて代替情報として組み合わされる、方法。
  8. 請求項7に記載の代替情報の辞書を作成する方法であって、音声認識装置によって書き換えられる元の認識テキストに対して訂正テキストにおいてなされるテキスト要素置換は、判定されて前記代替情報の辞書のデータ記録エントリに代替情報として記録される、方法。
  9. 請求項8に記載の代替情報の辞書を作成する方法であって、各テキスト要素置換の頻度は、統計的に評価され、前記代替情報の辞書のデータ記録エントリにおける代替情報としての記録は、置換の絶対数、又は検査された単語の全部の数若しくは付与された単語の全部の発生に対する置換の比によって表される前記頻度の所定の下限値を超過したときにのみ行われる、方法。
  10. 請求項9に記載の代替情報の辞書を作成する方法であって、各テキスト要素置換の頻度は、統計学的に評価され、前記代替情報の辞書のデータ記録エントリにおける代替情報としての記録は、置換の絶対数又は検査される単語の総数に対する置換の比によって表される当該頻度の所定の上限値に達しないときにのみ行われる、方法。
  11. 請求項8に記載の代替情報の辞書を作成する方法であって、当該テキスト要素置換の音響上の類似性の分析が行われ、音声学的類似性が所定の程度となったときにのみ前記代替情報の辞書のデータ記録エントリにおける代替情報としての記録が行われる、方法。
  12. 請求項8に記載の代替情報の辞書を作成する方法であって、前記テキスト要素置換の時間位置の分析が行われ、前記代替情報の辞書のデータ記録エントリにおける代替情報としての記録は、元の口語テキストにおける置換されたテキスト要素に対し時間的に十分に近接している対応のテキスト要素があるときにのみ行われる、方法。
  13. 請求項7に記載の代替情報の辞書を作成する方法であって、前記代替情報の辞書のデータ記録エントリは、音声によって細分化される、方法。
  14. 請求項7に記載の代替情報の辞書を作成する方法であって、前記代替情報の辞書のデータ記録エントリは、技術分野又は適用分野によって細分化される、方法。
  15. 請求項7に記載の代替情報の辞書を作成する方法であって、前記代替情報の辞書のデータ記録エントリは、元の口語テキスト又は訂正テキストの著者によって細分化される、方法。
  16. 請求項7に記載の代替情報の辞書を作成する方法であって、前記代替情報の辞書は、認識テキストの訂正においてオンラインで適応させられる、方法。
JP2006506741A 2003-03-26 2004-03-22 音声認識システム Expired - Fee Related JP4994834B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03100782 2003-03-26
EP03100782.6 2003-03-26
PCT/IB2004/050297 WO2004086359A2 (en) 2003-03-26 2004-03-22 System for speech recognition and correction, correction device and method for creating a lexicon of alternatives

Publications (3)

Publication Number Publication Date
JP2006521578A true JP2006521578A (ja) 2006-09-21
JP2006521578A5 JP2006521578A5 (ja) 2011-06-30
JP4994834B2 JP4994834B2 (ja) 2012-08-08

Family

ID=33041048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006506741A Expired - Fee Related JP4994834B2 (ja) 2003-03-26 2004-03-22 音声認識システム

Country Status (7)

Country Link
US (1) US8447602B2 (ja)
EP (1) EP1611569B8 (ja)
JP (1) JP4994834B2 (ja)
CN (1) CN100578615C (ja)
AT (1) ATE417346T1 (ja)
DE (1) DE602004018290D1 (ja)
WO (1) WO2004086359A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
WO2012043168A1 (ja) * 2010-09-29 2012-04-05 Necカシオモバイルコミュニケーションズ株式会社 音声変換装置、携帯電話端末、音声変換方法および記録媒体

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8725505B2 (en) * 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
US9821344B2 (en) 2004-12-10 2017-11-21 Ikan Holdings Llc Systems and methods for scanning information from storage area contents
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20090070109A1 (en) * 2007-09-12 2009-03-12 Microsoft Corporation Speech-to-Text Transcription for Personal Communication Devices
CN100592249C (zh) * 2007-09-21 2010-02-24 上海汉翔信息技术有限公司 快速输入相关词的方法
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) * 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP2010066365A (ja) * 2008-09-09 2010-03-25 Toshiba Corp 音声認識装置、方法、及びプログラム
US8515748B2 (en) * 2009-02-03 2013-08-20 International Business Machines Corporation Mobile phone communication gap recovery
US9280971B2 (en) * 2009-02-27 2016-03-08 Blackberry Limited Mobile wireless communications device with speech to text conversion and related methods
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP2013529317A (ja) * 2010-05-19 2013-07-18 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 対話、及び/又は、命令決定プロセスの操作データの変更
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
CN102956231B (zh) * 2011-08-23 2014-12-31 上海交通大学 基于半自动校正的语音关键信息记录装置及方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
WO2014018039A1 (en) * 2012-07-26 2014-01-30 Nuance Communications, Inc. Text formatter with intuitive customization
CN102831177B (zh) * 2012-07-31 2015-09-02 聚熵信息技术(上海)有限公司 语句纠错方法及其系统
CN102833633B (zh) * 2012-09-04 2016-01-20 深圳创维-Rgb电子有限公司 一种电视机语音控制系统及方法
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9147275B1 (en) * 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
RU2530268C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
US9043349B1 (en) 2012-11-29 2015-05-26 A9.Com, Inc. Image-based character recognition
US9224387B1 (en) * 2012-12-04 2015-12-29 Amazon Technologies, Inc. Targeted detection of regions in speech processing data streams
US10504622B2 (en) 2013-03-01 2019-12-10 Nuance Communications, Inc. Virtual medical assistant methods and apparatus
KR20150126027A (ko) * 2013-03-07 2015-11-10 엔이씨 솔루션 이노베이터 가부시키가이샤 이해 지원 시스템, 이해 지원 서버, 이해 지원 방법, 및 컴퓨터 판독가능 기록 매체
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
US11183300B2 (en) 2013-06-05 2021-11-23 Nuance Communications, Inc. Methods and apparatus for providing guidance to medical professionals
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
KR102305117B1 (ko) * 2014-04-30 2021-09-27 삼성전자주식회사 텍스트 입력 제어 방법 및 그 전자 장치
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10319004B2 (en) 2014-06-04 2019-06-11 Nuance Communications, Inc. User and engine code handling in medical coding system
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10366424B2 (en) 2014-06-04 2019-07-30 Nuance Communications, Inc. Medical coding system with integrated codebook interface
US10331763B2 (en) 2014-06-04 2019-06-25 Nuance Communications, Inc. NLU training with merged engine and user annotations
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
KR102380833B1 (ko) 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
FR3032574B1 (fr) * 2015-02-10 2017-01-13 Airbus Operations Sas Procede de communication d'un message vocal comprenant une etape de transcription d'une portion determinee d'un signal audio correspondant audit message vocal et dispositif pour sa mise en oeuvre
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN106340295B (zh) * 2015-07-06 2019-10-22 无锡天脉聚源传媒科技有限公司 一种语音识别结果的接受方法及装置
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
WO2017065266A1 (ja) * 2015-10-15 2017-04-20 ヤマハ株式会社 情報管理システムおよび情報管理方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10366687B2 (en) 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN105513586A (zh) * 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别结果的显示方法和装置
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105550171B (zh) * 2015-12-31 2018-10-16 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
US11152084B2 (en) 2016-01-13 2021-10-19 Nuance Communications, Inc. Medical report coding with acronym/abbreviation disambiguation
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
WO2018057639A1 (en) 2016-09-20 2018-03-29 Nuance Communications, Inc. Method and system for sequencing medical billing codes
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107293299A (zh) * 2017-06-16 2017-10-24 朱明增 一种提高调度员查找图纸效率的语音识别定位系统
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US10553208B2 (en) * 2017-10-09 2020-02-04 Ricoh Company, Ltd. Speech-to-text conversion for interactive whiteboard appliances using multiple services
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
CN109841209A (zh) * 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和系统
CN108831473B (zh) * 2018-03-30 2021-08-17 联想(北京)有限公司 一种音频处理方法及装置
US11430435B1 (en) 2018-12-13 2022-08-30 Amazon Technologies, Inc. Prompts for user feedback
AR118332A1 (es) * 2019-03-18 2021-09-29 Evonik Operations Gmbh Conversión de habla a texto de lenguaje técnico sin soporte
US11093720B2 (en) * 2019-03-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Apparatus, method, and program product for converting multiple language variations
JP6718182B1 (ja) * 2019-05-08 2020-07-08 株式会社インタラクティブソリューションズ 誤変換辞書作成システム
CN110379214A (zh) * 2019-06-27 2019-10-25 武汉职业技术学院 一种基于语音识别的看图写话训练方法及装置
EP3931826A4 (en) * 2019-08-13 2022-05-11 Samsung Electronics Co., Ltd. SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER
CN110534112B (zh) * 2019-08-23 2021-09-10 王晓佳 基于位置与时间的分布式语音识别纠错方法
CN111261166B (zh) * 2020-01-15 2022-09-27 云知声智能科技股份有限公司 一种语音识别方法及装置
US11776549B2 (en) * 2020-11-06 2023-10-03 Google Llc Multi-factor audio watermarking
CN112183073A (zh) * 2020-11-27 2021-01-05 北京擎盾信息科技有限公司 一种适用于法律热线语音识别的文本纠错和补全方法
US20230245649A1 (en) * 2022-02-03 2023-08-03 Soundhound, Inc. Token confidence scores for automatic speech recognition

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168915A (ja) * 1993-12-16 1995-07-04 Matsushita Electric Ind Co Ltd 学習機能を備えたオンライン認識装置
JPH1078964A (ja) * 1996-06-25 1998-03-24 Microsoft Corp 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム
JP2000089786A (ja) * 1998-09-08 2000-03-31 Nippon Hoso Kyokai <Nhk> 音声認識結果の修正方法および装置
WO2001031634A1 (en) * 1999-10-28 2001-05-03 Qenm.Com, Incorporated Proofreading system and method
JP2001195087A (ja) * 2000-01-06 2001-07-19 Mitsubishi Electric Corp 音声認識システム
JP2001343994A (ja) * 2000-06-01 2001-12-14 Nippon Hoso Kyokai <Nhk> 音声認識誤り検出装置および記憶媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT390685B (de) 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
DE69937176T2 (de) * 1998-08-28 2008-07-10 International Business Machines Corp. Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6314397B1 (en) * 1999-04-13 2001-11-06 International Business Machines Corp. Method and apparatus for propagating corrections in speech recognition software
US6507816B2 (en) * 1999-05-04 2003-01-14 International Business Machines Corporation Method and apparatus for evaluating the accuracy of a speech recognition system
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US6611802B2 (en) 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6332122B1 (en) * 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
US6374214B1 (en) * 1999-06-24 2002-04-16 International Business Machines Corp. Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6859774B2 (en) * 2001-05-02 2005-02-22 International Business Machines Corporation Error corrective mechanisms for consensus decoding of speech

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168915A (ja) * 1993-12-16 1995-07-04 Matsushita Electric Ind Co Ltd 学習機能を備えたオンライン認識装置
JPH1078964A (ja) * 1996-06-25 1998-03-24 Microsoft Corp 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム
JP2000089786A (ja) * 1998-09-08 2000-03-31 Nippon Hoso Kyokai <Nhk> 音声認識結果の修正方法および装置
WO2001031634A1 (en) * 1999-10-28 2001-05-03 Qenm.Com, Incorporated Proofreading system and method
JP2001195087A (ja) * 2000-01-06 2001-07-19 Mitsubishi Electric Corp 音声認識システム
JP2001343994A (ja) * 2000-06-01 2001-12-14 Nippon Hoso Kyokai <Nhk> 音声認識誤り検出装置および記憶媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
WO2012043168A1 (ja) * 2010-09-29 2012-04-05 Necカシオモバイルコミュニケーションズ株式会社 音声変換装置、携帯電話端末、音声変換方法および記録媒体
JPWO2012043168A1 (ja) * 2010-09-29 2014-02-06 Necカシオモバイルコミュニケーションズ株式会社 音声変換装置、携帯電話端末、音声変換方法およびプログラム
JP5874640B2 (ja) * 2010-09-29 2016-03-02 日本電気株式会社 音声変換装置、携帯電話端末、音声変換方法およびプログラム

Also Published As

Publication number Publication date
EP1611569A2 (en) 2006-01-04
US8447602B2 (en) 2013-05-21
ATE417346T1 (de) 2008-12-15
DE602004018290D1 (de) 2009-01-22
JP4994834B2 (ja) 2012-08-08
EP1611569B8 (en) 2009-04-15
WO2004086359A3 (en) 2005-01-13
CN100578615C (zh) 2010-01-06
CN1764944A (zh) 2006-04-26
EP1611569B1 (en) 2008-12-10
WO2004086359A2 (en) 2004-10-07
US20070033026A1 (en) 2007-02-08

Similar Documents

Publication Publication Date Title
JP4994834B2 (ja) 音声認識システム
JP2006521578A5 (ja)
US8086453B2 (en) Automatic detection and application of editing patterns in draft documents
JP5330450B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US7315811B2 (en) System and method for accented modification of a language model
JP5450524B2 (ja) トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与
US9002710B2 (en) System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
KR101004560B1 (ko) 음성 인식 시스템 모델링 방법 및 컴퓨터 판독가능 기록 매체
US8798997B2 (en) Method and system for dynamic creation of contexts
JP2007264471A (ja) 音声認識装置および音声認識方法
JPH09505173A (ja) ルールに基づく自然言語パーザへの統計学的な処理をブートストラップする方法及びシステム
KR20010102280A (ko) 자동화된 전사 시스템 및 두 개의 음성 변환 인스턴스 및컴퓨터 지원형 보정을 사용하는 방법
JP2003162524A (ja) 言語処理装置
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
US20030216921A1 (en) Method and system for limited domain text to speech (TTS) processing
WO2021205832A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
Vertanen Efficient computer interfaces using continuous gestures, language models, and speech
JP2012190088A (ja) 音声記録装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070320

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090508

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110118

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20110506

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110518

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120509

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4994834

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees