JP2004341518A - 音声認識処理方法 - Google Patents

音声認識処理方法 Download PDF

Info

Publication number
JP2004341518A
JP2004341518A JP2004129952A JP2004129952A JP2004341518A JP 2004341518 A JP2004341518 A JP 2004341518A JP 2004129952 A JP2004129952 A JP 2004129952A JP 2004129952 A JP2004129952 A JP 2004129952A JP 2004341518 A JP2004341518 A JP 2004341518A
Authority
JP
Japan
Prior art keywords
word
recognized
processing method
marked
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004129952A
Other languages
English (en)
Inventor
Thomas Kemp
ケンプ、トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of JP2004341518A publication Critical patent/JP2004341518A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 認識された音声を処理する方法を提供する。
【解決手段】 音声認識処理方法は、認識された音声データRSDを受け取り及び/又は生成するステップ(S0)と、認識済音声データRSDのうち又は少なくとも誤って認識された可能性のある単語について、現在の信頼度CMOCを決定及び/又は生成するステップ(S1)とを備え、停止条件(S3)を満たすまで反復処理を繰り返すもので、反復処理には、現在の信頼度CMOCを用いて、現在の指示/マークされたエラーCIMEとして、少なくとも幾つかの誤って認識された可能性のある単語を指示/マークし(S2、S5−B)、現在の指示/マークされたエラーCIMEに関して、選択/訂正に関わる選択/訂正データSCDを受け取り(S4)、認識済音声データRSDのうち又は少なくとも他の又は残りの誤って認識された可能性のある単語について、改善された信頼度IMOCを決定(S5)及び/又は生成することを連続的に行うことが含まれ、停止条件が満たされた場合、改善された認識結果IRRが出力される(S8)。
【選択図】 図1

Description

本発明は、認識された音声を処理する音声認識処理方法に関する。
従来の自動音声認識(ASR)では、特に口述筆記システムを使用する場合、テキスト文書生成中の生産性を実質的に増加させることができなかった。これは、自動音声認識ではエラーが発生し、このエラーを生成された文書において手作業で訂正しなければならないということが主な理由である。訂正の処理には時間がかかる。このため、文書を手入力する代わりに音声入力で節約した時間の多くが、この訂正作業に費やされてしまう。
自動音声認識に基づいた口述筆記システムは、一般消費者用として以前から販売されており、5〜10%以下の単語エラー率が達成可能である。
さらに残っているエラーの訂正について、信頼尺度(confidence measures)又は信頼度(measures of confidence:MOC)が提案された。これによって、エラーの可能性が高いと考えられる潜在的認識エラーが、信頼度の適用及び閾値の使用により決定される。閾値未満の信頼度を示す潜在的認識エラーは強調表示される。また、ユーザは、2つのキー、すなわち前移動キーと後移動キーを使用して強調表示された単語間を移動し、必要に応じて、これらを訂正することができる。
口述筆記した文章のチェック及び訂正の従来技術については、例えば、下記特許文献1に例示されている。
米国特許出願公開 2002/002459 A1
しかしながら、提案されたような潜在的認識エラーの強調表示も、テキスト訂正処理の実質的な迅速化を促進するものではなかった。
本発明は、認識した音声の訂正に必要な時間を減らすことができる音声認識処理方法を提供することを目的とする。
上述の目的を達成するために、本発明は、請求項1に記載の音声認識処理方法を提供する。さらに、本発明は、請求項8、9及び10にそれぞれ記載された音声処理システム、コンピュータプログラム及びコンピュータ読取可能な記憶媒体を提供する。さらなる特徴及び好適な実施形態については、それぞれの従属請求項及び/又は以下の説明にそれぞれ記載される。
本発明の一実施形態に係る認識した音声を処理する音声認識処理方法は、認識した音声データを受け付け及び/又は生成するステップと、認識した音声データの、又はそれに含まれる、少なくとも誤って認識された可能性のある単語について、現在の信頼度を決定及び/又は生成するステップと、停止条件を満たすまで反復処理を連続的に繰り返すステップと、改善された認識結果を出力するステップとを含む。ここで、出力ステップが停止条件が満足された場合に行われるようにしてもよい。
反復処理は、現在の信頼度を用いて、現在の指示/マークされたエラーとして、誤って認識された可能性のある単語の少なくとも一部を、指示/マークするステップと、現在の指示/マークされたエラーに対して行われた選択/訂正を示す選択/訂正データを受け付けるステップと、認識音した音声データの、又はそれに含まれる、少なくとも他の又は残りの誤って認識された可能性のある単語について、改善された信頼度を決定及び/又は生成するステップとを含む。
本発明の主な概念は、文書の口述筆記を行ったユーザに対し、誤って認識された可能性のある単語を提示し(指示/マークして)、指示/マークされた単語をユーザにチェックさせることにある。ユーザは、それぞれの単語を訂正することもできるし、あるいは、訂正しなくてもよい。いずれの場合でも、訂正/不訂正の後では、それぞれの単語が正/誤の状態のいずれであるかが判明する。これは、改善された信頼度を決定するための価値のある情報である。換言すれば、各反復処理において、信頼度、すなわち改善された信頼度が反復処理毎に正確になる。したがってユーザは、従来の技術に比較して、はるかに少数の単語を訂正するだけなので、口述筆記した文書を訂正するために極めて少ない時間で済む。
また、指示/マークされた誤って認識された可能性のある単語の少なくとも一部に加えて、その周囲の単語を現在指示/マークされたエラーとして、マーク/指示する構成としてもよい。これは、必ずしも誤っていない場合でも単語がマークされ得ることも意味する。しかしながら、周囲の単語をマークする利点もある。例えば、ユーザが全体の文章を読み、その結果文章全体を訂正する必要が生じた場合に便利である。
また、現在の指示/マークされたエラーを指示/マークするために閾値を決定し、誤って認識された可能性のある単語のうち現在の信頼度が閾値未満の単語だけをマークする構成としてもよい。このような構成によれば、マークされる単語の数を制御して低く維持することができる。
また、反復処理の各周期において、認識した音声データに含まれる単語全体に対して予め定めた割合の単語が指示/マークされるように、閾値を決定する構成としてもよい。このような構成を実施するのは極めて容易である。
また、現在の信頼度を例えばニューラルネットワーク等の第1のリグレッサを用いて決定し、第1のリグレッサを、音響的スコア、推定発話レート、局所信号対雑音比及び/又は信頼度を決定するために一般に使用される他の標準特徴情報などの特徴情報を用いてトレーニングする構成としてもよい。言いかえれば、現在の信頼度は、1つの現在の信頼度を推定するために一般に使用される標準特徴情報を使用して決定される。
また、改善された信頼度を例えばニューラルネット等の第2のリグレッサを用いて決定し、第2のリグレッサを選択/訂正データから導き出された特徴情報を用いてトレーニングする構成としてもよい。第2のリグレッサとしてニューラルネットを使用することには、容易に新たな特徴情報を組み込むことができるという利点がある。
第1のリグレッサ及び第2のリグレッサは同一であってもよい。また、現在の信頼度を決定するために第1のリグレッサを使用する場合、選択/訂正データと関係する特徴情報は、第1のリグレッサのための入力としては使用しないことが望ましい。
認識した音声データに含まれる単語全体に対する現在の指示/マークされたエラーの割合が予め定めた許容率より低い場合、反復処理を停止する構成としてもよい。
さらに、推定された残差単語エラー率が、予め定めた単語エラー許容率未満になった場合、反復処理を停止する構成としてもよい。このような構成においては、推定された残差単語エラー率を文書全体に関して各反復処理中に決定する。なお、推定された残差単語エラー率は反復処理の各周期毎に減少し、より正確になる。すなわち、改善された信頼度も反復処理毎により正確になり、改善された信頼度が残差単語エラー率を推定するために使用されるからである。
本発明の一実施形態に係る音声処理システムは、上述した本発明の音声認識処理方法及び/又はそのステップを実行又は実現することができる。
本発明の一実施形態に係るコンピュータプログラム又はその製品は、コンピュータ、ディジタル信号処理手段、及び/又は同様なもので実行される場合に、上述した本発明の音声認識処理方法及び/又はそのステップを実行及び/又は実現するようにしたコンピュータプログラム又はその手段を含む。
本発明の一実施形態に係るコンピュータ読取可能な記憶媒体は、上述した本発明のコンピュータプログラム又はその製品を記録している。
本発明によれば、認識した音声の訂正に必要な時間を減らすことができる音声認識処理方法を提供が提供される。
図1において、第1の受信ステップS0では、認識した音声データRSD(以下、認識済音声データRSDと呼ぶ)が受け取られる。次に、第1の決定ステップS1において、現在の信頼度CMOCが決定される。
信頼度MOCを推定する推定手段は、仮定された単語各々について、一群の特徴情報を計算する。ここで、上記特徴情報には、例えば、音響的スコア(acoustic score)、推定発話レート(speaking rate estimate)、局所的信号対雑音比(local signal-to-noise ratio)を含んでいる。上記特徴情報は、第1のリグレッサ(regressor)、例えば多層構造のパーセプトロンネットワーク(multilayer perceptron network)のようなニューラルネットによって、最終的な信頼度、すなわち上記現在の信頼度CMOCへ組み込まれる。その出力、すなわち信頼度MOCは、0から1までの範囲の数である。ここで、0は全く信頼度がないことを示し、1は信頼度(full confidence)が最大であることを示す。
上記第1の決定ステップS1では、認識済音声データRSDの全ての単語について現在の信頼度CMOCが決定される。
次の第1の指示ステップS2では、現在の信頼度CMOCは、認識された単語のうちの幾つかを指示/マークするために使用される。
認識された単語のうちの幾つかを指示/マークするための実施形態の一例を図2に示す。閾値Tは、閾値決定ステップS6において決定される。マーキングステップS7においては、現在の信頼度CMOCが閾値T未満である単語(以下、マークされた単語又は現在の指示/マークされたエラーCIMEと称する)だけが、マークされる。本実施形態では、文書中の全ての単語のうち、予め定めた一定割合の単語だけが指示/マークされるように、繰り返される反復処理毎に、閾値が決定される。例えば、全ての単語のうち予め定めた一定割合として0.5%を指示/マークするようにしてもよい。第1のリグレッサの出力に、閾値を設けることによって、上記第1のリグレッサはクラシファイヤ(classifier)に変換される。
上記第1の指示ステップS2の後、反復処理が開始される。この反復処理は、第2の受信ステップS4と、第2の決定ステップS5と、第2の指示ステップS5−Bと、残差単語エラー率RER推定ステップS5−Cと、及び停止ステップS3とから構成される。
第2の受信ステップS4において、選択/訂正データSCDを受け取る。選択/訂正データSCDは、ユーザが行った訂正に関する情報を含んでいる。ここでの訂正とは、現在の指示/マークされたエラーCIMEをユーザに提示すなわち強調表示し、これに応じてユーザが行う、それぞれの単語、すなわち現在の指示/マークされたエラーCIMEの修正を指す。ここで、上記閾値Tは、従来の技術と比較して、より少数の単語だけがマークされるように選択されるものとする。したがって、ユーザは単語をほとんど修正する必要がなくなるため、迅速な訂正処理が可能となる。
なお、上記第1の指示ステップS2においては、上記閾値Tに応じてマークされた単語に加えて、該マークされた単語を囲んでいる単語も指示/マークする構成としてもよい。言いかえれば、マークされた単語については現在の信頼度CMOCが上記閾値T未満であるため、マークされた単語とその周囲の単語を含んでいてもよい。周囲の単語としては、例えば、該当する1つの文全体がマークされるようにしてもよい。このような構成によれば、単語だけを訂正するのではなく、ユーザが1つの文を読み、その文全体を訂正することが可能となる。
次に、上記受信された選択/訂正データSCDは、改善された信頼度IMOCを決定する、すなわち計算する第2の決定ステップS5において使用される。改善された信頼度IMOCを算出するために、第2のリグレッサR−IMOC(例えばニューラルネット)が使用される。しかしながら、ここで、上述の音響特性などの特徴情報に加えて、受信した選択/訂正データSCDから派生した情報、すなわち文脈上の参照に係る品質情報(contextual reference-quality information)を含んでいる特徴情報が使用される。
上述したように、受信した選択/訂正データSCDはユーザの訂正に関する情報を含んでいる。訂正処理中にユーザは、マークされた、すなわち強調表示された全ての単語をチェックする。訂正処理後は、マークされた全ての単語、すなわち現在の指示/マークされたエラーCIMEについて、これが「正しい/正しくない」のいずれかの状態にある。すなわち、ユーザによって訂正されなかった単語については、単語が正しいことが(正しい状態)この時点で確定され、他方、ユーザによって訂正された単語については、単語が正しくなかった(誤っている状態)ことが確定となった。言いかえれば、ユーザは、マークされた本当の認識エラーを全て訂正し、誤判定した認識エラーを変更しなかったことになる。これは、ユーザ訂正後には、強調表示された単語が正しい状態にあるか、正しくない状態にあるかが明確であることを意味する。この情報は、もはや不確実ではなく基準として利用可能な情報である。第2のリグレッサR−IMOCでは、追加的な特徴情報として、この情報を使用することにより、信頼度MOCを極めて正確に決定することが可能となる。
ここで、上述した現在の信頼度CMOCを推定するための第1のリグレッサ及び第2のリグレッサR−IMOCは、同一であってもよい。この場合、選択/訂正データSCDに関係する特徴情報は、第1のリグレッサの入力としては使用されない。
第2のリグレッサR−IMOC(例えばニューラルネットなどのリグレッサ)は、上記情報が利用可能な箇所で、選択/訂正データSCDからの情報を利用するようにトレーニングされる。トレーニングは、近傍について真/偽の情報を組み込む通常の方法で行うことができる。その性能は、訂正された単語の近傍(すなわち、少なくとも言語モデルスパン内で、典型的には3単語)で大きく増加させることが可能である。言いかえれば、以前に強調表示された単語については単語の正/誤の状態が知られており、この情報が極めて価値があるため、改善された信頼度IMOCを正確に推定することができる。
図3は、改善された信頼度IMOCの決定処理を示す。図3からも分かるように、第2のリグレッサR−IMOC、例えばニューラルネットは、改善された信頼度IMOCを決定するために使用される。第2のリグレッサR−IMOCへの入力として、第1の標準特徴情報群SF1が使用される。信頼度MOCの決定のための第1の標準特徴情報群SF1には、例えば、音響的スコア、推定発話レート、局所信号対雑音比が含まれている。さらに、追加的な入力として、第1の訂正特徴情報群CF1が使用される。この第1の訂正特徴情報群CF1には、ユーザの訂正(すなわち受信された選択/訂正データSCD)から導き出された特徴情報が含まれている。
上記第2の決定ステップS5の後には、第2の指示ステップS5−Bが続く。この第2の指示ステップS5−Bでは、改善された信頼度IMOCは、新たな、現在の指示/マークされたエラーCIMEを決定するために使用される。したがって、上記第1の指示ステップS2でのように、文書中の全単語の予め定めた一定割合だけが指示/マークされるように、閾値が決定される。
次に、推定ステップS5−Cに続く。推定ステップS5−Cにおいては、残差単語エラー率RERが決定される。したがって、改善された信頼度IMOCが使用される。
次に、停止ステップS3に続く。推定された残差単語エラー率RERが予め定めた単語エラー許容率未満である場合、出力ステップS8へ進む。出力ステップS8では、改善された認識結果IRRが出力される。ここで認識結果IRRは、例えば、口述筆記された文書であってもよい。
停止ステップS3における停止条件に合致しない場合、すなわち、推定された残差単語エラー率RERが、上記予め定めた単語エラー許容率より大きい場合、上述した反復処理の新たな処理周期が開始される。すなわち、第2の受信ステップS4、第2の決定ステップS5、第2の指示ステップS5−B及び推定ステップS5−Cが実行される。
図4には、改善された信頼度IMOCが、反復処理の各周期において、どのようにして、より正確になっていくかについての例を挙げている。本例では、認識した音声データRSDが第1の受信ステップS0で受け取られ、第1の決定ステップS1が実行されることで、図4のテーブルの第1行に示されている現在の信頼度が算出される。図4のテーブルでは、現在の信頼度CMOCが、典型的な4単語、第1の単語A、第2の単語B、第3の単語C及び第4の単語Dについて表示されている。なお、典型的なアプリケーションにおいては、さらに多くの単語が存在する。4単語だけを例示した図4のテーブルは本願発明を説明するための一例である。
上述したように、現在の信頼度CMOCは、例えば音響的スコア、推定発話レート、及び局所信号対雑音比等を含む特徴情報を入力することで、第1のリグレッサにより決定される。図4のテーブルの第1行の現在の信頼度CMOCはやや不正確な推定でもよい。その理由としては、この時点での現在の信頼度CMOCは、一般的に言って、話者に大きく依存する。ところが、第1の決定ステップS1でこれらの値を計算する場合、話者に関する情報が利用可能でないためである。言いかえれば、例えば第3の単語Cについて、40%の現在の信頼度の尺度は、推定にしかすぎない。それは、平均的な話者にとって、第3の単語Cの正確に認識されない確率が40%であることになる。しかしながら、ある話者にとっては、第3の単語Cについての現在の信頼度CMOCがより高くなる場合もあり、また低くなる場合もあるシステムを現在使用していることを意味する。図4のテーブルの最後の列には残差単語エラー率RERが示されている。これらの残差単語エラー率RERは、信頼度の値から決定される。
図4の例において、第1行中の現在の信頼度についての残差単語エラー率RERは10%である。
次に、第1の指示ステップS2が続き、文書に含まれていた全単語のうち予め定めた一定割合の単語がマークされる。ここでは、最低レベルの現在の信頼度CMOCを有する単語がマークされる。これは、現在の信頼度CMOCが閾値T未満の単語だけをマークするように閾値を決定することに相当する。図4の例では、第3の単語Cがマークされる。ユーザは、このマークされた単語を訂正する。この訂正処理の後には、その単語が正しく認識されているか否か(正確/不正確)が明確に分かる状態となる。図4の例では、ユーザは第3の単語Cを訂正した。
次に、第2の受信ステップS4に続くが、ここで、選択/訂正データSCDが受け取られる。このデータは訂正された単語に対応する。その後、この訂正に関する情報は、上記第1の標準特徴情報群SF1として、さらに第2の決定ステップS5での入力として使用される。第1の標準特徴情報群SF1は、信頼度MOCを決定するための、上記特徴情報、例えば、音響的スコア、推定発話レート及び局所信号対雑音比等を含んでいる。
本例の4単語についての改善された信頼度IMOCは、図4のテーブルの第2行中に示されている。図4から分かるように、これらの値はテーブルの第1行とは異なる。この時点では、ユーザ特有のデータが利用可能であるため、改善された信頼度IMOCは、図4のテーブルの第1行中の現在の信頼度CMOCより、はるかに正確である。上述のように、第3の単語Cは、第1の指示ステップS2の後で、ユーザによって訂正されている。したがって、図4のテーブルで分かるように、第3の単語Cについての改善された信頼度IMOCは、現在においても後続の全ての反復処理においても、0%である。
その後、第2の指示ステップS5−B及び推定ステップS5−Cに続く。推定ステップS5−Cでは、残差単語エラー率RERが図4のテーブルの第2行の改善された信頼度IMOCから決定される。残差単語エラー率RERは、この時点で7%である。
次に、停止ステップS3に続く。停止ステップS3では、残差単語エラー率RERが、予め定めた単語エラー許容率WEAR未満であるかどうかがチェックされる。本例において、単語エラー許容率WEARは3%である。残差単語エラー率RERが7%であるので(すなわち3%の単語エラー許容率WEAR未満ではない)、第2の反復処理がスタートする。すなわち、第2の受信ステップS4へ進む。第2の受信ステップS4では、再び、選択/訂正データSCDを受け取る。このデータは、ユーザの訂正処理に対応するもので、再び各単語毎に改善された信頼度IMOCが、第2の決定ステップS5において決定される。この第2の反復処理により、改善された信頼度IMOCが、図4の中のテーブルの3番目の列で与えられる。図4から分かるように、改善された信頼度IMOCが再び変わり、より正確になっている。第2の反復処理の改善された信頼度IMOCから、再び、残差単語エラー率RERが決定される。本例においては、この時点で2.5%に等しい。次いで、停止ステップS3に続く。この時点で残差単語エラー率RERは、単語エラー許容率WEARより小さい。この結果、出力ステップS8へ進み、改善された認識結果IRRが出力される。
以下に、本発明を要約する。
本発明の基本的な概念は、先に口述筆記した文章のエラーを複数のステップでユーザが訂正するという点にある。ここで、複数のステップの各々では、明らかに誤っていると思われる単語だけ、すなわち極めてわずかの単語だけが訂正のためにユーザへ提示され、ユーザがこれを訂正又は受理する。このようなユーザの手作業に基づいて、信頼度MOCが再計算される。ユーザはこのような訂正作業を、訂正が不要になるまで(goodの状態)あるいは訂正の必要性が予め定めた割合未満(good enoughの状態)を示すまで繰り返す。これは、上述した停止条件の変形である。誤っている可能性が最も高い単語にエラーがない場合、認識率がよいという可能性が極めて高い。残差エラーがある場合、予期された残差誤り率が計算され、この値と(ユーザによって)予め定められた値とを比較することで、現在の状態がユーザにとってgood enoughの状態かどうか決定するようにしてもよい。
本発明のさらなる特徴を以下に説明する。
典型的な信頼度推定手段(confidence measure estimator)は、仮定された各単語に関する一群の特徴情報(音響的スコア、推定発話レート、局所信号対雑音比などを含む)を計算した後、リグレッサ、例えば多層のパーセプトロンのようなニューラルネットによって、該特徴情報を最終的な信頼度へ組み込むように動作する。その出力は、典型的には0から1までの範囲中の数であり、0は信頼度がないことを示し、1は信頼度が最大であることを示す。数値0.5が、この0.5でタグ付けされた単語の50%が誤りとなり、50%が正確に認識されることを示すようになっていることの望ましい。この場合、0.5のバイアスBを引き、結果を2倍とすることができる場合には、最終的な出力結果は−1と1の範囲にある。バイアスの減算とスケーリングは必要ではなく、単に便宜上のものである。しかしながらこれは、多くの話者の平均についてのみ正しい。話者Aについては、真/偽を50:50の比(上に「バイアスB」と称した)に分割する出力値が、0.5ではなく、例えば0.3であり、話者Bについては、それが0.7であることは容易に考えられる。未知の話者について、正確なバイアスを決めることは困難である。どんなシステムにおいても、この不確実性があるため、全ての話者について予め定めたバイアスを使用することが必要となり、通常は、予め定めたバイアスは0.5である。
独立した特徴情報を結合結果に組み合わせる場合の基本的な特性は、もう1つの入力(新たな特徴情報)を加え、より良い又は少なくとも現状のクラシファイヤ出力結果を得ることが容易にできるということである。本発明ではこの特性を利用している。
誤った単語の後に別の誤った単語が続くという、単語エラーが連続的に生じるように見える場合がある。誤った単語の後に続けて誤った単語を観察する確率は、典型的には、正しく認識された単語の後で誤った単語を観察する確率の2倍以上である。しかしながら、単語が正しく認識されたかどうか確実に伝えることは困難である。信頼度の算出では、典型的には既に、この種の文脈上の情報を使用している。しかしながら、情報が安全ではないため、これを用いることで得られる利点は制限される。
本発明の目的は、テキスト訂正に必要な時間を切り詰めることである。信頼度MOCによりガイドされた、潜在的なエラーの選択的強調表示を用いるテキスト訂正処理において、時間の大部分は単語のチェックに費やされるが、これは本当の意味での認識エラーではない。したがって、この数を減らす手段、又は同等に信頼度の質を改善する手段は、本発明の課題を解決するために必要である。
このことは、基本的には、反復処理を複数回繰り返すことによって行われる。各反復は、極めて短い時間に実行することができ、次の反復処理への情報を提供する。この情報は、信頼度を改善するために使用される。新たな改善されたMOCにより、強調表示箇所が再計算され、ユーザは文書への作業を繰り返す。文書のエラー率が、アプリケーションにとって、十分低くなるまで、その処理は繰り返される。全ての反復処理の中で、極めて悪い得点の単語だけが強調表示される。例えば、その単語がスケーリングの後で−0.7未満の信頼度である場合である。従来の技術の方法と比較して、実際のエラーを多数強調表示するという点を犠牲にすることで、結果として、訂正されるべき単語が約100のオーダ程度少ないという結果となる。しかしながら、最初の反復処理の訂正の後に、利用可能な情報がある。すなわち、ユーザは実際の認識エラーを全て訂正したが、誤って判定された認識エラーを変更しなかった。さらに、ユーザ訂正後には、最初の反復処理の後で強調表示された単語の全てについて、正/誤の状態(誤っている場合、正しい単語は知られている)が判明している。このような情報は、もはや不確実なものではなく、基準となる情報である。したがって、このような情報は、MOCクラシファイヤそのものにおいて、追加的な特徴情報として使用することができる。このような情報を利用できる場合には、それを利用するようにMOCクラシファイヤをトレーニングすることで、その性能は訂正された単語の近傍で(少なくとも言語スパン分、典型的には3単語)、実質的に増加させることができる。なお、トレーニングは、近傍についての真/偽情報を組み込んで、通常の方法で行うことができる。さらに、反復処理の最初の繰返しにおいて予期された正確な予測量と実際の正確な予測量とを比較することによって、最初の繰返しにおける情報から、話者に依存するバイアス項の再推定が可能になる。なお、バイアス項は、例えばデフォルトで0.5に設定される。2つの結果の組み合わせ、バイアス項の訂正、及びMOCクラシファイヤのセットへの確実に確認された特徴情報の追加は、MOCエラー率を引き下げ、その結果、訂正に費やされる総時間を切り詰めることに役立つ。反復処理の最初の繰返しにおける強調表示及び訂正の後、改善されたMOCは、新たなバイアス及び手作業で訂正されたアンカーポイントを用いて、文書の単語を再区分するために使用される。再び、最も信頼度の低い単語を強調表示し、第2回目の繰返しでの訂正がスタートする。各繰返しでの訂正において、どれだけのエラーが文書に残るかが推定される。これは、全ての訂正反復からの情報を利用して、この話者について真実のバイアスと一致するようにバイアス項が連続的に適応化されるために可能となる。推定数あるいは残りのエラーが予め定めた閾値未満になった後に、処理が終了し、文書が完了する。全体の処理は時間的効率が非常に高い。その理由は、動作中にMOCクラシファイヤを再トレーニングする必要がなく、且つ、2つの繰返し訂正処理の間で計算が必要なのは、単に1つのパラメータ(バイアス)だけであるからである。
本発明の主な処理ステップを示すフローチャートである。 誤って認識された可能性のある単語を示すために行われる処理ステップを示すブロック図である。 改善された信頼度を決定するために用いられる第1のリグレッサを示す説明図である。 異なる繰返しにおける信頼度の値を示す表である。
符号の説明
A 第1の単語、B 第2の単語、C 第3の単語、CF1 第1の訂正特徴情報群、CIME 現在の指示/マークされたエラー、CMOC 現在の信頼度、D 第4の単語、IMOC 改善された信頼度、IRR 改善された認識結果、RER 残差単語エラー率、R−IMOC 第2のリグレッサ、RSD 認識された音声データ、S0 第1の受信ステップ、S1 第1の決定ステップ、S2 第1の指示ステップ、S3 停止ステップ、S4 第2の受信ステップ、S5 第2の決定ステップ、S5−B 第2の指示ステップ、S5−C 推定ステップ、S6 閾値決定ステップ、S7 マーキングステップ、S8 出力ステップ、SCD 選択/訂正データ、SF1 第1の標準特徴情報群、T 閾値

Claims (12)

  1. 認識した音声を処理する音声認識処理方法において、
    認識した音声データを受け付け及び/又は生成するステップと、
    前記認識した音声データの、又はそれに含まれる、少なくとも誤って認識された可能性のある単語について、現在の信頼度を決定及び/又は生成するステップと、
    停止条件を満たすまで反復処理を連続的に繰り返すステップと、
    前記停止条件が満足された場合には、改善された認識結果を出力するステップとを含み、
    前記反復処理は、
    前記現在の信頼度を用いて、現在の指示/マークされたエラーとして、前記誤って認識された可能性のある単語の少なくとも一部を、指示/マークするステップと、
    前記現在の指示/マークされたエラーに対して行われた選択/訂正を示す選択/訂正データを受け付けるステップと、
    前記認識音した音声データの、又はそれに含まれる、少なくとも他の又は残りの誤って認識された可能性のある単語について、改善された信頼度を決定及び/又は生成するステップとを含むことを特徴とする音声認識処理方法。
  2. 前記指示/マークされた前記誤って認識された可能性のある単語のうちの少なくとも一部に加えて、その周囲の単語を現在の指示/マークされたエラーとしてマーク/指示することを特徴とする請求項1に記載の音声認識処理方法。
  3. 前記現在の指示/マークされたエラーを指示/マークするために閾値を決定し、
    前記誤って認識された可能性のある単語のうち、前記現在の信頼度が前記閾値未満の単語だけをマークすることを特徴とする請求項1又は2に記載の音声認識処理方法。
  4. 前記反復処理の各周期において、前記認識した音声データに含まれる単語全体に対して予め定めた割合の単語が指示/マークされるように、前記閾値を決定することを特徴とする請求項3に記載の音声認識処理方法。
  5. 前記現在の信頼度は、第1のリグレッサを用いて決定され、
    前記第1のリグレッサは、音響的スコア、推定発話レート及び局所信号対雑音比のうち少なくとも1つの特徴情報を用いてトレーニングされることを特徴とする請求項1乃至4のいずれか1項に記載の音声認識処理方法。
  6. 前記改善された信頼度は、第2のリグレッサを用いて決定され、
    前記第2のリグレッサは、前記選択/訂正データから導き出された特徴情報を用いてトレーニングされることを特徴とする請求項1乃至5のいずれか1項に記載の音声認識処理方法。
  7. 前記第1のリグレッサ及び前記第2のリグレッサが同一であり、
    前記現在の信頼度を決定する前記第1のリグレッサを用いる際に、前記選択/訂正データから導き出された特徴情報は、前記第1のリグレッサのための入力としては使用されないことを特徴とする請求項6に記載の音声認識処理方法。
  8. 前記認識した音声データに含まれる単語全体に対する前記現在の指示/マークされたエラーの割合が予め定めた許容率未満の場合、前記反復処理が停止されることを特徴とする請求項1乃至7のいずれか1項に記載の音声認識処理方法。
  9. 前記反復処理の各周期において、対象文書全体に関して推定された残差単語エラー率を決定し、
    前記推定残差単語エラー率が、予め定めた単語エラー許容率未満である場合、前記反復処理が停止されることを特徴とする請求項1乃至8のいずれか1項に記載の音声認識処理方法。
  10. 請求項1乃至9のいずれか1項に記載の音声認識処理方法を実行又は実現する音声処理システム。
  11. コンピュータで実行された場合、請求項1乃至9のいずれか1項に記載の音声認識処理方法を実行又は実現するように構成されたコンピュータプログラム。
  12. 請求項11に記載のコンピュータプログラムが記録されたコンピュータ読取可能な記憶媒体。
JP2004129952A 2003-04-25 2004-04-26 音声認識処理方法 Pending JP2004341518A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP03009419A EP1471502A1 (en) 2003-04-25 2003-04-25 Method for correcting a text produced by speech recognition

Publications (1)

Publication Number Publication Date
JP2004341518A true JP2004341518A (ja) 2004-12-02

Family

ID=32946882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004129952A Pending JP2004341518A (ja) 2003-04-25 2004-04-26 音声認識処理方法

Country Status (3)

Country Link
US (1) US7356467B2 (ja)
EP (1) EP1471502A1 (ja)
JP (1) JP2004341518A (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
KR100998566B1 (ko) * 2008-08-11 2010-12-07 엘지전자 주식회사 음성인식을 이용한 언어 번역 방법 및 장치
US9653066B2 (en) * 2009-10-23 2017-05-16 Nuance Communications, Inc. System and method for estimating the reliability of alternate speech recognition hypotheses in real time
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
JP2013254395A (ja) * 2012-06-07 2013-12-19 Ricoh Co Ltd 処理装置、処理システム、出力方法およびプログラム
US9342795B1 (en) * 2013-06-05 2016-05-17 Emc Corporation Assisted learning for document classification
EP3017408A1 (fr) * 2013-07-04 2016-05-11 Veovox SA Procédé d'assemblage de commandes, et terminal de paiement
JP6191919B2 (ja) * 2014-07-15 2017-09-06 パナソニックIpマネジメント株式会社 注文入力システム及び注文入力方法
JP5748381B1 (ja) * 2014-07-31 2015-07-15 楽天株式会社 メッセージ処理装置、メッセージ処理方法、記録媒体およびプログラム
US10049655B1 (en) 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
US9971758B1 (en) 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
US10019986B2 (en) 2016-07-29 2018-07-10 Google Llc Acoustic model training using corrected terms
JP6678545B2 (ja) * 2016-09-12 2020-04-08 株式会社東芝 修正システム、修正方法及びプログラム
JP6672209B2 (ja) 2017-03-21 2020-03-25 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
CN108932945B (zh) * 2018-03-21 2021-08-31 北京猎户星空科技有限公司 一种语音指令的处理方法及装置
CN108647190B (zh) * 2018-04-25 2022-04-29 北京华夏电通科技股份有限公司 一种语音识别文本插入笔录文档的方法、装置及系统
CN108733649B (zh) * 2018-04-25 2022-05-06 北京华夏电通科技股份有限公司 一种语音识别文本插入笔录文档的方法、装置及系统
US10269376B1 (en) * 2018-06-28 2019-04-23 Invoca, Inc. Desired signal spotting in noisy, flawed environments
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
CN111274819A (zh) * 2020-02-13 2020-06-12 北京声智科技有限公司 资源获取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01177600A (ja) * 1988-01-06 1989-07-13 Nec Corp 音声認識誤り訂正装置
JPH0289191A (ja) * 1988-09-27 1990-03-29 Toshiba Corp 認識結果修正方式
JP2000250589A (ja) * 1999-03-04 2000-09-14 Atr Interpreting Telecommunications Res Lab 音声認識誤り訂正装置
JP2005507536A (ja) * 2001-10-31 2005-03-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
GB2385697B (en) * 2002-02-14 2005-06-15 Canon Kk Speech processing apparatus and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01177600A (ja) * 1988-01-06 1989-07-13 Nec Corp 音声認識誤り訂正装置
JPH0289191A (ja) * 1988-09-27 1990-03-29 Toshiba Corp 認識結果修正方式
JP2000250589A (ja) * 1999-03-04 2000-09-14 Atr Interpreting Telecommunications Res Lab 音声認識誤り訂正装置
JP2005507536A (ja) * 2001-10-31 2005-03-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム

Also Published As

Publication number Publication date
EP1471502A1 (en) 2004-10-27
US20040215455A1 (en) 2004-10-28
US7356467B2 (en) 2008-04-08

Similar Documents

Publication Publication Date Title
JP2004341518A (ja) 音声認識処理方法
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
US6718303B2 (en) Apparatus and method for automatically generating punctuation marks in continuous speech recognition
US7711560B2 (en) Speech recognition device and speech recognition method
US20080201135A1 (en) Spoken Dialog System and Method
JP6654611B2 (ja) 成長型対話装置
US10217457B2 (en) Learning from interactions for a spoken dialog system
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
JP2002358097A (ja) 音声認識装置
JP4992925B2 (ja) 音声対話装置及びプログラム
JP2005084436A (ja) 音声認識装置及びコンピュータプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2003177779A (ja) 音声認識のための話者学習法
JP6325770B2 (ja) 音声認識誤り修正装置及びそのプログラム
JP5447382B2 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP6527000B2 (ja) 発音誤り検出装置、方法およびプログラム
JP4042435B2 (ja) 音声自動質問応答装置
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
JP2010204442A (ja) 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体
JP4537755B2 (ja) 音声対話システム
JP2001236091A (ja) 音声認識結果の誤り訂正方法およびその装置
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム
KR101752709B1 (ko) 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템
CN110600005B (zh) 语音识别纠错方法及装置、计算机设备和记录介质
KR100275446B1 (ko) 음소 인식률을 이용한 기본 음소 설정 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070214

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081002

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101130