JP2004341518A

JP2004341518A - 音声認識処理方法

Info

Publication number: JP2004341518A
Application number: JP2004129952A
Authority: JP
Inventors: Thomas Kemp; ケンプ、トーマス
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2003-04-25
Filing date: 2004-04-26
Publication date: 2004-12-02
Also published as: EP1471502A1; US20040215455A1; US7356467B2

Abstract

【課題】認識された音声を処理する方法を提供する。
【解決手段】音声認識処理方法は、認識された音声データＲＳＤを受け取り及び／又は生成するステップ（Ｓ０）と、認識済音声データＲＳＤのうち又は少なくとも誤って認識された可能性のある単語について、現在の信頼度ＣＭＯＣを決定及び／又は生成するステップ（Ｓ１）とを備え、停止条件（Ｓ３）を満たすまで反復処理を繰り返すもので、反復処理には、現在の信頼度ＣＭＯＣを用いて、現在の指示／マークされたエラーＣＩＭＥとして、少なくとも幾つかの誤って認識された可能性のある単語を指示／マークし（Ｓ２、Ｓ５−Ｂ）、現在の指示／マークされたエラーＣＩＭＥに関して、選択／訂正に関わる選択／訂正データＳＣＤを受け取り（Ｓ４）、認識済音声データＲＳＤのうち又は少なくとも他の又は残りの誤って認識された可能性のある単語について、改善された信頼度ＩＭＯＣを決定（Ｓ５）及び／又は生成することを連続的に行うことが含まれ、停止条件が満たされた場合、改善された認識結果ＩＲＲが出力される（Ｓ８）。
【選択図】図１

Description

本発明は、認識された音声を処理する音声認識処理方法に関する。

従来の自動音声認識（ＡＳＲ）では、特に口述筆記システムを使用する場合、テキスト文書生成中の生産性を実質的に増加させることができなかった。これは、自動音声認識ではエラーが発生し、このエラーを生成された文書において手作業で訂正しなければならないということが主な理由である。訂正の処理には時間がかかる。このため、文書を手入力する代わりに音声入力で節約した時間の多くが、この訂正作業に費やされてしまう。

自動音声認識に基づいた口述筆記システムは、一般消費者用として以前から販売されており、５〜１０％以下の単語エラー率が達成可能である。

さらに残っているエラーの訂正について、信頼尺度（confidence measures）又は信頼度（measures of confidence：ＭＯＣ）が提案された。これによって、エラーの可能性が高いと考えられる潜在的認識エラーが、信頼度の適用及び閾値の使用により決定される。閾値未満の信頼度を示す潜在的認識エラーは強調表示される。また、ユーザは、２つのキー、すなわち前移動キーと後移動キーを使用して強調表示された単語間を移動し、必要に応じて、これらを訂正することができる。

口述筆記した文章のチェック及び訂正の従来技術については、例えば、下記特許文献１に例示されている。

米国特許出願公開２００２／００２４５９Ａ１

しかしながら、提案されたような潜在的認識エラーの強調表示も、テキスト訂正処理の実質的な迅速化を促進するものではなかった。

本発明は、認識した音声の訂正に必要な時間を減らすことができる音声認識処理方法を提供することを目的とする。

上述の目的を達成するために、本発明は、請求項１に記載の音声認識処理方法を提供する。さらに、本発明は、請求項８、９及び１０にそれぞれ記載された音声処理システム、コンピュータプログラム及びコンピュータ読取可能な記憶媒体を提供する。さらなる特徴及び好適な実施形態については、それぞれの従属請求項及び／又は以下の説明にそれぞれ記載される。

本発明の一実施形態に係る認識した音声を処理する音声認識処理方法は、認識した音声データを受け付け及び／又は生成するステップと、認識した音声データの、又はそれに含まれる、少なくとも誤って認識された可能性のある単語について、現在の信頼度を決定及び／又は生成するステップと、停止条件を満たすまで反復処理を連続的に繰り返すステップと、改善された認識結果を出力するステップとを含む。ここで、出力ステップが停止条件が満足された場合に行われるようにしてもよい。

反復処理は、現在の信頼度を用いて、現在の指示／マークされたエラーとして、誤って認識された可能性のある単語の少なくとも一部を、指示／マークするステップと、現在の指示／マークされたエラーに対して行われた選択／訂正を示す選択／訂正データを受け付けるステップと、認識音した音声データの、又はそれに含まれる、少なくとも他の又は残りの誤って認識された可能性のある単語について、改善された信頼度を決定及び／又は生成するステップとを含む。

本発明の主な概念は、文書の口述筆記を行ったユーザに対し、誤って認識された可能性のある単語を提示し（指示／マークして）、指示／マークされた単語をユーザにチェックさせることにある。ユーザは、それぞれの単語を訂正することもできるし、あるいは、訂正しなくてもよい。いずれの場合でも、訂正／不訂正の後では、それぞれの単語が正／誤の状態のいずれであるかが判明する。これは、改善された信頼度を決定するための価値のある情報である。換言すれば、各反復処理において、信頼度、すなわち改善された信頼度が反復処理毎に正確になる。したがってユーザは、従来の技術に比較して、はるかに少数の単語を訂正するだけなので、口述筆記した文書を訂正するために極めて少ない時間で済む。

また、指示／マークされた誤って認識された可能性のある単語の少なくとも一部に加えて、その周囲の単語を現在指示／マークされたエラーとして、マーク／指示する構成としてもよい。これは、必ずしも誤っていない場合でも単語がマークされ得ることも意味する。しかしながら、周囲の単語をマークする利点もある。例えば、ユーザが全体の文章を読み、その結果文章全体を訂正する必要が生じた場合に便利である。

また、現在の指示／マークされたエラーを指示／マークするために閾値を決定し、誤って認識された可能性のある単語のうち現在の信頼度が閾値未満の単語だけをマークする構成としてもよい。このような構成によれば、マークされる単語の数を制御して低く維持することができる。

また、反復処理の各周期において、認識した音声データに含まれる単語全体に対して予め定めた割合の単語が指示／マークされるように、閾値を決定する構成としてもよい。このような構成を実施するのは極めて容易である。

また、現在の信頼度を例えばニューラルネットワーク等の第１のリグレッサを用いて決定し、第１のリグレッサを、音響的スコア、推定発話レート、局所信号対雑音比及び／又は信頼度を決定するために一般に使用される他の標準特徴情報などの特徴情報を用いてトレーニングする構成としてもよい。言いかえれば、現在の信頼度は、１つの現在の信頼度を推定するために一般に使用される標準特徴情報を使用して決定される。

また、改善された信頼度を例えばニューラルネット等の第２のリグレッサを用いて決定し、第２のリグレッサを選択／訂正データから導き出された特徴情報を用いてトレーニングする構成としてもよい。第２のリグレッサとしてニューラルネットを使用することには、容易に新たな特徴情報を組み込むことができるという利点がある。

第１のリグレッサ及び第２のリグレッサは同一であってもよい。また、現在の信頼度を決定するために第１のリグレッサを使用する場合、選択／訂正データと関係する特徴情報は、第１のリグレッサのための入力としては使用しないことが望ましい。

認識した音声データに含まれる単語全体に対する現在の指示／マークされたエラーの割合が予め定めた許容率より低い場合、反復処理を停止する構成としてもよい。

さらに、推定された残差単語エラー率が、予め定めた単語エラー許容率未満になった場合、反復処理を停止する構成としてもよい。このような構成においては、推定された残差単語エラー率を文書全体に関して各反復処理中に決定する。なお、推定された残差単語エラー率は反復処理の各周期毎に減少し、より正確になる。すなわち、改善された信頼度も反復処理毎により正確になり、改善された信頼度が残差単語エラー率を推定するために使用されるからである。

本発明の一実施形態に係る音声処理システムは、上述した本発明の音声認識処理方法及び／又はそのステップを実行又は実現することができる。

本発明の一実施形態に係るコンピュータプログラム又はその製品は、コンピュータ、ディジタル信号処理手段、及び／又は同様なもので実行される場合に、上述した本発明の音声認識処理方法及び／又はそのステップを実行及び／又は実現するようにしたコンピュータプログラム又はその手段を含む。

本発明の一実施形態に係るコンピュータ読取可能な記憶媒体は、上述した本発明のコンピュータプログラム又はその製品を記録している。

本発明によれば、認識した音声の訂正に必要な時間を減らすことができる音声認識処理方法を提供が提供される。

図１において、第１の受信ステップＳ０では、認識した音声データＲＳＤ（以下、認識済音声データＲＳＤと呼ぶ）が受け取られる。次に、第１の決定ステップＳ１において、現在の信頼度ＣＭＯＣが決定される。

信頼度ＭＯＣを推定する推定手段は、仮定された単語各々について、一群の特徴情報を計算する。ここで、上記特徴情報には、例えば、音響的スコア（acoustic score）、推定発話レート（speaking rate estimate）、局所的信号対雑音比（local signal-to-noise ratio）を含んでいる。上記特徴情報は、第１のリグレッサ（regressor）、例えば多層構造のパーセプトロンネットワーク（multilayer perceptron network）のようなニューラルネットによって、最終的な信頼度、すなわち上記現在の信頼度ＣＭＯＣへ組み込まれる。その出力、すなわち信頼度ＭＯＣは、０から１までの範囲の数である。ここで、０は全く信頼度がないことを示し、１は信頼度（full confidence）が最大であることを示す。

上記第１の決定ステップＳ１では、認識済音声データＲＳＤの全ての単語について現在の信頼度ＣＭＯＣが決定される。

次の第１の指示ステップＳ２では、現在の信頼度ＣＭＯＣは、認識された単語のうちの幾つかを指示／マークするために使用される。

認識された単語のうちの幾つかを指示／マークするための実施形態の一例を図２に示す。閾値Ｔは、閾値決定ステップＳ６において決定される。マーキングステップＳ７においては、現在の信頼度ＣＭＯＣが閾値Ｔ未満である単語（以下、マークされた単語又は現在の指示／マークされたエラーＣＩＭＥと称する）だけが、マークされる。本実施形態では、文書中の全ての単語のうち、予め定めた一定割合の単語だけが指示／マークされるように、繰り返される反復処理毎に、閾値が決定される。例えば、全ての単語のうち予め定めた一定割合として０．５％を指示／マークするようにしてもよい。第１のリグレッサの出力に、閾値を設けることによって、上記第１のリグレッサはクラシファイヤ（classifier）に変換される。

上記第１の指示ステップＳ２の後、反復処理が開始される。この反復処理は、第２の受信ステップＳ４と、第２の決定ステップＳ５と、第２の指示ステップＳ５−Ｂと、残差単語エラー率ＲＥＲ推定ステップＳ５−Ｃと、及び停止ステップＳ３とから構成される。

第２の受信ステップＳ４において、選択／訂正データＳＣＤを受け取る。選択／訂正データＳＣＤは、ユーザが行った訂正に関する情報を含んでいる。ここでの訂正とは、現在の指示／マークされたエラーＣＩＭＥをユーザに提示すなわち強調表示し、これに応じてユーザが行う、それぞれの単語、すなわち現在の指示／マークされたエラーＣＩＭＥの修正を指す。ここで、上記閾値Ｔは、従来の技術と比較して、より少数の単語だけがマークされるように選択されるものとする。したがって、ユーザは単語をほとんど修正する必要がなくなるため、迅速な訂正処理が可能となる。

なお、上記第１の指示ステップＳ２においては、上記閾値Ｔに応じてマークされた単語に加えて、該マークされた単語を囲んでいる単語も指示／マークする構成としてもよい。言いかえれば、マークされた単語については現在の信頼度ＣＭＯＣが上記閾値Ｔ未満であるため、マークされた単語とその周囲の単語を含んでいてもよい。周囲の単語としては、例えば、該当する１つの文全体がマークされるようにしてもよい。このような構成によれば、単語だけを訂正するのではなく、ユーザが１つの文を読み、その文全体を訂正することが可能となる。

次に、上記受信された選択／訂正データＳＣＤは、改善された信頼度ＩＭＯＣを決定する、すなわち計算する第２の決定ステップＳ５において使用される。改善された信頼度ＩＭＯＣを算出するために、第２のリグレッサＲ−ＩＭＯＣ（例えばニューラルネット）が使用される。しかしながら、ここで、上述の音響特性などの特徴情報に加えて、受信した選択／訂正データＳＣＤから派生した情報、すなわち文脈上の参照に係る品質情報（contextual reference-quality information）を含んでいる特徴情報が使用される。

上述したように、受信した選択／訂正データＳＣＤはユーザの訂正に関する情報を含んでいる。訂正処理中にユーザは、マークされた、すなわち強調表示された全ての単語をチェックする。訂正処理後は、マークされた全ての単語、すなわち現在の指示／マークされたエラーＣＩＭＥについて、これが「正しい／正しくない」のいずれかの状態にある。すなわち、ユーザによって訂正されなかった単語については、単語が正しいことが（正しい状態）この時点で確定され、他方、ユーザによって訂正された単語については、単語が正しくなかった（誤っている状態）ことが確定となった。言いかえれば、ユーザは、マークされた本当の認識エラーを全て訂正し、誤判定した認識エラーを変更しなかったことになる。これは、ユーザ訂正後には、強調表示された単語が正しい状態にあるか、正しくない状態にあるかが明確であることを意味する。この情報は、もはや不確実ではなく基準として利用可能な情報である。第２のリグレッサＲ−ＩＭＯＣでは、追加的な特徴情報として、この情報を使用することにより、信頼度ＭＯＣを極めて正確に決定することが可能となる。

ここで、上述した現在の信頼度ＣＭＯＣを推定するための第１のリグレッサ及び第２のリグレッサＲ−ＩＭＯＣは、同一であってもよい。この場合、選択／訂正データＳＣＤに関係する特徴情報は、第１のリグレッサの入力としては使用されない。

第２のリグレッサＲ−ＩＭＯＣ（例えばニューラルネットなどのリグレッサ）は、上記情報が利用可能な箇所で、選択／訂正データＳＣＤからの情報を利用するようにトレーニングされる。トレーニングは、近傍について真／偽の情報を組み込む通常の方法で行うことができる。その性能は、訂正された単語の近傍（すなわち、少なくとも言語モデルスパン内で、典型的には３単語）で大きく増加させることが可能である。言いかえれば、以前に強調表示された単語については単語の正／誤の状態が知られており、この情報が極めて価値があるため、改善された信頼度ＩＭＯＣを正確に推定することができる。

図３は、改善された信頼度ＩＭＯＣの決定処理を示す。図３からも分かるように、第２のリグレッサＲ−ＩＭＯＣ、例えばニューラルネットは、改善された信頼度ＩＭＯＣを決定するために使用される。第２のリグレッサＲ−ＩＭＯＣへの入力として、第１の標準特徴情報群ＳＦ１が使用される。信頼度ＭＯＣの決定のための第１の標準特徴情報群ＳＦ１には、例えば、音響的スコア、推定発話レート、局所信号対雑音比が含まれている。さらに、追加的な入力として、第１の訂正特徴情報群ＣＦ１が使用される。この第１の訂正特徴情報群ＣＦ１には、ユーザの訂正（すなわち受信された選択／訂正データＳＣＤ）から導き出された特徴情報が含まれている。

上記第２の決定ステップＳ５の後には、第２の指示ステップＳ５−Ｂが続く。この第２の指示ステップＳ５−Ｂでは、改善された信頼度ＩＭＯＣは、新たな、現在の指示／マークされたエラーＣＩＭＥを決定するために使用される。したがって、上記第１の指示ステップＳ２でのように、文書中の全単語の予め定めた一定割合だけが指示／マークされるように、閾値が決定される。

次に、推定ステップＳ５−Ｃに続く。推定ステップＳ５−Ｃにおいては、残差単語エラー率ＲＥＲが決定される。したがって、改善された信頼度ＩＭＯＣが使用される。

次に、停止ステップＳ３に続く。推定された残差単語エラー率ＲＥＲが予め定めた単語エラー許容率未満である場合、出力ステップＳ８へ進む。出力ステップＳ８では、改善された認識結果ＩＲＲが出力される。ここで認識結果ＩＲＲは、例えば、口述筆記された文書であってもよい。

停止ステップＳ３における停止条件に合致しない場合、すなわち、推定された残差単語エラー率ＲＥＲが、上記予め定めた単語エラー許容率より大きい場合、上述した反復処理の新たな処理周期が開始される。すなわち、第２の受信ステップＳ４、第２の決定ステップＳ５、第２の指示ステップＳ５−Ｂ及び推定ステップＳ５−Ｃが実行される。

図４には、改善された信頼度ＩＭＯＣが、反復処理の各周期において、どのようにして、より正確になっていくかについての例を挙げている。本例では、認識した音声データＲＳＤが第１の受信ステップＳ０で受け取られ、第１の決定ステップＳ１が実行されることで、図４のテーブルの第１行に示されている現在の信頼度が算出される。図４のテーブルでは、現在の信頼度ＣＭＯＣが、典型的な４単語、第１の単語Ａ、第２の単語Ｂ、第３の単語Ｃ及び第４の単語Ｄについて表示されている。なお、典型的なアプリケーションにおいては、さらに多くの単語が存在する。４単語だけを例示した図４のテーブルは本願発明を説明するための一例である。

上述したように、現在の信頼度ＣＭＯＣは、例えば音響的スコア、推定発話レート、及び局所信号対雑音比等を含む特徴情報を入力することで、第１のリグレッサにより決定される。図４のテーブルの第１行の現在の信頼度ＣＭＯＣはやや不正確な推定でもよい。その理由としては、この時点での現在の信頼度ＣＭＯＣは、一般的に言って、話者に大きく依存する。ところが、第１の決定ステップＳ１でこれらの値を計算する場合、話者に関する情報が利用可能でないためである。言いかえれば、例えば第３の単語Ｃについて、４０％の現在の信頼度の尺度は、推定にしかすぎない。それは、平均的な話者にとって、第３の単語Ｃの正確に認識されない確率が４０％であることになる。しかしながら、ある話者にとっては、第３の単語Ｃについての現在の信頼度ＣＭＯＣがより高くなる場合もあり、また低くなる場合もあるシステムを現在使用していることを意味する。図４のテーブルの最後の列には残差単語エラー率ＲＥＲが示されている。これらの残差単語エラー率ＲＥＲは、信頼度の値から決定される。

図４の例において、第１行中の現在の信頼度についての残差単語エラー率ＲＥＲは１０％である。

次に、第１の指示ステップＳ２が続き、文書に含まれていた全単語のうち予め定めた一定割合の単語がマークされる。ここでは、最低レベルの現在の信頼度ＣＭＯＣを有する単語がマークされる。これは、現在の信頼度ＣＭＯＣが閾値Ｔ未満の単語だけをマークするように閾値を決定することに相当する。図４の例では、第３の単語Ｃがマークされる。ユーザは、このマークされた単語を訂正する。この訂正処理の後には、その単語が正しく認識されているか否か（正確／不正確）が明確に分かる状態となる。図４の例では、ユーザは第３の単語Ｃを訂正した。

次に、第２の受信ステップＳ４に続くが、ここで、選択／訂正データＳＣＤが受け取られる。このデータは訂正された単語に対応する。その後、この訂正に関する情報は、上記第１の標準特徴情報群ＳＦ１として、さらに第２の決定ステップＳ５での入力として使用される。第１の標準特徴情報群ＳＦ１は、信頼度ＭＯＣを決定するための、上記特徴情報、例えば、音響的スコア、推定発話レート及び局所信号対雑音比等を含んでいる。

本例の４単語についての改善された信頼度ＩＭＯＣは、図４のテーブルの第２行中に示されている。図４から分かるように、これらの値はテーブルの第１行とは異なる。この時点では、ユーザ特有のデータが利用可能であるため、改善された信頼度ＩＭＯＣは、図４のテーブルの第１行中の現在の信頼度ＣＭＯＣより、はるかに正確である。上述のように、第３の単語Ｃは、第１の指示ステップＳ２の後で、ユーザによって訂正されている。したがって、図４のテーブルで分かるように、第３の単語Ｃについての改善された信頼度ＩＭＯＣは、現在においても後続の全ての反復処理においても、０％である。

その後、第２の指示ステップＳ５−Ｂ及び推定ステップＳ５−Ｃに続く。推定ステップＳ５−Ｃでは、残差単語エラー率ＲＥＲが図４のテーブルの第２行の改善された信頼度ＩＭＯＣから決定される。残差単語エラー率ＲＥＲは、この時点で７％である。

次に、停止ステップＳ３に続く。停止ステップＳ３では、残差単語エラー率ＲＥＲが、予め定めた単語エラー許容率ＷＥＡＲ未満であるかどうかがチェックされる。本例において、単語エラー許容率ＷＥＡＲは３％である。残差単語エラー率ＲＥＲが７％であるので（すなわち３％の単語エラー許容率ＷＥＡＲ未満ではない）、第２の反復処理がスタートする。すなわち、第２の受信ステップＳ４へ進む。第２の受信ステップＳ４では、再び、選択／訂正データＳＣＤを受け取る。このデータは、ユーザの訂正処理に対応するもので、再び各単語毎に改善された信頼度ＩＭＯＣが、第２の決定ステップＳ５において決定される。この第２の反復処理により、改善された信頼度ＩＭＯＣが、図４の中のテーブルの３番目の列で与えられる。図４から分かるように、改善された信頼度ＩＭＯＣが再び変わり、より正確になっている。第２の反復処理の改善された信頼度ＩＭＯＣから、再び、残差単語エラー率ＲＥＲが決定される。本例においては、この時点で２．５％に等しい。次いで、停止ステップＳ３に続く。この時点で残差単語エラー率ＲＥＲは、単語エラー許容率ＷＥＡＲより小さい。この結果、出力ステップＳ８へ進み、改善された認識結果ＩＲＲが出力される。

以下に、本発明を要約する。

本発明の基本的な概念は、先に口述筆記した文章のエラーを複数のステップでユーザが訂正するという点にある。ここで、複数のステップの各々では、明らかに誤っていると思われる単語だけ、すなわち極めてわずかの単語だけが訂正のためにユーザへ提示され、ユーザがこれを訂正又は受理する。このようなユーザの手作業に基づいて、信頼度ＭＯＣが再計算される。ユーザはこのような訂正作業を、訂正が不要になるまで（goodの状態）あるいは訂正の必要性が予め定めた割合未満（good enoughの状態）を示すまで繰り返す。これは、上述した停止条件の変形である。誤っている可能性が最も高い単語にエラーがない場合、認識率がよいという可能性が極めて高い。残差エラーがある場合、予期された残差誤り率が計算され、この値と（ユーザによって）予め定められた値とを比較することで、現在の状態がユーザにとってgood enoughの状態かどうか決定するようにしてもよい。

本発明のさらなる特徴を以下に説明する。

典型的な信頼度推定手段（confidence measure estimator）は、仮定された各単語に関する一群の特徴情報（音響的スコア、推定発話レート、局所信号対雑音比などを含む）を計算した後、リグレッサ、例えば多層のパーセプトロンのようなニューラルネットによって、該特徴情報を最終的な信頼度へ組み込むように動作する。その出力は、典型的には０から１までの範囲中の数であり、０は信頼度がないことを示し、１は信頼度が最大であることを示す。数値０．５が、この０．５でタグ付けされた単語の５０％が誤りとなり、５０％が正確に認識されることを示すようになっていることの望ましい。この場合、０．５のバイアスＢを引き、結果を２倍とすることができる場合には、最終的な出力結果は−１と１の範囲にある。バイアスの減算とスケーリングは必要ではなく、単に便宜上のものである。しかしながらこれは、多くの話者の平均についてのみ正しい。話者Ａについては、真／偽を５０：５０の比（上に「バイアスＢ」と称した）に分割する出力値が、０．５ではなく、例えば０．３であり、話者Ｂについては、それが０．７であることは容易に考えられる。未知の話者について、正確なバイアスを決めることは困難である。どんなシステムにおいても、この不確実性があるため、全ての話者について予め定めたバイアスを使用することが必要となり、通常は、予め定めたバイアスは０．５である。

独立した特徴情報を結合結果に組み合わせる場合の基本的な特性は、もう１つの入力（新たな特徴情報）を加え、より良い又は少なくとも現状のクラシファイヤ出力結果を得ることが容易にできるということである。本発明ではこの特性を利用している。

誤った単語の後に別の誤った単語が続くという、単語エラーが連続的に生じるように見える場合がある。誤った単語の後に続けて誤った単語を観察する確率は、典型的には、正しく認識された単語の後で誤った単語を観察する確率の２倍以上である。しかしながら、単語が正しく認識されたかどうか確実に伝えることは困難である。信頼度の算出では、典型的には既に、この種の文脈上の情報を使用している。しかしながら、情報が安全ではないため、これを用いることで得られる利点は制限される。

本発明の目的は、テキスト訂正に必要な時間を切り詰めることである。信頼度ＭＯＣによりガイドされた、潜在的なエラーの選択的強調表示を用いるテキスト訂正処理において、時間の大部分は単語のチェックに費やされるが、これは本当の意味での認識エラーではない。したがって、この数を減らす手段、又は同等に信頼度の質を改善する手段は、本発明の課題を解決するために必要である。

このことは、基本的には、反復処理を複数回繰り返すことによって行われる。各反復は、極めて短い時間に実行することができ、次の反復処理への情報を提供する。この情報は、信頼度を改善するために使用される。新たな改善されたＭＯＣにより、強調表示箇所が再計算され、ユーザは文書への作業を繰り返す。文書のエラー率が、アプリケーションにとって、十分低くなるまで、その処理は繰り返される。全ての反復処理の中で、極めて悪い得点の単語だけが強調表示される。例えば、その単語がスケーリングの後で−０．７未満の信頼度である場合である。従来の技術の方法と比較して、実際のエラーを多数強調表示するという点を犠牲にすることで、結果として、訂正されるべき単語が約１００のオーダ程度少ないという結果となる。しかしながら、最初の反復処理の訂正の後に、利用可能な情報がある。すなわち、ユーザは実際の認識エラーを全て訂正したが、誤って判定された認識エラーを変更しなかった。さらに、ユーザ訂正後には、最初の反復処理の後で強調表示された単語の全てについて、正／誤の状態（誤っている場合、正しい単語は知られている）が判明している。このような情報は、もはや不確実なものではなく、基準となる情報である。したがって、このような情報は、ＭＯＣクラシファイヤそのものにおいて、追加的な特徴情報として使用することができる。このような情報を利用できる場合には、それを利用するようにＭＯＣクラシファイヤをトレーニングすることで、その性能は訂正された単語の近傍で（少なくとも言語スパン分、典型的には３単語）、実質的に増加させることができる。なお、トレーニングは、近傍についての真／偽情報を組み込んで、通常の方法で行うことができる。さらに、反復処理の最初の繰返しにおいて予期された正確な予測量と実際の正確な予測量とを比較することによって、最初の繰返しにおける情報から、話者に依存するバイアス項の再推定が可能になる。なお、バイアス項は、例えばデフォルトで０．５に設定される。２つの結果の組み合わせ、バイアス項の訂正、及びＭＯＣクラシファイヤのセットへの確実に確認された特徴情報の追加は、ＭＯＣエラー率を引き下げ、その結果、訂正に費やされる総時間を切り詰めることに役立つ。反復処理の最初の繰返しにおける強調表示及び訂正の後、改善されたＭＯＣは、新たなバイアス及び手作業で訂正されたアンカーポイントを用いて、文書の単語を再区分するために使用される。再び、最も信頼度の低い単語を強調表示し、第２回目の繰返しでの訂正がスタートする。各繰返しでの訂正において、どれだけのエラーが文書に残るかが推定される。これは、全ての訂正反復からの情報を利用して、この話者について真実のバイアスと一致するようにバイアス項が連続的に適応化されるために可能となる。推定数あるいは残りのエラーが予め定めた閾値未満になった後に、処理が終了し、文書が完了する。全体の処理は時間的効率が非常に高い。その理由は、動作中にＭＯＣクラシファイヤを再トレーニングする必要がなく、且つ、２つの繰返し訂正処理の間で計算が必要なのは、単に１つのパラメータ（バイアス）だけであるからである。

本発明の主な処理ステップを示すフローチャートである。誤って認識された可能性のある単語を示すために行われる処理ステップを示すブロック図である。改善された信頼度を決定するために用いられる第１のリグレッサを示す説明図である。異なる繰返しにおける信頼度の値を示す表である。

符号の説明

Ａ第１の単語、Ｂ第２の単語、Ｃ第３の単語、ＣＦ１第１の訂正特徴情報群、ＣＩＭＥ現在の指示／マークされたエラー、ＣＭＯＣ現在の信頼度、Ｄ第４の単語、ＩＭＯＣ改善された信頼度、ＩＲＲ改善された認識結果、ＲＥＲ残差単語エラー率、Ｒ−ＩＭＯＣ第２のリグレッサ、ＲＳＤ認識された音声データ、Ｓ０第１の受信ステップ、Ｓ１第１の決定ステップ、Ｓ２第１の指示ステップ、Ｓ３停止ステップ、Ｓ４第２の受信ステップ、Ｓ５第２の決定ステップ、Ｓ５−Ｂ第２の指示ステップ、Ｓ５−Ｃ推定ステップ、Ｓ６閾値決定ステップ、Ｓ７マーキングステップ、Ｓ８出力ステップ、ＳＣＤ選択／訂正データ、ＳＦ１第１の標準特徴情報群、Ｔ閾値

Claims

認識した音声を処理する音声認識処理方法において、
認識した音声データを受け付け及び／又は生成するステップと、
前記認識した音声データの、又はそれに含まれる、少なくとも誤って認識された可能性のある単語について、現在の信頼度を決定及び／又は生成するステップと、
停止条件を満たすまで反復処理を連続的に繰り返すステップと、
前記停止条件が満足された場合には、改善された認識結果を出力するステップとを含み、
前記反復処理は、
前記現在の信頼度を用いて、現在の指示／マークされたエラーとして、前記誤って認識された可能性のある単語の少なくとも一部を、指示／マークするステップと、
前記現在の指示／マークされたエラーに対して行われた選択／訂正を示す選択／訂正データを受け付けるステップと、
前記認識音した音声データの、又はそれに含まれる、少なくとも他の又は残りの誤って認識された可能性のある単語について、改善された信頼度を決定及び／又は生成するステップとを含むことを特徴とする音声認識処理方法。
前記指示／マークされた前記誤って認識された可能性のある単語のうちの少なくとも一部に加えて、その周囲の単語を現在の指示／マークされたエラーとしてマーク／指示することを特徴とする請求項１に記載の音声認識処理方法。
前記現在の指示／マークされたエラーを指示／マークするために閾値を決定し、
前記誤って認識された可能性のある単語のうち、前記現在の信頼度が前記閾値未満の単語だけをマークすることを特徴とする請求項１又は２に記載の音声認識処理方法。
前記反復処理の各周期において、前記認識した音声データに含まれる単語全体に対して予め定めた割合の単語が指示／マークされるように、前記閾値を決定することを特徴とする請求項３に記載の音声認識処理方法。
前記現在の信頼度は、第１のリグレッサを用いて決定され、
前記第１のリグレッサは、音響的スコア、推定発話レート及び局所信号対雑音比のうち少なくとも１つの特徴情報を用いてトレーニングされることを特徴とする請求項１乃至４のいずれか１項に記載の音声認識処理方法。
前記改善された信頼度は、第２のリグレッサを用いて決定され、
前記第２のリグレッサは、前記選択／訂正データから導き出された特徴情報を用いてトレーニングされることを特徴とする請求項１乃至５のいずれか１項に記載の音声認識処理方法。
前記第１のリグレッサ及び前記第２のリグレッサが同一であり、
前記現在の信頼度を決定する前記第１のリグレッサを用いる際に、前記選択／訂正データから導き出された特徴情報は、前記第１のリグレッサのための入力としては使用されないことを特徴とする請求項６に記載の音声認識処理方法。
前記認識した音声データに含まれる単語全体に対する前記現在の指示／マークされたエラーの割合が予め定めた許容率未満の場合、前記反復処理が停止されることを特徴とする請求項１乃至７のいずれか１項に記載の音声認識処理方法。
前記反復処理の各周期において、対象文書全体に関して推定された残差単語エラー率を決定し、
前記推定残差単語エラー率が、予め定めた単語エラー許容率未満である場合、前記反復処理が停止されることを特徴とする請求項１乃至８のいずれか１項に記載の音声認識処理方法。
請求項１乃至９のいずれか１項に記載の音声認識処理方法を実行又は実現する音声処理システム。
コンピュータで実行された場合、請求項１乃至９のいずれか１項に記載の音声認識処理方法を実行又は実現するように構成されたコンピュータプログラム。
請求項１１に記載のコンピュータプログラムが記録されたコンピュータ読取可能な記憶媒体。