JP6066354B2

JP6066354B2 - 信頼度計算の方法及び装置

Info

Publication number: JP6066354B2
Application number: JP2014518551A
Authority: JP
Inventors: 真寺尾; マリオステンドルフ、
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-07-01
Filing date: 2012-03-01
Publication date: 2017-01-25
Anticipated expiration: 2032-03-01
Also published as: JP2014521115A; WO2013006215A1; US20140195238A1; US9336769B2

Description

本出願は、2011年7月1日に提出された米国仮出願第61/503,956号の利益を主張し、それは参照によりここに組み込まれている。

本発明は、対象単語または対象単語列の正解らしさの度合いを表す信頼度(confidence measure)の計算に関し、特に、認識結果中での信頼度計算の対象となる単語列と周辺文脈との整合度に基づく信頼度計算の方法及び装置に関する。

近年、自動音声認識（ＡＳＲ；automatic speech recognition）システムが、例えば、音声によってコンピュータシステムにテキストデータ及びコマンドを直接入力するために、広く使用されている。しかしながら、最先端の音声認識システムであっても、認識誤りを含まない音声認識結果を生成することはできない。したがって、認識結果の信頼度を計算することで、認識誤りを自動的に検出することが重要となる。信頼度は、認識結果の正解らしさを表す尺度であって、信頼度が大きいほど認識結果が正解である確率が高く、信頼度が小さいほど認識結果が間違いである確率が高くなるように、計算される。例えば、音声認識結果を用いる応用アプリケーションの一つである音声コンテンツ検索(spoken document retrieval)において、信頼度が一定値以下の認識結果を検索用インデックスから削除したり、あるいは、検索に用いられる単語の信頼度に応じてそれらの単語の評価点(count)に重み付けを行ったりすることで、検索の精度が向上する。

音声認識結果中の単語の信頼度を計算する技術の一例が、非特許文献１に記載されている。非特許文献１は参照によりここに組み込まれている。非特許文献１によって提案された方法は、正しく認識された単語は周辺の各単語に対して大きな意味的な関連度を持ち、誤って認識された単語は周辺の各単語に対して小さな意味的な関連度しか持たないという考えに基づいている。

非特許文献１で提案された方法について、図１を参照して説明する。図１は、非特許文献１の方法を実施する関連技術における信頼度計算装置の構成を示している。ユーザの音声が音声入力部３０１に与えられ、与えられた音声は、次に、ＡＳＲシステムのような音声認識システム３０２に送られる。認識結果すなわち認識されたテキストは、信頼度計算対象指定部３０３及び周辺単語抽出部３０４に与えられる。訓練用のテキストデータは、訓練テキストデータ記憶部３１１に格納されている。

非特許文献１に示される装置では、後述するやり方により、訓練テキストデータ格納部３１１に格納された訓練テキストデータを用いて、あらゆる任意の２単語間の意味的な関連度(semantic relatedness)をあらかじめ計算されている。意味的な関連度の計算は、意味的関連度計算部３０６で実行され、この計算の結果は、意味的関連度記憶部３１２に格納される。音声認識システム３０２から音声認識結果が与えられると、その認識結果の中から信頼度計算対象指定部３０３が信頼度計算の対象となる対象単語(a target word)を指定し、周辺単語抽出部３０４が、次に、認識結果から対象単語の周辺の単語を抽出する。最後に、信頼度計算部３０５が、意味的関連度記憶部３１２に格納された値を参照して、対象単語と抽出された周辺単語の各々との間の意味的な関連度を計算し、結果として得られた意味的な関連度の値の平均を求める。この平均が、対象単語の信頼度として用いられて、計算結果記憶部３１３に格納される。

非特許文献１の方法は、潜在的意味解析（ＬＳＡ；Latent semantic analysis）を用い、訓練テキストデータを用いることによって、いずれの任意の２単語間の意味的な関連度を計算する。ＬＳＡは、訓練データにおけるあらゆる任意の２単語間の共起度を求める方法である。２単語間の共起度が大きいということは、その２単語が訓練データにおいて同時に用いられやすい、ということを意味する。しばしば同時に用いられる２単語は、相互に意味的に大きく関連していると考えられるため、ＬＳＡを用いて計算される２単語間の共起度は、それら２単語間の意味的な関連度と考えられる。

ＬＳＡに基づく意味的な関連度の具体的な計算方法は次の通りである。まず、訓練データを複数の文書(documents)に分割する。訓練データが例えば新聞から得られたものであれば、１つのニュース記事(a newspaper article)を１つの文書として用いればよい。文書内の各単語の重みを要素に持つ単語−文書行列(a term-document matrix)を構築する。単語の重みとしては、ＴＦ（単語頻度；term frequency）やＴＦ−ＩＤＦ（単語頻度−逆文書頻度；term frequency-inverse document frequency）がよく用いられる。単語−文書行列の各行ベクトルは、対応する単語が各文書においてどれだけ頻繁に出現するかを示す分布を表す。その後、より低次元の行ベクトルとして各単語が表現されるように、単語−文書行列に対して特異値分解（ＳＶＤ；singular value decomposition）を実行する。ＳＶＤでは行ベクトル間の類似構造が保存されるので、結果として得られた行ベクトル間のコサイン（余弦）類似度を計算することで、対応する２単語間の意味的な関連度が得られる。

先に述べたように、対象単語と各周辺単語との間の意味的な関連度が小さければ、対象単語がおそらく誤りであると考えられる。非特許文献１で提案された信頼度を計算する方法では、対象単語と各周辺単語との間の意味的な関連度が小さいときに対象単語の信頼度も小さくなり、これによって、計算された信頼度に基づいて認識誤りを検出することが可能となる。

しかしながら、上記の技術は、信頼度計算の対象単語が認識誤りであるときであっても、場合によっては大きな信頼度が得られることがある、という課題を有する。その場合、対象単語の信頼度は、所定のしきい値よりも大いに大きくなりがちであって、対象単語は正しいものであると誤って判断されるであろう。

上記の課題が生ずる理由は、たとえ対象単語が認識誤りであっても、場合によっては対象単語と周辺単語との意味的な関連度が大きくなり得るからである。図２はそのような例を示している。図２は、具体的には、英語ニュース音声の音声認識結果を示している。ここで、音声認識結果３２０から信頼度計算の対象単語として「guerrillas（ゲリラ（複数））」が選択され、「guerrillas」は認識誤りであって「gorillas（ゴリラ（複数））」が正しいものであるとする。したがって、「guerrillas」と各周辺単語との間の意味的な関連度が小さいことが期待される。英語の訓練テキストデータを用いるＬＳＡを使用して、認識結果における「guerrillas」と各周辺単語との間の意味的な関連度を実際に計算したところ、「guerrillas」は、例えば「parks（公園（複数））」、「protected（保護された）」、「boundaries（境界（複数））」、「tourism（観光）」（すなわち図２において太斜体で示す単語）に対して大きな意味的な関連度を有していた。「guerrillas」が「tourism」に対して大きな意味的な関連度を有する理由は、訓練データ中に、元ゲリラが観光事業を通じて彼らのコミュニティーを立て直そうとしていることに関する記事が実際に存在するからである。その結果、「guerrillas」は認識誤りであったにもかかわらず、非特許文献１の方法を用いて計算された信頼度が、最初の意図に反して大きくなった。一般に、あらゆる一つの単語もしばしば別の多くの単語と関連しているため、非特許文献１で提案された方法は、対象単語が認識誤りであるときに、対象単語と周辺単語との関連度をいつも小さくするわけではない。

S. Cox and S. Dasmahapatra, "High-level approaches to confidence estimation in speech recognition," IEEE Trans. Speech and Audio Processing, vol. 10, no. 7, pp. 460-471, 2002. L. Mangu, E. Brill and A. Stolcke, "Finding consensus in speech recognition: word error minimization and other applications of confusion networks," Computer Speech and Language, vol. 14, no. 4, pp. 373-400, 2000. F. Wessel, R. Schluter, K. Macherey, and H. Ney, "Confidence measures for large vocabulary continuous speech recognition," IEEE Trans. Speech and Audio Processing, vol. 9, no. 3, pp. 288-298, 2001.

本発明の目的は、信頼度計算の対象となる単語または単語列と周辺単語との意味的な関連度が大きい場合であっても、対象単語または対象単語列が認識誤りである場合には、小さな信頼度を出力することができる信頼度計算方法を提供することにある。

本発明の別の目的は、信頼度計算の対象となる単語または単語列と周辺単語との意味的な関連度が大きい場合であっても、対象単語または対象単語列が認識誤りである場合には、小さな信頼度を出力する信頼度計算装置を提供することにある。

より一般的には、本発明の目的は、信頼度計算の対象となる単語または単語列と周辺文脈との整合度が大きい場合であっても、対象単語または対象単語列が認識誤りである場合には、小さな信頼度を出力することができる信頼度計算技術を提供することにある。なお、本明細書及び請求の範囲において、用語「単語列(word string)」とは１つ以上の単語からなる単語連鎖(word concatenation)のことであり、１単語のみの場合も単語列と呼ばれる。

本発明の例示的な一態様によれば、認識結果中の指定された対象単語列の信頼度を計算する方法は、認識結果と対象単語列とを受け取ることと、対象単語列の位置における他の候補単語列を生成することと、対象単語列と他の候補単語列とを区別するように構成された分類器を訓練することと、対象単語列の位置における周辺文脈を表す特徴量を抽出することと、分類器と特徴量とを用いて、対象単語列の位置における真の単語列が対象単語列であるかあるいは他の候補単語列であるかを判別することと、判別結果に基づいて対象単語列の信頼度を計算することと、を含む。

本発明の別の例示的な態様によれば、認識結果中の指定された対象単語列の信頼度を計算する信頼度計算装置は、対象単語列の位置における他の候補単語列を生成する生成部と、対象単語列と他の候補単語列とを区別するように構成された分類器を訓練する訓練部と、対象単語列の位置における周辺文脈を表す特徴量を抽出する抽出部と、分類器と特徴量とを用いて対象単語列の位置における真の単語列が対象単語列であるかあるいは他の候補単語列であるかを判別し、判別結果に基づいて対象単語列の信頼度を計算する計算部と、を含む。

本発明のさらに別の例示的な態様によれば、認識結果中の指定された対象単語列の信頼度を計算する信頼度計算装置は、対象単語列の位置における他の候補単語列を生成する手段と、対象単語列と他の候補単語列とを区別するように構成された分類器を訓練する手段と、対象単語列の位置における周辺文脈を表す特徴量を抽出する手段と、分類器と特徴量とを用いて対象単語列の位置における真の単語列が対象単語列であるかあるいは他の候補単語列であるかを判別し、判別結果に基づいて対象単語列の信頼度を計算する手段と、を含む。

本発明のこれらの及び他の形態及び利点は、本発明の原理を例として示し添付の図面と併用される、以下の詳細な説明から明らかになるであろう。

関連技術における認識結果中の対象単語の信頼度を計算する信頼度計算装置の構成の一例を示すブロック図である。音声認識結果の一例を示す図である。本発明の例示実施形態に基づく信頼度計算装置の構成を示すブロック図である。図３に示す装置の動作を示すフローチャートである。実施例の装置の構成を示すブロック図である。実施例での音声認識システムから得られる認識結果の具体例を示す図である。実施例での、コンフュージョンネットワーク形式で表現された、音声認識システムから得られる認識結果の具体例を示す図である。実施例での発音辞書の具体例を示す図である。実施例での単語間混同行列の具体例を示す図である。実施例での分類器訓練部によって訓練データから収集された事例の一例を示す図である。本発明の別の例示実施形態が実行される装置の構成を示すブロック図である。

図３は、例示実施形態に基づく信頼度計算装置の基本的構成を示している。図３に示す信頼度計算装置は、認識結果の中で指定された対象単語列の信頼度を計算するように構成されている。認識結果は、例えば、音声認識システムから得られたものであってよい。信頼度計算装置は、他候補生成部１０４と分類器訓練部１０５と特徴抽出部１０６と信頼度計算部１０７とを含んでいる。

この装置において他候補生成部１０４は、信頼度計算の対象となる対象単語列を受け取り、対象単語列の位置において想定できる認識結果であるところの他の候補単語列を生成する。他候補生成部１０４は認識結果も受け取ってもよい。ここで生成される他の候補単語列は、少なくとも１つの単語を含む単語連鎖であり、１つの単語のみでもよい。この処理では、最も正解らしい単語列が、他の候補単語列として生成される。他候補生成部１０４は、対象単語列から与えられる情報のみを用いて他の候補単語列を生成してもよいし、あるいは、音声認識システムから得られる様々な情報を用いて他の候補単語列を生成してもよい。

分類器訓練部１０５は、対象単語列と、他候補生成部１０４から出力される対応する他の候補単語列とを受け取る。次に分類器訓練部１０５は、外部記憶装置に格納された訓練データを使用して、対象単語列と他の候補単語列とを区別する分類器を訓練する。

特徴抽出部１０６は、認識結果に関する情報を受け取り、対象単語列の位置における周辺文脈を表す特徴量を抽出する。

信頼度計算部１０７は、分類器訓練部１０５から出力される分類器と特徴抽出部１０６が出力される特徴量とを用いて、対象単語列の位置における真の単語が対象単語列であるかあるいは他の候補単語列であるかという分類問題を解く。そして信頼度計算部１０７は、真の単語が対象単語列であることの可能性がより高いことを分類結果が示すときに、より大きな信頼度を出力する。

次に、図４を参照して、図３に示す装置の動作を説明する。

認識結果の中から信頼度計算に関する対象単語列が指定されると、まず、他候補生成部１０４が、ステップＳ１１において、対象単語列の位置において認識結果として考えることができるものである他の候補単語列を生成する。次にステップＳ１２において、分類器訓練部１０５が、対象単語列と他候補生成部１０４から出力された他の候補単語列とを区別する分類器を訓練する。次にステップＳ１３において、特徴抽出部１０６が、認識結果に関する情報を用いて、対象単語列の位置における周辺文脈を表す特徴量を抽出する。最後にステップＳ１４において、信頼度計算部１０７が、分類器訓練部１０５から出力された分類器と特徴抽出部１０６から出力された特徴量とを用いて分類問題を解き、真の単語が対象単語列であることの可能性がより高いことを分類結果が示すときに、より大きな信頼度を出力する。分類問題は、対象単語列の位置における真の単語列が対象単語列であるか、あるいは他の候補単語列であるかという問題である。

ステップＳ１３での処理は、認識結果に関する情報と対象単語列とだけを使用するので、ステップＳ１３をステップＳ１４の実行前のどの時点で実行してもよい。

もし、認識されるべき複数の発話がある場合には、全ての発話に対してステップＳ１１をまず実行し、対象の複数の位置を取得してもよい。その後、訓練ステップＳ１２を全ての位置に対して実行してもよい。最後に、全ての位置に対してステップＳ１３，Ｓ１４を実行し、対象の信頼度をすべてまとめて計算してもよい。

以上のように本例示実施形態では、信頼度計算装置１００は、分類問題を解き、真の単語が対象単語列であることの可能性がより高いことを分類結果が示すときに、計算結果としてより大きな信頼度を出力する（すなわち、対象単語列の位置において抽出された特徴の文脈において、その対象単語列が大いに真の単語でありそうなときに、大きな信頼度が得られる）。したがって、結果として得られる信頼度は、他の候補単語列と比べて対象単語列がその対象単語列の位置における周辺文脈とどれだけ整合しているかを表す指標となる。

他候補生成部１０４は、最も正解でありそうな単語列を他の候補単語列として出力するため、対象単語列が認識誤りである場合には、当該他の候補単語列が正解である可能性が高い。また、正解の単語列と周辺文脈との間の整合度が認識誤りと周辺文脈との間の整合度よりも高くなると期待できる。したがって、対象単語列と周辺文脈との整合度が大きいが対象単語列が認識誤りである場合であっても、他の候補単語列と周辺文脈との整合度がさらに大きくなると期待できる。その結果、真の単語列が対象単語列であることの可能性がより小さいことを分類結果が示すので、信頼度計算部１０７は、より小さな信頼度を出力し、これによって、認識誤りの検出が容易になる。

さらに本実施形態においては、対象単語列と他の候補単語列とを区別することに特化した分類器を分類器訓練部１０５が訓練するため、信頼度計算部１０７は、高い精度で分類を行うことが可能である。それにより、結果として得られる信頼度の精度も向上する。

［実施例］
次に、実施例を参照して、本実施形態に基づく信頼度計算装置をより具体的に説明する。図５は、実施例に基づく装置を示している。

図３に示す場合と同様に、本実施例での信頼度計算装置１００は、概して、他候補生成部１０４と分類器訓練部１０５と特徴抽出部１０６と信頼度計算部１０７とを含んでいる。実施例では信頼度計算装置１００は、さらに、音声入力部１０１と音声認識システム１０２と信頼度計算対象指定部１０３と訓練データ記憶部１１１と計算結果記憶部１１２とを含んでいる。

音声入力部１０１は、処理対象となる音声データを受け取り、その音声データを音声認識システム１０２に出力する。音声データの例としては、会議音声データ、放送音声データ、講義音声データ、電話音声データ、インターネットで配信されている音声データ、さらには、カーナビゲーションシステムやロボット、その他のシステムが用いられるときに生成される対話音声データが含まれる。上述した音声データのいずれのものも、事前に録音されたものであっても、あるいは、マイクロホンやビデオカメラ、その他の装置からリアルタイムに入力されるものであってもよい。

音声認識システム１０２は、音声入力部１０１から音声データを受け取り、公知の音声認識技術を用いてその音声データを単語列に変換する。例えば、音響モデルと言語モデルとを用いて、フレーム同期ビームサーチを行うことで、音声データを単語列に変換することができる。音響モデルの１つの例は、メル周波数ケプストラム係数（ＭＦＣＣ；mel-frequency cepstral coefficient）を特徴量として用いる隠れマルコフモデル(Hidden Markov Model)であり、言語モデルの１つの例は、単語トライグラム(word trigram)である。図６は、英語ニュース音声を音声認識して得られた認識結果の一例を示している。一般に、音声認識結果は認識誤りを含んでいる。図６に示す音声認識結果１２０では、例えば、この例における３行目において、「gorillas」と発話された単語が「guerrillas」と誤って認識されている。なお、認識結果は仮説(hypothesis)とも呼ばれる。

音声認識システム１０２は、典型的には認識結果として複数の仮説を出力できる。認識結果として複数の仮説を出力するための公知の技術の例には、Ｎ−ｂｅｓｔリスト(N-best list)、単語ラティス(word lattice)、コンフュージョンネットワーク(confusion network)が含まれる。Ｎ−ｂｅｓｔリストは、スコアが大きい順に複数の仮説文(sentence hypotheses)を第Ｎ位まで出力できるようにしたものである。単語ラティスは、グラフ構造を用いて複数の単語を表現できるようにしたものである。コンフュージョンネットワークは、Ｎ−ｂｅｓｔリストまたは単語ラティスのコンパクトな表現である。

図７は、図６に示す認識結果１２０の中の下線部（すなわち「the guerrillas are coming（ゲリラ（複数）がやって来る）」）の位置に対応するコンフュージョンネットワークの一例を示している。コンフュージョンネットワーク１３０は、一連のコンフュージョンセット(confusion set)を並べたものからなり、コンフュージョンセットの各々は複数の単語仮説(word hypotheses)、すなわち第１位（最上位）の単語仮説と他の単語仮説とを含んでいる。図７を参照すると、例えば、左から２番目のコンフュージョンセットにおける第１位の単語仮説は「guerrillas」であり、このコンフュージョンセット内の他の単語仮説が「gorillas」と「growers」であることが分かる。なお、コンフュージョンネットワークの作成方法は、例えば、非特許文献２に記載されており、非特許文献２は参照によりここに組み込まれている。

信頼度計算対象指定部１０３は、音声認識システム１０２から出力される認識結果の中から、信頼度計算の対象となるべき対象単語または対象単語列を指定する。どのような単語を指定するかは、結果として得られる信頼度の目的が何であるかに応じて適宜決めればよい。認識結果に含まれるすべての単語を順に指定してもよいし、あるいは、認識結果に含まれる名詞のみを指定してもよい。さらに、指定すべき単語は、第１位の単語仮説に限られるものではない。例えば、図７に示すコンフュージョンネットワーク１３０の中から、第２位の単語仮説である「gorillas」を信頼度計算の対象単語として指定してもよい。あるいは信頼度計算の対象として、２以上の単語を含む単語連鎖を指定してもよい。例えば、図７に示す「guerrillas are」という２単語連鎖を対象単語列として指定してもよい。本明細書及び請求の範囲において、対象単語列は１以上の単語を含む単語連鎖を表し、単語が１つのみのものも対象単語列と呼ばれる。以下の説明では、図７に示すコンフュージョンネットワーク１３０の中から、信頼度計算の対象単語列として「guerrillas」が指定されたものとする。

信頼度計算対象指定部１０３が信頼度計算の対象単語列を指定すると、本実施例の信頼度計算装置１００は、音声認識システム１０２から出力された認識結果と指定された対象単語列とに基づいて、対象単語列の正解らしさの度合いを表す信頼度を出力する。

まず他候補生成部１０４が、信頼度計算対象指定部１０３によって指定された対象単語列を読み込み、対象単語列の位置において認識結果として考え得る他の候補単語列を生成する。この処理は、図４のステップＳ１１に対応する。この処理において他候補生成部１０４は、他の候補単語列として、最も正解でありそうな単語列を出力する。

認識システムが対象単語列の位置において出力した単語仮説であって対象単語列以外の単語仮説を、最も正解でありそうな単語として用いることができる。例えば、図７において対象単語列が「guerrillas」である場合、「guerrillas」の位置における他の単語仮説である「gorillas」及び「growers」を他の候補単語とすることができる。これら他の単語仮説は、正解らしいと認識システムが判定した単語であるため、第１位の単語仮説が誤りであった場合にこれら他の単語仮説のいずれかが正解である可能性は高い。他候補生成部１０４は、他の候補単語として、コンフュージョンネットワーク中の他の単語仮説の中で最もスコアの高い単語を１つ出力してもよい。他候補生成部１０４は、他の候補単語として、他の単語仮説の中から複数の単語を出力してもよい。他の候補は、２単語以上の単語連鎖であってもよい。特に、他の候補は、対象単語列と時間的に重なる単語連鎖であってもよい。例えば、対象単語が「guerillas are」の場合、他の候補単語列として、「guerrillas or」、「guerrillas were」、「gorillas are」、「growers or」等々を生成してもよい。

最も正解でありそうな他の候補単語列を出力するために他候補生成部１０４によって用いられる別の方法として、発音辞書を参照して、対象単語の発音と類似した発音の単語を他の候補単語として生成することもできる。認識システムは、単語が同じように発音される場合にそれらの単語同士を混同しやすいため、対象単語の発音と類似した発音の単語が正解である可能性が高いと考えられる。

発音辞書とは、単語とそれら単語の発音記号列とを列挙したデータテーブルである。図８は、発音辞書の例を示している。発音記号列は、音素列や音節列などで表されることが多い。いかなる任意の２つ単語間の発音の類似性も、対応する２つの発音記号列間の距離を求める公知のＤＰマッチング技術を用いて計算できる。例えば、図８に示す発音辞書１４０を参照すると、「guerrillas」の発音記号列と最も類似している発音記号列を有する単語は、発音記号が１つ異なる「gorillas」であることが分かる。したがって、「gorillas」を他の候補単語として出力すればよい。この方法では、他候補生成部１０４は、コンフュージョンネットワークのような認識結果を必要としない。さらに、類似した発音を有するような対象単語と他の候補単語との対からなるリストをあらかじめ作成しておくことにより、他候補生成部１０４は、このリストを参照するだけで他の単語を生成することができる。

最も正解でありそうな他の候補単語列を出力するために他候補生成部１０４によって用いられるさらに別の方法として、単語間混同行列(inter-word confusion matrix)を参照して、認識システムが対象単語と混同しやすい単語を他の候補単語として生成することもできる。認識システムが対象単語と混同しやすい単語は、正解である可能性が高い単語と考えられる。

単語間混同行列は、各行に対応する各単語が認識システムによって認識されたとして、各列に対応する各単語が実際に発話されたものであることの確率を示すものである。図９は、単語間混同行列の例を示している。図９に示す単語間混同行列１５０において、「guerrillas」が認識結果である場合、実際に発話された単語が「apple」である確率は０．０、実際に発話された単語が「gorillas」である確率は０．２、実際に発話された単語が「guerrillas」である確率は０．４、等々である。「guerrillas」が対象単語である場合、他候補生成部１０４は、単語間混同行列を参照し、実際に発話された単語である可能性が高い「gorillas」を他の候補単語として出力する。単語間混同行列は、認識システムによって音声データを認識させ、得られた結果を音声データの正しい書き起こし単語列（トランスクリプト）に対応するように配列することによって、あらかじめ自動的に作成することが可能である。

次に、分類器訓練部１０５が、対象単語列と他候補生成部１０４から出力される他の候補単語列とを受け取り、訓練データ記憶部１１１に記憶された訓練データを用いて、対象単語列と他の候補単語列とを区別する分類器を訓練する。この処理は、図４のステップＳ１２に対応する。

分類器訓練部１０５は、まず、訓練データ記憶部１１１に記憶された訓練データから、対象単語列の事例(instance)と他の候補単語列の事例とを収集する。図１０は、他の候補単語「gorillas」の事例の例を示している。この事例は、訓練テキストデータ１６０において「gorillas」が出現する位置を検索することによって得られる。訓練データ記憶部１１１は、例えば、新聞から得られる記事や他のテキストデータを格納すればよい。「guerillas」が対象単語列であり「gorillas」が他の候補単語列である場合、訓練テキストデータ内で「guerillas」が出現する位置を対象単語列の事例とし、訓練テキストデータ内で「gorillas」が出現する位置を他の候補単語列の事例とすればよい。

次に、収集した対象単語列の事例から、対象単語列に対する特徴量が抽出される。同様に、収集した他の候補単語列の事例から、他の候補単語列に対する特徴量が抽出される。これらの特徴量は、訓練データにおいて対象単語列や候補単語列の近傍に存在する単語群に基づいて構成される。例えば、特徴量は、訓練データ中で対象単語列または候補単語列の位置から一定距離内に存在する単語の出現頻度を表す要素を有するベクトルであってよい。図１０に示す事例では、例えば、「gorillas」からの１５語の距離内に存在する各単語（すなわち下線が付された単語）の頻度を示す要素を有するベクトルを特徴量とすればよい。この例では、可能な特徴量は、『「nest」が１回出現』、『「food」が２回出現』などである。この処理において、一般的にストップワードとみなされる助動詞や冠詞、前置詞などをベクトルから除外してもよい。あるいは、単語の出現頻度の代わりに、対象単語または候補単語の近くに出現する単語について品詞などの単語の属性の出願頻度を特徴量としてもよい。さらにあるいは、対象単語または候補単語の近くに出現する「park rangers」のような２単語連鎖や「a family of」のような３単語連鎖の出現頻度を特徴量としてもよい。出現頻度の代わりに、関心のある単語が出現するか否かを示す２値（例えば、「０」と「１」）によって特徴量を表現してもよい。
またさらに別の考え得る特徴量として、例えば、『２単語前に「family」が存在するか否か』といったような、ある単語が出現する位置を考えてもよい。

最後に、分類器訓練部１０５は、対象単語列の収集された特徴量と他の候補単語列の収集された特徴量とを用いて、対象単語列と他の候補単語列とを区別する２クラスの分類器を訓練する。分類器の例には、公知の分類器であるロジスティック回帰(logistic regression)やニューラルネットワーク、サポートベクトルマシン（ＳＶＭ；support vector machine）が含まれてよい。

２クラスのロジスティック回帰では、式(1)によって事後確率Ｐ(ｙ｜ｘ；ｗ)が定義される。式(1)において、ｘは事例を表す特徴ベクトルを表し、ｙ∈{＋１，−１}は出力クラスを表し、ｗはモデルパラメータを表している。出力クラスは、例えば、対象単語列の事例に対して＋１、他の候補単語列の事例に対して−１とすればよい。

パラメータｗは、式(2)に定義される基準に基づいて決定される。

式(2)において、ｎは、訓練データから収集された事例の総数を表し、ｗ_jは、特徴ベクトルのｊ番目の要素に対応するパラメータであり、ｍは特徴ベクトルの次元数を表し、Ｃは正規化係数を表している。式(2)の右辺の最後の項は、過学習(over-fitting)を避けるための正規化項である。

式(1)に示すように、ロジスティック回帰により得られるモデルは、分類結果を確率として出力することができる。すなわち、結果として得られたモデルを用いて新たな事例を分類すると、その事例が対象単語列であるという確率と、その事例が他の候補単語列であるという確率とを求めることができる。

２クラスの分類器は、ロジスティック回帰に基づいて構成されたものである必要はなく、代わりに、他の公知の技術に基づいて構成されたものでもよい。例えば、ニューラルネットワークあるいはサポートベクトルマシンを利用してもよい。

次に、特徴抽出部１０６が、音声認識システム１０２から出力される認識結果を受け取り、信頼度計算の対象単語列の位置における周辺文脈を表す特徴量を抽出する。この処理は図４に示すステップＳ１３に対応する。特徴抽出部１０６は、分類器訓練部１０５が分類器を訓練するときに用いた特徴量と同じ種類の特徴量を抽出する。例えば、分類器訓練部１０５が分類器を訓練するために訓練データから抽出した特徴量が「単語列から一定距離内に出現する単語の頻度」であれば、特徴抽出部１０６が認識結果から抽出する特徴量は「信頼度計算の対象単語列から一定距離内に出現する単語の頻度」である。この場合、図６に示す認識結果１２０が入力され、かつ対象単語列が「guerrillas」であれば、特徴抽出部１０６が抽出する特徴量は、「guerrillas」の近くに存在する単語の出現頻度である。例えば、特徴は、『「tourism」が１回出現』、『「park」が３回出現』などである。

特徴抽出部１０６は、認識結果と信頼度計算の対象単語列が何であるかに関する情報とだけを受け取るため、他候補生成部１０４や分類器訓練部１０５を動作させるよりも前に特徴抽出部１０６を動作させることも可能である。重要なことは、特徴抽出部１０６が認識結果から抽出する特徴量の種類が、分類器訓練部１０５が分類器を訓練するために訓練データから抽出する特徴量の種類と同じであることである。

最後に、信頼度計算部１０７が、分類器訓練部１０５から受け取った分類器と特徴抽出部１０６から受け取った特徴量とを用いて、対象単語列の信頼度を計算し出力する。この処理は、図４に示すステップＳ１４に対応する。結果として得られる信頼度を計算結果記憶部１１２に格納してもよい。

分類器訓練部１０５が訓練した分類器に対し、特徴抽出部１０６からの特徴量がまず入力され、この分類器は対象単語列と他の候補単語列とを区別する。言い換えれば、分類器は、実際に発話された単語列（すなわち真の単語列）が、認識結果の中から指定された対象単語列であるか、あるいは他候補生成部１０４によって生成された他の候補単語列であるかを判定する。

真の単語列は対象単語列であるということを分類結果が示す場合には、対象単語列の信頼度として、所定の値（例えば「１」）が出力され、その一方、真の単語列は他の候補単語列であるということを分類結果が示す場合には、信頼度として、より小さな他の所定の値（例えば「０」）が出力される。あるいは、例えば分類器としてロジスティック回帰を用いることによって真の単語列が対象単語列である確率を求めることができる場合には（すなわち、対象単語列が正解であることの確率を得ることができる場合には）、結果として得られる確率値を対象単語列の信頼度として出力すればよい。

以上述べた処理を実行することによって、本実施例の信頼度計算装置１００は、音声認識システム１０２から認識結果を受け取り、信頼度計算対象指定部１０３から信頼度計算の対象単語列を受け取って、対象単語列の信頼度を出力する。

他候補生成部１０４が他の候補単語列を複数出力した場合、分類器訓練部１０５は、他の候補単語列の事例として、訓練テキストデータ内で他の候補単語列のどれかが出現する位置を使用すればよい。例えば、他候補生成部１０４が２つの他の候補単語列、「gorillas」と「growers」を出力した場合、分類器訓練部１０５は、訓練テキストデータ内で「gorillas」または「growers」が出現する位置のすべてを他の候補単語列の事例として収集すればよい。

他候補生成部１０４が他の候補単語列を複数出力した場合に用いられる別の処理方法として、分類器訓練部１０５は、複数の他の候補単語列がそれぞれ異なるクラスに属するものとして扱い、対象単語列と他の候補単語列のどれでもとを区別する多クラスの分類器を訓練してもよい。例えば、信頼度計算の候補単語列が「guerillas」であり、他候補生成部１０４が他の候補単語列として「gorillas」と「growers」とを出力した場合、分類器訓練部１０５は、「guerillas」と「gorillas」と「growers」とを区別する３クラスの分類器を訓練してもよい。

多クラスの分類器は、クラスの全ての対に関する複数の２クラス分類器を訓練することで実現できる。多クラスの分類は、それぞれの分類を実行する全ての２クラス分類器を使用し、多数決を用いて最も分類された回数が多いクラスが分類結果であると判断することによって実行される。例えば「guerillas」と「gorillas」と「growers」に関して３クラス分類を行う場合、「guerillas」対「gorillas」、「guerillas」対「growers」及び「gorillas」対「growers」の３つの２クラス分類器を訓練する。分類を実行するためにこれら３つの２クラス分類器が全て使用され、最も分類された回数の多いクラスが出力される。例えば、３つの分類器による分類結果が「gorillas， guerillas， gorillas」であった場合、この３クラス問題の分類結果は「gorillas」である。

分類器訓練部１０５が多クラスの分類器を訓練した場合、信頼度計算部１０７は、結果として得られた分類器を使用して他クラスの分類を行い、対象単語列の位置における真の単語列が何であるかを見つけ出す。真の単語列は対象単語列であることを分類結果が示すときは、所定の値（例えば、「１」）が対象単語列の信頼度として出力され、一方、真の単語列は他の候補単語列の中のいずれかであるということを分類結果が示すときは、より小さな他の所定の値（例えば、「０」）が信頼度として出力される。

本実施例において求められる信頼度が対象単語列の正解らしさの度合いを適切に表している理由は、次の通りである。

まず、信頼度計算部１０７が、「対象単語列の位置における真の単語列は対象単語列である」または「真の単語列が対象単語列である可能性が高い」ということを示す分類結果を出力する場合には、その分類結果は、対象単語列（図７の例では「guerillas」）が、他の候補単語列（図７の例では「gorillas」）よりも、対象単語列の位置での周辺文脈に対してよりよく整合していることを意味する。これはすなわち、他の候補単語列よりも対象単語列が高い正解らしさを有すると考えられることを意味する。本実施例によって求められる信頼度は、このようなときに大きくなる。

一方、信頼度計算部１０７が、「対象単語列の位置における真の単語列は他の候補単語列である」または「真の単語列が対象単語列である可能性は低い」ということを示す分類結果を出力する場合には、その分類結果は、他の候補単語列（「gorillas」）が、対象単語列（「guerillas」）よりも、対象単語列の位置での周辺文脈に対してよりよく整合していることを意味する。これはすなわち、対象単語列よりも他の候補単語列が高い正解らしさを有すると考えられることを意味する。本実施例によって求められる信頼度は、このようなときに小さくなる。

本実施例では、対象単語列と他の候補単語列とを区別することに特化した分類器を分類器訓練部１０５が訓練するため、信頼度計算部１０７は、対象単語列の位置における真の単語列が対象単語列であるか他の候補単語列であるかを高精度に判定することができる。それにより、結果として得られる信頼度の精度が向上する。

また本実施例では、信頼度計算の対象単語列と周辺文脈との整合度が大きいが、対象単語列が認識誤りである場合に、小さな信頼度を得ることができる。その理由は次の通りである。

他候補生成部１０４が最も正解でありそうな単語列を他の候補単語列として出力するため、対象単語列が認識誤りである場合には、他の候補単語列が正解である可能性が高い。
また、正解の単語列と周辺文脈との整合度は認識誤りの単語列と周辺文脈との整合度よりも大きくなる、と期待できる。したがって、たとえ対象単語列と周辺文脈との整合度が大きくても、対象単語列が認識誤りである場合には、他の候補単語列と周辺文脈との整合度がさらに大きくなると期待できる。その結果、信頼度計算部１０７は、「対象単語列の位置における真の単語列は他の候補単語列である」または「真の単語列が対象単語列である可能性は低い」ということを示す分類結果を出力し、小さな信頼度が得られる。

本実施例において記載された方法を用いて決定された対象単語列の信頼度を用いて、対象単語列が認識誤りか否かを判定することができる。具体的には、信頼度が所定のしきい値以下の場合に、対象単語列が認識誤りであると判定すればよい。

また、本実施例において記載した方法によって求められた対象単語列の信頼度と、認識システムが認識結果中の各単語列に付与する単語事後確率とを組み合わせることによって、さらに正確な形態で、認識誤りを判定することができる。具体的には、例えば、対象単語列の事後確率が所定のしきい値以下であり、かつ、本実施例において記載された方法によって求められた対象単語列の信頼度が別の所定のしきい値以下である場合に、対象単語が認識誤りであると判定すればよい。対象単語列の事後確率は、例えば、非特許文献３に記載された公知の技術によって計算することができる。非特許文献３は参照によりここに組み込まれている。

さらに、本実施例において記載された方法によって求められる信頼度を用いて、より正しいと考えられる他の単語列に対象単語列を修正することができる。具体的には、まず、本実施例において記載された方法を用いて、対象単語列の信頼度と対象単語列の位置における他の候補単語列の信頼度とを計算する。そして、対象単語列を、最も大きな信頼度を有する単語列に修正する。例えば図７の例では、対象単語が「guerrillas」であるときに、「guerrillas」の信頼度を計算するだけでなく、他の候補単語である「gorillas」や「growers」も対象単語とみなしてこれらの信頼度を同様に計算する。もし、これら３つの単語の中で「gorillas」が最も大きな信頼度を有する場合、「guerrillas」を「gorillas」へと修正する。

本実施例の方法によれば、信頼度計算の対象単語列と周辺文脈との整合度が大きいが、対象単語列が認識誤りである場合に、小さな信頼度を出力することができる。さらに、本実施例の方法を用いて求められた信頼度を用いて、認識誤りを精度よく検出することができる。

次に、本発明を実現する他の形態について説明する。

図３に示す装置において、他候補生成部１０４、分類器訓練部１０５、特徴抽出部１０６及び信頼度計算部１０７の各々は、専用のハードウェアコンポーネントとして構成されてもよい。同様に、図５に示す装置において、音声入力部１０１、音声認識システム１０２、信頼度計算対象指定部１０３、他候補生成部１０４、分類器訓練部１０５、特徴抽出部１０６、信頼度計算部１０７、訓練データ記憶部１１１及び計算結果記憶部１１２の各々は、専用のハードウェアコンポーネントとして構成されてもよい。しかしながら、本発明を実現する形態はこれらの構成に限られるものではない。図１１は、本発明を実現する他の形態のための装置を示している。

図１１に示す装置は、概して、上述した信頼度計算方法を実施するコンピュータシステムからなっている。コンピュータシステムは、ＣＰＵや他のコンポーネントを含むデータ処理装置２２０と、磁気ディスク、半導体メモリまたは他のコンポーネントを含む記憶装置２３０と、を含んでいる。信頼度計算方法の処理を実行するためのソフトウェアコード含む信頼度計算用プログラム２１０が、データ処理装置２２０に与えられる。プログラム２１０は、例えば、磁気テープやＣＤ−ＲＯＭ、フラッシュメモリなどのようなコンピュータ可読の記録媒体によって持ち運ばれる。

記憶装置２３０内において、訓練データ記憶領域２３１と信頼度計算結果記憶領域２３２とが割り当てられる。両方の領域２３１，２３２は、特定のデータを格納するためのメモリ領域であって、図５に示す装置における訓練データ記憶部１１１及び計算結果記憶部１１２にそれぞれ対応する。

データ処理装置２２０によって読み込まれてその動作を制御する信頼度計算用プログラム２１０は、データ処理装置２２０が図５に示す装置の機能を実現できるようにする。言い換えれば、データ処理装置２２０は、信頼度計算用プログラム２１０の制御によって、図５に示す他候補生成部１０４、分類器訓練部１０５、特徴抽出部１０６及び信頼度計算部１０７の処理を実行する。

本発明は、例えば、音声コンテンツ検索閲覧システムや音声自動通訳システム、他の種々の音声認識システムに適用することができ、また、これらシステムの精度や使い勝手を向上することができる。また、本発明による装置や方法によって計算される信頼度を用いて重み付けされた認識結果を用いることで、本発明は、認識システムの精度を改善するための教師なし音響モデル適応化や教師なし言語モデル適応化にも適用可能である。

例示実施形態及び実施例を参照して本発明を説明したが、本発明は上述した例示実施形態及び実施例に限定されるものではない。本発明の範囲内において、本発明の構造及び詳細に対して、当業者によって理解されるべき種々の変形をなすことができる。

Claims

認識結果中の指定された対象単語列の信頼度を計算する信頼度計算方法であって、
前記認識結果と前記対象単語列とを受け取ることと、
生成部が、前記対象単語列の位置における最も正解らしい単語列を他の候補単語列として生成することと、
訓練部が、訓練データにおける前記対象単語列の位置における周辺文脈を表す第一の特徴量と、前記第一の特徴量と同じ種類であって前記訓練データにおける前記他の候補単語列の位置における周辺文脈を表す第二の特徴量とを用いて、前記対象単語列と前記他の候補単語列とを区別するように構成された分類器を訓練することと、
抽出部が、前記第一の特徴量と同じ種類であって前記認識結果での前記対象単語列の位置における周辺文脈を表す第三の特徴量を抽出することと、
計算部が、前記訓練された分類器と前記第三の特徴量とを用いて、前記認識結果での前記対象単語列の位置における真の単語列が前記対象単語列であるかあるいは前記他の候補単語列であるかを判別することと、
前記計算部が、判別結果に基づいて前記認識結果における前記対象単語列の信頼度を計算することと、
を有する方法。
複数の前記他の候補単語列が生成され、前記分類器は、前記対象単語列と前記複数の他の候補単語列のどれでもとを区別するように構成され、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であるかあるいは前記複数の他の候補単語列のいずれかであるかが前記分類器を用いて判別される、請求項１に記載の方法。
前記分類器は、分類結果の事後確率を出力するように構成され、前記対象単語列が正しいという事後確率が、前記対象単語列の前記信頼度として用いられる、請求項１に記載の方法。
前記対象単語列の前記位置における前記真の単語列が前記対象単語列であると分類された場合に第一の定数が前記対象単語列の前記信頼度として用いられ、前記対象単語列の前記位置における前記真の単語列が前記他の候補単語列であると分類された場合に前記第一の定数より小さな第二の定数が前記対象単語列の前記信頼度として用いられる、請求項１に記載の方法。
認識システムによって前記対象単語列の前記位置において出力された仮説であって前記対象単語列以外の仮説が、前記他の候補単語列として用いられる、請求項１に記載の方法。
発音辞書を参照することにより、前記対象単語列の発音と類似した発音を有する単語列が、前記他の候補単語列として生成される、請求項１に記載の方法。
単語間混同行列を参照することにより、認識システムが前記対象単語列と混同しやすい単語列が、前記他の候補単語列として生成される、請求項１に記載の方法。
前記第一、第二及び第三の特徴量は、前記対象単語列の前記位置から一定距離内に出現する単語の頻度数または前記単語の属性の頻度数に基づいて計算される、請求項１に記載の方法。
前記対象単語列の前記計算された信頼度が所定のしきい値以下であるときに、前記対象単語列は認識誤りであると判断することをさらに有する、請求項１に記載の方法。
認識システムから出力される前記対象単語列の事後確率が第一のしきい値以下であり、かつ、前記対象単語列の前記計算された信頼度が第二のしきい値以下であるときに、前記対象単語列は認識誤りであると判断することをさらに有する、請求項１に記載の方法。
前記生成することと前記訓練することと前記抽出することと前記判別することとを実施して、前記対象単語列の信頼度と前記他の候補単語列の信頼度とを得ることと、
最大の信頼度を有する単語列を出力することと、
をさらに有する、請求項１に記載の方法。
認識結果中の指定された対象単語列の信頼度を計算する信頼度計算装置であって、
前記対象単語列の位置における最も正解らしい単語列を他の候補単語列として生成する生成部と、
訓練データにおける前記対象単語列の位置における周辺文脈を表す第一の特徴量と、前記第一の特徴量と同じ種類であって前記訓練データにおける前記他の候補単語列の位置における周辺文脈を表す第二の特徴量とを用いて、前記対象単語列と前記他の候補単語列とを区別するように構成された分類器を訓練する訓練部と、
前記第一の特徴量と同じ種類であって前記認識結果での前記対象単語列の位置における周辺文脈を表す第三の特徴量を抽出する抽出部と、
前記訓練された分類器と前記第三の特徴量とを用いて前記認識結果での前記対象単語列の位置における真の単語列が前記対象単語列であるかあるいは前記他の候補単語列であるかを判別し、判別結果に基づいて前記認識結果における前記対象単語列の信頼度を計算する計算部と、
を有する装置。
前記生成部は、複数の前記他の候補単語列を生成し、前記分類器は、前記対象単語列と前記複数の他の候補単語列のどれでもとを区別するように構成され、判別に際し、前記計算部は、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であるか前記複数の他の候補単語列のいずれかであるかを判別する、請求項１２に記載の装置。
前記分類器は分類結果の事後確率を出力するように構成され、前記計算部は、前記対象単語列が正しいという事後確率を前記対象単語列の前記信頼度として用いる、請求項１２に記載の装置。
前記計算部は、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であると分類された場合に第一の定数を前記対象単語列の前記信頼度として用い、前記対象単語列の前記位置における前記真の単語列が前記他の候補単語列であると分類された場合に前記第一の定数より小さな第二の定数を前記対象単語列の前記信頼度として用いる、請求項１２に記載の装置。
前記生成部は、前記他の候補単語列として、認識システムによって前記対象単語列の前記位置において出力された仮説であって前記対象単語列以外の仮説を用いる、請求項１２に記載の装置。
前記生成部は、発音辞書を参照し、前記他の候補単語列として、前記対象単語列の発音と類似した発音を有する単語列を生成する、請求項１２に記載の装置。
前記生成部は、単語間混同行列を参照して、前記他の候補単語列として、認識システムが前記対象単語列と混同しやすい単語列を生成する、請求項１２に記載の装置。
前記第一、第二及び第三の特徴量は、前記対象単語列の前記位置から一定距離内に出現する単語の頻度数または前記単語の属性の頻度数に基づいて計算される、請求項１２に記載の装置。
前記対象単語列の前記計算された信頼度が所定のしきい値以下であるときに、前記対象単語列は認識誤りであると判断される、請求項１２に記載の装置。
認識システムから出力される前記対象単語列の事後確率が第一のしきい値以下であり、かつ、前記対象単語列の前記計算された信頼度が第二のしきい値以下であるときに、前記対象単語列は認識誤りであると判断される、請求項１２に記載の装置。
前記対象単語列の信頼度と前記他の候補単語列の信頼度とを計算し、最大の信頼度を有する単語列を出力する、請求項１２に記載の装置。
認識結果中の指定された対象単語列の信頼度を計算する信頼度計算装置であって、
前記対象単語列の位置における最も正解らしい単語列を他の候補単語列として生成する手段と、
訓練データにおける前記対象単語列の位置における周辺文脈を表す第一の特徴量と、前記第一の特徴量と同じ種類であって前記訓練データにおける前記他の候補単語列の位置における周辺文脈を表す第二の特徴量とを用いて、前記対象単語列と前記他の候補単語列とを区別するように構成された分類器を訓練する手段と、
前記第一の特徴量と同じ種類であって前記認識結果での前記対象単語列の位置における周辺文脈を表す第三の特徴量を抽出する手段と、
前記訓練された分類器と前記第三の特徴量とを用いて前記認識結果での前記対象単語列の位置における真の単語列が前記対象単語列であるかあるいは前記他の候補単語列であるかを判別し、判別結果に基づいて前記認識結果における前記対象単語列の信頼度を計算する手段と、
を有する装置。
コンピュータに、
認識結果と前記認識結果中で指定された対象単語列とを受け取る処理と、
前記対象単語列の位置における最も正解らしい単語列を他の候補単語列として生成する処理と、
訓練データにおける前記対象単語列の位置における周辺文脈を表す第一の特徴量と、前記第一の特徴量と同じ種類であって前記訓練データにおける前記他の候補単語列の位置における周辺文脈を表す第二の特徴量とを用いて、前記対象単語列と前記他の候補単語列とを区別するように構成された分類器を訓練する処理と、
前記第一の特徴量と同じ種類であって前記認識結果での前記対象単語列の位置における周辺文脈を表す第三の特徴量を抽出する処理と、
前記訓練された分類器と前記第三の特徴量とを用いて、前記認識結果での前記対象単語列の位置における真の単語列が前記対象単語列であるかあるいは前記他の候補単語列であるかを判別する処理と、
判別結果に基づいて前記認識結果における前記対象単語列の信頼度を計算する処理と、
を実行させるコンピュータプログラム。
前記コンピュータに、前記生成する処理において複数の前記他の候補単語列を生成させ、前記訓練する処理において、前記対象単語列と前記複数の他の候補単語列のどれでもとを区別するように構成された分類器を訓練させ、前記判別する処理において、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であるかあるいは前記複数の他の候補単語列のいずれかであるかを前記分類器を用いて判別させる、請求項２４に記載のコンピュータプログラム。
前記分類器は、分類結果の事後確率を出力するように構成され、前記コンピュータプログラムは、前記コンピュータに、前記計算する処理において、前記対象単語列が正しいという事後確率を前記対象単語列の前記信頼度として使用させる、請求項２４に記載のコンピュータプログラム。
前記コンピュータに、前記計算する処理において、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であると分類された場合に第一の定数を前記対象単語列の前記信頼度として使用させ、前記対象単語列の前記位置における前記真の単語列が前記他の候補単語列であると分類された場合に前記第一の定数より小さな第二の定数を前記対象単語列の前記信頼度として使用させる、請求項２４に記載のコンピュータプログラム。
前記コンピュータに、前記他の候補単語列として、認識システムによって前記対象単語列の前記位置において出力された仮説であって前記対象単語列以外の仮説を使用させる、請求項２４に記載のコンピュータプログラム。
前記コンピュータに、前記生成する処理において、発音辞書を参照させて、前記対象単語列の発音と類似した発音を有する単語列を前記他の候補単語列として生成させる、請求項２４に記載のコンピュータプログラム。
前記コンピュータに、前記生成する処理において、単語間混同行列を参照させて、認識システムが前記対象単語列と混同しやすい単語列を前記他の候補単語列として生成させる、請求項２４に記載のコンピュータプログラム。
前記コンピュータに、前記対象単語列の前記位置から一定距離内に出現する単語の頻度数または前記単語の属性の頻度数に基づいて、前記第一、第二及び第三の特徴量を計算させる、請求項２４に記載のコンピュータプログラム。
前記コンピュータに、前記対象単語列の前記計算された信頼度が所定のしきい値以下であるときに前記対象単語列は認識誤りであると判断する処理をさらに実行させる、請求項２４に記載のコンピュータプログラム。
前記コンピュータに、認識システムから出力される前記対象単語列の事後確率が第一のしきい値以下であり、かつ、前記対象単語列の前記計算された信頼度が第二のしきい値以下であるときに、前記対象単語列は認識誤りであると判断する処理をさらに実行させる、請求項２４に記載のコンピュータプログラム。
前記コンピュータに、
前記生成する処理と前記訓練する処理と前記抽出する処理と前記判別する処理とを実施して、前記対象単語列の信頼度と前記他の候補単語列の信頼度とを得る処理と、
最大の信頼度を有する単語列を出力する処理と、
をさらに実行させる、請求項２４に記載のコンピュータプログラム。