JP2014160168A

JP2014160168A - 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム

Info

Publication number: JP2014160168A
Application number: JP2013030772A
Authority: JP
Inventors: Atsunori Ogawa; 厚徳小川; Takaaki Hori; 貴明堀; Atsushi Nakamura; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-02-20
Filing date: 2013-02-20
Publication date: 2014-09-04
Anticipated expiration: 2033-02-20
Also published as: JP5980142B2

Abstract

【課題】Ｎベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを効率よく学習するための学習用データを得ることができる学習データ選択装置を提供する。
【解決手段】Ｎベスト認識結果単語列が記憶されるＮベスト認識結果記憶部と、１位認識結果単語列を記憶する学習用データ記憶部と、Ｎベスト認識結果記憶部からｉ位認識結果単語列を抽出するｉ位認識結果抽出部と、学習用データ記憶部の各認識結果単語列からｉ位認識結果単語列と最も近似するｋ位認識結果単語列を抽出するｋ位認識結果抽出部と、ｉ位認識結果単語列とｋ位認識結果単語列のうち互いに異なる単語の数から異なり単語率Ｒを計算する異なり単語率計算部と、異なり単語率Ｒが予め定めた閾値Ｔを超える場合にはｉ位認識結果単語列を学習用データ記憶部に記憶する比較部とを備える。
【選択図】図１１

Description

本発明はＮベスト認識結果の精度を推定するために用いる学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラムに関する。

非特許文献１において、１位認識結果の精度を推定する識別的音声認識精度推定装置が開示されている。なお、本明細書において、Ｎベスト認識結果とは、１位からＮ位までのＮ個の認識結果の集合を意味するものとし、Ｎ位認識結果とは、Ｎ位の認識結果を意味するものとする。１ベスト認識結果と１位認識結果とは同じ意味であるため、本明細書では、１位認識結果を１ベスト認識結果、または１−ｂｅｓｔ認識結果とも書く。

小川厚徳、堀貴明、中村篤、"単語アライメントネットワークと識別的誤りタイプ分類による認識精度推定、"2012年音響学会秋季研究発表会、2-1-5,pp.67-68 (2012年) J.D. Williams, "Exploiting the ASR N-Best by tracking multiple dialog state hypotheses," in Proc. Interspeech. ISCA, 2008, pp. 191-194. J.D. Williams and S. Balakrishnan, "Estimating probability of correctness for ASR N-Best lists," in the 10th Annual Meeting of the Special Interest Group in Discourse and Dialogue (SIGDIAL2009). ACL, 2009, pp. 132-135.

ある一つの入力音声に対する音声認識装置の認識結果としては、認識スコアの最も高い１位（１ベスト）認識結果を採用することが多い。しかし、１位認識結果の精度は低いことも多いので、１位認識結果に２位以下の認識結果も加えた複数認識結果を前提として音声認識装置が開発されることもある（非特許文献２、非特許文献３）。２位以下に１位よりも精度の高い認識結果が含まれていることがしばしばあるからである。

非特許文献１のような識別的音声認識精度推定は音声認識技術の高性能化に有用な技術である。しかしながら、非特許文献１の識別的音声認識精度推定技術で使用する識別モデルは１位認識結果を識別するためのモデルであるため、２位以下の認識結果の識別に利用することができない。そのため、上記のような複数認識結果を前提として開発されている音声認識装置の高性能化に利用することができないという問題があった。

そこで本発明では、Ｎ（Ｎは２以上の整数）ベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを効率よく学習するための学習用データを得ることができる学習データ選択装置を提供することを目的とする。

本発明の学習データ選択装置は、Ｎベスト認識結果記憶部と、学習用データ記憶部と、ｉ位認識結果抽出部と、ｋ位認識結果抽出部と、異なり単語率計算部と、比較部とを備える。Ｎを２以上の整数とし、ｋをｋ＜ｉを充たす正の整数とする。

Ｎベスト認識結果記憶部には、Ｎベスト認識結果単語列が予め記憶される。学習用データ記憶部には、初期値として１位認識結果単語列が予め記憶される。ｉ位認識結果抽出部は、Ｎベスト認識結果記憶部を参照して、ｉ位認識結果単語列を抽出する。ｋ位認識結果抽出部は、学習用データ記憶部に記憶されている各認識結果単語列とｉ位認識結果単語列とをセグメント毎に照合し、学習用データ記憶部に記憶されている各認識結果単語列の中からｉ位認識結果単語列と最も近似する認識結果単語列であるｋ位認識結果単語列を抽出する。異なり単語率計算部は、ｉ位認識結果単語列とｋ位認識結果単語列のうち互いに異なる単語の数を認識結果単語列の長さで割ったものを異なり単語率Ｒとして計算する。比較部は、異なり単語率Ｒと予め定めた閾値Ｔとを比較して、Ｒ＞Ｔである場合にはｉ位認識結果単語列を学習用データ記憶部に記憶する。

ｉの初期値をｉ＝２とし、ｉ位認識結果抽出部、ｋ位認識結果抽出部、異なり単語率計算部、および比較部の処理が実行される度に、ｉはインクリメントされ、ｉ＝Ｎとなるまで、ｉ位認識結果抽出部、ｋ位認識結果抽出部、異なり単語率計算部、および比較部の処理が繰り返し実行される。

本発明の学習データ選択装置によれば、Ｎベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを効率よく学習するための学習用データを得ることができる。

参考特許文献の識別的音声認識精度推定装置の構成を示すブロック図。参考特許文献の単語アライメントネットワーク取得部の構成を示すブロック図。参考特許文献の音声認識部の構成を示すブロック図。参考特許文献の単語アライメントネットワーク取得部の動作を示すフローチャート。参考特許文献の識別的音声認識精度推定装置の動作を示すフローチャート。参考特許文献の認識結果単語確率的分類部が行う１−ｂｅｓｔ認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図。参考特許文献と本発明の認識精度算出手順の違いを説明する図。単語コンフュージョンネットワークからＮベスト認識結果を抽出した例を示す図。単語コンフュージョンネットワークから単語アライメントネットワークへの変換例を示す図。１単語から成る認識結果における１、２、４位認識結果単語のそれぞれを正解単語とした場合の単語アライメントネットワークの例について示す図。本発明の実施例１の学習データ選択装置の構成を示すブロック図。本発明の実施例１の学習データ選択装置の動作を示すフローチャート。本発明の実施例２の識別的音声認識精度推定装置の構成を示すブロック図。本発明の実施例２の音声認識部の構成を示すブロック図。本発明の実施例２の識別的音声認識精度推定装置の動作を示すフローチャート。本発明の実施例３の識別的音声認識精度推定装置の構成を示すブロック図。本発明の実施例３の識別的音声認識精度推定装置の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１、２、３、４、５、６を参照して、参考特許文献（特願２０１２−１８７７０８）の実施例３として記載された識別的音声認識精度推定装置６００について説明する。図１は参考特許文献の識別的音声認識精度推定装置６００の構成を示すブロック図である。図２は参考特許文献の単語アライメントネットワーク取得部４０の構成を示すブロック図である。図３は参考特許文献の音声認識部６３０の構成を示すブロック図である。図４は参考特許文献の単語アライメントネットワーク取得部４０の動作を示すフローチャートである。図５は参考特許文献の識別的音声認識精度推定装置６００の動作を示すフローチャートである。図６は参考特許文献の認識結果単語確率的分類部１２０が行う１−ｂｅｓｔ認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図である。

図１に示すとおり、参考特許文献の識別的音声認識精度推定装置６００は、音声認識部６３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、１−ｂｅｓｔ認識結果単語列取得部８０、単語特徴量ベクトル作成部９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、認識結果単語確率的分類部１２０、確率的認識精度計算部１３０を備える。図２に示すとおり、単語アライメントネットワーク取得部４０は、１−ｂｅｓｔ認識結果単語列取得手段４１、正解確率計算手段４２、置換誤り確率計算手段４３、挿入誤り確率計算手段４４、削除誤り確率計算手段４５を備える。図３に示すとおり、音声認識部６３０は、単語ラティス生成手段６３１、単語コンフュージョンネットワーク生成手段３２、対立候補情報生成手段６３２を備える。

まず音声認識部６３０は、入力端子２に入力される音声を音声認識し、当該音声認識結果を単語ラティス、および単語コンフュージョンネットワークの形式で生成する。音声認識部６３０は、これらに加えて後述する対立候補情報を生成し、生成した単語ラティスと、単語コンフュージョンネットワークと、対立候補情報とを出力する（Ｓ６３０）。上記に加え、音声認識部６３０は、音声認識の過程においてディジタル音声信号の特徴量ベクトルの時系列への変換や、音響モデルと言語モデルを用いた尤度計算などを行う。これらの処理は従来の音声認識と同様であるため詳細は割愛する。

より詳細には、単語ラティス生成手段６３１は、単語ラティスを生成する（ＳＳ６３１）。単語コンフュージョンネットワーク生成手段３２は、生成された単語ラティスから単語コンフュージョンネットワークを生成する（ＳＳ３２）。次に、対立候補情報生成手段６３２は、単語ラティス及び単語コンフュージョンネットワークから対立候補情報を生成する（ＳＳ６３２）。

単語ラティスは複数の認識結果単語列の表現形式であり、これを変換して単語コンフュージョンネットワークが生成される。単語コンフュージョンネットワークの方が単語ラティスよりも効率よくコンパクトに複数の認識結果単語列を表現するが、単語ラティスには単語コンフュージョンネットワークには保存されていない情報、例えば、認識結果単語の音響尤度や言語尤度などが記録されている。対立候補情報とは、ある認識結果単語を認識中（探索処理実行中）に、対立候補の単語はいくつあったかを示す情報のことである。

次に、単語アライメントネットワーク取得部４０は音声認識部６３０から出力された単語コンフュージョンネットワークを単語アライメントネットワークに変換する（Ｓ４０）。単語アライメントネットワークは、何れかのセグメントにおいてεが最大存在確率とならない場合に、最大存在確率を有する単語の存在確率を当該セグメントにおける正解確率とし、当該セグメントにおける最大存在確率を有しないε以外の単語の存在確率の合計を当該セグメントにおける置換誤り確率とし、当該セグメントにおけるεの存在確率を当該セグメントにおける挿入誤り確率とし、何れかのセグメントにおいてεが最大存在確率となる場合に、当該セグメントにおける最大存在確率を有しない単語の存在確率の合計を当該セグメントにおける削除誤り確率として、セグメント毎に、正解／置換誤り／挿入誤り／削除誤り確率を示したものである。

音声認識精度は正解単語列と認識結果単語列のアライメントをＤＰマッチングにより取ることで計算できるが、単語アライメントネットワークとはこのアライメント結果を表現するものであり、基になる単語コンフュージョンネットワークが複数の認識結果単語列を確率的に表現するものであることから、単語アライメントネットワークは複数のアライメント結果を確率的に表現するものである。

ここで、単語アライメントネットワーク取得部４０の処理の詳細を図２に示した各構成手段の動作に細分化して説明すると、まず、１−ｂｅｓｔ認識結果単語列取得手段４１は、単語コンフュージョンネットワークから１−ｂｅｓｔ認識結果単語列を取得する（ＳＳ４１）。

ここで、一つの単語コンフュージョンネットワーク中の各セグメントで最大の存在確率を持つ単語を連結したものを１−ｂｅｓｔ認識結果単語列という。通常の場合、１−ｂｅｓｔ認識結果単語列は最終的な音声認識結果単語列である（単語コンフュージョンネットワークを介さずに最終的な認識結果単語列を得る方法もある）。

以下、得られた１−ｂｅｓｔ認識結果単語が正味の単語であるか、εであるかによって処理が分岐する。１−ｂｅｓｔ認識結果単語がεでない正味の単語である場合、正解確率計算手段４２は、当該εでない１−ｂｅｓｔ認識結果単語を、セグメントｊにおける正解単語を表す単語アライメント結果シンボルＣ_ｊ（ｊはセグメント番号、以降も同じ）に変え、当該１−ｂｅｓｔ認識結果単語の存在確率を正解確率であるｐ（Ｃ_ｊ）として付与する（ＳＳ４２）。ここで、εでない１−ｂｅｓｔ認識結果単語が実は正解単語ではなく、これに競合、対立する認識結果単語（εでない）が正解単語であるとすると、前述の１−ｂｅｓｔ認識結果単語は置換誤り（Ｓｕｂｓｔｉｔｕｔｉｏｎ＿ｅｒｒｏｒ）となる。よって、置換誤り確率計算手段４３は、対立する認識結果単語（εでない）を一つに束ねて置換誤りを表す単語アライメント結果シンボルＳ_ｊとし、置換誤り確率ｐ（Ｓ_ｊ）を、εでない対立候補の存在確率の和として付与する（ＳＳ４３）。最後に、前述のεでない１−ｂｅｓｔ認識結果単語が、実は正解単語ではなく、ε（単語なし）が正しいとすると、前述のεでない１−ｂｅｓｔ認識結果単語は挿入誤り（Ｉｎｓｅｒｔｉｏｎ＿ｅｒｒｏｒ）となる。よってこのεを挿入誤りを表す単語アライメント結果シンボルＩ_ｊに変え、挿入誤り確率ｐ（Ｉ_ｊ）をｐ（ε）として付与する（ＳＳ４４）。

一方、１−ｂｅｓｔ認識結果単語がεである場合、このεと競合（対立）する認識結果単語が存在する場合には、εすなわち「単語なし」が実は正しくなく、このセグメントに他のεでない対立候補が存在するのが正しいとすると、このεは削除誤り（Ｄｅｌｅｔｉｏｎ＿ｅｒｒｏｒ）となる。よって他のεでない対立候補を一つに束ねて削除誤りを表す単語アライメント結果シンボルＤ_ｊとし、削除誤り確率ｐ（Ｄ_ｊ）を、εでない対立候補の存在確率の和として付与する（ＳＳ４５）。

次に、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０は、単語アライメントネットワークを１−ｂｅｓｔ単語アライメント結果シンボル列に変換する（Ｓ６０）。

１−ｂｅｓｔ単語アライメント結果シンボル列とは、単語アライメントネットワークにおいて、何れかのセグメントにおける最大確率が正解確率である場合にシンボルＣ、何れかのセグメントにおける最大確率が置換誤り確率である場合にシンボルＳを、何れかのセグメントにおける最大確率が挿入誤り確率である場合にシンボルＩを、何れかのセグメントにおける最大確率が削除誤り確率である場合にシンボルＤを、セグメント毎に付与して連結したものである。

次に、音声認識部６３０から出力された単語コンフュージョンネットワークを入力として、１−ｂｅｓｔ認識結果単語列取得部８０は、１−ｂｅｓｔ認識結果単語列を取得する（Ｓ８０）。単語特徴量ベクトル作成部９０は、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）に対して、単語コンフュージョンネットワークから得られる情報（存在確率、競合単語の数）、単語ラティスから得られる情報（音響尤度、言語尤度）、対立候補情報、単語アライメントネットワークから得られる情報（単語アライメント結果シンボルＡ_ｊ（Ａ＝Ｃ／Ｓ／Ｉ／Ｄ）の存在確率ｐ（Ａ_ｊ））、１−ｂｅｓｔ単語アライメント結果シンボル列から得られる情報（単語アライメント結果シンボル）を取得する。また同時に単語関連情報記憶部１００から、認識結果単語に対する情報（単語関連情報）を取得する。単語関連情報は認識結果単語の品詞情報などを表す。単語特徴量ベクトル作成部９０は、これらの入力情報を並べて、単語特徴量ベクトルを作成する（Ｓ９０）。単語特徴量ベクトルの作成に際し、入力情報はどんな順序で並べても構わないが、一度順序を決めた後はそれを変えないようにする。認識結果単語確率的分類部１２０は、単語特徴量ベクトル作成部９０で作成された１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）の単語特徴量ベクトルを入力として、認識結果単語確率的分類モデル記憶部１１０に記憶された認識結果単語確率的分類モデル（モデルパラメータ）を用いて、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与する（Ｓ１２０）。このように、セグメント毎に単語アライメント結果シンボルと各シンボルの確率とを対にして表記した結果を確率的単語分類結果と呼ぶ。

別の表現をすれば、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデル（モデルパラメータ）とを用いて付与した、１−ｂｅｓｔ認識結果単語列中の各単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、ε（認識結果単語なし）である確率をセグメント毎に表記した結果を確率的単語分類結果ということができる。

すなわち、例えば１−ｂｅｓｔ認識結果単語列中のｊ番目の１−ｂｅｓｔ認識結果単語に対して、それが正解である確率ｐ（Ｃ_ｊ）、置換誤りである確率ｐ（Ｓ_ｊ）、挿入誤りである確率ｐ（Ｉ_ｊ）、削除誤りである確率ｐ（Ｄ_ｊ）、εである確率ｐ（ε_ｊ）を付与する。ここで、ｐ（Ｃ_ｊ）＋ｐ（Ｓ_ｊ）＋ｐ（Ｉ_ｊ）＋ｐ（Ｄ_ｊ）＋ｐ（ε_ｊ）＝１である。この処理の様子を図６に示す。認識結果単語確率的分類モデルは、例えば、参考非特許文献１に詳述されている条件付確率場（Ｃｏｎｄｉｔｉｏｎａｌ＿Ｒａｎｄｏｍ＿Ｆｉｅｌｄｓ：ＣＲＦ）などであり、学習データを用いて１−ｂｅｓｔ認識結果単語列中の各単語の単語特徴量ベクトル（当該単語の単語特徴量ベクトルだけでなく当該単語の前後数単語の単語特徴量ベクトルが用いられることもある。これは以下の実施例でも同じである）と、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係を予め学習しておく。
（参考非特許文献１）J. Lafferty, A. McCallum and F. Pereira, “Conditional random fields: probabilistic models for segmenting and labeling sequence data,”Proc. ICML, pp. 282-289, 2001.

次に、確率的認識精度計算部１３０は、確率的単語分類結果を用いて音声認識精度を計算し、計算した音声認識精度を出力する（Ｓ１３０）。通常、音声認識精度は、正解単語列中の単語数＃Ｎ、正解単語数＃Ｃ、置換誤り単語数＃Ｓ、挿入誤り単語数＃Ｉ、削除誤り単語数＃Ｄを、０以上の整数として数え上げて、以下の式（１）または式（２）により計算される。

確率的認識精度計算部１３０では、確率的単語分類結果の各セグメント中の各単語アライメント結果シンボルの確率値を加算することで計算する。ここで、ある確率的単語分類結果中のセグメント数をＪ、ｊ番目のセグメントをＱ_ｊ（ｊ＝１，２，…，Ｊ）、Ｑ_ｊ中に存在し得る単語アライメント結果シンボルをＡ_ｊ（Ａ＝Ｃ／Ｓ／Ｉ／Ｄ）、その存在確率をｐ（Ａ_ｊ）とする。このとき、正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ）、正解単語列中の単語数の推定値Ｅ（＃Ｎ）は、それぞれ以下のように求めることができる。

０以上の整数である＃Ｃ、＃Ｓ、＃Ｄ、＃Ｉとは異なり、これらＥ（＃Ｃ）、Ｅ（＃Ｓ）、Ｅ（＃Ｉ）、Ｅ（＃Ｄ）、Ｅ（＃Ｎ）は、小数点以下の数値を取りうる。これらを用いて単語正解率と単語正解精度は以下のように求められる。

１−ｂｅｓｔ認識結果単語列中の正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ）は、それぞれ、式（３）、式（４）、式（５）、式（６）で計算できる。図６の例の場合、Ｅ（＃Ｃ）＝３．４、Ｅ（＃Ｓ）＝０．９、Ｅ（＃Ｉ）＝０．８、Ｅ（＃Ｄ）＝１．４となる（Ｅ（ε）＝１．５と計算できるがこれは以降の認識精度推定には用いない）。また、式（７）より正解単語列中の単語数の推定値はＥ（＃Ｎ）＝３．４＋０．９＋１．４＝５．７となる。単語正解率及び単語正解精度は式（８）及び式（９）で計算できる。図６の例の場合、単語正解率＝（３．４／５．７）×１００＝５９．６５［％］、単語正解精度＝（（３．４−０．８）／５．７）×１００＝４５．６１［％］となる。

以下、図７を参照して、本発明と参考特許文献の発明の違いについて説明する。図７は参考特許文献と本発明の認識精度算出手順の違いを説明する図である。図７に示すとおり、本発明と参考特許文献の違いは、精度推定の対象が１位のみか、Ｎベスト（１位も含む）か、の違いである。

図８は単語コンフュージョンネットワークからＮベスト認識結果を抽出した例を示す図である。１位認識結果は単語コンフュージョンネットワークの各セグメントにおいて事後確率の最も高い単語を選択することで得ることができる。図８の場合、１位認識結果単語列は、“私ε定額に行くεεた”となる。２位認識結果単語列は１位認識結果単語列に次ぐ合計の事後確率（スコア）を持つ認識結果単語列である。図８の場合は、２位認識結果単語列は、セグメント２において「ε」でなく「は」を選択することで得ることができる。結果、２位認識結果単語列は、“私は定額に行くεεた”となる。ここで図８の正解単語列“私は大学に行く予定でした”と比較すると、１位認識結果単語列よりも２位認識結果単語列の方が一単語分だけ正解単語が増えており、認識精度が高い。すなわち上記したように、２位以下の認識結果が１位の認識結果よりも精度が高くなることがしばしばある。図８の例において、３位認識結果単語列は、第２セグメントにおいて、「が」を選択することで得ることができる。結果、３位認識結果単語列は、“私が定額に行くεεた”となる。３位以下の認識結果も同様に得ることができる。ここで注目すべきは、同程度のランクに位置する認識結果の違いが非常に小さいということである。図８の場合、１、２、３位認識結果の違いは、第２セグメントの１単語のみである。これはＮベスト認識結果単語が非常に分かりやすい複数認識結果の表現形式である反面、認識結果の違いを効率的に表現することが困難であることを意味している。図８の場合、この単語コンフュージョンネットワークと同じだけの認識結果のバリエーションを表現するのに、Ｎベスト認識結果では、２×３×４×２×２×３×２×１＝５７６個の認識結果を並べる必要がある。なお、実際には、ＮベストのＮは、あらかじめ設定する場合が多い。すなわち、図８の場合は、最多で５７６個の認識結果を得ることができるため、例えば、あらかじめＮ＝１００と設定した場合は、上位の１００個をＮベスト認識結果として得る。しかしながら、Ｎ＝１０００と設定した場合は、上位１０００個をＮベスト認識結果として得ようとしても、Ｎ＝５７６までしか得られない。

図９は単語コンフュージョンネットワークから単語アライメントネットワークへの変換例を示す図である。図９は単語コンフュージョンネットワーク上の１位認識結果単語列中の各単語を正解単語（Ｃ）として選択した場合の単語アライメントネットワークの例である。前述したように、単語アライメントネットワーク上のＣ／Ｓ／Ｉ／Ｄ確率は、認識結果単語確率的分類モデルの特徴量として使用される。

図１０を参照して、識別的音声認識精度推定装置をＮベスト認識結果に適用する際の課題を明らかにする。図１０では説明を簡単にするため、１単語から成る認識結果文章（単語列）を考える。単語コンフュージョンネットワークの１位（１ベスト）認識結果単語を正解単語（Ｃ）として選択することで得られる単語アライメントネットワーク１を右上に示す。この例に示すように、一般に音声認識装置は１位認識結果単語を正解単語として出力するように構築されるため、１位認識結果単語を正解単語（Ｃ）として選択した場合、Ｃ確率はＳ確率及びＩ確率よりも相対的に高くなる傾向にある。一方、図１０左下の単語アライメントネットワーク２に示すように、２位認識結果単語の「雑貨」を正解単語（Ｃ）として選択すると、Ｃ確率は低くなり、その代わりにＳ確率、Ｉ確率が大きくなることもある（この例ではＩ確率は小さいが、実際にＩ確率が大きくなることもある）。また図１０右下の単語アライメントネットワーク３に示すように、４位認識結果単語のεを正解単語として選択すると、Ｄ確率が出現する。

図１０から明らかなことは、１位（１ベスト）認識結果単語を正解単語（Ｃ）として選択する場合と、２位以下の認識結果単語を正解単語（Ｃ）として選択する場合とでは、Ｃ／Ｓ／Ｉ／Ｄ確率のレンジが大きく異なるということである。よって、１位（１ベスト）認識結果単語を正解単語（Ｃ）として選択した場合のＣ／Ｓ／Ｉ／Ｄ確率のみで学習した識別モデル（非特許文献１の認識結果単語確率的分類モデル）では、Ｃ／Ｓ／Ｉ／Ｄ確率のレンジの大きく異なる２位以下の認識結果単語の精度推定を正確に行うことは困難である。従って、Ｎベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを学習するには、１位（１ベスト）認識結果だけでなく２位以下の認識結果も使用する必要があるということがわかる。

しかしながら、Ｎベスト認識結果においては、上記したように、同程度のランクに位置する認識結果の違いが非常に小さい。例えば図８の１、２、３位認識結果単語列の場合、セグメント２を除けば全く同じ単語及び単語列が出現するため、このようなデータを識別モデルの学習データとして使えば（非特許文献１において、単に学習データをＮベスト認識結果に置き換えただけでは）、同じようなパターンに対してのみ識別モデルを過度に学習することになる。また学習データの量が膨大になるため、識別モデルの学習時間も膨大になってしまう。

そこで、以下の実施例１において、識別的音声認識精度推定をＮベスト認識結果に適用するために不可欠な学習データを選択することができ、識別モデルの過学習を抑えることができる学習データ選択装置１０を開示する。

以下、本実施例の学習データ選択装置１０について、図１１、図１２を参照して説明する。図１１は本実施例の学習データ選択装置１０の構成を示すブロック図である。図１２は本実施例の学習データ選択装置１０の動作を示すフローチャートである。図１１に示すように、本実施例の学習データ選択装置１０は、Ｎベスト認識結果記憶部１１と、ｉ位認識結果抽出部１２と、学習用データ記憶部１３と、ｋ位認識結果抽出部１４と、異なり単語率計算部１５と、閾値記憶部１６と、比較部１７とを備える。Ｎベスト認識結果記憶部１１には、Ｎベスト認識結果単語列が予め記憶されている。学習用データ記憶部１３には、初期値として１位認識結果単語列が予め記憶されている。閾値記憶部１６には、後述する異なり単語率Ｒと比較するための閾値Ｔが予め記憶されている。変数ｉは、学習データ選択装置１０の処理が１度実行される度にインクリメントされるナンバーである。学習データ選択装置１０は、初期値としてｉ＝２とする（Ｓ１０Ａ）。まず、ｉ位認識結果抽出部１２は、Ｎベスト認識結果記憶部１１を参照して、ランクｉの結果であるｉ位認識結果単語列を抽出する（Ｓ１２）。次に、ｋ位認識結果抽出部１４は、学習用データ記憶部１３を参照して、学習用データ記憶部１３に記憶されている各認識結果単語列とｉ位認識結果単語列とをセグメント毎に照合し、学習用データ記憶部１３に記憶されている各認識結果単語列の中からｉ位認識結果単語列と最も近似する認識結果単語列であるｋ位認識結果単語列を抽出する（Ｓ１４）。ただし、ｋはｋ＜ｉを充たす正の整数である。次に、異なり単語率計算部１５は、ｉ位認識結果単語列とｋ位認識結果単語列のうち互いに異なる単語の数を認識結果単語列の長さ（単語列中の単語数、ｉ位認識結果とｋ位認識結果単語は同じ単語コンフュージョンネットワークから抽出されたものであるため長さは等しい）で割ったものを異なり単語率Ｒとして計算し、当該異なり単語率Ｒとｉ位認識結果単語列とを出力する（Ｓ１５）。次に、比較部１７は、異なり単語率Ｒと閾値Ｔとを比較して、Ｒ＞Ｔである場合には（Ｓ１７Ａ−Ｙ）、ｉ位認識結果単語列を学習用データ記憶部１３に記憶する（Ｓ１７Ｂ）。一方比較部１７は、Ｒ＞Ｔでない場合には（Ｓ１７Ａ−Ｎ）、ｉ位認識結果単語列を学習用データ記憶部１３に記憶しない。前述したようにｉの初期値をｉ＝２とし、上述のステップＳ１２、Ｓ１４、Ｓ１５、Ｓ１７Ａ、Ｓ１７Ｂが実行される度に、ｉはインクリメントされ、ｉ＝Ｎとなるまで、上述のステップＳ１２、Ｓ１４、Ｓ１５、Ｓ１７Ａ、Ｓ１７Ｂが繰り返し実行される。具体的には、ステップＳ１０Ｂの後、ｉ＞Ｎである場合には（Ｓ１０Ｃ−Ｙ）処理は終了し（エンド）、ｉ＞Ｎでない場合には（Ｓ１０Ｃ−Ｎ）、ステップＳ１２以降が再度実行される。

閾値Ｔを大きく設定するほど、学習用データ記憶部１３中の各認識結果単語列の違いは大きくなり、学習用データ記憶部１３に含まれる認識結果の個数は少なくなる。閾値Ｔを小さく設定すれば反対の傾向となり、学習用データ記憶部１３中の各認識結果単語列の違いは小さくなり、学習用データ記憶部１３に含まれる認識結果の個数は多くなる。

このように、本実施例の学習データ選択装置１０によれば、Ｎベスト認識結果に適用可能な識別的音声認識精度推定装置における識別モデルを効率よく学習するための学習用データを得ることができ、識別モデルの過学習を抑えることができる。

以下の実施例２において、本実施例の学習データ選択装置１０を用いて学習された識別モデルを用いて音声認識精度を推定する識別的音声認識精度推定装置２０について説明する。

以下、図１３、図１４、図１５を参照して実施例２の識別的音声認識精度推定装置２０について説明する。図１３は本実施例の識別的音声認識精度推定装置２０の構成を示すブロック図である。図１４は本実施例の音声認識部２１の構成を示すブロック図である。図１５は本実施例の識別的音声認識精度推定装置２０の動作を示すフローチャートである。本実施例の識別的音声認識精度推定装置２０の構成は、図１に示した参考特許文献の実施例３の識別的音声認識精度推定装置６００とほぼ同じである。ただし、音声認識部２１から出力される結果が１−ｂｅｓｔではなくＮ−ｂｅｓｔの形式である点に違いがある。これに伴い、参考特許文献の図１の処理部の各名称に「Ｎ−ｂｅｓｔ」が付与される。

すなわち、本実施例の識別的音声認識精度推定装置２０は、音声認識部２１、Ｎ−ｂｅｓｔ単語アライメントネットワーク取得部２２、Ｎ−ｂｅｓｔ単語アライメント結果シンボル列取得部２３、Ｎ−ｂｅｓｔ認識結果単語列取得部２４、Ｎ−ｂｅｓｔ単語特徴量ベクトル作成部２５、単語関連情報記憶部２６、Ｎ−ｂｅｓｔ認識結果単語確率的分類部２７、Ｎ−ｂｅｓｔ認識結果単語確率的分類モデル記憶部２８、Ｎ−ｂｅｓｔ確率的認識精度計算部２９を備える。図１４に示すとおり、音声認識部２１は、単語ラティス生成手段２１１、単語コンフュージョンネットワーク生成手段２１２、対立候補情報生成手段２１３を備える。

本実施例のＮ−ｂｅｓｔ認識結果単語確率的分類モデル記憶部２８は、参考特許文献の認識結果単語確率的分類モデル記憶部１１０と同様に、認識結果単語確率的分類モデルを記憶している。しかしながら、本実施例のＮ−ｂｅｓｔ認識結果単語確率的分類モデル記憶部２８に記憶される認識結果単語確率的分類モデルは、実施例１の学習データ選択装置１０により選択され、学習用データ記憶部１３に記憶された学習データを用いて予め学習することにより得たモデルであるため、この点は参考特許文献と異なる。本実施例における認識結果単語確率的分類モデルは、例えば前述の条件付確率場などであり、学習用データ記憶部１３に記憶された学習データを用いて認識結果単語列中の各単語の単語特徴量ベクトルと、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係を予め学習しておくことにより生成する。

まず音声認識部２１は、入力端子２に入力される音声を音声認識し、当該音声認識結果を単語ラティス、および単語コンフュージョンネットワークの形式で生成する。音声認識部２１は、これらに加えて前述した対立候補情報を生成し、生成した単語ラティスと、単語コンフュージョンネットワークと、対立候補情報とを出力する（Ｓ２１）。

より詳細には、単語ラティス生成手段２１１は、単語ラティスを生成する（ＳＳ２１１）。単語コンフュージョンネットワーク生成手段２１２は、生成された単語ラティスから単語コンフュージョンネットワークを生成する（ＳＳ２１２）。次に、対立候補情報生成手段２１３は、単語ラティス及び単語コンフュージョンネットワークから対立候補情報を生成する（ＳＳ２１３）。

次に、単語アライメントネットワーク取得部２２は音声認識部２１から出力された単語コンフュージョンネットワークをＮ−ｂｅｓｔ認識結果中の各ランク（各位）の認識結果の単語アライメントネットワークに変換する（Ｓ２２）。次に、Ｎ−ｂｅｓｔ単語アライメント結果シンボル列取得部２３は、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語アライメントネットワークをＮ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語アライメント結果シンボル列に変換する（Ｓ２３）。

次に、音声認識部２１から出力された単語コンフュージョンネットワークを入力として、Ｎ−ｂｅｓｔ認識結果単語列取得部２４は、Ｎ−ｂｅｓｔ認識結果単語列を取得する（Ｓ２４）。Ｎ−ｂｅｓｔ単語特徴量ベクトル作成部２５は、Ｎ−ｂｅｓｔ認識結果単語列中の各単語（εも含む）に対して、単語コンフュージョンネットワークから得られる情報（存在確率、競合単語の数）、単語ラティスから得られる情報（音響尤度、言語尤度）、対立候補情報、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語アライメントネットワークから得られる情報（各単語アライメント結果シンボルＡ_ｊ（Ａ＝Ｃ／Ｓ／Ｉ／Ｄ）の存在確率ｐ（Ａ_ｊ））、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語アライメント結果シンボル列から得られる情報（各単語アライメント結果シンボル）を取得する。また同時に単語関連情報記憶部２６から、認識結果単語に対する情報（単語関連情報）を取得する。単語関連情報は認識結果単語の品詞情報などを表す。Ｎ−ｂｅｓｔ単語特徴量ベクトル作成部２５は、これらの入力情報を並べて、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語特徴量ベクトルを作成する（Ｓ２５）。Ｎ−ｂｅｓｔ認識結果単語確率的分類部２７は、Ｎ−ｂｅｓｔ単語特徴量ベクトル作成部２５で作成されたＮ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語特徴量ベクトルを入力として、Ｎ−ｂｅｓｔ認識結果単語確率的分類モデル記憶部２８に記憶された認識結果単語確率的分類モデル（学習データ選択装置１０により選択された学習用データで予め学習されたモデル）を用いて、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果単語列中の各単語（εも含む）を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与し、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的単語分類結果を得る（Ｓ２７）。次に、Ｎ−ｂｅｓｔ確率的認識精度計算部２９は、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的単語分類結果を用いてＮ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的認識精度（音声認識精度）を計算し、計算したＮ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的認識精度（音声認識精度）を出力する（Ｓ２９）。

このように、本実施例の識別的音声認識精度推定装置２０によれば、Ｎベスト認識結果の各々についての認識精度の推定値を高精度で得ることができる。

以下、図１６、図１７を参照して、実施例３の識別的音声認識精度推定装置３０について説明する。図１６は本実施例の識別的音声認識精度推定装置３０の構成を示すブロック図である。図１７は本実施例の識別的音声認識精度推定装置３０の動作を示すフローチャートである。図１６に示すように、本実施例の識別的音声認識精度推定装置３０は、実施例２の識別的音声認識精度推定装置２０が備える構成２１、２２、２３、２４、２５、２６、２７、２８、２９を備え、さらに、認識結果リランキング部３１を備える。実施例２と共通する構成である２１、２２、２３、２４、２５、２６、２７、２８、２９の説明については、実施例２と同様であるから割愛する。

認識結果リランキング部３１は、Ｎ−ｂｅｓｔ確率的認識精度計算部２９が計算したＮ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的認識精度を用いて、前記Ｎ−ｂｅｓｔ認識結果の順位を再度並び替える（リランキング）（Ｓ３１）。

ここで、Ｗ^ｒを音声認識部２１で認識したＮ−ｂｅｓｔ認識結果のうちｒ番目（スコアがｒ番目に大きい）の認識結果候補（仮説）とし、ｗ^ｒ _ｉを仮説Ｗ^ｒのｉ番目の単語、ＬをＷ^ｒの単語の総数とする。ｐ（ｗ^ｒ _ｉ）をｗ^ｒ _ｉの存在確率とする。

ａ（Ｗ^ｒ）をＮ−ｂｅｓｔ確率的認識精度計算部２９が出力する仮説Ｗ^ｒの確率的認識精度（つまり、単語正解率もしくは単語正解精度）とすると、認識結果リランキング部３１は、各仮説Ｗ^ｒ（ｒ＝１，・・・，Ｎ）について、

により、仮説ｗ^ｒのスコアｓ（Ｗ^ｒ）を求め、このスコアｓ（Ｗ^ｒ）の大きい順にＮ−ｂｅｓｔ認識結果の仮説を並べ替えて出力する（Ｓ３１）。このリランキング処理により、１位認識結果の認識精度を改善することができる。

なお、認識結果リランキング部３１の出力結果を音声認識部２１にフィードバックし、音声認識部２１の認識精度を向上させるための音声認識モデル学習等に利用しても良い。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｎを２以上の整数とし、
ｋをｋ＜ｉを充たす正の整数とし、
Ｎベスト認識結果単語列が予め記憶されるＮベスト認識結果記憶部と、
初期値として１位認識結果単語列を予め記憶する学習用データ記憶部と、
前記Ｎベスト認識結果記憶部を参照して、ｉ位認識結果単語列を抽出するｉ位認識結果抽出部と、
前記学習用データ記憶部に記憶されている各認識結果単語列と前記ｉ位認識結果単語列とをセグメント毎に照合し、前記学習用データ記憶部に記憶されている各認識結果単語列の中からｉ位認識結果単語列と最も近似する認識結果単語列であるｋ位認識結果単語列を抽出するｋ位認識結果抽出部と、
前記ｉ位認識結果単語列と前記ｋ位認識結果単語列のうち互いに異なる単語の数を前記認識結果単語列の長さで割ったものを異なり単語率Ｒとして計算する異なり単語率計算部と、
前記異なり単語率Ｒと予め定めた閾値Ｔとを比較して、Ｒ＞Ｔである場合には前記ｉ位認識結果単語列を前記学習用データ記憶部に記憶する比較部とを備え、
前記ｉの初期値をｉ＝２とし、前記ｉ位認識結果抽出部、前記ｋ位認識結果抽出部、前記異なり単語率計算部、および前記比較部の処理が実行される度に、前記ｉはインクリメントされ、ｉ＝Ｎとなるまで、前記ｉ位認識結果抽出部、前記ｋ位認識結果抽出部、前記異なり単語率計算部、および前記比較部の処理が繰り返し実行される
学習データ選択装置。
Ｎを２以上の整数とし、
Ｎ−ｂｅｓｔ認識結果単語列と、単語コンフュージョンネットワークと、単語ラティスと、対立候補情報と、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語アライメントネットワークと、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語アライメント結果シンボル列と、単語関連情報とを入力とし、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語特徴量ベクトルを作成するＮ−ｂｅｓｔ単語特徴量ベクトル作成部と、
前記Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語特徴量ベクトルを入力とし、認識結果単語確率的分類モデルを用いて、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果単語列中の各単語を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与し、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的単語分類結果を取得するＮ−ｂｅｓｔ認識結果単語確率的分類部と、
Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的単語分類結果を用いてＮ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的認識精度を計算するＮ−ｂｅｓｔ確率的認識精度計算部とを備え、
ｋをｋ＜ｉを充たす正の整数とし、Ｎベスト認識結果単語列からｉ位認識結果単語列を抽出し、前記ｉ位認識結果単語列と最も近似する認識結果単語列であるｋ位認識結果単語列を抽出し、前記ｉ位認識結果単語列と前記ｋ位認識結果単語列のうち互いに異なる単語の数を前記認識結果単語列の長さで割ったものを異なり単語率Ｒとして計算し、前記異なり単語率Ｒと予め定めた閾値Ｔとを比較して、Ｒ＞Ｔである場合には前記ｉ位認識結果単語列を学習用データとして選択する処理を、前記ｉの初期値をｉ＝２とし、前記学習用データ選択処理が１度実行される度に、前記ｉをインクリメントし、ｉ＝Ｎとなるまで、前記学習用データ選択処理を繰り返し実行することにより選択された学習用データを用い、認識結果単語列中の各単語の単語特徴量ベクトルと、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係を学習することにより、
前記認識結果単語確率的分類モデルを生成する
識別的音声認識精度推定装置。
請求項２に記載の識別的音声認識精度推定装置であって、
前記計算されたＮ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的認識精度を用いて、前記Ｎ−ｂｅｓｔ認識結果の順位を再度並び替える認識結果リランキング部
をさらに備える識別的音声認識精度推定装置。
Ｎを２以上の整数とし、
ｋをｋ＜ｉを充たす正の整数とし、
Ｎベスト認識結果単語列からｉ位認識結果単語列を抽出するｉ位認識結果抽出ステップと、
前記ｉ位認識結果単語列と最も近似する認識結果単語列であるｋ位認識結果単語列を抽出するｋ位認識結果抽出ステップと、
前記ｉ位認識結果単語列と前記ｋ位認識結果単語列のうち互いに異なる単語の数を認識結果単語列の長さで割ったものを異なり単語率Ｒとして計算する異なり単語率計算ステップと、
前記異なり単語率Ｒと予め定めた閾値Ｔとを比較して、Ｒ＞Ｔである場合には前記ｉ位認識結果単語列を学習用データとして選択する比較ステップとを備え、
前記ｉの初期値をｉ＝２とし、前記ｉ位認識結果抽出ステップ、前記ｋ位認識結果抽出ステップ、前記異なり単語率計算ステップ、および前記比較ステップの処理が実行される度に、前記ｉはインクリメントされ、ｉ＝Ｎとなるまで、前記ｉ位認識結果抽出ステップ、前記ｋ位認識結果抽出ステップ、前記異なり単語率計算ステップ、および前記比較ステップの処理が繰り返し実行される
学習データ選択方法。
Ｎを２以上の整数とし、
Ｎ−ｂｅｓｔ認識結果単語列と、単語コンフュージョンネットワークと、単語ラティスと、対立候補情報と、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語アライメントネットワークと、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語アライメント結果シンボル列と、単語関連情報とを入力とし、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語特徴量ベクトルを作成するＮ−ｂｅｓｔ単語特徴量ベクトル作成ステップと、
前記Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の単語特徴量ベクトルを入力とし、認識結果単語確率的分類モデルを用いて、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果単語列中の各単語を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与し、Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的単語分類結果を取得するＮ−ｂｅｓｔ認識結果単語確率的分類ステップと、
Ｎ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的単語分類結果を用いてＮ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的認識精度を計算するＮ−ｂｅｓｔ確率的認識精度計算ステップとを有し、
ｋをｋ＜ｉを充たす正の整数とし、Ｎベスト認識結果単語列からｉ位認識結果単語列を抽出し、前記ｉ位認識結果単語列と最も近似する認識結果単語列であるｋ位認識結果単語列を抽出し、前記ｉ位認識結果単語列と前記ｋ位認識結果単語列のうち互いに異なる単語の数を前記認識結果単語列の長さで割ったものを異なり単語率Ｒとして計算し、前記異なり単語率Ｒと予め定めた閾値Ｔとを比較して、Ｒ＞Ｔである場合には前記ｉ位認識結果単語列を学習用データとして選択する処理を、前記ｉの初期値をｉ＝２とし、前記学習用データ選択処理が１度実行される度に、前記ｉをインクリメントし、ｉ＝Ｎとなるまで、前記学習用データ選択処理を繰り返し実行することにより選択された学習用データを用い、認識結果単語列中の各単語の単語特徴量ベクトルと、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係を学習することにより、
前記認識結果単語確率的分類モデルを生成する
識別的音声認識精度推定方法。
請求項５に記載の識別的音声認識精度推定方法であって、
前記計算されたＮ−ｂｅｓｔ認識結果中の各ランクの認識結果の確率的認識精度を用いて、前記Ｎ−ｂｅｓｔ認識結果の順位を再度並び替える認識結果リランキングステップ
をさらに備える識別的音声認識精度推定方法。
請求項４に記載された学習データ選択方法の各ステップをコンピュータに実行させるためのプログラム。
請求項５、または６に記載された識別的音声認識精度推定方法の各ステップをコンピュータに実行させるためのプログラム。