JP5679345B2

JP5679345B2 - 音声認識精度推定装置、音声認識精度推定方法、プログラム

Info

Publication number: JP5679345B2
Application number: JP2012036447A
Authority: JP
Inventors: 小川　厚徳; 厚徳小川; 堀　貴明; 貴明堀; 中村　篤; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-02-22
Filing date: 2012-02-22
Publication date: 2015-03-04
Anticipated expiration: 2032-02-22
Also published as: JP2013171243A

Description

本発明は音声認識結果の精度を推定する音声認識精度装置、音声認識精度推定方法、プログラムに関する。

音声認識は人間が発した音声を計算機により単語列（テキスト）に変換する技術である。音声認識の精度は正解単語列と認識結果単語列のアライメントをＤＰマッチングにより取ることで計算できる（例えば非特許文献１参照）。図１にＤＰマッチングによる正解単語列と認識結果単語列のアライメント結果の例を示す。単語列のアライメントとは、二つの単語列が与えられたときに、それらが最も適合（一致、マッチ）するように照合を行った結果のことを言う。この図に示されるように、認識結果単語は以下の４種類に分類される。１．正解Ｃ（Ｃｏｒｒｅｃｔ）、２．置換誤りＳ（正解単語を他の単語に置き換えて誤る間違い；Ｓｕｂｓｔｉｔｕｔｉｏｎ＿ｅｒｒｏｒ）、３．挿入誤りＩ（本来単語がない箇所に単語が挿入される誤り；Ｉｎｓｅｒｔｉｏｎ＿ｅｒｒｏｒ）、４．削除誤りＤ（本来単語がある箇所に単語がない誤り；Ｄｅｌｅｔｉｏｎ＿ｅｒｒｏｒ）。ここで、正解単語列中の単語数を＃Ｎ、認識結果単語列中の正解単語数を＃Ｃ、置換誤り単語数を＃Ｓ、挿入誤り単語数を＃Ｉ、削除誤り単語数を＃Ｄとすると、音声認識精度は以下のように２種類の尺度で表わされる。

ここで、＃Ｎ＝＃Ｃ＋＃Ｓ＋＃Ｄである。式（１）の単語正解率と式（２）の単語正解精度の違いは、挿入誤りを考慮するか否かであり、挿入誤りを考慮する分だけ、単語正解率よりも単語正解精度の方が厳しい尺度である。図１の例では、＃Ｎ＝１３、＃Ｃ＝１０、＃Ｓ＝２、＃Ｉ＝１、＃Ｄ＝１であるので、

となる。単語正解率と単語正解精度のどちらを使用するべきかは、どのような音声認識応用システムを構築するかによるが、通常は単語正解精度が使用されることが多い。また音声認識精度は、上記したように、一つの発声に対する一つの認識結果単語列に対して計算することもできるが、複数発声に対する複数の認識結果単語列に対して、＃Ｎ、＃Ｃ、＃Ｓ、＃Ｉ、＃Ｄをまとめて数え上げて計算することも多い（一つ一つの認識結果単語列に対して単語正解率／単語正解精度を求めてそれらを平均するのではなく、一つ一つの認識結果単語列に対して＃Ｎ、＃Ｃ、＃Ｓ、＃Ｉ、＃Ｄを数え上げて、それらそれぞれを全認識結果単語列に渡り加算して、最後に単語正解率／単語正解精度を計算する）。

以上で音声認識精度の計算方法について述べたが、音声認識応用システムの実使用場面では入力音声に対する正解単語列は準備されていない。よって音声認識応用システムの実使用場面で認識結果単語列の精度を計算することはできない。ところが音声認識において正解単語列を使わずに認識精度を推定することは重要である。例えばユーザが音声ワープロを用いて文書を作成する場面を想定する。このときユーザのある発声の認識結果の精度が低いと推定される場合は、その認識結果をそのまま表示するより、ユーザに同じ内容を再度発声するように促した方が、ユーザにとっては親切である。また音声認識精度そのものを向上させる技術として、教師なし適応技術があるが、この技術では精度が比較的高いと推定される認識結果を用いて、後述する音響モデルや言語モデルの適応を行う。

音声認識精度を推定する装置としては、特許文献１に開示されている装置が知られている。この文献では、音声認識精度推定装置は音声認識装置、音声認識精度は信頼度と表現されている。以下、図２、図３を参照して、特許文献１の音声認識装置９００の機能構成を示して動作を簡単に説明する。図２は特許文献１の音声認識装置９００の構成を示すブロック図である。図３は特許文献１の音声認識装置９００の動作を示すフローチャートである。図２に示すとおり、音声認識装置９００は、記憶部４、発話分割部５、音声認識部６、音響モデル格納部１０、辞書・言語モデル格納部１２、情報変換部２０、信頼度付与部２２、識別モデル格納部２９、出力部２６を備える。音声認識部６は、音響分析手段８と認識探索手段７とから構成される。

記憶部４は、入力端子２に入力される音声信号を離散値化したディジタル音声信号として記憶する（Ｓ４）。発話分割部５は、所定値以上継続する無音区間に挟まれたディジタル音声信号を一発話（いちはつわ）として分割する（Ｓ５）。音響分析手段８は、分割されたディジタル音声信号を特徴量ベクトルの時系列に変換する（ＳＳ８）。認識探索手段７は、音響モデル格納部１０と辞書・言語モデル格納部１２に格納された音響モデルと言語モデルを用いて、辞書・言語モデル格納部１２に登録されている単語列と特徴量ベクトルの時系列との照合を行い、照合尤度が最も高い単語列を認識結果として出力する（ＳＳ７）。

音響分析手段８における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としてはＭＦＣＣ（Ｍｅｌ＿Ｆｒｅｑｕｅｎｃｙ＿Ｃｅｐｓｔｒａｌ＿Ｃｏｅｆｆｉｃｉｅｎｔ）、ΔＭＦＣＣ、ΔΔＭＦＣＣ、対数パワー、Δ対数パワー等があり、これらが１０〜１００次元程度の特徴量ベクトルを構成する。分析フレーム幅は３０ｍｓ程度、分析フレームシフト幅は１０ｍｓ程度で分析が実行される。

音響モデルは、上記ＭＦＣＣ等の音声の特徴量を音素等の適切なカテゴリでモデル化したものである。この音響モデルを用いて入力音声のフレーム毎の特徴量と各カテゴリのモデルとの音響的な近さが音響尤度として計算される。現在のモデル化の手法としては、確率・統計理論によるＨＭＭ（Ｈｉｄｄｅｎ＿Ｍａｒｋｏｖ＿Ｍｏｄｅｌ）に基づくものが主流となっている。言語モデルの形式は、単語リスト、定型文法、Ｎ−ｇｒａｍモデルの三つに大別される。孤立単語発声を認識対象とする音声認識装置においては、認識対象の単語を列挙した単語リストが用いられる（単語リストは辞書・言語モデル格納部１２に格納されている辞書と等価である）。定型的な文章発声を認識対象とする音声認識装置においては、辞書・言語モデル格納部１２に登録されている単語を連結して、装置で受理する発話内容（文章）を記述した定型文法が用いられる。自由な連続発話を認識対象とする音声認識装置においては、辞書・言語モデル格納部１２に登録されている単語のＮ連鎖確率を保持しているＮ−ｇｒａｍモデルが用いられ、これによりＮ連鎖以下の単語のつながり易さが言語尤度として計算される。

情報変換部２０は、単語列を構成する各単語について、例えば図４に示す様な発話特徴量ベクトルに変換する（Ｓ２０）。発話特徴量ベクトルの各単語の品詞情報は、この例では３７種類に分類される。品詞情報に付随する音響尤度スコアと言語尤度スコアと音素継続時間長は、この例ではそれぞれの平均値、分散値、最大値、最小値が計算される。

信頼度付与部２２は、発話特徴量ベクトルを評価して信頼度を付与する（Ｓ２２）。信頼度の付与は、識別モデル格納部２９に格納されている予め学習した発話特徴量ベクトルと音声認識率とを関連付けた値と、情報変換部２０が出力する発話特徴量ベクトルとを対比することで行う。例えば、１０％間隔の音声認識率に対応させた発話特徴量ベクトルを用意して置くことで、音声認識結果が１００％信頼できるものか、或いは全く信頼できない信頼度の音声認識結果であるのかを、１０％の間隔で信頼度を付与することができる。出力部２６は、各発話単位毎に、単語系列と、各単語の発話特徴量ベクトルと、信頼度とを出力する（Ｓ２６）。

特開２００７−２４０５８９号公報

jonathan.fiscus, "NIST SCLITE Scoring Package Version 1.5", [online], [平成24年2月2日検索], インターネット<URL:http://www.icsi.berkeley.edu/Speech/docs/sctk-1.2/sclite.htm>

本来、音声認識精度は、上記したように、認識結果単語列中の各単語を正解／置換誤り／挿入誤り／削除誤りに分類して数え上げることで計算され、その値は、例えば６９．２３％などと、細かい数値を取り得る。しかし特許文献１の音声認識装置では、認識結果単語列中の各単語を正解／置換誤り／挿入誤り／削除誤りに分類しないので、正解／置換誤り／挿入誤り／削除誤りはそれぞれ何個であるかは推定できず、認識精度の推定値も例えば１０％間隔の大まかなものが推定されるのみである。

そこで、本発明では、本来の認識精度計算と同様に、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り／削除誤り）を推定し、それらを基に正解／置換誤り／挿入誤り／削除誤りの数を推定した上で認識精度を細かな数値として算出することができる音声認識精度推定装置を提供することを目的とする。

本発明の音声認識精度推定装置は、音声認識部と、単語アライメントネットワーク取得部と、確率的認識精度計算部とを備える。

音声認識部は、入力された音声を音声認識して、セグメント毎に何れかの認識結果単語が存在する確率、および何れの認識結果単語も存在しない確率（εをセグメント内に認識結果単語が存在しないことを示す記号とし、以下、セグメント内に何れの認識結果単語も存在しない確率をεの存在確率という）を表す単語コンフュージョンネットワークを生成する。

単語アライメントネットワーク取得部は、何れかのセグメントにおいてεが最大存在確率とならない場合に、最大存在確率を有する単語の存在確率を当該セグメントにおける正解確率とし、当該セグメントにおける最大存在確率を有しないε以外の単語の存在確率の合計を当該セグメントにおける置換誤り確率とし、当該セグメントにおけるεの存在確率を当該セグメントにおける挿入誤り確率とし、何れかのセグメントにおいてεが最大存在確率となる場合に、当該セグメントにおける最大存在確率を有しない単語の存在確率の合計を当該セグメントにおける削除誤り確率として、セグメント毎に、正解確率、置換誤り確率、挿入誤り確率、削除誤り確率を表す単語アライメントネットワークを取得する。

本発明の音声認識精度推定装置は、このようにして取得した単語アライメントネットワークを用いて音声認識精度を計算する。

本発明の音声認識精度推定装置によれば、本来の認識精度計算と同様に、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り／削除誤り）を推定し、それらを基に正解／置換誤り／挿入誤り／削除誤りの数を推定した上で認識精度を細かな数値として算出することができる。

ＤＰマッチングによる正解単語列と認識結果単語列のアライメント結果の例を示す図。特許文献１の音声認識装置の構成を示すブロック図。特許文献１の音声認識装置の動作を示すフローチャート。特許文献１の音声認識装置の情報変換部が生成する発話特徴量ベクトルを例示する図。実施例１の音声認識精度推定装置の構成を示すブロック図。実施例１の単語アライメントネットワーク取得部の構成を示すブロック図。実施例１の音声認識精度推定装置の動作を示すフローチャート。実施例１の音声認識部が生成する単語コンフュージョンネットワークを例示する図。実施例１の単語アライメントネットワーク取得部が行う単語コンフュージョンネットワークから単語アライメントネットワークへの変換例を示す図。実施例２の音声認識精度推定装置の構成を示すブロック図。実施例２の音声認識精度推定装置の動作を示すフローチャート。実施例２の１−ｂｅｓｔ単語アライメント結果シンボル列取得部が行う単語アライメントネットワークを１−ｂｅｓｔ単語アライメント結果シンボル列に変換する処理について示す図。実施例３の識別的音声認識精度推定装置の構成を示すブロック図。実施例３の音声認識部の構成を示すブロック図。実施例３の識別的音声認識精度推定装置の動作を示すフローチャート。実施例３の認識結果単語確率的分類部が行う１−ｂｅｓｔ認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図。実施例４の識別的音声認識精度推定装置の構成を示すブロック図。実施例４の識別的音声認識精度推定装置の動作を示すフローチャート。実施例４の認識結果単語分類確定部が行う認識結果単語の分類を確定する処理を例示する図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下図５、図６、図７、図８を参照して実施例１の音声認識精度推定装置について説明する。図５は本実施例の音声認識精度推定装置４００の構成を示すブロック図である。図６は本実施例の単語アライメントネットワーク取得部４０の構成を示すブロック図である。図７は本実施例の音声認識精度推定装置４００の動作を示すフローチャートである。図８は本実施例の音声認識部３０が生成する単語コンフュージョンネットワークを例示する図である。

図５に示すとおり、本実施例の音声認識精度推定装置４００は、音声認識部３０、単語アライメントネットワーク取得部４０、確率的認識精度計算部５０を備える。図６に示すとおり、単語アライメントネットワーク取得部４０は１−ｂｅｓｔ認識結果単語列取得手段４１、正解確率計算手段４２、置換誤り確率計算手段４３、挿入誤り確率計算手段４４、削除誤り確率計算手段４５を備える。本実施例および以下の実施例における音声認識精度推定装置、識別的音声認識精度推定装置は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識部３０は、入力端子２に入力される音声を音声認識し、当該音声認識結果を、例えば図８に示す単語コンフュージョンネットワークと呼ばれる複数の認識結果単語列をコンパクトに確率的に表現した形式で得る（Ｓ３０）。単語コンフュージョンネットワークの取得方法は、例えば、参考非特許文献１に詳述されている。上記に加え、音声認識部３０は、音声認識の過程において、特許文献１の音声認識装置９００の音声認識部６と同様に、ディジタル音声信号の特徴量ベクトルの時系列への変換や、音響モデルと言語モデルを用いた尤度計算などを行う。これらの処理は従来の音声認識と同様であるため詳細は割愛する。

単語コンフュージョンネットワークは、セグメント毎に何れかの認識結果単語が存在する確率、および何れの認識結果単語も存在しない確率（以下、εの存在確率という）を表す。例えば図８の単語コンフュージョンネットワークは、七つのセグメント（区間）で構成されている。各セグメントにはそのセグメントに認識結果として存在し得る複数の単語がアーク（弧）として記述されている。セグメント境界では各アークはノード（節）で束ねられている。例えば図８では、三番目のセグメントには、定額／大学／対外／εという四つの単語が認識結果として存在し得る（競合、対立している）ことを示している。ただしεはこのセグメントには認識結果単語は存在しないということを示すため、正味では三つの認識結果単語が存在し得ることになる。一番目のセグメントから七番目のセグメントまで、εも含めて、存在し得る単語の数を乗算していくと、２×３×４×２×２×１×２＝１９２となり、これが図８の単語コンフュージョンネットワークが表現し得る認識結果単語列の種類数となる。各セグメント中の各単語には確率値が付与されており、これらの値は各単語がそのセグメント中に存在し得る確率を表している。これらは加算すると１となる。例えば、三番目のセグメントでは、ｐ（定額）＋ｐ（大学）＋ｐ（対外）＋ｐ（ε）＝０．４＋０．３＋０．２＋０．１＝１となる。ここで、ある入力音声を音声認識して得られる単語コンフュージョンネットワーク中のセグメント数をＪ、ｊ番目のセグメントをＱ_ｊ（ｊ＝１，２，…，Ｊ）、Ｑ_ｊ中に存在し得る単語をＷ_ｊ，ｋ（ｋ＝１，２，…，Ｋ_ｊ）、それらの存在確率をｐ（Ｗ_ｊ，ｋ）とする。すると、この単語コンフュージョンネットワークで表わされる認識結果単語列の種類数は、

となる。また、以下が成り立つ。

次に、単語アライメントネットワーク取得部４０は音声認識部３０から出力された単語コンフュージョンネットワークを単語アライメントネットワークに変換する（Ｓ４０）。

単語アライメントネットワークは、何れかのセグメントにおいてεが最大存在確率とならない場合に、最大存在確率を有する単語の存在確率を当該セグメントにおける正解確率とし、当該セグメントにおける最大存在確率を有しないε以外の単語の存在確率の合計を当該セグメントにおける置換誤り確率とし、当該セグメントにおけるεの存在確率を当該セグメントにおける挿入誤り確率とし、何れかのセグメントにおいてεが最大存在確率となる場合に、当該セグメントにおける最大存在確率を有しない単語の存在確率の合計を当該セグメントにおける削除誤り確率として、セグメント毎に、正解／置換誤り／挿入誤り／削除誤り確率を示したものである。

上記したように、音声認識精度は正解単語列と認識結果単語列のアライメントをＤＰマッチングにより取ることで計算できるが、単語アライメントネットワークとはこのアライメント結果を表現するものであり、基になる単語コンフュージョンネットワークが複数の認識結果単語列を確率的に表現するものであることから、単語アライメントネットワークは複数のアライメント結果を確率的に表現するものである。

ここで、単語アライメントネットワーク取得部４０の処理の詳細を図６に示した各構成手段の動作に細分化して説明すると、まず、１−ｂｅｓｔ認識結果単語列取得部４１は、単語コンフュージョンネットワークから１−ｂｅｓｔ認識結果単語列を取得する（ＳＳ４１）。

ここで、一つの単語コンフュージョンネットワーク中の各セグメントで最大の存在確率を持つ単語を連結したものを１−ｂｅｓｔ認識結果単語列という。通常の場合、１−ｂｅｓｔ認識結果単語列は音声認識結果単語列である（単語コンフュージョンネットワークを介さずに認識結果単語列を得る方法もある）。例えば図８の単語コンフュージョンネットワークの場合、太いアークで示されている各セグメントで最高の存在確率を持つ単語を連結していくと、“私＿ε＿定額＿に＿行く＿予定＿ε”、という１−ｂｅｓｔ認識結果単語列を得ることができる。

以下、得られた１−ｂｅｓｔ認識結果単語が正味の単語であるか、εであるかによって処理が分岐する。１−ｂｅｓｔ認識結果単語がεでない正味の単語である場合、正解確率計算手段４２は、当該εでない１−ｂｅｓｔ認識結果単語を、セグメントｊにおける正解単語を表す単語アライメント結果シンボルＣ_ｊ（ｊはセグメント番号、以降も同じ）に変え、当該１−ｂｅｓｔ認識結果単語の存在確率を正解確率であるｐ（Ｃ_ｊ）として付与する（ＳＳ４２）。ここで、εでない１−ｂｅｓｔ認識結果単語が実は正解単語ではなく、これに競合、対立する認識結果単語（εでない）が正解単語であるとすると、前述の１−ｂｅｓｔ認識結果単語は置換誤り（Ｓｕｂｓｔｉｔｕｔｉｏｎ＿ｅｒｒｏｒ）となる。よって、置換誤り確率計算手段４３は、対立する認識結果単語（εでない）を一つに束ねて置換誤りを表す単語アライメント結果シンボルＳ_ｊとし、置換誤り確率ｐ（Ｓ_ｊ）を、εでない対立候補の存在確率の和として付与する（ＳＳ４３）。最後に、前述のεでない１−ｂｅｓｔ認識結果単語が、実は正解単語ではなく、ε（単語なし）が正しいとすると、前述のεでない１−ｂｅｓｔ認識結果単語は挿入誤り（Ｉｎｓｅｒｔｉｏｎ＿ｅｒｒｏｒ）となる。よってこのεを挿入誤りを表す単語アライメント結果シンボルＩ_ｊに変え、挿入誤り確率ｐ（Ｉ_ｊ）をｐ（ε）として付与する（ＳＳ４４）。

一方、１−ｂｅｓｔ認識結果単語がεである場合、このεと競合（対立）する認識結果単語が存在する場合には、εすなわち「単語なし」が実は正しくなく、このセグメントに他のεでない対立候補が存在するのが正しいとすると、このεは削除誤り（Ｄｅｌｅｔｉｏｎ＿ｅｒｒｏｒ）となる。よって他のεでない対立候補を一つに束ねて削除誤りを表す単語アライメント結果シンボルＤ_ｊとし、削除誤り確率ｐ（Ｄ_ｊ）を、εでない対立候補の存在確率の和として付与する（ＳＳ４５）。

これら単語アライメントネットワーク取得部４０で実行される単語コンフュージョンネットワークから単語アライメントネットワークへの変換手順について、図８、９を参照してさらに具体的に説明する。図９は単語コンフュージョンネットワークから単語アライメントネットワークへの変換例を示す図である。前述したように、変換手順は、セグメントにおける最高の存在確率を持つ単語（１−ｂｅｓｔ認識結果単語）がεでない正味の単語であるか（図８、９ではセグメント１、３、４、５、６）、εであるか（図８、９ではセグメント２、７）で、大きく二つに分かれる。

まず、セグメントにおける最高の存在確率を持つ単語（１−ｂｅｓｔ認識結果単語）がεでない正味の単語である場合について変換手順を説明する。ここでは、セグメント３を例に説明する。セグメント３では、４つの単語、定額／大学／対外／ε、が、それぞれ存在確率、ｐ（定額）＝０．４、ｐ（大学）＝０．３、ｐ（対外）＝０．２、ｐ（ε）＝０．１で競合している。最高の存在確率を付与されている正味の単語は「定額」であり、これがこのセグメントにおける正しい（Ｃｏｒｒｅｃｔ）と思われる１−ｂｅｓｔ認識結果単語である。よって、まず正解確率計算手段４２は、「定額」を正解単語を表す単語アライメント結果シンボルＣ_３（３はセグメント番号、以降も同じ）に変え、その確率ｐ（Ｃ_３）＝０．４を付与する（ＳＳ４２）。次に「定額」と競合するεでない正味の単語を見ると「大学」と「対外」の２単語である。ここで「定額」が実は正解単語ではなく、「大学」あるいは「対外」が正解単語であるとすると、「定額」は置換誤り（Ｓｕｂｓｔｉｔｕｔｉｏｎ＿ｅｒｒｏｒ）となる。よって置換誤り確率計算手段４３は、「大学」と「対外」を一つに束ねて置換誤りを表す単語アライメント結果シンボルＳ_３とし、その確率をｐ（Ｓ_３）＝ｐ（大学）＋ｐ（対外）＝０．３＋０．２＝０．５とする（ＳＳ４３）。すなわち、正解と思われる単語「定額」が実は置換誤りである確率はｐ（Ｓ_３）＝０．５である。最後にεがｐ（ε）＝０．１で残る。上記したように、εはそのセグメントには単語がないことを表す。よって「定額」が実は正解単語ではなく、ε（単語なし）が正しいとすると、「定額」は挿入誤り（Ｉｎｓｅｒｔｉｏｎ＿ｅｒｒｏｒ）となる。よって挿入誤り確率計算手段４４は、このεを挿入誤りを表す単語アライメント結果シンボルＩ_３に変え、その確率はｐ（Ｉ_３）＝ｐ（ε）＝０．１とする（ＳＳ４４）。すなわち、正解と思われる単語「定額」が実は挿入誤りである確率はｐ（Ｉ_３）＝０．１である。以上のような変換処理を行った結果をまとめると、セグメント３の１−ｂｅｓｔ認識結果単語「定額」が正解である確率はｐ（Ｃ_３）＝０．４、置換誤りである確率はｐ（Ｓ_３）＝０．５、挿入誤りである確率はｐ（Ｉ_３）＝０．１となる。

次に、セグメントにおける最高の存在確率を持つ単語がεである場合について変換手順を説明する。ここでは、セグメント２を例に説明する。セグメント２では、ε／は／が、が、それぞれ存在確率、ｐ（ε）＝０．４、ｐ（は）＝０．３、ｐ（が）＝０．３で競合している。最高の存在確率を付与されている単語はε（単語なし）であり、これがこのセグメントにおける１−ｂｅｓｔ認識結果単語である。εについては変換処理は行わない。次に、このεと競合する単語をみると「は」と「が」の２単語である。ここでεすなわち「単語なし」が実は正しくなく、このセグメントに「は」あるいは「が」が存在するのが正しいとすると、このεは削除誤り（Ｄｅｌｅｔｉｏｎ＿ｅｒｒｏｒ）となる。よって削除誤り確率計算手段４５は、「は」と「が」を一つに束ねて削除誤りを表す単語アライメント結果シンボルＤ_２（２はセグメント番号、以降も同じ）とし、その確率をｐ（Ｄ_２）＝ｐ（は）＋ｐ（が）＝０．３＋０．３＝０．６とする（ＳＳ４５）。すなわち、ε（単語なし）が正しいと思われるセグメント２が実は削除誤りである確率はｐ（Ｄ_２）＝０．６である。単語アライメントネットワーク取得部４０では、上記のような処理により、音声認識部３０から出力された単語コンフュージョンネットワークを単語アライメントネットワークに変換する。

確率的認識精度計算部５０は、単語アライメントネットワーク取得部４０から出力された単語アライメントネットワークを入力として音声認識精度を計算しそれを出力する（Ｓ５０）。通常、認識精度は、上記したように、正解単語列中の単語数＃Ｎ、正解単語数＃Ｃ、置換誤り単語数＃Ｓ、挿入誤り単語数＃Ｉ、削除誤り単語数＃Ｄを、０以上の整数として数え上げて、式（１）または式（２）により計算するが、確率的認識精度計算部５０では、単語アライメントネットワーク上の各セグメント中の各単語アライメント結果シンボルの確率値を加算することで計算する。ここで、ある単語アライメントネットワーク中のセグメント数をＪ、ｊ番目のセグメントをＱ_ｊ（ｊ＝１，２，…，Ｊ）、Ｑ_ｊ中に存在し得る単語アライメント結果シンボルをＡ_ｊ（Ａ＝Ｃ／Ｓ／Ｉ／Ｄ）、その存在確率をｐ（Ａ_ｊ）とする。このとき、正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ）、正解単語列中の単語数の推定値Ｅ（＃Ｎ）は、それぞれ以下のように求めることができる。

０以上の整数である＃Ｃ、＃Ｓ、＃Ｄ、＃Ｉとは異なり、これらＥ（＃Ｃ）、Ｅ（＃Ｓ）、Ｅ（＃Ｉ）、Ｅ（＃Ｄ）、Ｅ（＃Ｎ）は、小数点以下の数値を取りうる。これらを用いて単語正解率と単語正解精度は以下のように求められる。

例えば、図９の単語アライメントネットワークの場合、

であるので、

と推定される。
以上のように、本実施例の音声認識精度推定装置４００によれば、従来の音声認識精度推定装置（特許文献１）では得られなかった、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り／削除誤り）を確率的に推定でき、更にそれらを基に認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値が得られ、かつ、音声認識精度も本来の細かな数値で得ることができる。

次に、図１０、図１１、図１２を参照して、実施例１の音声認識精度推定装置４００の変形版である実施例２に係る音声認識精度推定装置について詳細に説明する。図１０は本実施例の音声認識精度推定装置５００の構成を示すブロック図である。図１１は本実施例の音声認識精度推定装置５００の動作を示すフローチャートである。図１２は本実施例の１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０が行う単語アライメントネットワークを１−ｂｅｓｔ単語アライメント結果シンボル列に変換する処理について示す図である。図１０に示すとおり、本実施例の音声認識精度推定装置５００は、音声認識部３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、認識精度計算部７０を備える。本実施例の音声認識精度推定装置５００が備える音声認識部３０、単語アライメントネットワーク取得部４０は、実施例１の音声認識精度推定装置４００が備える同一番号の各構成部と同じ動作をする。従って、単語アライメントネットワーク取得部４０にて単語アライメントネットワークを取得するまでの処理は実施例１と同じであるため、説明を割愛する。本実施例においては、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０が、単語アライメントネットワークを１−ｂｅｓｔ単語アライメント結果シンボル列に変換する（Ｓ６０）。

１−ｂｅｓｔ単語アライメント結果シンボル列とは、単語アライメントネットワークにおいて、何れかのセグメントにおける最大確率が正解確率である場合にシンボルＣ、何れかのセグメントにおける最大確率が置換誤り確率である場合にシンボルＳを、何れかのセグメントにおける最大確率が挿入誤り確率である場合にシンボルＩを、何れかのセグメントにおける最大確率が削除誤り確率である場合にシンボルＤを、セグメント毎に付与して連結したものである。

図１２に１−ｂｅｓｔ単語アライメント結果シンボル列への変換処理を示す。この変換処理は、上記した単語コンフュージョンネットワークから１−ｂｅｓｔ認識結果単語列を得る処理と同じで、単語アライメントネットワーク上の各セグメント中で最高の存在確率を持つ単語アライメント結果シンボル（太いアークで示されている）を連結していく。図１２の場合、この変換処理により、“ＣＤＳＣＣＣε”という１−ｂｅｓｔ単語アライメント結果シンボル列を得ることができる。ここで、１−ｂｅｓｔ単語アライメント結果シンボルＣの個数を正解単語数の推定値Ｅ（＃Ｃ）、１−ｂｅｓｔ単語アライメント結果シンボルＳの個数を置換誤り単語数の推定値Ｅ（＃Ｓ）、１−ｂｅｓｔ単語アライメント結果シンボルＤの個数を削除誤り単語数の推定値Ｅ（＃Ｄ）、１−ｂｅｓｔ単語アライメント結果シンボルＣ、Ｓ、Ｄの個数の和を認識結果単語数の推定値Ｅ（＃Ｎ）と書くことができる。従って、Ｅ（＃Ｃ）、Ｅ（＃Ｓ）、Ｅ（＃Ｄ）、Ｅ（＃Ｎ）は、０以上の整数として数え上げることができ、Ｅ（＃Ｃ）＝４、Ｅ（＃Ｓ）＝１、Ｅ（＃Ｄ）＝１、Ｅ（＃Ｎ）＝Ｅ（＃Ｃ）＋Ｅ（＃Ｓ）＋Ｅ（＃Ｄ）＝４＋１＋１＝６となる。ただし、１−ｂｅｓｔ単語アライメント結果シンボル列には挿入誤りを表す単語アライメント結果シンボルＩが含まれないため、認識結果単語列中の挿入誤り単語数の推定値Ｅ（＃Ｉ）は得られない。しかし、ここで、音声認識においては挿入誤り数と脱落（削除）誤り数が同じような値になることが多いという参考非特許文献２の知見に基づけば、Ｅ（＃Ｉ）＝Ｅ（＃Ｄ）と推定することは可能である。よって、認識精度計算部７０において、

に従い、単語正解率＝（（６−１−１）／６）×１００＝（４／６）×１００≒６６．６７［％］、単語正解精度＝（（６−１−１−１）／６）×１００＝（４−１／６）×１００≒５０．００［％］と計算できる。

以上のように、本実施例の音声認識精度推定装置５００によれば、従来の音声認識精度推定装置（特許文献１）では得られなかった、認識結果単語列中の各単語の分類（正解／置換誤り／削除誤り）を推定でき、更にそれらを基に認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値を整数値で得ることができ、かつ、音声認識精度も本来の細かな数値で得ることができる。

以下、図１３、図１４、図１５、図１６を参照して、実施例３に係る識別的音声認識精度推定装置について詳細に説明する。図１３は本実施例の識別的音声認識精度推定装置６００の構成を示すブロック図である。図１４は本実施例の音声認識部６３０の構成を示すブロック図である。図１５は本実施例の識別的音声認識精度推定装置６００の動作を示すフローチャートである。図１６は１−ｂｅｓｔ認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図である。

図１３に示すとおり、本実施例の識別的音声認識精度推定装置６００は、音声認識部６３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、１−ｂｅｓｔ認識結果単語列取得部８０、単語特徴量ベクトル作成部９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、認識結果単語確率的分類部１２０、確率的認識精度計算部１３０を備える。図１４に示すとおり、音声認識部６３０は、単語ラティス生成手段６３１、単語コンフュージョンネットワーク生成手段３２、対立候補情報生成手段６３２を備える。本実施例の識別的音声認識精度推定装置６００が備える単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０は、実施例２の音声認識精度推定装置５００が備える同一番号の各構成部と同じ動作をする。従って、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０における処理は実施例２と同じであるため、説明を割愛する。

まず音声認識部６３０は、入力端子２に入力される音声を音声認識し、当該音声認識結果を単語ラティス、および単語コンフュージョンネットワークの形式で生成する。音声認識部６３０は、これらに加えて後述する対立候補情報を生成し、生成した単語ラティスと、単語コンフュージョンネットワークと、対立候補情報とを出力する（Ｓ６３０）。上記に加え、音声認識部６３０は、音声認識の過程において、特許文献１の音声認識装置９００の音声認識部６と同様に、ディジタル音声信号の特徴量ベクトルの時系列への変換や、音響モデルと言語モデルを用いた尤度計算などを行う。これらの処理は従来の音声認識と同様であるため詳細は割愛する。

より詳細には、単語ラティス生成手段６３１は、単語ラティスを生成する（ＳＳ６３１）。単語コンフュージョンネットワーク生成手段３２は、生成された単語ラティスから単語コンフュージョンネットワークを生成する（ＳＳ３２）。この処理は、実施例１における単語コンフュージョンネットワーク生成手段３２の処理と同じである。次に、対立候補情報生成手段６３２は、単語ラティス及び単語コンフュージョンネットワークから対立候補情報を生成する（ＳＳ６３２）。

単語ラティスは複数の認識結果単語列の表現形式であり、これを変換して単語コンフュージョンネットワークが生成される。単語ラティスを単語コンフュージョンネットワークに変換する手順は、例えば、参考非特許文献１に詳述されている。単語コンフュージョンネットワークの方が単語ラティスよりも効率よくコンパクトに複数の認識結果単語列を表現するが、単語ラティスには単語コンフュージョンネットワークには保存されていない情報、例えば、認識結果単語の音響尤度や言語尤度などが記録されている。対立候補情報とは、ある認識結果単語を認識中（探索処理実行中）に、対立候補の単語はいくつあったかを示す情報のことである。

次に、実施例２同様にステップＳ４０、Ｓ６０が実行されてそれぞれ単語アライメントネットワーク、１−ｂｅｓｔ単語アライメント結果シンボル列を生成する（Ｓ４０、Ｓ６０）。次に、音声認識部６３０から出力された単語コンフュージョンネットワークを入力として、１−ｂｅｓｔ認識結果単語列取得部８０は、１−ｂｅｓｔ認識結果単語列を取得する（Ｓ８０）。１−ｂｅｓｔ認識結果単語列を取得する処理については図８において説明したとおりであり、例えば、図８の単語コンフュージョンネットワークからは、“私ε定額に行く予定ε”、という１−ｂｅｓｔ認識結果単語列を得ることができる。単語特徴量ベクトル作成部９０は、１−ｂｅｓｔ認識結果単語列中のεでない正味の各単語に対して、単語コンフュージョンネットワークから得られる情報（存在確率、競合単語の数）、単語ラティスから得られる情報（音響尤度、言語尤度）、対立候補情報、単語アライメントネットワークから得られる情報（単語アライメント結果シンボルＡ_ｊ（Ａ＝Ｃ／Ｓ／Ｉ／Ｄ）の存在確率ｐ（Ａ_ｊ））、１−ｂｅｓｔ単語アライメント結果シンボル列から得られる情報（単語アライメント結果シンボル）を取得する。また同時に単語関連情報記憶部１００から、認識結果単語に対する情報（単語関連情報）を取得する。単語関連情報は認識結果単語の品詞情報などを表す。これらの情報は単語関連情報記憶部１００から抽出する。単語特徴量ベクトル作成部９０は、これらの入力情報を並べて、単語特徴量ベクトルを作成する（Ｓ９０）。単語特徴量ベクトルの作成に際し、入力情報はどんな順序で並べても構わないが、一度順序を決めた後はそれを変えないようにする。認識結果単語確率的分類部１２０は、単語特徴量ベクトル作成部９０で作成された１−ｂｅｓｔ認識結果単語列中のεでない正味の各単語の単語特徴量ベクトルを入力として、認識結果単語確率的分類モデル記憶部１１０に記憶された認識結果単語確率的分類モデル（モデルパラメータ）を用いて、１−ｂｅｓｔ認識結果単語列中のεでない正味の各単語を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与する（Ｓ１２０）。このように、セグメント毎に単語アライメント結果シンボルと各シンボルの確率とを対にして表記した結果を確率的単語分類結果と呼ぶ。

別の表現をすれば、１−ｂｅｓｔ認識結果単語列中のε以外の各単語の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデル（モデルパラメータ）とを用いて、１−ｂｅｓｔ認識結果単語列中のε以外の各単語が正解である確率、置換誤りである確率、挿入誤りである確率をセグメント毎に表記した結果を確率的単語分類結果ということができる。

すなわち、例えば１−ｂｅｓｔ認識結果単語列中のεでない正味のｊ番目の１−ｂｅｓｔ認識結果単語に対して、それが正解である確率ｐ（Ｃ_ｊ）、置換誤りである確率ｐ（Ｓ_ｊ）、挿入誤りである確率ｐ（Ｉ_ｊ）を付与する。ここで、ｐ（Ｃ_ｊ）＋ｐ（Ｓ_ｊ）＋ｐ（Ｉ_ｊ）＝１である。この処理の様子を図１６に示す。認識結果単語確率的分類モデルは、例えば、参考非特許文献３に詳述されている条件付確率場（Ｃｏｎｄｉｔｉｏｎａｌ＿Ｒａｎｄｏｍ＿Ｆｉｅｌｄｓ：ＣＲＦ）などであり、学習データを用いて１−ｂｅｓｔ認識結果単語列中のε以外の各単語の単語特徴量ベクトル（当該単語の単語特徴量ベクトルだけでなく当該単語の前後数単語の単語特徴量ベクトルが用いられることもある）と、当該単語が正解である確率、置換誤りである確率、及び、挿入誤りである確率の関係を予め学習しておく。続く確率的認識精度計算部１３０では、実施例１の確率的認識精度計算部５０と同様に、確率的単語分類結果を用いて音声認識精度を計算し、計算した音声認識精度を出力する（Ｓ１３０）。

１−ｂｅｓｔ認識結果単語列中の正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）は、それぞれ、式（５）、式（６）、式（７）で計算できる。図１６の例の場合、Ｅ（＃Ｃ）＝３．３、Ｅ（＃Ｓ）＝１．１、Ｅ（＃Ｉ）＝０．６となる。認識結果単語確率的分類部１２０では、１−ｂｅｓｔ認識結果単語列中のεでない正味の単語のみ確率的に分類するため、脱落誤りである確率ｐ（Ｄ_ｊ）が算出できない。そこで正解単語列中の単語数の推定値Ｅ（＃Ｎ）を次式のように求める。

図１６の例の場合、Ｅ（＃Ｎ）＝３．３＋１．１＝４．４となる。あるいは参考非特許文献２に記載されているように、音声認識においては一般に挿入誤り数と脱落（削除）誤り数が同じような値になることが多いという知見に基づけば、Ｅ（＃Ｎ）は次式のように求められる。

図１６の例の場合、Ｅ（＃Ｎ）＝３．３＋１．１＋０．６＝５．０となる。単語正解率及び単語正解精度は式（１０）及び式（１１）で計算できる。図１６の例で、式（１２）のようにＥ（＃Ｎ）を計算すると、単語正解率＝（３．３／４．４）×１００＝７５．００［％］、単語正解精度＝（（３．３−０．６）／４．４）×１００＝６１．３６［％］となる。また式（１３）のようにＥ（＃Ｎ）を計算すると、単語正解率（３．３／５．０）×１００＝６６．００［％］、単語正解精度（（３．３−０．６）／５．０）×１００＝５４．００［％］となる。

なお、本実施例においては、単語特徴量ベクトル作成部９０において、単語コンフュージョンネットワークから得られる情報、単語ラティスから得られる情報、対立候補情報、単語アライメントネットワークから得られる情報、１−ｂｅｓｔ単語アライメント結果シンボル列から得られる情報、及び単語関連情報を入力情報として、これらを並べることにより単語特徴量ベクトルを生成することとしたが、これに限られず、単語特徴量ベクトル作成部９０において、音声認識部６３０から取得する何れの情報を用いて単語特徴量ベクトルを生成しても良い。この場合、認識結果単語確率的分類モデル記憶部１１０には、上記入力情報のバリエーションに合わせて予め学習した認識結果単語確率的分類モデルを記憶しておく。そして、認識結果単語確率的分類部１２０は、単語特徴量ベクトル作成部９０で作成された１−ｂｅｓｔ認識結果単語列中のεでない各単語の単語特徴量ベクトルを入力として、認識結果単語確率的分類モデル記憶部１１０に記憶された認識結果単語確率的分類モデルを用いて、１−ｂｅｓｔ認識結果単語列中のεでない正味の各単語を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与することとすればよい。

以上のように、本実施例の識別的音声認識精度推定装置６００によれば、従来の音声認識精度推定装置（特許文献１）では得られなかった、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り）を確率的に推定でき、更にそれらを基に認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数、の推定値が得られ、かつ、音声認識精度も本来の細かな数値で得ることができる。また、本識別的音声認識精度推定装置６００では、従来の音声認識精度推定装置（特許文献１）で使用されていた発話特徴量ベクトルよりもより詳細な単語単位の特徴量ベクトルを用いるので、より高精度な認識精度推定が可能になる。

次に、図１７、図１８、図１９を参照して、実施例３の識別的音声認識精度推定装置６００の変形版である実施例４に係る識別的音声認識精度推定装置について詳細に説明する。図１７は本実施例の識別的音声認識精度推定装置７００の構成を示すブロック図である。図１８は本実施例の識別的音声認識精度推定装置７００の動作を示すフローチャートである。図１９は本実施例の認識結果単語分類確定部１４０が行う認識結果単語の分類を確定する処理を例示する図である。

実施例４の識別的音声認識精度推定装置７００は、音声認識部６３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、１−ｂｅｓｔ認識結果単語列取得部８０、単語特徴量ベクトル作成部９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、認識結果単語確率的分類部１２０、認識結果単語分類確定部１４０、認識精度計算部１５０を備える。本実施例の識別的音声認識精度推定装置７００が備える音声認識部６３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、１−ｂｅｓｔ認識結果単語列取得部８０、単語特徴量ベクトル作成部９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、認識結果単語確率的分類部１２０は、実施例３の識別的音声認識精度推定装置６００が備える同一番号の各構成部と同じ動作をする。従って、認識結果単語確率的分類部１２０にて認識結果単語を単語アライメント結果シンボルに分類して確率を付与するまでの処理（ステップＳ１２０まで）は、実施例３と同じである。

認識結果単語分類確定部１４０では認識結果単語の確率的分類を基に認識結果単語の単語アライメント結果シンボルを確定する（Ｓ１４０）。すなわち、認識結果単語に付与されている、正解である確率ｐ（Ｃ_ｊ）、置換誤りである確率ｐ（Ｓ_ｊ）、挿入誤りである確率ｐ（Ｉ_ｊ）を比較し、最高の確率を与える単語アライメント結果シンボルに認識結果単語の分類を確定する。この処理の様子を図１９に示す。図１９の例では、１−ｂｅｓｔ認識結果単語列の確定した単語アライメント結果シンボル列は、“ＣＳＩＣＣ”となる。これより１−ｂｅｓｔ認識結果単語列中の正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）は、０以上の整数として数え上げることができる。図１９の例では、Ｅ（＃Ｃ）＝３、Ｅ（＃Ｓ）＝１、Ｅ（＃Ｉ）＝１となる。実施例３と同様に、確定した単語アライメント結果シンボル列中には削除誤りＤは出現しない。よって、正解単語列中の単語数の推定値は、式（１２）に従いＥ（＃Ｎ）＝Ｅ（＃Ｃ）＋Ｅ（＃Ｓ）として求めるか、式（１３）に従いＥ（＃Ｎ）＝Ｅ（＃Ｃ）＋Ｅ（＃Ｓ）＋Ｅ（＃Ｉ）として求める。図１９の例で、式（１２）に従うと、Ｅ（＃Ｎ）＝３＋１＝４となり、式（１３）に従うと、Ｅ（＃Ｎ）＝３＋１＋１＝５となる。単語正解率及び単語正解精度は式（１０）及び式（１１）で計算できる。図１９の例で、式（１２）のようにＥ（＃Ｎ）を計算すると、単語正解率（３／４）×１００＝７５．００［％］、単語正解精度＝（（３−１）／４）×１００＝５０．００［％］となる。また式（１３）のようにＥ（＃Ｎ）を計算すると、単語正解率＝（３／５）×１００＝６０．００［％］、単語正解精度＝（（３−１）／５）×１００＝４０．００［％］となる。

以上のように、本実施例の識別的音声認識精度推定装置７００によれば、従来の音声認識精度推定装置（特許文献１）では得られなかった、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り）を推定でき、更にそれらを基に認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値を整数値として得ることができ、かつ、音声認識精度も本来の細かな数値で得ることができる。また、本識別的音声認識精度推定装置７００では、従来の音声認識精度推定装置（特許文献１）で使用されていた発話特徴量ベクトルよりもより詳細な単語単位の特徴量ベクトルを用いるので、より高精度な認識精度推定が可能になる。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
（参考非特許文献１）L. Mangu, E. Brill and A. Stolcke, “Finding consensus in speech recognition: word error minimization and other applications of confusion networks,” Computer Speech and Language, vol. 14, pp. 373-400, 2000.
（参考非特許文献２）L. Zhou, Y. Shi, D. Zhang and A. Sears, "Discovering cues to error detection in speech recognition output: a user-centered approach,"Journal of Management Information Systems," Spring 2006, vol. 22, no. 4, pp. 237-270.
（参考非特許文献３）J. Lafferty, A. McCallum and F. Pereira, “Conditional random fields: probabilistic models for segmenting and labeling sequence data,”Proc. ICML, pp. 282-289, 2001.

Claims

入力された音声を音声認識して、セグメント毎に何れかの認識結果単語が存在する確率、および何れの認識結果単語も存在しない確率（εをセグメント内に認識結果単語が存在しないことを示す記号とし、以下、セグメント内に何れの認識結果単語も存在しない確率をεの存在確率という）を表す単語コンフュージョンネットワークを生成する音声認識部と、
前記何れかのセグメントにおいてεが最大存在確率とならない場合に、最大存在確率を有する単語の存在確率を当該セグメントにおける正解確率とし、当該セグメントにおける最大存在確率を有しないε以外の単語の存在確率の合計を当該セグメントにおける置換誤り確率とし、当該セグメントにおけるεの存在確率を当該セグメントにおける挿入誤り確率とし、前記何れかのセグメントにおいてεが最大存在確率となる場合に、当該セグメントにおける最大存在確率を有しない単語の存在確率の合計を当該セグメントにおける削除誤り確率として、セグメント毎に、前記正解確率、前記置換誤り確率、前記挿入誤り確率、前記削除誤り確率を表す単語アライメントネットワークを取得する単語アライメントネットワーク取得部とを備え、
前記単語アライメントネットワークを用いて音声認識精度を計算すること
を特徴とする音声認識精度推定装置。
請求項１に記載の音声認識精度推定装置であって、
前記単語アライメントネットワークにおいて、前記何れかのセグメントにおける最大確率が前記正解確率である場合にシンボルＣを、前記何れかのセグメントにおける最大確率が前記置換誤り確率である場合にシンボルＳを、前記何れかのセグメントにおける最大確率が前記挿入誤り確率である場合にシンボルＩを、前記何れかのセグメントにおける最大確率が前記削除誤り確率である場合にシンボルＤを、セグメント毎に付与して連結した１−ｂｅｓｔ単語アライメント結果シンボル列を取得する１−ｂｅｓｔ単語アライメント結果シンボル列取得部とをさらに備え、
前記１−ｂｅｓｔ単語アライメント結果シンボル列を用いて音声認識精度を計算すること
を特徴とする音声認識精度推定装置。
音声認識精度推定装置が実行する音声認識精度推定方法であって、
入力された音声を音声認識して、セグメント毎に何れかの認識結果単語が存在する確率、および何れの認識結果単語も存在しない確率（εをセグメント内に認識結果単語が存在しないことを示す記号とし、以下、セグメント内に何れの認識結果単語も存在しない確率をεの存在確率という）を表す単語コンフュージョンネットワークを生成する音声認識ステップと、
前記何れかのセグメントにおいてεが最大存在確率とならない場合に、最大存在確率を有する単語の存在確率を当該セグメントにおける正解確率とし、当該セグメントにおける最大存在確率を有しないε以外の単語の存在確率の合計を当該セグメントにおける置換誤り確率とし、当該セグメントにおけるεの存在確率を当該セグメントにおける挿入誤り確率とし、前記何れかのセグメントにおいてεが最大存在確率となる場合に、当該セグメントにおける最大存在確率を有しない単語の存在確率の合計を当該セグメントにおける削除誤り確率として、セグメント毎に、前記正解確率、前記置換誤り確率、前記挿入誤り確率、前記削除誤り確率を表す単語アライメントネットワークを取得する単語アライメントネットワーク取得ステップとを有し、
前記単語アライメントネットワークを用いて音声認識精度を計算すること
を特徴とする音声認識精度推定方法。
請求項３に記載の音声認識精度推定方法であって、
前記単語アライメントネットワークにおいて、前記何れかのセグメントにおける最大確
率が前記正解確率である場合にシンボルＣを、前記何れかのセグメントにおける最大確率が前記置換誤り確率である場合にシンボルＳを、前記何れかのセグメントにおける最大確率が前記挿入誤り確率である場合にシンボルＩを、前記何れかのセグメントにおける最大確率が前記削除誤り確率である場合にシンボルＤを、セグメント毎に付与して連結した１−ｂｅｓｔ単語アライメント結果シンボル列を取得する１−ｂｅｓｔ単語アライメント結果シンボル列取得ステップをさらに有し、
前記１−ｂｅｓｔ単語アライメント結果シンボル列を用いて音声認識精度を計算すること
を特徴とする音声認識精度推定方法。
コンピュータを、請求項１又は２に記載の音声認識精度推定装置として機能させるためのプログラム。