JP5740368B2

JP5740368B2 - 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム

Info

Publication number: JP5740368B2
Application number: JP2012187708A
Authority: JP
Inventors: 小川　厚徳; 厚徳小川; 堀　貴明; 貴明堀; 中村　篤; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-08-28
Filing date: 2012-08-28
Publication date: 2015-06-24
Anticipated expiration: 2032-08-28
Also published as: JP2014044363A

Description

本発明は音声認識結果の精度を推定する識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラムに関する。

音声認識は人間が発した音声を計算機により単語列（テキスト）に変換する技術である。音声認識の精度は正解単語列と認識結果単語列のアライメントをＤＰマッチングにより取ることで計算できる（例えば非特許文献１参照）。図１にＤＰマッチングによる正解単語列と認識結果単語列のアライメント結果の例を示す。単語列のアライメントとは、二つの単語列が与えられたときに、それらが最も適合（一致、マッチ）するように照合を行った結果のことを言う。この図に示されるように、認識結果単語は以下の４種類に分類される。１．正解Ｃ（Ｃｏｒｒｅｃｔ）、２．置換誤りＳ（正解単語を他の単語に置き換えて誤る間違い；Ｓｕｂｓｔｉｔｕｔｉｏｎ＿ｅｒｒｏｒ）、３．挿入誤りＩ（本来単語がない箇所に単語が挿入される誤り；Ｉｎｓｅｒｔｉｏｎ＿ｅｒｒｏｒ）、４．削除誤りＤ（本来単語がある箇所に単語がない誤り；Ｄｅｌｅｔｉｏｎ＿ｅｒｒｏｒ）。ここで、正解単語列中の単語数を＃Ｎ、認識結果単語列中の正解単語数を＃Ｃ、置換誤り単語数を＃Ｓ、挿入誤り単語数を＃Ｉ、削除誤り単語数を＃Ｄとすると、音声認識精度は以下のように２種類の尺度で表わされる。

ここで、＃Ｎ＝＃Ｃ＋＃Ｓ＋＃Ｄである。式（１）の単語正解率と式（２）の単語正解精度の違いは、挿入誤りを考慮するか否かであり、挿入誤りを考慮する分だけ、単語正解率よりも単語正解精度の方が厳しい尺度である。図１の例では、＃Ｎ＝１３、＃Ｃ＝１０、＃Ｓ＝２、＃Ｉ＝１、＃Ｄ＝１であるので、

となる。単語正解率と単語正解精度のどちらを使用するべきかは、どのような音声認識応用システムを構築するかによるが、通常は単語正解精度が使用されることが多い。また音声認識精度は、上記したように、一つの発声に対する一つの認識結果単語列に対して計算することもできるが、複数発声に対する複数の認識結果単語列に対して、＃Ｎ、＃Ｃ、＃Ｓ、＃Ｉ、＃Ｄをまとめて数え上げて計算することも多い（一つ一つの認識結果単語列に対して単語正解率／単語正解精度を求めてそれらを平均するのではなく、一つ一つの認識結果単語列に対して＃Ｎ、＃Ｃ、＃Ｓ、＃Ｉ、＃Ｄを数え上げて、それらそれぞれを全認識結果単語列に渡り加算して、最後に単語正解率／単語正解精度を計算する）。

以上で音声認識精度の計算方法について述べたが、音声認識応用システムの実使用場面では入力音声に対する正解単語列は準備されていない。よって音声認識応用システムの実使用場面で認識結果単語列の精度を計算することはできない。ところが音声認識において正解単語列を使わずに認識精度を推定することは重要である。例えばユーザが音声ワープロを用いて文書を作成する場面を想定する。このときユーザのある発声の認識結果の精度が低いと推定される場合は、その認識結果をそのまま表示するより、ユーザに同じ内容を再度発声するように促した方が、ユーザにとっては親切である。また音声認識精度そのものを向上させる技術として、教師なし適応技術があるが、この技術では精度が比較的高いと推定される認識結果を用いて、後述する音響モデルや言語モデルの適応を行う。

音声認識精度を推定する装置としては、特許文献１に開示されている装置が知られている。この文献では、音声認識精度推定装置は音声認識装置、音声認識精度は信頼度と表現されている。以下、図２、図３を参照して、特許文献１の音声認識装置９００の機能構成を示して動作を簡単に説明する。図２は特許文献１の音声認識装置９００の構成を示すブロック図である。図３は特許文献１の音声認識装置９００の動作を示すフローチャートである。図２に示すとおり、音声認識装置９００は、記憶部４、発話分割部５、音声認識部６、音響モデル格納部１０、辞書・言語モデル格納部１２、情報変換部２０、信頼度付与部２２、識別モデル格納部２９、出力部２６を備える。音声認識部６は、音響分析手段８と認識探索手段７とから構成される。

記憶部４は、入力端子２に入力される音声信号を離散値化したディジタル音声信号として記憶する（Ｓ４）。発話分割部５は、所定値以上継続する無音区間に挟まれたディジタル音声信号を一発話（いちはつわ）として分割する（Ｓ５）。音響分析手段８は、分割されたディジタル音声信号を特徴量ベクトルの時系列に変換する（ＳＳ８）。認識探索手段７は、音響モデル格納部１０と辞書・言語モデル格納部１２に格納された音響モデルと言語モデルを用いて、辞書・言語モデル格納部１２に登録されている単語列と特徴量ベクトルの時系列との照合を行い、照合尤度が最も高い単語列を認識結果として出力する（ＳＳ７）。

音響分析手段８における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としてはＭＦＣＣ（Ｍｅｌ＿Ｆｒｅｑｕｅｎｃｙ＿Ｃｅｐｓｔｒａｌ＿Ｃｏｅｆｆｉｃｉｅｎｔ）、ΔＭＦＣＣ、ΔΔＭＦＣＣ、対数パワー、Δ対数パワー、ΔΔ対数パワー等があり、これらが１０〜１００次元程度の特徴量ベクトルを構成する。分析フレーム幅は３０ｍｓ程度、分析フレームシフト幅は１０ｍｓ程度で分析が実行される。

音響モデルは、上記ＭＦＣＣ等の音声の特徴量を音素等の適切なカテゴリでモデル化したものである。この音響モデルを用いて入力音声のフレーム毎の特徴量と各カテゴリのモデルとの音響的な近さが音響尤度として計算される。現在のモデル化の手法としては、確率・統計理論によるＨＭＭ（Ｈｉｄｄｅｎ＿Ｍａｒｋｏｖ＿Ｍｏｄｅｌ）に基づくものが主流となっている。言語モデルの形式は、単語リスト、定型文法、Ｎ−ｇｒａｍモデルの三つに大別される。孤立単語発声を認識対象とする音声認識装置においては、認識対象の単語を列挙した単語リストが用いられる（単語リストは辞書・言語モデル格納部１２に格納されている辞書と等価である）。定型的な文章発声を認識対象とする音声認識装置においては、辞書・言語モデル格納部１２に登録されている単語を連結して、装置で受理する発話内容（文章）を記述した定型文法が用いられる。自由な連続発話を認識対象とする音声認識装置においては、辞書・言語モデル格納部１２に登録されている単語のＮ連鎖確率を保持しているＮ−ｇｒａｍモデルが用いられ、これによりＮ連鎖以下の単語のつながり易さが言語尤度として計算される。

情報変換部２０は、単語列を構成する各単語について、例えば図４に示す様な発話特徴量ベクトルに変換する（Ｓ２０）。発話特徴量ベクトルの各単語の品詞情報は、この例では３７種類に分類される。品詞情報に付随する音響尤度スコアと言語尤度スコアと音素継続時間長は、この例ではそれぞれの平均値、分散値、最大値、最小値が計算される。

信頼度付与部２２は、発話特徴量ベクトルを評価して信頼度を付与する（Ｓ２２）。信頼度の付与は、識別モデル格納部２９に格納されている予め学習した発話特徴量ベクトルと音声認識率とを関連付けた値と、情報変換部２０が出力する発話特徴量ベクトルとを対比することで行う。例えば、１０％間隔の音声認識率に対応させた発話特徴量ベクトルを用意して置くことで、音声認識結果が１００％信頼できるものか、或いは全く信頼できない信頼度の音声認識結果であるのかを、１０％の間隔で信頼度を付与することができる。出力部２６は、各発話単位毎に、単語系列と、各単語の発話特徴量ベクトルと、信頼度とを出力する（Ｓ２６）。

特開２００７−２４０５８９号公報

jonathan.fiscus, "NIST SCLITE Scoring Package Version 1.5", [online], [平成24年2月2日検索], インターネット<URL:http://www.icsi.berkeley.edu/Speech/docs/sctk-1.2/sclite.htm>

上記の発話特徴量ベクトルは本来単語単位で得られる特徴量ベクトルを発話単位で平均化しているため、認識結果単語列中の局所的な（単語単位の）特徴が埋没する。よって発話特徴量ベクトルに基づく認識精度推定の精度は高くない。

そこで、本発明では認識精度の推定値を高精度で得ることができる識別的音声認識精度推定装置を提供することを目的とする。

本発明の識別的音声認識精度推定装置は、音声認識部と、単語特徴量ベクトル作成部と、認識結果単語確率的分類部とを備える。

音声認識部は、入力された音声を音声認識して、当該音声認識結果を出力する。単語特徴量ベクトル作成部は、音声認識結果から得られる情報に基づいて単語特徴量ベクトルを作成する。認識結果単語確率的分類部は、音声認識結果の何れかのセグメントにおいて何れの認識結果単語も存在しない確率をε（εはセグメント内に認識結果単語が存在しないことを示す記号、以下同じ）の存在確率と表記するものとし、セグメント内で最大の存在確率を持つ単語を連結して生成した単語列（以下、１−ｂｅｓｔ認識結果単語列という）中のεを含む各単語の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のεを含む各単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率をセグメント毎に表記した確率的単語分類結果を生成する。

本発明の識別的音声認識精度推定装置は、確率的単語分類結果を用いて音声認識精度を計算する。

本発明の識別的音声認識精度推定装置によれば、認識精度の推定値を高精度で得ることができる。

ＤＰマッチングによる正解単語列と認識結果単語列のアライメント結果の例を示す図。特許文献１の音声認識装置の構成を示すブロック図。特許文献１の音声認識装置の動作を示すフローチャート。特許文献１の音声認識装置の情報変換部が生成する発話特徴量ベクトルを例示する図。実施例１の音声認識精度推定装置の構成を示すブロック図。実施例１の単語アライメントネットワーク取得部の構成を示すブロック図。実施例１の音声認識精度推定装置の動作を示すフローチャート。実施例１の音声認識部が生成する単語コンフュージョンネットワークを例示する図。実施例１の単語アライメントネットワーク取得部が行う単語コンフュージョンネットワークから単語アライメントネットワークへの変換例を示す図。実施例２の音声認識精度推定装置の構成を示すブロック図。実施例２の音声認識精度推定装置の動作を示すフローチャート。実施例２の１−ｂｅｓｔ単語アライメント結果シンボル列取得部が行う単語アライメントネットワークを１−ｂｅｓｔ単語アライメント結果シンボル列に変換する処理について示す図。実施例３の識別的音声認識精度推定装置の構成を示すブロック図。実施例３の音声認識部の構成を示すブロック図。実施例３の識別的音声認識精度推定装置の動作を示すフローチャート。実施例３の認識結果単語確率的分類部が行う１−ｂｅｓｔ認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図。実施例４の識別的音声認識精度推定装置の構成を示すブロック図。実施例４の識別的音声認識精度推定装置の動作を示すフローチャート。実施例４の認識結果単語分類確定部が行う認識結果単語の分類を確定する処理を例示する図。実施例５の識別的音声認識精度推定装置の構成を示すブロック図。実施例５の識別的音声認識精度推定装置の動作を示すフローチャート。１−ｂｅｓｔ認識結果単語列中の各単語に対してＣＳＩ単語分類結果及び確率的削除誤り検出結果を付与する処理について示す図。実施例６の識別的音声認識精度推定装置の構成を示すブロック図。実施例６の識別的音声認識精度推定装置の動作を示すフローチャート。ＣＳＩ単語分類結果及び削除誤り数毎の削除誤り確率を付与する処理について示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下図５、図６、図７、図８を参照して実施例１の音声認識精度推定装置について説明する。図５は本実施例の音声認識精度推定装置４００の構成を示すブロック図である。図６は本実施例の単語アライメントネットワーク取得部４０の構成を示すブロック図である。図７は本実施例の音声認識精度推定装置４００の動作を示すフローチャートである。図８は本実施例の音声認識部３０が生成する単語コンフュージョンネットワークを例示する図である。

図５に示すとおり、本実施例の音声認識精度推定装置４００は、音声認識部３０、単語アライメントネットワーク取得部４０、確率的認識精度計算部５０を備える。図６に示すとおり、単語アライメントネットワーク取得部４０は１−ｂｅｓｔ認識結果単語列取得手段４１、正解確率計算手段４２、置換誤り確率計算手段４３、挿入誤り確率計算手段４４、削除誤り確率計算手段４５を備える。本実施例および以下の実施例における音声認識精度推定装置、識別的音声認識精度推定装置は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識部３０は、入力端子２に入力される音声を音声認識し、当該音声認識結果を、例えば図８に示す単語コンフュージョンネットワークと呼ばれる複数の認識結果単語列をコンパクトに確率的に表現した形式で得る（Ｓ３０）。単語コンフュージョンネットワークの取得方法は、例えば、参考非特許文献１に詳述されている。上記に加え、音声認識部３０は、音声認識の過程において、特許文献１の音声認識装置９００の音声認識部６と同様に、ディジタル音声信号の特徴量ベクトルの時系列への変換や、音響モデルと言語モデルを用いた尤度計算などを行う。これらの処理は従来の音声認識と同様であるため詳細は割愛する。

単語コンフュージョンネットワークは、セグメント毎に何れかの認識結果単語が存在する確率、および何れの認識結果単語も存在しない確率（以下、εの存在確率という）を表す。例えば図８の単語コンフュージョンネットワークは、八つのセグメント（区間）で構成されている。各セグメントにはそのセグメントに認識結果として存在し得る複数の単語がアーク（弧）として記述されている。セグメント境界では各アークはノード（節）で束ねられている。例えば図８では、三番目のセグメントには、定額／大学／対外／εという四つの単語が認識結果として存在し得る（競合、対立している）ことを示している。ただしεはこのセグメントには認識結果単語は存在しないということを示すため、正味では三つの認識結果単語が存在し得ることになる。一番目のセグメントから八番目のセグメントまで、εも含めて、存在し得る単語の数を乗算していくと、２×３×４×２×２×３×２×１＝５７６となり、これが図８の単語コンフュージョンネットワークが表現し得る認識結果単語列の種類数となる。各セグメント中の各単語には確率値が付与されており、これらの値は各単語がそのセグメント中に存在し得る確率を表している。これらは加算すると１となる。例えば、三番目のセグメントでは、ｐ（定額）＋ｐ（大学）＋ｐ（対外）＋ｐ（ε）＝０．４＋０．３＋０．２＋０．１＝１となる。ここで、ある入力音声を音声認識して得られる単語コンフュージョンネットワーク中のセグメント数をＪ、ｊ番目のセグメントをＱ_ｊ（ｊ＝１，２，…，Ｊ）、Ｑ_ｊ中に存在し得る単語をＷ_ｊ，ｋ（ｋ＝１，２，…，Ｋ_ｊ）、それらの存在確率をｐ（Ｗ_ｊ，ｋ）とする。すると、この単語コンフュージョンネットワークで表わされる認識結果単語列の種類数は、

となる。また、以下が成り立つ。

次に、単語アライメントネットワーク取得部４０は音声認識部３０から出力された単語コンフュージョンネットワークを単語アライメントネットワークに変換する（Ｓ４０）。

単語アライメントネットワークは、何れかのセグメントにおいてεが最大存在確率とならない場合に、最大存在確率を有する単語の存在確率を当該セグメントにおける正解確率とし、当該セグメントにおける最大存在確率を有しないε以外の単語の存在確率の合計を当該セグメントにおける置換誤り確率とし、当該セグメントにおけるεの存在確率を当該セグメントにおける挿入誤り確率とし、何れかのセグメントにおいてεが最大存在確率となる場合に、当該セグメントにおける最大存在確率を有しない単語の存在確率の合計を当該セグメントにおける削除誤り確率として、セグメント毎に、正解／置換誤り／挿入誤り／削除誤り確率を示したものである。

上記したように、音声認識精度は正解単語列と認識結果単語列のアライメントをＤＰマッチングにより取ることで計算できるが、単語アライメントネットワークとはこのアライメント結果を表現するものであり、基になる単語コンフュージョンネットワークが複数の認識結果単語列を確率的に表現するものであることから、単語アライメントネットワークは複数のアライメント結果を確率的に表現するものである。

ここで、単語アライメントネットワーク取得部４０の処理の詳細を図６に示した各構成手段の動作に細分化して説明すると、まず、１−ｂｅｓｔ認識結果単語列取得部４１は、単語コンフュージョンネットワークから１−ｂｅｓｔ認識結果単語列を取得する（ＳＳ４１）。

ここで、一つの単語コンフュージョンネットワーク中の各セグメントで最大の存在確率を持つ単語を連結したものを１−ｂｅｓｔ認識結果単語列という。通常の場合、１−ｂｅｓｔ認識結果単語列は最終的な音声認識結果単語列である（単語コンフュージョンネットワークを介さずに最終的な認識結果単語列を得る方法もある）。例えば図８の単語コンフュージョンネットワークの場合、太いアークで示されている各セグメントで最高の存在確率を持つ単語を連結していくと、“私＿ε＿定額＿に＿行く＿ε＿ε＿た”、という１−ｂｅｓｔ認識結果単語列を得ることができる。

以下、得られた１−ｂｅｓｔ認識結果単語が正味の単語であるか、εであるかによって処理が分岐する。１−ｂｅｓｔ認識結果単語がεでない正味の単語である場合、正解確率計算手段４２は、当該εでない１−ｂｅｓｔ認識結果単語を、セグメントｊにおける正解単語を表す単語アライメント結果シンボルＣ_ｊ（ｊはセグメント番号、以降も同じ）に変え、当該１−ｂｅｓｔ認識結果単語の存在確率を正解確率であるｐ（Ｃ_ｊ）として付与する（ＳＳ４２）。ここで、εでない１−ｂｅｓｔ認識結果単語が実は正解単語ではなく、これに競合、対立する認識結果単語（εでない）が正解単語であるとすると、前述の１−ｂｅｓｔ認識結果単語は置換誤り（Ｓｕｂｓｔｉｔｕｔｉｏｎ＿ｅｒｒｏｒ）となる。よって、置換誤り確率計算手段４３は、対立する認識結果単語（εでない）を一つに束ねて置換誤りを表す単語アライメント結果シンボルＳ_ｊとし、置換誤り確率ｐ（Ｓ_ｊ）を、εでない対立候補の存在確率の和として付与する（ＳＳ４３）。最後に、前述のεでない１−ｂｅｓｔ認識結果単語が、実は正解単語ではなく、ε（単語なし）が正しいとすると、前述のεでない１−ｂｅｓｔ認識結果単語は挿入誤り（Ｉｎｓｅｒｔｉｏｎ＿ｅｒｒｏｒ）となる。よってこのεを挿入誤りを表す単語アライメント結果シンボルＩ_ｊに変え、挿入誤り確率ｐ（Ｉ_ｊ）をｐ（ε）として付与する（ＳＳ４４）。

一方、１−ｂｅｓｔ認識結果単語がεである場合、このεと競合（対立）する認識結果単語が存在する場合には、εすなわち「単語なし」が実は正しくなく、このセグメントに他のεでない対立候補が存在するのが正しいとすると、このεは削除誤り（Ｄｅｌｅｔｉｏｎ＿ｅｒｒｏｒ）となる。よって他のεでない対立候補を一つに束ねて削除誤りを表す単語アライメント結果シンボルＤ_ｊとし、削除誤り確率ｐ（Ｄ_ｊ）を、εでない対立候補の存在確率の和として付与する（ＳＳ４５）。

これら単語アライメントネットワーク取得部４０で実行される単語コンフュージョンネットワークから単語アライメントネットワークへの変換手順について、図８、９を参照してさらに具体的に説明する。図９は単語コンフュージョンネットワークから単語アライメントネットワークへの変換例を示す図である。前述したように、変換手順は、セグメントにおける最高の存在確率を持つ単語（１−ｂｅｓｔ認識結果単語）がεでない正味の単語であるか（図８、９ではセグメント１、３、４、５、８）、εであるか（図８、９ではセグメント２、６、７）で、大きく二つに分かれる。

まず、セグメントにおける最高の存在確率を持つ単語（１−ｂｅｓｔ認識結果単語）がεでない正味の単語である場合について変換手順を説明する。ここでは、セグメント３を例に説明する。セグメント３では、４つの単語、定額／大学／対外／ε、が、それぞれ存在確率、ｐ（定額）＝０．４、ｐ（大学）＝０．３、ｐ（対外）＝０．２、ｐ（ε）＝０．１で競合している。最高の存在確率を付与されている正味の単語は「定額」であり、これがこのセグメントにおける正しい（Ｃｏｒｒｅｃｔ）と思われる１−ｂｅｓｔ認識結果単語である。よって、まず正解確率計算手段４２は、「定額」を正解単語を表す単語アライメント結果シンボルＣ_３（３はセグメント番号、以降も同じ）に変え、その確率ｐ（Ｃ_３）＝０．４を付与する（ＳＳ４２）。次に「定額」と競合するεでない正味の単語を見ると「大学」と「対外」の２単語である。ここで「定額」が実は正解単語ではなく、「大学」あるいは「対外」が正解単語であるとすると、「定額」は置換誤り（Ｓｕｂｓｔｉｔｕｔｉｏｎ＿ｅｒｒｏｒ）となる。よって置換誤り確率計算手段４３は、「大学」と「対外」を一つに束ねて置換誤りを表す単語アライメント結果シンボルＳ_３とし、その確率をｐ（Ｓ_３）＝ｐ（大学）＋ｐ（対外）＝０．３＋０．２＝０．５とする（ＳＳ４３）。すなわち、正解と思われる単語「定額」が実は置換誤りである確率はｐ（Ｓ_３）＝０．５である。最後にεがｐ（ε）＝０．１で残る。上記したように、εはそのセグメントには単語がないことを表す。よって「定額」が実は正解単語ではなく、ε（単語なし）が正しいとすると、「定額」は挿入誤り（Ｉｎｓｅｒｔｉｏｎ＿ｅｒｒｏｒ）となる。よって挿入誤り確率計算手段４４は、このεを挿入誤りを表す単語アライメント結果シンボルＩ_３に変え、その確率はｐ（Ｉ_３）＝ｐ（ε）＝０．１とする（ＳＳ４４）。すなわち、正解と思われる単語「定額」が実は挿入誤りである確率はｐ（Ｉ_３）＝０．１である。以上のような変換処理を行った結果をまとめると、セグメント３の１−ｂｅｓｔ認識結果単語「定額」が正解である確率はｐ（Ｃ_３）＝０．４、置換誤りである確率はｐ（Ｓ_３）＝０．５、挿入誤りである確率はｐ（Ｉ_３）＝０．１となる。

次に、セグメントにおける最高の存在確率を持つ単語がεである場合について変換手順を説明する。ここでは、セグメント２を例に説明する。セグメント２では、ε／は／が、が、それぞれ存在確率、ｐ（ε）＝０．４、ｐ（は）＝０．３、ｐ（が）＝０．３で競合している。最高の存在確率を付与されている単語はε（単語なし）であり、これがこのセグメントにおける１−ｂｅｓｔ認識結果単語である。εについては変換処理は行わない。次に、このεと競合する単語をみると「は」と「が」の２単語である。ここでεすなわち「単語なし」が実は正しくなく、このセグメントに「は」あるいは「が」が存在するのが正しいとすると、このεは削除誤り（Ｄｅｌｅｔｉｏｎ＿ｅｒｒｏｒ）となる。よって削除誤り確率計算手段４５は、「は」と「が」を一つに束ねて削除誤りを表す単語アライメント結果シンボルＤ_２（２はセグメント番号、以降も同じ）とし、その確率をｐ（Ｄ_２）＝ｐ（は）＋ｐ（が）＝０．３＋０．３＝０．６とする（ＳＳ４５）。すなわち、ε（単語なし）が正しいと思われるセグメント２が実は削除誤りである確率はｐ（Ｄ_２）＝０．６である。単語アライメントネットワーク取得部４０では、上記のような処理により、音声認識部３０から出力された単語コンフュージョンネットワークを単語アライメントネットワークに変換する。

確率的認識精度計算部５０は、単語アライメントネットワーク取得部４０から出力された単語アライメントネットワークを入力として音声認識精度を計算しそれを出力する（Ｓ５０）。通常、認識精度は、上記したように、正解単語列中の単語数＃Ｎ、正解単語数＃Ｃ、置換誤り単語数＃Ｓ、挿入誤り単語数＃Ｉ、削除誤り単語数＃Ｄを、０以上の整数として数え上げて、式（１）または式（２）により計算するが、確率的認識精度計算部５０では、単語アライメントネットワーク上の各セグメント中の各単語アライメント結果シンボルの確率値を加算することで計算する。ここで、ある単語アライメントネットワーク中のセグメント数をＪ、ｊ番目のセグメントをＱ_ｊ（ｊ＝１，２，…，Ｊ）、Ｑ_ｊ中に存在し得る単語アライメント結果シンボルをＡ_ｊ（Ａ＝Ｃ／Ｓ／Ｉ／Ｄ）、その存在確率をｐ（Ａ_ｊ）とする。このとき、正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ）、正解単語列中の単語数の推定値Ｅ（＃Ｎ）は、それぞれ以下のように求めることができる。

０以上の整数である＃Ｃ、＃Ｓ、＃Ｄ、＃Ｉとは異なり、これらＥ（＃Ｃ）、Ｅ（＃Ｓ）、Ｅ（＃Ｉ）、Ｅ（＃Ｄ）、Ｅ（＃Ｎ）は、小数点以下の数値を取りうる。これらを用いて単語正解率と単語正解精度は以下のように求められる。

例えば、図９の単語アライメントネットワークの場合、

であるので、

と推定される。

以上のように、本実施例の音声認識精度推定装置４００によれば、従来の音声認識精度推定装置（特許文献１）では得られなかった、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り／削除誤り）を確率的に推定でき、更にそれらを基に認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値が得られ、かつ、音声認識精度も本来の細かな数値で得ることができる。

次に、図１０、図１１、図１２を参照して、実施例１の音声認識精度推定装置４００の変形例である実施例２に係る音声認識精度推定装置について詳細に説明する。図１０は本実施例の音声認識精度推定装置５００の構成を示すブロック図である。図１１は本実施例の音声認識精度推定装置５００の動作を示すフローチャートである。図１２は本実施例の１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０が行う単語アライメントネットワークを１−ｂｅｓｔ単語アライメント結果シンボル列に変換する処理について示す図である。図１０に示すとおり、本実施例の音声認識精度推定装置５００は、音声認識部３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、認識精度計算部７０を備える。本実施例の音声認識精度推定装置５００が備える音声認識部３０、単語アライメントネットワーク取得部４０は、実施例１の音声認識精度推定装置４００が備える同一番号の各構成部と同じ動作をする。従って、単語アライメントネットワーク取得部４０にて単語アライメントネットワークを取得するまでの処理は実施例１と同じであるため、説明を割愛する。本実施例においては、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０が、単語アライメントネットワークを１−ｂｅｓｔ単語アライメント結果シンボル列に変換する（Ｓ６０）。

１−ｂｅｓｔ単語アライメント結果シンボル列とは、単語アライメントネットワークにおいて、何れかのセグメントにおける最大確率が正解確率である場合にシンボルＣ、何れかのセグメントにおける最大確率が置換誤り確率である場合にシンボルＳを、何れかのセグメントにおける最大確率が挿入誤り確率である場合にシンボルＩを、何れかのセグメントにおける最大確率が削除誤り確率である場合にシンボルＤを、セグメント毎に付与して連結したものである。

図１２に１−ｂｅｓｔ単語アライメント結果シンボル列への変換処理を示す。この変換処理は、上記した単語コンフュージョンネットワークから１−ｂｅｓｔ認識結果単語列を得る処理と同じで、単語アライメントネットワーク上の各セグメント中で最高の存在確率を持つ単語アライメント結果シンボル（太いアークで示されている）を連結していく。図１２の場合、この変換処理により、“ＣＤＳＣＣＤεＣ”という１−ｂｅｓｔ単語アライメント結果シンボル列を得ることができる。ここで、１−ｂｅｓｔ単語アライメント結果シンボルＣの個数を正解単語数の推定値Ｅ（＃Ｃ）、１−ｂｅｓｔ単語アライメント結果シンボルＳの個数を置換誤り単語数の推定値Ｅ（＃Ｓ）、１−ｂｅｓｔ単語アライメント結果シンボルＤの個数を削除誤り単語数の推定値Ｅ（＃Ｄ）、１−ｂｅｓｔ単語アライメント結果シンボルＣ、Ｓ、Ｄの個数の和を認識結果単語数の推定値Ｅ（＃Ｎ）と書くことができる。従って、Ｅ（＃Ｃ）、Ｅ（＃Ｓ）、Ｅ（＃Ｄ）、Ｅ（＃Ｎ）は、０以上の整数として数え上げることができ、Ｅ（＃Ｃ）＝４、Ｅ（＃Ｓ）＝１、Ｅ（＃Ｄ）＝２、Ｅ（＃Ｎ）＝Ｅ（＃Ｃ）＋Ｅ（＃Ｓ）＋Ｅ（＃Ｄ）＝４＋１＋２＝７となる。ただし、１−ｂｅｓｔ単語アライメント結果シンボル列には挿入誤りを表す単語アライメント結果シンボルＩが含まれないため、認識結果単語列中の挿入誤り単語数の推定値Ｅ（＃Ｉ）は得られない。しかし、ここで、音声認識においては挿入誤り数と脱落（削除）誤り数が同じような値になることが多いという参考非特許文献２の知見に基づけば、Ｅ（＃Ｉ）＝Ｅ（＃Ｄ）と推定することは可能である。よって、認識精度計算部７０において、

に従い、単語正解率＝（（７−１−２）／７）×１００＝（４／７）×１００≒５７．１４［％］、単語正解精度＝（（７−１−２−２）／７）×１００＝（４−２／６）×１００≒３３．３３［％］と計算できる。

以上のように、本実施例の音声認識精度推定装置５００によれば、従来の音声認識精度推定装置（特許文献１）では得られなかった、認識結果単語列中の各単語の分類（正解／置換誤り／削除誤り）を推定でき、更にそれらを基に認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値を整数値で得ることができ、かつ、音声認識精度も本来の細かな数値で得ることができる。

以下、図１３、図１４、図１５、図１６を参照して、実施例３に係る識別的音声認識精度推定装置について詳細に説明する。図１３は本実施例の識別的音声認識精度推定装置６００の構成を示すブロック図である。図１４は本実施例の音声認識部６３０の構成を示すブロック図である。図１５は本実施例の識別的音声認識精度推定装置６００の動作を示すフローチャートである。図１６は１−ｂｅｓｔ認識結果単語列中の各単語に対して確率的単語分類結果を付与する処理について示す図である。

図１３に示すとおり、本実施例の識別的音声認識精度推定装置６００は、音声認識部６３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、１−ｂｅｓｔ認識結果単語列取得部８０、単語特徴量ベクトル作成部９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、認識結果単語確率的分類部１２０、確率的認識精度計算部１３０を備える。図１４に示すとおり、音声認識部６３０は、単語ラティス生成手段６３１、単語コンフュージョンネットワーク生成手段３２、対立候補情報生成手段６３２を備える。本実施例の識別的音声認識精度推定装置６００が備える単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０は、実施例２の音声認識精度推定装置５００が備える同一番号の各構成部と同じ動作をする。従って、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０における処理は実施例２と同じであるため、説明を割愛する。

まず音声認識部６３０は、入力端子２に入力される音声を音声認識し、当該音声認識結果を単語ラティス、および単語コンフュージョンネットワークの形式で生成する。音声認識部６３０は、これらに加えて後述する対立候補情報を生成し、生成した単語ラティスと、単語コンフュージョンネットワークと、対立候補情報とを出力する（Ｓ６３０）。上記に加え、音声認識部６３０は、音声認識の過程において、特許文献１の音声認識装置９００の音声認識部６と同様に、ディジタル音声信号の特徴量ベクトルの時系列への変換や、音響モデルと言語モデルを用いた尤度計算などを行う。これらの処理は従来の音声認識と同様であるため詳細は割愛する。

より詳細には、単語ラティス生成手段６３１は、単語ラティスを生成する（ＳＳ６３１）。単語コンフュージョンネットワーク生成手段３２は、生成された単語ラティスから単語コンフュージョンネットワークを生成する（ＳＳ３２）。この処理は、実施例１における単語コンフュージョンネットワーク生成手段３２の処理と同じである。次に、対立候補情報生成手段６３２は、単語ラティス及び単語コンフュージョンネットワークから対立候補情報を生成する（ＳＳ６３２）。

単語ラティスは複数の認識結果単語列の表現形式であり、これを変換して単語コンフュージョンネットワークが生成される。単語ラティスを単語コンフュージョンネットワークに変換する手順は、例えば、参考非特許文献１に詳述されている。単語コンフュージョンネットワークの方が単語ラティスよりも効率よくコンパクトに複数の認識結果単語列を表現するが、単語ラティスには単語コンフュージョンネットワークには保存されていない情報、例えば、認識結果単語の音響尤度や言語尤度などが記録されている。対立候補情報とは、ある認識結果単語を認識中（探索処理実行中）に、対立候補の単語はいくつあったかを示す情報のことである。

次に、実施例２同様にステップＳ４０、Ｓ６０が実行されてそれぞれ単語アライメントネットワーク、１−ｂｅｓｔ単語アライメント結果シンボル列を生成する（Ｓ４０、Ｓ６０）。次に、音声認識部６３０から出力された単語コンフュージョンネットワークを入力として、１−ｂｅｓｔ認識結果単語列取得部８０は、１−ｂｅｓｔ認識結果単語列を取得する（Ｓ８０）。１−ｂｅｓｔ認識結果単語列を取得する処理については図８において説明したとおりであり、例えば、図８の単語コンフュージョンネットワークからは、“私ε定額に行くεεた”、という１−ｂｅｓｔ認識結果単語列を得ることができる。単語特徴量ベクトル作成部９０は、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）に対して、単語コンフュージョンネットワークから得られる情報（存在確率、競合単語の数）、単語ラティスから得られる情報（音響尤度、言語尤度）、対立候補情報、単語アライメントネットワークから得られる情報（単語アライメント結果シンボルＡ_ｊ（Ａ＝Ｃ／Ｓ／Ｉ／Ｄ）の存在確率ｐ（Ａ_ｊ））、１−ｂｅｓｔ単語アライメント結果シンボル列から得られる情報（単語アライメント結果シンボル）を取得する。また同時に単語関連情報記憶部１００から、認識結果単語に対する情報（単語関連情報）を取得する。単語関連情報は認識結果単語の品詞情報などを表す。これらの情報は単語関連情報記憶部１００から抽出する。単語特徴量ベクトル作成部９０は、これらの入力情報を並べて、単語特徴量ベクトルを作成する（Ｓ９０）。単語特徴量ベクトルの作成に際し、入力情報はどんな順序で並べても構わないが、一度順序を決めた後はそれを変えないようにする。認識結果単語確率的分類部１２０は、単語特徴量ベクトル作成部９０で作成された１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）の単語特徴量ベクトルを入力として、認識結果単語確率的分類モデル記憶部１１０に記憶された認識結果単語確率的分類モデル（モデルパラメータ）を用いて、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与する（Ｓ１２０）。このように、セグメント毎に単語アライメント結果シンボルと各シンボルの確率とを対にして表記した結果を確率的単語分類結果と呼ぶ。

別の表現をすれば、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデル（モデルパラメータ）とを用いて付与した、１−ｂｅｓｔ認識結果単語列中の各単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、ε（認識結果単語なし）である確率をセグメント毎に表記した結果を確率的単語分類結果ということができる。

すなわち、例えば１−ｂｅｓｔ認識結果単語列中のｊ番目の１−ｂｅｓｔ認識結果単語に対して、それが正解である確率ｐ（Ｃ_ｊ）、置換誤りである確率ｐ（Ｓ_ｊ）、挿入誤りである確率ｐ（Ｉ_ｊ）、削除誤りである確率ｐ（Ｄ_ｊ）、εである確率ｐ（ε_ｊ）を付与する。ここで、ｐ（Ｃ_ｊ）＋ｐ（Ｓ_ｊ）＋ｐ（Ｉ_ｊ）＋ｐ（Ｄ_ｊ）＋ｐ（ε_ｊ）＝１である。この処理の様子を図１６に示す。認識結果単語確率的分類モデルは、例えば、参考非特許文献３に詳述されている条件付確率場（Ｃｏｎｄｉｔｉｏｎａｌ＿Ｒａｎｄｏｍ＿Ｆｉｅｌｄｓ：ＣＲＦ）などであり、学習データを用いて１−ｂｅｓｔ認識結果単語列中の各単語の単語特徴量ベクトル（当該単語の単語特徴量ベクトルだけでなく当該単語の前後数単語の単語特徴量ベクトルが用いられることもある。これは以下の実施例でも同じである）と、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係を予め学習しておく。続く確率的認識精度計算部１３０では、実施例１の確率的認識精度計算部５０と同様に、確率的単語分類結果を用いて音声認識精度を計算し、計算した音声認識精度を出力する（Ｓ１３０）。

１−ｂｅｓｔ認識結果単語列中の正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ）は、それぞれ、式（５）、式（６）、式（７）、式（８）で計算できる。図１６の例の場合、Ｅ（＃Ｃ）＝３．４、Ｅ（＃Ｓ）＝０．９、Ｅ（＃Ｉ）＝０．８、Ｅ（＃Ｄ）＝１．４となる（Ｅ（ε）＝１．５と計算できるがこれは以降の認識精度推定には用いない）。また、式（９）より正解単語列中の単語数の推定値はＥ（＃Ｎ）＝３．４＋０．９＋１．４＝５．７となる。単語正解率及び単語正解精度は式（１０）及び式（１１）で計算できる。図１６の例の場合、単語正解率＝（３．４／５．７）×１００＝５９．６５［％］、単語正解精度＝（（３．４−０．８）／５．７）×１００＝４５．６１［％］となる。

なお、本実施例においては、単語特徴量ベクトル作成部９０において、単語コンフュージョンネットワークから得られる情報、単語ラティスから得られる情報、対立候補情報、単語アライメントネットワークから得られる情報、１−ｂｅｓｔ単語アライメント結果シンボル列から得られる情報、及び単語関連情報を入力情報として、これらを並べることにより単語特徴量ベクトルを生成することとしたが、これに限られず、単語特徴量ベクトル作成部９０において、音声認識部６３０から取得する何れの情報を用いて単語特徴量ベクトルを生成しても良い。この場合、認識結果単語確率的分類モデル記憶部１１０には、上記入力情報のバリエーションに合わせて予め学習した認識結果単語確率的分類モデルを記憶しておく。そして、認識結果単語確率的分類部１２０は、単語特徴量ベクトル作成部９０で作成された１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）の単語特徴量ベクトルを入力として、認識結果単語確率的分類モデル記憶部１１０に記憶された認識結果単語確率的分類モデルを用いて、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与することとすればよい。

以上のように、本実施例の識別的音声認識精度推定装置６００によれば、従来の音声認識精度推定装置（特許文献１）では得られなかった、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り／削除誤り）を確率的に推定でき、更にそれらを基に認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値が得られ、かつ、音声認識精度も本来の細かな数値で得ることができる。また、本識別的音声認識精度推定装置６００では、従来の音声認識精度推定装置（特許文献１）で使用されていた発話特徴量ベクトルよりもより詳細な単語単位の特徴量ベクトルを用いるので、より高精度な認識精度推定が可能になる。

次に、図１７、図１８、図１９を参照して、実施例３の識別的音声認識精度推定装置６００の変形例である実施例４に係る識別的音声認識精度推定装置について詳細に説明する。図１７は本実施例の識別的音声認識精度推定装置７００の構成を示すブロック図である。図１８は本実施例の識別的音声認識精度推定装置７００の動作を示すフローチャートである。図１９は本実施例の認識結果単語分類確定部１４０が行う認識結果単語の分類を確定する処理を例示する図である。

実施例４の識別的音声認識精度推定装置７００は、音声認識部６３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、１−ｂｅｓｔ認識結果単語列取得部８０、単語特徴量ベクトル作成部９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、認識結果単語確率的分類部１２０、認識結果単語分類確定部１４０、認識精度計算部１５０を備える。本実施例の識別的音声認識精度推定装置７００が備える音声認識部６３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、１−ｂｅｓｔ認識結果単語列取得部８０、単語特徴量ベクトル作成部９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、認識結果単語確率的分類部１２０は、実施例３の識別的音声認識精度推定装置６００が備える同一番号の各構成部と同じ動作をする。従って、認識結果単語確率的分類部１２０にて認識結果単語を単語アライメント結果シンボルに分類して確率を付与するまでの処理（ステップＳ１２０まで）は、実施例３と同じである。

認識結果単語分類確定部１４０では認識結果単語の確率的分類を基に認識結果単語の単語アライメント結果シンボルを確定する（Ｓ１４０）。すなわち、認識結果単語に付与されている、正解である確率ｐ（Ｃ_ｊ）、置換誤りである確率ｐ（Ｓ_ｊ）、挿入誤りである確率ｐ（Ｉ_ｊ）、削除誤りである確率ｐ（Ｄ_ｊ）、ε（認識結果単語なし）である確率ｐ（ε_ｊ）を比較し、最高の確率を与える単語アライメント結果シンボルに認識結果単語の分類を確定する。この処理の様子を図１９に示す。図１９の例では、１−ｂｅｓｔ認識結果単語列の確定した単語アライメント結果シンボル列は、“ＣεＳＩＣＤεＣ”となる。これより１−ｂｅｓｔ認識結果単語列中の正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ）は、０以上の整数として数え上げることができる。図１９の例では、Ｅ（＃Ｃ）＝３、Ｅ（＃Ｓ）＝１、Ｅ（＃Ｉ）＝１、Ｅ（＃Ｄ）＝１となる。また正解単語列中の単語数の推定値Ｅ（＃Ｎ）も０以上の整数として数え上げることができ、Ｅ（＃Ｎ）＝Ｅ（＃Ｃ）＋Ｅ（＃Ｓ）＋Ｅ（＃Ｄ）＝３＋１＋１＝５となる。単語正解率及び単語正解精度は式（１０）及び式（１１）で計算でき、単語正解率（３／５）×１００＝６０．００［％］、単語正解精度＝（（３−１）／５）×１００＝４０．００［％］となる。

以上のように、本実施例の識別的音声認識精度推定装置７００によれば、従来の音声認識精度推定装置（特許文献１）では得られなかった、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り）を推定でき、更にそれらを基に認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値を整数値として得ることができ、かつ、音声認識精度も本来の細かな数値で得ることができる。また、本識別的音声認識精度推定装置７００では、従来の音声認識精度推定装置（特許文献１）で使用されていた発話特徴量ベクトルよりもより詳細な単語単位の特徴量ベクトルを用いるので、より高精度な認識精度推定が可能になる。

以下、図２０、図２１、図２２を参照して、実施例３の変形例である実施例５に係る識別的音声認識精度推定装置について詳細に説明する。図２０は本実施例の識別的音声認識精度推定装置８００の構成を示すブロック図である。図２１は本実施例の識別的音声認識精度推定装置８００の動作を示すフローチャートである。図２２は１−ｂｅｓｔ認識結果単語列中の各単語に対してＣＳＩ単語分類結果及び確率的削除誤り検出結果を付与する処理について示す図である。

図２０に示すとおり、本実施例の識別的音声認識精度推定装置８００は、音声認識部６３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、１−ｂｅｓｔ認識結果単語列取得部８０、単語特徴量ベクトル作成部９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、ＣＳＩ分類部１６０、削除誤り確率的検出部１７０、削除誤り確率的検出モデル記憶部１８０、確率的認識精度計算部１３０を備える。本実施例の識別的音声認識精度推定装置８００は、実施例３の識別的音声認識精度推定装置６００の構成に加えて、削除誤り確率的検出部１７０、削除誤り確率的検出モデル記憶部１８０を備える。また、実施例３の識別的音声認識精度推定装置６００の認識結果単語確率的分類部１２０は、本実施例の識別的音声認識精度推定装置８００においてＣＳＩ分類部１６０及び削除誤り確率的検出部１７０に変更されている。単語特徴量ベクトル作成部９０にて１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）に対して単語特徴量ベクトルを付与するまでの処理（Ｓ６３０、Ｓ４０、Ｓ６０、Ｓ８０、Ｓ９０）は実施例３と同じであるので説明を割愛する。

実施例３では、１−ｂｅｓｔ認識結果単語列中の正味の単語及びε（認識結果単語なし）に対して、同一内容の単語特徴量ベクトルを付与している。しかし実際にはε以外の正味の単語とεに同一内容の単語特徴量ベクトルを付与することは難しい。例えば、ε以外の正味の単語に対しては言語確率を特徴量ベクトルの一次元として付与することが可能であるが、εに対しては付与することはできない（例えば付与できないことをマイナスの確率として表現するようなことしかできない）。また実施例３では１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）を、ひとつの認識結果単語確率的分類部１２０で、正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）、削除誤り（Ｄ）、ε（認識結果単語なし）という５シンボルに分類しているが、分類器の数（ひとつ）に対してシンボル数（５）が多く、高い分類精度を得ることは困難である。

そこで、実施例５では、単語アライメントネットワーク（例えば図９）による分類結果（正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）、削除誤り（Ｄ）、ε（認識結果単語なし）、すなわち実施例１の結果）をある程度正しいものとして考える。すなわち、１−ｂｅｓｔ認識結果単語列中のε以外の正味の単語（図９ではセグメント１、３、４、５、８）は、正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）のいずれかに分類され、εの区間（図９ではセグメント２、６、７）は削除誤り（Ｄ）かεのまま（すなわち削除誤りなし（Ｎｏ−Ｄ））に分類されるものとする。このような考えの下で、１−ｂｅｓｔ認識結果単語列中のε以外の正味の単語とεに、それぞれ別の内容の単語特徴量ベクトルを付与し、それぞれ別の分類部で分類を実行することにする。従って、ＣＳＩ分類部１６０は、１−ｂｅｓｔ認識結果単語列中のε以外の正味の単語を、認識結果単語確率的分類モデルを用いて正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）の３シンボルのいずれかに分類し、各シンボルに対し確率を付与して、ＣＳＩ単語分類結果として出力する（Ｓ１６０）。削除誤り確率的検出部１７０は、１−ｂｅｓｔ認識結果単語列中のεを、削除誤り確率的検出モデルを用いて削除誤り（Ｄ）、削除誤りなし（Ｎｏ−Ｄ、ε）の２シンボルのいずれかに分類し、各シンボルに対し確率を付与して、確率的削除誤り検出結果として出力する（Ｓ１７０）。

別の表現では、ＣＳＩ分類部１６０は、１−ｂｅｓｔ認識結果単語列中のε以外の各単語の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデルとを用いて、１−ｂｅｓｔ認識結果単語列中のε以外の各単語が正解である確率、置換誤りである確率、挿入誤りである確率をセグメント毎に表記したＣＳＩ単語分類結果を生成する（Ｓ１６０）。削除誤り確率的検出部１７０は、１−ｂｅｓｔ認識結果単語列中のεの単語特徴量ベクトルと、予め学習された削除誤り確率的検出モデルとを用いて、１−ｂｅｓｔ認識結果単語列中のεが削除誤りである確率、εである確率をセグメント毎に表記した確率的削除誤り検出結果を生成する（Ｓ１７０）。

この処理手順の具体例を図２２に示す。以下、ＣＳＩ単語分類結果と確率的削除誤り検出結果とを併せて確率的単語分類結果として扱う。実施例３と同様に、確率的認識精度計算部１３０は、これらの確率的単語分類結果を用いて音声認識精度を計算し、計算した音声認識精度を出力する（Ｓ１３０）。

実施例５の識別的音声認識精度推定装置８００によれば、実施例３との比較において、分類器の数に対してシンボル数が少なくなっており、より高精度の分類結果を取得することが可能となる。結果的に確率的認識精度計算部１３０においてより高精度に認識精度推定を行うことが可能となる。

以下、図２３、２４、２５を参照して、実施例５の変形例である実施例６に係る識別的音声認識精度推定装置について詳細に説明する。図２３は本実施例の識別的音声認識精度推定装置１０００の構成を示すブロック図である。図２４は本実施例の識別的音声認識精度推定装置１０００の動作を示すフローチャートである。図２５はＣＳＩ単語分類結果及び削除誤り数毎の削除誤り確率を付与する処理について示す図である。

図２３に示すとおり、本実施例の識別的音声認識精度推定装置１０００は、音声認識部６３０、単語アライメントネットワーク取得部４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部６０、１−ｂｅｓｔ認識結果単語列取得部８０、連結単語特徴量ベクトル作成部１９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、ＣＳＩ分類部１６０、削除誤り確率的検出モデル記憶部１８０、削除誤り数検出部２００、確率的認識精度計算部１３０を備える。実施例５の識別的音声認識精度推定装置８００の単語特徴量ベクトル作成部９０は、本実施例の識別的音声認識精度推定装置１０００において連結単語特徴量ベクトル作成部１９０に変更されている。また、実施例５の識別的音声認識精度推定装置８００の削除誤り確率的検出部１７０は、本実施例の識別的音声認識精度推定装置１０００において削除誤り数検出部２００に変更されている。１−ｂｅｓｔ認識結果単語列取得部８０にて１−ｂｅｓｔ認識結果単語列を取得するまでの処理（Ｓ６３０、Ｓ４０、Ｓ６０、Ｓ８０）は実施例５と同じであるので説明を割愛する。

実施例５では、単語アライメントネットワーク（例えば図９）による分類結果（正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）、削除誤り（Ｄ）、ε（認識結果単語なし）、すなわち実施例１の結果）をある程度正しいものとして考えたため、削除誤りが生じる可能性のある箇所は、元の単語アライメントネットワークのεの区間（図９ではセグメント２、６、７）に限られていた。しかし、実際には削除誤りは、単語アライメントネットワークのεの区間だけでなく、文頭（図９ではセグメント１の前）及び文末（図９ではセグメント８の後）も含めた任意の単語間に複数個出現する可能性がある。

そこで本実施例では、１−ｂｅｓｔ認識結果単語列中の各正味の単語を実施例５と同様にＣＳＩ分類部１６０により正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）の３シンボルに分類するとともに、各正味の単語を基準として、その前の（先行する）正味の単語との間に削除誤りが何個あるかを示す削除誤り確率を、実施例５と同様に削除誤り数検出部２００により検出する。

詳細には、ステップＳ８０の後、連結単語特徴量ベクトル作成部１９０は、正味の単語（ε以外の単語）に対して単語特徴量ベクトルを生成し、当該正味の単語に先行する正味の単語との間に存在するεの単語特徴量ベクトルを生成して、これらの単語特徴量ベクトルを連結して連結単語特徴量ベクトルを取得する（Ｓ１９０）。例えば図２５において、「定額」という正味の単語に注目する（図９ではセグメント３）。まず、連結単語特徴量ベクトル作成部１９０は、この単語に対して、単語特徴量ベクトル（図中白色の矩形）を付与する。次に、連結単語特徴量ベクトル作成部１９０は、「定額」に先行するε（図９ではセグメント２）の単語特徴量ベクトル（図中黒色の矩形）を連結して、「定額」の連結単語特徴量ベクトルを生成する。連結単語特徴量ベクトル作成部１９０は、このような処理を全ての正味の単語について行い、連結単語特徴量ベクトルを取得する（Ｓ１９０）。この連結単語特徴量ベクトルを用いて、実施例５と同様に、ＣＳＩ分類部１６０が、１−ｂｅｓｔ認識結果単語列中の正味の単語を正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）の３シンボルに分類して確率を付与する（Ｓ１６０）。次に、削除誤り数検出部２００は、各正味の単語と先行する正味の単語の間に何個の削除誤りがあるかを示す確率（削除誤り数毎の削除誤り確率）を検出する（Ｓ２００）。図２５の正味の単語「定額」における削除誤り確率的検出結果を見ると、「Ｎｏ−Ｄ（ε）０．１Ｄ１０．７Ｄ２０．２Ｄ３．．．」となっている。これは、「削除誤りなし（Ｎｏ−Ｄ、ε）の確率が０．１、削除誤りがひとつある（Ｄ１）確率が０．７、削除誤りが二つある（Ｄ２）確率が０．２、削除誤りが三つある確率（Ｄ３）が…」という意味である。上述したようにＤｘを削除誤りがｘ個あることを表すシンボルとし、ｐ（Ｄｘ）を削除誤りがｘ個ある確率、ｐ（ε）をεである確率とすれば、以下の等式が成り立つ。

しかしながら、ひとつの単語間における削除誤りの数を無限まで考慮することは現実的ではない。そのため、例えばｘの最大値をｙ−１として、Ｄ’ｙの意味を削除誤りがｙ個以上あることを表すシンボルとし、ｐ（Ｄ’ｙ）を削除誤りがｙ個以上ある確率として、無限までをカバーするのが現実的である。この場合、以下の等式が成り立つ。

ｙ＝１の場合は、

となり、削除誤りの数を数えることをあきらめ、単語間に削除誤りがあるかないかのみを検出する。本実施例では、ＣＳＩ単語分類結果と削除誤り数毎の削除誤り確率とを併せて確率的単語分類結果として扱う。

確率的認識精度計算部１３０は、実施例３、５と同様に、これらの確率的単語分類結果を用いて音声認識精度を計算し、計算した音声認識精度を出力する（Ｓ１３０）。

ただし、この際、削除誤り数Ｅ（＃Ｄ）の計算（式（８））については、少し変更を加える。上記したように、削除誤りに関しては、その数（特に数が多い場合）まで正確に推定することは実際には困難である。このため、現実的には、上記式（１３）で表現されるように、ある単語間に「削除誤りがない（ε）」か、「削除誤りが一つある（Ｄ１）」か、「削除誤りが二つある（Ｄ２）」か，．．．，「削除誤りがｙ個以上ある（Ｄ’ｙ）」か、というような分類を行う。そしてこの分類結果から削除誤り数を計算する際には、「削除誤りがｙ個以上ある（Ｄ’ｙ）」を「削除誤りがｙ個ある（Ｄｙ）」として、以下の式により、削除誤り数Ｅ（＃Ｄ）の計算を行う。

ここで、ｎは正味の単語間のＩＤ、Ｄ_ｎ，ｘは単語間ｎの削除誤り数がｘ個であること、ｐ（Ｄ_ｎ，ｘ）はＤ_ｎ，ｘの確率を表す。

また、上記では各正味の単語を基準として、その前の（先行する）正味の単語との間に削除誤りが何個あるかを検出するものとしたが、各正味の単語を基準として、その後ろの（後続する）正味の単語との間に削除誤りが何個あるかを検出するものとしてもよい。あるいはこれらを両方行って、得られた検出結果確率を平均してもよい。

本実施例の識別的音声認識精度推定装置１０００によれば実施例５では不可能であった任意の単語間に複数個出現する可能性のある削除誤りの検出が可能となる。
（参考非特許文献１）L. Mangu, E. Brill and A. Stolcke, “Finding consensus in speech recognition: word error minimization and other applications of confusion networks,” Computer Speech and Language, vol. 14, pp. 373-400, 2000.
（参考非特許文献２）L. Zhou, Y. Shi, D. Zhang and A. Sears, "Discovering cues to error detection in speech recognition output: a user-centered approach,"Journal of Management Information Systems," Spring 2006, vol. 22, no. 4, pp. 237-270.
（参考非特許文献３）J. Lafferty, A. McCallum and F. Pereira, “Conditional random fields: probabilistic models for segmenting and labeling sequence data,”Proc. ICML, pp. 282-289, 2001.

なお、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力された音声を音声認識して、当該音声認識結果を出力する音声認識部と、
前記音声認識結果から得られる情報に基づいて単語特徴量ベクトルを作成する単語特徴量ベクトル作成部と、
前記音声認識結果の何れかのセグメントにおいて何れの認識結果単語も存在しない確率をε（εはセグメント内に認識結果単語が存在しないことを示す記号、以下同じ）の存在確率と表記するものとし、セグメント内で最大の存在確率を持つ単語を連結して生成した単語列（以下、１−ｂｅｓｔ認識結果単語列という）中のεを含む各単語の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のεを含む各単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率をセグメント毎に表記した確率的単語分類結果を生成する認識結果単語確率的分類部とを備え、
前記確率的単語分類結果を用いて音声認識精度を計算すること、
を特徴とする識別的音声認識精度推定装置。
入力された音声を音声認識して、当該音声認識結果を出力する音声認識部と、
前記音声認識結果から得られる情報に基づいて単語特徴量ベクトルを作成する単語特徴量ベクトル作成部と、
前記音声認識結果の何れかのセグメントにおいて何れの認識結果単語も存在しない確率をε（εはセグメント内に認識結果単語が存在しないことを示す記号、以下同じ）の存在確率と表記するものとし、セグメント内で最大の存在確率を持つ単語を連結して生成した単語列（以下、１−ｂｅｓｔ認識結果単語列という）中のε以外の各単語の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語が正解である確率、置換誤りである確率、挿入誤りである確率をセグメント毎に表記したＣＳＩ単語分類結果を生成するＣＳＩ分類部と、
前記１−ｂｅｓｔ認識結果単語列中のεの単語特徴量ベクトルと、予め学習された削除誤り確率的検出モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のεが削除誤りである確率、εである確率をセグメント毎に表記した確率的削除誤り検出結果を生成する削除誤り確率的検出部とを備え、
前記ＣＳＩ単語分類結果と前記確率的削除誤り検出結果とを確率的単語分類結果として用いて音声認識精度を計算すること、
を特徴とする識別的音声認識精度推定装置。
入力された音声を音声認識して、当該音声認識結果を出力する音声認識部と、
前記音声認識結果の何れかのセグメントにおいて何れの認識結果単語も存在しない確率をε（εはセグメント内に認識結果単語が存在しないことを示す記号、以下同じ）の存在確率と表記するものとし、セグメント内で最大の存在確率を持つ単語を連結して生成した単語列（以下、１−ｂｅｓｔ認識結果単語列という）中のε以外の各単語の単語特徴量ベクトルを生成し、前記ε以外の各単語と、当該ε以外の各単語に先行するε以外の各単語との間に存在するεの単語特徴量ベクトルを生成して、これらの単語特徴量ベクトルを連結して連結単語特徴量ベクトルを生成する連結単語特徴量ベクトル作成部と、
前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語の連結単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語が正解である確率、置換誤りである確率、挿入誤りである確率をセグメント毎に表記したＣＳＩ単語分類結果を生成するＣＳＩ分類部と、
前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語の連結単語特徴量ベクトルと、予め学習された削除誤り確率的検出モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語と、当該ε以外の各単語に先行するε以外の各単語との間に何個の削除誤りがあるかを示す確率（以下、削除誤り数毎の削除誤り確率という）を生成する削除誤り確率的検出部とを備え、
前記ＣＳＩ単語分類結果と前記削除誤り数毎の削除誤り確率とを確率的単語分類結果として用いて音声認識精度を計算すること、
を特徴とする識別的音声認識精度推定装置。
入力された音声を音声認識して、当該音声認識結果を出力する音声認識ステップと、
前記音声認識結果から得られる情報に基づいて単語特徴量ベクトルを作成する単語特徴量ベクトル作成ステップと、
前記音声認識結果の何れかのセグメントにおいて何れの認識結果単語も存在しない確率をε（εはセグメント内に認識結果単語が存在しないことを示す記号、以下同じ）の存在確率と表記するものとし、セグメント内で最大の存在確率を持つ単語を連結して生成した単語列（以下、１−ｂｅｓｔ認識結果単語列という）中のεを含む各単語の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のεを含む各単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率をセグメント毎に表記した確率的単語分類結果を生成する認識結果単語確率的分類ステップとを有し、
前記確率的単語分類結果を用いて音声認識精度を計算すること、
を特徴とする識別的音声認識精度推定方法。
入力された音声を音声認識して、当該音声認識結果を出力する音声認識ステップと、
前記音声認識結果から得られる情報に基づいて単語特徴量ベクトルを作成する単語特徴量ベクトル作成ステップと、
前記音声認識結果の何れかのセグメントにおいて何れの認識結果単語も存在しない確率をε（εはセグメント内に認識結果単語が存在しないことを示す記号、以下同じ）の存在確率と表記するものとし、セグメント内で最大の存在確率を持つ単語を連結して生成した単語列（以下、１−ｂｅｓｔ認識結果単語列という）中のε以外の各単語の単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語が正解である確率、置換誤りである確率、挿入誤りである確率をセグメント毎に表記したＣＳＩ単語分類結果を生成するＣＳＩ分類ステップと、
前記１−ｂｅｓｔ認識結果単語列中のεの単語特徴量ベクトルと、予め学習された削除誤り確率的検出モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のεが削除誤りである確率、εである確率をセグメント毎に表記した確率的削除誤り検出結果を生成する削除誤り確率的検出ステップとを有し、
前記ＣＳＩ単語分類結果と前記確率的削除誤り検出結果とを確率的単語分類結果として用いて音声認識精度を計算すること、
を特徴とする識別的音声認識精度推定方法。
入力された音声を音声認識して、当該音声認識結果を出力する音声認識ステップと、
前記音声認識結果の何れかのセグメントにおいて何れの認識結果単語も存在しない確率をε（εはセグメント内に認識結果単語が存在しないことを示す記号、以下同じ）の存在確率と表記するものとし、セグメント内で最大の存在確率を持つ単語を連結して生成した単語列（以下、１−ｂｅｓｔ認識結果単語列という）中のε以外の各単語の単語特徴量ベクトルを生成し、前記ε以外の各単語と、当該ε以外の各単語に先行するε以外の各単語との間に存在するεの単語特徴量ベクトルを生成して、これらの単語特徴量ベクトルを連結して連結単語特徴量ベクトルを生成する連結単語特徴量ベクトル作成ステップと、
前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語の連結単語特徴量ベクトルと、予め学習された認識結果単語確率的分類モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語が正解である確率、置換誤りである確率、挿入誤りである確率をセグメント毎に表記したＣＳＩ単語分類結果を生成するＣＳＩ分類ステップと、
前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語の連結単語特徴量ベクトルと、予め学習された削除誤り確率的検出モデルとを用いて、前記１−ｂｅｓｔ認識結果単語列中のε以外の各単語と、当該ε以外の各単語に先行するε以外の各単語との間に何個の削除誤りがあるかを示す確率（以下、削除誤り数毎の削除誤り確率という）を生成する削除誤り確率的検出ステップとを有し、
前記ＣＳＩ単語分類結果と前記削除誤り数毎の削除誤り確率とを確率的単語分類結果として用いて音声認識精度を計算すること、
を特徴とする識別的音声認識精度推定方法。
コンピュータを、請求項１から３のいずれかに記載の識別的音声認識精度推定装置として機能させるためのプログラム。