JP6473112B2

JP6473112B2 - 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム

Info

Publication number: JP6473112B2
Application number: JP2016158818A
Authority: JP
Inventors: 小川　厚徳; 厚徳小川; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2019-02-20
Anticipated expiration: 2036-08-12
Also published as: JP2018025717A

Description

本発明は、音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラムに関する。

音声認識は、人間が発した音声を計算機により単語列（テキスト）に変換する技術である。音声認識の精度は、正解単語列と認識結果単語列のアライメントとのＤＰマッチング（Dynamic Programming：動的計画法）の実行により取得することによって計算できる。

図２２は、ＤＰマッチングによる正解単語列と認識結果単語列のアライメント結果例とを示す図である。単語列のアライメントとは、二つの単語列が与えられたときに、それらが最も適合（一致、マッチ）するように照合を行った結果のことを言う。この図に示されるように、認識結果単語は以下の４種類に分類される。

すなわち、１．正解Ｃ（Correct）、２．置換誤りＳ（正解単語を他の単語に置き換えて誤る間違い；Substitution_error）、３．挿入誤りＩ（本来単語がない箇所に単語が挿入される誤り；Insertion_error）、４．削除誤りＤ（本来単語がある箇所に単語がない誤り；Deletion_error）の４種類である。ここで、認識結果単語列中の単語数を＃Ｎ、認識結果単語列中の正解単語数を＃Ｃ、置換誤り単語数を＃Ｓ、挿入誤り単語数を＃Ｉ、削除誤り単語数を＃Ｄとすると、音声認識精度は、以下の（１）式及び（２）式で示す２種類の尺度（単語正解率、単語正解精度）で表わされる。

ここで、＃Ｎ＝＃Ｃ＋＃Ｓ＋＃Ｄである。（１）式の単語正解率と（２）式の単語正解精度との違いは、挿入誤りを考慮するか否かであり、挿入誤りを考慮する分だけ、単語正解率よりも単語正解精度の方が厳しい尺度と言える。図２２の例では、＃Ｎ＝１３、＃Ｃ＝１０、＃Ｓ＝２、＃Ｉ＝１、＃Ｄ＝１である。このため、（１）式及び（２）式にそれぞれ適用すると、以下の（３）式及び（４）式のように、単語正解率及び単語正解精度を算出できる。

この単語正解率と単語正解精度とのどちらを使用するべきかについては、どのような音声認識応用システムを構築するかによるが、通常は、単語正解精度が使用されることが多い。また、音声認識精度は、上記したように、一つの発声に対する一つの認識結果単語列に対して計算することもできる他、複数発声に対する複数の認識結果単語列に対して、＃Ｎ、＃Ｃ、＃Ｓ、＃Ｉ、＃Ｄをまとめて数え上げて計算することも多い。この場合には、一つ一つの認識結果単語列に対して、単語正解率／単語正解精度を求めてそれらを平均するのではなく、一つ一つの認識結果単語列に対して、＃Ｎ、＃Ｃ、＃Ｓ、＃Ｉ、＃Ｄを数え上げて、それらそれぞれを全認識結果単語列に渡り加算して、最後に単語正解率／単語正解精度を計算する。

以上において、音声認識精度の計算方法について述べたが、実際の音声認識応用システムの実使用場面では、入力音声に対する正解単語列は準備されていない。したがって、音声認識応用システムの実使用場面では、正解単語列を用いて、認識結果単語列の精度を計算することはできない。

そこで、音声認識において、正解単語列を使わずに認識精度を推定することが重要である。例えば、ユーザが音声ワープロを用いて文書を作成する場面を想定する。このときユーザのある発声の認識結果の精度が低いと推定される場合は、その認識結果をそのまま表示するより、ユーザに同じ内容を再度発声するように促した方が、ユーザにとっては親切である。また、音声認識精度そのものを向上させる技術として、教師なし適応技術がある。この技術では、精度が比較的高いと推定される認識結果を用いて、後述する音響モデルや言語モデルの適応を行う。

従来、この音声認識精度を推定する装置が提案されている（例えば、特許文献１〜３参照）。この音声認識精度推定装置は、一つの発話に対する一つの認識結果単語列中の各単語に対し、正解（Ｃ）である確率、置換誤り（Ｓ）である確率、挿入誤り（Ｉ）である確率を推定する。

図２３は、従来の音声認識精度推定装置による推定結果の一例を示す図である。図２３に示すように、従来の音声認識精度推定装置は、一つの発話に対する一つの認識結果単語列中の各単語ｗ_ｊ（ｊ=１，２，・・・，Ｊ：Ｊは、認識結果単語列中の単語数である。）が正解（Ｃ）である確率Ｐ（Ｃ_ｊ）、置換誤り（Ｓ）である確率Ｐ（Ｓ_ｊ）、挿入誤り（Ｉ）である確率Ｐ（Ｉ_ｊ）を推定する。なお、Ｐ（Ｃ_ｊ）＋Ｐ（Ｓ_ｊ）＋Ｐ（Ｉ_ｊ）=１である。そして、従来の音声認識精度推定装置は、（Ｊ＋１）番目のダミーの単語として、文末単語を考慮し、ｗ_ｊに先行する単語「間」（ｗ_{｛ｊ−１｝}とｗ_ｊとの間）に、削除誤りが存在する確率Ｐ（Ｄ_ｊ）（ｊ＝１，２，・・・，ｊ＋１）を推定する。

なお、ここでは、ｗ_ｊを基準として、ｗ_ｊに「先行」する単語間に存在する削除誤りを考えているが、これに限らず、ｗ_ｊに「後続」する単語間に存在する削除誤りを考えてもよい。両者の違いは、単語間を指し示す際に、どの単語を基準に考えるかであり、両者に本質的な違いはない。また、一つの単語間に複数の削除誤りが存在する可能性があり、そのような場合には、Ｐ（Ｄ_ｊ）の値が１より大きくなることもある。したがって、厳密には、Ｐ（Ｄ_ｊ）は確率値とは言えないが、ここでは便宜的に確率値と呼ぶ。このように推定したＣＳＩＤの確率値をそのままＣＳＩＤの個数とみなし、それぞれを全認識結果単語列に渡り加算した上で、単語正解率及び単語正解精度を算出する。

例えば、特許文献１記載の音声認識精度推定装置では、単語アライメントネットワークに基づいて音声認識精度の推定を実行する。この単語アライメントネットワークは、認識結果単語列の一表現形式である単語コンフュージョンネットワークに、簡単な変換処理を施すことで得ることができる。

また、特許文献２，３に記載の音声認識精度推定装置では、単語アライメントネットワークに基づく音声認識精度推定結果を、認識結果単語確率的分類モデルを用いて補正する。この特許文献２，３に記載の音声認識精度推定装置では、単語アライメントネットワークにより単語ごとに推定されたＣＳＩＤ確率を、認識結果単語確率的分類モデルを用いてより精度の高いＣＳＩＤ確率に補正した上で、音声認識精度を算出する。このため、特許文献２，３に記載の音声認識精度推定装置によれば、特許文献１に記載の音声認識精度推定装置よりも高い精度で音声認識精度推定を行うことが可能である。

特許第５６７９３４５号特許第５６７９３４６号特許第５７４０３６８号

ここで、一般的に音声認識精度推定装置は、自身が出力した認識結果単語列に対して、高めの評価値（スコア）を与える傾向にある。すなわち、特許文献１に記載の音声認識精度推定装置のように、単語アライメントネットワークから、認識結果単語列中の単語ｗ_ｊに対するＣＳＩの各確率値を推定する場合も、Ｐ（Ｃ_ｊ）の方が、Ｐ（Ｄ_ｊ）またはＰ（Ｉ_ｊ）よりも高く推定される傾向にある。そして、Ｐ（Ｃ_ｊ）＋Ｐ（Ｓ_ｊ）＋Ｐ（Ｉ_ｊ）＝１の拘束があるため、Ｐ（Ｃ_ｊ）が高く推定されると、相対的に、Ｐ（Ｓ_ｊ）とＰ（Ｉ_ｊ）とは低く推定される。

したがって、特許文献１に記載の音声認識精度推定装置による実際の推定結果は、真の単語正解精度からのずれが大きい場合があることが分かっている。また、特許文献２，３に記載の音声認識精度推定装置では、認識結果単語確率的分類モデルは、比較的大量のデータベースを用いて学習する必要がある。このため、特許文献２，３に記載の音声認識精度推定装置において、学習データ量が少ない場合には、十分な補正を行うことが困難になる。したがって、特許文献２，３に記載の音声認識精度推定装置のように、認識結果単語確率的分類モデルで補正したとしても、特許文献１に記載の音声認識精度推定装置と同等の精度の推定結果しか得られない場合もある。

本発明は、上記に鑑みてなされたものであって、音声認識精度を精度よく推定できる音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る音声認識精度推定装置は、入力された音声を音声認識し、認識された単語である認識結果単語ごとに、正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りである確率を示す単語アライメントネットワークに基づいて音声認識精度を推定する音声認識精度推定部と、前記音声認識精度を回帰式により補正する補正部と、補正後の音声認識精度が、０％未満である場合には、前記補正後の音声認識精度を０％に補正し、１００％より大きい場合には前記補正後の音声認識精度を１００％に補正する精度補正部と、を有することを特徴とする。

本発明によれば、音声認識精度を精度よく推定できる。

図１は、実施の形態１における音声認識精度推定装置の構成の一例を模式的に示す図である。図２は、図１に示す音声認識精度推定部の構成を示すブロック図である。図３は、図２に示す単語アライメントネットワーク取得部の構成を示すブロック図である。図４は、図１に示す音声認識精度推定装置が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。図５は、図１に示す音声認識精度推定部から出力された単語正解精度と、真の単語正解精度との対応関係を示す図である。図６は、図１に示す音声認識精度推定装置から出力された単語正解精度と、真の単語正解精度との対応関係を示す図である。図７は、図１に示す音声認識精度推定部の他の構成を示すブロック図である。図８は、図１に示す音声認識精度推定部の他の構成を示すブロック図である。図９は、図８に示す音声認識部の構成を示すブロック図である。図１０は、図１に示す音声認識精度推定部の他の構成を示すブロック図である。図１１は、図１に示す音声認識精度推定部の他の構成を示すブロック図である。図１２は、図１に示す音声認識精度推定部の他の構成を示すブロック図である。図１３は、実施の形態２における音声認識精度推定装置の構成の一例を模式的に示す図である。図１４は、図１３に示す音声認識精度推定装置が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。図１５は、実施の形態３における音声認識精度推定装置の構成の一例を模式的に示す図である。図１６は、図１５に示す音声認識精度推定装置が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。図１７は、実施の形態４における音声認識精度推定装置の構成の一例を模式的に示す図である。図１８は、図１７に示す音声認識精度推定装置が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。図１９は、実施の形態５における音声認識精度推定装置の構成の一例を模式的に示す図である。図２０は、図１９に示す音声認識精度推定装置が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。図２１は、プログラムが実行されることにより、音声認識精度推定装置が実現されるコンピュータの一例を示す図である。図２２は、ＤＰマッチングによる正解単語列と認識結果単語列のアライメント結果例とを示す図である。図２３は、従来の音声認識精度推定装置による推定結果の一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態１］
本発明の実施の形態１について説明する。本発明の実施の形態１では、音声認識精度推定部からの出力に対して回帰分析に基づく補正を施すことによって、高精度な最終的な推定音声認識精度の出力を実現する。

［音声認識精度推定装置の構成］
まず、実施の形態１に係る音声認識精度推定装置の構成について説明する。図１は、実施の形態１における音声認識精度推定装置の構成の一例を模式的に示す図である。

図１に示すように、実施の形態１に係る音声認識精度推定装置１０は、例えばＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。図１に示すように、音声認識精度推定装置１０は、音声認識精度推定部４００、補正部１２、係数記憶部１３及び不正推定精度補正部１４（精度補正部）を有する。

音声認識精度推定部４００は、入力された音声を音声認識し、認識された単語である認識結果単語ごとに正解確率、置換誤り確率、挿入誤り確率及び削除誤り確率を示す単語アライメントネットワークを用いて音声認識精度を推定し、推定した推定音声認識精度ｘを出力する。この単語アライメントネットワークは、認識結果単語が複数集まった認識結果単語列の一表現形式である単語コンフュージョンネットワークに、簡単な変換処理を施すことで得ることができる。なお、後述するセグメントは、単語区間に相当するため、認識結果単語と同義と言える。

図２は、音声認識精度推定部４００の構成を示すブロック図である。図２に示すように、音声認識精度推定部４００は、音声認識部４３０、単語アライメントネットワーク取得部４４０及び確率的認識精度計算部４５０を有する。

音声認識部４３０は、入力音声を音声認識し、認識結果を、単語コンフュージョンネットワークと呼ばれる複数の認識結果単語列をコンパクトに確率的に表現した形式で得る（詳細は、L. Mangu, E. Brill and A. Stolcke, “Finding consensus in speech recognition: word error minimization and other applications of confusion networks”， Computer Speech and Language, vol. 14, pp. 373-400, 2000.参照）。そして、音声認識部４３０は、音声認識の過程において、ディジタル音声信号の特徴量ベクトルの時系列への変換や、音響モデルと言語モデルとを用いた尤度計算等の処理を行う。

単語コンフュージョンネットワークは、セグメントごとにいずれかの認識結果単語が存在する確率、及び、いずれかの認識結果単語も存在しない確率（以下、εの存在確率という。）を表示する。例えば、単語コンフュージョンネットワークでは、そのセグメントに、認識結果として存在し得る複数の単語がアーク（弧）として記述されたものであり、セグメント境界では、各アークは、ノード（節）で束ねられている。

この場合、セグメントに対し、認識結果として存在し得る単語として、実際の単語のほかεも含まれる。ただし、εは、前述したように、このセグメントには認識結果単語は存在しないということを示す。そして、最初のセグメントから最後のセグメントまで、εも含めて、存在し得る単語の数を乗算した数が、この単語コンフュージョンネットワークが表現し得る認識結果単語列の種類数となる。各セグメントの中には確率値が付与されており、これらの値は、各単語がそのセグメント中に存在し得る確率を示す。なお、これらの確率は加算すると１となる。

ここで、ある入力音声を音声認識して得られる単語コンフュージョンネットワーク中のセグメント数をＪ、ｊ番目のセグメントをＱ_ｊ（ｊ＝１，２，・・・，Ｊ）、Ｑ_ｊに存在し得る単語数をＷ_ｊ，ｋ（ｋ＝１，２，・・・，Ｋ）、それらの存在確率をＰ（Ｗ_ｊ，ｋ）とすることによって、この単語コンフュージョンネットワークで表される認識結果単語列種類数は、以下の（５）式となる。

また、以下の（６）式が成り立つ。

そして、単語アライメントネットワーク取得部４３１は、音声認識部４３０から出力された単語コンフュージョンネットワークを単語アライメントネットワークに変換する。単語アライメントネットワークは、いずれかのセグメントにおいて、εが最大存在確率とならない場合に、最大存在確率を有する単語の存在確率を、当該セグメントにおける正解確率とし、当該セグメントにおける最大存在確率を有しないε以外の単語の存在確率の合計を当該セグメントにおける置換誤り確率とし、当該セグメントにおけるεの存在確率を当該セグメントにおける挿入誤り確率とし、いずれかのセグメントにおいてεが最大存在確率となる場合に、当該セグメントにおける最大存在確率を有しない単語の存在確率の合計を当該セグメントにおける削除誤り確率として、セグメントごとに、正解／置換誤り／挿入誤り／削除誤りの確率を示したものである。

このように、単語アライメントネットワークとは、このアライメント結果を示すものであり、基になる単語コンフュージョンネットワークが複数の認識結果単語列を確率的に表現するものであることから、単語アライメントネットワークは、複数のアライメント結果を示すものとなる。

単語アライメントネットワーク取得部４４０は、一つの発話に対する一つの認識結果単語列中の各単語ｗ_ｊ（ｊ=１，２，・・・，Ｊ：Ｊは、認識結果単語列中の単語数である。）が、正解（Ｃ）である確率Ｐ（Ｃ_ｊ）、置換誤り（Ｓ）である確率Ｐ（Ｓ_ｊ）、挿入誤り（Ｉ）である確率Ｐ（Ｉ_ｊ）を推定する。なお、Ｐ（Ｃ_ｊ）＋Ｐ（Ｓ_ｊ）＋Ｐ（Ｉ_ｊ）＝１である。そして、単語アライメントネットワーク取得部４４０は、（Ｊ＋１）番目のダミーの単語として、文末単語を考慮し、ｗ_ｊに先行する単語「間」（ｗ_{（ｊ−１）}とｗ_ｊとの間）に、削除誤りが存在する確率Ｐ（Ｄ_ｊ）（ｊ＝１，２，・・・，ｊ＋１）を推定する。

ここでは、ｗ_ｊを基準として、ｗ_ｊに「先行」する単語間に存在する削除誤りを考えているが、これに限らず、ｗ_ｊに「後続」する単語間に存在する削除誤りを考えてもよい。両者の違いは、単語間を指し示す際に、どの単語を基準に考えるかであり、両者に本質的な違いはない。また、一つの単語間に複数の削除誤りが存在する可能性があり、そのような場合には、Ｐ（Ｄ_ｊ）の値が１より大きくなることもある。したがって、厳密には、Ｐ（Ｄ_ｊ）は確率値とは言えないが、ここでは便宜的に確率値と呼ぶ。

図３は、単語アライメントネットワーク取得部４４０の構成を示すブロック図である。図３に示すように、単語アライメントネットワーク取得部４４０は、１−ｂｅｓｔ認識結果単語列取得部４４１、正解確率計算部４４２、置換誤り確率計算部４４３、挿入誤り確率計算部４４４及び削除誤り確率計算部４４５を有する。

１−ｂｅｓｔ認識結果単語列取得部４４１は、単語コンフュージョンネットワークから１−ｂｅｓｔ認識結果単語列を取得する。ここで、一つの単語コンフュージョンネットワーク中の各セグメントで最大の存在確率を持つ単語を連結したものを１−ｂｅｓｔ認識結果単語列という。通常の場合、１−ｂｅｓｔ認識結果単語列は、最終的な音声認識結果単語列である。なお、単語コンフュージョンネットワークを介さずに、最終的な音声認識結果単語列を得る方法もある。

正解確率計算部４４２は、得られた１−ｂｅｓｔ認識結果単語が、正味の単語である場合には、当該εでない１−ｂｅｓｔ認識結果単語を、セグメントｊにおける正解単語を表す単語アライメント結果シンボルＣ_ｊ（ｊはセグメント番号）に変え、当該１−ｂｅｓｔ認識結果単語の存在確率を正解確率であるＰ（Ｃ_ｊ）として付与する。

置換誤り確率計算部４４３は、εでない１−ｂｅｓｔ認識結果単語が実は正解単語ではなく、これに競合、対立する認識結果単語（εではない）が正解単語である場合には、対立する認識結果単語（εではない）を一つに束ねて置換誤りを表す単語アライメント結果シンボルＳ_ｊとし、置換誤り確率Ｐ（Ｓ_ｊ）を、εでない対立候補の存在確率の和として付与する。これは、εでない１−ｂｅｓｔ認識結果単語に競合、対立する認識結果単語（εではない）が正解単語であるとすると、１−ｂｅｓｔ認識結果単語は置換誤り（Substitution_error）となるためである。

挿入誤り確率計算部４４４は、εでない１−ｂｅｓｔ認識結果単語が、実は正解単語ではなくε（単語なし）が正しい場合には、このεを、挿入誤りを表す単語アライメント結果シンボルに変え、挿入誤り確率Ｐ（Ｉ_ｊ）をＰ（ε）として付与する。このεでない１−ｂｅｓｔ認識結果単語は挿入誤り（Insertion_error）となるためである。

一方、１−ｂｅｓｔ認識結果単語がεである場合、このεと競合（対立）する認識結果単語が存在する場合には、ε、すなわち、「単語なし」が実は正しくなく、このセグメントに他のεでない対立候補が存在するのが正しいとすると、このεは、削除誤り（Delition_error）となる。よって、削除誤り確率計算部４４５は、他のεでない対立候補を一つに束ねて削除誤りを表す単語アライメント結果シンボルＤ_ｊとし、削除誤り確率Ｐ（Ｄ_ｊ）を、εでない対立候補の存在確率の和として付与する。

そして、図２に戻り、確率的認識精度計算部４５０は、単語アライメントネットワーク取得部４４０から出力された単語アライメントネットワークを入力として、音声認識精度を計算し、出力する。確率的認識精度計算部４５０は、単語アライメントネットワーク上の各セグメント中の各単語アライメント結果シンボルの確率値を加算することで計算する。

まず、確率的認識精度計算部４５０は、単語アライメントネットワーク取得部４４０が推定したＣＳＩＤの確率値を、そのままＣＳＩＤの個数とみなして、正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ）、正解単語列中の単語数の推定値Ｅ（＃Ｎ）を、それぞれ以下に示す（７）〜（１１）式を用いて求める。なお、ｊ番目のセグメントをＱ_ｊ（ｊ＝１，２，・・・，Ｊ）、Ｑ_ｊに存在し得る単語アライメント結果シンボルをＡ_ｊ（Ａ＝Ｃ／Ｓ／Ｉ／Ｄ（なお、「／」は「または」の意味である。））、その存在確率をＰ（Ａ_ｊ）とする。

０以上の整数である＃Ｃ，＃Ｓ，＃Ｄ，＃Ｉとは異なり、これらのＥ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｉ），Ｅ（＃Ｄ），Ｅ（＃Ｎ）は、小数点以下の数値を取り得る。また、Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｉ），Ｅ（＃Ｄ），Ｅ（＃Ｎ）は、それぞれの認識結果単語列に含まれるＣＳＩＤの数、及び、単語数Ｎの推定値となる。確率的認識精度計算部４５０は、これらの値を得ることによって、以下の（１２）式及び（１３）式を用いて、認識結果単語列の単語正解率と、単語正解精度とを求めることができる。

前述の図２３の例の場合、確率的認識精度計算部４５０は、Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｉ），Ｅ（＃Ｄ），Ｅ（＃Ｎ）を、以下の（１４）〜（１８）式に示すように、推定できる。

したがって、確率的認識精度計算部４５０は、図２３の例に対して、認識結果単語列の単語正解率と、単語正解精度とを、以下の（１９），（２０）式を用いて推定する。確率的認識精度計算部４５０は、（１９），（２０）式を用いて推定した単語正解率或いは単語正解精度を、推定音声認識精度ｘとして、補正部１２に出力する。

なお、この例では、一つの認識結果単語列の音声認識精度を推定したが、上記の通り、複数発声に対する複数の認識結果単語列に対して、Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｉ），Ｅ（＃Ｄ），Ｅ（＃Ｎ）を推定して、その複数の認識結果単語列に対する音声認識精度を推定することもある。この後者の例の方が多い。そして、以下では、音声認識精度を推定する対象を、音声認識精度推定単位と呼ぶ。上記の通り、一つの認識結果単語列が音声認識精度推定単位となることがある。また、複数の講演を含む講演音声コーパスを用いた音声認識を例とし、講演ごとに音声認識精度を推定するのであれば、「講演」が音声認識精度推定単位となる。

続いて、図１に戻り、補正部１２について説明する。補正部１２は、以下の（２１）式に示す単回帰式により、音声認識精度推定部４００から出力された元の推定音声認識精度ｘを、推定音声認識精度ｙに補正する。

なお、予め、本実施の形態１では、学習データとして準備されたＮ個のｘとｙとのペア（ｘ_ｎ，ｙ_ｎ）（ｎ＝１，２，・・・，Ｎ）を基に、最小二乗法により、解析的に、以下の（２２），（２３）式から係数（ａ，ｂ）が求められている。補正処理に使用する係数は、音声認識精度推定装置１０が求めてもよく、他の装置が求めたものを音声認識精度推定装置１０が取得してもよい。

そして、係数記憶部１３は、上記（２２），（２３）式を用いて予め求められた係数（ａ，ｂ）を記憶する。

ここで、（２２），（２３）式を用いて求めた係数（ａ，ｂ）を用いて、（２１）式によってｘをｙに補正した場合、ｙが不正な値を取ることもあり得る。例えば、不正な値とは、（１）式で定義される単語正解率である場合には、０％より小さな値、または、１００％より大きな値である。

このため、不正推定精度補正部１４は、補正の結果として、ｙが０％より小さな値を取った場合には、ｙの値を０％に補正する。また、不正推定精度補正部１４は、ｙが１００％より大きな値を取った場合には、ｙの値を１００％にさらに補正する。またｙが（２）式で定義される単語正解精度である場合には、不正な値は、１００％より大きな値である(（２）式での定義より、単語正解精度は０％よりも小さな値を取り得る)。このため、不正推定精度補正部１４は、補正の結果としてｙが１００％より大きな値を取った場合には、ｙの値を１００％にさらに補正する。不正推定精度補正部１４は、ｙの値をさらに補正した結果を、最終的な推定音声認識精度として出力する。

［音声認識精度推定装置の処理手順］
次に、音声認識精度推定装置１０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理について説明する。図４は、図１に示す音声認識精度推定装置１０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。

まず、音声認識精度推定装置１０では、音声認識精度推定部４００が、音声入力を受け付け（ステップＳ１１）、入力された音声に対して、単語アライメントネットワークに基づいて音声認識精度の推定を実行し、推定音声認識精度ｘを出力する音声認識精度推定処理を行う（ステップＳ１２）。

続いて、補正部１２は、単回帰式により、音声認識精度推定部４００から出力された元の推定音声認識精度ｘを、推定音声認識精度ｙに補正する単回帰式による補正処理を行う（ステップＳ１３）。そして、不正推定精度補正部１４は、ｙが０％より小さな値を取った場合にはｙの値を０％に補正し、ｙが１００％より大きな値を取った場合にはｙの値を１００％にさらに補正する不正推定精度補正処理を行い（ステップＳ１４）、最終的な推定音声認識精度を出力する（ステップＳ１５）。

［実施の形態１の効果］
ここで、音声認識精度推定部４００から出力された推定音声認識精度である、３０個の講演を含む講演音声コーパスに対する音声認識結果に対し、音声認識精度推定単位を講演として、音声認識精度を推定した結果について例示する。図５は、音声認識精度推定部４００から出力された単語正解精度と、真の単語正解精度との対応関係を示す図である。図５では、横軸に、人手で作成した正解文を用いて算出した真の単語正解精度を示し、縦軸に、音声認識精度推定部４００から出力された単語正解精度を示す。

この図５に示すように、対角線上に音声認識精度推定部４００による推定結果が分布すれば、高い精度で音声認識精度推定が実現されていることになるものの、音声認識精度推定部４００による実際の推定結果は、特に真の単語正解精度が低い領域において、真の単語正解精度からのずれが大きい。また、図５に示すように、音声認識精度推定部４００による実際の推定結果は、対角線上ではないものの、ほぼ直線上に分布することが多いことが分かる。

そこで、本実施の形態１では、補正部１２において、単回帰式により、音声認識精度推定部４００から出力された推定音声認識精度ｘを、推定音声認識精度ｙに補正している。

図６は、音声認識精度推定装置１０から出力された単語正解精度と、真の単語正解精度との対応関係を示す図である。図６に示すように、音声認識精度推定装置１０により補正された推定音声認識精度は、ほぼ対角線上に分布しており、高精度な補正が行えていることが分かる。

このように、本実施の形態１によれば、回帰式により、音声認識精度推定部４００から出力された推定音声認識精度を補正することによって、音声認識精度を精度よく推定できる。

なお、図３及び図４の例では、音声認識精度推定単位は、「講演」であったが、一つの発話(一つの認識結果単語列)としてもよいし、他の単位であってもよい。

［変形例１］
実施の形態１においては、音声認識精度推定装置として、音声認識精度推定部４００を有する構成を例として説明したが、音声認識精度推定部４００に代えて、図７に示す音声認識精度推定部５００を有する構成であってもよい。図７は、音声認識精度推定部の他の構成を示すブロック図である。

図７に示すように、音声認識精度推定部５００は、音声認識部４３０、単語アライメントネットワーク取得部４４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部５６０及び認識精度計算部５７０を有する。

１−ｂｅｓｔ単語アライメント結果シンボル列取得部５６０は、単語アライメントネットワークを１−ｂｅｓｔ単語アライメントシンボル列に変換する。１−ｂｅｓｔ単語アライメントシンボル列とは、単語アライメントネットワークにおいて、いずれのセグメントにおける最大確率が正解確率である場合にシンボルＣ、いずれかのセグメントにおける最大確率が置換誤り確率である場合にシンボルＳ、いずれかのセグメントにおける最大確率が挿入誤り確率である場合にシンボルＩ、いずれかのセグメントにおける最大確率が削除誤り確率である場合にシンボルＤを、セグメントごとに付与して連結したものである。

１−ｂｅｓｔ単語アライメント結果シンボル列への変換処理は、上記した単語コンフュージョンネットワークから、１−ｂｅｓｔ認識結果単語列を得る処理と同じで、単語アライメントネットワーク上の各セグメント中で最高の存在確率を持つ単語アライメント結果シンボルを連結していく。ここで、１−ｂｅｓｔ単語アライメント結果シンボルＣの個数を正解単語数の推定値Ｅ（＃Ｃ）、１−ｂｅｓｔ単語アライメント結果シンボルＳの個数を置換誤り単語数の推定値Ｅ（＃Ｓ）、１−ｂｅｓｔ単語アライメント結果シンボルＤの個数を削除誤り単語数の推定値Ｅ（＃Ｄ）、１−ｂｅｓｔ単語アライメント結果シンボルＣ，Ｓ，Ｄの個数の和を認識結果単語数の推定値Ｅ（＃Ｎ）と書くことができる。したがって、Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｄ），Ｅ（＃Ｎ）は、０以上の整数として数え上げることができる。

ただし、１−ｂｅｓｔ単語アライメント結果シンボル列には、挿入誤りを示す単語アライメント結果シンボルＩが含まれてないため、認識結果単語列中の挿入誤り単語数の推定値Ｅ（＃Ｉ）は得られない。しかし、ここで、音声認識においては、挿入誤りと脱落（削除）誤り数が同じような値になることが多いため（L. Zhou, Y. Shi, D. Zhang and A. Sears, “Discovering Cues to Error Detection in Speech Recognition Output: A User-Centered Approach”，Journal of Management Information Systems，Spring 2006, vol. 22, no. 4, pp. 237-270.参照）、Ｅ（＃Ｉ）＝Ｅ（＃Ｄ）と推定することは可能である。このため、認識精度計算部５７０において、以下の（２４），（２５）式を用いて単語正解率、単語正解精度を算出する。

このように、本変形例１における音声認識精度推定部５００は、認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値を整数値で得ることができ、音声認識精度も細かな数値で得ることができる。

［変形例２］
次に、変形例２における識別的音声認識精度推定部６００について説明する。実施の形態１では、音声認識精度推定部４００に代えて、図８に示す識別的音声認識精度推定部６００を有する構成であってもよい。図８は、音声認識精度推定部の他の構成を示すブロック図である。

変形例２における識別的音声認識精度推定部６００は、音声認識部６３０、単語アライメントネットワーク取得部４４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部５６０、１−ｂｅｓｔ認識結果単語列取得部６８０、単語特徴量ベクトル作成部６９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、認識結果単語確率的分類部１２０、確率的認識精度計算部１３０を備える。

音声認識部６３０は、入力された音声を音声認識し、当該音声認識結果を、単語ラティス及び単語コンフュージョンネットワークの形式で生成する。音声認識部６３０は、さらに、対立候補情報（後述）を生成し、生成した単語ラティスと、単語コンフュージョンネットワークと、対立候補情報とを出力する。また、音声認識部６３０は、音声認識の過程において、ディジタル音声信号の特徴量ベクトルの時系列への変換や、音響モデルと言語モデルとを用いた尤度計算などを行う。

図９は、図８に示す音声認識部６３０の構成を示すブロック図である。図９に示すように、音声認識部６３０は、単語ラティス生成部６３１、単語コンフュージョンネットワーク生成部６３２、対立候補情報生成部６３３を備える。

単語ラティス生成部６３１は、単語ラティスを生成する。単語ラティスは、複数の認識結果単語列の表現形式であり、これを変換して単語コンフュージョンネットワークが生成される（詳細は、L. Mangu, E. Brill and A. Stolcke, “Finding consensus in speech recognition: word error minimization and other applications of confusion networks”， Computer Speech and Language, vol. 14, pp. 373-400, 2000.参照）。単語コンフュージョンネットワークのほうが単語ラティスよりも効率よくコンパクトに複数の認識結果単語列を表現するが、単語ラティスには単語コンフュージョンネットワークには保存されていない情報、例えば、認識結果単語の音響尤度や言語尤度が記録されている。

単語コンフュージョンネットワーク生成部６３２は、生成された単語ラティスから単語コンフュージョンネットワークを生成する。そして、対立候補情報生成部６３３は、単語ラティス及び単語コンフュージョンネットワークから対立候補情報を生成する。対立候補情報とは、ある認識結果を認識中（探索処理実行中）に、対立候補の単語はいくつあったかを示す情報のことである。

そして、単語アライメントネットワーク取得部４４０による処理、１−ｂｅｓｔ単語アライメント結果シンボル列取得部５６０による処理が実行されることによって、それぞれ単語アライメントネットワーク、１−ｂｅｓｔ単語アライメント結果シンボル列が生成される。

そして、１−ｂｅｓｔ認識結果単語列取得部６８０は、図３に示す１−ｂｅｓｔ認識結果単語列取得部４４１と同様の処理を行うことによって、音声認識部６３０から出力された単語コンフュージョンネットワークを入力として、１−ｂｅｓｔ認識結果単語列を取得する。

単語特徴量ベクトル作成部６９０は、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）に対して、単語コンフュージョンネットワークから得られる情報（存在確率、競合単語の数）、単語ラティスから得られる情報（音響尤度、言語尤度）、対立候補情報、単語アライメントネットワークから得られる情報（単語アライメント結果シンボルＡ_ｊ（Ａ＝Ｃ／Ｓ／Ｉ／Ｄ）の存在確率Ｐ（Ａ_ｊ））、１−ｂｅｓｔ単語アライメント結果シンボル列から得られる情報（単語アライメント結果シンボル）を取得する。また、同時に、単語関連情報記憶部１００から認識結果単語に関する情報（単語関連情報）を取得する。単語関連情報は認識結果単語の品詞情報などを表す。これらの情報は、単語関連情報記憶部１００から抽出する。単語特徴量ベクトル作成部６９０は、これらの入力情報を並べて、単語特徴量ベクトル列を作成する。

認識結果単語確率的分類部１２０は、単語特徴量ベクトル作成部６９０で作成された１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）の単語特徴量ベクトル列を入力として、認識結果単語確率的分類モデル記憶部１１０に記憶された認識結果単語確率的分類モデル（モデルパラメータ）を用いて、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）を確率的に単語アライメント結果シンボルに分類し、各シンボルに対し確率を付与する。なお、セグメントごとに単語アライメント結果シンボルと各シンボルの確率とを対にして表記した結果を確率的単語分類結果と呼ぶ。

これを別の表現にした場合、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）の単語特徴量ベクトル列と、予め学習された認識結果単語確率的分類モデル（モデルパラメータ）とを用いて付与した、１−ｂｅｓｔ認識結果単語列中の各単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、ε（認識結果単語なし）である確率、をセグメントごとに表記した結果を、確率的単語分類結果ということができる。

すなわち、例えば、１−ｂｅｓｔ認識結果単語列中のｊ番目の１−ｂｅｓｔ認識結果単語に対して、それが正解である確率Ｐ（Ｃ_ｊ）、置換誤りである確率Ｐ（Ｓ_ｊ）、挿入誤りである確率Ｐ（Ｉ_ｊ）、削除誤りである確率Ｐ（Ｄ_ｊ）、εである確率Ｐ（ε_ｊ）を付与する。ここで、Ｐ（Ｃ_ｊ）＋Ｐ（Ｓ_ｊ）＋Ｐ（Ｉ_ｊ）＋Ｐ（Ｄ_ｊ）＋Ｐ（ε_ｊ）＝１である。

なお、認識結果単語確率的分類モデルは、条件付確率場（Conditional Random_Fields：ＣＲＦ）（例えば、J. Lafferty, A. McCallum and F. Pereira, “Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data,”Proc. ICML, pp. 282-289, 2001.参照）などであり、学習データを用いて、１−ｂｅｓｔ認識結果単語列中の各単語の単語特徴量ベクトル列（当該単語の単語特徴量ベクトルのみではなく、当該単語の前後の数単語の単語特徴量ベクトルが用いられることもある。これは、以下の変形例でも同様である。）と、当該単語が正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率、εである確率の関係をあらかじめ学習しておく。

そして、確率的認識精度計算部１３０は、図２に示す確率的認識精度計算部４５０と同様に、確率的単語分類結果を用いて、音声認識精度を計算し、計算した音声認識精度を出力する。

なお、１−ｂｅｓｔ認識結果単語列中の正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ）は、それぞれ（７）〜（１０）式を用いて計算できる。

また、本変形例では、単語特徴量ベクトル作成部６９０は、音声認識部６３０から取得するいずれの情報を用いて、単語特徴量ベクトル列を生成してもよい。この場合、認識結果単語確率的分類モデル記憶部１１０には、上記入力情報のバリエーションに合わせて予め学習した認識結果単語確率的分類モデルを記憶しておく。そして、認識結果単語確率的分類部１２０は、単語特徴量ベクトル作成部６９０で作成された１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）の単語特徴量ベクトル列を入力として、認識結果単語確率的分類モデル記憶部１１０に記憶された認識結果単語確率的分類モデルを用いて、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）を確率的に単語アライメント結果シンボルに分類し、各シンボルに対して確率を付与することとすればよい。

このように、本変形例２における識別的音声認識精度推定部６００は、認識結果単語確率的分類モデルを用いることによって、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り／削除誤り）を確率的に推定でき、さらに、それらを基に、認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値が得られ、かつ、音声認識精度も本来の細かな数値で得ることができる。そして、変形例２においては、従来よりも、より詳細な単語単位の特徴量ベクトルを用いるので、より高精度な認識精度推定が可能になる。

そして、変形例２では、識別的音声認識精度推定部６００において、認識結果単語確率的分類モデルの学習データ量が少なく音声認識精度の補正を行うことが難しい場合であっても、後段の補正部１２によって回帰的に音声認識精度を補正できるため、音声認識精度を精度よく推定できる。認識結果単語確率的分類モデルを用いる以降の変形例３〜５についても同様の効果を奏する。

［変形例３］
次に、変形例３における識別的音声認識精度推定部７００について説明する。実施の形態１では、音声認識精度推定部４００に代えて、図１０に示す識別的音声認識精度推定部７００を有する構成であってもよい。図１０は、音声認識精度推定部の他の構成を示すブロック図である。

図１０に示すように、変形例３における識別的音声認識精度推定部７００は、変形例２における識別的音声認識精度推定部６００と比して、さらに、認識結果単語分類確定部１４０、認識精度計算部１５０を有する。

認識結果単語分類確定部１４０は、認識結果単語の確率的分類を基に、認識結果単語の単語アライメント結果シンボルを確定する。すなわち、認識結果単語に付与されている、正解である確率Ｐ（Ｃ_ｊ）、置換誤りである確率Ｐ（Ｓ_ｊ）、挿入誤りである確率Ｐ（Ｉ_ｊ）、削除誤りである確率Ｐ（Ｄ_ｊ）、εである確率Ｐ（ε_ｊ）を比較し、最高の確率を与える単語アライメント結果シンボルに認識結果単語の分類を確定する。なお、変形例３においても、Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｄ），Ｅ（＃Ｎ）は、０以上の整数として数え上げることができる。

なお、認識精度計算部１５０は、図２に示す確率的認識精度計算部４５０と同様に、認識結果単語分類確定部１４０が出力結果を用いて、音声認識精度を計算し、計算した音声認識精度を出力する。

このように、変形例３における識別的音声認識精度推定部７００を用いた場合、変形例２と同様に、認識結果単語列中の各単語の分類（正解／置換誤り／挿入誤り／削除誤り）を確率的に推定でき、さらに、それらを基に、認識結果単語列中の正解単語数、置換誤り単語数、挿入誤り単語数、削除誤り単語数、正解単語列中の単語数の推定値が得られ、かつ、音声認識精度も本来の細かな数値で得ることができる。そして、変形例３では、変形例２と同様に、従来よりも、より詳細な単語単位の特徴量ベクトルを用いるので、より高精度な認識精度推定が可能になる。

［変形例４］
次に、変形例４における識別的音声認識精度推定部８００について説明する。実施の形態１では、音声認識精度推定部４００に代えて、図１１に示す識別的音声認識精度推定部８００を有する構成であってもよい。図１１は、音声認識精度推定部の他の構成を示すブロック図である。

図１１に示すように、変形例４における識別的音声認識精度推定部８００は、音声認識部６３０、単語アライメントネットワーク取得部４４０、１−ｂｅｓｔ単語アライメント結果シンボル列取得部５６０、１−ｂｅｓｔ認識結果単語列取得部６８０、単語特徴量ベクトル作成部６９０、単語関連情報記憶部１００、認識結果単語確率的分類モデル記憶部１１０、ＣＳＩ分類部１６０、削除誤り確率的検出部１７０、削除誤り確率的検出モデル記憶部１８０、確率的認識精度計算部１３０を有する。この識別的音声認識精度推定部８００は、変形例２の識別的音声認識精度推定部６００の構成に加えて、削除誤り確率的検出部１７０、削除誤り確率的検出モデル記憶部１８０を有する。また、この識別的音声認識精度推定部８００においては、変形例２の識別的音声認識精度推定部６００の認識結果単語確率的分類部１２０が、ＣＳＩ分類部１６０及び削除誤り確率的検出部１７０に変更されている。

前述の変形例２では、１−ｂｅｓｔ認識結果単語列中の正味の単語及びεに対して、同一内容の単語特徴量ベクトル列を付与している。実際には、ε以外の正味の単語と、εとに、同一内容の単語特徴量ベクトル列を付与することは難しい場合がある。例えば、ε以外の正味の単語に対しては言語確率を特徴量ベクトルの一次元として付与することが可能であるが、εに対しては付与することができない。また、変形例２では、１−ｂｅｓｔ認識結果単語列中の各単語（εも含む）を、一つの認識結果単語確率的分類部１２０で、正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）、削除誤り（Ｄ）、ε（認識結果単語なし）という５シンボルに分類しているが、分類器の数に対してシンボル数が多く、高い分類精度を得ることができない場合がある。

そこで、本変形例４では、単語アライメントネットワークによる分類結果（正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）、削除誤り（Ｄ）、ε（認識結果単語なし）をある程度正しいものとする。すなわち、１−ｂｅｓｔ認識結果単語列中のε以外の正味の単語は、単語アライメントネットワークによる分類結果（正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）、削除誤り（Ｄ）、ε（認識結果単語なし）、すなわち、図２の出力結果）をある程度正しいものとして正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）、削除誤り（Ｄ）に分類され、εの区間は、削除誤り（Ｄ）かεのまま（すなわち削除誤りなし、Ｎｏ−Ｄ）に分類されるものとする。このような考えの下で、１−ｂｅｓｔ認識結果単語列中のε以外の正味の単語とεとに、それぞれ別の内容の単語特徴量ベクトル列を付与し、それぞれ別の分類部で分類を実行することにする。

したがって、ＣＳＩ分類部１６０は、１−ｂｅｓｔ認識結果単語列中のε以外の正味の単語を、認識結果単語確率的分類モデルを用いて、正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）の３シンボルのいずれかに分類し、各シンボルに対し確率を付与して、ＣＳＩ単語分類結果として出力する。

そして、削除誤り確率的検出部１７０は、１−ｂｅｓｔ認識結果単語列のεを、削除誤り確率的検出モデル（モデルパラメータ）を用いて削除誤り（Ｄ）、削除なし誤り（Ｎｏ−Ｄ，ε）の２シンボルのいずれかに分類し、各シンボルに対し確率を付与して、確率的削除誤り検出結果として出力する。

なお、別の表現では、ＣＳＩ分類部１６０は、１−ｂｅｓｔ認識結果単語列中のε以外の各単語の単語特徴量ベクトル列と、予め学習された認識結果単語確率的分類モデルとを用いて、１−ｂｅｓｔ認識結果単語列中のε以外の各単語が、正解である確率Ｐ（Ｃ_ｊ）、置換誤りである確率Ｐ（Ｓ_ｊ）、挿入誤りである確率Ｐ（Ｉ_ｊ）を、セグメントごとに表記したＣＳＩ単語分類結果を生成する。また、削除誤り確率的検出部１７０は、１−ｂｅｓｔ認識結果単語列中のεの単語特徴量ベクトル列と、予め学習された削除誤り確率的検出モデルとを用いて、１−ｂｅｓｔ認識結果単語列中のεが、削除誤りである確率Ｐ（Ｄ_ｊ）、εである確率Ｐ（ε_ｊ）を、セグメントごとに表記した確率的削除誤り検出結果を生成する。

そして、確率的認識精度計算部１３０は、ＣＳＩ単語分類結果と、確率的削除誤り検出結果とを併せて、確率的単語分類結果として扱い、これらの確率的単語分類結果を用いて、音声認識精度を計算し、計算した音声認識精度を出力する。

［変形例５］
次に、変形例５における識別的音声認識精度推定部１０００について説明する。実施の形態１では、音声認識精度推定部４００に代えて、図１２に示す識別的音声認識精度推定部１０００を有する構成であってもよい。図１２は、音声認識精度推定部の他の構成を示すブロック図である。

図１２に示すように、変形例５における識別的音声認識精度推定部１０００は、変形例４における単語特徴量ベクトル作成部６９０に代えて、連結単語特徴量ベクトル作成部１９０を有し、削除誤り確率的検出部１７０に代えて、削除誤り数検出部２００を有する。

変形例４では、単語アライメントネットワークによる分類結果（正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）、削除誤り（Ｄ）、ε（認識結果単語なし）、すなわち、図２の出力結果）をある程度正しいものとして考えたため、削除誤りが生じる可能性のある個所は、元の単語アライメントネットワークのεの区間に限られていた。これに対し、実際には、削除誤りは、単語アライメントネットワークのεの区間だけでなく、文頭及び文末も含めた任意の単語間に複数個出現する可能性がある。

そこで、本変形例５では、１−ｂｅｓｔ認識結果単語列中の各正味タイミングの単語を、変形例４と同様にＣＳＩ分類部１６０により、正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）の３シンボルに分類するとともに、各正味の単語を基準として、その前の（先行する）正味の単語との間に削除誤りが何個あるかを示す削除誤り確率を、変形例４と同様に、削除誤り数検出部２００において検出する。

具体的には、連結単語特徴量ベクトル作成部１９０は、正味の単語（ε以外の単語）に対して、単語特徴量ベクトル列を生成し、当該正味の単語に先行する正味の単語との間に存在するεの単語特徴量ベクトルを生成して、これらの単語特徴量ベクトル列を連結して連結単語特徴量ベクトルを取得する。連結単語特徴量ベクトル作成部１９０は、この処理を、全ての正味の単語について行い、連結単語特徴量ベクトルを生成する。

そして、ＣＳＩ分類部１６０は、この連結単語特徴量ベクトルを用いて、変形例４と同様に、１−ｂｅｓｔ認識結果単語列中の正味の単語を、正解（Ｃ）、置換誤り（Ｓ）、挿入誤り（Ｉ）の３シンボルに分類して、確率を付与する。

削除誤り数検出部２００は、各正味の単語と先行する正味の単語との間に何個の削除誤りがあるかを示す確率（削除誤りごとの削除誤り確率）を検出する。ここで、Ｄｘを、削除誤りがｘ個あることを表すシンボルとし、Ｐ（Ｄｘ）を、削除誤りがｘ個ある確率、Ｐ（ε）をεである確率とする場合、以下の（２６）式が成り立つ。

ただし、一つの単語間における削除誤りの数を無限まで考慮することは現実的ではない。このため、ｘの最大値をｙ−１として、Ｄ´ｙの意味を削除誤りがｙ個以上あることを表すシンボルとして、Ｐ（Ｄ´ｙ）を削除誤りがｙ個以上ある確率として、無限までをカバーすることが現実的である。この場合、以下の（２７）式が成り立つ。

なお、ｙ＝１の場合には、以下の（２８）式となる。

ｙ＝１の場合には、（２８）式となるため、削除誤りの数を数えることを中断し、単語間に削除誤りがあるか否かのみを検出する。本変形例５では、ＣＳＩ単語分類結果と削除誤り数ごとの削除誤り確率とを併せて確率的単語分類結果として扱う。

このため、確率的認識精度計算部１３０は、変形例２，４と同様に、これらの確率的単語分類結果を用いて、音声認識精度を計算し、計算した音声認識精度を出力する。

ただし、変形例５では、削除誤り数Ｅ（＃Ｄ）の計算（上述の（１０）式）については、変更を加える。これは、上述したように、削除誤りに関しては、その数（特に数が多い場合）まで正確に推定することが困難であるためである。このため、現実的には、上述の（２７）式で表現されるように、ある単語間に「削除誤りがない（ε）」か、「削除誤りが一つある（Ｄ１）」か、「削除誤りが二つある（Ｄ２）か、・・・・、「削除誤りがｙ個以上あるか」、のいずれであるかについて分類を行う。そして、この分類結果から削除誤り数を計算する際には、「削除誤りがｙ個以上ある（Ｄ´ｙ）」を「削除誤りがｙ個ある（Ｄｙ）」として、以下の（２９）式により、削除誤り数Ｅ（＃Ｄ）の計算を行う。

ここで、ｎは、正味の単語間のＩＤを示し、Ｄ_ｎ，ｘは、単語間ｎの削除誤り数がｘ個であることを示し、Ｐ（Ｄ_ｎ，ｘ）は、Ｄ_ｎ，ｘの確率を示す。

また、上記では、各正味の単語を基準として、その前の（先行する）正味の単語との間に削除誤りが何個あるかを検出するものとしたが、各正味の単語を基準として、その後ろの（後続する）正味の単語との間に削除誤りが何個あるかを検出するものとしてもよい。或いは、これらを両方行って、得られた検出結果確率を平均してもよい。

この変形例５では、任意の単語間に複数個出現する可能性のある削除誤りの検出が可能となる。

［実施の形態２］
次に、実施の形態２について説明する。図１３は、実施の形態２における音声認識精度推定装置の構成の一例を模式的に示す図である。

図１３に示すように、実施の形態２に係る音声認識精度推定装置２０は、図１に示す音声認識精度推定装置１０と比して、補正部１２及び係数記憶部１３に代えて、補正部２２及び係数記憶部２３を有するとともに、補正部２２（第１の補正部）と不正推定精度補正部１４との間に、不正ＣＳＩＤ数補正部２５（第２の補正部）及び認識精度算出部２６を有する。

なお、音声認識精度推定装置２０では、音声認識精度推定部４００は、推定部として機能し、セグメントごとに、正解である確率、置換誤りである確率、挿入誤りである確率、削除誤りである確率を示す単語アライメントネットワークに基づいて求めた、認識結果単語列（一つの発話）に含まれる正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を出力する。言い換えると、音声認識精度推定部４００は、音声認識精度を算出する根拠となっているＣＳＩＤ数推定値ｘ’（認識結果単語列に含まれる正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ））を出力する。

補正部２２は、音声認識精度推定部４００から出力されたＣＳＩＤ数推定値ｘ’を、単回帰式を用いて補正し、補正されたＣＳＩＤ数推定値ｙ’（Ｅ’（＃Ｃ），Ｅ’（＃Ｓ），Ｅ’（＃Ｉ），Ｅ’（＃Ｄ））を出力する。

具体的には、補正部２２は、音声認識精度推定部４００から出力されたＣＳＩＤ数推定値ｘ’（Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｉ），Ｅ（＃Ｄ））を、単回帰式（（２１）式）を用いて補正し、補正後のＣＳＩＤ数（Ｅ’（＃Ｃ），Ｅ’（＃Ｓ），Ｅ’（＃Ｉ），Ｅ’（＃Ｄ））を基に補正された音声認識精度を算出する。ここで、ＣＳＩＤ数推定値ｘ’は、Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｉ），Ｅ（＃Ｄ）のいずれかであり、ｙ’は、このＣＳＩＤ数推定値ｘ’対応して補正されたＥ’（＃Ｃ），Ｅ’（＃Ｓ），Ｅ’（＃Ｉ），Ｅ’（＃Ｄ）である。なお、補正部２２は、予め、Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｉ），Ｅ（＃Ｄ）のそれぞれについて、係数記憶部２３が記憶する係数（ａ，ｂ）を用いて、補正を行う。

係数記憶部２３は、予め、Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｉ），Ｅ（＃Ｄ）のそれぞれに対して、個別に（２２）式及び（２３）式を用いて求められた係数（ａ，ｂ）を記憶する。この係数（ａ，ｂ）は、実施の形態１と同様に、学習データとして準備されたＮ個のｘ’とｙ’とのペア（ｘ’_ｎ，ｙ’_ｎ）（ｎ＝１，２，・・・，Ｎ）を基に、最小二乗法により、解析的に、（２２），（２３）式から求められたものである。

ここで、補正部２２によって補正されたＣＳＩＤ数推定値ｙ’が不正な値を取り得ることもある。この補正されたＣＳＩＤ数推定値ｙ’は、個数であるので、不正な値とは、０より小さい値である。

このため、不正ＣＳＩＤ数補正部２５は、補正部２２によって補正されたＣＳＩＤ数推定値ｙ’が０より小さな値を取る場合には、補正されたＣＳＩＤ数推定値ｙ’を０に補正する。

認識精度算出部２６は、不正ＣＳＩＤ数補正部２５によってさらに補正されたＣＳＩＤ数推定値を基に、（１２）式或いは（１３）式を用いて、推定音声認識精度を算出する。なお、ここで得られる推定認識精度は不正である可能性があるので、不正推定精度補正部１４は、実施の形態１と同様に、推定精度をさらに補正し、補正後の推定精度を、最終的な推定音声認識精度として出力する。

［音声認識精度推定装置の処理手順］
次に、音声認識精度推定装置２０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理について説明する。図１４は、図１３に示す音声認識精度推定装置２０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。

図１４に示すステップＳ２１は、図４に示すステップＳ１１である。そして、音声認識精度推定部４００が、入力された音声に対して、単語アライメントネットワークに基づいて音声認識精度の推定を実行し、ＣＳＩＤ数推定値ｘ’を出力する音声認識精度推定処理を行う（ステップＳ２２）。続いて、補正部２２は、単回帰式により、音声認識精度推定部４００から出力された元のＣＳＩＤ数推定値ｘ’を、ＣＳＩＤ数推定値ｙ’に補正する、単回帰式による補正処理を行う（ステップＳ２３）。

そして、不正ＣＳＩＤ数補正部２５は、補正部２２によって補正されたＣＳＩＤ数の推定値ｙ’が０より小さな値を取る場合には、補正されたＣＳＩＤ数推定値ｙ’を０に補正する不正ＣＳＩＤ数補正処理を行う（ステップＳ２４）。

続いて、認識精度算出部２６は、不正ＣＳＩＤ数補正部２５によってさらに補正されたＣＳＩＤ数を基に、（１２）式或いは（１３）式を用いて、推定音声認識精度を算出する認識精度算出処理を行う（ステップＳ２５）。さらに、不正推定精度補正部１４は、実施の形態１と同様に、推定精度をさらに補正する不正推定精度補正処理を行って（ステップＳ２６）、補正後の推定精度を、最終的な推定音声認識精度として出力する（ステップＳ２７）。

［実施の形態２の効果］
この実施の形態２のように、音声認識精度推定部４００がＣＳＩＤ数推定値ｘ’（認識結果単語列に含まれる正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ））を出力した場合も、単回帰式を用いて補正し、補正後のＣＳＩＤ数推定値ｙ’（Ｅ’（＃Ｃ），Ｅ’（＃Ｓ），Ｅ’（＃Ｉ），Ｅ’（＃Ｄ））を基に補正された音声認識精度を算出する。したがって、実施の形態２においても、実施の形態１と同様に、回帰式により、音声認識精度推定部４００から出力された推定音声認識精度を補正することによって、音声認識精度を精度よく推定できる。

また、音声認識精度推定装置２０は、実施の形態１と同様に、音声認識精度推定部４００に代えて、変形例１〜５における音声認識精度推定部５００或いは識別的音声認識精度推定部６００，７００，８００，１０００を有してもよい。このうち識別的音声認識精度推定部６００，７００，８００，１０００を採用した場合、識別的音声認識精度推定部６００，７００，８００，１０００からは、認識結果単語確率的分類モデルを用いて補正した正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値及び削除誤り単語数の推定値を出力する。

また、実施の形態２においても、実施の形態１と同様に、音声認識精度推定単位は、図３，４の説明において例示した「講演」のような単位であってもよいし、一つの発話（一つの認識結果単語）としてもよいし、他の単位であってもよい。

［実施の形態３］
次に、実施の形態３について説明する。図１５は、実施の形態３における音声認識精度推定装置の構成の一例を模式的に示す図である。

図１３に示すように、実施の形態３に係る音声認識精度推定装置３０は、図１３に示す音声認識精度推定装置２０と比して、補正部２２及び係数記憶部２３に代えて、補正部３２及び係数記憶部３３を有する。

補正部３２は、正解単語数の推定値Ｅ’（＃Ｃ）を、正解単語数の推定値Ｅ（＃Ｃ）、置換誤り単語数の推定値Ｅ（＃Ｓ）、挿入誤り単語数の推定値Ｅ（＃Ｉ）、削除誤り単語数の推定値Ｅ（＃Ｄ）から、重回帰式を用いて求める。補正部３２は、Ｅ’（＃Ｓ）、Ｅ’（＃Ｉ），Ｅ’（＃Ｄ）についても同様に、Ｅ（＃Ｃ），Ｅ（＃Ｓ）、Ｅ（＃Ｉ）、Ｅ（＃Ｄ）から、重回帰式を用いて求める。なお、実施の形態２では、補正部３２は、例えば、正解単語数の推定値Ｅ’（＃Ｃ）を、音声認識精度推定部４００から出力された認識結果単語列に含まれる正解単語数の推定値Ｅ（＃Ｃ）のみに基づき単回帰で求めている。

すなわち、補正部３２は、下記に示す重回帰式（３０）〜（３３）式を用いて、補正されたＣＳＩＤ数推定値ｙ’（Ｅ’（＃Ｃ），Ｅ’（＃Ｓ），Ｅ’（＃Ｉ），Ｅ’（＃Ｄ））を算出する。なお、補正部３２は、係数記憶部３３が記憶する係数（ａ_Ｌ，ｂ_Ｌ，ｃ_Ｌ，ｄ_Ｌ）（Ｌ＝Ｃ，Ｓ，Ｉ，Ｄ）を用いて、ＣＳＩＤ数推定値ｙ’を求める。

係数記憶部３３は、予め、最小二乗法によって解析的に求めた係数（ａ_Ｌ，ｂ_Ｌ，ｃ_Ｌ，ｄ_Ｌ）（Ｌ＝Ｃ，Ｓ，Ｉ，Ｄ）を記憶する。この係数（ａ_Ｌ，ｂ_Ｌ，ｃ_Ｌ，ｄ_Ｌ）（Ｌ＝Ｃ，Ｓ，Ｉ，Ｄ）は、学習データとして準備されたＮ個のｘ’とｙ’とのペア（ｘ’_ｎ，ｙ’_ｎ）（ｎ＝１，２，・・・，Ｎ）を基に、最小二乗法により解析的に、求められたものである。なお、不正ＣＳＩＤ数補正部２５は、実施の形態２と同様に、補正部３２によって補正されたＣＳＩＤ数推定値ｙ’（Ｅ’（＃Ｃ），Ｅ’（＃Ｓ），Ｅ’（＃Ｉ），Ｅ’（＃Ｄ））が不正な値、すなわち、０より小さな値を取る場合には、補正されたＣＳＩＤ数推定値ｙ’を０に補正する。

［音声認識精度推定装置の処理手順］
次に、音声認識精度推定装置３０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理について説明する。図１６は、図１５に示す音声認識精度推定装置３０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。

図１６に示すステップＳ３１は、図４に示すステップＳ１１である。ステップＳ３２は、図１４に示すステップＳ２２である。続いて、補正部３２は、重回帰式により、音声認識精度推定部４００から出力された元のＣＳＩＤ数推定値ｘ’を、ＣＳＩＤ数推定値ｙ’に補正する、重回帰式による補正処理を行う（ステップＳ３３）。図１６に示すステップＳ３４〜ステップＳ３７は、図１４に示すステップＳ２４〜ステップＳ２７である。

［実施の形態３の効果］
この実施の形態３のように、音声認識精度推定部４００が出力したＣＳＩＤ数推定値ｘ’を、重回帰式を用いて補正した場合も、音声認識精度を精度よく推定できる。

なお、上記したように、一つの認識結果単語ｗ_ｊのＣＳＩ確率に、Ｐ（Ｃ_ｊ）＋Ｐ（Ｓ_ｊ）＋Ｐ（Ｉ_ｊ）＝１という拘束があり、削除誤りが存在する確率Ｐ（Ｄ_ｊ）は、直接的には、正解（Ｃ）である確率Ｐ（Ｃ_ｊ）、置換誤り（Ｓ）である確率Ｐ（Ｓ_ｊ）、挿入誤り（Ｉ）である確率Ｐ（Ｉ_ｊ）とは関係ない。これを考慮し、補正部３２は、Ｅ’（＃Ｄ）については、実施の形態２と同様に、Ｅ（＃Ｄ）のみから求め、Ｅ’（＃Ｃ），Ｅ’（＃Ｓ），Ｅ’（＃Ｉ）を、下記（３４）〜（３６）式を用いて、Ｅ（＃Ｃ），Ｅ（＃Ｓ），Ｅ（＃Ｉ）から求めてもよい。

また、音声認識精度推定装置３０は、実施の形態２と同様に、音声認識精度推定部４００に代えて、変形例１〜５における音声認識精度推定部５００或いは識別的音声認識精度推定部６００，７００，８００，１０００を有してもよい。

［実施の形態４］
次に、実施の形態４について説明する。図１７は、実施の形態４における音声認識精度推定装置の構成の一例を模式的に示す図である。

図１７に示すように、実施の形態４に係る音声認識精度推定装置４０は、図１３に示す音声認識精度推定装置２０と比して、補正部２２、係数記憶部２３及び不正ＣＳＩＤ数補正部２５に代えて、補正部４２（第１の補正部）、係数記憶部４３及び不正ＣＳＩＤ確率補正部４５（第２の補正部）を有する。そして、音声認識精度推定装置４０は、音声認識精度推定装置２０と比して、不正ＣＳＩＤ確率補正部４５と認識精度算出部２６との間に、ＣＳＩ確率正規化部４６（第３の補正部）及びＣＳＩＤ数算出部４７（単語数算出部）を有する。なお、音声認識精度推定装置４０では、音声認識精度推定部４００が確率出力部として機能し、一つの認識結果単語ｗ_ｊに付与されるＣＳＩＤ確率推定値ｘ”（正解（Ｃ）である確率Ｐ（Ｃ_ｊ）、置換誤り（Ｓ）である確率Ｐ（Ｓ_ｊ）、挿入誤り（Ｉ）である確率Ｐ（Ｉ_ｊ）及び削除誤りが存在する確率Ｐ（Ｄ_ｊ））を出力する。

補正部４２は、単回帰式により、音声認識精度推定部４００から出力された、一つの認識結果単語ｗ_ｊに付与されるＣＳＩＤ確率推定値ｘ”を、ＣＳＩＤ確率推定値ｙ”に補正する。補正部４２が用いる単回帰式は、（２１）式であり、ｘ”が補正前のＣ／Ｓ／Ｉ／Ｄ確率（なお、「／」は「または」の意味である。）、すなわち、Ｐ（Ｃ_ｊ），Ｐ（Ｓ_ｊ），Ｐ（Ｉ_ｊ），Ｐ（Ｄ_ｊ）であり、ｙ”が補正後のＣ／Ｓ／Ｉ／Ｄ確率、すなわち、Ｐ’（Ｃ_ｊ），Ｐ’（Ｓ_ｊ），Ｐ’（Ｉ_ｊ），Ｐ’（Ｄ_ｊ）である。

また、補正部４２は、補正部１２と同様に、係数記憶部４３が記憶する係数（ａ，ｂ）を用いて補正を行う。この係数（ａ，ｂ）は、学習データとして準備されたＮ個のｘ”とｙ”とのペア（ｘ”_ｎ，ｙ”_ｎ）（ｎ＝１，２，・・・，Ｎ）を基に、最小二乗法により、解析的に、（２２），（２３）式から求められたものである。係数記憶部４３は、この予め求められた係数（ａ，ｂ）を記憶する。

そして、この補正されたＣＳＩＤ確率推定値ｙ”から補正された音声認識精度を求める。まず、不正ＣＳＩＤ確率補正部４５は、ｙ”が確率値であるので（厳密にはＤの場合は除く）、補正部４２による補正の結果、ｙ”が不正な値を取る場合には、更なる補正を行う。

具体的には、不正ＣＳＩＤ確率補正部４５は、補正部４２による補正の結果、ｙ”が０より小さい値になる場合は、ｙ”の値を、ｙ”＝０と補正する。一方、不正ＣＳＩＤ確率補正部４５は、補正部４２による補正の結果、ｙ”が１より大きい値になる場合には、ｙ”の値を、ｙ”＝１と補正する。なお、Ｄの場合は、ｙ”が１より大きくなり得るので、１より大きくなっても補正しない。不正ＣＳＩＤ確率補正部４５は、得られたＣＳＩＤ確率を、Ｐ”（Ｃ_ｊ），Ｐ”（Ｓ_ｊ），Ｐ”（Ｉ_ｊ），Ｐ”（Ｄ_ｊ）とする。

ＣＳＩ確率正規化部４６は、ＣＳＩ確率については、全て加算すると１になるという拘束があることから、以下の（３７）〜（３９）式を用いて、各ＣＳＩ確率を補正し、Ｐ’’’（Ｃ_ｊ），Ｐ’’’（Ｓ_ｊ），Ｐ’’’（Ｉ_ｊ）を出力する。なお、ＣＳＩ確率正規化部４６は、Ｄについては、補正せず、Ｐ”（Ｄ_ｊ）を出力する。

ＣＳＩＤ数算出部４７は、ＣＳＩ確率正規化部４６が算出したＣＳＩＤ確率の推定値、すなわちＰ’’’（Ｃ_ｊ），Ｐ’’’（Ｓ_ｊ），Ｐ’’’（Ｉ_ｊ），Ｐ”（Ｄ_ｊ）を基に、音声認識精度推定単位ごとにＣＩＳＤ確率を加算してＣＳＩＤ数を求め、推定ＣＳＩＤ数を出力する。

認識精度算出部２６は、実施の形態２と同様に、ＣＳＩＤ数算出部４７が出力した推定ＣＳＩＤ数を基に、推定認識精度を算出する。そして、不正推定精度補正部１４は、認識精度算出部２６が算出した推定認識精度が不正である場合には、実施の形態１と同様に、この推定認識精度を補正し、補正した値を、最終的な推定音声認識精度として出力する。

［音声認識精度推定装置の処理手順］
次に、音声認識精度推定装置４０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理について説明する。図１８は、図１７に示す音声認識精度推定装置４０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。

図１８に示すステップＳ４１は、図４に示すステップＳ１１である。そして、音声認識精度推定部４００が、入力された音声に対して、単語アライメントネットワークに基づいて音声認識精度の推定を実行し、一つの認識結果単語ｗ_ｊに付与されるＣＳＩＤ確率推定値ｘ”を出力する音声認識精度推定処理を行う（ステップＳ４２）。続いて、補正部４２は、単回帰式により、音声認識精度推定部４００から出力されたＣＳＩＤ確率推定値ｘ”を、補正後のＣＳＩＤ確率推定値ｙ”に補正する、単回帰式による補正処理を行う（ステップＳ４３）。

そして、不正ＣＳＩＤ確率補正部４５は、ｙ”が０より小さい値になる場合は、ｙ”の値をｙ”＝０と補正する一方、ｙ”が１より大きい値になる場合には、ｙ”の値をｙ”＝１と補正する不正ＣＳＩＤ確率補正処理を行う（ステップＳ４４）。

続いて、ＣＳＩ確率正規化部４６は、（３７）〜（３９）式を用いて、各ＣＳＩ確率を補正するＣＳＩ確率正規化処理を行う（ステップＳ４５）。そして、ＣＳＩＤ数算出部４７は、ＣＳＩ確率正規化処理において算出されたＣＳＩＤ確率の推定値を基に、音声認識精度推定単位ごとにＣＳＩＤ確率を加算してＣＳＩＤ数を求め、推定ＣＳＩＤ数を出力するＣＳＩＤ数算出処理を行う（ステップＳ４６）。図１８に示すステップＳ４７〜ステップＳ４９は、図１４に示すステップＳ２５〜ステップＳ２７である。

［実施の形態４の効果］
この実施の形態４のように、音声認識精度推定部４００が、一つの認識結果単語ｗ_ｊに付与されるＣＳＩＤ確率推定値ｘ”を出力する場合についても、単回帰式を用いて補正を行うことによって、音声認識精度を精度よく推定できる。

なお、音声認識精度推定装置４０は、音声認識精度推定部４００に代えて、変形例１〜５における音声認識精度推定部５００或いは識別的音声認識精度推定部６００，７００，８００，１０００を有してもよい。このうち識別的音声認識精度推定部６００，７００，８００，１０００を採用した場合、識別的音声認識精度推定部６００，７００，８００，１０００からは、認識結果単語確率的分類モデルを用いて補正したＣＳＩＤ確率推定値を出力する。

［実施の形態５］
次に、実施の形態５について説明する。図１９は、実施の形態５における音声認識精度推定装置の構成の一例を模式的に示す図である。

図１９に示すように、実施の形態５に係る音声認識精度推定装置５０は、図１７に示す音声認識精度推定装置４０と比して、補正部４２及び係数記憶部４３に代えて、補正部５２及び係数記憶部５３を有する。前述の実施の形態２から実施の形態３への拡張と同じ拡張を、実施の形態４から、この実施の形態５に行う。

すなわち、補正部４２では、Ｐ’（Ｃ_ｊ）を、入力されたＰ（Ｃ_ｊ）のみから単回帰式を用いて求めていたのに対し、補正部５２は、Ｐ’（Ｃ_ｊ）を、実施の形態３の（３０）〜（３３）式と同様に、Ｐ（Ｃ_ｊ），Ｐ（Ｓ_ｊ），Ｐ（Ｉ_ｊ），Ｐ（Ｄ_ｊ）から、重回帰式を用いて求める。補正部５２は、Ｐ’(Ｓ_ｊ)，Ｐ’(Ｉ_ｊ)，Ｐ’（Ｄ_ｊ）についても同様に、Ｐ（Ｃ_ｊ），Ｐ（Ｓ_ｊ），Ｐ（Ｉ_ｊ），Ｐ（Ｄ_ｊ）から、重回帰式を用いて求める。補正部５２は、係数記憶部５３が記憶する係数（ａ_Ｌ，ｂ_Ｌ，ｃ_Ｌ，ｄ_Ｌ）（Ｌ＝Ｃ，Ｓ，Ｉ，Ｄ）を用いて補正を行う。予め、最小二乗法によって解析的に求められた係数（ａ_Ｌ，ｂ_Ｌ，ｃ_Ｌ，ｄ_Ｌ）（Ｌ＝Ｃ，Ｓ，Ｉ，Ｄ）を用いて、補正を行う。

係数記憶部５３は、予め、最小二乗法によって解析的に求められた係数（ａ_Ｌ，ｂ_Ｌ，ｃ_Ｌ，ｄ_Ｌ）（Ｌ＝Ｃ，Ｓ，Ｉ，Ｄ）を記憶する。この係数（ａ_Ｌ，ｂ_Ｌ，ｃ_Ｌ，ｄ_Ｌ）（Ｌ＝Ｃ，Ｓ，Ｉ，Ｄ）は、学習データとして準備されたＮ個のｘ”とｙ”とのペア（ｘ”_ｎ，ｙ”_ｎ）（ｎ＝１，２，・・・，Ｎ）を基に、最小二乗法により解析的に求められたものである。

［音声認識精度推定装置の処理手順］
次に、音声認識精度推定装置５０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理について説明する。図２０は、図１９に示す音声認識精度推定装置４０が、入力音声に対する最終的な推定音声認識精度を出力するまでの処理手順を示すフローチャートである。

図２０に示すステップＳ５１は、図４に示すステップＳ１１である。ステップＳ５２は、図１８に示すステップＳ４２である。続いて、補正部５２は、重回帰式により、音声認識精度推定部４００から出力されたＣＳＩＤ確率推定値ｘ”を、ＣＳＩＤ確率推定値ｙ”に補正する、重回帰式による補正処理を行う（ステップＳ５３）。図２０に示すステップＳ５４〜ステップＳ５６は、図１８に示すステップＳ４４〜ステップＳ４６である。図２０に示すステップＳ５７〜ステップＳ５９は、図１４に示すステップＳ２５〜ステップＳ２７である。

［実施の形態５の効果］
この実施の形態５のように、音声認識精度推定部４００が出力した、一つの認識結果単語ｗ_ｊに付与されるＣＳＩＤ確率推定値ｘ”を、重回帰式を用いて補正した場合も、音声認識精度を精度よく推定できる。

なお、Ｐ（Ｃ_ｊ）＋Ｐ（Ｓ_ｊ）＋Ｐ（Ｉ_ｊ）=１という拘束があり、削除誤りが存在する確率Ｐ（Ｄ_ｊ）は、直接的には、正解（Ｃ）である確率Ｐ（Ｃ_ｊ）、置換誤り（Ｓ）である確率Ｐ（Ｓ_ｊ）、挿入誤り（Ｉ）である確率Ｐ（Ｉ_ｊ）とは関係ない。これを考慮し、Ｐ’(Ｄ_ｊ)はＰ(Ｄ_ｊ)のみから単回帰式で求め、Ｐ’(Ｃ_ｊ)，Ｐ’(Ｓ_ｊ)，Ｐ’(Ｉ_ｊ)を、実施の形態３の（３４）式〜（３６）式と同様に、Ｐ(Ｃ_ｊ)，Ｐ(Ｓ_ｊ)，Ｐ(Ｉ_ｊ)から重回帰式によりそれぞれ求めてもよい。

また、音声認識精度推定装置４０は、実施の形態４と同様に、音声認識精度推定部４００に代えて、変形例１〜５における音声認識精度推定部５００或いは識別的音声認識精度推定部６００，７００，８００，１０００を有してもよい。

［実施の形態のシステム構成について］
図１，１３，１５，１７，１９で示す音声認識精度推定装置１０，２０，３０，４０，５０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、音声認識精度推定装置１０，２０，３０，４０，５０の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

また、音声認識精度推定装置１０，２０，３０，４０，５０において行われる各処理は、全部または任意の一部が、ＣＰＵ（Central Processing Unit）およびＣＰＵにより解析実行されるプログラムにて実現されてもよい。また、音声認識精度推定装置１０，２０，３０，４０，５０において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
図２１は、プログラムが実行されることにより、音声認識精度推定装置１０，２０，３０，４０，５０が実現されるコンピュータの一例を示す図である。コンピュータ２０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ２０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、音声認識精度推定装置１０，２０，３０，４０，５０の各処理を規定するプログラムは、コンピュータ２０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、音声認識精度推定装置１０，２０，３０，４０，５０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１０，２０，３０，４０，５０音声認識精度推定装置
１２，２２，３２，４２，５２補正部
１３，２３，３３，４３，５３係数記憶部
１４不正推定精度補正部
２５不正ＣＳＩＤ数補正部
２６認識精度算出部
４５不正ＣＳＩＤ確率補正部
４６ＣＳＩ確率正規化部
４７ＣＳＩＤ数算出部
１００単語関連情報記憶部
１１０認識結果単語確率的分類モデル記憶部
１２０認識結果単語確率的分類部
１３０確率的認識精度計算部
１４０認識結果単語分類確定部
１６０ＣＳＩ分類部
１７０削除誤り確率的検出部
１８０削除誤り確率的検出モデル記憶部
１９０連結単語特徴量ベクトル作成部
２００削除誤り数検出部
１５０，５７０認識精度計算部
４００，５００音声認識精度推定部
４３０，６３０音声認識部
４４０単語アライメントネットワーク取得部
４４１，６８０１−ｂｅｓｔ認識結果単語列取得部
４４２正解確率計算部
４４３置換誤り確率計算部
４４４挿入誤り確率計算部
４４５削除誤り確率計算部
４５０確率的認識精度計算部
５６０１−ｂｅｓｔ単語アライメント結果シンボル列取得部
６００，７００，８００，１０００識別的音声認識精度推定部
６３１単語ラティス生成部
６３２単語コンフュージョンネットワーク生成部
６３３対立候補情報生成部
６９０単語特徴量ベクトル作成部

Claims

入力された音声を音声認識し、認識された単語である認識結果単語ごとに、正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りである確率を示す単語アライメントネットワークに基づいて音声認識精度を推定する音声認識精度推定部と、
前記音声認識精度を回帰式により補正する補正部と、
補正後の音声認識精度が、０％未満である場合には前記補正後の音声認識精度を０％に補正し、１００％より大きい場合には前記補正後の音声認識精度を１００％に補正する精度補正部と、
を有することを特徴とする音声認識精度推定装置。
入力された音声を音声認識し、認識された単語である認識結果単語ごとに、正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りである確率を示す単語アライメントネットワークに基づいて求めた、前記認識結果単語が複数集まった認識結果単語列に含まれる正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を出力する推定部と、
前記推定部が出力した正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を、回帰式を用いて補正する第１の補正部と、
前記第１の補正部によって補正された正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値が、０より小さな値を取る場合には前記第１の補正部によって補正された正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を０に補正する第２の補正部と、
前記第２の補正部によって補正された正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を基に音声認識精度を算出する認識精度算出部と、
前記認識精度算出部によって算出された音声認識精度が、０％未満である場合には前記音声認識精度を０％に補正し、１００％より大きい場合には前記音声認識精度を１００％に補正する精度補正部と、
を有することを特徴とする音声認識精度推定装置。
前記第１の補正部は、前記推定部が出力した正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を、単回帰式或いは重回帰式を用いて補正することを特徴とする請求項２に記載の音声認識精度推定装置。
入力された音声を音声認識し、認識された単語である認識結果単語ごとに、正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りである確率を示す単語アライメントネットワークに基づいて求めた、一つの認識結果単語に付与される正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率を出力する確率出力部と、
前記確率出力部が出力した正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率を、回帰式を用いて補正する第１の補正部と、
前記第１の補正部によって補正された正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率が、０より小さい場合には、前記第１の補正部によって補正された正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率を０に補正し、１より大きい場合には、前記第１の補正部によって補正された正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率を１に補正する第２の補正部と、
前記正解である確率、置換誤りである確率、挿入誤りである確率を全て加算すると１になることを基に、前記第２の補正部によって補正された正解である確率、置換誤りである確率、挿入誤りである確率を補正する第３の補正部と、
前記第３の補正部によって補正された正解である確率、置換誤りである確率、挿入誤りである確率及び前記第２の補正部によって補正された削除誤りが存在する確率を基に、正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を算出する単語数算出部と、
前記単語数算出部によって算出された正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を基に音声認識精度を算出する認識精度算出部と、
前記認識精度算出部によって算出された音声認識精度が、０％未満である場合には前記音声認識精度を０％に補正し、１００％より大きい場合には前記音声認識精度を１００％に補正する精度補正部と、
を有することを特徴とする音声認識精度推定装置。
前記第１の補正部は、前記確率出力部が出力した正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率を、単回帰式或いは重回帰式を用いて補正することを特徴とする請求項４に記載の音声認識精度推定装置。
入力された音声の音声認識精度を推定する音声認識精度推定装置が実行する音声認識精度推定方法であって、
前記入力された音声を音声認識し、認識された単語である認識結果単語ごとに、正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りである確率を示す単語アライメントネットワークに基づいて求めた、前記認識結果単語が複数集まった認識結果単語列に含まれる正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を出力する出力工程と、
前記出力工程において出力された正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を、回帰式を用いて補正する第１の補正工程と、
前記第１の補正工程において補正された正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値が、０より小さな値を取る場合には、前記第１の補正工程において補正された正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を０に補正する第２の補正工程と、
前記第２の補正工程において補正された正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を基に音声認識精度を算出する認識精度算出工程と、
前記認識精度算出工程において算出された音声認識精度が、０％未満である場合には前記音声認識精度を０％に補正し、１００％より大きい場合には前記音声認識精度を１００％に補正する精度補正工程と、
を含んだことを特徴とする音声認識精度推定方法。
入力された音声の音声認識精度を推定する音声認識精度推定装置が実行する音声認識精度推定方法であって、
前記入力された音声を音声認識し、認識された単語である認識結果単語ごとに、正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りである確率を示す単語アライメントネットワークに基づいて求めた、一つの認識結果単語に付与される正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率を出力する出力工程と、
前記出力工程において出力された正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率を、回帰式を用いて補正する第１の補正工程と、
前記第１の補正工程において補正された正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率が、０より小さい場合には、前記第１の補正工程おいて補正された正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率を０に補正し、１より大きい場合には、前記第１の補正工程において補正された正解である確率、置換誤りである確率、挿入誤りである確率及び削除誤りが存在する確率を１に補正する第２の補正工程と、
前記正解である確率、置換誤りである確率、挿入誤りである確率を全て加算すると１になることを基に、前記第２の補正工程において補正された正解である確率、置換誤りである確率、挿入誤りである確率を補正する第３の補正工程と、
前記第３の補正工程において補正された正解である確率、置換誤りである確率、挿入誤りである確率及び前記第２の補正工程において補正された削除誤りが存在する確率を基に、正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を算出する単語数算出工程と、
前記単語数算出工程において算出された正解単語数の推定値、置換誤り単語数の推定値、挿入誤り単語数の推定値、削除誤り単語数の推定値を基に音声認識精度を算出する認識精度算出工程と、
前記認識精度算出工程において算出された音声認識精度が、０％未満である場合には前記音声認識精度を０％に補正し、１００％より大きい場合には前記音声認識精度を１００％に補正する精度補正工程と、
を含んだことを特徴とする音声認識精度推定方法。
コンピュータを請求項１〜５のいずれか一つに記載の音声認識精度推定装置として機能させるための音声認識精度推定プログラム。