JP6031316B2

JP6031316B2 - 音声認識装置、誤り修正モデル学習方法、及びプログラム

Info

Publication number: JP6031316B2
Application number: JP2012220426A
Authority: JP
Inventors: 彰夫小林
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-10-02
Filing date: 2012-10-02
Publication date: 2016-11-24
Anticipated expiration: 2032-10-02
Also published as: JP2014074732A

Description

本発明は、音声認識装置、誤り修正モデル学習方法、及びプログラムに関する。

音声認識の誤り修正については、音声とその書き起こし（正解文）から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある（例えば、非特許文献１参照）。

小林ほか，「単語誤り最小化に基づく識別的スコアリングによるニュース音声認識」，電子情報通信学会誌，vol.J93-D no.5，２０１０年，ｐ．５９８−６０９

音声認識では、統計的言語モデルを用いて単語の予測を行うが、この予測には、単語の予測性能を向上させるために複数の統計的言語モデルを統合して使うことが多い。非特許文献１の技術による誤り修正モデルの学習では、音声認識の誤り傾向を学習するために認識誤りを含む音声認識結果を学習データとしており、この学習データは、異なる基準によって統合された統計的言語モデルを用いた音声認識により生成される。そのため、統合方法を変更した場合には、学習データとなる音声認識結果を作成し直す必要がある。このような誤り修正モデルの学習方法は、音声認識結果の生成と誤り修正モデルの学習のコストが高くつく。よって、さまざまな話題や話者について誤り修正モデルを生成し、音声を認識する場合に効率的な学習方法であるとはいえない。

本発明は、このような事情を考慮してなされたもので、音声認識に用いる誤り修正モデルを、コストを抑えながら学習することができる音声認識装置、誤り修正モデル学習方法、及びプログラムを提供する。

［１］本発明の一態様は、特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納部と、前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納部と、前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成部と、前記認識誤り生成部により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習部と、前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習部により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、特定話者の音声データを、その特定話者の音響モデルと特定話題の言語モデルとを用いて音声認識し、認識誤りを含む音声認識結果を学習データとして生成する。音声認識装置は、音声データから生成した学習データと、その音声データの正解文とから統計的に認識誤りの傾向を分析して誤り修正モデルを生成した後、生成した誤り修正モデルと特定話題以外の言語モデルとを統合して特定話者及び特定話題の音声認識に用いる統合モデルを生成する。
これにより、言語モデルの統合方法に応じて学習データとなる音声認識結果を作成し直す必要がなく、効率的に統合モデルを学習することができる。

［２］本発明の一態様は、上述する音声認識装置であって、前記モデル統合部は、前記正解文候補から得られた前記認識誤りと、前記誤り修正モデルにより得られた前記正解文候補の音響スコア及び前記認識誤り傾向が修正された言語スコアと、前記特定話題とは異なる話題の前記言語モデルから得られた前記正解文候補の言語スコアとを用いて定められる評価関数によって算出した評価値に基づいて前記混合重みを統計的に算出する、ことを特徴とする。
この発明によれば、音声認識装置は、音声データに対応したテキストデータを正解文とみなしたときの正解文候補に含まれる単語の認識誤りと、誤り修正モデルにより得られた正解文候補の音響スコア及び認識誤り傾向が修正された言語スコアと、特定話題とは異なる話題の言語モデルから得られた正解文候補の言語スコアとに基づいて定められる評価関数によって算出した評価値が、最も認識誤りが少ないことを示す評価値になるように言語モデルの混合重みを算出し、算出した混合重みにより誤り修正モデルと複数の言語モデルとを統合する。
これにより、音声認識装置は、特定話者の特定話題についての発話を音声認識するために適した誤り修正モデルを生成した後に、認識率が上がるように他の話題の言語モデルを統合する際の混合重みを決定することができる。

［３］本発明の一態様は、上述する音声認識装置であって、前記認識誤り生成部は、前記特定話題に対応した前記テキストデータの発話内容を前記特定話者の前記音響モデルを用いて音声合成して音声データを生成し、生成した前記音声データを前記特定話者の前記音響モデルと前記特定話題の前記言語モデルとを用いて音声認識して認識誤りを含む音声認識結果を生成する、ことを特徴とする。
この発明によれば、音声認識装置は、特定話題のテキストデータから音声合成により特定話者の音声データを生成し、生成した音声データの音声認識結果とテキストデータが示す正解文とから誤り修正モデルを生成する。
これにより、音声認識装置は、特定話者の音声データが統計的に十分な量とならない場合でも、特定話題のテキストデータから誤り修正モデルを生成することができる。

［４］本発明の一態様は、上述する音声認識装置であって、前記誤り修正モデルは、連続する単語、単語を構成する音素、連続しない複数の単語、音素間の共起関係、単語の構文的な情報、または単語の意味的な情報に基づく言語的特徴を表す素性関数とその素性重みとを用いて定義され、前記誤り修正モデル学習部は、前記音声認識結果から得られた前記素性関数の値と前記音声認識結果に含まれる前記認識誤りとを用いて定められる評価関数によって算出した評価値に基づいて前記素性重みを統計的に算出し、算出した前記素性重みを用いて前記誤り修正モデルを生成する、ことを特徴とする。
この発明によれば、音声認識装置は、単語や音素などに基づく言語的特徴を表す素性関数とその素性重みとで定義される誤り修正モデルが用いる素性重みを、音声認識結果から得られた素性関数の値と認識誤りとを用いて定められる評価関数によって算出した評価値が、最も認識誤りが少ないことを示す評価値となるように決定し、誤り修正モデルを生成する。
これにより、音声認識装置は、特定話者の特定話題についての発話を音声認識するために適した誤り修正モデルを生成した上で、他の話題についての誤り傾向を統合することができる。

［５］本発明の一態様は、上述する音声認識装置であって、前記モデル統合部により生成された前記統合モデルを用いて前記特定話者による前記特定話題の発話の音声データを音声認識する音声認識部をさらに備える、ことを特徴とする。
この発明によれば、音声認識装置は、特定話者及び特定話題について学習した統合モデルに基づいて音声認識を行う。
これにより、音声認識装置は、特定話者の特定話題の発話について認識率のよい音声認識結果を得ることができる。

［６］本発明の一態様は、特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納過程と、前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納過程と、前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成過程と、前記認識誤り生成過程において生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習過程と、前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習過程において生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合過程と、を有することを特徴とする誤り修正モデル学習方法である。

［７］本発明の一態様は、コンピュータを、特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納手段と、前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納手段と、前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成手段と、前記認識誤り生成手段により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習手段と、前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習手段により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合手段と、を具備する音声認識装置として機能させるためのプログラムである。

本発明によれば、音声を認識する際に用いる誤り修正モデルを、学習コストをおさえながら学習することができる。よって、さまざまな話題や話者についての誤り修正モデルを効率的に学習することが可能となる。

本発明の一実施形態による音声認識装置における統合モデル学習の手続きを示す図である。同実施形態による音声認識装置の統合モデル学習処理の概要処理フローを示す図である。同実施形態による音声認識装置の構成を示す機能ブロック図である。同実施形態による擬似的な音声認識結果の生成処理の処理フローを示す図である。同実施形態による誤り修正モデル学習処理の処理フローを示す図である。同実施形態によるモデル統合処理の処理フローを示す図である。従来法による誤り修正モデル学習の手続きを示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

［１．本実施形態の概要］
音声認識の誤り傾向を反映した、いわゆる誤り修正モデルでは、誤り傾向を学習するために音声・テキストデータのほかに、統計的音響モデル（以下、「音響モデル」と記載する。）と統計的言語モデル（以下、「言語モデル」と記載する。）が必要となる。従来の音声認識装置は、この２つの統計的モデルを用いて音声データを音声認識し、認識誤りを含む仮説（音声認識結果）を生成する。仮説の生成の際に使われる言語モデルは、単一のテキスト集合から学習された言語モデルだけではなく、複数の異なるテキスト集合から個別に学習された言語モデルを組み合わせて使うことが多い。従来法では、言語モデルの統合が先に行われ、その後に、統合された言語モデルに整合した誤り修正モデルが学習される。しかし、この学習順序では、異なる組み合わせで言語モデルを統合する都度、誤り修正モデルの学習に用いる認識誤りを含む仮説を生成することとなり、実用性の面からも効率的であるとはいえない。

そこで、本実施形態の音声認識装置は、言語モデルの統合と誤り修正モデルの学習の順番を従来とは変更し、先に特定の言語モデルと音響モデルのみを利用して音声認識の誤り傾向を反映した仮説を生成し、その生成された仮説から誤り修正モデルを学習する。その後、本実施形態の音声認識装置は、学習された誤り修正モデルと、他のテキストデータで学習された複数の言語モデルとを統合する。このように、本実施形態の音声認識装置は、誤り修正モデルの学習と、学習条件の異なる言語モデルによる統合を分離して行うことにより、誤り修正モデルを効率的に学習する。本実施形態の音声認識装置は、このようにして効率的に生成された誤り修正モデルにより、さまざまな話者及び話題についての認識性能の改善を図る。

［２．音声認識装置の処理概要］
続いて、本発明の一実施形態による音声認識装置の処理概要を説明する。
上述したように、本実施形態の音声認識装置は、特定の音響モデル及び言語モデルにより誤り修正モデルを学習した後、学習した誤り修正モデルと単語の予測を行う複数の言語モデルとを統合する。以下、複数の言語モデルと統合した誤り修正モデルを統合モデルと記載する。本実施形態の音声認識装置は、統合する際の言語モデル間の混合重みを調整することで、音声認識対象の話題及び話者にマッチした統合モデルを得る。

［２．１従来法の誤り修正モデル］
ベイズの定理によれば、音声入力ｘが与えられたとき、この音声入力ｘに対して尤もらしい単語列ｗ＾（「＾」は、「ハット」を表す。）は、以下の式（１）により求めることができる。

音声入力ｘ及び単語列ｗは、例えば、発話の単位に対応し、Ｐ（ｗ｜ｘ）は、音声入力ｘが発生したときに文仮説である単語列ｗが得られる事後確率である。
また、Ｐ（ｘ｜ｗ）は、単語列ｗに対する音響的な尤もらしさを示す尤度であり、そのスコア（音響スコア）は隠れマルコフモデル（Hidden Markov Model、ＨＭＭ）及びガウス混合分布（Gaussian Mixture Model，ＧＭＭ）に代表される音響モデルに基づいて計算される。言い換えれば、音響特徴量が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが音響スコアである。
一方、Ｐ（ｗ）は、単語列ｗに対する言語的な尤もらしさであり、そのスコア（言語スコア）は、単語ｎ−ｇｒａｍモデル等の言語モデルにより計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが言語スコアである。なお、単語ｎ−ｇｒａｍモデルは、Ｎ単語連鎖（Ｎは、例えば１、２、または３である。）の統計に基づいて、（Ｎ−１）単語の履歴から次の単語の生起確率を与えるモデルである。

以下の説明では、音響モデルにＨＭＭ−ＧＭＭを用い、言語モデルにｎ−ｇｒａｍを用いる。

式（１）のＰ（ｘ｜ｗ）Ｐ（ｗ）が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式（１）のベイズの定理に基づいて、評価関数ｇ（ｗ｜ｘ）を以下の式（２）のように定める。なお、κは、音響スコアＰ（ｘ｜ｗ）に対する言語スコアＰ（ｗ）の重みである。

そして、以下の式（３）に示すように、音声入力ｘに対する正解候補の単語列ｗの集合Ｌの中から、式（２）が示す評価関数ｇ（ｗ｜ｘ）の結果が最大である単語列ｗ＾が音声入力ｘの音声認識結果として選択される。

従来法における誤り修正モデルでは、式（１）を以下の式（４）のように変更する。

式（４）のｅｘｐΣ_ｉλ_ｉｆ_ｉ（ｗ）は、単語列ｗの誤り傾向を反映したペナルティスコアであり、ｆ_ｉ（ｗ）はｉ番目の素性関数、λ_ｉは素性関数ｆ_ｉ（ｗ）の素性重みである。素性関数は、与えられた単語列（ここでは、単語列ｗ）で言語的ルールが成立すればその数となり、成立しなければ０となるような関数として定められる。具体的な言語的ルールとして、以下の例があげられる。

（ａ）単語列ｗに含まれる連続する単語２項組み（ｕ，ｖ）の数
（ｂ）単語列ｗに含まれる連続しない単語２項組み（ｕ，ｖ）の数

上記の式（４）に示すように、音声認識の誤り傾向は、素性関数と素性重みにより言語的な特徴に対するペナルティとして表現され、学習データの単語誤りを最小化する評価関数に基づいて推定される。つまり、従来法の誤り傾向の学習とは、音声データの音声認識結果とその正解文を学習データとして式（４）の素性重みλ_ｉを求めることである。

［２．２本実施形態による音声認識装置に適用される手法］
前節で述べたように、本実施形態の音声認識装置は、特定の話者及び話題に依存した音声認識の誤り傾向を学習して統計的な誤り修正モデルを生成する。本実施形態の音声認識装置は、この生成した誤り修正モデルを音声認識に適用して認識率の改善をはかる。

誤り修正モデルを統計的手段により学習するためには、学習データが必要となる。学習データは、誤りを含む単語列であり、一般に音声認識結果が用いられる。したがって、学習データにどのような単語列が含まれるかは、音声認識に用いた音響モデルや言語モデルに依存することになる。

一方、音声認識では、単語の予測精度を向上させるため、複数の言語モデルを統合して用いることが多い。一般には、以下の式（５）に示すような線形補間により言語モデルを統合する。

Ｐ_ｊは、ｊ番目の言語モデルを用いたときの言語スコアである。また、θ_ｊは、ｊ番目の言語モデルに対する混合重みと呼ばれる係数であり、Σ_ｊθ_ｊ＝１を満たす。以下、θ_ｊをモデルパラメータとも呼ぶ。通常、言語モデルなどのモデル学習に用いる学習データとモデルパラメータの学習に用いる学習データとは異なるものを用い、モデルパラメータの学習に用いる学習データは一般的に開発データと呼ばれる。

従来法では、式（５）に示すような線形補間等の手法により、複数の言語モデルを統合したモデルを利用して音声認識を行ない、学習データとなる音声認識結果を得る。そして、この得られた音声認識結果を用いて誤り修正モデルを学習する。

図７は、従来法による誤り修正モデル学習の手続きを示す図である。
同図に示すように、従来法では、誤り学習に用いる音響モデルとして音響モデルＡ_１〜Ａ_Ｎの中から特定話者の音響モデル（同図では、音響モデルＡ_２）を選択し、言語モデルとして複数の言語モデルＢ_１〜Ｂ_Ｍを統合する。誤り修正モデルの学習データは、これらの特定話者の音響モデル、及び、統合した言語モデルで音声データを音声認識することにより得られる。そのため、従来法では、複数の言語モデルの組み合わせの条件が変わってしまうと（すなわち、式（６）におけるモデルパラメータθ_ｊの値が変わると）、誤り修正モデルの学習データである音声認識結果が大きく変わってしまう。従って、ある条件に適した誤り修正モデルを学習するには、言語モデルの組み合わせに合わせて、音声認識結果を生成しなければならない。これでは、学習データを生成するための計算時間がかかりすぎてしまい、効率的とはいえない。

図１は、本実施形態による音声認識装置における統合モデル学習の手続きを示す図である。同図に示すように、本実施形態による音声認識装置は、音響モデルＡ_１〜Ａ_Ｎの中から選択した特定話者の音響モデル（同図では、音響モデルＡ_２）と、言語モデルＢ_１〜Ｂ_Ｍの中から選択した特定話題の言語モデル（同図では、言語モデルＢ_１）とを用いた音声認識結果を学習データとして誤り修正モデルを生成し、従来法の問題点である言語モデル（同図では、言語モデルＢ_２〜Ｂ_Ｍ）の統合を、誤り修正モデルの生成後に変更する。この手法では、統合した言語モデルに対する誤り傾向は近似的にしか推定できない。しかし、特定の話題に依存した誤り修正モデルを学習するのであれば、話題依存性を反映した言語モデルが高々１つに限定されるという仮定の下では、誤り傾向の学習をよい近似で行えると考えられる。

従って、本実施形態の音声認識装置が音声認識の対象とする評価データに対して特定の話題及び話者についての誤り傾向を学習する場合、着目する話題に関する言語モデルを１つ用意しておき、特定の話者の音響モデルとともに音声認識に用いる。なお、評価データとは、言語モデルや音響モデルを学習する際に用いた音声データとは別の未知の音声データである。これにより、本実施形態の音声認識装置は、特定の話者及び話題を反映した誤りを含む学習データを生成することが可能となる。

例えば、料理の話題（と特定の話者）に特化した誤り修正モデルを作成したいとする。この場合、料理の話題に関する言語モデルに対して、料理とは直接関係のない話題から学習した言語モデルを線形補間して統合することが多い。これは、ある特定の話題に特化した言語モデルは通常、学習データが少なく、音声認識で単語を予測する精度（推定精度）が劣化してしまい、言語モデルの統計的な頑健性が失われるからである。そこで、この頑健性を担保するために、他の言語モデルとの統合が行われる。しかし、料理に関する誤り傾向をとらえるのであれば、料理の話題に特化した言語モデルを利用するたけで十分である。

本実施形態の音声認識装置は、特定の音響モデルと特定の言語モデルの組み合わせにより学習データを生成して誤り修正モデルを学習しておき、対象となるタスクに合わせて他の言語モデルを混合する。これにより、言語モデルの組み合わせの条件が変更される度に学習データを都度生成する手続が不要となるため、計算時間等のコストが大幅に削減される。

［２．３統合モデル学習処理の概要処理手順］
図２は、本実施形態の音声認識装置による統合モデル学習処理の概要処理フローを示す。
本実施形態の音声認識装置は、音声データとその書き起こしであるテキストデータとからなる音声言語資源データを音声言語資源格納部に予め格納している。さらに本実施形態の音声認識装置は、音響モデル及び言語モデルを統計モデル格納部に予め格納している。音声データ及び音響モデルには、少なくとも話者を示すラベルデータが付与されており、テキストデータ及び言語モデルには、少なくとも話題や番組を示すラベルデータが付与されている。

（ステップＳ１）：認識性能を改善したいタスクに関連する話題及び話者の指定を受ける。
まず、本実施形態の音声認識装置の利用者は、認識率を改善したい話題及び話者を選択する。例えば、利用者は、音声言語資源データの各音声データや各テキストデータに付与されたラベルデータが示す番組や話題、話者の情報に基づいて、話者名や話題（料理・健康・旅行など）のラベルデータを指定する。本実施形態の音声認識装置は、誤り修正モデルの学習に用いる音声言語資源データとして、指定された話者名や話題のラベルデータが付与された音声データやテキストデータを選択する。

（ステップＳ２）：認識性能を改善したいタスクで使う言語モデル・音響モデルを選択する。
次に、本実施形態の音声認識装置は、統計モデル格納部から、ステップＳ１において指定された話題や話者に適合した言語モデル及び音響モデルを選択する。これらのモデルは、音声言語資源格納部に記憶されている音声データやテキストデータから統計的手段により推定された音響モデル及び言語モデルでもよく、他の音声データやテキストデータから推定された音響モデル及び言語モデルでもよい。

（ステップＳ３）：選択された音響モデル及び言語モデルと音声言語資源データとから音声認識の認識誤りを含む仮説を生成する。
本実施形態の音声認識装置は、ステップＳ１で選択した音声データを、ステップＳ２で選択した音響モデル及び言語モデルにより音声認識し、認識誤りを含む仮説（音声認識結果）を学習データとして生成する。なお、ステップＳ１においてテキストデータを選択した場合、本実施形態の音声認識装置は、音響モデル及び言語モデルを用いて擬似的に誤りを含む仮説を生成することも可能である。

（ステップＳ４）：生成した仮説を用いて誤り修正モデルを学習する。
本実施形態の音声認識装置は、ステップＳ３において得られた認識誤りを含む仮説を学習データとして用い、統計的手段により誤り修正モデルを推定する。この誤り修正モデルの推定の際、本実施形態の音声認識装置は、修正モデルの推定に用いる言語的な特徴を、ステップＳ１で選択したテキストデータが示す書き起こし（正解文）とステップＳ３で得られた誤りを含む仮説とから予め定めておく。

（ステップＳ５）：誤り修正モデルと任意の数の言語モデルを統合する。
本実施形態の音声認識装置は、ステップＳ４において得られた誤り修正モデルと、統計モデル格納部に記憶されている任意の数の言語モデルを線形補間などの手法で統合し、統合モデルを生成する。この際、本実施形態の音声認識装置は、認識性能を改善したい話題・話者の音声データを用い、その認識性能を最大にするよう各言語モデルの混合重み（モデルパラメータ）を推定して統合する。

（ステップＳ６）：本実施形態の音声認識装置は、ステップＳ５によって生成された統合モデルを用いて特定話者の特定話題についての発話を音声認識する。

［３．音声認識装置の構成］
図３は、本発明の一実施形態による音声認識装置１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。
音声認識装置１は、コンピュータ装置により実現され、同図に示すように、音声言語資源管理部２、統計モデル管理部３、認識誤り生成部４、誤り修正モデル学習部５、モデル統合部６、音声認識部７、及び記憶部８を備えて構成される。

音声言語資源管理部２は、音声データ及びテキストデータからなる音声言語資源データを記憶する音声言語資源格納部２１を備える。音声言語資源管理部２は、外部から取得した放送音声・字幕データＤ１を音声言語資源データとして収集し、音声言語資源格納部２１に書き込む。この際、音声言語資源管理部２は、放送音声・字幕データＤ１の内容に応じて、音声データであれば発話者の名前（話者名）を示すラベルデータを付与し、テキストデータであれば話題などの内容を示すラベルデータを付与して音声言語資源格納部２１に格納する。なお、音声データのラベルデータに話題が含まれてもよく、テキストデータのラベルデータに話者名が含まれてもよい。音声データは、発話の音声波形を短時間スペクトル分析して得られた特徴量を示し、テキストデータは、発話内容の書き起こし（正解文）を示す。１つのテキストデータは、複数の文を含み得る。

利用者は、音声言語資源格納部２１に格納された音声データ、テキストデータに付与されたラベルデータに応じて、所望の統合モデルの生成対象となる話者と話題を選択する。この選択作業により話者及び話題が特定され、音声言語資源管理部２は、特定された話者や話題に対応したラベルデータの音声言語資源データを特定する。音声言語資源管理部２は、特定した音声言語資源データの中から、誤り修正モデルの学習に用いる学習データを生成するための音声・テキストデータＤ４と、統合モデルのモデルパラメータ推定用の開発データＤ５とを重ならないように選択し、記憶部８に書き込む。音声言語資源管理部２は、特定された話者を示す特定話者データＤ２及び特定された話題を示す特定話題データＤ３を統計モデル管理部３に出力する。

統計モデル管理部３は、ラベルデータが付与された音響モデル及び言語モデルを格納する統計モデル格納部３１を備える。音響モデルのラベルデータは発話者の名前を示し、言語モデルのラベルデータは話題名を示す。統計モデル管理部３は、特定話者データＤ２及び特定話題データＤ３が示す話者や話題、あるいは、その話題に類似した話題のラベルデータによって統計モデル格納部３１に記憶されている音響モデル及び言語モデルから音響モデルＤ６及び言語モデルＤ７を選択する。さらに、統計モデル管理部３は、統計モデル格納部３１に記憶されている言語モデルから言語モデルＤ７とは異なる言語モデルＤ８を１以上選択する。

認識誤り生成部４は、音声・テキストデータＤ４に含まれる音声データを、音響モデルＤ６及び言語モデルＤ７を用いて音声認識し、認識誤りを含む音声認識結果である学習データＤ９を生成して記憶部８に書き込む。なお、認識誤り生成部４は、音声・テキストデータＤ４のうち、対応する音声データがないテキストデータについては、音声認識によらない擬似的な仮説生成手法により学習データＤ９を生成する。

誤り修正モデル学習部５は、学習データＤ９が示す音声認識結果と音声・テキストデータＤ４内のテキストデータが示す正解文とを用いて、音声認識の誤り傾向を統計的手段により学習し、誤り修正モデルＤ１０を生成する。誤り修正モデル学習部５は、生成した誤り修正モデルＤ１０を記憶部８に書き込む。

モデル統合部６は、誤り修正モデルＤ１０と、特定話題以外の任意の数の言語モデルＤ８とを統合して統合モデルＤ１１を生成し、記憶部８に書き込む。

音声認識部７は、統計モデル格納部３１に格納されている従来の言語モデル及び音響モデルと、統合モデルＤ１１が示す統合モデルとを用いて音声認識を行い、音声認識結果を示す音声認識結果データＤ１２を出力する。
記憶部８は、各機能部が使用する各種データを記憶する。

［４．音声認識装置における詳細な処理手順］
続いて、図２に示す統合モデル学習処理において、音声認識装置１が実行する詳細な処理手順について説明する。

［４．１ステップＳ１］
音声言語資源管理部２は、音声言語資源データの音声データ及びテキストデータとして放送音声・字幕データＤ１を収集し、音声言語資源格納部２１に格納する。あるいは、音声言語資源管理部２は、音声認識装置１とネットワークにより接続されるサーバコンピュータ等からウェブデータを収集し、テキストデータのみからなる音声言語資源データとして音声言語資源格納部２１に格納する。収集した音声データ及びテキストデータには、音声言語資源管理部２により、あるいは、人手によりラベルデータが付与される。例えば、放送音声・字幕データＤ１に付与されている番組情報をラベルデータに利用することができる。また、ウェブデータが例えばニュースのテキストデータである場合、そのニュースが属するカテゴリをウェブデータから取得し、ラベルデータに使用することができる。

誤り修正モデルの学習に用いる学習データを生成するため、利用者は、音声言語資源格納部２１に格納されているラベルデータの集合を参照して話者及び話題を指定し、キーボードなどの図示しない入力手段により、特定話者データＤ２と特定話題データＤ３を入力する。音声言語資源管理部２は、音声言語資源格納部２１に記憶されているラベルデータに基づいて、特定話者データＤ２及び特定話題データＤ３に対応した音声データ及びテキストデータの組みを特定すると、特定した中から一部の組みを音声・テキストデータＤ４として選択する。さらに、音声言語資源管理部２は、同様の手順により、特定話者データＤ２及び特定話題データＤ３に対応した音声データ及びテキストデータの組みを特定し、特定した中から一部の組みを言語モデルのモデルパラメータを推定するための開発データＤ５として選択する。このとき、音声言語資源管理部２は、音声・テキストデータＤ４と重なりがないように開発データＤ５を選択する。なお、音声言語資源管理部２は、特定話題データＤ３に対応したテキストデータを特定し、特定したテキストデータから音声・テキストデータＤ４を選択してもよい。なお、音声・テキストデータＤ４、開発データＤ５の選択方法については任意であるが、開発データＤ５の量は音声・テキストデータＤ４の量の数％程度でよい。

［４．２ステップＳ２］
統計モデル格納部３１には、音声言語資源データとして音声言語資源格納部２１に格納された音声データ及びテキストデータ、もしくは、他の音声言語資源データから学習された音響モデル及び言語モデルが、ラベルデータと対応づけて格納されている。統計モデル管理部３は、統計モデル格納部３１に格納されているラベルデータに基づいて、特定話者データＤ２に対応する音響モデルと、特定話題データＤ３に対応する言語モデルを選択する。さらに、統計モデル管理部３は、誤り修正モデルと統合するための言語モデルＤ８として、統計モデル格納部３１に格納されている言語モデルの中から言語モデルＤ７とは異なる言語モデルを１以上選択する。

［４．３ステップＳ３］
認識誤り生成部４は、音響モデルＤ６及び言語モデルＤ７を用いて、音声・テキストデータＤ４に含まれる音声データを音声認識する。ここでは、音声認識結果を、上位ｎ個（ｎは１以上の整数）の最尤単語系列（ｎ−ｂｅｓｔ）または単語ラティスとする。認識誤り生成部４は、音声データの音声認識結果を示す学習データＤ９を記憶部８に書き込む。

なお、認識誤り生成部４は、音声・テキストデータＤ４が、音声データに対応付けられていないテキストデータである場合、音声認識が使用できないため、以下の図４に示すように擬似的に音声認識結果を生成する。

図４は、認識誤り生成部４による擬似的な音声認識結果の生成処理の処理フローを示す図である。この生成処理は、文献「徳田，隠れマルコフモデルの音声合成への応用，電子情報通信学会研究報告ＳＰ−９９，１９９９年，ｐ．４７−５４，１９９９年」に示す音声合成で用いられる手続に基づく。

（ステップＳ３０：発音系列生成処理）
まず、認識誤り生成部４は、音声・テキストデータＤ４に含まれるテキストデータが示す各単語列を、正解音素列に変換する。この正解音素列の変換処理には様々な変換方法が考えられるが、本実施形態では、以下のように変換する。

いま、単語列をｗ、音素列をｑとすると、求める正解音素列ｑ＾は、以下の式（６）により得られる。

ここで、単語列ｗが与えられたときの音素列ｑの条件付き確率Ｐ（ｑ｜ｗ）は、以下の式（７）により得られる。

ただし、Ｓ（ｗ，ｑ）は、対数線形モデルによるスコアとし、以下の式（８）により得られる。

なお、式（８）におけるｆ_ｉ（ｗ，ｑ）はｉ番目の素性関数、λ_ｉは素性関数ｆ_ｉ（ｗ，ｑ）の素性重みである。
式（８）に用いられる素性関数として、例えば、以下があげられる。

（ａ）単語列ｗのｉ番目の単語ｗ_ｉ＝ｕの発音ｑ_ｉ＝αであれば１、それ以外は０。例えば、単語ｗ_ｉが単語ｕ「行って」であり、単語ｗ_ｉの発音ｑ_ｉが音素列α「/i/ /Q/ /t/ /e/」に合致すれば「１」となる。
（ｂ）単語列ｗのｉ−１番目の単語ｗ_ｉ−１＝単語ｕ、かつ、ｉ番目の単語ｗ_ｉ＝単語ｖであり発音ｑ_ｉ＝βであれば１、それ以外は０。例えば、単語ｗ_ｉ−１が単語ｕ「へ」であり、直後の単語ｗ_ｉが単語ｕ「行って」、かつ、単語ｗ_ｉの発音ｑ_ｉが音素列α「/i/ /Q/ /t/ /e/」に合致すれば「１」となる。

単語列ｗに対して音素列ｑは複数生成され得る。そこで、上記では、単語の表記の情報を利用しながら正解の発音（音素列）を推定しており、出現しやすいほど０以外の値の素性関数が多くなり、式（８）のスコアが大きくなる。

記憶部８は、単語・発音変換モデルＤ３１として単語表記とその単語の発音を示す音素列とを対応付けたテーブルである発音辞書を予め記憶しておく。一つの単語表記に対して、１以上の音素列が対応しうる。認識誤り生成部４は、音声・テキストデータＤ４の各テキストデータが示す単語列をｗとし、単語列ｗを構成する各単語ｗ_１，ｗ_２，…それぞれの音素列を単語・発音変換モデルＤ３１から取得する。認識誤り生成部４は、単語列ｗを構成する単語ｗ_１，ｗ_２，…の順に、その単語について取得した音素列を結合して単語列ｗの音素列ｑを生成する。従って、単語列ｗが単語ｗ_１，ｗ_２，…からなり、単語ｗ_ｉに対応した音素列がｎ_ｉ個（ｉ＝１，…）ある場合、音素列ｑは、Πｎ_ｉ通り生成される。認識誤り生成部４は、単語列ｗについて、式（７）及び式（８）により生成した音素列ｑそれぞれの条件付き確率Ｐ（ｑ｜ｗ）を算出し、算出した条件付き確率Ｐ（ｑ｜ｗ）を用いて式（６）により、単語列ｗが与えられたときに尤もらしい発音系列である正解音素列ｑ＾を得る。なお、式（８）に用いられるモデルパラメータΛ＝（λ_１，λ_２，…）は、別に用意した単語列と正解発音系列からなる学習データから予め学習しておいた値を用いる。

（ステップＳ３１：ＨＭＭ状態系列生成処理）
認識誤り生成部４は、ステップＳ３０において得られた正解の発音系列である正解音素列ｑ＾から、対応するＨＭＭの状態系列を求める。例えば、認識誤り生成部４は、音響モデルＤ６が示す各音素に対応したＨＭＭを参照し、正解音素列ｑ＾を構成する各音素に対応したＨＭＭを結合してＨＭＭの状態系列を生成する。

ＨＭＭは、一般的には３〜５状態程度の有限状態オートマトンであり、その有限状態オートマトンのモデルを構成する状態には自己遷移が付随する。この自己遷移の回数が状態継続時間となるが、ここではまだ自己遷移の回数が不明である。そこで、認識誤り生成部４は、生成したＨＭＭの状態系列に含まれる各状態の状態継続時間長を推定する。本実施形態では、認識誤り生成部４は、Ｇａｍｍａ（ガンマ）分布を用いて状態継続時間長をサンプリングにより求める。なお、Ｇａｍｍａ分布とは、以下の式（９）に示す確率密度関数ｆ（ｘ）を持つ分布である。

式（９）において、ｘはＨＭＭの継続時間であり、θは尺度母数、ｋは形状母数と呼ばれるモデルパラメータである。また、Γ（ｋ）は、ガンマ関数を示す。

記憶部８は、音声データからＨＭＭの各状態について予め推定した状態継続時間のガンマ分布を示す状態継続時間モデルＤ３２を話者毎に記憶しておく。認識誤り生成部４は、特定話者の状態継続時間モデルＤ３２が示すＨＭＭの各状態のガンマ分布に従った乱数発生器により、正解音素列ｑ＾から生成したＨＭＭの状態系列を構成する各ＨＭＭについて状態継続時間の推定値を得る。これにより、各ＨＭＭの状態間の遷移（経路）が求められる。つまり、認識誤り生成部４は、得られた推定値を状態継続時間としたＨＭＭを連結し、状態継続時間付きのＨＭＭの状態系列を得る。

（ステップＳ３２：ＨＭＭ特徴量ベクトル生成処理）
認識誤り生成部４は、音響モデルＤ６が示すＨＭＭの各状態における多変量混合Ｇａｕｓｓ（ガウス）分布から、音響特徴量をサンプリングにより求める。なお、多変量混合Ｇａｕｓｓ分布とは、式（１０）に示す確率密度関数Ν（ｘ；μ，Σ）を持つ分布である。

式（１０）において、ｘはＮ次元の音響特徴量ベクトル、μ、Σはそれぞれ、多変量Ｇａｕｓｓ分布の平均と共分散行列である。
ここで、ＨＭＭは、式（１０）に示す確率密度関数Ν（ｘ；μ，Σ）の多変量混合Ｇａｕｓｓ分布を用いて、式（１１）に示す混合Ｇａｕｓｓ分布で定められる。

式（１１）におけるｃ_ｍは、混合要素である確率密度関数Ν（ｘ；μ_ｍ，Σ_ｍ）の多変量混合Ｇａｕｓｓ分布に対する重みであり、式（１２）を満たす。

音響特徴量（音声の短時間スペクトルから抽出した特徴）に対する出力確率を計算するために、各話者について予め求めておいたＨＭＭの各状態における音響特徴量の多変量混合Ｇａｕｓｓ分布を音響モデルとして統計モデル格納部３１に記憶しておく。認識誤り生成部４は、音響モデルＤ６が示すＨＭＭの各状態の多変量混合Ｇａｕｓｓ分布に従った乱数発生器により、状態継続時間付きの各ＨＭＭの状態系列に対応した音響特徴量を得る（サンプリング）。

（ステップＳ３３：線形変換処理）
線形変換処理は、オプションである。認識誤り生成部４は、ステップＳ３２においてサンプリングにより得た音響特徴量に対して、音声認識がコンフュージョンを起こしやすくするように、予め記憶部８に記憶されている特徴量変換行列Ｄ３３を用いて、特徴量空間での最尤線形回帰（feature-space Maximum Likelihood Linear Regression；ｆＭＬＬＲ）を行う。この処理は、文献「Y. Li et al. Incremental on-line feature space MLLR adaptation for telephony speech recognition, In ICSLP, 2002.」に記載の技術を用いる。通常、ＨＭＭのような統計的なモデルでは、音響特徴量空間上で識別面（他のＨＭＭよりも高い確率を出力する空間）を構成する。そこで、特徴量変換行列による線形変換を使って、特徴量を識別面から離す（どこか遠い別の点に近づける）ことにより、識別性能を故意に劣化させることができる。近づける対象の点としては、ある音素を統計的に間違いが生じやすい他の音素に置き換えた点を用いることができる。

（ステップＳ３４：音声認識処理）
最後に、認識誤り生成部４は、ステップＳ３３により得られた音響特徴量（あるいは、ステップＳ３２により得られた音響特徴量）を、音響モデルＤ６及び言語モデルＤ７を用いて音声認識し、音声認識結果を得る。音声認識結果は、ｎ−ｂｅｓｔまたは単語ラティスとする。音声認識結果には、複数の正解文候補と、各正解文候補の音響スコア及び言語スコアが含まれる。認識誤り生成部４は、音声認識結果を学習データＤ９として記憶部８に書き込む。

［４．４ステップＳ４］
［４．４．１言語的特徴抽出処理］
ステップＳ４において誤り修正モデル学習部５は最初に、記憶部８に記憶されている音声・テキストデータＤ４及び学習データＤ９から、誤り傾向学習のために用いる言語的特徴に基づく素性関数を抽出する。素性関数のルールは、例えば、連続する単語、単語を構成する音素、連続しない２単語以上の単語、音素間の共起関係、単語の構文的な情報または意味的な情報、などの言語的特徴である。

本実施形態では、誤り修正モデル学習部５は、単語の共起関係に基づく素性関数として、例えば以下の（ａ）、（ｂ）を定める。

（ａ）単語列ｗに連続する単語２項組み（ｕ，ｖ）が含まれる場合，その数を返す関数
（ｂ）単語列ｗに連続しない単語２項組み（ｕ，ｖ）が含まれる場合、その数を返す関数

また、誤り修正モデル学習部５は、単語列ｗを構成する各単語を名詞や動詞といった品詞カテゴリに置き換えた上で、構文情報に基づく素性関数として、例えば以下の（ｃ）、（ｄ）を定める。なお、ｃ（・）は単語を品詞にマッピングする関数である。

（ｃ）単語列ｗに連続する品詞２項組み（ｃ（ｕ），ｃ（ｖ））が含まれる場合、その数を返す関数
（ｄ）単語列ｗに連続しない品詞２項組み（ｃ（ｕ），ｃ（ｖ））が含まれる場合、その数を返す関数

あるいは誤り修正モデル学習部５は、単語列ｗを構成する各単語を、意味情報を表すカテゴリ（意味カテゴリ）に置き換えた上で、意味的な情報に基づく素性関数として、例えば以下の（ｅ）、（ｆ）を定める。意味カテゴリは、音声認識装置１の外部のデータベースまたは記憶部８に記憶されるシソーラスなどを用いて得ることができる。なお、ｓ（・）は単語を意味カテゴリにマッピングする関数である。

（ｅ）単語列ｗに連続する意味カテゴリ２項組み（ｓ（ｕ），ｓ（ｖ））が含まれる場合、その数を返す関数
（ｆ）単語列ｗに連続しない意味カテゴリ２項組み（ｓ（ｕ），ｓ（ｖ））が含まれる場合、その数を返す関数

また、誤り修正モデル学習部５は、音素列に関する素性関数として、例えば以下の（ｇ）を定める。

（ｇ）単語列ｗに音素列ｑが含まれる場合、その数を返す関数

誤り修正モデル学習部５は、音声・テキストデータＤ４のテキストデータが示す正解単語列、及び、学習データＤ９の音声認識結果から、上記のルールに従った素性関数を全て抽出し、抽出した素性関数が出現する頻度をカウントする。誤り修正モデル学習部５は、カウントした出現頻度が予め定めた閾値以上である素性関数を、誤り傾向学習で用いる素性関数ｆ_ｉとして決定する。

［４．４．２誤り傾向学習処理］
本実施形態では、誤り修正モデル学習部５は、誤り傾向を反映した誤り修正モデルを得るために、以下で述べるリスク最小化法を用いる。
リスク最小化手法に基づく、統計的な誤り修正モデルでは、発話ｘ_ｍ（ｍは１以上Ｍ以下の整数、Ｍは学習データの数）と、この発話ｘ_ｍに対応した正解単語列ｗ_ｍ，０が与えられたとき、目的関数Ｌ（Λ）を以下の式（１３）のように定める。

Ｌ_ｍは、発話ｘ_ｍから音声認識により生成された文仮説ｗ_ｍ，１、ｗ_ｍ，２、…の集合であり、文仮説ｗ_ｍ，ｋ（ｋは１以上の整数）は発話ｘ_ｍの第ｋ番目の正解文候補の単語列である。また、ｗ_ｍ，０は発話ｘ_ｍの正解文であり、Ｒ（ｗ_ｍ，ｏ，ｗ_ｍ，ｋ）は、正解文ｗ_ｍ，０と文仮説ｗ_ｍ，ｋとのLevenshtein編集距離である。事後確率Ｐ（ｗ_ｍ，ｋ｜ｘ_ｍ；Λ）は、発話ｘ_ｍが発生したときに文仮説ｗ_ｍ，ｋが得られる事後確率である。Λは、素性関数に対する素性重みλ_１、λ_２、…の集合であり、式（１３）の目的関数を最小化するΛが、求める誤り修正モデルのパラメータとなる。これは、式（１３）の目的関数を最小化するようにΛを推定すれば、正解文候補に期待される認識誤りが最小となり、学習データとは異なる未知の入力音声に対する音声認識においても、Λによって認識誤りの最小化が同様に行われ、音声認識の性能の向上が期待できるからである。つまり、式（１３）の目的関数は、正解文候補に期待される認識誤りが最小となり、素性重みが適切であるかの評価値を算出する評価関数として用いられる。

誤り修正モデルは、音声入力ｘに対して得られた文仮説ｗに対して、以下の式（１４）に従う誤りスコアＳ（ｗ）を出力する。

従って、誤り修正モデルによるスコアを考慮した音声認識のスコアｇ＾（ｗ｜ｘ）は、以下の式（１５）のように算出され、音声認識により得られた文仮説の中で、式（１５）により算出されたスコアを最大とする仮説が音声認識結果として出力される。

式（１５）におけるκは、音響モデルのスコアＰ（ｘ｜ｗ）に対する言語モデルのスコアの重みである。

なお、式（１３）の事後確率Ｐ（ｗ_ｍ，ｋ｜ｘ_ｍ；Λ）は、以下の式（１６）のように算出される。

式（１６）におけるｇ＾（ｗ_ｍ，ｋ｜ｘ_ｍ；Λ）は、式（１５）から以下の式（１７）のように算出される。

式（１７）におけるＳ（ｗ_ｍ，ｋ）は、Λ＝λ_１、λ_２、…の値を用いて式（１４）により算出される。

図５は、誤り修正モデル学習部５による誤り修正モデル学習処理の処理フローを示す図である。

（ステップＳ４０：特徴量抽出処理）
誤り修正モデル学習部５は、先に示した言語的特徴抽出処理により、誤り傾向学習で用いる素性関数ｆ_ｉを抽出する。

（ステップＳ４１：モデルパラメータ初期化処理）
誤り修正モデル学習部５は、ステップＳ４０において得られた素性関数ｆ_ｉの素性重みλ_ｉを全てゼロに初期化する。

（ステップＳ４２：目的関数計算処理）
誤り修正モデル学習部５は、学習データＤ９から音声認識結果を読み込み、音声・テキストデータＤ４からこの音声認識結果に対応した正解単語列（テキストデータ）を読み込む。誤り修正モデル学習部５は、読み込んだこれらのデータを用いて、現在のΛ＝（λ_１，λ_２，…）の値を用い、式（１３）により目的関数Ｌ（Λ）の値を計算する。

なお、文仮説ｗ_ｍ，ｋ（ｋ＝１，．．．）は、発話ｘ_ｍの音声データから得られた音声認識結果に含まれる第ｋ番目の正解文候補であり、学習データＤ９から得られる。また正解文ｗ_ｍ，０は、発話ｘ_ｍの正解単語列であり、音声・テキストデータＤ４から得られる。誤り修正モデル学習部５は、音声・テキストデータＤ４から読み出した正解文ｗ_ｍ，０と学習データＤ９から読み出した文仮説ｗ_ｍ，ｋとを用いて、式（１３）におけるLevenshtein編集距離Ｒ（ｗ_ｍ，ｏ，ｗ_ｍ，ｋ）を算出する。また、誤り修正モデル学習部５は、式（１６）及び式（１７）により、事後確率Ｐ（ｗ_ｍ，ｋ｜ｘ_ｍ；Λ）を算出するが、式（１７）における音響スコアＰ（ｘ_ｍ｜ｗ_ｍ，ｋ）及び言語スコアＰ（ｗ_ｍ，ｋ）は、学習データＤ９の音声認識結果から得られる。また、誤り修正モデル学習部５は、式（１７）のＳ（ｗ_ｍ，ｋ）を、ステップＳ４０において抽出した素性関数ｆ_ｉについて文仮説ｗ_ｍ，ｋから得た値と、現在のΛの値を用いて式（１４）により算出する。

（ステップＳ４３：パラメータ更新処理）
誤り修正モデル学習部５は、準ニュートン法に基づいて、誤り修正モデルのパラメータΛを更新する。準ニュートン法は、適当な初期値を与えて解に近い次の値を生成し、その値からまた次の解に近い値を生成することを繰り返し、最終的に最適解に収束させるものである。準ニュートン法の詳細については、非特許文献１を参照のこと。

（ステップＳ４４：終了判定処理）
誤り修正モデル学習部５は、パラメータの更新により変更された目的関数Ｌ（Λ）の値と、変更前の目的関数Ｌ（Λ）の値を比較する。誤り修正モデル学習部５は、値の変化が所定以上であればステップＳ４２からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてステップＳ４５の処理を実行する。

（ステップＳ４５：誤り修正モデル出力処理）
誤り修正モデル学習部５は、更新が収束したときの誤り修正モデルの素性重みΛ＝（λ_０，λ_１，…）を用いた誤り修正モデルＤ１０を記憶部８に書き込む。

［４．５ステップＳ５］
モデル統合部６は、ステップＳ４において生成された誤り修正モデルＤ１０と、統計モデル格納部３１から選択された複数の言語モデルＤ８とを統合し、統合モデルＤ１１を生成する。

モデル統合部６で得られる統合モデルＤ１１と、音響モデルを用いた音声認識では、音声入力（入力音響特徴量）ｘに対して、文仮説ｗの音声認識のスコアｇ＾（ｗ｜ｘ）を、あらためて以下の式（１８）ように計算する。

式（１８）におけるＰ（ｘ｜ｗ）は、文仮説ｗに対する音響的な尤もらしさを示す事後確率であり、音響スコアである。Ｐ_ｋ（ｗ）、Ｐ_ｒ（ｗ）はそれぞれ、統計モデル格納部３１から得られた第ｋ番目の言語モデルの言語スコア、第ｒ番目の言語モデルの言語スコアである。なお、Ｐ_ｒ（ｗ）は、ステップＳ４の誤り修正モデルの学習で用いた言語モデルＤ７の言語スコアであり、Ｐ_ｋ（ｗ）は言語モデルＤ８の言語スコアである。
また、θ_ｋ∈Θは、各言語モデルに対する混合重み（モデルパラメータ）であり、Σ_ｋθ_ｋ＝１を満たす。モデル統合部６は、モデルパラメータΘを推定する。この推定したモデルパラメータΘを用いた式（１８）が、求める統合モデルである。
つまり、式（１８）は、学習データから得られた認識誤りの誤り傾向を反映させた式（１５）に示す誤り修正モデルの言語スコアの部分に、混合重みに従って各言語モデルＤ８による言語スコアを線形補間したものである。

ここで、Ｐ_ｒ（ｗ）ｅｘｐΣ_ｉλ_ｉｆ_ｉ（ｗ）をあらためてＰ_ｒ（ｗ）と置いて式（１８）を整理すると、文仮説ｗの音声認識のスコアｇ＾（ｗ）は、以下の式（１９）のようになる。

Ｐ（ｗ｜ｘ）を、音声入力ｘが与えられたときの文仮説ｗの条件付き確率とすれば、以下の式（２０）となる。

分子は確率の和が１となるため、正規化項でＺ（Θ）≡Σ_ｗ’ｅｘｐｇ＾（ｗ’｜ｘ）とすれば、文仮説ｗの事後確率Ｐ（ｗ｜ｘ）は、以下の式（２１）のように与えられる。

ここで、Ｚ（Θ）は、正規化のための定数であり、式（２２）にように算出される。

ただし、ｗ_ｔは、音声入力ｘを音声認識した結果得られた全ての文仮説（正解候補）である。
モデルパラメータΘは、誤り修正モデルと同様に、Ｎ個の発話から構成される開発データＤ５を用いて、以下の式（２３）に示すリスク最小化問題を解くことにより得られる。

最適化問題が制約条件Σ_ｋθ_ｋ＝１を満たすようにするため、ラグランジュ係数ν＞０を用いて制約なしの最適化問題にしていることに注意する。

図６は、モデル統合部６によるモデル統合処理の処理フローを示す図である。

（ステップＳ５０：モデルパラメータ初期化処理）
モデル統合部６は、モデルパラメータΘを初期化する。ここでは、言語モデルの個数をＫ個とし、モデル統合部６は、θ_ｋ＝１／Ｋとして初期化する。

（ステップＳ５１：目的関数計算処理）
モデル統合部６は、記憶部８から開発データＤ５を読み出す。モデル統合部６は、特定話者の音響モデルＤ６と、言語モデルＤ７及び言語モデルＤ８を用いて開発データＤ５の音声データを音声認識し、現在のモデルパラメータΘの値を使って式（２３）によって目的関数Ｌ（Θ）の値を算出する。
なお、文仮説ｗ_ｎ，ｍ（ｍ＝１，．．．）は開発データＤ５の音声データが示す発話ｘ_ｎの第ｍ番目の正解文候補である。発話ｘ_ｎの正解文ｗ_ｎ，０は、開発データＤ５のテキストデータから得られる。モデル統合部６は、発話ｘ_ｎの正解文ｗ_ｎ，０と文仮説ｗ_ｎ，ｍとを用いて、式（２３）におけるLevenshtein編集距離Ｒ（ｗ_ｎ，ｏ，ｗ_ｎ，ｍ）を算出する。
また、式（２３）における事後確率Ｐ（ｗ_ｎ，ｍ｜ｘ_ｎ；Θ）は、発話ｘ_ｎが発生したときに正解文候補ｗ_ｎ，ｍが得られる事後確率であり、以下の式（２４）のように算出される。

ただし、ｇ＾（ｗ_ｎ，ｍ｜ｘ_ｎ；Θ）は、式（１８）から以下の式（２５）のように算出される。

式（２５）において、Ｐ（ｘ_ｎ｜ｗ_ｎ，ｍ）（ｍ＝１，．．．）は文仮説ｗ_ｎ，ｍの音響スコアである。また、Ｐ_ｋ（ｗ_ｎ，ｍ）はｋ番目の言語モデルである言語モデルＤ８を用いたときの文仮説ｗ_ｎ，ｍの言語スコアであり、Ｐ_ｒ（ｗ_ｎ，ｍ）は言語モデルＤ７を用いたときの文仮説ｗ_ｎ，ｍの言語スコアである。

（ステップＳ５２：モデルパラメータ更新処理）
モデル統合部６は、準ニュートン法に基づいて、誤り修正モデルのモデルパラメータΘを更新する。

（ステップＳ５３：終了判定処理）
モデル統合部６は、パラメータの更新により変更された目的関数値と、変更前の目的関数値を比較して、値の変化が所定以上であればステップＳ５１からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてステップＳ５４の処理を実行する。

（ステップＳ５４：統合モデル出力処理）
モデル統合部６は、更新が収束したときのモデルパラメータΘ＝（θ_０，θ_１，…）を用いた式（１８）を統合モデルＤ１１として記憶部８に書き込む。

［４．６ステップＳ５］
音声認識部７は、音声データが入力されると、リアルタイムで音声認識を行う。音声認識部７は、入力された音声データの話者及び話題に対応して記憶部８に記憶されている統合モデルＤ１１と、話者に対応して統計モデル格納部３１に記憶されている音響モデル、及び、話題に対応して統計モデル格納部３１に記憶されている言語モデルとを用いて、入力された音声データの正解文候補とそのスコアを得る。音声認識部７は、スコアの最も良い正解文候補を示す音声認識結果データＤ１２を出力する。

［５．効果］
本実施形態によれば、音声認識装置１は、認識率を向上させたい話者・話題などの情報が誤り傾向に反映された統合モデルを生成することができるため、従来の音声認識よりも認識誤りが削減される。
また、音声認識装置１は、複数の言語モデルの統合を、誤り修正モデルの学習後に行うため、従来よりも効率的にモデル学習を行うことができる。

［６．その他］
なお、上述の音声認識装置１は、内部にコンピュータシステムを有している。そして、音声認識装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１音声認識装置
２音声言語資源管理部
２１音声言語資源格納部
３統計モデル管理部
３１統計モデル格納部
４認識誤り生成部
５誤り修正モデル学習部
６モデル統合部
７音声認識部
８記憶部

Claims

特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納部と、
前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納部と、
前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成部と、
前記認識誤り生成部により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習部と、
前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習部により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合部と、
を備えることを特徴とする音声認識装置。
前記モデル統合部は、前記正解文候補から得られた前記認識誤りと、前記誤り修正モデルにより得られた前記正解文候補の音響スコア及び前記認識誤り傾向が修正された言語スコアと、前記特定話題とは異なる話題の前記言語モデルから得られた前記正解文候補の言語スコアとを用いて定められる評価関数によって算出した評価値に基づいて前記混合重みを統計的に算出する、
ことを特徴とする請求項１に記載の音声認識装置。
前記認識誤り生成部は、前記特定話題に対応した前記テキストデータの発話内容を前記特定話者の前記音響モデルを用いて音声合成して音声データを生成し、生成した前記音声データを前記特定話者の前記音響モデルと前記特定話題の前記言語モデルとを用いて音声認識して認識誤りを含む音声認識結果を生成する、
ことを特徴とする請求項１または請求項２に記載の音声認識装置。
前記誤り修正モデルは、連続する単語、単語を構成する音素、連続しない複数の単語、音素間の共起関係、単語の構文的な情報、または単語の意味的な情報に基づく言語的特徴を表す素性関数とその素性重みとを用いて定義され、
前記誤り修正モデル学習部は、前記音声認識結果から得られた前記素性関数の値と前記音声認識結果に含まれる前記認識誤りとを用いて定められる評価関数によって算出した評価値に基づいて前記素性重みを統計的に算出し、算出した前記素性重みを用いて前記誤り修正モデルを生成する、
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音声認識装置。
前記モデル統合部により生成された前記統合モデルを用いて前記特定話者による前記特定話題の発話の音声データを音声認識する音声認識部をさらに備える、
ことを特徴とする請求項１から請求項４のいずれか１項に記載の音声認識装置。
特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納過程と、
前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納過程と、
前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成過程と、
前記認識誤り生成過程において生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習過程と、
前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習過程において生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合過程と、
を有することを特徴とする誤り修正モデル学習方法。
コンピュータを、
特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納手段と、
前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納手段と、
前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成手段と、
前記認識誤り生成手段により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習手段と、
前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習手段により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合手段と、
を具備する音声認識装置として機能させるためのプログラム。