JP6051004B2

JP6051004B2 - 音声認識装置、誤り修正モデル学習方法、及びプログラム

Info

Publication number: JP6051004B2
Application number: JP2012225330A
Authority: JP
Inventors: 彰夫小林
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-10-10
Filing date: 2012-10-10
Publication date: 2016-12-21
Anticipated expiration: 2032-10-10
Also published as: JP2014077882A

Description

本発明は、音声認識装置、誤り修正モデル学習方法、及びプログラムに関する。

音声認識の誤り修正については、音声とその書き起こし（正解文）から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある（例えば、非特許文献１参照）。

小林ほか，「単語誤り最小化に基づく識別的スコアリングによるニュース音声認識」，電子情報通信学会誌，vol.J93-D no.5，２０１０年，ｐ．５９８−６０９

音声認識では、統計的言語モデル（以下、「言語モデル」と記載する。）を用いて単語の予測を行うが、このときに用いられる言語モデルは、単語の予測性能を向上させるために複数の言語モデルを混合して使うことが多い。一般には混合時の言語モデル間の寄与の度合いを調整する混合パラメータは、予め用意された学習データである静的なテキストを用いて決定する。

一方、誤り修正モデルでは、音声認識の誤り傾向を学習するために音声認識結果を学習データとして用いる。誤り修正モデルにおいて言語的な誤り傾向の重み付けを表すモデルパラメータも、混合パラメータ同様に静的なデータから学習する。しかし、音声認識の対象となるデータ（発話内容）と学習に用いた静的なデータを比較した場合、話題が異なっていたりするなど、必ずしも適合しているとは限らず、むしろ適合している方がまれである。例えば、同じ食材を扱う料理の話題であっても、学習データの内容が調理法などで異なっているのならば、学習データから推定された各誤り修正モデルのモデルパラメータは、発話内容に対して最適化されていることにはならない。また、非特許文献１は、言語モデルを線形補間により混合しているが、混合モデルに用いられる各言語モデルの重み付けの割合を示す混合パラメータは固定されているため、やはり発話内容に適合しているとは言いがたい。

本発明は、このような事情を考慮してなされたもので、誤り修正モデルを音声認識対象の発話内容に適合させて音声認識性能を改善することができる音声認識装置、誤り修正モデル学習方法、及びプログラムを提供する。

［１］本発明の一態様は、複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納部と、入力された音声データを前記誤り修正モデル格納部に格納されている前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識部と、前記音声認識部から出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正部と、前記誤り修正部が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列部と、前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、前記誤り修正モデル格納部に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、音声データが入力されると、現在格納している誤り修正モデルを用いて音声認識を行い、音声認識の結果得られた正解文候補をユーザ入力に従って修正する。音声認識装置は、正解単語列に含まれる各単語を音声データに基づいて時刻順に整列させ、正解文候補と正解単語列とから言語的な特徴を抽出する。音声認識装置は、抽出された言語的な特徴と、正解文候補及び整列された正解単語列それぞれの音響スコア及び言語スコアとに基づいて、誤り修正モデルに用いられる言語的な特徴の重みと複数の言語モデルの混合重みを統計的に算出し、現在格納している誤り修正モデル更新する。音声認識装置は、新たに入力された音声データを、更新された誤り修正モデルを用いて音声認識する。
これにより、音声認識装置は、誤り修正モデルを現在音声認識対象としている発話内容に適合させ、音声認識性能を改善することができる。

［２］本発明の一態様は、上述する音声認識装置であって、前記モデルパラメータ学習部は、前記正解単語列との比較により得られる前記正解文候補の認識誤りと、前記誤り修正モデルにより得られた前記正解文候補の音声認識のスコアとを用いて定められる評価関数によって算出した評価値に基づいて、前記正解単語列の事後確率が最大、あるいは、前記正解文候補の認識誤りが最小となるように前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出する。
この発明によれば、音声認識装置は、正解文候補に含まれる認識誤りと、誤り修正モデルにより得られた正解文候補の音声認識のスコアとを用いて定められる評価関数により算出した評価値が、正解単語列の事後確率が最大であることを示す評価値、あるいは、正解文候補の期待される単語誤りが最も少ないことを示す評価値となるように言語的な特徴の重み及び言語モデルの混合重み決定し、誤り修正モデルを更新する。
これにより、音声認識装置は、言語的な特徴の重みと複数の言語モデルの混合重みを効率的に学習し、誤り修正モデルを更新することができる。

［３］本発明の一態様は、上述する音声認識装置であって、前記モデルパラメータ学習部は、前記音声認識部が音声データの音声認識を行う度に前記言語的な特徴の重み及び前記言語モデルの混合重みを算出し、前記誤り修正モデル格納部に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに逐次更新する、ことを特徴とする。
この発明によれば、音声認識装置は、新たな音声データが入力されるたびに誤り修正モデルを逐次更新する。
これにより、音声認識装置は、誤り修正モデルをリアルタイムで発話内容に適合させ、音声認識性能を改善することができる。

［４］本発明の一態様は、上述する音声認識装置であって、前記特徴量抽出部は、連続する単語、単語を構成する音素、連続しない複数の単語、音素間の共起関係、単語の構文的な情報、または単語の意味的な情報に基づいて前記言語的な特徴を抽出する、ことを特徴とする。
この発明によれば、音声認識装置は、言語的な特徴の重み及び言語モデルの混合重みを、正解文候補及び正解単語列に含まれる単語や音素などから得た言語的特徴に基づいて更新する。
これにより、音声認識装置は、現在の話題に応じて認識誤りを精度良く修正する誤り修正モデルを生成することができる。

［５］本発明の一態様は、複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納過程と、入力された音声データを前記誤り修正モデル格納過程において格納された前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識過程と、前記音声認識過程において出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正過程と、前記誤り修正過程において生成された前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列過程と、前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出過程と、前記特徴量抽出過程において抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、現在格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習過程と、を有することを特徴とする誤り修正モデル学習方法である。

［６］本発明の一態様は、コンピュータを、複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納手段と、入力された音声データを前記誤り修正モデル格納手段に格納されている前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識手段と、前記音声認識手段から出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正手段と、前記誤り修正手段が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列手段と、前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、前記誤り修正モデル格納手段に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習手段と、を具備する音声認識装置として機能させるためのプログラムである。

本発明によれば、誤り修正モデルを音声認識対象の発話内容に適合させて音声認識性能を改善することができる。

本発明の一実施形態による音声認識装置における誤り修正モデルの逐次推定の手続を示す図である。同実施形態による音声認識装置の構成を示す機能ブロック図である。同実施形態による音声認識装置の全体処理フローを示す図である。同実施形態による正解単語列と音声認識結果との関係を示す図である。同実施形態による音声認識装置のパラメータ学習処理フローを示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

［１．本実施形態の概要］
音声認識の誤り傾向を反映した、いわゆる誤り修正モデルがすでに提案されている。この誤り修正モデルは、予め用意された大量の音声認識結果である学習データから静的に推定されることが多い。しかし、実際の音声認識では、学習データと音声認識対象が、その話題性において完全に適合することは多くはない。そのため、誤り修正モデルを利用した音声認識の性能は、必ずしも音声認識の対象となる発話の内容に対して最適とはいえない。誤り修正モデルにおいて言語モデルの誤り傾向を重み付けするモデルパラメータは学習データから静的に推定されるが、高い音声認識性能を目指すには、この静的に推定したモデルパラメータを評価対象の音声の認識結果を用いて逐次（オンライン）的に最適化する必要がある。

一方で、評価時に誤り修正モデルと併用される統計的言語モデル（以下、「言語モデル」と記載する。）は、線形補間などの手法によって複数の情報源から推定された混合モデルであることが多い。混合モデルの混合重みは、音声認識結果の性能に大きく寄与し、かつ誤り修正モデルのモデルパラメータ推定にも影響を与える。このため、混合モデルの混合重みを表す混合パラメータも逐次的（動的）に最適化する必要がある。

字幕作成を目的とした音声認識システムでは、リアルタイムに音声認識結果を出力したのち、人手によりこれを修正する。従って、人手による修正を経たデータを正解とみなせば、従来の誤り修正モデル及び混合モデルのパラメータを正解が得られるたびに逐次的に最適化することが可能となる。そこで、本実施形態の音声認識装置は、複数の情報源から推定された言語モデルの混合パラメータと誤り修正モデルのモデルパラメータを逐次的かつ同時に最適化して音声認識性能を発話内容に逐次最適化した誤り修正モデルを学習し、学習した誤り修正モデルを音声認識に適用する。

図１は、本実施形態の音声認識装置による統計的誤り修正モデルの逐次推定の手続を示す図である。
同図に示すように、本実施形態の音声認識装置は、入力音声を音声認識して発話の音声認識結果を逐次取得し、取得した音声認識結果とこの音声認識結果を修正して得られた正解単語列とを用いて、誤り修正モデルのモデルパラメータを推定する。このとき、本実施形態の音声認識装置は、誤り修正モデルのモデルパラメータに併せて混合モデル（混合言語モデル）の混合パラメータを同時に逐次推定するため、発話内容に適合した誤り修正モデルが得られる。よって、本実施形態の音声認識装置は、誤り修正モデルをその時の発話内容に逐次適合させて、入力音声の音声認識性能を改善することが可能となる。
このように、本実施形態の音声認識装置は、音声認識の誤りを修正する統計的な誤り修正モデルを逐次更新し、音声認識に適用する。

［２．本実施形態による音声認識装置に適用される学習アルゴリズム］
ベイズの定理によれば、音声入力ｘが与えられたとき、この音声入力ｘに対して尤もらしい単語列ｗ＾（「＾」は、「ハット」を表す。）は、以下の式（１）により求めることができる。

音声入力ｘ及び単語列ｗは、例えば、発話の単位に対応し、Ｐ（ｗ｜ｘ）は、音声入力ｘが発生したときに単語列（文仮説）ｗが得られる事後確率である。
また、Ｐ（ｘ｜ｗ）は、単語列ｗに対する音響的な尤もらしさを示す尤度であり、そのスコア（音響スコア）は隠れマルコフモデル（Hidden Markov Model、ＨＭＭ）及びガウス混合分布（Gaussian Mixture Model，ＧＭＭ）に代表される統計的音響モデル（以下、「音響モデル」と記載する。）に基づいて計算される。言い換えれば、ある音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表すスコアが音響スコアである。

一方、Ｐ（ｗ）は、単語列ｗに対する言語的な生成確率であり、そのスコア（言語スコア）は、単語ｎ−ｇｒａｍモデル等の言語モデルにより計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが言語スコアである。なお、単語ｎ−ｇｒａｍモデルは、Ｎ単語連鎖（Ｎは、例えば１、２、または３である。）の統計に基づいて、（Ｎ−１）単語の履歴から次の単語の生起確率を与えるモデルである。

以下の説明では、音響モデルにＨＭＭ−ＧＭＭを用い、言語モデルにｎ−ｇｒａｍを用いる。

式（１）のＰ（ｘ｜ｗ）Ｐ（ｗ）が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式（１）のベイズの定理に基づいて、音声入力ｘが発生したときの文仮説（正解候補）である単語列ｗの評価関数ｇ（ｗ｜ｘ）を以下の式（２）のように定める。なお、κは、音響スコアＰ（ｘ｜ｗ）に対する言語スコアＰ（ｗ）の重みである。

そして、以下の式（３）に示すように、音声入力ｘに対する正解候補の単語列ｗの集合の中から、式（２）が示す評価関数ｇ（ｗ｜ｘ）の結果が最大である単語列ｗ＾が、音声入力ｘの音声認識結果として選択される。

従来法における誤り修正モデルでは、式（１）を以下の式（４）のように変更する。

式（４）のｅｘｐΣ_ｉλ_ｉｆ_ｉ（ｗ）は、単語列ｗの誤り傾向を反映したスコアであり、単語列ｗに対するペナルティもしくは報償として働く。また、ｆ_ｉ（ｗ）（ｉ＝１，...，）はｉ番目の素性関数、λ_ｉは素性関数ｆ_ｉ（ｗ）の重み（素性重み）である。素性関数は、与えられた単語列（ここでは、単語列ｗ）で言語的ルールが成立すればその数となり、成立しなければ０となるような関数として定められる。具体的な素性関数ｆ_ｉの言語的ルールの例として、以下があげられる。

（ａ）単語列ｗに含まれる連続する単語２項組（ｕ，ｖ）の数
（ｂ）単語列ｗに含まれる連続しない単語２項組（ｕ，ｖ）の数

一方、音声認識では、単語の予測精度を向上させるために複数の言語モデルを混合して用いることが多い。線形補間による言語モデルの混合では、混合言語モデルは式（５）のように表される。

ここで、Ｐ_ｎ（ｗ）は、情報源である静的な学習データのテキスト（正解文）から推定されたｎ番目の言語モデルのスコアである。また、θ_ｎは、ｎ番目（ｎ＝１，...，）の言語モデルに対する混合パラメータと呼ばれる係数であり、θ_ｎ≧０、Σ_ｎθ_ｎ＝１を満たす。

また、線形補間以外の言語のモデルの混合方法として、対数線形モデルでは、以下の式（６）に示すように言語モデルを混合する。

φ_ｎは線形補間同様、混合パラメータと呼ばれる係数であるが、その和が１となる必要はない。また、１／Ｚ（Φ）は、正規化のための定数である。なお、混合パラメータΦ＝（φ_１，φ_２，…）である。

対数線形モデルを言語モデルの混合手法として選べば、音声入力ｘが与えられたときの単語列ｗの事後確率Ｐ（ｗ｜ｘ）は、以下の式（７）となる。なお、モデルパラメータΛ＝（λ_１，λ_２，…）である。

音響モデルの尤度をＨＭＭによる対数音響スコアｈ_０（ｘ，ｗ）、ｎ番目の言語モデルによる仮説単語列の生成確率を対数言語スコアｈ_ｎ（ｗ）とすると、式（７）は、以下の式（８）のように書き直せる。

式（８）におけるＺ（Λ，Φ）は、確率の条件を満たすための正規化定数である。
ある音声入力ｘに対して、音声認識結果ｗ^ｈｙｐおよび人手による修正結果（正解単語列）ｗ^ｒｅｆが得られたとする。ここで、音声認識装置は、複数の音声認識結果を出力しても良く、その集合をＷとする。音声認識では、ベイズの定理により事後確率が最大となる単語列を正解として出力する。従って、修正結果ｗ^ｒｅｆの事後確率Ｐ（ｗ^ｒｅｆ｜ｘ）は、集合Ｗに含まれる任意の音声認識結果ｗ^ｈｙｐの事後確率Ｐ（ｗ^ｈｙｐ｜ｘ）よりも大きくなる必要がある。

音声認識の音声入力ｘおよび音声認識結果ｗ^ｈｙｐ、いずれかの音声認識結果ｗ^ｈｙｐから得られた修正結果（正解単語列）ｗ^ｒｅｆが与えられたとき、パラメータ推定のための目的関数Ｌ（Λ，Φ）は、以下の式（９）となる。

Ｒ（ｗ^ｒｅｆ，ｗ^ｈｙｐ）は、修正結果ｗ^ｒｅｆと音声認識結果ｗ^ｈｙｐの編集距離（置換、挿入、脱落の総数）を返す関数である。２つの単語列の編集距離は、動的計画法により効率的に求めることができる。この編集距離は、正解単語列である修正結果ｗ^ｒｅｆに対する音声認識結果ｗ^ｈｙｐの誤り単語数を表している。期待される単語誤りの数が少ないほど、音声認識は認識誤りを生じることなく認識結果を生成できる。また、確率の条件として、音声認識結果ｗ^ｈｙｐの事後確率Ｐ（ｗ^ｈｙｐ｜ｘ）＋修正結果ｗ^ｒｅｆの事後確率Ｐ（ｗ^ｒｅｆ｜ｘ）＝１を制約として仮定しているため、音声認識結果ｗ^ｈｙｐの事後確率Ｐ（ｗ^ｈｙｐ｜ｘ）を最小化し、修正結果ｗ^ｒｅｆの事後確率Ｐ（ｗ^ｒｅｆ｜ｘ）を最大化することによって、音声認識は認識誤りを生じることなく認識結果を生成できる。そのため、目的関数Ｌ（Λ，Φ）を最小化するようにモデルパラメータΛと混合パラメータΦを推定すれば、音声認識結果に期待される単語誤りが最小、かつ、正解単語列の事後確率が最大になり、未知の入力音声に対する音声認識においても、音声認識結果の単語誤りの最小化が見込まれ、音声認識の性能の向上が期待できる。つまり、式（９）の目的関数は、正解候補の単語列に期待される認識誤りが最小かつ正解単語列の事後確率が最大となり、モデルパラメータΛ及び混合パラメータΦが適切であるかの評価値を算出する評価関数として用いられる。

式（９）の目的関数のモデルパラメータΛと混合パラメータΦに関する勾配ΔΛ、ΔΦを求めると、以下の式（１０）、式（１１）のようになる。なお、勾配ΔΛは、（∂Ｌ（Λ，Φ）／∂λ_１，∂Ｌ（Λ，Φ）／∂λ_２，∂Ｌ（Λ，Φ）／∂λ_３，…）であり、勾配ΔΦは、（∂Ｌ（Λ，Φ）／∂φ_１，∂Ｌ（Λ，Φ）／∂φ_２，∂Ｌ（Λ，Φ）／∂φ_３，…）である。また、ｗ’は、集合Ｗに含まれる全ての音声認識結果ｗ^ｈｙｐ及び修正結果ｗ^ｒｅｆである。

但し、式（８）における正規化定数Ｚ（Λ，Φ）は、以下の式（１２）とした。

音声認識の音声入力を...，ｘ_ｔ−１，ｘ_ｔ，...とすれば、ｔ−１番目の音声入力ｘ_ｔ−１を認識した後におけるモデルパラメータΛ、混合パラメータΦの更新式は以下の式（１３）、式（１４）となる。

式（１４）におけるη_Λは勾配ΔΛに対する定数、式（１５）におけるη_Φは勾配ΔΦに対する定数である。

なお、モデルパラメータΛと混合パラメータΦを頑健に推定するために、過去Ｔ個の推定値を用いて以下の式（１５）、式（１６）のように、直近の推定回数Ｔで平均化した値を用いてもよい。

音声認識から認識結果と人手による正解単語列が逐次得られた場合、式（１３）、式（１４）を適用することにより、発話の取得に伴って、式（８）の誤り修正モデルのモデルパラメータΛと混合パラメータΦの推定値が更新される。これにより、音声認識対象の発話内容に適した誤り修正モデルが学習されることになる。

［３．音声認識装置の構成］
図２は、本発明の一実施形態による音声認識装置１の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。
音声認識装置１は、コンピュータ装置により実現され、同図に示すように、音声認識部１１、誤り修正部１２、整列部１３、特徴量抽出部１４、モデルパラメータ学習部１５、音響モデル格納部２１、言語モデル格納部２２、及び誤り修正モデル格納部２３を備えて構成される。

音響モデル格納部２１は、音響モデルを格納する。言語モデル格納部２２は、言語モデルを格納する。誤り修正モデル格納部２３は、式（８）及び式（１２）で表される誤り修正モデルを格納する。

音声認識部１１は、音響モデル格納部２１に格納されている音響モデルと、言語モデル格納部２２に格納されている言語モデルと、誤り修正モデル格納部２３に格納されている誤り修正モデルを用いて、入力音声データＤ１をリアルタイムで音声認識する。入力音声データＤ１は、発話の音声波形を短時間スペクトル分析して得られた特徴量を示す音声データである。音声認識部１１は、入力音声データＤ１の音声認識結果を示す音声認識結果データＤ２を、誤り修正部１２及び特徴量抽出部１４に出力する。音声認識結果は、第１候補となった正解文候補、もしくは複数の正解文候補とする。本実施形態では、音声認識結果として複数の正解文候補を得るものとして説明する。また、音声認識結果データＤ２には、正解文候補を構成する各単語が発話された時刻の情報も付加される。各単語が発話された時刻とは、単語の開始から終了までの区間である。

誤り修正部１２は、音声認識結果データＤ２が示す第１候補の正解文候補を人手により修正した正解単語列を得る。誤り修正部１２は、正解単語列を示す正解単語列データＤ３を整列部１３に出力する。

整列部１３は、入力音声データＤ１を用いて、正解単語列データＤ３が示す正解単語列を構成する各単語が発話された時刻を同定する。整列部１３は、同定した各単語が発話された時刻の情報を正解単語列データＤ３に付加し、単語を発話された時刻順に整列する。

特徴量抽出部１４は、音声認識結果データＤ２が示す正解文候補と、正解単語列データＤ３が示す正解単語列とから、言語的な特徴を抽出する。ここで抽出される言語的な特徴は、前述の言語的なルールであり、素性関数として定義される。

モデルパラメータ学習部１５は、特徴量抽出部１４が抽出した素性関数と、音声認識結果データＤ２が示す正解文候補と、正解単語列データＤ３が示す正解単語列とを入力として、誤り修正モデルのモデルパラメータΛ及び言語モデルの混合パラメータΦを統計的に学習する。モデルパラメータ学習部１５は、誤り修正モデル格納部２３に現在格納されている誤り修正モデルを、学習により得られたモデルパラメータΛ及び混合パラメータΦを用いた誤り修正モデルに更新する。

これにより、音声認識部１１は、音響モデル及び言語モデルと、更新された誤り修正モデルを用いて新たな入力音声データＤ１を音声認識する。音声認識装置１は、音声認識部１１において入力音声データＤ１の音声認識結果が得られるたびに、誤り修正モデル更新の一連の処理を実行する。

［４．音声認識装置の処理手順］
図３は、本実施形態による音声認識装置１の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。同図に示す処理を実行する前に、音声認識装置１の誤り修正モデル格納部２３は、静的な学習データから決定した誤り修正モデルを初期値として格納しておく。ここでは、誤り修正モデルは、モデルパラメータΛの値を示すモデルパラメータデータＤ４と、混合パラメータΦの値を示す混合パラメータデータＤ５により表される。

［４．１ステップＳ１］
音声認識部１１は、入力音声データＤ１を音声認識し、各正解文候補の音響スコアを音響モデル格納部２１に格納されている音響モデルから算出し、言語スコアを言語モデル格納部２２に格納されている言語モデルから算出する。音声認識部１１は、さらに各正解文候補の素性関数の値を算出すると、現在誤り修正モデル格納部２３に格納されている誤り修正モデル（式（８）及び式（１２））により、音声認識のスコアを算出する。音声認識部１１は、算出されたスコアに従って尤もらしさの順に並べた複数の正解文候補ｗ^ｈｙｐを示す音声認識結果データＤ２を出力する。

［４．２ステップＳ２］
誤り修正部１２は、図示しない入力手段によりユーザが人手で入力した修正指示に従って、音声認識結果データＤ２が示す第１候補の正解文候補ｗ^ｈｙｐを正解単語列ｗ^ｒｅｆに修正する。誤り修正部１２は、修正により得られた正解単語列ｗ^ｒｅｆを示す正解単語列データＤ３を整列部１３に出力する。

図４は、正解単語列ｗ^ｒｅｆと音声認識結果の正解文候補ｗ^ｈｙｐとの関係を示す図である。同図に示すように、音声認識結果データＤ２には、音声認識結果として尤もらしさの順位ｎ（ｎ＝１，２，…）の順に正解文候補ｗ^ｈｙｐが設定されている。同図では、誤り修正部１２は、ｎ＝１の正解文候補ｗ^ｈｙｐ「ＡＢＦＤＥＦ」を修正して、正解単語列ｗ^ｒｅｆ「ＡＢＣＤＥＦ」を得ている。

［４．３ステップＳ３］
図３において、整列部１３は、正解単語列データＤ３と、入力音声データＤ１とを用いて、既存の技術により、正解単語列ｗ^ｒｅｆを構成する各単語が発話された時刻を同定する。整列部１３は、同定した各単語が発話された時刻の情報を正解単語列データＤ３に付加し、単語を発話された時刻順に整列する。

［４．４ステップＳ４］
特徴量抽出部１４は、音声認識結果データＤ２が示す各正解文候補ｗ^ｈｙｐの単語列と、正解単語列データＤ３が示す整列された正解単語列ｗ^ｒｅｆの単語列とから、誤り修正モデルのパラメータ学習のために用いる言語的特徴に基づく素性関数を抽出する。素性関数のルールは、例えば、同一の発話内における連続する単語、単語を構成する音素、連続しない２単語以上の単語、音素間の共起関係、単語の構文的な情報または意味的な情報、などの言語的特徴である。

本実施形態では、特徴量抽出部１４は、単語の共起関係に基づく素性関数として、例えば以下の（ａ）、（ｂ）を抽出する。

（ａ）単語列に連続する単語２項組（ｕ，ｖ）が含まれる場合，その数を返す関数
（ｂ）単語列に連続しない単語２項組（ｕ，ｖ）が含まれる場合、その数を返す関数

また、特徴量抽出部１４は、単語列を構成する各単語を名詞や動詞といった品詞カテゴリに置き換えた上で、構文情報に基づく素性関数として、例えば以下の（ｃ）、（ｄ）を抽出する。なお、ｃ（・）は単語を品詞にマッピングする関数である。

（ｃ）単語列に連続する品詞２項組（ｃ（ｕ），ｃ（ｖ））が含まれる場合、その数を返す関数
（ｄ）単語列に連続しない品詞２項組（ｃ（ｕ），ｃ（ｖ））が含まれる場合、その数を返す関数

あるいは特徴量抽出部１４は、単語列を構成する各単語を、意味情報を表すカテゴリ（意味カテゴリ）に置き換えた上で、意味的な情報に基づく素性関数として、例えば以下の（ｅ）、（ｆ）を抽出する。意味カテゴリは、音声認識装置１の外部のデータベースまたは内部に備える図示しない記憶手段に記憶されるシソーラスなどを用いて得ることができる。なお、ｓ（・）は単語を意味カテゴリにマッピングする関数である。

（ｅ）単語列に連続する意味カテゴリ２項組（ｓ（ｕ），ｓ（ｖ））が含まれる場合、その数を返す関数
（ｆ）単語列に連続しない意味カテゴリ２項組（ｓ（ｕ），ｓ（ｖ））が含まれる場合、その数を返す関数

また、特徴量抽出部１４は、音素列に関する素性関数として、例えば以下の（ｇ）を抽出する。

（ｇ）単語列に音素列ｑが含まれる場合、その数を返す関数

特徴量抽出部１４は、音声認識結果データＤ２が示す各正解文候補ｗ^ｈｙｐと、正解単語列データＤ３が示す正解単語列ｗ^ｒｅｆから、上記のルールに従った素性関数を全て抽出し、抽出した素性関数が出現する頻度をカウントする。特徴量抽出部１４は、カウントした出現頻度が予め定めた閾値以上である素性関数を、誤り修正モデルのパラメータ学習で用いる素性関数ｆ_ｉとして決定し、モデルパラメータ学習部１５に通知する。

［４．５ステップＳ５］
続いてモデルパラメータ学習部１５は、誤り修正モデルのモデルパラメータΛと混合パラメータΦを学習する。

図５は、ステップＳ５においてモデルパラメータ学習部１５が実行するパラメータ学習処理フローを示す図である。

（ステップＳ５０：正解文候補選択処理）
モデルパラメータ学習部１５は、ｎ＝１を初期値とし、音声認識結果データＤ２が示す正解文候補ｗ^ｈｙｐとの中からｎ番目の正解文候補ｗ^ｈｙｐを選択する。

（ステップＳ５１：スコア計算処理）
モデルパラメータ学習部１５は、選択した正解文候補ｗ^ｈｙｐと、正解単語列データＤ３が示す正解単語列ｗ^ｒｅｆの音響スコアと言語スコアを計算する。
具体的には、モデルパラメータ学習部１５は、音響モデル格納部２１に格納されている音響モデルを参照して、正解文候補ｗ^ｈｙｐの対数音響スコアｈ_０（ｘ，ｗ^ｈｙｐ）、及び正解単語列ｗ^ｒｅｆの対数音響スコアｈ_０（ｘ，ｗ^ｒｅｆ）を算出する。これらは、式（８）における対数音響スコアｈ_０（ｘ，ｗ）である。なお、音響スコアの算出の際には、正解文候補ｗ^ｈｙｐや正解単語列ｗ^ｒｅｆの各単語に付与された時刻情報により特定される入力音声データＤ１の部分が用いられる。

さらにモデルパラメータ学習部１５は、言語モデル格納部２２に格納されている言語モデルを参照し、正解文候補ｗ^ｈｙｐの対数言語スコアｈ_ｎ（ｗ^ｈｙｐ）、及び正解単語列ｗ^ｒｅｆの対数言語スコアｈ_ｎ（ｗ^ｒｅｆ）を各言語モデルについて算出する（ｎ＝１，...，）。これらは、式（８）における対数言語スコアｈ_ｎ（ｗ）である。
なお、正解単語列ｗ^ｒｅｆの対数音響スコアｈ_０（ｘ，ｗ^ｒｅｆ）及び対数言語スコアｈ_ｎ（ｗ^ｈｙｐ）は、最初のループのみで算出すればよい。

（ステップＳ５２：事後確率計算処理）
モデルパラメータ学習部１５は、各正解文候補ｗ^ｈｙｐと正解単語列ｗ^ｒｅｆのそれぞれから、特徴量抽出部１４が定めた素性関数ｆ_ｉの値ｆ_ｉ（ｗ^ｈｙｐ）、ｆ_ｉ（ｗ^ｒｅｆ）を算出する。さらに、モデルパラメータ学習部１５は、各正解文候補ｗ^ｈｙｐを単語列ｗとし、ステップＳ５１において計算した音響スコア及び言語スコアと、算出した素性関数の値を用いて、式（８）により事後確率Ｐ（ｗ^ｈｙｐ｜ｘ）を算出する。式（８）に用いるモデルパラメータΛと混合パラメータΦの値は、現在の誤り修正モデルに使用されている値である。なお、正解単語列ｗ^ｒｅｆの素性関数ｆ_ｉの値ｆ_ｉ（ｗ^ｒｅｆ）は、最初のループのみで算出すればよい。

（ステップＳ５３：編集距離計算処理）
モデルパラメータ学習部１５は、選択した正解文候補ｗ^ｈｙｐと、正解単語列ｗ^ｒｅｆとを比較し、編集距離Ｒ（ｗ^ｒｅｆ，ｗ^ｈｙｐ）を動的計画法に基づいて計算する。

（ステップＳ５４：ループ終了判断処理）
モデルパラメータ学習部１５は、音声認識結果データＤ２が示す正解文候補ｗ^ｈｙｐを全て選択したかを判断する。モデルパラメータ学習部１５は、まだ未選択の正解文候補ｗ^ｈｙｐがあると判断した場合は、現在のｎの値に１を加算してステップＳ５０からの処理を繰り返し、全て選択済みであると判断した場合は、ステップＳ５５の処理を実行する。

（ステップＳ５５：勾配計算処理）
モデルパラメータ学習部１５は、現在のモデルパラメータΛ及び混合パラメータΦの値を用いて、式（１０）及び式（１１）により、式（９）のモデルパラメータΛ、混合パラメータΦに関する勾配ΔΛ、ΔΦを求める。モデルパラメータ学習部１５は、式（１０）及び式（１１）における編集距離Ｒ（ｗ^ｒｅｆ，ｗ^ｈｙｐ）に、ステップＳ５３において算出した値を用い、事後確率Ｐ（ｗ^ｈｙｐ｜ｘ）に、ステップＳ５２において算出した値を用いる。また、モデルパラメータ学習部１５は、対数言語スコアｈ_ｎ（ｗ^ｈｙｐ）、ｈ_ｎ（ｗ’）に、ステップＳ５１において算出した対数言語スコアｈ_ｎ（ｗ^ｈｙｐ）及びｈ_ｎ（ｗ^ｒｅｆ）の値を、素性関数ｆ_ｉ（ｗ^ｈｙｐ）、ｆ_ｉ（ｗ’）に、ステップＳ５２において算出したｆ_ｉ（ｗ^ｈｙｐ）及びｆ_ｉ（ｗ^ｒｅｆ）の値を用いる。なお、モデルパラメータ学習部１５は、言語スコアＰ（ｗ’）を、ステップＳ５２において算出した対数言語スコアｈ_ｎ（ｗ^ｈｙｐ）、ｈ_ｎ（ｗ^ｒｅｆ）の値を用いて式（６）により算出する。

（ステップＳ５６：パラメータ更新処理）
モデルパラメータ学習部１５は、ステップＳ５５において求めた勾配ΔΛ、ΔΦを用いて、式（１３）及び式（１４）により、または、式（１５）及び式（１６）により、モデルパラメータΛ及び混合パラメータΦを更新する。なお、式（１３）、式（１４）における係数η_Λ、η_Φは、予め定めた値を用いる。
モデルパラメータ学習部１５は、更新後のモデルパラメータΛの値を示すモデルパラメータデータＤ４と、更新後の混合パラメータΦの値を示す混合パラメータデータＤ５により、誤り修正モデル格納部２３に現在格納されているモデルパラメータデータＤ４と混合パラメータデータＤ５を更新する。

再び音声認識装置１は、音声認識装置１に次の入力音声データＤ１が入力されると、逐次、図３のステップＳ１からの処理を繰り返す。

［５．効果］
本実施形態の音声認識装置１によれば、認識率を向上させたい話題の情報を、音声認識結果から逐次的に反映した誤り修正モデルが構成可能となる。これにより、学習データと発話内容のミスマッチを解消し、音声認識で用いる誤り修正モデルを発話内容に対して最適化し、従来よりも認識誤りを削減することができる。
また、本実施形態の音声認識装置１によれば、複数の言語モデルの混合パラメータを誤り修正モデルのモデルパラメータ推定と同時に行うため、従来よりも認識誤りを削減することができる。

［６．その他］
なお、上述の音声認識装置１は、内部にコンピュータシステムを有している。そして、音声認識装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１音声認識装置
１１音声認識部
１２誤り修正部
１３整列部
１４特徴量抽出部
１５モデルパラメータ学習部
２１音響モデル格納部
２２言語モデル格納部
２３誤り修正モデル格納部

Claims

複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納部と、
入力された音声データを前記誤り修正モデル格納部に格納されている前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識部と、
前記音声認識部から出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正部と、
前記誤り修正部が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列部と、
前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、前記誤り修正モデル格納部に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習部と、
を備えることを特徴とする音声認識装置。
前記モデルパラメータ学習部は、前記正解単語列との比較により得られる前記正解文候補の認識誤りと、前記誤り修正モデルにより得られた前記正解文候補の音声認識のスコアとを用いて定められる評価関数によって算出した評価値に基づいて、前記正解単語列の事後確率が最大、あるいは、前記正解文候補の認識誤りが最小となるように前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出する、
ことを特徴とする請求項１に記載の音声認識装置。
前記モデルパラメータ学習部は、前記音声認識部が音声データの音声認識を行う度に前記言語的な特徴の重み及び前記言語モデルの混合重みを算出し、前記誤り修正モデル格納部に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに逐次更新する、
ことを特徴とする請求項１または請求項２に記載の音声認識装置。
前記特徴量抽出部は、連続する単語、単語を構成する音素、連続しない複数の単語、音素間の共起関係、単語の構文的な情報、または単語の意味的な情報に基づいて前記言語的な特徴を抽出する、
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音声認識装置。
複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納過程と、
入力された音声データを前記誤り修正モデル格納過程において格納された前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識過程と、
前記音声認識過程において出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正過程と、
前記誤り修正過程において生成された前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列過程と、
前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出過程と、
前記特徴量抽出過程において抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、現在格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習過程と、
を有することを特徴とする誤り修正モデル学習方法。
コンピュータを、
複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納手段と、
入力された音声データを前記誤り修正モデル格納手段に格納されている前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識手段と、
前記音声認識手段から出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正手段と、
前記誤り修正手段が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列手段と、
前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、前記誤り修正モデル格納手段に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習手段と、
を具備する音声認識装置として機能させるためのプログラム。