JP6031316B2 - 音声認識装置、誤り修正モデル学習方法、及びプログラム - Google Patents

音声認識装置、誤り修正モデル学習方法、及びプログラム Download PDF

Info

Publication number
JP6031316B2
JP6031316B2 JP2012220426A JP2012220426A JP6031316B2 JP 6031316 B2 JP6031316 B2 JP 6031316B2 JP 2012220426 A JP2012220426 A JP 2012220426A JP 2012220426 A JP2012220426 A JP 2012220426A JP 6031316 B2 JP6031316 B2 JP 6031316B2
Authority
JP
Japan
Prior art keywords
model
speech
error correction
data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012220426A
Other languages
English (en)
Other versions
JP2014074732A (ja
Inventor
彰夫 小林
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012220426A priority Critical patent/JP6031316B2/ja
Publication of JP2014074732A publication Critical patent/JP2014074732A/ja
Application granted granted Critical
Publication of JP6031316B2 publication Critical patent/JP6031316B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置、誤り修正モデル学習方法、及びプログラムに関する。
音声認識の誤り修正については、音声とその書き起こし(正解文)から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある(例えば、非特許文献1参照)。
小林ほか,「単語誤り最小化に基づく識別的スコアリングによるニュース音声認識」,電子情報通信学会誌,vol.J93-D no.5,2010年,p.598−609
音声認識では、統計的言語モデルを用いて単語の予測を行うが、この予測には、単語の予測性能を向上させるために複数の統計的言語モデルを統合して使うことが多い。非特許文献1の技術による誤り修正モデルの学習では、音声認識の誤り傾向を学習するために認識誤りを含む音声認識結果を学習データとしており、この学習データは、異なる基準によって統合された統計的言語モデルを用いた音声認識により生成される。そのため、統合方法を変更した場合には、学習データとなる音声認識結果を作成し直す必要がある。このような誤り修正モデルの学習方法は、音声認識結果の生成と誤り修正モデルの学習のコストが高くつく。よって、さまざまな話題や話者について誤り修正モデルを生成し、音声を認識する場合に効率的な学習方法であるとはいえない。
本発明は、このような事情を考慮してなされたもので、音声認識に用いる誤り修正モデルを、コストを抑えながら学習することができる音声認識装置、誤り修正モデル学習方法、及びプログラムを提供する。
[1] 本発明の一態様は、特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納部と、前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納部と、前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成部と、前記認識誤り生成部により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習部と、前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習部により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、特定話者の音声データを、その特定話者の音響モデルと特定話題の言語モデルとを用いて音声認識し、認識誤りを含む音声認識結果を学習データとして生成する。音声認識装置は、音声データから生成した学習データと、その音声データの正解文とから統計的に認識誤りの傾向を分析して誤り修正モデルを生成した後、生成した誤り修正モデルと特定話題以外の言語モデルとを統合して特定話者及び特定話題の音声認識に用いる統合モデルを生成する。
これにより、言語モデルの統合方法に応じて学習データとなる音声認識結果を作成し直す必要がなく、効率的に統合モデルを学習することができる。
[2] 本発明の一態様は、上述する音声認識装置であって、前記モデル統合部は、前記正解文候補から得られた前記認識誤りと、前記誤り修正モデルにより得られた前記正解文候補の音響スコア及び前記認識誤り傾向が修正された言語スコアと、前記特定話題とは異なる話題の前記言語モデルから得られた前記正解文候補の言語スコアとを用いて定められる評価関数によって算出した評価値に基づいて前記混合重みを統計的に算出する、ことを特徴とする。
この発明によれば、音声認識装置は、音声データに対応したテキストデータを正解文とみなしたときの正解文候補に含まれる単語の認識誤りと、誤り修正モデルにより得られた正解文候補の音響スコア及び認識誤り傾向が修正された言語スコアと、特定話題とは異なる話題の言語モデルから得られた正解文候補の言語スコアとに基づいて定められる評価関数によって算出した評価値が、最も認識誤りが少ないことを示す評価値になるように言語モデルの混合重みを算出し、算出した混合重みにより誤り修正モデルと複数の言語モデルとを統合する。
これにより、音声認識装置は、特定話者の特定話題についての発話を音声認識するために適した誤り修正モデルを生成した後に、認識率が上がるように他の話題の言語モデルを統合する際の混合重みを決定することができる。
[3] 本発明の一態様は、上述する音声認識装置であって、前記認識誤り生成部は、前記特定話題に対応した前記テキストデータの発話内容を前記特定話者の前記音響モデルを用いて音声合成して音声データを生成し、生成した前記音声データを前記特定話者の前記音響モデルと前記特定話題の前記言語モデルとを用いて音声認識して認識誤りを含む音声認識結果を生成する、ことを特徴とする。
この発明によれば、音声認識装置は、特定話題のテキストデータから音声合成により特定話者の音声データを生成し、生成した音声データの音声認識結果とテキストデータが示す正解文とから誤り修正モデルを生成する。
これにより、音声認識装置は、特定話者の音声データが統計的に十分な量とならない場合でも、特定話題のテキストデータから誤り修正モデルを生成することができる。
[4] 本発明の一態様は、上述する音声認識装置であって、前記誤り修正モデルは、連続する単語、単語を構成する音素、連続しない複数の単語、音素間の共起関係、単語の構文的な情報、または単語の意味的な情報に基づく言語的特徴を表す素性関数とその素性重みとを用いて定義され、前記誤り修正モデル学習部は、前記音声認識結果から得られた前記素性関数の値と前記音声認識結果に含まれる前記認識誤りとを用いて定められる評価関数によって算出した評価値に基づいて前記素性重みを統計的に算出し、算出した前記素性重みを用いて前記誤り修正モデルを生成する、ことを特徴とする。
この発明によれば、音声認識装置は、単語や音素などに基づく言語的特徴を表す素性関数とその素性重みとで定義される誤り修正モデルが用いる素性重みを、音声認識結果から得られた素性関数の値と認識誤りとを用いて定められる評価関数によって算出した評価値が、最も認識誤りが少ないことを示す評価値となるように決定し、誤り修正モデルを生成する。
これにより、音声認識装置は、特定話者の特定話題についての発話を音声認識するために適した誤り修正モデルを生成した上で、他の話題についての誤り傾向を統合することができる。
[5] 本発明の一態様は、上述する音声認識装置であって、前記モデル統合部により生成された前記統合モデルを用いて前記特定話者による前記特定話題の発話の音声データを音声認識する音声認識部をさらに備える、ことを特徴とする。
この発明によれば、音声認識装置は、特定話者及び特定話題について学習した統合モデルに基づいて音声認識を行う。
これにより、音声認識装置は、特定話者の特定話題の発話について認識率のよい音声認識結果を得ることができる。
[6] 本発明の一態様は、特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納過程と、前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納過程と、前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成過程と、前記認識誤り生成過程において生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習過程と、前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習過程において生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合過程と、を有することを特徴とする誤り修正モデル学習方法である。
[7] 本発明の一態様は、コンピュータを、特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納手段と、前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納手段と、前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成手段と、前記認識誤り生成手段により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習手段と、前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習手段により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合手段と、を具備する音声認識装置として機能させるためのプログラムである。
本発明によれば、音声を認識する際に用いる誤り修正モデルを、学習コストをおさえながら学習することができる。よって、さまざまな話題や話者についての誤り修正モデルを効率的に学習することが可能となる。
本発明の一実施形態による音声認識装置における統合モデル学習の手続きを示す図である。 同実施形態による音声認識装置の統合モデル学習処理の概要処理フローを示す図である。 同実施形態による音声認識装置の構成を示す機能ブロック図である。 同実施形態による擬似的な音声認識結果の生成処理の処理フローを示す図である。 同実施形態による誤り修正モデル学習処理の処理フローを示す図である。 同実施形態によるモデル統合処理の処理フローを示す図である。 従来法による誤り修正モデル学習の手続きを示す図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
[1. 本実施形態の概要]
音声認識の誤り傾向を反映した、いわゆる誤り修正モデルでは、誤り傾向を学習するために音声・テキストデータのほかに、統計的音響モデル(以下、「音響モデル」と記載する。)と統計的言語モデル(以下、「言語モデル」と記載する。)が必要となる。従来の音声認識装置は、この2つの統計的モデルを用いて音声データを音声認識し、認識誤りを含む仮説(音声認識結果)を生成する。仮説の生成の際に使われる言語モデルは、単一のテキスト集合から学習された言語モデルだけではなく、複数の異なるテキスト集合から個別に学習された言語モデルを組み合わせて使うことが多い。従来法では、言語モデルの統合が先に行われ、その後に、統合された言語モデルに整合した誤り修正モデルが学習される。しかし、この学習順序では、異なる組み合わせで言語モデルを統合する都度、誤り修正モデルの学習に用いる認識誤りを含む仮説を生成することとなり、実用性の面からも効率的であるとはいえない。
そこで、本実施形態の音声認識装置は、言語モデルの統合と誤り修正モデルの学習の順番を従来とは変更し、先に特定の言語モデルと音響モデルのみを利用して音声認識の誤り傾向を反映した仮説を生成し、その生成された仮説から誤り修正モデルを学習する。その後、本実施形態の音声認識装置は、学習された誤り修正モデルと、他のテキストデータで学習された複数の言語モデルとを統合する。このように、本実施形態の音声認識装置は、誤り修正モデルの学習と、学習条件の異なる言語モデルによる統合を分離して行うことにより、誤り修正モデルを効率的に学習する。本実施形態の音声認識装置は、このようにして効率的に生成された誤り修正モデルにより、さまざまな話者及び話題についての認識性能の改善を図る。
[2. 音声認識装置の処理概要]
続いて、本発明の一実施形態による音声認識装置の処理概要を説明する。
上述したように、本実施形態の音声認識装置は、特定の音響モデル及び言語モデルにより誤り修正モデルを学習した後、学習した誤り修正モデルと単語の予測を行う複数の言語モデルとを統合する。以下、複数の言語モデルと統合した誤り修正モデルを統合モデルと記載する。本実施形態の音声認識装置は、統合する際の言語モデル間の混合重みを調整することで、音声認識対象の話題及び話者にマッチした統合モデルを得る。
[2.1 従来法の誤り修正モデル]
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
Figure 0006031316
音声入力x及び単語列wは、例えば、発話の単位に対応し、P(w|x)は、音声入力xが発生したときに文仮説である単語列wが得られる事後確率である。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、そのスコア(音響スコア)は隠れマルコフモデル(Hidden Markov Model、HMM)及びガウス混合分布(Gaussian Mixture Model,GMM)に代表される音響モデルに基づいて計算される。言い換えれば、音響特徴量が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが音響スコアである。
一方、P(w)は、単語列wに対する言語的な尤もらしさであり、そのスコア(言語スコア)は、単語n−gramモデル等の言語モデルにより計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが言語スコアである。なお、単語n−gramモデルは、N単語連鎖(Nは、例えば1、2、または3である。)の統計に基づいて、(N−1)単語の履歴から次の単語の生起確率を与えるモデルである。
以下の説明では、音響モデルにHMM−GMMを用い、言語モデルにn−gramを用いる。
式(1)のP(x|w)P(w)が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式(1)のベイズの定理に基づいて、評価関数g(w|x)を以下の式(2)のように定める。なお、κは、音響スコアP(x|w)に対する言語スコアP(w)の重みである。
Figure 0006031316
そして、以下の式(3)に示すように、音声入力xに対する正解候補の単語列wの集合Lの中から、式(2)が示す評価関数g(w|x)の結果が最大である単語列w^が音声入力xの音声認識結果として選択される。
Figure 0006031316
従来法における誤り修正モデルでは、式(1)を以下の式(4)のように変更する。
Figure 0006031316
式(4)のexpΣλ(w)は、単語列wの誤り傾向を反映したペナルティスコアであり、f(w)はi番目の素性関数、λは素性関数f(w)の素性重みである。素性関数は、与えられた単語列(ここでは、単語列w)で言語的ルールが成立すればその数となり、成立しなければ0となるような関数として定められる。具体的な言語的ルールとして、以下の例があげられる。
(a)単語列wに含まれる連続する単語2項組み(u,v)の数
(b)単語列wに含まれる連続しない単語2項組み(u,v)の数
上記の式(4)に示すように、音声認識の誤り傾向は、素性関数と素性重みにより言語的な特徴に対するペナルティとして表現され、学習データの単語誤りを最小化する評価関数に基づいて推定される。つまり、従来法の誤り傾向の学習とは、音声データの音声認識結果とその正解文を学習データとして式(4)の素性重みλを求めることである。
[2.2 本実施形態による音声認識装置に適用される手法]
前節で述べたように、本実施形態の音声認識装置は、特定の話者及び話題に依存した音声認識の誤り傾向を学習して統計的な誤り修正モデルを生成する。本実施形態の音声認識装置は、この生成した誤り修正モデルを音声認識に適用して認識率の改善をはかる。
誤り修正モデルを統計的手段により学習するためには、学習データが必要となる。学習データは、誤りを含む単語列であり、一般に音声認識結果が用いられる。したがって、学習データにどのような単語列が含まれるかは、音声認識に用いた音響モデルや言語モデルに依存することになる。
一方、音声認識では、単語の予測精度を向上させるため、複数の言語モデルを統合して用いることが多い。一般には、以下の式(5)に示すような線形補間により言語モデルを統合する。
Figure 0006031316
は、j番目の言語モデルを用いたときの言語スコアである。また、θは、j番目の言語モデルに対する混合重みと呼ばれる係数であり、Σθ=1を満たす。以下、θをモデルパラメータとも呼ぶ。通常、言語モデルなどのモデル学習に用いる学習データとモデルパラメータの学習に用いる学習データとは異なるものを用い、モデルパラメータの学習に用いる学習データは一般的に開発データと呼ばれる。
従来法では、式(5)に示すような線形補間等の手法により、複数の言語モデルを統合したモデルを利用して音声認識を行ない、学習データとなる音声認識結果を得る。そして、この得られた音声認識結果を用いて誤り修正モデルを学習する。
図7は、従来法による誤り修正モデル学習の手続きを示す図である。
同図に示すように、従来法では、誤り学習に用いる音響モデルとして音響モデルA〜Aの中から特定話者の音響モデル(同図では、音響モデルA)を選択し、言語モデルとして複数の言語モデルB〜Bを統合する。誤り修正モデルの学習データは、これらの特定話者の音響モデル、及び、統合した言語モデルで音声データを音声認識することにより得られる。そのため、従来法では、複数の言語モデルの組み合わせの条件が変わってしまうと(すなわち、式(6)におけるモデルパラメータθの値が変わると)、誤り修正モデルの学習データである音声認識結果が大きく変わってしまう。従って、ある条件に適した誤り修正モデルを学習するには、言語モデルの組み合わせに合わせて、音声認識結果を生成しなければならない。これでは、学習データを生成するための計算時間がかかりすぎてしまい、効率的とはいえない。
図1は、本実施形態による音声認識装置における統合モデル学習の手続きを示す図である。同図に示すように、本実施形態による音声認識装置は、音響モデルA〜Aの中から選択した特定話者の音響モデル(同図では、音響モデルA)と、言語モデルB〜Bの中から選択した特定話題の言語モデル(同図では、言語モデルB)とを用いた音声認識結果を学習データとして誤り修正モデルを生成し、従来法の問題点である言語モデル(同図では、言語モデルB〜B)の統合を、誤り修正モデルの生成後に変更する。この手法では、統合した言語モデルに対する誤り傾向は近似的にしか推定できない。しかし、特定の話題に依存した誤り修正モデルを学習するのであれば、話題依存性を反映した言語モデルが高々1つに限定されるという仮定の下では、誤り傾向の学習をよい近似で行えると考えられる。
従って、本実施形態の音声認識装置が音声認識の対象とする評価データに対して特定の話題及び話者についての誤り傾向を学習する場合、着目する話題に関する言語モデルを1つ用意しておき、特定の話者の音響モデルとともに音声認識に用いる。なお、評価データとは、言語モデルや音響モデルを学習する際に用いた音声データとは別の未知の音声データである。これにより、本実施形態の音声認識装置は、特定の話者及び話題を反映した誤りを含む学習データを生成することが可能となる。
例えば、料理の話題(と特定の話者)に特化した誤り修正モデルを作成したいとする。この場合、料理の話題に関する言語モデルに対して、料理とは直接関係のない話題から学習した言語モデルを線形補間して統合することが多い。これは、ある特定の話題に特化した言語モデルは通常、学習データが少なく、音声認識で単語を予測する精度(推定精度)が劣化してしまい、言語モデルの統計的な頑健性が失われるからである。そこで、この頑健性を担保するために、他の言語モデルとの統合が行われる。しかし、料理に関する誤り傾向をとらえるのであれば、料理の話題に特化した言語モデルを利用するたけで十分である。
本実施形態の音声認識装置は、特定の音響モデルと特定の言語モデルの組み合わせにより学習データを生成して誤り修正モデルを学習しておき、対象となるタスクに合わせて他の言語モデルを混合する。これにより、言語モデルの組み合わせの条件が変更される度に学習データを都度生成する手続が不要となるため、計算時間等のコストが大幅に削減される。
[2.3 統合モデル学習処理の概要処理手順]
図2は、本実施形態の音声認識装置による統合モデル学習処理の概要処理フローを示す。
本実施形態の音声認識装置は、音声データとその書き起こしであるテキストデータとからなる音声言語資源データを音声言語資源格納部に予め格納している。さらに本実施形態の音声認識装置は、音響モデル及び言語モデルを統計モデル格納部に予め格納している。音声データ及び音響モデルには、少なくとも話者を示すラベルデータが付与されており、テキストデータ及び言語モデルには、少なくとも話題や番組を示すラベルデータが付与されている。
(ステップS1):認識性能を改善したいタスクに関連する話題及び話者の指定を受ける。
まず、本実施形態の音声認識装置の利用者は、認識率を改善したい話題及び話者を選択する。例えば、利用者は、音声言語資源データの各音声データや各テキストデータに付与されたラベルデータが示す番組や話題、話者の情報に基づいて、話者名や話題(料理・健康・旅行など)のラベルデータを指定する。本実施形態の音声認識装置は、誤り修正モデルの学習に用いる音声言語資源データとして、指定された話者名や話題のラベルデータが付与された音声データやテキストデータを選択する。
(ステップS2):認識性能を改善したいタスクで使う言語モデル・音響モデルを選択する。
次に、本実施形態の音声認識装置は、統計モデル格納部から、ステップS1において指定された話題や話者に適合した言語モデル及び音響モデルを選択する。これらのモデルは、音声言語資源格納部に記憶されている音声データやテキストデータから統計的手段により推定された音響モデル及び言語モデルでもよく、他の音声データやテキストデータから推定された音響モデル及び言語モデルでもよい。
(ステップS3):選択された音響モデル及び言語モデルと音声言語資源データとから音声認識の認識誤りを含む仮説を生成する。
本実施形態の音声認識装置は、ステップS1で選択した音声データを、ステップS2で選択した音響モデル及び言語モデルにより音声認識し、認識誤りを含む仮説(音声認識結果)を学習データとして生成する。なお、ステップS1においてテキストデータを選択した場合、本実施形態の音声認識装置は、音響モデル及び言語モデルを用いて擬似的に誤りを含む仮説を生成することも可能である。
(ステップS4):生成した仮説を用いて誤り修正モデルを学習する。
本実施形態の音声認識装置は、ステップS3において得られた認識誤りを含む仮説を学習データとして用い、統計的手段により誤り修正モデルを推定する。この誤り修正モデルの推定の際、本実施形態の音声認識装置は、修正モデルの推定に用いる言語的な特徴を、ステップS1で選択したテキストデータが示す書き起こし(正解文)とステップS3で得られた誤りを含む仮説とから予め定めておく。
(ステップS5):誤り修正モデルと任意の数の言語モデルを統合する。
本実施形態の音声認識装置は、ステップS4において得られた誤り修正モデルと、統計モデル格納部に記憶されている任意の数の言語モデルを線形補間などの手法で統合し、統合モデルを生成する。この際、本実施形態の音声認識装置は、認識性能を改善したい話題・話者の音声データを用い、その認識性能を最大にするよう各言語モデルの混合重み(モデルパラメータ)を推定して統合する。
(ステップS6):本実施形態の音声認識装置は、ステップS5によって生成された統合モデルを用いて特定話者の特定話題についての発話を音声認識する。
[3. 音声認識装置の構成]
図3は、本発明の一実施形態による音声認識装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。
音声認識装置1は、コンピュータ装置により実現され、同図に示すように、音声言語資源管理部2、統計モデル管理部3、認識誤り生成部4、誤り修正モデル学習部5、モデル統合部6、音声認識部7、及び記憶部8を備えて構成される。
音声言語資源管理部2は、音声データ及びテキストデータからなる音声言語資源データを記憶する音声言語資源格納部21を備える。音声言語資源管理部2は、外部から取得した放送音声・字幕データD1を音声言語資源データとして収集し、音声言語資源格納部21に書き込む。この際、音声言語資源管理部2は、放送音声・字幕データD1の内容に応じて、音声データであれば発話者の名前(話者名)を示すラベルデータを付与し、テキストデータであれば話題などの内容を示すラベルデータを付与して音声言語資源格納部21に格納する。なお、音声データのラベルデータに話題が含まれてもよく、テキストデータのラベルデータに話者名が含まれてもよい。音声データは、発話の音声波形を短時間スペクトル分析して得られた特徴量を示し、テキストデータは、発話内容の書き起こし(正解文)を示す。1つのテキストデータは、複数の文を含み得る。
利用者は、音声言語資源格納部21に格納された音声データ、テキストデータに付与されたラベルデータに応じて、所望の統合モデルの生成対象となる話者と話題を選択する。この選択作業により話者及び話題が特定され、音声言語資源管理部2は、特定された話者や話題に対応したラベルデータの音声言語資源データを特定する。音声言語資源管理部2は、特定した音声言語資源データの中から、誤り修正モデルの学習に用いる学習データを生成するための音声・テキストデータD4と、統合モデルのモデルパラメータ推定用の開発データD5とを重ならないように選択し、記憶部8に書き込む。音声言語資源管理部2は、特定された話者を示す特定話者データD2及び特定された話題を示す特定話題データD3を統計モデル管理部3に出力する。
統計モデル管理部3は、ラベルデータが付与された音響モデル及び言語モデルを格納する統計モデル格納部31を備える。音響モデルのラベルデータは発話者の名前を示し、言語モデルのラベルデータは話題名を示す。統計モデル管理部3は、特定話者データD2及び特定話題データD3が示す話者や話題、あるいは、その話題に類似した話題のラベルデータによって統計モデル格納部31に記憶されている音響モデル及び言語モデルから音響モデルD6及び言語モデルD7を選択する。さらに、統計モデル管理部3は、統計モデル格納部31に記憶されている言語モデルから言語モデルD7とは異なる言語モデルD8を1以上選択する。
認識誤り生成部4は、音声・テキストデータD4に含まれる音声データを、音響モデルD6及び言語モデルD7を用いて音声認識し、認識誤りを含む音声認識結果である学習データD9を生成して記憶部8に書き込む。なお、認識誤り生成部4は、音声・テキストデータD4のうち、対応する音声データがないテキストデータについては、音声認識によらない擬似的な仮説生成手法により学習データD9を生成する。
誤り修正モデル学習部5は、学習データD9が示す音声認識結果と音声・テキストデータD4内のテキストデータが示す正解文とを用いて、音声認識の誤り傾向を統計的手段により学習し、誤り修正モデルD10を生成する。誤り修正モデル学習部5は、生成した誤り修正モデルD10を記憶部8に書き込む。
モデル統合部6は、誤り修正モデルD10と、特定話題以外の任意の数の言語モデルD8とを統合して統合モデルD11を生成し、記憶部8に書き込む。
音声認識部7は、統計モデル格納部31に格納されている従来の言語モデル及び音響モデルと、統合モデルD11が示す統合モデルとを用いて音声認識を行い、音声認識結果を示す音声認識結果データD12を出力する。
記憶部8は、各機能部が使用する各種データを記憶する。
[4. 音声認識装置における詳細な処理手順]
続いて、図2に示す統合モデル学習処理において、音声認識装置1が実行する詳細な処理手順について説明する。
[4.1 ステップS1]
音声言語資源管理部2は、音声言語資源データの音声データ及びテキストデータとして放送音声・字幕データD1を収集し、音声言語資源格納部21に格納する。あるいは、音声言語資源管理部2は、音声認識装置1とネットワークにより接続されるサーバコンピュータ等からウェブデータを収集し、テキストデータのみからなる音声言語資源データとして音声言語資源格納部21に格納する。収集した音声データ及びテキストデータには、音声言語資源管理部2により、あるいは、人手によりラベルデータが付与される。例えば、放送音声・字幕データD1に付与されている番組情報をラベルデータに利用することができる。また、ウェブデータが例えばニュースのテキストデータである場合、そのニュースが属するカテゴリをウェブデータから取得し、ラベルデータに使用することができる。
誤り修正モデルの学習に用いる学習データを生成するため、利用者は、音声言語資源格納部21に格納されているラベルデータの集合を参照して話者及び話題を指定し、キーボードなどの図示しない入力手段により、特定話者データD2と特定話題データD3を入力する。音声言語資源管理部2は、音声言語資源格納部21に記憶されているラベルデータに基づいて、特定話者データD2及び特定話題データD3に対応した音声データ及びテキストデータの組みを特定すると、特定した中から一部の組みを音声・テキストデータD4として選択する。さらに、音声言語資源管理部2は、同様の手順により、特定話者データD2及び特定話題データD3に対応した音声データ及びテキストデータの組みを特定し、特定した中から一部の組みを言語モデルのモデルパラメータを推定するための開発データD5として選択する。このとき、音声言語資源管理部2は、音声・テキストデータD4と重なりがないように開発データD5を選択する。なお、音声言語資源管理部2は、特定話題データD3に対応したテキストデータを特定し、特定したテキストデータから音声・テキストデータD4を選択してもよい。なお、音声・テキストデータD4、開発データD5の選択方法については任意であるが、開発データD5の量は音声・テキストデータD4の量の数%程度でよい。
[4.2 ステップS2]
統計モデル格納部31には、音声言語資源データとして音声言語資源格納部21に格納された音声データ及びテキストデータ、もしくは、他の音声言語資源データから学習された音響モデル及び言語モデルが、ラベルデータと対応づけて格納されている。統計モデル管理部3は、統計モデル格納部31に格納されているラベルデータに基づいて、特定話者データD2に対応する音響モデルと、特定話題データD3に対応する言語モデルを選択する。さらに、統計モデル管理部3は、誤り修正モデルと統合するための言語モデルD8として、統計モデル格納部31に格納されている言語モデルの中から言語モデルD7とは異なる言語モデルを1以上選択する。
[4.3 ステップS3]
認識誤り生成部4は、音響モデルD6及び言語モデルD7を用いて、音声・テキストデータD4に含まれる音声データを音声認識する。ここでは、音声認識結果を、上位n個(nは1以上の整数)の最尤単語系列(n−best)または単語ラティスとする。認識誤り生成部4は、音声データの音声認識結果を示す学習データD9を記憶部8に書き込む。
なお、認識誤り生成部4は、音声・テキストデータD4が、音声データに対応付けられていないテキストデータである場合、音声認識が使用できないため、以下の図4に示すように擬似的に音声認識結果を生成する。
図4は、認識誤り生成部4による擬似的な音声認識結果の生成処理の処理フローを示す図である。この生成処理は、文献「徳田,隠れマルコフモデルの音声合成への応用,電子情報通信学会研究報告 SP−99,1999年,p.47−54,1999年」に示す音声合成で用いられる手続に基づく。
(ステップS30:発音系列生成処理)
まず、認識誤り生成部4は、音声・テキストデータD4に含まれるテキストデータが示す各単語列を、正解音素列に変換する。この正解音素列の変換処理には様々な変換方法が考えられるが、本実施形態では、以下のように変換する。
いま、単語列をw、音素列をqとすると、求める正解音素列q^は、以下の式(6)により得られる。
Figure 0006031316
ここで、単語列wが与えられたときの音素列qの条件付き確率P(q|w)は、以下の式(7)により得られる。
Figure 0006031316
ただし、S(w,q)は、対数線形モデルによるスコアとし、以下の式(8)により得られる。
Figure 0006031316
なお、式(8)におけるf(w,q)はi番目の素性関数、λは素性関数f(w,q)の素性重みである。
式(8)に用いられる素性関数として、例えば、以下があげられる。
(a)単語列wのi番目の単語w=uの発音q=αであれば1、それ以外は0。例えば、単語wが単語u「行って」であり、単語wの発音qが音素列α「/i/ /Q/ /t/ /e/」に合致すれば「1」となる。
(b)単語列wのi−1番目の単語wi−1=単語u、かつ、i番目の単語w=単語vであり発音q=βであれば1、それ以外は0。例えば、単語wi−1が単語u「へ」であり、直後の単語wが単語u「行って」、かつ、単語wの発音qが音素列α「/i/ /Q/ /t/ /e/」に合致すれば「1」となる。
単語列wに対して音素列qは複数生成され得る。そこで、上記では、単語の表記の情報を利用しながら正解の発音(音素列)を推定しており、出現しやすいほど0以外の値の素性関数が多くなり、式(8)のスコアが大きくなる。
記憶部8は、単語・発音変換モデルD31として単語表記とその単語の発音を示す音素列とを対応付けたテーブルである発音辞書を予め記憶しておく。一つの単語表記に対して、1以上の音素列が対応しうる。認識誤り生成部4は、音声・テキストデータD4の各テキストデータが示す単語列をwとし、単語列wを構成する各単語w,w,…それぞれの音素列を単語・発音変換モデルD31から取得する。認識誤り生成部4は、単語列wを構成する単語w,w,…の順に、その単語について取得した音素列を結合して単語列wの音素列qを生成する。従って、単語列wが単語w,w,…からなり、単語wに対応した音素列がn個(i=1,…)ある場合、音素列qは、Πn通り生成される。認識誤り生成部4は、単語列wについて、式(7)及び式(8)により生成した音素列qそれぞれの条件付き確率P(q|w)を算出し、算出した条件付き確率P(q|w)を用いて式(6)により、単語列wが与えられたときに尤もらしい発音系列である正解音素列q^を得る。なお、式(8)に用いられるモデルパラメータΛ=(λ,λ,…)は、別に用意した単語列と正解発音系列からなる学習データから予め学習しておいた値を用いる。
(ステップS31:HMM状態系列生成処理)
認識誤り生成部4は、ステップS30において得られた正解の発音系列である正解音素列q^から、対応するHMMの状態系列を求める。例えば、認識誤り生成部4は、音響モデルD6が示す各音素に対応したHMMを参照し、正解音素列q^を構成する各音素に対応したHMMを結合してHMMの状態系列を生成する。
HMMは、一般的には3〜5状態程度の有限状態オートマトンであり、その有限状態オートマトンのモデルを構成する状態には自己遷移が付随する。この自己遷移の回数が状態継続時間となるが、ここではまだ自己遷移の回数が不明である。そこで、認識誤り生成部4は、生成したHMMの状態系列に含まれる各状態の状態継続時間長を推定する。本実施形態では、認識誤り生成部4は、Gamma(ガンマ)分布を用いて状態継続時間長をサンプリングにより求める。なお、Gamma分布とは、以下の式(9)に示す確率密度関数f(x)を持つ分布である。
Figure 0006031316
式(9)において、xはHMMの継続時間であり、θは尺度母数、kは形状母数と呼ばれるモデルパラメータである。また、Γ(k)は、ガンマ関数を示す。
記憶部8は、音声データからHMMの各状態について予め推定した状態継続時間のガンマ分布を示す状態継続時間モデルD32を話者毎に記憶しておく。認識誤り生成部4は、特定話者の状態継続時間モデルD32が示すHMMの各状態のガンマ分布に従った乱数発生器により、正解音素列q^から生成したHMMの状態系列を構成する各HMMについて状態継続時間の推定値を得る。これにより、各HMMの状態間の遷移(経路)が求められる。つまり、認識誤り生成部4は、得られた推定値を状態継続時間としたHMMを連結し、状態継続時間付きのHMMの状態系列を得る。
(ステップS32:HMM特徴量ベクトル生成処理)
認識誤り生成部4は、音響モデルD6が示すHMMの各状態における多変量混合Gauss(ガウス)分布から、音響特徴量をサンプリングにより求める。なお、多変量混合Gauss分布とは、式(10)に示す確率密度関数Ν(x;μ,Σ)を持つ分布である。
Figure 0006031316
式(10)において、xはN次元の音響特徴量ベクトル、μ、Σはそれぞれ、多変量Gauss分布の平均と共分散行列である。
ここで、HMMは、式(10)に示す確率密度関数Ν(x;μ,Σ)の多変量混合Gauss分布を用いて、式(11)に示す混合Gauss分布で定められる。
Figure 0006031316
式(11)におけるcは、混合要素である確率密度関数Ν(x;μ,Σ)の多変量混合Gauss分布に対する重みであり、式(12)を満たす。
Figure 0006031316
音響特徴量(音声の短時間スペクトルから抽出した特徴)に対する出力確率を計算するために、各話者について予め求めておいたHMMの各状態における音響特徴量の多変量混合Gauss分布を音響モデルとして統計モデル格納部31に記憶しておく。認識誤り生成部4は、音響モデルD6が示すHMMの各状態の多変量混合Gauss分布に従った乱数発生器により、状態継続時間付きの各HMMの状態系列に対応した音響特徴量を得る(サンプリング)。
(ステップS33:線形変換処理)
線形変換処理は、オプションである。認識誤り生成部4は、ステップS32においてサンプリングにより得た音響特徴量に対して、音声認識がコンフュージョンを起こしやすくするように、予め記憶部8に記憶されている特徴量変換行列D33を用いて、特徴量空間での最尤線形回帰(feature-space Maximum Likelihood Linear Regression;fMLLR)を行う。この処理は、文献「Y. Li et al. Incremental on-line feature space MLLR adaptation for telephony speech recognition, In ICSLP, 2002.」に記載の技術を用いる。通常、HMMのような統計的なモデルでは、音響特徴量空間上で識別面(他のHMMよりも高い確率を出力する空間)を構成する。そこで、特徴量変換行列による線形変換を使って、特徴量を識別面から離す(どこか遠い別の点に近づける)ことにより、識別性能を故意に劣化させることができる。近づける対象の点としては、ある音素を統計的に間違いが生じやすい他の音素に置き換えた点を用いることができる。
(ステップS34:音声認識処理)
最後に、認識誤り生成部4は、ステップS33により得られた音響特徴量(あるいは、ステップS32により得られた音響特徴量)を、音響モデルD6及び言語モデルD7を用いて音声認識し、音声認識結果を得る。音声認識結果は、n−bestまたは単語ラティスとする。音声認識結果には、複数の正解文候補と、各正解文候補の音響スコア及び言語スコアが含まれる。認識誤り生成部4は、音声認識結果を学習データD9として記憶部8に書き込む。
[4.4 ステップS4]
[4.4.1 言語的特徴抽出処理]
ステップS4において誤り修正モデル学習部5は最初に、記憶部8に記憶されている音声・テキストデータD4及び学習データD9から、誤り傾向学習のために用いる言語的特徴に基づく素性関数を抽出する。素性関数のルールは、例えば、連続する単語、単語を構成する音素、連続しない2単語以上の単語、音素間の共起関係、単語の構文的な情報または意味的な情報、などの言語的特徴である。
本実施形態では、誤り修正モデル学習部5は、単語の共起関係に基づく素性関数として、例えば以下の(a)、(b)を定める。
(a)単語列wに連続する単語2項組み(u,v)が含まれる場合,その数を返す関数
(b)単語列wに連続しない単語2項組み(u,v)が含まれる場合、その数を返す関数
また、誤り修正モデル学習部5は、単語列wを構成する各単語を名詞や動詞といった品詞カテゴリに置き換えた上で、構文情報に基づく素性関数として、例えば以下の(c)、(d)を定める。なお、c(・)は単語を品詞にマッピングする関数である。
(c)単語列wに連続する品詞2項組み(c(u),c(v))が含まれる場合、その数を返す関数
(d)単語列wに連続しない品詞2項組み(c(u),c(v))が含まれる場合、その数を返す関数
あるいは誤り修正モデル学習部5は、単語列wを構成する各単語を、意味情報を表すカテゴリ(意味カテゴリ)に置き換えた上で、意味的な情報に基づく素性関数として、例えば以下の(e)、(f)を定める。意味カテゴリは、音声認識装置1の外部のデータベースまたは記憶部8に記憶されるシソーラスなどを用いて得ることができる。なお、s(・)は単語を意味カテゴリにマッピングする関数である。
(e)単語列wに連続する意味カテゴリ2項組み(s(u),s(v))が含まれる場合、その数を返す関数
(f)単語列wに連続しない意味カテゴリ2項組み(s(u),s(v))が含まれる場合、その数を返す関数
また、誤り修正モデル学習部5は、音素列に関する素性関数として、例えば以下の(g)を定める。
(g)単語列wに音素列qが含まれる場合、その数を返す関数
誤り修正モデル学習部5は、音声・テキストデータD4のテキストデータが示す正解単語列、及び、学習データD9の音声認識結果から、上記のルールに従った素性関数を全て抽出し、抽出した素性関数が出現する頻度をカウントする。誤り修正モデル学習部5は、カウントした出現頻度が予め定めた閾値以上である素性関数を、誤り傾向学習で用いる素性関数fとして決定する。
[4.4.2 誤り傾向学習処理]
本実施形態では、誤り修正モデル学習部5は、誤り傾向を反映した誤り修正モデルを得るために、以下で述べるリスク最小化法を用いる。
リスク最小化手法に基づく、統計的な誤り修正モデルでは、発話x(mは1以上M以下の整数、Mは学習データの数)と、この発話xに対応した正解単語列wm,0が与えられたとき、目的関数L(Λ)を以下の式(13)のように定める。
Figure 0006031316
は、発話xから音声認識により生成された文仮説wm,1、wm,2、…の集合であり、文仮説wm,k(kは1以上の整数)は発話xの第k番目の正解文候補の単語列である。また、wm,0は発話xの正解文であり、R(wm,o,wm,k)は、正解文wm,0と文仮説wm,kとのLevenshtein編集距離である。事後確率P(wm,k|x;Λ)は、発話xが発生したときに文仮説wm,kが得られる事後確率である。Λは、素性関数に対する素性重みλ、λ、…の集合であり、式(13)の目的関数を最小化するΛが、求める誤り修正モデルのパラメータとなる。これは、式(13)の目的関数を最小化するようにΛを推定すれば、正解文候補に期待される認識誤りが最小となり、学習データとは異なる未知の入力音声に対する音声認識においても、Λによって認識誤りの最小化が同様に行われ、音声認識の性能の向上が期待できるからである。つまり、式(13)の目的関数は、正解文候補に期待される認識誤りが最小となり、素性重みが適切であるかの評価値を算出する評価関数として用いられる。
誤り修正モデルは、音声入力xに対して得られた文仮説wに対して、以下の式(14)に従う誤りスコアS(w)を出力する。
Figure 0006031316
従って、誤り修正モデルによるスコアを考慮した音声認識のスコアg^(w|x)は、以下の式(15)のように算出され、音声認識により得られた文仮説の中で、式(15)により算出されたスコアを最大とする仮説が音声認識結果として出力される。
Figure 0006031316
式(15)におけるκは、音響モデルのスコアP(x|w)に対する言語モデルのスコアの重みである。
なお、式(13)の事後確率P(wm,k|x;Λ)は、以下の式(16)のように算出される。
Figure 0006031316
式(16)におけるg^(wm,k|x;Λ)は、式(15)から以下の式(17)のように算出される。
Figure 0006031316
式(17)におけるS(wm,k)は、Λ=λ、λ、…の値を用いて式(14)により算出される。
図5は、誤り修正モデル学習部5による誤り修正モデル学習処理の処理フローを示す図である。
(ステップS40:特徴量抽出処理)
誤り修正モデル学習部5は、先に示した言語的特徴抽出処理により、誤り傾向学習で用いる素性関数fを抽出する。
(ステップS41:モデルパラメータ初期化処理)
誤り修正モデル学習部5は、ステップS40において得られた素性関数fの素性重みλを全てゼロに初期化する。
(ステップS42:目的関数計算処理)
誤り修正モデル学習部5は、学習データD9から音声認識結果を読み込み、音声・テキストデータD4からこの音声認識結果に対応した正解単語列(テキストデータ)を読み込む。誤り修正モデル学習部5は、読み込んだこれらのデータを用いて、現在のΛ=(λ,λ,…)の値を用い、式(13)により目的関数L(Λ)の値を計算する。
なお、文仮説wm,k(k=1,...)は、発話xの音声データから得られた音声認識結果に含まれる第k番目の正解文候補であり、学習データD9から得られる。また正解文wm,0は、発話xの正解単語列であり、音声・テキストデータD4から得られる。誤り修正モデル学習部5は、音声・テキストデータD4から読み出した正解文wm,0と学習データD9から読み出した文仮説wm,kとを用いて、式(13)におけるLevenshtein編集距離R(wm,o,wm,k)を算出する。また、誤り修正モデル学習部5は、式(16)及び式(17)により、事後確率P(wm,k|x;Λ)を算出するが、式(17)における音響スコアP(x|wm,k)及び言語スコアP(wm,k)は、学習データD9の音声認識結果から得られる。また、誤り修正モデル学習部5は、式(17)のS(wm,k)を、ステップS40において抽出した素性関数fについて文仮説wm,kから得た値と、現在のΛの値を用いて式(14)により算出する。
(ステップS43:パラメータ更新処理)
誤り修正モデル学習部5は、準ニュートン法に基づいて、誤り修正モデルのパラメータΛを更新する。準ニュートン法は、適当な初期値を与えて解に近い次の値を生成し、その値からまた次の解に近い値を生成することを繰り返し、最終的に最適解に収束させるものである。準ニュートン法の詳細については、非特許文献1を参照のこと。
(ステップS44:終了判定処理)
誤り修正モデル学習部5は、パラメータの更新により変更された目的関数L(Λ)の値と、変更前の目的関数L(Λ)の値を比較する。誤り修正モデル学習部5は、値の変化が所定以上であればステップS42からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてステップS45の処理を実行する。
(ステップS45:誤り修正モデル出力処理)
誤り修正モデル学習部5は、更新が収束したときの誤り修正モデルの素性重みΛ=(λ,λ,…)を用いた誤り修正モデルD10を記憶部8に書き込む。
[4.5 ステップS5]
モデル統合部6は、ステップS4において生成された誤り修正モデルD10と、統計モデル格納部31から選択された複数の言語モデルD8とを統合し、統合モデルD11を生成する。
モデル統合部6で得られる統合モデルD11と、音響モデルを用いた音声認識では、音声入力(入力音響特徴量)xに対して、文仮説wの音声認識のスコアg^(w|x)を、あらためて以下の式(18)ように計算する。
Figure 0006031316
式(18)におけるP(x|w)は、文仮説wに対する音響的な尤もらしさを示す事後確率であり、音響スコアである。P(w)、P(w)はそれぞれ、統計モデル格納部31から得られた第k番目の言語モデルの言語スコア、第r番目の言語モデルの言語スコアである。なお、P(w)は、ステップS4の誤り修正モデルの学習で用いた言語モデルD7の言語スコアであり、P(w)は言語モデルD8の言語スコアである。
また、θ∈Θは、各言語モデルに対する混合重み(モデルパラメータ)であり、Σθ=1を満たす。モデル統合部6は、モデルパラメータΘを推定する。この推定したモデルパラメータΘを用いた式(18)が、求める統合モデルである。
つまり、式(18)は、学習データから得られた認識誤りの誤り傾向を反映させた式(15)に示す誤り修正モデルの言語スコアの部分に、混合重みに従って各言語モデルD8による言語スコアを線形補間したものである。
ここで、P(w)expΣλ(w)をあらためてP(w)と置いて式(18)を整理すると、文仮説wの音声認識のスコアg^(w)は、以下の式(19)のようになる。
Figure 0006031316
P(w|x)を、音声入力xが与えられたときの文仮説wの条件付き確率とすれば、以下の式(20)となる。
Figure 0006031316
分子は確率の和が1となるため、正規化項でZ(Θ)≡Σw’exp g^(w’|x)とすれば、文仮説wの事後確率P(w|x)は、以下の式(21)のように与えられる。
Figure 0006031316
ここで、Z(Θ)は、正規化のための定数であり、式(22)にように算出される。
Figure 0006031316
ただし、wは、音声入力xを音声認識した結果得られた全ての文仮説(正解候補)である。
モデルパラメータΘは、誤り修正モデルと同様に、N個の発話から構成される開発データD5を用いて、以下の式(23)に示すリスク最小化問題を解くことにより得られる。
Figure 0006031316
最適化問題が制約条件Σθ=1を満たすようにするため、ラグランジュ係数ν>0を用いて制約なしの最適化問題にしていることに注意する。
図6は、モデル統合部6によるモデル統合処理の処理フローを示す図である。
(ステップS50:モデルパラメータ初期化処理)
モデル統合部6は、モデルパラメータΘを初期化する。ここでは、言語モデルの個数をK個とし、モデル統合部6は、θ=1/Kとして初期化する。
(ステップS51:目的関数計算処理)
モデル統合部6は、記憶部8から開発データD5を読み出す。モデル統合部6は、特定話者の音響モデルD6と、言語モデルD7及び言語モデルD8を用いて開発データD5の音声データを音声認識し、現在のモデルパラメータΘの値を使って式(23)によって目的関数L(Θ)の値を算出する。
なお、文仮説wn,m(m=1,...)は開発データD5の音声データが示す発話xの第m番目の正解文候補である。発話xの正解文wn,0は、開発データD5のテキストデータから得られる。モデル統合部6は、発話xの正解文wn,0と文仮説wn,mとを用いて、式(23)におけるLevenshtein編集距離R(wn,o,wn,m)を算出する。
また、式(23)における事後確率P(wn,m|x;Θ)は、発話xが発生したときに正解文候補wn,mが得られる事後確率であり、以下の式(24)のように算出される。
Figure 0006031316
ただし、g^(wn,m|x;Θ)は、式(18)から以下の式(25)のように算出される。
Figure 0006031316
式(25)において、P(x|wn,m)(m=1,...)は文仮説wn,mの音響スコアである。また、P(wn,m)はk番目の言語モデルである言語モデルD8を用いたときの文仮説wn,mの言語スコアであり、P(wn,m)は言語モデルD7を用いたときの文仮説wn,mの言語スコアである。
(ステップS52:モデルパラメータ更新処理)
モデル統合部6は、準ニュートン法に基づいて、誤り修正モデルのモデルパラメータΘを更新する。
(ステップS53:終了判定処理)
モデル統合部6は、パラメータの更新により変更された目的関数値と、変更前の目的関数値を比較して、値の変化が所定以上であればステップS51からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてステップS54の処理を実行する。
(ステップS54:統合モデル出力処理)
モデル統合部6は、更新が収束したときのモデルパラメータΘ=(θ,θ,…)を用いた式(18)を統合モデルD11として記憶部8に書き込む。
[4.6 ステップS5]
音声認識部7は、音声データが入力されると、リアルタイムで音声認識を行う。音声認識部7は、入力された音声データの話者及び話題に対応して記憶部8に記憶されている統合モデルD11と、話者に対応して統計モデル格納部31に記憶されている音響モデル、及び、話題に対応して統計モデル格納部31に記憶されている言語モデルとを用いて、入力された音声データの正解文候補とそのスコアを得る。音声認識部7は、スコアの最も良い正解文候補を示す音声認識結果データD12を出力する。
[5. 効果]
本実施形態によれば、音声認識装置1は、認識率を向上させたい話者・話題などの情報が誤り傾向に反映された統合モデルを生成することができるため、従来の音声認識よりも認識誤りが削減される。
また、音声認識装置1は、複数の言語モデルの統合を、誤り修正モデルの学習後に行うため、従来よりも効率的にモデル学習を行うことができる。
[6. その他]
なお、上述の音声認識装置1は、内部にコンピュータシステムを有している。そして、音声認識装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1 音声認識装置
2 音声言語資源管理部
21 音声言語資源格納部
3 統計モデル管理部
31 統計モデル格納部
4 認識誤り生成部
5 誤り修正モデル学習部
6 モデル統合部
7 音声認識部
8 記憶部

Claims (7)

  1. 特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納部と、
    前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納部と、
    前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成部と、
    前記認識誤り生成部により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習部と、
    前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習部により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合部と、
    を備えることを特徴とする音声認識装置。
  2. 前記モデル統合部は、前記正解文候補から得られた前記認識誤りと、前記誤り修正モデルにより得られた前記正解文候補の音響スコア及び前記認識誤り傾向が修正された言語スコアと、前記特定話題とは異なる話題の前記言語モデルから得られた前記正解文候補の言語スコアとを用いて定められる評価関数によって算出した評価値に基づいて前記混合重みを統計的に算出する、
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記認識誤り生成部は、前記特定話題に対応した前記テキストデータの発話内容を前記特定話者の前記音響モデルを用いて音声合成して音声データを生成し、生成した前記音声データを前記特定話者の前記音響モデルと前記特定話題の前記言語モデルとを用いて音声認識して認識誤りを含む音声認識結果を生成する、
    ことを特徴とする請求項1または請求項2に記載の音声認識装置。
  4. 前記誤り修正モデルは、連続する単語、単語を構成する音素、連続しない複数の単語、音素間の共起関係、単語の構文的な情報、または単語の意味的な情報に基づく言語的特徴を表す素性関数とその素性重みとを用いて定義され、
    前記誤り修正モデル学習部は、前記音声認識結果から得られた前記素性関数の値と前記音声認識結果に含まれる前記認識誤りとを用いて定められる評価関数によって算出した評価値に基づいて前記素性重みを統計的に算出し、算出した前記素性重みを用いて前記誤り修正モデルを生成する、
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声認識装置。
  5. 前記モデル統合部により生成された前記統合モデルを用いて前記特定話者による前記特定話題の発話の音声データを音声認識する音声認識部をさらに備える、
    ことを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識装置。
  6. 特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納過程と、
    前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納過程と、
    前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成過程と、
    前記認識誤り生成過程において生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習過程と、
    前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習過程において生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合過程と、
    を有することを特徴とする誤り修正モデル学習方法。
  7. コンピュータを、
    特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納手段と、
    前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納手段と、
    前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成手段と、
    前記認識誤り生成手段により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習手段と、
    前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習手段により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合手段と、
    を具備する音声認識装置として機能させるためのプログラム。
JP2012220426A 2012-10-02 2012-10-02 音声認識装置、誤り修正モデル学習方法、及びプログラム Active JP6031316B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012220426A JP6031316B2 (ja) 2012-10-02 2012-10-02 音声認識装置、誤り修正モデル学習方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012220426A JP6031316B2 (ja) 2012-10-02 2012-10-02 音声認識装置、誤り修正モデル学習方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014074732A JP2014074732A (ja) 2014-04-24
JP6031316B2 true JP6031316B2 (ja) 2016-11-24

Family

ID=50748936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012220426A Active JP6031316B2 (ja) 2012-10-02 2012-10-02 音声認識装置、誤り修正モデル学習方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6031316B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7021437B2 (ja) * 2018-08-15 2022-02-17 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
JP7120064B2 (ja) * 2019-02-08 2022-08-17 日本電信電話株式会社 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
CN111310836B (zh) * 2020-02-20 2023-08-18 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
JP7111758B2 (ja) * 2020-03-04 2022-08-02 株式会社東芝 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム
WO2023073887A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
CN116052657B (zh) * 2022-08-01 2023-10-20 荣耀终端有限公司 语音识别的字符纠错方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4852448B2 (ja) * 2007-02-28 2012-01-11 日本放送協会 誤り傾向学習音声認識装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2014074732A (ja) 2014-04-24

Similar Documents

Publication Publication Date Title
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US20140025379A1 (en) Method and System for Real-Time Keyword Spotting for Speech Analytics
JP2010170137A (ja) 音声理解装置
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
US20140058731A1 (en) Method and System for Selectively Biased Linear Discriminant Analysis in Automatic Speech Recognition Systems
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6047364B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
US6662158B1 (en) Temporal pattern recognition method and apparatus utilizing segment and frame-based models
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP4659541B2 (ja) 音声認識装置及び音声認識プログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
Meyer et al. Boosting HMM acoustic models in large vocabulary speech recognition
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP4362054B2 (ja) 音声認識装置及び音声認識プログラム
JP2004101963A (ja) 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム
Nallasamy Adaptation techniques to improve ASR performance on accented speakers
Magdin et al. Discriminative training of n-gram language models for speech recognition via linear programming

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161024

R150 Certificate of patent or registration of utility model

Ref document number: 6031316

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250