JP6051004B2 - 音声認識装置、誤り修正モデル学習方法、及びプログラム - Google Patents

音声認識装置、誤り修正モデル学習方法、及びプログラム Download PDF

Info

Publication number
JP6051004B2
JP6051004B2 JP2012225330A JP2012225330A JP6051004B2 JP 6051004 B2 JP6051004 B2 JP 6051004B2 JP 2012225330 A JP2012225330 A JP 2012225330A JP 2012225330 A JP2012225330 A JP 2012225330A JP 6051004 B2 JP6051004 B2 JP 6051004B2
Authority
JP
Japan
Prior art keywords
error correction
speech recognition
model
correct
correction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012225330A
Other languages
English (en)
Other versions
JP2014077882A (ja
Inventor
彰夫 小林
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012225330A priority Critical patent/JP6051004B2/ja
Publication of JP2014077882A publication Critical patent/JP2014077882A/ja
Application granted granted Critical
Publication of JP6051004B2 publication Critical patent/JP6051004B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置、誤り修正モデル学習方法、及びプログラムに関する。
音声認識の誤り修正については、音声とその書き起こし(正解文)から、言語的な特徴を用いて音声認識の誤り傾向を統計的に学習し、学習の結果得られた統計的な誤り修正モデルを用いて音声認識の性能改善を図る技術がある(例えば、非特許文献1参照)。
小林ほか,「単語誤り最小化に基づく識別的スコアリングによるニュース音声認識」,電子情報通信学会誌,vol.J93-D no.5,2010年,p.598−609
音声認識では、統計的言語モデル(以下、「言語モデル」と記載する。)を用いて単語の予測を行うが、このときに用いられる言語モデルは、単語の予測性能を向上させるために複数の言語モデルを混合して使うことが多い。一般には混合時の言語モデル間の寄与の度合いを調整する混合パラメータは、予め用意された学習データである静的なテキストを用いて決定する。
一方、誤り修正モデルでは、音声認識の誤り傾向を学習するために音声認識結果を学習データとして用いる。誤り修正モデルにおいて言語的な誤り傾向の重み付けを表すモデルパラメータも、混合パラメータ同様に静的なデータから学習する。しかし、音声認識の対象となるデータ(発話内容)と学習に用いた静的なデータを比較した場合、話題が異なっていたりするなど、必ずしも適合しているとは限らず、むしろ適合している方がまれである。例えば、同じ食材を扱う料理の話題であっても、学習データの内容が調理法などで異なっているのならば、学習データから推定された各誤り修正モデルのモデルパラメータは、発話内容に対して最適化されていることにはならない。また、非特許文献1は、言語モデルを線形補間により混合しているが、混合モデルに用いられる各言語モデルの重み付けの割合を示す混合パラメータは固定されているため、やはり発話内容に適合しているとは言いがたい。
本発明は、このような事情を考慮してなされたもので、誤り修正モデルを音声認識対象の発話内容に適合させて音声認識性能を改善することができる音声認識装置、誤り修正モデル学習方法、及びプログラムを提供する。
[1] 本発明の一態様は、複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納部と、入力された音声データを前記誤り修正モデル格納部に格納されている前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識部と、前記音声認識部から出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正部と、前記誤り修正部が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列部と、前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、前記誤り修正モデル格納部に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、音声データが入力されると、現在格納している誤り修正モデルを用いて音声認識を行い、音声認識の結果得られた正解文候補をユーザ入力に従って修正する。音声認識装置は、正解単語列に含まれる各単語を音声データに基づいて時刻順に整列させ、正解文候補と正解単語列とから言語的な特徴を抽出する。音声認識装置は、抽出された言語的な特徴と、正解文候補及び整列された正解単語列それぞれの音響スコア及び言語スコアとに基づいて、誤り修正モデルに用いられる言語的な特徴の重みと複数の言語モデルの混合重みを統計的に算出し、現在格納している誤り修正モデル更新する。音声認識装置は、新たに入力された音声データを、更新された誤り修正モデルを用いて音声認識する。
これにより、音声認識装置は、誤り修正モデルを現在音声認識対象としている発話内容に適合させ、音声認識性能を改善することができる。
[2] 本発明の一態様は、上述する音声認識装置であって、前記モデルパラメータ学習部は、前記正解単語列との比較により得られる前記正解文候補の認識誤りと、前記誤り修正モデルにより得られた前記正解文候補の音声認識のスコアとを用いて定められる評価関数によって算出した評価値に基づいて、前記正解単語列の事後確率が最大、あるいは、前記正解文候補の認識誤りが最小となるように前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出する。
この発明によれば、音声認識装置は、正解文候補に含まれる認識誤りと、誤り修正モデルにより得られた正解文候補の音声認識のスコアとを用いて定められる評価関数により算出した評価値が、正解単語列の事後確率が最大であることを示す評価値、あるいは、正解文候補の期待される単語誤りが最も少ないことを示す評価値となるように言語的な特徴の重み及び言語モデルの混合重み決定し、誤り修正モデルを更新する。
これにより、音声認識装置は、言語的な特徴の重みと複数の言語モデルの混合重みを効率的に学習し、誤り修正モデルを更新することができる。
[3] 本発明の一態様は、上述する音声認識装置であって、前記モデルパラメータ学習部は、前記音声認識部が音声データの音声認識を行う度に前記言語的な特徴の重み及び前記言語モデルの混合重みを算出し、前記誤り修正モデル格納部に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに逐次更新する、ことを特徴とする。
この発明によれば、音声認識装置は、新たな音声データが入力されるたびに誤り修正モデルを逐次更新する。
これにより、音声認識装置は、誤り修正モデルをリアルタイムで発話内容に適合させ、音声認識性能を改善することができる。
[4] 本発明の一態様は、上述する音声認識装置であって、前記特徴量抽出部は、連続する単語、単語を構成する音素、連続しない複数の単語、音素間の共起関係、単語の構文的な情報、または単語の意味的な情報に基づいて前記言語的な特徴を抽出する、ことを特徴とする。
この発明によれば、音声認識装置は、言語的な特徴の重み及び言語モデルの混合重みを、正解文候補及び正解単語列に含まれる単語や音素などから得た言語的特徴に基づいて更新する。
これにより、音声認識装置は、現在の話題に応じて認識誤りを精度良く修正する誤り修正モデルを生成することができる。
[5] 本発明の一態様は、複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納過程と、入力された音声データを前記誤り修正モデル格納過程において格納された前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識過程と、前記音声認識過程において出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正過程と、前記誤り修正過程において生成された前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列過程と、前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出過程と、前記特徴量抽出過程において抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、現在格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習過程と、を有することを特徴とする誤り修正モデル学習方法である。
[6] 本発明の一態様は、コンピュータを、複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納手段と、入力された音声データを前記誤り修正モデル格納手段に格納されている前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識手段と、前記音声認識手段から出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正手段と、前記誤り修正手段が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列手段と、前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、前記誤り修正モデル格納手段に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習手段と、を具備する音声認識装置として機能させるためのプログラムである。
本発明によれば、誤り修正モデルを音声認識対象の発話内容に適合させて音声認識性能を改善することができる。
本発明の一実施形態による音声認識装置における誤り修正モデルの逐次推定の手続を示す図である。 同実施形態による音声認識装置の構成を示す機能ブロック図である。 同実施形態による音声認識装置の全体処理フローを示す図である。 同実施形態による正解単語列と音声認識結果との関係を示す図である。 同実施形態による音声認識装置のパラメータ学習処理フローを示す図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
[1. 本実施形態の概要]
音声認識の誤り傾向を反映した、いわゆる誤り修正モデルがすでに提案されている。この誤り修正モデルは、予め用意された大量の音声認識結果である学習データから静的に推定されることが多い。しかし、実際の音声認識では、学習データと音声認識対象が、その話題性において完全に適合することは多くはない。そのため、誤り修正モデルを利用した音声認識の性能は、必ずしも音声認識の対象となる発話の内容に対して最適とはいえない。誤り修正モデルにおいて言語モデルの誤り傾向を重み付けするモデルパラメータは学習データから静的に推定されるが、高い音声認識性能を目指すには、この静的に推定したモデルパラメータを評価対象の音声の認識結果を用いて逐次(オンライン)的に最適化する必要がある。
一方で、評価時に誤り修正モデルと併用される統計的言語モデル(以下、「言語モデル」と記載する。)は、線形補間などの手法によって複数の情報源から推定された混合モデルであることが多い。混合モデルの混合重みは、音声認識結果の性能に大きく寄与し、かつ誤り修正モデルのモデルパラメータ推定にも影響を与える。このため、混合モデルの混合重みを表す混合パラメータも逐次的(動的)に最適化する必要がある。
字幕作成を目的とした音声認識システムでは、リアルタイムに音声認識結果を出力したのち、人手によりこれを修正する。従って、人手による修正を経たデータを正解とみなせば、従来の誤り修正モデル及び混合モデルのパラメータを正解が得られるたびに逐次的に最適化することが可能となる。そこで、本実施形態の音声認識装置は、複数の情報源から推定された言語モデルの混合パラメータと誤り修正モデルのモデルパラメータを逐次的かつ同時に最適化して音声認識性能を発話内容に逐次最適化した誤り修正モデルを学習し、学習した誤り修正モデルを音声認識に適用する。
図1は、本実施形態の音声認識装置による統計的誤り修正モデルの逐次推定の手続を示す図である。
同図に示すように、本実施形態の音声認識装置は、入力音声を音声認識して発話の音声認識結果を逐次取得し、取得した音声認識結果とこの音声認識結果を修正して得られた正解単語列とを用いて、誤り修正モデルのモデルパラメータを推定する。このとき、本実施形態の音声認識装置は、誤り修正モデルのモデルパラメータに併せて混合モデル(混合言語モデル)の混合パラメータを同時に逐次推定するため、発話内容に適合した誤り修正モデルが得られる。よって、本実施形態の音声認識装置は、誤り修正モデルをその時の発話内容に逐次適合させて、入力音声の音声認識性能を改善することが可能となる。
このように、本実施形態の音声認識装置は、音声認識の誤りを修正する統計的な誤り修正モデルを逐次更新し、音声認識に適用する。
[2. 本実施形態による音声認識装置に適用される学習アルゴリズム]
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
Figure 0006051004
音声入力x及び単語列wは、例えば、発話の単位に対応し、P(w|x)は、音声入力xが発生したときに単語列(文仮説)wが得られる事後確率である。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、そのスコア(音響スコア)は隠れマルコフモデル(Hidden Markov Model、HMM)及びガウス混合分布(Gaussian Mixture Model,GMM)に代表される統計的音響モデル(以下、「音響モデル」と記載する。)に基づいて計算される。言い換えれば、ある音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表すスコアが音響スコアである。
一方、P(w)は、単語列wに対する言語的な生成確率であり、そのスコア(言語スコア)は、単語n−gramモデル等の言語モデルにより計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが言語スコアである。なお、単語n−gramモデルは、N単語連鎖(Nは、例えば1、2、または3である。)の統計に基づいて、(N−1)単語の履歴から次の単語の生起確率を与えるモデルである。
以下の説明では、音響モデルにHMM−GMMを用い、言語モデルにn−gramを用いる。
式(1)のP(x|w)P(w)が最大の場合は、その対数も最大である。そこで、音声認識では、上記の式(1)のベイズの定理に基づいて、音声入力xが発生したときの文仮説(正解候補)である単語列wの評価関数g(w|x)を以下の式(2)のように定める。なお、κは、音響スコアP(x|w)に対する言語スコアP(w)の重みである。
Figure 0006051004
そして、以下の式(3)に示すように、音声入力xに対する正解候補の単語列wの集合の中から、式(2)が示す評価関数g(w|x)の結果が最大である単語列w^が、音声入力xの音声認識結果として選択される。
Figure 0006051004
従来法における誤り修正モデルでは、式(1)を以下の式(4)のように変更する。
Figure 0006051004
式(4)のexpΣλ(w)は、単語列wの誤り傾向を反映したスコアであり、単語列wに対するペナルティもしくは報償として働く。また、f(w)(i=1,...,)はi番目の素性関数、λは素性関数f(w)の重み(素性重み)である。素性関数は、与えられた単語列(ここでは、単語列w)で言語的ルールが成立すればその数となり、成立しなければ0となるような関数として定められる。具体的な素性関数fの言語的ルールの例として、以下があげられる。
(a)単語列wに含まれる連続する単語2項組(u,v)の数
(b)単語列wに含まれる連続しない単語2項組(u,v)の数
一方、音声認識では、単語の予測精度を向上させるために複数の言語モデルを混合して用いることが多い。線形補間による言語モデルの混合では、混合言語モデルは式(5)のように表される。
Figure 0006051004
ここで、P(w)は、情報源である静的な学習データのテキスト(正解文)から推定されたn番目の言語モデルのスコアである。また、θは、n番目(n=1,...,)の言語モデルに対する混合パラメータと呼ばれる係数であり、θ≧0、Σθ=1を満たす。
また、線形補間以外の言語のモデルの混合方法として、対数線形モデルでは、以下の式(6)に示すように言語モデルを混合する。
Figure 0006051004
φは線形補間同様、混合パラメータと呼ばれる係数であるが、その和が1となる必要はない。また、1/Z(Φ)は、正規化のための定数である。なお、混合パラメータΦ=(φ,φ,…)である。
対数線形モデルを言語モデルの混合手法として選べば、音声入力xが与えられたときの単語列wの事後確率P(w|x)は、以下の式(7)となる。なお、モデルパラメータΛ=(λ,λ,…)である。
Figure 0006051004
音響モデルの尤度をHMMによる対数音響スコアh(x,w)、n番目の言語モデルによる仮説単語列の生成確率を対数言語スコアh(w)とすると、式(7)は、以下の式(8)のように書き直せる。
Figure 0006051004
式(8)におけるZ(Λ,Φ)は、確率の条件を満たすための正規化定数である。
ある音声入力xに対して、音声認識結果whypおよび人手による修正結果(正解単語列)wrefが得られたとする。ここで、音声認識装置は、複数の音声認識結果を出力しても良く、その集合をWとする。音声認識では、ベイズの定理により事後確率が最大となる単語列を正解として出力する。従って、修正結果wrefの事後確率P(wref|x)は、集合Wに含まれる任意の音声認識結果whypの事後確率P(whyp|x)よりも大きくなる必要がある。
音声認識の音声入力xおよび音声認識結果whyp、いずれかの音声認識結果whypから得られた修正結果(正解単語列)wrefが与えられたとき、パラメータ推定のための目的関数L(Λ,Φ)は、以下の式(9)となる。
Figure 0006051004
R(wref,whyp)は、修正結果wrefと音声認識結果whypの編集距離(置換、挿入、脱落の総数)を返す関数である。2つの単語列の編集距離は、動的計画法により効率的に求めることができる。この編集距離は、正解単語列である修正結果wrefに対する音声認識結果whypの誤り単語数を表している。期待される単語誤りの数が少ないほど、音声認識は認識誤りを生じることなく認識結果を生成できる。また、確率の条件として、音声認識結果whypの事後確率P(whyp|x)+修正結果wrefの事後確率P(wref|x)=1を制約として仮定しているため、音声認識結果whypの事後確率P(whyp|x)を最小化し、修正結果wrefの事後確率P(wref|x)を最大化することによって、音声認識は認識誤りを生じることなく認識結果を生成できる。そのため、目的関数L(Λ,Φ)を最小化するようにモデルパラメータΛと混合パラメータΦを推定すれば、音声認識結果に期待される単語誤りが最小、かつ、正解単語列の事後確率が最大になり、未知の入力音声に対する音声認識においても、音声認識結果の単語誤りの最小化が見込まれ、音声認識の性能の向上が期待できる。つまり、式(9)の目的関数は、正解候補の単語列に期待される認識誤りが最小かつ正解単語列の事後確率が最大となり、モデルパラメータΛ及び混合パラメータΦが適切であるかの評価値を算出する評価関数として用いられる。
式(9)の目的関数のモデルパラメータΛと混合パラメータΦに関する勾配ΔΛ、ΔΦを求めると、以下の式(10)、式(11)のようになる。なお、勾配ΔΛは、(∂L(Λ,Φ)/∂λ,∂L(Λ,Φ)/∂λ,∂L(Λ,Φ)/∂λ,…)であり、勾配ΔΦは、(∂L(Λ,Φ)/∂φ,∂L(Λ,Φ)/∂φ,∂L(Λ,Φ)/∂φ,…)である。また、w’は、集合Wに含まれる全ての音声認識結果whyp及び修正結果wrefである。
Figure 0006051004
Figure 0006051004
但し、式(8)における正規化定数Z(Λ,Φ)は、以下の式(12)とした。
Figure 0006051004
音声認識の音声入力を...,xt−1,x,...とすれば、t−1番目の音声入力xt−1を認識した後におけるモデルパラメータΛ、混合パラメータΦの更新式は以下の式(13)、式(14)となる。
Figure 0006051004
Figure 0006051004
式(14)におけるηΛは勾配ΔΛに対する定数、式(15)におけるηΦは勾配ΔΦに対する定数である。
なお、モデルパラメータΛと混合パラメータΦを頑健に推定するために、過去T個の推定値を用いて以下の式(15)、式(16)のように、直近の推定回数Tで平均化した値を用いてもよい。
Figure 0006051004
Figure 0006051004
音声認識から認識結果と人手による正解単語列が逐次得られた場合、式(13)、式(14)を適用することにより、発話の取得に伴って、式(8)の誤り修正モデルのモデルパラメータΛと混合パラメータΦの推定値が更新される。これにより、音声認識対象の発話内容に適した誤り修正モデルが学習されることになる。
[3. 音声認識装置の構成]
図2は、本発明の一実施形態による音声認識装置1の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。
音声認識装置1は、コンピュータ装置により実現され、同図に示すように、音声認識部11、誤り修正部12、整列部13、特徴量抽出部14、モデルパラメータ学習部15、音響モデル格納部21、言語モデル格納部22、及び誤り修正モデル格納部23を備えて構成される。
音響モデル格納部21は、音響モデルを格納する。言語モデル格納部22は、言語モデルを格納する。誤り修正モデル格納部23は、式(8)及び式(12)で表される誤り修正モデルを格納する。
音声認識部11は、音響モデル格納部21に格納されている音響モデルと、言語モデル格納部22に格納されている言語モデルと、誤り修正モデル格納部23に格納されている誤り修正モデルを用いて、入力音声データD1をリアルタイムで音声認識する。入力音声データD1は、発話の音声波形を短時間スペクトル分析して得られた特徴量を示す音声データである。音声認識部11は、入力音声データD1の音声認識結果を示す音声認識結果データD2を、誤り修正部12及び特徴量抽出部14に出力する。音声認識結果は、第1候補となった正解文候補、もしくは複数の正解文候補とする。本実施形態では、音声認識結果として複数の正解文候補を得るものとして説明する。また、音声認識結果データD2には、正解文候補を構成する各単語が発話された時刻の情報も付加される。各単語が発話された時刻とは、単語の開始から終了までの区間である。
誤り修正部12は、音声認識結果データD2が示す第1候補の正解文候補を人手により修正した正解単語列を得る。誤り修正部12は、正解単語列を示す正解単語列データD3を整列部13に出力する。
整列部13は、入力音声データD1を用いて、正解単語列データD3が示す正解単語列を構成する各単語が発話された時刻を同定する。整列部13は、同定した各単語が発話された時刻の情報を正解単語列データD3に付加し、単語を発話された時刻順に整列する。
特徴量抽出部14は、音声認識結果データD2が示す正解文候補と、正解単語列データD3が示す正解単語列とから、言語的な特徴を抽出する。ここで抽出される言語的な特徴は、前述の言語的なルールであり、素性関数として定義される。
モデルパラメータ学習部15は、特徴量抽出部14が抽出した素性関数と、音声認識結果データD2が示す正解文候補と、正解単語列データD3が示す正解単語列とを入力として、誤り修正モデルのモデルパラメータΛ及び言語モデルの混合パラメータΦを統計的に学習する。モデルパラメータ学習部15は、誤り修正モデル格納部23に現在格納されている誤り修正モデルを、学習により得られたモデルパラメータΛ及び混合パラメータΦを用いた誤り修正モデルに更新する。
これにより、音声認識部11は、音響モデル及び言語モデルと、更新された誤り修正モデルを用いて新たな入力音声データD1を音声認識する。音声認識装置1は、音声認識部11において入力音声データD1の音声認識結果が得られるたびに、誤り修正モデル更新の一連の処理を実行する。
[4. 音声認識装置の処理手順]
図3は、本実施形態による音声認識装置1の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。同図に示す処理を実行する前に、音声認識装置1の誤り修正モデル格納部23は、静的な学習データから決定した誤り修正モデルを初期値として格納しておく。ここでは、誤り修正モデルは、モデルパラメータΛの値を示すモデルパラメータデータD4と、混合パラメータΦの値を示す混合パラメータデータD5により表される。
[4.1 ステップS1]
音声認識部11は、入力音声データD1を音声認識し、各正解文候補の音響スコアを音響モデル格納部21に格納されている音響モデルから算出し、言語スコアを言語モデル格納部22に格納されている言語モデルから算出する。音声認識部11は、さらに各正解文候補の素性関数の値を算出すると、現在誤り修正モデル格納部23に格納されている誤り修正モデル(式(8)及び式(12))により、音声認識のスコアを算出する。音声認識部11は、算出されたスコアに従って尤もらしさの順に並べた複数の正解文候補whypを示す音声認識結果データD2を出力する。
[4.2 ステップS2]
誤り修正部12は、図示しない入力手段によりユーザが人手で入力した修正指示に従って、音声認識結果データD2が示す第1候補の正解文候補whypを正解単語列wrefに修正する。誤り修正部12は、修正により得られた正解単語列wrefを示す正解単語列データD3を整列部13に出力する。
図4は、正解単語列wrefと音声認識結果の正解文候補whypとの関係を示す図である。同図に示すように、音声認識結果データD2には、音声認識結果として尤もらしさの順位n(n=1,2,…)の順に正解文候補whypが設定されている。同図では、誤り修正部12は、n=1の正解文候補whyp「ABFDEF」を修正して、正解単語列wref「ABCDEF」を得ている。
[4.3 ステップS3]
図3において、整列部13は、正解単語列データD3と、入力音声データD1とを用いて、既存の技術により、正解単語列wrefを構成する各単語が発話された時刻を同定する。整列部13は、同定した各単語が発話された時刻の情報を正解単語列データD3に付加し、単語を発話された時刻順に整列する。
[4.4 ステップS4]
特徴量抽出部14は、音声認識結果データD2が示す各正解文候補whypの単語列と、正解単語列データD3が示す整列された正解単語列wrefの単語列とから、誤り修正モデルのパラメータ学習のために用いる言語的特徴に基づく素性関数を抽出する。素性関数のルールは、例えば、同一の発話内における連続する単語、単語を構成する音素、連続しない2単語以上の単語、音素間の共起関係、単語の構文的な情報または意味的な情報、などの言語的特徴である。
本実施形態では、特徴量抽出部14は、単語の共起関係に基づく素性関数として、例えば以下の(a)、(b)を抽出する。
(a)単語列に連続する単語2項組(u,v)が含まれる場合,その数を返す関数
(b)単語列に連続しない単語2項組(u,v)が含まれる場合、その数を返す関数
また、特徴量抽出部14は、単語列を構成する各単語を名詞や動詞といった品詞カテゴリに置き換えた上で、構文情報に基づく素性関数として、例えば以下の(c)、(d)を抽出する。なお、c(・)は単語を品詞にマッピングする関数である。
(c)単語列に連続する品詞2項組(c(u),c(v))が含まれる場合、その数を返す関数
(d)単語列に連続しない品詞2項組(c(u),c(v))が含まれる場合、その数を返す関数
あるいは特徴量抽出部14は、単語列を構成する各単語を、意味情報を表すカテゴリ(意味カテゴリ)に置き換えた上で、意味的な情報に基づく素性関数として、例えば以下の(e)、(f)を抽出する。意味カテゴリは、音声認識装置1の外部のデータベースまたは内部に備える図示しない記憶手段に記憶されるシソーラスなどを用いて得ることができる。なお、s(・)は単語を意味カテゴリにマッピングする関数である。
(e)単語列に連続する意味カテゴリ2項組(s(u),s(v))が含まれる場合、その数を返す関数
(f)単語列に連続しない意味カテゴリ2項組(s(u),s(v))が含まれる場合、その数を返す関数
また、特徴量抽出部14は、音素列に関する素性関数として、例えば以下の(g)を抽出する。
(g)単語列に音素列qが含まれる場合、その数を返す関数
特徴量抽出部14は、音声認識結果データD2が示す各正解文候補whypと、正解単語列データD3が示す正解単語列wrefから、上記のルールに従った素性関数を全て抽出し、抽出した素性関数が出現する頻度をカウントする。特徴量抽出部14は、カウントした出現頻度が予め定めた閾値以上である素性関数を、誤り修正モデルのパラメータ学習で用いる素性関数fとして決定し、モデルパラメータ学習部15に通知する。
[4.5 ステップS5]
続いてモデルパラメータ学習部15は、誤り修正モデルのモデルパラメータΛと混合パラメータΦを学習する。
図5は、ステップS5においてモデルパラメータ学習部15が実行するパラメータ学習処理フローを示す図である。
(ステップS50:正解文候補選択処理)
モデルパラメータ学習部15は、n=1を初期値とし、音声認識結果データD2が示す正解文候補whypとの中からn番目の正解文候補whypを選択する。
(ステップS51:スコア計算処理)
モデルパラメータ学習部15は、選択した正解文候補whypと、正解単語列データD3が示す正解単語列wrefの音響スコアと言語スコアを計算する。
具体的には、モデルパラメータ学習部15は、音響モデル格納部21に格納されている音響モデルを参照して、正解文候補whypの対数音響スコアh(x,whyp)、及び正解単語列wrefの対数音響スコアh(x,wref)を算出する。これらは、式(8)における対数音響スコアh(x,w)である。なお、音響スコアの算出の際には、正解文候補whypや正解単語列wrefの各単語に付与された時刻情報により特定される入力音声データD1の部分が用いられる。
さらにモデルパラメータ学習部15は、言語モデル格納部22に格納されている言語モデルを参照し、正解文候補whypの対数言語スコアh(whyp)、及び正解単語列wrefの対数言語スコアh(wref)を各言語モデルについて算出する(n=1,...,)。これらは、式(8)における対数言語スコアh(w)である。
なお、正解単語列wrefの対数音響スコアh(x,wref)及び対数言語スコアh(whyp)は、最初のループのみで算出すればよい。
(ステップS52:事後確率計算処理)
モデルパラメータ学習部15は、各正解文候補whypと正解単語列wrefのそれぞれから、特徴量抽出部14が定めた素性関数fの値f(whyp)、f(wref)を算出する。さらに、モデルパラメータ学習部15は、各正解文候補whypを単語列wとし、ステップS51において計算した音響スコア及び言語スコアと、算出した素性関数の値を用いて、式(8)により事後確率P(whyp|x)を算出する。式(8)に用いるモデルパラメータΛと混合パラメータΦの値は、現在の誤り修正モデルに使用されている値である。なお、正解単語列wrefの素性関数fの値f(wref)は、最初のループのみで算出すればよい。
(ステップS53:編集距離計算処理)
モデルパラメータ学習部15は、選択した正解文候補whypと、正解単語列wrefとを比較し、編集距離R(wref,whyp)を動的計画法に基づいて計算する。
(ステップS54:ループ終了判断処理)
モデルパラメータ学習部15は、音声認識結果データD2が示す正解文候補whypを全て選択したかを判断する。モデルパラメータ学習部15は、まだ未選択の正解文候補whypがあると判断した場合は、現在のnの値に1を加算してステップS50からの処理を繰り返し、全て選択済みであると判断した場合は、ステップS55の処理を実行する。
(ステップS55:勾配計算処理)
モデルパラメータ学習部15は、現在のモデルパラメータΛ及び混合パラメータΦの値を用いて、式(10)及び式(11)により、式(9)のモデルパラメータΛ、混合パラメータΦに関する勾配ΔΛ、ΔΦを求める。モデルパラメータ学習部15は、式(10)及び式(11)における編集距離R(wref,whyp)に、ステップS53において算出した値を用い、事後確率P(whyp|x)に、ステップS52において算出した値を用いる。また、モデルパラメータ学習部15は、対数言語スコアh(whyp)、h(w’)に、ステップS51において算出した対数言語スコアh(whyp)及びh(wref)の値を、素性関数f(whyp)、f(w’)に、ステップS52において算出したf(whyp)及びf(wref)の値を用いる。なお、モデルパラメータ学習部15は、言語スコアP(w’)を、ステップS52において算出した対数言語スコアh(whyp)、h(wref)の値を用いて式(6)により算出する。
(ステップS56:パラメータ更新処理)
モデルパラメータ学習部15は、ステップS55において求めた勾配ΔΛ、ΔΦを用いて、式(13)及び式(14)により、または、式(15)及び式(16)により、モデルパラメータΛ及び混合パラメータΦを更新する。なお、式(13)、式(14)における係数ηΛ、ηΦは、予め定めた値を用いる。
モデルパラメータ学習部15は、更新後のモデルパラメータΛの値を示すモデルパラメータデータD4と、更新後の混合パラメータΦの値を示す混合パラメータデータD5により、誤り修正モデル格納部23に現在格納されているモデルパラメータデータD4と混合パラメータデータD5を更新する。
再び音声認識装置1は、音声認識装置1に次の入力音声データD1が入力されると、逐次、図3のステップS1からの処理を繰り返す。
[5. 効果]
本実施形態の音声認識装置1によれば、認識率を向上させたい話題の情報を、音声認識結果から逐次的に反映した誤り修正モデルが構成可能となる。これにより、学習データと発話内容のミスマッチを解消し、音声認識で用いる誤り修正モデルを発話内容に対して最適化し、従来よりも認識誤りを削減することができる。
また、本実施形態の音声認識装置1によれば、複数の言語モデルの混合パラメータを誤り修正モデルのモデルパラメータ推定と同時に行うため、従来よりも認識誤りを削減することができる。
[6. その他]
なお、上述の音声認識装置1は、内部にコンピュータシステムを有している。そして、音声認識装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1 音声認識装置
11 音声認識部
12 誤り修正部
13 整列部
14 特徴量抽出部
15 モデルパラメータ学習部
21 音響モデル格納部
22 言語モデル格納部
23 誤り修正モデル格納部

Claims (6)

  1. 複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納部と、
    入力された音声データを前記誤り修正モデル格納部に格納されている前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識部と、
    前記音声認識部から出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正部と、
    前記誤り修正部が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列部と、
    前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、前記誤り修正モデル格納部に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習部と、
    を備えることを特徴とする音声認識装置。
  2. 前記モデルパラメータ学習部は、前記正解単語列との比較により得られる前記正解文候補の認識誤りと、前記誤り修正モデルにより得られた前記正解文候補の音声認識のスコアとを用いて定められる評価関数によって算出した評価値に基づいて、前記正解単語列の事後確率が最大、あるいは、前記正解文候補の認識誤りが最小となるように前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出する、
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記モデルパラメータ学習部は、前記音声認識部が音声データの音声認識を行う度に前記言語的な特徴の重み及び前記言語モデルの混合重みを算出し、前記誤り修正モデル格納部に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに逐次更新する、
    ことを特徴とする請求項1または請求項2に記載の音声認識装置。
  4. 前記特徴量抽出部は、連続する単語、単語を構成する音素、連続しない複数の単語、音素間の共起関係、単語の構文的な情報、または単語の意味的な情報に基づいて前記言語的な特徴を抽出する、
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声認識装置。
  5. 複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納過程と、
    入力された音声データを前記誤り修正モデル格納過程において格納された前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識過程と、
    前記音声認識過程において出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正過程と、
    前記誤り修正過程において生成された前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列過程と、
    前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出過程と、
    前記特徴量抽出過程において抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、現在格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習過程と、
    を有することを特徴とする誤り修正モデル学習方法。
  6. コンピュータを、
    複数の言語モデルを混合重みに従って混合した混合モデルに基づいて得られる言語スコアを、重み付けされた言語的な特徴により修正した値を用いて音声認識のスコアを算出する式である誤り修正モデルを格納する誤り修正モデル格納手段と、
    入力された音声データを前記誤り修正モデル格納手段に格納されている前記誤り修正モデルを用いて音声認識し、音声認識の結果得られた正解文候補を出力する音声認識手段と、
    前記音声認識手段から出力された前記正解文候補をユーザ入力に従って修正し、正解単語列を生成する誤り修正手段と、
    前記誤り修正手段が生成した前記正解単語列に含まれる各単語を前記音声データに基づいて時刻順に整列させる整列手段と、
    前記正解文候補と前記整列された正解単語列とから言語的な特徴を抽出する特徴量抽出手段と、
    前記特徴量抽出手段により抽出された前記言語的な特徴と、前記正解文候補及び前記整列された正解単語列の音響スコア及び言語スコアとに基づいて前記言語的な特徴の重み及び前記言語モデルの混合重みを統計的に算出し、前記誤り修正モデル格納手段に格納されている前記誤り修正モデルを、算出した前記言語的な特徴の重み及び前記言語モデルの混合重みを用いた誤り修正モデルに更新するモデルパラメータ学習手段と、
    を具備する音声認識装置として機能させるためのプログラム。
JP2012225330A 2012-10-10 2012-10-10 音声認識装置、誤り修正モデル学習方法、及びプログラム Expired - Fee Related JP6051004B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012225330A JP6051004B2 (ja) 2012-10-10 2012-10-10 音声認識装置、誤り修正モデル学習方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012225330A JP6051004B2 (ja) 2012-10-10 2012-10-10 音声認識装置、誤り修正モデル学習方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014077882A JP2014077882A (ja) 2014-05-01
JP6051004B2 true JP6051004B2 (ja) 2016-12-21

Family

ID=50783228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012225330A Expired - Fee Related JP6051004B2 (ja) 2012-10-10 2012-10-10 音声認識装置、誤り修正モデル学習方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6051004B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101590724B1 (ko) * 2014-10-06 2016-02-02 포항공과대학교 산학협력단 음성 인식 오류 수정 방법 및 이를 수행하는 장치
CN110770819B (zh) * 2017-06-15 2023-05-12 北京嘀嘀无限科技发展有限公司 语音识别系统和方法
CN110808049B (zh) * 2018-07-18 2022-04-26 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
US11328712B2 (en) * 2019-08-02 2022-05-10 International Business Machines Corporation Domain specific correction of output from automatic speech recognition
CN111681643A (zh) * 2020-05-29 2020-09-18 标贝(北京)科技有限公司 语音识别后处理方法、装置、系统及存储介质
CN112151022A (zh) * 2020-09-25 2020-12-29 北京百度网讯科技有限公司 语音识别的优化方法、装置、设备以及存储介质
CN112257437B (zh) * 2020-10-20 2024-02-13 中国科学技术大学 语音识别纠错方法、装置、电子设备和存储介质
CN112989806A (zh) * 2021-04-07 2021-06-18 广州伟宏智能科技有限公司 一种智能化文本纠错模型训练方法
CN114495910B (zh) * 2022-04-07 2022-08-02 联通(广东)产业互联网有限公司 文本纠错方法、系统、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5212910B2 (ja) * 2006-07-07 2013-06-19 日本電気株式会社 音声認識装置、音声認識方法、および音声認識用プログラム
JP4852448B2 (ja) * 2007-02-28 2012-01-11 日本放送協会 誤り傾向学習音声認識装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2014077882A (ja) 2014-05-01

Similar Documents

Publication Publication Date Title
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US8548808B2 (en) Speech understanding apparatus using multiple language models and multiple language understanding models
JP5172021B2 (ja) 自動音声認識音響モデルの適合
US8244522B2 (en) Language understanding device
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
JP6047364B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US20040186819A1 (en) Telephone directory information retrieval system and method
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Peyser et al. Improving proper noun recognition in end-to-end asr by customization of the mwer loss criterion
JP2013125144A (ja) 音声認識装置およびそのプログラム
JP6300394B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP6366166B2 (ja) 音声認識装置、及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
Liu et al. Modeling partial pronunciation variations for spontaneous Mandarin speech recognition
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Karanasou Phonemic variability and confusability in pronunciation modeling for automatic speech recognition
Huang et al. Discriminative training methods for language models using conditional entropy criteria
Rastrow et al. Constrained discriminative training of N-gram language models
Kipyatkova et al. Rescoring N-best lists for Russian speech recognition using factored language models
Rastrow et al. Efficient discriminative training of long-span language models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161128

R150 Certificate of patent or registration of utility model

Ref document number: 6051004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees