JP5437204B2 - 言語モデル処理装置および音声認識装置、ならびにプログラム - Google Patents
言語モデル処理装置および音声認識装置、ならびにプログラム Download PDFInfo
- Publication number
- JP5437204B2 JP5437204B2 JP2010197869A JP2010197869A JP5437204B2 JP 5437204 B2 JP5437204 B2 JP 5437204B2 JP 2010197869 A JP2010197869 A JP 2010197869A JP 2010197869 A JP2010197869 A JP 2010197869A JP 5437204 B2 JP5437204 B2 JP 5437204B2
- Authority
- JP
- Japan
- Prior art keywords
- correct answer
- language
- storage unit
- data
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 95
- 230000006870 function Effects 0.000 claims description 106
- 238000000034 method Methods 0.000 claims description 102
- 230000008569 process Effects 0.000 claims description 69
- 230000014509 gene expression Effects 0.000 claims description 62
- 238000013500 data storage Methods 0.000 claims description 30
- 238000013075 data extraction Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Description
図12は、音声認識結果の正解文と、N個の正解文候補を示す概略図である。この例ではN=4である。これらN個の正解文候補は、音声認識装置が統計的音響モデルに基づいて出力する対数音響スコアと、音声認識装置が統計的言語モデルに基づいて出力する対数言語スコアとの和の順に上位から並べたものである。スコアの和の値が大きいほど、上位の候補である。
また、単語の誤り傾向に基づくペナルティや報償のスコアは、あらかじめ収集された音声認識結果と、対応する正解とを用いて、音声認識装置が統計的に学習することによって得られる。
まず、従来技術による方法では、音声認識率を向上させるために、与えられた音声に対する音声認識結果と、その正解を準備することが必要である。その正解は、音声に基づき人手で作成する必要がある。そして、音声認識率を充分に改善させるためには、膨大な量の正解を人手で作成する必要があり、それを行なう場合のコストは膨大である。
さらに、本発明は、利用者がターゲットとするタスクに適合した学習により統計的言語モデルを構築する言語モデル処理装置を提供する。
[2]上記の課題を解決するため、本発明の一態様による言語モデル処理装置は、正解データのない音声認識結果データを記憶する正解なし認識結果記憶部と、言語表現の出現確率を表すデータである言語モデルを記憶する言語モデル記憶部と、与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって前記言語モデルを更新して、更新された前記言語モデルを前記言語モデル記憶部に書き込む正解なし誤り傾向学習部とを具備して、音声認識結果データと該音声認識結果データに対応する正解データとを記憶する正解付き認識結果記憶部と、予め与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって与えられた前記言語モデルを更新して出力する正解付き誤り傾向学習部とをさらに具備し、前記正解なし誤り傾向学習部は、前記正解付き誤り傾向学習部が更新して出力した前記言語モデルを入力とすることを特徴とする。
またここで、学習処理とは機械学習処理である。機械学習処理は、例えば、可変要因を有する系において、所望の結果を得るため、または結果を最適化ないしは改善するために、前記可変要因を様々に変えて試行を行いつつその試行結果をフィードバックすることにより、前記可変要因の望ましい形態を得る処理である。ここでは、上記可変要因は言語モデルである。また所望の結果とは、更新された言語モデルを用いる音声認識装置が、音声認識結果として、正解を出力する度合いを高め、また正解以外を出力する度合いを低めることである。機械学習処理は、一例としては、目的関数(評価関数)を適切に定め、可変要因の変化に対する目的関数の値の変化を得て、目的関数値の変化に応じて可変要因を適応的に定めていく処理を行う。
上記の正解付き誤り傾向学習部は、それ自身による学習処理の結果得られた言語モデルを出力する。また、正解付き誤り傾向学習部によって更新された言語モデルを、正解なし誤り傾向学習部への入力とする。
また、第2の目的関数の例として、正解候補である複数の音声認識結果データの相互間のリスクと、正解候補である音声認識データの事後確率(この事後確率は第2のパラメータ集合により可変)とに基づく値を取る関数を用いる。第2の目的関数は、確率要素を加味したリスクの総量となるようにする。そして、このリスクの総量を最小化するような、正解候補である音声認識結果データの事後確率を得られることを指向して、正解なし誤り傾向学習部は、学習処理により第2のパラメータ集合の値を求める。
また、第1のパラメータ集合および第2のパラメータ集合のそれぞれの一例は、所定の与えられた言語モデルを、言語表現に関する複数の素性関数を用いて更新するときに、各素性関数に対応する重み値の集合を用いて良い。
また、本発明の一態様によれば、単語の出現傾向についての機械学習を行って、その結果により言語モデルを更新するため、その言語モデルを用いた場合の音声認識精度を向上させることができる。
また、本発明の一態様によれば、特定の言語資源(音声言語資源)との類似度に基づいて選択された言語資源(音声言語資源)によって上記の学習を行なうため、特定のタスクにおいて特に音声認識精度を向上させることができる。
また、正解なし音声言語認識結果をも用いて上記の学習を行なうため、予め正解データを用意する必要がなく、低コスト化が可能となる。
また、本発明の一態様によれば、自動的に収集・蓄積した言語資源を用いて上記の学習を行なうため、低コスト化が可能となる。
本発明の第1の実施形態について、図面を参照しながら説明する。
[1.1 構成]
図1は、本実施形態による音声認識装置全体の機能構成を示すブロック図である。この音声認識装置1は、音声認識処理で使用するための統計的言語モデルを構築する言語モデル処理装置を内部に含んでいる。
図示するように、音声認識装置1は、音声認識処理部10と、言語資源取得部20と、資源蓄積部70と、ターゲット選定部80と、データ抽出部90と、ターゲットデータ記憶部100と、類似テキスト記憶部110と、正解付き認識結果記憶部120と、正解なし認識結果記憶部130と、学習部140と、モデル記憶部170とを含んで構成される。
また、学習部140は、出現傾向学習部150と、誤り傾向学習部160とを含んで構成されている。
また、モデル記憶部170は、音響モデル記憶部180と、言語モデル記憶部190とを含んで構成されている。
音声認識処理部10は、モデル記憶部170から音響モデルおよび言語モデルを読み出しながら、入力される放送音声の音声認識処理を随時行ない、その音声と認識結果のテキストデータを出力する。なお、音声認識処理の対象である音声としては、サンプリングされたデジタルデータを扱う。
ターゲットデータ記憶部100は、上記のターゲット選定部80の機能によってターゲットとして選定された音声言語資源を記憶する。つまり、ターゲットデータ記憶部100は、選択された特定のタスクに属する言語情報を記憶する。
つまり、ターゲットデータ記憶部100と類似テキスト記憶部110と正解付き認識結果記憶部120と正解なし認識結果記憶部130は、それぞれ、出現傾向学習部150が学習処理に用いるためのテキストを記憶するテキスト記憶部として機能する。
正解付き誤り傾向学習部161は、与えられた言語モデルを入力とし、入力された言語モデルと、正解付き認識結果記憶部120から読み出した音声認識結果データおよび正解データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって与えられた前記言語モデルを更新して出力する。
正解なし誤り傾向学習部162は、正解付き誤り傾向学習部161が出力した言語モデルと、正解なし認識結果記憶部130から読み出した正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって言語モデルを更新して、更新された言語モデルを表すデータを言語モデル記憶部190に書き込む。
音声認識処理部10における処理は、統計的なモデルを利用して、入力される音声を単語列に変換する処理である。このような統計的特徴を利用する処理では、大量のテキストデータや大量の音声データを収集することが重要な役割を果たす。それらの大量のデータを蓄積・保存するものが、前述の資源蓄積部70である。
図3は、正解なし音声言語資源蓄積部40が記憶する正解なし音声言語資源のデータ構成を示す概略図である。図示するように、正解なし音声言語資源蓄積部40は、番組識別情報と、番組情報と、音声と、音声認識結果の各項目のデータを互いに関連付けて記憶する。正解なし音声言語資源蓄積部40は番組単位でデータを保持するものであり、図示している表の1行分のデータが1番組に対応する。番組識別情報は番組を一意に識別するためのID(番号等)である。番組情報は、電子番組表(Electronic Program Guide)に含まれる番組タイトルや番組説明テキストのデータである。音声は、番組の音声であり、例えばWAV形式などのデジタル化された音声データである。音声認識結果は、上記の音声を入力として音声認識処理を行なった結果得られるデータである。音声認識結果のデータは、複数の正解候補を含むものであってもよい。
言語モデル記憶部190は、言語表現の統計的な出現確率を表すデータを記憶するものであり、そのデータ構成については後述する。
次に、音声認識装置1による処理の概略について説明する。
音声入力xに対して、最も尤もらしい単語列w(ハット)は、ベイズ(Bayes)の定理により、下の式(1)で求めることができる。ここで、単語列とは言語表現の一種である。
そして、式(3)によって、正解候補となる単語列の集合Lに属するwのうち最良の単語列w(ハット)を選択する。
また、音声認識装置1における誤り傾向学習部160は、音声認識処理を行なうタスクに合わせて、式(4)におけるP(w|x)の値が正解単語列に対して大きくなるように、P(w)の値の分布についての学習処理を行なう。これは、タスクに合わせた、単語の誤り傾向の学習である。
(1)ウェブ等のテキストデータから得られた言語資源や、過去の放送番組の音声に基づく音声認識結果を用いて、そのタスクにおいて期待される単語の出現傾向を学習する。
(2)上記(1)の学習結果を反映した上で、正解付きの音声言語資源、および大量に収集した放送番組の(正解なしの)音声認識結果から、正解または誤りと見込まれる部分の誤り傾向を学習する。
次に、音声認識装置1による具体的な処理手順について説明する。
図6は、音声認識装置1の全体的な処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まず、ステップS1において、ターゲット選定部80が、音声認識性能の改善対象となるタスクを選択する。具体的には、利用者からの操作に基づき、ターゲット選定部80が正解なし音声言語資源蓄積部40に蓄積されているデータの一部を選択し、ターゲットデータ記憶部100に書き込む。例えば、利用者がスポーツニュース番組の音声認識性能を改善したいと望めば、スポーツニュースの放送音声を選択する。
次に、ステップS2において、音声認識処理部10が、入力される放送音声の認識処理を行い、その音声と音声認識結果と番組情報とをあわせて正解なし音声に言語資源蓄積部に書き込む。
ターゲットデータ、およびステップS3で選択・抽出されたデータから得られるテキスト集合をD={D1,D2,D3,D4}とする。D1は、類似テキスト記憶部110に記憶されている言語資源のテキストデータである。D2は、正解付き認識結果記憶部120に記憶されている正解付き音声言語資源のテキストデータである。D3は、正解なし認識結果記憶部130に記憶されている正解なし音声言語資源のテキストデータ(認識結果)である。D4は、ターゲットデータ記憶部100に記憶されているターゲットデータに含まれるテキストデータである。このテキスト集合Dは、利用者によって選択されたタスクに関するテキストの集合である。このようなテキスト集合Dに対して、頻繁に使われている単語や言語表現等の出現傾向を統計的に学習することにより、これに類似した、即ち当該タスクに属する未知の音声が与えられたときの単語の出現傾向を予測することができる。
ルール例1:単語列wに、連続する単語2項組(u,v)が含まれる。
ルール例2:単語列wに、連続しない単語2項組(u,v)が含まれる。
ルール例3:単語列wに、uからvに係るような係り受け関係が含まれる(構文的なルール)。
誤り傾向学習部160は、ステップS3で選択・抽出された正解付き音声言語資源および正解なし音声言語資源を、それぞれ、正解付き認識結果記憶部120および正解なし認識結果記憶部130から読み出す。また、誤り傾向学習部160は、ターゲットデータをターゲットデータ記憶部100から読み出す。そして、これらの音声認識結果の集合をCとする。
この誤り傾向の学習では、下の式(7)による識別関数を用いる。
P(w;Θ)を用いて、単語列wの事後確率は、下の式(9)によって求められる。
正解付きの音声認識結果集合に対しては、既存の技術を用いて重み値集合Θを求めることができるが、正解なしの音声認識結果集合に対しては、正解単語列が存在しないので、既存の技術のみでΘを求めることはできない。
従って、本実施形態は、以下に述べる方法で、従来技術における目的関数を拡張することによって、正解なしの音声認識結果集合に対してもΘを求めることができるようにする。
これらの集合CposおよびCnegに対応して、それぞれ、素性関数の集合ΦposおよびΦnegを定める。但し、Φpos∩Φnegは空集合である。また、ΦposおよびΦnegの各要素に対応する重み値の集合が、それぞれ、Θpos(第1のパラメータ集合)およびΘneg(第2のパラメータ集合)である。
そして、正解単語列に対するベイズリスクの総和を最小化するように、つまり式(12)の関数値を最小化するように、学習処理を行い、重み値集合Θposを求める。
次に、音声認識装置1における主要各部のさらに詳細な処理方法について説明する。
図7は、ターゲット選定部80およびデータ抽出部90による、データ抽出の処理の手順を示すフローチャートである。この図で示す処理は、図6に示したステップS1およびS3に相当する部分である。以下、このフローチャートに沿って説明する。
まずステップS200において、ターゲット選定部80は、正解なし音声言語資源蓄積部40に記憶されている正解なし音声言語資源から、利用者が音声認識率を改善したいタスク(話題,番組)に関する音声をいくつか選択する。ターゲット選定部80は、選択されたデータをターゲットデータとしてターゲットデータ記憶部100に書き込む。
式(15)のl(エル)ijはfijの増減に応じて単調に増減する正値であり、式(16)のgiもまた各文書jについてのpijの増減に応じて単調に増減する正値である。つまり、式(14)のdijもまた、関係する出現頻度の値に応じて単調に変化する。
ここで,djを文書集合のj番目の列ベクトルとし、qをターゲットデータを表す行ベクトルとすると、それら両者間の類似度は、式(18)で表すコサイン尺度cos(dj,q)として求められる。
次に、ステップS220において、データ抽出部90は、ターゲットデータと、正解付き音声資源蓄積部50から読み出した正解付き音声資源に含まれる正解データとの間の類似度を計算する。類似度の計算方法は、ステップS210で述べたものと同様である。そして、ターゲットデータとの間の類似度が所定の閾値以上である正解付き音声資源を選択し、選択されたデータを、正解付き認識結果記憶部120に書き込む。
次に、ステップS230において、データ抽出部90は、ターゲットデータと、正解なし音声資源蓄積部40から読み出した正解なし音声資源に含まれる認識結果データとの間の類似度を計算する。類似度の計算方法は、ステップS210で述べたものと同様である。そして、ターゲットデータとの間の類似度が所定の閾値以上である正解なし音声資源を選択し、選択されたデータを、正解なし認識結果記憶部130に書き込む。
この出現傾向学習処理で用いる最大エントロピー法について、まず説明する。最大エントロピー法に基づく適応化では、既に説明したテキスト集合をD={D1,D2,D3,D4}に対して、下の式(19)で表される、適応モデルP(ハット)(w)による負の対数尤度が最小になるように、重み値を求める。
モデルP(ハット)は、下の式(21)で表すような対数線形モデルとなる。
次に、ステップS340において、出現傾向学習部150は、ステップS330で更新した素性重みΛを用いて、式(19)の目的関数の値を計算し、その値をL´meとする。
ステップS360の処理が終わると、出現傾向学習部150は、このフローチャート全体の処理を終了する。
図10は、誤り傾向学習部160内の正解なし誤り傾向学習部162による処理の手順を示すフローチャートである。
正解付き誤り傾向学習部161が用いる目的関数(第1の目的関数)は、前述のベイズリスクに基づくものであり、式(25)で表される。
式(25)の目的関数は、正解データと正解候補である音声認識結果データとの間のリスクと、正解データの事後確率とに基づく値を取る関数を用いている。またこの目的関数は、確率要素を加味したリスク(編集距離)の総量となるようにしている。そして、正解付き誤り傾向学習部161が行う学習処理は、このリスクの総量を最小化するような正解データの事後確率を得られることを指向している。
素性重み値の集合Θposに関する勾配を用いて目的関数の最小化を行うために、目的関数値L2 posをθi posに関して偏微分すると、下の式(26)を得る。
正解なし誤り傾向学習部162が用いる目的関数(第2の目的関数)は、式(31)で表される。
つまり、式(31)で表す目的関数としては、正解候補である複数の音声認識結果データの相互間のリスクと、正解候補である音声認識データの事後確率とに基づく値を取る関数を用いている。また、この目的関数は、確率要素を加味したリスクの総量となるようにしている。正解なし誤り傾向学習部161が行う学習処理は、このリスクの総量を最小化するような、正解候補の事後確率を得られることを指向している。
そして、重み値の更新式は、ステップ幅δを用いて、下の式(33)で表される。
そして、以上で得られた重み値Θ={Θpos,Θneg}を用いた対数線形モデルは、前述の式(8)で表される。
図9にも示すように、正解付き誤り傾向学習部161は、正解付き認識結果記憶部120から読み出した正解付き音声認識結果を用いるとともに、出現傾向学習部150より渡された出現傾向適応化モデルを読み出して、誤り傾向を学習する。
図9のステップS510において、正解付き誤り傾向学習部161は、素性関数Φposに対する重みΘposの要素を全てゼロに初期化する。
次に、ステップS520において、正解付き誤り傾向学習部161は、正解付き音声認識結果に基づき、式(28)を用いた計算を行なって、重み値θi pos(i=1,2,・・・)の値をそれぞれ更新する。
次に、ステップS530において、正解付き誤り傾向学習部161は、ステップS520で更新された重み値を用いて、式(25)で定義される目的関数値を計算する。
以上で、このフローチャート全体の処理を終了する。
図10のステップS560において、正解なし誤り傾向学習部162は、素性関数Φnegに対する重みΘnegの要素を全てゼロに初期化する。
次に、ステップS580において、正解なし誤り傾向学習部162は、ステップS570で更新された重み値を用いて、式(31)で定義される目的関数値を計算する。この計算の際にも、言語モデルP(w;Θpos)が用いられる。
次に、ステップS590において、正解なし誤り傾向学習部162は、式(34)が満たされるか否かの計算を行い、目的関数値が収束したか否かを判定する。式(34)を満たせば、つまり目的関数値が収束していれば、次のステップS600に進む。式(34)を満たさなければ、つまり目的関数値が収束していなければ素性重み値をさらに更新するために、ステップS570に戻る。
以上で、このフローチャート全体の処理を終了する。
そして、以上の学習部140全体の処理により、言語モデル記憶部190は、利用者によって選択されたタスクに特に適うよう更新される。
以上述べたように、本実施形態の音声認識装置1では、正解付き音声認識結果だけではなく、正解なし音声認識結果をも用いた学習処理を行なうため、安いコストで収集した言語資源を用いて、コスト効率よく、モデルの学習を行なうことができる。これにより、音声認識率を向上させることができる。
既に述べたように、言語モデルは、式(5)や式(8)や式(30)で表される、単語列の出現確率のデータである。
言語モデル記憶部190は、初期の言語モデルとして、各単語列wに対応付けてP0(w)の値を予め記憶しておく。
また、学習部140の処理によって更新された言語モデルを保持するための一形態として、言語モデル記憶部190は、学習の結果得られた素性関数の重み値のセットを記憶する。このとき、タスクを識別する情報と関連付けて、素性関数の重み値のセットを記憶するようにしてもよい。これにより、複数のタスクにそれぞれ対応する言語モデルを保持することができる。さらに、言語モデル記憶部190が、学習結果反映済みの出現確率の値を各単語列wに対応付けて記憶するようにしても良い。これは、式(8)におけるP(w;Θ)の値である。
以上述べた本実施形態について整理すると、この手法では、ウェブ上のテキスト等の言語資源や、音声認識結果などの正解のない音声言語資源から、単語の出現傾向を学習できる。また、この手法では、比較的少量の正解付きの音声言語資源を準備して、比較的多量の正解なし音声言語資源を用いて、単語の誤り傾向を学習できる。これにより、単語の出現傾向と誤り傾向の両者を反映した統計的言語モデルを用いることによって、従来技術に比べて音声認識の性能を向上させることができる。また、低コストの言語資源、音声言語資源を利用することにより、正解データを制作するコストを削減できるという著しい利点がある。
次に、第2の実施形態について、図面を参照しながら説明する。なお、第1の実施形態と共通の事項については説明を省略し、本実施形態特有の事項のみを以下に説明する。
図11は、本実施形態による言語モデル処理装置の機能構成を示すブロック図である。図示するように、本実施形態の言語モデル処理装置2は、言語資源取得部20と、資源蓄積部70と、ターゲット選定部80と、データ抽出部90と、ターゲットデータ記憶部100と、類似テキスト記憶部110と、正解付き認識結果記憶部120と、正解なし認識結果記憶部130と、学習部140と、モデル記憶部170とを含んで構成される。これら各部の機能は、第1の実施形態におけるそれらと同様である。なお、第1の実施形態における音声認識装置1と異なり、この言語モデル処理装置2は、音声認識処理部10を備えていない。
さらに、第1の実施形態および第2の実施形態の変形例について説明する。
一つの態様として、言語資源取得部20を含まない形で音声認識装置1または言語モデル処理装置2を構成しても良い。このとき、言語資源蓄積部60には予めテキストを蓄積しておき、そのテキストを用いた処理を行なうようにする。
また、さらなる態様として、資源蓄積部70の一部または全部を含まない形で音声認識装置1または言語モデル処理装置2を構成しても良い。このとき、資源蓄積部70に蓄積されない資源(テキストのみによる言語資源、正解付き音声言語資源、正解なし音声言語資源)については、予め、類似テキスト記憶部110、正解付き認識結果記憶部120、正解なし認識結果記憶部130に適切な形で記憶させておくようにする。
また、さらなる態様として、誤り傾向学習部160が、正解なし誤り傾向学習部162を有しているものの、正解付き誤り傾向学習部161を有していない構成としても良い。このとき、正解なし誤り傾向学習部162は、誤り傾向学習部160の外部から入力されたまたは読み込んだ言語モデル(即ち、出現傾向学習部150が存在する場合には出現傾向学習部150から出力される出現傾向適応化言語モデル。出現傾向学習部150が存在しない場合には言語モデル記憶部190から読み出される初期の言語モデル。)を基に、正解なし認識結果を用いて前述の学習処理を行い、この学習結果により言語モデルを更新する。この場合は、正解付きの音声言語資源を必要とせずに、正解なし認識結果のみに基づいた言語モデルの改善が実現される。
上記実施形態では、放送音声を音声認識処理の対象としたが、放送音声以外の音声を対象として音声認識装置または言語モデル処理装置を構成しても良い。この場合は、放送番組の単位の変わりに、適宜定めた単位で音声言語資源を蓄積し、処理を行なう。
また、上記実施形態では、番組単位の放送音声を一文書として扱ったが、適宜これと異なる単位で放送音声を一文書として扱うようにしても良い。例えば、ニュース番組の記事毎に放送音声を一文書として扱ったり、番組内のコーナー(例えば、一般ニュース、スポーツニュース、天気予報など)毎に放送音声を一文書として扱ったりするようにしても良い。
2 言語モデル処理装置
10 音声認識処理部
20 言語資源取得部
40 正解なし音声言語資源蓄積部
50 正解付き音声言語資源蓄積部
60 言語資源蓄積部
70 資源蓄積部
80 ターゲット選定部
90 データ抽出部
100 ターゲットデータ記憶部(テキスト記憶部)
110 類似テキスト記憶部(テキスト記憶部)
120 正解付き認識結果記憶部(テキスト記憶部)
130 正解なし認識結果記憶部(テキスト記憶部)
140 学習部
150 出現傾向学習部
160 誤り傾向学習部
161 正解付き誤り傾向学習部
162 正解なし誤り傾向学習部
170 モデル記憶部
180 音響モデル記憶部
190 言語モデル記憶部
Claims (6)
- 正解データのない音声認識結果データを記憶する正解なし認識結果記憶部と、
言語表現の出現確率を表すデータである言語モデルを記憶する言語モデル記憶部と、
与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって前記言語モデルを更新して、更新された前記言語モデルを前記言語モデル記憶部に書き込む正解なし誤り傾向学習部と、を具備する言語モデル処理装置であって、
音声認識結果データと該音声認識結果データに対応する正解データとを記憶する正解付き認識結果記憶部と、
予め与えられた前記言語モデルを入力とし、入力された前記言語モデルと、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データとに基づいて、音声認識の誤り傾向の学習処理を行い、この誤り傾向の学習結果によって与えられた前記言語モデルを更新して出力する正解付き誤り傾向学習部と、をさらに具備し、
前記正解なし誤り傾向学習部は、前記正解付き誤り傾向学習部が更新して出力した前記言語モデルを入力とする、
ことを特徴とする言語モデル処理装置。 - 前記正解付き誤り傾向学習部は、前記正解付き認識結果記憶部から読み出した前記音声認識結果データおよび前記正解データにそれぞれ含まれる言語表現と所定の第1のパラメータ集合とを基に計算される第1の目的関数を用いて前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第1のパラメータ集合の値に基づいて、前記言語モデルの更新および出力を行い、
前記正解なし誤り傾向学習部は、前記正解なし認識結果記憶部から読み出した前記正解のない音声認識結果データに基づき、前記正解のない音声認識結果データに含まれる言語表現と所定の第2のパラメータ集合とを基に計算される第2の目的関数を用いて、前記誤り傾向の学習処理を行い、この誤り傾向の学習結果によって得られた前記第2のパラメータ集合の値に基づいて、前記言語モデルを更新し、更新された前記言語モデルと前記言語モデル記憶部に書き込む、
ことを特徴とする請求項1に記載の言語モデル処理装置。 - テキストを記憶するテキスト記憶部と、
予め与えられる前記言語モデルと、前記テキスト記憶部から読み出した前記テキストとを用いて、言語表現の出現傾向の学習を行い、この出現傾向の学習結果によって前記言語モデルを更新して出力する出現傾向学習部と、
をさらに具備し、
前記正解付き誤り傾向学習部は、前記出現傾向学習部が出力した前記言語モデルを前記入力された言語モデルとして使用する、
ことを特徴とする請求項1または2のいずれか一項に記載の言語モデル処理装置。 - 音声認識結果データと該音声認識結果データに対応する正解データとを蓄積しておく正解付き音声言語資源蓄積部と、
正解データのない音声認識結果データを蓄積しておく正解なし音声言語資源蓄積部と、
収集されたテキストを蓄積しておく言語資源蓄積部と、
所定のタスクに属する言語情報を記憶するターゲットデータ記憶部と、
前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解付き音声言語資源蓄積部から読み出した前記正解データとの間で計算した言語表現に関する類似度に基づき、前記正解付き音声言語資源蓄積部から選択した前記音声認識結果データおよび対応する前記正解データを、前記正解付き認識結果記憶部に書き込み、前記ターゲットデータ記憶部から読み出した前記言語情報と前記正解なし音声言語資源蓄積部から読み出した前記正解データのない音声認識結果データとの間で計算した言語表現に関する類似度に基づき、前記正解なし音声言語資源蓄積部から選択した前記正解データのない音声認識結果データを前記正解なし認識結果記憶部に書き込み、前記ターゲットデータ記憶部から読み出した前記言語情報と前記言語資源蓄積部から読み出した前記テキストとの間で計算した言語表現に関する類似度に基づき、前記言語資源蓄積部から選択した前記テキストを前記テキスト記憶部に書き込むデータ抽出部と、
を具備することを特徴とする請求項3に記載の言語モデル処理装置。 - 請求項1から4までのいずれか一項に記載の言語モデル処理装置を具備し、
言語表現と音響的特徴量に対する言語表現の確率を表すデータである音響モデルを記憶する音響モデル記憶部と、
前記言語モデル処理装置の前記言語モデル記憶部から読み出す前記言語モデルと、前記音響モデル記憶部から読み出す前記音響モデルとに基づき、入力される音声の音声認識処理を行い、結果として得られる正解のない音声認識結果データを前記言語モデル処理装置の前記正解なし音声言語資源蓄積部に書き込む音声認識処理部と、
をさらに具備することを特徴とする音声認識装置。 - コンピュータを、請求項1から4までのいずれか一項に記載の言語モデル処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010197869A JP5437204B2 (ja) | 2010-09-03 | 2010-09-03 | 言語モデル処理装置および音声認識装置、ならびにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010197869A JP5437204B2 (ja) | 2010-09-03 | 2010-09-03 | 言語モデル処理装置および音声認識装置、ならびにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012053403A JP2012053403A (ja) | 2012-03-15 |
JP5437204B2 true JP5437204B2 (ja) | 2014-03-12 |
Family
ID=45906743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010197869A Active JP5437204B2 (ja) | 2010-09-03 | 2010-09-03 | 言語モデル処理装置および音声認識装置、ならびにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5437204B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5812936B2 (ja) * | 2012-05-24 | 2015-11-17 | 日本電信電話株式会社 | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム |
JP6086714B2 (ja) * | 2012-12-14 | 2017-03-01 | 日本放送協会 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
JP6300394B2 (ja) * | 2013-05-15 | 2018-03-28 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
JP2016095399A (ja) * | 2014-11-14 | 2016-05-26 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
JP6389795B2 (ja) * | 2015-04-24 | 2018-09-12 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
CN114078475B (zh) * | 2021-11-08 | 2023-07-25 | 北京百度网讯科技有限公司 | 语音识别和更新方法、装置、设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4852448B2 (ja) * | 2007-02-28 | 2012-01-11 | 日本放送協会 | 誤り傾向学習音声認識装置及びコンピュータプログラム |
JP5334178B2 (ja) * | 2009-01-21 | 2013-11-06 | クラリオン株式会社 | 音声認識装置およびデータ更新方法 |
-
2010
- 2010-09-03 JP JP2010197869A patent/JP5437204B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012053403A (ja) | 2012-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US10410627B2 (en) | Automatic language model update | |
JP4852448B2 (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
US8401847B2 (en) | Speech recognition system and program therefor | |
JP5437204B2 (ja) | 言語モデル処理装置および音声認識装置、ならびにプログラム | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
AU2016383052A1 (en) | Systems and methods for suggesting emoji | |
JP6047364B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
CN111739514B (zh) | 一种语音识别方法、装置、设备及介质 | |
CN102880611B (zh) | 一种语言建模方法及语言建模装置 | |
JP7155758B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2002091477A (ja) | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN101996232A (zh) | 信息处理装置、用于处理信息的方法及程序 | |
JPWO2012105231A1 (ja) | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム | |
JP4755478B2 (ja) | 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体 | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5265445B2 (ja) | 話題境界検出装置及びコンピュータプログラム | |
JP5914054B2 (ja) | 言語モデル作成装置、音声認識装置、およびそのプログラム | |
JP6366166B2 (ja) | 音声認識装置、及びプログラム | |
JP5723711B2 (ja) | 音声認識装置および音声認識プログラム | |
JP6300394B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP4340024B2 (ja) | 統計的言語モデル生成装置および統計的言語モデル生成プログラム | |
JP6086714B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
Dinarelli et al. | Concept segmentation and labeling for conversational speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5437204 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |