JP5088701B2 - 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム - Google Patents

言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム Download PDF

Info

Publication number
JP5088701B2
JP5088701B2 JP2008520518A JP2008520518A JP5088701B2 JP 5088701 B2 JP5088701 B2 JP 5088701B2 JP 2008520518 A JP2008520518 A JP 2008520518A JP 2008520518 A JP2008520518 A JP 2008520518A JP 5088701 B2 JP5088701 B2 JP 5088701B2
Authority
JP
Japan
Prior art keywords
language model
learning
word string
reliability
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008520518A
Other languages
English (en)
Other versions
JPWO2007142102A1 (ja
Inventor
正 江森
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008520518A priority Critical patent/JP5088701B2/ja
Publication of JPWO2007142102A1 publication Critical patent/JPWO2007142102A1/ja
Application granted granted Critical
Publication of JP5088701B2 publication Critical patent/JP5088701B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Description

本発明は音声認識における言語モデル学習システム、言語モデル学習方法および言語モデル学習用プログラムに関し、識別的な基準を用いて言語モデルの学習を行うため、従来の方法よりも高精度な言語モデルを構築でき、これを音声認識システムに用いることで高精度な音声認識システムを構築できることができる、言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラムに関する。
従来の技術を用いた言語モデルの学習方法を述べる。
従来の言語モデルの学習方法においては、たとえば、非特許文献1の57ページから62ページに記載されているように、言語モデルをNグラムモデル(N-gram model)で表している。Nグラムモデル(N-gram model)は、N個の単語からなる単語列の出現確率を、履歴となる(N−1)個の単語の単語列の次にN個目の単語が出現する確率で近似したものである。ここで、単語列が、単数および複数の単語または単語以下の文字列で構成されているとすると、Nグラムモデル(N-gram model)は、大容量のテキストデータである学習コーパス(corpus)があれば、最尤推定によって算出できる。
このような従来技術で構成される言語モデル学習手段システムの構成を図6に示す。図6によると従来の言語モデル学習システムは、テキストデータ記憶手段107と単語列数カウント手段105と言語モデルパラメータ更新手段301と言語モデル記憶手段110で構成されている。
単語列数カウント手段105は、テキストデータ記憶手段107に記憶された学習コーパス(corpus)であるテキストデータからN個の単語からなる単語列を全て抽出し、その単語列の種類ごとに出現回数を計算する。例えば、「of」と「the」との2単語が連鎖した単語列「of the」に対しテキストデータから「of the」が何回出現したのかを計算する。
言語モデルパラメータ更新手段301は、対象となる単語列の出現回数を全単語列数で割りその単語列の出現確率を計算する。すなわち、単語列「of the」の出現確率は、単語列「of the」の出現回数を2単語連鎖の総数で割ったものに相当する。音声認識の場合、デコードのプロセスで条件付確率を用いる。例えば、「of」の後に「the」の出現する確率をP(the|of)とし、単語列「of the」が出現する同時確率であるP(of,the)とすると、ベイズの定理を用いてP(the|of)=P(of,the)/P(of)と計算することが出来る。ここで、P(of)は、単語「of」が出現する確率を表している。
「言語と計算4:確率的言語モデル」、東京大学出版会、1999年、北 研二
従来の言語モデル学習システムの第1の問題点は、従来の言語モデル学習方法である最尤推定が、音声認識の評価尺度として使われている単語誤り率等が考慮されていないため、この従来の方法で学習を行った言語モデルに基づいて音声認識を実行しても信頼性の高い認識結果が得られない可能性があるという点である。
第2の問題点は、従来の言語モデルの学習方法である最尤学習法が、言語モデルの学習時に音響モデルの影響を考慮していないため、音響モデルと言語モデルとを双方の影響を鑑みながら同時又は逐次的に最適化することができない点である。
本発明の目的は、音声認識の評価尺度として用いられる単語誤り率などに関係がある識別的な基準で言語モデルを学習させることにある。また、本発明の他の目的は、音響モデル及び言語モデルの学習を統一された識別的な基準で実行し、言語モデルの学習時に音響モデルの認識性能を考慮し音響モデルの学習時に言語モデルの性能を考慮して音響モデル及び言語モデルの学習を行うことにより、高精度な音声認識を実現するための音響モデル及び言語モデルを構築することにある。
本発明の言語モデル学習システムは、音声認識用の言語モデルを記憶する言語モデル記憶手段と、予め記憶された学習用音声データを言語モデル記憶手段に記憶された言語モデルを用いて音声認識し認識結果を出力する認識手段と、認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算手段と、言語モデル記憶手段に記憶された言語モデルの更新後のパラメータが信頼度を最大にするようにパラメータを更新する前記言語モデルパラメータ更新手段とを備えたことを特徴とする。
このような言語モデル学習システムによれば、言語パラメータ更新手段が、音声認識の評価に用いられる基準に関係のある識別的な基準にしたがって言語モデルのパラメータを更新することで、言語モデルの学習を実行するので、信頼性の高い言語モデルを構築することができ、高精度な音声認識を実現することができる。
上記言語モデル学習システムにおいて、信頼度計算手段により算出される各単語列の信頼度として、認識結果から算出される各単語列の事後確率、各単語列に対応する音声信号の信号対雑音比、各単語列の継続時間と期待継続時間の比を組み合わせた値を用いるようにしても同様に信頼性の高い言語モデルを構築することができる。
上記言語モデル学習システムにおいて、学習用音声データに対応する学習用テキストデータ内の全単語列数と各単語列の出現回数とを計算する単語列数カウント手段を備え、言語モデルパラメータ更新手段は、この単語列数カウント手段により算出された全単語列数と各単語列の出現回数とから各単語の出現頻度を計算し、その各単語列の出現頻度と信頼度計算手段により算出された各単語列の信頼度とに基づいて言語モデル記憶手段に記憶された言語モデルを更新してもよい。
また、言語モデルパラメータ更新手段は、信頼度計算手段により算出された信頼度が最大値でない場合に、これに対応する単語列の出現頻度を大きい値に補正して、その補正された出現頻度に基づいて言語モデル記憶手段に記憶された言語モデルのパラメータを更新してもよい。さらに、学習用テキストデータ内の単語列ωの出現回数をN、学習用テキストデータに含まれるωと同じ単語数の単語列の総数をR、認識結果において観測時系列Oが観測された場合の単語列ωの信頼度をp(ω|O)とし、定数をD、更新前の言語モデルの値をpとすると、[数1]式にしたがって単語列ωに対応する言語モデルのパラメータPを算出し当該パラメータを算出値に更新してもよい。
Figure 0005088701
上記言語モデル学習システムにおいて、学習用音声データと初期音響モデルと言語モデルを用いて音響モデルを更新する音響モデル学習手段をさらに備えるようにしても良い。このようにすれば、音響モデル学習手段と言語モデルパラメータ更新手段は、それぞれ音響モデルと言語モデルを統一された識別的な基準で学習する。そのため、音響モデルと言語モデルの両方を同時に最適化することができる。また、音響モデル学習手段は、相互情報量基準を用いて前記音響モデルの学習を行うようにしても良い。
本発明の言語モデル学習方法は、予め記憶された言語モデルを用いて学習用音声データを音声認識し認識結果を出力する認識工程と、この認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算工程と、この各単語列の信頼度に基づいて言語モデルの更新後のパラメータが信頼度を最大にするようにパラメータを更新する言語モデルパラメータ更新工程とを含むことを特徴とする
上記言語モデル学習方法によれば、音声認識の評価に用いられる基準に関係のある識別的な基準にしたがって言語モデルのパラメータの更新を行うことで、上述した言語モデル学習システムと同様に、信頼性の高い言語モデルを構築することができ、高精度な音声認識を実現することができる。
本発明の言語モデル学習プログラムは、予め記憶された言語モデルを用いて学習用音声データを音声認識し認識結果を出力する認識処理と、この認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算処理と、この信頼度計算処理で算出された各単語列の信頼度に基づいて、言語モデルの更新後のパラメータが信頼度を最大にするようにパラメータを更新する言語モデルパラメータ更新処理とをコンピュータに実行させることを特徴とする
上記言語モデル学習プログラムによれば、音声認識の評価に用いられる基準に関係のある識別的な基準にしたがって言語モデルパラメータ更新処理をコンピュータに実行させることで、上述した言語モデル学習システムと同様に、信頼性の高い言語モデルを構築することができ、高精度な音声認識を実現することができる。
本発明によれば、音声認識の認識結果における各単語列の信頼度、すなわち音声認識の評価に用いられる基準に関係のある識別的な基準に従って言語モデルのパラメータを更新し、言語モデルの学習を実行するので、高精度な音声認識を実現できる信頼性の高い言語モデルを構築することができる。
以下、図を参照しながら本発明の一実施例である言語モデル学習システム10の構成と動作について説明する。
図1は、言語モデル学習システム10の構成を示す機能ブロック図である。言語モデル学習システム10は、言語モデル学習手段100とテキストデータ記憶手段107と音響モデル記憶手段109と言語モデル記憶手段110と学習終了判断手段106とを含んでいる。
言語モデル学習手段100は、認識手段101と認識結果記憶手段102と信頼度計算手段103と音響モデル記憶手段109と言語モデルパラメータ更新手段104と単語列数カウント手段105とを含んでいる。
テキストデータ記憶手段107は、言語モデルの学習のための学習用テキストデータを記憶しており、音声データ記憶部108は、言語モデルの学習のための学習用音声データを記憶している。このテキストデータ記憶手段107に記憶されたテキストデータは、音声データ記憶部108に記憶された音声データを書き起こしたものか、あるいは逆に、音声データがテキストデータを音読したものである。
音声データ記憶部108に記憶された学習用音声データは、例えば、アナログの音声信号をサンプリング周波数を44.1kHz、1サンプルあたり16ビットにA/D変換したデータである。
音響モデル記憶手段109は、音響モデルを記憶している。この音響モデルは、音声の音響的特長を音素ごとに表現した確率モデルであり、例えば、ケンブリッジ大学で発行されている隠れマルコフモデル(HMM:Hidden Markov Model)のツールキットのマニュアルである「HTKBook for HTK Version.3.3 ヤング等著(以下、「参考文献2」と称する)」の35ページから40ページに記載されているHMMである。
言語モデル記憶部110は、言語モデルを記憶している。この言語モデルは、単語が出現する順番を考慮した同時出現確率である。すなわち、単語と単語との言語的なつながり易さを数値化したものである。例えば、N個の単語からなる単語列の言語モデルは、P(w[1],w[2],・・・,w[N])で表される。これは、単語w[1]の次に単語w[2]と続き単語w[N]まで連なる単語列の出現確率を示す。これをベイズのルールで展開すると、P(w[1],w[2],・・・,w[N])=P(w[1])P(w[2]|w[1])・・P(w[N]|w[1],w[2]・・w[N−1])となる。ただし、Nが大きくなるとP(w[N]|w[1],w[2]・・w[N−1])の履歴となる単語列w[1],w[2]・・w[N−1]の組み合わせが莫大になり学習できないため、通常の実装では履歴単語の数は3〜4とされる。このようなモデルが、Nグラムモデル(N-gram model)である。本実施例では、言語モデルにNグラムモデル(N-gram model)を用いている。
認識手段101は、音響モデル記憶手段109に記憶された音響モデルと言語モデル記憶手段110に記憶された言語モデルとを用いて、音声データ記憶手段108に記憶されている学習用音声データを音声認識し認識結果を出力する。
認識手段101で実行される音声認識処理は、大きく分けると音響分析と探索に分けられ、音響分析は、音声データの特徴量を計算する処理であり、参考文献1の55ページから66ページに記載されているように、音声データに対しプリエンファシス、窓関数、FFT(Fast Fourier Transform)、フィルターバンク、対数化、コサイン変換の順に計算を行うことでメルケプストラムやパワー、それらの時間変化量を計算する。探索は、音声データの特徴量と音響モデルとを用いて単語の音響尤度を計算し、音響尤度の高い単語を認識結果として出力する。また、探索において音響尤度のほかに言語モデルも考慮したスコア付けを行う場合も考えられる。
認識結果の出力形態は、図3に表されるような単語グラフ形式である。図3(a)における単語グラフは、参考文献1の333ページから337ページに記載されているSLF(HTK Standard Lattice Format)と同様に、円で表されたノード(I1〜I5)と棒線で表されたアークとから成り立つ。単語はアークに付随しており、図3(a)においてa〜gで示している。実際に認識手段101から出力される単語グラフは、図3(b)のようなテキストで出力され、ノードの時刻と、それぞれのアークの始終端ノードと単語、音響尤度とが出力される。
認識結果記憶手段102は、認識手段101から出力された認識結果である単語グラフを記憶する。信頼度計算手段103は、音声の観測時系列Oに対し単語列ωが認識できたかどうかを表す値である信頼度を認識結果を基に計算する。信頼度は、音響モデルと言語モデルとがともに高精度に構築できた場合、正解単語列に対して1に近づき、不正解単語に対して0に近づく。
単語列カウント手段105は、テキストデータ記憶手段107に記憶されているテキストデータから単語列を抽出し、単語列の種類ごとにその出現回数を計算する。例えば、「of」と「the」とが連鎖した単語列「of the」が、学習用テキストデータ内に何回出現したのかを計算する。
言語モデルパラメータ更新手段104は、[数1]式を用いて言語モデルのパラメータを更新する。
Figure 0005088701
[数1]式において、Nは学習用テキストデータ内に単語列ωが出現した数を示し、Rは学習用テキストデータに含まれるωと同じ単語数の単語列の総数を示し、Dは定数であり、pは更新前の言語モデルの値であり、p(ω|O)は認識結果において観測時系列Oが観測された場合の単語列ωの信頼度を示している。
[数1]式のp(ω|O)には言語モデルパラメータの更新における寄与度を表すパラメータを指定することができ、その場合は、p(ω|O)の前にパラメータをかけるか、べき乗のパラメータとすることができる。また、[数1]式の定数Dは、推定値の収束具合によって実験的に値を決めることができる。
ここで、この信頼度を統計的な観点で計算したものが単語事後確率である。単語事後確率は、「Frank Wessel,Ralf Schluter,Kalus Macherey,ans Herman Ney,’’Confidence Measures for Large Vocabulary Continuos Speech Recognition,’’IEEE Trans. on Speech and Audio Processing. Vol 9, No.3,March 2001(以下、「参考文献2」と称する)」に記載されている方法を用いて計算することができる。
ここで、参考文献2に従い、図3に示す認識結果に基づく単語cの事後確率の計算方法を説明する。認識結果に基づく単語cの事後確率を計算するためには、単語cの前向き確率αと後ろ向き確率βとを求める必要があり、言語モデルを3単語連鎖確率(tri-gram model)とした場合、前向き確率αは[数2]式で表される。
Figure 0005088701
ここで、oは単語cの特徴量であり、全区間の特徴量を表す場合はOとする。P(o|c)は単語cの音響尤度、P(c|az)は単語z→a→cの順で構成される単語列の出現確率を表している。[数2]式に示すように、単語cの前向き確率αは、単語aの始端につながる全ての単語の前向き確率と言語確率との積を全て足し合わせたものになっている。単語c以外の単語の前向き確率を算出する場合、算出対象の単語より前の時刻に出現した単語の前向き確率を求めておくことで、対象の前向き確率を算出することができる。
後ろ向き確率βは[数3]式で表される。
Figure 0005088701
[数3]式に示すように、単語cの後ろ向き確率βは、[数2]式で示す前向き確率αに比べて、cとeとz’等の関係が前後逆になっている。
認識結果における単語cの事後確率P(c|o)は、[数2]及び[数3]を用いて[数4]で表される。
Figure 0005088701
ここで、Σのzは、単語aの始端に接続された全単語の総和、z’は単語eの終端に接続された全単語の総和を表す。P(O)は、全ての観測時系列Oの音響尤度であり[数5]式で表わされる。
Figure 0005088701
ここで、事後確率の計算方法の定義を見てみると、事後確率は単語ごとに求められることがわかる。認識結果における単語cの事後確率P(c|o)は、単語cが同じ区間の単語dまたはh等(図3参照)と比べて観測時系列Oとどの程度マッチしたかを示す値で、0〜1の値に正規化されている。単語cの事後確率は、単語cが2つの単語で構成されていても計算可能である。
[数2]、[数3]、[数4]においては、音響モデル及び言語モデルの寄与度を表すパラメータを設定することが可能で、そのときは、P(o|c)やP(c|αz)のようにべき乗のパラメータを設定する。
p(ω|O)を認識結果に基づく単語列ωの事後確率とした場合、[数1]は学習後の音声認識に対して単語列の事後確率を最大にするパラメータを推定する基準から得られたものであり、この基準は音響モデルの識別的な推定方法にも使われている。音響モデルの学習については第2実施例にて説明する。
[数1]式を用いて言語モデルのパラメータを更新する場合、p(ω|O)は、観測時系列Oに対する単語列ωの信頼度であり、[数1]式は、学習用テキストデータにおける単語列ωの出現頻度から認識結果における信頼度の総和を引く定式になっている。これは、総合的に信頼度が高い単語列の場合、出現頻度から引かれる数が大きくなるため、更新後の言語モデルのパラメータは小さくなる。また、信頼度が低い単語列の場合、出現頻度から引かれる数が小さくなるため、言語モデルのパラメータは大きくなる。ここで、「信頼度が高い」とは信頼度が1の場合であり、「信頼度が低い」とは信頼度が1以外の場合である。
信頼度に事後確率を用いる場合、言語モデルのパラメータ更新は、認識手段101の認識性能に依存することになる。
また、本実施例においては、信頼度に事後確率を用いて言語モデルのパラメータを更新したが、前記の性質を満たす尺度であれば、信頼度にどのようなものを用いてもよく、例えば、単語列ごとの音声信号の信号雑音比(SNR:signal-to-noise ratio)や、単語列の継続時間と期待継続時間との比などを信頼度としてもよい。
また、対象単語列の音声信号の信号対雑音比、対象単語列の継続時間と期待継続時間との比、認識結果に基づく対象単語列の事後確率とを組み合わせて信頼度として用いても良い。例えば、[数1]式の右辺の分母と分子のp(ω|O)をそれぞれ次の[数6]式により算出されるp’(ω|O)に置き換えてもよい。
Figure 0005088701
学習終了判断手段106は、言語モデルの更新後、全音声データの事後確率を計算し、その和SUM[t]をとる。その後、SUM[t]から言語モデルを更新する前の単語事後確率の総和SUM[t−1]を差し引いた値をSUM[t]で割ったものを学習進捗係数Tとする。学習進捗係数Tが、予め定められた閾値を超えている場合は、言語モデルの学習をやり直し、閾値を下回る場合は言語モデルの学習を終了する。
図2は、言語モデル学習システム10の動作を示すフローチャートである。
Step1にて、認識手段101が音響モデル記憶手段109に記憶された音響モデルと言語モデル記憶手段110に記憶された言語モデルとを用いて、音声データ記憶手段108に記憶されている学習用音声データを音声認識し認識結果を認識結果記憶手段102へ出力する。ここで用いられる音響モデルや言語モデルは前述の形式であれば、そのパラメータ値がどのような学習方法で学習されたものでもよい、さらに全くの乱数でも良い。また、出力される認識結果は、単語グラフとする。
Step2にて、信頼度計算手段103が、認識結果記憶手段102に記憶された認識結果と言語モデル記憶手段110に記憶された言語モデルとを用いて各単語列の事後確率を計算する。この計算する動作は、認識手段101による認識結果全てに対して行われる。
Step3にて、単語列数カウント手段105が、テキストデータ記憶手段に記憶された学習用テキストデータから対象となる単語列の数をカウントする。
Step4にて、言語モデルパラメータ更新手段104が、信頼度計算手段103により算出された単語列の事後確率と、単語列数カウント手段105によりカウントされた数値とを[数1]式に代入して言語モデルの確率値を算出し更新する。ここで更新された言語モデルは、それを用いて音声認識を行うことが可能なものである。
Step5にて、学習終了判断手段106が、言語モデルパラメータ更新手段104により更新された言語モデルのパラメータを用いて学習データ全てに対する単語事後確率を計算し、それを元に学習進捗係数Tが閾値を下回っている場合は、言語モデル学習システム10の動作を終了し、学習進捗係数Tが閾値を上回っている場合はStep1に戻る。
このような言語モデル学習システム10によれば、言語モデルパラメータ更新手段104が、認識結果における単語列の信頼度、すなわち音声認識の評価に用いられる基準に関係のある識別的な基準により言語モデルのパラメータの更新を行うことにより、言語モデルの学習を実行する。そのため、高精度な音声認識を実現するための言語モデルを構築することができる。
次に、本発明の第2の実施例である言語モデル学習システム20について図面を参照して詳細に説明する。ここで、言語モデル学習システム20は、多くの構成が図1の言語モデル学習システム10と共通するので、共通する構成要素には図1と同一の符号を付して説明を省略する。
図4は、言語モデル学習システム20の構成を示す機能ブロック図である。言語モデル学習システム20は、図1に開示した言語モデル学習システム10の構成に加えて、音響モデル学習手段200を含んでいる。音響モデル学習手段200は、音声データ記憶手段108に記憶された学習用音声データと、音響モデル記憶手段109に記憶された音響モデルと、言語モデル記憶手段110に記憶された言語モデルとを用いてこの音響モデルの学習を行う。
音響モデル学習手段200が実行する音響モデルの学習方法としては、例えば、スピーチコミュニケーションの1997年のボリューム22の303ページから314ページに記載されている「大語彙認識のMMIE学習 V. Veltchev, J.J. Odell, P.C. Woodland, S.J. Yang, “MMIE training of large vocabulary recognition systems,”Speech Communication vol.22, 303-314, 1997(以下、これを「参考文献3」と称する)」に記載されているような、相互情報量基準による推定を用いる。相互情報量基準による音響モデルの学習について、参考文献3の308ページから309ページを基に説明する。
音響モデル学習手段200は、まず、音響モデルと言語モデルとを用いて音声データ記憶手段108に記憶された学習用音声データを音声認識する。この認識結果は、単語グラフで出力され、認識結果に基づく各単語列の事後確率を計算する。単語内の音素や状態のセグメンテーションを計算する必要があるが、その計算をビタービアルゴリズムで計算する。音素セグメンテーションの計算後、状態ごとの十分統計量を計算する。十分統計量の計算時には音素や状態ごとの事後確率を計算する必要があるが、参考文献3では単語の事後確率を用いている。十分統計量の計算は、認識結果に対してだけでなく、正解の文字列に対しても同様に実行される。認識結果と認識結果に対する十分統計量を用いて、参考文献3の305ページに記載されている式(4)と式(5)と306ページに記載されている式(8)に適用して音響モデルのパラメータを更新する。
図5は、言語モデル学習システム20の動作を示すフローチャートである。
Step101では、音響モデル学習手段200が、音響モデル記憶手段109に記憶された音響モデルと言語モデル記憶手段110に記憶された言語モデルと音声データ記憶手段108に記憶されている音声データとを用いて音響モデルの学習を実行する。音響モデルの学習は前述の相互情報量を用いた学習のほかに参考文献2の6ページから8ページに記載されているBaum=Welchアルゴリズムによる最尤基準による方法も考えられる。音響モデルの学習後、音響モデル記憶手段109に記憶された音響モデルを更新し、Step102の処理へ移る。
Step102では、Step101で更新された音響モデルと言語モデル記憶手段110に記憶された言語モデルと、音声データ記憶手段108に記憶された学習用音声データと、テキストデータ記憶手段107に記憶された学習用テキストデータとを用いて、実施例1と同様に、言語モデルのパラメータの更新を行う。
Step103では、学習終了判断手段106が、実施例1と同様に、言語モデルパラメータ更新後の認識結果に基づく各単語列の事後確率の総和SUM[t]から更新前の総和SUM[t−1]を差し引いた値を、SUM[t]で割ったものを学習進捗係数Tpとし、学習進捗係数Tpが予め定められた閾値を超えている場合はStep101から学習をやり直し、閾値を下回る場合は言語モデルの学習を終了する。
ここで、第1の実施例のSUM[t]と第2の実施例のSUM[t]との違いは、第1の実施例では音響モデルを更新していないが、第2の実施例では音響モデルを更新している点である。また、参考文献3の305ページに記載されている式(4)と式(5)と306ページに記載されている式(8)は、導出元になる式が上述した[数1]式と同じである。
このように本第2実施例の言語モデル学習システム20は、音響モデル学習手段200を含み、音響モデルと言語モデルとを統一された識別的な基準で学習する。そのため、音響モデルと言語モデルの両方を同時に最適化することができ、高精度な音声認識を実現するための音響モデル及び言語モデルを構築することができる。
本発明の第1の実施例である言語モデル学習システムの構成を示すブロック図である。 図1に開示した言語モデル学習システムの動作を示す流れ図である。 図1に開示した認識手段から出力される認識結果である単語グラフの一例を説明するための図である。 本発明の第2の実施例である言語モデル学習システムの構成を示すプロック図である。 図4に開示した言語モデル学習システムの動作を示す流れ図である。 従来の技術で構成される言語モデル学習システムを示すブロック図である。
符号の説明
10、20 言語モデル学習システム
100 言語モデル学習手段
101 認識手段
102 認識結果記憶手段
103 信頼度計算手段
104 言語モデルパラメータ更新手段
105 単語列数カウント手段
106 学習終了判断手段
107 テキストデータ記憶手段
108 音声データ記憶手段
109 音響モデル記憶手段
110 言語モデル記憶手段
200 音響モデル学習手段

Claims (21)

  1. 音声認識用の言語モデルを記憶する言語モデル記憶手段と、予め記憶された学習用音声データを前記言語モデル記憶手段に記憶された言語モデルを用いて音声認識し認識結果を出力する認識手段と、前記認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算手段と、前記信頼度計算手段により算出された各単語列の信頼度に基づいて、前記言語モデル記憶手段に記憶された言語モデルの更新後のパラメータが前記信頼度を最大にするように前記パラメータを更新する前記言語モデルパラメータ更新手段とを備えたことを特徴とする言語モデル学習システム。
  2. 前記信頼度計算手段は、前記認識結果に基づく各単語列の事後確率と、その単語列の音声信号の信号対雑音比と、その単語列の継続時間と期待継続時間との比とを組み合わせた値を、この単語列の信頼度として計算することを特徴とする請求項に記載の言語モデル学習システム。
  3. 前記学習用音声データに対応する学習用テキストデータ内の全単語列数と各単語列の出現回数とを計算する単語列数カウント手段を備え、前記言語モデルパラメータ更新手段が、前記単語列数カウント手段により算出された全単語列数と各単語列の出現回数とから各単語の出現頻度を計算し、その各単語列の出現頻度と前記信頼度計算手段により算出された各単語列の信頼度とに基づいて前記言語モデル記憶手段に記憶された言語モデルのパラメータを更新することを特徴とする請求項1ないし請求項のいずれかひとつに記載の言語モデル学習システム。
  4. 前記言語モデルパラメータ更新手段は、前記信頼度計算手段により算出された信頼度が最大値でない場合に、これに対応する単語列の前記出現頻度を大きい値に補正して、その補正された出現頻度に基づいて前記言語モデル記憶手段に記憶された言語モデルのパラメータを更新することを特徴とする請求項に記載の言語モデル学習システム。
  5. 前記言語モデルパラメータ更新手段は、前記学習用テキストデータ内の単語列ωの出現回数をN、前記学習用テキストデータに含まれるωと同じ単語数の単語列の総数をR、前記認識結果において観測時系列Oが観測された場合の単語列ωの信頼度をp(ω|O)とし、定数をD、更新前の言語モデルの値をpとすると、[数1]式にしたがって単語列ωに対応する言語モデルのパラメータPを算出し当該パラメータを算出した値に更新することを特徴とする請求項3または4に記載の言語モデル学習システム。
    Figure 0005088701
  6. 音声認識用の音響モデルを記憶する音響モデル記憶手段と、この音響モデルと前記学習用音声データと前記言語モデル記憶手段に記憶された言語モデルとに基づいて前記音響モデル記憶手段に記憶された音響モデルを更新する音響モデル学習手段とをさらに備えたことを特徴とする請求項1ないし請求項のいずれかひとつに記載の言語モデル学習システム。
  7. 前記音響モデル学習手段が、相互情報量基準を用いて前記音響モデル記憶手段に記憶された音響モデルを更新することを特徴とする請求項に記載の言語モデル学習システム。
  8. 予め記憶された言語モデルを用いて学習用音声データを音声認識し認識結果を出力する認識工程と、
    前記認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算工程と、
    前記信頼度計算工程で算出された各単語列の信頼度に基づいて、前記言語モデルの更新後のパラメータが前記信頼度を最大にするように前記パラメータを更新する言語モデルパラメータ更新工程とを含むことを特徴とする言語モデル学習方法。
  9. 前記信頼度計算工程では、前記認識結果に基づく各単語列の事後確率と、その単語列の音声信号の信号対雑音比と、その単語列の継続時間と期待継続時間との比とを組み合わせた値を、この単語列の信頼度として算出することを特徴とする請求項に記載の言語モデル学習方法。
  10. 前記言語モデルのパラメータ更新工程では、前記学習用音声データに対応する学習用テキストデータ内の各単語列の出現頻度と前記信頼度計算工程で算出された各単語列の信頼度とに基づいて前記言語モデルのパラメータを更新することを特徴とする請求項ないし請求項のいずれかひとつに記載の言語モデル学習方法。
  11. 前記言語モデルパラメータ更新工程では、前記信頼度計算工程で算出された信頼度が最大値でない場合に、これに対応する単語列の前記出現頻度を大きい値に補正して、その補正された出現頻度に基づいて前記言語モデルのパラメータを更新することを特徴とする請求項10に記載の言語モデル学習方法。
  12. 前記言語モデルパラメータ更新手段は、前記学習用テキストデータ内の単語列ωの出現回数をN、前記学習用テキストデータに含まれるωと同じ単語数の単語列の総数をR、前記認識結果において観測時系列Oが観測された場合の単語列ωの信頼度をp(ω|O)とし、定数をD、更新前の言語モデルの値をpとすると、[数1]式にしたがって単語列ωに対応する言語モデルのパラメータPを算出し当該パラメータを更新することを特徴とする請求項10または11に記載の言語モデル学習方法。
    Figure 0005088701
  13. 予め記憶された音響モデルと前記言語モデルと前記学習用音声データとを用いて当該音響モデルを更新する音響モデル学習工程を含むことを特徴とする請求項ないし請求項12のいずれかひとつに記載の言語モデル学習方法。
  14. 前記音響モデル学習工程では、相互情報量基準を用いて前記音響モデルを更新することを特徴とする請求項13に記載の言語モデル学習方法。
  15. 予め記憶された言語モデルを用いて学習用音声データを音声認識し認識結果を出力する認識処理と、
    前記認識結果に基づいて算出された単語間の出現順序に関する前向き確率と後ろ向き確率とから求められる各単語列の事後確率をその単語列の信頼度として計算する信頼度計算処理と、
    前記信頼度計算処理で算出された各単語列の信頼度に基づいて、前記言語モデルの更新後のパラメータが前記信頼度を最大にするように前記パラメータを更新する言語モデルパラメータ更新処理とをコンピュータに実行させることを特徴とする言語モデル学習プログラム。
  16. 前記信頼度計算処理を、前記認識結果に基づく各単語列の事後確率と、その単語列の音声信号の信号対雑音比と、その単語列の継続時間と期待継続時間との比とを組み合わせた値を、この単語列の信頼度として算出するという内容に特定したことを特徴とする請求項15に記載の言語モデル学習プログラム。
  17. 前記言語モデルパラメータ更新処理を、前記学習用音声データに対応する学習用テキストデータ内の各単語列の出現頻度と前記信頼度計算工程で算出された各単語列の信頼度とに基づいて前記言語モデルのパラメータを更新するという内容に特定したことを特徴とする請求項15乃至16のいずれかひとつに記載の言語モデル学習プログラム。
  18. 前記言語モデルパラメータ更新処理を、前記信頼度計算処理で算出された信頼度が最大値でない場合に、これに対応する単語列の前記出現頻度を大きい値に補正して、その補正された出現頻度に基づいて前記言語モデルのパラメータを更新するという内容に特定したことを特徴とする請求項17に記載の言語モデル学習プログラム。
  19. 前記言語モデルパラメータ更新処理を、前記学習用テキストデータ内の単語列ωの出現回数をN、前記学習用テキストデータに含まれるωと同じ単語数の単語列の総数をR、前記認識結果において観測時系列Oが観測された場合の単語列ωの信頼度をp(ω|O)とし、定数をD、更新前の言語モデルの値をpとすると、[数1]式にしたがって単語列ωに対応する言語モデルのパラメータPを算出し当該パラメータを更新するという内容に特定したことを特徴とする請求項17または18に記載の言語モデル学習プログラム。
    Figure 0005088701
  20. 予め記憶された音響モデルと前記言語モデルと前記学習用音声データとを用いて当該音響モデルを更新する音響モデル学習処理を前記コンピュータに実行させることを請求項15乃至19のいずれかひとつに記載の言語モデル学習プログラム。
  21. 前記音響モデル学習処理を、相互情報量基準を用いて前記音響モデルを更新するという内容に特定したことを特徴とする請求項20に記載の言語モデル学習プログラム。
JP2008520518A 2006-05-31 2007-05-30 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム Expired - Fee Related JP5088701B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008520518A JP5088701B2 (ja) 2006-05-31 2007-05-30 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006150962 2006-05-31
JP2006150962 2006-05-31
PCT/JP2007/061023 WO2007142102A1 (ja) 2006-05-31 2007-05-30 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
JP2008520518A JP5088701B2 (ja) 2006-05-31 2007-05-30 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム

Publications (2)

Publication Number Publication Date
JPWO2007142102A1 JPWO2007142102A1 (ja) 2009-10-22
JP5088701B2 true JP5088701B2 (ja) 2012-12-05

Family

ID=38801360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008520518A Expired - Fee Related JP5088701B2 (ja) 2006-05-31 2007-05-30 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム

Country Status (4)

Country Link
US (1) US8831943B2 (ja)
EP (1) EP2026327A4 (ja)
JP (1) JP5088701B2 (ja)
WO (1) WO2007142102A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US8844033B2 (en) * 2008-05-27 2014-09-23 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for detecting network anomalies using a trained probabilistic model
EP2402868A4 (en) * 2009-02-26 2013-07-03 Nat Univ Corp Toyohashi Univ VOICE SEARCH DEVICE AND VOICE SEARCH METHOD
JP5268825B2 (ja) * 2009-08-18 2013-08-21 日本電信電話株式会社 モデルパラメータ推定装置、方法及びプログラム
JP5235187B2 (ja) * 2009-11-16 2013-07-10 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US9489940B2 (en) * 2012-06-11 2016-11-08 Nvoq Incorporated Apparatus and methods to update a language model in a speech recognition system
EP2893532B1 (en) * 2012-09-03 2021-03-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
JP5932869B2 (ja) * 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US10042845B2 (en) * 2014-10-31 2018-08-07 Microsoft Technology Licensing, Llc Transfer learning for bilingual content classification
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
US10372821B2 (en) * 2017-03-17 2019-08-06 Adobe Inc. Identification of reading order text segments with a probabilistic language model
US10713519B2 (en) 2017-06-22 2020-07-14 Adobe Inc. Automated workflows for identification of reading order from text segments using probabilistic language models
US10770092B1 (en) * 2017-09-22 2020-09-08 Amazon Technologies, Inc. Viseme data generation
KR102552486B1 (ko) * 2017-11-02 2023-07-06 현대자동차주식회사 차량의 음성인식 장치 및 방법
CN110176230B (zh) * 2018-12-11 2021-10-08 腾讯科技(深圳)有限公司 一种语音识别方法、装置、设备和存储介质
JPWO2022113306A1 (ja) * 2020-11-27 2022-06-02
CN114078475B (zh) * 2021-11-08 2023-07-25 北京百度网讯科技有限公司 语音识别和更新方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02293798A (ja) * 1989-05-02 1990-12-04 Ricoh Co Ltd 音声認識装置の辞書更新方式
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003330484A (ja) * 2002-05-17 2003-11-19 Pioneer Electronic Corp 音声認識装置及び音声認識方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
ES2164870T3 (es) * 1995-03-07 2002-03-01 British Telecomm Reconocimiento del habla.
JP3027544B2 (ja) * 1997-01-10 2000-04-04 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE19708184A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
EP0960417B1 (en) * 1997-12-12 2003-05-28 Koninklijke Philips Electronics N.V. Method of determining model-specific factors for pattern recognition, in particular for speech patterns
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
JP2938866B1 (ja) 1998-08-28 1999-08-25 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
JP3836607B2 (ja) * 1998-09-02 2006-10-25 日本放送協会 音声認識のための統計的言語モデル作成装置
WO2000025299A1 (de) * 1998-10-27 2000-05-04 Siemens Aktiengesellschaft Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
EP1055227B1 (en) * 1998-12-21 2004-09-01 Koninklijke Philips Electronics N.V. Language model based on the speech recognition history
JP2000259173A (ja) * 1999-03-08 2000-09-22 Nippon Hoso Kyokai <Nhk> 音声認識装置および方法
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
JP2000356997A (ja) * 1999-06-15 2000-12-26 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
WO2001003113A1 (en) * 1999-07-01 2001-01-11 Koninklijke Philips Electronics N.V. Robust speech processing from noisy speech models
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US6789061B1 (en) * 1999-08-25 2004-09-07 International Business Machines Corporation Method and system for generating squeezed acoustic models for specialized speech recognizer
JP2001109491A (ja) * 1999-10-01 2001-04-20 Univ Waseda 連続音声認識装置および方法
US6539353B1 (en) * 1999-10-12 2003-03-25 Microsoft Corporation Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US6925154B2 (en) * 2001-05-04 2005-08-02 International Business Machines Corproation Methods and apparatus for conversational name dialing systems
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
US20040064315A1 (en) * 2002-09-30 2004-04-01 Deisher Michael E. Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
US20060058999A1 (en) * 2004-09-10 2006-03-16 Simon Barker Voice model adaptation
WO2006034152A2 (en) 2004-09-17 2006-03-30 Multimodal Technologies, Inc. Discriminative training of document transcription system
EP1851756B1 (en) * 2005-02-17 2008-07-02 Loquendo S.p.A. Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system
EP1760696B1 (en) * 2005-09-03 2016-02-03 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
US7912707B2 (en) * 2006-12-19 2011-03-22 Microsoft Corporation Adapting a language model to accommodate inputs not found in a directory assistance listing
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02293798A (ja) * 1989-05-02 1990-12-04 Ricoh Co Ltd 音声認識装置の辞書更新方式
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003330484A (ja) * 2002-05-17 2003-11-19 Pioneer Electronic Corp 音声認識装置及び音声認識方法

Also Published As

Publication number Publication date
US20100063819A1 (en) 2010-03-11
EP2026327A4 (en) 2012-03-07
US8831943B2 (en) 2014-09-09
WO2007142102A1 (ja) 2007-12-13
JPWO2007142102A1 (ja) 2009-10-22
EP2026327A1 (en) 2009-02-18

Similar Documents

Publication Publication Date Title
JP5088701B2 (ja) 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
Shannon Optimizing expected word error rate via sampling for speech recognition
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US9224386B1 (en) Discriminative language model training using a confusion matrix
US8494847B2 (en) Weighting factor learning system and audio recognition system
JP6884946B2 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
Kuo et al. Maximum entropy direct models for speech recognition
JPS62231995A (ja) 音声認識方法
US7877256B2 (en) Time synchronous decoding for long-span hidden trajectory model
US8332222B2 (en) Viterbi decoder and speech recognition method using same using non-linear filter for observation probabilities
CN110970031B (zh) 语音识别系统及方法
Heymann et al. Iterative Bayesian word segmentation for unsupervised vocabulary discovery from phoneme lattices
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2002358097A (ja) 音声認識装置
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP3589044B2 (ja) 話者適応化装置
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP2005091504A (ja) 音声認識装置
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
JP2008083367A (ja) 音声認識装置、音声認識方法及びプログラム
JP2005091518A (ja) 音声認識装置及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120820

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5088701

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120902

LAPS Cancellation because of no payment of annual fees