JP5161183B2 - 音響モデル適応装置、その方法、プログラム、及び記録媒体 - Google Patents

音響モデル適応装置、その方法、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP5161183B2
JP5161183B2 JP2009224140A JP2009224140A JP5161183B2 JP 5161183 B2 JP5161183 B2 JP 5161183B2 JP 2009224140 A JP2009224140 A JP 2009224140A JP 2009224140 A JP2009224140 A JP 2009224140A JP 5161183 B2 JP5161183 B2 JP 5161183B2
Authority
JP
Japan
Prior art keywords
adaptation
adaptation data
update information
acoustic model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009224140A
Other languages
English (en)
Other versions
JP2011075622A (ja
Inventor
義和 山口
哲 小橋川
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009224140A priority Critical patent/JP5161183B2/ja
Publication of JP2011075622A publication Critical patent/JP2011075622A/ja
Application granted granted Critical
Publication of JP5161183B2 publication Critical patent/JP5161183B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音響モデルの適応を教師あり適応と教師なし適応とを併用して行う音響モデル適応装置、その方法、プログラム、及び記録媒体に関する。
音声認識に使用する音響モデルを更新する際には、学習データ中の事例ができるだけ多く成り立つようにモデルのパラメータの最適化処理を行う。この処理を「音響モデルの適応」と呼び、一般に、音声ファイルと当該音声ファイルの発話内容を表す正解テキストとを学習(適応)データとして用いる。音響モデルの適応は、正解テキストを、音声ファイルに対応する読みを人間が書き起こすことにより得る教師あり適応と、音声ファイルの音声認識結果として得る教師なし適応とに大別される。
教師なし適応は人手を介さないため、コストや時間の面で優れているが、音声認識結果には誤認識が含まれうるため、適応処理を行うことで逆に音響モデルの精度を低下させてしまう場合がある。そこで、そのような問題に対し、音声認識結果に音声認識結果の信頼性を示す信頼尺度を付与して、この信頼尺度の高さに応じて適応データを選択し、選択した音声認識結果を用いて音響モデルの適応を行う手法が特許文献1などにおいて開示されている。具体的には、信頼尺度が或る閾値を超えた適応データのみを選択して教師なし適応を行う手法、更には、信頼尺度が閾値を下回った適応データについても、人手で正解テキストを与える教師あり適応を併用することにより適応の効果を高める手法等が挙げられている。
特開2007−248730号公報
教師なし適応の際に、ある閾値以上の信頼尺度の適応データのみを用いることにすると、適応に利用できるデータ量が少なくなるため、統計モデルである音響モデルの適応に十分なデータ量が得られない恐れがある。それに加え、データ量の少なさから、適応データに含まれる音素環境のバリエーションが偏り、適応の効果が薄れる恐れがある。音素環境とは隣接する音素を考慮した音素のカテゴリであり、前後の音素を考慮するトライフォン、先行音素のみまたは後続音素のみを考慮するバイフォン、前後の音素を考慮しないモノフォンがあり、一般にデータ量が多いほど含まれるバリエーションが増加する。また、適応に利用するデータ量を増やすために閾値を下げれば、誤認識を含む割合が高くなるため適応の効果が薄れる。一方、信頼尺度が閾値を下回った全ての適応データについて人手で正解テキストを与える教師あり適応を適用する場合には、そのための費用や時間を余分に要する。
本発明は、適応に利用できるデータ量や音素環境のバリエーションを十分に確保して音響モデルの適応効果を享受しつつ、コストの増加を抑えることが可能な音響モデル適応装置、その方法、プログラム、及び記録媒体を提供することを目的とする。
本発明の音響モデル適応装置は、音声データと当該音声データの音声認識結果として得られた信頼尺度が付されたテキストとからなる複数の適応用データを用いて音響モデルの適応を行う装置であって、音響モデル記憶手段と適応用基礎データ記憶手段と信頼尺度選択手段と音素環境抽出手段と音素環境発話選択手段とテキスト修正手段と第1更新情報計算手段と第2更新情報計算手段と第3更新情報計算手段と更新情報合成手段とモデルパラメータ更新手段とを備える。また、処理過程のデータの記憶手段として、第1適応用データ記憶手段、第4適応用データ記憶手段、音素環境リスト記憶手段、第2適応用データ記憶手段、第3適応用データ記憶手段、修正第2適応用データ記憶手段、第1更新情報記憶手段、第2更新情報記憶手段、及び第3更新情報記憶手段を備える。
音響モデル記憶手段は、適応対象の音響モデルを記憶する。
適応用基礎データ記憶手段は、予め用意された複数の適応用データを記憶する。
信頼尺度選択手段は、適応用基礎データ記憶手段から適応用データを順次読み込み、信頼尺度が所定の閾値α以上である適応用データを第1適応用データとして第1適応用データ記憶手段に書き込み、信頼尺度が所定の閾値β以上でα未満である適応用データを第4適応用データとして第4適応用データ記憶手段に書き込む。
音素環境抽出手段は、全ての第1適応用データを参照し、当該第1適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段に書き込む。
音素環境発話選択手段は、第4適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、音素環境リストと対照して、当該音素環境リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第4適応用データを第2適応用データとして第2適応用データ記憶手段に書き込み、γ個未満含まれている場合には当該第4適応用データを第3適応用データとして第3適応用データ記憶手段に書き込む。
テキスト修正手段は、第2適応用データに対する正解テキストが入力され、当該第2適応用データを参照してそのテキストを当該正解テキストに修正した修正第2適応用データを生成し、修正第2適応用データ記憶手段に書き込む。
第1更新情報計算手段は、適応対象の音響モデルと第1適応用データとを参照し、当該音響モデルのパラメータの更新に必要な十分統計量である第1更新情報を音素環境ごとに計算して第1更新情報記憶手段に書き込む。
第2更新情報計算手段は、適応対象の音響モデルと修正第2適応用データとを参照し、当該音響モデルのパラメータの更新に必要な十分統計量である第2更新情報を音素環境ごとに計算して第2更新情報記憶手段に書き込む。
第3更新情報計算手段は、適応対象の音響モデルと第3適応用データとを参照し、当該音響モデルのパラメータの更新に必要な十分統計量である第3更新情報を音素環境ごとに計算して第3更新情報記憶手段に書き込む。
更新情報合成手段は、音素環境ごとに各更新情報を参照し、第1更新情報に対しては所定の重みw1(0<w1≦1)を乗じて加重第1更新情報を、第2更新情報に対しては所定の重みw2(0<w2≦1)を乗じて加重第2更新情報を、第3更新情報に対しては所定の重みw3(0<w3<w1、w2)を乗じて加重第3更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する。
モデルパラメータ更新手段は、合成更新情報を用い、音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成する。
本発明の音響モデル適応装置、その方法、プログラム、及び記録媒体においては、相対的に信頼尺度が高い適応用データについてはそのまま用いて教師なし適応を行い、相対的に信頼尺度が低い適応用データのうち信頼尺度が高い適応用データに含まれない音素環境を多く持つデータについては優先的に人手による音声認識テキストの修正を施して教師あり適応を行い、相対的に信頼尺度が低くかつ音声認識テキストの修正を施さないデータについては他のデータより低い重みをかけて教師なし適応を行う。このように適応用データを分類加工して教師なし適応と教師あり適応とを併用して行うことで、適応できる音素環境のバリエーションを広く確保できるため幅広い音素環境において適応の効果を得ることができ、なおかつ音素環境の偏りによる適応の効果の低下を避けることできる。また、適応データ量を多く確保しつつ誤認識による悪影響を軽減することができる。更に、教師あり適応を限定的に採用するため、費用や時間についても抑制することができる。
音響モデル適応装置100の機能構成例を示す図。 音響モデル適応装置100の処理フローを示す図。 未分類の適応用データを第1〜3適応用データに分類する過程を示す図。 連続混合分布HMMのモデルパラメータを説明する図。
図1に本発明の音響モデル適応装置100の装置構成例を、図2に処理フロー例をそれぞれ示す。
音響モデル適応装置100は、音響モデル記憶手段101と適応用基礎データ記憶手段102と信頼尺度選択手段103と音素環境抽出手段106と音素環境発話選択手段108とテキスト修正手段111と第1更新情報計算手段113と第2更新情報計算手段115と第3更新情報計算手段117と更新情報合成手段119とモデルパラメータ更新手段120とを備える。また、処理過程のデータの記憶手段として、第1適応用データ記憶手段104、第4適応用データ記憶手段105、音素環境リスト記憶手段107、第2適応用データ記憶手段109、第3適応用データ記憶手段110、修正第2適応用データ記憶手段112、第1更新情報記憶手段114、第2更新情報記憶手段116、及び第3更新情報記憶手段118を備える。
音響モデル記憶手段101は、適応対象の音響モデルを記憶する。
適応用基礎データ記憶手段102は、予め用意された複数の適応用データ(例えば10000データ)を記憶する。適応用データは、音響モデル適応用に収集された音声データと当該音声データの音声認識結果として得られたテキストとからなり、更に当該テキストが正解である尤もらしさを表す数値である信頼尺度が付されている。音声認識処理及び信頼尺度の計算は、例えば特許文献1や参考文献1に記載された処理であり、信頼尺度が高ければ高いほど正解である尤もらしさが高い。
〔参考文献1〕特許第3819896号公報
信頼尺度選択手段103は、適応用データを信頼尺度によって選択する。具体的には、適応用基礎データ記憶手段102から適応用データを順次読み込み、信頼尺度が所定の閾値α以上である適応用データを教師なし適応に用いる第1適応用データとして第1適応用データ記憶手段104に書き込み、信頼尺度が所定の閾値β以上でα未満である適応用データを第4適応用データとして第4適応用データ記憶手段105に書き込む(S1)。なお、信頼尺度が閾値β未満である適応用データは適応に不適切なデータとして除外する。教師なし適応においては、適応用データとして音声認識結果テキストに正解が含まれる割合が多いほど適応の効果が高く、つまり適応音響モデルによる音声認識の認識率が高いため、信頼尺度が相対的に高いもの(第1適応用データ)については、この時点で教師なし適応処理に用いるデータとして抽出する。
音素環境抽出手段106は、第1適応用データ記憶手段104に記憶された全ての第1適応用データを参照し、当該第1適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段107に書き込む(S2)。音素環境の抽出方法としては例えば参考文献2に記載の、詳細度の異なるラベルを1種類(詳細度:高)あるいは全種類を生成して音素環境として抽出する方法が挙げられる。
〔参考文献2〕特許第3926716号公報
音素環境発話選択手段108は、第4適応用データ記憶手段105に記憶された第4適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、音素環境リスト記憶手段107に記憶された音素環境リストと対照して、当該音素環境リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第4適応用データを第2適応用データとして第2適応用データ記憶手段109に書き込み、γ個未満含まれている場合には当該第4適応用データを第3適応用データとして第3適応用データ記憶手段110に書き込む(S3)。
図3は、上記各処理により5個の未分類の適応用データを第1〜3適応用データに分類する例をα=0.8、β=0.6、γ=3の場合について示したものである。適応用基礎データ記憶手段102に予め記憶された各適応用データの音声データの認識結果であるテキスト(信頼尺度)が、t ou k y ou(0.92)、w a k a y a m a(0.89)、a i ch i(0.78)、k y ou t o(0.61)、o k a y a m a(0.65)であったとき、まず信頼尺度選択手段103において、信頼尺度が0.8以上のt ou k y ouとw a k a y a m aとが第1適応用データとして抽出され、信頼尺度が0.6以上0.8未満である残りの3個が第4適応用データとして抽出される。続いて、音素環境抽出手段106において、第1適応用データとして抽出された2個の適応用データの認識結果テキストに含まれる全ての音素環境を図4に示すように抽出し、音素環境リストを生成する。なお、図3においては、例えば中心音素ou、先行音素t、後続音素kのトライフォンをt-ou+kと表記し、中心音素t、後続音素ouのバイフォンをt+ouと表記し、先行音素y、中心音素ouのバイフォンをy-ouと表記している。続いて、音素環境発話選択手段108において、まず3個の第4適応用データを参照し、それぞれのテキストに含まれる音素環境を図4に示すように抽出する。続いて各第4適応用データについて、音素環境リストを参照し、当該音素環境リストに含まれない音素環境が当該テキストに含まれる個数に応じて、第2適応用データ(3個以上)と第3適応用データ(3個未満)に分類する。例えば、a i ch iは4個の音素環境がすべて音素環境リストに含まれないため第2適応用データに分類され、k y ou t oも5個の音素環境のうち4個が音素環境リストに含まれないため第2適応用データに分類されるが、o k a y a m aは7個の音素環境のうち2個だけが音素環境リストに含まれないため第3適応用データに分類される。
テキスト修正手段111は、第2適応用データに対する正解テキストが入力され、第2適応用データ記憶手段109に記憶された当該第2適応用データを参照してそのテキストを当該正解テキストに修正した修正第2適応用データを生成し、修正第2適応用データ記憶手段112に書き込む(S4)。正解テキストは、例えば市販の再生装置、再生ソフトなどにより第2適応用データの音声データを再生し、人がそれを聞くことで得ることができる。修正は正誤を問わず全ての第2適応用データのテキストに対してファイル置き換えなどより一括で行ってもよいし、誤っている第2適応用データのテキストのみに対してテキストエディタなどを用いて個別に修正を施しても構わない。このように第2適応用データに対してのみテキストに修正を施して教師あり適応を行うことで、人手による費用や時間を抑えつつ、第1適応用データに含まれない音素環境をより幅広く適応に用いることができる。なお、対象となる第2適応用データが多いことなどにより正解テキストを用意できなかった第2適応用データについては、第3適応用データとして扱うべく第3適応用データ記憶手段110に追記することとしても構わない。
第1更新情報計算手段113は、適応対象の音響モデルを音響モデル記憶手段101から、また第1適応用データを第1適応用データ記憶手段104からそれぞれ参照し、第1更新情報を音素環境ごとに計算して第1更新情報記憶手段114に書き込む(S5−1)。なお更新情報とは、音響モデル、例えば図4に示すような連続混合分布HMM(Hidden Markov Model)のモデルパラメータである状態遷移確率、複数の正規分布(平均、分散)及びそれらの混合重みを計算するために必要な十分統計量である。更新情報の具体的な計算方法は、例えば参考文献1において開示されている。
第2更新情報計算手段115は、適応対象の音響モデルを音響モデル記憶手段101から、また修正第2適応用データを修正第2適応用データ記憶手段112からそれぞれ参照し、第2更新情報を音素環境ごとに計算して第2更新情報記憶手段116に書き込む(S5−2)。
第3更新情報計算手段117は、適応対象の音響モデルを音響モデル記憶手段101から、また第3適応用データを第3適応用データ記憶手段110からそれぞれ参照し、第3更新情報を音素環境ごとに計算して第3更新情報記憶手段118に書き込む(S5−3)。
更新情報合成手段119は、音素環境ごとに第1〜3の全ての更新情報を各更新情報記憶手段113、115、117から参照し、第1更新情報に対しては所定の重みw1(0<w1≦1)を乗じて加重第1更新情報を、第2更新情報に対しては所定の重みw2(0<w2≦1)を乗じて加重第2更新情報を、第3更新情報に対しては所定の重みw3(0<w3<w1、w2)を乗じて加重第3更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する(S6)。通常w1、w2はテキストが正解である可能性が高い(第1適応用データ)、あるいは正解(第2適応用データ)であるため1に近く、またw3は第3適応用データの信頼尺度が相対的に低いため、w1、w2より低い0.7などの値を設定する。このように重みを設定することで、適応の精度を損なうことなく適応に利用できるデータ量を多く確保することができる。
モデルパラメータ更新手段120は、音素環境ごとに計算した合成更新情報を用い、音響モデル記憶手段101に記憶された音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成する(S7)。学習方法としては、例えば最尤推定法(ML)、最大事後確率推定法(MAP)、最尤線形回帰法(MLLR)など、いずれの方法を用いても構わない。
以上のように、本発明の音響モデル適応装置、その方法、プログラム、及び記録媒体においては、相対的に信頼尺度が高い適応用データについてはそのまま用いて教師なし適応を行い、相対的に信頼尺度が低い適応用データのうち信頼尺度が高い適応用データに含まれない音素環境を多く持つデータについては優先的に人手による音声認識テキストの修正を施して教師あり適応を行い、相対的に信頼尺度が低くかつ音声認識テキストの修正を施さないデータについては他のデータより低い重みをかけて教師なし適応を行う。このように適応用データを分類加工して教師なし適応と教師あり適応とを併用して行うことで、適応できる音素環境のバリエーションを広く確保できるため幅広い音素環境において適応の効果を得ることができ、なおかつ音素環境の偏りによる適応の効果の低下を避けることできる。また、適応データ量を多く確保しつつ誤認識による悪影響を軽減することができる。更に、教師あり適応を限定的に採用するため、費用や時間についても抑制することができる。
上記の各装置をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。具体的には、信頼尺度選択手段103、音素環境抽出手段106、音素環境発話選択手段108、テキスト修正手段111、第1更新情報計算手段113、第2更新情報計算手段115、第3更新情報計算手段117、更新情報合成手段119、及びモデルパラメータ更新手段120における処理がこれに該当する。そしてコンピュータ上で、適応用データや上記各手段での処理で得られた中間データなどが記憶された各記憶手段とCPUなどの処理手段とのデータのやりとりを通じてこのプログラムを実行することにより、ハードウェアとソフトウェアが協働し、上記処理機能がコンピュータ上で実現されて音響モデルの適応が果たされる。なおこの場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。また、上記の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

Claims (4)

  1. 音声データと当該音声データの音声認識結果として得られた信頼尺度が付されたテキストとからなる複数の適応用データを用いて音響モデルの適応を行う音響モデル適応装置であって、
    上記音響モデルを記憶する音響モデル記憶手段と、
    予め用意された上記複数の適応用データを記憶する適応用基礎データ記憶手段と、
    上記適応用基礎データ記憶手段から適応用データを順次読み込み、上記信頼尺度が所定の閾値α以上である適応用データを第1適応用データとして第1適応用データ記憶手段に書き込み、上記信頼尺度が所定の閾値β以上で上記α未満である適応用データを第4適応用データとして第4適応用データ記憶手段に書き込む信頼尺度選択手段と、
    全ての上記第1適応用データを参照し、当該上記第1適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段に書き込む音素環境抽出手段と、
    上記第4適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、上記リストと対照して、当該リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第4適応用データを第2適応用データとして第2適応用データ記憶手段に書き込み、γ個未満含まれている場合には当該第4適応用データを第3適応用データとして第3適応用データ記憶手段に書き込む音素環境発話選択手段と、
    上記第2適応用データに対する正解テキストが入力され、当該第2適応用データを参照してそのテキストを当該正解テキストに修正した修正第2適応用データを生成し、修正第2適応用データ記憶手段に書き込むテキスト修正手段と、
    上記音響モデルと上記第1適応用データとを参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第1更新情報を音素環境ごとに計算して第1更新情報記憶手段に書き込む第1更新情報計算手段と、
    上記音響モデルと上記修正第2適応用データとを参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第2更新情報を音素環境ごとに計算して第2更新情報記憶手段に書き込む第2更新情報計算手段と、
    上記音響モデルと上記第3適応用データとを参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第3更新情報を音素環境ごとに計算して第3更新情報記憶手段に書き込む第3更新情報計算手段と、
    音素環境ごとに各更新情報を参照し、上記第1更新情報に対しては所定の重みw1(0<w1≦1)を乗じて加重第1更新情報を、上記第2更新情報に対しては所定の重みw2(0<w2≦1)を乗じて加重第2更新情報を、上記第3更新情報に対しては所定の重みw3(0<w3<w1、w2)を乗じて加重第3更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する更新情報合成手段と、
    上記合成更新情報を用い、上記音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成するモデルパラメータ更新手段と、
    を備える音響モデル適応装置。
  2. 音声データと当該音声データの音声認識結果として得られた信頼尺度が付されたテキストとからなる複数の適応用データを用いて音響モデルの適応を行う音響モデル適応方法であって、
    上記複数の適応用データが順次入力され、上記信頼尺度が所定の閾値α以上である適応用データを第1適応用データとして第1適応用データ記憶手段に書き込み、上記信頼尺度が所定の閾値β以上で上記α未満である適応用データを第4適応用データとして第4適応用データ記憶手段に書き込む信頼尺度選択ステップと、
    全ての上記第1適応用データを参照し、当該上記第1適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段に書き込む音素環境抽出ステップと、
    上記第4適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、上記音素環境リストと対照して、当該音素環境リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第4適応用データを第2適応用データとして第2適応用データ記憶手段に書き込み、γ個未満含まれている場合には当該第4適応用データを第3適応用データとして第3適応用データ記憶手段に書き込む音素環境発話選択ステップと、
    上記第2適応用データに対する正解テキストが入力され、当該第2適応用データを参照してそのテキストを当該正解テキストに修正した修正第2適応用データを生成し、修正第2適応用データ記憶手段に書き込むテキスト修正ステップと、
    上記音響モデルと上記第1適応用データをそれぞれ参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第1更新情報を音素環境ごとに計算して第1更新情報記憶手段に書き込む第1更新情報計算ステップと、
    上記音響モデルと上記修正第2適応用データをそれぞれ参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第2更新情報を音素環境ごとに計算して第2更新情報記憶手段に書き込む第2更新情報計算ステップと、
    上記音響モデルと上記第3適応用データをそれぞれ参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第3更新情報を音素環境ごとに計算して第3更新情報記憶手段に書き込む第3更新情報計算ステップと、
    音素環境ごとに各更新情報を参照し、上記第1更新情報に対しては所定の重みw1(0<w1≦1)を乗じて加重第1更新情報を、上記第2更新情報に対しては所定の重みw2(0<w2≦1)を乗じて加重第2更新情報を、上記第3更新情報に対しては所定の重みw3(0<w3<w1、w2)を乗じて加重第3更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する更新情報合成ステップと、
    上記合成更新情報を用い、上記音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成するモデルパラメータ更新ステップと、
    を実行する音響モデル適応方法。
  3. 請求項1に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。
  4. 請求項1に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラムを記録したコンピュータが読み取り可能な記録媒体。
JP2009224140A 2009-09-29 2009-09-29 音響モデル適応装置、その方法、プログラム、及び記録媒体 Expired - Fee Related JP5161183B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009224140A JP5161183B2 (ja) 2009-09-29 2009-09-29 音響モデル適応装置、その方法、プログラム、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009224140A JP5161183B2 (ja) 2009-09-29 2009-09-29 音響モデル適応装置、その方法、プログラム、及び記録媒体

Publications (2)

Publication Number Publication Date
JP2011075622A JP2011075622A (ja) 2011-04-14
JP5161183B2 true JP5161183B2 (ja) 2013-03-13

Family

ID=44019715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009224140A Expired - Fee Related JP5161183B2 (ja) 2009-09-29 2009-09-29 音響モデル適応装置、その方法、プログラム、及び記録媒体

Country Status (1)

Country Link
JP (1) JP5161183B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5651567B2 (ja) * 2011-10-11 2015-01-14 日本電信電話株式会社 音響モデル適応装置、音響モデル適応方法、およびプログラム
JP5932869B2 (ja) 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
KR102075796B1 (ko) * 2017-11-14 2020-03-02 주식회사 엘솔루 자동 음성인식 장치 및 방법
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
CN113345428B (zh) * 2021-06-04 2023-08-04 北京华捷艾米科技有限公司 语音识别模型的匹配方法、装置、设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3589044B2 (ja) * 1998-10-20 2004-11-17 三菱電機株式会社 話者適応化装置
JP3926716B2 (ja) * 2002-09-24 2007-06-06 日本電信電話株式会社 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体
JP4594885B2 (ja) * 2006-03-15 2010-12-08 日本電信電話株式会社 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP2008241970A (ja) * 2007-03-27 2008-10-09 Kddi Corp 話者適応装置、話者適応方法及び話者適応プログラム

Also Published As

Publication number Publication date
JP2011075622A (ja) 2011-04-14

Similar Documents

Publication Publication Date Title
JP5161183B2 (ja) 音響モデル適応装置、その方法、プログラム、及び記録媒体
JP7055630B2 (ja) 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体
Zhang et al. Group retention when using machine learning in sequential decision making: the interplay between user dynamics and fairness
US9299338B2 (en) Feature sequence generating device, feature sequence generating method, and feature sequence generating program
US9396725B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
CA2531455A1 (en) Improving error prediction in spoken dialog systems
JP7218601B2 (ja) 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム
WO2019065263A1 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
CN111788629B (zh) 学习装置、声音区间检测装置及声音区间检测方法
JPWO2008108232A1 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US9620117B1 (en) Learning from interactions for a spoken dialog system
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US9147133B2 (en) Pattern recognition device, pattern recognition method and computer program product
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
WO2020162190A1 (ja) 音響モデル学習装置、音響モデル学習方法、プログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4960845B2 (ja) 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP6121187B2 (ja) 音響モデル補正パラメータ推定装置、その方法及びプログラム
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム
US10056080B2 (en) Identifying contacts using speech recognition
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
US8600750B2 (en) Speaker-cluster dependent speaker recognition (speaker-type automated speech recognition)
CN112565881B (zh) 自适应的视频播放方法和系统

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121213

R150 Certificate of patent or registration of utility model

Ref document number: 5161183

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees