JP4869268B2 - 音響モデル学習装置およびプログラム - Google Patents

音響モデル学習装置およびプログラム Download PDF

Info

Publication number
JP4869268B2
JP4869268B2 JP2008053923A JP2008053923A JP4869268B2 JP 4869268 B2 JP4869268 B2 JP 4869268B2 JP 2008053923 A JP2008053923 A JP 2008053923A JP 2008053923 A JP2008053923 A JP 2008053923A JP 4869268 B2 JP4869268 B2 JP 4869268B2
Authority
JP
Japan
Prior art keywords
acoustic model
model
storage unit
recognition
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008053923A
Other languages
English (en)
Other versions
JP2009210829A (ja
Inventor
庄衛 佐藤
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2008053923A priority Critical patent/JP4869268B2/ja
Publication of JP2009210829A publication Critical patent/JP2009210829A/ja
Application granted granted Critical
Publication of JP4869268B2 publication Critical patent/JP4869268B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、統計的処理に基づく音声処理に関する。
特に、各音素の音響特徴量の統計量を音響モデルとした音声認識に係わり、例えば放送番組の音声と字幕テキストから音響モデルの学習データを効率的に作成する音響モデル学習装置およびそのプログラムに関する。
統計モデルを用いた音声認識では、各音素の統計量を得るために大量の学習データが必要になる。この学習データは、大量の音声データとその音声に対する書き起こしの対であり、従来人手により時間とコストをかけて作成されてきた。
現在、放送番組の一部には、高齢者や聴覚障害者の番組視聴など音声からの情報が十分に得られない環境でも番組内容が理解できるように、番組音声に対応する字幕テキストが付与されているものがある。この字幕テキストにはオンラインで付与された字幕テキストとオフラインで付与された字幕テキストの2種類があり、前者は番組中の発話内容とほぼ一致している。但し、後者は話し言葉の冗長性を除去し、簡潔で読みやすい字幕を付与できるため、発話内容と字幕との一致率が低い。
上記の一致率が高いオンライン字幕を利用できる場合には、音声区間の切り出しと、切り出された音声に対応する字幕区間の切りだしを行なうことで、音響モデルの学習データを容易に自動作成することができ、読み上げ音声が中心で比較的高い音声認識精度が得られるニュース番組を対象とした場合の認識精度の改善が報告されている(非特許文献1)。この方法では、字幕区間の切り出しに、字幕テキストで適応化した言語モデルを用いて得られた番組音声の認識結果を利用し、字幕テキストと認識結果の一致区間を音響モデルの学習データとしている。この番組音声の認識は、主に音声区間の切り出しと字幕と発話内容の不一致部分の検出を目的として行われ、言語モデルの適応化に用いる字幕テキストの重みは比較的小さいことが特徴である。
図9は、従来技術による音響モデル学習装置の機能構成を示すブロック図である。この図に示す音響モデル学習装置200は、字幕テキストを形態素単位に分割した後、字幕テキストにWbiasの重みを付けて、バイアスのある言語モデル(バイアス化言語モデル86)を得る。この言語モデルを用いて番組音声を認識する(認識処理部90)。本装置の主目的は、字幕と発話内容の不一致区間の検出と音声と字幕の切り出しであるため、バイアス重みWbias(4程度)と言語重みWlm(10程度)は比較的小さな値を用いる。次に、番組全体で認識仮説と字幕テキストのDPマッチングを行い(アライメント処理部92)、字幕テキストと認識結果が3単語以上連続して一致している区間を選択し、番組音声中の音声区間と対応する単語列である学習データ(学習データ記憶部94)が得られる。
Long Nguyen,外1名,"Light Supervision in Acoustic Model Training",IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP apos;04),2004年,Volume 1,p.17−21
現在、放送番組の対談部分などの比較的自由なスタイルで発話された部分の認識精度は、読み上げ音声の認識精度に比べて低く、このような部分の認識精度を向上させるため、様々なスタイルで発話された音響モデルの学習データが必要とされている。
放送番組の対談部分などの比較的自由なスタイルでは、オフラインで作成される字幕テキストが用いられるが、前述の通りこの字幕テキストの作成の際は簡潔さが優先されるため、字幕テキストと実際の発話内容との一致率は低い。従来技術による音響モデル学習装置は字幕テキストと実際の発話内容との一致率が高いことを前提としており、従来技術による方法ではこの一致率の低いデータからは高い認識精度が得られず、その結果として音響モデルの学習データを効率よく多量に生成することができないという問題があった。
本発明は、上記事情を考慮して為されたものであり、字幕と発話内容の一致率が低いオフライン字幕を利用した場合にも、高い認識率によって音響モデルの学習データを自動生成し、多様な発話スタイルに対応できる音響モデルを作成することを目的とするものである。
[1]上記の課題を解決するため、本発明の一態様による音響モデル学習装置は、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理部と、前記音声に対応するテキストデータと前記認識処理部が出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理部と、前記選択処理部が出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化部とを具備することを特徴とする。
この構成によれば、音響モデルに基づいて行なわれた音声の認識結果データ(認識仮説)とその音声に対応するテキストデータ(字幕テキストなど)との一致区間から学習データが得られるとともに、得られた学習データを用いて音響モデルを更新する。つまり音響モデルの適応化を行なうことができる。そして、適応化された音響モデルを用いて、再度、認識処理を行なうことにより、より多くの学習データが得られる。このような適応化と学習データ取得を、繰り返すことができ、学習データを多量に得ることが効率的に行なえる。
[2]また、本発明の一態様は、上記の音響モデル学習装置において、前記音響モデル記憶部は、前記音響モデルを番組ごとに記憶するものであり、前記認識処理部は、前記番組の音声を、当該番組に対応した前記音響モデルを用いて音声の認識処理を行ない、前記選択処理部は、前記番組ごとに前記学習データを出力し、前記音響モデル適応化部は、当該番組用の前記音響モデルを更新することを特徴とする。
この構成によれば、認識対象の音声は放送等の番組の音声であり、番組ごとに音響モデルを持ち、番組ごとの認識結果を用いて音響モデルの適応化を行なえる。よって、番組ごとに特有の音響的特徴がある場合に、その特有の特徴に応じた適応化を行なうことができ、認識精度が上がり、より多量の学習モデルを獲得できる。
[3]また、本発明の一態様は、上記の音響モデル学習装置において、言語モデルを記憶する言語モデル記憶部をさらに具備し、前記認識処理部は、前記言語モデル記憶部から読み出した前記言語モデルと前記音響モデル記憶部から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものであり、且つ、前記認識処理部は、音響モデル適応化部によって更新された前記音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも前記言語モデルがより小さい重みで用いられる値とすることを特徴とする。
この構成によれば、認識処理と、認識処理結果を用いた音響モデルの適応化とを、繰り返し行なう場合に、徐々に、言語モデルを用いる重みが相対的に低下する。よって、当初の認識率を高めるために言語モデルの重みを大きめにとった場合にも、音響モデルの適応化の進展に合わせて、言語モデルの重みを減ずることができ、認識精度が上がり、より多量の学習モデルを獲得できる。
[4]また、本発明の一態様は、上記の音響モデル学習装置において、前記音声の中の発話部分の特徴量を表わす発話モデルを記憶する発話モデル記憶部と、前記発話モデル記憶部から読み出した前記発話モデルを用いて前記音声の中の発話部分の音声区間を切り出す音声区間切り出し部と、前記選択処理部が出力した前記学習データを用いて、前記発話モデル記憶部に記憶される前記発話モデルを更新する発話モデル適応化部とをさらに具備し、前記認識処理部は、前記音声区間切り出し部によって切り出された前記音声区間の音声を認識処理することを特徴とする。
この構成によれば、発話モデルを用いて音声区間の中の発話部分の音声区間を切り出す。そして、認識処理の結果得られた学習データを用いて、発話モデルを適応化する。よって、発話部分の音声区間の切り出しと、切り出された音声区間の認識処理と、認識結果に基づく学習データを用いた発話モデルの適応化の処理を繰り返すことができる。よって、音声区間の切り出しの精度が向上し、認識精度が上がり、より多量の学習モデルを獲得できる。
[5]また、本発明の一態様は、上記の音響モデル学習装置において、話者ごと又は話者属性ごとの統計量を表わす話者属性別発話モデルを記憶する話者属性別発話モデル記憶手段と、前記話者属性別発話モデル記憶手段から読み出した前記話者属性別発話モデルを用いて前記音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段とをさらに具備し、前記音響モデル記憶部は、前記話者ごとまたは前記話者属性ごとに区別して前記音響モデルを記憶するものであり、前記認識処理部は、前記話者属性推定手段による推定結果に応じて、該当する前記話者用または前記話者属性用の前記音響モデルを前記音響モデル記憶部から読み出し、この読み出された前記音響モデルを用いて前記音声の認識処理を行なうものであり、さらに、前記話者属性推定手段による推定結果に対応する前記学習データを用いて、前記話者属性別発話モデル記憶手段に記憶された、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの話者属性別発話モデルを更新する話者属性別発話モデル適応化手段を備えることを特徴とする。
この構成によれば、話者属性別発話モデルを用いて話者又は話者属性を推定する。また、話者又は話者属性ごとの音響モデルを備えており、前記の推定結果に応じた音響モデルを用いた認識処理を行なう。この認識処理の結果得られる学習データを用いて話者属性別発話モデルの適応化を行なう。この処理を繰り返すことにより、話者属性別発話モデルの質が向上し、話者又は話者属性を推定する精度が向上し、即ち、話者又は話者属性ごとの音響モデルに適した音声区間を切り出す精度が向上する。よって、認識精度が上がり、より多量の学習モデルを獲得できる。
[6]また、本発明の一態様は、上記の音響モデル学習装置において、前記音響モデル適応化部は、前記話者属性推定手段による推定結果に対応する前記学習データを用いて、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの前記音響モデルを更新するものであることを特徴とする。
この構成によれば、前記の推定結果に対応した学習データを用いて、当該推定結果に対応した音響モデルを適応化する。よって、音響モデルの質がより向上し、認識精度が上がり、より多量の学習モデルを獲得できる。
[7]また、本発明の一態様によるコンピュータプログラムは、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部を具備するコンピュータに、前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理過程と、前記音声に対応するテキストデータと前記認識処理過程において出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理過程と、前記選択処理過程において出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化過程と、の処理を実行させるものである。
本発明によると、字幕が付与されている様々な番組音声から、大量の音響モデルの学習データを効率的に得ることができる。また、字幕と実際の音声との一致率が低い番組音声からも、より効率的に、音響モデルの学習データを得ることが可能となる。また、これまで認識できなかった番組や話者の認識が可能になったり、音声認識の認識精度の向上が可能になったりする。
以下、図面を参照しながら本発明の実施形態について説明する。
[第1の実施の形態]
図1は、第1の実施形態による音響モデル学習装置の機能構成を示すブロック図である。図示するように、音響モデル学習装置100は、字幕テキスト記憶部1と、形態素解析処理部2と、重み付け処理部3と、ベースラインコーパス記憶部4と、合成処理部5と、バイアス化言語モデル記憶部6(言語モデル記憶部)と、重み付け処理部7と、番組音声記憶部8と、音響モデル記憶部9と、認識処理部10と、認識仮説記憶部11と、アライメント処理部12と、選択処理部13と、学習データ記憶部14と、音響モデル適応化部15とを含んで構成される。
字幕テキスト記憶部1は、放送番組の字幕テキストのデータを記憶する。形態素解析処理部2は、字幕テキスト記憶部1から読み出した字幕テキストについて、既存技術を用いて形態素解析処理を行い、その結果を、形態素に区切られた列として出力する。
重み付け処理部3は、形態素解析された字幕テキストについて、ベースラインコーパスと合成するための重み付けを行なう。つまり、重み付け処理部3は、字幕テキストの出現頻度に重み値Wbiasを乗ずるようなバイアスをかける。ベースラインコーパス記憶部4は、ベースラインコーパスを記憶する。ベースラインコーパスは、電子化された自然言語の大量の文章からなるデータベースである。例えば、蓄積された過去のニュース原稿のテキストをベースラインコーパスとして利用する。なお、ベースラインコーパスに対して予め統計処理を行い、後述する言語モデルに合う形式で記憶しておくようにしても良い。
合成処理部5は、重み付け処理部3によって重み付けされた字幕テキストのデータと、ベースラインコーパス記憶部4から読み出したベースラインコーパスとを用いて、これらを合成し、出現する語に関する統計的な数値とともに表わしたバイアス化言語モデルを作成する。バイアス化言語モデル記憶部6は、合成処理部5によって作成されたバイアス付きの言語モデルを記憶する。言語モデルの詳細については、後で図面を参照しながら説明する。
重み付け処理部7は、認識処理部10による認識処理のために、バイアス化言語モデル記憶部6に記憶されている言語モデルに対して重み値Wlmによる重み付けを行なう。これにより、認識処理部10は、言語モデルと音響モデルとをWlm:1の重みの比で用いることとなる。
番組音声記憶部8は、番組音声を記憶している。この番組音声は、字幕テキスト記憶部1に記憶される字幕テキストのデータと対応するものである。
音響モデル記憶部9は、音素とその音素に対応する音響特徴量とを関連付けた音響モデルのデータを記憶する。音響モデルのデータについては後でも説明する。
認識処理部10は、音響モデル記憶部9から読み出した音響モデルと重み値Wlmによる重み付けをつけた言語モデルとを用いて、番組音声記憶部8から読み出す音声の認識処理を行い、認識仮説(認識結果データ)を出力する。認識仮説記憶部11は、この認識仮説を記憶する。
アライメント処理部12は、形態素解析処理部2によって形態素解析処理済みの字幕テキストデータと、認識仮説記憶部11から読み出す認識仮説との一致部分を見つける処理を行なう。具体的には、アライメント処理部12は、これら両データをサーチし、所定数以上連続して語が一致しているか所定数以上連続して文字が一致している箇所を見つける処理を行なう。選択処理部13は、アライメント処理部12によってアライメントされた両データの一致区間を選択し、選択した一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する。
学習データ記憶部14は、選択処理部13によって出力される学習データを記憶する。音響モデル適応化部15は、学習データ記憶部14から読み出した学習データを用いて、音響モデル記憶部9に記憶される音響モデルを適応化する(更新する)処理を行なう。
この音響モデル学習装置100の特徴は、音響モデル適応化部15が存在し、選択処理部13によって出力される学習データを用いて、最大事後推定法(MAP)や最尤線形回帰分析法(MLLR)等の適応化技術により、音響モデル記憶部9に記憶されている音響モデルを適応化(更新)し、さらに適応化された音響モデルを用いて認識処理を繰り返し行なうようにした点である。
また、従来技術と異なり、比較的大きな重み値Wbias(1000程度)と重み値Wlm(16程度)を用いて認識処理を行なう点も、特徴的である。字幕と発話の一致率が低く、自由発話の比率が高い番組では、上記のような重み値を用いることが、認識精度の向上を図りながらより多くの学習データを得られることにつながる。
これは、実験結果からも得られた適切な重み値である。具体的には、本願発明者らが、NHK(日本放送協会)の実際に番組の音声および字幕テキストを用いて行なった実験では、Wbias<5000の領域において、Wlmの変化による単語誤認識率(WER)の差が小さい。また、Wlm<18の領域において、Wbiasの変化による単語誤認識率の差が小さい。そして、Wbias<5000且つWlm<18の場合に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。そして、Wbiasが1000程度でWlmが16程度のときに、特に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。
次に、言語モデルについて説明する。
図2は、バイアス化言語モデル記憶部6によって記憶され認識処理部10によって認識処理の際に使用される言語モデルのデータの構成を示す概略図である。
図2(a)は、形態素単体での出現確率を表わすテーブルを示す。このテーブルは、表形式のデータであり、形態素と出現確率の項目(列)を有する。テーブルの行は、形態素の種類ごとに存在する。各形態素と、その形態素の出現確率とが関連付けられてこのテーブルに保持される。
図2(b)は、形態素と形態素の接続確率を表わすテーブルである。このテーブルは、表形式のデータであり、形態素1と形態素2と接続確率の項目(列)を有する。テーブルの行は、形態素1と形態素2の組み合わせごとに存在する。各行は、形態素1が出現したときその形態素1に直ちに続いて形態素2が出現する(接続する)確率である接続確率の情報を表わしている。
次に、音響モデルについて説明する。
図3は、音響モデル記憶部9によって記憶され認識処理部10によって認識処理の際に使用される音響モデルのデータの構成を示す概略図である。図示するように、音響モデルは、音素と、その音素が発話されるときの音響的特徴量とを関連付けて保持するデータである。音響的特徴量としては、例えば、10ミリ秒ごとの間隔でそれぞれ開始する25ミリ秒のフレーム内の周波数パワー分布を基にしたMFCC(メル周波数ケプストラム係数,Mel-Frequency Cepstrum Coefficient)や、PLP(Perceptual Linear Predictive)などを用いる。
次に、音響モデル学習装置100の動作および処理手順について説明する。
図4は、音響モデル学習装置100全体の処理手順を示すフローチャートである。
図示するように、ステップS01において、まず形態素解析処理部2が、字幕テキスト記憶部1から読み出した字幕テキストの形態素解析処理を行なう。形態素解析処理は、既存の技術により可能である。
次に、ステップS02において重み値Wbiasを用いて形態素解析処理結果に重み付けをするとともに、ステップS03において重み付けされた形態素解析処理結果とベースラインコーパスとを合成する処理を行なう。具体的には、合成処理部5は、形態素解析処理部2による処理結果を統計処理し、各形態素の出現確率を算出するとともに、2つの連続する形態素間の接続確率を算出し、図2(a)に示した形式の出現確率データおよび図2(b)に示した形式の接続確率データを得る。また、合成処理部5は、ベースラインコーパス記憶部4に記憶されているベースラインコーパスを基に、必要に応じて同様の統計処理を行い、図2(a)に示した形式の出現確率データおよび図2(b)に示した形式の接続確率データを得る。これらのうち形態素解析処理部2による字幕テキスト1の処理結果には重み付け処理部3が重み値Wbiasを行い、合成処理部5が両者を合成するための確率計算を行ない、その結果としてバイアス化言語モデルが算出され、これがバイアス化言語モデル記憶部6に書き込まれる。
次に、ステップS04において重み値Wlmを用いてバイアス化言語モデル記憶部6から読み出される言語モデルに重み付けするとともに、ステップ05において認識処理部10は、重み付けされたバイアス化言語モデルと音響モデル記憶部9から読み出した音響モデルを用いて、番組音声記憶部8に記憶されている番組音声の認識処理を行い、その結果として生成される認識仮説を認識仮説記憶部に書き込む。なお、生成される認識仮説は文字列のデータであり、この文字列を形態素ごとに区切る情報を伴っている場合もある。ここで用いられる認識処理自体は、既存技術である。
次に、ステップS06において、アライメント処理部12は、形態素解析処理された字幕テキストと認識処理の結果得られた認識仮説とのアライメント処理を行なう。このアライメント処理は、両データが単語単位で一致する部分を探索することによって行ない、或いは両データ中の複数の単語が連続して一致する区間を探索することによって行なう。アライメント処理の結果、字幕テキストの中の区間と番組音声の中の区間がデータ的に対応付けられる。
次に、ステップS07において、選択処理部13は、元の字幕テキストと認識結果との一致区間を選択する処理を行なう。具体的には、選択処理部13は、両者が3単語以上連続して一致している区間を選択し、その区間の音声(元の番組音声の中の当該音声区間)とそれに対応する単語列を関連付けた学習データを、学習データ記憶部14に書き込む。
次に、ステップS08において、繰り返し処理を終了するか否かを判定する。この判定は、例えば、認識結果の精度が十分かどうかにより行なう。より具体的には、この判定は(a)ステップS05〜S09のループを繰り返した回数(例えば、この回数を3〜4回として良い場合もある)、(b)番組音声全体のうちの選択処理部13によって選択された区間の比率、(c)番組音声全体のうちの選択処理部13によって選択された区間の前回からの増分比率、などのいずれかによって行なう。
判定の結果、繰り返し処理を終了しない場合(ステップS08:NO)には、次のステップS09に進む。
判定の結果、繰り返しを終了する場合(ステップS08:YES)には、このフローチャート全体の処理を終了する。このとき、学習データ記憶部14に累積的に書き込まれたデータが、本装置による学習処理の結果として得られた音響モデルである。
ステップS09においては、音響モデル適応化部15は、得られた学習データを用いて、音響モデル記憶部9に記憶されている音響モデルを適応化する(更新する)処理を行なう。
上記のように、音響モデル学習装置100は、選択処理部13によって出力される学習データを用いて、音響モデル適応化部15が、音響モデル記憶部9に記憶されている音響モデルを適応化し、さらに適応化された音響モデルを用いて認識処理を繰り返し行なうようにしている。
図5は、音響モデル学習装置100による音響モデルの学習の概略を補足的に説明するための図である。この図において、形態素解析結果は字幕テキストを形態素解析して得られたデータであり、このデータは形態素(単語)の一次元的な列である(図中のそれぞれの四角が形態素に相当)。また、認識結果は、音声認識処理の結果得られるラティスから選択された最尤パスに相当するデータであり、このデータもまた形態素の一次元的な列である(図中のそれぞれの四角が形態素に相当)。そして、3単語以上連続して一致する区間が、選択処理部13によって選択される区間であり、図においてはこの区間をハッチングで表わしている。また、選択された区間テキストと、当該区間の音声データおよびそれに対応する音響特徴量のデータとを関連付けたものが、得られる学習データである。
本実施形態では、認識処理の結果である学習データを用いて、音響モデルの適応化を行なっている。そして、適応化された音響モデルを用いて再度認識を行い、学習データを生成する。この音響モデルの適応化と、適応化された音響モデルを用いた認識処理を繰り返すことにより、学習データの正確性が増し、より多くの量の学習データを効率的に得ることができる。
[第2の実施の形態]
次に、本発明の第2の実施形態について説明する。
図6は、同実施形態による音響モデル学習装置101の機能構成を示すブロック図である。図示するように、音響モデル学習装置101は、内部に、音響モデル学習装置(番組A用)101Aと音響モデル学習装置(番組B用)101Bと音響モデル学習装置(番組C用)101Cと音響モデル学習装置(番組D用)101Dとを含んで構成されている。これら音響モデル学習装置101A〜101Dの各々は、それぞれ単一の番組用のものである。
ここで、番組とは、典型的にはテレビやラジオの放送番組であるが、公衆によって直接受信されることを目的とする無線通信の送信であるところの「放送」の番組に限らず、有線通信によるテレビ放送やラジオ放送の番組、インターネットを介してパケットデータとして配信される動画(音声を含む)による放送や音声放送の番組、通信衛星から多数の受信者に向けて送信される番組、視聴者或いは聴取者のリクエストに応じてオン・デマンド的に配信される番組など、音声を含むコンテンツを含んでいる。
なお、音響モデル学習装置101が内部に備える番組個別用の音響モデル学習装置の数は、4に限定されず、任意の自然数として構成しても良い。
音響モデル学習装置101A〜101Dの各々は、図示するように、第1の実施形態で説明した音響モデル学習装置100と同様の構成・機能を有し、同様の動作をする。本実施形態のポイントは、音響モデル学習装置101A〜101Dの各々が専用の番組音声記憶部8と音響モデル記憶部9を備え、個々の音響モデル記憶部9に各々専用の音響モデルを記憶し、この各々専用の音響モデルを用いて認識処理部10が認識処理を行い、その結果得られる学習データが各々専用の学習データ記憶部14に書き込まれ、この学習データが蓄積されて出力されるとともに、この得られた学習データを用いて音響モデル適応化部15が当該番組用の音響モデル記憶部9を適応化する点であり、そのように番組ごとの音響モデルを用いて番組ごとの学習データを得る処理を繰り返す点である。
言い換えれば、音響モデル記憶部9は音響モデルを番組ごとに記憶するものであり、認識処理部10は番組の音声を当該番組に対応した音響モデルを用いて音声の認識処理を行なうものであり、選択処理部13は番組ごとに学習データを出力し、音響モデル適応化部15は、当該番組用の音響モデルを更新する。
なお、音響モデル学習装置101A〜101Dは、そのすべての構成要素をそれぞれが専用に備えるようにしても良いし、一部の構成要素を共用にしても良い。例えば、認識処理部10とアライメント処理部12と選択処理部13と音響モデル適応化部15の処理機能自体は共通のハードウェアを用いて、音響モデル記憶部9に記憶される音響データと認識仮説記憶部11に記憶される認識仮説と学習データ記憶部14に記憶される学習データとが、それぞれの番組専用の領域に分けて管理されるように装置を構成しても良い。
本実施形態の利点は次の通りである。例えば、対談形式のテレビ放送番組の音声を認識させて学習データを得ることを考えた場合、そしてその番組の形式がレギュラー話者(毎回出演する話者)とゲスト話者(特定回のみ出演する話者)の2人による複数回にわたるシリーズ番組を対象とした場合(ここでは放送の各回が番組A〜Dに相当)、異なるゲスト話者の学習データが重要であるならば、番組回ごとの音響モデルの適応化処理を繰り返して行なったほうが、複数回に共通の音響モデルを適応化処理するよりも、話者適応の効果が得られると言える。この場合には、各回から得られた学習データを集めて最終的な音響モデルの学習データを得る。
さらに、上記のような対談形式の番組に限らず、放送番組の中には、限られた数人の話者しかいない番組や、特定の話者が継続してレギュラー出演している番組などがある。本実施形態では、音響モデルの適応化を番組ごとに行なうため、他の番組の学習データが混ざらず、その結果として高い認識精度が得られる。
[第3の実施の形態]
次に、本発明の第3の実施形態について説明する。上記の実施形態では、認識処理部10による認識処理の際の言語モデルと音響モデルそれぞれの重みに影響する重み値Wlmとして固定的な値を用いていた。本実施形態では、音響モデルの適応度合いに応じて、この重み値Wlmを変化させる。
図7は、本実施形態による音響モデル学習装置の処理手順を示すフローチャートである。本フローチャートのステップS31からS39までは、図4に示したS01からS09までに対応し、同様の処理手順であるのでここでは説明を省略する。そして、本フローチャートのステップS39の処理に続いて、ステップS40では、バイアス化言語モデルの重み付け係数を更新する。一例としては、ステップS34からS40までの繰り返し処理の第n回目(n=1,2,3、・・・)における重み値(この重み値はnの関数であるためWlm(n)と表わす)を、
lm(n)=13−0.5n ・・・ (1)
とする。つまり、上の式(1)に従えば、1回目の認識処理に用いる重み値Wlm(1)は12.5であり、2回目の認識処理に用いる重み値Wlm(2)は12.0であり、3回目の認識処理に用いる重み値Wlm(3)は11.5であり、以下同様に、前回の認識処理のときよりも小さい重み値Wlm(n)を用いる。これは、認識処理において、前回の認識処理のときよりも言語モデルによる制約の影響をより小さくすることを意味する。
ステップS40の処理が終わると、ステップS34の処理に戻って新たな重み付け係数Wlmによる言語モデルの重み付けを行い、以下、ステップS35以降の処理に続く。
ここでは言語モデルに対する重み値Wlmを用いて認識処理を行なっているが、これは、言語モデルと音響モデルの重みの比率をWlm:1の比としていることになる。そしてこれは、言語モデルの重み値を1に固定して音響モデルの重み値Wamを用いて(つまり言語モデルと音響モデルの重みの比率を1:Wamの比として)も相対的に同じことであり、この場合、本実施形態では認識処理の繰り返しごとに音響モデルの重み値Wamが徐々に大きくなるように変化させても、同様に、前回の認識処理のときよりも言語モデルによる制約の影響をより小さくすることを意味する。また、重み値WlmとWamとを用いて言語モデルと音響モデルの重みの比率をWlm:Wamの比としても同様であり、本実施形態では、認識処理において前回の認識処理のときよりも言語モデルによる制約の影響がより小さくなるようにする。
また、本実施例の変形例として、重み値Wlmを固定したままで、当該番組音声に対応する字幕テキストのための重み値Wbiasを認識処理の繰り返しに伴って徐々に小さくしていっても、今回認識処理においては前回の認識処理のときよりも言語モデルが相対的に音響モデルよりもより小さい重みで用いられるという同様の作用が得られる。
さらにまた、本実施例の変形例として、重み値Wlmと重み値Wbiasの両方を認識処理の繰り返しに伴って徐々に小さくしていっても、今回認識処理においては前回の認識処理のときよりも言語モデルが相対的に音響モデルよりもより小さい重みで用いられるという同様の作用が得られる。
言い換えれば、本実施形態あるいはその変形例においては、認識処理部10は、バイアス化言語モデル記憶部6から読み出した言語モデルと音響モデル記憶部9から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものである。また、認識処理部10は、音響モデル適応化部15によって更新された音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも言語モデルがより小さい重みで用いられる値としている。
これにより、音響モデルの適応度合いに応じて言語的な制約を減じることとなり、これによってより一層、音響モデルの学習の精度が向上する。
さらに詳細に述べると、第1の実施形態では、認識精度を高めるため、従来技術による方法よりも強い言語的な制約を用いた認識処理を行なうようにしている。つまり、言語モデルの重み付けの度合いを比較的大きくしている。しかしながら、音響モデルを適応化する処理を繰り返すことにより、比較的小さな言語的な制約で認識精度を確保できるようになる。従って、本実施形態では、繰り返し処理による音響モデルの精度向上に応じて言語的制約を減ずるようにしている。この言語的制約の調整により、字幕と発話の不一致区間の検出制度の向上が可能となる。
[第4の実施の形態]
次に、本発明の第4の実施形態について説明する。本実施形態では、話者の交代あるいは話者の属性の交代を検出し、話者に依存した音響モデル或いは話者の属性に依存した音響モデルを用いて認識処理を行なう点が特徴的である。
図8は、本実施形態による音響モデル学習装置の機能構成を示すブロック図である。図示する構成において、音響モデル学習装置102が有する字幕テキスト記憶部1と形態素解析処理部2と重み付け処理部3とベースラインコーパス処理部4と合成処理部5とバイアス化言語モデル記憶部6と重み付け処理部7と番組音声記憶部8は、前述した実施形態におけるそれらと同様のものである。さらに、本実施形態の音響モデル学習装置102は、その特有の構成として、音響モデル記憶部9Fおよび9Mと、認識処理部10MFと、認識仮説記憶部11Fおよび11Mと、アライメント処理部12Fおよび12Mと、選択処理部13Fおよび13Mと、学習データ記憶部14Fおよび14Mと、音響モデル適応化部15Fおよび15Mと、女声発話モデル記憶部16F(発話モデル記憶部、話者属性別発話モデル記憶手段)と、男声発話モデル記憶部16M(発話モデル記憶部、話者属性別発話モデル記憶手段)と、発話モデル適応化部17Fおよび17Mと、音声区間切り出し部18(話者属性推定手段)とを含んで構成される。
女声発話モデル記憶部16Fは、女性の声の統計的な音響特徴量を含む女声発話モデルを記憶している。また、男声発話モデル記憶部16Mは、男性の声の統計的な音響特徴量を含む男声発話モデルを記憶している。つまり、女声発話モデル記憶部16Fと男声発話モデル記憶部16Mは、話者ごと又は話者属性ごとの統計量を表わす話者属性別発話モデルを記憶するための話者属性別発話モデル記憶手段としても機能する。なお、女声および男声の統計的音響特徴量としてはMFCCを用いている。この統計的音響特徴量としては、他にも、PLPやHMM(隠れマルコフモデル)やホルマント周波数の分布などを用いることができる。
音声区間切り出し部18は、女声発話モデル記憶部16Fから読み出した女声発話モデルと男声発話モデル記憶部16Mから読み出した男声発話モデルとを用いて、番組音声の中の、女声で発話されている部分と、男声で発話されている部分と、発話以外の部分(番組中の、例えば無音部分や、背景雑音のみの部分や、音楽の部分や、効果音の部分など)とを区別する。つまり音声区間切り出し部18は、入力される音声がヒトによる発話であるか否かを検出するとともに、発話である場合にはその話者属性(ここでは、話者の性別)を検知する。つまり、音声区間切り出し部18は、話者属性別発話モデルを用いて音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段としても機能する。そして、音声区間切り出し部18は、女声による音声区間と男声による音声区間とをそれぞれ切り出した形で認識処理部10MFに渡す。
また、音響モデル学習装置102は、女声用と男声用の音響モデルを区別して管理し、記憶している。具体的には、音響モデル記憶部9Fには女声用の音響モデルが記憶され、音響モデル記憶部9Mには男声用の音響モデルが記憶されている。つまり、音響モデル記憶部9Fと9Mは、話者ごとまたは話者属性ごとに区別して音響モデルを記憶している。
そして、認識処理部10MFは、音声区間切り出し部18から渡された女声音声区間については音響モデル記憶部9Fから読み出した女声用音響モデルを用いて、また音声区間切り出し部18から渡された男声音声区間については音響モデル記憶部9Mから読み出した男声用音響モデルを用いて、それぞれ認識処理を行なう。つまり、認識処理部10MFは、音声区間切り出し部18によって切り出された音声区間の音声を認識処理する。またつまり、認識処理部10MFは、話者属性推定手段による推定結果に応じて、該当する話者用または話者属性用の音響モデルを用いて前記音声の認識処理を行なう。そして、認識処理部10MFは、女声音声区間から得られた認識結果仮説を認識仮説記憶部11Fに書き込み、男声音声区間から得られた認識結果仮説を認識仮説記憶部11Mに書き込む。
なお、男女別の音声の統計量(Male speech model, Female speech model)を用いて音声区間の検出と男女の話者交代を検出し、性別に依存する音響モデルを用いて認識を行なうには、Toru IMAI, Shoei SATO, Shinichi HOMMA, Kazuo ONOE, Akio KOBAYASHI「Online Speech Detection and Dual-Gender Speech Recognition for Captioning Broadcast News」(IEICE Transactions on Information and Systems 2007 E90-D(8):1286-1291)に記載された方法を利用可能である。
アライメント処理部12Fは、認識仮説記憶部11Fから読み出した女声音声区間の認識仮説のみを用いて、前述した実施形態と同様のアライメント処理を行なう。選択処理部13Fは、アライメント処理部12Fによる処理結果に基づき、字幕テキストと認識仮説とが3語以上連続して一致する箇所を選択し、選択結果を学習データ記憶部14Fに書き込む。これと同様に、アライメント処理部12Mは、認識仮説記憶部11Mから読み出した男声音声区間の認識仮説のみを用いて、前述した実施形態と同様のアライメント処理を行なう。選択処理部13Mは、アライメント処理部12Mによる処理結果に基づき、字幕テキストと認識仮説とが3語以上連続して一致する箇所を選択し、選択結果を学習データ記憶部14Mに書き込む。
このように、音声区間切り出し部18によって切り出された女声音声区間および男声音声区間それぞれに基づいて、女性用および男性用のそれぞれ専用の学習データが得られる。
音響モデル適応化部15Fは、学習データ記憶部14Fから読み出した女声用学習データのみを用いて、音響モデル記憶部9Fに記憶されている女声用音響モデルを適応化(更新)する。また、音響モデル適応化部15Mは、学習データ記憶部14Mから読み出した男声用学習データのみを用いて、音響モデル記憶部9Mに記憶されている男声用音響モデルを適応化(更新)する。つまり、音響モデル適応化部15Fと15Mは、話者属性推定手段による推定結果に対応する学習データを用いて、当該推定結果に対応する話者ごとまたは話者属性ごとの音響モデルを更新するものである。
発話モデル適応化部17Fは、学習データ記憶部14Fから読み出した女声用学習データのみを用いて、女声発話モデル記憶部16Fに記憶されている女声発話モデルを適応化(更新)する。また、発話モデル適応化部17Mは、学習データ記憶部14Mから読み出した男声用学習データのみを用いて、男声発話モデル記憶部16Fに記憶されている男声発話モデルを適応化(更新)する。つまり、発話モデル適応化部17Fと17Mは、話者属性推定手段による推定結果に対応する学習データを用いて、話者属性別発話モデル記憶手段に記憶された、当該推定結果に対応する話者ごとまたは話者属性ごとの話者属性別発話モデルを更新するものである。
また、音響モデル学習装置102は、上記の一連の認識処理、アライメント処理、選択処理、そして音響モデル適応化処理と発話モデル適応化処理を、繰り返し行なう。
上記のような構成および作用により、入力音声の統計的音響特徴量(女声発話モデルおよび男声発話モデル)を利用して高精度な音声区間の切り出しを行なう方法を併用する場合において、得られた学習データを用いて切り出しに使用する上記の統計量も適応化することを繰り返すことができる。これにより、例えば雑音区間を発話区間の音声として認識してしまうような音声区間の切り出し誤りが減少し、学習データの質のさらなる向上が可能となる。
また、話者属性(性別)に依存した音響モデルを使用して認識処理を行なうことにより、話者属性非依存の音響モデルを用いた場合に比べ、高い認識精度を得ることができ、より多くの学習データを作成することができる。
また、入力音声の統計量を利用して話者或いは話者属性の推定手段(音声区間切り出し部18)を備えた音声アルゴリズムを併用する場合に、得られた学習データを用いて話者推定用の統計量(女声発話モデルおよび男声発話モデル)を適応化するとともに、話者(或いは話者属性)ごとに音響モデルを設けて(音響モデル記憶部9Fおよび9M)、これらをそれぞれ適応化しているため、さらに、認識精度の向上が図れる。
なお、本実施形態の更なる変形例として、第2の実施形態で説明した番組ごとの音響モデルを管理する構成(このとき、適宜、発話モデルも番組ごとに管理するようにしても良い)や、第3の実施形態で説明した処理の繰り返しに伴って言語モデルの重み付けを徐々に変化させる構成を併用しても良い。
また、性別ごとに音声区間切り出しのための発話モデルおよび認識処理のための音響モデルを設ける代わりに、或いは性別に加えて、他の話者属性ごと或いは話者個人ごとに、発話モデルや音響モデルを設けて、その話者属性ごと或いは話者個人ごとの音声区間切り出し処理や認識処理を行なうようにしても良い。「他の話者属性」とは、例えば、年齢層などである。このとき、話者の年齢層を例えば、少年期(5歳から14歳)、青年期(15歳から24歳)、壮年期(25歳から44歳)、中年期(45歳から64歳)、高年期(65歳以上)などに分類する。
また、発話環境ごとに、発話モデルや音響モデルを設けるようにしても良い。ここで「発話環境ごと」とは、例えば、話者が原稿を読み上げている形式の場合、対談あるいは座談形式の場合、雑談の場合などである。
また、本実施形態では、発話モデルを利用して音声区間を切り出す構成と、話者属性ごとに音響モデルを設けるとともに話者属性ごとに音声区間を切り出してそれぞれ専用の音響モデルを用いて認識を行い、音響モデルを適応化する構成との両方を用いているが、これらのいずれか一方のみの構成を含むようにしても良い。
<コンピュータシステムを用いた実施形態>
なお、上述した各実施形態における音響モデル学習装置の機能をコンピュータで実現するようにしても良い。その場合、この音響モデル学習の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、第1の実施形態の説明において、選択処理部13は字幕テキストと認識仮説が3単語以上連続して一致している区間を選択することを説明したが、「3」に限らず、適宜所定の単語数以上連続して位置している区間を選択するようにしても良い。また、語数を基準とする代わりに、所定の文字数(例えば、5文字)以上連続して一致している区間を選択するようにしても良い。
<認識実験の結果>
ここで、本願発明者らが実際に行なった認識実験について説明する。
2004年から2007年に放送されたNHK「きょうの健康」94回分の音声と字幕を用いて、音響モデルの学習データを取得し、MLLRとMAPで音響モデルを適応化して認識実験を行なった。評価音声には、2007年6月25日、27日、28日に放送された3回分を用いた。認識実験に用いた言語モデルは、ニュース番組(200万文)と生活情報番組の書き起こし(67万文)に、100倍の重みをつけた評価番組以外の94回分の放送の字幕テキストを加えて学習した。
なお、今回の実験では番組ごとの言語モデルの適応化は行なっていないが、番組関連情報を用いて適応化することによって、より高い精度の言語モデルが利用できる。
認識実験に用いた認識処理部(デコーダ)は、男女別のモノフォンHMMを用いて音声区間を検出し、男女の自動判定(話者属性推定)を行ないながら認識を行なうものである。ベースラインの音響モデルは、340h(男声)と250h(女声)のニュース番組音声であり、区間検出用(音声区間切り出し用)のモノフォンHMM(3状態32混合分布)(発話モデル)、認識用のトライフォンHMM(4000状態、3状態16混合分布)を男女別に作成した。これらの男女別のモノフォンとトライフォンHMMは、各番組用の適応化音響モデルでの認識結果から選択された学習データによって適応化した。
そして、重み値として、Wbias=1000、Wlm=16として、音響モデルの適応化とデコード(認識処理)を最大で5回繰り返して学習データを作成し、繰り返し回数ごとに評価を行なった。その結果、繰り返し回数が多くなるにつれて、得られる学習データの量は多くなり、その増加率は徐々に減少した。単語誤認識率は、繰り返し回数が3から4のときに最も小さくなった。この実験結果から、3回ないしは4回の繰り返し回数は好適である。
評価番組の「きょうの健康」は、女性アナウンサーの司会者(自由発話)、女性解説者(原稿読み上げ)、男性ゲスト(自由発話)による対談で構成されている。司会者と解説者については、適応データ中に同一話者の音声があるため、話者適応の効果も期待される。一方、最も多くの話者があるゲストは、ほぼ毎回異なる話者であるため、話者適応の効果は期待できず、発話スタイル適応による改善のみが得られる。認識処理を行なって話者ごとの単語正解率を測定した結果、音響モデルの適応化前と比べて適応化後は、司会者と解説者の発話において大きな認識率の改善が得られた。また、ゲスト話者(自由発話)についても認識率の改善が得られた。
また、本発明の構成の一要素である選択処理部の有用性を確認するための認識実験も行なった。認識結果(認識仮説)をすべて集めて、選択処理部による選択を行なわずに音響モデルの適応化に用いた場合、認識処理と適応化処理を繰り返しても、得られる学習データの量は改善されず、また単語誤認識率も改善されなかった。つまり、この事実により、本発明の音響モデル学習装置が選択処理部を備えており、選択処理部によって選択された学習データを用いて音響モデルの適応化を行なっていることにより、繰り返し処理の効果が得られることも確認できた。
本発明の第1の実施形態による音響モデル学習装置の機能構成を示したブロック図である。 同実施形態で用いる言語モデルのデータ構成を示した概略図である。 同実施形態で用いる音響モデルのデータ構成を示した概略図である。 同実施形態による音響モデル学習の処理手順を示したフローチャートである。 同実施形態による音響モデル学習の過程におけるアライメント処理および選択処理の概略を示した概略図である。 本発明の第2の実施形態による音響モデル学習装置の機能構成を示したブロック図である。 本発明の第3の実施形態による音響モデル学習装置の処理手順を示したフローチャートである。 本発明の第4の実施形態による音響モデル学習装置の機能構成を示したブロック図である。 従来技術による音響モデル学習装置の機能構成を示したブロック図である。
符号の説明
1 字幕テキスト(Caption text)記憶部
2 形態素解析(Morphological analysis)処理部
3 重み付け処理部
4 ベースラインコーパス(Baseline corpus)記憶部
5 合成処理部
6 バイアス化言語モデル(Biased LM)記憶部(言語モデル記憶部)
7 重み付け処理部
8 番組音声(Program audio)記憶部
9,9F,9M 音響モデル(AM)記憶部
10,10MF 認識(Recognition)処理部
11,11F,11M 認識仮説記憶部
12,12F,12M アライメント(Alignment)処理部
13,13F,13M 選択(Selection)処理部
14,14F,14M 学習データ(Transcripts)記憶部
15,15F,15M 音響モデル適応化部(Adaptation)
16F 女声発話モデル(Female speech model)記憶部(話者属性別発話モデル記憶手段)
16M 男声発話モデル(Male speech model)記憶部(話者属性別発話モデル記憶手段)
17F,17M 発話モデル適応化部(Adaptation)
18 音声区間切り出し部(話者属性推定手段)
100,101,101A〜101D,102 音響モデル学習装置

Claims (5)

  1. 音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
    前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理部と、
    前記音声に対応するテキストデータと前記認識処理部が出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理部と、
    前記選択処理部が出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化部と、
    を具備し、
    前記音響モデル記憶部は、前記音響モデルを番組ごとに記憶するものであり、
    前記認識処理部は、前記番組の音声を、当該番組に対応した前記音響モデルを用いて音声の認識処理を行ない、
    前記選択処理部は、前記番組ごとに前記学習データを出力し、
    前記音響モデル適応化部は、当該番組用の前記音響モデルを更新する、ものであり、
    言語モデルを記憶する言語モデル記憶部をさらに具備し、
    前記認識処理部は、前記言語モデル記憶部から読み出した前記言語モデルと前記音響モデル記憶部から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものであり、
    且つ、前記認識処理部は、音響モデル適応化部によって更新された前記音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも前記言語モデルがより小さい重みで用いられる値とする、
    ことを特徴とする音響モデル学習装置。
  2. 請求項に記載の音響モデル学習装置において、
    前記音声の中の発話部分の特徴量を表わす発話モデルを記憶する発話モデル記憶部と、
    前記発話モデル記憶部から読み出した前記発話モデルを用いて前記音声の中の発話部分の音声区間を切り出す音声区間切り出し部と、
    前記選択処理部が出力した前記学習データを用いて、前記発話モデル記憶部に記憶される前記発話モデルを更新する発話モデル適応化部と、
    をさらに具備し、
    前記認識処理部は、前記音声区間切り出し部によって切り出された前記音声区間の音声を認識処理する、
    ことを特徴とする音響モデル学習装置。
  3. 請求項1または2のいずれか一項に記載の音響モデル学習装置において、
    話者ごと又は話者属性ごとの統計量を表わす話者属性別発話モデルを記憶する話者属性別発話モデル記憶手段と、
    前記話者属性別発話モデル記憶手段から読み出した前記話者属性別発話モデルを用いて前記音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段と、
    をさらに具備し、
    前記音響モデル記憶部は、前記話者ごとまたは前記話者属性ごとに区別して前記音響モデルを記憶するものであり、
    前記認識処理部は、前記話者属性推定手段による推定結果に応じて、該当する前記話者用または前記話者属性用の前記音響モデルを前記音響モデル記憶部から読み出し、この読み出された前記音響モデルを用いて前記音声の認識処理を行なうものであり、
    さらに、
    前記話者属性推定手段による推定結果に対応する前記学習データを用いて、前記話者属性別発話モデル記憶手段に記憶された、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの話者属性別発話モデルを更新する話者属性別発話モデル適応化手段を備える、
    ことを特徴とする音響モデル学習装置。
  4. 請求項に記載の音響モデル学習装置において、
    前記音響モデル適応化部は、前記話者属性推定手段による推定結果に対応する前記学習データを用いて、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの前記音響モデルを更新するものである、
    ことを特徴とする音響モデル学習装置。
  5. 音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
    前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理部と、
    前記音声に対応するテキストデータと前記認識処理部が出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理部と、 前記選択処理部が出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化部と、
    を具備し、
    前記音響モデル記憶部は、前記音響モデルを番組ごとに記憶するものであり、
    前記認識処理部は、前記番組の音声を、当該番組に対応した前記音響モデルを用いて音声の認識処理を行ない、
    前記選択処理部は、前記番組ごとに前記学習データを出力し、
    前記音響モデル適応化部は、当該番組用の前記音響モデルを更新する、ものであり、
    言語モデルを記憶する言語モデル記憶部をさらに具備し、
    前記認識処理部は、前記言語モデル記憶部から読み出した前記言語モデルと前記音響モデル記憶部から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものであり、
    且つ、前記認識処理部は、音響モデル適応化部によって更新された前記音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも前記言語モデルがより小さい重みで用いられる値とする、
    ことを特徴とする音響モデル学習装置としてコンピュータを機能させるプログラム
JP2008053923A 2008-03-04 2008-03-04 音響モデル学習装置およびプログラム Active JP4869268B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008053923A JP4869268B2 (ja) 2008-03-04 2008-03-04 音響モデル学習装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008053923A JP4869268B2 (ja) 2008-03-04 2008-03-04 音響モデル学習装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009210829A JP2009210829A (ja) 2009-09-17
JP4869268B2 true JP4869268B2 (ja) 2012-02-08

Family

ID=41184051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008053923A Active JP4869268B2 (ja) 2008-03-04 2008-03-04 音響モデル学習装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4869268B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109920432A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 一种语音识别方法、装置、设备及存储介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4949310B2 (ja) * 2008-04-10 2012-06-06 日本放送協会 音響処理装置およびプログラム
JPWO2014024751A1 (ja) * 2012-08-10 2016-07-25 エイディシーテクノロジー株式会社 音声応答装置
KR101981332B1 (ko) * 2012-12-26 2019-05-23 주식회사 케이티 청취 난이도를 이용하여 학습 데이터를 생성하는 서버 및 방법
JP6426971B2 (ja) * 2014-10-16 2018-11-21 日本放送協会 学習データ生成装置及びそのプログラム
US20170323644A1 (en) * 2014-12-11 2017-11-09 Nec Corporation Speaker identification device and method for registering features of registered speech for identifying speaker
US10540957B2 (en) 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US10332509B2 (en) * 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
US9922664B2 (en) 2016-03-28 2018-03-20 Nuance Communications, Inc. Characterizing, selecting and adapting audio and acoustic training data for automatic speech recognition systems
JP6578049B2 (ja) * 2018-09-18 2019-09-18 日本放送協会 学習データ生成装置及びそのプログラム
JP7131362B2 (ja) * 2018-12-20 2022-09-06 トヨタ自動車株式会社 制御装置、音声対話装置及びプログラム
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4779239B2 (ja) * 2001-06-13 2011-09-28 日本電気株式会社 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
JP2003099083A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109920432A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 一种语音识别方法、装置、设备及存储介质
US11264034B2 (en) 2019-03-05 2022-03-01 Baidu Online Network Technology (Beijing) Co., Ltd Voice identification method, device, apparatus, and storage medium

Also Published As

Publication number Publication date
JP2009210829A (ja) 2009-09-17

Similar Documents

Publication Publication Date Title
JP4869268B2 (ja) 音響モデル学習装置およびプログラム
JP5149107B2 (ja) 音響処理装置およびプログラム
Zhao et al. Shallow-Fusion End-to-End Contextual Biasing.
US11545142B2 (en) Using context information with end-to-end models for speech recognition
US20200120396A1 (en) Speech recognition for localized content
US10917758B1 (en) Voice-based messaging
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
US7983911B2 (en) Method, module, device and server for voice recognition
EP2356651B1 (en) Adaptation of automatic speech recognition acoustic models
Woodland et al. The development of the 1996 HTK broadcast news transcription system
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
US20060287867A1 (en) Method and apparatus for generating a voice tag
JP6637332B2 (ja) 音声言語コーパス生成装置およびそのプログラム
Lanchantin et al. The development of the Cambridge University alignment systems for the Multi-Genre Broadcast challenge
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2013050605A (ja) 言語モデル切替装置およびそのプログラム
GB2451938A (en) Methods and apparatus for searching of spoken audio data
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP4949310B2 (ja) 音響処理装置およびプログラム
US11563708B1 (en) Message grouping
Siohan CTC Training of Multi-Phone Acoustic Models for Speech Recognition.
Kubala et al. Broadcast news transcription
JP2004347732A (ja) 言語自動識別方法及び装置
JP4972660B2 (ja) 音声学習装置及びプログラム
Ang et al. Automatic speech recognition for closed-captioning of Filipino news broadcasts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4869268

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250