JP2009210829A

JP2009210829A - 音響モデル学習装置およびプログラム

Info

Publication number: JP2009210829A
Application number: JP2008053923A
Authority: JP
Inventors: Shoe Sato; 庄衛佐藤; Toru Imai; 亨今井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2008-03-04
Filing date: 2008-03-04
Publication date: 2009-09-17
Anticipated expiration: 2028-03-04
Also published as: JP4869268B2

Abstract

【課題】字幕と発話内容の一致率が低いオフライン字幕を利用した場合にも、高い認識率によって音響モデルの学習データを自動生成し、多様な発話スタイルに対応できる音響モデルを作成できる音響モデル学習装置を提供する。
【解決手段】音響モデル学習装置が、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理部と、音声に対応するテキストデータと認識処理部が出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理部と、選択処理部が出力した学習データを用いて、前記の音響モデルを更新する音響モデル適応化部を備える。
【選択図】図１

Description

本発明は、統計的処理に基づく音声処理に関する。
特に、各音素の音響特徴量の統計量を音響モデルとした音声認識に係わり、例えば放送番組の音声と字幕テキストから音響モデルの学習データを効率的に作成する音響モデル学習装置およびそのプログラムに関する。

統計モデルを用いた音声認識では、各音素の統計量を得るために大量の学習データが必要になる。この学習データは、大量の音声データとその音声に対する書き起こしの対であり、従来人手により時間とコストをかけて作成されてきた。

現在、放送番組の一部には、高齢者や聴覚障害者の番組視聴など音声からの情報が十分に得られない環境でも番組内容が理解できるように、番組音声に対応する字幕テキストが付与されているものがある。この字幕テキストにはオンラインで付与された字幕テキストとオフラインで付与された字幕テキストの２種類があり、前者は番組中の発話内容とほぼ一致している。但し、後者は話し言葉の冗長性を除去し、簡潔で読みやすい字幕を付与できるため、発話内容と字幕との一致率が低い。

上記の一致率が高いオンライン字幕を利用できる場合には、音声区間の切り出しと、切り出された音声に対応する字幕区間の切りだしを行なうことで、音響モデルの学習データを容易に自動作成することができ、読み上げ音声が中心で比較的高い音声認識精度が得られるニュース番組を対象とした場合の認識精度の改善が報告されている（非特許文献１）。この方法では、字幕区間の切り出しに、字幕テキストで適応化した言語モデルを用いて得られた番組音声の認識結果を利用し、字幕テキストと認識結果の一致区間を音響モデルの学習データとしている。この番組音声の認識は、主に音声区間の切り出しと字幕と発話内容の不一致部分の検出を目的として行われ、言語モデルの適応化に用いる字幕テキストの重みは比較的小さいことが特徴である。

図９は、従来技術による音響モデル学習装置の機能構成を示すブロック図である。この図に示す音響モデル学習装置２００は、字幕テキストを形態素単位に分割した後、字幕テキストにＷ_ｂｉａｓの重みを付けて、バイアスのある言語モデル（バイアス化言語モデル８６）を得る。この言語モデルを用いて番組音声を認識する（認識処理部９０）。本装置の主目的は、字幕と発話内容の不一致区間の検出と音声と字幕の切り出しであるため、バイアス重みＷ_ｂｉａｓ（４程度）と言語重みＷ_ｌｍ（１０程度）は比較的小さな値を用いる。次に、番組全体で認識仮説と字幕テキストのＤＰマッチングを行い（アライメント処理部９２）、字幕テキストと認識結果が３単語以上連続して一致している区間を選択し、番組音声中の音声区間と対応する単語列である学習データ（学習データ記憶部９４）が得られる。
Long Nguyen，外１名，"Light Supervision in Acoustic Model Training"，IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP apos;04)，２００４年，Volume 1，ｐ．１７−２１

現在、放送番組の対談部分などの比較的自由なスタイルで発話された部分の認識精度は、読み上げ音声の認識精度に比べて低く、このような部分の認識精度を向上させるため、様々なスタイルで発話された音響モデルの学習データが必要とされている。

放送番組の対談部分などの比較的自由なスタイルでは、オフラインで作成される字幕テキストが用いられるが、前述の通りこの字幕テキストの作成の際は簡潔さが優先されるため、字幕テキストと実際の発話内容との一致率は低い。従来技術による音響モデル学習装置は字幕テキストと実際の発話内容との一致率が高いことを前提としており、従来技術による方法ではこの一致率の低いデータからは高い認識精度が得られず、その結果として音響モデルの学習データを効率よく多量に生成することができないという問題があった。

本発明は、上記事情を考慮して為されたものであり、字幕と発話内容の一致率が低いオフライン字幕を利用した場合にも、高い認識率によって音響モデルの学習データを自動生成し、多様な発話スタイルに対応できる音響モデルを作成することを目的とするものである。

［１］上記の課題を解決するため、本発明の一態様による音響モデル学習装置は、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理部と、前記音声に対応するテキストデータと前記認識処理部が出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理部と、前記選択処理部が出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化部とを具備することを特徴とする。
この構成によれば、音響モデルに基づいて行なわれた音声の認識結果データ（認識仮説）とその音声に対応するテキストデータ（字幕テキストなど）との一致区間から学習データが得られるとともに、得られた学習データを用いて音響モデルを更新する。つまり音響モデルの適応化を行なうことができる。そして、適応化された音響モデルを用いて、再度、認識処理を行なうことにより、より多くの学習データが得られる。このような適応化と学習データ取得を、繰り返すことができ、学習データを多量に得ることが効率的に行なえる。

［２］また、本発明の一態様は、上記の音響モデル学習装置において、前記音響モデル記憶部は、前記音響モデルを番組ごとに記憶するものであり、前記認識処理部は、前記番組の音声を、当該番組に対応した前記音響モデルを用いて音声の認識処理を行ない、前記選択処理部は、前記番組ごとに前記学習データを出力し、前記音響モデル適応化部は、当該番組用の前記音響モデルを更新することを特徴とする。
この構成によれば、認識対象の音声は放送等の番組の音声であり、番組ごとに音響モデルを持ち、番組ごとの認識結果を用いて音響モデルの適応化を行なえる。よって、番組ごとに特有の音響的特徴がある場合に、その特有の特徴に応じた適応化を行なうことができ、認識精度が上がり、より多量の学習モデルを獲得できる。

［３］また、本発明の一態様は、上記の音響モデル学習装置において、言語モデルを記憶する言語モデル記憶部をさらに具備し、前記認識処理部は、前記言語モデル記憶部から読み出した前記言語モデルと前記音響モデル記憶部から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものであり、且つ、前記認識処理部は、音響モデル適応化部によって更新された前記音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも前記言語モデルがより小さい重みで用いられる値とすることを特徴とする。
この構成によれば、認識処理と、認識処理結果を用いた音響モデルの適応化とを、繰り返し行なう場合に、徐々に、言語モデルを用いる重みが相対的に低下する。よって、当初の認識率を高めるために言語モデルの重みを大きめにとった場合にも、音響モデルの適応化の進展に合わせて、言語モデルの重みを減ずることができ、認識精度が上がり、より多量の学習モデルを獲得できる。

［４］また、本発明の一態様は、上記の音響モデル学習装置において、前記音声の中の発話部分の特徴量を表わす発話モデルを記憶する発話モデル記憶部と、前記発話モデル記憶部から読み出した前記発話モデルを用いて前記音声の中の発話部分の音声区間を切り出す音声区間切り出し部と、前記選択処理部が出力した前記学習データを用いて、前記発話モデル記憶部に記憶される前記発話モデルを更新する発話モデル適応化部とをさらに具備し、前記認識処理部は、前記音声区間切り出し部によって切り出された前記音声区間の音声を認識処理することを特徴とする。
この構成によれば、発話モデルを用いて音声区間の中の発話部分の音声区間を切り出す。そして、認識処理の結果得られた学習データを用いて、発話モデルを適応化する。よって、発話部分の音声区間の切り出しと、切り出された音声区間の認識処理と、認識結果に基づく学習データを用いた発話モデルの適応化の処理を繰り返すことができる。よって、音声区間の切り出しの精度が向上し、認識精度が上がり、より多量の学習モデルを獲得できる。

［５］また、本発明の一態様は、上記の音響モデル学習装置において、話者ごと又は話者属性ごとの統計量を表わす話者属性別発話モデルを記憶する話者属性別発話モデル記憶手段と、前記話者属性別発話モデル記憶手段から読み出した前記話者属性別発話モデルを用いて前記音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段とをさらに具備し、前記音響モデル記憶部は、前記話者ごとまたは前記話者属性ごとに区別して前記音響モデルを記憶するものであり、前記認識処理部は、前記話者属性推定手段による推定結果に応じて、該当する前記話者用または前記話者属性用の前記音響モデルを前記音響モデル記憶部から読み出し、この読み出された前記音響モデルを用いて前記音声の認識処理を行なうものであり、さらに、前記話者属性推定手段による推定結果に対応する前記学習データを用いて、前記話者属性別発話モデル記憶手段に記憶された、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの話者属性別発話モデルを更新する話者属性別発話モデル適応化手段を備えることを特徴とする。
この構成によれば、話者属性別発話モデルを用いて話者又は話者属性を推定する。また、話者又は話者属性ごとの音響モデルを備えており、前記の推定結果に応じた音響モデルを用いた認識処理を行なう。この認識処理の結果得られる学習データを用いて話者属性別発話モデルの適応化を行なう。この処理を繰り返すことにより、話者属性別発話モデルの質が向上し、話者又は話者属性を推定する精度が向上し、即ち、話者又は話者属性ごとの音響モデルに適した音声区間を切り出す精度が向上する。よって、認識精度が上がり、より多量の学習モデルを獲得できる。

［６］また、本発明の一態様は、上記の音響モデル学習装置において、前記音響モデル適応化部は、前記話者属性推定手段による推定結果に対応する前記学習データを用いて、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの前記音響モデルを更新するものであることを特徴とする。
この構成によれば、前記の推定結果に対応した学習データを用いて、当該推定結果に対応した音響モデルを適応化する。よって、音響モデルの質がより向上し、認識精度が上がり、より多量の学習モデルを獲得できる。

［７］また、本発明の一態様によるコンピュータプログラムは、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部を具備するコンピュータに、前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理過程と、前記音声に対応するテキストデータと前記認識処理過程において出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理過程と、前記選択処理過程において出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化過程と、の処理を実行させるものである。

本発明によると、字幕が付与されている様々な番組音声から、大量の音響モデルの学習データを効率的に得ることができる。また、字幕と実際の音声との一致率が低い番組音声からも、より効率的に、音響モデルの学習データを得ることが可能となる。また、これまで認識できなかった番組や話者の認識が可能になったり、音声認識の認識精度の向上が可能になったりする。

以下、図面を参照しながら本発明の実施形態について説明する。
［第１の実施の形態］
図１は、第１の実施形態による音響モデル学習装置の機能構成を示すブロック図である。図示するように、音響モデル学習装置１００は、字幕テキスト記憶部１と、形態素解析処理部２と、重み付け処理部３と、ベースラインコーパス記憶部４と、合成処理部５と、バイアス化言語モデル記憶部６（言語モデル記憶部）と、重み付け処理部７と、番組音声記憶部８と、音響モデル記憶部９と、認識処理部１０と、認識仮説記憶部１１と、アライメント処理部１２と、選択処理部１３と、学習データ記憶部１４と、音響モデル適応化部１５とを含んで構成される。

字幕テキスト記憶部１は、放送番組の字幕テキストのデータを記憶する。形態素解析処理部２は、字幕テキスト記憶部１から読み出した字幕テキストについて、既存技術を用いて形態素解析処理を行い、その結果を、形態素に区切られた列として出力する。

重み付け処理部３は、形態素解析された字幕テキストについて、ベースラインコーパスと合成するための重み付けを行なう。つまり、重み付け処理部３は、字幕テキストの出現頻度に重み値Ｗ_ｂｉａｓを乗ずるようなバイアスをかける。ベースラインコーパス記憶部４は、ベースラインコーパスを記憶する。ベースラインコーパスは、電子化された自然言語の大量の文章からなるデータベースである。例えば、蓄積された過去のニュース原稿のテキストをベースラインコーパスとして利用する。なお、ベースラインコーパスに対して予め統計処理を行い、後述する言語モデルに合う形式で記憶しておくようにしても良い。

合成処理部５は、重み付け処理部３によって重み付けされた字幕テキストのデータと、ベースラインコーパス記憶部４から読み出したベースラインコーパスとを用いて、これらを合成し、出現する語に関する統計的な数値とともに表わしたバイアス化言語モデルを作成する。バイアス化言語モデル記憶部６は、合成処理部５によって作成されたバイアス付きの言語モデルを記憶する。言語モデルの詳細については、後で図面を参照しながら説明する。

重み付け処理部７は、認識処理部１０による認識処理のために、バイアス化言語モデル記憶部６に記憶されている言語モデルに対して重み値Ｗ_ｌｍによる重み付けを行なう。これにより、認識処理部１０は、言語モデルと音響モデルとをＷ_ｌｍ：１の重みの比で用いることとなる。

番組音声記憶部８は、番組音声を記憶している。この番組音声は、字幕テキスト記憶部１に記憶される字幕テキストのデータと対応するものである。
音響モデル記憶部９は、音素とその音素に対応する音響特徴量とを関連付けた音響モデルのデータを記憶する。音響モデルのデータについては後でも説明する。

認識処理部１０は、音響モデル記憶部９から読み出した音響モデルと重み値Ｗ_ｌｍによる重み付けをつけた言語モデルとを用いて、番組音声記憶部８から読み出す音声の認識処理を行い、認識仮説（認識結果データ）を出力する。認識仮説記憶部１１は、この認識仮説を記憶する。

アライメント処理部１２は、形態素解析処理部２によって形態素解析処理済みの字幕テキストデータと、認識仮説記憶部１１から読み出す認識仮説との一致部分を見つける処理を行なう。具体的には、アライメント処理部１２は、これら両データをサーチし、所定数以上連続して語が一致しているか所定数以上連続して文字が一致している箇所を見つける処理を行なう。選択処理部１３は、アライメント処理部１２によってアライメントされた両データの一致区間を選択し、選択した一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する。

学習データ記憶部１４は、選択処理部１３によって出力される学習データを記憶する。音響モデル適応化部１５は、学習データ記憶部１４から読み出した学習データを用いて、音響モデル記憶部９に記憶される音響モデルを適応化する（更新する）処理を行なう。

この音響モデル学習装置１００の特徴は、音響モデル適応化部１５が存在し、選択処理部１３によって出力される学習データを用いて、最大事後推定法（ＭＡＰ）や最尤線形回帰分析法（ＭＬＬＲ）等の適応化技術により、音響モデル記憶部９に記憶されている音響モデルを適応化（更新）し、さらに適応化された音響モデルを用いて認識処理を繰り返し行なうようにした点である。

また、従来技術と異なり、比較的大きな重み値Ｗ_ｂｉａｓ（１０００程度）と重み値Ｗ_ｌｍ（１６程度）を用いて認識処理を行なう点も、特徴的である。字幕と発話の一致率が低く、自由発話の比率が高い番組では、上記のような重み値を用いることが、認識精度の向上を図りながらより多くの学習データを得られることにつながる。
これは、実験結果からも得られた適切な重み値である。具体的には、本願発明者らが、ＮＨＫ（日本放送協会）の実際に番組の音声および字幕テキストを用いて行なった実験では、Ｗ_ｂｉａｓ＜５０００の領域において、Ｗ_ｌｍの変化による単語誤認識率（ＷＥＲ）の差が小さい。また、Ｗ_ｌｍ＜１８の領域において、Ｗ_ｂｉａｓの変化による単語誤認識率の差が小さい。そして、Ｗ_ｂｉａｓ＜５０００且つＷ_ｌｍ＜１８の場合に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。そして、Ｗ_ｂｉａｓが１０００程度でＷ_ｌｍが１６程度のときに、特に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。

次に、言語モデルについて説明する。
図２は、バイアス化言語モデル記憶部６によって記憶され認識処理部１０によって認識処理の際に使用される言語モデルのデータの構成を示す概略図である。
図２（ａ）は、形態素単体での出現確率を表わすテーブルを示す。このテーブルは、表形式のデータであり、形態素と出現確率の項目（列）を有する。テーブルの行は、形態素の種類ごとに存在する。各形態素と、その形態素の出現確率とが関連付けられてこのテーブルに保持される。
図２（ｂ）は、形態素と形態素の接続確率を表わすテーブルである。このテーブルは、表形式のデータであり、形態素１と形態素２と接続確率の項目（列）を有する。テーブルの行は、形態素１と形態素２の組み合わせごとに存在する。各行は、形態素１が出現したときその形態素１に直ちに続いて形態素２が出現する（接続する）確率である接続確率の情報を表わしている。

次に、音響モデルについて説明する。
図３は、音響モデル記憶部９によって記憶され認識処理部１０によって認識処理の際に使用される音響モデルのデータの構成を示す概略図である。図示するように、音響モデルは、音素と、その音素が発話されるときの音響的特徴量とを関連付けて保持するデータである。音響的特徴量としては、例えば、１０ミリ秒ごとの間隔でそれぞれ開始する２５ミリ秒のフレーム内の周波数パワー分布を基にしたＭＦＣＣ（メル周波数ケプストラム係数，Mel-Frequency Cepstrum Coefficient）や、ＰＬＰ（Perceptual Linear Predictive）などを用いる。

次に、音響モデル学習装置１００の動作および処理手順について説明する。
図４は、音響モデル学習装置１００全体の処理手順を示すフローチャートである。
図示するように、ステップＳ０１において、まず形態素解析処理部２が、字幕テキスト記憶部１から読み出した字幕テキストの形態素解析処理を行なう。形態素解析処理は、既存の技術により可能である。

次に、ステップＳ０２において重み値Ｗ_ｂｉａｓを用いて形態素解析処理結果に重み付けをするとともに、ステップＳ０３において重み付けされた形態素解析処理結果とベースラインコーパスとを合成する処理を行なう。具体的には、合成処理部５は、形態素解析処理部２による処理結果を統計処理し、各形態素の出現確率を算出するとともに、２つの連続する形態素間の接続確率を算出し、図２（ａ）に示した形式の出現確率データおよび図２（ｂ）に示した形式の接続確率データを得る。また、合成処理部５は、ベースラインコーパス記憶部４に記憶されているベースラインコーパスを基に、必要に応じて同様の統計処理を行い、図２（ａ）に示した形式の出現確率データおよび図２（ｂ）に示した形式の接続確率データを得る。これらのうち形態素解析処理部２による字幕テキスト１の処理結果には重み付け処理部３が重み値Ｗ_ｂｉａｓを行い、合成処理部５が両者を合成するための確率計算を行ない、その結果としてバイアス化言語モデルが算出され、これがバイアス化言語モデル記憶部６に書き込まれる。

次に、ステップＳ０４において重み値Ｗ_ｌｍを用いてバイアス化言語モデル記憶部６から読み出される言語モデルに重み付けするとともに、ステップ０５において認識処理部１０は、重み付けされたバイアス化言語モデルと音響モデル記憶部９から読み出した音響モデルを用いて、番組音声記憶部８に記憶されている番組音声の認識処理を行い、その結果として生成される認識仮説を認識仮説記憶部に書き込む。なお、生成される認識仮説は文字列のデータであり、この文字列を形態素ごとに区切る情報を伴っている場合もある。ここで用いられる認識処理自体は、既存技術である。

次に、ステップＳ０６において、アライメント処理部１２は、形態素解析処理された字幕テキストと認識処理の結果得られた認識仮説とのアライメント処理を行なう。このアライメント処理は、両データが単語単位で一致する部分を探索することによって行ない、或いは両データ中の複数の単語が連続して一致する区間を探索することによって行なう。アライメント処理の結果、字幕テキストの中の区間と番組音声の中の区間がデータ的に対応付けられる。

次に、ステップＳ０７において、選択処理部１３は、元の字幕テキストと認識結果との一致区間を選択する処理を行なう。具体的には、選択処理部１３は、両者が３単語以上連続して一致している区間を選択し、その区間の音声（元の番組音声の中の当該音声区間）とそれに対応する単語列を関連付けた学習データを、学習データ記憶部１４に書き込む。

次に、ステップＳ０８において、繰り返し処理を終了するか否かを判定する。この判定は、例えば、認識結果の精度が十分かどうかにより行なう。より具体的には、この判定は（ａ）ステップＳ０５〜Ｓ０９のループを繰り返した回数（例えば、この回数を３〜４回として良い場合もある）、（ｂ）番組音声全体のうちの選択処理部１３によって選択された区間の比率、（ｃ）番組音声全体のうちの選択処理部１３によって選択された区間の前回からの増分比率、などのいずれかによって行なう。
判定の結果、繰り返し処理を終了しない場合（ステップＳ０８：ＮＯ）には、次のステップＳ０９に進む。
判定の結果、繰り返しを終了する場合（ステップＳ０８：ＹＥＳ）には、このフローチャート全体の処理を終了する。このとき、学習データ記憶部１４に累積的に書き込まれたデータが、本装置による学習処理の結果として得られた音響モデルである。

ステップＳ０９においては、音響モデル適応化部１５は、得られた学習データを用いて、音響モデル記憶部９に記憶されている音響モデルを適応化する（更新する）処理を行なう。

上記のように、音響モデル学習装置１００は、選択処理部１３によって出力される学習データを用いて、音響モデル適応化部１５が、音響モデル記憶部９に記憶されている音響モデルを適応化し、さらに適応化された音響モデルを用いて認識処理を繰り返し行なうようにしている。

図５は、音響モデル学習装置１００による音響モデルの学習の概略を補足的に説明するための図である。この図において、形態素解析結果は字幕テキストを形態素解析して得られたデータであり、このデータは形態素（単語）の一次元的な列である（図中のそれぞれの四角が形態素に相当）。また、認識結果は、音声認識処理の結果得られるラティスから選択された最尤パスに相当するデータであり、このデータもまた形態素の一次元的な列である（図中のそれぞれの四角が形態素に相当）。そして、３単語以上連続して一致する区間が、選択処理部１３によって選択される区間であり、図においてはこの区間をハッチングで表わしている。また、選択された区間テキストと、当該区間の音声データおよびそれに対応する音響特徴量のデータとを関連付けたものが、得られる学習データである。

本実施形態では、認識処理の結果である学習データを用いて、音響モデルの適応化を行なっている。そして、適応化された音響モデルを用いて再度認識を行い、学習データを生成する。この音響モデルの適応化と、適応化された音響モデルを用いた認識処理を繰り返すことにより、学習データの正確性が増し、より多くの量の学習データを効率的に得ることができる。

［第２の実施の形態］
次に、本発明の第２の実施形態について説明する。
図６は、同実施形態による音響モデル学習装置１０１の機能構成を示すブロック図である。図示するように、音響モデル学習装置１０１は、内部に、音響モデル学習装置（番組Ａ用）１０１Ａと音響モデル学習装置（番組Ｂ用）１０１Ｂと音響モデル学習装置（番組Ｃ用）１０１Ｃと音響モデル学習装置（番組Ｄ用）１０１Ｄとを含んで構成されている。これら音響モデル学習装置１０１Ａ〜１０１Ｄの各々は、それぞれ単一の番組用のものである。

ここで、番組とは、典型的にはテレビやラジオの放送番組であるが、公衆によって直接受信されることを目的とする無線通信の送信であるところの「放送」の番組に限らず、有線通信によるテレビ放送やラジオ放送の番組、インターネットを介してパケットデータとして配信される動画（音声を含む）による放送や音声放送の番組、通信衛星から多数の受信者に向けて送信される番組、視聴者或いは聴取者のリクエストに応じてオン・デマンド的に配信される番組など、音声を含むコンテンツを含んでいる。
なお、音響モデル学習装置１０１が内部に備える番組個別用の音響モデル学習装置の数は、４に限定されず、任意の自然数として構成しても良い。

音響モデル学習装置１０１Ａ〜１０１Ｄの各々は、図示するように、第１の実施形態で説明した音響モデル学習装置１００と同様の構成・機能を有し、同様の動作をする。本実施形態のポイントは、音響モデル学習装置１０１Ａ〜１０１Ｄの各々が専用の番組音声記憶部８と音響モデル記憶部９を備え、個々の音響モデル記憶部９に各々専用の音響モデルを記憶し、この各々専用の音響モデルを用いて認識処理部１０が認識処理を行い、その結果得られる学習データが各々専用の学習データ記憶部１４に書き込まれ、この学習データが蓄積されて出力されるとともに、この得られた学習データを用いて音響モデル適応化部１５が当該番組用の音響モデル記憶部９を適応化する点であり、そのように番組ごとの音響モデルを用いて番組ごとの学習データを得る処理を繰り返す点である。
言い換えれば、音響モデル記憶部９は音響モデルを番組ごとに記憶するものであり、認識処理部１０は番組の音声を当該番組に対応した音響モデルを用いて音声の認識処理を行なうものであり、選択処理部１３は番組ごとに学習データを出力し、音響モデル適応化部１５は、当該番組用の音響モデルを更新する。

なお、音響モデル学習装置１０１Ａ〜１０１Ｄは、そのすべての構成要素をそれぞれが専用に備えるようにしても良いし、一部の構成要素を共用にしても良い。例えば、認識処理部１０とアライメント処理部１２と選択処理部１３と音響モデル適応化部１５の処理機能自体は共通のハードウェアを用いて、音響モデル記憶部９に記憶される音響データと認識仮説記憶部１１に記憶される認識仮説と学習データ記憶部１４に記憶される学習データとが、それぞれの番組専用の領域に分けて管理されるように装置を構成しても良い。

本実施形態の利点は次の通りである。例えば、対談形式のテレビ放送番組の音声を認識させて学習データを得ることを考えた場合、そしてその番組の形式がレギュラー話者（毎回出演する話者）とゲスト話者（特定回のみ出演する話者）の２人による複数回にわたるシリーズ番組を対象とした場合（ここでは放送の各回が番組Ａ〜Ｄに相当）、異なるゲスト話者の学習データが重要であるならば、番組回ごとの音響モデルの適応化処理を繰り返して行なったほうが、複数回に共通の音響モデルを適応化処理するよりも、話者適応の効果が得られると言える。この場合には、各回から得られた学習データを集めて最終的な音響モデルの学習データを得る。

さらに、上記のような対談形式の番組に限らず、放送番組の中には、限られた数人の話者しかいない番組や、特定の話者が継続してレギュラー出演している番組などがある。本実施形態では、音響モデルの適応化を番組ごとに行なうため、他の番組の学習データが混ざらず、その結果として高い認識精度が得られる。

［第３の実施の形態］
次に、本発明の第３の実施形態について説明する。上記の実施形態では、認識処理部１０による認識処理の際の言語モデルと音響モデルそれぞれの重みに影響する重み値Ｗ_ｌｍとして固定的な値を用いていた。本実施形態では、音響モデルの適応度合いに応じて、この重み値Ｗ_ｌｍを変化させる。

図７は、本実施形態による音響モデル学習装置の処理手順を示すフローチャートである。本フローチャートのステップＳ３１からＳ３９までは、図４に示したＳ０１からＳ０９までに対応し、同様の処理手順であるのでここでは説明を省略する。そして、本フローチャートのステップＳ３９の処理に続いて、ステップＳ４０では、バイアス化言語モデルの重み付け係数を更新する。一例としては、ステップＳ３４からＳ４０までの繰り返し処理の第ｎ回目（ｎ＝１，２，３、・・・）における重み値（この重み値はｎの関数であるためＷ_ｌｍ（ｎ）と表わす）を、
Ｗ_ｌｍ（ｎ）＝１３−０．５ｎ・・・（１）
とする。つまり、上の式（１）に従えば、１回目の認識処理に用いる重み値Ｗ_ｌｍ（１）は１２．５であり、２回目の認識処理に用いる重み値Ｗ_ｌｍ（２）は１２．０であり、３回目の認識処理に用いる重み値Ｗ_ｌｍ（３）は１１．５であり、以下同様に、前回の認識処理のときよりも小さい重み値Ｗ_ｌｍ（ｎ）を用いる。これは、認識処理において、前回の認識処理のときよりも言語モデルによる制約の影響をより小さくすることを意味する。
ステップＳ４０の処理が終わると、ステップＳ３４の処理に戻って新たな重み付け係数Ｗ_ｌｍによる言語モデルの重み付けを行い、以下、ステップＳ３５以降の処理に続く。

ここでは言語モデルに対する重み値Ｗ_ｌｍを用いて認識処理を行なっているが、これは、言語モデルと音響モデルの重みの比率をＷ_ｌｍ：１の比としていることになる。そしてこれは、言語モデルの重み値を１に固定して音響モデルの重み値Ｗ_ａｍを用いて（つまり言語モデルと音響モデルの重みの比率を１：Ｗ_ａｍの比として）も相対的に同じことであり、この場合、本実施形態では認識処理の繰り返しごとに音響モデルの重み値Ｗ_ａｍが徐々に大きくなるように変化させても、同様に、前回の認識処理のときよりも言語モデルによる制約の影響をより小さくすることを意味する。また、重み値Ｗ_ｌｍとＷ_ａｍとを用いて言語モデルと音響モデルの重みの比率をＷ_ｌｍ：Ｗ_ａｍの比としても同様であり、本実施形態では、認識処理において前回の認識処理のときよりも言語モデルによる制約の影響がより小さくなるようにする。

また、本実施例の変形例として、重み値Ｗ_ｌｍを固定したままで、当該番組音声に対応する字幕テキストのための重み値Ｗ_ｂｉａｓを認識処理の繰り返しに伴って徐々に小さくしていっても、今回認識処理においては前回の認識処理のときよりも言語モデルが相対的に音響モデルよりもより小さい重みで用いられるという同様の作用が得られる。
さらにまた、本実施例の変形例として、重み値Ｗ_ｌｍと重み値Ｗ_ｂｉａｓの両方を認識処理の繰り返しに伴って徐々に小さくしていっても、今回認識処理においては前回の認識処理のときよりも言語モデルが相対的に音響モデルよりもより小さい重みで用いられるという同様の作用が得られる。

言い換えれば、本実施形態あるいはその変形例においては、認識処理部１０は、バイアス化言語モデル記憶部６から読み出した言語モデルと音響モデル記憶部９から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものである。また、認識処理部１０は、音響モデル適応化部１５によって更新された音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも言語モデルがより小さい重みで用いられる値としている。

これにより、音響モデルの適応度合いに応じて言語的な制約を減じることとなり、これによってより一層、音響モデルの学習の精度が向上する。
さらに詳細に述べると、第１の実施形態では、認識精度を高めるため、従来技術による方法よりも強い言語的な制約を用いた認識処理を行なうようにしている。つまり、言語モデルの重み付けの度合いを比較的大きくしている。しかしながら、音響モデルを適応化する処理を繰り返すことにより、比較的小さな言語的な制約で認識精度を確保できるようになる。従って、本実施形態では、繰り返し処理による音響モデルの精度向上に応じて言語的制約を減ずるようにしている。この言語的制約の調整により、字幕と発話の不一致区間の検出制度の向上が可能となる。

［第４の実施の形態］
次に、本発明の第４の実施形態について説明する。本実施形態では、話者の交代あるいは話者の属性の交代を検出し、話者に依存した音響モデル或いは話者の属性に依存した音響モデルを用いて認識処理を行なう点が特徴的である。

図８は、本実施形態による音響モデル学習装置の機能構成を示すブロック図である。図示する構成において、音響モデル学習装置１０２が有する字幕テキスト記憶部１と形態素解析処理部２と重み付け処理部３とベースラインコーパス処理部４と合成処理部５とバイアス化言語モデル記憶部６と重み付け処理部７と番組音声記憶部８は、前述した実施形態におけるそれらと同様のものである。さらに、本実施形態の音響モデル学習装置１０２は、その特有の構成として、音響モデル記憶部９Ｆおよび９Ｍと、認識処理部１０ＭＦと、認識仮説記憶部１１Ｆおよび１１Ｍと、アライメント処理部１２Ｆおよび１２Ｍと、選択処理部１３Ｆおよび１３Ｍと、学習データ記憶部１４Ｆおよび１４Ｍと、音響モデル適応化部１５Ｆおよび１５Ｍと、女声発話モデル記憶部１６Ｆ（発話モデル記憶部、話者属性別発話モデル記憶手段）と、男声発話モデル記憶部１６Ｍ（発話モデル記憶部、話者属性別発話モデル記憶手段）と、発話モデル適応化部１７Ｆおよび１７Ｍと、音声区間切り出し部１８（話者属性推定手段）とを含んで構成される。

女声発話モデル記憶部１６Ｆは、女性の声の統計的な音響特徴量を含む女声発話モデルを記憶している。また、男声発話モデル記憶部１６Ｍは、男性の声の統計的な音響特徴量を含む男声発話モデルを記憶している。つまり、女声発話モデル記憶部１６Ｆと男声発話モデル記憶部１６Ｍは、話者ごと又は話者属性ごとの統計量を表わす話者属性別発話モデルを記憶するための話者属性別発話モデル記憶手段としても機能する。なお、女声および男声の統計的音響特徴量としてはＭＦＣＣを用いている。この統計的音響特徴量としては、他にも、ＰＬＰやＨＭＭ（隠れマルコフモデル）やホルマント周波数の分布などを用いることができる。
音声区間切り出し部１８は、女声発話モデル記憶部１６Ｆから読み出した女声発話モデルと男声発話モデル記憶部１６Ｍから読み出した男声発話モデルとを用いて、番組音声の中の、女声で発話されている部分と、男声で発話されている部分と、発話以外の部分（番組中の、例えば無音部分や、背景雑音のみの部分や、音楽の部分や、効果音の部分など）とを区別する。つまり音声区間切り出し部１８は、入力される音声がヒトによる発話であるか否かを検出するとともに、発話である場合にはその話者属性（ここでは、話者の性別）を検知する。つまり、音声区間切り出し部１８は、話者属性別発話モデルを用いて音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段としても機能する。そして、音声区間切り出し部１８は、女声による音声区間と男声による音声区間とをそれぞれ切り出した形で認識処理部１０ＭＦに渡す。

また、音響モデル学習装置１０２は、女声用と男声用の音響モデルを区別して管理し、記憶している。具体的には、音響モデル記憶部９Ｆには女声用の音響モデルが記憶され、音響モデル記憶部９Ｍには男声用の音響モデルが記憶されている。つまり、音響モデル記憶部９Ｆと９Ｍは、話者ごとまたは話者属性ごとに区別して音響モデルを記憶している。

そして、認識処理部１０ＭＦは、音声区間切り出し部１８から渡された女声音声区間については音響モデル記憶部９Ｆから読み出した女声用音響モデルを用いて、また音声区間切り出し部１８から渡された男声音声区間については音響モデル記憶部９Ｍから読み出した男声用音響モデルを用いて、それぞれ認識処理を行なう。つまり、認識処理部１０ＭＦは、音声区間切り出し部１８によって切り出された音声区間の音声を認識処理する。またつまり、認識処理部１０ＭＦは、話者属性推定手段による推定結果に応じて、該当する話者用または話者属性用の音響モデルを用いて前記音声の認識処理を行なう。そして、認識処理部１０ＭＦは、女声音声区間から得られた認識結果仮説を認識仮説記憶部１１Ｆに書き込み、男声音声区間から得られた認識結果仮説を認識仮説記憶部１１Ｍに書き込む。

なお、男女別の音声の統計量（Male speech model, Female speech model）を用いて音声区間の検出と男女の話者交代を検出し、性別に依存する音響モデルを用いて認識を行なうには、Toru IMAI, Shoei SATO, Shinichi HOMMA, Kazuo ONOE, Akio KOBAYASHI「Online Speech Detection and Dual-Gender Speech Recognition for Captioning Broadcast News」（IEICE Transactions on Information and Systems 2007 E90-D(8):1286-1291）に記載された方法を利用可能である。

アライメント処理部１２Ｆは、認識仮説記憶部１１Ｆから読み出した女声音声区間の認識仮説のみを用いて、前述した実施形態と同様のアライメント処理を行なう。選択処理部１３Ｆは、アライメント処理部１２Ｆによる処理結果に基づき、字幕テキストと認識仮説とが３語以上連続して一致する箇所を選択し、選択結果を学習データ記憶部１４Ｆに書き込む。これと同様に、アライメント処理部１２Ｍは、認識仮説記憶部１１Ｍから読み出した男声音声区間の認識仮説のみを用いて、前述した実施形態と同様のアライメント処理を行なう。選択処理部１３Ｍは、アライメント処理部１２Ｍによる処理結果に基づき、字幕テキストと認識仮説とが３語以上連続して一致する箇所を選択し、選択結果を学習データ記憶部１４Ｍに書き込む。
このように、音声区間切り出し部１８によって切り出された女声音声区間および男声音声区間それぞれに基づいて、女性用および男性用のそれぞれ専用の学習データが得られる。

音響モデル適応化部１５Ｆは、学習データ記憶部１４Ｆから読み出した女声用学習データのみを用いて、音響モデル記憶部９Ｆに記憶されている女声用音響モデルを適応化（更新）する。また、音響モデル適応化部１５Ｍは、学習データ記憶部１４Ｍから読み出した男声用学習データのみを用いて、音響モデル記憶部９Ｍに記憶されている男声用音響モデルを適応化（更新）する。つまり、音響モデル適応化部１５Ｆと１５Ｍは、話者属性推定手段による推定結果に対応する学習データを用いて、当該推定結果に対応する話者ごとまたは話者属性ごとの音響モデルを更新するものである。

発話モデル適応化部１７Ｆは、学習データ記憶部１４Ｆから読み出した女声用学習データのみを用いて、女声発話モデル記憶部１６Ｆに記憶されている女声発話モデルを適応化（更新）する。また、発話モデル適応化部１７Ｍは、学習データ記憶部１４Ｍから読み出した男声用学習データのみを用いて、男声発話モデル記憶部１６Ｆに記憶されている男声発話モデルを適応化（更新）する。つまり、発話モデル適応化部１７Ｆと１７Ｍは、話者属性推定手段による推定結果に対応する学習データを用いて、話者属性別発話モデル記憶手段に記憶された、当該推定結果に対応する話者ごとまたは話者属性ごとの話者属性別発話モデルを更新するものである。

また、音響モデル学習装置１０２は、上記の一連の認識処理、アライメント処理、選択処理、そして音響モデル適応化処理と発話モデル適応化処理を、繰り返し行なう。

上記のような構成および作用により、入力音声の統計的音響特徴量（女声発話モデルおよび男声発話モデル）を利用して高精度な音声区間の切り出しを行なう方法を併用する場合において、得られた学習データを用いて切り出しに使用する上記の統計量も適応化することを繰り返すことができる。これにより、例えば雑音区間を発話区間の音声として認識してしまうような音声区間の切り出し誤りが減少し、学習データの質のさらなる向上が可能となる。
また、話者属性（性別）に依存した音響モデルを使用して認識処理を行なうことにより、話者属性非依存の音響モデルを用いた場合に比べ、高い認識精度を得ることができ、より多くの学習データを作成することができる。
また、入力音声の統計量を利用して話者或いは話者属性の推定手段（音声区間切り出し部１８）を備えた音声アルゴリズムを併用する場合に、得られた学習データを用いて話者推定用の統計量（女声発話モデルおよび男声発話モデル）を適応化するとともに、話者（或いは話者属性）ごとに音響モデルを設けて（音響モデル記憶部９Ｆおよび９Ｍ）、これらをそれぞれ適応化しているため、さらに、認識精度の向上が図れる。

なお、本実施形態の更なる変形例として、第２の実施形態で説明した番組ごとの音響モデルを管理する構成（このとき、適宜、発話モデルも番組ごとに管理するようにしても良い）や、第３の実施形態で説明した処理の繰り返しに伴って言語モデルの重み付けを徐々に変化させる構成を併用しても良い。

また、性別ごとに音声区間切り出しのための発話モデルおよび認識処理のための音響モデルを設ける代わりに、或いは性別に加えて、他の話者属性ごと或いは話者個人ごとに、発話モデルや音響モデルを設けて、その話者属性ごと或いは話者個人ごとの音声区間切り出し処理や認識処理を行なうようにしても良い。「他の話者属性」とは、例えば、年齢層などである。このとき、話者の年齢層を例えば、少年期（５歳から１４歳）、青年期（１５歳から２４歳）、壮年期（２５歳から４４歳）、中年期（４５歳から６４歳）、高年期（６５歳以上）などに分類する。

また、発話環境ごとに、発話モデルや音響モデルを設けるようにしても良い。ここで「発話環境ごと」とは、例えば、話者が原稿を読み上げている形式の場合、対談あるいは座談形式の場合、雑談の場合などである。

また、本実施形態では、発話モデルを利用して音声区間を切り出す構成と、話者属性ごとに音響モデルを設けるとともに話者属性ごとに音声区間を切り出してそれぞれ専用の音響モデルを用いて認識を行い、音響モデルを適応化する構成との両方を用いているが、これらのいずれか一方のみの構成を含むようにしても良い。

＜コンピュータシステムを用いた実施形態＞
なお、上述した各実施形態における音響モデル学習装置の機能をコンピュータで実現するようにしても良い。その場合、この音響モデル学習の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、第１の実施形態の説明において、選択処理部１３は字幕テキストと認識仮説が３単語以上連続して一致している区間を選択することを説明したが、「３」に限らず、適宜所定の単語数以上連続して位置している区間を選択するようにしても良い。また、語数を基準とする代わりに、所定の文字数（例えば、５文字）以上連続して一致している区間を選択するようにしても良い。

＜認識実験の結果＞
ここで、本願発明者らが実際に行なった認識実験について説明する。
２００４年から２００７年に放送されたＮＨＫ「きょうの健康」９４回分の音声と字幕を用いて、音響モデルの学習データを取得し、ＭＬＬＲとＭＡＰで音響モデルを適応化して認識実験を行なった。評価音声には、２００７年６月２５日、２７日、２８日に放送された３回分を用いた。認識実験に用いた言語モデルは、ニュース番組（２００万文）と生活情報番組の書き起こし（６７万文）に、１００倍の重みをつけた評価番組以外の９４回分の放送の字幕テキストを加えて学習した。
なお、今回の実験では番組ごとの言語モデルの適応化は行なっていないが、番組関連情報を用いて適応化することによって、より高い精度の言語モデルが利用できる。
認識実験に用いた認識処理部（デコーダ）は、男女別のモノフォンＨＭＭを用いて音声区間を検出し、男女の自動判定（話者属性推定）を行ないながら認識を行なうものである。ベースラインの音響モデルは、３４０ｈ（男声）と２５０ｈ（女声）のニュース番組音声であり、区間検出用（音声区間切り出し用）のモノフォンＨＭＭ（３状態３２混合分布）（発話モデル）、認識用のトライフォンＨＭＭ（４０００状態、３状態１６混合分布）を男女別に作成した。これらの男女別のモノフォンとトライフォンＨＭＭは、各番組用の適応化音響モデルでの認識結果から選択された学習データによって適応化した。

そして、重み値として、Ｗ_ｂｉａｓ＝１０００、Ｗ_ｌｍ＝１６として、音響モデルの適応化とデコード（認識処理）を最大で５回繰り返して学習データを作成し、繰り返し回数ごとに評価を行なった。その結果、繰り返し回数が多くなるにつれて、得られる学習データの量は多くなり、その増加率は徐々に減少した。単語誤認識率は、繰り返し回数が３から４のときに最も小さくなった。この実験結果から、３回ないしは４回の繰り返し回数は好適である。

評価番組の「きょうの健康」は、女性アナウンサーの司会者（自由発話）、女性解説者（原稿読み上げ）、男性ゲスト（自由発話）による対談で構成されている。司会者と解説者については、適応データ中に同一話者の音声があるため、話者適応の効果も期待される。一方、最も多くの話者があるゲストは、ほぼ毎回異なる話者であるため、話者適応の効果は期待できず、発話スタイル適応による改善のみが得られる。認識処理を行なって話者ごとの単語正解率を測定した結果、音響モデルの適応化前と比べて適応化後は、司会者と解説者の発話において大きな認識率の改善が得られた。また、ゲスト話者（自由発話）についても認識率の改善が得られた。

また、本発明の構成の一要素である選択処理部の有用性を確認するための認識実験も行なった。認識結果（認識仮説）をすべて集めて、選択処理部による選択を行なわずに音響モデルの適応化に用いた場合、認識処理と適応化処理を繰り返しても、得られる学習データの量は改善されず、また単語誤認識率も改善されなかった。つまり、この事実により、本発明の音響モデル学習装置が選択処理部を備えており、選択処理部によって選択された学習データを用いて音響モデルの適応化を行なっていることにより、繰り返し処理の効果が得られることも確認できた。

本発明の第１の実施形態による音響モデル学習装置の機能構成を示したブロック図である。同実施形態で用いる言語モデルのデータ構成を示した概略図である。同実施形態で用いる音響モデルのデータ構成を示した概略図である。同実施形態による音響モデル学習の処理手順を示したフローチャートである。同実施形態による音響モデル学習の過程におけるアライメント処理および選択処理の概略を示した概略図である。本発明の第２の実施形態による音響モデル学習装置の機能構成を示したブロック図である。本発明の第３の実施形態による音響モデル学習装置の処理手順を示したフローチャートである。本発明の第４の実施形態による音響モデル学習装置の機能構成を示したブロック図である。従来技術による音響モデル学習装置の機能構成を示したブロック図である。

符号の説明

１字幕テキスト（Caption text）記憶部
２形態素解析（Morphological analysis）処理部
３重み付け処理部
４ベースラインコーパス（Baseline corpus）記憶部
５合成処理部
６バイアス化言語モデル（Biased LM）記憶部（言語モデル記憶部）
７重み付け処理部
８番組音声（Program audio）記憶部
９，９Ｆ，９Ｍ音響モデル（AM）記憶部
１０，１０ＭＦ認識（Recognition）処理部
１１，１１Ｆ，１１Ｍ認識仮説記憶部
１２，１２Ｆ，１２Ｍアライメント（Alignment）処理部
１３，１３Ｆ，１３Ｍ選択（Selection）処理部
１４，１４Ｆ，１４Ｍ学習データ（Transcripts）記憶部
１５，１５Ｆ，１５Ｍ音響モデル適応化部（Adaptation）
１６Ｆ女声発話モデル（Female speech model）記憶部（話者属性別発話モデル記憶手段）
１６Ｍ男声発話モデル（Male speech model）記憶部（話者属性別発話モデル記憶手段）
１７Ｆ，１７Ｍ発話モデル適応化部（Adaptation）
１８音声区間切り出し部（話者属性推定手段）
１００，１０１，１０１Ａ〜１０１Ｄ，１０２音響モデル学習装置

Claims

音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理部と、
前記音声に対応するテキストデータと前記認識処理部が出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理部と、
前記選択処理部が出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化部と、
を具備することを特徴とする音響モデル学習装置。
請求項１に記載の音響モデル学習装置において、
前記音響モデル記憶部は、前記音響モデルを番組ごとに記憶するものであり、
前記認識処理部は、前記番組の音声を、当該番組に対応した前記音響モデルを用いて音声の認識処理を行ない、
前記選択処理部は、前記番組ごとに前記学習データを出力し、
前記音響モデル適応化部は、当該番組用の前記音響モデルを更新する、
ことを特徴とする音響モデル学習装置。
請求項１または請求項２に記載の音響モデル学習装置において、
言語モデルを記憶する言語モデル記憶部をさらに具備し、
前記認識処理部は、前記言語モデル記憶部から読み出した前記言語モデルと前記音響モデル記憶部から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものであり、
且つ、前記認識処理部は、音響モデル適応化部によって更新された前記音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも前記言語モデルがより小さい重みで用いられる値とする、
ことを特徴とする音響モデル学習装置。
請求項１から３までのいずれか一項に記載の音響モデル学習装置において、
前記音声の中の発話部分の特徴量を表わす発話モデルを記憶する発話モデル記憶部と、
前記発話モデル記憶部から読み出した前記発話モデルを用いて前記音声の中の発話部分の音声区間を切り出す音声区間切り出し部と、
前記選択処理部が出力した前記学習データを用いて、前記発話モデル記憶部に記憶される前記発話モデルを更新する発話モデル適応化部と、
をさらに具備し、
前記認識処理部は、前記音声区間切り出し部によって切り出された前記音声区間の音声を認識処理する、
ことを特徴とする音響モデル学習装置。
請求項１から４までのいずれか一項に記載の音響モデル学習装置において、
話者ごと又は話者属性ごとの統計量を表わす話者属性別発話モデルを記憶する話者属性別発話モデル記憶手段と、
前記話者属性別発話モデル記憶手段から読み出した前記話者属性別発話モデルを用いて前記音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段と、
をさらに具備し、
前記音響モデル記憶部は、前記話者ごとまたは前記話者属性ごとに区別して前記音響モデルを記憶するものであり、
前記認識処理部は、前記話者属性推定手段による推定結果に応じて、該当する前記話者用または前記話者属性用の前記音響モデルを前記音響モデル記憶部から読み出し、この読み出された前記音響モデルを用いて前記音声の認識処理を行なうものであり、
さらに、
前記話者属性推定手段による推定結果に対応する前記学習データを用いて、前記話者属性別発話モデル記憶手段に記憶された、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの話者属性別発話モデルを更新する話者属性別発話モデル適応化手段を備える、
ことを特徴とする音響モデル学習装置。
請求項５に記載の音響モデル学習装置において、
前記音響モデル適応化部は、前記話者属性推定手段による推定結果に対応する前記学習データを用いて、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの前記音響モデルを更新するものである、
ことを特徴とする音響モデル学習装置。
音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部を具備するコンピュータに、
前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理過程と、
前記音声に対応するテキストデータと前記認識処理過程において出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理過程と、
前記選択処理過程において出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化過程と、
の処理を実行させるコンピュータプログラム。