JP2015018186A

JP2015018186A - 適応化装置およびプログラム

Info

Publication number: JP2015018186A
Application number: JP2013146895A
Authority: JP
Inventors: 貴裕奥; Takahiro Oku; 庄衛佐藤; Shoe Sato
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2013-07-12
Filing date: 2013-07-12
Publication date: 2015-01-29

Abstract

【課題】音声区間ごとの認識誤りの度合いに応じて、効果的に音響モデルの適応化を行う適応化装置を提供する。【解決手段】音声認識部は、音響モデル記憶部から読み出した適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する。統計量算出部は、音声認識部によって出力される認識結果データと、適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、音声認識部による認識処理の精度に関する統計量を算出する。適応化重み算出部は、統計量算出部によって算出された統計量に基づき音声区間ごとの適応化重みを算出する。適応化部は、適応化重みを適用しながら、音響モデル記憶部に記憶されている初期の音響モデルを適応化する。【選択図】図１

Description

本発明は、音声認識技術に関する。特に、本発明は、音声認識処理に用いる音響モデルを適応化するための適応化装置およびそのプログラムに関する。

音声認識処理においては、音素と音響特徴量との間の統計的関係を表わす音響モデルを用いる。音声認識処理において、認識性能を向上させるために、音響モデルの話者適応が行われる。音声認識における音響モデルの適応とは、認識性能を向上させるため、認識対象話者や音声環境の音声データを用い、認識対象に合わせてモデルパラメータを最適化させることである。この適応化は、発声内容に対する理想的な出力である教師データがあるかどうかによって教師あり適応と教師なし適応に分類される。前者は、人手による書き起こしなどが教師データとして与えられ、発話内容の音素列が既知の場合の適応手法である。後者は、一般に音声認識を行い、その認識結果を教師データとみなして適応化する手法である。

非特許文献１には、代表的な話者適応化手法として、事前知識を利用し、最大事後確率推定法（Maximum A Posteriori Estimation，ＭＡＰ）を用いて音響モデルを適応化する技術が記載されている。
また、非特許文献２には、話者間の線形写像を用いて音響モデルを適応化する最尤線形回帰法（Maximum Likelihood Linear Regression，ＭＬＬＲ）が記載されている。

Jean-Lue Gauvain，Chin-Hui Lee，"Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains"，IEEE Transactions on Speech and Audio Processing，Vol.2，No.2，p.291-298，April，１９９４年 C.J.Leggetter，P.C.Woodland，"Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models"，Computer Speech and Language，No.9，p.171-185，１９９５年

しかしながら、従来技術による教師あり話者適応化手法は、適応化に用いる音声データの各時刻において、音響モデルの初期モデル（適応化前の音響モデル）による認識のし易さを考慮していないという問題があった。実際には、適応化に用いる音声データにおいて、認識率が例えば１００％である（つまり、認識誤りのない）音声区間に比べて、認識誤りのある音声区間の方が教師あり話者適応化の効果が高いと考えられる。しかしながら、従来技術による教師あり話者適応化手法は、音声区間による認識誤りの有無を考慮せず、どの音声区間も同等に話者適応化を行っていた。

そこで、適応化する前の音響モデルを用いた場合における認識誤りの有無に応じて、音声区間ごとに重みを変えて適応化することも考えられる。しかしながら、その場合には、音声区間ごとの適応化の重みをいかにして決めるかが課題となる。

また、適応化した音響モデルを用いて学習音声を再度音声認識し、その認識結果を用いて重点適応化するということ、即ち音響モデルの繰り返し適応化を行うことも考えられる。しかしながら、その場合には、適応化を繰り返すことにより、認識結果に誤りのない音声区間についても過度に適応化を行ってしまい、即ち学習用データに対する過適応で、認識精度の低下を招いてしまう場合もある。つまり、繰り返し適応化の回数をいかに最適に決めるかが課題となる。

上記の、適応化の重みや、適応化の繰り返し回数について、経験に基づいて人が決定する方法を用いることも考えられるが、より望ましくは、人の判断に依存せずに最適な重みおよび繰り返し回数を決定できるようにすることが求められる。

本発明は、上記の課題認識に基づいて行なわれたものである。即ち、本発明は、音響モデルの適応化を行うにあたり、音声区間ごとの重みを最適に決定したり、複数回繰り返して適応化を行う場合にどの程度の回数まで繰り返すかを最適に決定したりすることのできる最適化装置を提供するものである。

［１］上記の課題を解決するため、本発明の一態様による適応化装置は、音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルであって、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する音響モデル記憶部と、前記音響モデル記憶部から読み出した前記適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する音声認識部と、前記音声認識部によって出力される前記認識結果データと、前記適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、前記音声認識部による認識処理の精度に関する統計量を算出する統計量算出部と、前記統計量算出部によって算出された前記統計量に基づき音声区間ごとの適応化重みを算出する適応化重み算出部と、前記適応化重み算出部によって算出された音声区間ごとの前記適応化重みを適用しながら、前記適応化用音声データに対応する音声区間ごとの音響特徴量と前記書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、前記音響モデル記憶部に記憶されている前記初期の音響モデルを適応化し、前記音響モデル記憶部における前記適応化後の音響モデルを更新する適応化部とを具備することを特徴とする。

上記の構成によれば、認識誤りを起こす音声区間の統計量に大きな重みを与えて適応化音響モデルの学習を行う。そして、そのような音響モデルを用いた場合に高精度な音声認識等の処理を行うことができるようになる。
つまり、適応化装置は、認識結果に基づき、認識誤り区間の統計量を算出する。そして、得られた統計量から、重点適応化の重みを求める。そして、適応化されていない初期の音響モデルを、得られた適応化の重みを用いて、適応化する。

［２］また、本発明の一態様は、上記の適応化装置において、前記音声認識部による認識処理の認識率を、前記書き起こしデータと前記認識結果データとに基づいて算出し、前記認識率が前回の適応化による音響モデルを用いた場合における認識率よりも良くなった場合にはさらに適応化を繰り返すように制御し、その他の場合には適応化の繰り返しを終了するように制御する適応化終了判定部をさらに具備することを特徴とする。

上記の構成によれば、適応化処理を繰り返すことができる。つまり、適応化した音響モデルを用いても認識誤りが改善されない音声区間について、繰り返し、最適な適応重みを求める。なお、適応化処理を繰り返す場合においても、音響モデル記憶部に記憶されている初期の音響モデルを適応化する。これにより、誤りのない音声区間に重みがつくことを避けることができる。また、認識率が良くなるうちは適応化処理を繰り返し、認識率が良くならなくなったら、適応化処理の繰り返しを止める。これらにより、過適応を抑制した音響モデルを生成することができる。
適応化の処理を繰り返し実施することで、繰り返し適応化しても改善されにくい音声区間の適応化重みを大きくして学習することができる。適応化用音声データ（学習音声データ）の認識誤り区間それぞれに最適な重みを適応化することができる。さらに、繰り返しの各回において、１回前に得られた適応化音響モデルではなく、適応化されていない初期の音響モデルから適応化することで、誤りのない音声区間に重みがつくことが避けられ、過適応を抑えた高精度な音響モデルの学習が実現される。
なお、認識率は、正解率と言い換えても良い。また、認識率と誤り率は相補的な関係にあるため、適応化終了判定部、認識率に基づいて繰り返すか否かの制御を行うことと、誤り率に基づいて繰り返すか否かの制御を行うことは、等価である。

［３］また、本発明の一態様は、上記の適応化装置において、前記統計量算出部が算出する前記統計量は、前記音声認識部によって出力される前記認識結果データの、前記音声区間における正誤を表す値であることを特徴とする。
音声区間は、適応化用音声データにおける時間区間である。音声区間は、適応化用音声データにおける一つのフレームまたは複数のフレームに対応する。一つのフレームは、例えば数百分の一秒といった長さを有する時間区間である。各フレームの先頭における時刻を（この時刻が、適応化用音声データにおける先頭からの相対時刻であっても良い）、そのフレームを指標する情報として用いても良い。先頭フレームからのシリアルな番号を、そのフレームを指標する情報として用いても良い。

［４］また、本発明の一態様は、上記の適応化装置において、前記統計量算出部が算出する前記統計量は、前記音声認識部による認識結果から得られる音響尤度と前記書き起こしデータにより前記適応化用音声データをアライメントしたときの音響尤度との間の、前記音声区間における差を表わす値であることを特徴とする。
なお、音声区間については、上の説明で述べたとおりである。

［５］また、本発明の一態様は、音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルであって、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する音響モデル記憶部を備えるコンピュータに、前記音響モデル記憶部から読み出した前記適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する音声認識過程、前記音声認識過程によって出力される前記認識結果データと、前記適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、前記音声認識過程による認識処理の精度に関する統計量を算出する統計量算出過程、前記統計量算出過程によって算出された前記統計量に基づき音声区間ごとの適応化重みを算出する適応化重み算出過程、前記適応化重み算出過程によって算出された音声区間ごとの前記適応化重みを適用しながら、前記適応化用音声データに対応する音声区間ごとの音響特徴量と前記書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、前記音響モデル記憶部に記憶されている前記初期の音響モデルを適応化し、前記音響モデル記憶部における前記適応化後の音響モデルを更新する適応化過程、の処理を実行させるためのプログラムである。

本発明により、音響モデルの繰り返し重点適応化において、適応化の重みの最適化を行なうことができる。また、適応化用（学習用）音声データに過適応してしまうことを抑制することができる。これにより、高精度な音響モデルが学習される。

本発明の実施形態による適応化装置の概略機能構成を示すブロック図である。同実施形態による統計量データ記憶部に記憶される統計量データの構成の一例を示す概略図である。同実施形態による統計量データ記憶部に記憶される統計量データの構成の別の例を示す概略図である。同実施形態による統計量算出部が統計量を求めて保存する処理の手順を示すフローチャートである。同実施形態による適応化装置の全体的な処理の手順を示すフローチャートである。

次に、本発明の一実施形態について、図面を参照しながら説明する。
図１は、適応化装置の概略機能構成を示すブロック図である。この図において、符号１は音響モデルを適応化するための適応化装置である。図示するように、適応化装置１は、書き起こしデータ記憶部１０１と、統計量算出部１０３と、統計量データ記憶部１０４と、適応化重み算出部１０５と、適応化部１０６と、音声認識部１０８と、認識結果記憶部１０９と、適応化終了判定部１１０と、音響モデル記憶部１１１とを含んで構成される。適応化装置１は、全体の処理として、適応化用音声データと書き起こしデータとを取得し、これらのデータを元に音響モデルの適応化を行い、適応化音響モデルを得るものである。

適応化装置１への入力となる適応化用音声データと書き起こしデータは、相互に対応するものである。言い換えれば、入力される書き起こしデータは、適応化用音声データを元に人手で書き起こしたテキストデータである。適応化用音声データは、音声に関する物理量や、音声としての特徴を表わす特徴量を、フレームごとに表わしたデータである。ここでの物理量とは、音声の、音圧レベルや周波数スペクトルである。また特徴量とは、例えば、メル周波数ケプストラム（ＭＦＣＣ）などである。なお、フレームは、数百分の一秒から数千分の一秒程度の長さを有する時間区間である。１フレームの長さは、適宜、定めるようにする。

以下では、各部の機能等を説明する。
書き起こしデータ記憶部１０１は、適応化用音声データに対応する書き起こしのテキストデータを記憶する。この書き起こしデータは、適応化の処理のための正解データとして用いられるものである。

統計量算出部１０３は、音声認識部１０８によって出力される認識結果データと、適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、音声認識部１０８による認識処理の精度に関する統計量を算出する。この統計量の具体的な例（正誤を表わす値、または音響尤度の差の値）については後述する。なお、統計量算出部１０３は、認識結果記憶部１０９から認識結果データを読み出す。また、統計量算出部１０３は、算出した統計量を統計量データ記憶部１０４に書き込む。なお、統計量算出部１０３は、上記の統計量を算出するために、適宜、認識結果データと書き起こしデータとの間のアラインメントを行う。

なお、書き起こしデータや認識結果データは、例えば日本語の漢字・かな混じり文のテキストである。このような書き起こしデータや認識結果データは、音素の列に置き換えることもできる。また、書き起こしデータや認識結果データは、フレームごとの、音素ラベルに置き換えることもできる。なお、フレームと時刻とは対応付いている。各フレームにおける先頭の時刻を、そのフレームの代表時刻として扱って良い。一例として、音素のラベルはトライフォンで表わされる。つまり、現在の音素に対して、直前の音素と直後の音素を並べて表記される。例えば、ある時刻において音素が「ｔ＋ｏ」と表わされている場合、これは、現在の音素が「ｔ」（日本語においてタ行の音を構成する子音）で、直前の音素が無く、直後の音素が「ｏ」（母音の「オ」）であることを示している。同様に、別のある時刻において音素が「ｔ−ｏ＋ｋ」と表わされている場合、これは、現在の音素が「ｏ」で、直前の音素が「ｔ」で、直後の音素が「ｋ」であることを示している。一般に、現在の音素「Ｘ」に対して、直前の音素が「Ｌ」で、直後の音素が「Ｒ」であるときには、「Ｌ−Ｘ＋Ｒ」の形でトライフォンが表わされる。

統計量データ記憶部１０４は、統計量算出部１０３によって算出された統計量を記憶する。
適応化重み算出部１０５は、統計量算出部１０３によって算出された統計量に基づき音声区間ごとの適応化重みを算出する。なお、適応化重み算出部１０５は、重みを算出するための統計量データを統計量データ記憶部１０４から読み出す。重み算出方法の商才については、後述する。

適応化部１０６は、適応化重み算出部１０５によって算出された音声区間ごとの適応化重みを適用しながら、適応化用音声データに対応する音声区間ごとの音響特徴量と書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、音響モデル記憶部１１１に記憶されている初期の音響モデルを適応化し、適応化の結果を用いて、音響モデル記憶部１１１における適応化後の音響モデルを更新する。

適応化部１０６は、Ｃ回目（Ｃ＝１，２，・・・）の適応化の結果をその都度、音響モデル記憶部１１１に書き込む。ここで、Ｃは適応化の回数に対応した値を保持する変数であり、変数Ｃの領域は適応化装置１内の半導体メモリ内に割り当てられている。なお、適応化部１０６は、ＭＬＬＲ適応とＭＡＰ適応を用いる。

音声認識部１０８は、音響モデル記憶部１１１から読み出した適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する。そして、音声認識部１０８は、認識結果データを認識結果記憶部１０９に書き込む。認識結果データは、認識結果のテキストデータであり、このテキストデータを構成する各文字（およびその文字を構成する各音素）は、音声の時刻（フレーム）に対応付けられている。なお、音声認識処理自体は、既存の技術により行う。具体的には、音声認識部１０８は、音響モデルを参照することにより、音声データの特徴量の列から最尤のテキストを求める。なお、このとき、音声認識部１０８が、言語モデル（不図示）をも参照しながら最尤のテキストを求めるようにしても良い。言語モデルは、言語の要素（文字や単語など）の列の出現頻度に関する統計的データである。
認識結果記憶部１０９は、音声認識部１０８による認識結果のデータを記憶する。

適応化終了判定部１１０は、音声認識部１０８による認識処理の認識率を書き起こしデータと認識結果データとに基づいて算出し、算出された認識率が前回の適応化による音響モデルを用いた場合における認識率よりも良くなった場合にはさらに適応化を繰り返す（次の回の適応化を行う）ように制御し、その他の場合（つまり、認識率が良くならなかった場合）には適応化の繰り返しを終了するように制御する。なお、認識率は、書き起こしデータを正解とみなしたときの、認識結果データの正解の程度を表わす率である。なお、認識率＝１−誤り率であるので、認識率の代わりに誤り率を算出して繰り返しの制御を行うようにしても、本質的には同じことである。

音響モデル記憶部１１１は、音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルを記憶する。音響モデル記憶部１１１は、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する。なお、適応化が複数回繰り返して行われる場合もあるので、最後の回の適応化の結果得られた音響モデルを、音響モデル記憶部１１１が前記の適応化後の音響モデルとして記憶するようにする。第１回目の適応化が行われる前には、音響モデル記憶部１１１が記憶する適応化前の初期の音響モデルおよび適応化後の音響モデルは、互いに同一のものである。第１回目以後の適応化が行われた後に、音響モデル記憶部１１１における適応化後の音響モデルが更新される。
なお、途中の回の適応化の結果得られた音響モデルをも合わせて記憶できるように音響モデル記憶部１１１を構成しても良い。

音響モデル記憶部１１１が記憶する音響モデルは、音響特徴量（ベクトル）に関するガウス分布を表わすデータと、パラメータθを含む。パラメータθは、ベクトルであり、空間Θに属する。音響モデルは、不特定の話者に関するパラメータθ、あるいは特定の話者ごとのパラメータθ（話者のインデックスを付加して、θ_１，θ_２，・・・と表わしても良い）を記憶する。複数の話者に対応する場合には、音響モデルは、各々の話者について、話者識別情報と関連付けて音響モデルのパラメータの値θ_ｊ（ｊ＝１，２，・・・）を記憶する。この音響モデルを用いることにより、音声認識装置は、音響特徴量のサンプルｘ＝（ｘ_１，・・・，ｘ_Ｔ）が観測されたとき、時刻ｔにおける事後確率γ_ｔ（ｉ）を求める。ここで、ｉは、隠れマルコフモデル（ＨＭＭ）の状態（トライフォン表記の音素に相当）である。

図２は、統計量データ記憶部１０４に記憶されるデータの構成の一例を示す概略図である。図示するように、統計量データ記憶部１０４が記憶するデータは、表形式のデータであり、時刻と、統計量の各項目を有している。ここで、時刻は、音声のフレーム番号に対応しており、フレーム番号で表わされる。また、このデータ構成例では、用いられる統計量は、適応回数（Ｃ）ごとの正誤値である。即ち、認識結果の正誤を表わす値が、認識結果の精度を表わす値である。この統計量の詳細については、後で詳述する。

図３は、統計量データ記憶部１０４に記憶されるデータの構成の他の一例を示す概略図である。前図と同様に、統計量データ記憶部１０４が記憶するデータは、表形式のデータであり、時刻と、統計量の各項目を有している。但し、本図におけるデータ構成例では、用いられる統計量は、適応回数（Ｃ）ごとの音響尤度差の値である。即ち、この音響尤度差が、認識結果の精度を表わす値である。この統計量の詳細については、後で詳述する。

図４は、統計量算出部１０３が統計量を求めて保存する処理の手順を示すフローチャートである。なお、このフローチャートは、１回の適応化の処理における手順のみを示す。統計量算出部１０３は、適応回数ごとに（Ｃ＝１，２，３，・・・）このフローチャートの処理を行う。以下、このフローチャートに沿って統計量算出部１０３の処理について説明する。

まずステップＳ２０１において、統計量算出部１０３は、時刻を指標するための変数ｔの値を０にリセットする。このｔの値は、図２および図３に示した時刻（フレーム番号）に対応する。

次にステップＳ２０２において、統計量算出部１０３は、時刻ｔにおける統計量を計算する。
ここで統計量算出部１０３が計算する統計量の一例は、正誤値である。その統計量ｗ_Ｃ（ｔ）は、下の式（１）で表わされる。

ここで、Ｃは適応化の回数（Ｃ＝１，２，３，・・・）である。なお、式（１）を用いる場合の統計量は、図２に示したものである。つまり、この統計量は、適応回数Ｃ回目において、音声データの各時刻（フレーム）での音声認識結果が正解であるか誤りであるかを２値で示したものである。１つのフレームまたは複数のフレームを、音声区間と呼ぶことができる。つまり、図２に示した統計量は、音声区間ごとに、音声認識部１０８による認識処理の精度（正解であるか否か）に関する統計量である。

統計量算出部１０３が計算する統計量の他の例は、音響尤度差である。その統計量ｗ_Ｃ（ｔ）は、下の式（２）で表わされる。

式（２）におけるΔL_Ｃ（ｔ）は、下の式（３）で表わされる。

式（３）の右辺の第１項目のＬ^Ｈ _Ｃ（ｔ）は、適応回数Ｃ回目における認識結果から得られる時刻ｔでの音響尤度である。また、式（３）の右辺の第２項目のＬ^Ｒ _Ｃ（ｔ）は、書き起こしデータにより音声を強制アライメントしたときの時刻ｔでの音響尤度である。そして、式（３）に表わした通り、ΔL_Ｃ（ｔ）は、前者の音響尤度から後者の音響尤度を引いた値である。

つまり、ΔＬ_Ｃ（ｔ）が正であるということは、そのような音声区間においては、正解である書き起こしデータよりも誤った認識結果データの方が優位であることを表わす。つまり、そのような音声区間は、音響モデルのパラメータを更新することが必要であると考えられる。そして、式（２）に表わしたとおり、本例での統計量ｗ_Ｃ（ｔ）としては、ΔL_Ｃ（ｔ）の値（但し、ΔL_Ｃ（ｔ）の値が負の場合には０とする）を用いる。
式（２）を用いる場合の統計量は、図３に示したものである。１つのフレームまたは複数のフレームを、音声区間と呼ぶことができる。つまり、図３に示した統計量は、音声区間ごとに、音声認識部１０８による認識処理の精度（音声区間における、認識結果から得られる音響尤度と、書き起こしデータから得られる音響尤度との差）に関するものである。

次にステップＳ２０３において、統計量算出部１０３は、変数ｔの値に１をたすことによって、ｔが次のフレームを指標するようにする。
次にステップＳ２０４において、統計量算出部１０３は、そのときの変数ｔの値に基づいて、全音声データのサーチが終了したか否かを判定する。そして、全音声データのサーチが終了している場合（ステップＳ２０４：ＹＥＳ）には、次のステップＳ２０５に進む。また、音声データのサーチが終了せず未処理のフレームが残っている場合（ステップＳ２０４：ＮＯ）には、ステップＳ２０２に戻る。

次にステップＳ２０５において、統計量算出部１０３は、適応回数Ｃにおける統計量を蓄積保存する。つまり、統計量算出部１０３は、統計量データ記憶部１０４（図２や図３を参照）の、今回の適応回数Ｃの桁の、ｔ＝０，１，２，・・・の各行に、上で式（１）や式（２）などによって求められた統計量ｗ_Ｃ（ｔ）の値を書き込む。

以上述べたように、統計量算出部１０３は、適応化用音声データの書き起こしデータとその適応化用音声データの認識結果とを比較して、認識誤り区間の統計量を抽出し、繰り返しの適応回ごとに蓄積するよう、統計量データ記憶部１０４への書き込みを行う。

なお、統計量算出部１０３は、適応回ごと（つまり、Ｃの値ごとに）に、上記の統計量算出の処理を行う。

図５は、適応化装置１の全体的な処理の手順を示すフローチャートである。なお、このフローチャートが表わす処理の前に、外部から取得された書き起こしデータは、書き起こしデータ記憶部１０１に既に書き込まれている。また、適応化用音声データは、外部から取得可能な状態となっている。以下、このフローチャートに沿って適応化装置１による処理の流れを説明する。

まずステップＳ３０１において、適応化装置１は、変数Ｃの値を１に初期化する。
次にステップＳ３０２において、音声認識部１０８は、その時点での音響モデルを用いて適応化用音声データの認識処理を行い、その認識結果を認識結果記憶部１０９に書き込む。このとき、音声認識部１０８は、音響モデル記憶部１１１から適応化後の音響モデルのデータを読み出して利用する。Ｃ＝１のときには適応化後の音響モデルとして格納されているのは、初期状態の音響モデルである。言い換えれば、Ｃ＝１のときに適応化後の音響モデルとして格納されているものは、第０回の適応化を行った音響モデルである。Ｃ≧２のときには音響モデルは１回以上（Ｃの値に応じる）適応化された状態である。なお、別途説明するように、繰り返しに応じて音響モデルの適応化を蓄積的に行っていくのではなく、常に初期状態の音響モデルに対してＣ回目の適応化を行う。また、音声認識部１０８による認識結果のデータは、音声データに対応するテキストのデータであり、また音声データにおける時刻（フレーム）と認識結果のテキストとは対応付けられている。

次にステップＳ３０３において、統計量算出部１０３は、書き起こしデータ記憶部１０１から読み出す書き起こしデータと、認識結果記憶部１０９から読み出す認識結果データとを用いて統計量を求め、得られた統計量を統計量データ記憶部１０４に書き込む。ここでは、統計量算出部１０３は、現在の変数Ｃの値についてすべての時刻における統計量データを求める。なお、本ステップの処理手順の詳細については、図４を参照しながら既に説明した通りである。

次にステップＳ３０４において、適応化重み算出部１０５は、統計量データ記憶部１０４から読み出した統計量データに基づいて、適応化の重みを算出する。具体的には、適応化重み算出部１０５は、下の式（４）により時刻ｔにおける適応化の重みを計算する。つまり、適応化重み算出部１０５は、個々の時刻ｔについて、適応化重みを算出する。

なお、既に説明したように、ｗ_ｋ（ｔ）≧０である。ここで、関数ｆはｆ（０）＝１．０を満たす単調増加関数である。関数ｆの一例として、式（５）に示すような一次関数を用いる。

但し、式（５）におけるαは適宜定められる係数であり、α＞０である。つまり、適応化重み算出部１０５において算出される重みＷ_Ｃ（ｔ）は、第１回目の音声認識結果に基づく統計量ｗ_１（ｔ）から第Ｃ回目の音声認識結果に基づく統計量ｗ_Ｃ（ｔ）までの総和に関数ｆを適用した値である。また、関数ｆを適用した結果として得られる重みＷ_Ｃ（ｔ）は、１．０以上の値である（前記の総和値が０以上であるため）。また、前記の総和値が大きければ大きいほど、算出されるＷ_Ｃ（ｔ）の値は大きい（α＞０であるため）。なお、関数ｆの一例を式（５）に示したが、ｆ（０）＝１．０を満たす単調増加関数であれば他の関数を用いても良い。

次にステップＳ３０５において、適応化部１０６は、ステップＳ３０４で算出された適応化重みに基づいて、適応化処理を行う。ここで、適応化部１０６は、ＭＬＬＲ適応とＭＡＰ適応を行う際、下の式（６）で計算されるγ´_ｔ（ｉ）を用いて適応化を行う。

式（６）において、ｔは時刻であり、ｉは音素ＨＭＭ（隠れマルコフモデル）の状態である。そして、ＭＬＬＲ適応とＭＡＰ適応を行う際にフォワードバックワードアルゴリズムにより求められる事後確率γ_ｔ（ｉ）に、式（４）で得られた重みＷ_Ｃ（ｔ）を乗じることにより、適応化に用いるためのγ´_ｔ（ｉ）が得られる。そして、適応化部１０６は、式（６）のγ´_ｔ（ｉ）を用いて適応化することにより音響モデルを適応化する。つまり、適応化部１０６は、音響モデル記憶部１１１に記憶された音響モデルを適応化する。ここでは、式（４）で表わす重みＷ_Ｃ（ｔ）を用いることによって、繰り返し適応化しても改善されづらい音声区間の適応化重みを大きくして学習することがでる。つまり、適応化部１０６は、学習音声データの認識誤り区間それぞれに最適な重みを用いて適応化することができる。

つまり、適応化部１０６は、適応化重み算出部１０５によって算出された音声区間ごとの適応化重みＷ_Ｃ（ｔ）を適用しながら、適応化用音声データに対応する音声区間ごとの音響特徴量と書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、音響モデル記憶部１１１に記憶されている初期の音響モデルを適応化する。
なお、適応化部１０６による処理の詳細については後で説明を追加する。

また、適応化部１０６は、前回（Ｃ−１回目）に得られた適応化音響モデルを適応化して今回（Ｃ回目）の適応化モデルを求めるのではなく、適応化されていない初期の音響モデルから適応化を行う。そして、適応化部１０６は、適応化した結果により、音響モデル記憶部１１１における、適応化後の音響モデルのデータを更新する。このように、初期の音響モデルを基に適応化を行うことより、誤りのない音声区間に重みがつくことが避けられ、過適応を抑えた高精度な音響モデルの学習を実現することが可能となる。

次にステップＳ３０６において、適応化終了判定部１１０が、適応化の繰り返しを終了すべきか否かの判定を行う。そのために、適応化終了判定部１１０は、統計量算出部１０３が保持する情報から、認識率を算出する。図２に示した正誤値を統計量として用いる場合も、図３に示した音響尤度差を統計量として用いる場合も、統計量算出部１０３は、第Ｃ回目の各フレームの認識結果が正解であるか否かの情報を保持している。これに基づき、適応化終了判定部１１０は第Ｃ回目の認識率を算出する。適応化終了判定部１１０は、認識率として、例えば正解フレーム数を全フレーム数で除した値を算出する。そして、適応化終了判定部１１０は、今回（第Ｃ回目）の認識率と、前回（第Ｃ−１回目）に計算しておいた認識率とを比較し、認識率が同等、あるいは認識率が悪化した場合（つまり、第Ｃ回の認識率の方が第Ｃ−１回目の認識率よりも低い場合）には、繰り返し適応化を終了するために（ステップＳ３０６：ＹＥＳ）、ステップＳ３０８に進む。また、上記の比較結果として、認識率が良化した場合（つまり、第Ｃ回の認識率の方が第Ｃ−１回目の認識率よりも高い場合）には、繰り返し適応化を終了せず（ステップＳ３０６：ＹＥＳ）、ステップＳ３０７に進む。

ステップＳ３０７に進んだ場合、適応化装置１は、変数Ｃの値を次に進める。即ち、適応化装置１は、変数Ｃの値に１を加算する。そして、繰り返し適応化を行うためにステップＳ３０２に戻る。

ステップＳ３０８に進んだ場合、適応化終了判定部１１０は、適応化が終了した音響モデルを出力する。そして、適応化装置１は、このフローチャートの全体の処理を終了する。

ここで、適応化部１０６による適応化の処理の詳細を説明する。
適応化部１０６は、ＭＬＬＲ適応とＭＡＰ適応を行なう。これらの適応化処理自体は、既存技術を用いて行える。このとき、適応化部１０６は、適応化用音声データから得られる音響特徴量の列と、音響モデル記憶部１１１に記憶された、パラメータベクトルθによる音響モデル（適応化前の初期の音響モデル）とから、正解候補の音素列の確率を計算する。そして、適応化部１０６は、これにより得られる認識結果候補の音素列（およびその確率）と、教師データである書き起こしデータに対応する音素列との一致度合いから、パラメータベクトルθを評価する。書き起こしデータに対応する音素列は、アライメント処理済みである。そして、適応化部１０６は、適切に定義された評価関数の値が最適値に近付くように、θを探索する。探索アルゴリズムとしては、例えばＥＭアルゴリズムを用いる。その際、適応化部１０６は、フォワードバックワードアルゴリズムにより、時刻ｔにおける事後確率γ_ｔ（ｉ）を求める。ここで、ｉは、隠れマルコフモデル（ＨＭＭ）の状態（トライフォン表記の音素に相当）である。そして、本実施形態による適応化部１０６は、適応化を行なう際には、上記の事後確率γ_ｔ（ｉ）をそのまま用いるのではなく、音声区間ごとの重みを適用し、前記の式（６）によって算出される事後確率γ´_ｔ（ｉ）を用いる。

以上、説明した適応化装置１の処理によれば、第Ｃ回目までの適応化によって認識誤りがなくなった音声区間（あるいは、認識誤りの程度が小さい音声区間）については、次回（第Ｃ＋１回目）の適応化では、重みがゼロとされる（あるいは、相対的に小さい重みとされる）。このように重みを求めるにあたっては、適応化を繰り返しても認識誤りが改善されない音声区間に、繰り返しに応じてより大きな重みが与えられるようになっていく。
しかしながら、この適応化装置１の処理によれば、適応化処理そのものとしては、Ｃ回目までの適応化の結果得られた音響モデルに対して次回さらに蓄積的に適応化を行うのではなく、初期の音響モデルに対する適応化を行う。

＜変形例１＞
次に、上記実施形態の変形例１について説明する。この変形例での機能構成の概略は、図１に示した構成と同様である。本変形例に特有な点は、適応化重み算出部１０５による重みの算出方法である。また、その前提として、適応化用音声データ内で発話されている話題が、時刻に対応付く形で既知である点が、本変形例に特有である。

具体的には、本変形例では、適応化重み算出部１０５は、前述の式（４）ではなく、下の式（７）によって重みＷ_Ｃ（ｔ）を算出する。

式（４）と同様に、式（７）において、ｗ_ｋ（ｔ）は、ｋ回目の適応化の時刻ｔにおける統計量であり、統計量算出部１０３から読み出されるものである。また、式（７）におけるｆも、式（４）におけるｆと同様の関数である。そして、Ｖ（ｔ）は、発話内容の話題に応じた値を取る関数である。具体的には、特定の話題が発話されている音声区間においてＶ（ｔ）の値は比較的大きくなり、その他の音声区間においてＶ（ｔ）の値が比較的小さくなるような、関数Ｖ（ｔ）を用いる。但し、常にＶ（ｔ）≧０である。一例としては、式（８）に示すＶ（ｔ）を用いる。

式（７）で示した重みＷ_Ｃ（ｔ）に基づいて適応化部１０６が音響モデルの適応化の処理をすることにより、話題に依存した適応化を行えるようになる。言い換えれば、Ｖ（ｔ）の値が重みＷ_Ｃ（ｔ）に影響するため、前記の特定の話題に関して認識精度が良くなるような音響モデルの適応化を行なうことができる。

＜変形例２＞
次に、上記実施形態の変形例１について説明する。この変形例での機能構成の概略は、図１に示した構成と同様である。本変形例に特有な点は、上記の式（７）によって重みを算出する際に、下の式（９）で表わす関数Ｖ（ｔ）を用いる点である。

式(９)において、λは正の定数であり、ｔ_ｃｕｒｒは基準となる最新の時刻を示す。つまり、ｔ−ｔ_ｃｕｒｒ＝０のときにＶ（ｔ）＝１であり、ｔが小さくなるにつれてＶ（ｔ）の値は漸近的に０に近付いていく。一定期間ごとに音響モデルの繰り返し適応化を行う場合で、かつ音声データの発話環境が時々刻々と変化するような場合には、重みＶ（ｔ）＝ｅｘｐ（λ（ｔ−ｔ_ｃｕｒｒ））とすることで、ｔが小さいほど，つまり過去の音声区間であるほど，音響モデルの適応化に対するｗ_k（ｔ）の影響が小さくなり、最新の時刻に対応した最適な適応化が可能である。

なお、上述した実施形態における適応化装置の機能をコンピュータで実現するようにしても良い。その場合、この適応化装置を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、音声の音響的特徴を用いた統計的処理に利用可能である。特に、音声認識を利用した、放送番組の字幕制作や、音声対話システムや、会議議事録の自動書き起こしなどの様々な分野に利用可能である。

１適応化装置
１０１書き起こしデータ記憶部
１０３統計量算出部
１０４統計量データ記憶部
１０５適応化重み算出部
１０６適応化部
１０８音声認識部
１０９認識結果記憶部
１１０適応化終了判定部
１１１音響モデル記憶部

Claims

音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルであって、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した前記適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する音声認識部と、
前記音声認識部によって出力される前記認識結果データと、前記適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、前記音声認識部による認識処理の精度に関する統計量を算出する統計量算出部と、
前記統計量算出部によって算出された前記統計量に基づき音声区間ごとの適応化重みを算出する適応化重み算出部と、
前記適応化重み算出部によって算出された音声区間ごとの前記適応化重みを適用しながら、前記適応化用音声データに対応する音声区間ごとの音響特徴量と前記書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、前記音響モデル記憶部に記憶されている前記初期の音響モデルを適応化し、前記音響モデル記憶部における前記適応化後の音響モデルを更新する適応化部と、
を具備することを特徴とする適応化装置。
前記音声認識部による認識処理の認識率を、前記書き起こしデータと前記認識結果データとに基づいて算出し、前記認識率が前回の適応化による音響モデルを用いた場合における認識率よりも良くなった場合にはさらに適応化を繰り返すように制御し、その他の場合には適応化の繰り返しを終了するように制御する適応化終了判定部、
をさらに具備することを特徴とする請求項１に記載の適応化装置。
前記統計量算出部が算出する前記統計量は、前記音声認識部によって出力される前記認識結果データの、前記音声区間における正誤を表す値である、
ことを特徴とする請求項１または２のいずれか一方に記載の適応化装置。
前記統計量算出部が算出する前記統計量は、前記音声認識部による認識結果から得られる音響尤度と前記書き起こしデータにより前記適応化用音声データをアライメントしたときの音響尤度との間の、前記音声区間における差を表わす値である、
ことを特徴とする請求項１または２のいずれか一方に記載の適応化装置。
音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルであって、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する音響モデル記憶部、
を備えるコンピュータに、
前記音響モデル記憶部から読み出した前記適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する音声認識過程、
前記音声認識過程によって出力される前記認識結果データと、前記適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、前記音声認識過程による認識処理の精度に関する統計量を算出する統計量算出過程、
前記統計量算出過程によって算出された前記統計量に基づき音声区間ごとの適応化重みを算出する適応化重み算出過程、
前記適応化重み算出過程によって算出された音声区間ごとの前記適応化重みを適用しながら、前記適応化用音声データに対応する音声区間ごとの音響特徴量と前記書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、前記音響モデル記憶部に記憶されている前記初期の音響モデルを適応化し、前記音響モデル記憶部における前記適応化後の音響モデルを更新する適応化過程、
の処理を実行させるためのプログラム。