JP2013182261A

JP2013182261A - 適応化装置、音声認識装置、およびそのプログラム

Info

Publication number: JP2013182261A
Application number: JP2012048232A
Authority: JP
Inventors: Takahiro Oku; 貴裕奥; Toru Imai; 亨今井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-03-05
Filing date: 2012-03-05
Publication date: 2013-09-12
Anticipated expiration: 2032-03-05
Also published as: JP6027754B2

Abstract

【課題】音声区間ごとの認識誤りの有無および度合いに応じて、効果的に音響モデルの適応化を行う適応化装置を提供する。
【解決手段】第１アライメント部は、音響モデルを読み込み、音響モデルに基づいて、読み込まれる音声データと音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含む第１アライメント結果データを生成する。第２アライメント部は、音声データの認識結果データを読み込み、音響モデルに基づいて、音声データと読み込んだ認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含む第２アライメント結果データを生成する。そして第１アライメント結果データと第２アライメント結果データの音響尤度データ同士を比較し、比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する。
【選択図】図１

Description

本発明は、音響モデルを適応化する適応化装置、およびその適応化装置を用いる音声認識装置、ならびにそのプログラムに関する。

音声認識処理においては、音素と音響特徴量との間の統計的関係を表わす音響モデルを用いる。音声認識処理において、認識性能を向上させるために、音響モデルの話者適応が行われる。音響モデルの話者適応とは、認識対象話者の音声データを用いて、話者の声質に合わせて、音響モデルのモデルパラメータを変化させることである。話者適応化は、発声内容に関する教師データを用いる教師あり話者適応と、教師データを用いない教師なし話者適応とに分類される。前者は、人手による書き起こしデータ（教師データ、テキストデータ）などが与えられ、発話内容の音素列が既知である場合の適応手法である。また、後者は、一般に話者非依存の音響モデルにより一度音声認識を行い、その認識結果を教師データとみなして適応化する手法である。

非特許文献１には、代表的な話者適応化手法として、事前知識を利用し、最大事後確率推定法（Maximum A Posteriori Estimation，ＭＡＰ）を用いて音響モデルを適応化する技術が記載されている。
また、非特許文献２には、話者間の線形写像を用いて音響モデルを適応化する最尤線形回帰法（Maximum Likelihood Linear Regression，ＭＬＬＲ）が記載されている。

Jean-Lue Gauvain，Chin-Hui Lee，"Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains"，IEEE Transactions on Speech and Audio Processing，Vol.2，No.2，p.291-298，April，１９９４年 C.J.Leggetter，P.C.Woodland，"Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models"，Computer Speech and Language，No.9，p.171-185，１９９５年

しかしながら、従来技術による教師あり話者適応化手法は、適応化に用いる音声データの各時刻において、音響モデルの初期モデル（適応化前の音響モデル）による認識のし易さを考慮していないという問題があった。
実際には、適応化に用いる音声データにおいて、認識率が例えば１００％である（つまり、認識誤りのない）音声区間に比べて、認識誤りのある音声区間の方が教師あり話者適応化の効果が高いと考えられる。しかしながら、従来技術による教師あり話者適応化手法は、音声区間による認識誤りの有無を考慮せず、どの音声区間も同等に話者適応化を行っていた。
つまり、従来技術による手法では、音声データの各時刻で一様に話者適応化を行っていることにより、話者適応化による効果も十分に得られていなかったことが考えられる。

本発明は、上記の課題認識に基づいて行なわれたものであり、音声区間ごとの認識のし易さを考慮して音響モデルの適応化を行う適応化装置、および適応化プログラム、ならびにそのような適応化を行なう音声認識装置を提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様による適応化装置は、音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第１アライメント結果データを生成する第１アライメント部と、前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第２アライメント結果データを生成する第２アライメント部と、前記時刻ごとに前記第１アライメント結果データに含まれる音響尤度データと前記第２アライメント結果データに含まれる音響尤度データとを比較する重点区間検出部と、前記重点区間検出部による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理部とを具備する。

この構成によれば、重点区間検出部は、第１アライメント結果データ（音声データと、対応するテキストデータとのアライメント結果）と第２アライメント結果データ（音声データと、その認識結果データとのアライメント結果）とを各時刻で比較する。そして、両者の音響尤度の異なる時刻を含む音声区間を検出する。適応化処理部は、検出された音声区間において音響モデルを重点的に適応化する。よって、より高精度な適応化を行なうことができ、ひいては高精度な音声認識を実現できる。
なお、第１アライメント部が音響モデルとのアライメントを行なう対象のテキストデータとしては、例えば、書き起こしデータ（教師データ）や、認識結果によるテキストデータ（但し、第２アライメント部がアライメントの対象とする認識結果とは異なるもの）や、その他、音声データに対応し得るテキストを用いる。

［２］また、本発明の一態様は、上記の適応化装置において、前記重点区間検出部は、時刻ごとに、前記第１アライメント結果データに含まれる音響尤度データよりも、前記第２アライメント結果データに含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する、ことを特徴とする。

［３］また、本発明の一態様は、上記の適応化装置において、前記適応化処理部は、前記音響モデルの適応化処理において、前記重点区間検出部が検出した前記重点適応区間に付与する重みを、重点適応区間ではない区間に付与する重みよりも大きくする、ことを特徴とする。
音響尤度データが数値データであり、尤度がより高いほどより大きい数値で表わされる場合には、対応する時刻において、第２アライメント結果データに含まれる音響尤度データの値から、第１アライメント結果データに含まれる音響尤度データの値を減じて、その結果が正である場合に、重点区間検出部は、その区間を重点適応区間として検出する。
これにより、第１アライメントデータに含まれる音響尤度をより高める方向への適応化を、より重点的に行なうこととなる。その結果、より高精度に、音響モデルを適応化することができる。

［４］また、本発明の一態様は、上記の適応化装置において、前記適応化処理部は、前記音響モデルの適応化処理において、前記第２アライメント結果データに含まれる音響尤度データが表わす尤度と前記第１アライメント結果データに含まれる音響尤度データが表わす尤度との差が大きい区間ほど、前記重点適応区間に付与する重みを大きくする、ことを特徴とする。

［５］また、本発明の一態様は、上記のいずれかの適応化装置と、前記音響モデルを記憶する音響モデル記憶部と、前記音響モデルに記憶されている前記音響モデルを読み出して、入力される前記音声データの認識処理を行なう認識処理部と、を具備し、前記適応化装置が具備する前記第１アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと前記テキストデータとを時間的にアラインし、前記適応化装置が具備する前記第２アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと前記認識処理部による認識処理の結果得られる前記認識結果データとを時間的にアラインし、前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込むことを特徴とする音声認識装置である。

この構成により、適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを音響モデル記憶部に書き込む。即ち、音響モデル記憶部を更新する。

［６］また、本発明の一態様は、上記のいずれかの適応化装置と、前記音響モデルを記憶する音響モデル記憶部と、言語要素の出現頻度に関する統計的データを表わす第１言語モデルを記憶する第１言語モデル記憶部と、言語要素の出現頻度に関する統計的データを表わし、前記第１言語モデルとは異なる第２言語モデルを記憶する第２言語モデル記憶部と、前記音響モデル記憶部に記憶されている前記音響モデルを読み出すとともに、前記第１言語モデル記憶部から読み出した前記第１言語モデルあるいは前記第２言語モデル記憶部から読み出した前記第２言語モデルのいずれかを用いて、入力される前記音声データの認識処理を行なう認識処理部と、を具備し、前記適応化装置が具備する前記第１アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと、前記認識処理部が前記第１言語モデルを用いて前記音声データを認識処理して得られた結果である前記テキストデータとを時間的にアラインし、前記適応化装置が具備する前記第２アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと、前記認識処理部が前記第２言語モデルを用いて前記音声データを認識処理して得られた結果である前記認識結果データとを時間的にアラインし、前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、ことを特徴とする音声認識装置である。

この構成により、第１言語モデルを用いて認識処理を行った結果得られるテキストデータを、第１アライメント部におけるアライメントの対象として用いることができる。つまり、テキストデータを用意する必要がない。また、適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを音響モデル記憶部に書き込む。即ち、音響モデル記憶部を更新する。

［７］また、本発明の一態様は、コンピューターを、音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第１アライメント結果データを生成する第１アライメント手段、前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第２アライメント結果データを生成する第２アライメント手段、前記時刻ごとに前記第１アライメント結果データに含まれる音響尤度データと前記第２アライメント結果データに含まれる音響尤度データとを比較する重点区間検出手段、前記重点区間検出手段による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理手段、として機能させるためのプログラムである。

［８］また、本発明の一態様は、コンピューターを上のいずれかに記載の音声認識装置として機能させるためのプログラムである。

本発明によれば、音声認識時の認識誤りに応じて重点区間を検出し、効果的に音響モデルの話者適応化処理を行なう。よって、高精度な音響モデルを得ることができる。つまり、より高精度な音声認識が可能となる。

本発明の第１の実施形態による適応化装置の機能構成を示すブロック図である。同実施形態によるアライメント結果記憶部が記憶するデータの構成を示す概略図である。同実施形態による適応化装置による適応化処理の手順を示すフローチャートである。本発明の第２の実施形態による音声認識装置の機能構成を示すブロック図である。本発明の第３の実施形態による音声認識装置の機能構成を示すブロック図である。

以下、図面を参照しながら、本発明の複数の実施形態について説明する。

［第１の実施形態］
図１は、第１の実施形態による適応化装置の機能構成を示すブロック図である。図示するように、適応化装置１は、書き起こしデータ記憶部１１と、認識結果記憶部１４と、アライメント部１５（第１アライメント部）と、アライメント部１６（第２アライメント部）と、アライメント結果記憶部１７および１８と、重点区間検出部１９と、適応化処理部２０とを含んで構成される。

また、適応化装置１は、適応化処理を行う前の初期モデルである音響モデル１２と、適応化用音声データ１３とを読み込む。適応化用音声データ１３は、適応化に用いるための特定話者の音声データである。つまり、適応化用音声データ１３は、当該特定話者に特有の音響特徴量を有するものである。また、適応化装置１は、適応化用音声データ１３に対応する書き起こしデータと認識結果のデータとを読み込む。そして、適応化装置１は、適応化の結果として得られる話者適応化音響モデル２１を出力する。

適応化装置１の各部について説明する。
書き起こしデータ記憶部１１は、適応化用音声データ１３に対応する書き起こしデータを記憶する。書き起こしデータは、予め人手等によって書き起こされたテキストデータである。書き起こしデータは、基本的には適応化用音声データにおける発話内容を表わす正解データであるが、必ずしも完全な正解データでなくても良く、多少の誤りを含んでいても良い。また、言い換えれば、この書き起こしデータは学習用（適応化用）の教師データである。

認識結果記憶部１４は、認識処理によって予め得られている認識結果のデータを記憶する。認識結果は、不図示の認識装置が、初期モデルである音響モデル１２を用いて、適応化用音声データ１３の認識処理を行った結果得られたものである。

アライメント部１５および１６は、音響モデル１２を用いて、それぞれ、テキストデータと適応化用音声データ１３（音声データ）との間の強制アライメント処理を行う。ここで、音響モデル１２は、音素と音響特徴量との間の統計的関係を表わすデータを含んで構成されるデータである。音響モデルの詳細については、後述する。

そして、アライメント部１５は、音響モデル１２を読み込み、音響モデル１２に基づいて、読み込まれる適応化用音声データ１３と、これに対応する書き起こしデータ（書き起こしデータ記憶部１１から読み出されるテキストデータ）とを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第１アライメント結果データを生成し、アライメント結果記憶部１７に書き込む。また、アライメント部１６は、適応化用音声データ１３に対応する認識結果データを認識結果記憶部１４から読み込み、音響モデル１２に基づいて、適応化用音声データ１３と読み込んだ認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第２アライメント結果データを生成し、アライメント結果記憶部１８に書き込む。つまり、アライメント部１５は、書き起こしデータ記憶部１１から読み出した書き起こしデータのアライメント処理を行う。また、アライメント部１６は、認識結果記憶部１４から読み出した認識結果のアライメント処理を行う。

アライメント結果記憶部１７および１８は、それぞれ、アライメント部１５および１６によるアライメント処理の結果を記憶する。アライメント結果記憶部１７および１８が記憶するデータの構成については後述する。

重点区間検出部１９は、アライメント結果記憶部１７および１８のそれぞれからアライメント結果を読み出し、これに基づき、適応化を重点的に行う音声区問（重点適応区問）を検出する。より具体的には、重点区間検出部１９は、時刻ごとに、アライメント結果記憶部１７が記憶するデータ（第１アライメント結果データ）に含まれる音響尤度データよりも、アライメント結果記憶部１８が記憶するデータ（第２アライメント結果データ）に含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する。

適応化処理部２０は、重点区間検出部１９が検出した重点区間の重みを、その他の区間の重みよりも大きくしながら、音響モデルの適応化処理を行ない、その結果として話者適応化音響モデル２１を出力する。

音響モデル１２は、前述の通り、音素と音響特徴量との間の統計的関係を表わすデータの集合である。音響モデル１２は、音響特徴量（ベクトル）に関するＭ個の混合ガウス分布を表わすデータと、パラメータθを含む。パラメータθは、ベクトルであり、空間Θに属する。音響モデルは、不特定の話者に関するパラメータθ、あるいは特定の話者ごとのパラメータθ（話者のインデックスを付加して、θ_１，θ_２，・・・と表わしても良い）を記憶する。複数の話者に対応する場合には、音響モデルは、各々の話者について、話者識別情報と関連付けて音響モデルのパラメータの値θ_ｊ（ｊ＝１，２，・・・）を記憶する。この音響モデルを用いることにより、音声認識装置は、音響特徴量のサンプルｘ＝（ｘ_１，・・・，ｘ_Ｔ）が観測されたとき、時刻ｔにおける事後確率γ_ｔ（ｉ，ｍ）を求める。ここで、ｉは、隠れマルコフモデル（ＨＭＭ）の状態（トライフォン表記の音素に相当）である。また、ｍ（１≦ｍ≦Ｍ）は、音響モデルにおけるＭ個の混合ガウス分布のうちの一つを指すインデックス値である。

図２は、アライメント結果記憶部１７および１８がそれぞれ記憶するデータの構成を示す概略図である。図示するように、アライメント結果記憶部１７および１８のそれぞれは、表形式のデータであり、時刻と、音素と、音響尤度の各項目（桁）を有している。図中の音響尤度は、当該時刻における音響尤度（０より大きく、１未満）の対数値であり、負数である。このデータのレコード（行）は、フレームごとに存在する。また、このデータの全レコードの集合は、適応化用音声データ１３の全区間に相当する。時刻は、適応化用音声データの開始位置からの相対時刻に相当するものである。この時刻は、図示するように、フレーム番号で表わされる。フレーム番号は０または１から始まるシリアル番号である。フレーム周期は、例えば、数百分の一秒ないしは数千分の一秒である。この時刻が、この表形式のデータにおける主キーである。音素は、当該時刻における音素のラベルである。ここでは、音素のラベルはトライフォンで表わされる。つまり、現在の音素に対して、直前の音素と直後の音素を並べて表記される。例えば、時刻が「３０９」である行においては、音素は「ｔ＋ｏ」と表わされているが、これは、現在の音素が「ｔ」（日本語においてタ行の音を構成する子音）で、直前の音素が無く、直後の音素が「ｏ」（母音の「オ」）であることを示している。同様に、時刻が「３１４」である行においては、音素は「ｔ−ｏ＋ｋ」と表わされているが、これは、現在の音素が「ｏ」で、直前の音素が「ｔ」で、直後の音素が「ｋ」であることを示している。一般に、現在の音素「Ｘ」に対して、直前の音素が「Ｌ」で、直後の音素が「Ｒ」であるときには、「Ｌ−Ｘ＋Ｒ」の形でトライフォンが表わされる。

図３は、適応化装置１による適応化処理の手順を示すフローチャートである。以下、このフローチャートに沿って、詳細な手順を説明する。

まずステップＳ１において、アライメント部１５および１６が、それぞれ、アライメント処理を行う。アライメント部１５は、音響モデル１２を用いて、書き起こしデータ記憶部１１から読み出した書き起こしデータを、適応化用音声データ１３に強制アライメントする。また、アライメント部１５は、音響モデル１２を用いて、認識結果記憶部１４から読み出した認識結果のテキストデータを、適応化用音声データ１３に強制アライメントする。なお、アライメント処理自体は既存技術を用いて行なうことが可能である。アライメント部１５および１６は、それぞれ、書き起こしデータおよび認識結果テキストを音素列に変換し、それらの音素列を、時間軸上で最尤の位置となるように、適応化用音声データから得られるフレームごとの音響特徴量の列にアラインする。なお、時間軸上で最尤の位置となるようにアラインするために、アライメント部１５および１６は、上記の音素列と上記の音響特徴量との間の統計的関係を音響モデル１２から読み出し、適宜尤度を計算しながら探索を行うことによって、尤度最大となるようなアライメントを得る。アライメント部１５および１６は、アライメント処理の結果、音素（トライフォン）と音響尤度のペアを、フレームごとのシーケンスとして、それぞれ、アライメント結果記憶部１７および１８に書き込む。なお、適応化用音声データにおいては、音響特徴量と時刻（フレーム番号）とは元々関連付けられている。

次にステップＳ２からＳ５までの処理で、重点区間検出部１９は、重点適応区間の検出を行なう。

ステップＳ２においては、重点区間検出部１９は、時刻（フレーム番号）を表わす制御用の記憶領域（変数ｔ）をゼロにリセットする。
次にステップＳ３において、重点区間検出部１９は、時刻ｔにおける、認識結果と書き起こしデータとの間の音響尤度差を計算する。アライメントされた書き起こしデータによる、時刻ｔにおける音響尤度（アライメント結果記憶部１７の、時刻ｔの行から読み出される値）をＬ^Ｒ（ｔ）とする。また、アライメントされた認識結果による、時刻ｔにおける音響尤度（アライメント結果記憶部１８の、時刻ｔの行から読み出される値）をＬ^Ｈ（ｔ）とする。このとき、時刻ｔにおける音響尤度差ΔＬ（ｔ）は、次の式（１）で計算される。

重点区間検出部１９は、計算された音響尤度差ΔＬ（ｔ）の値が正のとき、時刻ｔによって代表される区間（フレーム）では、認識結果による音響尤度が書き起こしデータによる音響尤度よりも大きいことから、当該区間を重点適応区間として検出する。逆に、ΔＬ（ｔ）の値が零または負のとき、重点区間検出部１９は、時刻ｔによって代表される区間（フレーム）を重点区間としない。上記のようにΔＬ（ｔ）の値が正である音声区間を重点適応区間とする理由は、書き起こしデータ（正解データ）よりも認識結果の方が優位である区間が、特に適応化が必要な区間であるからである。

次にステップＳ４において、重点区間検出部１９は、時刻を指し示す変数ｔを次に進める。本実施形態では、時刻がフレームのシリアル番号で表わされているため、変数ｔをインクリメントする。
次にステップＳ５において、重点区間検出部１９は、適応化用音声データ１３を全てサーチし終えたか否かを判断する。全てサーチし終えた場合（ステップＳ５：ＹＥＳ）には、次のステップＳ６に進む。まだサーチし終えていない場合（ステップＳ５：ＮＯ）には、ステップＳ３に戻って次のフレームの処理を続ける。

次にステップＳ６に進んだ場合には、適応化処理部２０が、重点適応区間により大きい重みを与えながら、適応化処理を行う。この適応化処理の詳細を次に記載する。

適応化処理部２０は、ＭＬＬＲ適応とＭＡＰ適応を行なう。これらの適応化処理自体は、既存技術を用いて行える。このとき、適応化処理部２０は、適応化用音声データ１３から得られる音響特徴量の列と、パラメータベクトルθによる音響モデル１２とから、正解候補の音素列の確率を計算する。そして、適応化処理部２０は、これにより得られる認識結果候補の音素列（およびその確率）と、教師データである書き起こしデータに対応する音素列との一致度合いから、パラメータベクトルθを評価する。書き起こしデータに対応する音素列は、アライメント結果記憶部１７から読み出される。そして、適応化処理部２０は、適切に定義された評価関数の値が最適値に近付くように、θを探索する。探索アルゴリズムとしては、例えばＥＭアルゴリズムを用いる。その際、適応化処理部２０は、フォワードバックワードアルゴリズムにより、時刻ｔにおける事後確率γ_ｔ（ｉ，ｍ）を求める。ここで、ｉは、隠れマルコフモデル（ＨＭＭ）の状態（トライフォン表記の音素に相当）である。また、ｍ（１≦ｍ≦Ｍ）は、音響モデルにおけるＭ個の混合ガウス分布のうちの一つを指すインデックス値である。そして、本実施形態による適応化処理部２０は、適応化を行なう際には、上記の事後確率γ_ｔ（ｉ，ｍ）をそのまま用いるのではなく、重点適応区間により大きい重みを与えるために、下の式（２）によって算出される事後確率γ´_ｔ（ｉ，ｍ）を用いる。

なお、式（２）において、αは重点適応の重み定数であり、βは閾値である。なお、αおよびβはともに正の設定値である。αおよびβの具体的な値の例については後述する（実施例１）。

つまり、式（２）で表わされる通り、適応化処理部２０は、ΔＬ（ｔ）≦０である音声区間においては、重みをかけずに、γ_ｔ（ｉ，ｍ）をそのままγ´_ｔ（ｉ，ｍ）の値として用いる。また、０＜ΔＬ（ｔ）である音声区間（重点適応区間）においては、γ_ｔ（ｉ，ｍ）よりも大きい値をγ´_ｔ（ｉ，ｍ）の値として用いる。式（２）の例では、０＜ΔＬ（ｔ）≦βである音声区間においては、ΔＬ（ｔ）の値に対する線形な増分がγ_ｔ（ｉ，ｍ）に加算されている。また、β＜ΔＬ（ｔ）である音声区間においては、一律にα・β・γ_ｔ（ｉ，ｍ）がγ_ｔ（ｉ，ｍ）に加算されている。つまり、式（２）によってγ´_ｔ（ｉ，ｍ）を計算するのは、ΔＬ（ｔ）が正である音声区間の事後確率γ_ｔ（ｉ，ｍ）に対して線形に大きな重みを与える例（但し、所定の閾値以上では、一定値にカットオフ）である。

式（２）の代わりに、非線形な重みを与えてγ´_ｔ（ｉ，ｍ）を計算しても良い。非線形な重みを与えるためには、例えば、適応化処理部２０は、下の式（３）によってγ´_ｔ（ｉ，ｍ）を計算する。

式（３）におけるαおよびβは、ともに正の設定値である。また、ｅはネイピア数である。式（３）によって算出されるγ´_ｔ（ｉ，ｍ）の値は、ΔＬ（ｔ）の増加に対して単調増加である。また、γ_ｔ（ｉ，ｍ）＜γ´_ｔ（ｉ，ｍ）＜（１＋α）・γ_ｔ（ｉ，ｍ）である。

さらに式（３）の変形例として、適応化処理部２０が、下の式（４）によってγ´_ｔ（ｉ，ｍ）を計算するようにしても良い。

このように、適応化処理部２０は、時刻ｔに応じて、ｔで表わされる区間に対する重み付けをしながら適応化の処理を行なう。式（２）、式（３）、式（４）のいずれを用いる場合も、あるいはその他の重み（ΔＬ（ｔ）に関してγ´_ｔ（ｉ，ｍ）が単調増加となるような重み）を用いる場合も、次の作用を有する。即ち、適応化処理部２０は、重点適応区間に関して、ΔＬ（ｔ）が大きいほど（つまり、Ｌ^Ｈ（ｔ）とＬ^Ｒ（ｔ）との差が大きいほど、さらに言い換えれば、アライメント結果記憶部１８（第２アライメント結果データ）に含まれる音響尤度データが表わす尤度とアライメント結果記憶部１７（第１アライメント結果データ）に含まれる音響尤度データが表わす尤度との差が大きいほど）、より大きな重み付けをその重点適応区間に付与しながら、音響モデルを適応化する、

［第２の実施形態］
図４は、本発明の第２の実施形態による音声認識装置の機能構成を示すブロック図である。本実施形態による音声認識装置２は、第１の実施形態で述べた適応化装置１を内部に備えている。そして、図示するように、音声認識装置２は、適応化装置１と、音響モデル記憶部１１２と、認識処理部１５３とを含んで構成される。

音声認識装置２は、外部から音声データを取得し、この音声データに対応する認識結果を出力する。ここで、認識処理部１５３は、音響モデル記憶部１１２から読み出す音響モデルと、不図示の言語モデルとを用いて、音声データに対応する音響特徴量列に対して最尤なテキストを探索し、出力する。認識処理部１５３のこの処理自体は、既存の音声認識技術を用いて実現される。また、音響モデル記憶部１１２は、話者ごとに音響モデルを記憶する。言い換えれば、音響モデル記憶部１１２は、各々の話者について、話者識別情報と関連付けて音響モデルのパラメータの値を記憶する。

適応化装置１は、音響モデル記憶部１１２から音響モデルを読み込む。これは、第１の実施形態において適応化装置１が音響モデル１２（図１）を読み込んだことに相当する。また、適応化装置１は、第１の実施形態でも述べたように、認識処理部１５３が出力した認識結果を取得する。また、適応化装置１は、第１の実施形態でも述べたように、認識処理部１５３による認識処理とは独立に別途書き起こされた書き起こしデータを読み込む。また、適応化装置１は、外部から入力された音声データを取得する。この音声データは、第１の実施形態で述べた適応化用音声データ１３（図１）に相当する。

これら入力されるデータを元に、適応化装置１は、第１の実施形態で述べた手順で適応化の処理を行い、話者適応化された音響モデルを出力する。適応化装置１は、この話者適応化された音響モデルによって、音響モデル記憶部１１２を更新する。これにより、音声認識装置２の音響モデルは、特定の話者に適応化される。話者適応化のために用いる音声データは、一発話分（ここで、一発話とは、無音区間を始端境界および終端境界として切り出される音声区間とする）であっても良く、数発話分であっても良い。また、所定の時間（例えば、５秒）で区切った音声データを適応化用音声データとして用いても良い。このように特定話者に適応化された音響モデルを用いることにより、音声認識装置２が特定話者の音声を認識する際の認識精度を向上させることができる。

また、適応化装置１による音響モデルの適応化を複数回繰り返して行なっても良い。この場合、一回の適応化処理ごとに音響モデル記憶部１１２が更新される。そして、その一回ごとに当該話者に関して音響モデルが適応化され、その音響モデルを用いた音声認識処理の精度がその都度向上する。

本実施形態の構成を整理すると、次の通りである。即ち、適応化装置１が具備するアライメント部１５（第１アライメント部）は、音響モデル記憶部１１２から読み込んだ音響モデルに基づいて、認識処理部１５３による認識処理の対象となる音声データとテキストデータとを時間的にアラインし、適応化装置１が具備するアライメント部１６（第１アライメント部）は、音響モデル記憶部１１２から読み込んだ音響モデルに基づいて、音声データと認識処理部１５３による認識処理の結果得られる認識結果データとを時間的にアラインする。また、適応化装置１が具備する適応化処理部２０は、適応化した結果得られる適応化音響モデルを音響モデル記憶部１１２に書き込む。つまり、適応化処理部２０が、適応化用音声データ１３に対応する話者の音響モデルを更新する。

［第３の実施形態］
図５は、本発明の第３の実施形態による音声認識装置の機能構成を示すブロック図である。本実施形態による音声認識装置３は、第１の実施形態で述べた適応化装置１を内部に備えている。そして、図示するように、音声認識装置３は、適応化装置１と、音響モデル記憶部１１２と、認識処理部１５３と、認識結果記憶部１５４と、第１言語モデル記憶部１６１と、第２言語モデル記憶部１６２とを含んで構成される。

同図における適応化装置１は、第１の実施形態で述べた構成を有している。また、音響モデル記憶部１１２と認識処理部１５３については、第２の実施形態で述べた通りである。本実施形態特有の構成は、第１言語モデル記憶部１６１および第２言語モデル記憶部１６２が、それぞれ互いと異なる形態の言語モデルを記憶している点である。

そして、認識処理部１５３は、まず第１段階で、第１言語モデル記憶部１６１に記憶されている言語モデルを用いて認識処理を行ない、その認識結果を認識結果記憶部１５４に書き込む。認識処理部１５３は、その後の第２段階で、第２言語モデル記憶部１６２に記憶されている言語モデルを用いて認識処理を行なう。このとき、第１言語モデル記憶部１６１と第２言語モデル記憶部１６２に記憶されている言語モデルが互いに異なるため、認識処理部１５３による認識結果も若干異なったものとなる。そして、適応化装置１は、上記第２段階において、認識結果記憶部１５４から読み出した認識結果のテキストを、第１の実施形態において説明した書き起こしデータの代わりとして読み込む。また、第２段階において認識処理部１５３から出力された認識結果のテキストを、第１の実施形態において説明した認識結果として読み込む。これらの入力を用いて、適応化装置１は、適応化処理を行ない、その結果得られる話者適応化音響モデルを用いて、音響モデル記憶部１１２を更新する。

第２の実施形態においては、音声認識装置３では、適応化用音声データに対応する書き起こしデータを手作業等によって予め用意する必要があった。それに対して、この第３の実施形態では、第１段階において第１言語モデル記憶部１６１を参照しながら行なった認識処理で認識処理部１５３が出力した認識結果を、一時的に認識結果記憶部１５４に記憶させ、第２段階において書き起こしデータの代わりに用いる。従って、音声認識装置３は、予め書き起こしデータを作成する必要がなく、手間を削減できる。

なお、一例としては、第１言語モデル記憶部１６１には、トライグラム（trigram）の言語モデルを記憶させる。また第２言語モデル記憶部１６２には、バイグラム（bigram）の言語モデルを記憶させる。バイグラムの言語モデルは、連鎖数が２である言語要素（単語等）の連鎖の統計的出現確率を用いた言語モデルである。トライグラムの言語モデルは、連鎖数が３である言語要素（単語等）の連鎖の統計的出現確率を用いた言語モデルである。

なお、上述した各実施形態における適応化装置、音声認識装置の機能の全部または一部をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、単独の話者ごとの音響モデルを適応化する代わりに、音響的に似た特徴を有する複数の話者で構成される話者クラスタごとに、音響モデルを適応化するようにしても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

放送局で用いるための音声認識システムに、本発明の適応化装置１を適用した。同システムは、音声認識処理を利用して、生放送番組に字幕（テキスト）を付与するシステムである。同システムは、生放送の情報番組で流される音声を聞きながらリスピーク（再発話）する２人のリスピーカーの音声を認識する。リスピーカーは十分に訓練された話者である。まず、リスピーカーの役割を果たす特定話者２人（便宜上、ＡおよびＢと呼ぶ）の音声（約３時間分）を用いて、隠れマルコフモデルによる不特定話者用の音響モデルを、事前に、ＡおよびＢのそれぞれ用に適応化しておく。これらを初期音響モデル（それぞれ、モデルＡ_０およびモデルＢ_０）として用いる。そして、２人のリスピーカーは、放送中にオンラインで、適当な発話区切りごとに交替で、交互に発話する。そして、音声認識システムは、話者Ａが発話している間には、Ａの音声を認識する処理を行なうとともに、話者交替以前の話者Ｂの発話の認識結果を用いて話者Ｂ用のモデルＢ_ｎを適応化してモデルＢ_ｎ＋１に更新する（ｎは整数）。また、逆に、話者Ｂが発話している間には、Ｂの音声を認識する処理を行なうとともに、話者交替以前の話者Ａの発話の認識結果を用いて話者Ａ用のモデルＡ_ｎを適応化してモデルＡ_ｎ＋１に更新する。これを繰り返していく。

上記の、不特定話者用の音響モデルは、５状態３自己ループの状態共有トライフォンＨＭＭ（４０００状態、１６混合分布）である。認識用に用いた言語モデルは大量の放送番組の書き起こし等（４１２Ｍ単語）によって学習した語彙サイズ９３ｋのトライグラムモデルと、番組ごとの関連テキスト（１７ｋ単語）によって構築したトライグラムモデルを線形補間したものである。

認識実験および話者適応化のための認識仮説の生成には、第１パスでバイグラムによる単語依存Ｎ−ｂｅｓｔ探索、第２パスでトライグラムリスコアリングする逐次２パスデコーダを使用した。また、適応化手法としては、次の３手法を用いて比較した。（ａ）ベースライン：従来の技術によるＭＬＬＲ、ＭＡＰで適応化する。（ｂ）トライグラム：最尤認識仮説として第２パスの最尤仮説を用いて、重点適応区間を決定する。（ｃ）バイグラム：最尤認識仮説として第１パスの最尤仮説を用いて、重点適応区間を決定する。

ここで、ＭＬＬＲ適応およびＭＡＰ適応を行なう際に、重み付き事後確率γ´_ｔ（ｉ，ｍ）を算出するためには、前記の式（２）を用いた。また、式（２）における設定値αおよびβとしては、次の値を用いた。即ち、β＝２５．０（固定値）とした。
また、αは、状況に応じて次の通りとした。
バイグラムの場合（上記（ｃ））、初期の音響モデルの生成時には、ＭＬＬＲ適応ではα＝１０．０、ＭＡＰ適応ではα＝０．３とした。オンライン適応化時には、ＭＬＬＲ適応ではα＝２０．０、ＭＡＰ適応ではα＝０．６とした。
トライグラムの場合（上記（ｂ））、初期の音響モデルの生成時には、ＭＬＬＲ適応ではα＝２０．０、ＭＡＰ適応ではα＝０．３とした。オンライン適応化時には、ＭＬＬＲ適応ではα＝１００．０、ＭＡＰ適応ではα＝１．５とした。

この実施例による結果は、下の表１の通りである。この表は、話者Ａ、話者Ｂ、および全体のそれぞれについて、重点適応区間がない場合（上記（ａ））と重点適応区間がある場合（上記（ｂ）および（ｃ））の、単語誤り率（ＷＥＲ，Word Error Rate）を示している。いずれも、重点適応区間なしで音響モデルを適応化するよりも、重点適応区間ありで音響モデルを適応化したほうが、単語誤り率が下がっている。つまり、重点適応区間ありで適応化したほうが高い効果が得られることが確認された。

本発明は、音声の音響的特徴を用いた統計的処理に利用可能である。特に、本発明は、音声認識処理に利用可能である。さらに、本発明は、音声認識処理を利用して放送番組等の音声に対応したテキストデータ（字幕データ）を生成する処理に利用可能である。

１適応化装置
２，３音声認識装置
１１書き起こしデータ記憶部
１２音響モデル
１３適応化用音声データ（音声データ）
１４認識結果記憶部
１５アライメント部（第１アライメント部，第１アライメント手段）
１６アライメント部（第２アライメント部，第２アライメント手段）
１７アライメント結果記憶部（第１アライメント結果データ）
１８アライメント結果記憶部（第２アライメント結果データ）
１９重点区間検出部（重点区間検出手段）
２０適応化処理部（適応化処理手段）
１１２音響モデル記憶部
１５３認識処理部
１５４認識結果記憶部
１６１第１言語モデル記憶部
１６２第２言語モデル記憶部

Claims

音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第１アライメント結果データを生成する第１アライメント部と、
前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第２アライメント結果データを生成する第２アライメント部と、
前記時刻ごとに前記第１アライメント結果データに含まれる音響尤度データと前記第２アライメント結果データに含まれる音響尤度データとを比較する重点区間検出部と、
前記重点区間検出部による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理部と、
を具備することを特徴とする適応化装置。
前記重点区間検出部は、時刻ごとに、前記第１アライメント結果データに含まれる音響尤度データよりも、前記第２アライメント結果データに含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する、
ことを特徴とする請求項１に記載の適応化装置。
前記適応化処理部は、前記音響モデルの適応化処理において、前記重点区間検出部が検出した前記重点適応区間に付与する重みを、重点適応区間ではない区間に付与する重みよりも大きくする、
ことを特徴とする請求項２に記載の適応化装置。
前記適応化処理部は、前記音響モデルの適応化処理において、前記第２アライメント結果データに含まれる音響尤度データが表わす尤度と前記第１アライメント結果データに含まれる音響尤度データが表わす尤度との差が大きい区間ほど、前記重点適応区間に付与する重みをより大きくする、
ことを特徴とする請求項３に記載の適応化装置。
請求項１から４までのいずれか一項に記載の適応化装置と、
前記音響モデルを記憶する音響モデル記憶部と、
前記音響モデルに記憶されている前記音響モデルを読み出して、入力される前記音声データの認識処理を行なう認識処理部と、
を具備し、
前記適応化装置が具備する前記第１アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと前記テキストデータとを時間的にアラインし、
前記適応化装置が具備する前記第２アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと前記認識処理部による認識処理の結果得られる前記認識結果データとを時間的にアラインし、
前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、
ことを特徴とする音声認識装置。
請求項１から４までのいずれか一項に記載の適応化装置と、
前記音響モデルを記憶する音響モデル記憶部と、
言語要素の出現頻度に関する統計的データを表わす第１言語モデルを記憶する第１言語モデル記憶部と、
言語要素の出現頻度に関する統計的データを表わし、前記第１言語モデルとは異なる第２言語モデルを記憶する第２言語モデル記憶部と、
前記音響モデル記憶部に記憶されている前記音響モデルを読み出すとともに、前記第１言語モデル記憶部から読み出した前記第１言語モデルあるいは前記第２言語モデル記憶部から読み出した前記第２言語モデルのいずれかを用いて、入力される前記音声データの認識処理を行なう認識処理部と、
を具備し、
前記適応化装置が具備する前記第１アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと、前記認識処理部が前記第１言語モデルを用いて前記音声データを認識処理して得られた結果である前記テキストデータとを時間的にアラインし、
前記適応化装置が具備する前記第２アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと、前記認識処理部が前記第２言語モデルを用いて前記音声データを認識処理して得られた結果である前記認識結果データとを時間的にアラインし、
前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、
ことを特徴とする音声認識装置。
コンピューターを、
音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第１アライメント結果データを生成する第１アライメント手段、
前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第２アライメント結果データを生成する第２アライメント手段、
前記時刻ごとに前記第１アライメント結果データに含まれる音響尤度データと前記第２アライメント結果データに含まれる音響尤度データとを比較する重点区間検出手段、
前記重点区間検出手段による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理手段、
として機能させるためのプログラム。
コンピューターを、請求項５または請求項６のいずれかに記載の音声認識装置として機能させるためのプログラム。