JP2015018186A - 適応化装置およびプログラム - Google Patents

適応化装置およびプログラム Download PDF

Info

Publication number
JP2015018186A
JP2015018186A JP2013146895A JP2013146895A JP2015018186A JP 2015018186 A JP2015018186 A JP 2015018186A JP 2013146895 A JP2013146895 A JP 2013146895A JP 2013146895 A JP2013146895 A JP 2013146895A JP 2015018186 A JP2015018186 A JP 2015018186A
Authority
JP
Japan
Prior art keywords
adaptation
acoustic model
speech
data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013146895A
Other languages
English (en)
Inventor
貴裕 奥
Takahiro Oku
貴裕 奥
庄衛 佐藤
Shoe Sato
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2013146895A priority Critical patent/JP2015018186A/ja
Publication of JP2015018186A publication Critical patent/JP2015018186A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声区間ごとの認識誤りの度合いに応じて、効果的に音響モデルの適応化を行う適応化装置を提供する。【解決手段】音声認識部は、音響モデル記憶部から読み出した適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する。統計量算出部は、音声認識部によって出力される認識結果データと、適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、音声認識部による認識処理の精度に関する統計量を算出する。適応化重み算出部は、統計量算出部によって算出された統計量に基づき音声区間ごとの適応化重みを算出する。適応化部は、適応化重みを適用しながら、音響モデル記憶部に記憶されている初期の音響モデルを適応化する。【選択図】図1

Description

本発明は、音声認識技術に関する。特に、本発明は、音声認識処理に用いる音響モデルを適応化するための適応化装置およびそのプログラムに関する。
音声認識処理においては、音素と音響特徴量との間の統計的関係を表わす音響モデルを用いる。音声認識処理において、認識性能を向上させるために、音響モデルの話者適応が行われる。音声認識における音響モデルの適応とは、認識性能を向上させるため、認識対象話者や音声環境の音声データを用い、認識対象に合わせてモデルパラメータを最適化させることである。この適応化は、発声内容に対する理想的な出力である教師データがあるかどうかによって教師あり適応と教師なし適応に分類される。前者は、人手による書き起こしなどが教師データとして与えられ、発話内容の音素列が既知の場合の適応手法である。後者は、一般に音声認識を行い、その認識結果を教師データとみなして適応化する手法である。
非特許文献1には、代表的な話者適応化手法として、事前知識を利用し、最大事後確率推定法(Maximum A Posteriori Estimation,MAP)を用いて音響モデルを適応化する技術が記載されている。
また、非特許文献2には、話者間の線形写像を用いて音響モデルを適応化する最尤線形回帰法(Maximum Likelihood Linear Regression,MLLR)が記載されている。
Jean-Lue Gauvain,Chin-Hui Lee,"Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains",IEEE Transactions on Speech and Audio Processing,Vol.2,No.2,p.291-298,April,1994年 C.J.Leggetter,P.C.Woodland,"Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models",Computer Speech and Language,No.9,p.171-185,1995年
しかしながら、従来技術による教師あり話者適応化手法は、適応化に用いる音声データの各時刻において、音響モデルの初期モデル(適応化前の音響モデル)による認識のし易さを考慮していないという問題があった。実際には、適応化に用いる音声データにおいて、認識率が例えば100%である(つまり、認識誤りのない)音声区間に比べて、認識誤りのある音声区間の方が教師あり話者適応化の効果が高いと考えられる。しかしながら、従来技術による教師あり話者適応化手法は、音声区間による認識誤りの有無を考慮せず、どの音声区間も同等に話者適応化を行っていた。
そこで、適応化する前の音響モデルを用いた場合における認識誤りの有無に応じて、音声区間ごとに重みを変えて適応化することも考えられる。しかしながら、その場合には、音声区間ごとの適応化の重みをいかにして決めるかが課題となる。
また、適応化した音響モデルを用いて学習音声を再度音声認識し、その認識結果を用いて重点適応化するということ、即ち音響モデルの繰り返し適応化を行うことも考えられる。しかしながら、その場合には、適応化を繰り返すことにより、認識結果に誤りのない音声区間についても過度に適応化を行ってしまい、即ち学習用データに対する過適応で、認識精度の低下を招いてしまう場合もある。つまり、繰り返し適応化の回数をいかに最適に決めるかが課題となる。
上記の、適応化の重みや、適応化の繰り返し回数について、経験に基づいて人が決定する方法を用いることも考えられるが、より望ましくは、人の判断に依存せずに最適な重みおよび繰り返し回数を決定できるようにすることが求められる。
本発明は、上記の課題認識に基づいて行なわれたものである。即ち、本発明は、音響モデルの適応化を行うにあたり、音声区間ごとの重みを最適に決定したり、複数回繰り返して適応化を行う場合にどの程度の回数まで繰り返すかを最適に決定したりすることのできる最適化装置を提供するものである。
[1]上記の課題を解決するため、本発明の一態様による適応化装置は、音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルであって、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する音響モデル記憶部と、前記音響モデル記憶部から読み出した前記適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する音声認識部と、前記音声認識部によって出力される前記認識結果データと、前記適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、前記音声認識部による認識処理の精度に関する統計量を算出する統計量算出部と、前記統計量算出部によって算出された前記統計量に基づき音声区間ごとの適応化重みを算出する適応化重み算出部と、前記適応化重み算出部によって算出された音声区間ごとの前記適応化重みを適用しながら、前記適応化用音声データに対応する音声区間ごとの音響特徴量と前記書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、前記音響モデル記憶部に記憶されている前記初期の音響モデルを適応化し、前記音響モデル記憶部における前記適応化後の音響モデルを更新する適応化部とを具備することを特徴とする。
上記の構成によれば、認識誤りを起こす音声区間の統計量に大きな重みを与えて適応化音響モデルの学習を行う。そして、そのような音響モデルを用いた場合に高精度な音声認識等の処理を行うことができるようになる。
つまり、適応化装置は、認識結果に基づき、認識誤り区間の統計量を算出する。そして、得られた統計量から、重点適応化の重みを求める。そして、適応化されていない初期の音響モデルを、得られた適応化の重みを用いて、適応化する。
[2]また、本発明の一態様は、上記の適応化装置において、前記音声認識部による認識処理の認識率を、前記書き起こしデータと前記認識結果データとに基づいて算出し、前記認識率が前回の適応化による音響モデルを用いた場合における認識率よりも良くなった場合にはさらに適応化を繰り返すように制御し、その他の場合には適応化の繰り返しを終了するように制御する適応化終了判定部をさらに具備することを特徴とする。
上記の構成によれば、適応化処理を繰り返すことができる。つまり、適応化した音響モデルを用いても認識誤りが改善されない音声区間について、繰り返し、最適な適応重みを求める。なお、適応化処理を繰り返す場合においても、音響モデル記憶部に記憶されている初期の音響モデルを適応化する。これにより、誤りのない音声区間に重みがつくことを避けることができる。また、認識率が良くなるうちは適応化処理を繰り返し、認識率が良くならなくなったら、適応化処理の繰り返しを止める。これらにより、過適応を抑制した音響モデルを生成することができる。
適応化の処理を繰り返し実施することで、繰り返し適応化しても改善されにくい音声区間の適応化重みを大きくして学習することができる。適応化用音声データ(学習音声データ)の認識誤り区間それぞれに最適な重みを適応化することができる。さらに、繰り返しの各回において、1回前に得られた適応化音響モデルではなく、適応化されていない初期の音響モデルから適応化することで、誤りのない音声区間に重みがつくことが避けられ、過適応を抑えた高精度な音響モデルの学習が実現される。
なお、認識率は、正解率と言い換えても良い。また、認識率と誤り率は相補的な関係にあるため、適応化終了判定部、認識率に基づいて繰り返すか否かの制御を行うことと、誤り率に基づいて繰り返すか否かの制御を行うことは、等価である。
[3]また、本発明の一態様は、上記の適応化装置において、前記統計量算出部が算出する前記統計量は、前記音声認識部によって出力される前記認識結果データの、前記音声区間における正誤を表す値であることを特徴とする。
音声区間は、適応化用音声データにおける時間区間である。音声区間は、適応化用音声データにおける一つのフレームまたは複数のフレームに対応する。一つのフレームは、例えば数百分の一秒といった長さを有する時間区間である。各フレームの先頭における時刻を(この時刻が、適応化用音声データにおける先頭からの相対時刻であっても良い)、そのフレームを指標する情報として用いても良い。先頭フレームからのシリアルな番号を、そのフレームを指標する情報として用いても良い。
[4]また、本発明の一態様は、上記の適応化装置において、前記統計量算出部が算出する前記統計量は、前記音声認識部による認識結果から得られる音響尤度と前記書き起こしデータにより前記適応化用音声データをアライメントしたときの音響尤度との間の、前記音声区間における差を表わす値であることを特徴とする。
なお、音声区間については、上の説明で述べたとおりである。
[5]また、本発明の一態様は、音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルであって、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する音響モデル記憶部を備えるコンピュータに、前記音響モデル記憶部から読み出した前記適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する音声認識過程、前記音声認識過程によって出力される前記認識結果データと、前記適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、前記音声認識過程による認識処理の精度に関する統計量を算出する統計量算出過程、前記統計量算出過程によって算出された前記統計量に基づき音声区間ごとの適応化重みを算出する適応化重み算出過程、前記適応化重み算出過程によって算出された音声区間ごとの前記適応化重みを適用しながら、前記適応化用音声データに対応する音声区間ごとの音響特徴量と前記書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、前記音響モデル記憶部に記憶されている前記初期の音響モデルを適応化し、前記音響モデル記憶部における前記適応化後の音響モデルを更新する適応化過程、の処理を実行させるためのプログラムである。
本発明により、音響モデルの繰り返し重点適応化において、適応化の重みの最適化を行なうことができる。また、適応化用(学習用)音声データに過適応してしまうことを抑制することができる。これにより、高精度な音響モデルが学習される。
本発明の実施形態による適応化装置の概略機能構成を示すブロック図である。 同実施形態による統計量データ記憶部に記憶される統計量データの構成の一例を示す概略図である。 同実施形態による統計量データ記憶部に記憶される統計量データの構成の別の例を示す概略図である。 同実施形態による統計量算出部が統計量を求めて保存する処理の手順を示すフローチャートである。 同実施形態による適応化装置の全体的な処理の手順を示すフローチャートである。
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、適応化装置の概略機能構成を示すブロック図である。この図において、符号1は音響モデルを適応化するための適応化装置である。図示するように、適応化装置1は、書き起こしデータ記憶部101と、統計量算出部103と、統計量データ記憶部104と、適応化重み算出部105と、適応化部106と、音声認識部108と、認識結果記憶部109と、適応化終了判定部110と、音響モデル記憶部111とを含んで構成される。適応化装置1は、全体の処理として、適応化用音声データと書き起こしデータとを取得し、これらのデータを元に音響モデルの適応化を行い、適応化音響モデルを得るものである。
適応化装置1への入力となる適応化用音声データと書き起こしデータは、相互に対応するものである。言い換えれば、入力される書き起こしデータは、適応化用音声データを元に人手で書き起こしたテキストデータである。適応化用音声データは、音声に関する物理量や、音声としての特徴を表わす特徴量を、フレームごとに表わしたデータである。ここでの物理量とは、音声の、音圧レベルや周波数スペクトルである。また特徴量とは、例えば、メル周波数ケプストラム(MFCC)などである。なお、フレームは、数百分の一秒から数千分の一秒程度の長さを有する時間区間である。1フレームの長さは、適宜、定めるようにする。
以下では、各部の機能等を説明する。
書き起こしデータ記憶部101は、適応化用音声データに対応する書き起こしのテキストデータを記憶する。この書き起こしデータは、適応化の処理のための正解データとして用いられるものである。
統計量算出部103は、音声認識部108によって出力される認識結果データと、適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、音声認識部108による認識処理の精度に関する統計量を算出する。この統計量の具体的な例(正誤を表わす値、または音響尤度の差の値)については後述する。なお、統計量算出部103は、認識結果記憶部109から認識結果データを読み出す。また、統計量算出部103は、算出した統計量を統計量データ記憶部104に書き込む。なお、統計量算出部103は、上記の統計量を算出するために、適宜、認識結果データと書き起こしデータとの間のアラインメントを行う。
なお、書き起こしデータや認識結果データは、例えば日本語の漢字・かな混じり文のテキストである。このような書き起こしデータや認識結果データは、音素の列に置き換えることもできる。また、書き起こしデータや認識結果データは、フレームごとの、音素ラベルに置き換えることもできる。なお、フレームと時刻とは対応付いている。各フレームにおける先頭の時刻を、そのフレームの代表時刻として扱って良い。一例として、音素のラベルはトライフォンで表わされる。つまり、現在の音素に対して、直前の音素と直後の音素を並べて表記される。例えば、ある時刻において音素が「t+o」と表わされている場合、これは、現在の音素が「t」(日本語においてタ行の音を構成する子音)で、直前の音素が無く、直後の音素が「o」(母音の「オ」)であることを示している。同様に、別のある時刻において音素が「t−o+k」と表わされている場合、これは、現在の音素が「o」で、直前の音素が「t」で、直後の音素が「k」であることを示している。一般に、現在の音素「X」に対して、直前の音素が「L」で、直後の音素が「R」であるときには、「L−X+R」の形でトライフォンが表わされる。
統計量データ記憶部104は、統計量算出部103によって算出された統計量を記憶する。
適応化重み算出部105は、統計量算出部103によって算出された統計量に基づき音声区間ごとの適応化重みを算出する。なお、適応化重み算出部105は、重みを算出するための統計量データを統計量データ記憶部104から読み出す。重み算出方法の商才については、後述する。
適応化部106は、適応化重み算出部105によって算出された音声区間ごとの適応化重みを適用しながら、適応化用音声データに対応する音声区間ごとの音響特徴量と書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、音響モデル記憶部111に記憶されている初期の音響モデルを適応化し、適応化の結果を用いて、音響モデル記憶部111における適応化後の音響モデルを更新する。
適応化部106は、C回目(C=1,2,・・・)の適応化の結果をその都度、音響モデル記憶部111に書き込む。ここで、Cは適応化の回数に対応した値を保持する変数であり、変数Cの領域は適応化装置1内の半導体メモリ内に割り当てられている。なお、適応化部106は、MLLR適応とMAP適応を用いる。
音声認識部108は、音響モデル記憶部111から読み出した適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する。そして、音声認識部108は、認識結果データを認識結果記憶部109に書き込む。認識結果データは、認識結果のテキストデータであり、このテキストデータを構成する各文字(およびその文字を構成する各音素)は、音声の時刻(フレーム)に対応付けられている。なお、音声認識処理自体は、既存の技術により行う。具体的には、音声認識部108は、音響モデルを参照することにより、音声データの特徴量の列から最尤のテキストを求める。なお、このとき、音声認識部108が、言語モデル(不図示)をも参照しながら最尤のテキストを求めるようにしても良い。言語モデルは、言語の要素(文字や単語など)の列の出現頻度に関する統計的データである。
認識結果記憶部109は、音声認識部108による認識結果のデータを記憶する。
適応化終了判定部110は、音声認識部108による認識処理の認識率を書き起こしデータと認識結果データとに基づいて算出し、算出された認識率が前回の適応化による音響モデルを用いた場合における認識率よりも良くなった場合にはさらに適応化を繰り返す(次の回の適応化を行う)ように制御し、その他の場合(つまり、認識率が良くならなかった場合)には適応化の繰り返しを終了するように制御する。なお、認識率は、書き起こしデータを正解とみなしたときの、認識結果データの正解の程度を表わす率である。なお、認識率=1−誤り率 であるので、認識率の代わりに誤り率を算出して繰り返しの制御を行うようにしても、本質的には同じことである。
音響モデル記憶部111は、音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルを記憶する。音響モデル記憶部111は、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する。なお、適応化が複数回繰り返して行われる場合もあるので、最後の回の適応化の結果得られた音響モデルを、音響モデル記憶部111が前記の適応化後の音響モデルとして記憶するようにする。第1回目の適応化が行われる前には、音響モデル記憶部111が記憶する適応化前の初期の音響モデルおよび適応化後の音響モデルは、互いに同一のものである。第1回目以後の適応化が行われた後に、音響モデル記憶部111における適応化後の音響モデルが更新される。
なお、途中の回の適応化の結果得られた音響モデルをも合わせて記憶できるように音響モデル記憶部111を構成しても良い。
音響モデル記憶部111が記憶する音響モデルは、音響特徴量(ベクトル)に関するガウス分布を表わすデータと、パラメータθを含む。パラメータθは、ベクトルであり、空間Θに属する。音響モデルは、不特定の話者に関するパラメータθ、あるいは特定の話者ごとのパラメータθ(話者のインデックスを付加して、θ,θ,・・・と表わしても良い)を記憶する。複数の話者に対応する場合には、音響モデルは、各々の話者について、話者識別情報と関連付けて音響モデルのパラメータの値θ(j=1,2,・・・)を記憶する。この音響モデルを用いることにより、音声認識装置は、音響特徴量のサンプルx=(x,・・・,x)が観測されたとき、時刻tにおける事後確率γ(i)を求める。ここで、iは、隠れマルコフモデル(HMM)の状態(トライフォン表記の音素に相当)である。
図2は、統計量データ記憶部104に記憶されるデータの構成の一例を示す概略図である。図示するように、統計量データ記憶部104が記憶するデータは、表形式のデータであり、時刻と、統計量の各項目を有している。ここで、時刻は、音声のフレーム番号に対応しており、フレーム番号で表わされる。また、このデータ構成例では、用いられる統計量は、適応回数(C)ごとの正誤値である。即ち、認識結果の正誤を表わす値が、認識結果の精度を表わす値である。この統計量の詳細については、後で詳述する。
図3は、統計量データ記憶部104に記憶されるデータの構成の他の一例を示す概略図である。前図と同様に、統計量データ記憶部104が記憶するデータは、表形式のデータであり、時刻と、統計量の各項目を有している。但し、本図におけるデータ構成例では、用いられる統計量は、適応回数(C)ごとの音響尤度差の値である。即ち、この音響尤度差が、認識結果の精度を表わす値である。この統計量の詳細については、後で詳述する。
図4は、統計量算出部103が統計量を求めて保存する処理の手順を示すフローチャートである。なお、このフローチャートは、1回の適応化の処理における手順のみを示す。統計量算出部103は、適応回数ごとに(C=1,2,3,・・・)このフローチャートの処理を行う。以下、このフローチャートに沿って統計量算出部103の処理について説明する。
まずステップS201において、統計量算出部103は、時刻を指標するための変数tの値を0にリセットする。このtの値は、図2および図3に示した時刻(フレーム番号)に対応する。
次にステップS202において、統計量算出部103は、時刻tにおける統計量を計算する。
ここで統計量算出部103が計算する統計量の一例は、正誤値である。その統計量w(t)は、下の式(1)で表わされる。
Figure 2015018186
ここで、Cは適応化の回数(C=1,2,3,・・・)である。なお、式(1)を用いる場合の統計量は、図2に示したものである。つまり、この統計量は、適応回数C回目において、音声データの各時刻(フレーム)での音声認識結果が正解であるか誤りであるかを2値で示したものである。1つのフレームまたは複数のフレームを、音声区間と呼ぶことができる。つまり、図2に示した統計量は、音声区間ごとに、音声認識部108による認識処理の精度(正解であるか否か)に関する統計量である。
統計量算出部103が計算する統計量の他の例は、音響尤度差である。その統計量w(t)は、下の式(2)で表わされる。
Figure 2015018186
式(2)におけるΔL(t)は、下の式(3)で表わされる。
Figure 2015018186
式(3)の右辺の第1項目のL (t)は、適応回数C回目における認識結果から得られる時刻tでの音響尤度である。また、式(3)の右辺の第2項目のL (t)は、書き起こしデータにより音声を強制アライメントしたときの時刻tでの音響尤度である。そして、式(3)に表わした通り、ΔL(t)は、前者の音響尤度から後者の音響尤度を引いた値である。
つまり、ΔL(t)が正であるということは、そのような音声区間においては、正解である書き起こしデータよりも誤った認識結果データの方が優位であることを表わす。つまり、そのような音声区間は、音響モデルのパラメータを更新することが必要であると考えられる。そして、式(2)に表わしたとおり、本例での統計量w(t)としては、ΔL(t)の値(但し、ΔL(t)の値が負の場合には0とする)を用いる。
式(2)を用いる場合の統計量は、図3に示したものである。1つのフレームまたは複数のフレームを、音声区間と呼ぶことができる。つまり、図3に示した統計量は、音声区間ごとに、音声認識部108による認識処理の精度(音声区間における、認識結果から得られる音響尤度と、書き起こしデータから得られる音響尤度との差)に関するものである。
次にステップS203において、統計量算出部103は、変数tの値に1をたすことによって、tが次のフレームを指標するようにする。
次にステップS204において、統計量算出部103は、そのときの変数tの値に基づいて、全音声データのサーチが終了したか否かを判定する。そして、全音声データのサーチが終了している場合(ステップS204:YES)には、次のステップS205に進む。また、音声データのサーチが終了せず未処理のフレームが残っている場合(ステップS204:NO)には、ステップS202に戻る。
次にステップS205において、統計量算出部103は、適応回数Cにおける統計量を蓄積保存する。つまり、統計量算出部103は、統計量データ記憶部104(図2や図3を参照)の、今回の適応回数Cの桁の、t=0,1,2,・・・の各行に、上で式(1)や式(2)などによって求められた統計量w(t)の値を書き込む。
以上述べたように、統計量算出部103は、適応化用音声データの書き起こしデータとその適応化用音声データの認識結果とを比較して、認識誤り区間の統計量を抽出し、繰り返しの適応回ごとに蓄積するよう、統計量データ記憶部104への書き込みを行う。
なお、統計量算出部103は、適応回ごと(つまり、Cの値ごとに)に、上記の統計量算出の処理を行う。
図5は、適応化装置1の全体的な処理の手順を示すフローチャートである。なお、このフローチャートが表わす処理の前に、外部から取得された書き起こしデータは、書き起こしデータ記憶部101に既に書き込まれている。また、適応化用音声データは、外部から取得可能な状態となっている。以下、このフローチャートに沿って適応化装置1による処理の流れを説明する。
まずステップS301において、適応化装置1は、変数Cの値を1に初期化する。
次にステップS302において、音声認識部108は、その時点での音響モデルを用いて適応化用音声データの認識処理を行い、その認識結果を認識結果記憶部109に書き込む。このとき、音声認識部108は、音響モデル記憶部111から適応化後の音響モデルのデータを読み出して利用する。C=1のときには適応化後の音響モデルとして格納されているのは、初期状態の音響モデルである。言い換えれば、C=1のときに適応化後の音響モデルとして格納されているものは、第0回の適応化を行った音響モデルである。C≧2のときには音響モデルは1回以上(Cの値に応じる)適応化された状態である。なお、別途説明するように、繰り返しに応じて音響モデルの適応化を蓄積的に行っていくのではなく、常に初期状態の音響モデルに対してC回目の適応化を行う。また、音声認識部108による認識結果のデータは、音声データに対応するテキストのデータであり、また音声データにおける時刻(フレーム)と認識結果のテキストとは対応付けられている。
次にステップS303において、統計量算出部103は、書き起こしデータ記憶部101から読み出す書き起こしデータと、認識結果記憶部109から読み出す認識結果データとを用いて統計量を求め、得られた統計量を統計量データ記憶部104に書き込む。ここでは、統計量算出部103は、現在の変数Cの値についてすべての時刻における統計量データを求める。なお、本ステップの処理手順の詳細については、図4を参照しながら既に説明した通りである。
次にステップS304において、適応化重み算出部105は、統計量データ記憶部104から読み出した統計量データに基づいて、適応化の重みを算出する。具体的には、適応化重み算出部105は、下の式(4)により時刻tにおける適応化の重みを計算する。つまり、適応化重み算出部105は、個々の時刻tについて、適応化重みを算出する。
Figure 2015018186
なお、既に説明したように、w(t)≧0である。ここで、関数fはf(0)=1.0を満たす単調増加関数である。関数fの一例として、式(5)に示すような一次関数を用いる。
Figure 2015018186
但し、式(5)におけるαは適宜定められる係数であり、α>0である。つまり、適応化重み算出部105において算出される重みW(t)は、第1回目の音声認識結果に基づく統計量w(t)から第C回目の音声認識結果に基づく統計量w(t)までの総和に関数fを適用した値である。また、関数fを適用した結果として得られる重みW(t)は、1.0以上の値である(前記の総和値が0以上であるため)。また、前記の総和値が大きければ大きいほど、算出されるW(t)の値は大きい(α>0であるため)。なお、関数fの一例を式(5)に示したが、f(0)=1.0を満たす単調増加関数であれば他の関数を用いても良い。
次にステップS305において、適応化部106は、ステップS304で算出された適応化重みに基づいて、適応化処理を行う。ここで、適応化部106は、MLLR適応とMAP適応を行う際、下の式(6)で計算されるγ´(i)を用いて適応化を行う。
Figure 2015018186
式(6)において、tは時刻であり、iは音素HMM(隠れマルコフモデル)の状態である。そして、MLLR適応とMAP適応を行う際にフォワードバックワードアルゴリズムにより求められる事後確率γ(i)に、式(4)で得られた重みW(t)を乗じることにより、適応化に用いるためのγ´(i)が得られる。そして、適応化部106は、式(6)のγ´(i)を用いて適応化することにより音響モデルを適応化する。つまり、適応化部106は、音響モデル記憶部111に記憶された音響モデルを適応化する。ここでは、式(4)で表わす重みW(t)を用いることによって、繰り返し適応化しても改善されづらい音声区間の適応化重みを大きくして学習することがでる。つまり、適応化部106は、学習音声データの認識誤り区間それぞれに最適な重みを用いて適応化することができる。
つまり、適応化部106は、適応化重み算出部105によって算出された音声区間ごとの適応化重みW(t)を適用しながら、適応化用音声データに対応する音声区間ごとの音響特徴量と書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、音響モデル記憶部111に記憶されている初期の音響モデルを適応化する。
なお、適応化部106による処理の詳細については後で説明を追加する。
また、適応化部106は、前回(C−1回目)に得られた適応化音響モデルを適応化して今回(C回目)の適応化モデルを求めるのではなく、適応化されていない初期の音響モデルから適応化を行う。そして、適応化部106は、適応化した結果により、音響モデル記憶部111における、適応化後の音響モデルのデータを更新する。このように、初期の音響モデルを基に適応化を行うことより、誤りのない音声区間に重みがつくことが避けられ、過適応を抑えた高精度な音響モデルの学習を実現することが可能となる。
次にステップS306において、適応化終了判定部110が、適応化の繰り返しを終了すべきか否かの判定を行う。そのために、適応化終了判定部110は、統計量算出部103が保持する情報から、認識率を算出する。図2に示した正誤値を統計量として用いる場合も、図3に示した音響尤度差を統計量として用いる場合も、統計量算出部103は、第C回目の各フレームの認識結果が正解であるか否かの情報を保持している。これに基づき、適応化終了判定部110は第C回目の認識率を算出する。適応化終了判定部110は、認識率として、例えば正解フレーム数を全フレーム数で除した値を算出する。そして、適応化終了判定部110は、今回(第C回目)の認識率と、前回(第C−1回目)に計算しておいた認識率とを比較し、認識率が同等、あるいは認識率が悪化した場合(つまり、第C回の認識率の方が第C−1回目の認識率よりも低い場合)には、繰り返し適応化を終了するために(ステップS306:YES)、ステップS308に進む。また、上記の比較結果として、認識率が良化した場合(つまり、第C回の認識率の方が第C−1回目の認識率よりも高い場合)には、繰り返し適応化を終了せず(ステップS306:YES)、ステップS307に進む。
ステップS307に進んだ場合、適応化装置1は、変数Cの値を次に進める。即ち、適応化装置1は、変数Cの値に1を加算する。そして、繰り返し適応化を行うためにステップS302に戻る。
ステップS308に進んだ場合、適応化終了判定部110は、適応化が終了した音響モデルを出力する。そして、適応化装置1は、このフローチャートの全体の処理を終了する。
ここで、適応化部106による適応化の処理の詳細を説明する。
適応化部106は、MLLR適応とMAP適応を行なう。これらの適応化処理自体は、既存技術を用いて行える。このとき、適応化部106は、適応化用音声データから得られる音響特徴量の列と、音響モデル記憶部111に記憶された、パラメータベクトルθによる音響モデル(適応化前の初期の音響モデル)とから、正解候補の音素列の確率を計算する。そして、適応化部106は、これにより得られる認識結果候補の音素列(およびその確率)と、教師データである書き起こしデータに対応する音素列との一致度合いから、パラメータベクトルθを評価する。書き起こしデータに対応する音素列は、アライメント処理済みである。そして、適応化部106は、適切に定義された評価関数の値が最適値に近付くように、θを探索する。探索アルゴリズムとしては、例えばEMアルゴリズムを用いる。その際、適応化部106は、フォワードバックワードアルゴリズムにより、時刻tにおける事後確率γ(i)を求める。ここで、iは、隠れマルコフモデル(HMM)の状態(トライフォン表記の音素に相当)である。そして、本実施形態による適応化部106は、適応化を行なう際には、上記の事後確率γ(i)をそのまま用いるのではなく、音声区間ごとの重みを適用し、前記の式(6)によって算出される事後確率γ´(i)を用いる。
以上、説明した適応化装置1の処理によれば、第C回目までの適応化によって認識誤りがなくなった音声区間(あるいは、認識誤りの程度が小さい音声区間)については、次回(第C+1回目)の適応化では、重みがゼロとされる(あるいは、相対的に小さい重みとされる)。このように重みを求めるにあたっては、適応化を繰り返しても認識誤りが改善されない音声区間に、繰り返しに応じてより大きな重みが与えられるようになっていく。
しかしながら、この適応化装置1の処理によれば、適応化処理そのものとしては、C回目までの適応化の結果得られた音響モデルに対して次回さらに蓄積的に適応化を行うのではなく、初期の音響モデルに対する適応化を行う。
<変形例1>
次に、上記実施形態の変形例1について説明する。この変形例での機能構成の概略は、図1に示した構成と同様である。本変形例に特有な点は、適応化重み算出部105による重みの算出方法である。また、その前提として、適応化用音声データ内で発話されている話題が、時刻に対応付く形で既知である点が、本変形例に特有である。
具体的には、本変形例では、適応化重み算出部105は、前述の式(4)ではなく、下の式(7)によって重みW(t)を算出する。
Figure 2015018186
式(4)と同様に、式(7)において、w(t)は、k回目の適応化の時刻tにおける統計量であり、統計量算出部103から読み出されるものである。また、式(7)におけるfも、式(4)におけるfと同様の関数である。そして、V(t)は、発話内容の話題に応じた値を取る関数である。具体的には、特定の話題が発話されている音声区間においてV(t)の値は比較的大きくなり、その他の音声区間においてV(t)の値が比較的小さくなるような、関数V(t)を用いる。但し、常にV(t)≧0である。一例としては、式(8)に示すV(t)を用いる。
Figure 2015018186
式(7)で示した重みW(t)に基づいて適応化部106が音響モデルの適応化の処理をすることにより、話題に依存した適応化を行えるようになる。言い換えれば、V(t)の値が重みW(t)に影響するため、前記の特定の話題に関して認識精度が良くなるような音響モデルの適応化を行なうことができる。
<変形例2>
次に、上記実施形態の変形例1について説明する。この変形例での機能構成の概略は、図1に示した構成と同様である。本変形例に特有な点は、上記の式(7)によって重みを算出する際に、下の式(9)で表わす関数V(t)を用いる点である。
Figure 2015018186
式(9)において、λは正の定数であり、tcurrは基準となる最新の時刻を示す。つまり、t−tcurr=0のときにV(t)=1であり、tが小さくなるにつれてV(t)の値は漸近的に0に近付いていく。一定期間ごとに音響モデルの繰り返し適応化を行う場合で、かつ音声データの発話環境が時々刻々と変化するような場合には、重みV(t)=exp(λ(t−tcurr))とすることで、tが小さいほど,つまり過去の音声区間であるほど,音響モデルの適応化に対するwk(t)の影響が小さくなり、最新の時刻に対応した最適な適応化が可能である。
なお、上述した実施形態における適応化装置の機能をコンピュータで実現するようにしても良い。その場合、この適応化装置を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、音声の音響的特徴を用いた統計的処理に利用可能である。特に、音声認識を利用した、放送番組の字幕制作や、音声対話システムや、会議議事録の自動書き起こしなどの様々な分野に利用可能である。
1 適応化装置
101 書き起こしデータ記憶部
103 統計量算出部
104 統計量データ記憶部
105 適応化重み算出部
106 適応化部
108 音声認識部
109 認識結果記憶部
110 適応化終了判定部
111 音響モデル記憶部

Claims (5)

  1. 音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルであって、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する音響モデル記憶部と、
    前記音響モデル記憶部から読み出した前記適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する音声認識部と、
    前記音声認識部によって出力される前記認識結果データと、前記適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、前記音声認識部による認識処理の精度に関する統計量を算出する統計量算出部と、
    前記統計量算出部によって算出された前記統計量に基づき音声区間ごとの適応化重みを算出する適応化重み算出部と、
    前記適応化重み算出部によって算出された音声区間ごとの前記適応化重みを適用しながら、前記適応化用音声データに対応する音声区間ごとの音響特徴量と前記書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、前記音響モデル記憶部に記憶されている前記初期の音響モデルを適応化し、前記音響モデル記憶部における前記適応化後の音響モデルを更新する適応化部と、
    を具備することを特徴とする適応化装置。
  2. 前記音声認識部による認識処理の認識率を、前記書き起こしデータと前記認識結果データとに基づいて算出し、前記認識率が前回の適応化による音響モデルを用いた場合における認識率よりも良くなった場合にはさらに適応化を繰り返すように制御し、その他の場合には適応化の繰り返しを終了するように制御する適応化終了判定部、
    をさらに具備することを特徴とする請求項1に記載の適応化装置。
  3. 前記統計量算出部が算出する前記統計量は、前記音声認識部によって出力される前記認識結果データの、前記音声区間における正誤を表す値である、
    ことを特徴とする請求項1または2のいずれか一方に記載の適応化装置。
  4. 前記統計量算出部が算出する前記統計量は、前記音声認識部による認識結果から得られる音響尤度と前記書き起こしデータにより前記適応化用音声データをアライメントしたときの音響尤度との間の、前記音声区間における差を表わす値である、
    ことを特徴とする請求項1または2のいずれか一方に記載の適応化装置。
  5. 音素と音響特徴量との間の統計的関係を表わす音響モデルデータを含んでなる音響モデルであって、適応化前の初期の音響モデルおよび適応化後の音響モデルを記憶する音響モデル記憶部、
    を備えるコンピュータに、
    前記音響モデル記憶部から読み出した前記適応化後の音響モデルに基づいて適応化用音声データの認識処理を行い、認識結果データを出力する音声認識過程、
    前記音声認識過程によって出力される前記認識結果データと、前記適応化用音声データに対応した書き起こしデータとに基づき、音声区間ごとに、前記音声認識過程による認識処理の精度に関する統計量を算出する統計量算出過程、
    前記統計量算出過程によって算出された前記統計量に基づき音声区間ごとの適応化重みを算出する適応化重み算出過程、
    前記適応化重み算出過程によって算出された音声区間ごとの前記適応化重みを適用しながら、前記適応化用音声データに対応する音声区間ごとの音響特徴量と前記書き起こしデータに対応する音声区間ごとの音素との間の統計的関係に基づき、前記音響モデル記憶部に記憶されている前記初期の音響モデルを適応化し、前記音響モデル記憶部における前記適応化後の音響モデルを更新する適応化過程、
    の処理を実行させるためのプログラム。
JP2013146895A 2013-07-12 2013-07-12 適応化装置およびプログラム Pending JP2015018186A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013146895A JP2015018186A (ja) 2013-07-12 2013-07-12 適応化装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013146895A JP2015018186A (ja) 2013-07-12 2013-07-12 適応化装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2015018186A true JP2015018186A (ja) 2015-01-29

Family

ID=52439210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013146895A Pending JP2015018186A (ja) 2013-07-12 2013-07-12 適応化装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2015018186A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230295A (ja) * 1994-02-18 1995-08-29 Nec Corp 話者適応化方式
JPH08129615A (ja) * 1994-11-01 1996-05-21 Nippon Telegr & Teleph Corp <Ntt> パタン認識用辞書作成方法およびパタン認識方法
JP2005141049A (ja) * 2003-11-07 2005-06-02 Nec Corp パターン認識装置、音声認識装置、およびプログラム
JP2010055030A (ja) * 2008-08-29 2010-03-11 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230295A (ja) * 1994-02-18 1995-08-29 Nec Corp 話者適応化方式
JPH08129615A (ja) * 1994-11-01 1996-05-21 Nippon Telegr & Teleph Corp <Ntt> パタン認識用辞書作成方法およびパタン認識方法
JP2005141049A (ja) * 2003-11-07 2005-06-02 Nec Corp パターン認識装置、音声認識装置、およびプログラム
JP2010055030A (ja) * 2008-08-29 2010-03-11 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム

Similar Documents

Publication Publication Date Title
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
US8019602B2 (en) Automatic speech recognition learning using user corrections
US8972253B2 (en) Deep belief network for large vocabulary continuous speech recognition
US8386254B2 (en) Multi-class constrained maximum likelihood linear regression
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
KR20110128229A (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP6366166B2 (ja) 音声認識装置、及びプログラム
Li et al. Bidirectional LSTM Network with Ordered Neurons for Speech Enhancement.
Li et al. Labeling unsegmented sequence data with DNN-HMM and its application for speech recognition
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
Zhu et al. Gaussian free cluster tree construction using deep neural network.
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
Siohan CTC Training of Multi-Phone Acoustic Models for Speech Recognition.
US8768695B2 (en) Channel normalization using recognition feedback
JP6086714B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
KR20170090815A (ko) 음성 인식 장치 및 이의 동작방법
JP2015018186A (ja) 適応化装置およびプログラム
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160530

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170530

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171121