JP2013182261A - 適応化装置、音声認識装置、およびそのプログラム - Google Patents

適応化装置、音声認識装置、およびそのプログラム Download PDF

Info

Publication number
JP2013182261A
JP2013182261A JP2012048232A JP2012048232A JP2013182261A JP 2013182261 A JP2013182261 A JP 2013182261A JP 2012048232 A JP2012048232 A JP 2012048232A JP 2012048232 A JP2012048232 A JP 2012048232A JP 2013182261 A JP2013182261 A JP 2013182261A
Authority
JP
Japan
Prior art keywords
data
adaptation
acoustic
acoustic model
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012048232A
Other languages
English (en)
Other versions
JP6027754B2 (ja
Inventor
Takahiro Oku
貴裕 奥
Toru Imai
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2012048232A priority Critical patent/JP6027754B2/ja
Publication of JP2013182261A publication Critical patent/JP2013182261A/ja
Application granted granted Critical
Publication of JP6027754B2 publication Critical patent/JP6027754B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声区間ごとの認識誤りの有無および度合いに応じて、効果的に音響モデルの適応化を行う適応化装置を提供する。
【解決手段】第1アライメント部は、音響モデルを読み込み、音響モデルに基づいて、読み込まれる音声データと音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含む第1アライメント結果データを生成する。第2アライメント部は、音声データの認識結果データを読み込み、音響モデルに基づいて、音声データと読み込んだ認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含む第2アライメント結果データを生成する。そして第1アライメント結果データと第2アライメント結果データの音響尤度データ同士を比較し、比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する。
【選択図】図1

Description

本発明は、音響モデルを適応化する適応化装置、およびその適応化装置を用いる音声認識装置、ならびにそのプログラムに関する。
音声認識処理においては、音素と音響特徴量との間の統計的関係を表わす音響モデルを用いる。音声認識処理において、認識性能を向上させるために、音響モデルの話者適応が行われる。音響モデルの話者適応とは、認識対象話者の音声データを用いて、話者の声質に合わせて、音響モデルのモデルパラメータを変化させることである。話者適応化は、発声内容に関する教師データを用いる教師あり話者適応と、教師データを用いない教師なし話者適応とに分類される。前者は、人手による書き起こしデータ(教師データ、テキストデータ)などが与えられ、発話内容の音素列が既知である場合の適応手法である。また、後者は、一般に話者非依存の音響モデルにより一度音声認識を行い、その認識結果を教師データとみなして適応化する手法である。
非特許文献1には、代表的な話者適応化手法として、事前知識を利用し、最大事後確率推定法(Maximum A Posteriori Estimation,MAP)を用いて音響モデルを適応化する技術が記載されている。
また、非特許文献2には、話者間の線形写像を用いて音響モデルを適応化する最尤線形回帰法(Maximum Likelihood Linear Regression,MLLR)が記載されている。
Jean-Lue Gauvain,Chin-Hui Lee,"Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains",IEEE Transactions on Speech and Audio Processing,Vol.2,No.2,p.291-298,April,1994年 C.J.Leggetter,P.C.Woodland,"Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models",Computer Speech and Language,No.9,p.171-185,1995年
しかしながら、従来技術による教師あり話者適応化手法は、適応化に用いる音声データの各時刻において、音響モデルの初期モデル(適応化前の音響モデル)による認識のし易さを考慮していないという問題があった。
実際には、適応化に用いる音声データにおいて、認識率が例えば100%である(つまり、認識誤りのない)音声区間に比べて、認識誤りのある音声区間の方が教師あり話者適応化の効果が高いと考えられる。しかしながら、従来技術による教師あり話者適応化手法は、音声区間による認識誤りの有無を考慮せず、どの音声区間も同等に話者適応化を行っていた。
つまり、従来技術による手法では、音声データの各時刻で一様に話者適応化を行っていることにより、話者適応化による効果も十分に得られていなかったことが考えられる。
本発明は、上記の課題認識に基づいて行なわれたものであり、音声区間ごとの認識のし易さを考慮して音響モデルの適応化を行う適応化装置、および適応化プログラム、ならびにそのような適応化を行なう音声認識装置を提供することを目的とする。
[1]上記の課題を解決するため、本発明の一態様による適応化装置は、音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成する第1アライメント部と、前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント部と、前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出部と、前記重点区間検出部による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理部とを具備する。
この構成によれば、重点区間検出部は、第1アライメント結果データ(音声データと、対応するテキストデータとのアライメント結果)と第2アライメント結果データ(音声データと、その認識結果データとのアライメント結果)とを各時刻で比較する。そして、両者の音響尤度の異なる時刻を含む音声区間を検出する。適応化処理部は、検出された音声区間において音響モデルを重点的に適応化する。よって、より高精度な適応化を行なうことができ、ひいては高精度な音声認識を実現できる。
なお、第1アライメント部が音響モデルとのアライメントを行なう対象のテキストデータとしては、例えば、書き起こしデータ(教師データ)や、認識結果によるテキストデータ(但し、第2アライメント部がアライメントの対象とする認識結果とは異なるもの)や、その他、音声データに対応し得るテキストを用いる。
[2]また、本発明の一態様は、上記の適応化装置において、前記重点区間検出部は、時刻ごとに、前記第1アライメント結果データに含まれる音響尤度データよりも、前記第2アライメント結果データに含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する、ことを特徴とする。
[3]また、本発明の一態様は、上記の適応化装置において、前記適応化処理部は、前記音響モデルの適応化処理において、前記重点区間検出部が検出した前記重点適応区間に付与する重みを、重点適応区間ではない区間に付与する重みよりも大きくする、ことを特徴とする。
音響尤度データが数値データであり、尤度がより高いほどより大きい数値で表わされる場合には、対応する時刻において、第2アライメント結果データに含まれる音響尤度データの値から、第1アライメント結果データに含まれる音響尤度データの値を減じて、その結果が正である場合に、重点区間検出部は、その区間を重点適応区間として検出する。
これにより、第1アライメントデータに含まれる音響尤度をより高める方向への適応化を、より重点的に行なうこととなる。その結果、より高精度に、音響モデルを適応化することができる。
[4]また、本発明の一態様は、上記の適応化装置において、前記適応化処理部は、前記音響モデルの適応化処理において、前記第2アライメント結果データに含まれる音響尤度データが表わす尤度と前記第1アライメント結果データに含まれる音響尤度データが表わす尤度との差が大きい区間ほど、前記重点適応区間に付与する重みを大きくする、ことを特徴とする。
[5]また、本発明の一態様は、上記のいずれかの適応化装置と、前記音響モデルを記憶する音響モデル記憶部と、前記音響モデルに記憶されている前記音響モデルを読み出して、入力される前記音声データの認識処理を行なう認識処理部と、を具備し、前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと前記テキストデータとを時間的にアラインし、前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと前記認識処理部による認識処理の結果得られる前記認識結果データとを時間的にアラインし、前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込むことを特徴とする音声認識装置である。
この構成により、適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを音響モデル記憶部に書き込む。即ち、音響モデル記憶部を更新する。
[6]また、本発明の一態様は、上記のいずれかの適応化装置と、前記音響モデルを記憶する音響モデル記憶部と、言語要素の出現頻度に関する統計的データを表わす第1言語モデルを記憶する第1言語モデル記憶部と、言語要素の出現頻度に関する統計的データを表わし、前記第1言語モデルとは異なる第2言語モデルを記憶する第2言語モデル記憶部と、前記音響モデル記憶部に記憶されている前記音響モデルを読み出すとともに、前記第1言語モデル記憶部から読み出した前記第1言語モデルあるいは前記第2言語モデル記憶部から読み出した前記第2言語モデルのいずれかを用いて、入力される前記音声データの認識処理を行なう認識処理部と、を具備し、前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと、前記認識処理部が前記第1言語モデルを用いて前記音声データを認識処理して得られた結果である前記テキストデータとを時間的にアラインし、前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと、前記認識処理部が前記第2言語モデルを用いて前記音声データを認識処理して得られた結果である前記認識結果データとを時間的にアラインし、前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、ことを特徴とする音声認識装置である。
この構成により、第1言語モデルを用いて認識処理を行った結果得られるテキストデータを、第1アライメント部におけるアライメントの対象として用いることができる。つまり、テキストデータを用意する必要がない。また、適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを音響モデル記憶部に書き込む。即ち、音響モデル記憶部を更新する。
[7]また、本発明の一態様は、コンピューターを、音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成する第1アライメント手段、前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント手段、前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出手段、前記重点区間検出手段による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理手段、として機能させるためのプログラムである。
[8]また、本発明の一態様は、コンピューターを上のいずれかに記載の音声認識装置として機能させるためのプログラムである。
本発明によれば、音声認識時の認識誤りに応じて重点区間を検出し、効果的に音響モデルの話者適応化処理を行なう。よって、高精度な音響モデルを得ることができる。つまり、より高精度な音声認識が可能となる。
本発明の第1の実施形態による適応化装置の機能構成を示すブロック図である。 同実施形態によるアライメント結果記憶部が記憶するデータの構成を示す概略図である。 同実施形態による適応化装置による適応化処理の手順を示すフローチャートである。 本発明の第2の実施形態による音声認識装置の機能構成を示すブロック図である。 本発明の第3の実施形態による音声認識装置の機能構成を示すブロック図である。
以下、図面を参照しながら、本発明の複数の実施形態について説明する。
[第1の実施形態]
図1は、第1の実施形態による適応化装置の機能構成を示すブロック図である。図示するように、適応化装置1は、書き起こしデータ記憶部11と、認識結果記憶部14と、アライメント部15(第1アライメント部)と、アライメント部16(第2アライメント部)と、アライメント結果記憶部17および18と、重点区間検出部19と、適応化処理部20とを含んで構成される。
また、適応化装置1は、適応化処理を行う前の初期モデルである音響モデル12と、適応化用音声データ13とを読み込む。適応化用音声データ13は、適応化に用いるための特定話者の音声データである。つまり、適応化用音声データ13は、当該特定話者に特有の音響特徴量を有するものである。また、適応化装置1は、適応化用音声データ13に対応する書き起こしデータと認識結果のデータとを読み込む。そして、適応化装置1は、適応化の結果として得られる話者適応化音響モデル21を出力する。
適応化装置1の各部について説明する。
書き起こしデータ記憶部11は、適応化用音声データ13に対応する書き起こしデータを記憶する。書き起こしデータは、予め人手等によって書き起こされたテキストデータである。書き起こしデータは、基本的には適応化用音声データにおける発話内容を表わす正解データであるが、必ずしも完全な正解データでなくても良く、多少の誤りを含んでいても良い。また、言い換えれば、この書き起こしデータは学習用(適応化用)の教師データである。
認識結果記憶部14は、認識処理によって予め得られている認識結果のデータを記憶する。認識結果は、不図示の認識装置が、初期モデルである音響モデル12を用いて、適応化用音声データ13の認識処理を行った結果得られたものである。
アライメント部15および16は、音響モデル12を用いて、それぞれ、テキストデータと適応化用音声データ13(音声データ)との間の強制アライメント処理を行う。ここで、音響モデル12は、音素と音響特徴量との間の統計的関係を表わすデータを含んで構成されるデータである。音響モデルの詳細については、後述する。
そして、アライメント部15は、音響モデル12を読み込み、音響モデル12に基づいて、読み込まれる適応化用音声データ13と、これに対応する書き起こしデータ(書き起こしデータ記憶部11から読み出されるテキストデータ)とを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成し、アライメント結果記憶部17に書き込む。また、アライメント部16は、適応化用音声データ13に対応する認識結果データを認識結果記憶部14から読み込み、音響モデル12に基づいて、適応化用音声データ13と読み込んだ認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成し、アライメント結果記憶部18に書き込む。つまり、アライメント部15は、書き起こしデータ記憶部11から読み出した書き起こしデータのアライメント処理を行う。また、アライメント部16は、認識結果記憶部14から読み出した認識結果のアライメント処理を行う。
アライメント結果記憶部17および18は、それぞれ、アライメント部15および16によるアライメント処理の結果を記憶する。アライメント結果記憶部17および18が記憶するデータの構成については後述する。
重点区間検出部19は、アライメント結果記憶部17および18のそれぞれからアライメント結果を読み出し、これに基づき、適応化を重点的に行う音声区問(重点適応区問)を検出する。より具体的には、重点区間検出部19は、時刻ごとに、アライメント結果記憶部17が記憶するデータ(第1アライメント結果データ)に含まれる音響尤度データよりも、アライメント結果記憶部18が記憶するデータ(第2アライメント結果データ)に含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する。
適応化処理部20は、重点区間検出部19が検出した重点区間の重みを、その他の区間の重みよりも大きくしながら、音響モデルの適応化処理を行ない、その結果として話者適応化音響モデル21を出力する。
音響モデル12は、前述の通り、音素と音響特徴量との間の統計的関係を表わすデータの集合である。音響モデル12は、音響特徴量(ベクトル)に関するM個の混合ガウス分布を表わすデータと、パラメータθを含む。パラメータθは、ベクトルであり、空間Θに属する。音響モデルは、不特定の話者に関するパラメータθ、あるいは特定の話者ごとのパラメータθ(話者のインデックスを付加して、θ,θ,・・・と表わしても良い)を記憶する。複数の話者に対応する場合には、音響モデルは、各々の話者について、話者識別情報と関連付けて音響モデルのパラメータの値θ(j=1,2,・・・)を記憶する。この音響モデルを用いることにより、音声認識装置は、音響特徴量のサンプルx=(x,・・・,x)が観測されたとき、時刻tにおける事後確率γ(i,m)を求める。ここで、iは、隠れマルコフモデル(HMM)の状態(トライフォン表記の音素に相当)である。また、m(1≦m≦M)は、音響モデルにおけるM個の混合ガウス分布のうちの一つを指すインデックス値である。
図2は、アライメント結果記憶部17および18がそれぞれ記憶するデータの構成を示す概略図である。図示するように、アライメント結果記憶部17および18のそれぞれは、表形式のデータであり、時刻と、音素と、音響尤度の各項目(桁)を有している。図中の音響尤度は、当該時刻における音響尤度(0より大きく、1未満)の対数値であり、負数である。このデータのレコード(行)は、フレームごとに存在する。また、このデータの全レコードの集合は、適応化用音声データ13の全区間に相当する。時刻は、適応化用音声データの開始位置からの相対時刻に相当するものである。この時刻は、図示するように、フレーム番号で表わされる。フレーム番号は0または1から始まるシリアル番号である。フレーム周期は、例えば、数百分の一秒ないしは数千分の一秒である。この時刻が、この表形式のデータにおける主キーである。音素は、当該時刻における音素のラベルである。ここでは、音素のラベルはトライフォンで表わされる。つまり、現在の音素に対して、直前の音素と直後の音素を並べて表記される。例えば、時刻が「309」である行においては、音素は「t+o」と表わされているが、これは、現在の音素が「t」(日本語においてタ行の音を構成する子音)で、直前の音素が無く、直後の音素が「o」(母音の「オ」)であることを示している。同様に、時刻が「314」である行においては、音素は「t−o+k」と表わされているが、これは、現在の音素が「o」で、直前の音素が「t」で、直後の音素が「k」であることを示している。一般に、現在の音素「X」に対して、直前の音素が「L」で、直後の音素が「R」であるときには、「L−X+R」の形でトライフォンが表わされる。
図3は、適応化装置1による適応化処理の手順を示すフローチャートである。以下、このフローチャートに沿って、詳細な手順を説明する。
まずステップS1において、アライメント部15および16が、それぞれ、アライメント処理を行う。アライメント部15は、音響モデル12を用いて、書き起こしデータ記憶部11から読み出した書き起こしデータを、適応化用音声データ13に強制アライメントする。また、アライメント部15は、音響モデル12を用いて、認識結果記憶部14から読み出した認識結果のテキストデータを、適応化用音声データ13に強制アライメントする。なお、アライメント処理自体は既存技術を用いて行なうことが可能である。アライメント部15および16は、それぞれ、書き起こしデータおよび認識結果テキストを音素列に変換し、それらの音素列を、時間軸上で最尤の位置となるように、適応化用音声データから得られるフレームごとの音響特徴量の列にアラインする。なお、時間軸上で最尤の位置となるようにアラインするために、アライメント部15および16は、上記の音素列と上記の音響特徴量との間の統計的関係を音響モデル12から読み出し、適宜尤度を計算しながら探索を行うことによって、尤度最大となるようなアライメントを得る。アライメント部15および16は、アライメント処理の結果、音素(トライフォン)と音響尤度のペアを、フレームごとのシーケンスとして、それぞれ、アライメント結果記憶部17および18に書き込む。なお、適応化用音声データにおいては、音響特徴量と時刻(フレーム番号)とは元々関連付けられている。
次にステップS2からS5までの処理で、重点区間検出部19は、重点適応区間の検出を行なう。
ステップS2においては、重点区間検出部19は、時刻(フレーム番号)を表わす制御用の記憶領域(変数t)をゼロにリセットする。
次にステップS3において、重点区間検出部19は、時刻tにおける、認識結果と書き起こしデータとの間の音響尤度差を計算する。アライメントされた書き起こしデータによる、時刻tにおける音響尤度(アライメント結果記憶部17の、時刻tの行から読み出される値)をL(t)とする。また、アライメントされた認識結果による、時刻tにおける音響尤度(アライメント結果記憶部18の、時刻tの行から読み出される値)をL(t)とする。このとき、時刻tにおける音響尤度差ΔL(t)は、次の式(1)で計算される。
Figure 2013182261
重点区間検出部19は、計算された音響尤度差ΔL(t)の値が正のとき、時刻tによって代表される区間(フレーム)では、認識結果による音響尤度が書き起こしデータによる音響尤度よりも大きいことから、当該区間を重点適応区間として検出する。逆に、ΔL(t)の値が零または負のとき、重点区間検出部19は、時刻tによって代表される区間(フレーム)を重点区間としない。上記のようにΔL(t)の値が正である音声区間を重点適応区間とする理由は、書き起こしデータ(正解データ)よりも認識結果の方が優位である区間が、特に適応化が必要な区間であるからである。
次にステップS4において、重点区間検出部19は、時刻を指し示す変数tを次に進める。本実施形態では、時刻がフレームのシリアル番号で表わされているため、変数tをインクリメントする。
次にステップS5において、重点区間検出部19は、適応化用音声データ13を全てサーチし終えたか否かを判断する。全てサーチし終えた場合(ステップS5:YES)には、次のステップS6に進む。まだサーチし終えていない場合(ステップS5:NO)には、ステップS3に戻って次のフレームの処理を続ける。
次にステップS6に進んだ場合には、適応化処理部20が、重点適応区間により大きい重みを与えながら、適応化処理を行う。この適応化処理の詳細を次に記載する。
適応化処理部20は、MLLR適応とMAP適応を行なう。これらの適応化処理自体は、既存技術を用いて行える。このとき、適応化処理部20は、適応化用音声データ13から得られる音響特徴量の列と、パラメータベクトルθによる音響モデル12とから、正解候補の音素列の確率を計算する。そして、適応化処理部20は、これにより得られる認識結果候補の音素列(およびその確率)と、教師データである書き起こしデータに対応する音素列との一致度合いから、パラメータベクトルθを評価する。書き起こしデータに対応する音素列は、アライメント結果記憶部17から読み出される。そして、適応化処理部20は、適切に定義された評価関数の値が最適値に近付くように、θを探索する。探索アルゴリズムとしては、例えばEMアルゴリズムを用いる。その際、適応化処理部20は、フォワードバックワードアルゴリズムにより、時刻tにおける事後確率γ(i,m)を求める。ここで、iは、隠れマルコフモデル(HMM)の状態(トライフォン表記の音素に相当)である。また、m(1≦m≦M)は、音響モデルにおけるM個の混合ガウス分布のうちの一つを指すインデックス値である。そして、本実施形態による適応化処理部20は、適応化を行なう際には、上記の事後確率γ(i,m)をそのまま用いるのではなく、重点適応区間により大きい重みを与えるために、下の式(2)によって算出される事後確率γ´(i,m)を用いる。
Figure 2013182261
なお、式(2)において、αは重点適応の重み定数であり、βは閾値である。なお、αおよびβはともに正の設定値である。αおよびβの具体的な値の例については後述する(実施例1)。
つまり、式(2)で表わされる通り、適応化処理部20は、ΔL(t)≦0である音声区間においては、重みをかけずに、γ(i,m)をそのままγ´(i,m)の値として用いる。また、0<ΔL(t)である音声区間(重点適応区間)においては、γ(i,m)よりも大きい値をγ´(i,m)の値として用いる。式(2)の例では、0<ΔL(t)≦βである音声区間においては、ΔL(t)の値に対する線形な増分がγ(i,m)に加算されている。また、β<ΔL(t)である音声区間においては、一律にα・β・γ(i,m)がγ(i,m)に加算されている。つまり、式(2)によってγ´(i,m)を計算するのは、ΔL(t)が正である音声区間の事後確率γ(i,m)に対して線形に大きな重みを与える例(但し、所定の閾値以上では、一定値にカットオフ)である。
式(2)の代わりに、非線形な重みを与えてγ´(i,m)を計算しても良い。非線形な重みを与えるためには、例えば、適応化処理部20は、下の式(3)によってγ´(i,m)を計算する。
Figure 2013182261
式(3)におけるαおよびβは、ともに正の設定値である。また、eはネイピア数である。式(3)によって算出されるγ´(i,m)の値は、ΔL(t)の増加に対して単調増加である。また、γ(i,m)<γ´(i,m)<(1+α)・γ(i,m)である。
さらに式(3)の変形例として、適応化処理部20が、下の式(4)によってγ´(i,m)を計算するようにしても良い。
Figure 2013182261
このように、適応化処理部20は、時刻tに応じて、tで表わされる区間に対する重み付けをしながら適応化の処理を行なう。式(2)、式(3)、式(4)のいずれを用いる場合も、あるいはその他の重み(ΔL(t)に関してγ´(i,m)が単調増加となるような重み)を用いる場合も、次の作用を有する。即ち、適応化処理部20は、重点適応区間に関して、ΔL(t)が大きいほど(つまり、L(t)とL(t)との差が大きいほど、さらに言い換えれば、アライメント結果記憶部18(第2アライメント結果データ)に含まれる音響尤度データが表わす尤度とアライメント結果記憶部17(第1アライメント結果データ)に含まれる音響尤度データが表わす尤度との差が大きいほど)、より大きな重み付けをその重点適応区間に付与しながら、音響モデルを適応化する、
[第2の実施形態]
図4は、本発明の第2の実施形態による音声認識装置の機能構成を示すブロック図である。本実施形態による音声認識装置2は、第1の実施形態で述べた適応化装置1を内部に備えている。そして、図示するように、音声認識装置2は、適応化装置1と、音響モデル記憶部112と、認識処理部153とを含んで構成される。
音声認識装置2は、外部から音声データを取得し、この音声データに対応する認識結果を出力する。ここで、認識処理部153は、音響モデル記憶部112から読み出す音響モデルと、不図示の言語モデルとを用いて、音声データに対応する音響特徴量列に対して最尤なテキストを探索し、出力する。認識処理部153のこの処理自体は、既存の音声認識技術を用いて実現される。また、音響モデル記憶部112は、話者ごとに音響モデルを記憶する。言い換えれば、音響モデル記憶部112は、各々の話者について、話者識別情報と関連付けて音響モデルのパラメータの値を記憶する。
適応化装置1は、音響モデル記憶部112から音響モデルを読み込む。これは、第1の実施形態において適応化装置1が音響モデル12(図1)を読み込んだことに相当する。また、適応化装置1は、第1の実施形態でも述べたように、認識処理部153が出力した認識結果を取得する。また、適応化装置1は、第1の実施形態でも述べたように、認識処理部153による認識処理とは独立に別途書き起こされた書き起こしデータを読み込む。また、適応化装置1は、外部から入力された音声データを取得する。この音声データは、第1の実施形態で述べた適応化用音声データ13(図1)に相当する。
これら入力されるデータを元に、適応化装置1は、第1の実施形態で述べた手順で適応化の処理を行い、話者適応化された音響モデルを出力する。適応化装置1は、この話者適応化された音響モデルによって、音響モデル記憶部112を更新する。これにより、音声認識装置2の音響モデルは、特定の話者に適応化される。話者適応化のために用いる音声データは、一発話分(ここで、一発話とは、無音区間を始端境界および終端境界として切り出される音声区間とする)であっても良く、数発話分であっても良い。また、所定の時間(例えば、5秒)で区切った音声データを適応化用音声データとして用いても良い。このように特定話者に適応化された音響モデルを用いることにより、音声認識装置2が特定話者の音声を認識する際の認識精度を向上させることができる。
また、適応化装置1による音響モデルの適応化を複数回繰り返して行なっても良い。この場合、一回の適応化処理ごとに音響モデル記憶部112が更新される。そして、その一回ごとに当該話者に関して音響モデルが適応化され、その音響モデルを用いた音声認識処理の精度がその都度向上する。
本実施形態の構成を整理すると、次の通りである。即ち、適応化装置1が具備するアライメント部15(第1アライメント部)は、音響モデル記憶部112から読み込んだ音響モデルに基づいて、認識処理部153による認識処理の対象となる音声データとテキストデータとを時間的にアラインし、適応化装置1が具備するアライメント部16(第1アライメント部)は、音響モデル記憶部112から読み込んだ音響モデルに基づいて、音声データと認識処理部153による認識処理の結果得られる認識結果データとを時間的にアラインする。また、適応化装置1が具備する適応化処理部20は、適応化した結果得られる適応化音響モデルを音響モデル記憶部112に書き込む。つまり、適応化処理部20が、適応化用音声データ13に対応する話者の音響モデルを更新する。
[第3の実施形態]
図5は、本発明の第3の実施形態による音声認識装置の機能構成を示すブロック図である。本実施形態による音声認識装置3は、第1の実施形態で述べた適応化装置1を内部に備えている。そして、図示するように、音声認識装置3は、適応化装置1と、音響モデル記憶部112と、認識処理部153と、認識結果記憶部154と、第1言語モデル記憶部161と、第2言語モデル記憶部162とを含んで構成される。
同図における適応化装置1は、第1の実施形態で述べた構成を有している。また、音響モデル記憶部112と認識処理部153については、第2の実施形態で述べた通りである。本実施形態特有の構成は、第1言語モデル記憶部161および第2言語モデル記憶部162が、それぞれ互いと異なる形態の言語モデルを記憶している点である。
そして、認識処理部153は、まず第1段階で、第1言語モデル記憶部161に記憶されている言語モデルを用いて認識処理を行ない、その認識結果を認識結果記憶部154に書き込む。認識処理部153は、その後の第2段階で、第2言語モデル記憶部162に記憶されている言語モデルを用いて認識処理を行なう。このとき、第1言語モデル記憶部161と第2言語モデル記憶部162に記憶されている言語モデルが互いに異なるため、認識処理部153による認識結果も若干異なったものとなる。そして、適応化装置1は、上記第2段階において、認識結果記憶部154から読み出した認識結果のテキストを、第1の実施形態において説明した書き起こしデータの代わりとして読み込む。また、第2段階において認識処理部153から出力された認識結果のテキストを、第1の実施形態において説明した認識結果として読み込む。これらの入力を用いて、適応化装置1は、適応化処理を行ない、その結果得られる話者適応化音響モデルを用いて、音響モデル記憶部112を更新する。
第2の実施形態においては、音声認識装置3では、適応化用音声データに対応する書き起こしデータを手作業等によって予め用意する必要があった。それに対して、この第3の実施形態では、第1段階において第1言語モデル記憶部161を参照しながら行なった認識処理で認識処理部153が出力した認識結果を、一時的に認識結果記憶部154に記憶させ、第2段階において書き起こしデータの代わりに用いる。従って、音声認識装置3は、予め書き起こしデータを作成する必要がなく、手間を削減できる。
なお、一例としては、第1言語モデル記憶部161には、トライグラム(trigram)の言語モデルを記憶させる。また第2言語モデル記憶部162には、バイグラム(bigram)の言語モデルを記憶させる。バイグラムの言語モデルは、連鎖数が2である言語要素(単語等)の連鎖の統計的出現確率を用いた言語モデルである。トライグラムの言語モデルは、連鎖数が3である言語要素(単語等)の連鎖の統計的出現確率を用いた言語モデルである。
なお、上述した各実施形態における適応化装置、音声認識装置の機能の全部または一部をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、単独の話者ごとの音響モデルを適応化する代わりに、音響的に似た特徴を有する複数の話者で構成される話者クラスタごとに、音響モデルを適応化するようにしても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
放送局で用いるための音声認識システムに、本発明の適応化装置1を適用した。同システムは、音声認識処理を利用して、生放送番組に字幕(テキスト)を付与するシステムである。同システムは、生放送の情報番組で流される音声を聞きながらリスピーク(再発話)する2人のリスピーカーの音声を認識する。リスピーカーは十分に訓練された話者である。まず、リスピーカーの役割を果たす特定話者2人(便宜上、AおよびBと呼ぶ)の音声(約3時間分)を用いて、隠れマルコフモデルによる不特定話者用の音響モデルを、事前に、AおよびBのそれぞれ用に適応化しておく。これらを初期音響モデル(それぞれ、モデルAおよびモデルB)として用いる。そして、2人のリスピーカーは、放送中にオンラインで、適当な発話区切りごとに交替で、交互に発話する。そして、音声認識システムは、話者Aが発話している間には、Aの音声を認識する処理を行なうとともに、話者交替以前の話者Bの発話の認識結果を用いて話者B用のモデルBを適応化してモデルBn+1に更新する(nは整数)。また、逆に、話者Bが発話している間には、Bの音声を認識する処理を行なうとともに、話者交替以前の話者Aの発話の認識結果を用いて話者A用のモデルAを適応化してモデルAn+1に更新する。これを繰り返していく。
上記の、不特定話者用の音響モデルは、5状態3自己ループの状態共有トライフォンHMM(4000状態、16混合分布)である。認識用に用いた言語モデルは大量の放送番組の書き起こし等(412M単語)によって学習した語彙サイズ93kのトライグラムモデルと、番組ごとの関連テキスト(17k単語)によって構築したトライグラムモデルを線形補間したものである。
認識実験および話者適応化のための認識仮説の生成には、第1パスでバイグラムによる単語依存N−best探索、第2パスでトライグラムリスコアリングする逐次2パスデコーダを使用した。また、適応化手法としては、次の3手法を用いて比較した。(a)ベースライン:従来の技術によるMLLR、MAPで適応化する。(b)トライグラム:最尤認識仮説として第2パスの最尤仮説を用いて、重点適応区間を決定する。(c)バイグラム:最尤認識仮説として第1パスの最尤仮説を用いて、重点適応区間を決定する。
ここで、MLLR適応およびMAP適応を行なう際に、重み付き事後確率γ´(i,m)を算出するためには、前記の式(2)を用いた。また、式(2)における設定値αおよびβとしては、次の値を用いた。即ち、β=25.0(固定値)とした。
また、αは、状況に応じて次の通りとした。
バイグラムの場合(上記(c))、初期の音響モデルの生成時には、MLLR適応ではα=10.0、MAP適応ではα=0.3とした。オンライン適応化時には、MLLR適応ではα=20.0、MAP適応ではα=0.6とした。
トライグラムの場合(上記(b))、初期の音響モデルの生成時には、MLLR適応ではα=20.0、MAP適応ではα=0.3とした。オンライン適応化時には、MLLR適応ではα=100.0、MAP適応ではα=1.5とした。
この実施例による結果は、下の表1の通りである。この表は、話者A、話者B、および全体のそれぞれについて、重点適応区間がない場合(上記(a))と重点適応区間がある場合(上記(b)および(c))の、単語誤り率(WER,Word Error Rate)を示している。いずれも、重点適応区間なしで音響モデルを適応化するよりも、重点適応区間ありで音響モデルを適応化したほうが、単語誤り率が下がっている。つまり、重点適応区間ありで適応化したほうが高い効果が得られることが確認された。
Figure 2013182261
本発明は、音声の音響的特徴を用いた統計的処理に利用可能である。特に、本発明は、音声認識処理に利用可能である。さらに、本発明は、音声認識処理を利用して放送番組等の音声に対応したテキストデータ(字幕データ)を生成する処理に利用可能である。
1 適応化装置
2,3 音声認識装置
11 書き起こしデータ記憶部
12 音響モデル
13 適応化用音声データ(音声データ)
14 認識結果記憶部
15 アライメント部(第1アライメント部,第1アライメント手段)
16 アライメント部(第2アライメント部,第2アライメント手段)
17 アライメント結果記憶部(第1アライメント結果データ)
18 アライメント結果記憶部(第2アライメント結果データ)
19 重点区間検出部(重点区間検出手段)
20 適応化処理部(適応化処理手段)
112 音響モデル記憶部
153 認識処理部
154 認識結果記憶部
161 第1言語モデル記憶部
162 第2言語モデル記憶部

Claims (8)

  1. 音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成する第1アライメント部と、
    前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント部と、
    前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出部と、
    前記重点区間検出部による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理部と、
    を具備することを特徴とする適応化装置。
  2. 前記重点区間検出部は、時刻ごとに、前記第1アライメント結果データに含まれる音響尤度データよりも、前記第2アライメント結果データに含まれる音響尤度データのほうが、より高い尤度を表わす場合に、当該時刻に関連付けられた区間を重点適応区間として検出する、
    ことを特徴とする請求項1に記載の適応化装置。
  3. 前記適応化処理部は、前記音響モデルの適応化処理において、前記重点区間検出部が検出した前記重点適応区間に付与する重みを、重点適応区間ではない区間に付与する重みよりも大きくする、
    ことを特徴とする請求項2に記載の適応化装置。
  4. 前記適応化処理部は、前記音響モデルの適応化処理において、前記第2アライメント結果データに含まれる音響尤度データが表わす尤度と前記第1アライメント結果データに含まれる音響尤度データが表わす尤度との差が大きい区間ほど、前記重点適応区間に付与する重みをより大きくする、
    ことを特徴とする請求項3に記載の適応化装置。
  5. 請求項1から4までのいずれか一項に記載の適応化装置と、
    前記音響モデルを記憶する音響モデル記憶部と、
    前記音響モデルに記憶されている前記音響モデルを読み出して、入力される前記音声データの認識処理を行なう認識処理部と、
    を具備し、
    前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと前記テキストデータとを時間的にアラインし、
    前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと前記認識処理部による認識処理の結果得られる前記認識結果データとを時間的にアラインし、
    前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、
    ことを特徴とする音声認識装置。
  6. 請求項1から4までのいずれか一項に記載の適応化装置と、
    前記音響モデルを記憶する音響モデル記憶部と、
    言語要素の出現頻度に関する統計的データを表わす第1言語モデルを記憶する第1言語モデル記憶部と、
    言語要素の出現頻度に関する統計的データを表わし、前記第1言語モデルとは異なる第2言語モデルを記憶する第2言語モデル記憶部と、
    前記音響モデル記憶部に記憶されている前記音響モデルを読み出すとともに、前記第1言語モデル記憶部から読み出した前記第1言語モデルあるいは前記第2言語モデル記憶部から読み出した前記第2言語モデルのいずれかを用いて、入力される前記音声データの認識処理を行なう認識処理部と、
    を具備し、
    前記適応化装置が具備する前記第1アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記認識処理部による認識処理の対象となる前記音声データと、前記認識処理部が前記第1言語モデルを用いて前記音声データを認識処理して得られた結果である前記テキストデータとを時間的にアラインし、
    前記適応化装置が具備する前記第2アライメント部は、前記音響モデル記憶部から読み込んだ前記音響モデルに基づいて、前記音声データと、前記認識処理部が前記第2言語モデルを用いて前記音声データを認識処理して得られた結果である前記認識結果データとを時間的にアラインし、
    前記適応化装置が具備する適応化処理部は、適応化した結果得られる適応化音響モデルを前記音響モデル記憶部に書き込む、
    ことを特徴とする音声認識装置。
  7. コンピューターを、
    音素と音響特徴量との間の統計的関係を表わすデータを含んでなる音響モデルを読み込み、前記音響モデルに基づいて、読み込まれる音声データと前記音声データに対応するテキストデータとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第1アライメント結果データを生成する第1アライメント手段、
    前記音声データの認識結果データを読み込み、前記音響モデルに基づいて、前記音声データと読み込んだ前記認識結果データとを時間的にアラインすることにより、時刻に対応付けた音響尤度データを含んでなる第2アライメント結果データを生成する第2アライメント手段、
    前記時刻ごとに前記第1アライメント結果データに含まれる音響尤度データと前記第2アライメント結果データに含まれる音響尤度データとを比較する重点区間検出手段、
    前記重点区間検出手段による比較結果に応じた重み付けを音声区間に付与しながら前記音響モデルを適応化する適応化処理手段、
    として機能させるためのプログラム。
  8. コンピューターを、請求項5または請求項6のいずれかに記載の音声認識装置として機能させるためのプログラム。
JP2012048232A 2012-03-05 2012-03-05 適応化装置、音声認識装置、およびそのプログラム Active JP6027754B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012048232A JP6027754B2 (ja) 2012-03-05 2012-03-05 適応化装置、音声認識装置、およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012048232A JP6027754B2 (ja) 2012-03-05 2012-03-05 適応化装置、音声認識装置、およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2013182261A true JP2013182261A (ja) 2013-09-12
JP6027754B2 JP6027754B2 (ja) 2016-11-16

Family

ID=49272906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012048232A Active JP6027754B2 (ja) 2012-03-05 2012-03-05 適応化装置、音声認識装置、およびそのプログラム

Country Status (1)

Country Link
JP (1) JP6027754B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160059265A (ko) * 2014-11-18 2016-05-26 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN111243574A (zh) * 2020-01-13 2020-06-05 苏州奇梦者网络科技有限公司 一种语音模型自适应训练方法、系统、装置及存储介质
JPWO2021059968A1 (ja) * 2019-09-27 2021-04-01
WO2023100999A1 (ja) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 音声登録装置および音声登録方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305591A (ja) * 1999-04-26 2000-11-02 Mitsubishi Electric Corp 話者適応化音響モデル作成方法と音声認識装置
US6272462B1 (en) * 1999-02-25 2001-08-07 Panasonic Technologies, Inc. Supervised adaptation using corrective N-best decoding
JP2003162293A (ja) * 2001-09-14 2003-06-06 Fujitsu Ltd 音声認識装置及び方法
US20040215457A1 (en) * 2000-10-17 2004-10-28 Carsten Meyer Selection of alternative word sequences for discriminative adaptation
JP2005091504A (ja) * 2003-09-12 2005-04-07 Chubu Electric Power Co Inc 音声認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272462B1 (en) * 1999-02-25 2001-08-07 Panasonic Technologies, Inc. Supervised adaptation using corrective N-best decoding
JP2000305591A (ja) * 1999-04-26 2000-11-02 Mitsubishi Electric Corp 話者適応化音響モデル作成方法と音声認識装置
US20040215457A1 (en) * 2000-10-17 2004-10-28 Carsten Meyer Selection of alternative word sequences for discriminative adaptation
JP2003162293A (ja) * 2001-09-14 2003-06-06 Fujitsu Ltd 音声認識装置及び方法
JP2005091504A (ja) * 2003-09-12 2005-04-07 Chubu Electric Power Co Inc 音声認識装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160059265A (ko) * 2014-11-18 2016-05-26 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
KR102199246B1 (ko) 2014-11-18 2021-01-07 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JPWO2021059968A1 (ja) * 2019-09-27 2021-04-01
WO2021059968A1 (ja) * 2019-09-27 2021-04-01 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム
JP7416078B2 (ja) 2019-09-27 2024-01-17 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム
CN111243574A (zh) * 2020-01-13 2020-06-05 苏州奇梦者网络科技有限公司 一种语音模型自适应训练方法、系统、装置及存储介质
WO2023100999A1 (ja) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 音声登録装置および音声登録方法

Also Published As

Publication number Publication date
JP6027754B2 (ja) 2016-11-16

Similar Documents

Publication Publication Date Title
US8019602B2 (en) Automatic speech recognition learning using user corrections
US9099082B2 (en) Apparatus for correcting error in speech recognition
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
JP6437581B2 (ja) 話者適応型の音声認識
WO2014025682A2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
US11705116B2 (en) Language and grammar model adaptation using model weight data
JP2016062069A (ja) 音声認識方法、及び音声認識装置
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2017045027A (ja) 音声言語コーパス生成装置およびそのプログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
JP2005091504A (ja) 音声認識装置
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
GB2558629A (en) Speaker-adaptive speech recognition
Pirhosseinloo et al. A combination of maximum likelihood Bayesian framework and discriminative linear transforms for speaker adaptation
Chang et al. Evaluation of multi-level context-dependent acoustic model for large vocabulary speaker adaptation tasks
JP2015018186A (ja) 適応化装置およびプログラム
Jayasena et al. Kathana-fluent speech recognition system based on hidden markov model for Sinhala language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161017

R150 Certificate of patent or registration of utility model

Ref document number: 6027754

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250