JP2015082036A

JP2015082036A - 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法

Info

Publication number: JP2015082036A
Application number: JP2013220132A
Authority: JP
Inventors: 太一浅見; Taichi Asami; 浩和政瀧; Hirokazu Masataki
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2015-04-27
Anticipated expiration: 2033-10-23
Also published as: JP6148150B2

Abstract

【課題】音声データを扱う際の最小単位である音響分析フレームの単位で信頼尺度を求める音響分析フレーム信頼度計算装置と、その装置を含む音響モデル適応装置と音声認識装置を提供する。【解決手段】音声認識部は、音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、上記音響分析フレームに最尤の音素ＩＤを付与して上記音響特徴量と音響尤度と音素ＩＤとを対応付けた音素ＩＤ・音響尤度付き音響特徴量系列を出力し、フレーム信頼尺度計算部は、上記各音素ＩＤごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を、上記音響分析フレームごとに音響特徴量の信頼度として付与したフレーム信頼度付き音響特徴量系列を出力する。【選択図】図１

Description

この発明は、音声認識に用いる音響モデルの適応技術に関し、特に教師なし音響モデル適応に用いる特徴量を選別するようにした音響分析フレーム信頼度計算装置とその方法と、その装置を用いた音響モデル適応装置と音声認識装置とそれらのプログラムに関する。

音声認識に使用する音響モデルを更新する際には、学習データ中の事例ができるだけ多く成り立つようにモデルのパラメータの最適化処理を行う。この処理を「音響モデルの適応」と称し、一般に、音声ファイルと当該音声ファイルの発話内容を表す正解テキストと学習（適応）データを用いる。音響モデルの適応は、正解テキストを、音声ファイルに対応する読みを人間が書き起こすことにより得る教師あり適応と、音声ファイルの音声認識結果として得る教師なし適応との二つに大別される。

教師なし適応は、人手を介さないためコストや時間の面で優れているが、音声認識結果には誤認識が含まれ得るため、適応処理を行うことで音響モデルの精度を低下させてしまう場合がある。この問題に対して、音声認識結果にその信頼性を示す信頼尺度を付与して、信頼尺度の高さに応じて適応データを選択し、選択した音声認識結果を用いて音響モデルの適応を行う方法が考えられている（特許文献１）。

その方法は、音声ファイル中の各発話の音声認識結果に信頼尺度を付与し、信頼尺度がある閾値を超えた発話のみを適応データとして選択して教師なし適応を行うものである。ここで発話とは、音声ファイル中の例えば一呼吸で発声された数秒〜数十秒の音声区間のことであり、その発話の音声認識結果には通常、数単語〜数十単語が含まれる。

特開２００７−２４８７３０号公報

従来技術は、信頼尺度が低い、つまり音声認識率が低い発話は誤認識を多く含むと考えて、その発話の音声認識結果を適応データとして選択しない方法である。適応データとして選択しない信頼尺度の低い発話であっても、その発話区間全体が誤認識である場合は少なく、正しい認識結果を含む場合が多い。

しかし、従来技術では、発話を単位として選択するため、誤認識区間のみを排除することができなかった。要するに、従来技術では、誤認識区間を精度よく識別することができなかった。その結果、適応データのデータ収集のコストを増大させると共に、適応効果を低下させ、音声認識精度の改善を小さくしてしまう課題があった。

この発明は、このような課題に鑑みてなされたものであり、適応データ中の誤認識区間を精度よく識別できるようにした音響分析フレーム信頼度計算装置とその方法と、その装置を用いた音響モデル適応装置と音声認識装置とそれらのプログラムを提供することを目的とする。

この発明の音響分析フレーム信頼度計算装置は、音声認識部とフレーム信頼尺度計算部と、を具備する。音声認識部は、音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、音響分析フレームに最尤の音素ＩＤを付与して音響特徴量と音響尤度と音素ＩＤとを対応付けた音素ＩＤ・音響尤度付き音響特徴量系列を出力する。フレーム信頼尺度計算部は、音声認識部が出力する音素ＩＤ・音響尤度付き音響特徴量系列を入力として、上記各音素ＩＤごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力する。

また、この発明の音響モデル適応装置は、上記した音響分析フレーム信頼度計算装置と、特徴量選択部と、音響モデル適応部と、を具備する。特徴量選択部は、音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、上記音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する。音響モデル適応部は、特徴量選択部が出力する選択フラグ付き音響特徴量系列を入力として、選択フラグが付与されていない各音響分析フレームの音響特徴量を用いて計算する統計量に、０以上１以下の実数値の非選択重みを乗じて更新した統計量を求め、当該更新後の統計量に基づいて初期音響モデルのパラメータを更新して適応後音響モデルを出力する。

また、この発明の音声認識装置は、上記した音響分析フレーム信頼度計算装置と、特徴量選択部と、音声認識部と、を具備する。特徴量選択部は、音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する。音声認識部は、特徴量選択部が出力する選択フラグ付き音響特徴量系列を入力として、選択フラグが付与されていない音響分析フレームについて言語モデルの重みを増やして音声認識処理を行い音声認識結果を出力する。

本発明の音響分析フレーム信頼度計算装置によれば、音声データを扱う際の最小単位である音響分析フレーム単位で、外れ値スコアを用いた関数の値を信頼度の尺度として求めるので、誤認識区間を精度よく識別することができる。

また、本発明の音響モデル適応装置は、この発明の音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を用いて音響モデルの適応を行うので、適応データのデータ収集のコストを低減させ、効率的に音響モデルの適応を行うことができる。

また、本発明の音声認識装置は、選択フラグが付与されていない音響分析フレームについて言語モデルの重みを増やして音声認識処理を行うので、音声認識精度を向上させることができる。

この発明の音響分析フレーム信頼度計算装置１００の機能構成例を示す図。音響分析フレーム信頼度計算装置１００の動作フローを示す図。音声信号とフレーム信頼尺度との対応関係を示す図。この発明の音響分析フレーム信頼度計算装置２００の機能構成例を示す図。この発明の音響モデル適応装置３００の機能構成例を示す図。この発明の音声認識装置４００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音響分析フレーム信頼度計算装置１００の機能構成例を示す。その動作フローを図２に示す。音響分析フレーム信頼度計算装置１００は、初期音響モデル１０と、音声認識部１１と、フレーム信頼尺度計算部１２と、を具備する。音響分析フレーム信頼度計算装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現される。

音声認識部１１は、音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデル１０を用いて音声認識し、上記音響分析フレームに最尤の音素ＩＤを付与して上記音響特徴量と音響尤度と音素ＩＤとを対応付けた音素ＩＤ・音響尤度付き音響特徴量系列として出力する（ステップＳ１１）。ここで音声信号は、例えば、サンプリング周波数１０ｋＨｚで離散値化されたディジタル信号であり、数十分〜数時間程度の長さを想定する。音響分析フレームは、その離散値を、例えば１００点集めた１０ｍｓの時間長である。音響分析フレームの時間長を１０ｍｓとすると、例えば３０分の音声信号からは１８００００フレーム分の音響特徴量が抽出される。

音響特徴量は、実数値のベクトルであり、抽出方法としてはＬＰＣケプストラム、ＭＦＣＣ等の何れの手法を用いても構わない。音素ＩＤは、音声信号を音声認識して得られるテキスト情報の音素と、音響分析フレームとを対応付ける識別子である。

図３に、音響分析フレームと音素ＩＤとの関係を例示する。１行目は音声信号、２行目は音声認識結果、３行目は音響特徴量系列、４行目は音素ＩＤ、５行目は音響尤度、６行目と７行目は後述するフレーム信頼尺度と選択フラグである。この例は、音声信号を「こんにちは」として、その認識結果が「こんにきは（ｋｏＮｎｉｋｉｗａ）」の場合を示す。

音素ＩＤは、音声認識結果として得られるテキスト情報の音素、この例では（ｋ,ｏＮ,ｎ,ｉ,ｋ,ｉ,ｗ,ａ）の各音素が、初期音響モデル１０を用いて計算される音響尤度が最も大きくなる音素である。その音素ＩＤが、音響特徴量系列の各音響分析フレームと対応付けられる。１個目〜３個目までの音響分析フレームには「ｋ」、４個目〜９個目までの音響分析フレームには「ｏ」、それ以降は「Ｎ」,「ｎ」,「ｉ」,「ｋ」,「ｉ」,「ｗ」,「ａ」の各音素ＩＤが付与されている。このように、音素ＩＤ・音響尤度付き音響特徴量系列は、音響特徴量と音素ＩＤと音響尤度とが、対応付けられたそれぞれの時系列で構成される。

音声認識結果と音響特徴量系列と音響尤度は、例えば参考文献１（政瀧ほか「顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」」,ＮＴＴ技術ジャーナル,Vol.18,No.11,pp.15-18,2006.）に記載された従来の音声認識技術で得ることができる。

フレーム信頼尺度計算部１２は、音声認識部１１が出力する音素ＩＤ・音響尤度付き音響特徴量系列を入力として、各音素ＩＤごとに音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、上記音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力する（ステップＳ１２、図２）。

このフレーム信頼度付き音響特徴量系列が出力される処理は、音声信号が一定時間以上の間入力されない場合、又は、図示しない動作停止信号が制御部１５に入力されるまで繰り返される（ステップＳ１５のＮｏ）。このステップＳ１１とステップＳ１２の時系列動作の制御と動作終了の制御は制御部１５が行う。この制御部１５の機能は、この実施例の特別な技術的特徴では無く一般的なものである。

フレーム信頼尺度は、ある音響分析フレームと音素ＩＤとの対応付けの確からしさを示す値である。音声認識部１１で生じる誤認識により、誤った音素ＩＤが対応付けられた音響分析フレームが存在する。例えば、図３の２７個目〜２９個目にイタリック体で表すｋ
と対応付けられた音響分析フレームである。このような音響分析フレームを検出するためにフレーム信頼尺度を用いる。

フレーム信頼尺度は、「同一音素に対応付けられた音響特徴量を集めたとき、外れ値となっている音響特徴量は信頼できない」という考えに基づいて計算する。具体的には、以下の手順となる。

先ず、音素ＩＤ・音響尤度付き音響特徴量系列の各音響分析フレームを、対応付けられた音素ＩＤごとに分類し、音素ＩＤごとの音響特徴量の集合を作成する。

次に、ある音素ＩＤ（Ｘ）の音響特徴量の集合Ｄに対して外れ値検出を行い、各音響特徴量に外れ値スコアを付与する。実数値のベクトルの集合から、各ベクトルの外れ値スコアを計算する方法としては、ＬＯＦ（Local Outlier Factor）や１クラスＳＶＭ（One Class Supprt Vector Machine）などの既存の手法を用いる。

例えば、ＬＯＦを用いた場合の外れ値スコアＬＯＦ（ｄ_ｉ）は、次式で計算する。

ここで、ｄ_ｉはｉ番目の音響特徴量であり、集合ＤにＭ個含まれる（１≦ｉ≦Ｍ）。また、ｋは１以上の整数であり外れ値スコアＬＯＦ（ｄ_ｉ）の計算時のパラメータである。通常は、ｋ＝１０〜２０程度の値を用い、定数として予め与えられる。

分母のＮ_ｋ（ｄ_ｉ）は、集合Ｄの中でｄ_ｉに１番近い音響特徴量からｋ番目に近い音響特徴量までを集めた集合である。距離としてはユークリッド距離を用いる。｜Ｎ_ｋ（ｄ_ｉ）｜は、Ｎ_ｋ（ｄ_ｉ）に含まれる音響特徴量の個数であり、通常は｜Ｎ_ｋ（ｄ_ｉ）｜＝ｋとなる。

音響特徴量ｘの周辺のデータの密度を表すｌｒｄ（ｘ）は次式で計算される。

ここで、ｋｄｉｓｔ（ｘ）はある音響特徴量ｘからｋ番目に近い音響特徴量との間の距離、ｄｉｓｔ（ｘ,ｙ）は音響特徴量ｘとｙとの距離である。１クラスＳＶＭを用いた場合の外れ値は、クラス境界面からの距離とする。

次に、各音響特徴量に付与された音響尤度と外れ値スコアの重み付き和を、各音響分析フレームのフレーム信頼尺度とする。音響尤度をＬ_ｔ、外れ値スコアをＯ_ｔとして、フレーム信頼尺度Ｃ_ｔは次式で計算される。フレーム信頼尺度Ｃ_ｔが、信頼度の尺度として定義した関数の値である。フレーム信頼尺度Ｃ_ｔは、図３の６行目に示すように、各音響分析フレームごとに付与される。

ここでαは音響尤度重みである。αは、０以上１以下の実数値であり、０に設定すれば外れ値スコアをそのままフレーム信頼尺度とし、１に設定すれば音響尤度Ｌ_ｔをそのままフレーム信頼尺度とする値である。通常は０．５程度に設定する。音響尤度重みαは、フレーム信頼尺度計算部１２に予め定数として設定しておいても良いし、図１に破線で示すように外部から与えるようにしても良い。

このように音響分析フレーム信頼度計算装置１００によれば、音声データを扱う際の最小単位である音響分析フレームの単位で、信頼度の尺度として定義した関数の値を求めることができる。つまり、誤認識区間を音響分析フレームの単位で検出することが可能になる。

なお、音素ＩＤ・音響尤度付き音響特徴量系列を出力する音声認識部１１については、他の構成も考えられる。音声認識部１１を音声認識部２１とした構成の音響分析フレーム信頼度計算装置２００の動作を次に説明する。

図４に、この発明の音響分析フレーム信頼度計算装置２００の機能構成例を示す。音響分析フレーム信頼度計算装置２００は、音響分析フレーム信頼度計算装置１００（図１）の音声認識部１１を、音声認識部２１に置き換えたものである。

音声認識部２１は、音声認識手段２１１と音響特徴量アライメント手段２１２とで構成される。音声認識手段２１１は、音声信号を、初期音響モデルを用いて音声認識し、音声認識テキストを出力する。音声認識手段２１１は、上記した参考文献１に開示された従来の音声認識技術で構成できる。

音響特徴量アライメント手段２１２は、上記した音声信号と、音声認識手段２１１が出力する音声認識テキストを入力として、当該音声信号を所定時間長の音響分析フレームに分割し、各音響分析フレームの音響特徴量を抽出して音響特徴量系列を生成する。そして、当該音響特徴量系列に対応する音素系列を、入力された音声認識テキストから取得し、音響特徴量系列の各フレームと音素系列の各音素との対応付けのうち、初期音響モデル１０を用いて計算される音響尤度が最も大きくなる対応を選択して音響特徴量系列の各フレームと音素とを対応付け、各音響分析フレームに音素ＩＤを付与する。

つまり、音響特徴量アライメント手段２１２は、音声認識テキストにより確定した音素系列の各音素が、それぞれ何個のフレーム数継続するかを決定する。この音響尤度が最も大きくなる対応における各音響分析フレームの音響尤度も同時に各フレームに付与され、それぞれの時系列が音素ＩＤ・音響尤度付き音響特徴量系列としてフレーム信頼尺度計算部１２に出力される。

このように音声認識部２１を備える構成でも音声データを扱う際の最小単位である音響分析フレームの単位で、信頼度の尺度として定義した関数の値を求めることができ、誤認識区間を検出する精度を向上させることが可能である。上記して説明した音響分析フレーム信頼度計算装置１００,２００を用いた音響モデル適応装置３００と音声認識装置４００も考えられる。次にこれらの装置について説明する。

〔音響モデル適応装置〕
図５に、この発明の音響モデル適応装置３００の機能構成例を示す。音響モデル適応装置３００は、音響分析フレーム信頼度計算装置１００,２００と、特徴量選択部３１６と、音響モデル適応部３１７と、を具備する。

音響分析フレーム信頼度計算装置１００,２００は、音響分析フレーム信頼度計算装置１００（図１）又は音響分析フレーム信頼度計算装置２００（図４）である。特徴量選択部３１６は、音響分析フレーム信頼度計算装置１００,２００が出力するフレーム信頼度付き音響特徴量系列を入力として、音響分析フレームごとの信頼度が、選択閾値θ以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する。

図３の最下行に選択フラグを示す。図中の「○」はその音響分析フレームが選択されていることを示している。「×」はその音響分析フレームが選択されていないことを示している。図３に示す例では、「ち」を「き」と誤認識した２７個目〜２９個目の音響分析フレームに「×」の選択フラグが付与され、選択されていないことが分かる。

選択閾値θは、予め定数として特徴量選択部３１６に設定しておいても良いし、外部から特徴量選択部３１６に与えられるようにしても良い。選択閾値θは、小さい値に設定すれば選択される音響分析フレームは多くなるが、誤認識している音響分析フレームも選択してしまう場合も増加してしまう。逆に、選択閾値θを、大きな値に設定すれば誤認識されている音響分析フレームは選択され難くなるが、選択される音響分析フレームの総数が少なくなる。

選択閾値θは、経験に基づいて固定値を設定しても良いし、例えば、フレーム信頼尺度の下位１０％を選択しないように自動計算して求めるようにしても良い。任意のパーセンテージを選択しないように選択閾値θを求めるためには、全てのフレーム信頼尺度の平均値μと標準偏差σを求め、統計的手法に基づいて選択閾値θを自動計算するようにしても良い。

音響モデル適応部３１７は、特徴量選択部３１６が出力する選択フラグ付き音響特徴量系列を入力として、選択フラグが付与されていない各音響分析フレームの音響特徴量を用いて計算する統計量に、０以上１以下の実数値の非選択重みを乗じて更新した統計量を求め、当該更新後の統計量に基づいて初期音響モデル１０のパラメータを更新して、適応後音響モデルとして出力する。初期音響モデル１０は、音響分析フレーム信頼度計算装置１００,２００の内部のものであるが、それ以外のベース音響モデルを用いて音響モデルの適応処理を行っても良い。

音響モデルのパラメータの更新では、最尤推定法、最大事後確率法などの既存手法の更新後のパラメータを計算する式を用いる。音響モデルのパラメータを更新する式において、各音響分析フレームの音響特徴量を用いて計算する統計量に、選択されていない音響特徴量の場合には非選択重みｗを乗算する。

非選択重みｗは０以上１以下の実数値であり、０に設定すれば選択されていない音響特徴量は全く利用されずに、更新後のパラメータが計算される。また、１に設定すれば非選択フラグを無視した通常の音響モデル適応と同じ更新後のパラメータが計算される。また、０と１の中間に設定すれば、選択されていない音響特徴量の影響を弱めて更新後のパラメータが計算される。非選択重みｗは、通常０〜０．５程度の値に設定する。

具体的に最尤推定法を用いる場合は、参考文献２（篠田浩一,「確率モデルによる音声認識のための話者適応化技術」.D-II,情報・システム,II-パターン処理,J87-D-II(2),371-386,2004-02-01.）に記載された更新後の音響モデルの平均と分散のパラメータの計算を次式に変更する。

式の変更点は、各音響分析フレームの音響特徴量ｘ_ｔに関する統計量（シグマ内）にｔ番目の音響分析フレームの重みｗ_ｔを乗じる点と、式（５）と式（６）の分母である総フレーム数ＴをＴ_{ｓｅｌｅｃｔ}＋ｗＴ_{ｒｅｊｅｃｔ}に置き換えた点である。ｔ番目の音響分析フレームの重みｗ_ｔの値は、ｔ番目の音響分析フレームが選択されている場合は「１」、選択されていない場合は入力された非選択重みｗである。Ｔ_{ｓｅｌｅｃｔ}は選択された音響分析フレームの総数、Ｔ_{ｒｅｊｅｃｔ}は選択されていない音響分析フレームの総数であり、Ｔ_{ｓｅｌｅｃｔ}＋Ｔ_{ｒｅｊｅｃｔ}＝Ｔとなる。Ｔ_{ｓｅｌｅｃｔ}＋ｗＴ_{ｒｅｊｅｃｔ}は、選択されていない音響分析フレームを少なく見積もった総フレーム数である。なお、式（６）の′は転置を意味する。

最大事後確率法を用いる場合には、参考文献２に記載された更新後の音響モデルの平均と分散のパラメータの計算式を次式に変更する。

この場合の変更点は、最尤推定法の場合と同様に、各音響分析フレームの音響特徴量ｘ_ｔに関する統計量にｔ番目の音響分析フレームの重みｗ_ｔを乗じる点と、分母の総フレーム数ＴをＴ_{ｓｅｌｅｃｔ}＋ｗＴ_{ｒｅｊｅｃｔ}に置き換えた点である。

音響モデル適応装置３００は、特徴量選択部３１６が音響特徴量系列に音響モデルの適応に利用するか否かを表す選択フラグを付与し、音響モデル適応部３１７が誤認識区間を正しく排除した音響特徴量を用いて音響モデル適応を行う。したがって、音響モデル適応部３１７において高い適応効果が得られ、その適応後音響モデルは高い音声認識精度を実現することができる。

〔音声認識装置〕
図６に、この発明の音声認識装置４００の機能構成例を示す。音声認識装置４００は、音響分析フレーム信頼度計算装置１００,２００と、特徴量選択部３１６と、音声認識部４１８と、音響モデル４１９と、言語モデル４２０と、を具備する。参照符号から明らかなように、音響分析フレーム信頼度計算装置１００,２００と、特徴量選択部３１６とは、上記した音響モデル適応装置３００と同じものである。

音声認識部４１８は、特徴量選択部３１６が出力する選択フラグ付き音響特徴量系列入
力として、音響モデル４１９と言語モデル４２０とを用いて音声認識結果を出力するものであり、選択フラグが付与されていない音響分析フレームについては、言語モデル４２０の重みを増やして音声認識処理を行う。つまり、選択フラグが付与されていない音響分析フレームの音響特徴量は誤差を含んでいる可能性が高いので、音響特徴量に依拠するスコアの計算を軽く扱う。要するに、言語モデル４２０の重みを、音響モデル４１９の重みよりも大きくして、その音響分析フレームのスコアを計算して音声認識処理を行う。その結果、音声認識精度の向上が期待できる。

以上説明した音響分析フレーム信頼度計算装置１００,２００によれば、音声データを扱う際の最小単位である音響分析フレーム単位で、外れ値スコアを用いた関数の値を信頼度の尺度として求めるので、誤認識区間を精度よく識別することができる。その音響分析フレーム信頼度計算装置１００,２００を含む音響モデル適応装置３００は、フレーム信頼度付き音響特徴量系列を用いて音響モデルの適応を行うので、適応データのデータ収集のコストを低減させ、効率的に音響モデルの適応をすることができる。また、音声認識装置４００は、選択フラグが付与されていない音響分析フレームについて言語モデルの重みを増やして音声認識処理を行うので、音声認識精度を向上させることができる。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、上記音響分析フレームに最尤の音素ＩＤを付与して上記音響特徴量と音響尤度と音素ＩＤとを対応付けた音素ＩＤ・音響尤度付き音響特徴量系列を出力する音声認識部と、
上記音素ＩＤ・音響尤度付き音響特徴量系列を入力として、上記各音素ＩＤごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、上記音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力するフレーム信頼尺度計算部と、
を具備する音響分析フレーム信頼度計算装置。
請求項１に記載した音響分析フレーム信頼度計算装置において、
上記音声認識部は、
音声信号を、初期音響モデルを用いて音声認識し、音声認識テキストを出力する音声認識手段と、
上記音声信号と音声認識テキストを入力として、当該音声信号を所定時間長の音響分析フレームに分割し、上記各音響分析フレームの音響特徴量を抽出して音響特徴量系列を生成すると共に、上記音声認識テキストから音素系列を取得して初期音響モデルを用いて最大の音響尤度の音素を上記各音響分析フレームに音素ＩＤとして付与し、上記音響特徴量と音響尤度と音素ＩＤとを対応付けた音素ＩＤ・音響尤度付き音響特徴量系列を出力する音響特徴量アライメント手段と、
で構成されることを特徴とする音響分析フレーム信頼度計算装置。
請求項１又は２に記載した音響分析フレーム信頼度計算装置と、
上記音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、上記音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する特徴量選択部と、
上記選択フラグ付き音響特徴量系列を入力として、上記選択フラグが付与されていない各音響分析フレームの音響特徴量を用いて計算する統計量に、０以上１以下の実数値の非選択重みを乗じて更新した統計量を求め、当該更新後の統計量に基づいて上記初期音響モデルのパラメータを更新して適応後音響モデルを出力する音響モデル適応部と、
を具備する音響モデル適応装置。
請求項１又は２に記載した音響分析フレーム信頼度計算装置と、
上記音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、上記音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する特徴量選択部と、
上記選択フラグ付き音響特徴量系列を入力として、上記選択フラグが付与されていない音響分析フレームについては言語モデルの重みを増やして音声認識処理を行い音声認識結果を出力する音声認識部と、
を具備する音声認識装置。
音声認識部が、音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、上記音響分析フレームに最尤の音素ＩＤを付与して上記音響特徴量と音響尤度と音素ＩＤとを対応付けた音素ＩＤ・音響尤度付き音響特徴量系列を出力する音声認識過程と、
フレーム信頼尺度計算部が、上記音素ＩＤ・音響尤度付き音響特徴量系列を入力として、上記各音素ＩＤごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、上記音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力するフレーム信頼尺度計算過程と、
を含む音響分析フレーム信頼度計算方法。
請求項１又は２に記載した音響分析フレーム信頼度計算装置、請求項３に記載した音響モデル適応装置、請求項４に記載した音声認識装置、の何れかの装置の各部の機能を、コンピュータに実行させるためのプログラム。