JP2015082036A - 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 - Google Patents

音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 Download PDF

Info

Publication number
JP2015082036A
JP2015082036A JP2013220132A JP2013220132A JP2015082036A JP 2015082036 A JP2015082036 A JP 2015082036A JP 2013220132 A JP2013220132 A JP 2013220132A JP 2013220132 A JP2013220132 A JP 2013220132A JP 2015082036 A JP2015082036 A JP 2015082036A
Authority
JP
Japan
Prior art keywords
acoustic
frame
phoneme
analysis frame
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013220132A
Other languages
English (en)
Other versions
JP6148150B2 (ja
Inventor
太一 浅見
Taichi Asami
太一 浅見
浩和 政瀧
Hirokazu Masataki
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013220132A priority Critical patent/JP6148150B2/ja
Publication of JP2015082036A publication Critical patent/JP2015082036A/ja
Application granted granted Critical
Publication of JP6148150B2 publication Critical patent/JP6148150B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声データを扱う際の最小単位である音響分析フレームの単位で信頼尺度を求める音響分析フレーム信頼度計算装置と、その装置を含む音響モデル適応装置と音声認識装置を提供する。【解決手段】音声認識部は、音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、上記音響分析フレームに最尤の音素IDを付与して上記音響特徴量と音響尤度と音素IDとを対応付けた音素ID・音響尤度付き音響特徴量系列を出力し、フレーム信頼尺度計算部は、上記各音素IDごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を、上記音響分析フレームごとに音響特徴量の信頼度として付与したフレーム信頼度付き音響特徴量系列を出力する。【選択図】図1

Description

この発明は、音声認識に用いる音響モデルの適応技術に関し、特に教師なし音響モデル適応に用いる特徴量を選別するようにした音響分析フレーム信頼度計算装置とその方法と、その装置を用いた音響モデル適応装置と音声認識装置とそれらのプログラムに関する。
音声認識に使用する音響モデルを更新する際には、学習データ中の事例ができるだけ多く成り立つようにモデルのパラメータの最適化処理を行う。この処理を「音響モデルの適応」と称し、一般に、音声ファイルと当該音声ファイルの発話内容を表す正解テキストと学習(適応)データを用いる。音響モデルの適応は、正解テキストを、音声ファイルに対応する読みを人間が書き起こすことにより得る教師あり適応と、音声ファイルの音声認識結果として得る教師なし適応との二つに大別される。
教師なし適応は、人手を介さないためコストや時間の面で優れているが、音声認識結果には誤認識が含まれ得るため、適応処理を行うことで音響モデルの精度を低下させてしまう場合がある。この問題に対して、音声認識結果にその信頼性を示す信頼尺度を付与して、信頼尺度の高さに応じて適応データを選択し、選択した音声認識結果を用いて音響モデルの適応を行う方法が考えられている(特許文献1)。
その方法は、音声ファイル中の各発話の音声認識結果に信頼尺度を付与し、信頼尺度がある閾値を超えた発話のみを適応データとして選択して教師なし適応を行うものである。ここで発話とは、音声ファイル中の例えば一呼吸で発声された数秒〜数十秒の音声区間のことであり、その発話の音声認識結果には通常、数単語〜数十単語が含まれる。
特開2007−248730号公報
従来技術は、信頼尺度が低い、つまり音声認識率が低い発話は誤認識を多く含むと考えて、その発話の音声認識結果を適応データとして選択しない方法である。適応データとして選択しない信頼尺度の低い発話であっても、その発話区間全体が誤認識である場合は少なく、正しい認識結果を含む場合が多い。
しかし、従来技術では、発話を単位として選択するため、誤認識区間のみを排除することができなかった。要するに、従来技術では、誤認識区間を精度よく識別することができなかった。その結果、適応データのデータ収集のコストを増大させると共に、適応効果を低下させ、音声認識精度の改善を小さくしてしまう課題があった。
この発明は、このような課題に鑑みてなされたものであり、適応データ中の誤認識区間を精度よく識別できるようにした音響分析フレーム信頼度計算装置とその方法と、その装置を用いた音響モデル適応装置と音声認識装置とそれらのプログラムを提供することを目的とする。
この発明の音響分析フレーム信頼度計算装置は、音声認識部とフレーム信頼尺度計算部と、を具備する。音声認識部は、音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、音響分析フレームに最尤の音素IDを付与して音響特徴量と音響尤度と音素IDとを対応付けた音素ID・音響尤度付き音響特徴量系列を出力する。フレーム信頼尺度計算部は、音声認識部が出力する音素ID・音響尤度付き音響特徴量系列を入力として、上記各音素IDごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力する。
また、この発明の音響モデル適応装置は、上記した音響分析フレーム信頼度計算装置と、特徴量選択部と、音響モデル適応部と、を具備する。特徴量選択部は、音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、上記音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する。音響モデル適応部は、特徴量選択部が出力する選択フラグ付き音響特徴量系列を入力として、選択フラグが付与されていない各音響分析フレームの音響特徴量を用いて計算する統計量に、0以上1以下の実数値の非選択重みを乗じて更新した統計量を求め、当該更新後の統計量に基づいて初期音響モデルのパラメータを更新して適応後音響モデルを出力する。
また、この発明の音声認識装置は、上記した音響分析フレーム信頼度計算装置と、特徴量選択部と、音声認識部と、を具備する。特徴量選択部は、音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する。音声認識部は、特徴量選択部が出力する選択フラグ付き音響特徴量系列を入力として、選択フラグが付与されていない音響分析フレームについて言語モデルの重みを増やして音声認識処理を行い音声認識結果を出力する。
本発明の音響分析フレーム信頼度計算装置によれば、音声データを扱う際の最小単位である音響分析フレーム単位で、外れ値スコアを用いた関数の値を信頼度の尺度として求めるので、誤認識区間を精度よく識別することができる。
また、本発明の音響モデル適応装置は、この発明の音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を用いて音響モデルの適応を行うので、適応データのデータ収集のコストを低減させ、効率的に音響モデルの適応を行うことができる。
また、本発明の音声認識装置は、選択フラグが付与されていない音響分析フレームについて言語モデルの重みを増やして音声認識処理を行うので、音声認識精度を向上させることができる。
この発明の音響分析フレーム信頼度計算装置100の機能構成例を示す図。 音響分析フレーム信頼度計算装置100の動作フローを示す図。 音声信号とフレーム信頼尺度との対応関係を示す図。 この発明の音響分析フレーム信頼度計算装置200の機能構成例を示す図。 この発明の音響モデル適応装置300の機能構成例を示す図。 この発明の音声認識装置400の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音響分析フレーム信頼度計算装置100の機能構成例を示す。その動作フローを図2に示す。音響分析フレーム信頼度計算装置100は、初期音響モデル10と、音声認識部11と、フレーム信頼尺度計算部12と、を具備する。音響分析フレーム信頼度計算装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現される。
音声認識部11は、音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデル10を用いて音声認識し、上記音響分析フレームに最尤の音素IDを付与して上記音響特徴量と音響尤度と音素IDとを対応付けた音素ID・音響尤度付き音響特徴量系列として出力する(ステップS11)。ここで音声信号は、例えば、サンプリング周波数10kHzで離散値化されたディジタル信号であり、数十分〜数時間程度の長さを想定する。音響分析フレームは、その離散値を、例えば100点集めた10msの時間長である。音響分析フレームの時間長を10msとすると、例えば30分の音声信号からは180000フレーム分の音響特徴量が抽出される。
音響特徴量は、実数値のベクトルであり、抽出方法としてはLPCケプストラム、MFCC等の何れの手法を用いても構わない。音素IDは、音声信号を音声認識して得られるテキスト情報の音素と、音響分析フレームとを対応付ける識別子である。
図3に、音響分析フレームと音素IDとの関係を例示する。1行目は音声信号、2行目は音声認識結果、3行目は音響特徴量系列、4行目は音素ID、5行目は音響尤度、6行目と7行目は後述するフレーム信頼尺度と選択フラグである。この例は、音声信号を「こんにちは」として、その認識結果が「こんにきは(koNnikiwa)」の場合を示す。
音素IDは、音声認識結果として得られるテキスト情報の音素、この例では(k,oN,n,i,k,i,w,a)の各音素が、初期音響モデル10を用いて計算される音響尤度が最も大きくなる音素である。その音素IDが、音響特徴量系列の各音響分析フレームと対応付けられる。1個目〜3個目までの音響分析フレームには「k」、4個目〜9個目までの音響分析フレームには「o」、それ以降は「N」,「n」,「i」,「k」,「i」,「w」,「a」の各音素IDが付与されている。このように、音素ID・音響尤度付き音響特徴量系列は、音響特徴量と音素IDと音響尤度とが、対応付けられたそれぞれの時系列で構成される。
音声認識結果と音響特徴量系列と音響尤度は、例えば参考文献1(政瀧ほか「顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」」,NTT技術ジャーナル,Vol.18,No.11,pp.15-18,2006.)に記載された従来の音声認識技術で得ることができる。
フレーム信頼尺度計算部12は、音声認識部11が出力する音素ID・音響尤度付き音響特徴量系列を入力として、各音素IDごとに音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、上記音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力する(ステップS12、図2)。
このフレーム信頼度付き音響特徴量系列が出力される処理は、音声信号が一定時間以上の間入力されない場合、又は、図示しない動作停止信号が制御部15に入力されるまで繰り返される(ステップS15のNo)。このステップS11とステップS12の時系列動作の制御と動作終了の制御は制御部15が行う。この制御部15の機能は、この実施例の特別な技術的特徴では無く一般的なものである。
フレーム信頼尺度は、ある音響分析フレームと音素IDとの対応付けの確からしさを示す値である。音声認識部11で生じる誤認識により、誤った音素IDが対応付けられた音響分析フレームが存在する。例えば、図3の27個目〜29個目にイタリック体で表すk
と対応付けられた音響分析フレームである。このような音響分析フレームを検出するためにフレーム信頼尺度を用いる。
フレーム信頼尺度は、「同一音素に対応付けられた音響特徴量を集めたとき、外れ値となっている音響特徴量は信頼できない」という考えに基づいて計算する。具体的には、以下の手順となる。
先ず、音素ID・音響尤度付き音響特徴量系列の各音響分析フレームを、対応付けられた音素IDごとに分類し、音素IDごとの音響特徴量の集合を作成する。
次に、ある音素ID(X)の音響特徴量の集合Dに対して外れ値検出を行い、各音響特徴量に外れ値スコアを付与する。実数値のベクトルの集合から、各ベクトルの外れ値スコアを計算する方法としては、LOF(Local Outlier Factor)や1クラスSVM(One Class Supprt Vector Machine)などの既存の手法を用いる。
例えば、LOFを用いた場合の外れ値スコアLOF(d)は、次式で計算する。
Figure 2015082036
ここで、dはi番目の音響特徴量であり、集合DにM個含まれる(1≦i≦M)。また、kは1以上の整数であり外れ値スコアLOF(d)の計算時のパラメータである。通常は、k=10〜20程度の値を用い、定数として予め与えられる。
分母のN(d)は、集合Dの中でdに1番近い音響特徴量からk番目に近い音響特徴量までを集めた集合である。距離としてはユークリッド距離を用いる。|N(d)|は、N(d)に含まれる音響特徴量の個数であり、通常は|N(d)|=kとなる。
音響特徴量xの周辺のデータの密度を表すlrd(x)は次式で計算される。
Figure 2015082036
ここで、kdist(x)はある音響特徴量xからk番目に近い音響特徴量との間の距離、dist(x,y)は音響特徴量xとyとの距離である。1クラスSVMを用いた場合の外れ値は、クラス境界面からの距離とする。
次に、各音響特徴量に付与された音響尤度と外れ値スコアの重み付き和を、各音響分析フレームのフレーム信頼尺度とする。音響尤度をL、外れ値スコアをOとして、フレーム信頼尺度Cは次式で計算される。フレーム信頼尺度Cが、信頼度の尺度として定義した関数の値である。フレーム信頼尺度Cは、図3の6行目に示すように、各音響分析フレームごとに付与される。
Figure 2015082036
ここでαは音響尤度重みである。αは、0以上1以下の実数値であり、0に設定すれば外れ値スコアをそのままフレーム信頼尺度とし、1に設定すれば音響尤度Lをそのままフレーム信頼尺度とする値である。通常は0.5程度に設定する。音響尤度重みαは、フレーム信頼尺度計算部12に予め定数として設定しておいても良いし、図1に破線で示すように外部から与えるようにしても良い。
このように音響分析フレーム信頼度計算装置100によれば、音声データを扱う際の最小単位である音響分析フレームの単位で、信頼度の尺度として定義した関数の値を求めることができる。つまり、誤認識区間を音響分析フレームの単位で検出することが可能になる。
なお、音素ID・音響尤度付き音響特徴量系列を出力する音声認識部11については、他の構成も考えられる。音声認識部11を音声認識部21とした構成の音響分析フレーム信頼度計算装置200の動作を次に説明する。
図4に、この発明の音響分析フレーム信頼度計算装置200の機能構成例を示す。音響分析フレーム信頼度計算装置200は、音響分析フレーム信頼度計算装置100(図1)の音声認識部11を、音声認識部21に置き換えたものである。
音声認識部21は、音声認識手段211と音響特徴量アライメント手段212とで構成される。音声認識手段211は、音声信号を、初期音響モデルを用いて音声認識し、音声認識テキストを出力する。音声認識手段211は、上記した参考文献1に開示された従来の音声認識技術で構成できる。
音響特徴量アライメント手段212は、上記した音声信号と、音声認識手段211が出力する音声認識テキストを入力として、当該音声信号を所定時間長の音響分析フレームに分割し、各音響分析フレームの音響特徴量を抽出して音響特徴量系列を生成する。そして、当該音響特徴量系列に対応する音素系列を、入力された音声認識テキストから取得し、音響特徴量系列の各フレームと音素系列の各音素との対応付けのうち、初期音響モデル10を用いて計算される音響尤度が最も大きくなる対応を選択して音響特徴量系列の各フレームと音素とを対応付け、各音響分析フレームに音素IDを付与する。
つまり、音響特徴量アライメント手段212は、音声認識テキストにより確定した音素系列の各音素が、それぞれ何個のフレーム数継続するかを決定する。この音響尤度が最も大きくなる対応における各音響分析フレームの音響尤度も同時に各フレームに付与され、それぞれの時系列が音素ID・音響尤度付き音響特徴量系列としてフレーム信頼尺度計算部12に出力される。
このように音声認識部21を備える構成でも音声データを扱う際の最小単位である音響分析フレームの単位で、信頼度の尺度として定義した関数の値を求めることができ、誤認識区間を検出する精度を向上させることが可能である。上記して説明した音響分析フレーム信頼度計算装置100,200を用いた音響モデル適応装置300と音声認識装置400も考えられる。次にこれらの装置について説明する。
〔音響モデル適応装置〕
図5に、この発明の音響モデル適応装置300の機能構成例を示す。音響モデル適応装置300は、音響分析フレーム信頼度計算装置100,200と、特徴量選択部316と、音響モデル適応部317と、を具備する。
音響分析フレーム信頼度計算装置100,200は、音響分析フレーム信頼度計算装置100(図1)又は音響分析フレーム信頼度計算装置200(図4)である。特徴量選択部316は、音響分析フレーム信頼度計算装置100,200が出力するフレーム信頼度付き音響特徴量系列を入力として、音響分析フレームごとの信頼度が、選択閾値θ以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する。
図3の最下行に選択フラグを示す。図中の「○」はその音響分析フレームが選択されていることを示している。「×」はその音響分析フレームが選択されていないことを示している。図3に示す例では、「ち」を「き」と誤認識した27個目〜29個目の音響分析フレームに「×」の選択フラグが付与され、選択されていないことが分かる。
選択閾値θは、予め定数として特徴量選択部316に設定しておいても良いし、外部から特徴量選択部316に与えられるようにしても良い。選択閾値θは、小さい値に設定すれば選択される音響分析フレームは多くなるが、誤認識している音響分析フレームも選択してしまう場合も増加してしまう。逆に、選択閾値θを、大きな値に設定すれば誤認識されている音響分析フレームは選択され難くなるが、選択される音響分析フレームの総数が少なくなる。
選択閾値θは、経験に基づいて固定値を設定しても良いし、例えば、フレーム信頼尺度の下位10%を選択しないように自動計算して求めるようにしても良い。任意のパーセンテージを選択しないように選択閾値θを求めるためには、全てのフレーム信頼尺度の平均値μと標準偏差σを求め、統計的手法に基づいて選択閾値θを自動計算するようにしても良い。
音響モデル適応部317は、特徴量選択部316が出力する選択フラグ付き音響特徴量系列を入力として、選択フラグが付与されていない各音響分析フレームの音響特徴量を用いて計算する統計量に、0以上1以下の実数値の非選択重みを乗じて更新した統計量を求め、当該更新後の統計量に基づいて初期音響モデル10のパラメータを更新して、適応後音響モデルとして出力する。初期音響モデル10は、音響分析フレーム信頼度計算装置100,200の内部のものであるが、それ以外のベース音響モデルを用いて音響モデルの適応処理を行っても良い。
音響モデルのパラメータの更新では、最尤推定法、最大事後確率法などの既存手法の更新後のパラメータを計算する式を用いる。音響モデルのパラメータを更新する式において、各音響分析フレームの音響特徴量を用いて計算する統計量に、選択されていない音響特徴量の場合には非選択重みwを乗算する。
非選択重みwは0以上1以下の実数値であり、0に設定すれば選択されていない音響特徴量は全く利用されずに、更新後のパラメータが計算される。また、1に設定すれば非選択フラグを無視した通常の音響モデル適応と同じ更新後のパラメータが計算される。また、0と1の中間に設定すれば、選択されていない音響特徴量の影響を弱めて更新後のパラメータが計算される。非選択重みwは、通常0〜0.5程度の値に設定する。
具体的に最尤推定法を用いる場合は、参考文献2(篠田浩一,「確率モデルによる音声認識のための話者適応化技術」.D-II,情報・システム,II-パターン処理,J87-D-II(2),371-386,2004-02-01.)に記載された更新後の音響モデルの平均と分散のパラメータの計算を次式に変更する。
Figure 2015082036
式の変更点は、各音響分析フレームの音響特徴量xに関する統計量(シグマ内)にt番目の音響分析フレームの重みwを乗じる点と、式(5)と式(6)の分母である総フレーム数TをTselect+wTrejectに置き換えた点である。t番目の音響分析フレームの重みwの値は、t番目の音響分析フレームが選択されている場合は「1」、選択されていない場合は入力された非選択重みwである。Tselectは選択された音響分析フレームの総数、Trejectは選択されていない音響分析フレームの総数であり、Tselect+Treject=Tとなる。Tselect+wTrejectは、選択されていない音響分析フレームを少なく見積もった総フレーム数である。なお、式(6)の′は転置を意味する。
最大事後確率法を用いる場合には、参考文献2に記載された更新後の音響モデルの平均と分散のパラメータの計算式を次式に変更する。
Figure 2015082036
この場合の変更点は、最尤推定法の場合と同様に、各音響分析フレームの音響特徴量xに関する統計量にt番目の音響分析フレームの重みwを乗じる点と、分母の総フレーム数TをTselect+wTrejectに置き換えた点である。
音響モデル適応装置300は、特徴量選択部316が音響特徴量系列に音響モデルの適応に利用するか否かを表す選択フラグを付与し、音響モデル適応部317が誤認識区間を正しく排除した音響特徴量を用いて音響モデル適応を行う。したがって、音響モデル適応部317において高い適応効果が得られ、その適応後音響モデルは高い音声認識精度を実現することができる。
〔音声認識装置〕
図6に、この発明の音声認識装置400の機能構成例を示す。音声認識装置400は、音響分析フレーム信頼度計算装置100,200と、特徴量選択部316と、音声認識部418と、音響モデル419と、言語モデル420と、を具備する。参照符号から明らかなように、音響分析フレーム信頼度計算装置100,200と、特徴量選択部316とは、上記した音響モデル適応装置300と同じものである。
音声認識部418は、特徴量選択部316が出力する選択フラグ付き音響特徴量系列入
力として、音響モデル419と言語モデル420とを用いて音声認識結果を出力するものであり、選択フラグが付与されていない音響分析フレームについては、言語モデル420の重みを増やして音声認識処理を行う。つまり、選択フラグが付与されていない音響分析フレームの音響特徴量は誤差を含んでいる可能性が高いので、音響特徴量に依拠するスコアの計算を軽く扱う。要するに、言語モデル420の重みを、音響モデル419の重みよりも大きくして、その音響分析フレームのスコアを計算して音声認識処理を行う。その結果、音声認識精度の向上が期待できる。
以上説明した音響分析フレーム信頼度計算装置100,200によれば、音声データを扱う際の最小単位である音響分析フレーム単位で、外れ値スコアを用いた関数の値を信頼度の尺度として求めるので、誤認識区間を精度よく識別することができる。その音響分析フレーム信頼度計算装置100,200を含む音響モデル適応装置300は、フレーム信頼度付き音響特徴量系列を用いて音響モデルの適応を行うので、適応データのデータ収集のコストを低減させ、効率的に音響モデルの適応をすることができる。また、音声認識装置400は、選択フラグが付与されていない音響分析フレームについて言語モデルの重みを増やして音声認識処理を行うので、音声認識精度を向上させることができる。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、上記音響分析フレームに最尤の音素IDを付与して上記音響特徴量と音響尤度と音素IDとを対応付けた音素ID・音響尤度付き音響特徴量系列を出力する音声認識部と、
    上記音素ID・音響尤度付き音響特徴量系列を入力として、上記各音素IDごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、上記音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力するフレーム信頼尺度計算部と、
    を具備する音響分析フレーム信頼度計算装置。
  2. 請求項1に記載した音響分析フレーム信頼度計算装置において、
    上記音声認識部は、
    音声信号を、初期音響モデルを用いて音声認識し、音声認識テキストを出力する音声認識手段と、
    上記音声信号と音声認識テキストを入力として、当該音声信号を所定時間長の音響分析フレームに分割し、上記各音響分析フレームの音響特徴量を抽出して音響特徴量系列を生成すると共に、上記音声認識テキストから音素系列を取得して初期音響モデルを用いて最大の音響尤度の音素を上記各音響分析フレームに音素IDとして付与し、上記音響特徴量と音響尤度と音素IDとを対応付けた音素ID・音響尤度付き音響特徴量系列を出力する音響特徴量アライメント手段と、
    で構成されることを特徴とする音響分析フレーム信頼度計算装置。
  3. 請求項1又は2に記載した音響分析フレーム信頼度計算装置と、
    上記音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、上記音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する特徴量選択部と、
    上記選択フラグ付き音響特徴量系列を入力として、上記選択フラグが付与されていない各音響分析フレームの音響特徴量を用いて計算する統計量に、0以上1以下の実数値の非選択重みを乗じて更新した統計量を求め、当該更新後の統計量に基づいて上記初期音響モデルのパラメータを更新して適応後音響モデルを出力する音響モデル適応部と、
    を具備する音響モデル適応装置。
  4. 請求項1又は2に記載した音響分析フレーム信頼度計算装置と、
    上記音響分析フレーム信頼度計算装置が出力するフレーム信頼度付き音響特徴量系列を入力として、上記音響分析フレームごとの信頼度が、選択閾値以上の音響分析フレームを選択することを示す選択フラグを付与した選択フラグ付き音響特徴量系列を出力する特徴量選択部と、
    上記選択フラグ付き音響特徴量系列を入力として、上記選択フラグが付与されていない音響分析フレームについては言語モデルの重みを増やして音声認識処理を行い音声認識結果を出力する音声認識部と、
    を具備する音声認識装置。
  5. 音声認識部が、音声信号を、所定時間長の音響分析フレームに分割して当該音響分析フレームの単位で音響特徴量を抽出し、当該音響特徴量と初期音響モデルを用いて音響尤度を計算し、上記音響分析フレームに最尤の音素IDを付与して上記音響特徴量と音響尤度と音素IDとを対応付けた音素ID・音響尤度付き音響特徴量系列を出力する音声認識過程と、
    フレーム信頼尺度計算部が、上記音素ID・音響尤度付き音響特徴量系列を入力として、上記各音素IDごとに上記音響特徴量を分類して音響特徴量集合を作成し、当該各音響特徴量集合に対して外れ値検出を行って外れ値スコアを求め、当該外れ値スコアを用いた関数の値を信頼度の尺度として求め、上記音響分析フレームごとに上記関数の値を付与したフレーム信頼度付き音響特徴量系列を出力するフレーム信頼尺度計算過程と、
    を含む音響分析フレーム信頼度計算方法。
  6. 請求項1又は2に記載した音響分析フレーム信頼度計算装置、請求項3に記載した音響モデル適応装置、請求項4に記載した音声認識装置、の何れかの装置の各部の機能を、コンピュータに実行させるためのプログラム。
JP2013220132A 2013-10-23 2013-10-23 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 Expired - Fee Related JP6148150B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013220132A JP6148150B2 (ja) 2013-10-23 2013-10-23 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013220132A JP6148150B2 (ja) 2013-10-23 2013-10-23 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法

Publications (2)

Publication Number Publication Date
JP2015082036A true JP2015082036A (ja) 2015-04-27
JP6148150B2 JP6148150B2 (ja) 2017-06-14

Family

ID=53012648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013220132A Expired - Fee Related JP6148150B2 (ja) 2013-10-23 2013-10-23 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法

Country Status (1)

Country Link
JP (1) JP6148150B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018045062A (ja) * 2016-09-14 2018-03-22 Kddi株式会社 学習者の口述音声から自動的に採点するプログラム、装置及び方法
CN109727446A (zh) * 2019-01-15 2019-05-07 华北电力大学(保定) 一种用电数据异常值的识别与处理方法
WO2019220532A1 (ja) * 2018-05-15 2019-11-21 日本電気株式会社 パターン認識装置、パターン認識方法及びパターン認識プログラム
JP2021081713A (ja) * 2019-11-21 2021-05-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声信号を処理するための方法、装置、機器、および媒体
CN113223503A (zh) * 2020-04-29 2021-08-06 浙江大学 一种基于测试反馈的核心训练语音选择方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122689A (ja) * 1998-10-20 2000-04-28 Mitsubishi Electric Corp 話者適応化装置及び音声認識装置
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2006227628A (ja) * 2005-02-18 2006-08-31 Samsung Electronics Co Ltd フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122689A (ja) * 1998-10-20 2000-04-28 Mitsubishi Electric Corp 話者適応化装置及び音声認識装置
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2006227628A (ja) * 2005-02-18 2006-08-31 Samsung Electronics Co Ltd フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018045062A (ja) * 2016-09-14 2018-03-22 Kddi株式会社 学習者の口述音声から自動的に採点するプログラム、装置及び方法
WO2019220532A1 (ja) * 2018-05-15 2019-11-21 日本電気株式会社 パターン認識装置、パターン認識方法及びパターン認識プログラム
JPWO2019220532A1 (ja) * 2018-05-15 2021-05-20 日本電気株式会社 パターン認識装置、パターン認識方法及びパターン認識プログラム
JP7211419B2 (ja) 2018-05-15 2023-01-24 日本電気株式会社 パターン認識装置、パターン認識方法及びパターン認識プログラム
US11620985B2 (en) 2018-05-15 2023-04-04 Nec Corporation Pattern recognition robust to influence of a transfer path
CN109727446A (zh) * 2019-01-15 2019-05-07 华北电力大学(保定) 一种用电数据异常值的识别与处理方法
JP2021081713A (ja) * 2019-11-21 2021-05-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声信号を処理するための方法、装置、機器、および媒体
JP7178394B2 (ja) 2019-11-21 2022-11-25 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声信号を処理するための方法、装置、機器、および媒体
CN113223503A (zh) * 2020-04-29 2021-08-06 浙江大学 一种基于测试反馈的核心训练语音选择方法

Also Published As

Publication number Publication date
JP6148150B2 (ja) 2017-06-14

Similar Documents

Publication Publication Date Title
US9875739B2 (en) Speaker separation in diarization
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
CN111951825B (zh) 一种发音测评方法、介质、装置和计算设备
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP2011242775A (ja) 音声認識エラー予測値としての文法適合度評価のための方法およびシステム
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
JP2017040794A (ja) 音響処理装置及び音響処理方法
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
CN109065026B (zh) 一种录音控制方法及装置
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
US9697825B2 (en) Audio recording triage system
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN118284930A (zh) 用于装置特征分析以改善用户体验的方法和系统
CN110419078B (zh) 用于自动语音识别的系统和方法
JP5749186B2 (ja) 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
JPWO2010024052A1 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP2016191739A (ja) 発音誤り検出装置、方法およびプログラム
JP6274015B2 (ja) 音響モデル調整装置及びプログラム
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质
JP6903613B2 (ja) 音声認識装置、音声認識方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170518

R150 Certificate of patent or registration of utility model

Ref document number: 6148150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees