JP2011112963A - 音声認識装置とその方法と、プログラム - Google Patents

音声認識装置とその方法と、プログラム Download PDF

Info

Publication number
JP2011112963A
JP2011112963A JP2009270640A JP2009270640A JP2011112963A JP 2011112963 A JP2011112963 A JP 2011112963A JP 2009270640 A JP2009270640 A JP 2009270640A JP 2009270640 A JP2009270640 A JP 2009270640A JP 2011112963 A JP2011112963 A JP 2011112963A
Authority
JP
Japan
Prior art keywords
speech
reliability
model
speech recognition
reliability score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009270640A
Other languages
English (en)
Other versions
JP5235849B2 (ja
Inventor
Satoru Kobashigawa
哲 小橋川
Taichi Asami
太一 浅見
Yoshikazu Yamaguchi
義和 山口
Hirokazu Masataki
浩和 政瀧
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009270640A priority Critical patent/JP5235849B2/ja
Publication of JP2011112963A publication Critical patent/JP2011112963A/ja
Application granted granted Critical
Publication of JP5235849B2 publication Critical patent/JP5235849B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声認識結果の信頼度計算の処理時間を削減する。
【解決手段】この発明の音声認識装置の事前信頼度スコア計算部が、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する。音声認識処理部は、音声特徴量系列と信頼度スコアを入力として、音声認識処理を行い音声認識結果と信頼度スコアを出力する。
【選択図】図2

Description

この発明は、様々な音質の音声データを効率良く音声認識する音声認識装置とその方法と、プログラムに関する。
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する問題が発生する。
そこで、従来から音声認識結果に信頼度を付与することで、音声認識誤りに起因する不具合を抑制する方法が検討されている。図11に音声認識結果に信頼度を付与するようにした音声認識装置900の機能構成を示す。音声認識装置900は、音響分析部120、音響モデル格納部140、辞書・言語モデル格納部150、探索部160、信頼度計算部190、を備える。
音響分析部120は、入力音声信号110を、数十msのフレームと呼ばれる単位で例えばメル周波数ケプストラム係数(MFCC)分析して音響特徴パラメータ系列130を生成する。探索部160は、音響特徴パラメータ系列130について、音響モデル格納部140と辞書・言語モデル格納部150とを用いて認識結果候補の探索を行う。探索の結果、上位〜N位までのNベストの音声認識結果170と、そのスコア180が出力される。
信頼度計算部190は、音声認識結果170とスコア180に基づいて複数の音声認識結果170にそれぞれ対応する信頼度スコア200を計算して出力する。その信頼度スコア200は、例えば音声認識結果として得られたNベスト候補及びそれらのスコアの単純なスコア差と加算平均から求められる。
この信頼度スコア200を参照することで、その信頼度スコア200に対応する音声認識結果170を廃棄したり、発話者に対して認識結果を確認したりすることで、誤認識による不具合の発生を抑制していた。
特開2005−148342号公報
しかし、従来の音声認識装置900では、信頼度スコアを、音声認識処理を行った後のスコアから計算していた。したがって、信頼度スコアを得るのに音声認識処理の処理時間を必要としていた。そのため、例えばS/N比が悪い等の理由により誤認識ばかりで利用不能な音声データに余分な処理時間をかけてしまう場合がある。また、大量の音声ファイルに対して音声認識処理を行う場合に、音声認識精度の低い音声ファイルの処理に時間がかかり、他の音声認識精度の高い音声ファイルの処理が進まず、音声認識処理全体の処理効率を低下させる場合がある。また、言語モデルを用いた音声認識結果に基づく処理のため、信頼度スコアの値が言語モデルに依存してしまう課題もあった。
この発明は、このような問題点に鑑みてなされたものであり、音声認識処理を行うこと無く短い処理時間で信頼度スコアが計算可能であり、言語モデルに依存しない信頼度スコアを出力する音声認識装置とその方法と、プログラムを提供することを目的とする。
この発明の音声認識装置は、特徴量分析部と、事前信頼度スコア計算部と、音声認識処理部と、を具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する。事前信頼度スコア計算部は、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル(例えば、音声GMM、ここでGMMとはGaussian Mixture Modelすなわち混合正規分布である)又はポーズモデル(例えば、ポーズHMM:Hidden Markov Model)の(中に含まれるGMMの)最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する。音声認識処理部は、音声特徴量系列を入力として、音声認識結果を出力する。
この発明の音声認識装置によれば、事前信頼度スコア計算部が、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する。従って、従来の音声認識装置よりも軽い処理で信頼度スコアが求められる。そして、求められた信頼度スコアの値に応じて音声認識処理を行うか否かの判断をすることで、信頼度が低く音声認識精度の低い音声ファイルの音声認識処理に時間がかかる課題も解決される。
この発明の基本的な考え方を説明するために音声特徴量と尤度(または出力確率)との関係を模式的に示す図。 この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 事前信頼度スコア計算部30の機能構成例を示す図。 モノフォンの出力確率とポーズモデルと音声モデルの出力確率の時間経過を模式的に示す図。 図4を二種以上の音響モデルにした場合を示す図。 この発明の音声認識装置250の機能構成例を示す図。 信頼度スコアCとビーム探索幅N(C)との関係の例を示す図。 この発明の音声認識装置300の機能構成例を示す図。 音声認識装置300の動作フローを示す図。 特許文献1に開示された従来の音声認識装置900の機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の基本的な考え方について説明する。
〔この発明の基本的な考え方〕
図1に、音声特徴量と尤度との関係を示す。尤度は、一般的に尤もらしさを表す値であり、出力確率値で代用しても良い。横軸が音声特徴量、縦軸が尤度である。図中に、音響モデル中に含まれる音声モデル(破線)とモノフォンの音素モデル「*−a+*」,「*−i+*」,「*−u+*」のそれぞれの分布を表す。音素モデルは、通常複数の状態から構成され、一つの状態は複数の基底分布からなる混合分布(以下、混合正規分布を含めて混合分布とする)から構成される。ここでは、簡略化のため音素モデルの状態数を1、混合分布数を1として表現している。
ここで、モノフォンとは、環境独立音素モデルのことであり、前後の音素環境に制約を持つ環境依存音素モデル(例えばトライフォン)に対して、前後の音素の制約がなく、音素モデルの数も少ない。例えば、音素の数を30個とした場合、モノフォン音響モデル中の音素モデルの数は30個であるが、トライフォンの場合の数は303個(2700個)である。
例えば音声モデルに用いたGMMは、混合正規分布モデルであり、音声すなわち全ての音素の学習データで学習されたモデルであるため、その分布は音声特徴量に対する尤度の値が比較的になだらかな分布である。それに対して、モノフォンは、各音素の学習データで学習されたモデルであるため、当該音素に対応する音声特徴量に対する尤度の値が急峻な分布である。
したがって、ある音声特徴量に対する音声モデルの尤度と、同じ音声特徴量に対するモノフォンの尤度を比較することで、音声ファイルの信頼度を判定することが可能である。つまり、雑音の影響を受けずに収録された音素aの音声特徴量O clean(a)に対するモノフォン「*−a+*」の尤度は大きな値を示す。しかし、同じ音声特徴量O clean(a)に対する音声モデルの尤度は相対的に小さな値を示す。その結果、それらの値の間に差が存在する。
これに対して、雑音の影響を強く受けて収録された音素aの音声特徴量O noisy(a)は、本来の特徴量とは異なるのでモノフォンでの尤度と、音声モデルにおける尤度との間の差が小さくなる。
このように音声特徴量に対するモノフォンの尤度と、音声モデルの尤度との差を見ることで、収録音声の品質を評価することが出来る。この発明の基本的な考え方は、この点に着目して、モノフォンの最尤状態の出力確率と音声モデルの出力確率との差を事前信頼度として求め、音声ファイル単位の信頼度スコアを得るようにしたものである。
図2にこの発明の音声認識装置100の機能構成例を示す。その動作フローを図3に示す。音声認識装置100は、A/D変換部10と、特徴量分析部20と、事前信頼度スコア計算部30と、音声認識処理部40と、音響モデルパラメータメモリ50と、言語モデルパラメータメモリ60と、を具備する。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
A/D変換部10は、音声信号を、例えばサンプリング周波数16kHzで離散値化して音声ディジタル信号に変換する。なお、音声ディジタル信号が直接入力される場合は、A/D変換部10は不要である。
特徴量分析部20は、音声ディジタル信号を入力として、例えば320個の音声ディジタル信号を1フレーム(20ms)としたフレーム毎に、音声特徴量系列を出力する(ステップS20)。音声特徴量としては、例えば、MFCC(Mel-Frequenct Cepstrum Coefficient)の1〜12元と、その変化量であるΔMFCC等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化(CMN)等の処理を行っても良い。
事前信頼度スコア計算部30は、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデル(に含まれるGMM)の中の最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する(ステップS30)。
音声認識処理部40は、音響モデルパラメータメモリ50に記録された音響モデルと、言語モデルパラメータメモリ60に記録された言語モデルとを参照して、音声特徴量系列について音声認識処理を行い、その音声認識結果と信頼度スコアを出力する(ステップS40)。なお、音声認識処理部40は、破線で示すように音声ファイルの信頼度スコアの値に応じて音声認識処理の実行の有無を切り替えるようにしても良い。ステップS40の音声認識処理過程は、音声ファイルの全フレームについて処理が終了するまで繰り返される。
音声認識装置100によれば、事前信頼度スコア計算部30が、フレーム毎に事前信頼度を付与して音声ファイル単位で平均(1フレーム当たりの平均の事前信頼度を計算)した信頼度スコアを計算する。音声特徴量系列に基づいた信頼度スコアは、従来の音声認識結果から信頼度スコアを求める方法と比べて計算量が少なくて済む。また、複数の音声ファイルを処理する場合に、事前信頼度の値に応じて音声認識処理を行うか否かの判断をすることで、事前信頼度が低い、つまり音声認識精度が低い音声ファイルの音声認識処理に時間がかかる課題も解決される。次に、実施例1の主要部である事前信頼度スコア計算部30のより具体的な構成例を示して更に詳しく説明する。
〔事前信頼度スコア計算部〕
図4に事前信頼度スコア計算部30の機能構成例を示す。事前信頼度スコア計算部30は、モノフォン最尤検出手段32と、ポーズ/音声モデル最尤検出手段33と、事前信頼度算出手段34と、信頼度スコア算出手段35と、を備える。
モノフォン最尤検出手段32は、フレームt毎に入力される音声特徴量系列に対する複数のモノフォンの最尤状態s1の出力確率P(t,s1)を、事前信頼度算出手段34に出力する。ポーズ/音声モデル最尤検出手段33は、その音声特徴量系列に対する音声モデル又はポーズモデルの最尤状態g1の出力確率P(t,g1)を、事前信頼度算出手段34に出力する。
図5に、モノフォンの出力確率とポーズモデルと音声モデルの出力確率の時間経過を模式的に示す。横方向は時間経過をフレームtで表す。縦方向はフレームt毎の複数のモノフォン(ポーズモデルを含む)と音声モデルのそれぞれの状態を表す。例えば、各モノフォン(ポーズモデルを含む)は、それぞれ3つの状態から成り、モノフォン「*−a+*」はa,a,aから成る。黒丸の状態がモノフォン中の最尤状態g1を表す。斜線入り丸の状態がポーズモデルと音声モデルの中での最尤状態g1を表す。モノフォン中の最尤状態s1と、ポーズモデルと音声モデルの中での最尤状態g1が、一致する場合(s1=g1)には黒丸で示す。
時刻tでは、ポーズ以外の複数のモノフォンの何れにも最尤状態が無く、ポーズモデルの第1状態が最尤状態である。時刻tでは、同様にポーズ以外の複数のモノフォンの何れにも最尤状態が無く、ポーズモデルの第2状態が最尤状態である。時刻tも、ポーズ以外の複数のモノフォンの何れにも最尤状態が無く、ポーズモデルの第3状態が最尤状態である。このことから、時刻t〜tは非音声状態である。この時、モノフォン中の最尤状態と、ポーズモデルと音声モデルの中での最尤状態が一致する(s1=g1)ため、当該時刻における事前信頼度の値は0となる。
時刻tは、ポーズ以外のモノフォンの中で「*−a+*」の第3状態が最尤状態s1で、且つポーズモデルと音声モデルの中で音声モデルも最尤状態g1であることから音声状態である。そこで、この実施例では、時刻tのモノフォン「*−a+*」の最尤状態s1の出力確率と、音声モデルの最尤度状態g1の出力確率との差を事前信頼度とする。
また、時刻t19は、ポーズ以外のモノフォンの中で「*−i+*」の第2状態が最尤状態s1で、ポーズモデルと音声モデルの中でポーズモデルの第3状態が最尤状態g1である。この場合、モノフォン「*−i+*」の最尤状態s1の出力確率と、ポーズモデルの最尤状態g1の出力確率との差を事前信頼度とする。なお、図5は、一部の時間しか示していない。音声ファイルの長さは例えば数分(例えば30,000フレーム)程度である。
このように、事前信頼度算出手段34は、モノフォンの最尤状態の出力確率P(t,s1)と音声モデル又はポーズモデルの最尤状態の出力確率P(t,g1)の差を、事前信頼度C(t)として信頼度スコア算出手段35に出力する(式(1))。
Figure 2011112963
ここで、s1はモノフォンに属する状態(混合分布)の内、時刻tに最も尤度の高い混合分布である。g1は音声モデル又はポーズモデルの内、時刻tに最も尤度の高い混合分布である。P(t,s)は、式(2)に示す時刻tにおける状態s(に属する混合分布)の出力確率である。
Figure 2011112963
ここで、Mは状態sの混合数である。cs,mは状態s分布mの混合重み係数である。なおcs,mは音響モデル学習の結果で決まるものであり、0≦cs,m≦1の範囲を取る値である。例えば、混合数が16であるとすると平均1/16の値となる。N(・)は平均μs,m、分散Σs,mの(基底)正規分布に対する時刻tの特徴量Oの出力確率を意味する。
信頼度スコア算出手段35は、事前信頼度C(t)を音声ファイルの継続時間T(総フレーム数)の間累積して平均した信頼度スコアCを出力する(式(3))。
Figure 2011112963
このように、事前信頼度スコア計算部30は、フレーム単位の事前信頼度を音声ファイルの総フレーム数で平均することで音声ファイル単位の信頼度を表す信頼度スコアCを計算する。音声ファイル単位の信頼度スコアCを求めるので精緻な処理を必要としない。
音声認識処理部40は、特徴量分析部20が出力する音声特徴量系列と信頼度スコアCを入力として、音声認識処理を行い音声認識結果を出力する。この時、信頼度スコアCを同時に出力しても良い。ここでの音声認識処理は、音響モデルパラメータメモリ50に記録された全ての音響モデルを用いた認識処理が行われる。音声認識処理部40は、信頼度スコアCの値に応じて音声認識処理の実行の有無を切り替えるようにしても良い。
なお、信頼度スコアCは、二種以上の音響モデル中に含まれるモノフォン(ポーズモデルを含む)及び音声モデルに基づいて計算した事前信頼度を、音声ファイル単位で平均した値としても良い。図6に、二種以上の音響モデルを、男性音響モデルと女性音響モデルとした場合の出力確率の時間経過の一例を示す。事前信頼度スコア計算部30′は、各時刻tの音声特徴量系列に対する男性と女性のモノフォンの最尤状態の出力確率P(t,s1)とP(t,s1)をそれぞれ求めて、大きい方を最尤状態の出力確率P(t,s1)とし、男性と女性の音声モデル又はポーズモデルの最尤状態の出力確率P(t,g1)とP(t,g1)のうち大きい方をP(t,g1)とし、その差分(P(t,s1)−P(t,g1))を事前信頼度C(t)として求めるようにするものである。
つまり、ポーズ/音声モデル最尤検出手段33′は、男性と女性の音声モデル又はポーズモデルの最尤状態の出力確率P(t,g1)とP(t,g1)のうち大きい方をP(t,g1)とするものである。そして、モノフォン最尤検出手段32′は、男性と女性のモノフォンの最尤状態の出力確率P(t,s1)とP(t,s1)のうち大きい方をP(t,s1)として求める。そして、信頼度スコア算出手段35は、事前信頼度C(t)を音声ファイルの総フレーム数で平均した値を信頼度スコアCとして出力する。
また、事前信頼度スコア計算部30′に用いる音響モデルの種別は三種以上の複数であっても良い。このように、複数の種別の音響モデルを用いることで、後段の音声認識処理が複数の音響モデルを用いる場合でも、信頼度スコアCの精度を向上させる効果が期待できる。
また、信頼度スコアCは、音声特徴量系列に対する二種以上の音声モデル又はポーズモデルの最尤状態の出力確率を比較し、出力確率が大きい種別のモノフォンに限定して計算された値であっても良い。つまり、上記した例のように男性と女性のモノフォンの最尤状態の出力確率P(t,s1)とP(t,s1)を全てのフレームについて求めるのでは無く、音声モデル又はポーズモデルの出力確率が女性(男性)よりも男性(女性)が高くなるフレームは、男性(女性)モノフォンに限定して計算する方法も考えられる。
すなわち、ポーズ/音声モデル最尤検出手段33”は、男性と女性の音声モデル又はポーズモデルの最尤状態の出力確率P(t,g1)とP(t,g1)のうち大きい方をP(t,g1)とするものである。そして、モノフォン最尤検出手段32”は、その判定結果を入力としてどちらか一方のモノフォンの最尤状態の出力確率P(t,s1)を求める。この例の場合、全ての種別のモノフォンの出力確率を計算しないので、計算量を削減する効果が期待できる。
図7にこの発明の音声認識装置250の機能構成例を示す。音声認識装置250は、認識処理制御部251を備える点で、音声認識装置100と異なる。認識処理制御部251は、信頼度スコアCが一定値Cth以下の場合に音声認識処理を停止させる制御信号を、音声認識処理部40に出力する。信頼度スコアCは音声ファイル毎に計算される値であるので、音声認識処理部40は音声ファイル単位で音声認識処理の実行の有無を切り替える。一定値Cthは、例えば、音響モデルの学習データに対する信頼度スコア分布から算出する方法が考えられる。信頼度スコア分布の平均値μ、標準偏差σとした場合に、例えばCth=μ−2σとする。また、式(1)に示した一定の高い信頼度スコア値Cconstは、Cconst=μ+2σ等としても良い。
また、認識処理制御部251は、制御信号としてビーム探索幅N(C)を出力するようにしても良い。その一例を式(4)に示す。
Figure 2011112963
図8に信頼度スコアCとビーム探索幅N(C)との関係を例示する。横軸は信頼度スコアCであり、縦軸はビーム探索幅N(C)である。
図8に示すように式(4)は、所定の範囲の信頼度スコアC(Cmin〜Cmax)に対応するビーム探索幅N(C)(Nmin〜Nmax)を、信頼度スコアCの値で比例配分する考えである。ここでは、比例係数が負の値なので、信頼度スコアCが小でビーム探索幅N(C)が大であり、Cが大でN(C)が小となる関係である。もちろん、信頼度スコアCとビーム探索幅N(C)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(C)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
ここで、例えばCmax=μ+σ、Cmin=μ―σとして、Nmaxを通常用いるビーム幅の1.5倍、Nminを通常用いるビーム幅の半分等としても良い。また、平均音質が極端に悪い場合(例えばC<Cmin)には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばNminにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。また、音声認識処理を停止させる信号とビーム探索幅の制御信号を並存させても良い。
このように、認識処理制御部251を備えた音声認識装置250は、複数の音声ファイルの音声認識処理の効率化と、認識精度の向上を図ることが出来る。なお、認識処理制御部251の機能は、音声認識処理部40に持たせても良い。
図9にこの発明の音声認識装置300の機能構成例を示す。図10に動作フローを示す。音声認識装置300は、音声ファイル処理部301と、ソート音声認識処理部302と、を備える点で音声認識装置100,250と異なる。
音声ファイル処理部301は、複数の音声ファイルの信頼度スコアCの高い順番に複数の音声ファイルを並び替える(ステップS301)。ソート音声認識処理部302は、信頼度スコアCの高い順番に音声認識処理を行う(ステップS302)。
このように信頼度スコアCの大きさ順に音声認識処理を実行することで、複数の音声ファイルの音声認識処理を行う場合の処理効率を向上させることが出来る。例えば、全音声ファイルに対して音声認識処理を行う事が、計算機資源や処理時間の関係等によって難しい場合には、信頼度スコアCが小さい音声ファイルは音声認識処理が行われず、音声認識精度が高い事が期待される信頼度スコアCが大きな音声ファイルにのみ音声認識処理が行われることになり、高精度な音声認識結果を収集することが可能になる。なお、音声ファイル処理部301の機能は、ソート音声認識処理部302の機能に含めても良い。
以上述べたように、この発明の音声認識装置によれば、音声特徴量系列に基づいた事前信頼度を求め、音声ファイル単位でその事前信頼度を平均した信頼度スコアを計算する。従って、従来の音声認識装置よりも軽い処理で信頼度スコアが求められる。また、音声特徴量に基づく処理なので、言語モデルに依存しない信頼度スコアを得ることが出来る。また、求められた信頼度スコアの値に応じて音声認識処理を行うか否かの判断をすることで、例えばS/N比が悪い等の理由により音声認識精度の低い音声ファイルの音声認識処理に時間がかかる問題も解決できる。
なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
    上記フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する事前信頼度スコア計算部と、
    上記音声特徴量系列を入力として音声認識処理を行う音声認識処理部と、
    を具備する音声認識装置。
  2. 請求項1に記載した音声認識装置において、
    上記信頼度スコアは、二種以上の音響モデルに基づく事前信頼度を、音声ファイル単位で平均した信頼度スコアの最大値であることを特徴とする音声認識装置。
  3. 請求項1に記載した音声認識装置において、
    上記事前信頼度は、上記音声特徴量系列に対する二種類以上の音響モデル中の音声モデル又はポーズモデルの最尤状態の出力確率を比較し、上記出力確率が最大の種別の音響モデル中に限定して計算されたモノフォンの出力確率と、上記最大の種別の音響モデル中の音響モデル中の音声モデル又はポーズモデルの最尤状態の出力確率との差、
    であることを特徴とする音声認識装置。
  4. 請求項1乃至3の何れかに記載した音声認識装置において、
    上記事前信頼度を入力として、音声認識処理を行う音声ファイルを選択する制御信号を生成して上記音声認識処理部に出力する認識処理制御部を、
    更に備えることを特徴とする音声認識装置。
  5. 請求項1乃至3の何れかに記載した音声認識装置において、
    複数の音声ファイルの上記事前信頼度から、事前信頼度の高い順番に上記複数の音声ファイルを並び替える音声ファイル処理部と、
    事前信頼度の高い順番で音声認識処理を行うソート音声認識処理部と、
    を更に備えることを特徴とする音声認識装置。
  6. 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
    事前信頼度スコア計算部が、上記フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を、当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する事前信頼度スコア計算過程と、
    音声認識処理部が、上記音声特徴量系列を入力として音声認識処理を行う音声認識処理過程と、
    を含む音声認識方法。
  7. 請求項1乃至4の何れかに記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
JP2009270640A 2009-11-27 2009-11-27 音声認識装置とその方法と、プログラム Expired - Fee Related JP5235849B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009270640A JP5235849B2 (ja) 2009-11-27 2009-11-27 音声認識装置とその方法と、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009270640A JP5235849B2 (ja) 2009-11-27 2009-11-27 音声認識装置とその方法と、プログラム

Publications (2)

Publication Number Publication Date
JP2011112963A true JP2011112963A (ja) 2011-06-09
JP5235849B2 JP5235849B2 (ja) 2013-07-10

Family

ID=44235317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009270640A Expired - Fee Related JP5235849B2 (ja) 2009-11-27 2009-11-27 音声認識装置とその方法と、プログラム

Country Status (1)

Country Link
JP (1) JP5235849B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249688A (ja) * 1998-03-05 1999-09-17 Mitsubishi Electric Corp 音声認識装置およびその方法
JP2006227628A (ja) * 2005-02-18 2006-08-31 Samsung Electronics Co Ltd フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP2011075973A (ja) * 2009-10-01 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249688A (ja) * 1998-03-05 1999-09-17 Mitsubishi Electric Corp 音声認識装置およびその方法
JP2006227628A (ja) * 2005-02-18 2006-08-31 Samsung Electronics Co Ltd フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP2011075973A (ja) * 2009-10-01 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム

Also Published As

Publication number Publication date
JP5235849B2 (ja) 2013-07-10

Similar Documents

Publication Publication Date Title
US20100161330A1 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP5052449B2 (ja) 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP6699748B2 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
US11250860B2 (en) Speaker recognition based on signal segments weighted by quality
JP6996570B2 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP2007156364A (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP4852129B2 (ja) 音声認識装置とその方法と、プログラム
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP5235849B2 (ja) 音声認識装置とその方法と、プログラム
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP5538350B2 (ja) 音声認識方法とその装置とプログラム
JP5089651B2 (ja) 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
JP4843646B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP5496945B2 (ja) 話者分類装置、話者分類方法、プログラム
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP4798606B2 (ja) 音声認識装置、およびプログラム
WO2021106047A1 (ja) 検知装置、その方法、およびプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110722

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5235849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees