JP4852129B2 - 音声認識装置とその方法と、プログラム - Google Patents

音声認識装置とその方法と、プログラム Download PDF

Info

Publication number
JP4852129B2
JP4852129B2 JP2009158783A JP2009158783A JP4852129B2 JP 4852129 B2 JP4852129 B2 JP 4852129B2 JP 2009158783 A JP2009158783 A JP 2009158783A JP 2009158783 A JP2009158783 A JP 2009158783A JP 4852129 B2 JP4852129 B2 JP 4852129B2
Authority
JP
Japan
Prior art keywords
acoustic model
speech
speech recognition
utterance
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009158783A
Other languages
English (en)
Other versions
JP2011013543A (ja
Inventor
哲 小橋川
義和 山口
太一 浅見
浩和 政瀧
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009158783A priority Critical patent/JP4852129B2/ja
Publication of JP2011013543A publication Critical patent/JP2011013543A/ja
Application granted granted Critical
Publication of JP4852129B2 publication Critical patent/JP4852129B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、所定の時間間隔で音響モデルを選択して切り替えることで音声認識精度を向上させる音声認識装置と、その方法とプログラムに関する。
従来から、音声認識に要する処理時間の短縮や音声認識の精度を向上させる目的で、音響モデルを所定の時間間隔で切り替える方式の音声認識装置があり、その一例として特許文献1に開示された音声認識装置が知られている。
図9にその音声認識装置500の機能構成を示して動作を簡単に説明する。音声認識装置500は、音声認識文法格納部1と、文法変換部2と、音響モデル格納部3と、探索ネットワーク格納部4と、A/D変換部6と、特徴量パラメータ抽出部7と、尤度計算・認識結果探索部8と、音響モデル代表尤度計算部9と、音響モデル選択部10とを備える。
A/D変換部6は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量パラメータ抽出部7は、離散値化された音声ディジタル信号を入力として、例えば320個の音声ディジタル信号を1フレーム(20ms)としたフレーム毎に、音声特徴量Oを算出する。音声特徴量Oは、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。
探索ネットワーク格納部4には、音響モデル格納部3内の複数の音響モデルA,B,Cを用い、文法変換部2で予め作成された探索ネットワークが格納されている。探索ネットワークとは、音素、音韻、音節の如き或る音声カテゴリ毎に構成される音響モデルを、音声認識文法に記述された単語もしくは単語列にしたがって連結したものである。
尤度計算・認識結果探索部8は、フレーム毎に音声特徴量を入力として複数の探索ネットワークそれぞれの照合尤度を計算する。ここで、音声認識装置500は、音声入力が開始してから予め指定された一定間隔毎に、そのフレーム以降に音声認識処理に用いる音響モデルの数を選択して減少させる操作を実行する。
その具体例を図10を参照して説明する。図10は、3種類の音響モデルが時間経過とともに選択されて行く様子を示している。横軸は経過時間をフレームで表し、縦軸は音声パワーである。音声入力が開始したフレームtでは、全ての音響モデルと探索ネットワークに対して尤度が計算される。フレームtでの各音響モデルの代表尤度は下線を付して示され、音響モデルAが99、音響モデルBが54、音響モデルCが86である。
代表尤度は閾値と比較され、例えば閾値を70とした場合、それよりも小さな代表尤度である音響モデルBは、以降の認識処理で除外される。フレームtでは、音響モデルCの代表尤度が68と、閾値以下となりフレームt以降では音響モデルAのみが音響モデルとして使用される。このように認識処理に用いる音響モデルを漸次的に絞り込むことで、音声認識の処理時間の短縮化と高精度化を図っている。
特開2005−345772号公報(図1,図2)
しかし、従来の音響モデルを絞り込む方法では、音声入力が開始された直後において全ての音響モデルを用いた認識処理が行われるため処理時間が必要であり、全体の処理時間が長くなる課題があった。また、音声入力の開始直後とその後の話者が異なるような場合は、開始直後の音声に適合する音響モデルが選択されるので、音声入力の認識率が低下する原因になる。
この発明は、このような点に鑑みてなされたものであり、一つの音声中に複数の話者の発話が含まれる場合でも高い精度で音声認識でき、且つ処理時間も短い音声認識装置とその方法と、プログラムを提供することを目的とする。
この発明の音声認識装置は、特徴量分析部と、発話分割モデル選択部と、音声認識部とを具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する。発話分割モデル選択部は、フレーム毎の音声特徴量と性別依存の各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、発話区間毎の音響モデルを選択する。音声認識部は、発話区間毎に選択された音響モデルで音声認識処理を行う。
この発明の音声認識装置は、フレーム毎に音声/非音声判定を行って発話区間を取り出し、その発話区間の音声特徴量と各音響モデルを代表するGMMとを照合して尤度の高いフレーム数の多い音響モデルを発話区間毎に選択する。つまり、音声認識処理を行う前に音声ディジタル信号を発話区間に分割し、その発話区間毎に適用するのに最も適当な音響モデルが選択される。音声認識部はその最も適当な音響モデルを用いて認識処理を行うので認識精度を高めることが出来る。また、音響モデルの選択は音響モデルを代表するGMMを用いて行われるので、従来技術よりも短い処理時間で済む。更に、各発話区間全体を用いて、音響モデルを選択するので、音声入力の開始直後とその後の話者が異なるような場合でも高い認識精度を維持できる。
この発明の考えを説明する図。 この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 発話分割部21の具体的な動作フローを示す図。 音響モデル選択部24の具体的な動作フローを示す図。 この発明の音声認識装置200の機能構成例を示す図。 音声認識装置200の動作フローを示す図。 この発明の音声認識装置300の機能構成例を示す図。 特許文献1に開示された音声認識装置500の機能構成を示す図。 音声認識装置500の動作の一例を示す図。
この発明の実施例の説明をする前に、この発明の考えについて説明する。
〔この発明の考え〕
図1にこの発明の考えを示す。図1は、上から音声信号、音声特徴量、発話分割部の出力、音響モデル選択部の出力を表す。音声特徴量は、音声信号を例えばMFCC分析処理してフレーム毎に得られる値である。発話分割部の出力は、その音声特徴量を例えば音声GMMと無音HMM(Hidden Mixture Model:隠れマルコフモデル )と比較し、音声GMMの方が高い尤度を示せばそのフレームを音声、無音HMMの方が高い尤度を示せば無音として、各フレームを音声区間と非音声区間に分類したものである。なお、作図の都合で、音声信号に対する1個のフレームを表す□を大きく表現している。また、音声特徴量は、隣接するフレーム同士を例えば10ms程度の幅シフトさせて、一部がオーバーラップしたフレーム毎に求めるのが一般的であるが、そのフレームシフトの様子は省略している。
図1の例では、音声特徴量O〜O13とO22〜O29が発話区間(添え字の数字はフレーム番号である)、その他が非音声区間として分類され、発話区間としてO−O13とO22−O29が出力されている。この発話区間には、発話者の息継ぎ等による無音フレームが含まれることがある。図1に示す例は、発話区間にその無音フレームを含まない場合である。音響モデル選択部の出力は、各フレームの音声特徴量に対する尤度を、例えば、音響モデルA(男性用音響モデル)を代表するA−GMM(男性GMM)、音響モデルB(女性用音響モデル)を代表するB−GMM(女性GMM)と照合して求め、その尤度の高い音響モデルを当該発話区間の音響モデルとして選択したものである。ここで、(・)内は例えば音響モデルAを男性用音響モデル、音響モデルBを女性用音響モデルとした場合を記述している。
図1の例では、音声特徴量O〜O13の発話区間の音声認識処理に用いられる音響モデルが例えば音響モデルAとされ、O22〜O29が音響モデルBとされている。このように、この発明の考えによれば、音声認識処理するのに最も適当な音響モデルが発話区間毎に選択される。この発話区間毎に音響モデルを選択する処理は、各音響モデルを代表するGMMの尤度値の高い音響モデルを選ぶだけなので、従来の多くの音素HMMを使用して音声認識処理を行いながら音響モデルを選択する方法よりも軽い。したがって、この発明の音声認識装置は、従来技術よりも短い処理時間で適当な音響モデルを絞り込むことが出来る。これは音声認識処理全体の処理時間の短縮に貢献する。
なお、音響モデル選択部は、発話区間毎に音響モデルを選択するので、発話分割の待ち時間が存在する。その待ち時間は、少なくとも一発話区間分は必要である。つまり、一発話分の時間を経過した後に、その発話区間に適用する音響モデルが選択される。よって、この発明の考えに基づく音声認識装置は、一発話区間分の待ち時間を許せば音声ディジタル信号を逐次的に録音する場合への対応が可能である。もちろん、既に蓄積されている音声ファイルを用いる場合は、一発話分を録音する待ち時間は不要である。また、処理量が小さな発話分割処理の後に音声認識を行うことも可能であり、高速に処理を行うことが出来る。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図2にこの発明の音声認識装置100の機能構成例を示す。その動作フローを図3に示す。音声認識装置100は、特徴量分析部20と、発話分割部21と、音声GMM22と、無音HMM23と、音響モデル選択部24と、音響モデルA・GMM25と、音響モデルN・GMM26と、音声認識処理部27と、言語モデルパラメータメモリ94と、制御部28とを具備する。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音声認識装置100は、従来の音声認識装置500と比較して音声認識処理(音声認識処理部27)の前に発話分割部21及び、音響モデル選択部24を備える点で新しい。以降の説明では、その新しい部分を中心に説明を行う。
特徴量分析部20は、従来技術の音声認識装置500の特徴量パラメータ抽出部7と同じものであり、入力される音声ディジタル信号の音声特徴量Oをフレーム単位で分析する(ステップS20)。発話分割部21は、フレーム毎に音声/非音声判定を行い各フレームを音声区間と非音声区間とに分類し、その音声区間をまとめて発話区間に分割して出力する(ステップS21)。その分割の方法は、例えば、音声特徴量を音声GMM22と無音HMM23とに照合して求めた尤度値を比較し、音声GMMの方が高い尤度を示せばそのフレームを音声、無音HMMの方が高い尤度を示せば無音として分類した後に、経過時間である程度連続する音声区間を発話区間として分割して出力する。尤度計算には、無音HMM23中の複数の状態に属する混合正規分布の出力確率から得られる尤度を用いれば良い。また、無音HMM23の代わりに、無音データから学習した無音GMMを用いても良い。また、無音HMM23は、音響モデルA・GMM25〜音響モデルN・GMM26に通常含まれている無音HMMを参照するようにしても良い。なお、音声区間と非音声区間に分類する方法を、音声信号のパワーが所定値以上、例えば、背景雑音と比較して10dB以上等か否かで分類しても良い。その場合は、音声GMM22と無音HMM23は不要である。
音響モデル選択部24は、発話区間の各フレームの音声特徴量Oを、各音響モデルを代表するGMM25,26のそれぞれと照合して尤度の高いフレーム数が多い音響モデルをその発話区間の音響モデルとして選択する(ステップS24)。なお、GMMは、音響モデルA・GMM25と音響モデルN・GMM26との間に…で表しているように2個以上の複数個であって良い。その理由は後述する。
音声認識処理部27は、発話区間毎に選択された音響モデルと、言語モデルパラメータメモリ94に記憶されている言語モデルを用いて認識処理を行う(ステップS27)。
図3に示した動作フローは、特徴量分析過程(ステップS20)〜音声認識処理過程(ステップS27)の各過程が、それぞれがバッチ処理される図である。各過程は、制御部28によって音声ファイルの最後まで処理されるように制御される。なお、この発明の音声認識装置100の動作は、そのバッチ処理に対して、上記したように一発話区間分の待ち時間を許した逐次処理とすることも可能である。
次にこの実施例の主要部である発話分割部21と音響モデル選択部24について更に詳しく説明する。
〔発話分割部〕
図4に発話分割部21のより具体的な動作フローを示して説明する。発話分割部21が、発話分割処理を開始すると、まず始めに初期化を行う(ステップS210)。初期化は、発話区間の開始時刻及び終了時刻や、動作制御用のカウンタのリセットのことである。
そして特徴量分析部20からフレーム毎に音声ディジタル信号の音声特徴量を入手する(ステップS211)。その音声特徴量は、音声GMM22と無音HMM23に照合されて音声尤度P_Sと非音声尤度P_Nに変換される(ステップS212,S213)。
ステップS214で音声尤度P_Sと非音声尤度P_Nが比較され、音声尤度P_Sが高い場合(ステップS214のY)は、音声区間カウンタN_Sをカウントアップ(+1)する(ステップS215)。このとき、ちょっとした息継ぎや促音(「っ」等)を無音としないように非音声区間連続カウンタN_Ncntを0にリセットする(ステップS216)。そして、N_S=1の場合は、現在のフレーム番号を開始時刻として記録する(ステップS217)。なお、図4では、N_S=1を検出するための判断を作図の都合により省略している。
非音声尤度P_Nの方が高い場合(ステップS214のN)は、非音声区間連続カウンタN_Ncntをカウントアップ(+1)する(ステップS218)。発話区間の開始時刻を記録した後、音声区間カウンタN_Sと、非音声区間連続カウンタN_Ncntとは、それぞれ所定の値と比較される(ステップS219,S221)。
所定の値とは、発話区間を検出するための最小音声区間Sminと発話区間の終わりを検出するための終端検出連続無音区間Ndetである。その値は、極めて短い時間の音声区間は音声とせず、また、発話中の一瞬の息継ぎ等で発話区間が分断されないようにするためのものである。例えば、その時間は1秒程度に設定される。
この例に示す発話分割部21はフレーム毎に処理を進める。よって、最小音声区間Sminと終端検出連続無音区間Ndetは、それぞれの時間長をフレーム時間tで除した値である。例えば、最小音声区間Sminと終端検出連続無音区間Ndetの時間を1秒とし、フレーム時間を20msとした場合、SminとNdetは50である。
ステップS219において、非音声区間連続カウンタN_Ncntの値が、終端検出連続無音区間Ndet以上であるか否かが評価される。非音声区間連続カウンタN_Ncntの値がNdet以上である場合、その音声区間はいったん、発話区間候補とされ、非音声区間連続カウンタN_Ncntはリセットされる(ステップS220)。そして更に、ステップS221において、音声区間カウンタN_Sの値が、最小音声区間Smin以上であるか否か評価される。N_Sの値がSmin以上の場合(ステップS221のY)、すなわち、音声区間カウンタN_Sと非音声区間カウンタN_Ncntの値が、両方の条件を満足する場合(ステップS221のY)は、現在のフレーム番号を終了時刻として記録する(ステップS222)。そして、音声区間カウンタN_Sをリセットする(ステップS223)。これで一つの発話区間が確定したので、開始時刻と終了時刻を発話区間として出力する(ステップS224)。
以上の動作は、音声ファイルの全ての音声データ(フレーム)が終了するまで繰り返される(ステップS28のN)。この繰り返し動作の制御は制御部28が行う。よって、発話分割部21は、最小音声区間Smin以上である音声区間を発話区間として出力する。図1を参照、なお、図1の発話区間の表現は、終了時の終端検出連続無音区間Ndetをゼロとした例である。
なお、発話区間を規定する最小音声区間Sminと終端検出連続無音区間Ndetの値を等しいものとして説明したが、それぞれを異なる任意の値にしても良い。その場合、最小音声区間Sminと終端検出連続無音区間Ndetの値によっては、短い時間幅で発話区間が出力され、必要以上に発話が分断されてしまうことが考えられる。そこで、発話分割部21と音響モデル選択部24との間に、発話時刻の間隔が例えば1秒程度の一定時間以内で隣接する発話区間を、連結する発話連結部29を設けても良い。最小音声区間Sminと終端検出連続無音区間Ndetと、更に発話連結部29とによって、より最適な音声認識の条件を見出すことが可能になり、音声認識精度を高められる効果が期待できる。
また、音声区間カウンタN_Sの値が、断続的にカウントされた場合でも、その値が最小音声区間Smin以上になれば発話区間とする例を示したが、N_Sの値がある程度連続してカウントされてSmin以上になった場合のみを発話区間とするようにしても良い。その場合は、非音声区間が含まれる最小音声区間Smin未満の音声区間カウンタN_Sの値はリセットされる。
また、発話区間の開始時刻と終了時刻をフレーム番号で表現する例で説明を行ったが、音声ディジタル信号の始まりをスタートとした経過時間でも良い。また、音声尤度P_Sと非音声尤度P_Nを比較する例で説明を行ったが、各フレームの音声パワーが所定の閾値以上であるか否かを評価した後に、上記したステップS214〜S28と等しい処理を行うことで発話区間を得ることも出来る。
また、音声パワーで音声/非音声を切り分ける方法に更に上記したような音声尤度P_Sと非音声尤度P_Nを比較して発話区間を検出する方法を加えても良い。そうすることで音声認識装置100の処理速度に影響を与えないで発話区間の分割の精度をより高めることが可能である。
〔音響モデル選択部〕
図5に音響モデル選択部24のより具体的な動作フローを示して説明する。音響モデル選択部24は、発話区間を入力として最初に動作制御に必要なカウンタ等の初期化を行う(ステップS240)。そして、音響モデルAを代表するA−GMM(例えば男性音声を代表する男性GMM)と音響モデルBを代表するモデルB−GMM(例えば女性音声を代表する女性GMM)のそれぞれと、発話区間の各フレームの音声特徴量とを照合してモデルA尤度PtAとモデルB尤度PtBを得る(ステップS241)。この時、無音HMMが、最も高い尤度となっている無音フレームを無視しても良い。
ステップS242でモデルA尤度PtAとモデルB尤度PtBとは比較され、モデルA尤度PtAがモデルB尤度PtB以上の場合(ステップS242のY)は、音響モデルAのカウンタPCがカウントアップ(+1)される(ステップS243)。モデルB尤度PtBがモデルA尤度PtA以上の場合(ステップS242のN)は、音響モデルBのカウンタPCがカウントアップ(+1)される(ステップS244)。この動作は、一つの発話区間の全てのフレームについて行われる(ステップS245のN)。
一つの発話区間の全てのフレームについての尤度値の比較が終了する(ステップS245のY)と、音響モデルAのカウンタPCと音響モデルBのカウンタPCのカウント値が比較される(ステップS246)。カウンタPCの値がカウンタPCの値以上の場合(ステップS246のY)は、その発話区間の音響モデルとして音響モデルAであるA−HMMが選択される(ステップS247)。カウンタPCの値がカウンタPCの値未満の場合(ステップS246のN)は、B−HMMが選択される(ステップS248)。
以上の動作は、音声ファイルの全ての音声データが終了するまで繰り返される(ステップS28)。したがって、各発話区間に対してA−HMMとB−HMMのどちらかの音響モデルが選択される。
なお、カウンタPCの値とカウンタPCの値が等しい場合にも、その発話区間にA−HMMを選択する例を示したが、そのような場合にはA−HMMとB−HMMの中間の音響モデルである例えば性別非依存音響モデルを選択するようにしても良い。その場合、音響モデル選択部24内に設けられた中間音響モデル選択手段61(図2)が、性別非依存音響モデルを選択する。中間音響モデル選択手段61は、フレーム数が同数の場合ばかりでなく、その差が所定数(例えば10フレーム)以下の僅差の場合にも中間の音響モデルを選択するようにしても良い。
また、2つの音響モデルのどちらかを選択する例を示したが、最初から中間音響モデルを代表するGMMに対しても音声特徴量を照合するようにしても良い。つまり、音響モデルは2種類に限られない。例えば、更に年代別の音響モデルを用意しても良い。また、複数の特定話者の音響モデルとしても良い。
また、発話区間のフレーム毎に尤度値を比較してその大小のフレーム数で、その発話区間の音響モデルを選択する例を説明したが、この他にも発話区間内のそれぞれの尤度値の累積値の大小で音響モデルを選択する方法も考えられる。
なお、前述した発話連結部29を、音響モデル選択部24と音声認識装置27との間に設けても良い。その場合、発話連結部29は時系列が連続する同一の音響モデルが選択された発話区間を連結する。
図6にこの発明の音声認識装置200の機能構成例を示す。その動作フローを図7に示す。音声認識装置200は、実施例1の音声認識装置100の機能構成に更に、教師なし適応部40と、適応後音響モデルパラメータメモリ41と、第2音声認識処理部42とを備える点で異なる。音声認識装置200は、音声認識装置100で音声認識処理した音声認識結果を適応用ラベルとして学習した音響モデルを用いて、音声認識処理を行うものである。
教師なし適応部40は、選択された各音響モデルとその対応する発話区間に対して音声認識処理部27の出力する音声認識結果を適応用ラベルとして音響モデル選択部24が選択した音響モデルを適応し、適応音響モデルを生成する(ステップS40、図7)。適応後音響モデルパラメータメモリ41内の該当する音響モデルは、適応音響モデルに更新される。
第2音声認識処理部42は、適応後音響モデルパラメータメモリ41と言語モデルパラメータメモリ94とを参照して音声認識結果を出力する(ステップS42)。図6に示す第2音声認識処理部42の動作は、音声認識処理部27と同じである。なお、第2音声認識部42に特徴量分析部20の出力を直接入力するようにすれば、第2音声認識部42は一般的な音声認識処理を行なうものであっても良い。
以上述べたように、音声認識装置200によれば、発話区間毎に選択された音響モデルで音声認識した結果を適応用ラベルとして用いて選択された音響モデルを適応するので、音響モデルの精度を高めることが出来る。また、同じ音響モデルと選択された複数の発話区間の信号に基づいて適応するので比較的長時間の信号を音響モデルの適応データに用いることができるので、音響モデルの精度を高めることが出来る。そして、その精度の高い音響モデルを用いた音声認識処理を行うことが可能である。
図8にこの発明の音響認識装置300の機能構成例を示す。音声認識装置300は、音声認識装置100の発話分割部21と音響モデル選択部24とを一体とした発話分割モデル選択部60を備える点に特徴がある。
発話分割モデル選択部60は、特徴量分析部20の出力する特徴量を入力として、フレーム毎の音声特徴量と、複数の音響モデルを代表するGMMと無音HMMとを照合して各フレームを音声区間と非音声区間とに分類するとともに、その音声区間と非音声区間とから発話区間を検出して当該発話区間毎に音響モデルを選択するものである。GMMは、男性GMM、女性GMM、性別非依存GMM等、各種が考えられる。これらGMMのそれぞれに対して音声特徴量を照合することで、発話区間の分割とそれに対する音響モデルの選択とを同時に行うことが可能である。その詳しい説明は、上記した実施例1の説明から明らかであるので省略する。
音声認識装置300によればこの発明の音声認識装置の構成を簡単にすることが出来る。なお、発話分割モデル選択部60内に、実施例1で説明した性別非依存音響モデルを選択する中間音響モデル選択手段61を備えても良い。なお、同じように実施例1で説明した発話連結部29は、音声認識装置200と300においても設けることが可能である。
また、実施例2で説明した教師なし適応部40と、適応後音響モデルパラメータメモリ41と、第2音声認識処理部42とを音声認識装置200においても設け、教師なし適応を行うことも可能である。
〔実験結果〕
この発明の効果を検証する目的で検証実験を行った。男女各2名の3570発話からなる64個の音声ファイルを用いて連続音声認識を行い、従来の音声認識方法による音声認識結果とこの発明の方法による結果とを比較する実験を行った。従来の音声認識方法は男女並列認識とした。この発明の方法は、実施例3の音声認識装置300の方法と、音声認識装置300に教師なし適応を加えた方法とした。その結果を表1に示す。比較は文字認識率と文字正解精度で行った。
Figure 0004852129
この発明の方が、文字認識率で2.24%(3.44%)、文字正解精度で2.49(4.0%)改善される結果を示した。(・%)は、「従来法」と「実施例3+教師なし適応」との差である。この結果に示されるように、音声認識処理を行う前に発話区間の単位でその発話区間に適用するのに最も適当な音響モデルを選択することにより、従来技術よりも高い精度で音声認識処理を行うことが確認できた。
この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨
を逸脱しない範囲で適宜変更が可能である。なお、上記方法及び装置において説明した処
理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力
あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
    上記フレーム毎の音声特徴量と性別依存の各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、上記発話区間毎の音響モデルを選択する発話分割モデル選択部と、
    上記発話区間毎に選択された音響モデルで音声認識処理を行う音声認識処理部と、
    を具備する音声認識装置。
  2. 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
    上記フレーム毎の音声特徴量と性別依存の各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、上記発話区間毎の音響モデルを選択する発話分割モデル選択部と、
    上記音声特徴量と上記選択された音響モデルを参照して上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理部と、
    上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応部と、
    上記適応音響モデルを記録する適応後音響モデルパラメータメモリと、
    上記音声ディジタル信号を入力とし、上記適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理部と、
    を具備する音声認識装置。
  3. 請求項1又は2に記載した音声認識装置において、
    上記発話分割モデル選択部は、
    上記発話区間毎に、音響モデル毎の尤度が最大となる当該発話区間に含まれるフレーム数に基づき、上記発話区間毎の音響モデルを選択することを特徴とする音声認識装置。
  4. 請求項1又は2に記載した音声認識装置において、
    上記発話分割モデル選択部は、
    上記発話区間毎に、音響モデル毎の当該発話区間に含まれるフレームとの尤度の累積値に基づき、上記発話区間毎の音響モデルを選択することを特徴とする音声認識装置。
  5. 請求項に記載した音声認識装置において、
    上記発話分割モデル選択部は、
    音響モデルを選択する際に、フレーム数が同数若しくはフレーム数の差が所定数以下の場合は、性別非依存の音響モデルを選択する中間音響モデル選択手段を含む
    ことを特徴とする音声認識装置。
  6. 請求項1乃至の何れかに記載した音声認識装置において、
    更に
    時系列が連続する同じ音響モデルが選択された発話区間同士を連結する発話連結部を備えることを特徴とする音声認識装置。
  7. 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
    発話分割モデル選択部が、上記フレーム毎の音声特徴量と性別依存の各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、上記発話区間毎の音響モデルを選択する発話分割モデル選択過程と、
    音声認識処理部が、上記発話区間毎に選択された音響モデルで音声認識処理を行う音声認識処理過程と、
    を備える音声認識方法。
  8. 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
    発話分割モデル選択部が、上記フレーム毎の音声特徴量と性別依存の各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して各フレームを音声区間と非音声区間とに分類して発話区間を分割するとともに、上記発話区間毎に、当該発話区間に含まれるフレームと各音響モデルとの尤度から得られる各音響モデルの統計値に基づき、上記発話区間毎の音響モデルを選択する発話分割モデル選択過程と、
    音声認識処理部が、上記音声特徴量と上記選択された音響モデルを参照して上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理部と、
    教師なし適応部が、上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応過程と、
    第2音声認識処理部が、上記音声ディジタル信号を入力とし、適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理過程と、
    を備える音声認識方法。
  9. 請求項1乃至6の何れかに記載した音声認識装置としてコンピュータを機能させるためのプログラム。
JP2009158783A 2009-07-03 2009-07-03 音声認識装置とその方法と、プログラム Active JP4852129B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009158783A JP4852129B2 (ja) 2009-07-03 2009-07-03 音声認識装置とその方法と、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009158783A JP4852129B2 (ja) 2009-07-03 2009-07-03 音声認識装置とその方法と、プログラム

Publications (2)

Publication Number Publication Date
JP2011013543A JP2011013543A (ja) 2011-01-20
JP4852129B2 true JP4852129B2 (ja) 2012-01-11

Family

ID=43592474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009158783A Active JP4852129B2 (ja) 2009-07-03 2009-07-03 音声認識装置とその方法と、プログラム

Country Status (1)

Country Link
JP (1) JP4852129B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
JP7452095B2 (ja) 2020-02-27 2024-03-19 沖電気工業株式会社 データ処理装置、データ処理方法およびプログラム
US20220189463A1 (en) * 2020-12-16 2022-06-16 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4295675B2 (ja) * 2004-06-03 2009-07-15 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2006139185A (ja) * 2004-11-15 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2009069305A (ja) * 2007-09-11 2009-04-02 Fujitsu Ten Ltd 音響エコー削除装置および車載装置
JP4829871B2 (ja) * 2007-11-21 2011-12-07 日本電信電話株式会社 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2011013543A (ja) 2011-01-20

Similar Documents

Publication Publication Date Title
Shriberg et al. Prosody-based automatic segmentation of speech into sentences and topics
EP1936606B1 (en) Multi-stage speech recognition
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
JP5066483B2 (ja) 言語理解装置
US20030216912A1 (en) Speech recognition method and speech recognition apparatus
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
JP2007057844A (ja) 音声認識システムおよび音声処理システム
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
FR2833103A1 (fr) Systeme de detection de parole dans le bruit
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP4852129B2 (ja) 音声認識装置とその方法と、プログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP4962930B2 (ja) 発音評定装置、およびプログラム
JPH08241096A (ja) 音声認識方法
Breslin et al. Continuous asr for flexible incremental dialogue
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
CN111078937B (zh) 语音信息检索方法、装置、设备和计算机可读存储介质
JP5066668B2 (ja) 音声認識装置、およびプログラム
JP5235849B2 (ja) 音声認識装置とその方法と、プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111011

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111021

R150 Certificate of patent or registration of utility model

Ref document number: 4852129

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350