JP4241771B2 - 音声認識装置及びその方法 - Google Patents
音声認識装置及びその方法 Download PDFInfo
- Publication number
- JP4241771B2 JP4241771B2 JP2006185002A JP2006185002A JP4241771B2 JP 4241771 B2 JP4241771 B2 JP 4241771B2 JP 2006185002 A JP2006185002 A JP 2006185002A JP 2006185002 A JP2006185002 A JP 2006185002A JP 4241771 B2 JP4241771 B2 JP 4241771B2
- Authority
- JP
- Japan
- Prior art keywords
- output probability
- frame
- probability
- reference frame
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 102
- 238000004364 calculation method Methods 0.000 claims description 180
- 230000007704 transition Effects 0.000 claims description 99
- 239000013598 vector Substances 0.000 claims description 78
- 238000009826 distribution Methods 0.000 claims description 77
- 230000006870 function Effects 0.000 claims description 45
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims 2
- 230000014509 gene expression Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 22
- 238000001514 detection method Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 16
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000002411 adverse Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
田窪行則・他(2004):言語の科学2 音声、岩波書店 伊田政樹・中川聖一(1996):音声認識におけるビームサーチ法とA*探索法の比較、電子情報通信学会、音声技報、SP96−12
以下、従来技術について図1から図13に基づいて説明する。
図1は、従来の音声認識装置の構成例を示すブロック図である。
音響処理部001は、一定時間幅のフレーム毎に、入力音声信号から音声特徴ベクトルの時系列X=(x(1),x(2),・・・,x(T))を生成する。ここでx(t)はフレームtにおける音声特徴ベクトルである。但し1=<t=<Tであり、t=1は後述する音声区間検出部002で検出した音声の始端に、t=Tは音声の終端に対応する。音声特徴ベクトルx(t)は1次元以上の要素をもつベクトルであり、フレームtにおける音声の特徴を表現する。なお、「フレームt」とは、フレーム番号tの意味である。
音声区間検出部002は、入力音声信号から音声区間(音声の始端と終端)を検出する。
辞書部003は、異なるカテゴリを付与された複数のHMMを格納する。HMMは、一つ以上の状態Si(i=1,2,・・・,NS)と、初期状態の集合SS及び最終状態の集合SFと、ある状態Sjからある状態Siへの遷移確率Ajiと、ある状態Sjからある状態Siへの遷移パスにおける音声特徴ベクトルxの出力確率Bji(x)を与える確率密度関数Bji()と、各状態Siの初期確率Pi(i=1、2,・・・,NS)で定義される。但し1=<i,j=<NSであり、NSはHMMを構成する状態の総数である。
照合部004は、HMMと音声特徴ベクトル列との照合を行う。すなわち、音声区間の始端から終端までに生成された音声特徴ベクトル列X(x(1),x(2),・・・,x(t))について、あるカテゴリcを付与されたHMMからの出力確率P(X|c)を計算する。
次に図4を用いて、照合部004の処理を説明する。図4は、図1の音声認識装置における照合部004の処理のフローチャートである。
次に、図4のステップP012及びステップP015において、前向き確率を計算するための手順であるステップP020を、図5のフローチャートを用いて説明する。
照合部004では、1=<t=<Tである全てのフレームtの、1=<j,i=<NSである(j,i)に対応する全ての遷移パスにおいて、出力確率Bji(x)を計算する必要がある。
まず、ビームサーチに基づく出力確率計算の回数削減方法について説明する。
図7は、この方法に好適な音声認識装置の構成例を示すブロック図である。
探索対象選択部005は、フレーム毎にビームサーチを実施し、HMMの状態集合SAと、状態集合SAから遷移可能なHMMの状態集合SBとを選択する。あるフレームtにおける状態集合SAは、フレームt−1において0でない有意な前向き確率α(j,t−1)が0でない状態Sjのうち、他よりも大きな前向き確率をもつ上位NA個の状態の集合とする。但し1=<NA<NSとする。
照合部004は、式(3)で前向き確率を計算する際に、探索対象選択部005で選択された状態集合SA及び状態集合SBを参照し、Sj<IN<SAかつSi<IN<SBを満たす全ての(j,i)の組み合わせに対してのみ出力確率の計算を行い、Si<IN<SBを満たす状態Siに対してのみ前向き確率α(i,t)を計算する。具体的には、式(3)に代えて以下の式(4)を用いる。
図7の音声認識装置の照合部004における前向き確率の計算の概要を図8に示す。
次に、基準フレームに基づく出力確率計算の回数削減方法について説明する。
図9は、この方法に好適な音声認識装置の構成例を示すブロック図である。
記憶部006は、基準フレームq(1=<q=<T)と、出力確率バッファRSjiを格納する。
照合部004は、式(3)で前向き確率を計算する際に、記憶部006に格納された基準フレームqを参照し、当該フレームtが基準フレームqに一致するときは(すなわちt=q)、1=<j,i=<NSである全ての(j,i)に対して出力確率Bji(x(q))を計算し、計算した出力確率を記憶部006のバッファRSjiに記憶した上で、前向き確率を計算する。
図9の音声認識装置における前向き確率の計算の概要を図10に示す。
ビームサーチに基づく出力確率の回数削減方法と、基準フレームに基づく出力確率の回数削減方法は、それぞれ異なる特徴をもつ。
ここで、ビームサーチに基づく方法と基準フレームに基づく方法とを併用する場合には、基準フレームqにおける出力確率Bji(x(q))の計算方法が問題となる。単純には以下の2通りが考えられる。
以下では、この各々の解決策について説明し、その問題点を明らかにする。
第1の方法は、図9の音声認識装置の照合部004に、図7の音声認識装置の探索対象選択部005を組み合わせて、照合部004の動作を一部変更することで実現できる。
第2の方法は、図7の音声認識装置の照合部004に、図9の記憶部006を組み合わせて、照合部004の動作を一部変更することで実現できる。
本実施形態の音声認識装置は、音響処理部、音声区間検出部、辞書部、照合部、探索対象選択部、記憶部、判定部を備える。なお、各部の機能は、コンピュータに記憶されたプログラムによって実現できる。
次に、第1の実施形態の音声認識装置の詳細について図14から図18に基づいて説明する。
図14は、第1の実施形態の音声認識装置の構成例を示すブロック図である。
音響処理部101は、一定時間幅のフレーム毎に、入力音声信号から音声特徴ベクトルの時系列X=(x(1),x(2),・・・,x(T))を生成する。
音声区間検出部102は、入力音声信号から音声区間(音声の始端と終端)を検出する。
辞書部103は、異なるカテゴリを付与された複数のHMMを格納する。
照合部104は、HMMと音声特徴ベクトル列との照合を行う。
探索対象選択部105は、フレーム毎にビームサーチを実施し、HMMの状態集合SAと、状態集合SAから遷移可能なHMMの状態集合SBとを選択する。
記憶部106は、基準フレームq(1=<q=<T)と、出力確率バッファRSjiを格納する。
判定部107は、フラグFSjiを格納する。フラグFSjiの各要素は[0,1]の二値のうちいずれかの値をとり、記憶部106において出力確率バッファRSjiに出力確率Bji(x(t))が記憶されている場合は1を、そうでない場合は0に設定する。
次に、図14の音声認識装置において、あるカテゴリが付与されたHMMにおける音声特徴ベクトル列Xの出力確率P(X)を計算するための処理の流れを、図15及び図16のフローチャートを用いて説明する。
次に、図16のフローチャートにおける処理の詳細を以下で説明する。
第1の実施形態で説明した音声認識装置では、式(12)、式(13)、式(14)に基づき前向き確率を計算することで、式(11)による従来の前向き確率の計算に比べて、出力確率計算の回数を大きく削減すると共に、式(11)の良好な近似値を得ることができる。この結果、音声認識処理において、認識性能に悪影響を与えることなく、出力確率計算の回数を効率的に削減できる。これは音声認識処理の計算コストを効率よく削減する上で非常に有用である。
本発明は上記実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
本実施形態では、音響処理部101において、音声特徴ベクトルとしてMFCCを用いた。
本実施形態では、音声区間検出部102において、音声区間を検出する方法として推定雑音パワーと入力音声パワーの比率に基づく方法を用いた。
本実施形態では、辞書部103において、図17及び図18で例示した構造をもつHMMを用いた。
本実施形態では、辞書部103において、出力確率Bji(x)として式(7)に示すように混合正規分布の出力確率の重み付け和を用いた。
本実施形態では、辞書部104において、ビタビ法に基づく前向き確率の計算式を用いた。
本実施形態では、探索対象選択部105において、ビームサーチの方法として前向き確率の上位NA個をもつ状態を選択する方法を用いた。
本実施形態では、記憶部106において、基準フレームから当該フレームまでの経過フレーム数の閾値判定に固定の閾値NQを用いた。
次に、第2の実施形態の音声認識装置について図19から図22に基づいて説明する。
図19は、第2の実施形態の音声認識装置の構成例を示すブロック図である。
辞書部203は、第1の実施形態における辞書部103と同じく、異なるカテゴリを付与された複数のHMMを格納する。
照合部204は、第1の実施形態の照合部104と同じく、HMMと音声特徴ベクトル列との照合を行う。但し、前述の辞書部204及び後述する記憶部206、判定部207の動作に応じて、照合部104とは一部異なる動作を行う。これについては後述する。
記憶部206は、第1の実施形態における記憶部106に加えて、正規分布の出力確率バッファRNn(1=<n=<NN)を格納する。
判定部207は、第1の実施形態における判定部107に加えて、フラグFNnを格納する。フラグFNnの各要素は[0,1]の二値のうちいずれかの値をとり、記憶部206において正規分布の出力確率バッファRNnに正規分布の出力確率N(μn,Σn)が記憶されている場合は1を、そうでない場合は0に設定する。
次に、図19の音声認識装置において、あるカテゴリが付与されたHMMにおける音声特徴ベクトル列Xの出力確率P(X)を計算するための処理の流れを、図20、図21及び図22のフローチャートを用いて説明する。
次に、図21のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、各フレームにおける前向き確率α(i,t)の計算の概要を示す。
次に、図22のフローチャートにおける処理の詳細を以下で説明する。このフローチャートは、出力確率Bji(x(t))の詳細を示す。
つまり、第2の実施形態で説明した音声認識装置では、式(16)、式(17)、式(18)に基づき出力確率を計算することで、第1の実施形態の式(7)による出力確率の計算に比べて、正規分布の計算回数を大きく削減すると共に、式(7)の良好な近似値を得ることができる。
次に、第3の実施形態の音声認識装置について図23から図25に基づいて説明する。
図23は、第3の実施形態の音声認識装置の構成例を示すブロック図である。
次に、図23の音声認識装置において、あるカテゴリが付与されたHMMにおける音声特徴ベクトル列Xの出力確率P(X)を計算するための処理の流れを、図24、図25のフローチャートを用いて説明する。
102 音声区間検出部
103 辞書部
104 照合部
105 探索対象選択部
106 記憶部
107 判定部
Claims (9)
- 入力する音声信号をHMM(隠れマルコフモデル)を用いて音声認識する音声認識装置において、
前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得する音響処理部と、
前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶する基準フレーム記憶部と、
前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行う基準フレーム更新部と、
前記基準フレームにおいてビームサーチに基づき前記HMMの第1探索範囲を選択する第1探索範囲選択部と、
前記第1探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第1出力確率を計算する第1出力確率計算部と、
前記第1出力確率の計算結果を前記個々の遷移パスに結びつけて記憶する第1出力確率記憶部と、
前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第1出力確率の計算結果を全て消去する第1出力確率消去部と、
前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記HMMの第2探索範囲をフレーム毎に選択する第2探索範囲選択部と、
前記第2探索範囲が選択されたフレームである現フレームの前記第2探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定する判定部と、
前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第1出力確率の計算結果あるいは後述の第2出力確率の計算結果を、前記遷移パスの第2出力確率の近似値とする近似値設定部と、
前記第1出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第2出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する第2出力確率計算部と、
前記第2出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶する第2出力確率記憶部と、
前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第2出力確率の計算結果を全て消去する第2出力確率消去部と、
予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第2出力確率から前記現フレームの前向き確率を計算する前向き確率計算部と、
前記最終フレームまで前記HMM毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記HMMに付与されたカテゴリを、音声認識結果とする音声認識部と、
を備える
ことを特徴とする音声認識装置。 - 前記第1出力確率及び前記第2出力確率における確率密度関数が、混合正規分布であり、
前記HMMが、任意の正規分布を複数の確率密度関数が共有する構造であり、
前記第1出力確率計算部において、前記個々の遷移パスにおける前記第1出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率を計算し、それぞれの計算結果を正規分布毎にその正規分布に結び付けて記憶し、
前記第1出力確率消去部において、前記第1出力確率の計算結果を全て消去することに加えて、前記正規分布に結び付けて記憶した音声特徴ベクトルの出力確率の計算結果も全て消去し、
前記第2出力確率計算部において、前記第2出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率について、
(1)前記正規分布に結び付けられた計算結果の記憶がある場合には、前記記憶された計算結果を前記正規分布の出力確率の近似値とし、
(2)前記正規分布に結び付けられた計算結果の記憶がない場合には、前記正規分布に対する音声特徴ベクトルの出力確率をさらに計算し、前記計算結果をその正規分布に結び付けて新たに記憶する
ことを特徴とする請求項1記載の音声認識装置。 - 前記基準フレーム記憶部において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルを記憶し、
前記基準フレーム更新部において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルも更新し、
前記第2出力確率計算部において、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する
ことを特徴とする請求項1記載の音声認識装置。 - 入力する音声信号をHMM(隠れマルコフモデル)を用いて音声認識する音声認識方法において、
音響処理部が、前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得し、
基準フレーム記憶部が、前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶し、
基準フレーム更新部が、前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行い、
第1探索範囲選択部が、前記基準フレームにおいてビームサーチに基づき前記HMMの第1探索範囲を選択し
第1出力確率計算部が、前記第1探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第1出力確率を計算し、
第1出力確率記憶部が、前記第1出力確率の計算結果を前記個々の遷移パスに結びつけて記憶し、
第1出力確率消去部が、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第1出力確率の計算結果を全て消去し、
第2探索範囲選択部が、前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記HMMの第2探索範囲をフレーム毎に選択し、
判定部が、前記第2探索範囲が選択されたフレームである現フレームの前記第2探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定し、
近似値設定部が、前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第1出力確率の計算結果あるいは後述の第2出力確率の計算結果を、前記遷移パスの第2出力確率の近似値とし、
第2出力確率計算部が、前記第1出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第2出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第2出力確率を計算し、
第2出力確率記憶部が、前記第2出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶し、
第2出力確率消去部が、前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第2出力確率の計算結果を全て消去し、
前向き確率計算部が、予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第2出力確率から前記現フレームの前向き確率を計算し、
音声認識部が、前記最終フレームまで前記HMM毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記HMMに付与されたカテゴリを、音声認識結果とする
ことを特徴とする音声認識方法。 - 前記第1出力確率及び前記第2出力確率における確率密度関数が、混合正規分布であり、
前記HMMが、任意の正規分布を複数の確率密度関数が共有する構造であり、
前記第1出力確率計算部が、前記個々の遷移パスにおける前記第1出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率を計算し、
前記第1出力確率記憶部が、それぞれの計算結果を正規分布毎にその正規分布に結び付けて記憶し、
前記第1出力確率消去部が、前記第1出力確率の計算結果を全て消去することに加えて、前記正規分布に結び付けて記憶した音声特徴ベクトルの出力確率の計算結果も全て消去し、
前記第2出力確率計算部が、前記第2出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率について、
(1)前記正規分布に結び付けられた計算結果の記憶がある場合には、前記記憶された計算結果を前記正規分布の出力確率の近似値とし、
(2)前記正規分布に結び付けられた計算結果の記憶がない場合には、前記正規分布に対する音声特徴ベクトルの出力確率をさらに計算し、前記計算結果をその正規分布に結び付けて新たに記憶する
ことを特徴とする請求項4記載の音声認識方法。 - 前記基準フレーム記憶部が、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルを記憶し、
前記基準フレーム更新部が、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルも更新し、
前記第2出力確率計算部が、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する
ことを特徴とする請求項4記載の音声認識方法。 - 入力する音声信号をHMM(隠れマルコフモデル)を用いてコンピュータによって音声認識する音声認識プログラムにおいて、
前記コンピュータに、
前記音声信号から一定時間幅のフレーム毎の音声特徴ベクトルを取得する音響処理機能と、
前記各フレームの中で一つのフレームを基準フレームとして、そのフレーム番号を記憶する基準フレーム記憶機能と、
前記基準フレームから任意のフレーム数が経過した場合に、前記基準フレームから前記フレーム数後のフレームを新たな基準フレームとして設定し直して更新すると共に、前記更新を最終フレームまで順番に行う基準フレーム更新機能と、
前記基準フレームにおいてビームサーチに基づき前記HMMの第1探索範囲を選択する第1探索範囲選択機能と、
前記第1探索範囲内の個々の遷移パスにおける音声特徴ベクトルの第1出力確率を計算する第1出力確率計算機能と、
前記第1出力確率の計算結果を前記個々の遷移パスに結びつけて記憶する第1出力確率記憶機能と、
前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第1出力確率の計算結果を全て消去する第1出力確率消去機能と、
前記基準フレームを更新しなかった場合に、前記基準フレームから次に更新される新たな基準フレームまでの区間にある各フレームにおいて、ビームサーチに基づき前記HMMの第2探索範囲をフレーム毎に選択する第2探索範囲選択機能と、
前記第2探索範囲が選択されたフレームである現フレームの前記第2探索範囲内の個々の遷移パスに対し、それと同じ遷移パスの前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が、前記遷移パスに結び付けられて記憶されているか否かを判定する判定機能と、
前記第1出力確率の計算結果あるいは前記基準フレームから前記現フレームの間にある過去フレームに関する後述の第2出力確率の計算結果が記憶されている場合は、前記基準フレームから前記現フレームの間にある過去フレームに関する前記第1出力確率の計算結果あるいは後述の第2出力確率の計算結果を、前記遷移パスの第2出力確率の近似値とする近似値設定機能と、
前記第1出力確率の計算結果及び前記基準フレームから現フレームの直前のフレームまでの区間における後述の第2出力確率の計算結果が記憶されていない場合は、前記遷移パスにおける前記現フレーム、または、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する第2出力確率計算機能と、
前記第2出力確率の計算結果を、前記遷移パスに結び付けて新たに記憶する第2出力確率記憶機能と、
前記基準フレームを更新した場合に、前記遷移パスに結び付けて記憶した前記第2出力確率の計算結果を全て消去する第2出力確率消去機能と、
予め計算した前フレームの前向き確率と、前記現フレームの前記全ての近似値と前記全ての第2出力確率から前記現フレームの前向き確率を計算する前向き確率計算機能と、
前記最終フレームまで前記HMM毎の前記前向き確率を計算した後に、前記最終フレームに関して最も大きい前向き確率を与える前記HMMに付与されたカテゴリを、音声認識結果とする音声認識機能と、
を実現させるための音声認識プログラム。 - 前記第1出力確率及び前記第2出力確率における確率密度関数が、混合正規分布であり、
前記HMMが、任意の正規分布を複数の確率密度関数が共有する構造であり、
前記コンピュータが、
前記第1出力確率計算機能において、前記個々の遷移パスにおける前記第1出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率を計算し、それぞれの計算結果を正規分布毎にその正規分布に結び付けて記憶し、
前記第1出力確率消去機能において、前記第1出力確率の計算結果を全て消去することに加えて、前記正規分布に結び付けて記憶した音声特徴ベクトルの出力確率の計算結果も全て消去し、
前記第2出力確率計算機能において、前記第2出力確率を計算する際に、前記確率密度関数を構成する個々の正規分布に対する音声特徴ベクトルの出力確率について、
(1)前記正規分布に結び付けられた計算結果の記憶がある場合には、前記記憶された計算結果を前記正規分布の出力確率の近似値とし、
(2)前記正規分布に結び付けられた計算結果の記憶がない場合には、前記正規分布に対する音声特徴ベクトルの出力確率をさらに計算し、前記計算結果をその正規分布に結び付けて新たに記憶する
ことを特徴とする請求項7記載の音声認識プログラム。 - 前記コンピュータが、
前記基準フレーム記憶機能において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルを記憶し、
前記基準フレーム更新機能において、前記新たな基準フレームのフレーム番号に加えて、前記新たな基準フレームの音声特徴ベクトルも更新し、
前記第2出力確率計算機能において、前記基準フレームの音声特徴ベクトルの第2出力確率を計算する
ことを特徴とする請求項7記載の音声認識プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006185002A JP4241771B2 (ja) | 2006-07-04 | 2006-07-04 | 音声認識装置及びその方法 |
US11/694,547 US7895040B2 (en) | 2006-07-04 | 2007-03-30 | Device and method of modeling acoustic characteristics with HMM and collating the same with a voice characteristic vector sequence |
CNA2007101271937A CN101101751A (zh) | 2006-07-04 | 2007-07-04 | 语音识别装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006185002A JP4241771B2 (ja) | 2006-07-04 | 2006-07-04 | 音声認識装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008015120A JP2008015120A (ja) | 2008-01-24 |
JP4241771B2 true JP4241771B2 (ja) | 2009-03-18 |
Family
ID=39036000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006185002A Expired - Fee Related JP4241771B2 (ja) | 2006-07-04 | 2006-07-04 | 音声認識装置及びその方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7895040B2 (ja) |
JP (1) | JP4241771B2 (ja) |
CN (1) | CN101101751A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9786272B2 (en) | 2013-12-24 | 2017-10-10 | Kabushiki Kaisha Toshiba | Decoder for searching a digraph and generating a lattice, decoding method, and computer program product |
US10008200B2 (en) | 2013-12-24 | 2018-06-26 | Kabushiki Kaisha Toshiba | Decoder for searching a path according to a signal sequence, decoding method, and computer program product |
US10042345B2 (en) | 2014-01-31 | 2018-08-07 | Kabushiki Kaisha Toshiba | Conversion device, pattern recognition system, conversion method, and computer program product |
US10055511B2 (en) | 2013-12-24 | 2018-08-21 | Kabushiki Kaisha Toshiba | Search device, search method, and computer program product |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
US10452355B2 (en) | 2014-09-18 | 2019-10-22 | Kabushiki Kaisha Toshiba | Automaton deforming device, automaton deforming method, and computer program product |
US10572538B2 (en) | 2015-04-28 | 2020-02-25 | Kabushiki Kaisha Toshiba | Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101807397B (zh) * | 2010-03-03 | 2011-11-16 | 北京航空航天大学 | 一种基于隐半马尔可夫模型的噪声鲁棒的语音检测方法 |
CN104376324A (zh) * | 2013-08-12 | 2015-02-25 | 索尼公司 | 基于信号处理的状态检测方法和装置 |
JP2015040903A (ja) * | 2013-08-20 | 2015-03-02 | ソニー株式会社 | 音声処理装置、音声処理方法、及び、プログラム |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
CN105702250B (zh) * | 2016-01-06 | 2020-05-19 | 福建天晴数码有限公司 | 语音识别方法和装置 |
CN106128457A (zh) * | 2016-08-29 | 2016-11-16 | 昆山邦泰汽车零部件制造有限公司 | 一种对话机器人的控制方法 |
JP6618884B2 (ja) | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
CN106875936B (zh) * | 2017-04-18 | 2021-06-22 | 广州视源电子科技股份有限公司 | 语音识别方法及装置 |
KR20190045038A (ko) | 2017-10-23 | 2019-05-02 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US11194968B2 (en) * | 2018-05-31 | 2021-12-07 | Siemens Aktiengesellschaft | Automatized text analysis |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5805772A (en) * | 1994-12-30 | 1998-09-08 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization |
JP3251480B2 (ja) * | 1995-10-27 | 2002-01-28 | 沖電気工業株式会社 | 音声認識方法 |
US5991720A (en) * | 1996-05-06 | 1999-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech recognition system employing multiple grammar networks |
GB9802836D0 (en) * | 1998-02-10 | 1998-04-08 | Canon Kk | Pattern matching method and apparatus |
WO1999053477A1 (fr) * | 1998-04-15 | 1999-10-21 | Hitachi, Ltd. | Systeme de reconnaissance vocale a micro-ordinateur parallele |
JP2001075596A (ja) * | 1999-09-03 | 2001-03-23 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法及び音声認識プログラムを記録した記録媒体 |
US6963837B1 (en) * | 1999-10-06 | 2005-11-08 | Multimodal Technologies, Inc. | Attribute-based word modeling |
US6574595B1 (en) * | 2000-07-11 | 2003-06-03 | Lucent Technologies Inc. | Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition |
-
2006
- 2006-07-04 JP JP2006185002A patent/JP4241771B2/ja not_active Expired - Fee Related
-
2007
- 2007-03-30 US US11/694,547 patent/US7895040B2/en not_active Expired - Fee Related
- 2007-07-04 CN CNA2007101271937A patent/CN101101751A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9786272B2 (en) | 2013-12-24 | 2017-10-10 | Kabushiki Kaisha Toshiba | Decoder for searching a digraph and generating a lattice, decoding method, and computer program product |
US10008200B2 (en) | 2013-12-24 | 2018-06-26 | Kabushiki Kaisha Toshiba | Decoder for searching a path according to a signal sequence, decoding method, and computer program product |
US10055511B2 (en) | 2013-12-24 | 2018-08-21 | Kabushiki Kaisha Toshiba | Search device, search method, and computer program product |
US10042345B2 (en) | 2014-01-31 | 2018-08-07 | Kabushiki Kaisha Toshiba | Conversion device, pattern recognition system, conversion method, and computer program product |
US10452355B2 (en) | 2014-09-18 | 2019-10-22 | Kabushiki Kaisha Toshiba | Automaton deforming device, automaton deforming method, and computer program product |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
US10572538B2 (en) | 2015-04-28 | 2020-02-25 | Kabushiki Kaisha Toshiba | Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
Also Published As
Publication number | Publication date |
---|---|
CN101101751A (zh) | 2008-01-09 |
US20080281595A1 (en) | 2008-11-13 |
JP2008015120A (ja) | 2008-01-24 |
US7895040B2 (en) | 2011-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4241771B2 (ja) | 音声認識装置及びその方法 | |
US7725319B2 (en) | Phoneme lattice construction and its application to speech recognition and keyword spotting | |
US9406299B2 (en) | Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition | |
JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
JP4410265B2 (ja) | 音声認識装置及び方法 | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
EP1241661A1 (en) | Speech recognition apparatus | |
JP4515054B2 (ja) | 音声認識の方法および音声信号を復号化する方法 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
JPWO2010061507A1 (ja) | 言語モデル作成装置 | |
KR101564087B1 (ko) | 화자 검증 장치 및 방법 | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
JPH08211889A (ja) | 木構造を用いたパターン適応化方式 | |
US20170263250A1 (en) | Voice processing system and voice processing method | |
US20120330664A1 (en) | Method and apparatus for computing gaussian likelihoods | |
Rybach et al. | On lattice generation for large vocabulary speech recognition | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
JP4586386B2 (ja) | 素片接続型音声合成装置及び方法 | |
JP2014153680A (ja) | 音響モデル補正パラメータ推定装置、特徴量補正パラメータ推定装置、それらの方法及びプログラム | |
JP2013174768A (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP4510517B2 (ja) | 音響モデル雑音適応化方法およびこの方法を実施する装置 | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
US20060136210A1 (en) | System and method for tying variance vectors for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080326 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080916 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140109 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |