JP4851684B2 - 隠れマルコフモデルアルゴリズムの観測確率の演算装置 - Google Patents
隠れマルコフモデルアルゴリズムの観測確率の演算装置 Download PDFInfo
- Publication number
- JP4851684B2 JP4851684B2 JP2003185611A JP2003185611A JP4851684B2 JP 4851684 B2 JP4851684 B2 JP 4851684B2 JP 2003185611 A JP2003185611 A JP 2003185611A JP 2003185611 A JP2003185611 A JP 2003185611A JP 4851684 B2 JP4851684 B2 JP 4851684B2
- Authority
- JP
- Japan
- Prior art keywords
- output
- value
- observation probability
- calculation
- outputs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims description 112
- 230000007423 decrease Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 101100129496 Arabidopsis thaliana CYP711A1 gene Proteins 0.000 description 13
- 101100129499 Arabidopsis thaliana MAX2 gene Proteins 0.000 description 13
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 13
- 230000007704 transition Effects 0.000 description 9
- 101100382854 Arabidopsis thaliana CCD7 gene Proteins 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000035508 accumulation Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- PBJBVIHLBRYRQC-UHFFFAOYSA-N 1-o-[2-(diethylamino)ethyl] 3-o-ethyl 2-methyl-2-phenylpropanedioate Chemical compound CCN(CC)CCOC(=O)C(C)(C(=O)OCC)C1=CC=CC=C1 PBJBVIHLBRYRQC-UHFFFAOYSA-N 0.000 description 2
- 101001107782 Homo sapiens Iron-sulfur protein NUBPL Proteins 0.000 description 2
- 102100021998 Iron-sulfur protein NUBPL Human genes 0.000 description 2
- 101100072620 Streptomyces griseus ind2 gene Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は音声認識装置に係り、特に、音声認識に利用される隠れマルコフモデルアルゴリズム(Hidden Markov model algorithm)のうち演算量の最も多い観測確率の演算機能を遂行する観測確率の演算装置に関する。
【0002】
【従来の技術】
音声認識機能は、人間が日常生活で接するほぼ全ての電子製品にその適用範囲が拡大される見通しである。音声認識と関連して最初の使用化技術を提示した会社はIBM社であって、文字認識に初めて隠れマルコフモデルアルゴリズムを適用して隠れマルコフモデルの効率性を立証した。(特許文献1参照)
【0003】
特許文献1は汎用プロセッサで隠れマルコフモデルアルゴリズムをプログラムとして具現してアルゴリズムの効率性を確認した。
特許文献1に開示された音声認識方法は3つに分けられるが、夫々前処理部分、フロント・エンド部分、モデリング部分である。
前処理部分は、処理対象である文字についての語彙素を認知する段階である。フロント・エンド部分は、認知された語彙素から比較対象になる特徴値(Feature value)またはパラメータを抽出する。モデリング部分では、抽出したパラメータを根拠として認知された文字についての正確な判断基準になるモデルを学習過程を通じて構成する。このように認知された語彙素をベースに予め指定された文字のうちいかなる文字を認識された文字に判断するかを決定する機能を行う。
【0004】
以後、IBM社ではより広範囲な領域で使用できる隠れマルコフモデルアルゴリズムを利用した音声認識システム及び方法を公開した(特許文献2参照)。この技術は孤立語についての音声認識処理過程に隠れマルコフモデルを利用する技術であって、音声学的に異なる単語が認識できるように訓練され、そして、多くの単語を認識するに適した隠れマルコフモデルを使用する方法及び音声認識システムに関する。
かかる音声認識装置を具現するにおいて、音声認識に必要な演算時間を縮めることが要求される。観察したところによると、隠れマルコフモデルアルゴリズムを使用する音声認識装置において、観測確率演算が全体演算の約62%程度を占めており、そのような演算速度を改善する必要がある。
【0005】
【特許文献1】
US5,636,291号公報(1997.06)
【特許文献2】
US5,799,278号公報(1998.08)
【0006】
【発明が解決しようとする課題】
本発明が解決しようとする技術的な課題は、隠れマルコフモデルアルゴリズムのうち最も多い演算を占める観測確率演算を遂行する専用ハードウェア装置を提供するところにある。
【0007】
【課題を解決するための手段】
前記技術的な課題を解決するための本発明の第1実施例による観測確率の演算装置は、第1乃至第3演算部及び比較部を具備する。
第1演算部は、入力された音声信号から抽出したパラメータ(Feature)で、代表音素から抽出されたパラメータの平均(Mean)を減算し、前記減算結果と前記平均(Mean)の分布程度(分散、Precision)とを乗算して第1出力を出力する。
【0008】
第2演算部は、前記第1出力を自乗演算し、前記自乗演算した結果をN回累算して第2出力を出力する。第3演算部は前記第2出力で所定の加重値(Gconst)を減算して第3出力を出力する。
比較部は前記第3出力を貯蔵し、貯蔵された複数の第3出力のうち大きい順番にL個を抽出して貯蔵する。
【0009】
前記技術的課題を解決するための本発明の第2実施例による観測確率の演算方法は、入力音声信号から抽出された第2パラメータから前記入力音声信号の第1パラメータの平均を減算する段階、第1出力を得るために前記減算結果を乗算する段階、前記第1出力を自乗する段階及び観測確率値を得るために前記自乗された第1出力を累算する段階を具備することを特徴とする。
前記乗算する段階は、前記減算結果に前記平均の分布程度を乗算することを特徴とする。前記第1パラメータは入力された音声信号の代表音素である。
【0010】
前記技術的課題を解決するための本発明の第3実施例による音声信号の認識方法は、入力音声信号から抽出された第2パラメータから前記入力音声信号の第1パラメータの平均を減算する段階、第1出力を得るために前記減算結果を乗算する段階、前記第1出力を自乗する段階及び第2出力を得るために前記自乗された第1出力を累算する段階、前記第2出力で所定の加重値を減算して第3出力を出力する段階、前記第3出力からL個の出力を抽出する段階及び前記L個の出力のうち大きい順番にL個を選択し、前記選択されたL個の出力は認識された音声信号に対応されることを特徴とする。
【0011】
前記技術的課題を解決するための本発明の第4実施例による音声信号の認識装置は、本発明の第3実施例による音声信号の認識方法によって音声信号を認識する。
前記技術的課題を解決するための本発明の第5実施例による音声認識装置は、本発明の第1実施例による観測確率の演算装置を具備する。
前記技術的課題を解決するための本発明の第6実施例による観測確率の演算装置は本発明の第2実施例による観測確率の演算方法によって観測確率値を計算する。
【0012】
【発明の実施の形態】
本発明と本発明の動作上のメリット及び本発明の実施とによって達成される目的を十分に理解するためには本発明の望ましい実施例を例示する図面及び図面に記載された内容を参照せねばならない。
以下、添付した図面に基づき、本発明の望ましい実施例を説明することによって、本発明を詳しく説明する。各図面に示す同じ符号は同じ部材を示す。
【0013】
図1は、一般的な音声認識システムの構成を示すブロック図である。
図1を参照すれば、A/Dブロック101は連続信号として入力される音声信号を演算が容易なデジタル信号に変える。プレエンファシス・ブロック102は音声信号の特徴的な発音区分を明確にするために高周波成分を強調する。デジタル信号に変わった音声信号は一定個数のサンプル単位に分離されてサンプリング処理するが、ここでは240個のサンプル(30ms)単位に区分される。
【0014】
現在、隠れマルコフモデルに使われる特徴ベクトルとしてスペクトルから発生されたケプストラム(Cepstrum)とエネルギーとが一般的に使われる。従って、ケプストラムとエネルギーとを求める演算が必要であり、かかるエネルギー及びスペクトルを求める演算ブロックがエネルギー計算ブロック103である。
【0015】
ここで、エネルギーを求めるためにタイミング領域でエネルギー計算公式を利用して30msについての瞬間エネルギーを計算する。この計算式は数式1の通りである。
【数2】
【0016】
このエネルギー値は現在入力された信号が音声信号か否かを判断するのに使われる。このように周波数領域でのスペクトルを求めるためには、信号処理に多用される高速フーリエ変換を利用する。このスペクトルは256ポイントFFT演算を通じて得られる。かかるFFT演算は256ポイントコンプレックスFFT演算を遂行して数式2のように表す。
【数3】
【0017】
エネルギー演算結果を利用して音声信号かいなかを判別した後、音声信号と判明されると音声の開始と終了とを決定せねばならない。かかる音声信号の開始と終了とを決定する機能は、終了端判定ブロック104で遂行される。このように有効な1つの単語が決まれば、それに該当するスペクトルデータだけがバッファブロック105に貯蔵される。従って、バッファブロック105には話者より発音された単語のうち雑音部分が除かれた有効な音声信号のみが貯蔵される。
【0018】
メル−フィルタ(Mel−filter)・ブロック106ではスペクトル値よりケプストラムを求めるための前処理過程であって、32帯域幅にフィルタリングするメル−フィルタ演算が遂行される。
この過程を通じて、32個の帯域についてのスペクトル値が求められる。周波数領域にあるこの数値を再び時間領域に変換すれば、隠れマルコフモデルで使用するパラメータであるケプストラムが求められる。かかる時間領域への変換のために逆離散コサイン変換(IDCT)演算がIDCTブロック107で遂行される。
【0019】
隠れマルコフモデルを利用した探索のために、かかるケプストラムとエネルギー値とが使われるが、エネルギー値とケプストラムとの間の数値差があまりにも大きいために(10の2乗の大きさの差)、かかる数値間の大きさ調節が必要である。かかる数値の大きさ調節がスケールブロック108で遂行される。数値の調節はロガリズムを利用して調節する。
【0020】
これと共に、ケプストラム・ウィンドウ・ブロック109ではMel−cepstrum値から周期性とエネルギーとを分離する作業と雑音特性を改善するための作業とを遂行する。ここで、雑音特性を改善するのは数式3を利用して計算する。
【数4】
【0021】
ここで、Sin_Tableは次の数式4のように構成できる。
【数5】
【0022】
以上の演算が完了すれば、次のような正規化ブロック110を通じて各フレームの9番目のデータであるエネルギー値を一定の範囲内の数値に正規化させる。
【数6】
【0023】
数式5のように各フレームの9番目のデータのうち最も大きい数値を求め、この数値を数式6のようにあらゆるフレームのエネルギーデータから差し引くとノーマライズされたエネルギーが求められる。
【数7】
【0024】
一般的に、音声信号の認識率を高めるためにパラメータの種類を増やす方法が頻繁に使われる。最もよく使われる方法が各フレームの特徴値の外にフレームとフレームとの間の特徴値の差をもう1つの特徴値として取ることである。かかるもう1つの特徴値をデルタケプストラムという。
動的特性ブロック111は、このようなデルタケプストラムを計算して2次特徴値に選定する部分である。ケプストラム間の差を計算する方法は数式7のようである。
【数8】
【0025】
一般的に、演算対象フレームは表と裏の夫々2フレームずつである。かかる演算が完了すれば、ケプストラムと同じ数のデルタケプストラムが生成される。以上のような作業を通じて隠れマルコフモデル探索の対象となる特徴値を抽出する。
かかる特徴値から予め決められた隠れマルコフモデルを利用した単語探索作業が行われる。隠れマルコフモデルを利用した単語探索作業は、大きく3つの段階を経る。第一に、観測確率計算ブロック112である。基本的に単語探索及び決定過程は確率を根拠とする。確率的に最も近似した音節を探し出す。
【0026】
確率値は大きく観測確率と遷移確率とに分かれ、このような確率値を累積して確率値が最も大きい音節のシーケンスが選択される。観測確率は数式8のように示すことができる。
【数9】
【0027】
ここで、dbx値は基準平均値(Mean)と入力される音声信号から抽出した特徴値間の確率的な距離である。確率的な距離が近いほど確率的に大きい数値になる。
ここで、Feature値は入力された音声信号から抽出したパラメータ値であり、Mean値はパラメータの平均値を示し、var値は分布程度(Precision)/2である。Precision値は分布程度(分散1/σ2)を示す。Gconst値は加重値を示す。iは音素の代表的な類型を表すミクスチュアを示す。
例えば、認識の正確度を高めるために多くの人々から代表値を得ることが必要であり、これらの代表値を1つの音素について共通類型を表す幾つかのグループに分類すれば、iは各グループの代表値を示す因数となる。jはパラメータの個数を示す。参考までにフレームの個数は単語の類型によって異なり、ミクスチュアは一般人の発音類型によって多様に分類されうる。
【0028】
このように計算された観測確率は、予め選定された各単語の音節の音素が観測できる確率であり、該当音素ごとに夫々違う確率値を有する。従って、あらゆる音素についての観測確率が定められると、これを予め定められたステート・マシン・シーケンスブロック113に適用して、最も適した音素のシーケンスを求めるようになる。
一般的に、独立語の認識のための隠れマルコフモデルの各ステート・マシンは認識しようとする単語の各音素についての特徴値を根拠に行われたシーケンスである。
【0029】
図2は、任意の音節についての状態列を求める方法を示す図面である。
“ク”という音節が3つの順次的の状態列S1、S2、S3よりなると仮定する時、図2では最初状態S0から出発してS1及びS2を経て最終的にS3に到達する過程を示している。
図2において、同じ状態で右側に進行するのは遅延状態を意味し、かかる遅延状態は話者依存的である。すなわち、ある場合において“ク”という音節が時間的に非常に短く生じうるが、他の場合においては相対的に長い時間に生じうる。ある音節の発生時間が長いほど各状態での遅延が長くなる。図2においてSilは黙音を示す。
【0030】
もし、使用者が“ク”と発音した場合、この状態列が最も大きい確率値を有する。従って、図2のような多くの状態列が存在するようになり、夫々の状態列ごとに1つの入力信号についての確率演算が行われるので、多くの演算量が必要である。
最終的に、全ての音素についての確率的な演算(音素別状態列の処理作業)が完了すれば、音素別最終段の状態(ステート・マシーン)には確率値が貯蔵される。図2で各状態段を進行する基準は、次の数式9を利用して最大のブランチを選択して、Alpha値を求めることである。
【0031】
かかるAlpha値は、結局観測確率が累積された数値であって、以前の観測確率値と予め経験的な実験を通じて得た音素間の遷移確率を利用して求める。
【数10】
【0032】
ここで、State.Alpha値は、新しく計算されて累積される確率値であり、State.Alpha_prev値は、今まで累積された確率値である。また、trans_prob[0]は、状態SnからSnに遷移する確率であり(例、S0→S0)、trans_prob[1]は、状態Snから状態Sn+1に遷移する確率である(例、S0→S1)。そして、o_prob値は、現在の状態で計算された観測確率である。
【0033】
図1の最大尤度ファインダ・ブロック114では数式9のように音素別に最終累積された確率値を根拠として認識された単語を選択する機能を遂行する。この時、確率値の最も大きい該当単語を認識された単語に選択する。
“KBS”という単語を認識するための過程を例に挙げて説明する。
“KBS”という単語は、“ケイ”、“ビー”、“エス”の3つの音節よりなり、また、“ケイ”という音節は、“ク”、“エ”、“イ”の3つの音素より構成され、“ビー”という音節は、“ブ”と“イ”の音素よりなり、“エス”という音節は、“イ”、“エ”、そして“ス”の3つの音素よりなる。
【0034】
“KBS”という単語は、、“ク”、“エ”、“イ”、“ブ”、“イ”、“イ”、“エ”、そして“ス”という8つの音素よりなり、各音素の観測確率と各音素間の遷移確率によって認識される。
すなわち、“KBS”という単語を認識するためには“ク”、“エ”、“イ”、“ブ”、“イ”、“イ”、“エ”、そして“ス”という8つの音素が最も正確に認識されねばならず、それをベースとして各音素間のシーケンスが最も類似した単語である“KBS”が選択されねばならない。
【0035】
先に入力された音声信号について各音素別に観測確率が計算される。観測確率を計算するためにデータベースに貯蔵された代表音素との類似程度、すなわち、確率が計算され、確率が最も大きい代表音素についての確率が観測確率になる。例えば、“ク”という音素についてデータベースに貯蔵された代表音素の全てが比較され、そのうち最も高い確率の“ク”という代表音素が選択される。
【0036】
入力された音声信号について各音素別に観測確率が計算されれば、すなわち、音声信号の各音素についての代表音素が決定されれば、入力された音声信号をこれらの代表音素よりなるステート・マシン・シーケンスに適用させて最も適したシーケンスを決定する。
ステート・マシン・シーケンスは“ク”、“エ”、“イ”、“ブ”、“イ”、“イ”、“エ”、そして“ス”という8つの音素よりなり、各音素の観測確率及びそれらの累積値が最も大きい単語である“KBS”が選択される。夫々の音素は細かく3つのステートに別れる。
【0037】
図3は、単語認識についての過程を図式的に示す図面である。
例えば、“KBS”という単語を認識するために観測確率演算ブロック112を通じて夫々の音素“ク”、“エ”、“イ”、“ブ”、“イ”、“イ”、“エ”、そして“ス”という8つの音素についての観測確率が計算され、ステート・マシン113を通じて各音素の観測確率及びこれらの累積値が最も大きい単語の“KBS”が選択される。
【0038】
一般的に、既存の多くの音声認識製品は前記の機能をソフトウェア(C/C++言語)や機械語で設計し、汎用プロセッサを利用して機能を行う。
さらに他の使用形態は専用ハードウェア(ASIC、ApplicationSpecific Integrated Circuit)で具現して行うこともある。かかる2つの方法は夫々長短がある。ソフトウェアで処理する方式は、演算時間が相対的に長くかかるが、柔軟性が高くて機能変更が容易に可能である。
【0039】
一方、専用ハードウェアで処理する方式は、ソフトウェアで処理する方法に比べて相対的に処理速度が速くて、経済的な電力消耗を示すが、柔軟性がなくて機能変更が不可能である。
従って、機能変更の容易なソフトウェア方式に適すると共に、相対的に処理速度の速いハードウェアを製作すれば望ましい。
【0040】
図4は、ソフトウェア処理方式として汎用プロセッサを使用する場合、各機能を遂行するに所要される演算数を示す。
ここで、演算数は実際の命令語数ではなく、乗算、加算、ログ、指数演算のような演算回数を示す。
図4で分かるように、一般的な音声認識処理に必要な総演算数は約100,000個であり、この中で88.8%が観測確率演算である。
【0041】
表1は、ARMプロセッサを利用して音声認識機能を遂行するに消費される命令語数を表に示したものである。
【表1】
【0042】
表1を参照すれば、音声認識機能を遂行するに必要な全体命令語数は、約3千6百万個であり、このうち約2千2百万の命令語が隠れマルコフモデル検索に使われることが分かる。(表1の1行目のobservation probability演算(HMM)参照)全体の62%を占める。ここで、命令語CYCLE数は実際の命令語数ではなく、乗算、加算、ログ、指数演算のような演算回数を示す。
一番多い命令語が遂行される観測確率の演算部分をハードウェアで構成して演算処理速度を向上させ、消費電力を減少させうる。
観測確率演算を少ない命令語、すなわち、少ないサイクルでも行うことのできる専用装置について説明する。
【0043】
観測確率の計算部分の中で最も演算量の多い確率的な距離の計算式は、次の数式10で表現される。
【数11】
【0044】
ここで、mは、パラメータの平均値を示し、Feature値は、入力された信号から抽出したパラメータ値を意味する。pは、Precision値として分布程度(分散1/σ2)を示し、lw値はLog weightであって、加重値を示す。iは、音素の代表的な類型を表すミクスチュアを示す。Log Weight値は線形領域での加重値計算がログ領域での加重値計算に変換されつつ減算される。
観測確率の計算能力を改善するために、最も演算量の多い確率的な距離の計算を表す数式9から数式10のような演算を1つの命令語で行うことのできる専用装置を提示する。
【0045】
【数12】
【0046】
ここで、p[i][j]は、Precision値であって分布程度(分散、1/σ2)を示し、mean[i][j]は、各音素の平均値、そしてfeature[k][j]は、音素についてのパラメータ値であって、エネルギーとケプストラムとを意味する。数式11で、mean[i][j]−feature[k][j]は、確率的に入力された音素のパラメータが予め定義された代表パラメータとどのくらい差(距離)があるかを表して絶対的な確率的距離を計算するために自乗する。そして、ここに分散を掛け合わせると、客観的な実際距離が予測できる。ここで、代表パラメータ値は数多くの音声データを通じて経験的に得られた数値であって、多様な人から得られた音声データが多ければ多いほど認識率は改善される。
【0047】
しかし、専用装置はハードウェアの制限的な特性、すなわち、データビット(16ビット)の限界を考慮して認識率を最大限に高めるために数式12のような演算を行う。
【数13】
【0048】
ここで、p[i][j]は、式(11)での分散1/σ2とは異なって、分布程度を表す1/σである。分散1/σ2の代りに分布程度1/σを使用する理由は、次の通りである。
数式11によれば、(m[i][j]−feature[i][j]を自乗した結果とp[i][j]とを乗算しているが、数式12によれば、p[i][j]・(m[i][j]−feature[i][j])を演算した結果を自乗している。
数式11によれば、p[i][j]を表現するために自乗する結果と同じ程度のビット解像度が必要であるが、数式12によれば、(m[i][j]−feature[i][j])の結果ほどのビット解像度だけが必要であることを意味する。
【0049】
言い換えれば、16ビットのビット解像度を維持するためには数式11によれば、p[i][j]を表現するために32ビットが必要であるが、数式12によれば、p[i][j]を表現するために16ビットだけが必要である。一方、数式12によれば、p[i][j]・(m[i][j]−feature[i][j])を演算した結果を自乗しているので、結果的に数式9でのように1/σ2を使用したのと類似した効果が得られる。
【0050】
図5は、観測確率の演算装置の構成を示すブロック図である。図5に示す装置は、減算器505、乗算器506、自乗器507、そして、累算器508を具備する。502、503、504、及び509はレジスタを示す。
外部貯蔵装置501は、データベース化された貯蔵装置であって、あらゆる代表音素についてのpresion値、mean値、feature値を貯蔵する。ここで、precision値は分布程度(1/σ)を示し、mean値は各代表音素を表すパラメータ(エネルギーとケプストラム)の平均値、そしてfeature[k][j]は音素についてのパラメータ値でエネルギーとケプストラムとを意味する。
【0051】
図5に示された装置において、まず減算器505を利用してmean値とfreture値との差を求め、その結果は実際距離を求めるために乗算器506を通じて分散程度(1/σ)が乗じられる。この結果は絶対的な差を求めるために自乗器507を通じて自乗を求めて、今までのパラメータとの累積のために加算器508を使用する。
すなわち、数式12に表現される結果を乗算器506で得て、数式9に表現されたΣ演算の結果を累算器508で得る。
【0052】
外部貯蔵装置には、p[i][j]、mean[i][j]、そしてfeature[i][j]が貯蔵され、これらが所定の順序によって順次にレジスタ502、503、504に提供される。所定の順序はi、jが順次に増えるように設定される。
i、jを変えながら、p[i][j]、mean[i][j]、そしてfeature[i][j]が順次にレジスタ502、503、504に提供され、レジスタ509で最終的に累積された観測確率が求められる。
かかる確率の累積計算によって、最も確率的に類似した音素がある場合、その音素は最大値を有する。演算の開始端と終了端のレジスタ502、503、504、509はデータの安定化するために使われる。
【0053】
図5に示す装置において、データのビット解像度はプロセッサの構造によって異なることもあり、ビット数が大きいほど詳細なる計算結果が得られる。しかし、そのようなビット解像度は回路の大きさと関連しているので、認識率を考慮して適切な解像度を選定しなければならない。
【0054】
図6は、ビット解像度の選定についての理解を求めるために示されたものである。ビット解像度の選定についての一例として、図6は16ビット解像度を有するプロセッサについての内部ビット解像度を示した。ここで、各段階の切断過程は16ビットデータ幅の限界によるものであって、極力性能低下を防ぐための選択である。本発明で提示した装置を利用すれば、汎用プロセッサのみを使用する場合に比べて処理速度の側面で多くの改善を果たせる。
feature値及びmean値は夫々4ビットの整数と12ビットの素数とよりなる。これらのfeature値及びmean値を減算器505を通じて減算してやはり4ビットの整数と12ビットの素数よりなる結果値を得る。
【0055】
precision値は7ビットの整数と9ビットの素数とよりなる。precision値及び減算器505の減算結果を乗算器506を通じて乗算し、10ビットの整数と6ビットの素数とよりなる結果値を得る。
乗算器506の結果値を自乗器507を通じて自乗して20ビットの整数と12ビットの素数とよりなる結果値を得、それらを加算器508を通じて加算及びスケール演算して21ビットの整数と11ビットの素数とよりなる結果値を得る。
表2は、一般的に多く使われる隠れマルコフモデルを使用した音声認識アルゴリズムを汎用プロセッサ(ARM Series)で遂行させた場合と本発明で提示した観測確率の計算専用装置を採択した専用プロセッサに遂行させた場合とを比較分析したものである。
【0056】
【表2】
【0057】
表2からもわかるとおり、汎用プロセッサは音声認識機能を遂行するのに約3千6百万サイクルが行わる一方、専用装置を採用した専用プロセッサはその半分である1千5百万サイクルで必要機能が行える。従って、殆どリアルタイムの音声認識処理が可能であり、これは、言い換えれば、低いクロック周波数でも汎用プロセッサと同じ性能を発揮するので、消費電力の側面でも効果を果たせることを意味する。参考に、電力消耗量とクロック周波数との関係は数式13のように示される。
【0058】
【数14】
ここで、Pは電力消耗量であり、Cは回路を構成するキャパシタンス値を示す。fは回路内信号の全体遷移程度を示すが、その大部分をクロック速度が左右する。Vは供給電圧である。従って、クロック速度を半分に落とすと、理論的には電力消耗量も半分に減ることになる。
【0059】
前述した装置は、図5でのように外部貯蔵装置501に予め経験的な方法によって得た類型別の代表音素の平均パラメータと遷移確率値、そして、分布程度と新しく入力された音声から抽出したパラメータを貯蔵しておく。かかるデータは、一旦専用装置内部のレジスタ502、503、504に貯蔵されるが、これは外部のデータ変化による信号変化を最小化するためであって電力消耗と深い関係がある。内部レジスタに貯蔵されたデータのうち入力された音声から抽出されたパラメータと予め貯蔵された平均パラメータとはその差を求めるために減算器505を通じて減算する。
【0060】
この結果は、乗算器506を通じて分散程度(1/σ)を表すPrecisionと乗じられ、再び自乗器507を通じて実質的な確率的距離を計算する。この数値は単語を形成する多くの音声パラメータフレームの中、時間的に現在のパラメータだけを計算したのであって、加算器508を通じて今まで計算された確率的な距離と加算されて累積されねばならない。累積演算のために加算器508と一緒にレジスタ509が使われてレジスタに貯蔵されたデータは次の演算のために加算器508に提供される。
【0061】
かかるレジスタは累積演算のためだけではなく、信号遷移の最小化のためにも使われねばならない。以上の過程は予め定められた各音素について同じく適用されて各音素別/状態別に該当貯蔵場所にその数値が貯蔵される。結果的に入力された単語についてのあらゆるパラメータについての演算が完了すれば、各単語の音素別に累積された数値のうち最大値が確率的に最も類似した単語として認識されうる。このように累積された数値を利用して最終認識された単語を判断するのは既存プロセッサで行う。
【0062】
図7は、図5の観測確率の演算装置の適用例を示すために示されたものである。図7に示された装置は話者独立の音声認識の専用プロセッサであって3バスシステム方式を使用する。本発明による観測確率の演算装置は、図7に示されたHMMモジュール728の内部に具現され、各構成モジュールはデータのための3つのバス(2つの読み取りバスと1つの書き込みバス)動作コードのための2つのOPcodeバスを共有する。
【0063】
図7において、制御部702は汎用のプロセッサを意味し、REG FILE 704はレジスタファイル機能を遂行するモジュールを意味し、ALU706はアリスマティックロジックを遂行するモジュールを意味し、MAC708は乗加算機能を遂行することを意味して、B SHIFTER 710はバレルシフト機能を遂行するモジュールを意味して、FFT 712はFFT演算を遂行するモジュールを意味して、SQRT 714は自乗根演算機能を遂行するモジュールを意味して、TIMER 716はタイマー機能を遂行するモジュールを示して、CLKGEN 718はクロック発生機能を遂行するモジュールを示す。CLKGEN 718は図7に示す装置の内部あるいは外部から提供されるクロック信号を通させて図7に示された各構成モジュールに提供されるクロック信号を発生し、特に、低電力消耗のためにクロック速度を調整する。
【0064】
同じく、プログラムメモリ(PMEM、720)、プログラムメモリインタフェース(PMIF、722)、外部インタフェース(EXIF、724)、メモリインタフェース(MEMIF、726)、観測確率演算(HMM、728)、直列インタフェース(SIF、730)、非同期式直列インタフェース(UART、732)、汎用インタフェース(GPIO、734)、コーデックインタフェース(CODEC IF、736)、そして、コーデック(CODEC、740)と表記されたものは夫々プログラムメモリ、プログラムメモリインタフェース、外部インタフェース、メモリインタフェース、隠れマルコフモデル演算、同期式直列インタフェース、非同期式直列インタフェース、汎用入出力、コーデックインタフェース、そして、コーデック機能を遂行するモジュールである。特に、HMM 728は、かかる特徴値から予め定められた隠れマルコフモデルを利用した単語探索作業が行える。
【0065】
また、外部バス752は、外部メモリとのデータインタフェースのための外部バスである。EXIF 724は、DMA(Dynamic Memory Access)を支援する。特に、HMM 728は観測確率演算のための図5の装置を含む。
各構成要素内部の制御器(デコーダ、図示せず)は命令バス(OPcode bus)748、750を通じて命令を受け取ってデコーディングして必要な動作を遂行する。すなわち、HMM 728内部の制御器は制御用命令バス(OPcode bus0、1)を通じて命令を受け取ってデコーディングして図5に図示されたような観測確率の演算装置を制御して観測確率演算を遂行する。一方、データは2つの読み取りバス742、744を通じて提供されたり、1つの書き込みバス746を通じて出力される。
【0066】
図7に示された装置はPMEM 720を具備し、プログラムはEXIF 724を通じてPMEM 720にロードされる。
HMM 728は図7に示された制御部 702から提供される制御命令を2つの命令バス748、750を通じて伝送し、内部の制御部(図示せず)が受信された制御命令をデコーディングし、図5に図示されたように観測確率の演算装置を制御して観測確率演算を遂行させる。
【0067】
図8は、図7に示された装置において、制御命令及びデータを受信する過程を図式的に示すブロック図である。
制御部702は直接制御命令をデコーディングして指定された動作を遂行するよう制御するか、命令バス748、750を利用して各構成モジュールの動作を制御する。各構成モジュールは命令バス748、750及び読み取りバスA、Bを共有する。
【0068】
制御部702が直接制御する場合、PHEM720から制御命令をフェッチしてそれをデコーディングし、制御動作に必要なオペランド(操作の対象になるデータ)を読み取ってREG FILE604に貯蔵する。以後、制御動作が制御論理である場合には、ALU706を、乗算及び累算である場合には、MAC708を、バレルシフト動作である場合には、B SHIFTER 710を、自乗根の演算である場合には、SQRT714などを利用して制御動作を遂行し、その結果値を再びレジスタファイル704に貯蔵する。
制御部702が直接制御しない場合には、命令バス748、750を利用する。制御部702はPHEM 720からフェッチした制御命令をデコーディングする代わりに命令バス748、750の順にフェッチした制御命令を印加する。
【0069】
命令バス748と750とには同じ制御命令が1クロックおきに順に印加される。構成モジュールは命令バス748に制御命令が印加されれば、制御命令を判断して、自体に該当モジュールに当たる場合、これをデコーディングして制御命令によって指定された制御動作を遂行する待機状態となる。このために構成モジュールは制御命令を読み取るためのデコーダを具備する。1クロックの後、命令バス750に同じ制御命令が印加されれば、この時にはじめて指定された制御命令に該当する動作を遂行するための制御を遂行する。各命令バス748、750に印加される制御コードの如何を表すためにRT及びET信号線を割り当てる。
【0070】
図9は、図7に示す装置において、制御命令及びデータを受信する過程を示すタイミング図である。
図9において、最上位の信号はクロック信号CLKであり、順に命令バス748に印加される制御命令、命令バス750に印加される制御命令、RT信号、ET信号、読み取りバスAに印加されるデータ、そして、読み取りバスBに印加されるデータである。
【0071】
命令バス748に制御命令が印加され、RT信号によってイネーブルされれば、図7の構成モジュールのうちいずれか1つがこれを認識し、これをデコーディングして待機状態となる。以後、命令バス750に同じ制御命令が印加され、ET信号によってイネーブルされれば、該当構成モジュールが制御命令によって指定した動作を遂行する。具体的に読み取りバスA及び読み取りバスBに印加されたデータを受け入れて指定された動作を遂行し、書き込みバスを通じて結果値を出力する。
【0072】
図10は、隠れマルコフアルゴリズムの遂行時、夫々の関数が占める演算量を表で示したものである。
図10を参照すれば、隠れマルコフアルゴリズムは複数の演算関数で処理されるが、その中、gauss_outPという関数の演算量が一番多いことが分かる。従って、本発明は、特に、gauss_outP関数の処理をハードウェアで構成して処理速度を速める。
数式8は、gauss_outPアルゴリズムを簡単に示したものである。数式8のように、このアルゴリズムは減算、自乗、乗算、そしてその和よりなる。従って、汎用プロセスでこのアルゴリズムを処理しようとするなら、処理時間が相当かかる。
【0073】
図11は、数式8の最初の式のアルゴリズムを示す。
図11は、C言語で製作されたアルゴリズムである。図11のアルゴリズムはxからMean値を減算し、減算された結果を自乗した後、var値を乗じる演算を遂行する。そして、かかる演算を13回繰り返して13回計算された数値を足し続ける。ここで、xは数式8の最初の式のFeature値を意味する。
数式8の二番目の式は最初の式から出た結果よりGconst値という加重値を減算する。数式8の二番目の式には、加重値を加えると表示されている。しかし、ここで加重値は元々負数値であり、よってdbx値は数式8の最初の式から出た結果より加重値を減算することによって求められる。
かかる計算が終わる都度、dbx値という数値が生じる。数式8の三番目の式の意味は数式8の二番目の式がミクスチュアの数だけ繰り返されて計算され、計算が済んだ後に生じたあらゆるdbx値を比較して一番大きい数を求める。
【0074】
図12は、本発明による観測確率の演算装置の構成を示すブロック図である。
図12を参照すれば、本発明による観測確率の演算装置1200は第1乃至第3演算部1210、1220、1230及び比較部1240を具備する。
第1演算部1210はパラメータから平均を減算し、前記減算結果と分布程度とを乗算する。従って、第1演算部1210は減算器(図示せず)と乗算器(図示せず)とを具備する。
ここで、パラメータは、入力された音声信号から抽出された音素についてのエネルギーとケプストラムとを意味し、平均は代表音素から抽出されたパラメータの平均値であり、分布程度は平均の分散値である。
【0075】
第1演算部1210に入力されるパラメータと平均とは夫々mビットである。両方の減算結果に実際距離を求めるために分布程度が乗じられる。第1演算部1210の出力は直ちに第2演算部1220に印加されず、第1演算レジスタ1250に貯蔵された後、次のクロック信号に同期されて第2演算部1220に印加される。
それにより、第1演算部1210の出力が第2演算部1220に直接入力されることによって、第1演算部1210と第2演算部1220との総演算遂行時間によりクロック信号の周期が制限される問題を防ぐことができる。
【0076】
第2演算部1220は第1演算部1210の出力を自乗し、前記自乗した結果をN回累算する。従って、第2演算部1220は自乗器(図示せず)と累算器(図示せず)とを具備する。
第2演算部1220の出力は第3演算部1230に直接印加されず、第2演算レジスタ1255に貯蔵された後、次のクロック信号に同期されて第3演算部1230に印加される。第2演算レジスタ1255は自乗した結果を第2演算部1220にN回フィードバックさせる。それによってN回の累算が遂行される。図6のアルゴリズムを参照すれば、Nは13であることが分かる。
第1演算部1210及び第2演算部1220は隠れマルコフアルゴリズムの観測確率演算のための数式8の最初の演算を遂行する。ここで、iは音素の代表的な類型を表す因数であり、jはパラメータの個数を表す因数であり、前記varは分布程度を2で割った数値である。
【0077】
数式8の最初の式ではパラメータと平均との減算値を自乗してからvar値を乗じる。しかし、第1演算部1210及び第2演算部1220では演算速度を速めるために、パラメータと平均との減算値に先立って分布程度を乗じてその結果を自乗する。
従って、第1演算部1210に入力される分布程度は√2var値を有せねばならない。それにより、第2演算部1220で自乗をしても数式8の最初の式と同一結果が出る。
数式8の最初の式で表現されたΣ演算の結果は第2演算部1220の出力から得ることができる。
【0078】
本発明による観測確率の演算装置1200は外部貯蔵装置(図示せず)にパラメータ、平均、分布程度及び加重値を貯蔵し、演算のためにそれらを呼び出す方法を使用しない。本発明による観測確率の演算装置1200はパラメータ、平均、分布程度及び加重値を夫々貯蔵するレジスタ1275、1280、1285、1290を内部に具備する。従って、演算処理速度をさらに早く向上させうる。
【0079】
第3演算部1230は第2演算部1220の出力から所定の加重値を減算する。従って、第3演算部1230は内部に減算器(図示せず)を具備する。第3演算部1230は数式8の2番目の式の演算を遂行する。
本来の加重値は負数であるが、レジスタ1290には正数の加重値を貯蔵する。このようにすることで、第3演算部1230の減算器(図示せず)によって数式8の2番目の式が遂行されうる。
【0080】
第3演算部1230の出力は平均と入力された音声信号から抽出した前記パラメータとの間の確率的な距離である。第3演算部1230の出力は直ちに比較部1240に印加されずに第3演算レジスタ1260に貯蔵された後、次のクロック信号に同期されて比較部1240に印加される。
比較部1240は第3演算部1230の出力を貯蔵し、貯蔵された複数の第3演算部1230の出力のうち大きい順番にL個を抽出して貯蔵する。比較部1240は数式8の3番目の式の演算を遂行する。Lは3でありうる。
【0081】
さらに詳しく説明すれば、比較部1240は第3演算部1230の出力のうち大きい順にL個を貯蔵する第1乃至第LレジスタMAX1、MAX2、MAX3及び第1乃至第LレジスタMAX1、MAX2、MAX3に貯蔵された第3演算部1230の出力が発生された順序を貯蔵する第1乃至第LインデックスレジスタIND1、IND2、IND3を具備する。
第1乃至第3レジスタMAX1、MAX2、MAX3は最初には第3演算部1230の出力が有しうる数値のうち最小値に設定される。そして、一番最初に入力される第3演算部1230の出力は第2レジスタMAX2に貯蔵された数値と比較される。
【0082】
第3演算部1230の出力が第2レジスタMAX2に貯蔵された数値より大きければ、第3演算部1230の出力は第1レジスタMAX1に貯蔵された数値と比較される。第3演算部1230の出力が第1レジスタMAX1に貯蔵された数値より大きければ、第3演算部1230の出力は第1レジスタMAX1に貯蔵される。そして、元々第1レジスタMAX1に貯蔵された数値は第2レジスタMAX2に貯蔵され、第2レジスタMAX2に貯蔵された数値は第3レジスタMAX3に貯蔵される。
【0083】
さらに第3演算部1230の新しい出力が比較部1240に印加されれれば、第3演算部1230の出力は第2レジスタMAX2に貯蔵された数値と比較される。第3演算部1230の出力が第2レジスタMAX2に貯蔵された数値より大きければ、第3演算部1230の出力は第1レジスタMAX1に貯蔵された数値と比較される。
第3演算部1230の出力が第1レジスタMAX1に貯蔵された数値より大きければ、第3演算部1230の出力は第1レジスタMAX1に貯蔵される。そして、第1レジスタMAX1に貯蔵された以前の第3演算部1230の出力は第2レジスタMAX2に貯蔵され、第2レジスタMAX2に貯蔵された数値は第3レジスタMAX3に貯蔵される。
【0084】
このような方法が繰り返されるにつれて、第1乃至第3レジスタMAX1、MAX2、MAX3には第3演算部1230の出力の大きい順番に貯蔵される。そして、第3演算部1230の出力が発生した順序が第1乃至第3インデックスレジスタIND1、IND2、IND3に貯蔵される。
観測確率の演算装置1200は第3演算部1230及び比較部1240を具備することによって音声信号から抽出されたケプストラムとデルタケプストラムとについての確率計算後に計算された確率値について直ちに比較及び選択できる長所がある。
【0085】
本発明による観測確率の演算装置1200の長所を説明する。
第一に、演算量の減少による動作速度を向上させることができる。隠れマルコフアルゴリズムによってdbx値の最大値を求める部分(数式8の3番目の式)は相当な量の演算量が必要である。
例えば、数式8の二番目の式から100個のdbx値が発生する場合に、このうち一番大きい数の3つを探すために、従来にはdbx値を外部メモリで100回持ち込み、100回以上の減算を経なければならない。しかし、本発明では観測確率演算を行うと同時に第3演算部1230と比較部1240とによって減算と比較演算とが行われるので、不必要なサイクル数がなくせる。
【0086】
100個のdbx値を得るためには、アセンブラ命令語の数だけを考慮すれば、1550個の命令語が必要であり、減算と比較選択演算にも1900個の命令語が必要である。音声認識装置は、リアルタイム処理で結果が生じなければならないので、処理速度が相当重要である。
従って、減算と比較選択演算部分を第3演算部1230と比較部1240のようなハードウェアで構成することによって、不要な演算数を大幅に減らしてリアルタイム処理に適した演算速度が保証できる。
【0087】
第二に、消費電力を減少させることができる。バッテリーを使用する携帯用製品ではバッテリーの寿命が重要である。バッテリーの寿命は演算時間と関係している。演算時間が長くなると不要な部分で継続的に電力を消耗するためである。
例えば、クロック信号はあらゆる演算装置に入力されるので、必要な演算が終わるまであらゆる部分に印加されねばならない。それゆえに、演算数の減少によって電力消費を減らすことができる。
【0088】
第三に、メモリの使用量を減らすことができる。比較部1240がない場合には100個のdbxをメモリに全て貯蔵せねばならない。32bitの長さの100個のデータを貯蔵するなら、3200bitのメモリが必要である。現在、音声認識装置が装着されるチップの内部メモリの使用量は限界があるので、チップの外部にメモリを追加せねばならない。
新しいメモリの追加は、音声認識装置の電力消費及び処理速度上に相当な影響を及ぼす。従って、本発明はかかる短所を解決するために、観測確率の計算が完了すれば、1サイクルおきに3つの最大値がレジスタMAX1、MAX2、MAX3に貯蔵されるように設計された。
【0089】
第四に、音声認識装置の面積増加を狭めることができる。本発明の比較部1240のゲート数は16212であり、この面積は音声認識装置の19300個のゲートの10%も占めない。しかし、追加的なメモリの増加ははるかに大きい面積を占めるので、相当な面積上の利得が見られる。
【0090】
以上のように図面と明細書で最適の実施例が開示された。ここで、特定な用語が使われたが、これは単に本発明を説明するための目的で使われており、意味限定や特許請求の範囲に記載された本発明の範囲を制限するために使われたものではない。従って、本技術分野の当業者であればこれより多様な変形及び均等な他の実施例が可能であることが理解できるであろう。従って、本発明の真の技術的な保護範囲は特許請求の範囲の技術的な思想によって定められねばならない。
【0091】
【発明の効果】
以上述べたように、本発明による観測確率の演算装置は隠れマルコフモデルアルゴリズムのうち、最も多い演算量を占める観測確率演算を遂行する専用のハードウェア装置を提供することによって、音声認識装置の処理速度を速めて電力消費を減らす長所がある。
【図面の簡単な説明】
【図1】一般的な音声認識システムの構成を示すブロック図である。
【図2】任意の音節についての状態列を求める方法を示す図面である。
【図3】単語の認識についての過程を図式的に示す図面である。
【図4】各機能を遂行するのに所要される演算数を示す表。
【図5】観測確率の演算装置の構成を示すブロック図である。
【図6】ビット解像度の選定についての理解のために図示された図面である。
【図7】図5の観測確率の演算装置の適用例を示す図面である。
【図8】制御命令及びデータを受信する過程を図式的に示すブロック図である。
【図9】制御命令及びデータを受信する過程を図式的に示すタイミング図である。
【図10】隠れマルコフアルゴリズムの遂行時、夫々の関数が占める演算量を示した表。
【図11】数式8の最初のアルゴリズムを示す。
【図12】本発明による観測確率の演算装置の構成を示すブロック図である。
Claims (19)
- 入力された音声信号から抽出したパラメータ値から代表音素から抽出されたパラメータ値の平均値を減算し、前記減算結果と前記平均値の分散を乗算して第1出力を出力する第1演算部と、
前記第1出力を自乗演算し、前記自乗演算した結果をN回累算して第2出力を出力する第2演算部と、
前記第2出力で所定の加重値を減算して第3出力を出力する第3演算部と、
前記第3出力を貯蔵し、貯蔵された複数の第3出力のうち大きい順番にL個を抽出して貯蔵する比較部と、を具備することを特徴とする観測確率の演算装置。 - 前記比較部は、
前記第3演算部の出力のうち大きい順番にL個を貯蔵する第1乃至第Lレジスタと、
前記第1乃至第Lレジスタに貯蔵された第3演算部の出力が生じた順序を貯蔵する第1乃至第Lインデックスレジスタと、を具備することを特徴とする請求項1に記載の観測確率の演算装置。 - 前記Lは、
3であることを特徴とする請求項2に記載の観測確率の演算装置。 - 前記第1出力を貯蔵した後、前記第2演算部に出力する第1演算レジスタと、
前記第2出力を貯蔵した後、前記第3演算部に出力する第2演算レジスタと、
前記第3出力を貯蔵した後、前記比較部に出力する第3演算レジスタと、をさらに具備することを特徴とする請求項1に記載の観測確率の演算装置。 - 前記パラメータ値、前記平均値、前記分散及び前記加重値を夫々貯蔵するレジスタをさらに具備することを特徴とする請求項1に記載の観測確率の演算装置。
- 前記第1演算部に入力される前記分散は、
√2varであることを特徴とする請求項6に記載の観測確率の演算装置。 - 前記第3出力は、
平均値と入力された音声信号とから抽出した前記パラメータの間の確率的な距離であることを特徴とする請求項1に記載の観測確率の演算装置。 - 前記パラメータ値と前記平均値とは、
mビットであることを特徴とする請求項1に記載の観測確率の演算装置。 - 前記Nは、
13であることを特徴とする請求項1に記載の観測確率の演算装置。 - 入力音声信号から抽出された第2パラメータ値から代表音素から抽出された第1パラメータの平均値を減算する段階と、
第1出力を得るために前記減算結果に前記平均値の分散を乗算する段階と、
前記第1出力を自乗する段階と、
観測確率値を得るために前記自乗された第1出力を累算する段階と、を具備することを特徴とする観測確率の演算方法。 - 前記第1パラメータ値は、
入力された音声信号の代表音素であることを特徴とする請求項11に記載の観測確率の演算方法。 - 前記観測確率値から所定の加重値を減算して第3出力を出力することを特徴とする請求項11に記載の観測確率の演算方法。
- 前記第3出力は前記平均値と前記抽出された第2パラメータ値との間の確率的な距離であり、
前記観測確率値は前記確率的な距離が近くなるほど増加することを特徴とする請求項13に記載の観測確率の演算方法。 - 前記第3出力からL個の出力を抽出する段階と、
前記L個の出力のうち検討された観測確率値として大きい順番に貯蔵する段階と、を具備することを特徴とする請求項13に記載の観測確率の演算方法。 - 前記検討された観測確率値は、
音節の連続が前記入力音声信号として認識される最も高い確率を有することを特徴とする請求項15に記載の観測確率の演算方法。 - 前記観測確率値は、
蓄積された確率であって、前記確率は音節の連続を表すことを特徴とする請求項11に記載の観測確率の演算方法。 - 入力音声信号から抽出された第2パラメータ値から代表音素から抽出された第1パラメータの平均値を減算する段階と、
第1出力を得るために前記減算結果に前記平均値の分散を乗算する段階と、
前記第1出力を自乗する段階と、
第2出力を得るために前記自乗された第1出力を累算する段階と、
前記第2出力から所定の加重値を減算して第3出力を出力する段階と、
前記第3出力からL個の出力を抽出する段階と、
前記L個の出力のうち大きい順番に貯蔵し、前記貯蔵されたL個の出力は認識された音声信号に対応することを特徴とする音声信号の認識方法。 - 請求項1記載の観測確率の演算装置を具備する音声認識装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0037052A KR100464420B1 (ko) | 2002-06-28 | 2002-06-28 | 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치 |
KR2002-037052 | 2002-06-28 | ||
KR10-2003-0012810A KR100486307B1 (ko) | 2003-02-28 | 2003-02-28 | 은닉 마코프 모델 알고리즘의 관측 확률 연산 장치 |
KR2003-012810 | 2003-02-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004038163A JP2004038163A (ja) | 2004-02-05 |
JP4851684B2 true JP4851684B2 (ja) | 2012-01-11 |
Family
ID=27667606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003185611A Expired - Fee Related JP4851684B2 (ja) | 2002-06-28 | 2003-06-27 | 隠れマルコフモデルアルゴリズムの観測確率の演算装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7356466B2 (ja) |
JP (1) | JP4851684B2 (ja) |
CN (1) | CN100359507C (ja) |
DE (1) | DE10329618B4 (ja) |
GB (1) | GB2391675B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4298672B2 (ja) * | 2005-04-11 | 2009-07-22 | キヤノン株式会社 | 混合分布hmmの状態の出力確率計算方法および装置 |
US9633654B2 (en) * | 2011-12-06 | 2017-04-25 | Intel Corporation | Low power voice detection |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4227177A (en) | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
US4227176A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
JPS62220996A (ja) * | 1986-03-18 | 1987-09-29 | インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン | 音声認識方法及び装置 |
DE3711342A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen zusammenhaengend gesprochener woerter |
JPH02195400A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声認識装置 |
CN1055254A (zh) * | 1990-03-28 | 1991-10-09 | 曹洪 | 声控打字系统 |
US5544257A (en) | 1992-01-08 | 1996-08-06 | International Business Machines Corporation | Continuous parameter hidden Markov model approach to automatic handwriting recognition |
SG93215A1 (en) * | 1993-03-25 | 2002-12-17 | British Telecomm | Speech recognition |
CN1112269A (zh) * | 1994-05-20 | 1995-11-22 | 北京超凡电子科技有限公司 | 基于汉语发音特点的hmm语音识别技术 |
JP3427500B2 (ja) * | 1994-08-09 | 2003-07-14 | 松下電器産業株式会社 | 帰属度算出装置およびhmm装置 |
US5790754A (en) * | 1994-10-21 | 1998-08-04 | Sensory Circuits, Inc. | Speech recognition apparatus for consumer electronic applications |
US5742928A (en) * | 1994-10-28 | 1998-04-21 | Mitsubishi Denki Kabushiki Kaisha | Apparatus and method for speech recognition in the presence of unnatural speech effects |
WO1996027872A1 (en) * | 1995-03-07 | 1996-09-12 | British Telecommunications Public Limited Company | Speech recognition |
JP3414558B2 (ja) * | 1995-08-25 | 2003-06-09 | 沖電気工業株式会社 | 最大相関値タイミング推定回路及び受信装置 |
GB2305288A (en) | 1995-09-15 | 1997-04-02 | Ibm | Speech recognition system |
FR2748342B1 (fr) * | 1996-05-06 | 1998-07-17 | France Telecom | Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal |
JP2001516904A (ja) * | 1997-09-18 | 2001-10-02 | シーメンス アクチエンゲゼルシヤフト | 音声言語中のキーワードの認識方法 |
US6125345A (en) * | 1997-09-19 | 2000-09-26 | At&T Corporation | Method and apparatus for discriminative utterance verification using multiple confidence measures |
KR19990059297A (ko) * | 1997-12-30 | 1999-07-26 | 서평원 | 음성 인식 장치 및 방법 |
DE69941499D1 (de) * | 1998-10-09 | 2009-11-12 | Sony Corp | Vorrichtungen und Verfahren zum Lernen und Anwenden eines Abstand-Transition-Modelles |
JP3973789B2 (ja) * | 1999-03-09 | 2007-09-12 | 三菱電機株式会社 | 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体 |
JP4297602B2 (ja) * | 2000-09-18 | 2009-07-15 | パイオニア株式会社 | 音声認識システム |
-
2003
- 2003-06-20 US US10/465,556 patent/US7356466B2/en active Active
- 2003-06-26 DE DE10329618A patent/DE10329618B4/de not_active Expired - Lifetime
- 2003-06-26 GB GB0314977A patent/GB2391675B/en not_active Expired - Lifetime
- 2003-06-27 JP JP2003185611A patent/JP4851684B2/ja not_active Expired - Fee Related
- 2003-06-28 CN CNB031546188A patent/CN100359507C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CN100359507C (zh) | 2008-01-02 |
US20040002861A1 (en) | 2004-01-01 |
DE10329618B4 (de) | 2005-12-22 |
CN1487433A (zh) | 2004-04-07 |
GB0314977D0 (en) | 2003-07-30 |
JP2004038163A (ja) | 2004-02-05 |
GB2391675B (en) | 2004-08-18 |
DE10329618A1 (de) | 2004-01-22 |
GB2391675A (en) | 2004-02-11 |
US7356466B2 (en) | 2008-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5937384A (en) | Method and system for speech recognition using continuous density hidden Markov models | |
US10665222B2 (en) | Method and system of temporal-domain feature extraction for automatic speech recognition | |
CN102013253B (zh) | 基于语音单元语速的差异的语音识别方法及语音识别系统 | |
US7139707B2 (en) | Method and system for real-time speech recognition | |
US20220262352A1 (en) | Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation | |
CN109036381A (zh) | 语音处理方法及装置、计算机装置及可读存储介质 | |
WO2013011397A1 (en) | Statistical enhancement of speech output from statistical text-to-speech synthesis system | |
US20040002862A1 (en) | Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device | |
EP0844601A2 (en) | Reduction of search space in a speech recognition system | |
CA2596126A1 (en) | Speech recognition by statistical language using square-root discounting | |
Melnikoff et al. | Speech recognition on an FPGA using discrete and continuous hidden Markov models | |
Yuan et al. | Speech recognition on DSP: issues on computational efficiency and performance analysis | |
JP4851684B2 (ja) | 隠れマルコフモデルアルゴリズムの観測確率の演算装置 | |
Ludusan et al. | Automatic syllable segmentation using broad phonetic class information | |
KR100464420B1 (ko) | 은닉 마코프 모델 탐색을 위한 관측 확률 연산 장치 | |
Viszlay et al. | Alternative phonetic class definition in linear discriminant analysis of speech | |
KR100486307B1 (ko) | 은닉 마코프 모델 알고리즘의 관측 확률 연산 장치 | |
Tun et al. | A speech recognition system for Myanmar digits | |
TWI409802B (zh) | 音頻特徵處理方法及其裝置 | |
Trivedi | A survey on English digit speech recognition using HMM | |
Tan et al. | Fixed-point arithmetic | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
Nouza | Strategies for developing a real-time continuous speech recognition system for czech language | |
CN113506561B (zh) | 文本拼音的转换方法及装置、存储介质及电子设备 | |
EP1369847A1 (en) | Speech recognition method and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060404 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4851684 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141028 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |