JP2005031697A

JP2005031697A - 音声認識用マイコンデバイスおよびコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2005031697A
Application number: JP2004277234A
Authority: JP
Inventors: Akio Amano; 明雄天野; Toshiyuki Odaka; 俊之小高; Yasunari Obuchi; 康成大淵
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2004-09-24
Filing date: 2004-09-24
Publication date: 2005-02-03

Abstract

【課題】処理量が少なく認識精度の劣化のない大語彙の音声認識の実現。
【解決手段】音声入力手段１から入力された音声を、音声分析手段２で分析して特徴ベクトルの時系列を出力し、音声検出手段３で音声区間を判断する。音響照合手段４において、該特徴ベクトルの時系列と、標準パタン格納手段５に格納されている音声基本単位に対する標準パタンを照合し、単語評価手段６において、前記照合結果に基づいて認識対象を評価する。音響照合手段４では、各標準パタンを前記入力音声の特徴ベクトル時系列の全区間にわたって照合して各標準パタン毎に照合結果を時系列として求める。単語評価手段６では、前記時系列として得られた各標準パタン毎の照合結果と認識対象語の単語を音声基本単位の並びとして記述する単語辞書７の情報に基づいて各単語を評価し、前記評価結果に従って認識結果を求める。
【選択図】図１

Description

本発明は、音節や音素（子音，母音）等の音声言語表現上の基本的な単位を標準パタンとして用いるような音声認識技術に係り、特に、標準パタンが特徴ベクトルの出現確率分布で構成されるような音声認識において大語彙の音声認識を少ない処理量で実現するようにした単語／文音声認識装置，そのためのマイコンデバイス，および音声認識方法，ならびにその認識方法を記録したコンピュータで読取り可能な記録媒体に関する。

音声認識装置、特に標準パタンが特徴ベクトルの出現確率分布で構成されるような音声認識装置では、確率計算が認識処理の大部分を占める。通常の音声認識手法では前記確率計算の回数は認識対象となる単語の語数に比例し、大語彙の音声認識の場合には膨大な処理量が必要となり、実時間音声認識を実現するために大がかりなハードウェア構成が必要となっていた。
このような音声認識に必要な膨大な処理量を削減する方法としては、従来からいくつかの方法が提案されている。以下代表的な処理量削減手法を説明する。

第１の従来技術として非特許文献１に記載の「ビームサーチ」呼ばれる技術がある。この「ビームサーチ」とは、認識対象の候補の内、計算過程で可能性が低いと判断された候補について、途中で計算を打ち切るようにした手法である。認識対象候補の内、可能性の高い方から一定個数の候補についてのみ計算をするようなやり方や、認識計算に対して閾値を設定し、閾値以上の候補についてのみ計算をするやり方などがある。いずれの方法にしても、認識候補全体に対して計算を行なうのに対して一定の比率で計算が削減される。

なお、途中で計算を打ち切る「ビームサーチ」に対して、全ての候補に対して最後まで計算をする手法が「フルサーチ」と呼ばれる技術である。「フルサーチ」の場合、全ての候補に対して最後まで計算をするので最適解が得られることが保証される。計算の途中過程で可能性が低いと判断された候補でも、最後まで計算を続けると第１位の正解となる場合もあり、途中で計算を打ち切る「ビームサーチ」の場合には最適解が保証されない。

第２の従来技術として、例えば非特許文献２に記載のように、まず音響レベルでの処理を行なって音素あるいは音節認識結果を求め、この結果に対して言語処理を施して最終的な認識結果を得るような例がある。
この例では、音素や音節の単位での認識を行い、その結果を音素ラティスや音節ラティスといった、音素単位や音節単位での複数仮説として求め、音素ラティスや音節ラティスを単語辞書と照合し認識結果を求める。ここで行なう照合は記号レベルでの照合であり確率計算などを必要とする音響レベルでの照合処理に比べると処理量は大幅に少なくてすむ。本手法によれば、音響照合処理は音素あるいは音節の数だけで済み大幅な計算量削減ができる。しかしながら、音響照合レベルで判断を下してしまうため、音素ラティスや音節ラティスに正解候補が含まれない場合には、辞書照合レベルではどのような処理を施しても正解を得ることができない。

電子情報通信学会論文誌ＤＶｏｌ．Ｊ７１−D Ｎｏ．９9 １９８８年９月ｐ．１６５０−１６５９第16回応用情報学研究センター・シンポジウム「音声認識の現状と将来」東北大応用情報学研究センター，’９０．５・２９−３０

上述したように、上記第１の従来技術は、ある一定の比率で処理量を削減することができるという利点があるが、認識対象の語数に比例して音響照合処理が増加してしまうという問題点がある。また、上記第２の従来技術は、音素または音節単位で認識結果を求めてしまうため、音響照合処理の処理量を一定の処理量に抑えることができるという利点があるが、音響処理で音素単位あるいは音節単位に結果を求めてしまうため、ここで候補から落ちた仮説に対しては最終結果が得られないという問題点がある。

本発明の目的は、上記問題点を解消し、認識対象の全仮説に対して最終的な評価結果が得られ、かつ音響照合処理量が認識対象の語数に比例せず、一定の処理量で抑えられるような、処理量が小さくかつ認識精度の劣化の少ない単語音声認識装置や文音声認識装置，そのためのマイコンデバイス，単語や文の音声認識方法，ならびに、該認識方法を記録したコンピュータで読取り可能な記録媒体を提供することにある。

上記目的を達成するために、本発明の単語音声認識は、音節あるいは音節連鎖，または音素等の音声基本単位に対する標準パタンを入力音声の特徴ベクトル時系列の全区間にわたって照合して各標準パタン毎に照合結果を時系列として求め、音節あるいは音節連鎖，または音素等の音声基本単位の並びとして記述された単語辞書と前記時系列として得られた各標準パタン毎の照合結果に基づいて各単語を評価して認識結果を求めるようにしたものである。

また、本発明の文音声認識は、さらに認識対象の文を単語の並びとして記述する文法を格納しておき、各標準パタン毎の照合結果と単語辞書と前記文法に基づいて各文を評価して認識結果を求めるようにしたものである。

さらに、本発明のマイコンデバイスは、上記認識するために必要な手段を半導体チップ上に搭載することによって構成され、また、本発明の記憶媒体は、上記単語または文音声認識を行う手順（ステップ）をプログラムコード化して記録したＣＤ−ＲＯＭなどである。

以上本発明によれば、音声認識のために必要となる確率計算回数を大幅に削減でき、認識精度を保ったまま、処理量の少ない大語彙音声認識が可能となる。

以下、図面を用いて本発明の実施例を詳細に説明する。
標準パタンの単位としては音節，音節連鎖，音素など色々な単位を考えることができるが、ここでは簡単のため音節を単位とする場合について説明する。
なお、以下では、主として単語音声認識の場合について詳細に説明するが、本発明は文音声認識に適用することができることはいうまでもない。すなわち、以下の実施例と同様の音節単位の標準パタンと単語辞書の他に、認識対象の文を単語の並びとして記述する文法を用い、音節単位の照合を組み合わせ、該単語辞書と該文法に基づいて連続的に発声された文章や会話文を認識することも可能である。

図１は、本発明の単語音声認識装置の一実施例の機能ブロック図である。入力された音声は、まず、音声入力手段１において電気信号に変換される。電気信号に変換された音声はさらに音声分析手段２において分析され、特徴ベクトルの時系列が出力される。この特徴ベクトルの時系列は音声検出手段３に入力される。音声検出手段３において音声区間であると判断された区間の特徴ベクトルの時系列は音響照合手段４に入力される。音響照合手段４おいて、入力された特徴ベクトルの時系列が標準パタン格納手段５に格納された全ての音節標準パタンと照合され、各音節標準パタン毎に照合結果の時系列が得られる。単語評価手段６では、前記各音節標準パタン毎に照合結果の時系列と単語辞書７に格納された単語辞書情報に基づいて各単語の評価を行ない、各単語毎に評価値を求める。判定手段８では各単語に与えられた評価値に基づいて最終的な認識結果を求め出力する。例えば評価値の高い上位５候補の単語を出力する。

本発明の音声認識装置においては、標準パタンを特徴ベクトル時系列として用意しパタンマッチングにより照合を実現することもできるし、また、標準パタンを特徴ベクトルの出力確率分布の時系列として用意し、確率計算により照合を実現することもできる。ここでは後者の特徴ベクトルの出力確率分布に基づく方法、すなわち、隠れマルコフモデル（ＨＭＭ：Ｈidden Ｍarkov Ｍodels）に基づいて実現する場合について説明する。

まず、ＨＭＭについて図２を用いて簡単に説明する。図２は、本発明で用いる認識基本単位の隠れマルコフモデル（ＨＭＭ）を説明するための図である。
同図において、各円は状態を表わし、矢印は状態間の遷移を表わす。矢印に添えた記号ａ(i,j)は状態ｉから状態ｊへの遷移が生じる確率を表わし、記号ｂ(i,j,ｖ)は状態ｉから状態ｊへの遷移が生じたときに特徴ベクトルｖが出力される確率を表わす。

ＨＭＭは、ｂ(i,j,ｖ)の表現形態により大きく２つの種類、離散出力確率分布型ＨＭＭと連続出力確率分布型ＨＭＭに分かれる。離散出力確率分布型ＨＭＭでは特徴ベクトルｖをベクトル量子化し、その各量子化コード毎に予めｂ(i,j,ｖ)の値を求めてテーブル化し、確率計算をテーブル参照により行なう。連続出力確率型ＨＭＭではある分布関数を仮定し、特徴ベクトルｖを用いて関数計算することにより確率を求める。分布関数としてはガウス分布がよく使われる。ガウス分布を用いる場合ｂ(i,j,ｖ)は式（１）により求められる。

ここで、ｖ，μ：列ベクトル
ｔ：転置
Σ ：行列（共分散行列）

式（１）では確率分布を複数のガウス分布の重み付き和で表す場合を示している。確率分布を単一のガウス分布で表す場合もあるが、不特定話者の音声認識では複数のガウス分布の重み付き和とするのが一般的である。
ｂ(i,j,ｖ)は、特徴ベクトルｖを得たときの各状態遷移に対応する出現確率（あるいは確率密度）であるが、音響照合処理においてはさらに遷移確率ａ(ij)も用いてＨＭＭの各状態の累積の確率計算を行なう。各状態の累積の確率計算は動的計画法、例えば、ビタビアルゴリズムと呼ばれる計算法を用いて効率的に計算できる。式（２）〜（４）にビタビアルゴリズムによる計算の漸化式を示す。
ここで、γ(i,t)は、特徴ベクトル時系列Ｖ1，Ｖ2…Ｖｔを観測し、ＨＭＭの第ｉ状態にいる確率である。

上記式（２）〜（４）の漸化式計算によりＨＭＭの各状態における累積確率γ(i,t)求めることができる。式（１）に従って確率計算を行なう処理から（２）〜（４）の漸化式に従って確率累積計算を行なう処理までの一連の処理が音響照合手段４で行なわれる処理である。
なお標準パタン格納手段５には、図２で説明したようなＨＭＭが音節あるいは音節連鎖，または音素等の音声基本単位毎に格納されており、音響照合手段４で特徴ベクトルｖが得られると標準パタン格納手段５に格納された全てのＨＭＭについて確率累積計算を行なう。

以上の説明はＨＭＭとして連続型のＨＭＭを使い、さらに連続型のＨＭＭを複数のガウス分布の混合で表現する場合についての説明である。しかし、以後の説明ではＨＭＭとして特に半連続型と呼ばれる種類のＨＭＭを使用し、さらに処理量の削減を図った場合について説明する。

図３は、半連続型のＨＭＭを利用した場合の本発明の単語音声認識装置の一実施例の詳細な機能ブロック図である。
図１を用いて本発明の単語音声認識装置の一実施例の機能を説明したが、図３は図１中の音響照合手段４および標準パタン格納手段５を半連続型のＨＭＭに合わせて詳細化したものである。半連続型のＨＭＭを用いる場合、音響照合処理は３段階の処理となる。第１段階が確率計算手段４１における確率計算，第２段階が確率混合手段４２における確率混合，第３段階が確率累積手段４３における確率累積である。第１段階の確率計算手段４１における確率計算は特徴ベクトルｖから式（１）の中の個々のガウス分布に従った確率を求める計算であり、第２段階の確率混合手段４２における確率混合は個々のガウス分布の確率計算結果からこれらを混合してｂ(i,j,ｖ)を求める計算であり、第３段階の確率累積手段４３における確率累積は式（２）〜（４）の漸化式に従って確率累積を行なう処理である。

実際に存在する確率分布の個数は、認識基本単位の個数をＮu，認識基本単位のＨＭＭの状態数をＳu，各状態における分布の個数をＭとすれば、Ｎu×Ｓu×Ｍ個となる。Ｎu＝４００，Ｓu＝２，Ｍ＝３とした場合、実在する確率分布の個数は２４００個となる。半連続型のＨＭＭを使わない場合にはこれら全ての確率分布計算を行なわなければならないが、半連続型ＨＭＭを使う場合には処理量が大幅に削減される。半連続型ＨＭＭでは、これら２４００個ある確率分布のうち類似の確率分布はまとめてしまい、代表的な確率分布の計算だけで済ませるようにする。例えば、上記の２４００個の確率分布を２５６個のクラスタにクラスタリングし、各クラスタ毎に代表分布を作成し、代表分布の計算のみで実際の確率分布の計算を代用する。以上により、半連続型ＨＭＭを使わないと２４００回必要な確率計算を２５６回で済ませるようにする。

代表分布格納手段５１には上記のような代表分布を格納しておく。本実施例では確率分布としてガウス分布を用いるものとし、さらに共分散行列については対角成分のみを持つものとする。代表分布格納手段５１には各ガウス分布の平均ベクトルと共分散行列（対角成分のみ）を格納する。代表分布格納手段５１には図４に示すように、代表分布の番号１０１に対して、対応する平均ベクトル１０２、共分散行列（対角成分のみ）１０３が格納される。これを用いて確率計算手段４１により確率計算する。このような代表分布を持つようにすることにより各ＨＭＭは固有の確率分布をもつ代わりに代表分布の中のいずれかを持つようになる。代表分布の中のいずれかであることを指すためには、その代表分布の番号がわかればよいため、各標準パタンは代表分布の番号を用いて表すようになる。半連続型ＨＭＭ格納手段５２にはこのような代表分布の番号を用いて記述されたＨＭＭが格納される。半連続型ＨＭＭ格納手段５２に格納されている各半連続型ＨＭＭは図５に示すようなものとなる。

確率計算手段４１では代表分布格納手段５１に格納された各代表分布について、音声検出手段３より得られる特徴ベクトルｖを用いて、各代表分布の確率を求める。確率値を求めるにはガウス分布の計算式（５）を用いる。

確率計算手段４１で計算された確率値は図６に示すように、代表分布の番号２０１と、各代表分布に対する確率値２０２が対となって求められる。確率混合手段４２では半連続型ＨＭＭ格納手段５２に格納された全てのＨＭＭの全ての状態について、図６に示された確率計算結果を参照して確率混合を行ない、各状態における出力確率ｂ(i,j,ｖ)を求める。確率累積手段４３では各状態における出力確率ｂ(i,j,ｖ)を受け取り、ビタビアルゴリズムによる計算を実行し、全てのＨＭＭの全ての状態について累積確率を求めて出力する。なお、ここで行なう確率累積計算はワードスポットなどで行なわれる連続ビタビ計算であり、厳密には漸化式も（２）〜（４）の漸化式とは異なる。また、使用するＨＭＭの構造も図５に示したＨＭＭとはわずかに異なる。実際に使用するＨＭＭの構造を図７に示す。図７のＨＭＭが図５のＨＭＭと異なるのは、セルフループを持たない状態が先頭に追加された点である。図５のＨＭＭでは始端固定の照合しかできないが、図７の構造をとることにより始端フリーの照合が行なえるようになる。始端フリーの照合を行なうための漸化式は（２）〜（４）の漸化式とわずかに異なる。

式（６）〜（８）に始端フリーの照合を行なうための漸化式を示す。

（６）式は（２）と同じであるが、（７）式のように各時刻でγ(i,t)に１を与える点、（８）式のように最大値判定を行なう対象が照合経路長Ｌで正規化される点が異なる。

なお、（８）式の最大値選択において、いずれの状態が選択されたかの情報を記憶しておくことにより、照合経路の始点情報を求めることができる。このようにして確率累積手段４３では各ＨＭＭについて図８に示すような音響照合結果時系列を算出する。図８に示すように、音響照合結果時系列には各ＨＭＭのスコアとして各時刻毎３０１に確率累積値３０２が求められ、かつ、そのような確率累積値を与える照合経路の始点情報３０３も与えられる。図８は、ある一つのＨＭＭについての照合結果を示しているが、半連続型ＨＭＭ格納手段５２に格納されている全てのＨＭＭについて同様の照合結果が求められる。図８の時刻ｔの欄を見ると、このＨＭＭは入力音声の時刻２３から時刻ｔまでの間で照合し、スコア０.００９１７４が得られることが判る。

単語評価手段６では、前記各ＨＭＭ毎に得られた照合結果の時系列と単語辞書７に格納された単語辞書情報に基づいて各単語の評価を行ない、各単語毎に評価値を求める。図９は、単語評価手段６で行なう処理を説明するためのフローチャートである。図９のフローチャートは、１単語分の単語評価過程の処理を表している。本アルゴリズムは単語を構成する後方の音節から前方の音節に遡りながら評価するような手法である。いま評価しようとしている単語がＮ音節で構成されるものとし、処理対象の音節番号ｉをＮ，スコアを０，探索開始時刻ｔを入力音声の終端時刻Ｔにセットする（ステップ８０１）。

次に、入力音声の終端（時刻＝Ｔ）からある範囲内で最終音節に対応するＨＭＭの照合結果時系列の最大値を求める。この最大値をＳmax，最大値を与える時刻をｔmaxとする。照合結果時系列情報の中には始端情報が含まれているのでｔmaxに対応する始端時刻ｔstartを求めることができる（ステップ８０２）。ｉ＝ｉ−１とし、以上求められたＳmaxを当該単語のスコアに足し込み、新たな探索開始点ｔにｔstartをセットして一つ前の音節に対する探索の準備とする（ステップ８０３）。処理対象の音節番号ｉが０となるまで、ステップ８０２，ステップ８０３を繰り返す。処理対象の音節番号ｉが０となったら（ステップ８０４：Ｙ）、その単語に関する処理が終了したことになるので計算を終了する。

以上の処理の様子を横軸に時刻，縦軸にＨＭＭの状態を取った図面（これをトレリスと呼ぶ）上での照合経路として表したものを図１０に示す。図１０に示したのは、単語「こくぶんじ」の例である。時刻Ｔ-αから時刻Ｔの間で音節「じ」の照合値の最大値を求め、これに対応する照合開始点をｔ1としたとき、ｔ1-αからｔ1+αの間で一つ前の音節「ん」の照合値の最大値を求める。以下同様に、これに対応する照合開始点をｔ2としたとき、ｔ2-αからｔ2+αの間で一つ前の音節「ぶ」の照合値の最大値を求める。これに対応する照合開始点をｔ3としたとき、ｔ3-αからｔ3+αの間で一つ前の音節「く」の照合値の最大値を求める。これに対応する照合開始点をｔ4としたとき、ｔ4-αからｔ4+αの間で一つ前の音節「こ」の照合値の最大値を求める。以上求められた各最大値が累積されて単語「こくぶんじ」のスコアとなる。

以上の説明では、図８の音響照合結果時系列を全てのＨＭＭについて全時刻毎に求めるようにしていたが、メモリ量処理量ともに大きくなるので累積確率値がある基準値を越えた場合だけ記録するようにしたり、あるいは累積確率値が時間方向に極大値となる時刻のみ記録したりすることにより、メモリ量処理量ともに削減できることは言うまでもない。
また、図９のフローチャートで示した単語評価の処理においては、全ての単語について全音節分のスコア累積を行なうように示したが、途中の音節で得られたＳmaxの値がある基準値以下の場合には処理を途中で打ち切るなどにより処理量を削減できることも言うまでもない。

また、本発明の音声認識の処理とは全く異なる処理量の少ない手法を用いて音声認識対象単語の予備選択を行なって、対象単語数を削減しておいてから本発明の音声認識の処理を施すようにすることももちろん可能である。

図１１に、本発明の単語音声認識装置の一例として、図３の音声認識装置の具体的なハードウェア構成を示すブロック図を示す。
同図において、１１１は音声入力を行い音声情報を電気信号に変換するマイク、１１２は電気信号に変換された音声信号を増幅するアンプ、１１３は、Ａ／Ｄ変換器、１１４は、オペレーティングシステム（ＯＳ）１１４１，音声認識プログラム１１４２，代表分布１１４３，半連続型ＨＭＭ１１４４，単語辞書１１４５，ワークエリア１１４６などを格納するメモリ、１１５は演算プロセッサ（ＣＰＵ）、１１６はプリンタや表示装置などその他の周辺機器である。図１１のマイク１１１が図３の音声入力手段１に、図１の音声分析手段２，音声検出手段３，音響照合手段４（確率計算手段４１，確率混合手段４２，確率累積手段４３），標準パタン格納手段５（代表分布格納手段５１，半連続型ＨＭＭ格納手段５２），単語評価手段６，単語辞書７，判定手段８の各機能は、図１１の演算プロセッサ１１５とメモリ１１４に格納されているプログラムおよび各種データによって実現される。

また、図３における音声分析手段２，音声検出手段３，音響照合手段４（確率計算手段４１，確率混合手段４２，確率累積手段４３），標準パタン格納手段５（代表分布格納手段５１，半連続型ＨＭＭ格納手段５２），単語評価手段６，単語辞書７，および判定手段８の各機能、すなわち、図１１の演算プロセッサ１１５とメモリ１１４の音声認識プログラム／代表分布，半連続型ＨＭＭ，単語辞書などを半導体チップ上に組み込むことにより、単語音声認識用のマイコンデバイスを実現することができ、カーナビゲーション，電話，ＰＤＡ（Ｐarsonal Ｄigital Ａsistant）など、音声認識を必要とする各種情報機器に組み込むことが可能になり、適用範囲は広い。

また、前述したように、上記実施例では、簡単のため、単語音声認識の場合について説明したが、同様の音節単位の標準パタンや単語辞書の他に、認識対象の文を単語の並びとして記述する文法を格納し、照合手段において、各標準パタンを入力音声の特徴ベクトルの時系列の全区間にわたって照合し各標準パタン毎に照合結果を時系列で求め、評価手段において、時系列として得られた各標準パタン毎の照合結果と前記単語辞書および前記文法の情報に基づいて各文を評価し、その結果に従って認識結果を求めるようにすることにより、連続的に発声された文章や会話文などの文音声を認識する文音声認識装置，文音声認識用のマイコンデバイス，文音声認識方法を実現することも可能である。

また、上述した単語音声認識方法および文音声認識方法を構成する各ステップをプログラムコード化してＣＤ−ＲＯＭやＦＤ（フレキシブルディスク）などの記録媒体に記録すれば、市場に流通し易くなり本発明の音声認識方法を広く普及することができる。

上記実施例により、本発明の所期の目的、すなわち、認識対象の全仮説に対して最終的な評価結果が得られ、かつ音響照合処理量が認識対象の語数に比例せず、一定の処理量で抑えられるような、処理量が小さくかつ認識精度の劣化の少ない音声認識用のマイコンデバイス，ならびに、その認識方法を記録したコンピュータで読取り可能な記録媒体を得ることができる。

以上のように本例によれば、音声認識のために必要となる確率計算回数を大幅に削減でき、認識精度を保ったまま、処理量の少ない大語彙音声認識が可能となる。

本発明の音声認識装置の一実施例の構成を示すブロック図である。本発明の音声認識装置で用いる認識基本単位の隠れマルコフモデル（ＨＭＭ）を説明する図である。本発明の音声認識装置の一実施例の詳細構成を示すブロック図である。本発明の代表分布格納手段を説明する図である。本発明の音声認識装置で用いる半連続型の隠れマルコフモデル（ＨＭＭ）を説明する図である。本発明の代表分布確率保持手段を説明する図である。本発明の音声認識装置で用いる半連続型の隠れマルコフモデル（ＨＭＭ）を説明する図である。音響照合結果の時系列を説明する図である。単語評価手段における単語評価計算過程を説明するフローチャートである。単語評価手段における単語評価計算処理のイメージを説明する図である。図３の音声認識装置の具体的なハードウェア構成を示すブロック図である。

符号の説明

１：音声入力手段、２：音声分析手段、３：音声検出手段、４：音響照合手段、５：標準パタン格納手段、６：単語評価手段、７：単語辞書、８：判定手段、４１：確率計算手段、４２：確率混合手段、５１：代表分布格納手段、５２：半連続型ＨＭＭ格納手段、１１１：マイク、１１２：アンプ、１１３：Ａ／Ｄ変換器、１１４：メモリ、１１４１：オペレーティングシステム（ＯＳ）、１１４２：音声認識プログラム、１１４３：代表分布、１１４４：半連続型ＨＭＭ、１１４５：単語辞書、１１４６：ワークエリア、１１５：演算プロセッサ（ＣＰＵ）、１１６：その他の周辺機器。

Claims

入力された音声を分析して特徴ベクトルの時系列を出力する音声分析手段と、音声基本単位に対する標準パタンを格納しておく標準パタン格納手段と、認識対象語の単語を音声基本単位の並びとして記述する単語辞書と、前記入力音声の特徴ベクトルの時系列と前記標準パタンとを照合する照合手段と、前記照合結果に基づいて認識対象を評価する評価手段とを有する音声認識用マイコンデバイスであって、
前記照合手段は、前記各標準パタンを前記入力音声の特徴ベクトル時系列の全区間にわたって照合して各標準パタン毎に照合結果を時系列として求める手段であり、
前記評価手段は、前記単語辞書に記憶される複数の単語各々について、該単語を構成する前記音声基本単位に基づいて前記標準パタン毎の照合結果から選択した標準パタンを用いて各単語を評価し、前記評価結果に従って認識結果を求める手段であることを特徴とする音声認識用マイコンデバイス。
音声を入力させる音声入力ステップと、入力された音声を分析して特徴ベクトルの時系列を出力する音声分析ステップと、
音声基本単位に対する各標準パタンと前記入力音声の特徴ベクトル時系列の全区間にわたって照合して各標準パタン毎に前記全区間にわたる照合結果を時系列として求める照合ステップと、
単語辞書に記憶される複数の単語各々の音声基本単位の並びの情報に基づいて、前記標準パタン毎の照合結果から選択した標準パタンを用いて、前記複数の単語を評価し、該評価結果から認識結果を求める評価ステップと、
をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記標準パタンは、前記音声の特徴ベクトルの出現確率分布により構成され、かつ、前記照合ステップは、前記入力された音声の特徴ベクトルと前記出現確率分布から各標準パタンの確率計算を行って、前記全区間にわたる累積確率値と該音声基本単位の該全区間中の始点終点を求めるものであり、
前記評価ステップは、複数の単語各々について該単語の前記音声基本単位の並びの情報に基づいて、前記入力された入力音声の終端から所定範囲内で該単語を構成する音声基本単位についての前記照合結果から前記累積確率値の最大値を求め、該音声基本単位に隣接する音声基本単位について該最大値として求められた累積確率値に対応づけられる始点から所定範囲に前記終点が存在する音声基本単位の累積確率値から最大値を求める処理をくりかえして前記複数の単語各々を評価するものである
ことを特徴とする請求項２記載のコンピュータ読み取り可能な記録媒体。