JP2005031697A - 音声認識用マイコンデバイスおよびコンピュータ読み取り可能な記録媒体 - Google Patents
音声認識用マイコンデバイスおよびコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2005031697A JP2005031697A JP2004277234A JP2004277234A JP2005031697A JP 2005031697 A JP2005031697 A JP 2005031697A JP 2004277234 A JP2004277234 A JP 2004277234A JP 2004277234 A JP2004277234 A JP 2004277234A JP 2005031697 A JP2005031697 A JP 2005031697A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- standard pattern
- time series
- word
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 処理量が少なく認識精度の劣化のない大語彙の音声認識の実現。
【解決手段】 音声入力手段1から入力された音声を、音声分析手段2で分析して特徴ベクトルの時系列を出力し、音声検出手段3で音声区間を判断する。音響照合手段4において、該特徴ベクトルの時系列と、標準パタン格納手段5に格納されている音声基本単位に対する標準パタンを照合し、単語評価手段6において、前記照合結果に基づいて認識対象を評価する。音響照合手段4では、各標準パタンを前記入力音声の特徴ベクトル時系列の全区間にわたって照合して各標準パタン毎に照合結果を時系列として求める。単語評価手段6では、前記時系列として得られた各標準パタン毎の照合結果と認識対象語の単語を音声基本単位の並びとして記述する単語辞書7の情報に基づいて各単語を評価し、前記評価結果に従って認識結果を求める。
【選択図】 図1
【解決手段】 音声入力手段1から入力された音声を、音声分析手段2で分析して特徴ベクトルの時系列を出力し、音声検出手段3で音声区間を判断する。音響照合手段4において、該特徴ベクトルの時系列と、標準パタン格納手段5に格納されている音声基本単位に対する標準パタンを照合し、単語評価手段6において、前記照合結果に基づいて認識対象を評価する。音響照合手段4では、各標準パタンを前記入力音声の特徴ベクトル時系列の全区間にわたって照合して各標準パタン毎に照合結果を時系列として求める。単語評価手段6では、前記時系列として得られた各標準パタン毎の照合結果と認識対象語の単語を音声基本単位の並びとして記述する単語辞書7の情報に基づいて各単語を評価し、前記評価結果に従って認識結果を求める。
【選択図】 図1
Description
本発明は、音節や音素(子音,母音)等の音声言語表現上の基本的な単位を標準パタンとして用いるような音声認識技術に係り、特に、標準パタンが特徴ベクトルの出現確率分布で構成されるような音声認識において大語彙の音声認識を少ない処理量で実現するようにした単語/文音声認識装置,そのためのマイコンデバイス,および音声認識方法,ならびにその認識方法を記録したコンピュータで読取り可能な記録媒体に関する。
音声認識装置、特に標準パタンが特徴ベクトルの出現確率分布で構成されるような音声認識装置では、確率計算が認識処理の大部分を占める。通常の音声認識手法では前記確率計算の回数は認識対象となる単語の語数に比例し、大語彙の音声認識の場合には膨大な処理量が必要となり、実時間音声認識を実現するために大がかりなハードウェア構成が必要となっていた。
このような音声認識に必要な膨大な処理量を削減する方法としては、従来からいくつかの方法が提案されている。以下代表的な処理量削減手法を説明する。
このような音声認識に必要な膨大な処理量を削減する方法としては、従来からいくつかの方法が提案されている。以下代表的な処理量削減手法を説明する。
第1の従来技術として非特許文献1に記載の「ビームサーチ」呼ばれる技術がある。この「ビームサーチ」とは、認識対象の候補の内、計算過程で可能性が低いと判断された候補について、途中で計算を打ち切るようにした手法である。認識対象候補の内、可能性の高い方から一定個数の候補についてのみ計算をするようなやり方や、認識計算に対して閾値を設定し、閾値以上の候補についてのみ計算をするやり方などがある。いずれの方法にしても、認識候補全体に対して計算を行なうのに対して一定の比率で計算が削減される。
なお、途中で計算を打ち切る「ビームサーチ」に対して、全ての候補に対して最後まで計算をする手法が「フルサーチ」と呼ばれる技術である。「フルサーチ」の場合、全ての候補に対して最後まで計算をするので最適解が得られることが保証される。計算の途中過程で可能性が低いと判断された候補でも、最後まで計算を続けると第1位の正解となる場合もあり、途中で計算を打ち切る「ビームサーチ」の場合には最適解が保証されない。
第2の従来技術として、例えば非特許文献2に記載のように、まず音響レベルでの処理を行なって音素あるいは音節認識結果を求め、この結果に対して言語処理を施して最終的な認識結果を得るような例がある。
この例では、音素や音節の単位での認識を行い、その結果を音素ラティスや音節ラティスといった、音素単位や音節単位での複数仮説として求め、音素ラティスや音節ラティスを単語辞書と照合し認識結果を求める。ここで行なう照合は記号レベルでの照合であり確率計算などを必要とする音響レベルでの照合処理に比べると処理量は大幅に少なくてすむ。本手法によれば、音響照合処理は音素あるいは音節の数だけで済み大幅な計算量削減ができる。しかしながら、音響照合レベルで判断を下してしまうため、音素ラティスや音節ラティスに正解候補が含まれない場合には、辞書照合レベルではどのような処理を施しても正解を得ることができない。
この例では、音素や音節の単位での認識を行い、その結果を音素ラティスや音節ラティスといった、音素単位や音節単位での複数仮説として求め、音素ラティスや音節ラティスを単語辞書と照合し認識結果を求める。ここで行なう照合は記号レベルでの照合であり確率計算などを必要とする音響レベルでの照合処理に比べると処理量は大幅に少なくてすむ。本手法によれば、音響照合処理は音素あるいは音節の数だけで済み大幅な計算量削減ができる。しかしながら、音響照合レベルで判断を下してしまうため、音素ラティスや音節ラティスに正解候補が含まれない場合には、辞書照合レベルではどのような処理を施しても正解を得ることができない。
電子情報通信学会論文誌 D Vol.J71−D No.99 1988年9月 p.1650−1659
第16回応用情報学研究センター・シンポジウム「音声認識の現状と将来」 東北大応用情報学研究センター,’90.5・29−30
上述したように、上記第1の従来技術は、ある一定の比率で処理量を削減することができるという利点があるが、認識対象の語数に比例して音響照合処理が増加してしまうという問題点がある。また、上記第2の従来技術は、音素または音節単位で認識結果を求めてしまうため、音響照合処理の処理量を一定の処理量に抑えることができるという利点があるが、音響処理で音素単位あるいは音節単位に結果を求めてしまうため、ここで候補から落ちた仮説に対しては最終結果が得られないという問題点がある。
本発明の目的は、上記問題点を解消し、認識対象の全仮説に対して最終的な評価結果が得られ、かつ音響照合処理量が認識対象の語数に比例せず、一定の処理量で抑えられるような、処理量が小さくかつ認識精度の劣化の少ない単語音声認識装置や文音声認識装置,そのためのマイコンデバイス,単語や文の音声認識方法,ならびに、該認識方法を記録したコンピュータで読取り可能な記録媒体を提供することにある。
上記目的を達成するために、本発明の単語音声認識は、音節あるいは音節連鎖,または音素等の音声基本単位に対する標準パタンを入力音声の特徴ベクトル時系列の全区間にわたって照合して各標準パタン毎に照合結果を時系列として求め、音節あるいは音節連鎖,または音素等の音声基本単位の並びとして記述された単語辞書と前記時系列として得られた各標準パタン毎の照合結果に基づいて各単語を評価して認識結果を求めるようにしたものである。
また、本発明の文音声認識は、さらに認識対象の文を単語の並びとして記述する文法を格納しておき、各標準パタン毎の照合結果と単語辞書と前記文法に基づいて各文を評価して認識結果を求めるようにしたものである。
さらに、本発明のマイコンデバイスは、上記認識するために必要な手段を半導体チップ上に搭載することによって構成され、また、本発明の記憶媒体は、上記単語または文音声認識を行う手順(ステップ)をプログラムコード化して記録したCD−ROMなどである。
以上本発明によれば、音声認識のために必要となる確率計算回数を大幅に削減でき、認識精度を保ったまま、処理量の少ない大語彙音声認識が可能となる。
以下、図面を用いて本発明の実施例を詳細に説明する。
標準パタンの単位としては音節,音節連鎖,音素など色々な単位を考えることができるが、ここでは簡単のため音節を単位とする場合について説明する。
なお、以下では、主として単語音声認識の場合について詳細に説明するが、本発明は文音声認識に適用することができることはいうまでもない。すなわち、以下の実施例と同様の音節単位の標準パタンと単語辞書の他に、認識対象の文を単語の並びとして記述する文法を用い、音節単位の照合を組み合わせ、該単語辞書と該文法に基づいて連続的に発声された文章や会話文を認識することも可能である。
標準パタンの単位としては音節,音節連鎖,音素など色々な単位を考えることができるが、ここでは簡単のため音節を単位とする場合について説明する。
なお、以下では、主として単語音声認識の場合について詳細に説明するが、本発明は文音声認識に適用することができることはいうまでもない。すなわち、以下の実施例と同様の音節単位の標準パタンと単語辞書の他に、認識対象の文を単語の並びとして記述する文法を用い、音節単位の照合を組み合わせ、該単語辞書と該文法に基づいて連続的に発声された文章や会話文を認識することも可能である。
図1は、本発明の単語音声認識装置の一実施例の機能ブロック図である。入力された音声は、まず、音声入力手段1において電気信号に変換される。電気信号に変換された音声はさらに音声分析手段2において分析され、特徴ベクトルの時系列が出力される。この特徴ベクトルの時系列は音声検出手段3に入力される。音声検出手段3において音声区間であると判断された区間の特徴ベクトルの時系列は音響照合手段4に入力される。音響照合手段4おいて、入力された特徴ベクトルの時系列が標準パタン格納手段5に格納された全ての音節標準パタンと照合され、各音節標準パタン毎に照合結果の時系列が得られる。単語評価手段6では、前記各音節標準パタン毎に照合結果の時系列と単語辞書7に格納された単語辞書情報に基づいて各単語の評価を行ない、各単語毎に評価値を求める。判定手段8では各単語に与えられた評価値に基づいて最終的な認識結果を求め出力する。例えば評価値の高い上位5候補の単語を出力する。
本発明の音声認識装置においては、標準パタンを特徴ベクトル時系列として用意しパタンマッチングにより照合を実現することもできるし、また、標準パタンを特徴ベクトルの出力確率分布の時系列として用意し、確率計算により照合を実現することもできる。ここでは後者の特徴ベクトルの出力確率分布に基づく方法、すなわち、隠れマルコフモデル(HMM:Hidden Markov Models)に基づいて実現する場合について説明する。
まず、HMMについて図2を用いて簡単に説明する。図2は、本発明で用いる認識基本単位の隠れマルコフモデル(HMM)を説明するための図である。
同図において、各円は状態を表わし、矢印は状態間の遷移を表わす。矢印に添えた記号a(i,j)は状態iから状態jへの遷移が生じる確率を表わし、記号b(i,j,v)は状態iから状態jへの遷移が生じたときに特徴ベクトルvが出力される確率を表わす。
同図において、各円は状態を表わし、矢印は状態間の遷移を表わす。矢印に添えた記号a(i,j)は状態iから状態jへの遷移が生じる確率を表わし、記号b(i,j,v)は状態iから状態jへの遷移が生じたときに特徴ベクトルvが出力される確率を表わす。
HMMは、b(i,j,v)の表現形態により大きく2つの種類、離散出力確率分布型HMMと連続出力確率分布型HMMに分かれる。離散出力確率分布型HMMでは特徴ベクトルvをベクトル量子化し、その各量子化コード毎に予めb(i,j,v)の値を求めてテーブル化し、確率計算をテーブル参照により行なう。連続出力確率型HMMではある分布関数を仮定し、特徴ベクトルvを用いて関数計算することにより確率を求める。分布関数としてはガウス分布がよく使われる。ガウス分布を用いる場合b(i,j,v)は式(1)により求められる。
式(1)では確率分布を複数のガウス分布の重み付き和で表す場合を示している。確率分布を単一のガウス分布で表す場合もあるが、不特定話者の音声認識では複数のガウス分布の重み付き和とするのが一般的である。
b(i,j,v)は、特徴ベクトルvを得たときの各状態遷移に対応する出現確率(あるいは確率密度)であるが、音響照合処理においてはさらに遷移確率a(ij)も用いてHMMの各状態の累積の確率計算を行なう。各状態の累積の確率計算は動的計画法、例えば、ビタビアルゴリズムと呼ばれる計算法を用いて効率的に計算できる。式(2)〜(4)にビタビアルゴリズムによる計算の漸化式を示す。
ここで、γ(i,t)は、特徴ベクトル時系列V1,V2…Vtを観測し、HMMの第i状態にいる確率である。
b(i,j,v)は、特徴ベクトルvを得たときの各状態遷移に対応する出現確率(あるいは確率密度)であるが、音響照合処理においてはさらに遷移確率a(ij)も用いてHMMの各状態の累積の確率計算を行なう。各状態の累積の確率計算は動的計画法、例えば、ビタビアルゴリズムと呼ばれる計算法を用いて効率的に計算できる。式(2)〜(4)にビタビアルゴリズムによる計算の漸化式を示す。
ここで、γ(i,t)は、特徴ベクトル時系列V1,V2…Vtを観測し、HMMの第i状態にいる確率である。
上記式(2)〜(4)の漸化式計算によりHMMの各状態における累積確率γ(i,t)求めることができる。式(1)に従って確率計算を行なう処理から(2)〜(4)の漸化式に従って確率累積計算を行なう処理までの一連の処理が音響照合手段4で行なわれる処理である。
なお標準パタン格納手段5には、図2で説明したようなHMMが音節あるいは音節連鎖,または音素等の音声基本単位毎に格納されており、音響照合手段4で特徴ベクトルvが得られると標準パタン格納手段5に格納された全てのHMMについて確率累積計算を行なう。
なお標準パタン格納手段5には、図2で説明したようなHMMが音節あるいは音節連鎖,または音素等の音声基本単位毎に格納されており、音響照合手段4で特徴ベクトルvが得られると標準パタン格納手段5に格納された全てのHMMについて確率累積計算を行なう。
以上の説明はHMMとして連続型のHMMを使い、さらに連続型のHMMを複数のガウス分布の混合で表現する場合についての説明である。しかし、以後の説明ではHMMとして特に半連続型と呼ばれる種類のHMMを使用し、さらに処理量の削減を図った場合について説明する。
図3は、半連続型のHMMを利用した場合の本発明の単語音声認識装置の一実施例の詳細な機能ブロック図である。
図1を用いて本発明の単語音声認識装置の一実施例の機能を説明したが、図3は図1中の音響照合手段4および標準パタン格納手段5を半連続型のHMMに合わせて詳細化したものである。半連続型のHMMを用いる場合、音響照合処理は3段階の処理となる。第1段階が確率計算手段41における確率計算,第2段階が確率混合手段42における確率混合,第3段階が確率累積手段43における確率累積である。第1段階の確率計算手段41における確率計算は特徴ベクトルvから式(1)の中の個々のガウス分布に従った確率を求める計算であり、第2段階の確率混合手段42における確率混合は個々のガウス分布の確率計算結果からこれらを混合してb(i,j,v)を求める計算であり、第3段階の確率累積手段43における確率累積は式(2)〜(4)の漸化式に従って確率累積を行なう処理である。
図1を用いて本発明の単語音声認識装置の一実施例の機能を説明したが、図3は図1中の音響照合手段4および標準パタン格納手段5を半連続型のHMMに合わせて詳細化したものである。半連続型のHMMを用いる場合、音響照合処理は3段階の処理となる。第1段階が確率計算手段41における確率計算,第2段階が確率混合手段42における確率混合,第3段階が確率累積手段43における確率累積である。第1段階の確率計算手段41における確率計算は特徴ベクトルvから式(1)の中の個々のガウス分布に従った確率を求める計算であり、第2段階の確率混合手段42における確率混合は個々のガウス分布の確率計算結果からこれらを混合してb(i,j,v)を求める計算であり、第3段階の確率累積手段43における確率累積は式(2)〜(4)の漸化式に従って確率累積を行なう処理である。
実際に存在する確率分布の個数は、認識基本単位の個数をNu,認識基本単位のHMMの状態数をSu,各状態における分布の個数をMとすれば、Nu×Su×M個となる。Nu=400,Su=2,M=3とした場合、実在する確率分布の個数は2400個となる。半連続型のHMMを使わない場合にはこれら全ての確率分布計算を行なわなければならないが、半連続型HMMを使う場合には処理量が大幅に削減される。半連続型HMMでは、これら2400個ある確率分布のうち類似の確率分布はまとめてしまい、代表的な確率分布の計算だけで済ませるようにする。例えば、上記の2400個の確率分布を256個のクラスタにクラスタリングし、各クラスタ毎に代表分布を作成し、代表分布の計算のみで実際の確率分布の計算を代用する。以上により、半連続型HMMを使わないと2400回必要な確率計算を256回で済ませるようにする。
代表分布格納手段51には上記のような代表分布を格納しておく。本実施例では確率分布としてガウス分布を用いるものとし、さらに共分散行列については対角成分のみを持つものとする。代表分布格納手段51には各ガウス分布の平均ベクトルと共分散行列(対角成分のみ)を格納する。代表分布格納手段51には図4に示すように、代表分布の番号101に対して、対応する平均ベクトル102、共分散行列(対角成分のみ)103が格納される。これを用いて確率計算手段41により確率計算する。このような代表分布を持つようにすることにより各HMMは固有の確率分布をもつ代わりに代表分布の中のいずれかを持つようになる。代表分布の中のいずれかであることを指すためには、その代表分布の番号がわかればよいため、各標準パタンは代表分布の番号を用いて表すようになる。半連続型HMM格納手段52にはこのような代表分布の番号を用いて記述されたHMMが格納される。半連続型HMM格納手段52に格納されている各半連続型HMMは図5に示すようなものとなる。
確率計算手段41では代表分布格納手段51に格納された各代表分布について、音声検出手段3より得られる特徴ベクトルvを用いて、各代表分布の確率を求める。確率値を求めるにはガウス分布の計算式(5)を用いる。
確率計算手段41で計算された確率値は図6に示すように、代表分布の番号201と、各代表分布に対する確率値202が対となって求められる。確率混合手段42では半連続型HMM格納手段52に格納された全てのHMMの全ての状態について、図6に示された確率計算結果を参照して確率混合を行ない、各状態における出力確率b(i,j,v)を求める。確率累積手段43では各状態における出力確率b(i,j,v)を受け取り、ビタビアルゴリズムによる計算を実行し、全てのHMMの全ての状態について累積確率を求めて出力する。なお、ここで行なう確率累積計算はワードスポットなどで行なわれる連続ビタビ計算であり、厳密には漸化式も(2)〜(4)の漸化式とは異なる。また、使用するHMMの構造も図5に示したHMMとはわずかに異なる。実際に使用するHMMの構造を図7に示す。図7のHMMが図5のHMMと異なるのは、セルフループを持たない状態が先頭に追加された点である。図5のHMMでは始端固定の照合しかできないが、図7の構造をとることにより始端フリーの照合が行なえるようになる。始端フリーの照合を行なうための漸化式は(2)〜(4)の漸化式とわずかに異なる。
式(6)〜(8)に始端フリーの照合を行なうための漸化式を示す。
(6)式は(2)と同じであるが、(7)式のように各時刻でγ(i,t)に1を与える点、(8)式のように最大値判定を行なう対象が照合経路長Lで正規化される点が異なる。
なお、(8)式の最大値選択において、いずれの状態が選択されたかの情報を記憶しておくことにより、照合経路の始点情報を求めることができる。このようにして確率累積手段43では各HMMについて図8に示すような音響照合結果時系列を算出する。図8に示すように、音響照合結果時系列には各HMMのスコアとして各時刻毎301に確率累積値302が求められ、かつ、そのような確率累積値を与える照合経路の始点情報303も与えられる。図8は、ある一つのHMMについての照合結果を示しているが、半連続型HMM格納手段52に格納されている全てのHMMについて同様の照合結果が求められる。図8の時刻tの欄を見ると、このHMMは入力音声の時刻23から時刻tまでの間で照合し、スコア0.009174が得られることが判る。
単語評価手段6では、前記各HMM毎に得られた照合結果の時系列と単語辞書7に格納された単語辞書情報に基づいて各単語の評価を行ない、各単語毎に評価値を求める。図9は、単語評価手段6で行なう処理を説明するためのフローチャートである。図9のフローチャートは、1単語分の単語評価過程の処理を表している。本アルゴリズムは単語を構成する後方の音節から前方の音節に遡りながら評価するような手法である。いま評価しようとしている単語がN音節で構成されるものとし、処理対象の音節番号iをN,スコアを0,探索開始時刻tを入力音声の終端時刻Tにセットする(ステップ801)。
次に、入力音声の終端(時刻=T)からある範囲内で最終音節に対応するHMMの照合結果時系列の最大値を求める。この最大値をSmax,最大値を与える時刻をtmaxとする。照合結果時系列情報の中には始端情報が含まれているのでtmaxに対応する始端時刻tstartを求めることができる(ステップ802)。i=i−1とし、以上求められたSmaxを当該単語のスコアに足し込み、新たな探索開始点tにtstartをセットして一つ前の音節に対する探索の準備とする(ステップ803)。処理対象の音節番号iが0となるまで、ステップ802,ステップ803を繰り返す。処理対象の音節番号iが0となったら(ステップ804:Y)、その単語に関する処理が終了したことになるので計算を終了する。
以上の処理の様子を横軸に時刻,縦軸にHMMの状態を取った図面(これをトレリスと呼ぶ)上での照合経路として表したものを図10に示す。図10に示したのは、単語「こくぶんじ」の例である。時刻T-αから時刻Tの間で音節「じ」の照合値の最大値を求め、これに対応する照合開始点をt1としたとき、t1-αからt1+αの間で一つ前の音節「ん」の照合値の最大値を求める。以下同様に、これに対応する照合開始点をt2としたとき、t2-αからt2+αの間で一つ前の音節「ぶ」の照合値の最大値を求める。これに対応する照合開始点をt3としたとき、t3-αからt3+αの間で一つ前の音節「く」の照合値の最大値を求める。これに対応する照合開始点をt4としたとき、t4-αからt4+αの間で一つ前の音節「こ」の照合値の最大値を求める。以上求められた各最大値が累積されて単語「こくぶんじ」のスコアとなる。
以上の説明では、図8の音響照合結果時系列を全てのHMMについて全時刻毎に求めるようにしていたが、メモリ量処理量ともに大きくなるので累積確率値がある基準値を越えた場合だけ記録するようにしたり、あるいは累積確率値が時間方向に極大値となる時刻のみ記録したりすることにより、メモリ量処理量ともに削減できることは言うまでもない。
また、図9のフローチャートで示した単語評価の処理においては、全ての単語について全音節分のスコア累積を行なうように示したが、途中の音節で得られたSmaxの値がある基準値以下の場合には処理を途中で打ち切るなどにより処理量を削減できることも言うまでもない。
また、図9のフローチャートで示した単語評価の処理においては、全ての単語について全音節分のスコア累積を行なうように示したが、途中の音節で得られたSmaxの値がある基準値以下の場合には処理を途中で打ち切るなどにより処理量を削減できることも言うまでもない。
また、本発明の音声認識の処理とは全く異なる処理量の少ない手法を用いて音声認識対象単語の予備選択を行なって、対象単語数を削減しておいてから本発明の音声認識の処理を施すようにすることももちろん可能である。
図11に、本発明の単語音声認識装置の一例として、図3の音声認識装置の具体的なハードウェア構成を示すブロック図を示す。
同図において、111は音声入力を行い音声情報を電気信号に変換するマイク、112は電気信号に変換された音声信号を増幅するアンプ、113は、A/D変換器、114は、オペレーティングシステム(OS)1141,音声認識プログラム1142,代表分布1143,半連続型HMM1144,単語辞書1145,ワークエリア1146などを格納するメモリ、115は演算プロセッサ(CPU)、116はプリンタや表示装置などその他の周辺機器である。図11のマイク111が図3の音声入力手段1に、図1の音声分析手段2,音声検出手段3,音響照合手段4(確率計算手段41,確率混合手段42,確率累積手段43),標準パタン格納手段5(代表分布格納手段51,半連続型HMM格納手段52),単語評価手段6,単語辞書7,判定手段8の各機能は、図11の演算プロセッサ115とメモリ114に格納されているプログラムおよび各種データによって実現される。
同図において、111は音声入力を行い音声情報を電気信号に変換するマイク、112は電気信号に変換された音声信号を増幅するアンプ、113は、A/D変換器、114は、オペレーティングシステム(OS)1141,音声認識プログラム1142,代表分布1143,半連続型HMM1144,単語辞書1145,ワークエリア1146などを格納するメモリ、115は演算プロセッサ(CPU)、116はプリンタや表示装置などその他の周辺機器である。図11のマイク111が図3の音声入力手段1に、図1の音声分析手段2,音声検出手段3,音響照合手段4(確率計算手段41,確率混合手段42,確率累積手段43),標準パタン格納手段5(代表分布格納手段51,半連続型HMM格納手段52),単語評価手段6,単語辞書7,判定手段8の各機能は、図11の演算プロセッサ115とメモリ114に格納されているプログラムおよび各種データによって実現される。
また、図3における音声分析手段2,音声検出手段3,音響照合手段4(確率計算手段41,確率混合手段42,確率累積手段43),標準パタン格納手段5(代表分布格納手段51,半連続型HMM格納手段52),単語評価手段6,単語辞書7,および判定手段8の各機能、すなわち、図11の演算プロセッサ115とメモリ114の音声認識プログラム/代表分布,半連続型HMM,単語辞書などを半導体チップ上に組み込むことにより、単語音声認識用のマイコンデバイスを実現することができ、カーナビゲーション,電話,PDA(Parsonal Digital Asistant)など、音声認識を必要とする各種情報機器に組み込むことが可能になり、適用範囲は広い。
また、前述したように、上記実施例では、簡単のため、単語音声認識の場合について説明したが、同様の音節単位の標準パタンや単語辞書の他に、認識対象の文を単語の並びとして記述する文法を格納し、照合手段において、各標準パタンを入力音声の特徴ベクトルの時系列の全区間にわたって照合し各標準パタン毎に照合結果を時系列で求め、評価手段において、時系列として得られた各標準パタン毎の照合結果と前記単語辞書および前記文法の情報に基づいて各文を評価し、その結果に従って認識結果を求めるようにすることにより、連続的に発声された文章や会話文などの文音声を認識する文音声認識装置,文音声認識用のマイコンデバイス,文音声認識方法を実現することも可能である。
また、上述した単語音声認識方法および文音声認識方法を構成する各ステップをプログラムコード化してCD−ROMやFD(フレキシブルディスク)などの記録媒体に記録すれば、市場に流通し易くなり本発明の音声認識方法を広く普及することができる。
上記実施例により、本発明の所期の目的、すなわち、認識対象の全仮説に対して最終的な評価結果が得られ、かつ音響照合処理量が認識対象の語数に比例せず、一定の処理量で抑えられるような、処理量が小さくかつ認識精度の劣化の少ない音声認識用のマイコンデバイス,ならびに、その認識方法を記録したコンピュータで読取り可能な記録媒体を得ることができる。
以上のように本例によれば、音声認識のために必要となる確率計算回数を大幅に削減でき、認識精度を保ったまま、処理量の少ない大語彙音声認識が可能となる。
1:音声入力手段、2:音声分析手段、3:音声検出手段、4:音響照合手段、5:標準パタン格納手段、6:単語評価手段、7:単語辞書、8:判定手段、41:確率計算手段、42:確率混合手段、51:代表分布格納手段、52:半連続型HMM格納手段、111:マイク、112:アンプ、113:A/D変換器、114:メモリ、1141:オペレーティングシステム(OS)、1142:音声認識プログラム、1143:代表分布、1144:半連続型HMM、1145:単語辞書、1146:ワークエリア、115:演算プロセッサ(CPU)、116:その他の周辺機器。
Claims (3)
- 入力された音声を分析して特徴ベクトルの時系列を出力する音声分析手段と、音声基本単位に対する標準パタンを格納しておく標準パタン格納手段と、認識対象語の単語を音声基本単位の並びとして記述する単語辞書と、前記入力音声の特徴ベクトルの時系列と前記標準パタンとを照合する照合手段と、前記照合結果に基づいて認識対象を評価する評価手段とを有する音声認識用マイコンデバイスであって、
前記照合手段は、前記各標準パタンを前記入力音声の特徴ベクトル時系列の全区間にわたって照合して各標準パタン毎に照合結果を時系列として求める手段であり、
前記評価手段は、前記単語辞書に記憶される複数の単語各々について、該単語を構成する前記音声基本単位に基づいて前記標準パタン毎の照合結果から選択した標準パタンを用いて各単語を評価し、前記評価結果に従って認識結果を求める手段であることを特徴とする音声認識用マイコンデバイス。 - 音声を入力させる音声入力ステップと、入力された音声を分析して特徴ベクトルの時系列を出力する音声分析ステップと、
音声基本単位に対する各標準パタンと前記入力音声の特徴ベクトル時系列の全区間にわたって照合して各標準パタン毎に前記全区間にわたる照合結果を時系列として求める照合ステップと、
単語辞書に記憶される複数の単語各々の音声基本単位の並びの情報に基づいて、前記標準パタン毎の照合結果から選択した標準パタンを用いて、前記複数の単語を評価し、該評価結果から認識結果を求める評価ステップと、
をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記標準パタンは、前記音声の特徴ベクトルの出現確率分布により構成され、かつ、前記照合ステップは、前記入力された音声の特徴ベクトルと前記出現確率分布から各標準パタンの確率計算を行って、前記全区間にわたる累積確率値と該音声基本単位の該全区間中の始点終点を求めるものであり、
前記評価ステップは、複数の単語各々について該単語の前記音声基本単位の並びの情報に基づいて、前記入力された入力音声の終端から所定範囲内で該単語を構成する音声基本単位についての前記照合結果から前記累積確率値の最大値を求め、該音声基本単位に隣接する音声基本単位について該最大値として求められた累積確率値に対応づけられる始点から所定範囲に前記終点が存在する音声基本単位の累積確率値から最大値を求める処理をくりかえして前記複数の単語各々を評価するものである
ことを特徴とする請求項2記載のコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004277234A JP2005031697A (ja) | 2004-09-24 | 2004-09-24 | 音声認識用マイコンデバイスおよびコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004277234A JP2005031697A (ja) | 2004-09-24 | 2004-09-24 | 音声認識用マイコンデバイスおよびコンピュータ読み取り可能な記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10000117A Division JPH11194792A (ja) | 1998-01-05 | 1998-01-05 | 音声認識装置および音声認識方法ならびに該方法を記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005031697A true JP2005031697A (ja) | 2005-02-03 |
Family
ID=34214453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004277234A Pending JP2005031697A (ja) | 2004-09-24 | 2004-09-24 | 音声認識用マイコンデバイスおよびコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005031697A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006340903A (ja) * | 2005-06-09 | 2006-12-21 | Sony Corp | 行動認識装置、方法およびプログラム |
-
2004
- 2004-09-24 JP JP2004277234A patent/JP2005031697A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006340903A (ja) * | 2005-06-09 | 2006-12-21 | Sony Corp | 行動認識装置、方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiong et al. | Toward human parity in conversational speech recognition | |
US10157610B2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
US8315870B2 (en) | Rescoring speech recognition hypothesis using prosodic likelihood | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
EP1134727A2 (en) | Sound models for unknown words in speech recognition | |
US6711541B1 (en) | Technique for developing discriminative sound units for speech recognition and allophone modeling | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JP2010152751A (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
US7072835B2 (en) | Method and apparatus for speech recognition | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
US6662158B1 (en) | Temporal pattern recognition method and apparatus utilizing segment and frame-based models | |
US20120330664A1 (en) | Method and apparatus for computing gaussian likelihoods | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
JP3171107B2 (ja) | 音声認識装置 | |
JP4610451B2 (ja) | 音声認識装置及びプログラム | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP4391179B2 (ja) | 話者認識システム及び方法 | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
JP2005031697A (ja) | 音声認識用マイコンデバイスおよびコンピュータ読み取り可能な記録媒体 | |
JP3104900B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060821 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060922 |