JP3627299B2 - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置 Download PDFInfo
- Publication number
- JP3627299B2 JP3627299B2 JP18285195A JP18285195A JP3627299B2 JP 3627299 B2 JP3627299 B2 JP 3627299B2 JP 18285195 A JP18285195 A JP 18285195A JP 18285195 A JP18285195 A JP 18285195A JP 3627299 B2 JP3627299 B2 JP 3627299B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech recognition
- recognition target
- words
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識方法および装置に関し、入力音声信号に対して、与えられた辞書の中から対応する語をひとつまたは複数選び出すような音声認識方法および装置に関するものである。
【0002】
【従来の技術】
入力された音声信号から言語情報を取り出すための音声認識の分野においては、与えられた辞書の中から入力に対応したワードを選び出すという問題が頻繁に発生する。
【0003】
例えば、地名に対する音声認識の場合、対象候補ワードとなる地名それぞれに対して、標準パターンを作成しておき、入力音声信号を分析して得られる特徴量パターンと全標準パターンとのマッチングをとること、すなわち距離計算を行なうことで最も類似したものを選び出すということを行なう。これは隠れマルコフモデル(Hidden Markov Model:HMM )という確率モデルを用いた場合も同様で、やはり各地名に対応したHMMを作成しておき、入力音声信号に対して、その生起確率が最も大きくなるモデルを選び出すということが必要になる。
【0004】
一般に、音声認識においては、対象となるワードと入力音声信号とのマッチングをとるために距離計算を行なったり、あるいは各ワードの確率モデルを用いて生起確率を計算したりするなどして、全ワードに対してスコアづけを行ない、そのスコアに基づいて、最もスコアの高いものを認識結果として選択するということを行なう。
【0005】
例えば、上記HMM(隠れマルコフモデル)においては、認識対象ワードそれぞれに対して確率モデルを予め作成しておき、未知の入力音声信号を分析して得られる特徴量から生起確率を求め、これをもとに全ワードに対してスコア付けを行い、最もスコアの高いものを認識結果として選択する。
【0006】
ここで、スコアが高いとは、距離などの場合は距離が小さいことに対応し、生起確率などの場合はその確率が大きいことに対応するなど、その評価値に対応させた表現として用いるものとする。
【0007】
【発明が解決しようとする課題】
ところで、小語彙の認識システムの場合には、全ての対象候補に対して上述のようなスコア計算を行なっても、その処理量はあまり問題になることはない。
【0008】
しかし、中語彙や大語彙の認識を行なう場合には、対象となる認識辞書の全てのワードに対してスコア計算をする、いわゆる全探索を行うことは、演算量の増大につながり、その結果、応答時間の遅延をもたらすという問題を引き起こすことになる。
【0009】
この問題を解決するため、全ワードに対するスコア計算を行なう前に、簡単な評価式を用いて予備選択を行ない、その結果から精密にスコア計算を行なうべき対象ワードを絞り込む方法や、予め対象となる認識ワードを木構造にクラス分けしておき、その構造に従って探索していくことで認識ワードを制限する方法などがある。
【0010】
一般に、現在の音声認識では、精密なスコア計算、例えばマッチングや確率計算を行なっても認識がなかなか難しいのが現状であり、前者の方法のように、簡単な評価による予備選択を行なった場合、絞り込みの段階で本来残すべきワードを除外してしまい、認識率の低下を引き起こすという問題が生じる虞がある。さらに、簡単な評価式といっても、全ワードに対して行なえば、相当な演算量になってしまうという欠点もある。
【0011】
これに対して、後者の木構造にクラス分けしておく方法としては、一般の探索問題においては、対象候補を二値木(バイナリーツリー)に構造化しておき、その二値木をたどることによって探索を行なう、という二値木探索と呼ばれる手法が広く用いられている。しかし、このような構造化を用いる手法では、予め決定しておいた探索木をもとに探索範囲を制限する、すなわち局所的な探索をするわけであるから、どのように構造化し、その構造を用いてどのように探索するかが重要であり、全探索に比べて、歪みをできるだけ増加させずに、すなわち認識率をできるだけ低下させずに、演算量を低減させることが要求される。
【0012】
その意味では、二値木探索は、演算量の大幅な削減が得られるかわりに歪みを増大させてしまうという問題が発生しやすく、特に、音声認識においては、これは認識率の低下を意味し、大きな問題となる。
【0013】
また、上記HMMを用いた音声認識は、認識対象ワードそれぞれに対して確率モデルを予め作成しておき、未知入力音声信号を分析して得られる特徴量から生起確率を求め、これをもとに全ワードに対してスコア付けを行い、最もスコアの高いものを認識結果として選択するものである。このHMMを用いた音声認識では、スコア計算過程において、途中結果を用いて枝苅りを行なうことで、演算量を削減するビームサーチ法という演算量の削減方法がある。しかし、これもやはりスコアの途中結果で制限をかけるために、本来残すべきワードを除去してしまい、ひいては歪みを増大させ、認識率の低下を招いてしまうという問題を引き起こしてしまう。
【0014】
なお、音声認識に限らず、このような探索問題では、探索を高速化するために必要となる探索木などが占める記憶容量の大きさも重要な問題となる。
【0015】
本発明は、このような実情に鑑みてなされたものであり、演算量を低減しながら認識率の劣化を防止し得るような音声認識方法および装置の提供を目的とする。
【0016】
また、本発明は、スコア計算を行う音声認識対象ワードの数を制限して演算量を低減し、音声認識の高速化が図れるとともに、必要とされる記憶容量の増大も少なくて済み、しかも探索による歪みの増大や認識率の低下を招くことがないような音声認識方法および装置の提供を目的とする。
【0017】
さらに、本発明の他の目的は、スコア計算を行う音声認識対象ワードを制限するための階層構造化に用いられる相関値を、音声データを用いずに計算できるようにすることである。
【0018】
【課題を解決するための手段】
本発明は、上述した課題を解決するため、複数の音声認識対象ワードが与えられ、未知の入力音声信号に対して、予め求めておいたパラメータを用いて、上記音声認識対象ワードにスコア付けを行なうことで、対応する音声認識対象ワードを抽出し認識する際に、各認識対象ワードに対応した音声データから求まるスコアの期待値に基づく値をもとにスコアの高い順に全認識対象ワードを順序付けたときの順位を、上記各音声認識対象ワード間の相関値として求め、上記各音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを予め重複を許す木構造に構造化しておき、この木構造を用いて、上記未知の入力音声信号に対してスコア計算を行なう音声認識対象ワードを限定することを特徴とする。
【0019】
ここで、上記複数の音声認識対象ワードに対する確率モデルを用意し、上記未知の入力音声信号に対して、上記各確率モデルの生起確率を計算し、その生起確率に従って、対応する音声認識対象ワードを抽出し認識するようにし、上記各音声認識対象ワードに対応する確率モデルの状態遷移確率をもとに状態遷移系列を決定し、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られたシンボル系列の生起確率を上記各音声認識対象ワードに対応するモデルに対して計算し、この生起確率に基づく音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを階層構造に構造化しておくことが好ましい。
【0021】
さらに、上記階層構造に構造化された音声認識対象ワード等のパターン認識対象の情報を記録媒体に記録しておくことができる。
【0022】
なお、上記パターン認識対象としては、上記音声認識対象ワード以外に、図形認識や文字認識のような画像情報におけるパターン認識の対象にも適用できるものである。
【0023】
このように、音声認識対象ワード(一般的にはパターン認識対象、以下同様)を予め階層構造あるいは重複を許す木構造に構造化しておき、その構造に従って検索することで音声認識対象ワードの数を制限し、演算量を低減する。しかも、新たなワード間の相関値の定義と、その相関値に基づく認識ワードの構造化方法によって、局所的な探索であっても、スコアの高くなることが期待されるワードは探索範囲に含まれるようになり、最終的に歪みをほとんど増大させることがなく、認識率の低下を防止できる。
【0024】
また、ワード間の相関値を、HMM(隠れマルコフモデル)のような確率モデルのパラメータから計算するようにすることで、認識辞書に対応する実音声データを大量に必要とすることを回避できる。
【0025】
【発明の実施の形態】
以下、本発明に係る好ましい実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態においては、音声認識を例として取り上げているが、この他、映像や画像あるいは文字等の各種パターン認識に本発明を適用することも容易である。
【0026】
第1の実施の形態
以下の本発明の第1の実施の形態の説明においては、まず音声認識に関して簡単に説明し、その音声認識を高速化するための方式として、音声認識対象ワード(以下単にワードともいう)間の相関値の定義、その相関値を用いたワードの構造化の方法、およびその構造を用いた認識手法に関して説明する。次に、記憶容量、および演算量の見積りを行なった後、シミュレーション結果を説明し、その有効性を説明する。
【0027】
<音声認識>
音声認識に用いられる装置は、一般的に図1に示すように、入力部11、音響分析部12、認識部13、パラメータ記憶部14、出力部15から構成されることが多い。
【0028】
入力部11は、マイクなどの音声信号を入力する装置とその入力信号を増幅するアンプ、およびデジタル信号に変換するAD変換器などによって構成される。そして、入力信号を、例えば12kHzでサンプリングした後、音響分析部12へ送信する。
【0029】
音響分析部12では、入力された音声信号から認識に必要な特徴量の抽出を行なう。例えば、単純な信号のエネルギや零交差(ゼロクロス)数、ピッチなどの抽出を行なったり、線形予測分析(LPC)、高速フーリエ変換(FFT)、バンドパスフィルター(BPF)、さらにはWavlet変換などによって周波数分析を行なったりする。そして、例えば帯域分割されたエネルギーなどを要素とするベクトル時系列として、特徴量の抽出を行なったりする。また、その特徴量の変化量として、例えば差分データも特徴量の一つとして同時に抽出することもある。こうして得られた特徴量に対し、カルーネンレーブ(KL)変換や、ニューラルネットワークなどの適当な写像を施すことで、分離度の大きな特徴量にさらに変換する場合もある。また、ベクトル量子化などにより、特徴量ベクトルを圧縮し、量子化された特徴量に変換する場合もある。
【0030】
このように、音響分析部12では、認識に必要な特徴量の時系列を入力された音声信号から抽出し、これを認識部13に送信する。
【0031】
認識部13では、予め学習用の音声データを音響分析して得られる特徴量をもとに作成しておいたパラメータ記憶部14のパラメータを用いて、未知音声データに対する認識処理を行なう。ここで、認識とは、入力された音声信号に対して、与えられた認識辞書の中から、入力に対応したワードを選び出すことである。この認識手法としては、主なものとして、DPマッチング、ニューラルネットワーク、HMM(隠れマルコフモデル)などを用いたものが使われる。
【0032】
DPマッチングは、各音声信号を分析して得られる特徴量からテンプレートと呼ばれる標準パターンを予めパラメータとして求めておき、未知音声の特徴量と比較して最も近いと判定されるものを見つけるという方式である。発話速度の変動を吸収するため、ダイナミックタイムワーピング(dynamic time warping)と呼ばれる手法により、テンプレートとの歪みを最小化するように時間軸の伸縮を行なう方法がよく用いられる。
【0033】
ニューラルネットワークは、人間の脳の構造を模倣するネットワークモデルによって認識を行なおうとするもので、学習過程により予めパスの重み係数をパラメータとして決定しておき、そのネットワークに未知音声の特徴量を入力して得られる出力をもとに、辞書内の各ワードとの距離を求め、認識ワードを決定しようとするものである。
【0034】
また、HMMは、確率モデルにより認識を行なおうとするもので、予め状態遷移モデルに対して、その遷移確率と出力シンボル確率を学習データをもとに決定しておき、未知音声の特徴量に対する各モデルの生起確率から認識ワードの決定を行なおうとする方式である。このHMMについては、本発明の第2の実施の形態として後で詳述する。
【0035】
以上述べたように、一般に、認識処理としては、学習過程として、予め学習用データから決定されたパラメータ、すなわちテンプレートや、ネットワークモデルの重み係数、確率モデルの統計的パラメータなどを求めておき、これをパラメータ記憶部14に記憶しておく。
【0036】
そして、認識過程では、入力された未知音声信号を音響分析した後、与えられた辞書の中のワードそれぞれに対して、その認識手法に応じた距離や生起確率などのスコア付けを行ない、そのスコアが最も高いもの、あるいは上位複数個、を認識結果として選び出すということを行なう。そして、得られた認識結果を出力部15に送信する。
【0037】
出力部15では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なう。
【0038】
<ワード間の相関値>
上述したような音声認識の処理において、認識部13のスコア計算は、入力された未知音声信号に対して、与えられた辞書、すなわち音声認識対象ワードの集合内の全ワードとの間で計算される。小語彙の認識であれば、その処理量はあまり問題にならない。しかし、中語彙や大語彙の認識では、非常に重要な問題となる。
【0039】
そこで、認識対象ワードを予め階層構造あるいは重複を許す木構造に構造化しておき、その構造を用いることで、スコア計算を行なうワード数を削減することが、本発明の目的である。これを簡単に示したのが図2である。
【0040】
すなわち、図2において、全ての音声認識対象ワードの分布空間20内において、各ワードW間の関係を用いてその分布構造を予め求めておけば、ある入力21とワードWの分布構造との関係から、その入力21に対し、スコア計算を行なう必要のあるワードの集合22(すなわち上位でスコアを競い合うもの)と、必要のないワードすなわちスコアが高くなりそうもないものと、を決定することができるようになる。そして、スコア計算の必要のないワードを削除する、すなわちスコアの計算対象から外すことにより、認識部の処理量あるいは演算量を低減させようとするものである。
【0041】
このような目的にあったワードの分布構造を決定するためには、ワード間の関係を知るための距離尺度のようなものが必要となる。
【0042】
一般に、音声認識において、各ワードに対応したモデル、すなわちテンプレートやネットワークモデル、確率モデルなどを作成し、学習過程においてそのモデルのパラメータを決定し、認識過程においてそのモデルを用いたスコア計算、すなわち距離計算や確率計算を行なうわけであるから、その意味では実音声信号とワードとの距離尺度は、実音声信号を音響分析して得られる特徴量とワードに対応したモデルとから計算されるスコアによって定義されていると考えられる。
【0043】
ところで、音声認識で用いられるスコアは、話者の違いや、発話速度、環境の変化などによって、大きく変動する傾向が見られる。例えば、同じように発声された二つの音声信号に対して、同じモデルでスコア計算を行なった場合、そのスコアに差異が生じることは珍しくない。また、同じように発声した二つの音声信号に対して、異なる二つのモデルを用いてスコア計算をした場合、一方の音声信号については、片方のモデルに対するスコアの方が高く、もう一方の音声信号については、もう片方のモデルの方がスコアが高いという現象(順序が入れ代わる現象)もしばしば見られる。
【0044】
そこで、この変動を吸収するため、それぞれの認識手法において用いられるスコアの期待値によって、ワード間の相関値を定義することを考える。
【0045】
まず、認識対象ワードをWi (1<i<N)と表し、各ワードWi に対応する実音声信号の集合をXi ={Xi 1,Xi 2,Xi 3,・・・}とする。ここで、Nは認識対象ワード数、すなわち辞書に含まれるワード数とする。
【0046】
そして、ある音声信号Xj kを音響分析して得られる特徴量と、学習によって既にパラメータが決定されているワードWi に対応したモデルとの間で計算されるスコア、例えば、DPマッチングにおけるテンプレートとの距離や、HMMにおける生起確率など、をS(Xj k,Wi)と記述することにする。
【0047】
ただし、このスコアは
【0048】
【数1】
【0049】
のように正規化してあるものとする。この(1)式で、Sorg(Xj k,Wi) は正規化前のスコア、S(Xj k,Wi)は正規化されたスコアである。
【0050】
今、ワードW1 に対応するある音声信号X1 1を用いれば、各ワードに対してスコアS(X1 1,Wi)を求めることができる。同様に、音声信号X1 2を用いてスコアS(X1 2,Wi)が求まる。以下同様にすれば、W1 に対応する音声信号の集合X1 ={X1 1,X1 2,X1 3,・・・}を用いてスコアがそれぞれ計算できる。そこで、この音声信号の集合X1 に対して各ワードごとに求まるスコアの期待値、例えば平均値をSe(X1,Wi)と表すことにすれば、
【0051】
【数2】
【0052】
のように計算することができる。ここで、KはW1 に対応する音声信号のデータ数であり、十分大きいものとする。
【0053】
同じようにして、ワードWj に対応する音声信号の集合Xj ={Xj 1,Xj 2,Xj 3,・・・}と各ワードとの間で、スコアの期待値を次式のように求めることができる。
【0054】
【数3】
【0055】
もし、認識性能がある程度保証された音声認識の方式を用いるならば、ワードW1 に対応した音声信号の集合X1 に対しては、上記(3)式で求まるスコアの期待値の中で、Se(X1,W1)が最も高くなることが期待できる。同様に、ワードWj に対応した音声信号の集合Xj に対しては、(3)式で求まるスコアの期待値の中で、Se(Xj,Wj)が最も高くなることが期待できる。そして、Xj に対してスコアの期待値Se(Xj,Wi)が高いWi というのは、未知音声信号Xj kに対してもスコアS(Xj k,Wi)が高くなることが期待でき、逆に、Xj に対するスコアの期待値Se(Xj,Wi)が低いWi というのは、未知音声信号Xj kに対してもスコアS(Xj k,Wi)が低くなることが期待できる。
【0056】
そこで、上記(3)式によって求まるスコアの期待値Se(Xj,Wi)をワードWj に対するワードWi の距離尺度D(Wj,Wi)としてとらえる。
【0057】
【数4】
【0058】
ただし、この(4)式の距離尺度D(Wj,Wi)は、スコアS(Xj k,Wi)としてテンプレートとの距離などを用いる場合には、小さければ小さいほどWj に対してWi が近いことを意味し、HMMなどの生起確率を用いる場合には、逆に大きければ大きいほどWj に対してWi が近いことを意味する。
【0059】
このとき、距離尺度D(W1,Wi)にもとづいて、ワードW1 に対してワードWi (i=1,2,・・・,N)を近い順に並べることができる。同様に、ワードW2,W3,・・・,WN に対しても、ワードWi (i=1,2,・・・,N)を近い順に並べることができる。
【0060】
そこで、その順位、つまりWj に対して近い順にワードWi を並べたときの順位を、ワードWj に対するワードWi の相関値R(Wj,Wi)として定義する。例えば、一番近いものは1、二番目に近いものは2、以下同様にして、最も遠いものはNとする。
【0061】
なお、上記(4)式のの距離尺度D(Wj,Wi)が同じになり、順位が同じとなるようなものがある場合は、これに無理矢理順序をつけることはせず、ともに同じ相関値を設定するものとする。例えば、3位のものが二つある場合は、ともに3を設定する。
【0062】
以上のようにして定義された相関値R(Wj,Wi)は、1からNまでの整数値をとることになり、小さいほど相関が高く、大きいほど相関が低いと見なすことができる。すなわち、相関が高いあるいは相関値R(Wj,Wi)が小さいとは、ワードWj に対応した未知音声信号Xj kに対してワードWi のモデルから求まるスコアS(Xj k,Wi)が高くなることが期待できることを意味し、相関が低いあるいは相関値R(Wj,Wi)が大きいとは、ワードWj に対応した未知音声信号Xj kに対してワードWi のモデルから求まるスコアS(Xj k,Wi)が低くなることが期待できることを意味する。ここで、R(Wj,Wi)とR(Wi,Wj)は、定義からわかるように、必ずしも同じになるとは限らないということは注意が必要である。
【0063】
次に、このような相関値をもとに、目的とする音声認識対象ワードを構造化する方法について説明する。
【0064】
<認識対象ワードの構造化>
音声認識対象ワードの構造化の方法に関して述べる前に、どのように構造化すべきかについて簡単に説明する。
【0065】
基本的には、音声認識対象ワードを代表ワードとそれに属するワードとに分離し、実際に認識を行なう場合には、入力音声信号に対して、まず代表ワードの中だけで認識処理を行なう。これは、図2における全認識対象ワードの分布空間20において、どのあたりに入力されたかを調べることにあたる。この認識処理の結果により、さらに認識処理を行なうべきワードを限定し、最終的には、代表ワードとある一部のワードに対する認識処理、すなわち局所的な探索だけで認識結果を求めようとすることになる。
【0066】
例えば、図3に示されるような関係、すなわち代表ワード31としての例えば5つのワードW1 、W5 、W7 、W10と、それに属するワード32としての例えば6つのワードW2 、W3 、W4 、W6 、W8 、W9 との間の従属関係が得られた場合、先ず、代表ワードだけで認識処理を行ない、その結果をもとに、ある判定基準に基づいて、次に認識処理を行なうべきワードを選び出すことになる。例えば代表ワードW7 に属するワードが選び出されたとすれば、結局は、代表ワード31となる5つのワードW1 、W5 、W7 、W10と、ワードW7 に属するワードW6 、W8 、W9 に対してだけ認識処理を行ない、その中から最もスコアの高いものが選ばれることになる。
【0067】
したがって、全探索で正解が得られる、すなわち入力音声信号に対応するワードのスコアが最も高くなるようなら、代表ワードに対応する入力音声信号に対しては必ず正解が得られることになる。
【0068】
これに対して、代表ワード以外のワードに対応する入力音声信号に対しては、先ず、代表ワードの中だけで認識処理を行なった場合、当然、正解は得られるはずはない。しかし、代表ワードに対するスコアづけを行なえば、その中でスコアの高いもの、すなわち相関が高いと思われるもの、を抽出することができる。
【0069】
そこで、正解となるワードにとって相関の高い、すなわち相関値の小さいワードが代表ワードの中に含まれており、かつ、その代表に属するワードの中にその正解となるワードが含まれているならば、代表ワードの中でスコアの高いものを求め、それに属するワードを抽出し、その中でさらに認識処理を行なうことで、最終的に正解が得られることが期待できる。
【0070】
以上の考えに基づいて、認識対象ワードを構造化する方法について、図4を参照しながら説明する。
【0071】
手順1.グループ化(ステップS41)
相関値R(Wj,Wi)とR(Wi,Wj)が共に小さいワードWi とWj とは、どちらのワードに対応した入力音声信号Xに対しても、スコアS(X,Wi),S(X,Wj)が高くなることが期待できることから、この二つをグループ化する。この際、どちらか一方を代表ワードとし、他方をその属するワードとする。また、グループ化されないワードに関しては、自分自身を代表ワードとし、単一グループとする。
【0072】
手順2.グループへの追加(ステップS42)
いずれかのグループに属してしまい、代表ワードにならなかったWj に関しては、さらに、R(Wj,Wi)が小さいWi の中で代表ワードに選ばれたWi のグループにも属するようにする。これは、代表に選ばれなかったWj の属するグループとして、Wj に対して相関の高いWi が代表ワードとなっているものを、できる限り多くしておくために行なわれる処理である。
【0073】
手順3.階層化
上記グループ化およびグループへの追加を一まとまりのステップとしてグループ分けを行ない、同様にして各グループの代表ワードに対して改めてグループ分けを行ない、さらにその代表ワードに対してグループ分けを行なうということを繰り返し、階層構造の探索木を作成する。つまり、上記グループ化およびグループへの追加の処理によって、ある階層において、相関のあるワードがグループ化され、各グループに対する代表がひとつ選ばれることになる。そして、その代表ワードが、その上の階層の構成要素となるわけである。
【0074】
図4のフローチャートにおいては、先ず、ステップS41で上記グループ化を行い、ステップS42で上記グループへの追加を行い、ステップS43で上記代表ワードを選び出す。この選び出された代表ワードに対して、再びステップS1のグループ化とステップS2のグループへの追加を行い、これを繰り返していき、階層構造に構造化していくわけである。
【0075】
図5はこのようなグループ分けの具体例を示している。
まず、図5のAに示す与えられた音声認識対象ワードWi (i=1,2,・・・,10)に対して、上記各ステップS41、S42により図5のBに示すようなグループ分けが行なわれ、上記ステップS43により代表ワードW1 、W5 、W7 、W10が選び出される。次に、この代表ワードに対して、同様に上記各ステップS41、S42の処理を行ない、図5のCに示すようなグループ分けがなされ、ステップS43により代表ワードW1 、W7 が選び出される。そして、最終的に図6に示すような探索木が得られることになる。
【0076】
次に、上記の構造化に関して、具体例を述べる。
【0077】
グループ化について
手順1.まず、各ワードWi に対応したグループGi をつくり、そのグループの要素数をn(Gi) で表すことにする。
【0078】
初期状態は、
Gi={Wi}, n(Gi)=1 ・・・ (5)
とし、各グループGi の代表ワードをWi とする。
手順2.各ワードWj に対して、相関値R(Wj,Wi)(ただしi=1,2,・・・,N)を求める。
手順3.i=1
手順4.j=i+1
手順5.R(Wj,Wi)≦r、かつR(Wi,Wj)≦rとなる場合、この(i,j)に対して以下を行なう。それ以外の場合は次の手順6.へ。
(1) n(Gi)≧1 かつ n(Gj)≦1の場合、下記の処理(I) を実行。
(2) n(Gi)≦1 かつ n(Gj)≧1の場合、下記の処理(II)を実行。
(3) n(Gi)>1 かつ n(Gj)<1の場合、
グループGi に含まれるWi 以外の要素と、
グループGj に含まれるWj 以外の要素が同じであれば、
下記の処理(I)(または、処理(II))を実行。
ただし、処理(I),(II)とは次のような処理である。
処理(I):グループGiにワードWjが既に属していれば何も行なわず、属していなければ、グループGiにワードWjを追加し、n(Gi)は1増加し、n(Gi)=0とする。
処理(II):グループGjにワードWiが既に属していれば何も行なわず、属していなければ、グループGjにワードWiを追加し、n(Gi)は1増加し、n(Gi)=0とする。
手順6.jを1増加させ、j≦Nならば上記手順5.へ戻り、j>Nならば次の手順7.へ。
手順7.iを1増加させ、i≦N−1ならば上記手順4.へ戻り、i>N−1ならば終了する。
【0079】
上記のグループ化の方法に関して、図7のフローチャートを参照しながら簡単に説明する。
【0080】
ステップS71でグループの初期化を行ない、ステップS72で相関値を求め、ステップS73において、上記手順3.〜手順7.に相当する処理、すなわち異なるWi とWj に対して、相関値をもとにグループ化を行なっていく。その判定基準としては、上記手順5.の処理におけるような
R(Wj,Wi)≦r かつ R(Wi,Wj)≦r ・・・(6)
を用いる。ここで、rは、1よりは大きく認識対象ワード数Nよりは(十分)小さな整数(例えば、2から10くらい)を設定する。すなわち、相関値R(Wj,Wi)とR(Wi,Wj)が共に小さくなるようなWi ,Wj に対してグループ化を行なっていくわけである。
【0081】
そして、そのようなWi とWj とが見つかった場合には、基本的には上記手順5.に示す(1),(2) の場合のように、まだ代表ワードになっていない方を、既に代表ワードになっている方のグループに属させるようにする。すなわち上記処理(I) または処理(II)を行う。例えば、G1 ={W1 ,W2 },G3 ={W3 }の場合に、W1 とW3 の間で上記(6)式が成り立てば、G1 ={W1 ,W2 ,W3 }に変更し、G3 は空集合にすればよい。
【0082】
ただし、どちらのグループにも、既に代表ワード以外に属する要素が存在する場合、すなわち上記手順5.の(3) の場合には、その代表ワード以外の要素が同じ時のみ、上記処理(I)(または処理(II)) を実行する。例えば、G5 ={W1 ,W5 },G7 ={W2 ,W7 }の場合に、W5 とW7 に対して上記(6)式が成り立っても、グループ化は行なわないが、G5 ={W1 ,W2 ,W5 },G7 ={W1 ,W2 ,W7 }の場合に、W5 とW7 に対して(6)式が成り立てば、G5 ={W1 ,W2 ,W5 ,W7 }に変更し、G7 は空集合にすることになる。逆に、G5 を空集合にし、G7 ={W1 ,W2 ,W5 ,W7 }と変更してもよい。
【0083】
また、n(Gi)=1かつn(Gj)=1の場合に、Wi とWj に対して上記(6)式が成り立つようなときは、上記処理(I) と処理(II)のどちらを実行してもよい。
【0084】
なお、判定条件の上記(6)式におけるrは、小さければ小さいほど、グループ化が行なわれる条件が厳しくなる。その意味では、最初r=2に設定して、上記手順1.から手順7.の処理を行ない、次にr=3に設定して、上記手順3.から手順7.の処理を行ない、同様にしてrを1ずつ増加させながら、r≦ra を満たす間、上記手順3.から手順7.の処理を繰り返すようにすることで、最も相関のあるワードどうしがまずグループ化されてから、次に相関のあるもの、その次に相関のあるものという風に、順にグループ化されていくことになり、代表に選ばれないワードにとっては、より相関の強いワードが初期の段階で代表ワードになってくれるという点で、効果のある構造化が得られるようになる。ここで、ra には、2よりは大きく認識対象ワード数Nよりは十分小さな整数(例えば、3から10くらい)を設定するものとする。
【0085】
これを図8に示す。図8の各ステップS81、S82、S83は、それぞれ上記図7の各ステップS71、S72、S73に対応するが、上記手順3.から手順7.の処理に相当するステップS83については、rを1ずつ増加させながらr≦ra を満たす間、処理を繰り返すようにしている。
【0086】
さらにまた、判定条件の上記(6)式の代わりに、
R(Wj,Wi)≦rj かつ R(Wi,Wj)≦ri ・・・ (7)
のようにWj にはそれに応じたrj を設定するようにし、例えば、
rj=n(Gj)+r−1 (j=1,2,・・・,N) ・・・ (8)
のように、n(Gj) に応じて変動させるような方法も考えられる。この場合、最初はr=2、すなわちrj =2に設定して、上記手順1.から手順7.の処理を行ない、得られた各グループの要素数に従って、r=3として上記(8)式によりrj を設定し直し、上記手順3.から手順7.の処理を行ない、同様にして、rを1ずつ増加させるとともに、グループの要素数に応じて上記(8)式によってrj を設定し直しながら、r≦ra を満たす間、上記手順3.から手順7.の処理を繰り返すようにする。このようにすることで、本来非常に相関のあるWi とWj がグループ化されないような状況、特に、Wj にとってさらに相関のあるWk が多数存在していたために、相関値R(Wj,Wi)が少し大きくなってしまい、Wi とWj がグループ化されないような状況を緩和することができる。
【0087】
例えば、W5 に対して、R(W5,W1)=2であったとしても、W1 に対して、R(W1,W3)=2,R(W1,W8)=3,R(W1,W5)=4であるような場合、r≧4として上記(6)式の判定を行なわなければ、W1 とW5 はグループ化されない。しかし、もし、G1 ={W1 ,W3 ,W8 }のようにグループ化された後に、r=2として上記(7)式の判定を行なえば、W1 とW5 はグループ化されることになる。これは、上記(8)式により、r1 =5,r5 =3となるからである。
【0088】
したがって、さらに効率的に構造化が行なえるようになる。ここで、ra には、前と同様、2よりは大きく認識対象ワード数Nよりは十分小さな整数(例えば、3から10くらい)を設定するものとする。
【0089】
グループへの追加について
手順1.j=1
手順2.Wj が代表ワードでない場合、すなわちn(Gj)=0 の場合、以下を行なう。それ以外の場合は、次の手順3.へ。
(a) i=1
(b) Wi が代表ワードの場合、すなわちn(Gi)>0 の場合、以下を行なう。それ以外の場合は、(c)へ。
R(Wj,Wi)≦rb の場合、下記の処理(III)を実行。
(c) iを1増加させ、i≦Nならば(b)へ戻り、i>Nならば次の手順3.へ。
ただし、処理(III)とは次のような処理である。
処理(III):グループGiにワードWjが既に属していれば何も行なわず、属していなければ、グループGiにワードWjを追加し、n(Gi)を1増加させる。
手順3.jを1増加させ、j≦Nならば上記手順2.へ戻り、j>Nならば終了。
【0090】
上記のグループへの追加に関して、簡単に説明を加えると、まず、前記のグループ化によって、代表ワードとそれに属するワードに分離されることになる。そして、認識過程では、この代表ワードだけで、まず認識処理を行ない、その結果から、さらに認識処理の必要なワードを選び出すことが行なわれる。
【0091】
つまり、代表に選ばれなかったワードにとっては、相関の強いワードができるかぎり代表ワードに含まれており、かつその代表ワードのグループに属していることが重要になるといえる。
【0092】
そこで、上記の手順1.,手順2.,手順3.の処理を通して、代表ワードに選ばれてないワードWj に着目し、代表に選ばれているWi の中で相関の強いワード、すなわち
R(Wj,Wi)≦rb (9)
を満たすWi を探しだし、対応するグループGi にWj がまだ属していない場合は、そのグループの要素としてWj を追加するわけである。
【0093】
なお、上記(9)式のrb は、2よりは大きく認識対象ワード数Nよりは小さな整数(例えば、3から20くらい)を設定するものとする。ただし、認識性能を劣化させないためには、前述のグループ化における(6)式のrや(7)式のri ,rj はあまり大きくしない方が良い、すなわち判定条件を厳しくした方が良いのに対して、上記(9)式のrb はできるだけ大きめに設定する方が良いと言える。
【0094】
なぜなら、代表ワードに選ばれないワードに関しては、認識過程において、認識処理(スコア計算)が行なわれる対象ワード内に含まれない危険性があり、その意味では、グループ化を行なう際に、相関のあまり強くないワードどうしはグループ化を、すなわち片方を代表ワードとし、もう片方をそれに属するワードとすることを、しない方が良いといえる。したがって、上記(6)式のrや(7)式のri ,rj はあまり大きくしない方が良い。
【0095】
これに対して、一旦グループ化が行なわれた後、代表ワードに選ばれかったワードは、できるだけ多くのグループに属している方が、認識過程において、認識処理(スコア計算)が行なわれる対象ワード内に含まれる確度が高くなり、その意味では、上記(9)式のrb はできるだけ大きい方が良いわけである。特に、そのワードにとって相関の高いワードが代表となっているグループに含まれることは、より効果が期待できるわけである。
【0096】
しかし、上記(9)式のrb を大きくすることは、認識過程における探索範囲の拡大、すなわちスコア計算が行なわれるワード数が大きくなることにつながり、本来の目的である、認識過程の処理量(演算量)を縮小したいという意味ではあまり大きくし過ぎてはいけない。したがって、結局rb としては、上記(6)式のrや上記(7)式のri ,rj よりは少し大き目くらいに設定するのが好ましい。
【0097】
階層化について
手順1.全認識対象ワード{Wi :i=1,2,・・・,N}に対し、Wi をWi 0などと表記することにする。また、N0 =Nとする。
手順2.m=1
手順3.ワード{Wi m−1:i=1,2,・・・,Nm−1 }に対して、前述のグループ化とグループへの追加の処理を1ステップとするグループ分けを行なう。得られた代表ワードを{Wi m:i=1,2,・・・,Nm }と表すことにする。ただし、Nm は得られた代表ワードの数である。
手順4.mを1増加させ、m≦Mならば手順3.へ戻り、m>Mならば終了。
【0098】
上記の階層化に関して、上記図4を参照しながら簡単に説明する。
まず、m=1 における上記手順3.の処理は、全認識対象ワードに対して、前述のステップS41でのグループ化と、ステップS42でのグループへの追加を行なうことにあたり、最初に行なうステップS41のグループ化によって、相関の強いものどうしがグループ化され、その従属関係が決定されることになる。
【0099】
次に、m=2とし、m=1において得られた代表ワードに対するグループ分けを行なうわけであるが、やはり最初に行なうグループ化によって、相関の強いものどうしがグループ化され、その従属関係が決定されることになる。
【0100】
以後、同様にm>Mとなるまで、同じようにグループ分けを行っていき、図6に示されるような階層構造の探索木が得られることになるわけであるが、その作成過程を考えれば、ある階層のワードには、相互に相関の強いワードが代表ワードとしてその上の階層に存在し、パスがつながっていることが期待できる。つまり、最も下の階層、すなわち全認識対象ワードの集合、にあるワードにとって、相互に相関の強いワードへのパスが上の階層へとつながっていくことが期待できる。
【0101】
例えば、図9に示されるように、ワードW1 とW5 の間に上記(6)式あるいは(7)式のような関係が成立し、W1 が代表ワード、W5 がW1 に属するワードになったとする。さらに、ワードW1 とW9 がともに代表として選ばれた後、再度グループ化を行なった結果、ワードW1 とW9 の間に、上記(6)式あるいは(7)式ような関係が成立し、W9 が代表ワード、W1 がW9 に属するワードになったとする。この場合、ワードW5 とW9 の相関も強いことが期待できるわけである。
【0102】
しかしながら、最も下の階層のワードにとって、上の階層へのパスをたどっていって得られるワードとの相関の強さは、上の階層へ行けば行くほど、弱くなることが予想される。したがって、もし得られた探索木をもとに、認識処理をすべきワードを制限するものとした場合、あまり上の階層のワードから最も下のワードに対する制限をかけるのは、歪みの増大、すなわち認識率の低下を招くことが予想され、好ましくないといえる。その意味からすれば、上記のような階層化によって得られる探索木の最上位の階層Mは、あまり大きくし過ぎない方が良い。
【0103】
なお、Wi mを第m階層のワードと呼ぶことにする。例えば、認識対象ワードの集合は第0階層のワードであり、そこから選ばれた代表ワードの集合は第1階層のワードと呼ぶことにする。
【0104】
<認識手法>
つづいて、上記認識対象ワードを上述したように階層構造に構造化することによって得られる探索木を用いた認識手法に関して述べる。
【0105】
この音声認識には、図1に代わって、図10のような構成が用いられる。
【0106】
ここで、入力部101、音響分析部102、パラメータ記憶部104、出力部105に関しては、その動作は前述した図1の各部11、12、14、15とそれぞれ同じである。
【0107】
すなわち、入力部101から入力された音声信号が、音響分析部102で音響分析され、得られた特徴量が認識部103へ送られる。
【0108】
学習過程では、学習用の音声データをもとに、認識処理に用いられるパラメータが決定され、そのパラメータがパラメータ記憶部104に記憶される。そして新たに、前述した認識対象ワードの構造化を、実音声データを用いて行ない、得られた探索木を探索木記憶部106に記憶する。すなわち、各認識対象ワードに対応した実音声データに対して、認識部103におけるスコア計算を行ない、前述の構造化の方法に基づいて探索木を作成し、探索木記憶部106に記憶する。
【0109】
認識過程においては、入力部101より入力された未知音声信号に対して、音響分析部102において音響分析を行ない、得られた特徴量が認識部103へ送られる。そして、以下のような認識処理を行なう。
【0110】
手順1.第M階層のワードに対してスコア計算を行ない、最もスコアの高いものから上位p個を選び出す。
手順2.m=Mとする。
手順3.第m階層において選ばれた最もスコアの高いものから上位p個のワードに対して、探索木記憶部106の探索木をもとに、そのワードに属する第m−1階層のワードを抽出する。そして、それらのワードに対して、再びスコア計算を行ない、最もスコアの高いものから上位p個を選び出す。
手順4.mを1減少させ、m>0ならば3へ戻り、m=0ならば次の手順5.へ。
手順5.第0階層において抽出されたワードの中から、最もスコアの高いもの、あるいは上位複数個、を選び出す。
そして、上記手順5.において選び出された最もスコアの高いワード、あるいは上位複数個を、出力部105へ送信する。
【0111】
出力部105では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なう。
上記手順1.の処理を初期探索といい、上記手順2.から手順4.までの処理を構造探索と呼ぶ。
【0112】
ここで、図11は、上記認識処理の概要を説明するためのフローチャートである。
この図11の最初のステップS111において、初期探索として、上記第M階層の探索を行い、その後、処理ルーチン112により、第M−1階層の探索から第0階層の探索までの構造探索を行う。この処理ルーチン112において、ステップS113では第m階層のワードを抽出し、この抽出されたワードに対して、ステップS114でスコア計算が既に行われているか否かを判別し、NOのときはステップS115に進んでスコア計算を行った後、ステップS116に進み、YESのときは直接ステップS116に進んでいる。ステップS116では、計算されたスコアの高いものから上位p個を選び出している。
【0113】
上記初期探索は、認識過程において最初に行なう最上位階層の代表ワードに対するスコア計算にあたり、構造探索は、探索木をもとに、一つ上の階層の探索で選び出されたp個の代表ワードに属するワードに対してスコア計算を行なっていく処理にあたる。また、以上のような構造探索においては、代表ワードとして既にスコア計算をしたものや、抽出した二つ以上のグループに重複して含まれているものがあるため、一旦スコア計算を行なったワードに関しては、そのスコアを記憶しておき、同じワードに対するスコア計算の重複を避けるようにするものとする。
【0114】
<記憶容量の見積り>
以上のような探索木を用いた認識処理において、探索木に必要な記憶容量の見積りをしておく。全ワード数をNとする。グループ化によって、ある階層のワードがそのワード数の約2分の1のグループに縮退し、かつ各グループの平均要素数が10ワードになると仮定すれば、階層mのワード数は
(1/2)mN (10)
で与えられ、各ワードから一つ下の階層のワードへの従属関係として平均10本の探索木のパスを記憶しなければならず、したがって、第1階層から第M階層までの全ワードに対しては、
【0115】
【数5】
【0116】
のパスを記憶する必要があることになる。ここで、Mは探索木の最上位階層である。したがって、記憶容量としては、Mを十分大きくしたとしても、
【0117】
【数6】
【0118】
のパス情報を記憶すればよいことになる。
【0119】
なお、この値は認識対象となるワードのセットに大きく依存したものであり、上記(6)式のrや、上記(9)式のrb によっても大きく変動することから、ひとつの目安として示したものである。
【0120】
<演算量の見積り>
次に、探索木を用いた認識処理における、演算量の見積りをしておく。前述した記憶容量の見積りにおいて想定するような探索木が得られたとする。つまり、全ワード数をNとし、各階層において約2分の1のグループに縮退し、かつ各グループの平均要素数が10ワードであるとすれば、認識における初期探索のワード数は
(1/2)MN (13)
構造探索のワード数は、
【0121】
【数7】
【0122】
で与えられることになる。ただし、Mは認識時の初期探索を行なう階層、pは第m階層で抽出するスコアの高いワード数とする。
【0123】
参考として、1000ワードと4000ワードの認識において、 p=10 の場合のスコア計算すべきワード数、すなわち初期探索のワード数と構造探索のワード数を見積もったのが次の表1, 表2である。
【0124】
【表1】
【0125】
【表2】
【0126】
それぞれ、初期探索の階層Mに対する初期探索のワード数と構造探索のワード数、およびその合計、すなわち最終的にスコア計算を行なうワード数を示している。ここで、M=0は全探索に対応しているものとする。構造化による演算量の削減としては、表1に示す1000ワードの認識の場合、第6階層を初期探索の階層とすれば、初期探索 250ワード、構造探索 200ワード、合計 450ワードのスコア計算を行なうことになり、約6割減になるものと思われる。また、表2に示す4000ワードの場合、第4階層を初期探索の階層とすれば、初期探索 250ワード、構造探索 400ワード、合計 650ワードのスコア計算を行なうことになり、約8割減になるものと思われる。しかも、代表ワードとして既にスコア計算したものや、抽出した二つ以上のグループに重複して含まれるものなど、同じワードに対するスコア計算の重複は避けることから、さらに演算量を削減できることが期待できる。
【0127】
なお、このような探索木を用いた認識処理を行なう場合には、スコア計算と別に、構造探索においてスコア計算すべきワードを抽出するための処理などが加わるが、この演算量は、スコア計算にかかる演算量に比べれば十分小さなものになると考え、考慮に入れていない。
【0128】
<シミュレーション結果>
実際に、938個の単語認識を、全探索と本発明の構造化を用いた探索とで比較した結果について述べる。ただし、構造化の方法としては、グループ化を行なうために上記(7)式を用い、rを2から8まで増加させながら、上記(8)式でrj を変動させてグループ化を行なった。また、グループへの追加を行なうために上記(9)式においてrb =20を用いた。そして、M=2階層の構造化を行なった。その結果、初期探索のワード数が150個となる2階層の探索木で、各階層のあるワードからその下の階層のワードへのパスとしては、平均12本つながっているようなものが得られた。
【0129】
まず、全探索による認識では、認識率が98.7%、スコア計算を行なったワード数が938個であった。これに対して、各階層でスコアの高いワードをp=8個抽出するような構造化を用いた認識処理を行なった結果、認識率は96.6%とわずかの劣化しか見せず、スコア計算を行なったワード数は、初期探索に150個、構造探索に平均135個、合計285個(平均)となった。つまり、全探索に比べ、計算量を約7割低減することが可能となったことがわかる。
【0130】
以上示したように、本発明の上述した第1の実施の形態によれば、認識対象ワードを予め木構造に構造化しておき、その構造に従って探索することで認識ワードを制限でき、演算量を大幅に低減することが可能となる。しかも、新たなワード間の相関値R(Wj,Wi)の定義と、その相関値に基づく認識ワードの構造化方法によって、局所的な探索であっても、スコアの高くなることが期待されるワードは探索範囲に含まれるようになり、最終的に、歪みをほとんど増大させることはない。つまり、認識率をほとんど劣化させることはない。さらに、余分に必要な記憶容量もワード数に対してその約10倍程度パス情報を持っておけばよいだけであり、比較的小さなものとなる。
【0131】
第2の実施の形態
次に、本発明の第2の実施の形態として、本発明をHMM(隠れマルコフモデル)を用いた音声認識に適用した場合の例について説明する。
【0132】
これは、上述した第1の実施の形態において、相関値を計算するために音声データを用いる必要があった点を改良し、音声データを用いずにHMMのパラメータから直接計算できるようにしたものである。もちろん、上述した実施の形態と同様、歪みの増大による認識率の低下をほとんど招くことなく、演算量を大幅に低減することを可能とする。しかも、余分に必要とされる記憶容量も比較的小さなものとなる。
【0133】
以下、HMMを用いた音声認識に関して簡単に説明し、その音声認識を高速化するための方式として、ワード間の相関値の定義、その相関値を用いた認識ワードの構造化の方法、およびその構造を用いた認識手法に関して述べる。
【0134】
<HMMを用いた音声認識>
認識すべきワードをW1,W2,・・・,Wpとする。今、観測された音声信号の特徴パラメータがYであったとき、YがワードWi である確率は、P(Wi|Y) で与えられる。したがって、P(Wi|Y) (i=1,2,・・・,p) の中で最大の確率を与えるWi をYの属するワード、すなわちワードWi が発声されたものと判定すればよい。ここで、ベイズ(Bayes) の定理より、
P(Wi|Y)=P(Wi)P(Y|Wi)/P(Y) (15)
が成り立ち、分母のP(Y)はWi には関係ないことから、分子のP(Wi)P(Y|Wi)(i=1,2,・・・,p) を最大にするWi を求めれば良いことがわかる。P(Wi) はワードWi が発声される事前確率であり、P(Y|Wi) はワードWi が発声されたときに、特徴パラメータYが得られる確率である。
【0135】
HMM法とは、(1)式を最大にするWi を、確率モデル(HMM)によって推定する手法である。
【0136】
HMM(Hidden Markov Model :隠れマルコフモデル)は、非決定有限状態オートマトンとして定義され、図12に示すように、いくつかの状態S1,S2,・・・,SN(状態数N)と、その状態間の遷移を表すパスから構成される。そして、各状態の遷移過程はマルコフ過程とし、状態が遷移するときに出力シンボルをひとつ発生するものとする。
【0137】
なお、音声認識では、図13に示されるような自己遷移と次の状態への遷移のみを許すような、初期状態と最終状態を持つレフトツーライト(left−to−right) モデルが用いられることが多い。
【0138】
HMM法のうち、離散型HMM法では、音声の特徴ベクトルを例えばベクトル量子化することなどにより得られるシンボル系列Y=y1・y2・・・yT (Tは観測系列の長さ)が各モデルで生起する確率(事後確率)を計算し、その確率が最も大きいモデルを認識結果とすることになる。
【0139】
<HMMの定式化>
ここで、ワードWに対応した離散型HMMは次のように定式化される。
【0140】
S:状態の有限集合(Nは状態数)
S={S1,S2,・・・,SN} (16)
V:出力シンボルの集合(Mは出力シンボル数)
V={v1,v2,・・・,vM} (17)
A:状態遷移確率の集合(aijは状態Siから状態Sjへの遷移確率)
【0141】
【数8】
【0142】
B:状態遷移時の出力確率の集合(bij(vk) は状態Siから状態Sjへの遷移の際にシンボルvk を出力する確率)
【0143】
【数9】
【0144】
π:初期状態確率の集合(πi は初期状態がSi である確率)
【0145】
【数10】
【0146】
このようにして定義されたHMMから、シンボル系列Y=y1・y2・・・yT が次のようにして生起される。
【0147】
手順1.初期状態確率πに従って、初期状態x0=Siを選ぶ。
手順2.t=0とする。
手順3.状態遷移確率aijに従って、状態xt=Siから状態xt+1=Sjへの遷移を選択する。
手順4.出力シンボル確率bij(vk) に従って、状態Siから状態Sjに遷移するときに出力されるシンボルyt=vkを選択する。
手順5.t<Tならば、t=t+1とし、手順3.へ戻る。それ以外は終了。
【0148】
ただし、状態遷移の時刻をt=0,1,2,・・・ とし、時刻tにおいて遷移した状態をxt とした。
【0149】
以上のように、HMMを定義するには、N,Mの指定、出力シンボルの集合、確率A,B,πが必要であり、これを簡単に表記するため、
λ={A,B,π} (21)
と表すことにする。つまり、ワード一つ一つにモデルが決定されることになる。
【0150】
<HMMの確率計算>
音声認識においては、前に述べたように初期状態と最終状態を一つとするleft−to−right モデルを用いることが多く、以下では初期状態と最終状態をSi,SNに限定したモデルを考える。
【0151】
モデルλが、シンボル系列y1・y2・・・yT を出力して、時刻tに状態Si に達する前方予測確率をαi(t)とすると、上述したモデルのシンボル出力の定義から、次の漸化式
【0152】
【数11】
【0153】
によってαi(t)を計算することができる。ここで、上式のjに関するサンメーションは、与えられたモデルにおいて、状態Sj から状態Si への遷移が許されている場合のみとられるものとする。
【0154】
以上をもとに、モデルλがシンボル系列Y=y1・y2・・・yT を出力する確率P(Y|λ)は、
P(Y|λ) =αN(T) (24)
で求まることになる。そして、HMM法を用いた音声認識では、音声から生成されたシンボル系列Y=y1・y2・・・yT に対して、上式から計算される確率P(Y|λ)を最大にするモデルλが認識結果とされる。
【0155】
また、P(Y|λ)を求める別の方法として、ビタビ(Viterbi) アルゴリズムを用いた計算方法というものがある。これを簡単に説明すると、上記(23)式のαi(t) の代わりに
【0156】
【数12】
【0157】
によって、時刻tに状態Si である確率 ̄αi(t)を計算する。ここで、上記(25)式のjに関する{}の最大値とは、与えられたモデルにおいて、状態Sj から状態Si への遷移が許されているものに関してのみ考えるものとする。このような ̄αi(t)をもとに、
【0158】
【数13】
【0159】
を求めるというものである。
【0160】
ここで、上記(25)式によって決まる状態遷移系列として、最終状態がSN となるものは唯一に決まり、これを最適パスと呼ぶ。この最適パスは Viterbiアルゴリズムの上記(25)式の計算において、その際に遷移してきた前状態を記憶しておくようにし、最終状態まで計算し終ったら、そこから前状態をたどっていけば得られる。
【0161】
また、log P(Y|λ)を求めるようにすれば、乗算が加算の演算で置き換えられ、計算効率がよくなる。
【0162】
<HMMのパラメータ推定>
次に、シンボル系列Y=y1・y2・・・yT に対して、確率P(Y|λ)を最大にするモデルのパラメータとしての遷移確率A={αij}、出力確率B={bij(vk)} の推定方法について述べる。
【0163】
なお、最初の推定時における遷移確率{αij}、出力確率{bij(vk)} には、所定の初期値が用いられる。
【0164】
まず、モデルの学習では、学習用のシンボル系列Yから、上述した前方予測確率αi(t)が求められるとともに、時刻tにおいて状態Si に存在し、以後、シンボル系列yt+1・yt+2・・・yT を出力する後方予測確率βi(t)が次式によって求められる。
【0165】
手順1.t=Tのとき
βi(T)=0 (i=1,2,・・・,N−1)
βN(T)=1 (27)
手順2.t=T−1,T−2,・・・,0のとき、
【0166】
【数14】
【0167】
ここで、上記(28)式のjに関するサンメーションは、与えられたモデルにおいて、状態Si から状態Sj への遷移が許されている場合のみとられるものとする。
【0168】
このとき、出力シンボル系列Y=y1・y2・・・yT に対して、状態Si から状態Sj への遷移が時刻tに生じる確率をγij(t)と記せば、
【0169】
【数15】
【0170】
で与えられることになる。そして、次式に従ってモデルのパラメータとしての遷移確率aij、出力確率bij(vk) が更新、すなわち学習される。
【0171】
【数16】
【0172】
なお、上式において ^を付したaij、またはbij(vk) は、更新、すなわち再推定した遷移確率または出力確率をそれぞれ意味する。また、上式のhに関するサンメーションは、状態Si から状態Sj への遷移が許されている場合のみとられる。さらに、t:yt=vkに関するサンメーションは、時刻tにおいて、vk なるシンボルyt が生起される場合についてのみとられる。
【0173】
上式に従って、遷移確率aij、出力確率bij(vk) が更新、すなわち再推定されることにより、それぞれは、局所的に最適な値へ収束する。
【0174】
なお、上述のようにして遷移確率aij、出力確率bij(vk) を更新、すなわち再推定する方法は、Baum−Welchの再推定法 と呼ばれる。
【0175】
ここで上記(30)、(31)式で計算される遷移確率aij、出力確率bij(vk) は、ある学習用のシンボル系列1つに対してだけであり、これにより学習が行なわれたモデルは、ある1つのシンボル系列を高い確率で出力するようになる。しかしながら、音声には調音結合や話者によるばらつきがあり、単一のシンボル系列のみ高い確率で出力するモデルでは、このばらつきに対処することができない。
【0176】
そこで、いくつかのシンボル系列を高い確率で出力するように、モデルλの学習を行なう必要がある。これには、例えばQ種類のシンボル系列のq番目のシンボル系列をYq=y1 q・y2 q・・・yT q としたとき、各シンボル系列Yq (q=1,2,...,Q)が観測される確率P(Yq|λ) の積が最大になるように、モデルλの学習を行なえばよい。
【0177】
これは、上述したBaum−Welchの再推定法を多重系列に拡張することにより次のように再帰的に求めることができる。すなわち、Yq によるαi(t),βi(t),γij(t) をそれぞれ αi q(t),βi q(t),γij q(t) とすれば、
【0178】
【数17】
【0179】
のように計算される。
【0180】
次に、上記(33), (34)式で計算される遷移確率aij、出力確率bij(vk) は、モデルの学習を個別に行なっていることに他ならない。過去、HMM法は、単語認識に適用されるときが多く、従って単語に対応するモデルの学習を、上述したように個別に行なうだけで問題はなかった。
【0181】
しかしながら、最近では、意味のある音声(例えば、単語や文など)の認識を、音韻(音素)に対応するモデルを連結したものを用いて行なうのが一般的になり、このため、モデルの連結学習を行なう必要が生じてきた。
【0182】
モデルの連結学習では、例えば予め用意した単語辞書に登録されている単語に基づき、音韻または音素モデルどうしを連結し、それを単語モデルとみなして、単語の学習用のシンボル系列として用意されたシンボル系列Yq に対する学習が行なわれる。
【0183】
すなわちち、W個の音韻または音素モデルの学習を個別に行なった場合において、そのうちのw番目のモデル(すなわちモデルw)のパラメータ、すなわち遷移確率、出力確率それぞれをaij w、bij w(vk) と表し、そのモデルwに音韻あるいは音素モデルを連結したモデル(すなわち連結モデル)の状態をSm またはSn で表す。さらに、連結モデルの状態が、Sm からSn へ遷移する場合において、状態Sm がモデルwに属する状態であることを(m→n)∈wと表すと、上記式(33),(34) を変形した次式に従って、モデルwの遷移確率aij、出力確率bij(vk) が更新、すなわち再推定される。
【0184】
【数18】
【0185】
ここで、連結モデルがモデルwを複数使用して構成されている場合、すなわち連結モデルが、例えば3状態S1,S2,S3 からなるモデルwを2回使用して構成されている場合、連結モデルは、S1,S2,S3,S1,S2,S3 の6状態を有することになる。従って、この場合、モデルwの状態S1,S2,S3 のうちの、例えば先頭の状態S1 は、連結モデルの状態S1,S2,S3,S1,S2,S3 の先頭の状態、および先頭から4番目の状態と同一であり、このように連結モデルの複数の状態mがモデルwの1つの状態Si と同一であるときがある。
【0186】
上記(35),(36) 式において、m≡i、n≡jに関するサンメーション(総和)は、上述したように、連結モデルの状態Sm またはSn が、モデルwの状態Si またはSj とそれぞれ同一である場合についてとられる。さらに、m≡iに関するサンメーションは、連結モデルの状態Sm がモデルwの状態Si と同一である場合についてとられる。
【0187】
また、h:(m→h)∈wに関するサンメーションは、連結モデルの状態Sm から状態Sh への遷移が許されている場合に、連結モデルの状態Sm が、モデルwに属するときのみとられる。
【0188】
さらに、上記(35),(36) 式において、モデルwの後続にモデルが連結されており、連結モデルのある状態Sm がモデルwの最終状態(Sm=SN)となった場合、状態Sm からの遷移先である状態Sn は、モデルwの直後に連結したモデルの初期状態となるものとする。
【0189】
次に、以上説明した離散HMM法を用いて音声認識が行なわれる場合には、まず学習用に用意された学習系列Yを用い、上述した(33),(34)式または(35),(36)式に従ってモデルの学習、すなわち連結学習が行なわれ、モデルλの遷移確率aijおよび出力確率bij(vk) が求められる。以下の説明においては、上記(35),(36) 式におけるaij w、bij w(vk) は、上記(33),(34) 式における場合と同様にそれぞれaij、bij(vk) と記載する。
【0190】
そして、認識時において、音声から、シンボル系列Yが観測された場合には、モデルλがそのシンボル系列を出力すなわち生起する確率P(Y|λ)が、上記(23)式に従って計算される。
【0191】
以上の処理が、モデルλ以外のモデルに対しても行なわれ、前述したように、確率P(Y|λ)が最も大きいモデルが認識結果とされることになる。
【0192】
ところで、離散型HMMでは、上述したように、音声の特徴ベクトルを例えばベクトル量子化処理することなどにより得られるシンボルが、学習および認識に用いられる。したがって、シンボルは量子化誤差を含むので、その結果音声の認識率が劣化する問題があった。
【0193】
そこで、離散的な確率分布である、シンボルvk に関する出力確率bij(vk) を連続確率分布に変更した混合連続HMM法が知られている。
【0194】
混合連続HMM法では、HMMが連続確率密度分布、すなわち連続分布をもち、離散HMM法における出力確率bij(vk) をL個の連続分布の混合で近似するようになされている。即ち、モデルλが音声の特徴ベクトルyを生起する出力確率bij(vk) が、次式によって計算される。
【0195】
【数19】
【0196】
ただし、cijl は分岐確率(branch probability)で、l(l=1,2,...,L) 番目の出現確率を表し、bijl(y) は分岐密度(branch density)で、l番目の確率密度分布を表す。また、これらには、次のような条件が成り立つ。
【0197】
【数20】
【0198】
なお、確率密度分布bijl(y) としては、通常、ガウス分布(正規分布)が仮定される。そこで、確率密度分布bijl(y) が、その共分散行列Σijl と、平均値μijl とをパラメータとするn次元正規分布に従うと仮定すると、l番目の確率密度分布bijl(y) は、次式で与えられる。
【0199】
【数21】
【0200】
ここで、上記(40)式において、右肩のT,−1は、それぞれ転置、逆行列を表す。また、|Σijl| は共分散行列Σijl の行列式を表す。
【0201】
この場合、上述したBaum−Welchの再推定法によれば、次式に従って、出現確率cijl 、並びに確率密度分布bijl(y) の共分散行列Σijl および平均値μijl を求める、すなわち再推定することができる。なお、遷移確率aijは、上述した(35)式、または(33)式に従って求めることができる。
【0202】
【数22】
【0203】
ここで、上式において ^を付したcijl,Σijl,μijl は更新された出現確率、共分散行列、平均値をそれぞれ意味する。
【0204】
また、P(Y,ht=l|λ) は、モデルλによって、音声の特徴ベクトルyの系列Y=y1・y2・・・yT が出力される場合において、時刻tに特徴ベクトルyt がl番目の分布から出力される確率を意味する。ht=l は、特徴ベクトルyt がl番目に出力されることを示す確率変数である。
【0205】
以上のように出力確率bij(y)をL個の連続分布の混合で近似する混合連続HMM法に基づいて学習がなされたモデルを用いて音声を認識する場合には、離散型HMM法における場合と同様に、音声から観測(抽出)された特徴ベクトル系列をモデルλが出力あるいは生起する確率P(Y|λ)が上記(23),(24) 式または、(25),(26)式によって計算される。
【0206】
さらに、この確率Pが、モデルλ以外のモデルに対しても行なわれ、前述したように、確率Pを最も大きくするモデルが認識結果とされる。
【0207】
また、上述の推定方法の代わりに、次のような手法が用いられることもある。訓練サンプル集合{yq} の各々に対して、ビタビ(Viterbi) アルゴリズムによって最適状態遷移系列を求め、状態Si から状態Sj への遷移時の出力ベクトル集合{yij}を求める。これをクラスタリング手法によってL個のクラスに分類し、各々のクラスのベクトル集合を標本集団とみなし、ガウス分布を推定する。分岐確率はクラス内のベクトル数を全体に対する比によって求める。この操作をパラメータが収束するまで繰り返すというものである。
【0208】
次に、上記HMMを用いた場合のワード間の相関値を説明する。
【0209】
<音声認識>
上述したようなHMMを用いた音声認識装置の構成は、前述した図1、あるいは図10に示すようなものとなり、構成および作用も同様である。
【0210】
ただし、図1の音響分析部12で入力された音声信号から認識に必要な特徴量の抽出を行なったり、得られた特徴量に対し、KL変換や、ニューラルネットワークなどの適当な写像を施すことで、分離度の大きな特徴量にさらに変換して、認識部13に送信するわけであるが、離散HMMを用いる場合には、さらにベクトル量子化を行なった後、認識部13に送信するようにしている。
【0211】
また、認識部13では、予め学習用の音声データを音響分析して得られる特徴量をもとに推定しておいたモデルのパラメータを用いて、未知音声データに対する認識処理を行なう。つまり、学習過程として、予め学習用データから決定されるHMMの遷移確率aijおよび出力確率bij(vk) (ただし連続HMMの場合はbij(y) )を求めておき、これをパラメータ記憶部14に記憶しておく。そして、認識過程では、入力された未知音声信号を音響分析して得られる特徴量に対し、与えられた辞書の中の各ワードに対応するモデルそれぞれの生起確率を求め、その確率(スコア)が最も高いもの、あるいは上位複数個、を認識結果として選び出すということを行なう。そして、得られた認識結果を出力部15に送信する。出力部15では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なう。
【0212】
以上のような音声認識の処理の中で、認識部13の確率(スコア)計算は、入力された未知音声信号に対して、与えられた辞書、すなわち認識対象ワードの集合の内の全ワードとの間で計算される。小語彙の認識であれば、その処理量はあまり問題にならない。しかし、中語彙や大語彙の認識では、非常に重要な問題となる。
【0213】
これを解決するため、前述したように認識対象ワードを予め構造化しておき、その構造を用いることで、スコア計算を行なうワード数を削減することが本発明の実施の形態における目的であり、これを簡単に示したのが上記図2である。このように、スコア計算の必要のないワードを削除することにより、認識部の処理量すなわち演算量を低減させようとするものでる。
【0214】
このような目的にあったワードの分布構造を決定するためには、ワード間の関係を知るための距離尺度のようなものが必要となる。
【0215】
本発明の上記第1の実施の形態においては、実音声信号から求まる各モデルの生起確率(スコア)の期待値により、ワード間の相関値を定義した。この定義されたワード間の相関値に基づいて、認識対象ワードを構造化するわけであるが、この方式を用いる場合、上記(4)式からワード間の距離尺度を計算するために、認識対象ワードに対応した実音声データが必要になり、中語彙や大語彙の認識システムを作成する上では、これが大きな問題となる。
【0216】
そこで、本発明の第2の実施の形態においては、上記(4)式に代わる新たなワード間の距離尺度を導入するものである。
【0217】
<HMMのモデルのパラメータを用いたワード間の相関値>
上記HMMの定式化の項目において述べたように、モデルλ={A,B,π}が与えられたとき、そのモデルのパラメータに従って、シンボル系列Y=y1・y2・・・yT を生起することができる。例えば、離散HMMを用いた場合、
手順1.初期状態確率πに従って、初期状態x0=Siを選ぶ。
手順2.t=0とする。
手順3.状態遷移確率aijに従って、状態xt=Siから状態xt+1=Sjへの遷移を選択する。
手順4.出力シンボル確率bij(vk) に従って、状態Siから状態Sjに遷移するときに出力されるシンボルyt=vkを選択する。
手順5.t<Tならばt=t+1とし手順3.へ戻る。それ以外は終了。
のようにして生成できる。
【0218】
連続HMMを用いた場合は、上記手順4.の代わりに、上記(37)式で与えられる出力シンボル確率bij(y)に従ってシンボルyt を決定すればよい。ただし、状態遷移の時刻をt=0,1,2,... とし、時刻tにおいて遷移した状態をxt とする。
【0219】
特に、上記図13に示されるようなleft−to−right モデルの場合は、初期状態と最終状態をS1,SN に限定できる。そこで、遷移確率aijに従って、各状態で自己遷移する回数の期待値を求めることで、状態遷移系列X=x0,x1,...,xT が一つ決定される。
【0220】
ここで、状態Si でn回自己遷移した後、状態Si に遷移する確率は、
aii naij=aii n(1−aii) (44)
で与えられるから、nの期待値は
【0221】
【数23】
【0222】
を計算すれば求まる。これを計算すると、
E[n]=aii/(1−aii) (46)
が得られる。
【0223】
以下これを証明する。先ず、
【0224】
【数24】
【0225】
とおく。この(47)式にaiiをかけて、
【0226】
【数25】
【0227】
上記(47)式から(48)式を引いて、
【0228】
【数26】
【0229】
よって、上記(47)式より、
E[n]=aii/(1−aii) (50)
すなわち、上記(46)式が得られる。
【0230】
したがって、例えばaii=0.5の場合は上記E[n]=1、aii=0.8の場合は上記E[n]=4などが求められることになる。ここで上記(46)式は、aiiが1に近づくと急激に増大するため、E[n]に
0≦E[n]≦3 (51)
のような上限下限を設け、例えば、
【0231】
【数27】
【0232】
のような近似を行なうことも考えられる。
【0233】
以上に基づき、状態Si で自己遷移する回数の期待値が求まり、それをつなげれば状態遷移系列が一つ決定される。そして、その状態遷移に従って、出力確率bij(vk) が最も高いシンボルvk を出力させれば、対応するシンボル系列を得ることが可能となる。
【0234】
例えば、
a11=0.5, a12=0.5、 a22=0.8, a23=0.2、 a33=0.3,... (53)
のような遷移確率が与えられた場合、上記のようにして決定される状態遷移系列は、もし上記(52)式を用いるならば、
S1,S1,S2,S2,S2,S2,S3,... (54)
となる。つまり、最初のS1 は初期状態であり、次のS1 はa11=0.5から決まる1回の自己遷移によるものである。そして、次にS2 に遷移し、a22=0.8よりS2 で3回の自己遷移を行なう。その後、S3 に遷移し、というふうにして、状態遷移系列が決定されたものである。
【0235】
そして、上記(54)式の状態遷移系列に従って、
b11(vk),b11(vk),b12(vk),b22(vk),b22(vk),b22(vk),b22(vk),b23(vk),...(55)
をそれぞれ最大にするシンボルvk の系列を得ることができる。もし、連続HMMを用いる場合には、上記(55)式のbij(vk) の代わりに、上記(37)式で与えられる出力確率を用いて、
b11(y),b11(y),b12(y),b22(y),b22(y),b22(y),b22(y),b23(y),... (56)
をそれぞれ最大にするシンボルyの系列を求めればよい。特に、分岐密度bijl (y) が上記(40)式のような正規分布に従うような場合には、分岐確率cijl の最も高いlに対する分岐密度bijl(y)の平均値μijl を求めるシンボルyとすることなどが考えられる。
【0236】
以上のようにして、あるワードWj に対応するモデルλj={Aj,Bj,πj}からシンボル系列Zi がひとつ得られることになる。このとき、モデルλi に対するZj の生起確率P(Zj|λi) が上記(23),(24)式、または、上記(25), (26)式によって計算される。そして、Zj の生成方法を考えると、モデルλj に対する生起確率P(Zj|λj)は非常に高いものとなることが期待できる。
【0237】
ここで、もしHMMを用いることによって、各ワードに対応した良いモデルλi 、すなわち、対応する音声信号を音響分析して得られるシンボル系列の生起確率が高くなるようなモデルが得られるならば、上記のような方法によって、モデルからシンボル系列を生成した場合、対応するワードを発声した音声信号を音響分析して得られるシンボル系列と類似した特性を持つことが期待できる。
【0238】
すなわち、認識対象ワードWj に対応するモデルをλj (1<j<p)とした場合、
特性1.モデルλj から生成したシンボル系列Zj に対して、生起確率P(Zj|λi)の最も高くなるモデルλi は、λj である。
特性2.ワードWj に対応する実音声信号を音響分析して得られるシンボル系列Yj に対し、生起確率P(Yj|λi)が高くなるモデルλi を用いて、λj から上記の方法で生成したシンボル系列Zj の生起確率P(Zj|λi)を計算すれば同様に高くなる。
特性3.ワードWj に対応する実音声信号を音響分析して得られるシンボル系列Yj に対し、生起確率P(Yj|λi)が低くなるモデルλi を用いて、λj から上記の方法で生成したシンボル系列Zj の生起確率P(Zj|λi)を計算すれば同様に低くなる。
のような特性を持つことが期待できる。
【0239】
そこで、上記のようにして求まるシンボル系列を用いることで、上記第1の実施の形態に代わるワード間の相関値を定義することが可能となる。
【0240】
各認識対象ワードWj (1<j<p)に対応したモデルをλj とする。そして、そのモデルから上記のような方法により生成されるシンボル系列をZj とする。このとき、λi から求まるZj の生起確率を、ワードWj に対するワードWi の距離尺度D(Wj,Wi) として定義する。
【0241】
D(Wj,Wi)≡P(Zj|λi) (i=1,2,...,p) (57)
ただし、生起確率P(Zj|λi)は
【0242】
【数28】
【0243】
のように正規化するものとする。
【0244】
そして、この距離尺度D(Wj,Wi) をもとに、ワード間の相関値を上記第1の実施の形態と同様に定義する。
【0245】
すなわち、ワードW1 に対してワードWi (i=1,2,...,p) を近い順、すなわち距離尺度D(W1,Wi) の大きい順に並べる。同様に、ワードW2,W3,...,Wp に対しても、ワードWi (i=1,2,...,p) を近い順に並べる。
【0246】
そして、その順位、つまりWj に対して近い順にワードWi を並べたときの順位をワードWj に対するワードWi の相関値R(Wj,Wi) として定義する。すなわち、例えば、一番近いものは1、二番目に近いものは2、以下同様にして、最も遠いものはpとする。その結果、この相関値は1からpまでの整数値をとることになり、小さいほど相関が高く、大きいほど相関が低いと見なすことができるようになる。
【0247】
ここで、相関が高い、すなわち相関値R(Wj,Wi) が小さいとは、ワードWj に対応した未知音声信号Xj kを音響分析して得られる特徴量Yj kに対してワードWi のモデルλi から求まる生起確率P(Yj k|λi) が高くなることが期待できることを意味し、相関が低い、すなわち相関値R(Wj,Wi) が大きいとは、特徴量Yj kに対してモデルλi から求まる生起確率P(Yj k|λi) が低くなることが期待できることを意味する。
【0248】
なお、以上の処理をまとめたのが、図14である。簡単に説明すると、まずステップS141において、各ワードWj に対応するモデルλj の遷移確率から、状態遷移系列Xj を決定する。そして、それに従って、ステップS142において、出力確率をもとにシンボル系列Zj を決定する。次のステップS143において、各Zj に対するモデルλi の生起確率から距離尺度D(Wj,Wi) を求め、ステップS144に進んで、それに基づき、各Wj に対して、Wi (1≦i≦p)を近い順に順序付ける。そして、その順位をもとに、ステップS145において相関値R(Wj,Wi) を計算する。
【0249】
ここで、ステップS144の順序付けにおいて、順位が同じとなるようなものがある場合には、ともに同じ相関値を設定するものとする。
【0250】
また、上記のように、ステップS141において、上記(46)式、または上記(52)式を用いて状態遷移系列を決定したり、ステップS142において、出力確率の最も大きなシンボル系列を求めたりする代わりに、乱数を発生させ、遷移確率と出力確率に従って、状態を遷移させながらシンボル系列を生成する方法も考えられる。この場合は、モデルλj からいくつものシンボル系列を生成することが可能となるので、これをZj 1, Zj 2, Zj 3,...とし、上記(59)式の代わりに、
【0251】
【数29】
【0252】
によって、ワードWj に対するワードWi の距離尺度D(Wj,Wi) を定義することになる。
【0253】
以上のようにしてワードの相関値を定義することで、認識対象ワードに対応するモデルだけから、相関値を計算することが可能となり、認識対象ワードに対応する実音声信号のデータを必ずしも用意する必要がなくなる。特に、音韻(音素)モデルを連結することで、各認識対象ワードに対応するモデルを構成するような場合で、各音素モデルを学習するのに、認識対象ワードに対応する実音声信号データを用いないような場合には、その効果が期待できる。
【0254】
<認識対象ワードの構造化>
上述したような手法で求められた相関値に基づいて、認識対象ワードを構造化する方法は、前述した第1の実施の形態と同様であるため、説明を省略する。
【0255】
ただし、前述したスコアS(X,Wi)とは、音声信号Xを音響分析して得られる特徴量Yのモデルλi に対する生起確率P(Y|λi) のことである。
【0256】
また、認識手法、記憶容量の見積り、及び演算量の見積りについても、前述した第1の実施の形態と同様であるため、説明を省略する。
【0257】
<シミュレーション結果>
実際に、3265個の単語認識を、全探索と本発明の構造化を用いた探索とで比較した結果について述べる。ただし、構造化の方法としては、ワード間の距離尺度に上記(57)式を用いて相関値を計算し、上記認識対象ワードの構造化の項で述べた構造化の方法を用いた。その結果、初期探索のワード数が231個となる4階層の探索木で、各階層のあるワードからその下の階層のワードへのパスとしては、平均11本つながっているようなものが得られた。
【0258】
この探索木を用いて、ある階層で抽出するスコアの高いワード数をn=15として認識処理を行なってみた。まず、全探索による認識処理の場合、認識率は90.2%、スコア計算を行なったワード数は3265個であった。これに対して、上記のような探索木を用いた認識処理の場合、認識率は89.9%とわずかの劣化しか見せず、スコア計算を行なったワード数は、初期探索に231個、構造探索に平均276個、合計508個(平均)となった。つまり、全探索に比べ、計算量を約8割低減することが可能となったことがわかる。
【0259】
このような本発明の第2の実施の形態によれば、前述した本発明の第1の実施の形態と同様に、認識ワードを制限して演算量を大幅に低減でき、局所的な探索であってもスコアの高くなることが期待されるワードは探索範囲に含まれるようになり、最終的に歪みをほとんど増大させることがなく、認識率の低下を防止できる。
【0260】
さらに、本発明の第2の実施の形態によれば、音声認識対象ワードに対する確率モデルとしてのHMM(隠れマルコフモデル)を用意し、このモデルのパラメータとしての上記遷移確率aijおよび出力確率bij(vk) (連続HMMの場合はbij(y))から、ワード間の相関値R(Wj,Wi) を計算できるようにしたことで、認識辞書に対応する実音声データを大量に必要とすることがなくなり、探索木を効率的に求めることが可能となる。
【0261】
なお、本発明は、上述した実施の形態のみに限定されるものではなく、例えば、音声認識方法や装置に適用する他に、音声認識用の辞書の形成方法、音声認識用の辞書が記録された記録媒体等にも容易に適用できる。また、音声認識以外に、図形認識や文字認識等に本発明を適用することもできる。
【0262】
【発明の効果】
本発明によれば、音声認識対象ワードを予め階層構造あるいは重複を許す木構造に構造化しておき、その構造に従って探索することで認識ワードを制限でき、演算量を大幅に低減することが可能となる。しかも、あらたなワード間の相関値の定義と、その相関値に基づく認識ワードの構造化方法によって、局所的な探索であっても、スコアの高くなることが期待されるワードは探索範囲に含まれるようになり、最終的に、歪みをほとんど増大させることはない。すなわち、認識率をほとんど劣化させることはない。さらに、余分に必要な記憶容量もワード数に対してその約10倍程度パス情報を持っておけばよいだけであり、比較的小さなものとなる。
【0263】
このような本発明は、音声認識以外に、図形認識や文字認識等にも適用でき、この場合には、音声認識対象ワードは一般的にパターン認識対象となり、これらのパターン認識対象を階層構造あるいは重複を許す木構造に階層化しておくことになる。
【0264】
また、音声認識対象ワードあるいはパターン認識対象に対する確率モデルとしてのHMM(隠れマルコフモデル)を用意し、このモデルのパラメータからワード間の相関値を計算できるようにしたことで、認識辞書に対応する実音声データのような実データを大量に必要とすることがなくなり、探索木を効率的に求めることが可能となる。
【図面の簡単な説明】
【図1】一般的な音声認識のシステムの構成を概略的に示すブロック図である。
【図2】構造化を用いた認識の概念を説明するためのワード分布を示す図である。
【図3】代表ワードとその属するワードの関係の例を示す図である。
【図4】認識対象ワードを階層構造に構造化する方法を説明するためのフローチャートである。
【図5】階層構造に構造化していく過程の概念を説明するための図である。
【図6】本発明の構造化によって得られる階層構造及び探索木の例を示す図である。
【図7】グループ化に関する基本的な方法を説明するためのフローチャートである。
【図8】グループ化の方法を改良した方法を説明するためのフローチャートである。
【図9】相関の強いワード関係を説明するための図である。
【図10】本発明の実施の形態が適用される音声認識システムの構成の一例を示すブロック図である。
【図11】本発明に係る実施の形態により階層構造化された探索木を用いた認識方法を説明するためのフローチャートである。
【図12】隠れマルコフモデル(HMM)の一般的な状態遷移モデルを示す図である。
【図13】HMMのレフトツーライト(left−to−right )モデルを示す図である。
【図14】ワード間の相関値の計算過程を説明するためのフローチャートである。
【符号の説明】
1、101 入力部
2、102 音響分析部
3、103 認識部
4、104 パラメータ記憶部
5、105 出力部
106 探索木記憶部
Claims (10)
- 複数の音声認識対象ワードが与えられ、未知の入力音声信号に対して、予め求めておいたパラメータを用いて、上記音声認識対象ワードにスコア付けを行なうことで、対応する音声認識対象ワードを抽出し認識する音声認識方法において、
各認識対象ワードに対応した音声データから求まるスコアの期待値に基づく値をもとにスコアの高い順に全認識対象ワードを順序付けたときの順位を、上記各音声認識対象ワード間の相関値として求め、
上記各音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを予め階層構造に構造化しておき、
この階層構造に構造化された音声認識対象ワードの辞書を用いて、上記未知の入力音声信号に対してスコア計算を行なう音声認識対象ワードを限定すること
を特徴とする音声認識方法。 - 上記階層構造に構造化された音声認識対象ワードの辞書を用い、未知音声信号に対する認識処理を行なう際に、
上記階層構造のある適当な階層の音声認識対象ワードに対するスコア計算と、そこから決定されるスコアの高いワードに属する一つ下の階層のワードに対するスコア計算と、さらにそこから決定されるスコアの高いワードに属するもう一つ下の階層のワードに対するスコア計算と、以下同様に最下位の階層に至るまでワードの抽出とスコア計算とを行なっていき、最終的には、それらのスコア計算を行なったワードの中から、少なくともスコアの最も高いものを選び出すことを特徴とする請求項1記載の音声認識方法。 - 上記スコア計算を一旦行なったワードに関しては、そのスコアを記憶しておき、以後スコア計算が必要な場合には、記憶されたスコアを用いるようにすることで、重複したスコア計算を行なわないようにすることを特徴とする請求項2記載の音声認識方法。
- 上記複数の音声認識対象ワードに対する確率モデルを用意し、上記未知の入力音声信号に対して、上記各確率モデルの生起確率を計算し、その生起確率に従って、対応する音声認識対象ワードを抽出し認識する音声認識方法であって、
上記各音声認識対象ワードに対応する確率モデルの状態遷移確率をもとに状態遷移系列を決定し、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られたシンボル系列の生起確率を上記各音声認識対象ワードに対応するモデルに対して計算し、この生起確率に基づく音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを階層構造に構造化しておくことを特徴とする請求項2記載の音声認識方法。 - 上記各音声認識対象ワードに対応する上記確率モデルの状態遷移確率をもとに状態遷移系列を複数決定し、それぞれの状態遷移系列から、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られた複数のシンボル系列の生起確率を各ワードに対応するモデルに対して計算し、それらの生起確率を各ワードに対応するモデルに対して計算し、それらの生起確率の期待値の高い順に全音声認識対象ワードを順序付け、その順位をワード間の上記相関値として用いることを特徴とする請求項4記載の音声認識方法。
- 複数の音声認識対象ワードが与えられ、未知の入力音声信号に対して、予め求めておいたパラメータを用いて、上記音声認識対象ワードにスコア付けを行なうことで、対応する音声認識対象ワードを抽出し認識する音声認識装置において、
各認識対象ワードに対応した音声データから求まるスコアの期待値に基づく値をもとにスコアの高い順に全認識対象ワードを順序付けたときの順位を用いて上記各音声認識対象ワード間の相関値を求め、
上記各音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを予め階層構造に構造化しておき、この階層構造に構造化された音声認識対象ワードの辞書を用いて、上記未知の入力音声信号に対してスコア計算を行なう音声認識対象ワードを限定すること
を特徴とする音声認識装置。 - 上記階層構造に構造化された音声認識対象ワードの辞書を用い、未知音声信号に対する認識処理を行なう際に、
上記階層構造のある適当な階層の音声認識対象ワードに対するスコア計算と、そこから決定されるスコアの高いワードに属する一つ下の階層のワードに対するスコア計算と、さらにそこから決定されるスコアの高いワードに属するもう一つ下の階層のワードに対するスコア計算と、以下同様に最下位の階層に至るまでワードの抽出とスコア計算とを行なっていき、最終的には、それらのスコア計算を行なったワードの中から、少なくともスコアの最も高いものを選び出すことを特徴とする請求項6記載の音声認識装置。 - 上記スコア計算を一旦行なったワードに関しては、そのスコアを記憶しておき、以後スコア計算が必要な場合には、記憶されたスコアを用いるようにすることで、重複したスコア計算を行なわないようにすることを特徴とする請求項7記載の音声認識装置。
- 上記複数の音声認識対象ワードに対する確率モデルを用意し、上記未知の入力音声信号に対して、上記各確率モデルの生起確率を計算し、その生起確率に従って、対応する音声認識対象ワードを抽出し認識する音声認識装置であって、
上記各音声認識対象ワードに対応する確率モデルの状態遷移確率をもとに状態遷移系列を決定し、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られたシンボル系列の生起確率を上記各音声認識対象ワードに対応するモデルに対して計算し、この生起確率に基づく音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを階層構造に構造化しておくことを特徴とする請求項7記載の音声認識装置。 - 上記各音声認識対象ワードに対応する上記確率モデルの状態遷移確率をもとに状態遷移系列を複数決定し、それぞれの状態遷移系列から、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られた複数のシンボル系列の生起確率を各ワードに対応するモデルに対して計算し、それらの生起確率を各ワードに対応するモデルに対して計算し、それらの生起確率の期待値の高い順に全音声認識対象ワードを順序付け、その順位をワード間の上記相関値として用いることを特徴とする請求項9記載の音声認識装置。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18285195A JP3627299B2 (ja) | 1995-07-19 | 1995-07-19 | 音声認識方法及び装置 |
EP96305260A EP0755046B1 (en) | 1995-07-19 | 1996-07-17 | Speech recogniser using a hierarchically structured dictionary |
DE69626344T DE69626344T2 (de) | 1995-07-19 | 1996-07-17 | Ein hierarchisch strukturiertes Wörterbuch verwendender Spracherkenner |
US08/683,488 US5787395A (en) | 1995-07-19 | 1996-07-18 | Word and pattern recognition through overlapping hierarchical tree defined by relational features |
KR1019960030282A KR100397402B1 (ko) | 1995-07-19 | 1996-07-19 | 음성인식방법,정보형성방법,음성인식장치및기록매체 |
CN96112292A CN1151573A (zh) | 1995-07-19 | 1996-07-19 | 声音识别方法,信息形成方法,声音识别装置和记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18285195A JP3627299B2 (ja) | 1995-07-19 | 1995-07-19 | 音声認識方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0934486A JPH0934486A (ja) | 1997-02-07 |
JP3627299B2 true JP3627299B2 (ja) | 2005-03-09 |
Family
ID=16125573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18285195A Expired - Fee Related JP3627299B2 (ja) | 1995-07-19 | 1995-07-19 | 音声認識方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5787395A (ja) |
EP (1) | EP0755046B1 (ja) |
JP (1) | JP3627299B2 (ja) |
KR (1) | KR100397402B1 (ja) |
CN (1) | CN1151573A (ja) |
DE (1) | DE69626344T2 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7359720B2 (en) * | 1996-09-27 | 2008-04-15 | Openwave Systems Inc. | Mobility extended telephone application programming interface and method of use |
JP3067683B2 (ja) * | 1997-04-01 | 2000-07-17 | 日本電気株式会社 | パターン認識装置および方法、情報記憶媒体 |
DE19719381C1 (de) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Verfahren zur Spracherkennung durch einen Rechner |
JP3481497B2 (ja) * | 1998-04-29 | 2003-12-22 | 松下電器産業株式会社 | 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置 |
EP1039446B1 (en) * | 1998-10-09 | 2010-12-08 | Sony Corporation | Learning device and method, recognizing device and method, and recording medium |
JP2003505778A (ja) | 1999-05-28 | 2003-02-12 | セーダ インコーポレイテッド | 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化 |
US20020032564A1 (en) | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
JP2001075964A (ja) * | 1999-08-31 | 2001-03-23 | Sony Corp | 情報処理装置および情報処理方法、並びに記録媒体 |
US6334102B1 (en) * | 1999-09-13 | 2001-12-25 | International Business Machines Corp. | Method of adding vocabulary to a speech recognition system |
EP1143735A1 (en) * | 2000-03-01 | 2001-10-10 | Texas Instruments Incorporated | Telescopic reconstruction of facial features from a speech pattern |
US6614466B2 (en) | 2001-02-22 | 2003-09-02 | Texas Instruments Incorporated | Telescopic reconstruction of facial features from a speech pattern |
US7192283B2 (en) * | 2002-04-13 | 2007-03-20 | Paley W Bradford | System and method for visual analysis of word frequency and distribution in a text |
US7788096B2 (en) | 2002-09-03 | 2010-08-31 | Microsoft Corporation | Method and apparatus for generating decision tree questions for speech processing |
JP2004191705A (ja) * | 2002-12-12 | 2004-07-08 | Renesas Technology Corp | 音声認識装置 |
JP3991914B2 (ja) * | 2003-05-08 | 2007-10-17 | 日産自動車株式会社 | 移動体用音声認識装置 |
DE102004055230B3 (de) * | 2004-11-16 | 2006-07-20 | Siemens Ag | Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular |
US7634406B2 (en) * | 2004-12-10 | 2009-12-15 | Microsoft Corporation | System and method for identifying semantic intent from acoustic information |
CN101292283B (zh) * | 2005-10-20 | 2012-08-08 | 日本电气株式会社 | 声音判别系统及声音判别方法 |
KR100748720B1 (ko) | 2006-02-09 | 2007-08-13 | 삼성전자주식회사 | 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 |
KR100770896B1 (ko) | 2006-03-07 | 2007-10-26 | 삼성전자주식회사 | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 |
US8332212B2 (en) * | 2008-06-18 | 2012-12-11 | Cogi, Inc. | Method and system for efficient pacing of speech for transcription |
JP5199391B2 (ja) * | 2008-11-25 | 2013-05-15 | 旭化成株式会社 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
TWI412019B (zh) | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
US8645404B2 (en) * | 2011-10-21 | 2014-02-04 | International Business Machines Corporation | Memory pattern searching via displaced-read memory addressing |
US10963063B2 (en) * | 2015-12-18 | 2021-03-30 | Sony Corporation | Information processing apparatus, information processing method, and program |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
US10832658B2 (en) * | 2017-11-15 | 2020-11-10 | International Business Machines Corporation | Quantized dialog language model for dialog systems |
KR20190106902A (ko) * | 2019-08-29 | 2019-09-18 | 엘지전자 주식회사 | 사운드 분석 방법 및 장치 |
US11875780B2 (en) * | 2021-02-16 | 2024-01-16 | Vocollect, Inc. | Voice recognition performance constellation graph |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE31188E (en) * | 1978-10-31 | 1983-03-22 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
JPS6173199A (ja) * | 1984-09-18 | 1986-04-15 | 株式会社リコー | 大語彙単語音声予備選択方式 |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
JP2691573B2 (ja) * | 1988-08-17 | 1997-12-17 | 株式会社日立メデイコ | シンチレーシヨンカメラ |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
JPH0782544B2 (ja) * | 1989-03-24 | 1995-09-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | マルチテンプレートを用いるdpマツチング方法及び装置 |
US5546499A (en) * | 1994-05-27 | 1996-08-13 | Kurzweil Applied Intelligence, Inc. | Speech recognition system utilizing pre-calculated similarity measurements |
US5537488A (en) * | 1993-09-16 | 1996-07-16 | Massachusetts Institute Of Technology | Pattern recognition system with statistical classification |
JPH07146852A (ja) * | 1993-11-24 | 1995-06-06 | Ricoh Co Ltd | ニューラルネットワークの構造簡略化方法 |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
-
1995
- 1995-07-19 JP JP18285195A patent/JP3627299B2/ja not_active Expired - Fee Related
-
1996
- 1996-07-17 DE DE69626344T patent/DE69626344T2/de not_active Expired - Fee Related
- 1996-07-17 EP EP96305260A patent/EP0755046B1/en not_active Expired - Lifetime
- 1996-07-18 US US08/683,488 patent/US5787395A/en not_active Expired - Fee Related
- 1996-07-19 CN CN96112292A patent/CN1151573A/zh active Pending
- 1996-07-19 KR KR1019960030282A patent/KR100397402B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR980011007A (ko) | 1998-04-30 |
DE69626344D1 (de) | 2003-04-03 |
EP0755046B1 (en) | 2003-02-26 |
JPH0934486A (ja) | 1997-02-07 |
US5787395A (en) | 1998-07-28 |
DE69626344T2 (de) | 2003-12-04 |
EP0755046A3 (en) | 1998-04-22 |
KR100397402B1 (ko) | 2003-12-24 |
CN1151573A (zh) | 1997-06-11 |
EP0755046A2 (en) | 1997-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3627299B2 (ja) | 音声認識方法及び装置 | |
EP0847041B1 (en) | Method and apparatus for speech recognition performing noise adaptation | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
JP5294086B2 (ja) | 重み係数学習システム及び音声認識システム | |
JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
Ström | Phoneme probability estimation with dynamic sparsely connected artificial neural networks | |
JP2010504553A (ja) | 音声キーワードの特定方法、装置及び音声識別システム | |
CN111696522B (zh) | 基于hmm和dnn的藏语语音识别方法 | |
EP0617827A4 (en) | Composite expert. | |
CN110853630A (zh) | 面向边缘计算的轻量级语音识别方法 | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
US6131089A (en) | Pattern classifier with training system and methods of operation therefor | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
Syfullah et al. | Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition | |
Benkhellat et al. | Genetic algorithms in speech recognition systems | |
Anindya et al. | Development of Indonesian speech recognition with deep neural network for robotic command | |
CA2203649A1 (en) | Decision tree classifier designed using hidden markov models | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
JP5161174B2 (ja) | 経路探索装置、音声認識装置、これらの方法及びプログラム | |
Shastri et al. | Adversarial Synthesis based Data Augmentation for Speech Classification | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041129 |
|
LAPS | Cancellation because of no payment of annual fees |