JP3627299B2

JP3627299B2 - 音声認識方法及び装置

Info

Publication number: JP3627299B2
Application number: JP18285195A
Authority: JP
Inventors: 活樹南野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1995-07-19
Filing date: 1995-07-19
Publication date: 2005-03-09
Anticipated expiration: 2015-07-19
Also published as: KR980011007A; DE69626344D1; EP0755046B1; JPH0934486A; US5787395A; DE69626344T2; EP0755046A3; KR100397402B1; CN1151573A; EP0755046A2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識方法および装置に関し、入力音声信号に対して、与えられた辞書の中から対応する語をひとつまたは複数選び出すような音声認識方法および装置に関するものである。
【０００２】
【従来の技術】
入力された音声信号から言語情報を取り出すための音声認識の分野においては、与えられた辞書の中から入力に対応したワードを選び出すという問題が頻繁に発生する。
【０００３】
例えば、地名に対する音声認識の場合、対象候補ワードとなる地名それぞれに対して、標準パターンを作成しておき、入力音声信号を分析して得られる特徴量パターンと全標準パターンとのマッチングをとること、すなわち距離計算を行なうことで最も類似したものを選び出すということを行なう。これは隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）という確率モデルを用いた場合も同様で、やはり各地名に対応したＨＭＭを作成しておき、入力音声信号に対して、その生起確率が最も大きくなるモデルを選び出すということが必要になる。
【０００４】
一般に、音声認識においては、対象となるワードと入力音声信号とのマッチングをとるために距離計算を行なったり、あるいは各ワードの確率モデルを用いて生起確率を計算したりするなどして、全ワードに対してスコアづけを行ない、そのスコアに基づいて、最もスコアの高いものを認識結果として選択するということを行なう。
【０００５】
例えば、上記ＨＭＭ（隠れマルコフモデル）においては、認識対象ワードそれぞれに対して確率モデルを予め作成しておき、未知の入力音声信号を分析して得られる特徴量から生起確率を求め、これをもとに全ワードに対してスコア付けを行い、最もスコアの高いものを認識結果として選択する。
【０００６】
ここで、スコアが高いとは、距離などの場合は距離が小さいことに対応し、生起確率などの場合はその確率が大きいことに対応するなど、その評価値に対応させた表現として用いるものとする。
【０００７】
【発明が解決しようとする課題】
ところで、小語彙の認識システムの場合には、全ての対象候補に対して上述のようなスコア計算を行なっても、その処理量はあまり問題になることはない。
【０００８】
しかし、中語彙や大語彙の認識を行なう場合には、対象となる認識辞書の全てのワードに対してスコア計算をする、いわゆる全探索を行うことは、演算量の増大につながり、その結果、応答時間の遅延をもたらすという問題を引き起こすことになる。
【０００９】
この問題を解決するため、全ワードに対するスコア計算を行なう前に、簡単な評価式を用いて予備選択を行ない、その結果から精密にスコア計算を行なうべき対象ワードを絞り込む方法や、予め対象となる認識ワードを木構造にクラス分けしておき、その構造に従って探索していくことで認識ワードを制限する方法などがある。
【００１０】
一般に、現在の音声認識では、精密なスコア計算、例えばマッチングや確率計算を行なっても認識がなかなか難しいのが現状であり、前者の方法のように、簡単な評価による予備選択を行なった場合、絞り込みの段階で本来残すべきワードを除外してしまい、認識率の低下を引き起こすという問題が生じる虞がある。さらに、簡単な評価式といっても、全ワードに対して行なえば、相当な演算量になってしまうという欠点もある。
【００１１】
これに対して、後者の木構造にクラス分けしておく方法としては、一般の探索問題においては、対象候補を二値木（バイナリーツリー）に構造化しておき、その二値木をたどることによって探索を行なう、という二値木探索と呼ばれる手法が広く用いられている。しかし、このような構造化を用いる手法では、予め決定しておいた探索木をもとに探索範囲を制限する、すなわち局所的な探索をするわけであるから、どのように構造化し、その構造を用いてどのように探索するかが重要であり、全探索に比べて、歪みをできるだけ増加させずに、すなわち認識率をできるだけ低下させずに、演算量を低減させることが要求される。
【００１２】
その意味では、二値木探索は、演算量の大幅な削減が得られるかわりに歪みを増大させてしまうという問題が発生しやすく、特に、音声認識においては、これは認識率の低下を意味し、大きな問題となる。
【００１３】
また、上記ＨＭＭを用いた音声認識は、認識対象ワードそれぞれに対して確率モデルを予め作成しておき、未知入力音声信号を分析して得られる特徴量から生起確率を求め、これをもとに全ワードに対してスコア付けを行い、最もスコアの高いものを認識結果として選択するものである。このＨＭＭを用いた音声認識では、スコア計算過程において、途中結果を用いて枝苅りを行なうことで、演算量を削減するビームサーチ法という演算量の削減方法がある。しかし、これもやはりスコアの途中結果で制限をかけるために、本来残すべきワードを除去してしまい、ひいては歪みを増大させ、認識率の低下を招いてしまうという問題を引き起こしてしまう。
【００１４】
なお、音声認識に限らず、このような探索問題では、探索を高速化するために必要となる探索木などが占める記憶容量の大きさも重要な問題となる。
【００１５】
本発明は、このような実情に鑑みてなされたものであり、演算量を低減しながら認識率の劣化を防止し得るような音声認識方法および装置の提供を目的とする。
【００１６】
また、本発明は、スコア計算を行う音声認識対象ワードの数を制限して演算量を低減し、音声認識の高速化が図れるとともに、必要とされる記憶容量の増大も少なくて済み、しかも探索による歪みの増大や認識率の低下を招くことがないような音声認識方法および装置の提供を目的とする。
【００１７】
さらに、本発明の他の目的は、スコア計算を行う音声認識対象ワードを制限するための階層構造化に用いられる相関値を、音声データを用いずに計算できるようにすることである。
【００１８】
【課題を解決するための手段】
本発明は、上述した課題を解決するため、複数の音声認識対象ワードが与えられ、未知の入力音声信号に対して、予め求めておいたパラメータを用いて、上記音声認識対象ワードにスコア付けを行なうことで、対応する音声認識対象ワードを抽出し認識する際に、各認識対象ワードに対応した音声データから求まるスコアの期待値に基づく値をもとにスコアの高い順に全認識対象ワードを順序付けたときの順位を、上記各音声認識対象ワード間の相関値として求め、上記各音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを予め重複を許す木構造に構造化しておき、この木構造を用いて、上記未知の入力音声信号に対してスコア計算を行なう音声認識対象ワードを限定することを特徴とする。
【００１９】
ここで、上記複数の音声認識対象ワードに対する確率モデルを用意し、上記未知の入力音声信号に対して、上記各確率モデルの生起確率を計算し、その生起確率に従って、対応する音声認識対象ワードを抽出し認識するようにし、上記各音声認識対象ワードに対応する確率モデルの状態遷移確率をもとに状態遷移系列を決定し、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られたシンボル系列の生起確率を上記各音声認識対象ワードに対応するモデルに対して計算し、この生起確率に基づく音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを階層構造に構造化しておくことが好ましい。
【００２１】
さらに、上記階層構造に構造化された音声認識対象ワード等のパターン認識対象の情報を記録媒体に記録しておくことができる。
【００２２】
なお、上記パターン認識対象としては、上記音声認識対象ワード以外に、図形認識や文字認識のような画像情報におけるパターン認識の対象にも適用できるものである。
【００２３】
このように、音声認識対象ワード（一般的にはパターン認識対象、以下同様）を予め階層構造あるいは重複を許す木構造に構造化しておき、その構造に従って検索することで音声認識対象ワードの数を制限し、演算量を低減する。しかも、新たなワード間の相関値の定義と、その相関値に基づく認識ワードの構造化方法によって、局所的な探索であっても、スコアの高くなることが期待されるワードは探索範囲に含まれるようになり、最終的に歪みをほとんど増大させることがなく、認識率の低下を防止できる。
【００２４】
また、ワード間の相関値を、ＨＭＭ（隠れマルコフモデル）のような確率モデルのパラメータから計算するようにすることで、認識辞書に対応する実音声データを大量に必要とすることを回避できる。
【００２５】
【発明の実施の形態】
以下、本発明に係る好ましい実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態においては、音声認識を例として取り上げているが、この他、映像や画像あるいは文字等の各種パターン認識に本発明を適用することも容易である。
【００２６】
第１の実施の形態
以下の本発明の第１の実施の形態の説明においては、まず音声認識に関して簡単に説明し、その音声認識を高速化するための方式として、音声認識対象ワード（以下単にワードともいう）間の相関値の定義、その相関値を用いたワードの構造化の方法、およびその構造を用いた認識手法に関して説明する。次に、記憶容量、および演算量の見積りを行なった後、シミュレーション結果を説明し、その有効性を説明する。
【００２７】
＜音声認識＞
音声認識に用いられる装置は、一般的に図１に示すように、入力部１１、音響分析部１２、認識部１３、パラメータ記憶部１４、出力部１５から構成されることが多い。
【００２８】
入力部１１は、マイクなどの音声信号を入力する装置とその入力信号を増幅するアンプ、およびデジタル信号に変換するＡＤ変換器などによって構成される。そして、入力信号を、例えば１２ｋＨｚでサンプリングした後、音響分析部１２へ送信する。
【００２９】
音響分析部１２では、入力された音声信号から認識に必要な特徴量の抽出を行なう。例えば、単純な信号のエネルギや零交差（ゼロクロス）数、ピッチなどの抽出を行なったり、線形予測分析（ＬＰＣ）、高速フーリエ変換（ＦＦＴ）、バンドパスフィルター（ＢＰＦ）、さらにはＷａｖｌｅｔ変換などによって周波数分析を行なったりする。そして、例えば帯域分割されたエネルギーなどを要素とするベクトル時系列として、特徴量の抽出を行なったりする。また、その特徴量の変化量として、例えば差分データも特徴量の一つとして同時に抽出することもある。こうして得られた特徴量に対し、カルーネンレーブ（ＫＬ）変換や、ニューラルネットワークなどの適当な写像を施すことで、分離度の大きな特徴量にさらに変換する場合もある。また、ベクトル量子化などにより、特徴量ベクトルを圧縮し、量子化された特徴量に変換する場合もある。
【００３０】
このように、音響分析部１２では、認識に必要な特徴量の時系列を入力された音声信号から抽出し、これを認識部１３に送信する。
【００３１】
認識部１３では、予め学習用の音声データを音響分析して得られる特徴量をもとに作成しておいたパラメータ記憶部１４のパラメータを用いて、未知音声データに対する認識処理を行なう。ここで、認識とは、入力された音声信号に対して、与えられた認識辞書の中から、入力に対応したワードを選び出すことである。この認識手法としては、主なものとして、ＤＰマッチング、ニューラルネットワーク、ＨＭＭ（隠れマルコフモデル）などを用いたものが使われる。
【００３２】
ＤＰマッチングは、各音声信号を分析して得られる特徴量からテンプレートと呼ばれる標準パターンを予めパラメータとして求めておき、未知音声の特徴量と比較して最も近いと判定されるものを見つけるという方式である。発話速度の変動を吸収するため、ダイナミックタイムワーピング（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ）と呼ばれる手法により、テンプレートとの歪みを最小化するように時間軸の伸縮を行なう方法がよく用いられる。
【００３３】
ニューラルネットワークは、人間の脳の構造を模倣するネットワークモデルによって認識を行なおうとするもので、学習過程により予めパスの重み係数をパラメータとして決定しておき、そのネットワークに未知音声の特徴量を入力して得られる出力をもとに、辞書内の各ワードとの距離を求め、認識ワードを決定しようとするものである。
【００３４】
また、ＨＭＭは、確率モデルにより認識を行なおうとするもので、予め状態遷移モデルに対して、その遷移確率と出力シンボル確率を学習データをもとに決定しておき、未知音声の特徴量に対する各モデルの生起確率から認識ワードの決定を行なおうとする方式である。このＨＭＭについては、本発明の第２の実施の形態として後で詳述する。
【００３５】
以上述べたように、一般に、認識処理としては、学習過程として、予め学習用データから決定されたパラメータ、すなわちテンプレートや、ネットワークモデルの重み係数、確率モデルの統計的パラメータなどを求めておき、これをパラメータ記憶部１４に記憶しておく。
【００３６】
そして、認識過程では、入力された未知音声信号を音響分析した後、与えられた辞書の中のワードそれぞれに対して、その認識手法に応じた距離や生起確率などのスコア付けを行ない、そのスコアが最も高いもの、あるいは上位複数個、を認識結果として選び出すということを行なう。そして、得られた認識結果を出力部１５に送信する。
【００３７】
出力部１５では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なう。
【００３８】
＜ワード間の相関値＞
上述したような音声認識の処理において、認識部１３のスコア計算は、入力された未知音声信号に対して、与えられた辞書、すなわち音声認識対象ワードの集合内の全ワードとの間で計算される。小語彙の認識であれば、その処理量はあまり問題にならない。しかし、中語彙や大語彙の認識では、非常に重要な問題となる。
【００３９】
そこで、認識対象ワードを予め階層構造あるいは重複を許す木構造に構造化しておき、その構造を用いることで、スコア計算を行なうワード数を削減することが、本発明の目的である。これを簡単に示したのが図２である。
【００４０】
すなわち、図２において、全ての音声認識対象ワードの分布空間２０内において、各ワードＷ間の関係を用いてその分布構造を予め求めておけば、ある入力２１とワードＷの分布構造との関係から、その入力２１に対し、スコア計算を行なう必要のあるワードの集合２２（すなわち上位でスコアを競い合うもの）と、必要のないワードすなわちスコアが高くなりそうもないものと、を決定することができるようになる。そして、スコア計算の必要のないワードを削除する、すなわちスコアの計算対象から外すことにより、認識部の処理量あるいは演算量を低減させようとするものである。
【００４１】
このような目的にあったワードの分布構造を決定するためには、ワード間の関係を知るための距離尺度のようなものが必要となる。
【００４２】
一般に、音声認識において、各ワードに対応したモデル、すなわちテンプレートやネットワークモデル、確率モデルなどを作成し、学習過程においてそのモデルのパラメータを決定し、認識過程においてそのモデルを用いたスコア計算、すなわち距離計算や確率計算を行なうわけであるから、その意味では実音声信号とワードとの距離尺度は、実音声信号を音響分析して得られる特徴量とワードに対応したモデルとから計算されるスコアによって定義されていると考えられる。
【００４３】
ところで、音声認識で用いられるスコアは、話者の違いや、発話速度、環境の変化などによって、大きく変動する傾向が見られる。例えば、同じように発声された二つの音声信号に対して、同じモデルでスコア計算を行なった場合、そのスコアに差異が生じることは珍しくない。また、同じように発声した二つの音声信号に対して、異なる二つのモデルを用いてスコア計算をした場合、一方の音声信号については、片方のモデルに対するスコアの方が高く、もう一方の音声信号については、もう片方のモデルの方がスコアが高いという現象（順序が入れ代わる現象）もしばしば見られる。
【００４４】
そこで、この変動を吸収するため、それぞれの認識手法において用いられるスコアの期待値によって、ワード間の相関値を定義することを考える。
【００４５】
まず、認識対象ワードをＷ_ｉ（１＜ｉ＜Ｎ）と表し、各ワードＷ_ｉに対応する実音声信号の集合をＸ_ｉ＝｛Ｘ_ｉ ^１，Ｘ_ｉ ^２，Ｘ_ｉ ^３，・・・｝とする。ここで、Ｎは認識対象ワード数、すなわち辞書に含まれるワード数とする。
【００４６】
そして、ある音声信号Ｘ_ｊ ^ｋを音響分析して得られる特徴量と、学習によって既にパラメータが決定されているワードＷ_ｉに対応したモデルとの間で計算されるスコア、例えば、ＤＰマッチングにおけるテンプレートとの距離や、ＨＭＭにおける生起確率など、をＳ（Ｘ_ｊ ^ｋ，Ｗ_ｉ）と記述することにする。
【００４７】
ただし、このスコアは
【００４８】
【数１】

【００４９】
のように正規化してあるものとする。この（１）式で、Ｓ_ｏｒｇ（Ｘ_ｊ ^ｋ，Ｗ_ｉ）は正規化前のスコア、Ｓ（Ｘ_ｊ ^ｋ，Ｗ_ｉ）は正規化されたスコアである。
【００５０】
今、ワードＷ_１に対応するある音声信号Ｘ_１ ^１を用いれば、各ワードに対してスコアＳ（Ｘ_１ ^１，Ｗ_ｉ）を求めることができる。同様に、音声信号Ｘ_１ ^２を用いてスコアＳ（Ｘ_１ ^２，Ｗ_ｉ）が求まる。以下同様にすれば、Ｗ_１に対応する音声信号の集合Ｘ_１＝｛Ｘ_１ ^１，Ｘ_１ ^２，Ｘ_１ ^３，・・・｝を用いてスコアがそれぞれ計算できる。そこで、この音声信号の集合Ｘ_１に対して各ワードごとに求まるスコアの期待値、例えば平均値をＳｅ（Ｘ_１，Ｗ_ｉ）と表すことにすれば、
【００５１】
【数２】

【００５２】
のように計算することができる。ここで、ＫはＷ_１に対応する音声信号のデータ数であり、十分大きいものとする。
【００５３】
同じようにして、ワードＷ_ｊに対応する音声信号の集合Ｘ_ｊ＝｛Ｘ_ｊ ^１，Ｘ_ｊ ^２，Ｘ_ｊ ^３，・・・｝と各ワードとの間で、スコアの期待値を次式のように求めることができる。
【００５４】
【数３】

【００５５】
もし、認識性能がある程度保証された音声認識の方式を用いるならば、ワードＷ_１に対応した音声信号の集合Ｘ_１に対しては、上記（３）式で求まるスコアの期待値の中で、Ｓ_ｅ（Ｘ_１，Ｗ_１）が最も高くなることが期待できる。同様に、ワードＷ_ｊに対応した音声信号の集合Ｘ_ｊに対しては、（３）式で求まるスコアの期待値の中で、Ｓ_ｅ（Ｘ_ｊ，Ｗ_ｊ）が最も高くなることが期待できる。そして、Ｘ_ｊに対してスコアの期待値Ｓ_ｅ（Ｘ_ｊ，Ｗ_ｉ）が高いＷ_ｉというのは、未知音声信号Ｘ_ｊ ^ｋに対してもスコアＳ（Ｘ_ｊ ^ｋ，Ｗ_ｉ）が高くなることが期待でき、逆に、Ｘ_ｊに対するスコアの期待値Ｓ_ｅ（Ｘ_ｊ，Ｗ_ｉ）が低いＷ_ｉというのは、未知音声信号Ｘ_ｊ ^ｋに対してもスコアＳ（Ｘ_ｊ ^ｋ，Ｗ_ｉ）が低くなることが期待できる。
【００５６】
そこで、上記（３）式によって求まるスコアの期待値Ｓ_ｅ（Ｘ_ｊ，Ｗ_ｉ）をワードＷ_ｊに対するワードＷ_ｉの距離尺度Ｄ（Ｗ_ｊ，Ｗ_ｉ）としてとらえる。
【００５７】
【数４】

【００５８】
ただし、この（４）式の距離尺度Ｄ（Ｗ_ｊ，Ｗ_ｉ）は、スコアＳ（Ｘ_ｊ ^ｋ，Ｗ_ｉ）としてテンプレートとの距離などを用いる場合には、小さければ小さいほどＷ_ｊに対してＷ_ｉが近いことを意味し、ＨＭＭなどの生起確率を用いる場合には、逆に大きければ大きいほどＷ_ｊに対してＷ_ｉが近いことを意味する。
【００５９】
このとき、距離尺度Ｄ（Ｗ_１，Ｗ_ｉ）にもとづいて、ワードＷ_１に対してワードＷ_ｉ（ｉ＝１，２，・・・，Ｎ）を近い順に並べることができる。同様に、ワードＷ_２，Ｗ_３，・・・，Ｗ_Ｎに対しても、ワードＷ_ｉ（ｉ＝１，２，・・・，Ｎ）を近い順に並べることができる。
【００６０】
そこで、その順位、つまりＷ_ｊに対して近い順にワードＷ_ｉを並べたときの順位を、ワードＷ_ｊに対するワードＷ_ｉの相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）として定義する。例えば、一番近いものは１、二番目に近いものは２、以下同様にして、最も遠いものはＮとする。
【００６１】
なお、上記（４）式のの距離尺度Ｄ（Ｗ_ｊ，Ｗ_ｉ）が同じになり、順位が同じとなるようなものがある場合は、これに無理矢理順序をつけることはせず、ともに同じ相関値を設定するものとする。例えば、３位のものが二つある場合は、ともに３を設定する。
【００６２】
以上のようにして定義された相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）は、１からＮまでの整数値をとることになり、小さいほど相関が高く、大きいほど相関が低いと見なすことができる。すなわち、相関が高いあるいは相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）が小さいとは、ワードＷ_ｊに対応した未知音声信号Ｘ_ｊ ^ｋに対してワードＷ_ｉのモデルから求まるスコアＳ（Ｘ_ｊ ^ｋ，Ｗ_ｉ）が高くなることが期待できることを意味し、相関が低いあるいは相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）が大きいとは、ワードＷ_ｊに対応した未知音声信号Ｘ_ｊ ^ｋに対してワードＷ_ｉのモデルから求まるスコアＳ（Ｘ_ｊ ^ｋ，Ｗ_ｉ）が低くなることが期待できることを意味する。ここで、Ｒ（Ｗ_ｊ，Ｗ_ｉ）とＲ（Ｗ_ｉ，Ｗ_ｊ）は、定義からわかるように、必ずしも同じになるとは限らないということは注意が必要である。
【００６３】
次に、このような相関値をもとに、目的とする音声認識対象ワードを構造化する方法について説明する。
【００６４】
＜認識対象ワードの構造化＞
音声認識対象ワードの構造化の方法に関して述べる前に、どのように構造化すべきかについて簡単に説明する。
【００６５】
基本的には、音声認識対象ワードを代表ワードとそれに属するワードとに分離し、実際に認識を行なう場合には、入力音声信号に対して、まず代表ワードの中だけで認識処理を行なう。これは、図２における全認識対象ワードの分布空間２０において、どのあたりに入力されたかを調べることにあたる。この認識処理の結果により、さらに認識処理を行なうべきワードを限定し、最終的には、代表ワードとある一部のワードに対する認識処理、すなわち局所的な探索だけで認識結果を求めようとすることになる。
【００６６】
例えば、図３に示されるような関係、すなわち代表ワード３１としての例えば５つのワードＷ_１、Ｗ_５、Ｗ_７、Ｗ_１０と、それに属するワード３２としての例えば６つのワードＷ_２、Ｗ_３、Ｗ_４、Ｗ_６、Ｗ_８、Ｗ_９との間の従属関係が得られた場合、先ず、代表ワードだけで認識処理を行ない、その結果をもとに、ある判定基準に基づいて、次に認識処理を行なうべきワードを選び出すことになる。例えば代表ワードＷ_７に属するワードが選び出されたとすれば、結局は、代表ワード３１となる５つのワードＷ_１、Ｗ_５、Ｗ_７、Ｗ_１０と、ワードＷ_７に属するワードＷ_６、Ｗ_８、Ｗ_９に対してだけ認識処理を行ない、その中から最もスコアの高いものが選ばれることになる。
【００６７】
したがって、全探索で正解が得られる、すなわち入力音声信号に対応するワードのスコアが最も高くなるようなら、代表ワードに対応する入力音声信号に対しては必ず正解が得られることになる。
【００６８】
これに対して、代表ワード以外のワードに対応する入力音声信号に対しては、先ず、代表ワードの中だけで認識処理を行なった場合、当然、正解は得られるはずはない。しかし、代表ワードに対するスコアづけを行なえば、その中でスコアの高いもの、すなわち相関が高いと思われるもの、を抽出することができる。
【００６９】
そこで、正解となるワードにとって相関の高い、すなわち相関値の小さいワードが代表ワードの中に含まれており、かつ、その代表に属するワードの中にその正解となるワードが含まれているならば、代表ワードの中でスコアの高いものを求め、それに属するワードを抽出し、その中でさらに認識処理を行なうことで、最終的に正解が得られることが期待できる。
【００７０】
以上の考えに基づいて、認識対象ワードを構造化する方法について、図４を参照しながら説明する。
【００７１】
手順１．グループ化（ステップＳ４１）
相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）とＲ（Ｗ_ｉ，Ｗ_ｊ）が共に小さいワードＷ_ｉとＷ_ｊとは、どちらのワードに対応した入力音声信号Ｘに対しても、スコアＳ（Ｘ，Ｗ_ｉ），Ｓ（Ｘ，Ｗ_ｊ）が高くなることが期待できることから、この二つをグループ化する。この際、どちらか一方を代表ワードとし、他方をその属するワードとする。また、グループ化されないワードに関しては、自分自身を代表ワードとし、単一グループとする。
【００７２】
手順２．グループへの追加（ステップＳ４２）
いずれかのグループに属してしまい、代表ワードにならなかったＷ_ｊに関しては、さらに、Ｒ（Ｗ_ｊ，Ｗ_ｉ）が小さいＷ_ｉの中で代表ワードに選ばれたＷ_ｉのグループにも属するようにする。これは、代表に選ばれなかったＷ_ｊの属するグループとして、Ｗ_ｊに対して相関の高いＷ_ｉが代表ワードとなっているものを、できる限り多くしておくために行なわれる処理である。
【００７３】
手順３．階層化
上記グループ化およびグループへの追加を一まとまりのステップとしてグループ分けを行ない、同様にして各グループの代表ワードに対して改めてグループ分けを行ない、さらにその代表ワードに対してグループ分けを行なうということを繰り返し、階層構造の探索木を作成する。つまり、上記グループ化およびグループへの追加の処理によって、ある階層において、相関のあるワードがグループ化され、各グループに対する代表がひとつ選ばれることになる。そして、その代表ワードが、その上の階層の構成要素となるわけである。
【００７４】
図４のフローチャートにおいては、先ず、ステップＳ４１で上記グループ化を行い、ステップＳ４２で上記グループへの追加を行い、ステップＳ４３で上記代表ワードを選び出す。この選び出された代表ワードに対して、再びステップＳ１のグループ化とステップＳ２のグループへの追加を行い、これを繰り返していき、階層構造に構造化していくわけである。
【００７５】
図５はこのようなグループ分けの具体例を示している。
まず、図５のＡに示す与えられた音声認識対象ワードＷ_ｉ（ｉ＝１，２，・・・，１０）に対して、上記各ステップＳ４１、Ｓ４２により図５のＢに示すようなグループ分けが行なわれ、上記ステップＳ４３により代表ワードＷ_１、Ｗ_５、Ｗ_７、Ｗ_１０が選び出される。次に、この代表ワードに対して、同様に上記各ステップＳ４１、Ｓ４２の処理を行ない、図５のＣに示すようなグループ分けがなされ、ステップＳ４３により代表ワードＷ_１、Ｗ_７が選び出される。そして、最終的に図６に示すような探索木が得られることになる。
【００７６】
次に、上記の構造化に関して、具体例を述べる。
【００７７】
グループ化について
手順１．まず、各ワードＷ_ｉに対応したグループＧ_ｉをつくり、そのグループの要素数をｎ（Ｇ_ｉ）で表すことにする。
【００７８】
初期状態は、
Ｇ_ｉ＝｛Ｗ_ｉ｝，ｎ（Ｇ_ｉ）＝１・・・（５）
とし、各グループＧ_ｉの代表ワードをＷ_ｉとする。
手順２．各ワードＷ_ｊに対して、相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）（ただしｉ＝１，２，・・・，Ｎ）を求める。
手順３．ｉ＝１
手順４．ｊ＝ｉ＋１
手順５．Ｒ（Ｗ_ｊ，Ｗ_ｉ）≦ｒ、かつＲ（Ｗ_ｉ，Ｗ_ｊ）≦ｒとなる場合、この（ｉ，ｊ）に対して以下を行なう。それ以外の場合は次の手順６．へ。
（１）ｎ（Ｇ_ｉ）≧１かつｎ（Ｇ_ｊ）≦１の場合、下記の処理（Ｉ）を実行。
（２）ｎ（Ｇ_ｉ）≦１かつｎ（Ｇ_ｊ）≧１の場合、下記の処理（ＩＩ）を実行。
（３）ｎ（Ｇ_ｉ）＞１かつｎ（Ｇ_ｊ）＜１の場合、
グループＧ_ｉに含まれるＷ_ｉ以外の要素と、
グループＧ_ｊに含まれるＷ_ｊ以外の要素が同じであれば、
下記の処理（Ｉ）（または、処理（ＩＩ））を実行。
ただし、処理（Ｉ），（ＩＩ）とは次のような処理である。
処理（Ｉ）：グループＧ_ｉにワードＷ_ｊが既に属していれば何も行なわず、属していなければ、グループＧ_ｉにワードＷ_ｊを追加し、ｎ（Ｇ_ｉ）は１増加し、ｎ（Ｇ_ｉ）＝０とする。
処理（ＩＩ）：グループＧ_ｊにワードＷ_ｉが既に属していれば何も行なわず、属していなければ、グループＧ_ｊにワードＷ_ｉを追加し、ｎ（Ｇ_ｉ）は１増加し、ｎ（Ｇ_ｉ）＝０とする。
手順６．ｊを１増加させ、ｊ≦Ｎならば上記手順５．へ戻り、ｊ＞Ｎならば次の手順７．へ。
手順７．ｉを１増加させ、ｉ≦Ｎ−１ならば上記手順４．へ戻り、ｉ＞Ｎ−１ならば終了する。
【００７９】
上記のグループ化の方法に関して、図７のフローチャートを参照しながら簡単に説明する。
【００８０】
ステップＳ７１でグループの初期化を行ない、ステップＳ７２で相関値を求め、ステップＳ７３において、上記手順３．〜手順７．に相当する処理、すなわち異なるＷ_ｉとＷ_ｊに対して、相関値をもとにグループ化を行なっていく。その判定基準としては、上記手順５．の処理におけるような
Ｒ（Ｗ_ｊ，Ｗ_ｉ）≦ｒかつＲ（Ｗ_ｉ，Ｗ_ｊ）≦ｒ・・・（６）
を用いる。ここで、ｒは、１よりは大きく認識対象ワード数Ｎよりは（十分）小さな整数（例えば、２から１０くらい）を設定する。すなわち、相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）とＲ（Ｗ_ｉ，Ｗ_ｊ）が共に小さくなるようなＷ_ｉ，Ｗ_ｊに対してグループ化を行なっていくわけである。
【００８１】
そして、そのようなＷ_ｉとＷ_ｊとが見つかった場合には、基本的には上記手順５．に示す（１），（２）の場合のように、まだ代表ワードになっていない方を、既に代表ワードになっている方のグループに属させるようにする。すなわち上記処理（Ｉ）または処理（ＩＩ）を行う。例えば、Ｇ_１＝｛Ｗ_１，Ｗ_２｝，Ｇ_３＝｛Ｗ_３｝の場合に、Ｗ_１とＷ_３の間で上記（６）式が成り立てば、Ｇ_１＝｛Ｗ_１，Ｗ_２，Ｗ_３｝に変更し、Ｇ_３は空集合にすればよい。
【００８２】
ただし、どちらのグループにも、既に代表ワード以外に属する要素が存在する場合、すなわち上記手順５．の（３）の場合には、その代表ワード以外の要素が同じ時のみ、上記処理（Ｉ）（または処理（ＩＩ））を実行する。例えば、Ｇ_５＝｛Ｗ_１，Ｗ_５｝，Ｇ_７＝｛Ｗ_２，Ｗ_７｝の場合に、Ｗ_５とＷ_７に対して上記（６）式が成り立っても、グループ化は行なわないが、Ｇ_５＝｛Ｗ_１，Ｗ_２，Ｗ_５｝，Ｇ_７＝｛Ｗ_１，Ｗ_２，Ｗ_７｝の場合に、Ｗ_５とＷ_７に対して（６）式が成り立てば、Ｇ_５＝｛Ｗ_１，Ｗ_２，Ｗ_５，Ｗ_７｝に変更し、Ｇ_７は空集合にすることになる。逆に、Ｇ_５を空集合にし、Ｇ_７＝｛Ｗ_１，Ｗ_２，Ｗ_５，Ｗ_７｝と変更してもよい。
【００８３】
また、ｎ（Ｇ_ｉ）＝１かつｎ（Ｇ_ｊ）＝１の場合に、Ｗ_ｉとＷ_ｊに対して上記（６）式が成り立つようなときは、上記処理（Ｉ）と処理（ＩＩ）のどちらを実行してもよい。
【００８４】
なお、判定条件の上記（６）式におけるｒは、小さければ小さいほど、グループ化が行なわれる条件が厳しくなる。その意味では、最初ｒ＝２に設定して、上記手順１．から手順７．の処理を行ない、次にｒ＝３に設定して、上記手順３．から手順７．の処理を行ない、同様にしてｒを１ずつ増加させながら、ｒ≦ｒ_ａを満たす間、上記手順３．から手順７．の処理を繰り返すようにすることで、最も相関のあるワードどうしがまずグループ化されてから、次に相関のあるもの、その次に相関のあるものという風に、順にグループ化されていくことになり、代表に選ばれないワードにとっては、より相関の強いワードが初期の段階で代表ワードになってくれるという点で、効果のある構造化が得られるようになる。ここで、ｒ_ａには、２よりは大きく認識対象ワード数Ｎよりは十分小さな整数（例えば、３から１０くらい）を設定するものとする。
【００８５】
これを図８に示す。図８の各ステップＳ８１、Ｓ８２、Ｓ８３は、それぞれ上記図７の各ステップＳ７１、Ｓ７２、Ｓ７３に対応するが、上記手順３．から手順７．の処理に相当するステップＳ８３については、ｒを１ずつ増加させながらｒ≦ｒ_ａを満たす間、処理を繰り返すようにしている。
【００８６】
さらにまた、判定条件の上記（６）式の代わりに、
Ｒ（Ｗ_ｊ，Ｗ_ｉ）≦ｒ_ｊかつＲ（Ｗ_ｉ，Ｗ_ｊ）≦ｒ_ｉ・・・（７）
のようにＷ_ｊにはそれに応じたｒ_ｊを設定するようにし、例えば、
ｒ_ｊ＝ｎ（Ｇ_ｊ）＋ｒ−１（ｊ＝１，２，・・・，Ｎ）・・・（８）
のように、ｎ（Ｇ_ｊ）に応じて変動させるような方法も考えられる。この場合、最初はｒ＝２、すなわちｒ_ｊ＝２に設定して、上記手順１．から手順７．の処理を行ない、得られた各グループの要素数に従って、ｒ＝３として上記（８）式によりｒ_ｊを設定し直し、上記手順３．から手順７．の処理を行ない、同様にして、ｒを１ずつ増加させるとともに、グループの要素数に応じて上記（８）式によってｒ_ｊを設定し直しながら、ｒ≦ｒ_ａを満たす間、上記手順３．から手順７．の処理を繰り返すようにする。このようにすることで、本来非常に相関のあるＷ_ｉとＷ_ｊがグループ化されないような状況、特に、Ｗ_ｊにとってさらに相関のあるＷ_ｋが多数存在していたために、相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）が少し大きくなってしまい、Ｗ_ｉとＷ_ｊがグループ化されないような状況を緩和することができる。
【００８７】
例えば、Ｗ_５に対して、Ｒ（Ｗ_５，Ｗ_１）＝２であったとしても、Ｗ_１に対して、Ｒ（Ｗ_１，Ｗ_３）＝２，Ｒ（Ｗ_１，Ｗ_８）＝３，Ｒ（Ｗ_１，Ｗ_５）＝４であるような場合、ｒ≧４として上記（６）式の判定を行なわなければ、Ｗ_１とＷ_５はグループ化されない。しかし、もし、Ｇ_１＝｛Ｗ_１，Ｗ_３，Ｗ_８｝のようにグループ化された後に、ｒ＝２として上記（７）式の判定を行なえば、Ｗ_１とＷ_５はグループ化されることになる。これは、上記（８）式により、ｒ_１＝５，ｒ_５＝３となるからである。
【００８８】
したがって、さらに効率的に構造化が行なえるようになる。ここで、ｒ_ａには、前と同様、２よりは大きく認識対象ワード数Ｎよりは十分小さな整数（例えば、３から１０くらい）を設定するものとする。
【００８９】
グループへの追加について
手順１．ｊ＝１
手順２．Ｗ_ｊが代表ワードでない場合、すなわちｎ（Ｇ_ｊ）＝０の場合、以下を行なう。それ以外の場合は、次の手順３．へ。
（ａ）ｉ＝１
（ｂ）Ｗ_ｉが代表ワードの場合、すなわちｎ（Ｇ_ｉ）＞０の場合、以下を行なう。それ以外の場合は、（ｃ）へ。
Ｒ（Ｗ_ｊ，Ｗ_ｉ）≦ｒ_ｂの場合、下記の処理（ＩＩＩ）を実行。
（ｃ）ｉを１増加させ、ｉ≦Ｎならば（ｂ）へ戻り、ｉ＞Ｎならば次の手順３．へ。
ただし、処理（ＩＩＩ）とは次のような処理である。
処理（ＩＩＩ）：グループＧ_ｉにワードＷ_ｊが既に属していれば何も行なわず、属していなければ、グループＧ_ｉにワードＷ_ｊを追加し、ｎ（Ｇ_ｉ）を１増加させる。
手順３．ｊを１増加させ、ｊ≦Ｎならば上記手順２．へ戻り、ｊ＞Ｎならば終了。
【００９０】
上記のグループへの追加に関して、簡単に説明を加えると、まず、前記のグループ化によって、代表ワードとそれに属するワードに分離されることになる。そして、認識過程では、この代表ワードだけで、まず認識処理を行ない、その結果から、さらに認識処理の必要なワードを選び出すことが行なわれる。
【００９１】
つまり、代表に選ばれなかったワードにとっては、相関の強いワードができるかぎり代表ワードに含まれており、かつその代表ワードのグループに属していることが重要になるといえる。
【００９２】
そこで、上記の手順１．，手順２．，手順３．の処理を通して、代表ワードに選ばれてないワードＷ_ｊに着目し、代表に選ばれているＷ_ｉの中で相関の強いワード、すなわち
Ｒ（Ｗ_ｊ，Ｗ_ｉ）≦ｒ_ｂ（９）
を満たすＷ_ｉを探しだし、対応するグループＧ_ｉにＷ_ｊがまだ属していない場合は、そのグループの要素としてＷ_ｊを追加するわけである。
【００９３】
なお、上記（９）式のｒ_ｂは、２よりは大きく認識対象ワード数Ｎよりは小さな整数（例えば、３から２０くらい）を設定するものとする。ただし、認識性能を劣化させないためには、前述のグループ化における（６）式のｒや（７）式のｒ_ｉ，ｒ_ｊはあまり大きくしない方が良い、すなわち判定条件を厳しくした方が良いのに対して、上記（９）式のｒ_ｂはできるだけ大きめに設定する方が良いと言える。
【００９４】
なぜなら、代表ワードに選ばれないワードに関しては、認識過程において、認識処理（スコア計算）が行なわれる対象ワード内に含まれない危険性があり、その意味では、グループ化を行なう際に、相関のあまり強くないワードどうしはグループ化を、すなわち片方を代表ワードとし、もう片方をそれに属するワードとすることを、しない方が良いといえる。したがって、上記（６）式のｒや（７）式のｒ_ｉ，ｒ_ｊはあまり大きくしない方が良い。
【００９５】
これに対して、一旦グループ化が行なわれた後、代表ワードに選ばれかったワードは、できるだけ多くのグループに属している方が、認識過程において、認識処理（スコア計算）が行なわれる対象ワード内に含まれる確度が高くなり、その意味では、上記（９）式のｒ_ｂはできるだけ大きい方が良いわけである。特に、そのワードにとって相関の高いワードが代表となっているグループに含まれることは、より効果が期待できるわけである。
【００９６】
しかし、上記（９）式のｒ_ｂを大きくすることは、認識過程における探索範囲の拡大、すなわちスコア計算が行なわれるワード数が大きくなることにつながり、本来の目的である、認識過程の処理量（演算量）を縮小したいという意味ではあまり大きくし過ぎてはいけない。したがって、結局ｒ_ｂとしては、上記（６）式のｒや上記（７）式のｒ_ｉ，ｒ_ｊよりは少し大き目くらいに設定するのが好ましい。
【００９７】
階層化について
手順１．全認識対象ワード｛Ｗ_ｉ：ｉ＝１，２，・・・，Ｎ｝に対し、Ｗ_ｉをＷ_ｉ ^０などと表記することにする。また、Ｎ^０＝Ｎとする。
手順２．ｍ＝１
手順３．ワード｛Ｗ_ｉ ^ｍ−１：ｉ＝１，２，・・・，Ｎ^ｍ−１｝に対して、前述のグループ化とグループへの追加の処理を１ステップとするグループ分けを行なう。得られた代表ワードを｛Ｗ_ｉ ^ｍ：ｉ＝１，２，・・・，Ｎ^ｍ｝と表すことにする。ただし、Ｎ^ｍは得られた代表ワードの数である。
手順４．ｍを１増加させ、ｍ≦Ｍならば手順３．へ戻り、ｍ＞Ｍならば終了。
【００９８】
上記の階層化に関して、上記図４を参照しながら簡単に説明する。
まず、ｍ＝１における上記手順３．の処理は、全認識対象ワードに対して、前述のステップＳ４１でのグループ化と、ステップＳ４２でのグループへの追加を行なうことにあたり、最初に行なうステップＳ４１のグループ化によって、相関の強いものどうしがグループ化され、その従属関係が決定されることになる。
【００９９】
次に、ｍ＝２とし、ｍ＝１において得られた代表ワードに対するグループ分けを行なうわけであるが、やはり最初に行なうグループ化によって、相関の強いものどうしがグループ化され、その従属関係が決定されることになる。
【０１００】
以後、同様にｍ＞Ｍとなるまで、同じようにグループ分けを行っていき、図６に示されるような階層構造の探索木が得られることになるわけであるが、その作成過程を考えれば、ある階層のワードには、相互に相関の強いワードが代表ワードとしてその上の階層に存在し、パスがつながっていることが期待できる。つまり、最も下の階層、すなわち全認識対象ワードの集合、にあるワードにとって、相互に相関の強いワードへのパスが上の階層へとつながっていくことが期待できる。
【０１０１】
例えば、図９に示されるように、ワードＷ_１とＷ_５の間に上記（６）式あるいは（７）式のような関係が成立し、Ｗ_１が代表ワード、Ｗ_５がＷ_１に属するワードになったとする。さらに、ワードＷ_１とＷ_９がともに代表として選ばれた後、再度グループ化を行なった結果、ワードＷ_１とＷ_９の間に、上記（６）式あるいは（７）式ような関係が成立し、Ｗ_９が代表ワード、Ｗ_１がＷ_９に属するワードになったとする。この場合、ワードＷ_５とＷ_９の相関も強いことが期待できるわけである。
【０１０２】
しかしながら、最も下の階層のワードにとって、上の階層へのパスをたどっていって得られるワードとの相関の強さは、上の階層へ行けば行くほど、弱くなることが予想される。したがって、もし得られた探索木をもとに、認識処理をすべきワードを制限するものとした場合、あまり上の階層のワードから最も下のワードに対する制限をかけるのは、歪みの増大、すなわち認識率の低下を招くことが予想され、好ましくないといえる。その意味からすれば、上記のような階層化によって得られる探索木の最上位の階層Ｍは、あまり大きくし過ぎない方が良い。
【０１０３】
なお、Ｗ_ｉ ^ｍを第ｍ階層のワードと呼ぶことにする。例えば、認識対象ワードの集合は第０階層のワードであり、そこから選ばれた代表ワードの集合は第１階層のワードと呼ぶことにする。
【０１０４】
＜認識手法＞
つづいて、上記認識対象ワードを上述したように階層構造に構造化することによって得られる探索木を用いた認識手法に関して述べる。
【０１０５】
この音声認識には、図１に代わって、図１０のような構成が用いられる。
【０１０６】
ここで、入力部１０１、音響分析部１０２、パラメータ記憶部１０４、出力部１０５に関しては、その動作は前述した図１の各部１１、１２、１４、１５とそれぞれ同じである。
【０１０７】
すなわち、入力部１０１から入力された音声信号が、音響分析部１０２で音響分析され、得られた特徴量が認識部１０３へ送られる。
【０１０８】
学習過程では、学習用の音声データをもとに、認識処理に用いられるパラメータが決定され、そのパラメータがパラメータ記憶部１０４に記憶される。そして新たに、前述した認識対象ワードの構造化を、実音声データを用いて行ない、得られた探索木を探索木記憶部１０６に記憶する。すなわち、各認識対象ワードに対応した実音声データに対して、認識部１０３におけるスコア計算を行ない、前述の構造化の方法に基づいて探索木を作成し、探索木記憶部１０６に記憶する。
【０１０９】
認識過程においては、入力部１０１より入力された未知音声信号に対して、音響分析部１０２において音響分析を行ない、得られた特徴量が認識部１０３へ送られる。そして、以下のような認識処理を行なう。
【０１１０】
手順１．第Ｍ階層のワードに対してスコア計算を行ない、最もスコアの高いものから上位ｐ個を選び出す。
手順２．ｍ＝Ｍとする。
手順３．第ｍ階層において選ばれた最もスコアの高いものから上位ｐ個のワードに対して、探索木記憶部１０６の探索木をもとに、そのワードに属する第ｍ−１階層のワードを抽出する。そして、それらのワードに対して、再びスコア計算を行ない、最もスコアの高いものから上位ｐ個を選び出す。
手順４．ｍを１減少させ、ｍ＞０ならば３へ戻り、ｍ＝０ならば次の手順５．へ。
手順５．第０階層において抽出されたワードの中から、最もスコアの高いもの、あるいは上位複数個、を選び出す。
そして、上記手順５．において選び出された最もスコアの高いワード、あるいは上位複数個を、出力部１０５へ送信する。
【０１１１】
出力部１０５では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なう。
上記手順１．の処理を初期探索といい、上記手順２．から手順４．までの処理を構造探索と呼ぶ。
【０１１２】
ここで、図１１は、上記認識処理の概要を説明するためのフローチャートである。
この図１１の最初のステップＳ１１１において、初期探索として、上記第Ｍ階層の探索を行い、その後、処理ルーチン１１２により、第Ｍ−１階層の探索から第０階層の探索までの構造探索を行う。この処理ルーチン１１２において、ステップＳ１１３では第ｍ階層のワードを抽出し、この抽出されたワードに対して、ステップＳ１１４でスコア計算が既に行われているか否かを判別し、ＮＯのときはステップＳ１１５に進んでスコア計算を行った後、ステップＳ１１６に進み、ＹＥＳのときは直接ステップＳ１１６に進んでいる。ステップＳ１１６では、計算されたスコアの高いものから上位ｐ個を選び出している。
【０１１３】
上記初期探索は、認識過程において最初に行なう最上位階層の代表ワードに対するスコア計算にあたり、構造探索は、探索木をもとに、一つ上の階層の探索で選び出されたｐ個の代表ワードに属するワードに対してスコア計算を行なっていく処理にあたる。また、以上のような構造探索においては、代表ワードとして既にスコア計算をしたものや、抽出した二つ以上のグループに重複して含まれているものがあるため、一旦スコア計算を行なったワードに関しては、そのスコアを記憶しておき、同じワードに対するスコア計算の重複を避けるようにするものとする。
【０１１４】
＜記憶容量の見積り＞
以上のような探索木を用いた認識処理において、探索木に必要な記憶容量の見積りをしておく。全ワード数をＮとする。グループ化によって、ある階層のワードがそのワード数の約２分の１のグループに縮退し、かつ各グループの平均要素数が１０ワードになると仮定すれば、階層ｍのワード数は
（１／２）^ｍＮ（１０）
で与えられ、各ワードから一つ下の階層のワードへの従属関係として平均１０本の探索木のパスを記憶しなければならず、したがって、第１階層から第Ｍ階層までの全ワードに対しては、
【０１１５】
【数５】

【０１１６】
のパスを記憶する必要があることになる。ここで、Ｍは探索木の最上位階層である。したがって、記憶容量としては、Ｍを十分大きくしたとしても、
【０１１７】
【数６】

【０１１８】
のパス情報を記憶すればよいことになる。
【０１１９】
なお、この値は認識対象となるワードのセットに大きく依存したものであり、上記（６）式のｒや、上記（９）式のｒ_ｂによっても大きく変動することから、ひとつの目安として示したものである。
【０１２０】
＜演算量の見積り＞
次に、探索木を用いた認識処理における、演算量の見積りをしておく。前述した記憶容量の見積りにおいて想定するような探索木が得られたとする。つまり、全ワード数をＮとし、各階層において約２分の１のグループに縮退し、かつ各グループの平均要素数が１０ワードであるとすれば、認識における初期探索のワード数は
（１／２）^ＭＮ（１３）
構造探索のワード数は、
【０１２１】
【数７】

【０１２２】
で与えられることになる。ただし、Ｍは認識時の初期探索を行なう階層、ｐは第ｍ階層で抽出するスコアの高いワード数とする。
【０１２３】
参考として、１０００ワードと４０００ワードの認識において、ｐ＝１０の場合のスコア計算すべきワード数、すなわち初期探索のワード数と構造探索のワード数を見積もったのが次の表１，表２である。
【０１２４】
【表１】

【０１２５】
【表２】

【０１２６】
それぞれ、初期探索の階層Ｍに対する初期探索のワード数と構造探索のワード数、およびその合計、すなわち最終的にスコア計算を行なうワード数を示している。ここで、Ｍ＝０は全探索に対応しているものとする。構造化による演算量の削減としては、表１に示す１０００ワードの認識の場合、第６階層を初期探索の階層とすれば、初期探索２５０ワード、構造探索２００ワード、合計４５０ワードのスコア計算を行なうことになり、約６割減になるものと思われる。また、表２に示す４０００ワードの場合、第４階層を初期探索の階層とすれば、初期探索２５０ワード、構造探索４００ワード、合計６５０ワードのスコア計算を行なうことになり、約８割減になるものと思われる。しかも、代表ワードとして既にスコア計算したものや、抽出した二つ以上のグループに重複して含まれるものなど、同じワードに対するスコア計算の重複は避けることから、さらに演算量を削減できることが期待できる。
【０１２７】
なお、このような探索木を用いた認識処理を行なう場合には、スコア計算と別に、構造探索においてスコア計算すべきワードを抽出するための処理などが加わるが、この演算量は、スコア計算にかかる演算量に比べれば十分小さなものになると考え、考慮に入れていない。
【０１２８】
＜シミュレーション結果＞
実際に、９３８個の単語認識を、全探索と本発明の構造化を用いた探索とで比較した結果について述べる。ただし、構造化の方法としては、グループ化を行なうために上記（７）式を用い、ｒを２から８まで増加させながら、上記（８）式でｒ_ｊを変動させてグループ化を行なった。また、グループへの追加を行なうために上記（９）式においてｒ_ｂ＝２０を用いた。そして、Ｍ＝２階層の構造化を行なった。その結果、初期探索のワード数が１５０個となる２階層の探索木で、各階層のあるワードからその下の階層のワードへのパスとしては、平均１２本つながっているようなものが得られた。
【０１２９】
まず、全探索による認識では、認識率が９８．７％、スコア計算を行なったワード数が９３８個であった。これに対して、各階層でスコアの高いワードをｐ＝８個抽出するような構造化を用いた認識処理を行なった結果、認識率は９６．６％とわずかの劣化しか見せず、スコア計算を行なったワード数は、初期探索に１５０個、構造探索に平均１３５個、合計２８５個（平均）となった。つまり、全探索に比べ、計算量を約７割低減することが可能となったことがわかる。
【０１３０】
以上示したように、本発明の上述した第１の実施の形態によれば、認識対象ワードを予め木構造に構造化しておき、その構造に従って探索することで認識ワードを制限でき、演算量を大幅に低減することが可能となる。しかも、新たなワード間の相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）の定義と、その相関値に基づく認識ワードの構造化方法によって、局所的な探索であっても、スコアの高くなることが期待されるワードは探索範囲に含まれるようになり、最終的に、歪みをほとんど増大させることはない。つまり、認識率をほとんど劣化させることはない。さらに、余分に必要な記憶容量もワード数に対してその約１０倍程度パス情報を持っておけばよいだけであり、比較的小さなものとなる。
【０１３１】
第２の実施の形態
次に、本発明の第２の実施の形態として、本発明をＨＭＭ（隠れマルコフモデル）を用いた音声認識に適用した場合の例について説明する。
【０１３２】
これは、上述した第１の実施の形態において、相関値を計算するために音声データを用いる必要があった点を改良し、音声データを用いずにＨＭＭのパラメータから直接計算できるようにしたものである。もちろん、上述した実施の形態と同様、歪みの増大による認識率の低下をほとんど招くことなく、演算量を大幅に低減することを可能とする。しかも、余分に必要とされる記憶容量も比較的小さなものとなる。
【０１３３】
以下、ＨＭＭを用いた音声認識に関して簡単に説明し、その音声認識を高速化するための方式として、ワード間の相関値の定義、その相関値を用いた認識ワードの構造化の方法、およびその構造を用いた認識手法に関して述べる。
【０１３４】
＜ＨＭＭを用いた音声認識＞
認識すべきワードをＷ_１，Ｗ_２，・・・，Ｗ_ｐとする。今、観測された音声信号の特徴パラメータがＹであったとき、ＹがワードＷ_ｉである確率は、Ｐ（Ｗ_ｉ｜Ｙ）で与えられる。したがって、Ｐ（Ｗ_ｉ｜Ｙ）（ｉ＝１，２，・・・，ｐ）の中で最大の確率を与えるＷ_ｉをＹの属するワード、すなわちワードＷ_ｉが発声されたものと判定すればよい。ここで、ベイズ（Ｂａｙｅｓ）の定理より、
Ｐ（Ｗ_ｉ｜Ｙ）＝Ｐ（Ｗ_ｉ）Ｐ（Ｙ｜Ｗ_ｉ）／Ｐ（Ｙ）（１５）
が成り立ち、分母のＰ（Ｙ）はＷ_ｉには関係ないことから、分子のＰ（Ｗ_ｉ）Ｐ（Ｙ｜Ｗ_ｉ）（ｉ＝１，２，・・・，ｐ）を最大にするＷ_ｉを求めれば良いことがわかる。Ｐ（Ｗ_ｉ）はワードＷ_ｉが発声される事前確率であり、Ｐ（Ｙ｜Ｗ_ｉ）はワードＷ_ｉが発声されたときに、特徴パラメータＹが得られる確率である。
【０１３５】
ＨＭＭ法とは、（１）式を最大にするＷ_ｉを、確率モデル（ＨＭＭ）によって推定する手法である。
【０１３６】
ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）は、非決定有限状態オートマトンとして定義され、図１２に示すように、いくつかの状態Ｓ_１，Ｓ_２，・・・，Ｓ_Ｎ（状態数Ｎ）と、その状態間の遷移を表すパスから構成される。そして、各状態の遷移過程はマルコフ過程とし、状態が遷移するときに出力シンボルをひとつ発生するものとする。
【０１３７】
なお、音声認識では、図１３に示されるような自己遷移と次の状態への遷移のみを許すような、初期状態と最終状態を持つレフトツーライト（ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ）モデルが用いられることが多い。
【０１３８】
ＨＭＭ法のうち、離散型ＨＭＭ法では、音声の特徴ベクトルを例えばベクトル量子化することなどにより得られるシンボル系列Ｙ＝ｙ_１・ｙ_２・・・ｙ_Ｔ（Ｔは観測系列の長さ）が各モデルで生起する確率（事後確率）を計算し、その確率が最も大きいモデルを認識結果とすることになる。
【０１３９】
＜ＨＭＭの定式化＞
ここで、ワードＷに対応した離散型ＨＭＭは次のように定式化される。
【０１４０】
Ｓ：状態の有限集合（Ｎは状態数）
Ｓ＝｛Ｓ_１，Ｓ_２，・・・，Ｓ_Ｎ｝（１６）
Ｖ：出力シンボルの集合（Ｍは出力シンボル数）
Ｖ＝｛ｖ_１，ｖ_２，・・・，ｖ_Ｍ｝（１７）
Ａ：状態遷移確率の集合（ａ_ｉｊは状態Ｓ_ｉから状態Ｓ_ｊへの遷移確率）
【０１４１】
【数８】

【０１４２】
Ｂ：状態遷移時の出力確率の集合（ｂ_ｉｊ（ｖ_ｋ）は状態Ｓ_ｉから状態Ｓ_ｊへの遷移の際にシンボルｖ_ｋを出力する確率）
【０１４３】
【数９】

【０１４４】
π：初期状態確率の集合（π_ｉは初期状態がＳ_ｉである確率）
【０１４５】
【数１０】

【０１４６】
このようにして定義されたＨＭＭから、シンボル系列Ｙ＝ｙ_１・ｙ_２・・・ｙ_Ｔが次のようにして生起される。
【０１４７】
手順１．初期状態確率πに従って、初期状態ｘ_０＝Ｓ_ｉを選ぶ。
手順２．ｔ＝０とする。
手順３．状態遷移確率ａ_ｉｊに従って、状態ｘ_ｔ＝Ｓ_ｉから状態ｘ_ｔ＋１＝Ｓ_ｊへの遷移を選択する。
手順４．出力シンボル確率ｂ_ｉｊ（ｖ_ｋ）に従って、状態Ｓ_ｉから状態Ｓ_ｊに遷移するときに出力されるシンボルｙ_ｔ＝ｖ_ｋを選択する。
手順５．ｔ＜Ｔならば、ｔ＝ｔ＋１とし、手順３．へ戻る。それ以外は終了。
【０１４８】
ただし、状態遷移の時刻をｔ＝０，１，２，・・・とし、時刻ｔにおいて遷移した状態をｘ_ｔとした。
【０１４９】
以上のように、ＨＭＭを定義するには、Ｎ，Ｍの指定、出力シンボルの集合、確率Ａ，Ｂ，πが必要であり、これを簡単に表記するため、
λ＝｛Ａ，Ｂ，π｝（２１）
と表すことにする。つまり、ワード一つ一つにモデルが決定されることになる。
【０１５０】
＜ＨＭＭの確率計算＞
音声認識においては、前に述べたように初期状態と最終状態を一つとするｌｅｆｔ−ｔｏ−ｒｉｇｈｔモデルを用いることが多く、以下では初期状態と最終状態をＳ_ｉ，Ｓ_Ｎに限定したモデルを考える。
【０１５１】
モデルλが、シンボル系列ｙ_１・ｙ_２・・・ｙ_Ｔを出力して、時刻ｔに状態Ｓ_ｉに達する前方予測確率をα_ｉ（ｔ）とすると、上述したモデルのシンボル出力の定義から、次の漸化式
【０１５２】
【数１１】

【０１５３】
によってα_ｉ（ｔ）を計算することができる。ここで、上式のｊに関するサンメーションは、与えられたモデルにおいて、状態Ｓ_ｊから状態Ｓ_ｉへの遷移が許されている場合のみとられるものとする。
【０１５４】
以上をもとに、モデルλがシンボル系列Ｙ＝ｙ_１・ｙ_２・・・ｙ_Ｔを出力する確率Ｐ（Ｙ｜λ）は、
Ｐ（Ｙ｜λ）＝α_Ｎ（Ｔ）（２４）
で求まることになる。そして、ＨＭＭ法を用いた音声認識では、音声から生成されたシンボル系列Ｙ＝ｙ_１・ｙ_２・・・ｙ_Ｔに対して、上式から計算される確率Ｐ（Ｙ｜λ）を最大にするモデルλが認識結果とされる。
【０１５５】
また、Ｐ（Ｙ｜λ）を求める別の方法として、ビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムを用いた計算方法というものがある。これを簡単に説明すると、上記（２３）式のα_ｉ（ｔ）の代わりに
【０１５６】
【数１２】

【０１５７】
によって、時刻ｔに状態Ｓ_ｉである確率￣α_ｉ（ｔ）を計算する。ここで、上記（２５）式のｊに関する｛｝の最大値とは、与えられたモデルにおいて、状態Ｓ_ｊから状態Ｓ_ｉへの遷移が許されているものに関してのみ考えるものとする。このような￣α_ｉ（ｔ）をもとに、
【０１５８】
【数１３】

【０１５９】
を求めるというものである。
【０１６０】
ここで、上記（２５）式によって決まる状態遷移系列として、最終状態がＳ_Ｎとなるものは唯一に決まり、これを最適パスと呼ぶ。この最適パスはＶｉｔｅｒｂｉアルゴリズムの上記（２５）式の計算において、その際に遷移してきた前状態を記憶しておくようにし、最終状態まで計算し終ったら、そこから前状態をたどっていけば得られる。
【０１６１】
また、ｌｏｇＰ（Ｙ｜λ）を求めるようにすれば、乗算が加算の演算で置き換えられ、計算効率がよくなる。
【０１６２】
＜ＨＭＭのパラメータ推定＞
次に、シンボル系列Ｙ＝ｙ_１・ｙ_２・・・ｙ_Ｔに対して、確率Ｐ（Ｙ｜λ）を最大にするモデルのパラメータとしての遷移確率Ａ＝｛α_ｉｊ｝、出力確率Ｂ＝｛ｂ_ｉｊ（ｖ_ｋ）｝の推定方法について述べる。
【０１６３】
なお、最初の推定時における遷移確率｛α_ｉｊ｝、出力確率｛ｂ_ｉｊ（ｖ_ｋ）｝には、所定の初期値が用いられる。
【０１６４】
まず、モデルの学習では、学習用のシンボル系列Ｙから、上述した前方予測確率α_ｉ（ｔ）が求められるとともに、時刻ｔにおいて状態Ｓ_ｉに存在し、以後、シンボル系列ｙ_ｔ＋１・ｙ_ｔ＋２・・・ｙ_Ｔを出力する後方予測確率β_ｉ（ｔ）が次式によって求められる。
【０１６５】
手順１．ｔ＝Ｔのとき
β_ｉ（Ｔ）＝０（ｉ＝１，２，・・・，Ｎ−１）
β_Ｎ（Ｔ）＝１（２７）
手順２．ｔ＝Ｔ−１，Ｔ−２，・・・，０のとき、
【０１６６】
【数１４】

【０１６７】
ここで、上記（２８）式のｊに関するサンメーションは、与えられたモデルにおいて、状態Ｓ_ｉから状態Ｓ_ｊへの遷移が許されている場合のみとられるものとする。
【０１６８】
このとき、出力シンボル系列Ｙ＝ｙ_１・ｙ_２・・・ｙ_Ｔに対して、状態Ｓ_ｉから状態Ｓ_ｊへの遷移が時刻ｔに生じる確率をγ_ｉｊ（ｔ）と記せば、
【０１６９】
【数１５】

【０１７０】
で与えられることになる。そして、次式に従ってモデルのパラメータとしての遷移確率ａ_ｉｊ、出力確率ｂ_ｉｊ（ｖ_ｋ）が更新、すなわち学習される。
【０１７１】
【数１６】

【０１７２】
なお、上式において＾を付したａ_ｉｊ、またはｂ_ｉｊ（ｖ_ｋ）は、更新、すなわち再推定した遷移確率または出力確率をそれぞれ意味する。また、上式のｈに関するサンメーションは、状態Ｓ_ｉから状態Ｓ_ｊへの遷移が許されている場合のみとられる。さらに、ｔ：ｙ_ｔ＝ｖ_ｋに関するサンメーションは、時刻ｔにおいて、ｖ_ｋなるシンボルｙ_ｔが生起される場合についてのみとられる。
【０１７３】
上式に従って、遷移確率ａ_ｉｊ、出力確率ｂ_ｉｊ（ｖ_ｋ）が更新、すなわち再推定されることにより、それぞれは、局所的に最適な値へ収束する。
【０１７４】
なお、上述のようにして遷移確率ａ_ｉｊ、出力確率ｂ_ｉｊ（ｖ_ｋ）を更新、すなわち再推定する方法は、Ｂａｕｍ−Ｗｅｌｃｈの再推定法と呼ばれる。
【０１７５】
ここで上記（３０）、（３１）式で計算される遷移確率ａ_ｉｊ、出力確率ｂ_ｉｊ（ｖ_ｋ）は、ある学習用のシンボル系列１つに対してだけであり、これにより学習が行なわれたモデルは、ある１つのシンボル系列を高い確率で出力するようになる。しかしながら、音声には調音結合や話者によるばらつきがあり、単一のシンボル系列のみ高い確率で出力するモデルでは、このばらつきに対処することができない。
【０１７６】
そこで、いくつかのシンボル系列を高い確率で出力するように、モデルλの学習を行なう必要がある。これには、例えばＱ種類のシンボル系列のｑ番目のシンボル系列をＹ^ｑ＝ｙ_１ ^ｑ・ｙ_２ ^ｑ・・・ｙ_Ｔ ^ｑとしたとき、各シンボル系列Ｙ^ｑ（ｑ＝１，２，．．．，Ｑ）が観測される確率Ｐ（Ｙ^ｑ｜λ）の積が最大になるように、モデルλの学習を行なえばよい。
【０１７７】
これは、上述したＢａｕｍ−Ｗｅｌｃｈの再推定法を多重系列に拡張することにより次のように再帰的に求めることができる。すなわち、Ｙ^ｑによるα_ｉ（ｔ），β_ｉ（ｔ），γ_ｉｊ（ｔ）をそれぞれ α_ｉ ^ｑ（ｔ），β_ｉ ^ｑ（ｔ），γ_ｉｊ ^ｑ（ｔ）とすれば、
【０１７８】
【数１７】

【０１７９】
のように計算される。
【０１８０】
次に、上記（３３），（３４）式で計算される遷移確率ａ_ｉｊ、出力確率ｂ_ｉｊ（ｖ_ｋ）は、モデルの学習を個別に行なっていることに他ならない。過去、ＨＭＭ法は、単語認識に適用されるときが多く、従って単語に対応するモデルの学習を、上述したように個別に行なうだけで問題はなかった。
【０１８１】
しかしながら、最近では、意味のある音声（例えば、単語や文など）の認識を、音韻（音素）に対応するモデルを連結したものを用いて行なうのが一般的になり、このため、モデルの連結学習を行なう必要が生じてきた。
【０１８２】
モデルの連結学習では、例えば予め用意した単語辞書に登録されている単語に基づき、音韻または音素モデルどうしを連結し、それを単語モデルとみなして、単語の学習用のシンボル系列として用意されたシンボル系列Ｙ^ｑに対する学習が行なわれる。
【０１８３】
すなわちち、Ｗ個の音韻または音素モデルの学習を個別に行なった場合において、そのうちのｗ番目のモデル（すなわちモデルｗ）のパラメータ、すなわち遷移確率、出力確率それぞれをａ_ｉｊ ^ｗ、ｂ_ｉｊ ^ｗ（ｖ_ｋ）と表し、そのモデルｗに音韻あるいは音素モデルを連結したモデル（すなわち連結モデル）の状態をＳ_ｍまたはＳ_ｎで表す。さらに、連結モデルの状態が、Ｓ_ｍからＳ_ｎへ遷移する場合において、状態Ｓｍがモデルｗに属する状態であることを（ｍ→ｎ）∈ｗと表すと、上記式（３３），（３４）を変形した次式に従って、モデルｗの遷移確率ａ_ｉｊ、出力確率ｂ_ｉｊ（ｖ_ｋ）が更新、すなわち再推定される。
【０１８４】
【数１８】

【０１８５】
ここで、連結モデルがモデルｗを複数使用して構成されている場合、すなわち連結モデルが、例えば３状態Ｓ_１，Ｓ_２，Ｓ_３からなるモデルｗを２回使用して構成されている場合、連結モデルは、Ｓ_１，Ｓ_２，Ｓ_３，Ｓ_１，Ｓ_２，Ｓ_３の６状態を有することになる。従って、この場合、モデルｗの状態Ｓ_１，Ｓ_２，Ｓ_３のうちの、例えば先頭の状態Ｓ_１は、連結モデルの状態Ｓ_１，Ｓ_２，Ｓ_３，Ｓ_１，Ｓ_２，Ｓ_３の先頭の状態、および先頭から４番目の状態と同一であり、このように連結モデルの複数の状態ｍがモデルｗの１つの状態Ｓ_ｉと同一であるときがある。
【０１８６】
上記（３５），（３６）式において、ｍ≡ｉ、ｎ≡ｊに関するサンメーション（総和）は、上述したように、連結モデルの状態Ｓ_ｍまたはＳ_ｎが、モデルｗの状態Ｓ_ｉまたはＳ_ｊとそれぞれ同一である場合についてとられる。さらに、ｍ≡ｉに関するサンメーションは、連結モデルの状態Ｓ_ｍがモデルｗの状態Ｓ_ｉと同一である場合についてとられる。
【０１８７】
また、ｈ：（ｍ→ｈ）∈ｗに関するサンメーションは、連結モデルの状態Ｓ_ｍから状態Ｓ_ｈへの遷移が許されている場合に、連結モデルの状態Ｓ_ｍが、モデルｗに属するときのみとられる。
【０１８８】
さらに、上記（３５），（３６）式において、モデルｗの後続にモデルが連結されており、連結モデルのある状態Ｓ_ｍがモデルｗの最終状態（Ｓ_ｍ＝Ｓ_Ｎ）となった場合、状態Ｓ_ｍからの遷移先である状態Ｓ_ｎは、モデルｗの直後に連結したモデルの初期状態となるものとする。
【０１８９】
次に、以上説明した離散ＨＭＭ法を用いて音声認識が行なわれる場合には、まず学習用に用意された学習系列Ｙを用い、上述した（３３），（３４）式または（３５），（３６）式に従ってモデルの学習、すなわち連結学習が行なわれ、モデルλの遷移確率ａ_ｉｊおよび出力確率ｂ_ｉｊ（ｖ_ｋ）が求められる。以下の説明においては、上記（３５），（３６）式におけるａ_ｉｊ ^ｗ、ｂ_ｉｊ ^ｗ（ｖ_ｋ）は、上記（３３），（３４）式における場合と同様にそれぞれａ_ｉｊ、ｂ_ｉｊ（ｖ_ｋ）と記載する。
【０１９０】
そして、認識時において、音声から、シンボル系列Ｙが観測された場合には、モデルλがそのシンボル系列を出力すなわち生起する確率Ｐ（Ｙ｜λ）が、上記（２３）式に従って計算される。
【０１９１】
以上の処理が、モデルλ以外のモデルに対しても行なわれ、前述したように、確率Ｐ（Ｙ｜λ）が最も大きいモデルが認識結果とされることになる。
【０１９２】
ところで、離散型ＨＭＭでは、上述したように、音声の特徴ベクトルを例えばベクトル量子化処理することなどにより得られるシンボルが、学習および認識に用いられる。したがって、シンボルは量子化誤差を含むので、その結果音声の認識率が劣化する問題があった。
【０１９３】
そこで、離散的な確率分布である、シンボルｖ_ｋに関する出力確率ｂ_ｉｊ（ｖ_ｋ）を連続確率分布に変更した混合連続ＨＭＭ法が知られている。
【０１９４】
混合連続ＨＭＭ法では、ＨＭＭが連続確率密度分布、すなわち連続分布をもち、離散ＨＭＭ法における出力確率ｂ_ｉｊ（ｖ_ｋ）をＬ個の連続分布の混合で近似するようになされている。即ち、モデルλが音声の特徴ベクトルｙを生起する出力確率ｂ_ｉｊ（ｖ_ｋ）が、次式によって計算される。
【０１９５】
【数１９】

【０１９６】
ただし、ｃ_ｉｊｌは分岐確率（ｂｒａｎｃｈｐｒｏｂａｂｉｌｉｔｙ）で、ｌ（ｌ＝１，２，．．．，Ｌ）番目の出現確率を表し、ｂ_ｉｊｌ（ｙ）は分岐密度（ｂｒａｎｃｈｄｅｎｓｉｔｙ）で、ｌ番目の確率密度分布を表す。また、これらには、次のような条件が成り立つ。
【０１９７】
【数２０】

【０１９８】
なお、確率密度分布ｂ_ｉｊｌ（ｙ）としては、通常、ガウス分布（正規分布）が仮定される。そこで、確率密度分布ｂ_ｉｊｌ（ｙ）が、その共分散行列Σ_ｉｊｌと、平均値μ_ｉｊｌとをパラメータとするｎ次元正規分布に従うと仮定すると、ｌ番目の確率密度分布ｂ_ｉｊｌ（ｙ）は、次式で与えられる。
【０１９９】
【数２１】

【０２００】
ここで、上記（４０）式において、右肩のＴ，−１は、それぞれ転置、逆行列を表す。また、｜Σｉｊｌ｜は共分散行列Σ_ｉｊｌの行列式を表す。
【０２０１】
この場合、上述したＢａｕｍ−Ｗｅｌｃｈの再推定法によれば、次式に従って、出現確率ｃ_ｉｊｌ、並びに確率密度分布ｂ_ｉｊｌ（ｙ）の共分散行列Σ_ｉｊｌおよび平均値μ_ｉｊｌを求める、すなわち再推定することができる。なお、遷移確率ａ_ｉｊは、上述した（３５）式、または（３３）式に従って求めることができる。
【０２０２】
【数２２】

【０２０３】
ここで、上式において＾を付したｃ_ｉｊｌ，Σ_ｉｊｌ，μ_ｉｊｌは更新された出現確率、共分散行列、平均値をそれぞれ意味する。
【０２０４】
また、Ｐ（Ｙ，ｈ_ｔ＝ｌ｜λ）は、モデルλによって、音声の特徴ベクトルｙの系列Ｙ＝ｙ_１・ｙ_２・・・ｙ_Ｔが出力される場合において、時刻ｔに特徴ベクトルｙ_ｔがｌ番目の分布から出力される確率を意味する。ｈ_ｔ＝ｌは、特徴ベクトルｙ_ｔがｌ番目に出力されることを示す確率変数である。
【０２０５】
以上のように出力確率ｂ_ｉｊ（ｙ）をＬ個の連続分布の混合で近似する混合連続ＨＭＭ法に基づいて学習がなされたモデルを用いて音声を認識する場合には、離散型ＨＭＭ法における場合と同様に、音声から観測（抽出）された特徴ベクトル系列をモデルλが出力あるいは生起する確率Ｐ（Ｙ｜λ）が上記（２３），（２４）式または、（２５），（２６）式によって計算される。
【０２０６】
さらに、この確率Ｐが、モデルλ以外のモデルに対しても行なわれ、前述したように、確率Ｐを最も大きくするモデルが認識結果とされる。
【０２０７】
また、上述の推定方法の代わりに、次のような手法が用いられることもある。訓練サンプル集合｛ｙ^ｑ｝の各々に対して、ビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムによって最適状態遷移系列を求め、状態Ｓ_ｉから状態Ｓ_ｊへの遷移時の出力ベクトル集合｛ｙ_ｉｊ｝を求める。これをクラスタリング手法によってＬ個のクラスに分類し、各々のクラスのベクトル集合を標本集団とみなし、ガウス分布を推定する。分岐確率はクラス内のベクトル数を全体に対する比によって求める。この操作をパラメータが収束するまで繰り返すというものである。
【０２０８】
次に、上記ＨＭＭを用いた場合のワード間の相関値を説明する。
【０２０９】
＜音声認識＞
上述したようなＨＭＭを用いた音声認識装置の構成は、前述した図１、あるいは図１０に示すようなものとなり、構成および作用も同様である。
【０２１０】
ただし、図１の音響分析部１２で入力された音声信号から認識に必要な特徴量の抽出を行なったり、得られた特徴量に対し、ＫＬ変換や、ニューラルネットワークなどの適当な写像を施すことで、分離度の大きな特徴量にさらに変換して、認識部１３に送信するわけであるが、離散ＨＭＭを用いる場合には、さらにベクトル量子化を行なった後、認識部１３に送信するようにしている。
【０２１１】
また、認識部１３では、予め学習用の音声データを音響分析して得られる特徴量をもとに推定しておいたモデルのパラメータを用いて、未知音声データに対する認識処理を行なう。つまり、学習過程として、予め学習用データから決定されるＨＭＭの遷移確率ａ_ｉｊおよび出力確率ｂ_ｉｊ（ｖ_ｋ）（ただし連続ＨＭＭの場合はｂ_ｉｊ（ｙ））を求めておき、これをパラメータ記憶部１４に記憶しておく。そして、認識過程では、入力された未知音声信号を音響分析して得られる特徴量に対し、与えられた辞書の中の各ワードに対応するモデルそれぞれの生起確率を求め、その確率（スコア）が最も高いもの、あるいは上位複数個、を認識結果として選び出すということを行なう。そして、得られた認識結果を出力部１５に送信する。出力部１５では、送信されてきた認識結果を画面に表示したり、音として出力したり、さらには、その認識結果を用いて、他の装置を動作させたりなどの指令を行なう。
【０２１２】
以上のような音声認識の処理の中で、認識部１３の確率（スコア）計算は、入力された未知音声信号に対して、与えられた辞書、すなわち認識対象ワードの集合の内の全ワードとの間で計算される。小語彙の認識であれば、その処理量はあまり問題にならない。しかし、中語彙や大語彙の認識では、非常に重要な問題となる。
【０２１３】
これを解決するため、前述したように認識対象ワードを予め構造化しておき、その構造を用いることで、スコア計算を行なうワード数を削減することが本発明の実施の形態における目的であり、これを簡単に示したのが上記図２である。このように、スコア計算の必要のないワードを削除することにより、認識部の処理量すなわち演算量を低減させようとするものでる。
【０２１４】
このような目的にあったワードの分布構造を決定するためには、ワード間の関係を知るための距離尺度のようなものが必要となる。
【０２１５】
本発明の上記第１の実施の形態においては、実音声信号から求まる各モデルの生起確率（スコア）の期待値により、ワード間の相関値を定義した。この定義されたワード間の相関値に基づいて、認識対象ワードを構造化するわけであるが、この方式を用いる場合、上記（４）式からワード間の距離尺度を計算するために、認識対象ワードに対応した実音声データが必要になり、中語彙や大語彙の認識システムを作成する上では、これが大きな問題となる。
【０２１６】
そこで、本発明の第２の実施の形態においては、上記（４）式に代わる新たなワード間の距離尺度を導入するものである。
【０２１７】
＜ＨＭＭのモデルのパラメータを用いたワード間の相関値＞
上記ＨＭＭの定式化の項目において述べたように、モデルλ＝｛Ａ，Ｂ，π｝が与えられたとき、そのモデルのパラメータに従って、シンボル系列Ｙ＝ｙ_１・ｙ_２・・・ｙ_Ｔを生起することができる。例えば、離散ＨＭＭを用いた場合、
手順１．初期状態確率πに従って、初期状態ｘ_０＝Ｓ_ｉを選ぶ。
手順２．ｔ＝０とする。
手順３．状態遷移確率ａ_ｉｊに従って、状態ｘ_ｔ＝Ｓ_ｉから状態ｘ_ｔ＋１＝Ｓ_ｊへの遷移を選択する。
手順４．出力シンボル確率ｂ_ｉｊ（ｖ_ｋ）に従って、状態Ｓ_ｉから状態Ｓ_ｊに遷移するときに出力されるシンボルｙ_ｔ＝ｖ_ｋを選択する。
手順５．ｔ＜Ｔならばｔ＝ｔ＋１とし手順３．へ戻る。それ以外は終了。
のようにして生成できる。
【０２１８】
連続ＨＭＭを用いた場合は、上記手順４．の代わりに、上記（３７）式で与えられる出力シンボル確率ｂ_ｉｊ（ｙ）に従ってシンボルｙ_ｔを決定すればよい。ただし、状態遷移の時刻をｔ＝０，１，２，．．．とし、時刻ｔにおいて遷移した状態をｘ_ｔとする。
【０２１９】
特に、上記図１３に示されるようなｌｅｆｔ−ｔｏ−ｒｉｇｈｔモデルの場合は、初期状態と最終状態をＳ_１，Ｓ_Ｎに限定できる。そこで、遷移確率ａ_ｉｊに従って、各状態で自己遷移する回数の期待値を求めることで、状態遷移系列Ｘ＝ｘ_０，ｘ_１，．．．，ｘ_Ｔが一つ決定される。
【０２２０】
ここで、状態Ｓ_ｉでｎ回自己遷移した後、状態Ｓ_ｉに遷移する確率は、
ａ_ｉｉ ^ｎａ_ｉｊ＝ａ_ｉｉ ^ｎ（１−ａ_ｉｉ）（４４）
で与えられるから、ｎの期待値は
【０２２１】
【数２３】

【０２２２】
を計算すれば求まる。これを計算すると、
Ｅ［ｎ］＝ａ_ｉｉ／（１−ａ_ｉｉ）（４６）
が得られる。
【０２２３】
以下これを証明する。先ず、
【０２２４】
【数２４】

【０２２５】
とおく。この（４７）式にａ_ｉｉをかけて、
【０２２６】
【数２５】

【０２２７】
上記（４７）式から（４８）式を引いて、
【０２２８】
【数２６】

【０２２９】
よって、上記（４７）式より、
Ｅ［ｎ］＝ａ_ｉｉ／（１−ａ_ｉｉ）（５０）
すなわち、上記（４６）式が得られる。
【０２３０】
したがって、例えばａ_ｉｉ＝０．５の場合は上記Ｅ［ｎ］＝１、ａ_ｉｉ＝０．８の場合は上記Ｅ［ｎ］＝４などが求められることになる。ここで上記（４６）式は、ａ_ｉｉが１に近づくと急激に増大するため、Ｅ［ｎ］に
０≦Ｅ［ｎ］≦３（５１）
のような上限下限を設け、例えば、
【０２３１】
【数２７】

【０２３２】
のような近似を行なうことも考えられる。
【０２３３】
以上に基づき、状態Ｓ_ｉで自己遷移する回数の期待値が求まり、それをつなげれば状態遷移系列が一つ決定される。そして、その状態遷移に従って、出力確率ｂ_ｉｊ（ｖ_ｋ）が最も高いシンボルｖ_ｋを出力させれば、対応するシンボル系列を得ることが可能となる。
【０２３４】
例えば、
ａ_１１＝０．５，ａ_１２＝０．５、ａ_２２＝０．８，ａ_２３＝０．２、ａ_３３＝０．３，．．．（５３）
のような遷移確率が与えられた場合、上記のようにして決定される状態遷移系列は、もし上記（５２）式を用いるならば、
Ｓ_１，Ｓ_１，Ｓ_２，Ｓ_２，Ｓ_２，Ｓ_２，Ｓ_３，．．．（５４）
となる。つまり、最初のＳ_１は初期状態であり、次のＳ_１はａ_１１＝０．５から決まる１回の自己遷移によるものである。そして、次にＳ_２に遷移し、ａ_２２＝０．８よりＳ_２で３回の自己遷移を行なう。その後、Ｓ_３に遷移し、というふうにして、状態遷移系列が決定されたものである。
【０２３５】
そして、上記（５４）式の状態遷移系列に従って、
ｂ_１１（ｖ_ｋ），ｂ_１１（ｖ_ｋ），ｂ_１２（ｖ_ｋ），ｂ_２２（ｖ_ｋ），ｂ_２２（ｖ_ｋ），ｂ_２２（ｖ_ｋ），ｂ_２２（ｖ_ｋ），ｂ_２３（ｖ_ｋ），．．．（５５）
をそれぞれ最大にするシンボルｖ_ｋの系列を得ることができる。もし、連続ＨＭＭを用いる場合には、上記（５５）式のｂ_ｉｊ（ｖ_ｋ）の代わりに、上記（３７）式で与えられる出力確率を用いて、
ｂ_１１（ｙ），ｂ_１１（ｙ），ｂ_１２（ｙ），ｂ_２２（ｙ），ｂ_２２（ｙ），ｂ_２２（ｙ），ｂ_２２（ｙ），ｂ_２３（ｙ），．．．（５６）
をそれぞれ最大にするシンボルｙの系列を求めればよい。特に、分岐密度ｂ_ｉｊｌ（ｙ）が上記（４０）式のような正規分布に従うような場合には、分岐確率ｃ_ｉｊｌの最も高いｌに対する分岐密度ｂ_ｉｊｌ（ｙ）の平均値μ_ｉｊｌを求めるシンボルｙとすることなどが考えられる。
【０２３６】
以上のようにして、あるワードＷ_ｊに対応するモデルλ_ｊ＝｛Ａ_ｊ，Ｂ_ｊ，π_ｊ｝からシンボル系列Ｚｉがひとつ得られることになる。このとき、モデルλ_ｉに対するＺ_ｊの生起確率Ｐ（Ｚ_ｊ｜λ_ｉ）が上記（２３），（２４）式、または、上記（２５），（２６）式によって計算される。そして、Ｚ_ｊの生成方法を考えると、モデルλ_ｊに対する生起確率Ｐ（Ｚ_ｊ｜λ_ｊ）は非常に高いものとなることが期待できる。
【０２３７】
ここで、もしＨＭＭを用いることによって、各ワードに対応した良いモデルλ_ｉ、すなわち、対応する音声信号を音響分析して得られるシンボル系列の生起確率が高くなるようなモデルが得られるならば、上記のような方法によって、モデルからシンボル系列を生成した場合、対応するワードを発声した音声信号を音響分析して得られるシンボル系列と類似した特性を持つことが期待できる。
【０２３８】
すなわち、認識対象ワードＷ_ｊに対応するモデルをλ_ｊ（１＜ｊ＜ｐ）とした場合、
特性１．モデルλ_ｊから生成したシンボル系列Ｚ_ｊに対して、生起確率Ｐ（Ｚ_ｊ｜λ_ｉ）の最も高くなるモデルλ_ｉは、λ_ｊである。
特性２．ワードＷ_ｊに対応する実音声信号を音響分析して得られるシンボル系列Ｙ_ｊに対し、生起確率Ｐ（Ｙ_ｊ｜λ_ｉ）が高くなるモデルλ_ｉを用いて、λ_ｊから上記の方法で生成したシンボル系列Ｚ_ｊの生起確率Ｐ（Ｚ_ｊ｜λ_ｉ）を計算すれば同様に高くなる。
特性３．ワードＷ_ｊに対応する実音声信号を音響分析して得られるシンボル系列Ｙ_ｊに対し、生起確率Ｐ（Ｙ_ｊ｜λ_ｉ）が低くなるモデルλ_ｉを用いて、λ_ｊから上記の方法で生成したシンボル系列Ｚ_ｊの生起確率Ｐ（Ｚ_ｊ｜λ_ｉ）を計算すれば同様に低くなる。
のような特性を持つことが期待できる。
【０２３９】
そこで、上記のようにして求まるシンボル系列を用いることで、上記第１の実施の形態に代わるワード間の相関値を定義することが可能となる。
【０２４０】
各認識対象ワードＷ_ｊ（１＜ｊ＜ｐ）に対応したモデルをλ_ｊとする。そして、そのモデルから上記のような方法により生成されるシンボル系列をＺ_ｊとする。このとき、λ_ｉから求まるＺ_ｊの生起確率を、ワードＷ_ｊに対するワードＷ_ｉの距離尺度Ｄ（Ｗ_ｊ，Ｗ_ｉ）として定義する。
【０２４１】
Ｄ（Ｗ_ｊ，Ｗ_ｉ）≡Ｐ（Ｚ_ｊ｜λ_ｉ）（ｉ＝１，２，．．．，ｐ）（５７）
ただし、生起確率Ｐ（Ｚ_ｊ｜λ_ｉ）は
【０２４２】
【数２８】

【０２４３】
のように正規化するものとする。
【０２４４】
そして、この距離尺度Ｄ（Ｗ_ｊ，Ｗ_ｉ）をもとに、ワード間の相関値を上記第１の実施の形態と同様に定義する。
【０２４５】
すなわち、ワードＷ_１に対してワードＷ_ｉ（ｉ＝１，２，．．．，ｐ）を近い順、すなわち距離尺度Ｄ（Ｗ_１，Ｗ_ｉ）の大きい順に並べる。同様に、ワードＷ_２，Ｗ_３，．．．，Ｗ_ｐに対しても、ワードＷ_ｉ（ｉ＝１，２，．．．，ｐ）を近い順に並べる。
【０２４６】
そして、その順位、つまりＷ_ｊに対して近い順にワードＷ_ｉを並べたときの順位をワードＷ_ｊに対するワードＷ_ｉの相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）として定義する。すなわち、例えば、一番近いものは１、二番目に近いものは２、以下同様にして、最も遠いものはｐとする。その結果、この相関値は１からｐまでの整数値をとることになり、小さいほど相関が高く、大きいほど相関が低いと見なすことができるようになる。
【０２４７】
ここで、相関が高い、すなわち相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）が小さいとは、ワードＷ_ｊに対応した未知音声信号Ｘ_ｊ ^ｋを音響分析して得られる特徴量Ｙ_ｊ ^ｋに対してワードＷ_ｉのモデルλ_ｉから求まる生起確率Ｐ（Ｙ_ｊ ^ｋ｜λ_ｉ）が高くなることが期待できることを意味し、相関が低い、すなわち相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）が大きいとは、特徴量Ｙ_ｊ ^ｋに対してモデルλ_ｉから求まる生起確率Ｐ（Ｙ_ｊ ^ｋ｜λ_ｉ）が低くなることが期待できることを意味する。
【０２４８】
なお、以上の処理をまとめたのが、図１４である。簡単に説明すると、まずステップＳ１４１において、各ワードＷ_ｊに対応するモデルλ_ｊの遷移確率から、状態遷移系列Ｘ_ｊを決定する。そして、それに従って、ステップＳ１４２において、出力確率をもとにシンボル系列Ｚ_ｊを決定する。次のステップＳ１４３において、各Ｚ_ｊに対するモデルλ_ｉの生起確率から距離尺度Ｄ（Ｗ_ｊ，Ｗ_ｉ）を求め、ステップＳ１４４に進んで、それに基づき、各Ｗ_ｊに対して、Ｗ_ｉ（１≦ｉ≦ｐ）を近い順に順序付ける。そして、その順位をもとに、ステップＳ１４５において相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）を計算する。
【０２４９】
ここで、ステップＳ１４４の順序付けにおいて、順位が同じとなるようなものがある場合には、ともに同じ相関値を設定するものとする。
【０２５０】
また、上記のように、ステップＳ１４１において、上記（４６）式、または上記（５２）式を用いて状態遷移系列を決定したり、ステップＳ１４２において、出力確率の最も大きなシンボル系列を求めたりする代わりに、乱数を発生させ、遷移確率と出力確率に従って、状態を遷移させながらシンボル系列を生成する方法も考えられる。この場合は、モデルλ_ｊからいくつものシンボル系列を生成することが可能となるので、これをＺ_ｊ ^１，Ｚ_ｊ ^２，Ｚ_ｊ ^３，．．．とし、上記（５９）式の代わりに、
【０２５１】
【数２９】

【０２５２】
によって、ワードＷ_ｊに対するワードＷ_ｉの距離尺度Ｄ（Ｗ_ｊ，Ｗ_ｉ）を定義することになる。
【０２５３】
以上のようにしてワードの相関値を定義することで、認識対象ワードに対応するモデルだけから、相関値を計算することが可能となり、認識対象ワードに対応する実音声信号のデータを必ずしも用意する必要がなくなる。特に、音韻（音素）モデルを連結することで、各認識対象ワードに対応するモデルを構成するような場合で、各音素モデルを学習するのに、認識対象ワードに対応する実音声信号データを用いないような場合には、その効果が期待できる。
【０２５４】
＜認識対象ワードの構造化＞
上述したような手法で求められた相関値に基づいて、認識対象ワードを構造化する方法は、前述した第１の実施の形態と同様であるため、説明を省略する。
【０２５５】
ただし、前述したスコアＳ（Ｘ，Ｗ_ｉ）とは、音声信号Ｘを音響分析して得られる特徴量Ｙのモデルλ_ｉに対する生起確率Ｐ（Ｙ｜λ_ｉ）のことである。
【０２５６】
また、認識手法、記憶容量の見積り、及び演算量の見積りについても、前述した第１の実施の形態と同様であるため、説明を省略する。
【０２５７】
＜シミュレーション結果＞
実際に、３２６５個の単語認識を、全探索と本発明の構造化を用いた探索とで比較した結果について述べる。ただし、構造化の方法としては、ワード間の距離尺度に上記（５７）式を用いて相関値を計算し、上記認識対象ワードの構造化の項で述べた構造化の方法を用いた。その結果、初期探索のワード数が２３１個となる４階層の探索木で、各階層のあるワードからその下の階層のワードへのパスとしては、平均１１本つながっているようなものが得られた。
【０２５８】
この探索木を用いて、ある階層で抽出するスコアの高いワード数をｎ＝１５として認識処理を行なってみた。まず、全探索による認識処理の場合、認識率は９０．２％、スコア計算を行なったワード数は３２６５個であった。これに対して、上記のような探索木を用いた認識処理の場合、認識率は８９．９％とわずかの劣化しか見せず、スコア計算を行なったワード数は、初期探索に２３１個、構造探索に平均２７６個、合計５０８個（平均）となった。つまり、全探索に比べ、計算量を約８割低減することが可能となったことがわかる。
【０２５９】
このような本発明の第２の実施の形態によれば、前述した本発明の第１の実施の形態と同様に、認識ワードを制限して演算量を大幅に低減でき、局所的な探索であってもスコアの高くなることが期待されるワードは探索範囲に含まれるようになり、最終的に歪みをほとんど増大させることがなく、認識率の低下を防止できる。
【０２６０】
さらに、本発明の第２の実施の形態によれば、音声認識対象ワードに対する確率モデルとしてのＨＭＭ（隠れマルコフモデル）を用意し、このモデルのパラメータとしての上記遷移確率ａ_ｉｊおよび出力確率ｂ_ｉｊ（ｖ_ｋ）（連続ＨＭＭの場合はｂ_ｉｊ（ｙ））から、ワード間の相関値Ｒ（Ｗ_ｊ，Ｗ_ｉ）を計算できるようにしたことで、認識辞書に対応する実音声データを大量に必要とすることがなくなり、探索木を効率的に求めることが可能となる。
【０２６１】
なお、本発明は、上述した実施の形態のみに限定されるものではなく、例えば、音声認識方法や装置に適用する他に、音声認識用の辞書の形成方法、音声認識用の辞書が記録された記録媒体等にも容易に適用できる。また、音声認識以外に、図形認識や文字認識等に本発明を適用することもできる。
【０２６２】
【発明の効果】
本発明によれば、音声認識対象ワードを予め階層構造あるいは重複を許す木構造に構造化しておき、その構造に従って探索することで認識ワードを制限でき、演算量を大幅に低減することが可能となる。しかも、あらたなワード間の相関値の定義と、その相関値に基づく認識ワードの構造化方法によって、局所的な探索であっても、スコアの高くなることが期待されるワードは探索範囲に含まれるようになり、最終的に、歪みをほとんど増大させることはない。すなわち、認識率をほとんど劣化させることはない。さらに、余分に必要な記憶容量もワード数に対してその約１０倍程度パス情報を持っておけばよいだけであり、比較的小さなものとなる。
【０２６３】
このような本発明は、音声認識以外に、図形認識や文字認識等にも適用でき、この場合には、音声認識対象ワードは一般的にパターン認識対象となり、これらのパターン認識対象を階層構造あるいは重複を許す木構造に階層化しておくことになる。
【０２６４】
また、音声認識対象ワードあるいはパターン認識対象に対する確率モデルとしてのＨＭＭ（隠れマルコフモデル）を用意し、このモデルのパラメータからワード間の相関値を計算できるようにしたことで、認識辞書に対応する実音声データのような実データを大量に必要とすることがなくなり、探索木を効率的に求めることが可能となる。
【図面の簡単な説明】
【図１】一般的な音声認識のシステムの構成を概略的に示すブロック図である。
【図２】構造化を用いた認識の概念を説明するためのワード分布を示す図である。
【図３】代表ワードとその属するワードの関係の例を示す図である。
【図４】認識対象ワードを階層構造に構造化する方法を説明するためのフローチャートである。
【図５】階層構造に構造化していく過程の概念を説明するための図である。
【図６】本発明の構造化によって得られる階層構造及び探索木の例を示す図である。
【図７】グループ化に関する基本的な方法を説明するためのフローチャートである。
【図８】グループ化の方法を改良した方法を説明するためのフローチャートである。
【図９】相関の強いワード関係を説明するための図である。
【図１０】本発明の実施の形態が適用される音声認識システムの構成の一例を示すブロック図である。
【図１１】本発明に係る実施の形態により階層構造化された探索木を用いた認識方法を説明するためのフローチャートである。
【図１２】隠れマルコフモデル（ＨＭＭ）の一般的な状態遷移モデルを示す図である。
【図１３】ＨＭＭのレフトツーライト（ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ）モデルを示す図である。
【図１４】ワード間の相関値の計算過程を説明するためのフローチャートである。
【符号の説明】
１、１０１入力部
２、１０２音響分析部
３、１０３認識部
４、１０４パラメータ記憶部
５、１０５出力部
１０６探索木記憶部

Claims

複数の音声認識対象ワードが与えられ、未知の入力音声信号に対して、予め求めておいたパラメータを用いて、上記音声認識対象ワードにスコア付けを行なうことで、対応する音声認識対象ワードを抽出し認識する音声認識方法において、
各認識対象ワードに対応した音声データから求まるスコアの期待値に基づく値をもとにスコアの高い順に全認識対象ワードを順序付けたときの順位を、上記各音声認識対象ワード間の相関値として求め、
上記各音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを予め階層構造に構造化しておき、
この階層構造に構造化された音声認識対象ワードの辞書を用いて、上記未知の入力音声信号に対してスコア計算を行なう音声認識対象ワードを限定すること
を特徴とする音声認識方法。
上記階層構造に構造化された音声認識対象ワードの辞書を用い、未知音声信号に対する認識処理を行なう際に、
上記階層構造のある適当な階層の音声認識対象ワードに対するスコア計算と、そこから決定されるスコアの高いワードに属する一つ下の階層のワードに対するスコア計算と、さらにそこから決定されるスコアの高いワードに属するもう一つ下の階層のワードに対するスコア計算と、以下同様に最下位の階層に至るまでワードの抽出とスコア計算とを行なっていき、最終的には、それらのスコア計算を行なったワードの中から、少なくともスコアの最も高いものを選び出すことを特徴とする請求項１記載の音声認識方法。
上記スコア計算を一旦行なったワードに関しては、そのスコアを記憶しておき、以後スコア計算が必要な場合には、記憶されたスコアを用いるようにすることで、重複したスコア計算を行なわないようにすることを特徴とする請求項２記載の音声認識方法。
上記複数の音声認識対象ワードに対する確率モデルを用意し、上記未知の入力音声信号に対して、上記各確率モデルの生起確率を計算し、その生起確率に従って、対応する音声認識対象ワードを抽出し認識する音声認識方法であって、
上記各音声認識対象ワードに対応する確率モデルの状態遷移確率をもとに状態遷移系列を決定し、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られたシンボル系列の生起確率を上記各音声認識対象ワードに対応するモデルに対して計算し、この生起確率に基づく音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを階層構造に構造化しておくことを特徴とする請求項２記載の音声認識方法。
上記各音声認識対象ワードに対応する上記確率モデルの状態遷移確率をもとに状態遷移系列を複数決定し、それぞれの状態遷移系列から、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られた複数のシンボル系列の生起確率を各ワードに対応するモデルに対して計算し、それらの生起確率を各ワードに対応するモデルに対して計算し、それらの生起確率の期待値の高い順に全音声認識対象ワードを順序付け、その順位をワード間の上記相関値として用いることを特徴とする請求項４記載の音声認識方法。
複数の音声認識対象ワードが与えられ、未知の入力音声信号に対して、予め求めておいたパラメータを用いて、上記音声認識対象ワードにスコア付けを行なうことで、対応する音声認識対象ワードを抽出し認識する音声認識装置において、
各認識対象ワードに対応した音声データから求まるスコアの期待値に基づく値をもとにスコアの高い順に全認識対象ワードを順序付けたときの順位を用いて上記各音声認識対象ワード間の相関値を求め、
上記各音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを予め階層構造に構造化しておき、この階層構造に構造化された音声認識対象ワードの辞書を用いて、上記未知の入力音声信号に対してスコア計算を行なう音声認識対象ワードを限定すること
を特徴とする音声認識装置。
上記階層構造に構造化された音声認識対象ワードの辞書を用い、未知音声信号に対する認識処理を行なう際に、
上記階層構造のある適当な階層の音声認識対象ワードに対するスコア計算と、そこから決定されるスコアの高いワードに属する一つ下の階層のワードに対するスコア計算と、さらにそこから決定されるスコアの高いワードに属するもう一つ下の階層のワードに対するスコア計算と、以下同様に最下位の階層に至るまでワードの抽出とスコア計算とを行なっていき、最終的には、それらのスコア計算を行なったワードの中から、少なくともスコアの最も高いものを選び出すことを特徴とする請求項６記載の音声認識装置。
上記スコア計算を一旦行なったワードに関しては、そのスコアを記憶しておき、以後スコア計算が必要な場合には、記憶されたスコアを用いるようにすることで、重複したスコア計算を行なわないようにすることを特徴とする請求項７記載の音声認識装置。
上記複数の音声認識対象ワードに対する確率モデルを用意し、上記未知の入力音声信号に対して、上記各確率モデルの生起確率を計算し、その生起確率に従って、対応する音声認識対象ワードを抽出し認識する音声認識装置であって、
上記各音声認識対象ワードに対応する確率モデルの状態遷移確率をもとに状態遷移系列を決定し、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られたシンボル系列の生起確率を上記各音声認識対象ワードに対応するモデルに対して計算し、この生起確率に基づく音声認識対象ワード間の相関値を用いて上記各音声認識対象ワードを階層構造に構造化しておくことを特徴とする請求項７記載の音声認識装置。
上記各音声認識対象ワードに対応する上記確率モデルの状態遷移確率をもとに状態遷移系列を複数決定し、それぞれの状態遷移系列から、その状態遷移に対応する出力シンボル確率をもとにシンボル系列を決定し、得られた複数のシンボル系列の生起確率を各ワードに対応するモデルに対して計算し、それらの生起確率を各ワードに対応するモデルに対して計算し、それらの生起確率の期待値の高い順に全音声認識対象ワードを順序付け、その順位をワード間の上記相関値として用いることを特徴とする請求項９記載の音声認識装置。