JPH10508392A - トリー構成確率密度に基づくパターン認識の方法及びシステム - Google Patents

トリー構成確率密度に基づくパターン認識の方法及びシステム

Info

Publication number
JPH10508392A
JPH10508392A JP9510057A JP51005797A JPH10508392A JP H10508392 A JPH10508392 A JP H10508392A JP 9510057 A JP9510057 A JP 9510057A JP 51005797 A JP51005797 A JP 51005797A JP H10508392 A JPH10508392 A JP H10508392A
Authority
JP
Japan
Prior art keywords
cluster
probability density
tree structure
leaf node
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9510057A
Other languages
English (en)
Other versions
JP3948747B2 (ja
Inventor
フランク ザイデ
Original Assignee
フィリップス エレクトロニクス ネムローゼ フェンノートシャップ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フィリップス エレクトロニクス ネムローゼ フェンノートシャップ filed Critical フィリップス エレクトロニクス ネムローゼ フェンノートシャップ
Publication of JPH10508392A publication Critical patent/JPH10508392A/ja
Application granted granted Critical
Publication of JP3948747B2 publication Critical patent/JP3948747B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Abstract

(57)【要約】 この方法及びシステムを用いて、音声のような連続するする物理量から取り出した時間順次するによりパターン(20)を認識する。本システムは物理量をアクセスし入力観測ベクトル列を発生させる入力手段(30)を具える。入力観測ベクトルは入力パターンを表す。基準パターンデータベース(40)を用いて基準ユニット列で構成される基準パターンを記憶する。各基準ユニットは関連する基準確率密度により表される。トリービィルダ(60)各基準ユニットについて関連する基準確率密度の組をトリー構造として表す。各非リーフノードはクラスタ確率密度に対応し、このクラスタ確率密度は非リーフノードよりも下位のブランチのリーフノードに対応する全ての基準確率密度から取り出す。ロキャライザ(50)を用いて、入力パターンに対応する認識された基準パターンを基準パターンデータベース(40)に記憶されている基準パターン中に配置する。

Description

【発明の詳細な説明】 トリー構成確率密度に基づくパターン認識の方法及びシステム 本発明は、物理量をアクセスし、この物理量から入力パターンを表す一連の入 力観測ベクトルを発生させ、 複数の基準パターン中に入力パターンと対応する認識された基準パターンを配 置し、少なくとも1個の基準パターンを一連の基準ユニットとし、各基準ユニッ トを基準確率密度の組中の少なくとも1個の関連する基準確率密度で表し、 基準確率密度の選択をトリー構造として表し、このトリー構造において各リー フノードが基準確率密度に対応すると共に非リーフノードがクラスタ確率密度に 対応し、クラスタ確率密度は前記非リーフノードのブランチのリーフノードに対 応する基準確率密度から取り出され、 前記トリー構造について、対応するクラスタ確率密度が前記入力観測ベクトル より複数のリーフノードを選択し、 選択されたリーフノードに対応する各基準確率密度について前記入力観測ベク する方法に関するものである。 また、本発明は、連続する物理量から取り出した時間順次する入力パターンを 認識するシステムであって、 回帰的に物理量をアクセスし、入力パターンを表す入力観測ベクトル列を発生 させる入力手段と、 基準確率密度の組を少なくともL=3の階層レベルを有するトリー構造として 表すトリービィルダであって、前記トリー構造においてトリーのレベル1の各リ ーフノードが基準確率密度に対応し、各非リーフノードがクラスタ確率密度に対 応し、このクラスタ確率密度が非リーフノードよりも下位のブランチのリーフノ ードに対応する全ての基準確率密度から取り出されるトリービィルダと、 複数の基準パターンを記憶する基準パターンデータベースであって、少なくと も1個の基準パターンが基準ユニット列とされ、各基準ユニットが基準確率密度 の組の少なくとも1個の関連する基準確率密度により表され、前記基準確率密度 の選択がトリー構造として記憶される基準パターンデータベースと、 前記認識された入力パターンに対応する認識された基準パターンを前記基準パ ターンデータベースに記憶されている基準パターン中に配置するロキャライザと 、 認識されたパターンを出力する出力手段とを具え、 するクラスタ確率密度が最適のクラスタ尤度を与える多数のノードを選択すると 共に、トリーの順次下位のレベルにおいて各選択されたノードをルートノードと して用いることにより選択されたノードがリーフノードとなるまでノード選択を 繰り返すことにより、前記基準パターンデータベースに記憶されているトリー構 造を検索し、 選択されたリーフノードに対応する各基準確率密度について、前記入力観測ベク 前記基準パターンの基準ユニットを表す全ての基準確率密度について計算され た観測尤度を組み合わせることにより、各基準パターンについてパターン類似ス コアを計算し、 前記認識されたパターンを、パターン類似スコアの最適度が計算された基準パ ターンとして配置する入力パターン認識システムに関するものである。 音声や画像のような連続する物理量から取り出された時間順次する入力パター ンの認識の重要性が増大している。特に、音声認識は電話音声認識遠隔通信(種 々の自動化されたサービィス)、オヒイス及びビジネスシステム(データエント リ)、製造(製造工程における手を使わない監視)、医療(リポートの注釈の添 付)、ゲーム(音声入力)、自動車製造の音声制御及び不具者により用いられる 音声制御のような分野において広く用いられている。連続する音声認識の場合、 L.Rabiner著、「ア チュトリアル オン ハイデン マルコフ モデ ルス アンド セレクテッド アプリケーションズ イン スピーチ リコグニ ション」,プリシーディングス オブ IEEE,第77巻,No2 1989 年2月の第1図に示すように、以下の信号処理工程が通常用いられている。 特徴分析:音声入力信号をスペクトル及び/又は時間分析して特徴の代表ベク えば、6.67kHzのレートでサンプルされる)され、例えば予備強調を適用 することにより予備処理される。順次のサンプルは、例えば32m秒の音声信号 に対応するフレームにグループ化される。順次のフレームは例えば16m秒で部 分的にオーバラップしている。しばしば、リニア プレディクティブ コーディ ング(LPC)スペクトラル分析方法が用いられて各フレームについて特徴の代 4、32又は63個の成分(特徴空間ディメンション)を有することができる。 ユニット整合システム:観測ベクトルは音声認識ユニットの目録に整合される。 種々の形態の音声認識ユニットを用いることができる。あるシステムは、単音、 二重音声又は音節、及びフェネン(fenene)及びフェノン(fenone )のような派生的なユニットのような言語学的に基準化されたサブワードユニッ トを用いている。別のシステムは、ワード全体又はワードのグループをユニット として用いている。音声信号を確率的にモデル化するため所謂ハイデン マルコ フ モデル(HMM)が広く用いられている。このモデルを用いると、各ユニッ トは、パラメータが音声データの連鎖する組から評価されるHMMにより特徴化 される。例えば10000から60000ワードを含む大きな語彙音声認識シス テムの場合、より多くのユニットについてHMMを適切にトレーニングするため に多数のトレーニングデータが必要であるので、制限された組の例えば40個の サブワードユニットが通常用いられている。ユニット整合システムは観測ベクト ルを全ての音声認識ユニットのシーケンスに整合させ、ベクトルとシーケンスと の間の尤度を発生させている。例えば以下のようにして整合に制約を課すことが できる。 ・辞書的なデコーディング:サブワードユニットを用いる場合、発音語彙は、い かなるワードがサブワードユニットにより構成されるかを表示する。ユニット整 合システムにより検討したサブワードユニットの取りうるシーケンス辞書のシー ケンスに合わせる。 ・構文法分析:ユニット整合システムに制約を課し、検討した配列が、ワードを 構成し(辞書的デコーディング)ワードがワード文法により特定される適切な順 序にある音声ユニットに対応する配列となるようにする。 離散的なマルコフプロセスは、いかなる時においてもN個の識別される状態に ある組のシステムについて説明している。このシステムは、規則的な時間で状態 と関連する確率の組により状態を変更している。離散的なマルコフプロセスの特 別な形態が上記文献の第2図に示されている。この所謂左右モデルにおいて、状 態は左から右に続いている(又は同一にとどまる)。この方法は、信号の特性が 時間に対して変化する音声をモデル化するため広く用いられている。モデル状態 は音を表すものとして観測することができる。サブワードユニットとしてのモデ ルの状態の数は、例えば5又は6個とすることができる。この場合、平均的には 状態は観測期間に対応する。上記第2図のモデルの場合状態は同一にとどまるこ とができ、これはゆっくり話すことと関連する。或いは、状態をスキップするこ とができ、これは速く話すことと関連する(第2図において、平均速度の2倍) 。離散的なマルコフプロセスの出力は各時間瞬時の状態の組であり、各状態は観 測可能な事象に対応している。音声認識システムの場合、離散的なマルコフプロ セスのの概念は、観測が状態の確率関数となる場合まで拡張される。これにより 二重確率処理が生ずる。状態変化の確率処理は隠れており(隠れたマルコフモデ ル、HMM)、観測順序を発生する確率処理だけを経て観測される。 音声の場合、観測は連続する信号を表す。この観測は、例えば32から256 個のベクトルから成る有限のアルファベットから選択される個別の記号に量子化 することができる。この場合、モデルの各状態について個別の確率密度を用いる ことができる。量子化と関連する劣化を回避するため、多くの音声認識システム は連続する混合密度を用いている。一般的に、この密度はガアウシアン密度(正 規分布)又はラプラシアン密度のような対数へこみ密度又は楕円対称密度から取 り出される。トレーニング中、トレーニングデータ(トレーニング観測シーケン ス)は初期モデルを用いて複数の状態にセグメント化される。これにより、各状 態に対してトレーニング観測ベクトル又は基準ベクトルと称される一組の観測が 与えられる。次に、各状態についての基準ベクトルがクラスタ化される。システ ムの複雑さ及びトレーニングデータの量に応じて、各状態について例えば32か ら120個の要素クラスタが発生する。。各要素クラスタは基準確率密度と称す るそれ自身の確率密度を有する。状態についての混合密度は、状態についての基 準確率密度の重み付けされた和となる。 音声信号(観測シーケンス)から単一の音声認識ユニット(例えば、ワード又 はサブワードユニット)を認識するため、観測シーケンスを発生した各音声認識 ユニットについて尤度を計算する。最大尤度を有する音声認識を選択する。より 多くの観測シーケンスを認識するため、レベルを利用した試みが用いられる。第 1のレベルからスタートして前述した尤度を計算する。モデルの最後の状態に到 達した時より高いレベルに切り換え、残りの観測について同一の処理を繰り返す 。最後の観測が処理されると、最大尤度を有する経路が選択されこの経路を戻っ て含まれている音声認識ユニットのシーケンスが決定される。 尤度計算は、各状態においてその状態の各基準確率密度についての観測(特徴 ベクトル)の尤度を計算することを含んでいる。特に、例えば40個のサブワー ドユニット、サブワード当たり5個の状態並びに状態当たり64個のクラスタを 有する連続する観測密度HMMを用いる多くの語彙音声認識システムにおいて、 上記計算は例えば32個の次元ベクトルについて12800個の尤度計算を含ん でいる。これらの計算は各観測ベクトルについて繰り返される。従って、この尤 度計算は、計算量全体の50〜75%を占めてしまう。 トリー構造を用いトリー検索を利用して基準確率密度を構築することにより尤 度計算に必要な時間の割合を低減することは、欧州特許出願公開第627 72 6号から既知である。トリーの最下位レベル(レベル1)においてリーフノード の各々が実際の基準確率密度に対応する。前述したように、基準確率密度は基準 ベクトルの要素クラスタを表す。トリーのレベル2において、各非リーフノード はクラスタ確率密度に対応し、このクラスタ確率密度は非リーフノードよりも下 位のブランチのリーフノードに対応する全ての基準確率密度から取り出される。 このようなレベルとして2個の非リーフノードは基準ベクトルのクラスタを表す 。この階層的なクラスタ化は、トリーの最上位において1個の非リーフノード( ルートノード)が全ての基準ベクトルを表すまで、順次高くなるレベルについて 繰り返す。パターン認識中に、各入力観測ベクトルについてトリー検索をルート ノードから1レベル下位のレベルから開始する。このレベルの各ノードについて 、対応するクラスタ確率密度を用いて観測ベクトルの尤度を計算する。最大の尤 度を有する1個又はそれ以上のノードを選択する。これらのノードについて同一 の処理を1レベル下位までで繰り返す。このようにして、最終的に対応する基準 確率密度を用いて観測ベクトルの尤度が計算された多数のノードを選択される。 選択されなかった各リーフノードについて、その尤度が最後に選択した親ノード の尤度により近似される。 本発明の目的は、冒頭部で述べた形式の方法及びシステムを改善することにあ る。 この目的を達成するため、本発明の方法は、各基準ユニットと関連する基準確 率密度を個別のトリー構造として表し、 前記配置が、各トリー構造について前記検索を行うことにより各個別のトリー 構造のリーフノードを選択することを含むことを特徴とする。 全ての基準ベクトルを1個のトリーに組み込む代わりに、各基準ユニット毎に 複数の個別のトリーを構築する。その結果、N1個の基準パターン(例えば、H MM)が存在し各々がN2個の基準ユニット(状態)を有する場合、N1×N2 個のトリーが構築され各観測ベクトルについて検索が行われる。既知のシステム において基準確率密度の比較的少ない部分集合が選択された場合、素子クラスタ の対応する組は近い観測ベクトルである基準ベクトル(音声)により支配される 。本発明者は、選択されるのに十分近くないが尤度計算にある程度関連する基準 ベクトルの多数のグループを確立した。これは、1個の観測ベクトルについてこ のグループの基準ベクトルが極めて良好に整合していないが、この基準が表す基 準パターンが観測ベクトルの全体のシーケンスについて極めて良好に整合するこ とを意味する。従って、このグループの基準ベクトル間で識別できることが重要 である。既知のシステムにおいては、このグループの全ての基準ベクトルについ てその尤度は、尤度が計算された基準ベクトルの最下位のブランチの尤度により 近似されている。これは、同一の選択されなかったブランチの基準ベクトルによ り表される同様な音声を識別することができず、認識の低下が生じてしまう。本 発明者は、より正確な認識を行うためには別の識別方法が必要であるとの結論に 達した。これは、複数のトリーを用いることにより達成される。パターン全体を 認識する場合、各観測ベクトルについてHMM状態に整合させる観測の尤度を計 算する必要がある(及び全体の尤度は蓄積する必要がある)。これは、各状態に ついて少なくとも1個の基準確率密度が含まれる必要がある(好ましくは、この 基準確率密度がその状態についての最高の尤度を与える)ことを意味する。既知 のシステムにおいてこれを達成するためには、選択された集合を比較的大きくす る必要がある。本発明では、各状態毎に個別のトリーを用い、各状態に少なくと も1個の代表的な基準確率密度を含ませる。この結果、高精度の認識を行うため に必要な選択されたリーフの組が相当減少する。これにより、最大尤度計算に必 要な処理時間が短くなる。 本発明の別の形態として、本発明の方法は、トリー構造の非リーフノードを通 る検索が、トリー構造の少なくとも1個のレベルにおいて、前記クラスタ尤度の 最適値が計算される非リーフノードを通り、前記クラスタ尤度が前記最適のクラ スタ尤度の予め定めた範囲内にある非リーフノードを通る経路が形成されている 経路を検索することを含むことを特徴とする。トリーの各レベルにおいて、最高 の尤度を有する部分集合(観測ベクトルに最も近い)を決定する。別の部分集合 が最高の尤度と同様な尤度を有している場合(すなわち、最高の尤度と他の部分 集合の尤度との間の差異が閾値以下の場合、この別の部分集合についてさらに計 算する。このようにして、トリーのレベル1で最終的に選択された基準確率密度 の数がダイナミックに決定される。これは、ある観測ベクトルについて少ない数 の基準確率密度が比較的高い尤度を与える場合部分集合が小さくなる利点がある 。その場合、観測ベクトルに整合する少ない数の良好な候補だけが存在する場合 、一般的な認識が高速になる。一方、ある観測ベクトルについて多数の基準確率 密度が同様な比較的高い尤度を与える場合、部分集合が大きくなる。そのため、 観測ベクトルと整合する多数の良好な候補が存在する場合、一般的な認識一層識 別性が高くなり、精度が高くなる。 本発明の別の形態として、本発明の方法は、トリー構造を、各非リーフノード が4個のノードの最大よりも階層的に1レベル上位にされ、少なくとも1個の非 リーフノードが階層的に4個のノードよりも1レベル上位にされている四進トリ ーとしたことを特徴とする。原理的に、トリーの各非リーフノードに多数のブラ ンチを有するトリー構造を用いる場合、認識精度は改善される。この場合、クラ スタへの分割は一層正確になり選択されるべき正しいクラスタへの的中が一層高 くなる。一方、計算量は、ブランチの量が増大すると増大し、認識の性能が低下 する。本発明者は、典型的な大きな語彙音声認識システムについて4層トリーが 精度と性能との間で良好なバランスを発揮することを確立した。 本発明の別の形態として、本発明の方法は、非リーフノードを介するトリー構 造の検索を、トリー構造の同一のブランチ内の同一のレベルの一群の非リーフノ ードについて行い、 選択した非リーフノードの対について、2個の対応するクラスタ確率密度と前 記入力観測ベクトルとの間のクラスタ比較スコアを計算し、前記クラスタ確率密 度のスコアが2個の対応するクラスタ確率密度のいずれかが入力観測ベクトルo の最高の尤度を与えるかを指示し、 前記群の全ての非リーフノードについてクラスタ比較スコアが計算されるまで 、前記最高の尤度を指示する前に計算されたクラスタ比較スコアについての非リ ーフノード及びクラスタ比較スコアがまだ計算されていない前記群の非リーフノ ードについクラスタ比較スコアを計算し続け、 前記クラスタ比較スコアが最高の尤度を指示する非リーフノードを通る経路を 前記検索に含ませることを特徴とする。 本発明の別の形態として、本発明の方法は、既知の入力パターンを表す一連の トレーニング観測ベクトルから前記確率密度が取り出され、前記基準確率密度の 組をトレーニング構造として表す工程が、前記トレーニング観測ベクトルをクラ スタの体系的な組にクラスタ化すること、及び各クラスタについてクラスタ確率 密度を計算することを含む方法において、 前記一連のトレーニング観測ベクトルを、対応する基準パターン及び対応する 基準ユニット列にセグメント化し、 反復し、 各基準ユニットについて、対応するトレーニング観測ベクトルをクラスタの体 系的な組にクラスタ化して、各々が個別の基準ユニットに対応する独立したトレ ーニング構造を形成し、 前記基準ユニット列に基いて前記トレーニング観測ベクトル列を時間整合させ 、 各トレーニング観測ベクトルについて、予め定めた最適基準に基づいて最も類 似する対応する基準ユニットを決定し、 最適なクラスタ尤度を有するクラスタについて対応する基準ユニットのトレー ニング構造を検索することにより、前記クラスタに各トレーニング観測ベクトル を割り当てることを特徴とする。 トレーニング期間中にクラスタ化を行い、密度パラメータを評価すると共にト レーニング観測ベクトルを基準ユニットに割り当てる。これらの操作は反復する ように行う。本発明では、このようにして各基準ユニットについて個別のトレー ニングを構築する。本発明者は、トリー構築作業を反復処理お一体化することに よりパターン認識の精度を改善することを確立した。さらに、トレーニング観測 ベクトルは反復中に基準ユニットに再割当てされ、従って適切なクラスタに再割 当てされるので、トリーの部分構築を利用して最適なクラスタを決定することに よりシステムのトレーニングに必要な時間が大幅に減少することが判明した。 本発明の目的を達成するため、本発明のシステムは、トリービィルダが、各基 準ユニットについて関連する基準確率密度を個別のトリー構造として表すものと して想定され、 前記基準パターンデータベースが、各基準ユニットについて前記個別のトリー 構造をさらに記憶し、 前記配置が、各個別のトリー構造についての検索を行うことにより各個別のト リー構造のリーフノードを選択することを含むことを特徴とする。 以下図面を参照して本発明を詳細に説明する。 以下添付図面に基づき本発明を説明する。 図1は連続する音声認識に通常用いられる処理工程を示す。 図2は左右離散的なマルコフ処理の一例を示す。 図3は本発明によるシステムの一実施例のブロック線図である。 図4はトリー構成された確率密度を示す。 図5は4個のリーフを有する二進トリーの2次元セル境界を示す。 図6は反復連鎖処理のフロー線図を示す。 図3は、音声又は画像のような連続する物理量から取り出した時間順次する入 力パターン20を認識する本発明によるシステム10のブロック線図を示す。入 力手段30は物理量を繰り返しアクセスする。音声の場合、これは、6.67k Hz又は16kHzのような規則的な時間期間で物理量をサンプリングすること 及びサンプルをディジタル化することを含む。この入力手段30は例えば音声信 号の32m秒に対応する連続的なサンプル群を処理して特徴の代表ベクトル(入 ベクトルの時間シーケンスが発生する。典型的には、入力手段30はマイクロホ ン、A/D変換器及びディジタル シグナル プロセッサ(DSP)のようなプ ロセッサを用いて構成することができる。選択的に、入力手段30は、音声が受 信された時だけサンプリングを行う音声検出器で構成することができる。入力信 号をサンプリングしディジタル化する変形例として、音声信号をディジタル化さ れた形態でメモリに記憶し又は通信ネットワークを介してディジタルで供給する ことができる。基準パターンデータベース40用いて基準パターンを記憶する。 この基準パターンデータベース40はハードディスク、ROM又はYAMのよう なメモリに一体化されたデータベースとして又は個別のデータファイルとして記 憶することができる。前述したように、音声認識ユニットは音声を認識する基準 パターンとして用いる。各基準パターンは一連の基準ユニットを含むことができ る。各基準ユニットは少なくとも1個の基準確率密度により代表される。ハイデ ン マルコフ モデルに基づくパターン認識を用いれば、各基準パターンはハイ デン マルコフ モデルによりモデル化され、このモデルの状態は基準ユニット に対応する。連続観測密度を用いることにより、基準確率密度は通常ガウシアン 密度又はラプラシアン密度となる。勿論、ハイデン マルコフ モデルを用いて 言葉の前又は言葉の間に生ずる無音のパターンのような鮮明な時間順次挙動を有 しない特別なパターンをモデル化することは既知である。本発明の目的のために は、このようなパターンを別個に表すものではない。このようなパターンを本発 明のシステムにいかにして一体化するかは当業者にとって明らかなる。 このシステム10はさらに、基準ユニットに対応する基準確率密度をトリー構 造として構成するトリービィルダ60も具える。これは各基準ユニット毎に繰り 返す。このトリー構造は基準パターンデータベース40に記憶する。トリー構造 の各リーフのノードは基準確率密度に対応する。このトリー構造の詳細及びその 構築は後述することにする。トリービィルダはDSP又はマイクロプロセッサを 用いて構成することができる。有益なものとし、トリーはシステムのトレーニン グ中に予め構築する。 このシステムはさらに、入力パターンに対応する基準パターンを基準パターン データベースに配置するロキャライザ50も具える。ロキャライザ50はDSP 又はマイクロプロセッサを用いて構成することができる。配置された基準パター ンは認識された基準パターンとして参照される。ロキャライザ50は、最下位の トリーレベルにおいて多数のリーフノードが選択されるまで基準ユニットに対応 するトリー構造を各観測ベクトル毎にサーチすることにより配置を行うことがで きる。選択されたリーフノードについて、ロキャライザ50は、この基準ユニッ トに観測ベクトルがいかに良好に整合するかを決定する。この決定は、各選択さ れたリーフノードについて、基準確率密度を用いてこのリーフノードにどれが対 応しているを決定して観測ベクトルについての観測の尤度を計算することを含む 。各基準ユニットについて、ある観測ベクトルについて計算された観測尤度を組 み合わせて基準ユニット類似スコアを与える。各基準パターンについて、基準ユ ニットの基準パターンに対応する基準ユニット類似スコアを組み合わせてパター ン類似スコアを形成する。これは、順次の観測ベクトルについて繰り返す。パタ ーン類似スコアについて最高尤度のような最良のものが計算された基準パターン を認識されたパターンとして配置する。この説明は基準確率密度の配置及び観測 可能性の計算に焦点を合わせている。この分野において、この鍵となる要素が、 ハイデン マルコフ モデルのような他の技術との関連においてどのように用い て連続する物理量から取り出された時間順次パターンを認識できるかは良好に理 解される。この分野において、レベル化された試みのような技術を用いて基準パ ターンよりも大きな観測ベクトルシーケンスを有するパターンをいかにして認識 するかも良好に理解される。例えば、サブワードユニットを基準パターンとして いかに用いてワード又は文章全体を認識するかは既知である。発音語義及び文法 のような別の拘束がどのようにパターン認識に課されるかも良好に理解される。 発音語義のような別の情報は基準パターンデータベースを記憶するために用いた メモリと同一のメモリを用いて記憶することができる。 出力手段70を用いて認識されたパターンを出力する。この出力手段は、認識 されたパターンをスクリーン上にテキストフォーマットとして表示し、認識され たパターンをメモリに記憶し、又は認識されたパターンをコマンドのような入力 して用いて次の処理動作を行うような種々の形態をとることができる ハイデン マルコフ モデルを用いる場合、各ハイデン マルコフ モデル及 ここで、wkはk番目の観測混合密度(クラスタ)の重みであり、Nは状態に対 するクラスタの番号である。簡単にするため、状態インデックスsは上記式中に 表示されていない。音声認識装置は通常ラプラシァン又はガウシャン確率密度を 用いてクラスタの確率分布をモデル化する。Lr基準を用いると、以下のように 規定されている。 ここで、ラプラシァン確率密度のためにL1基準を用い、ガウシャン確率密度の ためにL2基準を用い、確率について取り得る式として次式が与えられる。 れるようにする。Lr基準以外の他の距離測定を用いることもできる。上記式に 対して種々の形態のもの又は展開したものが既知である。一例として、以下の3 個の型式の多重変形ガウシャン密度が与えられる。 この式において、sはハイデン マルコフ モデル状態に対するインデックスで あり、kはこの状態内の密度(基準ベクトル)に対するインデックスである。 スケーリングを用いて、項がプロセッサの精度範囲以下となるのを防止し密度 変数によるベクトルを正規化することができる。有益なものとして、ダイアゴナ ル共変マトリックスをこれらが結合されるように用いれば(状態依存共変マトリ ックスKs,k=Ks、又はグランド共変マトリックスKs,k=Kとなるように) ことになる。スケーリングはこの技術分野において周知である。有益なものとし て、基準ベクトルは予めスケール化され、観測ベクトルは実際の確率計算が開始 する前に1回スケール化されるだけである。 密度の性質により、確率の和は最大値により、すなわち最も確率に寄与する密 度により近似することができる。これは、入力パターンに対応する基準パターン の配置における重要な工程は、最も近い観測ベクトルである基準ベクトルを見い 出すことである(最も近い隣接する検索)。ここで、‘距離’は尤度の負の対数 として規定される。 負の対数をとることにより、この式は以下のようになる。 多重変数ガウシャン密度の場合、この式は以下のようになる。 トリー構造 例えば40個のサブワードユニットを用いる場合、サブワードユニット当たり の5個の状態及び状態当たりの64個の要素クラスタ(各々が関連する基準確率 により表わされる)は、例えば32個の次元ベクトルを含む12800個の尤度 計算を意味する。これらの計算は各観測毎に繰り返す。全ての尤度を計算する代 わりに、トリー構造を用いて尤度が全て計算される基準確率密度の部分集合を選 択する。トリー構造は各状態毎に構築する。本例では、これは200個(40× 5)のトリーを含み、各トリーは状態において混合密度を形成する64個の基準 確率密度をそれぞれ有する。N個の要素クラス及び関連する基準確率密度(例え ば、Nは32,64,128又は256とする)はこの機能ベクトル空間をN個 のセルに分割する(実際には、密度変数が多数変化する場合、N個以上のセルが 存在することがある。式はこれをそれとなく処理する。)後で詳細に説明するよ うに、基準確率密度はトレーニング観測ベクトルから取り出される。基準確率密 度は複数のトレーニング観測ベクトル及び1個だけのトレーニング観測ベクトル の要素クラスタを表わす。トレーニング観測ベクトルが1個だけしか含まれない 場合、これは要素クラスタと称する。 N個のセルはLレベルを有するB項トリー構造に構築する。Bは各ノードにお ける最大数のブランチを示す。有益なこととして、NLの場合、完全に平衡した トリーが用いられる。実際には、トレーニング中あるクラスタ及び関連する確率 密度陳腐化したものとするおそれがある。結果として、トリーのあるリーフ又は ブランチはこのトリーから除去される。トップレベルLにおいて、ルートフード はセルの全体の集合を表わす。これらのセルはB個の部分集合(クラスタとも称 する)に分割され、各部分集合はN/B個のセル(又は、NがBの累乗でない場 合、それ以下)を有する。各クラスタはレベルL−1の中間ノード(リーフノー ドではない)により表される。その順序でこれらクラスタの各々は再びB個の部 分集合(あるブランチが陳腐化した場合それ以下)に分割され、各部分集合はレ ベルL−2の中間ノードにより表される。この部分集合への分割は、トレーニン グ観測ベクトルの1個の要素クラスタを表す最低レベル(レベル1)になるまで 繰り返す。各要素クラスタと関連するものは、トレーニング観測ベクトルから取 り出された基準確率密度である。ガウシアン密度を用いれば、各基準確率密度は を用いる)。トリーのレベル2又はこれよりも高いレベルのノードに対応するク ラスタはクラスタ確率密度と関連する。このクラスタ確率密度は全ての要素クラ スタを表し、これら要素クラスタはノードの下のブランチに存在する。このよう に、クラスタ確率密度は要素クラスタと関連する基準確率密度から取り出すこと ができる。 度の混合を示す。トリーのレベル1のリーフノードd16....d31の各々は基準確 率密度及び関連する要素クラスタに対応する。レベル2の中間ノードd8...d15 はそれぞれ2個のサブクラスタを有するクラスタを表す。一例として、ノードd8 ノードd16及びd17の親ノードである。このノードd8はd16及びd17により表 される2個のクラスタのトレーニング観測ベクトルをを有するクラスタを表す。 のクラスタ確率密度はd16及びd17により表される2個の基準確率密度から取り 出される。同様に、d4はd8及びd9により表される2個のトレーニング観測ベ クトルをを有するクラスタを表し、従って、d4はd16、d17、d18及びd19に より表される4個のクラスタのトレーニング観測ベクトルをを有するクラスタ は、以下の方法で重み付けされた平均を計算することにより基準確率密度の平均 ここで、M1は、ノードdiにより表わされる部分集合中の基準ベクトルの数で は以下の式で与えられる。 トリーの構築 各状態について、確率密度の混合を音響トレーニング中に決定する。トレーニ ングデータ(トレーニング観測ベクトル又は基準ベクトル)の初期設定を用いて いかにして適切なモデルを構成するか(例えば、基準ユニットのシーケンスを決 定する)及びパターン認識用の観測ベクトルを如何にして形成するかは周知であ る。各クラスタは平均ベクトル及び分散により表わされるクラスタ確率密度と関 連する。また、トレーニングを利用してすでにトレーニングされたシステムをど のように改善するかも既知である。典型的なものとして、周知のk手段クラスタ 法を用いてトレーニング観測ベクトルを集合させる。L.ラビナ“ファンダメン タルズ オブ スピーチ リコグニション”プレンティス ホール、セクション 3.4.4を参照されたい。有益なことに、このクラスタ法は、クラスタ形成を 記憶することにより(各クラスタ毎に、1レベル低いどの子クラスを含むか)ト リー構造を構築するように構成されている。このように、トレーニング中に各状 態についてトリー構造が構築される。一例として、二進トリー構造は以下のよう にして構成することができる。 クトルの平均である。 び分散)を決定することにより、上記密度を2個の密度に分割する。ここで 3.各トレーニング観測ベクトルについて、2個の密度のうちいずれの密度がト レーニング観測ベクトルに類似しているかを決定し、この密度にトレーニング観 測ベクトルを割り当てている。このようにして、2個のクラスタが形成される。 4.2個のクラスの密度(重心及び分散を再計算する。) 5.繰り返し:顕著な改善に達しない場合又は予め定めた数の反復を行なった場 合のような停止基準に達するまで工程3及び4を繰り返す。 6.繰り返し:所望の数のトリーレベルに到達するまで、トリー中の1レベル低 い各クラスタについて工程2〜5を繰り返す。 工程6おいて、2個のクラスタ間で決定された境界をより低いレベルに維持する ことにより(トリーのブランチに割り当てられたベクトルが、1レベル低いサブ クラスタの形成中に再割当てされない)、二進トリーが構成される。このトリー レベルを除外することにより、4元トリーのような2の累乗のブランチ因子を有 する別のトリー構造を構成することができる。工程2の分割を適切に変化させる ことにより別のブランチ因子を有するトリーをどのようにして構成するかは明ら かである。クラスタ化の説明はプールされた共変マトリックスに集中する。別の 共変マトリックスを有する密度を用いていかにしてクラスタ化するかは周知であ る。トリー検索 トリー検索は、ルートノードよりも低いレベル(レベルL−1)で開始し、レ ベル1の少なくとも1個の基準確率密度(及び対応する要素クラスタ)が配置さ れるまで行う。レベルL−1の非リーフノードについて、非リーフノードにより 非リーフノードに対応するクラスタ確率密度を用いて計算する。一例として、密 率密度を表す平均ベクトルをとる。最も大きな尤度が得られたブランチを選択さ れるまで検索する。或いは、規定された基準に基いて1個以上のブランチを選択 することができる。選択されたブランチの1レベル低いものついて同一の処理を 繰り返す。このようにして、トリーの2個のレベルにおいて少なくとも1個の基 準確率密度の部分集合が配置される。配置された部分集合について、観測ベクト 、実際のパターン認識の場合、計算された尤度は維持され、基準パターン毎に組 み合わされると共に次の観測ベクトルについて計算された尤度と結合される。検 索中トリーのトップレベルは用いられないので、このトリーは少なくとも3個の レベルを有する。全体がバランスしたトリーについてこの検索手法を用いれば、 検査するためにL=logB(N)の全部が必要となり、各トリーレベルについ てB尤度計算が必要となる。トリーの各レベルにおいて1個のブランチが選択さ れれば、選択されたブランチはトリーを通過するための付加的なオーバヘッドと 共にBlogB(N)計算全体を与える。これは、全てのN個のセルの尤度を計 算することに匹敵する。トリー検索の欠点は、観測ベクトルについて最も高い尤 度を与える基準確率密度が常時配置されることが保証されないことである(平均 的中割合は100%以下である)。これを図5に示し、図5は4個のリーフ(d4 〜d7)を有する二進トリーについてのセル境界の2次元例を与える。この図5 は、トップレベル(レベル3)及びレベル2でのクラスタ化の結果として達成さ れたセル境界を示す。このクラスタ化は、太いラインにより示すセル境界により 分離された4個のセルを与える。セルへの最良の分割はトップレベル境界から部 分的に偏位した細いラインにより示される(このトリーの第2レベルでの割当て は正確である)。 この方法をフィリップス タイムテーブル 情報システムAISで試験した。 この話者独立認識システムは40個のハイデン マルコフ モデルを用い。これ らのモデルは6個の状態を用いて文脈に依存しない音素をそれぞれモデル化する 。連続混合密度を用いる。認識辞書は1850個のエントリを有する。トレーニ ング及び試験はドイツ語の実生活の連鎖スケジュール照合で構成する(電話回線 で記録した自然発声)。このシステムは7.3時間の音声(そのうち47%は無 音としてラベル化されている)を表す8793個の発声について照準した。この 試験は全体とし7078個発声語になる2278個の発声(1.5時間の音声) で構成され、その224個は用語の範囲外である。以下のテーブルは、64個の リーフを有するトリー(6分割)を用いて達成された結果を示す。40個のハイ デン マルコフ モデル全部を用いて40個のサブワードユニットをモデル化し た。各モデルは6個の状態を有する。6個の状態について、3個の異なる混合を 用い、2個の順次の状態は同一の状態を占める(状態1及び2、状態3及び4、 状態5及び6)。各混合は64個の密度で構成される。付加的に、1個の状態だ けを有する特別のモデルを用いて無音をモデル化した。これは、原理的に(40 ×3+1)×64=7744個の密度を与える。トレーニング中数個の密度は廃 語として識別され、トリーから一掃され実際には全体として約7600個の密度 を用いた。このテーブルは、二進トリーを与えるB=2から平坦なトリーを与え るB=64の範囲の種々のブランチィング因子について達成された結果を示し、 これは有効な全体の検索である。トリー中の各レベルにおいて1個のブランチだ けを選択した。 このテーブルにおいて、Neffはこのモデルの各状態について平均的に計算され た距離の数を示す。勿論、トレーニング中に数個の基準ベクトルが一掃されたの で、Neffは平均として全トリーの数よりも僅かに小さくなり、それぞれ12、 12、16、20及び64である。この的中確率は、全検索及びトリー検索が同 一の基準ベクトルを観測ベクトルに最も近いものとして配置する時間割合を示す 。ワート エラー レート(WER)は発声された語のが正しく認識されなかっ た時間割合を示す。これは、置換(ある語を別の語として誤って認識すること) 、挿入(長い語を短い語の列と誤って識別すること)及び削除(短い語の列を長 い語として誤って識別すること)を含む。 種々の形式のトリーについて、以下の計算作業が必要である。 結果として、二進トリーに必要な計算作業は四進トリーについて必要な計算作業 と同一である。前記テーブルは、四進トリーが二進トリーよりも良好な結果を与 えることを示している(四進トリーはブランチィングレベルが低く、全体として より長い距離の計算が生じ、より高い精度の結果が与えられる)。従って、四進 トリー構造を用いることが有益である。勿論、より多くのブランチを有するトリ ー構造を用いることにより、一層良好な結果が与えられる。一方、計算の増大に より、多くのブランチの代わりにより多くのノードを有する四進トリーを用いる のが有益である。これを以下のテーブルに図示する。 このテーブルは、より多くの密度を用いることにより一層良好な結果(ワード エラー レートがより低くなる)が得られることを示す。四進トリー(B=4) を用いる128個及び256個のノードについての結果をB=8で64個のノー ドを有するトリーを用いることにより得られた結果(前記テーブル)と比較する ことにより、より多くの密度を用いる四進トリーはより少ないか又は同一の計算 作業で一層良好な結果が得られること明らかである。 このテーブルは、密度の数が少なくなると的中確率が低くなることも示してい る。的中確率は、トリーの数個又は全てのレベルにおいて丁度1個のブランチを 選択することにより改善することができる。これを実行する1の方法は、例えば 四進トリーにおいて各レベルにおいて2個のブランチを選択することである。6 4個のリーフを有する四進トリーの場合、この方法は各レベルで1個だけのブラ ンチが選択された場合の12個の計算に匹敵する28個の計算を必要とする。ト リーのあるレベルにおいて4個のブランチのうちの1個のブランチが観測ベクト ルについて他の3個のブランチドよりも高い尤度を与える場合、最も高い尤度を 与える基準確率密度がそのブランチの一員であると想定する。他方において、1 個以上のブランチのグループが観測ベクトルについて同様な又はより高い尤度を 与える場合、ブランチを1個だけを選択することは誤った決定をするおそれがあ る。 従って、別の実施例においては閾値Tを用いる。トリーの各レベルにおいて、 最も高い尤度を与えるクラスタ確率密度を有するノード選択する。最良のノード の対数尤度と第2の最良のノードとの間の差異が閾値Tよりも低い場合、第2の 最良のノードをさらに検索する。この方法は、以下のテーブルに示すように、種 々のT値について試験した。 このテーブルは、64個のリーフを有するトリー及び256個のリーフを有する トリーについての結果を示す。各トリーについて、第1の行は全検索を用いる( 閾値を用いない)結果を示す。T=0のこの行は各レベルにおいてブランチが1 個だけ選択された場合の結果を与える。より高い閾値の場合、モデル(NEFF) の各状態について実際に計算された距離の数により表されるように、あるレベル において2個のブランチが選択されたときの尤度は増大する。特に、256個の リーフのような大きなトリーの場合、精度が低下することなく性能が顕著に増大 する。当業者は、このシステムについて最も適切な閾値を選択することができる 。必要な場合、この閾値機構を用いて2個以上のブランチを選択することができ る。 中間レベルにおいて、観測のクラスタ尤度は、リーフノードにより表される基 準確率密度についてだけ実行される実際の尤度計算については実際には用いられ ない。中間レベルにおいて、どのクラスタ確率密度が観測ベクトルに対して最高 の尤度を与えるかを知ることだけが必要であり、実際の尤度がどれであるかは必 要ではない。 ユークリッド基準(L2−基準)を用いるガウシャン密度の場合、主としてベ クトルスカラ積の計算(内積又はドット積とも称する)簡単な計算を用いてどの クラスタ確率密度が最高の尤度を与えるかを決定することができる。ガウシャン 密度当たり単一のスカラー拡散だけを有するガウシャン密度を用いることにより 、 Ks,k=I・σs,k 2 式(a)は以下の式となる。 規定することにより、 この式において、最初の4つの項は例えばトレーニング中に1回で計算すること ができる。5番目の項について、第1の因子も1度で計算することができる。第 要があり、全ての基準ベクトルについて用いることができる。最後の項はベクト ルスカラー積であり、各観測ベクトル及び各基準ベクトルについて計算する必要 に対してクラスタ確率密度2よりも高い尤度を与えるが決定される。次に、この 最高の尤度を与えたクラスタ確率密度をクラスタ確率密度3と比較する。トリー のこのレベルの全てのクラスタ確率密度が試験されるまで、これを繰り返えす。 計算についてクラスタ確率密度が選択される順序は重要ではない。ガウシャン密 度についての共変マトリックスが全ての混合密度に対して結合される場合、すな わち、sをハイデン マルコフ モデルの状態とし、kがこの状態の密度を示す 場合に、共変マトリックスKs,k=Ksとなる場合、同様な技術を適用することが できる。この結果、トリーの異なるブランチにより表わされるクラスタ間の境界 は起平面となる。式(a)は以下のようになる。 規定することにより、 以下のようになる。 一般的には、 及びK-1は対称マトリックであるので、これにより この式において、項1,3及び4は例えばトレーニング中に1度で計算すること ことを意味する。トレーニング中のトリーの検索 トレーニング中にハイデン マルコフ モデルの未知のパラメータが評価され る。これは、基準ユニット(状態)の未知のシケンス及び未知のモデルパラメー タ(混合密度パラメータ)の評価を含む。図6は典型的なトレーニングプロセス を示す。音声認識に用いられる音響分析の同一の工程を用いてトレーニング発声 をトレーニング観測ベクトルの時間シーケンスに変換する。反復処理において、 状態及びモデルパラメータに対するトレーニング観測ベクトルの時間整合を改善 する。反復の各ループにおいて、その瞬時に構成されたモデルを用いてトレーニ ング観測ベクトルを時間整合させるし。この処理をいかに行うかは既知であり、 例えばビッタビアルゴリズムを用いて処理することができる。このビッタビアル ゴリズムは観測ベクトルの所定のシーケンスに対する最良の状態シーケンスを決 定する。時間整合の結果として、各トレーニング観測ベクトルは状態及びその混 合密度に割り当てられる。次に、各混合密度の観測ベクトル集めて(クラスタ化 )密度の再評価に用いる。上述したk手段クラスタ化法をこのために用いること ができる。明らかなように、時間整合により数個の観測ベクトルは別の状態及び 混合密度に割当てられる。同時にトリーのあるレベルが構築されるので(クラス タ化の一部として)、再割当てが既に行われたクラスタ化及びトリーの構築に影 響を与える。トリーのトップレベルでの取消からクラスタ化を再開始する代わり に、上述したトリー検索を用いてトレーニング観測ベクトルのクラスタへの予備 割当てを行うことが有益である。これは、1回多い反復レベルとしクラスタ化処 理と一体化することができる。一例として、二進トリー構造を以下のようにして 構築する(以下の処理は各状態について並列して行う)。 のトレーニング観測ベクトルの平均である。 2.各トレーニング観測ベクトルについて最適な状態を決定することにより、こ のシステムをについて時間整合を行う。 3.混合密度を再計算する。 4.反復、顕著な改善がされず又は予め定めた回数の反復が行われた場合のよう な停止基準に達するまで工程2及び3を繰り返す。 定することにより、混合密度を2個の混合密度(1レベル下位)に分割する る(2個の新しい密度の変数は元の密度から複写する)。 6.各観測ベクトルについての2個の混合密度のどちらがこのベクトルに近いか を決定し、この観測ベクトルにその密度を割り当てる。このようにして2個のク ラスタが形成される。 7.2個のクラスタの混合密度(重心及び拡散)を再計算する。 8.反復、顕著な改善がされず又は予め定めた回数の反復が行われた場合のよう な停止基準に達するまで工程6及び7を繰り返す。 9.各トレーニング観測ベクトルについて最適な状態を決定することにより、こ のシステムを時間整合させる。 10.トリー検索アルゴリズムを用いて各トレーニングベクトルを現在構築され ようとするトレーニングレベルのクラスタに割り当てる。 11.現在のトリーレベルから上向きに開始して全ての混合密度を再計算する。 12.反復、顕著な改善がされず又は予め定めた回数の反復が行われた場合のよ うな停止基準に達するまで工程10及び11を繰り返す。 13.反復、顕著な改善がされず又は予め定めた回数の反復が行われた場合のよ うな停止基準に達するまで工程9を繰り返す。 14.所望のトリーレベルの数に到達するまで、現在最下位のレベル(安定して いる)の各混合密度について工程5を繰り返す。 図6の反復の開始点のように、これらトレーニングセンテンス(観測順序)の各 々は、可能な場合には線形に又は古いモデルを用いて複数の状態に手動で又は自 動的にセグメント化することができる。 トレーニング中にトリー検索を用いることにより、このシステムのトレーニン グに必要な時間が大幅に減少する。29000個の密度の最大分解能で動作する AISシステムにおいて、トレーニング時間が108時間から25時間に減少し た。勿論、これは認識低下につながる。以下のテーブルは、高い分解能のシステ ムよりも影響を受ける低い分解能のシステム(トリー当たり16個のリーフ、全 部で1900個の密度)の場合相対損失が約2%であることを示している。

Claims (1)

  1. 【特許請求の範囲】 1.物理量をアクセスし、この物理量から入力パターンを表す一連の入力観測ベ クトルを発生させ、 複数の基準パターン中に入力パターンと対応する認識された基準パターンを 配置し、少なくとも1個の基準パターンを一連の基準ユニットとし、各基準ユニ ットを基準確率密度の組中の少なくとも1個の関連する基準確率密度で表し、 基準確率密度の選択をトリー構造として表し、このトリー構造において各リ ーフノードが基準確率密度に対応すると共に非リーフノードがクラスタ確率密度 に対応し、クラスタ確率密度は前記非リーフノードのブランチのリーフノードに 対応する基準確率密度から取り出され、 前記トリー構造について、対応するクラスタ確率密度が前記入力観測ベクト とにより複数のリーフノードを選択し、 選択されたリーフノードに対応する各基準確率密度について前記入力観測ベ 認識するに当たり、 各基準ユニットと関連する基準確率密度を個別のトリー構造として表し、 前記配置が、各トリー構造について前記検索を行うことにより各個別のトリ ー構造のリーフノードを選択することを含むことを特徴とする方法。 2.請求項1に記載の方法において、前記トリー構造の非リーフノードを通る検 索が、トリー構造の少なくとも1個のレベルにおいて、前記クラスタ尤度の最適 値が計算される非リーフノードを通り、前記クラスタ尤度が前記最適のクラスタ 尤度の予め定めた範囲内にある非リーフノードを通る経路が形成されている経路 を検索することを含むことを特徴とする方法。 3.請求項1又は2に記載の方法において、前記トリー構造を、各非リーフノー ドが4個のノードの最大よりも階層的に1レベル上位にされ、少なくとも1個 の非リーフノードが階層的に4個のノードよりも1レベル上位にされている四進 トリーとしたことを特徴とする方法。 4.請求項1、2又は3に記載の方法において、前記非リーフノードを介するト リー構造の検索を、トリー構造の同一のブランチ内の同一のレベルの一群の非リ ーフノードについて行い、 選択した非リーフノードの対について、2個の対応するクラスタ確率密度と 前記入力観測ベクトルとの間のクラスタ比較スコアを計算し、前記クラスタ確率 密度のスコアが2個の対応するクラスタ確率密度のいずれが入力観測ベクト 前記群の全ての非リーフノードについてクラスタ比較スコアが計算されるま で、前記最高の尤度を指示する前に計算されたクラスタ比較スコアについての非 リーフノード及びクラスタ比較スコアがまだ計算されていない前記群の非リーフ ノードについクラスタ比較スコアを計算し続け、 前記クラスタ比較スコアが最高の尤度を指示する非リーフノードを通る経路 を前記検索に含ませることを特徴とする方法。 5.既知の入力パターンを表す一連のトレーニング観測ベクトルから前記確率密 度が取り出され、前記基準確率密度の組をトレーニング構造として表す工程が、 前記トレーニング観測ベクトルをクラスタの体系的な組にクラスタ化すること、 及び各クラスタについてクラスタ確率密度を計算することを含む請求項1、2、 3、4又は5に記載の方法において、 前記一連のトレーニング観測ベクトルを、対応する基準パターン及び対応す る基準ユニット列にセグメント化し、 反復し、 各基準ユニットについて、対応するトレーニング観測ベクトルをクラスタの 体系的な組にクラスタ化して、各々が個別の基準ユニットに対応する独立したト レーニング構造を形成し、 前記基準ユニット列に基いて前記トレーニング観測ベクトル列を時間整合さ せ、 各トレーニング観測ベクトルについて、予め定めた最適基準に基づいて最も 類似する対応する基準ユニットを決定し、 最適なクラスタ尤度を有するクラスタについて対応する基準ユニットのトレ ーニング構造を検索することにより、前記クラスタに各トレーニング観測ベクト ルを割り当てることを特徴とする方法。 6.連続する物理量から取り出した時間順次する入力パターンを認識するシステ ムであって、 物理量をアクセスし、入力パターンを表す入力観測ベクトル列を発生させる 入力手段と、 基準確率の組から基準確率密度の選択をトリー構造として表すトリービィル ダであって、前記トリー構造において各リーフノードが基準確率密度に対応し、 各非リーフノードがクラスタ確率密度に対応し、このクラスタ確率密度が非リー フノードよりも下位のブランチのリーフノードに対応する全ての基準確率密度か ら取り出されるトリービィルダと、 複数の機器状態パターンを記憶する基準パターンデータベースであって、少 なくとも1個の基準パターンが基準ユニット列とされ、各基準ユニットが基準確 率密度の組の少なくとも1個の関連する基準確率密度により表され、前記基準確 率密度の選択がトリー構造として記憶される基準パターンデータベースと、 前記認識された入力パターンに対応する認識された基準パターンを前記基準 パターンデータベースに記憶されている基準パターン中に配置するロキャライ タ尤度を与える非リーフノードを経て前記トリー構造を検索することにより複数 のリーフノードを選択する選択手段と、 選択したリーフノードに対応する活基準確率密度について前記入力観測ベク 前記認識されたパターンを出力する出力手段とを具える時間順次する入力パ ターンを認識するシステムにおいて、 前記トリービィルダが、各基準ユニットについて関連する基準確率密度を個 別のトリー構造として表すものとして想定され、 前記基準パターンデータベースが、各基準ユニットについて前記個別のトリ ー構造をさらに記憶し、 前記配置が、各個別のトリー構造についての検索を行うことにより各個別の トリー構造のリーフノードを選択することを含むことを特徴とする時間順次する 入力パターンを認識するシステム。 7.請求項6に記載のシステムにおいて、前記トリー構造の非リーフノードを通 る検索が、トリー構造の少なくとも1個のレベルにおいて、前記クラスタ尤度の 最適値が計算される非リーフノードを通り、前記クラスタ尤度が前記最適のクラ スタ尤度の予め定めた範囲内にある非リーフノードを通る経路が形成されている 経路を検索することを含むことを特徴とするシステム。 8.請求項6又は7に記載のシステムにおいて、前記トリー構造を、各非リーフ ノードが階層的に4個のノードの最大よりも上位の1個レベルにされ、少なくと も1個の非リーフノードが階層的に4個のノードよりも上位の1個のレベルにさ れている四進トリーとしたことを特徴とする方法。 9.請求項6、7又は8に記載のシステムにおいて、前記非リーフノードを通る トリー構造の検索を、トリー構造の同一のブランチ内の同一のレベルの一群の非 リーフノードについて行い、 選択した非リーフノードの対について、2個の対応するクラスタ確率密度と 前記入力観測ベクトルとの間のクラスタ比較スコアを計算し、前記クラスタ確率 密度のスコアが2個の対応するクラスタ確率密度のいずれが入力観測ベクト 前記群の全ての非リーフノードについてクラスタ比較スコアが計算されるま で、前記最高の尤度を指示する以前に計算されたクラスタ比較スコアについての 非リーフノード及びクラスタ比較スコアがまだ計算されていない前記群の非リー フノードについクラスタ比較スコアを計算し続け、 前記クラスタ比較スコアが最高の尤度を指示する非リーフノードを通る経路 を前記検索に含ませることを特徴とするシステム。 10.前記確率密度が既知の入力パターンを表すトレーニング観測ベクトル列か ら取り出され、前記基準確率密度の組をトレーニング構造として表す工程が、 前記トレーニング観測ベクトルをクラスタの階層的な組にクラスタ化すること、 及び各クラスタについてクラスタ確率密度を計算することを含む請求項6、7、 8、又は9に記載のシステムにおいて、 前記トレーニング観測ベクトル列を、対応する基準パターン及び対応する基 準ユニットの列にセグメント化し、 反復し、 各基準ユニットについて、対応するトレーニング観測ベクトルをクラスタの 階層的な組にクラスタ化して、各々が個別の基準ユニットに対応する独立したト レーニング構造を形成し、 前記基準ユニット列に基いて前記トレーニング観測ベクトル列を時間整合さ せ、 各トレーニング観測ベクトルについて、予め定めた最適基準に基づいて最も 類似する対応する基準ユニットを決定し、 最適なクラスタ尤度を有するクラスタについて対応する基準ユニットのトレ ーニング構造を検索することにより、前記クラスタに各トレーニング観測ベクト ルを割り当てることを特徴とするシステム。
JP51005797A 1995-08-28 1996-08-26 ツリー構成確率密度に基づくパターン認識の方法及びシステム Expired - Lifetime JP3948747B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AT95202318.2 1995-08-28
EP95202318 1995-08-28
PCT/IB1996/000860 WO1997008686A2 (en) 1995-08-28 1996-08-26 Method and system for pattern recognition based on tree organised probability densities

Publications (2)

Publication Number Publication Date
JPH10508392A true JPH10508392A (ja) 1998-08-18
JP3948747B2 JP3948747B2 (ja) 2007-07-25

Family

ID=8220590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51005797A Expired - Lifetime JP3948747B2 (ja) 1995-08-28 1996-08-26 ツリー構成確率密度に基づくパターン認識の方法及びシステム

Country Status (5)

Country Link
US (1) US5857169A (ja)
EP (1) EP0788649B1 (ja)
JP (1) JP3948747B2 (ja)
DE (1) DE69613338T2 (ja)
WO (1) WO1997008686A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094257A (ja) * 2002-09-03 2004-03-25 Microsoft Corp 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US6292797B1 (en) * 1997-08-07 2001-09-18 New York University Method for determining actionable patterns in a database
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
JP2001507482A (ja) * 1997-10-08 2001-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 語彙及び/又は言語モデルのトレーニング
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
US6148295A (en) * 1997-12-30 2000-11-14 International Business Machines Corporation Method for computing near neighbors of a query point in a database
JP4004619B2 (ja) * 1998-01-08 2007-11-07 富士通株式会社 自動在庫引当が可能な在庫管理装置
US6269334B1 (en) * 1998-06-25 2001-07-31 International Business Machines Corporation Nongaussian density estimation for the classification of acoustic feature vectors in speech recognition
US6721759B1 (en) * 1998-12-24 2004-04-13 Sony Corporation Techniques for spatial representation of data and browsing based on similarity
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
US6594392B2 (en) * 1999-05-17 2003-07-15 Intel Corporation Pattern recognition based on piecewise linear probability density function
US6421668B1 (en) * 1999-08-05 2002-07-16 Agilent Technologies, Inc. Method and system for partitioning data into subsets of related data
US6662184B1 (en) * 1999-09-23 2003-12-09 International Business Machines Corporation Lock-free wild card search data structure and method
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US6789063B1 (en) * 2000-09-01 2004-09-07 Intel Corporation Acoustic modeling using a two-level decision tree in a speech recognition system
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US6845357B2 (en) * 2001-07-24 2005-01-18 Honeywell International Inc. Pattern recognition using an observable operator model
US6757651B2 (en) * 2001-08-28 2004-06-29 Intellisist, Llc Speech detection system and method
US20050228661A1 (en) * 2002-05-06 2005-10-13 Josep Prous Blancafort Voice recognition method
EP1387232A1 (fr) * 2002-07-29 2004-02-04 Centre National De La Recherche Scientifique Procédé de détermination de la valeur à donner à différents paramètres d'un système
US7571097B2 (en) * 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
GB2409750B (en) * 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique
US7542949B2 (en) * 2004-05-12 2009-06-02 Mitsubishi Electric Research Laboratories, Inc. Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US7805301B2 (en) * 2005-07-01 2010-09-28 Microsoft Corporation Covariance estimation for pattern recognition
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
JP5088030B2 (ja) * 2007-07-26 2012-12-05 ヤマハ株式会社 演奏音の類似度を評価する方法、装置およびプログラム
JP2010140383A (ja) * 2008-12-15 2010-06-24 Sony Corp 情報処理装置および方法、並びにプログラム
US20100185672A1 (en) * 2009-01-21 2010-07-22 Rising Iii Hawley K Techniques for spatial representation of data and browsing based on similarity
AU2011268376B2 (en) * 2010-06-16 2015-05-07 Yale University Forest inventory assessment using remote sensing data
US20140047089A1 (en) * 2012-08-10 2014-02-13 International Business Machines Corporation System and method for supervised network clustering
JP6246636B2 (ja) * 2014-03-20 2017-12-13 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
CN106297775B (zh) * 2015-06-02 2019-11-19 富泰华工业(深圳)有限公司 语音识别装置及方法
CN105096955B (zh) * 2015-09-06 2019-02-01 广东外语外贸大学 一种基于模型生长聚类的说话人快速识别方法及系统
US10482196B2 (en) * 2016-02-26 2019-11-19 Nvidia Corporation Modeling point cloud data using hierarchies of Gaussian mixture models
CN107293298B (zh) * 2016-04-05 2021-02-19 富泰华工业(深圳)有限公司 语音控制系统及方法
KR101902882B1 (ko) * 2016-07-14 2018-11-13 연세대학교 산학협력단 랜덤 트리 워크 알고리즘을 이용하여 삼차원 관상동맥 컴퓨터 단층촬영 혈관 조영 영상에서 관상동맥을 추적하기 위한 방법
US20210035025A1 (en) * 2019-07-29 2021-02-04 Oracle International Corporation Systems and methods for optimizing machine learning models by summarizing list characteristics based on multi-dimensional feature vectors
US11615428B1 (en) 2022-01-04 2023-03-28 Natural Capital Exchange, Inc. On-demand estimation of potential carbon credit production for a forested area

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2522154B2 (ja) * 1993-06-03 1996-08-07 日本電気株式会社 音声認識システム
US5528701A (en) * 1994-09-02 1996-06-18 Panasonic Technologies, Inc. Trie based method for indexing handwritten databases
CA2203649A1 (en) * 1994-10-26 1996-05-09 Jeffrey S. Sorensen Decision tree classifier designed using hidden markov models

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094257A (ja) * 2002-09-03 2004-03-25 Microsoft Corp 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP4499389B2 (ja) * 2002-09-03 2010-07-07 マイクロソフト コーポレーション 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US7788096B2 (en) 2002-09-03 2010-08-31 Microsoft Corporation Method and apparatus for generating decision tree questions for speech processing

Also Published As

Publication number Publication date
US5857169A (en) 1999-01-05
WO1997008686A2 (en) 1997-03-06
JP3948747B2 (ja) 2007-07-25
EP0788649A2 (en) 1997-08-13
EP0788649B1 (en) 2001-06-13
WO1997008686A3 (en) 1997-04-03
DE69613338T2 (de) 2002-05-29
DE69613338D1 (de) 2001-07-19

Similar Documents

Publication Publication Date Title
JP3948747B2 (ja) ツリー構成確率密度に基づくパターン認識の方法及びシステム
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US5729656A (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
JP3672573B2 (ja) 音声認識を目的とする動的に調整された習熟訓練のためのシステムと方法
US5199077A (en) Wordspotting for voice editing and indexing
US4741036A (en) Determination of phone weights for markov models in a speech recognition system
US5218668A (en) Keyword recognition system and method using template concantenation model
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
JPH0581918B2 (ja)
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
WO1998000834A9 (en) Method and system for dynamically adjusted training for speech recognition
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
Bocchieri et al. Discriminative feature selection for speech recognition
Ramabhadran et al. Acoustics-only based automatic phonetic baseform generation
Young et al. Spontaneous speech recognition for the credit card corpus using the HTK toolkit
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
Wu et al. Application of simultaneous decoding algorithms to automatic transcription of known and unknown words
Bush et al. Network-based connected digit recognition using vector quantization
Huang et al. Spellmode recognition based on vector quantization
Huggins et al. The use of shibboleth words for automatically classifying speakers by dialect
Georgila et al. Large Vocabulary Search Space Reduction Employing Directed Acyclic Word Graphs and Phonological Rules
EP1594120B1 (en) Method for building hidden Markov speech models
Adde A discriminative approach to pronunciation variation modeling in speech recognition
JPH0372996B2 (ja)
JP2000315095A (ja) 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060307

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060410

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060412

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060606

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060724

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20060818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070417

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110427

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120427

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140427

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term