JP3948747B2 - ツリー構成確率密度に基づくパターン認識の方法及びシステム - Google Patents

ツリー構成確率密度に基づくパターン認識の方法及びシステム Download PDF

Info

Publication number
JP3948747B2
JP3948747B2 JP51005797A JP51005797A JP3948747B2 JP 3948747 B2 JP3948747 B2 JP 3948747B2 JP 51005797 A JP51005797 A JP 51005797A JP 51005797 A JP51005797 A JP 51005797A JP 3948747 B2 JP3948747 B2 JP 3948747B2
Authority
JP
Japan
Prior art keywords
cluster
probability density
tree structure
tree
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP51005797A
Other languages
English (en)
Other versions
JPH10508392A (ja
Inventor
フランク ザイデ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JPH10508392A publication Critical patent/JPH10508392A/ja
Application granted granted Critical
Publication of JP3948747B2 publication Critical patent/JP3948747B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、連続的な物理量から得られる入力パターンを認識するための方法に関し、物理量アクセスし、この物理量から入力パターンを表す一連の入力観測ベクトルを生成し
複数の基準パターン中に入力パターンと対応する認識された基準パターンを配置し、少なくとも1個の基準パターンを一連の基準ユニットとし、各基準ユニットを基準確率密度の組中の少なくとも1個の関連する基準確率密度で表し、
基準確率密度の選択をツリー構造として表し、このツリー構造において各リーフノードが基準確率密度に対応すると共に非リーフノードがクラスタ確率密度に対応し、クラスタ確率密度は前記非リーフノードのブランチのリーフノードに対応する基準確率密度から得られ
前記配置を各入力観測ベクトル
Figure 0003948747
について行い、
前記ツリー構造について、対応するクラスタ確率密度が前記入力観測ベクトル
Figure 0003948747
について最適のクラスタ尤度を与える非リーフノードを介して検索することにより複数のリーフノードを選択し、
選択されたリーフノードに対応する各基準確率密度について前記入力観測ベクトル
Figure 0003948747
の観測尤度を計算して連続する物理量から取り出した入力パターンを認識する方法に関するものである。
また、本発明は、連続する物理量から取り出した時間順次する入力パターンを認識するシステムであって、
回帰的に物理量をアクセスし、入力パターンを表す入力観測ベクトル列を発生させる入力手段と、
基準確率密度の組を少なくともL=3の階層レベルを有するツリー構造として表すツリービィルダであって、前記ツリー構造においてツリーのレベル1の各リーフノードが基準確率密度に対応し、各非リーフノードがクラスタ確率密度に対応し、このクラスタ確率密度が非リーフノードよりも下位のブランチのリーフノードに対応する全ての基準確率密度から取り出されるツリービィルダと、
複数の基準パターンを記憶する基準パターンデータベースであって、少なくとも1個の基準パターンが基準ユニット列とされ、各基準ユニットが基準確率密度の組の少なくとも1個の関連する基準確率密度により表され、前記基準確率密度の選択がツリー構造として記憶される基準パターンデータベースと、
前記認識された入力パターンに対応する認識された基準パターンを前記基準パターンデータベースに記憶されている基準パターン中に配置するローカライザと、
認識されたパターンを出力する出力手段とを具え、
前記ローカライザが、各入力観測ベクトル
Figure 0003948747
について、
ルートノードよりも下位のレベルにおいて、前記観測ベクトル
Figure 0003948747
について対応するクラスタ確率密度が最適のクラスタ尤度を与える多数のノードを選択すると共に、ツリーの順次下位のレベルにおいて各選択されたノードをルートノードとして用いることにより選択されたノードがリーフノードとなるまでノード選択を繰り返すことにより、前記基準パターンデータベースに記憶されているツリー構造を検索し、
選択されたリーフノードに対応する各基準確率密度について、前記入力観測ベクトル
Figure 0003948747
の観測尤度を計算し、
前記基準パターンの基準ユニットを表す全ての基準確率密度について計算された観測尤度を組み合わせることにより、各基準パターンについてパターン類似スコアを計算し、
前記認識されたパターンを、パターン類似スコアの最適度が計算された基準パターンとして配置する入力パターン認識システムに関するものである。
音声や画像のような連続する物理量から取り出された時間順次する入力パターンの認識の重要性が増大している。特に、音声認識は電話音声認識遠隔通信(種々の自動化されたサービィス)、オフィス及びビジネスシステム(データエントリ)、製造(製造工程における手を使わない監視)、医療(リポートの注釈の添付)、ゲーム(音声入力)、自動車機能の音声制御及び障害者により用いられる音声制御のような分野において近年広く用いられている。連続する音声認識の場合、L.Rabiner著、「ア チュトリアル オン ハイデンマルコフ モデルス アンド セレクテッド アプリケーションズ イン スピーチリコグニション」,プリシーディングス オブ IEEE,第77巻,No2 1989年2月の第1図に示すように、以下の信号処理工程が通常用いられている。
特徴分析:音声入力信号をスペクトル及び/又は時間分析して特徴の代表ベクトル
Figure 0003948747
を計算する。典型的な場合、音声信号はデジタル化(例えば、6.67kHzのレートでサンプルされる)され、例えば高域強調を適用することにより予備処理される。順次のサンプルは、例えば32m秒の音声信号に対応するフレームにグループ化(ブロック化)される。順次のフレームは例えば16m秒で部分的にオーバラップしている。しばしば、リニア プレディクティブ コーディング(LPC)スペクトラル分析方法が用いられて各フレームについて特徴の代表ベクトル
Figure 0003948747
が計算されている。この特徴ベクトルは例えば24、32又は63個の成分(特徴空間ディメンション)を有することができる。
ユニット整合システム:観測ベクトルは音声認識ユニットの目録に整合される。種々の形態の音声認識ユニットを用いることができる。あるシステムは、単音、二重音声又は音節、及びフェネン(fenene)及びフェノン(fenone)のような派生的なユニットのような言語学的に基準化されたサブワードユニットを用いている。別のシステムは、ワード全体又はワードのグループをユニットとして用いている。音声信号を確率的にモデル化するため所謂隠れマルコフモデル(HMM)が広く用いられている。このモデルを用いると、各ユニットは、パラメータが音声データのトレーニングセットから推定されるHMMにより通常は特徴化される。例えば10000から60000ワードを含む大きな語彙音声認識システムの場合、より多くのユニットについてHMMを適切にトレーニングするために多数のトレーニングデータが必要であるので、制限された組の例えば40個のサブワードユニットが通常用いられている。ユニット整合システムは観測ベクトルを音声認識ユニットの全てのシーケンスに整合させ、ベクトルとシーケンスとの間の整合に関する尤度を与える。例えば以下のようにして整合に制約を課すことができる。
・語彙的なデコーディング:サブワードユニットを用いる場合、発音語彙は、サブワードユニットのワードがどのように構成されるかを表示する。ユニット整合システムにより検討したサブワードユニットの取りうるシーケンスが語彙のシーケンスに対して制約される
・構文法分析:ユニット整合システムに制約を課し、検討した経路が、ワードを構成し(語彙的デコーディング)ワードがワード文法により特定される適切な順序にある音声ユニットに対応する経路となるようにする。
離散的なマルコフプロセスは、いかなる時においてもN個の識別される状態にある組の1つにおけるシステムについて説明している。このシステムは、規則的な時間で状態と関連する確率の組により状態を変更している。離散的なマルコフプロセスの特別な形態が上記文献の第2図に示されている。この所謂左右モデルにおいて、状態は左から右に続いている(又は同一にとどまる)。この方法は、信号の特性が時間に対して変化する音声をモデル化するため広く用いられている。モデル状態は音を表すものとして観測することができる。サブワードユニットとしてのモデルの状態の数は、例えば5又は6個とすることができる。この場合、平均的には状態は観測期間に対応する。上記第2図のモデルの場合状態は同一にとどまることができ、これはゆっくり話すことと関連する。或いは、状態をスキップすることができ、これは速く話すことと関連する(第2図において、平均レートの2倍まで)。離散的なマルコフプロセスの出力は各時間瞬時の状態の組であり、各状態は観測可能な事象に対応している。音声認識システムの場合、離散的なマルコフプロセス概念は、観測が状態の確率関数となる場合まで拡張される。これにより二重確率過程が生ずる。状態変化の確率過程は隠れており(隠れマルコフモデル、HMM)、観測順序を発生する確率過程を介してのみ観測される。
音声の場合、観測は連続する信号を表す。この観測は、例えば32から256個のベクトルから成る有限のアルファベットから選択される離散的な記号に量子化することができる。この場合、モデルの各状態について離散確率密度を用いることができる。量子化と関連する劣化を回避するため、多くの音声認識システムは連続混合密度を用いている。一般的に、この密度はガアウシアン密度(正規分布)又はラプラシアン密度のような対数へこみ密度又は楕円対称密度から取り出される。トレーニング中、トレーニングデータ(トレーニング観測シーケンス)は初期モデルを用いて複数の状態にセグメント化される。これにより、各状態に対してトレーニング観測ベクトル又は基準ベクトルと称される一組の観測が与えられる。次に、各状態についての基準ベクトルがクラスタ化される。システムの複雑さ及びトレーニングデータの量に応じて、各状態について例えば32から120個の要素クラスタが発生する各要素クラスタは基準確率密度と称するそれ自身の確率密度を有する。結果として生じる状態についての混合密度は、状態についての基準確率密度の重み付けされた和となる。
音声信号(観測シーケンス)から単一の音声認識ユニット(例えば、ワード又はサブワードユニット)を認識するため、観測シーケンスを発生した各音声認識ユニットについて尤度を計算する。最大尤度を有する音声認識を選択する。より多くの観測シーケンスを認識するため、レベル分けされた手法が用いられる。第1のレベルからスタートして前述した尤度を計算する。モデルの最後の状態に到達した時はいつでも、より高いレベルに切り換え、残りの観測について同一の処理を繰り返す。最後の観測が処理されると、最大尤度を有する経路が選択されこの経路を戻って含まれている音声認識ユニットのシーケンスが決定される。
尤度計算は、各状態においてその状態の各基準確率密度についての観測(特徴ベクトル)の尤度を計算することを含んでいる。特に、例えば40個のサブワードユニット、サブワード当たり5個の状態並びに状態当たり64個のクラスタを有する連続する観測密度HMMを用いる多くの語彙音声認識システムにおいて、上記計算は例えば32個の次元ベクトルについて12800個の尤度計算を含んでいる。これらの計算は各観測ベクトルについて繰り返される。従って、この尤度計算は、計算資源全体の50〜75%を占めてしまう。
ツリー構造を用いツリー検索を利用して基準確率密度を構築することにより尤度計算に必要な時間の割合を低減することは、欧州特許出願公開第627 726号から既知である。ツリーの最下位レベル(レベル1)においてリーフノードの各々が実際の基準確率密度に対応する。前述したように、基準確率密度は基準ベクトルの要素クラスタを表す。ツリーのレベル2において、各非リーフノードはクラスタ確率密度に対応し、このクラスタ確率密度は非リーフノードよりも下位のブランチのリーフノードに対応する全ての基準確率密度から取り出される。斯かるレベル2において非リーフノードは基準ベクトルのクラスタを表す。この階層的なクラスタ化は、ツリーの最上位において1個の非リーフノード(ルートノード)が全ての基準ベクトルを表すまで、順次高くなるレベルについて繰り返す。パターン認識中に、各入力観測ベクトルについてツリー検索をルートノードの1レベル下位のレベルから開始する。このレベルで各ノードに対して、対応するクラスタ確率密度を用いて観測ベクトルの尤度を計算する。最大の尤度を有する1個又はそれ以上のノードを選択する。これらのノードについて同一の処理を1レベル下位までで繰り返す。このようにして、最終的に対応する基準確率密度を用いて観測ベクトルの尤度が計算された多数のノードが選択される。選択されなかった各リーフノードについて、その尤度が最後に選択した親ノードの尤度により近似される。
本発明の目的は、冒頭部で述べた形式の方法及びシステムを改善することにある。
この目的を達成するため、本発明の方法は、各基準ユニットと関連する基準確率密度を個別のツリー構造として表し、
前記配置が、各個別のツリー構造について前記検索を行うことにより各個別のツリー構造のリーフノードを選択することを含むことを特徴とする。
全ての基準ベクトルを1個のツリーに組み込む代わりに、各基準ユニット毎に複数の個別のツリーを構築する。その結果、N1個の基準パターン(例えば、HMM)が存在し各々がN2個の基準ユニット(状態)を有する場合、N1×N2個のツリーが構築され各観測ベクトルについて検索が行われる。既知のシステムにおいて基準確率密度の比較的少ない部分集合が選択された場合、要素クラスタの対応する組は「近い」観測ベクトルである基準ベクトル(音声)により支配される。本発明者は、こうして選択されるのに十分近くないが尤度計算にある重要な貢献が無い程遠く離れてはいない程度関連する基準ベクトルの多数のグループが存在することを確立した。これは、1個の観測ベクトルについてこのグループの基準ベクトルが極めて良好に整合していないが、この基準ベクトルが表す基準パターンが観測ベクトルの全体のシーケンスについて極めて良好に整合することを意味する。従って、このグループの基準ベクトル間で識別できることが重要である。既知のシステムにおいては、このグループの全ての基準ベクトルについてその尤度は、それらが一員であり、かつ、尤度が計算された最下位のブランチの尤度により近似されている。これは、同一の選択されなかったブランチの基準ベクトルにより表される同様な音声を識別することができず、認識の低下が生じてしまう。本発明者は、より正確な認識を行うためには別の識別方法が必要であるとの結論に達した。これは、複数のツリーを用いることにより達成される。パターン全体を認識する場合、各観測ベクトルについてHMM状態に整合させる観測の尤度を計算する必要がある(及び全体の尤度は累積される必要がある)。これは、各状態について少なくとも1個の基準確率密度が含まれる必要がある(好ましくは、この基準確率密度がその状態についての最高の尤度を与える)ことを意味する。既知のシステムにおいてこれを達成するためには、選択された集合を比較的大きくする必要がある。本発明では、各状態毎に個別のツリーを用い、各状態に少なくとも1個の代表的な基準確率密度を含ませることを確実にする。この結果、高精度の認識を行うために必要な選択されたリーフの組が相当減少する。これにより、最大尤度計算に必要な処理時間が短くなる。
本発明の別の形態として、本発明の方法は、非リーフノードを介してツリー構造を検索することが、ツリー構造の少なくとも1個のレベルにおいて、前記クラスタ尤度の最適値が計算される非リーフノードを介する経路を検索することを含み、前記クラスタ尤度が前記最適のクラスタ尤度の予め定めた範囲内にある非リーフノードを介する経路により補完されることを特徴とする。ツリーにおける各レベルにおいてサブセットが1つだけか又は複数かを決定するために、範囲(閾値)が使用される。ツリーの各レベルにおいて、最高の尤度を有する部分集合(観測ベクトルに最も近い)を決定する。別の部分集合が最高の尤度と同様な尤度を有している場合(すなわち、最高の尤度と他の部分集合の尤度との間の差異が閾値以下の場合)、この別の部分集合についてさらに計算する。このようにして、ツリーのレベル1で最終的に選択された基準確率密度の数がダイナミックに決定される。これは、ある観測ベクトルについて少ない数の基準確率密度が比較的高い尤度を与える場合部分集合が小さくなることが起きやすい利点がある。その場合、観測ベクトルに整合する少ない数の良好な候補だけが存在する場合、一般認識が高速になる。一方、ある観測ベクトルについて多数の基準確率密度が同様な比較的高い尤度を与える場合、部分集合が大きくなりやすい。そのため、観測ベクトルと整合する多数の良好な候補が存在する場合、一般認識一層識別性が高くなり、精度が高くなる。
本発明の別の形態として、本発明の方法は、ツリー構造を、各非リーフノードが4個のノードの最大よりも階層的に1レベル上位にされ、少なくとも1個の非リーフノードが階層的に4個のノードよりも1レベル上位にされている四進ツリーとしたことを特徴とする。原理的に、ツリーの各非リーフノードに多数のブランチを有するツリー構造を用いる場合、認識精度は改善される。この場合、クラスタへの分割は一層正確になり選択されるべき正しいクラスタへの的中が一層高くなる。一方、計算量は、ブランチの量が増大すると増大し、認識の性能が低下する。本発明者は、典型的な大きな語彙音声認識システムについて4進ツリーが精度と性能との間で良好なバランスを発揮することを確立した。
本発明の別の形態として、本発明の方法は、非リーフノードを介するツリー構造の検索ツリー構造の同一のブランチ内の同一のレベルの一群の非リーフノードに対して
選択した非リーフノードの対について、2個の対応するクラスタ確率密度と前記入力観測ベクトル
Figure 0003948747
との間のクラスタ比較スコアを計算し、前記クラスタ比較スコアが2個の対応するクラスタ確率密度のいずれかが入力観測ベクトル
Figure 0003948747
の最高の尤度を与えるかを指示し、
以前に算出されたクラスタ比較スコアが最高の尤度を示す非リーフノードに対するクラスタ比較スコアと、未だクラスタ比較スコアが算出されていないグループの他の非リーフノードに対するクラスタ比較スコアとを、前記グループのすべての非リーフノードについてクラスタ比較スコアが計算されるまで繰り返し算出し、
前記クラスタ比較スコアが最高の尤度を指示する非リーフノードを介する経路を前記検索に含ませることを特徴とする。
各非リーフノードに対して算出されるクラスタ尤度は、ツリーの最低レベルにおいて多数のリーフノードを選択するためにのみ使用される。これらのリーフに対して、パターン認識のために対応する基準確率密度が使用される。これは、クラスタ尤度を完全に計算する代わりに、クラスタの組の間での尤度の差を計算することを可能にする。特定の密度においては、完全な尤度計算より比較計算の方が簡単であるので、これは、どのクラスタが最も起こりやすいかを迅速に決定することを可能にする。
本発明の別の形態として、本発明の方法は、既知の入力パターンを表す一連のトレーニング観測ベクトルから前記確率密度が取り出され、前記基準確率密度の組をツリー構造として表す工程が、前記トレーニング観測ベクトルをクラスタの階層的な組にクラスタ化すること、及び各クラスタについてクラスタ確率密度を計算することを含む方法において、
前記基準確率密度の組をツリー構造として表す前記工程が、
前記一連のトレーニング観測ベクトルを、対応する基準パターン及び対応する基準ユニット列にセグメント化し、
反復的に:
各基準ユニットについて、対応するトレーニング観測ベクトルをクラスタの階層的な組にクラスタ化して、各々が個別の基準ユニットに対応する独立したツリー構造を形成し、
各トレーニング観測ベクトルについて、予め定めた最適基準に基づいて最も類似する対応する基準ユニットを決定する事と、最適なクラスタ尤度を有するクラスタについて対応する基準ユニットのツリー構造を検索して前記クラスタの1つに各トレーニング観測ベクトルを割り当てる事とにより前記基準ユニット列に基づいて前記トレーニング観測ベクトル列を時間整合させることを有することを特徴とする。
トレーニング期間中にクラスタ化を行い、結果として密度パラメータを推定すると共にトレーニング観測ベクトルを基準ユニットに割り当てることが起きる。これらの操作は反復するように行う。本発明では、このようにして各基準ユニットについて個別のツリー構造を構築する。本発明者は、ツリー構築作業を反復的な処理に一体化することによりパターン認識の精度を改善することを確立した。さらに、トレーニング観測ベクトルは反復中に基準ユニットに再割当てされ、従って適切なクラスタに再割当てされる必要があるので、部分的に構築されたツリーを利用して最も適切なクラスタを決定することによりシステムのトレーニングに必要な時間が大幅に減少することが判明した。
本発明の目的を達成するため、本発明のシステムは、ツリービィルダが、各基準ユニットについて関連する基準確率密度を個別のツリー構造として表すものとして想定され、
前記基準パターンデータベースが、各基準ユニットについて前記個別のツリー構造をさらに記憶し、
前記配置が、各個別のツリー構造についての検索を行うことにより各個別のツリー構造のリーフノードを選択することを含むことを特徴とする。
以下図面を参照して本発明を詳細に説明する。
以下添付図面に基づき本発明を説明する。
図1は連続する音声認識に通常用いられる処理工程を示す。
図2は左右離散的なマルコフ処理の一例を示す。
図3は本発明によるシステムの一実施例のブロック線図である。
図4はツリー構成された確率密度を示す。
図5は4個のリーフを有する二進ツリーの2次元セル境界を示す。
図6は反復トレーニング処理のフロー線図を示す。
図3は、音声又は画像のような連続する物理量から取り出した時間順次する入力パターン20を認識する本発明によるシステム10のブロック線図を示す。入力手段30は物理量を繰り返しアクセスする。音声の場合、これは、通常6.67kHz又は16kHzのような規則的な間隔で物理量をサンプリングすること及びサンプルをデジタル化することを含む。この入力手段30は例えば音声信号の32m秒に対応する連続的なサンプル群を処理して特徴の代表ベクトル
Figure 0003948747
を発生する。このようにして、入力パターンを表す入力観測ベクトルの時間シーケンスが発生する。典型的には、入力手段30はマイクロホン、A/D変換器及びディジタル シグナル プロセッサ(DSP)のようなプロセッサを用いて構成することができる。選択的に、入力手段30は、音声が有効に受信された時だけサンプリングを行う音声検出器で構成することができる。入力信号をサンプリングしデジタル化する変形例として、音声信号をデジタル化された形態でメモリに記憶し又は通信ネットワークを介してデジタルで供給することができる。基準パターンデータベース40用いて基準パターンを記憶する。この基準パターンデータベース40はハードディスク、ROM又はAMのようなメモリに一体化されたデータベースとして又は個別のデータファイルとして記憶することができる。前述したように、音声認識ユニットは音声を認識する基準パターンとして用いる。各基準パターンは一連の基準ユニットを含むことができる。各基準ユニットは少なくとも1個の関連付けられた基準確率密度により表される。隠れマルコフモデルに基づくパターン認識を用いれば、各基準パターンは隠れマルコフモデルによりモデル化され、このモデルの状態は基準ユニットに対応する。連続観測密度を用いることにより、基準確率密度は通常ガウシアン密度又はラプラシアン密度となる。勿論、ある状態の隠れマルコフモデルを用いて言葉の前又は言葉の間に生ずる無音のパターンのような鮮明な時間順次挙動を有しない特別なパターンをモデル化することは既知であることに留意されたい。本発明の目的のためには、このようなパターンを別個に表すものではない。このようなパターンを本発明のシステムにいかにして一体化するかは当業者にとって明らかであろう
このシステム10はさらに、基準ユニットに対応する基準確率密度をツリー構造内に構成するツリービィルダ60も具える。これは各基準ユニット毎に繰り返す。このツリー構造は基準パターンデータベース40に記憶する。ツリー構造の各リーフノードは基準確率密度に対応する。このツリー構造の詳細及びその(構造の)構築は後述することにする。ツリービィルダはDSP又はマイクロプロセッサを用いて構成することができる。有利にはツリーはシステムのトレーニング中に予め構築する。
このシステム10はさらに、入力パターンに対応する基準パターンを基準パターンデータベース40に配置するローカライザ50も具える。ローカライザ50はDSP又はマイクロプロセッサを用いて構成することができる。配置された基準パターンは認識された基準パターンとして参照される。ローカライザ50は、最下位のツリーレベルにおいて多数のリーフノードが選択されるまで基準ユニットに対応するツリー構造を各観測ベクトル毎にサーチすることにより配置を行うことができる。選択されたリーフノードについて、ローカライザ50は、この基準ユニットに観測ベクトルがいかに良好に整合するかを決定する。この決定は、各選択されたリーフノードについて、そのリーフノードに対応する基準確率密度を用いて観測ベクトルについての観測尤度を計算することを含む。各基準ユニットについて、ある観測ベクトルについて計算された観測尤度を組み合わせて基準ユニット類似スコアを与える。各基準パターンについて、基準パターンに対応する、基準ユニットの基準ユニット類似スコアを組み合わせてパターン類似スコアを形成する。これは、順次の観測ベクトルについて繰り返す。パターン類似スコアについて最高尤度のような最良のものが計算された基準パターンを認識されたパターンとして配置する。この説明は基準確率密度の配置及び観測尤度の計算に焦点を合わせている。この分野において、この鍵となる要素が、隠れマルコフモデルのような他の技術との関連においてどのように用いられて連続する物理量から取り出された時間順次パターンを認識できるかは良好に理解される。この分野において、レベル分けされた手法のような技術を用いて基準パターンよりも大きな観測ベクトルシーケンスを有するパターンをいかにして認識するかも良好に理解される。例えば、サブワードユニットを基準パターンとしていかに用いてワード又は文章全体を認識するかは既知である。発音語義及び文法のような別の制約がどのようにパターン認識に課されるかも良好に理解される。発音語義のような別の情報は基準パターンデータベースを記憶するために用いたメモリと同一のメモリを用いて記憶することができる。
出力手段70を用いて認識されたパターンを出力する。この出力手段は、認識されたパターンをスクリーン上にテキストフォーマットとして表示し、認識されたパターンをメモリに記憶し、又は認識されたパターンをコマンドのような入力して用いて次の処理動作を行うような種々の形態をとることができる。
隠れマルコフモデルを用いる場合、各隠れマルコフモデル及び各モデルの状態sについて観測ベクトル
Figure 0003948747
尤度は次式により与えられる。
Figure 0003948747
ここで、wkはk番目の観測混合密度(クラスタ)の重みであり、Nは状態に対するクラスタの番号である。簡単にするため、状態インデックスsは上記式中に表示されていない。音声認識システムは通常ラプラシァン又はガウシアン確率密度を用いてクラスタの確率分布をモデル化する。Lr ノルムを用いると、以下のように規定されている。
Figure 0003948747
ここで、ラプラシァン確率密度のためにL1 ノルム(距離)を用い、ガウシアン確率密度のためにL2 ノルムを用い、確率について取り得る式として次式がえられる。
Figure 0003948747
ここで、基準ベクトル
Figure 0003948747
はk番目の観測混合密度の平均ベクトルである。係数a及びbは観測ベクトル
Figure 0003948747
が全ての取り得る値を取る場合、確率が1まで積分されるようにする。Lr ノルム以外の他の距離基準を用いることもできる。上記式に対して種々の形態のもの又は拡張したものが既知である。一例として、以下の3個の型式の多変量ガウシアン密度が与えられる。
Figure 0003948747
この式において、sは隠れマルコフモデル状態に対するインデックスであり、kはこの状態内の密度(基準ベクトル)に対するインデックスである。
スケーリングを用いて、項がプロセッサの精度範囲以下となるのを防止し密度の分散に基づきベクトルを正規化することができる。有利には対角共分散行列をこれらが結合される(tied)ように用いれば(状態依存共分散行列s,k=Ks、又はグランド共分散行列s,k=Kとなるように)、観測ベクトル
Figure 0003948747
及び平均ベクトル
Figure 0003948747
は、尤度計算される前にスケールされることになる。スケーリングはこの技術分野において周知である。有利には、基準ベクトルは予めスケール化され、観測ベクトルは実際の尤度計算が開始する前に1回スケール化されるだけである。
密度の性質により、確率の和は最大値により、すなわち最大確率に寄与する密度により近似することができる。これは、入力パターンに対応する基準パターンの配置における重要な工程は、最も近い観測ベクトルである基準ベクトルを見い出すことである(最も近い隣接する検索)。ここで、‘距離’は尤度の負の対数として規定される。
Figure 0003948747
負の対数をとることにより、この式は以下のようになる。
Figure 0003948747
変量正規密度の場合、この式は以下のようになる。
Figure 0003948747
ツリー構造
例えば40個のサブワードユニットを用いる場合、サブワードユニット当たりの5個の状態及び状態当たりの64個の要素クラスタ(各々が関連する基準確率密度により表わされる)は、例えば32個の次元ベクトルを含む12800個の尤度計算を意味する。これらの計算は各観測毎に繰り返す。全ての尤度を完全に計算する代わりに、ツリー構造を用いて尤度が完全に計算される基準確率密度の部分集合を選択する。ツリー構造は各状態(state)毎に構築する。本例では、これは200個(40×5)のツリーを含み、各ツリーは状態に対して混合密度を形成する64個の基準確率密度をそれぞれ有する。N個の要素クラス及び関連する基準確率密度(例えば、Nは32,64,128又は256とする)はこの特徴ベクトル空間をN個のセルに分割する(実際には、密度の分散が多変化する場合、N個以上のセルが存在することがある。式はこれを黙示的に処理する。)後で詳細に説明するように、基準確率密度はトレーニング観測ベクトルから取り出される。基準確率密度は1個のトレーニング観測ベクトルだけでなく複数のトレーニング観測ベクトルの要素クラスタを表わすことも理解されたい。トレーニング観測ベクトルが1個だけしか含まれない場合でさえ、これは要素クラスタと称する。
N個のセルはLレベルを有するB分木ツリー構造に構築する。Bは各ノードにおける最大数のブランチを示す。有利にはN=B L の場合、完全に平衡したツリーが用いられる。実際には、トレーニング中あるクラスタ及び関連する基準確率密度陳腐化したものになる場合がある。結果として、ツリーのあるリーフ又はブランチであっても、このツリーから除去される。トップレベルLにおいて、ルートノードはセルの全体の集合を表わす。これらのセルはB個の部分集合(クラスタとも称する)に分割され、各部分集合はN/B個のセル(又は、NがBの累乗でない場合、それ以下)を有する。各クラスタはレベルL−1の中間ノード(非リーフノード)により表される。その順序でこれらクラスタの各々は再びB個のサブクラスタ(あるブランチが陳腐化した場合それ以下)に分割され、各部分集合はレベルL−2の中間ノードにより表される。このサブクラスタへの分割は、最低レベル(レベル1)において各ノードがトレーニング観測ベクトルの1個の要素クラスタを表すまで繰り返す。各要素クラスタと関連するものは、トレーニング観測ベクトルのクラスタから取り出された基準確率密度である。ガウシアン密度を用いれば、各基準確率密度は平均ベクトル
Figure 0003948747
及び共分散行列i(クラスタについて混合重み付けwiを用いる)で表されることができるツリーのレベル2又はこれよりも高いレベルのノードに対応するクラスタはクラスタ確率密度と関連する。このクラスタ確率密度は全ての要素クラスタを表し、これら要素クラスタはノードの下のブランチに階層的に存在する。このように、クラスタ確率密度は要素クラスタと関連する基準確率密度から取り出すことができる。この機構は、より高位のレベル全てに対して繰り返される。
図4は16個の平均ベクトル
Figure 0003948747
により表される16個の基準確率密度の混合を示すツリー構造を説明するツリーのレベル1のリーフノードd16....d31の各々は基準確率密度及び関連する要素クラスタの1つに対応する。レベル2の中間ノードd8...d15はそれぞれ2個のサブクラスタを有するクラスタを表す。一例として、ノードd8ノードd16及びd17の親ノードである。このノードd8はd16及びd17により表される2個のクラスタのトレーニング観測ベクトルを有するクラスタを表す。ノードd8に対応するクラスタ確率密度は平均ベクトル
Figure 0003948747
により表される。このクラスタ確率密度は
Figure 0003948747
により表される2個の基準確率密度から取り出される。同様に、d4はd8及びd9により表される2個のクラスタのトレーニング観測ベクトルを有するクラスタを表し、従って、d4はd16、d17、d18及びd19により表される4個のクラスタのトレーニング観測ベクトルを有するクラスタを表す。d4に対応するクラスタ確率密度は平均ベクトル
Figure 0003948747
により表される。このクラスタ確率密度はクラスタ確率密度
Figure 0003948747
から取り出され、すなわち、
Figure 0003948747
により表される基準確率密度から取り出される。勿論
Figure 0003948747
により表されるクラスタ基準確率密度を用いて、
Figure 0003948747
で表される基準確率密度の組に観測ベクトル
Figure 0003948747
について高い尤度を与える基準確率密度の部分集合を配置する。ガウシアン密度の場合、平均ベクトル
Figure 0003948747
は、以下の方法で重み付けされた平均を計算することにより基準確率密度の平均ベクトル
Figure 0003948747
から取り出すことができる。
Figure 0003948747
ここで、M1は、ノードdiにより表わされる部分集合中の基準ベクトルの数である。
Figure 0003948747
により表される各確率密度についての対応する共分散行列iは以下の式で与えられる。
Figure 0003948747
ツリーの構築
各状態について、確率密度の混合を音響トレーニング中に決定する。トレーニングデータ(トレーニング観測ベクトル又は基準ベクトル)の初期セットを用いていかにして適切なモデルを構成するか(例えば、基準ユニットのシーケンスを決定する)及びパターン認識用の観測ベクトルを如何にしてクラスタ化するかは周知である。各クラスタは平均ベクトル及び分散により表わされるクラスタ確率密度と関連する。また、トレーニングを利用してすでにトレーニングされたをどのように改善するかも既知である。典型的なものとして、周知のk平均クラスタ法を用いてトレーニング観測ベクトルをクラスタ化する。L.ラビナ“ファンダメンタルズ オブ スピーチ リコグニション”プレンティスホール、セクション3.4.4を参照されたい。有利には、このクラスタ法は、クラスタ化(clustering)を記憶することにより(各クラスタ毎に、1レベル低いどの子クラスを含むか)ツリー構造を構築するように構成されている。このように、トレーニング中に各状態についてツリー構造が構築される。一例として、二進ツリー構造は以下のようにして構成することができる。
1.トレーニング観測ベクトルの全体の組についての平均ベクトル(重心)
Figure 0003948747
及び分散を持つ1つの密度を決定する。平均ベクトル
Figure 0003948747
は全てのトレーニング観測ベクトルの平均である。
2.
Figure 0003948747
の基準により2個の新しい重心
Figure 0003948747
(及び分散)を決定することにより、上記密度を2個の密度に分割する。ここで、
Figure 0003948747
は典型的には次数1.0の要素を有する分割ベクトルである。
3.各トレーニング観測ベクトルについて、2個の密度のうちいずれの密度がトレーニング観測ベクトルに最も類似しているかを決定し、この密度にトレーニング観測ベクトルを割り当てる。このようにして、2個のクラスタが形成される。
4.2個のクラスの密度(重心及び分散を再計算する。
5.繰り返し:顕著な改善にそれ以上は達しない場合又は予め定めた数の反復を行なった場合のような停止基準に達するまで工程3及び4を繰り返す。
6.繰り返し:所望の数のツリーレベルに到達するまで、ツリー中の1レベル低い各クラスタについて工程2〜5を繰り返す。
工程6おいて、2個のクラスタ間で決定された境界をより低いレベルに維持することにより(したがってツリーのブランチに割り当てられたベクトルが、1レベル低いサブクラスタの形成中に再割当てされない)、二進ツリーが構成される。このツリーのレベルを除外することにより、4分木のような2の累乗のブランチ因子を有する別のツリー構造を構成することができる。工程2の分割を適切に変化させることにより別のブランチ因子を有するツリーをどのようにして構成するかは明らかである。クラスタ化の説明はプールされた(pooled)分散行列フォーカスをあてる。別の共分散行列を有する密度を用いていかにしてクラスタ化するかは周知である。
ツリー検索
ツリー検索は、ルートノードよりも低いレベル(レベルL−1)で開始し、レベル1の少なくとも1個の基準確率密度(及び対応する要素クラスタ)が配置されるまで行う。レベルL−1の非リーフノードそれぞれについて、非リーフノードにより表される基準確率密度の部分集合により観測ベクトル
Figure 0003948747
が作成される尤度を、非リーフノードに対応するクラスタ確率密度を用いて計算する。一例として、密度は式(a)により与えることができ、平均ベクトル
Figure 0003948747
についてクラスタ確率密度を表す平均ベクトルをとる。最も大きな尤度が得られたブランチが追加的な検索のため選択される。或いは、規定された基準に基いて1個以上のブランチを選択することができる。選択されたブランチに対しツリーにおいて1レベル低いレベルで同一の処理を繰り返す。このようにして、ツリーのレベルにおいて少なくとも1個の基準確率密度の部分集合が配置される。配置された部分集合について、観測ベクトル
Figure 0003948747
の尤度が部分集合の各基準確率密度について計算される。前述したように、実際のパターン認識の場合、計算された尤度は維持され、基準パターン毎に組み合わされると共に次の観測ベクトルについて計算された尤度と結合される。
検索中ツリーのトップレベルは用いられないので、このツリーは少なくともL=3個のレベルを有すると理解されたい完全なバランスについてこの検索手法を用いれば、全部でL=logB(N)のレベルがチェックされることが必要となり、各ツリーレベルについてB回の尤度計算が必要となる。ツリーの各レベルにおいて1個のブランチが選択されれば、選択されたブランチはツリーを通過するための付加的なオーバヘッドと共に全部でBlogB(N)回の計算を与える。これは、全てのN個のセルの尤度を計算することより優れているツリー検索の欠点は、観測ベクトルについて最も高い尤度を与える基準確率密度が常時配置されることが保証されないことである(平均的中割合は100%以下である)。これを図5に示し、図5は4個のリーフ(d4〜d7)を有する二進ツリーについてのセル境界の2次元例を与える。この図5は、トップレベル(レベル3)及びレベル2でのクラスタ化の結果として達成されたセル境界を示す。このクラスタ化は、太いラインにより示すセル境界により分離された4個のセルを与える。セルへの最敵な分割はトップレベル境界から部分的に偏位した細い境界線により示される(このツリーの第2レベルでの割当ては正確である)。ドットが打たれた領域は、ミスアサインされた領域を示す。
この方法をフィリップス 自動タイムテーブル 情報システムAISで試験した。
この話者独立認識システムは40個の隠れマルコフモデルを用い。これらのモデルは6個の状態を用いて文脈に依存しない音素をそれぞれモデル化する。連続混合密度を用いる。認識語彙は1850個のエントリを有する。トレーニング及び試験コーパスはドイツ語の実生活のトレーニングスケジュール照合で構成する(電話回線で記録した自然発声)。このシステムは7.3時間の音声(そのうち47%は無音としてラベル化されている)を表す8793個の発声についてトレーニングが行われた。この試験コーパスは全体とし7078個発声語になる2278個の発声(1.5時間の音声)で構成され、その224個は用語の範囲外である。以下のテーブルは、64個のリーフを有するツリー(6分割)を用いて達成された結果を示す。全部で40個の隠れマルコフモデル全部を用いて40個のサブワードユニットをモデル化した。各モデルは6個の状態を有する。6個の状態について、3個の異なる混合を用い、連続する2つの状態は同一の混合を共有する(状態1及び2、状態3及び4、状態5及び6)。各混合は64個の密度で構成される。付加的に、1個の状態だけを有する特別のモデルを用いて無音をモデル化した。これは、原理的に(40×3+1)×64=7744個の密度を与える。トレーニング中数個の密度は陳腐化したものとして識別され、ツリーから一掃され実際には全体として約7600個の密度を用いた。このテーブルは、二進ツリーを与えるB=2から平坦なツリーを与え事実上の完全サーチとなるB=64の範囲の種々のブランチィング係数について達成された結果を示す。ツリー中の各レベルにおいて1個のブランチだけを選択した。
Figure 0003948747
このテーブルにおいて、Neffはこのモデルの各状態について平均的に計算された距離の数を示す。勿論、トレーニング中に数個の基準ベクトルが一掃されたので、Neffは平均としてツリーの数よりも僅かに小さくなり、それぞれ12、12、16、20及び64である。この的中確率は、全検索及びツリー検索が同一の基準ベクトルを観測ベクトルに最も近いものとして配置する回数の割合を示す。ワー エラー レート(WER)は発声された語が正しく認識されなかった回数割合を示す。これは、置換(ある語を別の語として誤って認識すること)、挿入(長い語を短い語の列と誤って識別すること)及び削除(短い語の列を長い語として誤って識別すること)を含む。
種々の形式のツリーについて、以下の計算作業が必要である。
Figure 0003948747
結果として、二進ツリーに必要な計算作業は四進ツリーについて必要な計算作業と同一である。以前のテーブルは、四進ツリーが二進ツリーよりも良好な結果を与えることを既に示している(四進ツリーより少ない数のブランチィングレベルを持ち、全体としてより長い距離の計算が生じ、より高い精度の結果が与えられる)。従って、四進ツリー構造を用いることが有益である。勿論、より多くのブランチを有する、例えばB=8又はB=16であるツリー構造を用いることにより、同じ理由から一層良好な結果が与えられる。一方、計算作業の増大により、多くのブランチの代わりにより多くのノードを有する四進ツリーを用いるのが有益である。これを以下のテーブルに図示する。
Figure 0003948747
このテーブルは、より多くの密度を用いることに一層良好な結果(ワード エラー レートがより低くなる)が得られることを示す。四進ツリー(B=4)を用いる128個及び256個のノードについての結果をB=8で64個のノードを有するツリーを用いることにより得られた結果(過去のテーブル)と比較することにより、より多くの密度を用いる四進ツリーはより少ないか又は同一の計算作業で一層良好な結果が得られること明らかである。
このテーブルは、密度の数が多くなると的中確率が低くなることも示している。的中確率は、ツリーの数個又は全てのレベルにおいて丁度1個以上のブランチを選択することにより改善することができる。これを実行する1の方法は、例えば四進ツリーにおいて各レベルにおいて2個のブランチを選択することである。64個のリーフを有する四進ツリーの場合、この方法は各レベルで1個だけのブランチが選択された場合の12個の計算と比べて28個の計算を必要とする。ツリーのあるレベルにおいて4個のブランチのうちの1個のブランチが観測ベクトルについて他の3個のブランチドよりも高い尤度を与える場合、最も高い尤度を与える基準確率密度がそのブランチの一員である可能性が非常に高いことを理解されたい。他方において、1個以上のブランチのグループが観測ベクトルについて同様な又はより高い尤度を与える場合、ブランチを1個だけを選択することは誤った決定をするおそれがある。
従って、別の実施例においては閾値Tを用いる。ツリーの各レベルにおいて、最も高い尤度を与えるクラスタ確率密度を有するノード選択する。最良のノードの対数尤度と第2の最良のノードとの間の差異が閾値Tよりも低い場合、第2の最良のノードが選択され、両方のブランチがさらに検索される。この方法は、以下のテーブルに示すように、種々のT値について試験した。
Figure 0003948747
このテーブルは、64個のリーフを有するツリー及び256個のリーフを有するツリーについての結果を示す。各ツリーについて、第1の行は全検索を用いる(閾値を用いない)結果を示す。T=0のこの行は全てのレベルにおいてブランチが1個だけ選択された場合の結果を与える。より高い閾値の場合、モデル(NEFF)の各状態について実際に計算された距離の数により反映されるように、あるレベルにおいて2個のブランチが選択されたときの尤度は増大する。特に、256個のリーフのような大きなツリーの場合、精度が低下することなく性能が顕著に増大する。当業者は、このシステムについて最も適切な閾値を選択することができる。必要な場合、この閾値機構を用いて2個以上のブランチを選択することができる。
中間レベルにおいて、観測のクラスタ尤度は、リーフノードにより表される基準確率密度についてだけ実行される実際の尤度計算については実際には用いられない。中間レベルにおいて、どのクラスタ確率密度が観測ベクトルに対して最高の尤度を与えるかを知ることだけが必要であり、実際の尤度がどれだけであるかは必要ではない。
ユークリッドノルム(L2−ノルム)を用いるガウシアン密度の場合、主としてベクトルスカラ積の計算(内積又はドット積とも称する)を必要とする簡単な計算を用いてどのクラスタ確率密度が最高の尤度を与えるかを決定することができる。ガウシアン密度当たり単一のスカラー変数だけを有するガウシアン密度を用いることにより、
s,k=I・σs,k 2
式(a)は以下の式となる。
Figure 0003948747
以下のように規定することにより、
Figure 0003948747
弁別関数
Figure 0003948747
はどのクラス確率密度(平均ベクトル
Figure 0003948747
により表される)が
Figure 0003948747
に対して最高の尤度を与えるかを示す。
Figure 0003948747
の符号だけが重要である
Figure 0003948747
が正の場合、
Figure 0003948747
で表されるクラスタ確率密度は
Figure 0003948747
に対して最高の尤度を与える
Figure 0003948747
が負の場合、
Figure 0003948747
で表されるクラスタ確率密度は
Figure 0003948747
に対して最高の尤度を与える。以下の原理を用いると、
Figure 0003948747
Figure 0003948747
について以下の式が与えられる。
Figure 0003948747
この式において、最初の4つの項は例えばトレーニング中に1回で計算することができる。5番目の項について、第1の因子も1度で計算することができる。第2の因子
Figure 0003948747
は各観測ベクトルについて1度だけ計算される必要があり、全ての基準ベクトルについて用いることができる。最後の項だけはベクトルスカラー積であり、各観測ベクトル及び各基準ベクトルについて計算する必要がある。この式を用いると、
Figure 0003948747
を最初に用いてクラスタ確率密度1が
Figure 0003948747
に対してクラスタ確率密度2よりも高い尤度を与えるか否かが決定される。次に、この最高の尤度を与えたクラスタ確率密度をクラスタ確率密度3と比較する。ツリーのこのレベルの全てのクラスタ確率密度が試験されるまで、これを繰り返す。計算についてクラスタ確率密度が選択される順序は重要ではない。
ガウシアン密度についての共分散行列が全ての混合密度に対して結合される場合、すなわち、sを隠れマルコフモデルの状態とし、kがこの状態の密度を示す場合に、共分散行列s,k=Ksとなる場合、同様な技術を適用することができる。この結果、ツリーの異なるブランチにより表わされるクラスタ間の境界は平面となる。式(a)は以下のようになる。
Figure 0003948747
以下のように規定することにより、
Figure 0003948747
弁別関数
Figure 0003948747
は:
Figure 0003948747
で表されるが、さらに
Figure 0003948747
となる。
一般的には、
Figure 0003948747
であり、かつ、K -1 は対称行列であるので、この式は:
Figure 0003948747
となる。
この式において、項1,3及び4は例えばトレーニング中に1度で計算することができる。第2の項について、ベクトル
Figure 0003948747
も予め計算することができ、
Figure 0003948747
を有するベクトルのベクトルカラー積がオンラインで計算されることを意味する。
トレーニング中のツリーの検索
トレーニング中に隠れマルコフモデルの未知のパラメータが評価される。これは、基準ユニット(状態)の未知のシーケンス及び未知のモデルパラメータ(混合密度パラメータ)の評価を含む。図6は典型的なトレーニングプロセスを示す。音声認識に用いられる音響分析の同一の工程を用いてトレーニング発声をトレーニング観測ベクトルの時間シーケンスに変換する。反復処理において、状態及びモデルパラメータに対するトレーニング観測ベクトルの時間整合を改善する。反復の各ループにおいて、その瞬時に構成されたモデルを用いてトレーニング観測ベクトルを時間整合させる。この処理をいかに行うかは既知であり、例えばビタビアルゴリズムを用いて処理することができる。このビタビアルゴリズムは観測ベクトルの所のシーケンスに対する最良の状態シーケンスを決定する。時間整合の結果として、各トレーニング観測ベクトルは状態及びその混合密度に割り当てられる。次に、各混合密度の観測ベクトル集めて(クラスタ化)密度のパラメータの再評価に用いる。上述したk平均クラスタ化法をこのために用いることができる。明らかなように、時間整合により数個の観測ベクトルは別の状態及び混合密度に割当てられる。同時にツリーのあるレベルが構築されるので(クラスタ化の一部として)、再割当てが既に行われたクラスタ化及びツリーの構築に影響を与える。ツリーのトップレベルで最初からクラスタ化を再開始する代わりに、上述したツリー検索アルゴリズムを用いてトレーニング観測ベクトルのクラスタへの予備割当てを行うことが有益である。これは、1回多い反復レベルとしクラスタ化処理と一体化することができる。一例として、二進ツリー構造を以下のようにして構築する(以下の処理は各状態について並列して行う)。
1.状態に対し、トレーニング観測ベクトルの全体の組についての平均ベクトル(重心)
Figure 0003948747
及び分散を持つ1つの混合密度を決定する。平均ベクトル
Figure 0003948747
は全てのトレーニング観測ベクトルの平均である。
2.各トレーニング観測ベクトルについて最適な状態を決定することにより、このシステムをについて時間整合を行う。
3.混合密度を再計算する。
4.反復顕著な改善がされず又は予め定めた回数の反復が行われた場合のような停止基準に達するまで工程2及び3を繰り返す。
5.規則
Figure 0003948747
に基づき2個の新しい重心
Figure 0003948747
を決定することにより、混合密度を2個の混合密度(1レベル下位)に分割する。ここで、
Figure 0003948747
は分割ベクトルであり、典型的にはオーダー1.0の成分を有する(2個の新しい密度の分散ここでは元の密度から複写する)。
6.各観測ベクトルについての2個の混合密度のどちらがこの観測ベクトルに近いかを決定し、この観測ベクトルその密度割り当てる。このようにして2個のクラスタが形成される。
7.2個のクラスタの混合密度(重心及び分散)を再計算する。
8.反復顕著な改善がされず又は予め定めた回数の反復が行われた場合のような停止基準に達するまで工程6及び7を繰り返す。
9.各トレーニング観測ベクトルについて最適な状態を決定することにより、このシステムを時間整合させる。
10.ツリー検索アルゴリズムを用いて各トレーニングベクトルを現在構築されようとするツリーレベルのクラスタに割り当てる。
11.現在のツリーレベルから上向きに開始して全ての混合密度を再計算する。
12.反復顕著な改善がされず又は予め定めた回数の反復が行われた場合のような停止基準に達するまで工程10及び11を繰り返す。
13.反復顕著な改善がされず又は予め定めた回数の反復が行われた場合のような停止基準に達するまで工程9を繰り返す。
14.反復:所望のツリーレベルの数に到達するまで、現在最下位のレベル(安定している)の各混合密度について工程5から開始して繰り返す。
図6の反復の開始点として、これらトレーニングセンテンス(観測シーケンス)の各々は、手動で複数の状態にセグメント化すること、又はその代わりに、線形に、若しくは、入手可能な場合には古いモデルを用いて、自動で複数の状態にセグメント化することができる。
トレーニング中にツリー検索を用いることにより、このシステムのトレーニングに必要な時間が大幅に減少する。29000個の密度の最大分解能で動作するAISシステムにおいて、トレーニング時間が108時間から25時間に減少した。勿論、これは認識低下につながる。以下のテーブルは、高い分解能のシステムよりも影響を受ける低い分解能のシステム(ツリー当たり16個のリーフ、全部で1900個の密度)の場合相対損失が約2%であることを示している。
Figure 0003948747

Claims (10)

  1. 連続する物理量から取り出した入力パターンを認識する方法において、前記物理量アクセスし、物理量から前記入力パターンを表す入力観測ベクトルのシーケンス生成し
    複数の基準パターン中に前記入力パターンと対応する認識された基準パターンを配置し、少なくとも1個の基準パターン基準ユニットのシーケンスであり、各基準ユニット基準確率密度の組中の少なくとも1個の関連する基準確率密度で表されており
    前記基準確率密度の選択をツリー構造として表し、該ツリー構造において各リーフノードが基準確率密度に対応すると共に非リーフノードがクラスタ確率密度に対応し、該クラスタ確率密度は前記非リーフノードのブランチのリーフノードに対応する基準確率密度から取り出されることを有し
    前記配置が、各入力観測ベクトル
    Figure 0003948747
    対して
    前記対応するクラスタ確率密度が前記入力観測ベクトル
    Figure 0003948747
    について最適のクラスタ尤度を与える非リーフノードを通る前記ツリー構造を検索することにより複数のリーフノードを選択する事と、
    選択されたリーフノードに対応する各基準確率密度について前記入力観測ベクトル
    Figure 0003948747
    の観測尤度を計算する事とを含み、
    前記方法が、各基準ユニットに関連付けられる基準確率密度を個別のツリー構造として表すことを含み、
    前記配置が、各個別のツリー構造について前記検索を行うことにより各個別のツリー構造のリーフノードを選択することを含むことを特徴とする方法。
  2. 請求項1に記載の方法において、非リーフノードを通る前記ツリー構造の検索が、前記ツリー構造の少なくとも1個のレベルにおいて、前記クラスタ尤度の最適値が計算される1つの非リーフノードを通る経路を検索することを含み、前記クラスタ尤度が前記最適クラスタ尤度が所定の範囲内にある非リーフノードを通る経路により補完されることを特徴とする方法。
  3. 請求項1又は2に記載の方法において、前記ツリー構造が四進ツリーであり、前記四進ツリーにおいて、各非リーフノードは1つ下の階層に最大4つのノードを抱え、かつ、少なくとも1つの非リーフノードが1つ下の階層に4つのノードを抱えることを特徴とする方法。
  4. 請求項1、2又は3に記載の方法において、前記非リーフノードを通るツリー構造の検索前記ツリー構造の同一のブランチ内かつ前記ツリー構造の同一のレベルにある一群の非リーフノードに対して、
    選択された前記非リーフノードの対について、2個の対応するクラスタ確率密度と前記入力観測ベクトル
    Figure 0003948747
    との間のクラスタ比較スコアを計算し、前記クラスタ確率密度のスコア2個の対応するクラスタ確率密度のいずれが前記入力観測ベクトル
    Figure 0003948747
    の最高の尤度を与えるかを示しており
    前記群の全ての非リーフノードについてクラスタ比較スコアが計算されるまで、過去に計算されたクラスタ比較スコアが最高の尤度を示す非リーフノード及びクラスタ比較スコアがまだ計算されていない前記群の別の非リーフノードについて前記クラスタ比較スコアを計算し続け、
    前記クラスタ比較スコアが最高の尤度を示す前記非リーフノードを通る経路を前記検索に含めることを有することを特徴とする方法。
  5. 請求項1、2、3又は4に記載の方法において、既知の入力パターンを表すトレーニング観測ベクトルのシーケンスから前記確率密度が取り出され、前記基準確率密度の組をツリー構造として表す工程が、前記トレーニング観測ベクトルをクラスタの階層的な組にクラスタ化すること、及び各クラスタについてクラスタ確率密度を計算することを有しており
    前記基準確率密度の組をツリー構造として表す工程は、
    前記トレーニング観測ベクトルのシーケンスを、対応する基準パターンと対応する基準ユニットとのシーケンスにセグメント化する工程と
    反復的に
    各基準ユニットについて、前記対応するトレーニング観測ベクトルを、各々が個別の基準ユニットに対応する個別のツリー構造を形成する、クラスタの階層的な組にクラスタ化し、
    各トレーニング観測ベクトルについて、予め定めた最適基準に基づいて最も類似する対応する基準ユニットを決定することにより、及び、最適なクラスタ尤度を有するクラスタについて対応する基準ユニットのツリー構造を検索して前記クラスタの1つに各トレーニング観測ベクトルを割り当てることにより、前記基準ユニットのシーケンスに基いて前記トレーニング観測ベクトルのシーケンスを時間整合させる工程とを有することを特徴とする方法。
  6. 連続する物理量から取り出した時間順次する入力パターンを認識するシステムであって、該システムは、
    前記物理量アクセスし、該物理量から前記入力パターンを表す入力観測ベクトルのシーケンスを発生させる入力手段と、
    基準確率の組から基準確率密度の選択をツリー構造として表すツリービィルダであって、前記ツリー構造において各リーフノードが基準確率密度に対応し、各非リーフノードがクラスタ確率密度に対応し、このクラスタ確率密度が前記非リーフノードよりも下位のブランチのリーフノードに対応する全ての基準確率密度から取り出されるツリービィルダと、
    複数の基準パターンを記憶する基準パターンデータベースであって、少なくとも1個の基準パターンが基準ユニットのシーケンスであり、各基準ユニットが前記基準確率密度の組の少なくとも1個の関連する基準確率密度により表され、前記基準確率密度の選択が前記ツリー構造として記憶される基準パターンデータベースと、
    前記入力パターンに対応する認識された基準パターンを前記基準パターンデータベースに記憶されている前記基準パターン中に配置するローカライザであって、前記配置が、各入力観測ベクトル
    Figure 0003948747
    対して
    前記観測入力ベクトル
    Figure 0003948747
    について前記対応するクラスタ確率密度が最適のクラスタ尤度を与える非リーフノードを通る前記ツリー構造を検索することにより複数のリーフノードを選択する事と
    選択したリーフノードに対応する基準確率密度について前記入力観測ベクトル
    Figure 0003948747
    の観測尤度を計算する事とを有するローカライザと、
    前記認識されたパターンを出力する出力手段とを有し
    前記ツリービィルダが、各基準ユニットについて前記関連する基準確率密度を個別のツリー構造として表すものとして想定され、
    前記基準パターンデータベースが、各基準ユニットについて前記個別のツリー構造をさらに記憶し、
    前記配置が、各個別のツリー構造についての前記検索を行うことにより各個別のツリー構造のリーフノードを選択することを有することを特徴とする時間順次する入力パターンを認識するシステム。
  7. 請求項6に記載のシステムにおいて、非リーフノードを通る前記ツリー構造の検索が、前記ツリー構造の少なくとも1個のレベルにおいて、前記クラスタ尤度の最適値が計算される非リーフノードの1つを通る経路を検索することを含み、前記クラスタ尤度が前記最適のクラスタ尤度の予め定めた範囲内にある非リーフノードを通る経路により補完されることを含むことを特徴とするシステム。
  8. 請求項6又は7に記載のシステムにおいて、前記ツリー構造が四進ツリーであり、前記四進ツリーにおいて、各非リーフノードは1つ下の階層に最大4つのノードを抱え、かつ、少なくとも1つの非リーフノードが1つ下の階層に4つのノードを抱えることを特徴とするシステム
  9. 請求項6、7又は8に記載のシステムにおいて、前記非リーフノードを通るツリー構造の検索前記ツリー構造の同一のブランチ内かつ前記ツリー構造にある同一のレベルの一群の非リーフノードに対して
    選択した前記非リーフノードの対について、前記2個の対応するクラスタ確率密度と前記入力観測ベクトル
    Figure 0003948747
    との間のクラスタ比較スコアを計算し、前記クラスタ比較スコアは、前記2個の対応するクラスタ確率密度のいずれが前記入力観測ベクトル
    Figure 0003948747
    の最高の尤度を与えるか示しており
    前記群の全ての非リーフノードについてクラスタ比較スコアが計算されるまで、以前に計算されたクラスタ比較スコアが前記最高の尤度を示す非リーフノードクラスタ比較スコアがまだ計算されていない前記群の別の非リーフノードとに対して前記クラスタ比較スコアを計算し続け、
    前記クラスタ比較スコアが最高の尤度を示す前記非リーフノードを通る経路を前記検索に含ませることを有することを特徴とするシステム。
  10. 請求項6、7、8又は9に記載のシステムにおいて、前記確率密度が既知の入力パターンを表すトレーニング観測ベクトルのシーケンスから取り出され、前記基準確率密度の組をツリー構造として表す前記工程が、前記トレーニング観測ベクトルをクラスタの階層的な組にクラスタ化すること、及び各クラスタについてクラスタ確率密度を計算することを含んでおり
    前記確率密度の組をツリー構造として表す前記工程は、
    前記トレーニング観測ベクトルのシーケンスを、対応する基準パターン及び対応する基準ユニットのシーケンスにセグメント化する工程と
    反復的に
    各基準ユニットについて、前記対応するトレーニング観測ベクトルを、各々が個別の基準ユニットに対応する個別のツリー構造を形成する、クラスタの階層的な組にクラスタ化し、
    各トレーニング観測ベクトルについて、所定の最適基準に基づいて最も類似する対応する基準ユニットを決定することにより、及び、最適なクラスタ尤度を有するクラスタについて前記対応する基準ユニットの前記ツリー構造を検索して前記クラスタの1つに各トレーニング観測ベクトルを割り当てることにより、前記基準ユニットのシーケンスに基づいて前記トレーニング観測ベクトルのシーケンスを時間整合させる工程とを有することを特徴とするシステム。
JP51005797A 1995-08-28 1996-08-26 ツリー構成確率密度に基づくパターン認識の方法及びシステム Expired - Lifetime JP3948747B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AT95202318.2 1995-08-28
EP95202318 1995-08-28
PCT/IB1996/000860 WO1997008686A2 (en) 1995-08-28 1996-08-26 Method and system for pattern recognition based on tree organised probability densities

Publications (2)

Publication Number Publication Date
JPH10508392A JPH10508392A (ja) 1998-08-18
JP3948747B2 true JP3948747B2 (ja) 2007-07-25

Family

ID=8220590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51005797A Expired - Lifetime JP3948747B2 (ja) 1995-08-28 1996-08-26 ツリー構成確率密度に基づくパターン認識の方法及びシステム

Country Status (5)

Country Link
US (1) US5857169A (ja)
EP (1) EP0788649B1 (ja)
JP (1) JP3948747B2 (ja)
DE (1) DE69613338T2 (ja)
WO (1) WO1997008686A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101902882B1 (ko) * 2016-07-14 2018-11-13 연세대학교 산학협력단 랜덤 트리 워크 알고리즘을 이용하여 삼차원 관상동맥 컴퓨터 단층촬영 혈관 조영 영상에서 관상동맥을 추적하기 위한 방법

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US6292797B1 (en) * 1997-08-07 2001-09-18 New York University Method for determining actionable patterns in a database
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
JP2001507482A (ja) * 1997-10-08 2001-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 語彙及び/又は言語モデルのトレーニング
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
US6148295A (en) * 1997-12-30 2000-11-14 International Business Machines Corporation Method for computing near neighbors of a query point in a database
JP4004619B2 (ja) * 1998-01-08 2007-11-07 富士通株式会社 自動在庫引当が可能な在庫管理装置
US6269334B1 (en) * 1998-06-25 2001-07-31 International Business Machines Corporation Nongaussian density estimation for the classification of acoustic feature vectors in speech recognition
US6721759B1 (en) * 1998-12-24 2004-04-13 Sony Corporation Techniques for spatial representation of data and browsing based on similarity
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
US6594392B2 (en) * 1999-05-17 2003-07-15 Intel Corporation Pattern recognition based on piecewise linear probability density function
US6421668B1 (en) * 1999-08-05 2002-07-16 Agilent Technologies, Inc. Method and system for partitioning data into subsets of related data
US6662184B1 (en) * 1999-09-23 2003-12-09 International Business Machines Corporation Lock-free wild card search data structure and method
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US6789063B1 (en) * 2000-09-01 2004-09-07 Intel Corporation Acoustic modeling using a two-level decision tree in a speech recognition system
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US6845357B2 (en) * 2001-07-24 2005-01-18 Honeywell International Inc. Pattern recognition using an observable operator model
US6757651B2 (en) * 2001-08-28 2004-06-29 Intellisist, Llc Speech detection system and method
US20050228661A1 (en) * 2002-05-06 2005-10-13 Josep Prous Blancafort Voice recognition method
EP1387232A1 (fr) * 2002-07-29 2004-02-04 Centre National De La Recherche Scientifique Procédé de détermination de la valeur à donner à différents paramètres d'un système
US7788096B2 (en) * 2002-09-03 2010-08-31 Microsoft Corporation Method and apparatus for generating decision tree questions for speech processing
US7571097B2 (en) * 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
GB2409750B (en) * 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique
US7542949B2 (en) * 2004-05-12 2009-06-02 Mitsubishi Electric Research Laboratories, Inc. Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US7805301B2 (en) * 2005-07-01 2010-09-28 Microsoft Corporation Covariance estimation for pattern recognition
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
JP5088030B2 (ja) * 2007-07-26 2012-12-05 ヤマハ株式会社 演奏音の類似度を評価する方法、装置およびプログラム
JP2010140383A (ja) * 2008-12-15 2010-06-24 Sony Corp 情報処理装置および方法、並びにプログラム
US20100185672A1 (en) * 2009-01-21 2010-07-22 Rising Iii Hawley K Techniques for spatial representation of data and browsing based on similarity
AU2011268376B2 (en) * 2010-06-16 2015-05-07 Yale University Forest inventory assessment using remote sensing data
US20140047089A1 (en) * 2012-08-10 2014-02-13 International Business Machines Corporation System and method for supervised network clustering
JP6246636B2 (ja) * 2014-03-20 2017-12-13 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
CN106297775B (zh) * 2015-06-02 2019-11-19 富泰华工业(深圳)有限公司 语音识别装置及方法
CN105096955B (zh) * 2015-09-06 2019-02-01 广东外语外贸大学 一种基于模型生长聚类的说话人快速识别方法及系统
US10482196B2 (en) * 2016-02-26 2019-11-19 Nvidia Corporation Modeling point cloud data using hierarchies of Gaussian mixture models
CN107293298B (zh) * 2016-04-05 2021-02-19 富泰华工业(深圳)有限公司 语音控制系统及方法
US20210035025A1 (en) * 2019-07-29 2021-02-04 Oracle International Corporation Systems and methods for optimizing machine learning models by summarizing list characteristics based on multi-dimensional feature vectors
US11615428B1 (en) 2022-01-04 2023-03-28 Natural Capital Exchange, Inc. On-demand estimation of potential carbon credit production for a forested area

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2522154B2 (ja) * 1993-06-03 1996-08-07 日本電気株式会社 音声認識システム
US5528701A (en) * 1994-09-02 1996-06-18 Panasonic Technologies, Inc. Trie based method for indexing handwritten databases
JPH10509526A (ja) * 1994-10-26 1998-09-14 ディクタフォーン コーポレイション (ユー エス) ヒドンマルコフモデルを使用して設計された決定木分類子

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101902882B1 (ko) * 2016-07-14 2018-11-13 연세대학교 산학협력단 랜덤 트리 워크 알고리즘을 이용하여 삼차원 관상동맥 컴퓨터 단층촬영 혈관 조영 영상에서 관상동맥을 추적하기 위한 방법

Also Published As

Publication number Publication date
US5857169A (en) 1999-01-05
WO1997008686A2 (en) 1997-03-06
EP0788649A2 (en) 1997-08-13
DE69613338T2 (de) 2002-05-29
JPH10508392A (ja) 1998-08-18
WO1997008686A3 (en) 1997-04-03
EP0788649B1 (en) 2001-06-13
DE69613338D1 (de) 2001-07-19

Similar Documents

Publication Publication Date Title
JP3948747B2 (ja) ツリー構成確率密度に基づくパターン認識の方法及びシステム
US5729656A (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
US4741036A (en) Determination of phone weights for markov models in a speech recognition system
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US5199077A (en) Wordspotting for voice editing and indexing
JP3672573B2 (ja) 音声認識を目的とする動的に調整された習熟訓練のためのシステムと方法
Glass et al. A probabilistic framework for feature-based speech recognition
US5953701A (en) Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
Eide et al. Understanding and improving speech recognition performance through the use of diagnostic tools
Chien Online hierarchical transformation of hidden Markov models for speech recognition
Bocchieri et al. Discriminative feature selection for speech recognition
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
US5764851A (en) Fast speech recognition method for mandarin words
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
Wu et al. Application of simultaneous decoding algorithms to automatic transcription of known and unknown words
Lyu et al. Modeling pronunciation variation for bi-lingual Mandarin/Taiwanese speech recognition
Georgila et al. Large Vocabulary Search Space Reduction Employing Directed Acyclic Word Graphs and Phonological Rules
Kwon On Improving Acoustic Modeling in Speech Recognition based on Continuous Density HMM
Couper Kenney Automatic determination of sub-word units for automatic speech recognition

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060307

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060410

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060412

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060606

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060724

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20060818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070417

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110427

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120427

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140427

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term