JP2012069103A

JP2012069103A - 圧縮された状態シーケンスを求めるための方法

Info

Publication number: JP2012069103A
Application number: JP2011183669A
Authority: JP
Inventors: Cuneyt Oncel Tuzel; ジュネイト・オンジェル・トゥゼル; Poratucan Gungor; グンゴール・ポラトゥカン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2010-08-31
Filing date: 2011-08-25
Publication date: 2012-04-05
Anticipated expiration: 2031-08-25
Also published as: US20120053944A1; US8405531B2; JP5645777B2

Abstract

【課題】データ“ｘ”の入力シーケンスから圧縮状態シーケンス“ｓ”を直接求める。
【解決手段】データ“ｘ”の入力シーケンスから圧縮状態シーケンス“ｓ”が直接求められる。確定関数ｆ（“ｘ”）が固有の状態遷移のみを追跡し、各状態の滞留時間は追跡しない。多項式時間圧縮状態シーケンス推測方法は従来の圧縮状態シーケンス推測技法よりも性能が優れている。ＣＲＦ及びＨＭＭのための従来の状態シーケンス推測技法は、正確な予測に焦点を当てるが、これは目標が各状態の滞留時間を追跡することではなく、状態遷移を追跡することであるいくつかの用途では必要とされない。この発明は、この問題を解決するように明示的に設計された多項式時間状態シーケンス推測手順を提供する。
【選択図】図２Ａ

Description

この発明は、包括的にはデータの入力シーケンスから状態シーケンスを求めるための方法に関し、より詳細には圧縮状態シーケンスを求めることに関する。

シーケンシャルデータにラベルを割り当てることは、発話認識、計算言語学、コンピュータービジョン、及びロボット工学等の用途における一般的な問題である。たとえば、品詞を分析するとき、課題は、言語の文法構造を考えることによって単語のシーケンスにタグ付けすることであり、たとえば動詞−動詞−名詞−名詞−動詞−形容詞は英語において可能性が極めて低い文法シーケンスである一方、名詞−動詞−副詞はそうではない。同様に、発話認識において、単語又は音素は、特にそれらの順序に関して、基礎となる言語の或る特定の発音規則に従う。

同様に、基礎となる言語の文法によって強制される構造を利用することによって手書きの文字（character）のシーケンスに表音文字（letter）及び数字を割り当てることができる。これらの例において、シーケンシャルパターンが重要であり、シーケンシャルパターンを利用して大きなデータセットから情報を抽出することができる。

そのような問題を解決するための２つの一般的なモデルは、隠れマルコフモデル（ＨＭＭ）及び条件付き確率場（ＣＲＦ）である。これらのモデルは非常に強力であるが、データのタイプが異なると、用途に特有の変更が必要となるので、モデルが様々に拡張されることになる。

たとえば、半マルコフ型ＣＲＦは、セグメンテーション問題へのより一般的な解法であり、データのセグメントにおける非マルコフ型状態遷移を可能にし、個々のサンプルではなくシーケンスに直接ラベルを割り当てる。

別の方法は、現実的でない状態遷移を防ぐために状態持続性を有するシステムの非パラメトリック事前確率を説明している。この方法は状態持続性をもたらし、無限状態空間内で遷移確率をトレーニングすることも可能にする。上記の例において、最終状態シーケンス推測の基本課題は、正確な状態シーケンスを推定することである。

しかしながら、多くの用途において、これは必須の目標ではない。そうではなく、目標は状態シーケンスの何らかの確定関数を推定することである。特に、目標は、各状態における滞留時間を考慮することなく状態遷移を追跡することである。

例示的な用途では、人の動きが追跡されるが、このとき、「座る（ｓ）」、「飛び跳ねる（ｊ）」、「歩く（ｗ）」、及び「走る（ｒ）」等の状態間の正確な遷移は曖昧でありかつ重要でないが、特定の順序で発生した状態の固有のシーケンスの検出が重要である。

たとえば、人間の動きの例示的なグラウンドトルース状態シーケンスは“ｙ”＝｛ｓ，ｓ，ｊ，ｊ，ｊ，ｗ，ｗ，ｒ，ｒ｝であり、データの入力シーケンスは“ｘ”＝｛ｘ_１，ｘ_２，．．．，ｘ_９｝である。目標は、確定関数ｃｏｍｐｒｅｓｓの出力を正確に予測することであり、ここで、ｃｏｍｐｒｅｓｓ（“ｙ”）＝｛ｓ，ｊ，ｗ，ｒ｝である。すなわち、圧縮シーケンスにおいて重複した状態が取り除かれている。

さらに、ｊからｗへちょうど遷移する時に、状態「ｗ」の最初の出現を「ｊ」に変換することによって、予測状態シーケンス“ｙ’”＝｛ｓ，ｓ，ｊ，ｊ，ｊ，ｊ，ｗ，ｒ，ｒ｝が取得される場合、従来のアプリケーションではエラーとなるが、圧縮状態シーケンス推測を用いるアプリケーションでは、ｃｏｍｐｒｅｓｓ（“ｙ”）＝ｃｏｍｐｒｅｓｓ（“ｙ’”）であるので、エラーとならない。

逆に、予測シーケンスが“ｙ’’ ”＝｛ｓ，ｓ，ｊ，ｊ，ｗ，ｊ，ｗ，ｒ，ｒ｝である場合、１つの状態のみが“ｙ”と異なる場合であっても、このアプリケーションには致命的なエラーとなる。ここで、状態遷移の曖昧性がこの問題の唯一の特徴ではなく、圧縮された出力の長さが知られておらず、かつ任意であり、たとえば人間の動作中にいくつの固有の動作が出現順に発生したかは不明確である。

滞留時間を考えることなくシーケンス内の固有な状態をカウントすることに関心が持たれている状態カウントプロセスを含めて、状態シーケンス推測には、そのような特殊な処置を必要とするいくつかの他の問題が存在する。この発明者らの知る限り、これは、機械学習用途において大部分対処されていない問題である。

ビデオ解釈アプリケーションのための圧縮シーケンスが説明されている。正確な状態遷移は曖昧であり、ビデオ解釈には区別できる状態のみが重要である。この方法は、状態の数が非常に多数であることに起因して、非常に限定された領域にのみ適用可能であり、確率モデルを用いることができない。

別のビデオ解釈アプリケーションでは、単純な遷移−コストモデルが用いられ、同じ状態への状態遷移はコストを有しないと仮定されるのに対し、全ての他の可能な遷移は同じコストＫを有すると仮定される。これは同じ状態への全ての遷移について重みゼロを有し、他の全ての遷移について重みとして同じコストＫを有する確率シーケンシャルモデルをトレーニングすることと非常に類似している。これは、状態遷移のシーケンシャルモデリングが破壊されるので多くの用途において完全に非現実的である。

図１は従来の圧縮状態シーケンス推測方法を示している。データの入力シーケンス“ｘ”＝｛ｘ_１，ｘ_２，．．．，ｘ_Ｔ｝１０１及び事前にトレーニングされたＨＭＭ／ＣＲＦパラメーター｛λ_ｊ，μ_ｋ｝１０６を所与とすると、ＨＭＭ／ＣＲＦ復号方法１０２は、データ１０１に対応する完全な状態シーケンス“ｙ”＝｛ｙ_１，ｙ_２，．．．，ｙ_Ｔ｝１０３を予測する。ここで、インデックスＴのインクリメントは時間ステップである。次に、確定圧縮関数（deterministic compress function）ｆ１０４が完全状態シーケンス１０３に適用され、固有な状態の圧縮シーケンス“ｓ”＝ｆ（“ｙ”）＝｛ｓ_１，ｓ_２，．．．，ｓ_ｃ｝１０５が求められる。圧縮状態シーケンスにおいて、完全状態シーケンス１０３内の全ての重複する状態は除去される。

隠れマルコフモデル（ＨＭＭ）及び条件付き確率場（ＣＲＦ）はシーケンシャルデータ“ｘ”をモデリングするための非常に一般的な技法である。ＣＲＦ及びＨＭＭを用いる状態シーケンス推測手順によって、データの入力シーケンス“ｘ”を所与として状態シーケンス“ｙ”の推定が可能になる。

しかしながら、多くの用途において、正確な（完全な）状態シーケンスの推定は必ずしも目標ではない。そうではなく、目標は状態シーケンス“ｘ”の或る確定関数ｆを推定して、圧縮状態シーケンス“ｙ”を得ることである。そのような用途において、従来の状態シーケンス推測技法によって状態シーケンスを推定し、その後、該推定から関数マッピングを求めることは必ずしも最適ではない。

したがって、この発明はデータの入力シーケンス“ｘ”から圧縮状態シーケンス“ｓ”を直接求める。

特に、確定関数ｆ（“ｘ”）が固有の状態遷移のみを追跡し、各状態の滞留時間を追跡しない特定の問題を考える。

従来の圧縮状態シーケンス推測技法よりも性能が優れた多項式時間圧縮状態シーケンス推測方法を提供する。この発明が解決する問題は、ロボット追跡、文字認識、手書き認識、及び発話認識等の多くの異種の用途において一般に生じる。

ＣＲＦ及びＨＭＭのための従来の状態シーケンス推測技法は、正確な予測に焦点を当てるが、これは目標が各状態の滞留時間を追跡することではなく、状態遷移を追跡することであるいくつかの用途では必要とされない。この発明は、この問題を解決するように明示的に設計された多項式時間状態シーケンス推測手順を提供する。

従来のＨＭＭ／ＣＲＦ復号及びそれに続く確定関数ｆの適用のブロック図である。これによって圧縮状態シーケンスが生成される。この発明の実施の形態による、圧縮状態シーケンスを直接出力する圧縮ＨＭＭ／ＣＲＦ復号のブロック図である。この発明の実施の形態による、圧縮状態シーケンスを直接出力する圧縮ＨＭＭ／ＣＲＦ復号のブロック図である。この発明の実施の形態による、圧縮状態シーケンス推測方法の概略図である。この発明の実施の形態による、圧縮状態シーケンス推測方法の概略図である。この発明の実施の形態による、圧縮状態シーケンス推測方法の概略図である。この発明の実施の形態による、ロボットロケーション追跡アプリケーションの概略図である。この発明の実施の形態による、ロボットロケーション追跡アプリケーションの概略図である。時間の関数としての動きのグラフである。

図２Ａ及び図２Ｂは、この発明の実施の形態による圧縮状態シーケンス推測方法を示している。データの入力シーケンス“ｘ”＝｛ｘ_１，ｘ_２，．．．，ｘ_Ｔ｝２０１を所与とする。ここでデータはＴによってインデックス付けされている。たとえば、シーケンスは時系列である。圧縮復号方法２０２は、トレーニングされたＨＭＭモデル又はＣＲＦモデルのパラメーター｛λ_ｊ，μ_ｋ｝２０４を用いて、推定圧縮状態シーケンス“ｓ”＝｛ｓ_１，ｓ_２，．．．，ｓ_ｃ｝２０３を直接出力する。本方法のステップは、当該技術分野において既知のようにメモリ及び入力／出力インターフェースに接続されたプロセッサ２００において実行することができる。

条件付き確率場及び状態シーケンス推測技法
直鎖条件付き確率場（ＣＲＦ）及び隠れマルコフモデル（ＨＭＭ）は、シーケンシャルデータをラベル付けするのに用いることができる２つの確率モデルである。データがラベル付けされた後、状態シーケンスを求めることができる。選択された特徴関数に依拠して直鎖ＣＲＦ及びＨＭＭを交換可能に用いることができる。この発明はＣＲＦの手順に焦点を当てる。

しかしながら、手順はＨＭＭにも等しく適用可能である。この発明の方法にとって、いずれの特定のモデルを用いるかは重要ではない。すなわち、結果は一方から他方に一般化することができる。本明細書では直鎖ＣＲＦを用いるが、本方法はＨＭＭにも適用可能である。

従来の条件付き確率場
条件付き分布ｐ（“ｘ”｜“ｙ”）をモデル化するための直鎖ＣＲＦを以下のように定義することができる。

ここで、Ψはポテンシャル関数であり、ｇは或る状態から次の状態への遷移特徴関数（transition feature function）であり、ｕは特徴関数であり、λ及びμはトレーニングプロセスによって推定されるパラメーターであり、Ｚは入力データシーケンスの関数である正規化係数である。

従来の状態シーケンス推測技法
データシーケンスの従来のラベル付けは、同時密度“ｙ^＊”＝ａｒｇｍａｘ_ｙｐ（“ｙ”｜“ｘ”）を用い、ここで関数「ａｒｇｍａｘ」は最大値を返す。解は、再帰δ_ｔ（ｊ）＝ｍａｘ_ｉΨ（ｊ，ｉ．ｘ_ｔ）δ_ｔ−１を用いてビタビ手順により求めることができる。これは、最大積法則に基づいて最可能経路を伝播する。しかしながら、多くの用途において、完全なシーケンスを正確に予測することは非常に困難であるので、個々の予測が用いられる。これは、Ｆｏｒｗａｒｄ−Ｂａｃｋｗａｒｄ（前向き後ろ向き）と呼ばれる動的プログラミング手順を適用することによって、周辺分布ｐ（ｙ_ｉ，ｔ｜”ｘ”）からｙ_ｉ，ｔを予測することにより達成することができる。前方再帰はα_ｔ（ｊ）＝Σ_ｉΨ（ｊ，ｉ，ｘ_ｔ）α_ｔ−１（ｉ）であり、ここでα_ｔ（ｊ）は前方変数であり、後方再帰はβ_ｔ（ｉ）＝Σ_ｉΨ_ｔ＋１（ｊ，ｉ，ｘ_ｔ＋１）β_ｔ＋１（ｊ）であり、ここでβ_ｔ（ｉ）は後方変数である。次に、これらの変数を用いることによって周辺確率を求めることができる。

制約付き前方手順を用いて、前方再帰を制約付き状態シーケンスに制約することによって特定の状態シーケンスにおける信頼度を求めることができる。制約集合Ｙ’＝｛ｙ_ｑ，．．．，ｙ_ｒ｝を所与とすると、変更された前方手順を用いて任意のデータシーケンスがＹ’を満たす確率を求めることができる。

変更された前方再帰は、全てのｙ_ｔ＋１２Ｙ’について、

であり、ここで、演算子

は「ｊは制約ｙ_ｔ＋１に従う」として定義される。インデックスＴにおいて、特定の制約の信頼度はＺ’／Ｚである。ここで、制約付き格子因子

は制約付き前方変数を用いて求められ、制約なし格子因子Ｚ＝Σ_ｉα_Ｔ（ｉ）は制約なし前方変数を用いて求められる。同様に、周辺確率ｐ（ｙ_ｉ，，ｔ｜“ｘ”）を推定している間、集合Ｙ’内に単一の制約ｙ_ｉ，ｔを有することによって同じ方法が辿られる。

圧縮状態シーケンス推測
この発明の実施の形態は、取得データから状態の圧縮シーケンスを推測するための方法を提供する。人間の動きを予測する１つの用途例では、状態の圧縮シーケンスを、“ｓ”＝ｃｏｍｐｒｅｓｓ（“ｙ”）として定義する。ここで、ｓ、ｊ、ｗ、ｒは任意の状態である。“ｙ”＝｛ｓ，ｓ，ｊ，ｊ，ｊ，ｗ，ｗ，ｒ，ｒ｝である場合、“ｓ”＝ｃｏｍｐｒｅｓｓ（“ｙ”）＝｛ｓ，ｊ，ｗ，ｒ｝である。これ以降、シンボル

を用いて関数ｃｏｍｐｒｅｓｓを表す。この発明の目標は、圧縮シーケンス“ｓ”を可能な限り正確に予測することである。確率ｐ（“ｓ”｜“ｘ”）を求めるための枠組みを構築する。

圧縮状態シーケンス“ｓ_０”の確率が全てのセグメンテーション“ｙ”にわたる周辺化によって与えられる。ここで圧縮表現“ｓ_０”の確率は、

であり、シンボル

は圧縮関数を表す。

確率ｐ（“ｙ”｜“ｘ”）を求めることは効率的であるが、式（４）の総和は指数関数的な演算数Ｍ^Ｔを含む。ここでＭは状態数であり、Ｔは完全状態シーケンス“ｙ”の長さであり、これは扱い難い。したがって、動的プログラミング前向き後ろ向き手順を用いてｐ（“ｓ”＝“ｓ_０”｜“ｘ”）を求めるための多項式時間手順を提供する。

ここでこの発明の圧縮状態シーケンス推測方法の基本ステップを記述する。

確率ｐ（“ｓ”＝“ｓ_０”｜“ｘ”）を求める
式（４）において、圧縮シーケンス“ｓ_０”に対応する指数関数的な個数の可能な完全状態シーケンス“ｙ”が存在し得る。この問題を克服するために、前方再帰を適用しながらシーケンス“ｓ”の遷移を追跡することを説明する。

図３Ａに示すように、シーケンス“ｓ_０”の長さはｃ＝｜“ｓ_０”｜である。表記を容易にするために、“ｓ_０”の個々の項をｓ_ｉと呼ぶ。ここで、ｉ＝１，…，ｃである。シーケンス“ｓ_０”内の正確にｉ−１個の遷移をｔまで追跡する前方変数

を定義する。インデックスｔ−１からインデックスｔまで、前方変数は以下に基づいて更新される。
入力データｘ_ｔについて同じ状態に留まり（矢印３１１で示される）、
状態ｓ_ｉからｓ_ｉ＋１への遷移を行う（矢印３１２で示される）。

動的プログラミング法は以下の通りである。

シーケンス“ｓ_０”の確率ｐ（“ｓ”＝“ｓ_０”｜“ｘ”）は

である。これは再帰

によって求められる。ここで、ｉ＝１，．．．，ｃである。

インデックス（時刻）Ｔにおいて、

を得る。

この再帰によって、格子正規化係数（lattice normalization factor）

を求める。正規化係数Ｚは、ｐ（“ｓ”＝“ｓ_０”｜“ｘ”）＝Ｚ（“ｓ_０”）／ＺによってＺ（“ｓ_０”）を確率に変換する。正規化係数Ｚの計算は以下に説明される。この方法の証明が付録において与えられている。

ｐ（ｃ＝ｃ_０｜“ｘ”）を求める
データ“ｘ”の入力シーケンスを所与とすると、圧縮シーケンス“ｓ”を求める最初のステップは、シーケンス“ｓ”の長さｃを求めることである。ここで、ｃは、状態遷移が存在しないことを意味する１から、最大で、全ての１つ１つのインクリメントにおいて遷移が存在することを意味するシーケンス長Ｔまでの値を取ることができる。全てのｃ＞Ｔについて、ｐ（ｃ＝ｃ_０｜“ｘ”）＝０である。長さｉの圧縮シーケンスの集合は“Ｓ_ｉ”であり、すなわちｉ＝１，．．．，Ｔについて“Ｓ_ｉ”＝｛“ｓ”：｜“ｓ”｜＝ｉ｝である。ｉ≠ｊについて

である場合、確率ｐ（ｃ＝ｃ_０｜“ｘ”）は

である。

長さｃの１つの可能なシーケンス“ｓ_０”の確率はｐ（“ｓ”＝“ｓ_０”｜“ｘ”）である。図３Ｂに示すように、２つの可能な圧縮シーケンス“ｓ_１”及び“ｓ_２”を有する場合、

である。ここで、

は、シーケンスｓ_ｉに前方再帰が適用されたことを意味する。しかしながら、これらの２つのシーケンスは、圧縮領域の１つの点においてのみ異なる。同じ格子によってシーケンスを表し、複数の計算を回避することを可能にするために、テーブルに

のベクトル表現を表す。前方変数α_ｔはＭ次元であり、以前の

はｃ次元である。この発明の

はｃ×Ｍ次元である。

格子に対する全ての制約の集合は、Ｑ＝｛…，ｑ_ｌ−１，ｑ_ｌ，ｑ_ｌ＋１，…｝であり、ここで各制約ｑ_ｌはテーブルの非ゼロエントリの１組の座標である。たとえば、特定の圧縮シーケンス“ｓ_０”の場合、集合は｛（１，ｓ_１），（２，ｓ_２），…，（ｃ，ｓ_ｃ）｝に対応する。特定の集合“Ｓ_ｉ”の場合、この集合は高さＩを有するテーブルの全ての座標に対応し、

で表される。所与の制約集合Ｑのための再帰は以下の通りである。

図３Ｂに示すように、この再帰はテーブル内の全ての非ゼロエントリを通って伝播し、全てのゼロエントリを無視する。なぜなら、ゼロエントリは格子Ｑ内に含まれないためである。

図３Ｃは、制約がインデックスｔ−１からｔ及びｔからｔ＋１の格子の全てのロケーションに含まれる再帰を示している。

式（６）の再帰は、集合Ｑによって以下のように定義される全ての圧縮シーケンスの確率を求める。

制約集合表記

を用いると、確率ｐ（ｃ＝ｃ_０｜“ｘ”）は、

である。

これは、制約集合

を用いて式（６）において再帰を適用し、行ｃ_０におけるエントリの和を求めることに対応する。上述したように、ｃ_０＞Ｔ又はｃ_０＜１のとき、ｐ（ｃ＝ｃ_０｜“ｘ”）＝０である。この手順を制約集合

に対して実行する場合、テーブル

の行の和によって全ての格子因子

が同時に得られる。このテーブルの総和は正規化係数Ｚに等しく、これはｐ（“ｓ”＝“ｓ_０”｜“ｘ”）＝Ｚ（“ｓ_０”）＝Ｚ及び

を求めるのに必要である。この識別情報は、“ｓ”の全ての可能な長さ及び組み合わせについて、Ｚが格子因子の総和に等しいということから得られる。

ｐ（ｓ_ｉ＝ｊ｜“ｘ”，ｃ）を求める
周辺分布ｐ（ｓ_ｉ＝ｊ｜“ｘ”，ｃ）を求めるために、行ｉにおけるエントリを除いて、高さｃを有するテーブルの全てのエントリを含めることによって、制約集合Ｑ_ｉ，ｊを構築する。次に、この集合に（ｉ，ｊ）を加える。この特定の制約集合構成は、長さｃ及びｓ_ｉ＝ｊの全ての可能な圧縮シーケンス構成を含む。このとき、周辺確率は、ｐ（ｓ_ｉ＝ｊ｜“ｘ”，ｃ）＝Ｚ（Ｑ_ｉ，ｊ）／Σ_ｊＺ（Ｑ_ｉ，ｊ）である。

圧縮シーケンス
次に、上記のステップを適用し、以下を最大にすることによって、圧縮状態シーケンスが求められる。

によってｃを推定し、

によってｓ_ｊを推定する。

データから状態シーケンスを生成するための方法
上記に続いて、図２Ｂは方法２０２をより詳細に示している。
最初に、ｐ＝（ｃ｜“ｘ”）に従って入力データシーケンス“ｘ”＝｛ｘ_１，ｘ_２，．．．，ｘ_Ｔ｝２０１に対応する、可能な圧縮状態シーケンスの長さｃ２６１の確率を求める（２５１）。ここで、ｉ＝１，．．．，Ｔである。
次に、出力圧縮状態シーケンス

２０３の長さ

２６２を推定する（２５２）。ここで、長さ

はａｒｇｍａｘｐ（ｃ｜“ｘ”）に従う最大確率を有し、関数ａｒｇｍａｘは最大確率を返す。
次に、

に従う長さ

を有する出力圧縮状態シーケンス

内の各状態ｓ_ｊ２６３の確率を求める（２５３）。ここで、

である。
そして最後に、

に従う最大確率を有する各圧縮状態

を推定して（２５４）、出力圧縮状態シーケンス

を推定する。これらのステップはプロセッサにおいて実行される。

応用形態
この発明の圧縮状態シーケンス推測方法の以下の応用形態を説明する。

移動ロボットのロケーション追跡
移動ロボットへの応用形態において、ロボットはグリッドを用いて環境内で追跡される。特に環境を発掘する目的で、シーケンシャルモデルが頻繁に用いられる。この応用形態では、正確なグリッド反復は重要でなく、ロボットが順番に横切ったロケーションを示す圧縮バージョンが重要である。

例示的なロボット応用形態について図４Ａに示されているように、ロボットは該ロボットが部屋の色（青（Ｂ）、緑（Ｇ）、黄（Ｙ）、赤（ｒ））、及びそのロケーションへの動きを妨げる障害物（ブロック）を検知することができる環境内を移動する。

全てのステップにおいて、ロボットは移動｛上、下、左、右｝を試みる。ここでロボットは方向をランダムに選択する。意図される方向に障害物が存在する場合、ロボットは再度試行する。

図４Ｂは、ロボットの一例示の経路４０１を示している。この問題において、状態は（ｘ，ｙ）座標におけるロボットのロケーションを指し、観測値は観測される色を指し、これはセンサー、たとえばカメラの出力である。

図４Ｃは、図４Ｂにおける経路４０１について、観測される色の観点で、時間の関数として動きを示している。不都合なことに、色検出の的中率は不完全である可能性があり、たとえば平均８０％である。この場合、ロボットは異なるロケーションにいるにも関わらず、図４Ｃの雑音４０２によって示すようにセンサー出力は誤ったものとなる。しかしながら、圧縮状態シーケンス推測方法は、カメラ観測値のシーケンスに関して、ロボットが順番に横切る正しいロケーションを予測する。

単一ストローク文字認識
この応用形態は、スマートフォン、携帯情報端末（ＰＤＡ）、及びタブレットＰＣ等の、タッチスクリーンを用いて文字及びグリフの入力を可能にする電子デバイスと共に用いることができる。一般に、問題は、通常１つの連続ストロークでタッチスクリーン上に描かれた形状を認識することである。

この応用形態では、状態は方向｛上、右、下、左｝を指し、観測値は連続する入力点間の量子化された角度を指す。一般に、現在のシステムは、この目的のために確率的有限状態マシン又はＨＭＭを用いる。通例、ＨＭＭ又は有限状態マシンは単一の文字に関してトレーニングされる。次に、モデルを用いたデータ尤度試験によって１つのクラスが選択される。この方法の１つの欠点は、任意の形状を扱う能力が限られていることである。全ての文字について単一のモデルをトレーニングして、そのモデルを用いることによって状態を復号することができる。それにもかかわらず、単一の状態誤りによって予測全体が誤ったものとなる可能性がある。このため、雑音に耐性のある状態シーケンス推測方法を提供する。さらに、１つの状態から別の状態への移行は通常曖昧であるので、状態遷移における曖昧性も問題である。

しかしながら、この発明の方法は正確な遷移を推定しない。その代わり、この発明の方法は、このタスクには十分である遷移シーケンスを生成する。観測値、たとえばユーザーインターフェースから取得される連続点間の量子化された角度を所与とすると、この発明の圧縮状態シーケンス推測方法は、全ての方向を順番に生成し、これは特定の文字を示す。

手書きの単語認識
手書きの認識は通常、最初に手書きをセグメント化し、次にそれらのセグメントをサポートベクターマシン（ＳＶＭ）等のマルチクラス分類器を用いて認識することによって実行される。多くの場合に、言語の文法も用いられる。しかしながら、セグメント化は前処理として行われることが通常想定される。

この発明の方法によれば、文字はセグメント化されず、シーケンスの長さは知られることも必要とされることもない。なぜなら、手書きの単語は異なる長さを有する可能性があるためである。入力の手書きは画像の形態をとる。この応用形態では、各インクリメントは手書きの画像内の１つの垂直列に対応する。状態は対応するセグメントを指し、観測値は形状コンテキスト特徴に対応する。

特徴を抽出する間、まずスライディングウィンドウ技法を用いることによって画像から重複するパッチを取る。画像内の列毎に１つのパッチが取られる。次に、形状コンテキスト記述子を適用する。次に、Ｋ平均クラスタリングを適用して、トレーニングデータを用いて辞書をトレーニングする。また、トレーニングされた辞書内のパッチ毎にヒストグラムを生成する。トレーニングされた辞書は、パッチから抽出された各点を該辞書内のクラスター中心にマッピングする。ＣＲＦモデルはインクリメント毎の観測値としての形状コンテキスト特徴のヒストグラムを用いてトレーニングされ、状態はその観測値を生成する文字に対応する。

分類している間、同じマッピング手順を実行し、トレーニングセットとの共有空間、すなわちヒストグラム空間を有するようにする。試験を通じたスライディングウィンドウを通じて求められた観測値、たとえば形状コンテキスト特徴のヒストグラムを所与とすると、圧縮状態シーケンス推測は、シーケンス内の所与の単語における文字を予測する。

料金収受
電子料金収受（ＥＴＣ）の応用形態において、目標は、カメラ又は３Ｄセンサーを用いて車両のタイヤ及びトレーラーの数をカウントすることである。圧縮状態シーケンス推測方法は、経時的にこれらの観測値を用いて、全ての状態、たとえば車体、タイヤ、牽引棒を推定し、これによって、料金を求めるための、車両のタイヤ及びトレーラーの数に関する情報がもたらされる。

発話認識
発話認識において、ＨＭＭ、並びにビタビ及びＦｏｒｗａｒｄ−Ｂａｃｋｗａｒｄ等の従来の状態シーケンス推測方法は、多くの場合に、発話された単語をテキストに変換するために用いられる。オーディオ信号の基礎にある状態は音素であり、一般的に、２つの状態間の正確な遷移点は曖昧である。しかしながら、発話された単語の速度に基づいて、オーディオ信号の長さは同じ単語について変動する可能性がある。圧縮状態シーケンス推測は、正確な遷移点を見つけることなく発話された単語を音素に復号する。これは発話認識には十分な情報である。

付録
証明。一般性を損なうことなく、ｓ_０，１＝１、ｓ_０，２＝２、ｓ_０，３＝３、．．．ｓ_０，ｃ＝ｃとし、ｔ_１、ｔ_２からｔ_ｃ−１までを状態遷移時間とする。すなわちｔ_１はｓ_０，１＝１からｓ_０，２＝２への遷移である。

式（１３）において、分配法則を用いることによって式（１２）を書き換える。式（１４）において、単に時間Ｔを計算から除外することによって総和を２つのケースに分割する。（１）第１の部分は、時刻Ｔにおいてｃ−１からｃへの遷移が存在するケースを考え、（２）第２の部分は時刻Ｔにおいて遷移が存在せず、このためｃ−１からｃへの遷移がＴより前であり、時刻Ｔにおいて以前の状態ｃが反復されると考える。次に、(オーバーバー)α_Ｔ(ｃ)としてのｓ領域の前方変数を以下のように定義する。

このとき、式（１４）における２つの総和項をこれらの前方変数に関して以下のように書き換えることができることが明らかである。

最後に、再帰式

を得る。

この証明は全ての長さｃについて有効である。換言すれば、１からｃ−１までの信号をこの発明の信号と見なすことができる。このため、任意の長さにおいて、時刻Ｔにおける再帰は以下のように書くことができる。

さらに、これは、Ｔに戻って再帰することによって任意のｔ＝１，．．．，Ｔにも同様に一般化することができる。このため、最終形式は、

となる。

Claims

入力データシーケンス“ｘ”から出力圧縮状態シーケンス

を求めるための方法であって、前記圧縮状態シーケンス“ｓ_０”の確率は、

に従って前記入力データシーケンスの全てのセグメンテーション“ｙ”を周辺化することによって与えられ、ここで、シンボル

は圧縮関数を表し、該方法は、
ｐ＝（ｃ｜“ｘ”）に従う前記入力データシーケンス“ｘ”＝｛ｘ_１，ｘ_２，．．．，ｘ_Ｔ｝に対応する可能な圧縮状態シーケンスの長さｃの確率を求めるステップであって、ここでｉ＝１，…，Ｔであるものと、
前記出力圧縮状態シーケンス

の長さ

を推定するステップであって、前記長さ

はａｒｇｍａｘｐ（ｃ｜“ｘ”）に従う最大確率を有し、関数ａｒｇｍａｘは最大確率を返すものと、

に従う長さ

を有する前記出力圧縮状態シーケンス

において各状態ｓ_ｊの確率を求めるステップであって、ここで、

であるものと、

に従う最大確率を有する各圧縮状態

を推定するステップであって、前記出力圧縮状態シーケンス

を推定するものと、
を備え、前記各ステップはプロセッサにおいて実行される、方法。
各前記状態ｓ_ｊの前記確率は周辺確率であり、前記方法は、
制約集合Ｑを構築することであって、該制約集合Ｑは前記圧縮状態シーケンス内の可能な遷移を含み、前記周辺確率は、

であり、ここでＺは正規化係数であるもの、
をさらに含む、請求項１に記載の方法。
前記出力圧縮状態シーケンスはロボットを追跡するものである、請求項１に記載の方法。
前記出力圧縮状態シーケンスは単一ストロークの文字を認識するものである、請求項１に記載の方法。
前記出力圧縮状態シーケンスは手書きの単語を認識するものである、請求項１に記載の方法。
前記出力圧縮状態シーケンスは車両のタイヤ及びトレーラーの数をカウントして料金を求めるものである、請求項１に記載の方法。
前記出力圧縮状態シーケンスは発話を認識するものである、請求項１に記載の方法。
前記出力圧縮状態シーケンスにおける各前記状態はラベルを含む、請求項１に記載の方法。
前記出力圧縮状態シーケンスは隠れマルコフモデルを用いて求められる、請求項１に記載の方法。
前記出力圧縮状態シーケンスは条件付き確率場を用いて求められる、請求項１に記載の方法。
前記入力データシーケンスは時系列である、請求項１に記載の方法。
前記周辺確率は動的プログラミング前向き後ろ向き手順を用いて求められる、請求項２に記載の方法。