JP2012069103A - 圧縮された状態シーケンスを求めるための方法 - Google Patents

圧縮された状態シーケンスを求めるための方法 Download PDF

Info

Publication number
JP2012069103A
JP2012069103A JP2011183669A JP2011183669A JP2012069103A JP 2012069103 A JP2012069103 A JP 2012069103A JP 2011183669 A JP2011183669 A JP 2011183669A JP 2011183669 A JP2011183669 A JP 2011183669A JP 2012069103 A JP2012069103 A JP 2012069103A
Authority
JP
Japan
Prior art keywords
sequence
state sequence
compressed state
probability
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011183669A
Other languages
English (en)
Other versions
JP2012069103A5 (ja
JP5645777B2 (ja
Inventor
Cuneyt Oncel Tuzel
ジュネイト・オンジェル・トゥゼル
Poratucan Gungor
グンゴール・ポラトゥカン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2012069103A publication Critical patent/JP2012069103A/ja
Publication of JP2012069103A5 publication Critical patent/JP2012069103A5/ja
Application granted granted Critical
Publication of JP5645777B2 publication Critical patent/JP5645777B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19187Graphical models, e.g. Bayesian networks or Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • G06V30/373Matching; Classification using a special pattern or subpattern alphabet

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】データ“x”の入力シーケンスから圧縮状態シーケンス“s”を直接求める。
【解決手段】データ“x”の入力シーケンスから圧縮状態シーケンス“s”が直接求められる。確定関数f(“x”)が固有の状態遷移のみを追跡し、各状態の滞留時間は追跡しない。多項式時間圧縮状態シーケンス推測方法は従来の圧縮状態シーケンス推測技法よりも性能が優れている。CRF及びHMMのための従来の状態シーケンス推測技法は、正確な予測に焦点を当てるが、これは目標が各状態の滞留時間を追跡することではなく、状態遷移を追跡することであるいくつかの用途では必要とされない。この発明は、この問題を解決するように明示的に設計された多項式時間状態シーケンス推測手順を提供する。
【選択図】図2A

Description

この発明は、包括的にはデータの入力シーケンスから状態シーケンスを求めるための方法に関し、より詳細には圧縮状態シーケンスを求めることに関する。
シーケンシャルデータにラベルを割り当てることは、発話認識、計算言語学、コンピュータービジョン、及びロボット工学等の用途における一般的な問題である。たとえば、品詞を分析するとき、課題は、言語の文法構造を考えることによって単語のシーケンスにタグ付けすることであり、たとえば動詞−動詞−名詞−名詞−動詞−形容詞は英語において可能性が極めて低い文法シーケンスである一方、名詞−動詞−副詞はそうではない。同様に、発話認識において、単語又は音素は、特にそれらの順序に関して、基礎となる言語の或る特定の発音規則に従う。
同様に、基礎となる言語の文法によって強制される構造を利用することによって手書きの文字(character)のシーケンスに表音文字(letter)及び数字を割り当てることができる。これらの例において、シーケンシャルパターンが重要であり、シーケンシャルパターンを利用して大きなデータセットから情報を抽出することができる。
そのような問題を解決するための2つの一般的なモデルは、隠れマルコフモデル(HMM)及び条件付き確率場(CRF)である。これらのモデルは非常に強力であるが、データのタイプが異なると、用途に特有の変更が必要となるので、モデルが様々に拡張されることになる。
たとえば、半マルコフ型CRFは、セグメンテーション問題へのより一般的な解法であり、データのセグメントにおける非マルコフ型状態遷移を可能にし、個々のサンプルではなくシーケンスに直接ラベルを割り当てる。
別の方法は、現実的でない状態遷移を防ぐために状態持続性を有するシステムの非パラメトリック事前確率を説明している。この方法は状態持続性をもたらし、無限状態空間内で遷移確率をトレーニングすることも可能にする。上記の例において、最終状態シーケンス推測の基本課題は、正確な状態シーケンスを推定することである。
しかしながら、多くの用途において、これは必須の目標ではない。そうではなく、目標は状態シーケンスの何らかの確定関数を推定することである。特に、目標は、各状態における滞留時間を考慮することなく状態遷移を追跡することである。
例示的な用途では、人の動きが追跡されるが、このとき、「座る(s)」、「飛び跳ねる(j)」、「歩く(w)」、及び「走る(r)」等の状態間の正確な遷移は曖昧でありかつ重要でないが、特定の順序で発生した状態の固有のシーケンスの検出が重要である。
たとえば、人間の動きの例示的なグラウンドトルース状態シーケンスは“y”={s,s,j,j,j,w,w,r,r}であり、データの入力シーケンスは“x”={x,x,...,x}である。目標は、確定関数compressの出力を正確に予測することであり、ここで、compress(“y”)={s,j,w,r}である。すなわち、圧縮シーケンスにおいて重複した状態が取り除かれている。
さらに、jからwへちょうど遷移する時に、状態「w」の最初の出現を「j」に変換することによって、予測状態シーケンス“y’”={s,s,j,j,j,j,w,r,r}が取得される場合、従来のアプリケーションではエラーとなるが、圧縮状態シーケンス推測を用いるアプリケーションでは、compress(“y”)=compress(“y’”)であるので、エラーとならない。
逆に、予測シーケンスが“y’’ ”={s,s,j,j,w,j,w,r,r}である場合、1つの状態のみが“y”と異なる場合であっても、このアプリケーションには致命的なエラーとなる。ここで、状態遷移の曖昧性がこの問題の唯一の特徴ではなく、圧縮された出力の長さが知られておらず、かつ任意であり、たとえば人間の動作中にいくつの固有の動作が出現順に発生したかは不明確である。
滞留時間を考えることなくシーケンス内の固有な状態をカウントすることに関心が持たれている状態カウントプロセスを含めて、状態シーケンス推測には、そのような特殊な処置を必要とするいくつかの他の問題が存在する。この発明者らの知る限り、これは、機械学習用途において大部分対処されていない問題である。
ビデオ解釈アプリケーションのための圧縮シーケンスが説明されている。正確な状態遷移は曖昧であり、ビデオ解釈には区別できる状態のみが重要である。この方法は、状態の数が非常に多数であることに起因して、非常に限定された領域にのみ適用可能であり、確率モデルを用いることができない。
別のビデオ解釈アプリケーションでは、単純な遷移−コストモデルが用いられ、同じ状態への状態遷移はコストを有しないと仮定されるのに対し、全ての他の可能な遷移は同じコストKを有すると仮定される。これは同じ状態への全ての遷移について重みゼロを有し、他の全ての遷移について重みとして同じコストKを有する確率シーケンシャルモデルをトレーニングすることと非常に類似している。これは、状態遷移のシーケンシャルモデリングが破壊されるので多くの用途において完全に非現実的である。
図1は従来の圧縮状態シーケンス推測方法を示している。データの入力シーケンス“x”={x,x,...,x}101及び事前にトレーニングされたHMM/CRFパラメーター{λ,μ}106を所与とすると、HMM/CRF復号方法102は、データ101に対応する完全な状態シーケンス“y”={y,y,...,y}103を予測する。ここで、インデックスTのインクリメントは時間ステップである。次に、確定圧縮関数(deterministic compress function)f104が完全状態シーケンス103に適用され、固有な状態の圧縮シーケンス“s”=f(“y”)={s,s,...,s}105が求められる。圧縮状態シーケンスにおいて、完全状態シーケンス103内の全ての重複する状態は除去される。
隠れマルコフモデル(HMM)及び条件付き確率場(CRF)はシーケンシャルデータ“x”をモデリングするための非常に一般的な技法である。CRF及びHMMを用いる状態シーケンス推測手順によって、データの入力シーケンス“x”を所与として状態シーケンス“y”の推定が可能になる。
しかしながら、多くの用途において、正確な(完全な)状態シーケンスの推定は必ずしも目標ではない。そうではなく、目標は状態シーケンス“x”の或る確定関数fを推定して、圧縮状態シーケンス“y”を得ることである。そのような用途において、従来の状態シーケンス推測技法によって状態シーケンスを推定し、その後、該推定から関数マッピングを求めることは必ずしも最適ではない。
したがって、この発明はデータの入力シーケンス“x”から圧縮状態シーケンス“s”を直接求める。
特に、確定関数f(“x”)が固有の状態遷移のみを追跡し、各状態の滞留時間を追跡しない特定の問題を考える。
従来の圧縮状態シーケンス推測技法よりも性能が優れた多項式時間圧縮状態シーケンス推測方法を提供する。この発明が解決する問題は、ロボット追跡、文字認識、手書き認識、及び発話認識等の多くの異種の用途において一般に生じる。
CRF及びHMMのための従来の状態シーケンス推測技法は、正確な予測に焦点を当てるが、これは目標が各状態の滞留時間を追跡することではなく、状態遷移を追跡することであるいくつかの用途では必要とされない。この発明は、この問題を解決するように明示的に設計された多項式時間状態シーケンス推測手順を提供する。
従来のHMM/CRF復号及びそれに続く確定関数fの適用のブロック図である。これによって圧縮状態シーケンスが生成される。 この発明の実施の形態による、圧縮状態シーケンスを直接出力する圧縮HMM/CRF復号のブロック図である。 この発明の実施の形態による、圧縮状態シーケンスを直接出力する圧縮HMM/CRF復号のブロック図である。 この発明の実施の形態による、圧縮状態シーケンス推測方法の概略図である。 この発明の実施の形態による、圧縮状態シーケンス推測方法の概略図である。 この発明の実施の形態による、圧縮状態シーケンス推測方法の概略図である。 この発明の実施の形態による、ロボットロケーション追跡アプリケーションの概略図である。 この発明の実施の形態による、ロボットロケーション追跡アプリケーションの概略図である。 時間の関数としての動きのグラフである。
図2A及び図2Bは、この発明の実施の形態による圧縮状態シーケンス推測方法を示している。データの入力シーケンス“x”={x,x,...,x}201を所与とする。ここでデータはTによってインデックス付けされている。たとえば、シーケンスは時系列である。圧縮復号方法202は、トレーニングされたHMMモデル又はCRFモデルのパラメーター{λ,μ}204を用いて、推定圧縮状態シーケンス“s”={s,s,...,s}203を直接出力する。本方法のステップは、当該技術分野において既知のようにメモリ及び入力/出力インターフェースに接続されたプロセッサ200において実行することができる。
条件付き確率場及び状態シーケンス推測技法
直鎖条件付き確率場(CRF)及び隠れマルコフモデル(HMM)は、シーケンシャルデータをラベル付けするのに用いることができる2つの確率モデルである。データがラベル付けされた後、状態シーケンスを求めることができる。選択された特徴関数に依拠して直鎖CRF及びHMMを交換可能に用いることができる。この発明はCRFの手順に焦点を当てる。
しかしながら、手順はHMMにも等しく適用可能である。この発明の方法にとって、いずれの特定のモデルを用いるかは重要ではない。すなわち、結果は一方から他方に一般化することができる。本明細書では直鎖CRFを用いるが、本方法はHMMにも適用可能である。
従来の条件付き確率場
条件付き分布p(“x”|“y”)をモデル化するための直鎖CRFを以下のように定義することができる。
Figure 2012069103
ここで、Ψはポテンシャル関数であり、gは或る状態から次の状態への遷移特徴関数(transition feature function)であり、uは特徴関数であり、λ及びμはトレーニングプロセスによって推定されるパラメーターであり、Zは入力データシーケンスの関数である正規化係数である。
従来の状態シーケンス推測技法
データシーケンスの従来のラベル付けは、同時密度“y”=arg maxp(“y”|“x”)を用い、ここで関数「arg max」は最大値を返す。解は、再帰δ(j)=maxΨ(j,i.x)δ −1を用いてビタビ手順により求めることができる。これは、最大積法則に基づいて最可能経路を伝播する。しかしながら、多くの用途において、完全なシーケンスを正確に予測することは非常に困難であるので、個々の予測が用いられる。これは、Forward−Backward(前向き後ろ向き)と呼ばれる動的プログラミング手順を適用することによって、周辺分布p(yi,t|”x”)からyi,tを予測することにより達成することができる。前方再帰はα(j)=ΣΨ(j,i,x)αt−1(i)であり、ここでα(j)は前方変数であり、後方再帰はβ(i)=ΣΨt+1(j,i,xt+1)βt+1(j)であり、ここでβ(i)は後方変数である。次に、これらの変数を用いることによって周辺確率を求めることができる。
制約付き前方手順を用いて、前方再帰を制約付き状態シーケンスに制約することによって特定の状態シーケンスにおける信頼度を求めることができる。制約集合Y’={y,...,y}を所与とすると、変更された前方手順を用いて任意のデータシーケンスがY’を満たす確率を求めることができる。
変更された前方再帰は、全てのyt+12Y’について、
Figure 2012069103
であり、ここで、演算子
Figure 2012069103
は「jは制約y +1に従う」として定義される。インデックスTにおいて、特定の制約の信頼度はZ’/Zである。ここで、制約付き格子因子
Figure 2012069103
は制約付き前方変数を用いて求められ、制約なし格子因子Z=Σα(i)は制約なし前方変数を用いて求められる。同様に、周辺確率p(yi,,t|“x”)を推定している間、集合Y’内に単一の制約yi,tを有することによって同じ方法が辿られる。
圧縮状態シーケンス推測
この発明の実施の形態は、取得データから状態の圧縮シーケンスを推測するための方法を提供する。人間の動きを予測する1つの用途例では、状態の圧縮シーケンスを、“s”=compress(“y”)として定義する。ここで、s、j、w、rは任意の状態である。“y”={s,s,j,j,j,w,w,r,r}である場合、“s”=compress(“y”)={s,j,w,r}である。これ以降、シンボル
Figure 2012069103
を用いて関数compressを表す。この発明の目標は、圧縮シーケンス“s”を可能な限り正確に予測することである。確率p(“s”|“x”)を求めるための枠組みを構築する。
圧縮状態シーケンス“s”の確率が全てのセグメンテーション“y”にわたる周辺化によって与えられる。ここで圧縮表現“s”の確率は、
Figure 2012069103
であり、シンボル
Figure 2012069103
は圧縮関数を表す。
確率p(“y”|“x”)を求めることは効率的であるが、式(4)の総和は指数関数的な演算数Mを含む。ここでMは状態数であり、Tは完全状態シーケンス“y”の長さであり、これは扱い難い。したがって、動的プログラミング前向き後ろ向き手順を用いてp(“s”=“s”|“x”)を求めるための多項式時間手順を提供する。
ここでこの発明の圧縮状態シーケンス推測方法の基本ステップを記述する。
確率p(“s”=“s”|“x”)を求める
式(4)において、圧縮シーケンス“s”に対応する指数関数的な個数の可能な完全状態シーケンス“y”が存在し得る。この問題を克服するために、前方再帰を適用しながらシーケンス“s”の遷移を追跡することを説明する。
図3Aに示すように、シーケンス“s”の長さはc=|“s”|である。表記を容易にするために、“s”の個々の項をsと呼ぶ。ここで、i=1,…,cである。シーケンス“s”内の正確にi−1個の遷移をtまで追跡する前方変数
Figure 2012069103
を定義する。インデックスt−1からインデックスtまで、前方変数は以下に基づいて更新される。
入力データxについて同じ状態に留まり(矢印311で示される)、
状態sからs+1への遷移を行う(矢印312で示される)。
動的プログラミング法は以下の通りである。
シーケンス“s”の確率p(“s”=“s”|“x”)は
Figure 2012069103
である。これは再帰
Figure 2012069103
によって求められる。ここで、i=1,...,cである。
インデックス(時刻)Tにおいて、
Figure 2012069103
を得る。
この再帰によって、格子正規化係数(lattice normalization factor)
Figure 2012069103
を求める。正規化係数Zは、p(“s”=“s”|“x”)=Z(“s”)/ZによってZ(“s”)を確率に変換する。正規化係数Zの計算は以下に説明される。この方法の証明が付録において与えられている。
p(c=c|“x”)を求める
データ“x”の入力シーケンスを所与とすると、圧縮シーケンス“s”を求める最初のステップは、シーケンス“s”の長さcを求めることである。ここで、cは、状態遷移が存在しないことを意味する1から、最大で、全ての1つ1つのインクリメントにおいて遷移が存在することを意味するシーケンス長Tまでの値を取ることができる。全てのc>Tについて、p(c=c|“x”)=0である。長さiの圧縮シーケンスの集合は“S ”であり、すなわちi=1,...,Tについて“S”={“s”:|“s”|=i}である。i≠jについて
Figure 2012069103
である場合、確率p(c=c|“x”)は
Figure 2012069103
である。
長さcの1つの可能なシーケンス“s”の確率はp(“s”=“s”|“x”)である。図3Bに示すように、2つの可能な圧縮シーケンス“s”及び“s”を有する場合、
Figure 2012069103
である。ここで、
Figure 2012069103
は、シーケンスsに前方再帰が適用されたことを意味する。しかしながら、これらの2つのシーケンスは、圧縮領域の1つの点においてのみ異なる。同じ格子によってシーケンスを表し、複数の計算を回避することを可能にするために、テーブルに
Figure 2012069103
のベクトル表現を表す。前方変数αはM次元であり、以前の
Figure 2012069103
はc次元である。この発明の
Figure 2012069103
はc×M次元である。
格子に対する全ての制約の集合は、Q={…,ql−1,q,ql+1,…}であり、ここで各制約qはテーブルの非ゼロエントリの1組の座標である。たとえば、特定の圧縮シーケンス“s”の場合、集合は{(1,s),(2,s),…,(c,s)}に対応する。特定の集合“S”の場合、この集合は高さIを有するテーブルの全ての座標に対応し、
Figure 2012069103
で表される。所与の制約集合Qのための再帰は以下の通りである。
Figure 2012069103
図3Bに示すように、この再帰はテーブル内の全ての非ゼロエントリを通って伝播し、全てのゼロエントリを無視する。なぜなら、ゼロエントリは格子Q内に含まれないためである。
図3Cは、制約がインデックスt−1からt及びtからt+1の格子の全てのロケーションに含まれる再帰を示している。
式(6)の再帰は、集合Qによって以下のように定義される全ての圧縮シーケンスの確率を求める。
Figure 2012069103
制約集合表記
Figure 2012069103
を用いると、確率p(c=c|“x”)は、
Figure 2012069103
である。
これは、制約集合
Figure 2012069103
を用いて式(6)において再帰を適用し、行cにおけるエントリの和を求めることに対応する。上述したように、c>T又はc<1のとき、p(c=c|“x”)=0である。この手順を制約集合
Figure 2012069103
に対して実行する場合、テーブル
Figure 2012069103
の行の和によって全ての格子因子
Figure 2012069103
が同時に得られる。このテーブルの総和は正規化係数Zに等しく、これはp(“s”=“s”|“x”)=Z(“s”)=Z及び
Figure 2012069103
を求めるのに必要である。この識別情報は、“s”の全ての可能な長さ及び組み合わせについて、Zが格子因子の総和に等しいということから得られる。
p(s=j|“x”,c)を求める
周辺分布p(s=j|“x”,c)を求めるために、行iにおけるエントリを除いて、高さcを有するテーブルの全てのエントリを含めることによって、制約集合Qi,jを構築する。次に、この集合に(i,j)を加える。この特定の制約集合構成は、長さc及びs=jの全ての可能な圧縮シーケンス構成を含む。このとき、周辺確率は、p(s=j|“x”,c)=Z(Qi,j)/ΣZ(Qi,j)である。
圧縮シーケンス
次に、上記のステップを適用し、以下を最大にすることによって、圧縮状態シーケンスが求められる。
Figure 2012069103
によってcを推定し、
Figure 2012069103
によってsを推定する。
データから状態シーケンスを生成するための方法
上記に続いて、図2Bは方法202をより詳細に示している。
最初に、p=(c|“x”)に従って入力データシーケンス“x”={x,x,...,x}201に対応する、可能な圧縮状態シーケンスの長さc261の確率を求める(251)。ここで、i=1,...,Tである。
次に、出力圧縮状態シーケンス
Figure 2012069103
203の長さ
Figure 2012069103
262を推定する(252)。ここで、長さ
Figure 2012069103
はarg max p(c|“x”)に従う最大確率を有し、関数arg maxは最大確率を返す。
次に、
Figure 2012069103
に従う長さ
Figure 2012069103
を有する出力圧縮状態シーケンス
Figure 2012069103
内の各状態s263の確率を求める(253)。ここで、
Figure 2012069103
である。
そして最後に、
Figure 2012069103
に従う最大確率を有する各圧縮状態
Figure 2012069103
を推定して(254)、出力圧縮状態シーケンス
Figure 2012069103
を推定する。これらのステップはプロセッサにおいて実行される。
応用形態
この発明の圧縮状態シーケンス推測方法の以下の応用形態を説明する。
移動ロボットのロケーション追跡
移動ロボットへの応用形態において、ロボットはグリッドを用いて環境内で追跡される。特に環境を発掘する目的で、シーケンシャルモデルが頻繁に用いられる。この応用形態では、正確なグリッド反復は重要でなく、ロボットが順番に横切ったロケーションを示す圧縮バージョンが重要である。
例示的なロボット応用形態について図4Aに示されているように、ロボットは該ロボットが部屋の色(青(B)、緑(G)、黄(Y)、赤(r))、及びそのロケーションへの動きを妨げる障害物(ブロック)を検知することができる環境内を移動する。
全てのステップにおいて、ロボットは移動{上、下、左、右}を試みる。ここでロボットは方向をランダムに選択する。意図される方向に障害物が存在する場合、ロボットは再度試行する。
図4Bは、ロボットの一例示の経路401を示している。この問題において、状態は(x,y)座標におけるロボットのロケーションを指し、観測値は観測される色を指し、これはセンサー、たとえばカメラの出力である。
図4Cは、図4Bにおける経路401について、観測される色の観点で、時間の関数として動きを示している。不都合なことに、色検出の的中率は不完全である可能性があり、たとえば平均80%である。この場合、ロボットは異なるロケーションにいるにも関わらず、図4Cの雑音402によって示すようにセンサー出力は誤ったものとなる。しかしながら、圧縮状態シーケンス推測方法は、カメラ観測値のシーケンスに関して、ロボットが順番に横切る正しいロケーションを予測する。
単一ストローク文字認識
この応用形態は、スマートフォン、携帯情報端末(PDA)、及びタブレットPC等の、タッチスクリーンを用いて文字及びグリフの入力を可能にする電子デバイスと共に用いることができる。一般に、問題は、通常1つの連続ストロークでタッチスクリーン上に描かれた形状を認識することである。
この応用形態では、状態は方向{上、右、下、左}を指し、観測値は連続する入力点間の量子化された角度を指す。一般に、現在のシステムは、この目的のために確率的有限状態マシン又はHMMを用いる。通例、HMM又は有限状態マシンは単一の文字に関してトレーニングされる。次に、モデルを用いたデータ尤度試験によって1つのクラスが選択される。この方法の1つの欠点は、任意の形状を扱う能力が限られていることである。全ての文字について単一のモデルをトレーニングして、そのモデルを用いることによって状態を復号することができる。それにもかかわらず、単一の状態誤りによって予測全体が誤ったものとなる可能性がある。このため、雑音に耐性のある状態シーケンス推測方法を提供する。さらに、1つの状態から別の状態への移行は通常曖昧であるので、状態遷移における曖昧性も問題である。
しかしながら、この発明の方法は正確な遷移を推定しない。その代わり、この発明の方法は、このタスクには十分である遷移シーケンスを生成する。観測値、たとえばユーザーインターフェースから取得される連続点間の量子化された角度を所与とすると、この発明の圧縮状態シーケンス推測方法は、全ての方向を順番に生成し、これは特定の文字を示す。
手書きの単語認識
手書きの認識は通常、最初に手書きをセグメント化し、次にそれらのセグメントをサポートベクターマシン(SVM)等のマルチクラス分類器を用いて認識することによって実行される。多くの場合に、言語の文法も用いられる。しかしながら、セグメント化は前処理として行われることが通常想定される。
この発明の方法によれば、文字はセグメント化されず、シーケンスの長さは知られることも必要とされることもない。なぜなら、手書きの単語は異なる長さを有する可能性があるためである。入力の手書きは画像の形態をとる。この応用形態では、各インクリメントは手書きの画像内の1つの垂直列に対応する。状態は対応するセグメントを指し、観測値は形状コンテキスト特徴に対応する。
特徴を抽出する間、まずスライディングウィンドウ技法を用いることによって画像から重複するパッチを取る。画像内の列毎に1つのパッチが取られる。次に、形状コンテキスト記述子を適用する。次に、K平均クラスタリングを適用して、トレーニングデータを用いて辞書をトレーニングする。また、トレーニングされた辞書内のパッチ毎にヒストグラムを生成する。トレーニングされた辞書は、パッチから抽出された各点を該辞書内のクラスター中心にマッピングする。CRFモデルはインクリメント毎の観測値としての形状コンテキスト特徴のヒストグラムを用いてトレーニングされ、状態はその観測値を生成する文字に対応する。
分類している間、同じマッピング手順を実行し、トレーニングセットとの共有空間、すなわちヒストグラム空間を有するようにする。試験を通じたスライディングウィンドウを通じて求められた観測値、たとえば形状コンテキスト特徴のヒストグラムを所与とすると、圧縮状態シーケンス推測は、シーケンス内の所与の単語における文字を予測する。
料金収受
電子料金収受(ETC)の応用形態において、目標は、カメラ又は3Dセンサーを用いて車両のタイヤ及びトレーラーの数をカウントすることである。圧縮状態シーケンス推測方法は、経時的にこれらの観測値を用いて、全ての状態、たとえば車体、タイヤ、牽引棒を推定し、これによって、料金を求めるための、車両のタイヤ及びトレーラーの数に関する情報がもたらされる。
発話認識
発話認識において、HMM、並びにビタビ及びForward−Backward等の従来の状態シーケンス推測方法は、多くの場合に、発話された単語をテキストに変換するために用いられる。オーディオ信号の基礎にある状態は音素であり、一般的に、2つの状態間の正確な遷移点は曖昧である。しかしながら、発話された単語の速度に基づいて、オーディオ信号の長さは同じ単語について変動する可能性がある。圧縮状態シーケンス推測は、正確な遷移点を見つけることなく発話された単語を音素に復号する。これは発話認識には十分な情報である。
付録
証明。一般性を損なうことなく、s0,1=1、s0,2=2、s0,3=3、...s0,c=cとし、t、tからtc−1までを状態遷移時間とする。すなわちtはs0,1=1からs0,2=2への遷移である。
Figure 2012069103
式(13)において、分配法則を用いることによって式(12)を書き換える。式(14)において、単に時間Tを計算から除外することによって総和を2つのケースに分割する。(1)第1の部分は、時刻Tにおいてc−1からcへの遷移が存在するケースを考え、(2)第2の部分は時刻Tにおいて遷移が存在せず、このためc−1からcへの遷移がTより前であり、時刻Tにおいて以前の状態cが反復されると考える。次に、(オーバーバー)α(c)としてのs領域の前方変数を以下のように定義する。
Figure 2012069103
このとき、式(14)における2つの総和項をこれらの前方変数に関して以下のように書き換えることができることが明らかである。
Figure 2012069103
最後に、再帰式
Figure 2012069103
を得る。
この証明は全ての長さcについて有効である。換言すれば、1からc−1までの信号をこの発明の信号と見なすことができる。このため、任意の長さにおいて、時刻Tにおける再帰は以下のように書くことができる。
Figure 2012069103
さらに、これは、Tに戻って再帰することによって任意のt=1,...,Tにも同様に一般化することができる。このため、最終形式は、
Figure 2012069103
となる。

Claims (12)

  1. 入力データシーケンス“x”から出力圧縮状態シーケンス
    Figure 2012069103
    を求めるための方法であって、前記圧縮状態シーケンス“s”の確率は、
    Figure 2012069103
    に従って前記入力データシーケンスの全てのセグメンテーション“y”を周辺化することによって与えられ、ここで、シンボル
    Figure 2012069103
    は圧縮関数を表し、該方法は、
    p=(c|“x”)に従う前記入力データシーケンス“x”={x,x,...,x}に対応する可能な圧縮状態シーケンスの長さcの確率を求めるステップであって、ここでi=1,…,Tであるものと、
    前記出力圧縮状態シーケンス
    Figure 2012069103
    の長さ
    Figure 2012069103
    を推定するステップであって、前記長さ
    Figure 2012069103
    はarg max p(c|“x”)に従う最大確率を有し、関数arg maxは最大確率を返すものと、
    Figure 2012069103
    に従う長さ
    Figure 2012069103
    を有する前記出力圧縮状態シーケンス
    Figure 2012069103
    において各状態sの確率を求めるステップであって、ここで、
    Figure 2012069103
    であるものと、
    Figure 2012069103
    に従う最大確率を有する各圧縮状態
    Figure 2012069103
    を推定するステップであって、前記出力圧縮状態シーケンス
    Figure 2012069103
    を推定するものと、
    を備え、前記各ステップはプロセッサにおいて実行される、方法。
  2. 各前記状態sの前記確率は周辺確率であり、前記方法は、
    制約集合Qを構築することであって、該制約集合Qは前記圧縮状態シーケンス内の可能な遷移を含み、前記周辺確率は、
    Figure 2012069103
    であり、ここでZは正規化係数であるもの、
    をさらに含む、請求項1に記載の方法。
  3. 前記出力圧縮状態シーケンスはロボットを追跡するものである、請求項1に記載の方法。
  4. 前記出力圧縮状態シーケンスは単一ストロークの文字を認識するものである、請求項1に記載の方法。
  5. 前記出力圧縮状態シーケンスは手書きの単語を認識するものである、請求項1に記載の方法。
  6. 前記出力圧縮状態シーケンスは車両のタイヤ及びトレーラーの数をカウントして料金を求めるものである、請求項1に記載の方法。
  7. 前記出力圧縮状態シーケンスは発話を認識するものである、請求項1に記載の方法。
  8. 前記出力圧縮状態シーケンスにおける各前記状態はラベルを含む、請求項1に記載の方法。
  9. 前記出力圧縮状態シーケンスは隠れマルコフモデルを用いて求められる、請求項1に記載の方法。
  10. 前記出力圧縮状態シーケンスは条件付き確率場を用いて求められる、請求項1に記載の方法。
  11. 前記入力データシーケンスは時系列である、請求項1に記載の方法。
  12. 前記周辺確率は動的プログラミング前向き後ろ向き手順を用いて求められる、請求項2に記載の方法。
JP2011183669A 2010-08-31 2011-08-25 圧縮された状態シーケンスを求めるための方法 Expired - Fee Related JP5645777B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/872,054 2010-08-31
US12/872,054 US8405531B2 (en) 2010-08-31 2010-08-31 Method for determining compressed state sequences

Publications (3)

Publication Number Publication Date
JP2012069103A true JP2012069103A (ja) 2012-04-05
JP2012069103A5 JP2012069103A5 (ja) 2014-07-31
JP5645777B2 JP5645777B2 (ja) 2014-12-24

Family

ID=45698352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011183669A Expired - Fee Related JP5645777B2 (ja) 2010-08-31 2011-08-25 圧縮された状態シーケンスを求めるための方法

Country Status (2)

Country Link
US (1) US8405531B2 (ja)
JP (1) JP5645777B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022540069A (ja) * 2019-07-01 2022-09-14 エバーシーン リミテッド アクティビティ認識のための量子化された遷移変化の検出

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972254B2 (en) * 2011-06-28 2015-03-03 Utah State University Turbo processing for speech recognition with local-scale and broad-scale decoders
CN103471589B (zh) * 2013-09-25 2015-10-21 武汉大学 一种室内行人行走模式识别和轨迹追踪的方法
CN104142916B (zh) * 2014-01-08 2016-02-24 腾讯科技(深圳)有限公司 一种设定crf预测值的方法和装置
CN106228850A (zh) * 2014-12-30 2016-12-14 江苏理工学院 基于滚动规划策略的船舶轨迹实时预测方法
US10069519B1 (en) * 2018-01-23 2018-09-04 Mitsubishi Electric Research Laboratories, Inc. Partition based distribution matcher for probabilistic constellation shaping

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230294A (ja) * 1994-02-18 1995-08-29 Matsushita Electric Ind Co Ltd 言語識別装置
JPH08167853A (ja) * 1994-12-13 1996-06-25 Fujitsu Ltd データ圧縮・復元方法
JP2009276886A (ja) * 2008-05-13 2009-11-26 National Institute Of Information & Communication Technology 動作学習装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element
US6366418B1 (en) * 1999-06-30 2002-04-02 Maxtor Corporation Method for reducing data overhead in PRML data channel
WO2006132559A1 (en) * 2005-06-03 2006-12-14 Intel Corporation Methods, apparatus, and systems for order-adaptive compression

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230294A (ja) * 1994-02-18 1995-08-29 Matsushita Electric Ind Co Ltd 言語識別装置
JPH08167853A (ja) * 1994-12-13 1996-06-25 Fujitsu Ltd データ圧縮・復元方法
JP2009276886A (ja) * 2008-05-13 2009-11-26 National Institute Of Information & Communication Technology 動作学習装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG199700172035; 高良 富夫、外2名: '"遺伝的アルゴリズムを用いる多数状態マルコフモデルの状態数の決定"' 電子情報通信学会論文誌 Vol.J80-D-II, No.5, 19970525, p.1308-1310, 社団法人電子情報通信学会 *
JPN6014042901; 高良 富夫、外2名: '"遺伝的アルゴリズムを用いる多数状態マルコフモデルの状態数の決定"' 電子情報通信学会論文誌 Vol.J80-D-II, No.5, 19970525, p.1308-1310, 社団法人電子情報通信学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022540069A (ja) * 2019-07-01 2022-09-14 エバーシーン リミテッド アクティビティ認識のための量子化された遷移変化の検出
JP7285973B2 (ja) 2019-07-01 2023-06-02 エバーシーン リミテッド アクティビティ認識のための量子化された遷移変化の検出

Also Published As

Publication number Publication date
US20120053944A1 (en) 2012-03-01
US8405531B2 (en) 2013-03-26
JP5645777B2 (ja) 2014-12-24

Similar Documents

Publication Publication Date Title
US8917907B2 (en) Continuous linear dynamic systems
US11526698B2 (en) Unified referring video object segmentation network
JP5645777B2 (ja) 圧縮された状態シーケンスを求めるための方法
AU2015357110B2 (en) Method for text recognition and computer program product
Yang et al. Continuous hand gesture recognition based on trajectory shape information
Roy et al. An efficient sign language recognition (SLR) system using Camshift tracker and hidden Markov model (hmm)
EP2659335A1 (en) System and method for gesture recognition
Sagayam et al. A probabilistic model for state sequence analysis in hidden Markov model for hand gesture recognition
Wang et al. A novel sign language recognition framework using hierarchical grassmann covariance matrix
Elakkiya et al. Subunit sign modeling framework for continuous sign language recognition
Kang et al. Real-time multiple people tracking using competitive condensation
Elakkiya et al. Extricating manual and non-manual features for subunit level medical sign modelling in automatic sign language classification and recognition
CN112668607A (zh) 一种用于目标物体触觉属性识别的多标签学习方法
Han et al. Boosted subunits: a framework for recognising sign language from videos
Kim et al. Uncertainty-aware semi-supervised few shot segmentation
Kang et al. Utilization of hierarchical, stochastic relationship modeling for Hangul character recognition
Lin et al. Ctc network with statistical language modeling for action sequence recognition in videos
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
Nyirarugira et al. Hand gesture recognition using particle swarm movement
Kelly et al. Recognition of spatiotemporal gestures in sign language using gesture threshold hmms
WO2023116572A1 (zh) 一种词句生成方法及相关设备
Kumar et al. Bayesian background models for keyword spotting in handwritten documents
Kulkarni et al. An unsupervised framework for action recognition using actemes
US20220222435A1 (en) Task-Specific Text Generation Based On Multimodal Inputs
Jiang et al. Video action segmentation via contextually refined temporal keypoints

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140618

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140618

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140618

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141104

R150 Certificate of patent or registration of utility model

Ref document number: 5645777

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees