JP2012069103A - 圧縮された状態シーケンスを求めるための方法 - Google Patents
圧縮された状態シーケンスを求めるための方法 Download PDFInfo
- Publication number
- JP2012069103A JP2012069103A JP2011183669A JP2011183669A JP2012069103A JP 2012069103 A JP2012069103 A JP 2012069103A JP 2011183669 A JP2011183669 A JP 2011183669A JP 2011183669 A JP2011183669 A JP 2011183669A JP 2012069103 A JP2012069103 A JP 2012069103A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- state sequence
- compressed state
- probability
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000007704 transition Effects 0.000 claims abstract description 34
- 238000007906 compression Methods 0.000 claims description 23
- 230000006835 compression Effects 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000013144 data compression Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19187—Graphical models, e.g. Bayesian networks or Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
- G06V30/373—Matching; Classification using a special pattern or subpattern alphabet
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】データ“x”の入力シーケンスから圧縮状態シーケンス“s”が直接求められる。確定関数f(“x”)が固有の状態遷移のみを追跡し、各状態の滞留時間は追跡しない。多項式時間圧縮状態シーケンス推測方法は従来の圧縮状態シーケンス推測技法よりも性能が優れている。CRF及びHMMのための従来の状態シーケンス推測技法は、正確な予測に焦点を当てるが、これは目標が各状態の滞留時間を追跡することではなく、状態遷移を追跡することであるいくつかの用途では必要とされない。この発明は、この問題を解決するように明示的に設計された多項式時間状態シーケンス推測手順を提供する。
【選択図】図2A
Description
直鎖条件付き確率場(CRF)及び隠れマルコフモデル(HMM)は、シーケンシャルデータをラベル付けするのに用いることができる2つの確率モデルである。データがラベル付けされた後、状態シーケンスを求めることができる。選択された特徴関数に依拠して直鎖CRF及びHMMを交換可能に用いることができる。この発明はCRFの手順に焦点を当てる。
条件付き分布p(“x”|“y”)をモデル化するための直鎖CRFを以下のように定義することができる。
データシーケンスの従来のラベル付けは、同時密度“y*”=arg maxyp(“y”|“x”)を用い、ここで関数「arg max」は最大値を返す。解は、再帰δt(j)=maxiΨ(j,i.xt)δ t−1を用いてビタビ手順により求めることができる。これは、最大積法則に基づいて最可能経路を伝播する。しかしながら、多くの用途において、完全なシーケンスを正確に予測することは非常に困難であるので、個々の予測が用いられる。これは、Forward−Backward(前向き後ろ向き)と呼ばれる動的プログラミング手順を適用することによって、周辺分布p(yi,t|”x”)からyi,tを予測することにより達成することができる。前方再帰はαt(j)=ΣiΨ(j,i,xt)αt−1(i)であり、ここでαt(j)は前方変数であり、後方再帰はβt(i)=ΣiΨt+1(j,i,xt+1)βt+1(j)であり、ここでβt(i)は後方変数である。次に、これらの変数を用いることによって周辺確率を求めることができる。
この発明の実施の形態は、取得データから状態の圧縮シーケンスを推測するための方法を提供する。人間の動きを予測する1つの用途例では、状態の圧縮シーケンスを、“s”=compress(“y”)として定義する。ここで、s、j、w、rは任意の状態である。“y”={s,s,j,j,j,w,w,r,r}である場合、“s”=compress(“y”)={s,j,w,r}である。これ以降、シンボル
式(4)において、圧縮シーケンス“s0”に対応する指数関数的な個数の可能な完全状態シーケンス“y”が存在し得る。この問題を克服するために、前方再帰を適用しながらシーケンス“s”の遷移を追跡することを説明する。
入力データxtについて同じ状態に留まり(矢印311で示される)、
状態siからsi+1への遷移を行う(矢印312で示される)。
データ“x”の入力シーケンスを所与とすると、圧縮シーケンス“s”を求める最初のステップは、シーケンス“s”の長さcを求めることである。ここで、cは、状態遷移が存在しないことを意味する1から、最大で、全ての1つ1つのインクリメントにおいて遷移が存在することを意味するシーケンス長Tまでの値を取ることができる。全てのc>Tについて、p(c=c0|“x”)=0である。長さiの圧縮シーケンスの集合は“S i ”であり、すなわちi=1,...,Tについて“Si”={“s”:|“s”|=i}である。i≠jについて
周辺分布p(si=j|“x”,c)を求めるために、行iにおけるエントリを除いて、高さcを有するテーブルの全てのエントリを含めることによって、制約集合Qi,jを構築する。次に、この集合に(i,j)を加える。この特定の制約集合構成は、長さc及びsi=jの全ての可能な圧縮シーケンス構成を含む。このとき、周辺確率は、p(si=j|“x”,c)=Z(Qi,j)/ΣjZ(Qi,j)である。
次に、上記のステップを適用し、以下を最大にすることによって、圧縮状態シーケンスが求められる。
上記に続いて、図2Bは方法202をより詳細に示している。
最初に、p=(c|“x”)に従って入力データシーケンス“x”={x1,x2,...,xT}201に対応する、可能な圧縮状態シーケンスの長さc261の確率を求める(251)。ここで、i=1,...,Tである。
次に、出力圧縮状態シーケンス
次に、
そして最後に、
この発明の圧縮状態シーケンス推測方法の以下の応用形態を説明する。
移動ロボットへの応用形態において、ロボットはグリッドを用いて環境内で追跡される。特に環境を発掘する目的で、シーケンシャルモデルが頻繁に用いられる。この応用形態では、正確なグリッド反復は重要でなく、ロボットが順番に横切ったロケーションを示す圧縮バージョンが重要である。
この応用形態は、スマートフォン、携帯情報端末(PDA)、及びタブレットPC等の、タッチスクリーンを用いて文字及びグリフの入力を可能にする電子デバイスと共に用いることができる。一般に、問題は、通常1つの連続ストロークでタッチスクリーン上に描かれた形状を認識することである。
手書きの認識は通常、最初に手書きをセグメント化し、次にそれらのセグメントをサポートベクターマシン(SVM)等のマルチクラス分類器を用いて認識することによって実行される。多くの場合に、言語の文法も用いられる。しかしながら、セグメント化は前処理として行われることが通常想定される。
電子料金収受(ETC)の応用形態において、目標は、カメラ又は3Dセンサーを用いて車両のタイヤ及びトレーラーの数をカウントすることである。圧縮状態シーケンス推測方法は、経時的にこれらの観測値を用いて、全ての状態、たとえば車体、タイヤ、牽引棒を推定し、これによって、料金を求めるための、車両のタイヤ及びトレーラーの数に関する情報がもたらされる。
発話認識において、HMM、並びにビタビ及びForward−Backward等の従来の状態シーケンス推測方法は、多くの場合に、発話された単語をテキストに変換するために用いられる。オーディオ信号の基礎にある状態は音素であり、一般的に、2つの状態間の正確な遷移点は曖昧である。しかしながら、発話された単語の速度に基づいて、オーディオ信号の長さは同じ単語について変動する可能性がある。圧縮状態シーケンス推測は、正確な遷移点を見つけることなく発話された単語を音素に復号する。これは発話認識には十分な情報である。
証明。一般性を損なうことなく、s0,1=1、s0,2=2、s0,3=3、...s0,c=cとし、t1、t2からtc−1までを状態遷移時間とする。すなわちt1はs0,1=1からs0,2=2への遷移である。
Claims (12)
- 入力データシーケンス“x”から出力圧縮状態シーケンス
p=(c|“x”)に従う前記入力データシーケンス“x”={x1,x2,...,xT}に対応する可能な圧縮状態シーケンスの長さcの確率を求めるステップであって、ここでi=1,…,Tであるものと、
前記出力圧縮状態シーケンス
を備え、前記各ステップはプロセッサにおいて実行される、方法。 - 前記出力圧縮状態シーケンスはロボットを追跡するものである、請求項1に記載の方法。
- 前記出力圧縮状態シーケンスは単一ストロークの文字を認識するものである、請求項1に記載の方法。
- 前記出力圧縮状態シーケンスは手書きの単語を認識するものである、請求項1に記載の方法。
- 前記出力圧縮状態シーケンスは車両のタイヤ及びトレーラーの数をカウントして料金を求めるものである、請求項1に記載の方法。
- 前記出力圧縮状態シーケンスは発話を認識するものである、請求項1に記載の方法。
- 前記出力圧縮状態シーケンスにおける各前記状態はラベルを含む、請求項1に記載の方法。
- 前記出力圧縮状態シーケンスは隠れマルコフモデルを用いて求められる、請求項1に記載の方法。
- 前記出力圧縮状態シーケンスは条件付き確率場を用いて求められる、請求項1に記載の方法。
- 前記入力データシーケンスは時系列である、請求項1に記載の方法。
- 前記周辺確率は動的プログラミング前向き後ろ向き手順を用いて求められる、請求項2に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/872,054 | 2010-08-31 | ||
US12/872,054 US8405531B2 (en) | 2010-08-31 | 2010-08-31 | Method for determining compressed state sequences |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012069103A true JP2012069103A (ja) | 2012-04-05 |
JP2012069103A5 JP2012069103A5 (ja) | 2014-07-31 |
JP5645777B2 JP5645777B2 (ja) | 2014-12-24 |
Family
ID=45698352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011183669A Expired - Fee Related JP5645777B2 (ja) | 2010-08-31 | 2011-08-25 | 圧縮された状態シーケンスを求めるための方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8405531B2 (ja) |
JP (1) | JP5645777B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022540069A (ja) * | 2019-07-01 | 2022-09-14 | エバーシーン リミテッド | アクティビティ認識のための量子化された遷移変化の検出 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972254B2 (en) * | 2011-06-28 | 2015-03-03 | Utah State University | Turbo processing for speech recognition with local-scale and broad-scale decoders |
CN103471589B (zh) * | 2013-09-25 | 2015-10-21 | 武汉大学 | 一种室内行人行走模式识别和轨迹追踪的方法 |
CN104142916B (zh) * | 2014-01-08 | 2016-02-24 | 腾讯科技(深圳)有限公司 | 一种设定crf预测值的方法和装置 |
CN106228850A (zh) * | 2014-12-30 | 2016-12-14 | 江苏理工学院 | 基于滚动规划策略的船舶轨迹实时预测方法 |
US10069519B1 (en) * | 2018-01-23 | 2018-09-04 | Mitsubishi Electric Research Laboratories, Inc. | Partition based distribution matcher for probabilistic constellation shaping |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07230294A (ja) * | 1994-02-18 | 1995-08-29 | Matsushita Electric Ind Co Ltd | 言語識別装置 |
JPH08167853A (ja) * | 1994-12-13 | 1996-06-25 | Fujitsu Ltd | データ圧縮・復元方法 |
JP2009276886A (ja) * | 2008-05-13 | 2009-11-26 | National Institute Of Information & Communication Technology | 動作学習装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4593367A (en) * | 1984-01-16 | 1986-06-03 | Itt Corporation | Probabilistic learning element |
US6366418B1 (en) * | 1999-06-30 | 2002-04-02 | Maxtor Corporation | Method for reducing data overhead in PRML data channel |
WO2006132559A1 (en) * | 2005-06-03 | 2006-12-14 | Intel Corporation | Methods, apparatus, and systems for order-adaptive compression |
-
2010
- 2010-08-31 US US12/872,054 patent/US8405531B2/en not_active Expired - Fee Related
-
2011
- 2011-08-25 JP JP2011183669A patent/JP5645777B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07230294A (ja) * | 1994-02-18 | 1995-08-29 | Matsushita Electric Ind Co Ltd | 言語識別装置 |
JPH08167853A (ja) * | 1994-12-13 | 1996-06-25 | Fujitsu Ltd | データ圧縮・復元方法 |
JP2009276886A (ja) * | 2008-05-13 | 2009-11-26 | National Institute Of Information & Communication Technology | 動作学習装置 |
Non-Patent Citations (2)
Title |
---|
CSNG199700172035; 高良 富夫、外2名: '"遺伝的アルゴリズムを用いる多数状態マルコフモデルの状態数の決定"' 電子情報通信学会論文誌 Vol.J80-D-II, No.5, 19970525, p.1308-1310, 社団法人電子情報通信学会 * |
JPN6014042901; 高良 富夫、外2名: '"遺伝的アルゴリズムを用いる多数状態マルコフモデルの状態数の決定"' 電子情報通信学会論文誌 Vol.J80-D-II, No.5, 19970525, p.1308-1310, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022540069A (ja) * | 2019-07-01 | 2022-09-14 | エバーシーン リミテッド | アクティビティ認識のための量子化された遷移変化の検出 |
JP7285973B2 (ja) | 2019-07-01 | 2023-06-02 | エバーシーン リミテッド | アクティビティ認識のための量子化された遷移変化の検出 |
Also Published As
Publication number | Publication date |
---|---|
US20120053944A1 (en) | 2012-03-01 |
US8405531B2 (en) | 2013-03-26 |
JP5645777B2 (ja) | 2014-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8917907B2 (en) | Continuous linear dynamic systems | |
US11526698B2 (en) | Unified referring video object segmentation network | |
JP5645777B2 (ja) | 圧縮された状態シーケンスを求めるための方法 | |
AU2015357110B2 (en) | Method for text recognition and computer program product | |
Yang et al. | Continuous hand gesture recognition based on trajectory shape information | |
Roy et al. | An efficient sign language recognition (SLR) system using Camshift tracker and hidden Markov model (hmm) | |
EP2659335A1 (en) | System and method for gesture recognition | |
Sagayam et al. | A probabilistic model for state sequence analysis in hidden Markov model for hand gesture recognition | |
Wang et al. | A novel sign language recognition framework using hierarchical grassmann covariance matrix | |
Elakkiya et al. | Subunit sign modeling framework for continuous sign language recognition | |
Kang et al. | Real-time multiple people tracking using competitive condensation | |
Elakkiya et al. | Extricating manual and non-manual features for subunit level medical sign modelling in automatic sign language classification and recognition | |
CN112668607A (zh) | 一种用于目标物体触觉属性识别的多标签学习方法 | |
Han et al. | Boosted subunits: a framework for recognising sign language from videos | |
Kim et al. | Uncertainty-aware semi-supervised few shot segmentation | |
Kang et al. | Utilization of hierarchical, stochastic relationship modeling for Hangul character recognition | |
Lin et al. | Ctc network with statistical language modeling for action sequence recognition in videos | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
Nyirarugira et al. | Hand gesture recognition using particle swarm movement | |
Kelly et al. | Recognition of spatiotemporal gestures in sign language using gesture threshold hmms | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
Kumar et al. | Bayesian background models for keyword spotting in handwritten documents | |
Kulkarni et al. | An unsupervised framework for action recognition using actemes | |
US20220222435A1 (en) | Task-Specific Text Generation Based On Multimodal Inputs | |
Jiang et al. | Video action segmentation via contextually refined temporal keypoints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140618 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140618 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20140618 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20140710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5645777 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |