JP2014515131A - 隠れマルコフモデルを見出す方法 - Google Patents

隠れマルコフモデルを見出す方法 Download PDF

Info

Publication number
JP2014515131A
JP2014515131A JP2013557997A JP2013557997A JP2014515131A JP 2014515131 A JP2014515131 A JP 2014515131A JP 2013557997 A JP2013557997 A JP 2013557997A JP 2013557997 A JP2013557997 A JP 2013557997A JP 2014515131 A JP2014515131 A JP 2014515131A
Authority
JP
Japan
Prior art keywords
graph
state
states
observed
transitions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013557997A
Other languages
English (en)
Other versions
JP5898704B2 (ja
Inventor
アルベルト ガリック,
Original Assignee
アルベルト ガリック,
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルベルト ガリック, filed Critical アルベルト ガリック,
Publication of JP2014515131A publication Critical patent/JP2014515131A/ja
Application granted granted Critical
Publication of JP5898704B2 publication Critical patent/JP5898704B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明は、ModelGrowerプログラムを使用して、可能性のある候補をオリジナルまたは集計モデルから生成する。同型削減プログラムは、前記候補に動作し、同型モデルを識別および除外する。マルコフモデル評価および最適化プログラムは、残っている非同型候補に動作する。候補は、最適化され、データに最も密接に一致するものが、維持される。ある段階の最も最適化された候補が、次の段階のための開始候補となり、そこで、ModelGrowerおよび他のプログラムは、最適化候補に動作し、新しい最適化候補を生成する。本発明は、繰り返しによって、有意により良好な結果をもたらさなくなるまで、成長させるステップ、同型体を除外するステップ、評価するステップ、および最適化するステップを繰り返す。

Description

(関連出願の引用)
本願は、米国特許出願第11/282,410号(2005年11月18日出願)の継続出願であり、該出願は、米国仮特許出願第60/629,114号(2004年11月18日出願)の優先日の利益を主張する。
本発明は、一般に、モデル化に関し、特に、隠れマルコフモデルを状態および遷移データから生成することに関する。特許文献1では、発明者らは、離散時系列データをモデル化する際に使用される統計モデルのクラスの1つとして、隠れマルコフモデル(HMM)について論じている。そのようなデータに必然的に生じる問題として、ロボットナビゲーション、機械視覚、および信号処理が挙げられ、HMMは、これらの問題に対処するための多くの最先端アルゴリズムの核である。加えて、自然言語処理の多くの問題は、品詞タグ付け、話題分割、発話認識、一般実体認識、および情報抽出を含む、HMMによってモデル化され得る時系列データを伴う。
米国特許商標庁データベースは、2005年11月15日現在において、「隠れマルコフモデル」に関して、1,200件を超えるヒット数を示す。HMM技術は、音声認識、手書き文字認識、信号処理、および遺伝子工学を含むが、それらに限定されない、多数の分野において現れる。これは、実世界の現象の複合データセット内の状態システムを見出すための基本ツールである。しかしながら、そのような複合データを表すHMMに到達するための多くの技法は、非常に実証的である。したがって、そのようなデータセットからHMMを生成し、HMMに従って、複合システムを試験および/または変更するための改善された方法の必要性が存在する。
本発明は、元々、イオンチャネルを研究するために設計された関連技術技法を反復する、マウスの睡眠段階データの研究から生じている(“Maximum likelihood estimation of aggregated Markov processes” Proceedings of the Royal SocietyB, Vol. 264, No. 1380, pp. 375−383, Mar 22, 1997)。固定グラフのパラメータを最適化する先行技術を拡張させることによって、本発明は、「最良」または最も可能性の高いグラフモデルに到達するための方法を提示する。本方法は、物理、化学、生物、生理、社会、および経済システムにおいて、隠れマルコフモデル(HMM)状態機械を識別するためのデータ処理技法である。発話処理の先行技術と異なり、例えば、本発明は、所定の左右モデル(left−to−right model)のライブラリまたは任意の他のライブラリから選択せず、新しいモデルを各新しい組のデータから決定する。
状態機械は、ある状態から別の状態へ、および、そこからオリジナル状態に戻るかまたは他の状態へ等、遷移するシステムを説明するために使用される概念である。滞在時間は、任意のある状態において費やされる時間である。状態間の滞在時間と遷移とは観測され得るが、それらは、多くの場合、限定的または間接的観測によって区別することができない集計である。観測される状態機械は、同一のクラスの集計状態において、区別不可能状態間の不可視遷移、または2つの集計状態の異なる要素間の区別不可能遷移を含み得る。マルコフシステムでは、遷移は、瞬時かつ無作為である。すなわち、ある状態から別の状態への所与の時間における遷移の時間単位あたりの確率は、理想的には、システムの履歴ではなく、その時間におけるその遷移速度および状態のみに依存する。これらの遷移速度は、異なる終了遷移速度を伴う状態が、概して、異なる滞在時間分布を有するであろうという点において、その他の点では同じ状態を区別可能にする。観測は、基準時点、フレーム、またはサンプリング間隔として知られる期間にわたって行われ、これらのそれぞれに対して、クラスまたは集計状態が、割り当てられる。集計状態は、したがって、その観測された滞在時間のヒストグラムにおいて容易に区別することができる。現在まで、集計遷移は、一般に、そのように区別が容易ではなかった。実際、いくつかの理想的隠れマルコフモデルは、その定常状態統計によって、区別不可能である(“Using independent open−to−closed transitions to simplify aggregated Markov models of ion channel gating kinetics” PNAS 2005 102: 6326−6331,これ以降“ピアソン”と呼ぶ)。
実際、最も興味深いシステムは、外部入力を有するか、平衡から外れるか、一定の遷移速度を有しないか、または別様に基本的に定常状態ではなく、したがって、ピアソンの正準等価性に影響されない。そのような実システムに対して、グラフ同型性は、唯一の組織化原理である。すなわち、ピアソンの歪曲正準形の非物理的負遷移速度は、幸いにも、回避され、それらがどのように実データに適合するかによって、モデルを区別する際、それほどの曖昧性は存在しない。本発明は、同型性まで、すなわち、隣接性を保存するグラフの再ラベル化まで、「最良」隠れマルコフモデルを究明する。
生理学的および生物学的プロセスは、多くの場合、状態機械に類似する。例えば、マウスの睡眠サイクルは、急速眼球運動(REM)睡眠、徐波睡眠、および覚醒として識別される状態を含む。これらの3つの状態は、EEG睡眠ポリグラフィ研究において、容易に識別され、一見、単純3状態機械が、全状態間の遷移に伴って生じる(直接、覚醒からREM睡眠への遷移が認められない場合を除外する)。遷移は、明白な外部刺激を伴わない場合、無作為に発生し、したがって、状態機械は、マルコフシステムと見なされ得る。しかしながら、3つの観測された状態滞在時間のヒストグラムは、観測された状態の各々に対して、複数の隠れ状態が存在することを示す。これらの6つ以上の隠れ状態を隠れ遷移と接続する方法は、全く明確ではなく、実際、可能性のある接続されたグラフモデルの数は、状態および遷移の数に伴って、組み合わせ的に増加する。隠れマルコフモデルは、データから容易に明白とならない状態および遷移を有するが、それらは、それでもなお、マルコフモデルによって表されるシステムの実構成要素である。隠れマルコフモデルを見出すことによって、調査者は、内在プロセスに関してより多くを学習し、研究される物理、化学、生物、生理、社会、および経済システムの現象をより良好に説明可能となり、当業者は、変数がどのようにシステムに影響を及ぼすかを測定するために実験を行う。
マルコフモデルは、システムが、異なる方法でアクティブ化される場合、観測者が、可能性のある結果に関する予測を行うことを可能にする。例えば、制御マルコフシステムからのデータが、実験マルコフシステムからのデータと比較され、制御システムと実験システムとの間の変数が、システムレベルに変化を生成するかどうか、すなわち、異なる状態および異なる状態間の遷移をもたらすかどうかが確認され得る。制御マルコフシステムと実験マルコフシステムとの比較は、制御システムと実験システムとの間の全体的差異だけではなく、また、それらの差異が、システムの動作において明らかにされる点に関するより多くの情報を与える。例えば、非常に限定されたマウスの睡眠データの我々の分析では、我々は、野生型であると考えられるマウスの睡眠サイクルを発見し、ダブルノックアウトマウスが、その睡眠モデルに劇的変化を有したが、これは、単独ノックアウトマウスの全体的観測によって決定され得ない結果である(Joho参照)。
複合システムは、マルコフモデルによって定義することができるが、隠れ状態が存在するとき、モデルを識別することは、困難である。隠れマルコフモデルを模索する調査者は、多くの場合、実証的方法を使用して、隠れマルコフモデルを識別する。しかしながら、複合システムは、多くの場合、組み合わせ的に増加する数の可能性のあるマルコフモデルを有するであろう。潜在的隠れマルコフモデルを評価するために、多数のマルコフモデルをすべての考えられる隠れ状態および状態間の遷移と対比させなければならない。例えば、最大16の自由度(すなわち、最大8つの遷移)を伴うマウス睡眠モデルに対して、候補モデルは、3つの別個の観測可能クラス(色)からの最大8つのエッジおよび最大9つの状態の全ての接続されたグラフを含む。762,291のそのような別個の(非同型)グラフが存在することになる。
米国特許第6,965,861号明細書
本発明は、改善された閲読、分析、および/または解釈用データの提示のデータ改良方法を対象とする。したがって、本発明は、データ可読性、分析能力、および/または解釈能力を改善し、ユーザが、そのタスクをより効率的に行うことを可能にするように、データを提示するという課題を対象とする。さらに、本発明は、認知コンテンツが、どのように読者、分析器、および/またはインタープリタに伝達されるかにも関する。
特に、本発明は、先行技術の前述の問題を克服し、調査者が、ルールの組に従うことによって、隠れマルコフモデルを見つけることを可能にする。ルールは、調査者が、各反復において、「最良」(例えば、最も可能性の高い)隠れマルコフモデルにつながる、一連の繰り返しステップを行うように、所与のデータセット内のデータを採用し、それに従う。ステップのルールの各反復の終了時、最良候補モデルが、記憶され、そのスコア(例えば、尤度)は、次の最良候補モデルのものと比較される。スコアの差異が、有意である場合、最良候補のさらなる複合性が、正当化される。本発明は、統計確率およびマルコフモデル構造の組み合わせに基づき、その構築およびその修正は、検査下のデータによって推進される。本発明は、同型(同じまたは冗長)モデルを識別し、ステップの反復の間、1つのみの同型モデルを分析する。
ルールは、その適用において、すなわち、開始時、初期モデルの選択に伴って、および途中で、および問題に遭遇する場合、ある程度の変動をもたらす。ルールは、同一の結果が、通常、異なるルールの適用(例えば、途中での等しく「最良」候補の異なる選択または開始モデルの異なる選択)によって得られるという点において、ロバストである。
加えて、本発明は、見つけられたマルコフモデルをユーザに視覚化することができ、各マルコフモデルの状態および遷移は、画面上に項目(または、画像)として配列されるか、印刷等される。すなわち、状態は、項目または記号(例えば、長方形ボックス)によって視覚化され、遷移は、状態を接続する矢印によって視覚化され、遷移確率は、数字によって可視化され得る。
したがって、隠れマルコフモデルの使用によって、データに関する情報が、ユーザに伝達される。認知テキストに関する情報を伝達するこの特定の様式は、ユーザが、そのタスクをより効率的に行うことを可能にする。
本発明は、とりわけ、種々の有機体の生理学を特徴化および可視化するためのツールを提供する、すなわち、本発明は、対応する有機体の物理、化学、生物、生化学、および/または心理学的機能ならびにプロセスを決定可能にする。有機体は、分子、生体分子、細胞、器官、または同等物等の「生体」システムであることができる。さらに、有機体は、有機体の任意の生物学的プロセスを表すことができる。しかしながら、また、本発明を医薬品または薬物等の「非生体」システムに適用可能である。この場合、本発明は、医薬品/薬物の有効性および/または機能性を決定し、見つけられた決定に対応して、これらの実体を適応させるために使用することができる。例えば、本発明によって、調査者は、試験データをシステム内の新しい製品とより迅速に区別し得る。異なる薬物投与計画下、生理学的システムの隠れマルコフモデルを把握することによって、科学者は、具体的状態におけるシステムに影響を及ぼし、薬物の有益な効果を最大化する薬物を見つけることが可能となり、それによって、薬物類および生理学的システム自体の両方を解明する。
本方法は、コンピュータ上にインストールされたプログラム(ソフトウェア)等のコンピュータ実装発明として理解される。プログラムは、医薬品または薬物等の物理的実体を表すデータを処理し得る。
図1は、暗闇下の野生マウスの睡眠サイクルを示す。 図2は、照明下の野生マウスの睡眠サイクルを示す。 図3は、暗闇下の遺伝子組み換えマウスの睡眠サイクルを示す。 図4は、照明下の遺伝子組み換えマウスの睡眠サイクルを示す。 図5は、隠れマルコフモデルを見出すための初期モデルを示す。 図6は、新しい遷移を追加するある方法である。 図7は、新しい遷移を追加する別の方法である。 図8は、次の最良状態を達成する、開始推量である。 図9は、次の最良状態を達成する、図8の開始推量から導出された最適化モデルである。 図10は、最良状態を達成する、最適化のための開始推量である。 図11は、最良状態を達成する、図10の開始推量から導出された最適化モデルである。 図12および13は、次の2つの成長ステップを示す。 図12および13は、次の2つの成長ステップを示す。
任意のマルコフ過程P、およびPの観測がMによってもたらされる尤度を最大化する、マルコフモデルMの遷移速度のための任意の最適化方法に対して、我々は、本発明が、それらの観測を生成した最も可能性の高いグラフとともに、モデルM*を構築し、十分な観測データによって、多くの場合、M*=Pとなることを主張する。
本実証のために、我々は、最適化方法およびhttp://www.qub.buffalo.edu.からダウンロードして利用可能なソフトウェアパッケージQUBにおいて利用可能なI/Oを使用する。本発明は、以下によって具現化される。
1)QUBによって提供される便利なインターフェースにおいて実行する、Pythonスクリプトである、ModelGrower.py。本プログラムのためのソースコードのコピーは、本特許に添付される。
2)NAUTY22ディレクトリ内のgeng.exe、allpermg.exe、shortg.exe、およびlistm.exeと、色区分を適切に処理するためのBrendan McKayのオープンソースソフトウェアパッケージNAUTYの当業者にとって分かりやすい関連付けられた拡張/修正とであって、オリジナルは、オンラインで取得され、マルコフモデルに内在するグラフの同型重複を計数および排除するために使用される。
3)NAUTY22ディレクトリ内のchecklist、countgraphs、およびcountgraphjobと、cygwinディレクトリ内のcountjob.batおよびcountjobs.bat。全て、プログラム2)を1)から読み出すためのスクリプトを接続する。
cygwin環境は、PC上で2)をコンパイルし、3)を起動するために必要とされる。cygwin環境のための便利なセットアップツールは、http://www.Cygwin.comから利用可能である。
最尤法が、長い間、仮想的隠れマルコフモデルの遷移速度を観測データに適合させるために使用されている。これらの方法の弱点は、その他の点では固定式であるモデルにおいて、いくつかのパラメータしか、最適化することができないことである。本発明は、任意の推測的仮定を伴わずに、データによって、モデルがどのようなものであるべきか、すなわち、最も可能性の高い内在グラフがどのようなものであるかを把握するためのある方法を提供する。
最先端技術は、グラフが、既知であるか、推量されるか、または許容されるノードおよびエッジの数に伴って、組み合わせ的に成長する、いくつかの可能性のあるグラフから試行錯誤によって見つけられなければならないものである。区別不可能状態への観測されていない遷移、すなわち、隠れエッジおよびノードが、許容される場合、可能性のあるノードおよびエッジの数に制限はない。明らかに、隠れノードおよびエッジは、我々が観測データから推察したい微妙な現象に正に対応する。
本発明は、データによって、モデルへの最も可能性の高い追加が、どのようなものであるべきかを把握することによって、本問題を解決する。我々は、電位エネルギー超曲面の離散化としてモデルを捉え、モデルにおいて、各状態は、極小であって、各遷移は、エネルギー障壁を克服し、ある極小から別の極小に遷移するための全ての可能性のある方法を表す。この類推法は、本方法を促すが、必ずしも、それを制限するものではない。例えば、我々は、電位エネルギーの明白な定義がなく、明らかに平衡から外れている(サイクルの不可逆的方法のため)睡眠サイクルをモデル化するための方法を使用した。実際、定常状態システムに対して、ピアソンによって予期される区別不可能尤度の縮退モデルの数が、モデル成長の各段階で大幅に減少されるという点において、非平衡、不可逆的、または別様に、非理想的システムからのデータに関して本方法を使用する利点がある。
我々は、観測データを説明する最も単純なモデルから開始する(多くの場合、単純に、1つの遷移を伴う2状態モデル)。本開始モデルは、隠れ状態および遷移が合体されている場合、本データに対して、過度の単純化となり得る。ここで、全ての可能性のある方法に1つの遷移を追加し、それらの各々を最適化し、最大対数尤度(「最良LL」)を伴うものを選択することは、モデルに追加するための次の最も可能性の高い自由度を見つけることになる。より具体的には、初期条件としての現在のモデルの遷移速度とともに、2つの新しい速度に対する合理的推測を使用して、我々は、全ての可能性のある方法に、1)既存の状態間、または2)全ての可能性のある方法において再配分された既存の接続を伴う分裂状態間の新しい遷移を追加する。これは、全ての可能性のある方法における電位エネルギー表面の離散モデルをより自由度を伴うモデルに緩和するための自然な方法である。開始モデルは、各々が2つの追加された自由度を有する、各新しい初期モデルの合体されたサブモデルであるので、最高尤度を達成するこれらの新しい初期モデルから最適化されたモデルを選択することは、公平な比較である。新しいモデルのいずれも、有意により高い対数尤度を達成しない場合(すなわち、「差分LL」が小さい場合)、データは、追加された自由度を正当化しない。したがって、我々は、アルゴリズムに対する我々の停止基準および最も単純なモデルを選択するための組込赤池情報量規準を設ける。
また、各次のより大きな試行モデルにおいて、初期条件として、最適化速度を使用することによって、我々は、データによって、グラフを成長させる最良方法を把握することに留意されたい。これは、迅速に、不良グラフの全てを考慮から排除することになる。本実証の一実施例である、8つのエッジの接続されたグラフを伴うマウス睡眠モデルのDKO1ight8において、それ以上の自由度を伴わない、候補グラフの数は、3つの別個の観測可能クラス(色)からの最大8つのエッジおよび最大9つの状態の全ての接続されたグラフから成る。以下のように、762,291のそのような別個の(非同型)モデルが存在する(スクリプトNAUTY22/countgraphjobによって算出)。
しかしながら、本モデルをデータから抽出するために、その遷移速度に対して、368のモデルのみ、最適化されるために必要であって、これらのうち、1度に最大88が、並行して行われ得る(第6の成長段階において)。本合計数368は、第7の成長段階で最適化された91モデルを含み、そのいずれも、正当化されないことが分かった。
以下に提示されるデータは、2組のマウスに依拠する。一方の組は、遺伝子組み換えが行われなかった通常またはいわゆる野生型マウスを含む。他方の組は、2つの遺伝子を除去するために、遺伝子組み換えが行われたマウスを含む。後者は、ダブルノックアウト(DKO)マウスと呼ばれる組である。我々は、DKO1ight8モデルおよびそのデータにおいて見つけられた遷移速度(すなわち、自由度)の数から、762,291の可能性のあるグラフの我々の母集団の範囲を計算し、最大接続グラフ次数9をもたらすが、アルゴリズム内のいずれも、本限界を把握することに依存しないことに留意されたい。最後に、本アルゴリズムは、ある成長行程が、ある困難に陥る場合でも、グラフを最終最良グラフに成長させるための多くの方法が存在するため、ロバストである。
(睡眠状態モデル化への適用)
我々は、U.Texas Southwestern Medical Center(Dallas,TX)のRolf Johoから、マウス睡眠状態の観測結果を入手した。これらのEEGベースのデータは、13の個々の野生型(WT)および13の個々のKv3.1/Kv3.3ダブルノックアウト(DKO)マウスに対する12/12照明/暗闇サイクルにおけるスペクトル的に割り当てられた24時間間の睡眠状態の観測結果である(ファイルMouseSleepKineticsWT.dwtおよびMouseSleepKineticsDKO.dwtならびに対応する照明および暗闇選択リスト参照)。各15秒の観測間隔が、コード1=REM睡眠(黒色、正方形)、2=徐波睡眠またはSWS(赤色、円形)、または3=覚醒(青色、六角形)に割り当てられる。照明および暗闇期間の間に差異を有するように、DKOマウスとWTマウスの睡眠/覚醒サイクルの大きな差異が、観測された(“Severely Disordered Sleep/Wake Cycle in KV3.1/KV3.3−DeficientMice”,F.Espinosa,G.A.Marks,&R.H. Joho,Abstract 580.A in SLEEP,Vol.25,Abstract Supplement 2002,pp.A411−412参照、本明細書では、「Joho」)。
本発明は、我々が開発したモデルにおいて既に明白であるように、これらの差異の生理学を明確かつ詳細に特性評価するためのツールを提供する。例えば、照明および暗闇の間の野生型マウス睡眠サイクルは、図1および2に示されるように、非常に類似しており、主に、睡眠サイクルが開始および終了する覚醒状態の反応速度が異なる(状態の番号付与は、モデルへのその追加の順序のみを示す。各色の状態は、区別不可能な集計状態である)。これらは、それぞれ、(WT暗闇9に対する)野生型暗闇データに関する7つのステップおよび(WT照明7に対する)野生型照明データに関する5つのステップ後の最も可能性の高い候補のHMMを表す。一方、ダブルノックアウトマウスは、図3および4に示されるように、野生型と、さらに暗闇と照明でも、根本的に異なる睡眠モデルを有する。これらは、それぞれ、(DKO暗闇8に対する)DKO暗闇データに関する6つのステップおよび(DKO照明9に対する)DKO照明データに関する7つのステップ後の最も可能性の高い候補のHMMを表す。
図1−4の4つのHMMは、図5に示される集計状態モデルから展開または成長されたものである。4つのデータセットの各々は、図5と同一の開始モデルを有する。図5の基礎モデルは、次いで、本発明のルールを使用して進化し、図1−4に示される最終モデルに到達した。図1−4は、本発明の方法によって見つけられたHMMを示す。HMMは、図1−4に示されるように、画面上に視覚化されるか、または紙に印刷される。本発明の結果は、4組のデータの各々が、異なるHMMを有することを示す。野生型暗闇および照明は、互に類似する。しかしながら、DKO暗闇および照明は、互に、かつ暗闇および照明に対する対応する野生型データとも異なる。したがって、本発明は、容易に、野生型とDKOの睡眠パターンを区別することができる。既存の方法は、ダブルノックアウトなしに差異を区別し得ないが、それは、各単独ノックアウトが、本方法が見つけたであろう睡眠サイクルにおける変化を引き起こし、したがって、ノックアウトされたKV3.1/KV3.3カリウムチャネルの機能を解明する可能性が高いと考えられる。
本発明は、コンピュータ上で1つ以上のプログラムを動作させることによって行われる。結果は、ディスプレイ上に提示されるか、または物理的実体上に印刷され、自動的に、処理データによって提示される、システム内で優先する条件に関する視覚的指標を与える。本発明のステップに従うために、以下の注意が、提供される。
インストール時の注意:
1)デフォルトcygwinインストールは、標準的bash shellに加え、tcshを含むように修正されなければならない。スクリプトは、より柔軟なtcshコマンド環境用に書かれる。
2)ModelGrower.py、countjob.bat、およびecho.batファイル内のパスは、正しい区分をポイントしなければならない([c−f]:を検索)
3)NAUTY22ディレクトリは、再コンパイルされる必要はない。
4)ModelGrower.pyは、Pythonスクリプトディレクトリ内のModelBuilder.pyと置換されるはずである。
実行時の注意:
1)我々は、秒をミリ秒として解釈し、したがって、時間尺度は、そのためにQUBが設計されたイオンチャネル反応速度にほぼ対応する。故に、最適化モデルにおける遷移速度は、1000秒あたりである。
2)我々は、不感時間=データサンプリング差分t(マウス睡眠データに対して15ミリ秒)を使用する。
3)理想化の前に、我々は、モデル内のデフォルト「イオンチャネル電流振幅」を黒色に対して1、赤色に対して2、および青色に対して3に変更し、睡眠状態コードに対応させる必要があった。デフォルト値は、0から始まる整数であった(閉鎖の間)。本変化は、.dwt(滞在時間)ファイルに反映される。
4)その最適化が失敗するグラフは、候補である可能性は低い。したがって、単に、(多くの)エラーボックスメッセージから「OK」を行い、スクリプトに次のグラフ候補に継続させる。
5)最適化は、前述のQUBプログラムまたは当業者に利用可能な任意の他の好適なマルコフ最適化プログラムを使用して達成される。QUBおよび他のそのようなプログラムは、局所最適のみを見つけることによってモデルを最適化し、この方法が最良または次の最良モデルを見つけ得ないことを示唆し、識別されたグラフおよび停止基準に関する疑問を生ずる。これらの不確実性を軽減するために、最適化は、「do Hypercube of starting rates:」にチェックされた「Yes」ボックスによって実行され得る。本選択肢は、4つの最適化を各モデルに関して行わせ、新しい遷移の2つの開始速度を定義する、正方形領域の4つの角から開始する。これは、全開始速度の周囲の超立方体の角からの開始速度の使用より遥かに経済的選択肢である。この選択肢は、ほんの時折、任意の段階において、最良または次の最良モデルを変化させる。
6)識別されたグラフの最適性を保証する、別の明白であるが、高価な方法は、異なる方法において、既存の接続を再配分することによって到達した同型モデルを最適化することであろう。本能力は、多くの問題となるグラフ最適化をやり直すことになるであろうため、実装されなかった。
7)時として、QUBは、特定のモデル最適化に関してクラッシュし、それに伴って、ModelGrowerスクリプトを削除し得る。病理学モデルは、異なるデフォルト開始速度、「do Hypercube of starting rates:」に関する「No」対「Yes」、異なる立方体半径等を伴うスクリプトを再始動することによって、回避することができる。最適化が、それらを全てスキップしないように、必ずNAUTY22ディレクトリ内の試行されたモデルのリスト(ファイル名「[0−9].*」)を除くことに留意されたい。我々は、QUBが、HMMを見つけるために必須ではない、ヒストグラムプロット化ステップに由来する、1つ以上の未処理浮動小数点例外をもたらし得ることを見出した。我々は、非必須ヒストグラムプロット化を無効にするか、または浮動小数点例外を処理するようにQUBを書き換えることのいずれかを推奨する。
8)新しい速度に対する最も合理的デフォルト開始値は、恐らく、既存の最適化速度の平均であるが、我々は、本設定をユーザに任せる(QUBモデルウィンドウ内の速度を右クリックする)。開始速度が遅いほど、より良好に動作すると考えられる。
9)最適化プロセスの間、本発明の方法によって抽出された任意のHMMは、視覚化され、画面上に配列されるか、または紙に印刷され、オペレータ/ユーザにオンラインで通知することができる。
マウスの睡眠モデル成長の概要
上記データは、本発明のHMMアルゴリズムの4組の反復を示す。「別個の最適化グラフ」は、可能性のある状態の総数が、NAUTYプログラムによって減少された後、本発明によって提供される非同型状態の数を示す。例えば、第1のデータセットにおける第1のステップ後、非同型(すなわち、一意かつ互に異なる)である15の候補が存在し、それらの各々は、グラフが次のステップを受ける前に、その尤度に関して、QUBによって評価される。第1のステップの最も可能性の高い候補のみ、第2のステップにおいて動作される。これは、QUB評価のための44の同型体を生成するであろう。
第1の組のデータは、さらなる改善の可能性低い、最終ステップに到達する前に、7つのステップを通過する。各組のデータは、超立方体によって、およびそれによってではなく、処理される。各ステップの各要素の対数尤度(LL)は、QUBプログラムによって提供される。最良および次の最良のみ、前の表に示される。データは、開始値の超立方体によって、およびそれによってではなく、試験される。非超立方体欄下の空白セルは、非超立方体に対する結果が、超立方体に対する結果と同一であることを示す。結果が異なるとき、結果は、非超立方体欄に示される。差分LLは、別個のグラフの最良のものと、グラフの各ステップに対する次の最良のものとの間の差異を示す。第1の2組のデータは、収穫逓減に到達し、これは、それらそれぞれの差分LLによって示され、それぞれ、1.64および0.88まで減少する。各々に対して、尤度にほとんど改善がなくなった後、最後の組の最良グラフが、最も可能性の高いHMMとして選択される(これらの例では、第4のステップにおいて)。
上記データに関する観測結果:
1)尤度は、無限小であって、したがって、その対数は、負となるであろうが、QUBは、定数によって、対数尤度を変換し、正にする。
2)DKO照明4−>5から閉鎖するループは、不可逆的(ゼロ速度)遷移を識別し、これは、ある意味、追加の自由度ではなく、したがって、本モデルが、本段階において、他との不公平な比較を受けたという理由から、小差分LL(0.17)が、容認された。
3)DKO暗闇7−>8からの成長のための大差分LL(18.32)は、DKO暗闇4−>5およびDKO暗闇6−>7の段階における2つの小差分LL(成長プロセスを外れさせ得る)の後に続き、不確かであるとして、無視された。
4)これらのモデルは、データによって正当化されるもののみである。遥かにより複雑な睡眠モデルは、より多くのデータとともに考えられる。モデルが大きいほど、可能性のあるモデルの数が、組み合わせ的に増加するにつれて(我々が、単純に、8つのエッジの代わりに、最大9つを可能にする場合、6,003,931の別個のモデルまで)、本方法をさらにより説得力のあるものにする。
(あるマウスの睡眠モデルの成長ステップの詳細)
暗闇下の野生型マウスの睡眠データに対して、我々は、図5に示されるように、観測可能状態遷移の大部分を記述する、モデルから開始することにする。図5は、野生型暗闇に対してラベル化されるが、他のデータセットの各々も、観測された状態に対して、同一の開始モデルを有する。観測された状態は、他の低可視性状態を隠し得る集計状態と見なされる。第1のインスタンスでは、観測または集計状態は、図中において、黒色が割り当てられ、正方形として示される、REM状態1と、赤色が割り当てられ、卵形によって指定される、徐波状態2と、青色が割り当てられ、六角形によって指定される、覚醒状態3とを含む。我々は、REM状態1と覚醒状態3との間の遷移を含み得るが、実際には、データにおいて、覚醒からREMの遷移はなく、したがって、我々は、本段階において、いずれの方向においてもこのような遷移を含まないように選択することに留意されたい。
本発明は、ModelGrowerプログラムを使用して、可能性のある候補をオリジナルまたは集計モデルから生成する。NAUTYプログラムは、候補に動作し、同型モデルを識別かつ排除する。QUBプログラムは、次いで、残っている非同型候補に動作し、その候補の速度を最適化する(例えば、データが、それらの速度を伴うモデルに由来した尤度を最大化する)ことによって、データに最も一致する候補を識別する。第1の段階の最適化候補は、次の段階に対する開始候補であって、そこで、ModelGrower、NAUTY、およびQUBが、再び、動作する。本発明は、ユーザによって定義される端点、好ましくは、差分LLを減少させることによって決定される閾値を伴う端点において終了する。
ModelGrowerプログラムは、もう1つの遷移を伴う全ての可能性のあるモデルを表す、候補モデルへと基礎モデルを成長させるプロセスを行う。ModelGrowerプログラムは、図5の基礎観測モデルから開始し、状態を分裂させる、またはオリジナルの接続されていない状態を接続することによって、それを成長させる。図5のモデルの全ての可能性のある改良のうち、NAUTYは、候補の数を1つの追加の遷移を伴う15の非同型候補まで減少させる。QUBは、次いで、15の候補を検証し、ModelGrowerは、データに最も一致する、1つの候補を選択する。段階1の最良候補は、段階2に対する新しい開始点となり、それは、隠れ状態および隠れ遷移に対して検証される。より具体的には、プログラムModelGrowerは、最初に、既存の(集計)状態を同一の色の2つの状態に分裂させることによって、全ての可能性のある方法において、候補を成長させる。NAUTYは、同型体を除去する。次いで、ModelGrowerは、各状態を2つの状態に分裂させ、一方の分裂された状態は、オリジナル状態と同一の色であって、他方の分裂された状態は、異なる色である。色の数は、観測された集計状態の初期数に対応する。NAUTYは、それらの状態に動作し、同型体を除去する。最後に、ModelGroweは、全ての接続されていない状態を接続し、NAUTYは、再度、動作する。第1の段階の終了時、15の候補が存在する。QUBは、それらを最適化することによって、15の候補を評価し、ModelGrowerは、候補の最良のものを識別する。最適化候補は、次いで、段階2に対する開始候補となり、そこで、候補は、再び、ModelGrowerによって、より多くの候補に成長され、それらの候補は、NAUTYによって、同型体に対して検証され、多数の可能性のある組み合わせを44まで減少され、それらの44の候補は、QUBによって最適化される。プロセスは、端点に到達するまで、7回、繰り返される。任意の好適な閾値に端点を設定し得る。野生型暗闇データに対して、端点は、次の差分LLが5.16であるように選択された。これは、モデルに対するデータ内の改善が少量であることを示す。
図6および7は、新しい遷移を追加する2つの方法を例示する。図6は、赤色の以前の状態2(卵形)が、どのように同一の色(赤色、卵形)の別の状態4および同一の色の新しい状態2(赤色、卵形)に分離され得るかを示す。図7は、遷移が、どのように以前の状態3、青色(六角形)と状態1、黒色(正方形)との間に追加されるかを示す。
WT暗闇2モデルに基づく、これらの作用モデルは、命名または保存されておらず、したがって、開始モデル、WT暗闇2の作業名を維持する。図6のモデルは、SWS状態2が、新しい遷移に伴いそこから分裂したSWS状態4を有し、その既存の遷移のうちの1つ(覚醒状態3を伴うもの)が、新しいSWS状態4に配分されることを示す。状態4は、任意の睡眠状態の色であり得、SWS状態2の既存の遷移のうちの任意のサブセットが配分され得る(または、いずれも配分され得ない)ことに留意されたい。図7における他のモデルは、新しい遷移によって接続された既存のREM状態1および覚醒状態3を示す。図6モデルの遷移を追加する方法は、区別不可能(集計)状態を伴うモデルが、それによって合体されているかもしれないグラフ縮約を反転させ、図7のモデルの方法は、省略されているかもしれない遷移を追加する。このように、集計状態の任意の補正モデルが、全ての観測可能遷移を考慮する、最も単純なモデルから、段階ずつ復元されることができる。
これらの新しい遷移に対する、図6における状態2と4との間および図7における状態1と3との間の開始速度は、この場合、1.0であったデフォルト開始速度に中心がある、倍数的半径10の超立方体(正方形)の2つの角、すなわち(10,10)および(0.1,10)に由来する。図6および7は、図5の一次またはオリジナル集計モデルの15の可能性のある非同型進化のうちの2つにすぎない。これらの開始速度は、例示であって、他の開始速度が使用され得る。全ての他の遷移速度は、これらの作用モデルのQUBによる最適化に対する開始値として維持されていることに留意されたい。
15の非同型グラフは、次の最大モデルを見つけるために、QUBによる最適化のための開始推量として、このように構築される。それらの15のモデルは、QUBによって最適化され、ModelGrowerが、15の初期モデルのうちの最良のものを選択し、そのモデルは、本発明の次の反復のための新しいモデルとなる。ステップ2に対する開始推量および次の最良LL=4721.55を達成するステップ2における最適化モデルは、それぞれ、図8および9に示される。
ステップ3に対する開始推量および最良LL=4823.34を達成する最適化モデルは、それぞれ、図10および11に示される。差分LL=101.79を伴う最良モデルが、容認、保存され、図11としてラベル化される。
WT暗闇3−>4からの差分LL=142.85およびWT暗闇4−>5からの差分LL=8.59を伴う、成長の次の2つのステップは、図12および13である。
各ステップにおける最良または最適化モデルは、次のステップのモデルを生成するために使用される。それらのモデルは、NAUTYによって除去されるその同型体を有し、非同型体は、QUBによって最適化され、したがって、ModelGrowerは、次のステップに対する最良モデルを選択し得る。前述のプロセスは、殆どまたは全く改善がなくなるまで、繰り返される。本発明は、野生型暗闇に対して7回、野生型照明に対して5回、DKO暗闇に対して6回、DKO照明に対して7回動作した。最終最適化モデルは、図1−4に示される。図1−13に示される任意のコンテンツは、画面上において、ユーザ/オペレータに表示される。表示されるHMMは、処理されるデータ内の関係を提示する。種々の状態は、整数を伴う記号(正方形、円形、...)によって視覚化され、これらの状態間の遷移は、矢印によって視覚化され、遷移確率は、矢印の他に、浮動小数点数によって視覚化される。したがって、ユーザは、明確に配列されるように、本発明の方法によって、入力データから抽出された結果に関して通知される。
本発明は、ユーザによってシステムに入力されたデータを処理するためのコンピュータ実装システムに関する。システムは、データを処理し、HMMを生成する。HMMは、2桁以上を備える数字から成り、状態および遷移確率を識別する。ユーザは、これらのHMMからの情報/認知コンテンツを使用して、調査下のその有機体を適応させることができる。すなわち、ユーザは、有機体を特徴化する単一パラメータを変更することによって、修正された有機体を表す新しい観測データを抽出することによって、および再処理のために、新しいデータを本発明のシステムに送信することによって、有機体を修正する観点から応答することができる。返信データは、修正された有機体を識別するコードならびにコード桁数によって識別される修正を表す文字から成るワード(または、ワードの一部)を含む。
本発明はまた、コンピュータに、前述の方法またはプロセスを実行させるコンピュータ実行可能命令を伴う、コンピュータ可読コンピュータプログラム製品に関する。コンピュータプログラム製品は、その上に記録された好適なソフトウェアプログラムを伴う、CD、DVD、HDD、USBスティック、メモリカード(CF、SD、MicroSD、MiniSD、SDHC、...)、または同等物であることができる。
添付の付属は、それらそれぞれのプログラムを動作させるための詳細なステップを提供する。QUBおよびNAUTYプログラムは、本発明との使用のために利用可能であって、それらは、参照することによって本明細書に組み込まれる。前述の参考文献のデータおよび他の開示もまた、参照することによって組み込まれる。
概要として、本発明は、最も単純な観測されたデータが、1つ以上の隠れ状態または隠れ状態間の遷移を含むと仮定することによって、HMMを見出す。本発明は、複合データ、特に、生物学的プロセスを表すデータからHMMを生成するために使用され得る。本発明は、そのようなプロセスの構造および動作を調査するための貴重なツールおよびプロセスを提供する。多数の用途が存在する。一実施例は、イオンチャネル通信である。生理学者は、細胞内のイオンチャネルが、細胞間および細胞内通信を制御すると考える。しかしながら、それらのイオンチャネルのオペレーションは、非常に複雑であって、それらに関して殆ど分かっていない。本発明を使用して、イオンチャネルオペレーションのためのHMMを見出し得る。状態機械の構造が、既知であるとき、1つ以上の薬剤、電位、あるいは電流または物理的摂動を使用して、状態または状態間の遷移を改変することによって、疾患を治療可能であり得る。例えば、疾患が、免疫応答の過多によって特徴付けられ、身体が、過剰なサイトカインを産生し、そのような過剰な産生が、有害であると仮定する。HMMを使用することによって、化学、電気、機械、または他の手段によって操作され、状態または遷移を改変し、それによって、応答を抑制する、重要な状態または重要な遷移を見出すことが可能であり得る。別の実施例は、身体が、その免疫応答を欠いているHIVに関する反対の例である。本発明を使用して、免疫応答を増幅させるように操作され得る、隠れ状態または隠れ遷移を識別することが可能であり得る。
本方法は、コンピュータ上にインストールされたプログラム(ソフトウェア)等のコンピュータ実装発明として理解される。プログラムは、医薬品または薬物等の物理的実体を表すデータを処理し得る。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
コンピュータを動作させて状態機械を表すデータの組をデコードすることにより、前記状態機械の最も可能性の高い隠れ状態および前記隠れ状態間の遷移を推定する方法であって、前記隠れ遷移は、速度を含み、前記方法は、
前記状態機械の観測を表すデータを記憶するステップであって、前記データは、1つ以上の観測された状態、観測された状態間の遷移、および、観測された状態遷移間の連続状態滞在時間を含む、ステップと、
異なるコードを各観測された状態に割り当てるステップであって、前記コードは、各観測された状態の独自の特性を表し、各観測された状態を全ての他の観測された状態から区別する、ステップと、
初期観測グラフを識別するステップであって、前記初期観測グラフは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の組を有し、かつ、各々が同様に独自に発生し、観測された状態間の観測された終了および開始のみを含む、観測された状態間の観測された遷移の組を有している、ステップと、
その前のグラフから、各および全ての可能性のあるインスタンスにおける1つの追加の双方向性遷移を有する導出されたグラフの組を生成するステップ、すなわち、
前記その前のグラフにおける既存の状態を接続された新しい状態の対に変換することによって、第1の導出されたグラフを生成するステップであって、両方の新しい状態は、前記既存の状態のコードを有する、ステップ、および、新しい状態の前記対のうちの前記既存の状態の1つまたは複数の既存の遷移を任意の可能性のある方法で再配分するステップと、
前記その前のグラフにおける既存の状態を接続された新しい状態の対に変換することによって、第2の導出されたグラフを生成するステップであって、一方の新しい状態は、前記既存の状態のコードを有し、他方の新しい状態は、別の異なる観測された状態の異なるコードを有する、ステップ、および、新しい状態の前記対のうちの前記既存の状態の前記1つまたは複数の既存の遷移を任意の可能性のある方法で再配分するステップと、
遷移が存在しなかった前記その前のグラフの既存の状態間に、任意の可能性のある方法で新しい双方向性遷移を追加することによって、第3の導出されたグラフを生成するステップと、
同型グラフを導出されたグラフの前記組から除去するステップと、
各残っている導出されたグラフの全ての遷移の速度を最適化することにより、結果として生じる導出されたグラフの各々が前記記憶されたデータを生成した尤度を最大化するステップと、
前記結果として生じる導出されたグラフの尤度を検査することにより、その内在する導出されたグラフが、前記記憶されたデータに対応する可能性が最も高いものを識別するステップであって、各結果として生じる導出されたグラフは、少なくとも1つの隠れ状態遷移を含む、ステップと
を含む、方法。
(項目2)
初期観測グラフを識別するステップは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の前記組のみから成り、かつ、各々が同様に独自に発生し、前記観測された状態間の観測された終了および開始のみを含む、前記観測された状態間の観測された遷移の前記組から成る、項目1に記載の方法。
(項目3)
前記コードは、色である、項目2に記載の方法。
(項目4)
次の最も可能性の高いグラフを上回る尤度の差が収穫逓減を示すまで項目1に記載のステップを繰り返し、最良グラフを見つけるステップをさらに含み、前記グラフの比較は、前記観測されたデータの尤度を最大化する最も単純な可能性のあるグラフを見つけるために、常時、同一数の遷移または自由度を有するグラフ間で行われ、それによって、前記方法は、前記状態機械の隠れ状態および遷移の最も正当化された推定を生成する、項目1に記載の方法。
(項目5)
隠れマルコフモデルを観測の組からさらに識別し、観測の異なる組から識別された別の隠れマルコフモデルと比較される、項目4に記載の方法。
(項目6)
対応する状態が対応する遷移によってリンクされるように、各グラフ、候補、および/またはマルコフモデルをディスプレイ上に提示するステップをさらに含む、項目1に記載の方法。
(項目7)
コンピュータを動作させて状態機械を表すデータの組をデコードすることにより、前記状態機械の最も可能性の高い隠れ状態および前記隠れ状態間の遷移を推定する方法であって、前記隠れ遷移は、速度を含み、前記方法は、
前記状態機械を表すデータを経時的に記憶するステップであって、前記データは、1つ以上の状態および状態間の遷移を含む、ステップと、
異なるコードを各状態に割り当てるステップであって、前記コードは、各状態の独自の特性を表し、各状態を全ての他の状態から区別する、ステップと、
前記状態機械を表す初期グラフを識別するステップであって、前記初期グラフは、実験証拠によって正当化されたそれらの状態および遷移のみを含む、ステップと、
その前のグラフから、導出されたグラフの組を生成するステップであって、各導出されたグラフは、前記その前のグラフに関する動作の組のうちの1つの動作から生じ、前記動作は、1つのみの状態または1つのみの遷移に関して1度に1つの方法、かつ、全ての可能性のある方法で行われ、その結果、各動作は、前記その前のグラフに対して、遷移または自由度の総数において1つのみの変化を有する導出されたグラフをもたらし、前記導出されたグラフの組は、そのような単一変化の各およびすべての可能性のあるインスタンスを含む、ステップと、
同型グラフを前記導出されたグラフの組から除去するステップと、
各残っている導出されたグラフの全ての遷移の速度を最適化することにより、結果として生じる導出されたグラフの各々が前記記憶されたデータを生成した尤度を最大化するステップと、
前記結果として生じる導出されたグラフの尤度を検査することにより、その内在する導出されたグラフが、前記記憶されたデータに対応する可能性が最も高いものを識別するステップであって、各結果として生じる導出されたグラフは、少なくとも1つの隠れ状態遷移を含む、ステップと
を含む、方法。
(項目8)
そのような変化の前記可能性のあるインスタンスのうちの1つは、前記その前のグラフにおける各既存の状態のうちの1つを双方向性に接続された新しい状態の対に変換することによって、前記その前のグラフに関して、1度に1つの方法、かつ、全ての可能性のある方法で動作することにより、導出されるグラフを生成することを含み、
1)両方の新しい状態は、前記既存の状態のコードを有し、
2)前記既存の状態の1つまたは複数の既存の遷移は、1度に1つの方法、かつ、全ての可能性のある方法で新しい状態の前記対の間で再配分されている、
項目7に記載の方法。
(項目9)
そのような変化の前記可能性のあるインスタンスのうちの1つは、前記その前のグラフにおける各既存の状態のうちの1つを双方向性に接続された新しい状態の対に変換することによって、前記その前のグラフに関して、1度に1つの方法、かつ、全ての可能性のある方法で動作することにより、導出されるグラフを生成することを含み、
1)一方の新しい状態は、前記既存の状態のコードを有し、他方の新しい状態は、別の異なる観測された状態の異なるコードを有し、
2)前記既存の状態の1つまたは複数の既存の遷移は、1度に1つの方法、かつ、全ての可能性のある方法で新しい状態の前記対の間で再配分されている、
項目7に記載の方法。
(項目10)
そのような変化の前記可能性のあるインスタンスのうちの1つは、遷移が存在しなかった、前記その前のグラフの既存の状態間に単一の新しい双方向性遷移を追加することによって、前記その前のグラフに関し、1度に1つ、かつ、全ての可能性のある方法で動作して導出されるグラフを生成することを含む、項目7に記載の方法。
(項目11)
初期観測グラフを識別するステップは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の前記組のみから成り、かつ、各々が同様に独自に発生し、前記観測された状態間の観測された終了および開始のみを含む、前記観測された状態間の観測された遷移の前記組から成る、項目7に記載の方法。
(項目12)
前記コードは、色である、項目11に記載の方法。
(項目13)
次の最も可能性の高いグラフを上回る尤度の差が収穫逓減を示すまで項目7に記載のステップを繰り返し、最良グラフを見つけるステップをさらに含み、前記グラフの比較は、前記観測されたデータの尤度を最大化する最も単純な可能性のあるグラフを見つけるために、常時、同一数の遷移または自由度を有するグラフ間で行われ、それによって、前記方法は、前記状態機械の隠れ状態および遷移の最も正当化された推定を生成する、項目7に記載の方法。
(項目14)
隠れマルコフモデルを観測の組からさらに識別し、観測の異なる組から識別された別の隠れマルコフモデルと比較される、項目13に記載の方法。
(項目15)
対応する状態が対応する遷移によってリンクされるように、各グラフ、候補、および/またはマルコフモデルをディスプレイ上に提示するステップをさらに含む、項目7に記載の方法。
(項目16)
コンピュータに、項目1から15のいずれか一項に記載の方法を実行させる、コンピュータ実行可能命令を有するコンピュータ可読コンピュータプログラム製品。

Claims (16)

  1. コンピュータを動作させて状態機械を表すデータの組をデコードすることにより、前記状態機械の最も可能性の高い隠れ状態および前記隠れ状態間の遷移を推定する方法であって、前記隠れ遷移は、速度を含み、前記方法は、
    前記状態機械の観測を表すデータを記憶するステップであって、前記データは、1つ以上の観測された状態、観測された状態間の遷移、および、観測された状態遷移間の連続状態滞在時間を含む、ステップと、
    異なるコードを各観測された状態に割り当てるステップであって、前記コードは、各観測された状態の独自の特性を表し、各観測された状態を全ての他の観測された状態から区別する、ステップと、
    初期観測グラフを識別するステップであって、前記初期観測グラフは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の組を有し、かつ、各々が同様に独自に発生し、観測された状態間の観測された終了および開始のみを含む、観測された状態間の観測された遷移の組を有している、ステップと、
    その前のグラフから、各および全ての可能性のあるインスタンスにおける1つの追加の双方向性遷移を有する導出されたグラフの組を生成するステップ、すなわち、
    前記その前のグラフにおける既存の状態を接続された新しい状態の対に変換することによって、第1の導出されたグラフを生成するステップであって、両方の新しい状態は、前記既存の状態のコードを有する、ステップ、および、新しい状態の前記対のうちの前記既存の状態の1つまたは複数の既存の遷移を任意の可能性のある方法で再配分するステップと、
    前記その前のグラフにおける既存の状態を接続された新しい状態の対に変換することによって、第2の導出されたグラフを生成するステップであって、一方の新しい状態は、前記既存の状態のコードを有し、他方の新しい状態は、別の異なる観測された状態の異なるコードを有する、ステップ、および、新しい状態の前記対のうちの前記既存の状態の前記1つまたは複数の既存の遷移を任意の可能性のある方法で再配分するステップと、
    遷移が存在しなかった前記その前のグラフの既存の状態間に、任意の可能性のある方法で新しい双方向性遷移を追加することによって、第3の導出されたグラフを生成するステップと、
    同型グラフを導出されたグラフの前記組から除去するステップと、
    各残っている導出されたグラフの全ての遷移の速度を最適化することにより、結果として生じる導出されたグラフの各々が前記記憶されたデータを生成した尤度を最大化するステップと、
    前記結果として生じる導出されたグラフの尤度を検査することにより、その内在する導出されたグラフが、前記記憶されたデータに対応する可能性が最も高いものを識別するステップであって、各結果として生じる導出されたグラフは、少なくとも1つの隠れ状態遷移を含む、ステップと
    を含む、方法。
  2. 初期観測グラフを識別するステップは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の前記組のみから成り、かつ、各々が同様に独自に発生し、前記観測された状態間の観測された終了および開始のみを含む、前記観測された状態間の観測された遷移の前記組から成る、請求項1に記載の方法。
  3. 前記コードは、色である、請求項2に記載の方法。
  4. 次の最も可能性の高いグラフを上回る尤度の差が収穫逓減を示すまで請求項1に記載のステップを繰り返し、最良グラフを見つけるステップをさらに含み、前記グラフの比較は、前記観測されたデータの尤度を最大化する最も単純な可能性のあるグラフを見つけるために、常時、同一数の遷移または自由度を有するグラフ間で行われ、それによって、前記方法は、前記状態機械の隠れ状態および遷移の最も正当化された推定を生成する、請求項1に記載の方法。
  5. 隠れマルコフモデルを観測の組からさらに識別し、観測の異なる組から識別された別の隠れマルコフモデルと比較される、請求項4に記載の方法。
  6. 対応する状態が対応する遷移によってリンクされるように、各グラフ、候補、および/またはマルコフモデルをディスプレイ上に提示するステップをさらに含む、請求項1に記載の方法。
  7. コンピュータを動作させて状態機械を表すデータの組をデコードすることにより、前記状態機械の最も可能性の高い隠れ状態および前記隠れ状態間の遷移を推定する方法であって、前記隠れ遷移は、速度を含み、前記方法は、
    前記状態機械を表すデータを経時的に記憶するステップであって、前記データは、1つ以上の状態および状態間の遷移を含む、ステップと、
    異なるコードを各状態に割り当てるステップであって、前記コードは、各状態の独自の特性を表し、各状態を全ての他の状態から区別する、ステップと、
    前記状態機械を表す初期グラフを識別するステップであって、前記初期グラフは、実験証拠によって正当化されたそれらの状態および遷移のみを含む、ステップと、
    その前のグラフから、導出されたグラフの組を生成するステップであって、各導出されたグラフは、前記その前のグラフに関する動作の組のうちの1つの動作から生じ、前記動作は、1つのみの状態または1つのみの遷移に関して1度に1つの方法、かつ、全ての可能性のある方法で行われ、その結果、各動作は、前記その前のグラフに対して、遷移または自由度の総数において1つのみの変化を有する導出されたグラフをもたらし、前記導出されたグラフの組は、そのような単一変化の各およびすべての可能性のあるインスタンスを含む、ステップと、
    同型グラフを前記導出されたグラフの組から除去するステップと、
    各残っている導出されたグラフの全ての遷移の速度を最適化することにより、結果として生じる導出されたグラフの各々が前記記憶されたデータを生成した尤度を最大化するステップと、
    前記結果として生じる導出されたグラフの尤度を検査することにより、その内在する導出されたグラフが、前記記憶されたデータに対応する可能性が最も高いものを識別するステップであって、各結果として生じる導出されたグラフは、少なくとも1つの隠れ状態遷移を含む、ステップと
    を含む、方法。
  8. そのような変化の前記可能性のあるインスタンスのうちの1つは、前記その前のグラフにおける各既存の状態のうちの1つを双方向性に接続された新しい状態の対に変換することによって、前記その前のグラフに関して、1度に1つの方法、かつ、全ての可能性のある方法で動作することにより、導出されるグラフを生成することを含み、
    1)両方の新しい状態は、前記既存の状態のコードを有し、
    2)前記既存の状態の1つまたは複数の既存の遷移は、1度に1つの方法、かつ、全ての可能性のある方法で新しい状態の前記対の間で再配分されている、
    請求項7に記載の方法。
  9. そのような変化の前記可能性のあるインスタンスのうちの1つは、前記その前のグラフにおける各既存の状態のうちの1つを双方向性に接続された新しい状態の対に変換することによって、前記その前のグラフに関して、1度に1つの方法、かつ、全ての可能性のある方法で動作することにより、導出されるグラフを生成することを含み、
    1)一方の新しい状態は、前記既存の状態のコードを有し、他方の新しい状態は、別の異なる観測された状態の異なるコードを有し、
    2)前記既存の状態の1つまたは複数の既存の遷移は、1度に1つの方法、かつ、全ての可能性のある方法で新しい状態の前記対の間で再配分されている、
    請求項7に記載の方法。
  10. そのような変化の前記可能性のあるインスタンスのうちの1つは、遷移が存在しなかった、前記その前のグラフの既存の状態間に単一の新しい双方向性遷移を追加することによって、前記その前のグラフに関し、1度に1つ、かつ、全ての可能性のある方法で動作して導出されるグラフを生成することを含む、請求項7に記載の方法。
  11. 初期観測グラフを識別するステップは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の前記組のみから成り、かつ、各々が同様に独自に発生し、前記観測された状態間の観測された終了および開始のみを含む、前記観測された状態間の観測された遷移の前記組から成る、請求項7に記載の方法。
  12. 前記コードは、色である、請求項11に記載の方法。
  13. 次の最も可能性の高いグラフを上回る尤度の差が収穫逓減を示すまで請求項7に記載のステップを繰り返し、最良グラフを見つけるステップをさらに含み、前記グラフの比較は、前記観測されたデータの尤度を最大化する最も単純な可能性のあるグラフを見つけるために、常時、同一数の遷移または自由度を有するグラフ間で行われ、それによって、前記方法は、前記状態機械の隠れ状態および遷移の最も正当化された推定を生成する、請求項7に記載の方法。
  14. 隠れマルコフモデルを観測の組からさらに識別し、観測の異なる組から識別された別の隠れマルコフモデルと比較される、請求項13に記載の方法。
  15. 対応する状態が対応する遷移によってリンクされるように、各グラフ、候補、および/またはマルコフモデルをディスプレイ上に提示するステップをさらに含む、請求項7に記載の方法。
  16. コンピュータに、請求項1から15のいずれか一項に記載の方法を実行させる、コンピュータ実行可能命令を有するコンピュータ可読コンピュータプログラム製品。
JP2013557997A 2011-03-14 2011-03-14 隠れマルコフモデルを見出す方法 Active JP5898704B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/028302 WO2012125146A1 (en) 2011-03-14 2011-03-14 Method for uncovering hidden markov models

Publications (2)

Publication Number Publication Date
JP2014515131A true JP2014515131A (ja) 2014-06-26
JP5898704B2 JP5898704B2 (ja) 2016-04-06

Family

ID=46831013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013557997A Active JP5898704B2 (ja) 2011-03-14 2011-03-14 隠れマルコフモデルを見出す方法

Country Status (6)

Country Link
EP (1) EP2686796A4 (ja)
JP (1) JP5898704B2 (ja)
AU (1) AU2011362611B2 (ja)
CA (1) CA2830159C (ja)
SG (1) SG193450A1 (ja)
WO (1) WO2012125146A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021506644A (ja) * 2017-12-18 2021-02-22 北京京▲東▼尚科信息技▲術▼有限公司Beijing Jingdong Shangke Information Technology Co., Ltd. 貨物保護の方法、デバイスおよびシステム、ならびに非一時的コンピュータ可読記憶媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011243088A (ja) * 2010-05-20 2011-12-01 Sony Corp データ処理装置、データ処理方法、及び、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056793A (ja) * 1998-08-12 2000-02-25 Fuji Xerox Co Ltd 音声認識装置
KR20040012285A (ko) * 2002-08-02 2004-02-11 한국정보보호진흥원 은닉 마르코프 모델을 이용한 비정상행위 침입탐지 시스템및 방법
US7617091B2 (en) * 2003-11-14 2009-11-10 Xerox Corporation Method and apparatus for processing natural language using tape-intersection
US8407163B2 (en) * 2009-08-27 2013-03-26 Xerox Corporation Monitoring a device, network, or system with adaptive dynamic classification employing a hidden Markov model operating on a time sequence of information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011243088A (ja) * 2010-05-20 2011-12-01 Sony Corp データ処理装置、データ処理方法、及び、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015019045; 豊浦潤,他2名: '時系列データからのネットワークモデルの教師なし学習方式' 電子情報通信学会論文誌(情報・システムII-情報処理) 第J82-D-II巻, 第1号, 19990125, pp.61-74, 社団法人電子情報通信学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021506644A (ja) * 2017-12-18 2021-02-22 北京京▲東▼尚科信息技▲術▼有限公司Beijing Jingdong Shangke Information Technology Co., Ltd. 貨物保護の方法、デバイスおよびシステム、ならびに非一時的コンピュータ可読記憶媒体
JP7179065B2 (ja) 2017-12-18 2022-11-28 北京京▲東▼尚科信息技▲術▼有限公司 貨物保護の方法、デバイスおよびシステム、ならびに非一時的コンピュータ可読記憶媒体
US11694294B2 (en) 2017-12-18 2023-07-04 Beijing Jingdong Shangke Information Technology Co, Ltd. Cargo protection method, device and system, and non-transitory computer-readable storage medium

Also Published As

Publication number Publication date
SG193450A1 (en) 2013-10-30
JP5898704B2 (ja) 2016-04-06
AU2011362611A1 (en) 2013-09-26
CA2830159A1 (en) 2012-09-20
EP2686796A4 (en) 2015-05-13
AU2011362611B2 (en) 2017-06-01
CA2830159C (en) 2017-10-03
WO2012125146A1 (en) 2012-09-20
EP2686796A1 (en) 2014-01-22

Similar Documents

Publication Publication Date Title
Sarkar et al. Hands-On Transfer Learning with Python: Implement advanced deep learning and neural network models using TensorFlow and Keras
CN108960514B (zh) 展示预测模型的方法、装置及调整预测模型的方法、装置
US7912717B1 (en) Method for uncovering hidden Markov models
JP2019087237A (ja) 敵対的ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
KR102310487B1 (ko) 속성 단위 리뷰 분석 장치 및 방법
Richter et al. A multi-dimensional comparison of toolkits for machine learning with big data
WO2018094295A1 (en) Adaptive attention model for image captioning
EP4150480A1 (en) Descriptive insight generation and presentation system
Johnston et al. Applied Unsupervised Learning with Python: Discover hidden patterns and relationships in unstructured data with Python
Gove et al. New guidance for using t-SNE: Alternative defaults, hyperparameter selection automation, and comparative evaluation
CN111902812A (zh) 电子装置及其控制方法
EP4196900A1 (en) Identifying noise in verbal feedback using artificial text from non-textual parameters and transfer learning
JP2019212278A (ja) アクセス可能な機械学習
JP5898704B2 (ja) 隠れマルコフモデルを見出す方法
Jones et al. The Unsupervised Learning Workshop: Get started with unsupervised learning algorithms and simplify your unorganized data to help make future predictions
WO2020167156A1 (ru) Способ отладки обученной рекуррентной нейронной сети
US11900060B2 (en) Information processing device, information processing method, and computer program product
Ngo et al. Efficient interactive multiclass learning from binary feedback
JP6905237B2 (ja) メールスレッド抽出装置、メールスレッド抽出方法、およびコンピュータプログラム
US20230044508A1 (en) Data labeling processing
US20220092260A1 (en) Information output apparatus, question generation apparatus, and non-transitory computer readable medium
Ravier et al. GeoStat Representations of Time Series for Fast Classification
Martarello Exploring CNNs and Attention Mechanisms for Brand Identification in Fashion Runway Shows
CN113901880A (zh) 一种实时事件流识别方法及系统
Norrgård Using Computer Vision in Retail Analytics

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150515

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150814

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160304

R150 Certificate of patent or registration of utility model

Ref document number: 5898704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250