JP2014515131A

JP2014515131A - 隠れマルコフモデルを見出す方法

Info

Publication number: JP2014515131A
Application number: JP2013557997A
Authority: JP
Inventors: アルベルトガリック，
Original assignee: アルベルトガリック，
Priority date: 2011-03-14
Filing date: 2011-03-14
Publication date: 2014-06-26
Anticipated expiration: 2031-03-14
Also published as: SG193450A1; JP5898704B2; AU2011362611A1; CA2830159A1; EP2686796A4; AU2011362611B2; CA2830159C; WO2012125146A1; EP2686796A1

Abstract

本発明は、ＭｏｄｅｌＧｒｏｗｅｒプログラムを使用して、可能性のある候補をオリジナルまたは集計モデルから生成する。同型削減プログラムは、前記候補に動作し、同型モデルを識別および除外する。マルコフモデル評価および最適化プログラムは、残っている非同型候補に動作する。候補は、最適化され、データに最も密接に一致するものが、維持される。ある段階の最も最適化された候補が、次の段階のための開始候補となり、そこで、ＭｏｄｅｌＧｒｏｗｅｒおよび他のプログラムは、最適化候補に動作し、新しい最適化候補を生成する。本発明は、繰り返しによって、有意により良好な結果をもたらさなくなるまで、成長させるステップ、同型体を除外するステップ、評価するステップ、および最適化するステップを繰り返す。

Description

（関連出願の引用）
本願は、米国特許出願第１１／２８２，４１０号（２００５年１１月１８日出願）の継続出願であり、該出願は、米国仮特許出願第６０／６２９，１１４号（２００４年１１月１８日出願）の優先日の利益を主張する。

本発明は、一般に、モデル化に関し、特に、隠れマルコフモデルを状態および遷移データから生成することに関する。特許文献１では、発明者らは、離散時系列データをモデル化する際に使用される統計モデルのクラスの１つとして、隠れマルコフモデル（ＨＭＭ）について論じている。そのようなデータに必然的に生じる問題として、ロボットナビゲーション、機械視覚、および信号処理が挙げられ、ＨＭＭは、これらの問題に対処するための多くの最先端アルゴリズムの核である。加えて、自然言語処理の多くの問題は、品詞タグ付け、話題分割、発話認識、一般実体認識、および情報抽出を含む、ＨＭＭによってモデル化され得る時系列データを伴う。

米国特許商標庁データベースは、２００５年１１月１５日現在において、「隠れマルコフモデル」に関して、１，２００件を超えるヒット数を示す。ＨＭＭ技術は、音声認識、手書き文字認識、信号処理、および遺伝子工学を含むが、それらに限定されない、多数の分野において現れる。これは、実世界の現象の複合データセット内の状態システムを見出すための基本ツールである。しかしながら、そのような複合データを表すＨＭＭに到達するための多くの技法は、非常に実証的である。したがって、そのようなデータセットからＨＭＭを生成し、ＨＭＭに従って、複合システムを試験および／または変更するための改善された方法の必要性が存在する。

本発明は、元々、イオンチャネルを研究するために設計された関連技術技法を反復する、マウスの睡眠段階データの研究から生じている（“ＭａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎｏｆａｇｇｒｅｇａｔｅｄＭａｒｋｏｖｐｒｏｃｅｓｓｅｓ” ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＲｏｙａｌＳｏｃｉｅｔｙＢ，Ｖｏｌ．２６４，Ｎｏ．１３８０，ｐｐ．３７５−３８３，Ｍａｒ２２，１９９７）。固定グラフのパラメータを最適化する先行技術を拡張させることによって、本発明は、「最良」または最も可能性の高いグラフモデルに到達するための方法を提示する。本方法は、物理、化学、生物、生理、社会、および経済システムにおいて、隠れマルコフモデル（ＨＭＭ）状態機械を識別するためのデータ処理技法である。発話処理の先行技術と異なり、例えば、本発明は、所定の左右モデル（ｌｅｆｔ−ｔｏ−ｒｉｇｈｔｍｏｄｅｌ）のライブラリまたは任意の他のライブラリから選択せず、新しいモデルを各新しい組のデータから決定する。

状態機械は、ある状態から別の状態へ、および、そこからオリジナル状態に戻るかまたは他の状態へ等、遷移するシステムを説明するために使用される概念である。滞在時間は、任意のある状態において費やされる時間である。状態間の滞在時間と遷移とは観測され得るが、それらは、多くの場合、限定的または間接的観測によって区別することができない集計である。観測される状態機械は、同一のクラスの集計状態において、区別不可能状態間の不可視遷移、または２つの集計状態の異なる要素間の区別不可能遷移を含み得る。マルコフシステムでは、遷移は、瞬時かつ無作為である。すなわち、ある状態から別の状態への所与の時間における遷移の時間単位あたりの確率は、理想的には、システムの履歴ではなく、その時間におけるその遷移速度および状態のみに依存する。これらの遷移速度は、異なる終了遷移速度を伴う状態が、概して、異なる滞在時間分布を有するであろうという点において、その他の点では同じ状態を区別可能にする。観測は、基準時点、フレーム、またはサンプリング間隔として知られる期間にわたって行われ、これらのそれぞれに対して、クラスまたは集計状態が、割り当てられる。集計状態は、したがって、その観測された滞在時間のヒストグラムにおいて容易に区別することができる。現在まで、集計遷移は、一般に、そのように区別が容易ではなかった。実際、いくつかの理想的隠れマルコフモデルは、その定常状態統計によって、区別不可能である（“Ｕｓｉｎｇｉｎｄｅｐｅｎｄｅｎｔｏｐｅｎ−ｔｏ−ｃｌｏｓｅｄｔｒａｎｓｉｔｉｏｎｓｔｏｓｉｍｐｌｉｆｙａｇｇｒｅｇａｔｅｄＭａｒｋｏｖｍｏｄｅｌｓｏｆｉｏｎｃｈａｎｎｅｌｇａｔｉｎｇｋｉｎｅｔｉｃｓ” ＰＮＡＳ２００５１０２：６３２６−６３３１，これ以降“ピアソン”と呼ぶ）。

実際、最も興味深いシステムは、外部入力を有するか、平衡から外れるか、一定の遷移速度を有しないか、または別様に基本的に定常状態ではなく、したがって、ピアソンの正準等価性に影響されない。そのような実システムに対して、グラフ同型性は、唯一の組織化原理である。すなわち、ピアソンの歪曲正準形の非物理的負遷移速度は、幸いにも、回避され、それらがどのように実データに適合するかによって、モデルを区別する際、それほどの曖昧性は存在しない。本発明は、同型性まで、すなわち、隣接性を保存するグラフの再ラベル化まで、「最良」隠れマルコフモデルを究明する。

生理学的および生物学的プロセスは、多くの場合、状態機械に類似する。例えば、マウスの睡眠サイクルは、急速眼球運動（ＲＥＭ）睡眠、徐波睡眠、および覚醒として識別される状態を含む。これらの３つの状態は、ＥＥＧ睡眠ポリグラフィ研究において、容易に識別され、一見、単純３状態機械が、全状態間の遷移に伴って生じる（直接、覚醒からＲＥＭ睡眠への遷移が認められない場合を除外する）。遷移は、明白な外部刺激を伴わない場合、無作為に発生し、したがって、状態機械は、マルコフシステムと見なされ得る。しかしながら、３つの観測された状態滞在時間のヒストグラムは、観測された状態の各々に対して、複数の隠れ状態が存在することを示す。これらの６つ以上の隠れ状態を隠れ遷移と接続する方法は、全く明確ではなく、実際、可能性のある接続されたグラフモデルの数は、状態および遷移の数に伴って、組み合わせ的に増加する。隠れマルコフモデルは、データから容易に明白とならない状態および遷移を有するが、それらは、それでもなお、マルコフモデルによって表されるシステムの実構成要素である。隠れマルコフモデルを見出すことによって、調査者は、内在プロセスに関してより多くを学習し、研究される物理、化学、生物、生理、社会、および経済システムの現象をより良好に説明可能となり、当業者は、変数がどのようにシステムに影響を及ぼすかを測定するために実験を行う。

マルコフモデルは、システムが、異なる方法でアクティブ化される場合、観測者が、可能性のある結果に関する予測を行うことを可能にする。例えば、制御マルコフシステムからのデータが、実験マルコフシステムからのデータと比較され、制御システムと実験システムとの間の変数が、システムレベルに変化を生成するかどうか、すなわち、異なる状態および異なる状態間の遷移をもたらすかどうかが確認され得る。制御マルコフシステムと実験マルコフシステムとの比較は、制御システムと実験システムとの間の全体的差異だけではなく、また、それらの差異が、システムの動作において明らかにされる点に関するより多くの情報を与える。例えば、非常に限定されたマウスの睡眠データの我々の分析では、我々は、野生型であると考えられるマウスの睡眠サイクルを発見し、ダブルノックアウトマウスが、その睡眠モデルに劇的変化を有したが、これは、単独ノックアウトマウスの全体的観測によって決定され得ない結果である（Ｊｏｈｏ参照）。

複合システムは、マルコフモデルによって定義することができるが、隠れ状態が存在するとき、モデルを識別することは、困難である。隠れマルコフモデルを模索する調査者は、多くの場合、実証的方法を使用して、隠れマルコフモデルを識別する。しかしながら、複合システムは、多くの場合、組み合わせ的に増加する数の可能性のあるマルコフモデルを有するであろう。潜在的隠れマルコフモデルを評価するために、多数のマルコフモデルをすべての考えられる隠れ状態および状態間の遷移と対比させなければならない。例えば、最大１６の自由度（すなわち、最大８つの遷移）を伴うマウス睡眠モデルに対して、候補モデルは、３つの別個の観測可能クラス（色）からの最大８つのエッジおよび最大９つの状態の全ての接続されたグラフを含む。７６２，２９１のそのような別個の（非同型）グラフが存在することになる。

米国特許第６，９６５，８６１号明細書

本発明は、改善された閲読、分析、および／または解釈用データの提示のデータ改良方法を対象とする。したがって、本発明は、データ可読性、分析能力、および／または解釈能力を改善し、ユーザが、そのタスクをより効率的に行うことを可能にするように、データを提示するという課題を対象とする。さらに、本発明は、認知コンテンツが、どのように読者、分析器、および／またはインタープリタに伝達されるかにも関する。

特に、本発明は、先行技術の前述の問題を克服し、調査者が、ルールの組に従うことによって、隠れマルコフモデルを見つけることを可能にする。ルールは、調査者が、各反復において、「最良」（例えば、最も可能性の高い）隠れマルコフモデルにつながる、一連の繰り返しステップを行うように、所与のデータセット内のデータを採用し、それに従う。ステップのルールの各反復の終了時、最良候補モデルが、記憶され、そのスコア（例えば、尤度）は、次の最良候補モデルのものと比較される。スコアの差異が、有意である場合、最良候補のさらなる複合性が、正当化される。本発明は、統計確率およびマルコフモデル構造の組み合わせに基づき、その構築およびその修正は、検査下のデータによって推進される。本発明は、同型（同じまたは冗長）モデルを識別し、ステップの反復の間、１つのみの同型モデルを分析する。

ルールは、その適用において、すなわち、開始時、初期モデルの選択に伴って、および途中で、および問題に遭遇する場合、ある程度の変動をもたらす。ルールは、同一の結果が、通常、異なるルールの適用（例えば、途中での等しく「最良」候補の異なる選択または開始モデルの異なる選択）によって得られるという点において、ロバストである。

加えて、本発明は、見つけられたマルコフモデルをユーザに視覚化することができ、各マルコフモデルの状態および遷移は、画面上に項目（または、画像）として配列されるか、印刷等される。すなわち、状態は、項目または記号（例えば、長方形ボックス）によって視覚化され、遷移は、状態を接続する矢印によって視覚化され、遷移確率は、数字によって可視化され得る。

したがって、隠れマルコフモデルの使用によって、データに関する情報が、ユーザに伝達される。認知テキストに関する情報を伝達するこの特定の様式は、ユーザが、そのタスクをより効率的に行うことを可能にする。

本発明は、とりわけ、種々の有機体の生理学を特徴化および可視化するためのツールを提供する、すなわち、本発明は、対応する有機体の物理、化学、生物、生化学、および／または心理学的機能ならびにプロセスを決定可能にする。有機体は、分子、生体分子、細胞、器官、または同等物等の「生体」システムであることができる。さらに、有機体は、有機体の任意の生物学的プロセスを表すことができる。しかしながら、また、本発明を医薬品または薬物等の「非生体」システムに適用可能である。この場合、本発明は、医薬品／薬物の有効性および／または機能性を決定し、見つけられた決定に対応して、これらの実体を適応させるために使用することができる。例えば、本発明によって、調査者は、試験データをシステム内の新しい製品とより迅速に区別し得る。異なる薬物投与計画下、生理学的システムの隠れマルコフモデルを把握することによって、科学者は、具体的状態におけるシステムに影響を及ぼし、薬物の有益な効果を最大化する薬物を見つけることが可能となり、それによって、薬物類および生理学的システム自体の両方を解明する。

本方法は、コンピュータ上にインストールされたプログラム（ソフトウェア）等のコンピュータ実装発明として理解される。プログラムは、医薬品または薬物等の物理的実体を表すデータを処理し得る。

図１は、暗闇下の野生マウスの睡眠サイクルを示す。図２は、照明下の野生マウスの睡眠サイクルを示す。図３は、暗闇下の遺伝子組み換えマウスの睡眠サイクルを示す。図４は、照明下の遺伝子組み換えマウスの睡眠サイクルを示す。図５は、隠れマルコフモデルを見出すための初期モデルを示す。図６は、新しい遷移を追加するある方法である。図７は、新しい遷移を追加する別の方法である。図８は、次の最良状態を達成する、開始推量である。図９は、次の最良状態を達成する、図８の開始推量から導出された最適化モデルである。図１０は、最良状態を達成する、最適化のための開始推量である。図１１は、最良状態を達成する、図１０の開始推量から導出された最適化モデルである。図１２および１３は、次の２つの成長ステップを示す。図１２および１３は、次の２つの成長ステップを示す。

任意のマルコフ過程Ｐ、およびＰの観測がＭによってもたらされる尤度を最大化する、マルコフモデルＭの遷移速度のための任意の最適化方法に対して、我々は、本発明が、それらの観測を生成した最も可能性の高いグラフとともに、モデルＭ＊を構築し、十分な観測データによって、多くの場合、Ｍ＊＝Ｐとなることを主張する。

本実証のために、我々は、最適化方法およびｈｔｔｐ：／／ｗｗｗ．ｑｕｂ．ｂｕｆｆａｌｏ．ｅｄｕ．からダウンロードして利用可能なソフトウェアパッケージＱＵＢにおいて利用可能なＩ／Ｏを使用する。本発明は、以下によって具現化される。
１）ＱＵＢによって提供される便利なインターフェースにおいて実行する、Ｐｙｔｈｏｎスクリプトである、ＭｏｄｅｌＧｒｏｗｅｒ．ｐｙ。本プログラムのためのソースコードのコピーは、本特許に添付される。
２）ＮＡＵＴＹ２２ディレクトリ内のｇｅｎｇ．ｅｘｅ、ａｌｌｐｅｒｍｇ．ｅｘｅ、ｓｈｏｒｔｇ．ｅｘｅ、およびｌｉｓｔｍ．ｅｘｅと、色区分を適切に処理するためのＢｒｅｎｄａｎＭｃＫａｙのオープンソースソフトウェアパッケージＮＡＵＴＹの当業者にとって分かりやすい関連付けられた拡張／修正とであって、オリジナルは、オンラインで取得され、マルコフモデルに内在するグラフの同型重複を計数および排除するために使用される。
３）ＮＡＵＴＹ２２ディレクトリ内のｃｈｅｃｋｌｉｓｔ、ｃｏｕｎｔｇｒａｐｈｓ、およびｃｏｕｎｔｇｒａｐｈｊｏｂと、ｃｙｇｗｉｎディレクトリ内のｃｏｕｎｔｊｏｂ．ｂａｔおよびｃｏｕｎｔｊｏｂｓ．ｂａｔ。全て、プログラム２）を１）から読み出すためのスクリプトを接続する。

ｃｙｇｗｉｎ環境は、ＰＣ上で２）をコンパイルし、３）を起動するために必要とされる。ｃｙｇｗｉｎ環境のための便利なセットアップツールは、ｈｔｔｐ：／／ｗｗｗ．Ｃｙｇｗｉｎ．ｃｏｍから利用可能である。

最尤法が、長い間、仮想的隠れマルコフモデルの遷移速度を観測データに適合させるために使用されている。これらの方法の弱点は、その他の点では固定式であるモデルにおいて、いくつかのパラメータしか、最適化することができないことである。本発明は、任意の推測的仮定を伴わずに、データによって、モデルがどのようなものであるべきか、すなわち、最も可能性の高い内在グラフがどのようなものであるかを把握するためのある方法を提供する。

最先端技術は、グラフが、既知であるか、推量されるか、または許容されるノードおよびエッジの数に伴って、組み合わせ的に成長する、いくつかの可能性のあるグラフから試行錯誤によって見つけられなければならないものである。区別不可能状態への観測されていない遷移、すなわち、隠れエッジおよびノードが、許容される場合、可能性のあるノードおよびエッジの数に制限はない。明らかに、隠れノードおよびエッジは、我々が観測データから推察したい微妙な現象に正に対応する。

本発明は、データによって、モデルへの最も可能性の高い追加が、どのようなものであるべきかを把握することによって、本問題を解決する。我々は、電位エネルギー超曲面の離散化としてモデルを捉え、モデルにおいて、各状態は、極小であって、各遷移は、エネルギー障壁を克服し、ある極小から別の極小に遷移するための全ての可能性のある方法を表す。この類推法は、本方法を促すが、必ずしも、それを制限するものではない。例えば、我々は、電位エネルギーの明白な定義がなく、明らかに平衡から外れている（サイクルの不可逆的方法のため）睡眠サイクルをモデル化するための方法を使用した。実際、定常状態システムに対して、ピアソンによって予期される区別不可能尤度の縮退モデルの数が、モデル成長の各段階で大幅に減少されるという点において、非平衡、不可逆的、または別様に、非理想的システムからのデータに関して本方法を使用する利点がある。

我々は、観測データを説明する最も単純なモデルから開始する（多くの場合、単純に、１つの遷移を伴う２状態モデル）。本開始モデルは、隠れ状態および遷移が合体されている場合、本データに対して、過度の単純化となり得る。ここで、全ての可能性のある方法に１つの遷移を追加し、それらの各々を最適化し、最大対数尤度（「最良ＬＬ」）を伴うものを選択することは、モデルに追加するための次の最も可能性の高い自由度を見つけることになる。より具体的には、初期条件としての現在のモデルの遷移速度とともに、２つの新しい速度に対する合理的推測を使用して、我々は、全ての可能性のある方法に、１）既存の状態間、または２）全ての可能性のある方法において再配分された既存の接続を伴う分裂状態間の新しい遷移を追加する。これは、全ての可能性のある方法における電位エネルギー表面の離散モデルをより自由度を伴うモデルに緩和するための自然な方法である。開始モデルは、各々が２つの追加された自由度を有する、各新しい初期モデルの合体されたサブモデルであるので、最高尤度を達成するこれらの新しい初期モデルから最適化されたモデルを選択することは、公平な比較である。新しいモデルのいずれも、有意により高い対数尤度を達成しない場合（すなわち、「差分ＬＬ」が小さい場合）、データは、追加された自由度を正当化しない。したがって、我々は、アルゴリズムに対する我々の停止基準および最も単純なモデルを選択するための組込赤池情報量規準を設ける。

また、各次のより大きな試行モデルにおいて、初期条件として、最適化速度を使用することによって、我々は、データによって、グラフを成長させる最良方法を把握することに留意されたい。これは、迅速に、不良グラフの全てを考慮から排除することになる。本実証の一実施例である、８つのエッジの接続されたグラフを伴うマウス睡眠モデルのＤＫＯ１ｉｇｈｔ８において、それ以上の自由度を伴わない、候補グラフの数は、３つの別個の観測可能クラス（色）からの最大８つのエッジおよび最大９つの状態の全ての接続されたグラフから成る。以下のように、７６２，２９１のそのような別個の（非同型）モデルが存在する（スクリプトＮＡＵＴＹ２２／ｃｏｕｎｔｇｒａｐｈｊｏｂによって算出）。

しかしながら、本モデルをデータから抽出するために、その遷移速度に対して、３６８のモデルのみ、最適化されるために必要であって、これらのうち、１度に最大８８が、並行して行われ得る（第６の成長段階において）。本合計数３６８は、第７の成長段階で最適化された９１モデルを含み、そのいずれも、正当化されないことが分かった。

以下に提示されるデータは、２組のマウスに依拠する。一方の組は、遺伝子組み換えが行われなかった通常またはいわゆる野生型マウスを含む。他方の組は、２つの遺伝子を除去するために、遺伝子組み換えが行われたマウスを含む。後者は、ダブルノックアウト（ＤＫＯ）マウスと呼ばれる組である。我々は、ＤＫＯ１ｉｇｈｔ８モデルおよびそのデータにおいて見つけられた遷移速度（すなわち、自由度）の数から、７６２，２９１の可能性のあるグラフの我々の母集団の範囲を計算し、最大接続グラフ次数９をもたらすが、アルゴリズム内のいずれも、本限界を把握することに依存しないことに留意されたい。最後に、本アルゴリズムは、ある成長行程が、ある困難に陥る場合でも、グラフを最終最良グラフに成長させるための多くの方法が存在するため、ロバストである。

（睡眠状態モデル化への適用）
我々は、Ｕ．ＴｅｘａｓＳｏｕｔｈｗｅｓｔｅｒｎＭｅｄｉｃａｌＣｅｎｔｅｒ（Ｄａｌｌａｓ，ＴＸ）のＲｏｌｆＪｏｈｏから、マウス睡眠状態の観測結果を入手した。これらのＥＥＧベースのデータは、１３の個々の野生型（ＷＴ）および１３の個々のＫｖ３．１／Ｋｖ３．３ダブルノックアウト（ＤＫＯ）マウスに対する１２／１２照明／暗闇サイクルにおけるスペクトル的に割り当てられた２４時間間の睡眠状態の観測結果である（ファイルＭｏｕｓｅＳｌｅｅｐＫｉｎｅｔｉｃｓＷＴ．ｄｗｔおよびＭｏｕｓｅＳｌｅｅｐＫｉｎｅｔｉｃｓＤＫＯ．ｄｗｔならびに対応する照明および暗闇選択リスト参照）。各１５秒の観測間隔が、コード１＝ＲＥＭ睡眠（黒色、正方形）、２＝徐波睡眠またはＳＷＳ（赤色、円形）、または３＝覚醒（青色、六角形）に割り当てられる。照明および暗闇期間の間に差異を有するように、ＤＫＯマウスとＷＴマウスの睡眠／覚醒サイクルの大きな差異が、観測された（“ＳｅｖｅｒｅｌｙＤｉｓｏｒｄｅｒｅｄＳｌｅｅｐ／ＷａｋｅＣｙｃｌｅｉｎＫＶ３．１／ＫＶ３．３−ＤｅｆｉｃｉｅｎｔＭｉｃｅ”，Ｆ．Ｅｓｐｉｎｏｓａ，Ｇ．Ａ．Ｍａｒｋｓ，＆Ｒ．Ｈ．Ｊｏｈｏ，Ａｂｓｔｒａｃｔ５８０．ＡｉｎＳＬＥＥＰ，Ｖｏｌ．２５，ＡｂｓｔｒａｃｔＳｕｐｐｌｅｍｅｎｔ２００２，ｐｐ．Ａ４１１−４１２参照、本明細書では、「Ｊｏｈｏ」）。

本発明は、我々が開発したモデルにおいて既に明白であるように、これらの差異の生理学を明確かつ詳細に特性評価するためのツールを提供する。例えば、照明および暗闇の間の野生型マウス睡眠サイクルは、図１および２に示されるように、非常に類似しており、主に、睡眠サイクルが開始および終了する覚醒状態の反応速度が異なる（状態の番号付与は、モデルへのその追加の順序のみを示す。各色の状態は、区別不可能な集計状態である）。これらは、それぞれ、（ＷＴ暗闇９に対する）野生型暗闇データに関する７つのステップおよび（ＷＴ照明７に対する）野生型照明データに関する５つのステップ後の最も可能性の高い候補のＨＭＭを表す。一方、ダブルノックアウトマウスは、図３および４に示されるように、野生型と、さらに暗闇と照明でも、根本的に異なる睡眠モデルを有する。これらは、それぞれ、（ＤＫＯ暗闇８に対する）ＤＫＯ暗闇データに関する６つのステップおよび（ＤＫＯ照明９に対する）ＤＫＯ照明データに関する７つのステップ後の最も可能性の高い候補のＨＭＭを表す。

図１−４の４つのＨＭＭは、図５に示される集計状態モデルから展開または成長されたものである。４つのデータセットの各々は、図５と同一の開始モデルを有する。図５の基礎モデルは、次いで、本発明のルールを使用して進化し、図１−４に示される最終モデルに到達した。図１−４は、本発明の方法によって見つけられたＨＭＭを示す。ＨＭＭは、図１−４に示されるように、画面上に視覚化されるか、または紙に印刷される。本発明の結果は、４組のデータの各々が、異なるＨＭＭを有することを示す。野生型暗闇および照明は、互に類似する。しかしながら、ＤＫＯ暗闇および照明は、互に、かつ暗闇および照明に対する対応する野生型データとも異なる。したがって、本発明は、容易に、野生型とＤＫＯの睡眠パターンを区別することができる。既存の方法は、ダブルノックアウトなしに差異を区別し得ないが、それは、各単独ノックアウトが、本方法が見つけたであろう睡眠サイクルにおける変化を引き起こし、したがって、ノックアウトされたＫＶ３．１／ＫＶ３．３カリウムチャネルの機能を解明する可能性が高いと考えられる。

本発明は、コンピュータ上で１つ以上のプログラムを動作させることによって行われる。結果は、ディスプレイ上に提示されるか、または物理的実体上に印刷され、自動的に、処理データによって提示される、システム内で優先する条件に関する視覚的指標を与える。本発明のステップに従うために、以下の注意が、提供される。
インストール時の注意：
１）デフォルトｃｙｇｗｉｎインストールは、標準的ｂａｓｈｓｈｅｌｌに加え、ｔｃｓｈを含むように修正されなければならない。スクリプトは、より柔軟なｔｃｓｈコマンド環境用に書かれる。
２）ＭｏｄｅｌＧｒｏｗｅｒ．ｐｙ、ｃｏｕｎｔｊｏｂ．ｂａｔ、およびｅｃｈｏ．ｂａｔファイル内のパスは、正しい区分をポイントしなければならない（［ｃ−ｆ］：を検索）
３）ＮＡＵＴＹ２２ディレクトリは、再コンパイルされる必要はない。
４）ＭｏｄｅｌＧｒｏｗｅｒ．ｐｙは、Ｐｙｔｈｏｎスクリプトディレクトリ内のＭｏｄｅｌＢｕｉｌｄｅｒ．ｐｙと置換されるはずである。
実行時の注意：
１）我々は、秒をミリ秒として解釈し、したがって、時間尺度は、そのためにＱＵＢが設計されたイオンチャネル反応速度にほぼ対応する。故に、最適化モデルにおける遷移速度は、１０００秒あたりである。
２）我々は、不感時間＝データサンプリング差分ｔ（マウス睡眠データに対して１５ミリ秒）を使用する。
３）理想化の前に、我々は、モデル内のデフォルト「イオンチャネル電流振幅」を黒色に対して１、赤色に対して２、および青色に対して３に変更し、睡眠状態コードに対応させる必要があった。デフォルト値は、０から始まる整数であった（閉鎖の間）。本変化は、．ｄｗｔ（滞在時間）ファイルに反映される。
４）その最適化が失敗するグラフは、候補である可能性は低い。したがって、単に、（多くの）エラーボックスメッセージから「ＯＫ」を行い、スクリプトに次のグラフ候補に継続させる。
５）最適化は、前述のＱＵＢプログラムまたは当業者に利用可能な任意の他の好適なマルコフ最適化プログラムを使用して達成される。ＱＵＢおよび他のそのようなプログラムは、局所最適のみを見つけることによってモデルを最適化し、この方法が最良または次の最良モデルを見つけ得ないことを示唆し、識別されたグラフおよび停止基準に関する疑問を生ずる。これらの不確実性を軽減するために、最適化は、「ｄｏＨｙｐｅｒｃｕｂｅｏｆｓｔａｒｔｉｎｇｒａｔｅｓ：」にチェックされた「Ｙｅｓ」ボックスによって実行され得る。本選択肢は、４つの最適化を各モデルに関して行わせ、新しい遷移の２つの開始速度を定義する、正方形領域の４つの角から開始する。これは、全開始速度の周囲の超立方体の角からの開始速度の使用より遥かに経済的選択肢である。この選択肢は、ほんの時折、任意の段階において、最良または次の最良モデルを変化させる。
６）識別されたグラフの最適性を保証する、別の明白であるが、高価な方法は、異なる方法において、既存の接続を再配分することによって到達した同型モデルを最適化することであろう。本能力は、多くの問題となるグラフ最適化をやり直すことになるであろうため、実装されなかった。
７）時として、ＱＵＢは、特定のモデル最適化に関してクラッシュし、それに伴って、ＭｏｄｅｌＧｒｏｗｅｒスクリプトを削除し得る。病理学モデルは、異なるデフォルト開始速度、「ｄｏＨｙｐｅｒｃｕｂｅｏｆｓｔａｒｔｉｎｇｒａｔｅｓ：」に関する「Ｎｏ」対「Ｙｅｓ」、異なる立方体半径等を伴うスクリプトを再始動することによって、回避することができる。最適化が、それらを全てスキップしないように、必ずＮＡＵＴＹ２２ディレクトリ内の試行されたモデルのリスト（ファイル名「［０−９］．＊」）を除くことに留意されたい。我々は、ＱＵＢが、ＨＭＭを見つけるために必須ではない、ヒストグラムプロット化ステップに由来する、１つ以上の未処理浮動小数点例外をもたらし得ることを見出した。我々は、非必須ヒストグラムプロット化を無効にするか、または浮動小数点例外を処理するようにＱＵＢを書き換えることのいずれかを推奨する。
８）新しい速度に対する最も合理的デフォルト開始値は、恐らく、既存の最適化速度の平均であるが、我々は、本設定をユーザに任せる（ＱＵＢモデルウィンドウ内の速度を右クリックする）。開始速度が遅いほど、より良好に動作すると考えられる。
９）最適化プロセスの間、本発明の方法によって抽出された任意のＨＭＭは、視覚化され、画面上に配列されるか、または紙に印刷され、オペレータ／ユーザにオンラインで通知することができる。
マウスの睡眠モデル成長の概要

上記データは、本発明のＨＭＭアルゴリズムの４組の反復を示す。「別個の最適化グラフ」は、可能性のある状態の総数が、ＮＡＵＴＹプログラムによって減少された後、本発明によって提供される非同型状態の数を示す。例えば、第１のデータセットにおける第１のステップ後、非同型（すなわち、一意かつ互に異なる）である１５の候補が存在し、それらの各々は、グラフが次のステップを受ける前に、その尤度に関して、ＱＵＢによって評価される。第１のステップの最も可能性の高い候補のみ、第２のステップにおいて動作される。これは、ＱＵＢ評価のための４４の同型体を生成するであろう。

第１の組のデータは、さらなる改善の可能性低い、最終ステップに到達する前に、７つのステップを通過する。各組のデータは、超立方体によって、およびそれによってではなく、処理される。各ステップの各要素の対数尤度（ＬＬ）は、ＱＵＢプログラムによって提供される。最良および次の最良のみ、前の表に示される。データは、開始値の超立方体によって、およびそれによってではなく、試験される。非超立方体欄下の空白セルは、非超立方体に対する結果が、超立方体に対する結果と同一であることを示す。結果が異なるとき、結果は、非超立方体欄に示される。差分ＬＬは、別個のグラフの最良のものと、グラフの各ステップに対する次の最良のものとの間の差異を示す。第１の２組のデータは、収穫逓減に到達し、これは、それらそれぞれの差分ＬＬによって示され、それぞれ、１．６４および０．８８まで減少する。各々に対して、尤度にほとんど改善がなくなった後、最後の組の最良グラフが、最も可能性の高いＨＭＭとして選択される（これらの例では、第４のステップにおいて）。
上記データに関する観測結果：
１）尤度は、無限小であって、したがって、その対数は、負となるであろうが、ＱＵＢは、定数によって、対数尤度を変換し、正にする。
２）ＤＫＯ照明４−＞５から閉鎖するループは、不可逆的（ゼロ速度）遷移を識別し、これは、ある意味、追加の自由度ではなく、したがって、本モデルが、本段階において、他との不公平な比較を受けたという理由から、小差分ＬＬ（０．１７）が、容認された。
３）ＤＫＯ暗闇７−＞８からの成長のための大差分ＬＬ（１８．３２）は、ＤＫＯ暗闇４−＞５およびＤＫＯ暗闇６−＞７の段階における２つの小差分ＬＬ（成長プロセスを外れさせ得る）の後に続き、不確かであるとして、無視された。
４）これらのモデルは、データによって正当化されるもののみである。遥かにより複雑な睡眠モデルは、より多くのデータとともに考えられる。モデルが大きいほど、可能性のあるモデルの数が、組み合わせ的に増加するにつれて（我々が、単純に、８つのエッジの代わりに、最大９つを可能にする場合、６，００３，９３１の別個のモデルまで）、本方法をさらにより説得力のあるものにする。

（あるマウスの睡眠モデルの成長ステップの詳細）
暗闇下の野生型マウスの睡眠データに対して、我々は、図５に示されるように、観測可能状態遷移の大部分を記述する、モデルから開始することにする。図５は、野生型暗闇に対してラベル化されるが、他のデータセットの各々も、観測された状態に対して、同一の開始モデルを有する。観測された状態は、他の低可視性状態を隠し得る集計状態と見なされる。第１のインスタンスでは、観測または集計状態は、図中において、黒色が割り当てられ、正方形として示される、ＲＥＭ状態１と、赤色が割り当てられ、卵形によって指定される、徐波状態２と、青色が割り当てられ、六角形によって指定される、覚醒状態３とを含む。我々は、ＲＥＭ状態１と覚醒状態３との間の遷移を含み得るが、実際には、データにおいて、覚醒からＲＥＭの遷移はなく、したがって、我々は、本段階において、いずれの方向においてもこのような遷移を含まないように選択することに留意されたい。

本発明は、ＭｏｄｅｌＧｒｏｗｅｒプログラムを使用して、可能性のある候補をオリジナルまたは集計モデルから生成する。ＮＡＵＴＹプログラムは、候補に動作し、同型モデルを識別かつ排除する。ＱＵＢプログラムは、次いで、残っている非同型候補に動作し、その候補の速度を最適化する（例えば、データが、それらの速度を伴うモデルに由来した尤度を最大化する）ことによって、データに最も一致する候補を識別する。第１の段階の最適化候補は、次の段階に対する開始候補であって、そこで、ＭｏｄｅｌＧｒｏｗｅｒ、ＮＡＵＴＹ、およびＱＵＢが、再び、動作する。本発明は、ユーザによって定義される端点、好ましくは、差分ＬＬを減少させることによって決定される閾値を伴う端点において終了する。

ＭｏｄｅｌＧｒｏｗｅｒプログラムは、もう１つの遷移を伴う全ての可能性のあるモデルを表す、候補モデルへと基礎モデルを成長させるプロセスを行う。ＭｏｄｅｌＧｒｏｗｅｒプログラムは、図５の基礎観測モデルから開始し、状態を分裂させる、またはオリジナルの接続されていない状態を接続することによって、それを成長させる。図５のモデルの全ての可能性のある改良のうち、ＮＡＵＴＹは、候補の数を１つの追加の遷移を伴う１５の非同型候補まで減少させる。ＱＵＢは、次いで、１５の候補を検証し、ＭｏｄｅｌＧｒｏｗｅｒは、データに最も一致する、１つの候補を選択する。段階１の最良候補は、段階２に対する新しい開始点となり、それは、隠れ状態および隠れ遷移に対して検証される。より具体的には、プログラムＭｏｄｅｌＧｒｏｗｅｒは、最初に、既存の（集計）状態を同一の色の２つの状態に分裂させることによって、全ての可能性のある方法において、候補を成長させる。ＮＡＵＴＹは、同型体を除去する。次いで、ＭｏｄｅｌＧｒｏｗｅｒは、各状態を２つの状態に分裂させ、一方の分裂された状態は、オリジナル状態と同一の色であって、他方の分裂された状態は、異なる色である。色の数は、観測された集計状態の初期数に対応する。ＮＡＵＴＹは、それらの状態に動作し、同型体を除去する。最後に、ＭｏｄｅｌＧｒｏｗｅは、全ての接続されていない状態を接続し、ＮＡＵＴＹは、再度、動作する。第１の段階の終了時、１５の候補が存在する。ＱＵＢは、それらを最適化することによって、１５の候補を評価し、ＭｏｄｅｌＧｒｏｗｅｒは、候補の最良のものを識別する。最適化候補は、次いで、段階２に対する開始候補となり、そこで、候補は、再び、ＭｏｄｅｌＧｒｏｗｅｒによって、より多くの候補に成長され、それらの候補は、ＮＡＵＴＹによって、同型体に対して検証され、多数の可能性のある組み合わせを４４まで減少され、それらの４４の候補は、ＱＵＢによって最適化される。プロセスは、端点に到達するまで、７回、繰り返される。任意の好適な閾値に端点を設定し得る。野生型暗闇データに対して、端点は、次の差分ＬＬが５．１６であるように選択された。これは、モデルに対するデータ内の改善が少量であることを示す。

図６および７は、新しい遷移を追加する２つの方法を例示する。図６は、赤色の以前の状態２（卵形）が、どのように同一の色（赤色、卵形）の別の状態４および同一の色の新しい状態２（赤色、卵形）に分離され得るかを示す。図７は、遷移が、どのように以前の状態３、青色（六角形）と状態１、黒色（正方形）との間に追加されるかを示す。

ＷＴ暗闇２モデルに基づく、これらの作用モデルは、命名または保存されておらず、したがって、開始モデル、ＷＴ暗闇２の作業名を維持する。図６のモデルは、ＳＷＳ状態２が、新しい遷移に伴いそこから分裂したＳＷＳ状態４を有し、その既存の遷移のうちの１つ（覚醒状態３を伴うもの）が、新しいＳＷＳ状態４に配分されることを示す。状態４は、任意の睡眠状態の色であり得、ＳＷＳ状態２の既存の遷移のうちの任意のサブセットが配分され得る（または、いずれも配分され得ない）ことに留意されたい。図７における他のモデルは、新しい遷移によって接続された既存のＲＥＭ状態１および覚醒状態３を示す。図６モデルの遷移を追加する方法は、区別不可能（集計）状態を伴うモデルが、それによって合体されているかもしれないグラフ縮約を反転させ、図７のモデルの方法は、省略されているかもしれない遷移を追加する。このように、集計状態の任意の補正モデルが、全ての観測可能遷移を考慮する、最も単純なモデルから、段階ずつ復元されることができる。

これらの新しい遷移に対する、図６における状態２と４との間および図７における状態１と３との間の開始速度は、この場合、１．０であったデフォルト開始速度に中心がある、倍数的半径１０の超立方体（正方形）の２つの角、すなわち（１０，１０）および（０．１，１０）に由来する。図６および７は、図５の一次またはオリジナル集計モデルの１５の可能性のある非同型進化のうちの２つにすぎない。これらの開始速度は、例示であって、他の開始速度が使用され得る。全ての他の遷移速度は、これらの作用モデルのＱＵＢによる最適化に対する開始値として維持されていることに留意されたい。

１５の非同型グラフは、次の最大モデルを見つけるために、ＱＵＢによる最適化のための開始推量として、このように構築される。それらの１５のモデルは、ＱＵＢによって最適化され、ＭｏｄｅｌＧｒｏｗｅｒが、１５の初期モデルのうちの最良のものを選択し、そのモデルは、本発明の次の反復のための新しいモデルとなる。ステップ２に対する開始推量および次の最良ＬＬ＝４７２１．５５を達成するステップ２における最適化モデルは、それぞれ、図８および９に示される。

ステップ３に対する開始推量および最良ＬＬ＝４８２３．３４を達成する最適化モデルは、それぞれ、図１０および１１に示される。差分ＬＬ＝１０１．７９を伴う最良モデルが、容認、保存され、図１１としてラベル化される。

ＷＴ暗闇３−＞４からの差分ＬＬ＝１４２．８５およびＷＴ暗闇４−＞５からの差分ＬＬ＝８．５９を伴う、成長の次の２つのステップは、図１２および１３である。

各ステップにおける最良または最適化モデルは、次のステップのモデルを生成するために使用される。それらのモデルは、ＮＡＵＴＹによって除去されるその同型体を有し、非同型体は、ＱＵＢによって最適化され、したがって、ＭｏｄｅｌＧｒｏｗｅｒは、次のステップに対する最良モデルを選択し得る。前述のプロセスは、殆どまたは全く改善がなくなるまで、繰り返される。本発明は、野生型暗闇に対して７回、野生型照明に対して５回、ＤＫＯ暗闇に対して６回、ＤＫＯ照明に対して７回動作した。最終最適化モデルは、図１−４に示される。図１−１３に示される任意のコンテンツは、画面上において、ユーザ／オペレータに表示される。表示されるＨＭＭは、処理されるデータ内の関係を提示する。種々の状態は、整数を伴う記号（正方形、円形、．．．）によって視覚化され、これらの状態間の遷移は、矢印によって視覚化され、遷移確率は、矢印の他に、浮動小数点数によって視覚化される。したがって、ユーザは、明確に配列されるように、本発明の方法によって、入力データから抽出された結果に関して通知される。

本発明は、ユーザによってシステムに入力されたデータを処理するためのコンピュータ実装システムに関する。システムは、データを処理し、ＨＭＭを生成する。ＨＭＭは、２桁以上を備える数字から成り、状態および遷移確率を識別する。ユーザは、これらのＨＭＭからの情報／認知コンテンツを使用して、調査下のその有機体を適応させることができる。すなわち、ユーザは、有機体を特徴化する単一パラメータを変更することによって、修正された有機体を表す新しい観測データを抽出することによって、および再処理のために、新しいデータを本発明のシステムに送信することによって、有機体を修正する観点から応答することができる。返信データは、修正された有機体を識別するコードならびにコード桁数によって識別される修正を表す文字から成るワード（または、ワードの一部）を含む。

本発明はまた、コンピュータに、前述の方法またはプロセスを実行させるコンピュータ実行可能命令を伴う、コンピュータ可読コンピュータプログラム製品に関する。コンピュータプログラム製品は、その上に記録された好適なソフトウェアプログラムを伴う、ＣＤ、ＤＶＤ、ＨＤＤ、ＵＳＢスティック、メモリカード（ＣＦ、ＳＤ、ＭｉｃｒｏＳＤ、ＭｉｎｉＳＤ、ＳＤＨＣ、．．．）、または同等物であることができる。

添付の付属は、それらそれぞれのプログラムを動作させるための詳細なステップを提供する。ＱＵＢおよびＮＡＵＴＹプログラムは、本発明との使用のために利用可能であって、それらは、参照することによって本明細書に組み込まれる。前述の参考文献のデータおよび他の開示もまた、参照することによって組み込まれる。

概要として、本発明は、最も単純な観測されたデータが、１つ以上の隠れ状態または隠れ状態間の遷移を含むと仮定することによって、ＨＭＭを見出す。本発明は、複合データ、特に、生物学的プロセスを表すデータからＨＭＭを生成するために使用され得る。本発明は、そのようなプロセスの構造および動作を調査するための貴重なツールおよびプロセスを提供する。多数の用途が存在する。一実施例は、イオンチャネル通信である。生理学者は、細胞内のイオンチャネルが、細胞間および細胞内通信を制御すると考える。しかしながら、それらのイオンチャネルのオペレーションは、非常に複雑であって、それらに関して殆ど分かっていない。本発明を使用して、イオンチャネルオペレーションのためのＨＭＭを見出し得る。状態機械の構造が、既知であるとき、１つ以上の薬剤、電位、あるいは電流または物理的摂動を使用して、状態または状態間の遷移を改変することによって、疾患を治療可能であり得る。例えば、疾患が、免疫応答の過多によって特徴付けられ、身体が、過剰なサイトカインを産生し、そのような過剰な産生が、有害であると仮定する。ＨＭＭを使用することによって、化学、電気、機械、または他の手段によって操作され、状態または遷移を改変し、それによって、応答を抑制する、重要な状態または重要な遷移を見出すことが可能であり得る。別の実施例は、身体が、その免疫応答を欠いているＨＩＶに関する反対の例である。本発明を使用して、免疫応答を増幅させるように操作され得る、隠れ状態または隠れ遷移を識別することが可能であり得る。

本方法は、コンピュータ上にインストールされたプログラム（ソフトウェア）等のコンピュータ実装発明として理解される。プログラムは、医薬品または薬物等の物理的実体を表すデータを処理し得る。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
コンピュータを動作させて状態機械を表すデータの組をデコードすることにより、前記状態機械の最も可能性の高い隠れ状態および前記隠れ状態間の遷移を推定する方法であって、前記隠れ遷移は、速度を含み、前記方法は、
前記状態機械の観測を表すデータを記憶するステップであって、前記データは、１つ以上の観測された状態、観測された状態間の遷移、および、観測された状態遷移間の連続状態滞在時間を含む、ステップと、
異なるコードを各観測された状態に割り当てるステップであって、前記コードは、各観測された状態の独自の特性を表し、各観測された状態を全ての他の観測された状態から区別する、ステップと、
初期観測グラフを識別するステップであって、前記初期観測グラフは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の組を有し、かつ、各々が同様に独自に発生し、観測された状態間の観測された終了および開始のみを含む、観測された状態間の観測された遷移の組を有している、ステップと、
その前のグラフから、各および全ての可能性のあるインスタンスにおける１つの追加の双方向性遷移を有する導出されたグラフの組を生成するステップ、すなわち、
前記その前のグラフにおける既存の状態を接続された新しい状態の対に変換することによって、第１の導出されたグラフを生成するステップであって、両方の新しい状態は、前記既存の状態のコードを有する、ステップ、および、新しい状態の前記対のうちの前記既存の状態の１つまたは複数の既存の遷移を任意の可能性のある方法で再配分するステップと、
前記その前のグラフにおける既存の状態を接続された新しい状態の対に変換することによって、第２の導出されたグラフを生成するステップであって、一方の新しい状態は、前記既存の状態のコードを有し、他方の新しい状態は、別の異なる観測された状態の異なるコードを有する、ステップ、および、新しい状態の前記対のうちの前記既存の状態の前記１つまたは複数の既存の遷移を任意の可能性のある方法で再配分するステップと、
遷移が存在しなかった前記その前のグラフの既存の状態間に、任意の可能性のある方法で新しい双方向性遷移を追加することによって、第３の導出されたグラフを生成するステップと、
同型グラフを導出されたグラフの前記組から除去するステップと、
各残っている導出されたグラフの全ての遷移の速度を最適化することにより、結果として生じる導出されたグラフの各々が前記記憶されたデータを生成した尤度を最大化するステップと、
前記結果として生じる導出されたグラフの尤度を検査することにより、その内在する導出されたグラフが、前記記憶されたデータに対応する可能性が最も高いものを識別するステップであって、各結果として生じる導出されたグラフは、少なくとも１つの隠れ状態遷移を含む、ステップと
を含む、方法。
（項目２）
初期観測グラフを識別するステップは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の前記組のみから成り、かつ、各々が同様に独自に発生し、前記観測された状態間の観測された終了および開始のみを含む、前記観測された状態間の観測された遷移の前記組から成る、項目１に記載の方法。
（項目３）
前記コードは、色である、項目２に記載の方法。
（項目４）
次の最も可能性の高いグラフを上回る尤度の差が収穫逓減を示すまで項目１に記載のステップを繰り返し、最良グラフを見つけるステップをさらに含み、前記グラフの比較は、前記観測されたデータの尤度を最大化する最も単純な可能性のあるグラフを見つけるために、常時、同一数の遷移または自由度を有するグラフ間で行われ、それによって、前記方法は、前記状態機械の隠れ状態および遷移の最も正当化された推定を生成する、項目１に記載の方法。
（項目５）
隠れマルコフモデルを観測の組からさらに識別し、観測の異なる組から識別された別の隠れマルコフモデルと比較される、項目４に記載の方法。
（項目６）
対応する状態が対応する遷移によってリンクされるように、各グラフ、候補、および／またはマルコフモデルをディスプレイ上に提示するステップをさらに含む、項目１に記載の方法。
（項目７）
コンピュータを動作させて状態機械を表すデータの組をデコードすることにより、前記状態機械の最も可能性の高い隠れ状態および前記隠れ状態間の遷移を推定する方法であって、前記隠れ遷移は、速度を含み、前記方法は、
前記状態機械を表すデータを経時的に記憶するステップであって、前記データは、１つ以上の状態および状態間の遷移を含む、ステップと、
異なるコードを各状態に割り当てるステップであって、前記コードは、各状態の独自の特性を表し、各状態を全ての他の状態から区別する、ステップと、
前記状態機械を表す初期グラフを識別するステップであって、前記初期グラフは、実験証拠によって正当化されたそれらの状態および遷移のみを含む、ステップと、
その前のグラフから、導出されたグラフの組を生成するステップであって、各導出されたグラフは、前記その前のグラフに関する動作の組のうちの１つの動作から生じ、前記動作は、１つのみの状態または１つのみの遷移に関して１度に１つの方法、かつ、全ての可能性のある方法で行われ、その結果、各動作は、前記その前のグラフに対して、遷移または自由度の総数において１つのみの変化を有する導出されたグラフをもたらし、前記導出されたグラフの組は、そのような単一変化の各およびすべての可能性のあるインスタンスを含む、ステップと、
同型グラフを前記導出されたグラフの組から除去するステップと、
各残っている導出されたグラフの全ての遷移の速度を最適化することにより、結果として生じる導出されたグラフの各々が前記記憶されたデータを生成した尤度を最大化するステップと、
前記結果として生じる導出されたグラフの尤度を検査することにより、その内在する導出されたグラフが、前記記憶されたデータに対応する可能性が最も高いものを識別するステップであって、各結果として生じる導出されたグラフは、少なくとも１つの隠れ状態遷移を含む、ステップと
を含む、方法。
（項目８）
そのような変化の前記可能性のあるインスタンスのうちの１つは、前記その前のグラフにおける各既存の状態のうちの１つを双方向性に接続された新しい状態の対に変換することによって、前記その前のグラフに関して、１度に１つの方法、かつ、全ての可能性のある方法で動作することにより、導出されるグラフを生成することを含み、
１）両方の新しい状態は、前記既存の状態のコードを有し、
２）前記既存の状態の１つまたは複数の既存の遷移は、１度に１つの方法、かつ、全ての可能性のある方法で新しい状態の前記対の間で再配分されている、
項目７に記載の方法。
（項目９）
そのような変化の前記可能性のあるインスタンスのうちの１つは、前記その前のグラフにおける各既存の状態のうちの１つを双方向性に接続された新しい状態の対に変換することによって、前記その前のグラフに関して、１度に１つの方法、かつ、全ての可能性のある方法で動作することにより、導出されるグラフを生成することを含み、
１）一方の新しい状態は、前記既存の状態のコードを有し、他方の新しい状態は、別の異なる観測された状態の異なるコードを有し、
２）前記既存の状態の１つまたは複数の既存の遷移は、１度に１つの方法、かつ、全ての可能性のある方法で新しい状態の前記対の間で再配分されている、
項目７に記載の方法。
（項目１０）
そのような変化の前記可能性のあるインスタンスのうちの１つは、遷移が存在しなかった、前記その前のグラフの既存の状態間に単一の新しい双方向性遷移を追加することによって、前記その前のグラフに関し、１度に１つ、かつ、全ての可能性のある方法で動作して導出されるグラフを生成することを含む、項目７に記載の方法。
（項目１１）
初期観測グラフを識別するステップは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の前記組のみから成り、かつ、各々が同様に独自に発生し、前記観測された状態間の観測された終了および開始のみを含む、前記観測された状態間の観測された遷移の前記組から成る、項目７に記載の方法。
（項目１２）
前記コードは、色である、項目１１に記載の方法。
（項目１３）
次の最も可能性の高いグラフを上回る尤度の差が収穫逓減を示すまで項目７に記載のステップを繰り返し、最良グラフを見つけるステップをさらに含み、前記グラフの比較は、前記観測されたデータの尤度を最大化する最も単純な可能性のあるグラフを見つけるために、常時、同一数の遷移または自由度を有するグラフ間で行われ、それによって、前記方法は、前記状態機械の隠れ状態および遷移の最も正当化された推定を生成する、項目７に記載の方法。
（項目１４）
隠れマルコフモデルを観測の組からさらに識別し、観測の異なる組から識別された別の隠れマルコフモデルと比較される、項目１３に記載の方法。
（項目１５）
対応する状態が対応する遷移によってリンクされるように、各グラフ、候補、および／またはマルコフモデルをディスプレイ上に提示するステップをさらに含む、項目７に記載の方法。
（項目１６）
コンピュータに、項目１から１５のいずれか一項に記載の方法を実行させる、コンピュータ実行可能命令を有するコンピュータ可読コンピュータプログラム製品。

Claims

コンピュータを動作させて状態機械を表すデータの組をデコードすることにより、前記状態機械の最も可能性の高い隠れ状態および前記隠れ状態間の遷移を推定する方法であって、前記隠れ遷移は、速度を含み、前記方法は、
前記状態機械の観測を表すデータを記憶するステップであって、前記データは、１つ以上の観測された状態、観測された状態間の遷移、および、観測された状態遷移間の連続状態滞在時間を含む、ステップと、
異なるコードを各観測された状態に割り当てるステップであって、前記コードは、各観測された状態の独自の特性を表し、各観測された状態を全ての他の観測された状態から区別する、ステップと、
初期観測グラフを識別するステップであって、前記初期観測グラフは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の組を有し、かつ、各々が同様に独自に発生し、観測された状態間の観測された終了および開始のみを含む、観測された状態間の観測された遷移の組を有している、ステップと、
その前のグラフから、各および全ての可能性のあるインスタンスにおける１つの追加の双方向性遷移を有する導出されたグラフの組を生成するステップ、すなわち、
前記その前のグラフにおける既存の状態を接続された新しい状態の対に変換することによって、第１の導出されたグラフを生成するステップであって、両方の新しい状態は、前記既存の状態のコードを有する、ステップ、および、新しい状態の前記対のうちの前記既存の状態の１つまたは複数の既存の遷移を任意の可能性のある方法で再配分するステップと、
前記その前のグラフにおける既存の状態を接続された新しい状態の対に変換することによって、第２の導出されたグラフを生成するステップであって、一方の新しい状態は、前記既存の状態のコードを有し、他方の新しい状態は、別の異なる観測された状態の異なるコードを有する、ステップ、および、新しい状態の前記対のうちの前記既存の状態の前記１つまたは複数の既存の遷移を任意の可能性のある方法で再配分するステップと、
遷移が存在しなかった前記その前のグラフの既存の状態間に、任意の可能性のある方法で新しい双方向性遷移を追加することによって、第３の導出されたグラフを生成するステップと、
同型グラフを導出されたグラフの前記組から除去するステップと、
各残っている導出されたグラフの全ての遷移の速度を最適化することにより、結果として生じる導出されたグラフの各々が前記記憶されたデータを生成した尤度を最大化するステップと、
前記結果として生じる導出されたグラフの尤度を検査することにより、その内在する導出されたグラフが、前記記憶されたデータに対応する可能性が最も高いものを識別するステップであって、各結果として生じる導出されたグラフは、少なくとも１つの隠れ状態遷移を含む、ステップと
を含む、方法。
初期観測グラフを識別するステップは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の前記組のみから成り、かつ、各々が同様に独自に発生し、前記観測された状態間の観測された終了および開始のみを含む、前記観測された状態間の観測された遷移の前記組から成る、請求項１に記載の方法。
前記コードは、色である、請求項２に記載の方法。
次の最も可能性の高いグラフを上回る尤度の差が収穫逓減を示すまで請求項１に記載のステップを繰り返し、最良グラフを見つけるステップをさらに含み、前記グラフの比較は、前記観測されたデータの尤度を最大化する最も単純な可能性のあるグラフを見つけるために、常時、同一数の遷移または自由度を有するグラフ間で行われ、それによって、前記方法は、前記状態機械の隠れ状態および遷移の最も正当化された推定を生成する、請求項１に記載の方法。
隠れマルコフモデルを観測の組からさらに識別し、観測の異なる組から識別された別の隠れマルコフモデルと比較される、請求項４に記載の方法。
対応する状態が対応する遷移によってリンクされるように、各グラフ、候補、および／またはマルコフモデルをディスプレイ上に提示するステップをさらに含む、請求項１に記載の方法。
コンピュータを動作させて状態機械を表すデータの組をデコードすることにより、前記状態機械の最も可能性の高い隠れ状態および前記隠れ状態間の遷移を推定する方法であって、前記隠れ遷移は、速度を含み、前記方法は、
前記状態機械を表すデータを経時的に記憶するステップであって、前記データは、１つ以上の状態および状態間の遷移を含む、ステップと、
異なるコードを各状態に割り当てるステップであって、前記コードは、各状態の独自の特性を表し、各状態を全ての他の状態から区別する、ステップと、
前記状態機械を表す初期グラフを識別するステップであって、前記初期グラフは、実験証拠によって正当化されたそれらの状態および遷移のみを含む、ステップと、
その前のグラフから、導出されたグラフの組を生成するステップであって、各導出されたグラフは、前記その前のグラフに関する動作の組のうちの１つの動作から生じ、前記動作は、１つのみの状態または１つのみの遷移に関して１度に１つの方法、かつ、全ての可能性のある方法で行われ、その結果、各動作は、前記その前のグラフに対して、遷移または自由度の総数において１つのみの変化を有する導出されたグラフをもたらし、前記導出されたグラフの組は、そのような単一変化の各およびすべての可能性のあるインスタンスを含む、ステップと、
同型グラフを前記導出されたグラフの組から除去するステップと、
各残っている導出されたグラフの全ての遷移の速度を最適化することにより、結果として生じる導出されたグラフの各々が前記記憶されたデータを生成した尤度を最大化するステップと、
前記結果として生じる導出されたグラフの尤度を検査することにより、その内在する導出されたグラフが、前記記憶されたデータに対応する可能性が最も高いものを識別するステップであって、各結果として生じる導出されたグラフは、少なくとも１つの隠れ状態遷移を含む、ステップと
を含む、方法。
そのような変化の前記可能性のあるインスタンスのうちの１つは、前記その前のグラフにおける各既存の状態のうちの１つを双方向性に接続された新しい状態の対に変換することによって、前記その前のグラフに関して、１度に１つの方法、かつ、全ての可能性のある方法で動作することにより、導出されるグラフを生成することを含み、
１）両方の新しい状態は、前記既存の状態のコードを有し、
２）前記既存の状態の１つまたは複数の既存の遷移は、１度に１つの方法、かつ、全ての可能性のある方法で新しい状態の前記対の間で再配分されている、
請求項７に記載の方法。
そのような変化の前記可能性のあるインスタンスのうちの１つは、前記その前のグラフにおける各既存の状態のうちの１つを双方向性に接続された新しい状態の対に変換することによって、前記その前のグラフに関して、１度に１つの方法、かつ、全ての可能性のある方法で動作することにより、導出されるグラフを生成することを含み、
１）一方の新しい状態は、前記既存の状態のコードを有し、他方の新しい状態は、別の異なる観測された状態の異なるコードを有し、
２）前記既存の状態の１つまたは複数の既存の遷移は、１度に１つの方法、かつ、全ての可能性のある方法で新しい状態の前記対の間で再配分されている、
請求項７に記載の方法。
そのような変化の前記可能性のあるインスタンスのうちの１つは、遷移が存在しなかった、前記その前のグラフの既存の状態間に単一の新しい双方向性遷移を追加することによって、前記その前のグラフに関し、１度に１つ、かつ、全ての可能性のある方法で動作して導出されるグラフを生成することを含む、請求項７に記載の方法。
初期観測グラフを識別するステップは、各々が独自に発生し、複数の発生が区別不可能である観測された状態の前記組のみから成り、かつ、各々が同様に独自に発生し、前記観測された状態間の観測された終了および開始のみを含む、前記観測された状態間の観測された遷移の前記組から成る、請求項７に記載の方法。
前記コードは、色である、請求項１１に記載の方法。
次の最も可能性の高いグラフを上回る尤度の差が収穫逓減を示すまで請求項７に記載のステップを繰り返し、最良グラフを見つけるステップをさらに含み、前記グラフの比較は、前記観測されたデータの尤度を最大化する最も単純な可能性のあるグラフを見つけるために、常時、同一数の遷移または自由度を有するグラフ間で行われ、それによって、前記方法は、前記状態機械の隠れ状態および遷移の最も正当化された推定を生成する、請求項７に記載の方法。
隠れマルコフモデルを観測の組からさらに識別し、観測の異なる組から識別された別の隠れマルコフモデルと比較される、請求項１３に記載の方法。
対応する状態が対応する遷移によってリンクされるように、各グラフ、候補、および／またはマルコフモデルをディスプレイ上に提示するステップをさらに含む、請求項７に記載の方法。
コンピュータに、請求項１から１５のいずれか一項に記載の方法を実行させる、コンピュータ実行可能命令を有するコンピュータ可読コンピュータプログラム製品。