JP2004529440A

JP2004529440A - 疾患を階層化し疾患の進行を判定するための情報処理方法

Info

Publication number: JP2004529440A
Application number: JP2003502619A
Authority: JP
Inventors: リーブマン，マイケル，エヌ
Original assignee: プロサノスコーポレイション
Priority date: 2001-06-01
Filing date: 2002-05-31
Publication date: 2004-09-24
Also published as: AU2002303912A1; CA2448915A1; WO2002099568A2; WO2002099568A3; EP1399868A2; WO2002099568A9; US20040243362A1

Abstract

デジタル・コンピュータ・システムにより、１組の観測値に基づいて１組の患者を階層化する。この観測値には、数あるタイプの情報の中でも、物理的、生化学的、組織学的、遺伝学的なデータおよび遺伝子発現データを含めることができる。幾人かの患者の観測値が、患者のそれぞれの疾患プロセスの進行の異なる時点で始まり得る可能性を補正するために調整を加えることができる。こうした調整を加えた後で、このデータを統計的なクラスタ分析にかける。患者群からなる各クラスタは、疾患に内在する原因、最適な治療および予後によって、異なる疾患の階層を示す可能性がある。各階層を規定しそれらに患者を割り当てた後で、データに対する調整値を改善することができる。次いで、クラスタ分析を繰り返すことができ、それによって、階層化および段階付けの反復プロセスが行われる。

Description

【技術分野】
【０００１】
本発明は、一般に、個々の患者の生物学的および遺伝学的なバックグラウンドを考慮にいれるとき、ある種のファクタに応じて疾患の進行を判定するための予知医学に使用することができる疾患階層化の分野に関する。
【背景技術】
【０００２】
本出願は、２００１年６月１日出願の米国仮特許出願番号６０／２９４，６３８の優先権を主張する。
【０００３】
最新の医学は、（ａ）個々の患者に最適で最もコスト効果の高い治療を選択し、（ｂ）（ｉ）次世代の診断法、（ｉｉ）治療用の薬物、（ｉｉｉ）健康管理製品、および（ｉｖ）生活様式の提案の展開を指導するのに、疾患に固有の知識を利用する。個々の患者についての知識は、その患者の観測値から得られる。これらの観測値には、家系、健康診断からの知見、血液および尿の検査結果、ＭＲＩおよびＣＴなどの画像による検討結果などが含まれる。また、遺伝学的な情報も比較的頻繁に取得する。さらに、マイクロアレイ技術による遺伝子発現およびタンパク質発現のデータが、臨床用途にまもなく利用可能になるであろう。
【０００４】
ますます、従来方式の疾患のクラス分けは、たとえすべての分類で同じ症状が示されるとしても、原因となる機序または遺伝子による分類に細分化される。この細分化処理は、「疾患の階層化」として知られている。階層化を用いて、患者に対する最適な診断および治療の過程を選択し、結果を予測することができる。また、階層化を用いて、薬物開発のための適切な階層固有の標的を規定することもできる。一般に、階層化は、（ａ）単一の重要な生化学マーカ、（ｂ）現在の治療に反応した明らかな差異、または（ｃ）特定の遺伝子の差異に基づいていた。
【０００５】
診断情報を取得する主な理由の１つは、患者の疾患の進行の段階を決定するためである。こうした情報は、その疾患に対する適切な治療を決定するのに極めて重要である。癌の場合には、疾患の段階により、手術、放射線療法、化学療法または上記の組合せのいずれが最適かが決まることになり、さらに、それぞれへの的確なアプローチが決まることになる。腎臓病の場合には、疾患の段階によって、薬物、食餌療法および生活様式の変更により疾患が最適に処置されているかどうか、あるいは、透析および移植を検討する必要があるかどうかが決まることになる。別の例として、閉経後骨粗鬆症の段階付けおよび評価を利用して、エストロゲンの服用による副作用の危険性を、ホルモン補充療法の効用で均衡させることができる。
【０００６】
臨床的な実務慣行の現在の状況では、階層化および段階付けは、あいまいさと重複を伴う。単一疾患用マーカでは、疾患の進行の完全な様子がわからない。たとえば、糖尿病の判定では、グルコースおよびヘモグロビンＡｌｃを測定する。一方から、短期の測定値が得られ、他方から長期の血糖値調節が判定される。
【０００７】
個々の患者を段階付ける方法では、どの疾患進行マーカを使用するかに応じて、あいまいさが生じることがある。さらに、規定した疾患の段階は重複することがある。したがって、（ａ）患者がどの疾患経路に位置しているか、（ｂ）その患者はその経路のどこにいるかを決定するためのより優れた方法が求められている。
【０００８】
米国特許第５，６５７，２５５号は、疾患進行モデルを生成するのに用いることができると考えられる生物学的なモデル化システムを記載している。’２５５特許に開示されているモデルには、すべての変数が観察されるべき数学的なモデルが必要である。このような疾患モデルを生成するには、その疾患の理論および機序が完全に説明されなければならない。しかし、臨床的な実務慣行では、こうした完全なモデルは、可能だとしても、まれにしか入手できない。米国特許第６，１０８，６３５号は、疾患の進行を調べるのに使用することができる「ＩｎｔｅｇｒａｔｅｄＤｉｓｅａｓｅＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍ」に関するものである。しかし、問題のこのシステムは、疾患の進行を判定する各段階で、人間のオペレータが必要である。
【０００９】
したがって、疾患の基礎をなす内部機序の詳細なモデルを必要とせずに、疾患を階層化し段階付けすることが求められている。さらに、この必要性を満足する際に、疾患の階層化および段階を自動的に決定できることが好ましいであろう。さらに、複数の生化学マーカの独特の組合せ、治療反応の微妙な差異、または複数の遺伝子座の組合せなど、あまり明白ではないが重要な判定基準に基づいて疾患を階層化できることが有益であろう。さらに、階層化は、生化学マーカまたは臨床的な徴候など複数の変数の時間経過の形状を反映するべきである。
【００１０】
明らかに、個々の患者がどの疾患階層に属しているか（疾患階層はそれぞれ、同じ疾患の異なる時間進行を反映している）を予測または決定するのに用いることができる診断マーカを特定できることが求められている。したがって、こうした予測または決定を行うために、所与の診断マーカが使用され得る最も早い時点で決定することが求められているということになる。検討中の疾患ならびに他の疾患について、今後の臨床試験にこうしたマーカを組み込むことが望ましいであろう。個々の疾患の疾患階層が変化することを考慮すると、段階付けを行うのに使用する様々な疾患の測定値間であいまいさを解消することができることが求められている。
【特許文献１】
米国特許第５，６５７，２５５号
【特許文献２】
米国特許第６，１０８，６３５号
【非特許文献１】
プレストレルスキ他、タンパク質１４、４３０〜３９頁、４４０〜５０頁、（１９９２）
【非特許文献２】
Ｒ．Ｂ．Ｓｃｈｎａｂｅｌ、Ｊ．Ｅ．Ｋｏｏｎｔｚ、Ｂ．Ｅ．Ｗｅｉｓｓ、「ＡＭｏｄｕｌａｒＳｙｓｔｅｍｏｆＡｌｇｏｒｉｔｈｍｓｆｏｒＵｎｃｏｎｓｔｒａｉｎｅｄＭｉｎｉｍｉｚａｔｉｏｎ」、ＲｅｐｏｒｔＣＵ−ＣＳ−２４０−８２、Ｃｏｍｐ．Ｓｃｉ．Ｄｅｐｔ．コロラド大学ボールダー校、１９８２年
【非特許文献３】
Ｊ．Ｗ．Ｈａｒｔｉｇａｎ、「ＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓ」、ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ、１９７５年、７４〜８３頁
【非特許文献４】
ｇｃｒｃ．ｕｍｎ．ｅｄｕ／ｐｕｂ／ｄｃｃｔ／
【発明の開示】
【００１１】
１つまたは複数の上記欠如に対する解決策は、疾患を階層化し、その進行を予測することができる情報処理方法によって実現することができる。以下で説明するこの方法は、疾患の基礎をなす内部機序の詳細なモデルを必要とせずに、こうした疾患の階層化および進行の予測を行うことができる。さらに、階層化により、複数の生化学マーカの独特の組合せ、治療応答の微妙な差異、または複数の遺伝子座の組合せなど、あまり明白でないが重要な判定基準に基づいて決定することができる。さらに、このモデルは、疾患の階層および段階を自動的に決定することができる。
【００１２】
疾患を階層化し疾患の進行を判定するための１つの情報処理方法は、以下により詳細に記載するように、所与の疾患を共通にもつ複数の患者に関する変数の時系列の観測値を記録することを含む。より優れた、より有用なモデルを得るために、個々の組の患者は、たとえば、「成人である」ことや「治療を受けていない」という妥当な共通のバックグラウンドを反映していなければならない。したがって、こうした患者のグループは、患者の集団統計的な情報や以前の治療の履歴に基づいて、患者の母集団全体から選別しなければならない。観測し得る変数は、特定のクラスのものに限定されないが、それらには、集団統計的なデータ、生化学的なデータ、病理学的なデータ、組織学的なデータ、遺伝学的なデータ、または遺伝子発現データあるいはそれらの任意の組合せを含めてよい。これらの観測値を、データ・セットとしてデジタル・コンピュータ・システムに入力し保存する。このデータ・セットにより、後続のステップが自動計算として行われる。初期階層は、臨床医、あるいは、公開されている臨床疾患段階付けアルゴリズムによって得られるが、コンピュータにより、患者を階層にクラスタ化することによって、検討中の疾患が階層化されることが好ましい。これらの階層は、経時的に測定した観測値の進行を表す曲線形状に基づくものである。
【００１３】
この階層化を用いると（最初の階層化が不正確であると判明した場合には、さらに、後でこの階層化モデルを反復する）、階層が、整列され、端が切り捨てられ、あるいは延長されて、同様な時間進行がほぼ重なり合う。この時点で、患者の各ペアごとに、コンピュータが、整列された時間進行を比較して、それらの間の数学的な距離の測定値を求める。時間進行間の数学的な距離を求めるには、ユークリッド距離、シティブロック距離または手作業で用意したルックアップ・テーブルを用いる点別計算を含めて、多数の方法がある。この階層化は、階層間の数学的な距離に基づいて、各クラスタが特定の階層の疾患に対応するようにクラスタに患者を割り当てることによって改善される。クラスタの割り当ては、人間のオペレータが対話式に改変することができる。最後に、進行および階層化の推定値が、後続の反復操作で大きく変わらなくなるまで、この階層化モデルを改善することができる。
【００１４】
この疾患の階層化および進行の情報を、遺伝学的なデータ、遺伝子発現データまたは生化学的なデータと組み合わせて生化学的な標的を特定し、それによって、検討中の疾患の特定の階層または階層の組を治療する薬物を開発することができる。あるいは、この情報を用いて、検討中の疾患の特定の階層（または階層の組）に対する改善結果に相関する生活様式のファクタを決定し、それによって、特定の階層または複数の階層中の患者集団に生活様式の変更を提案することもできる。
【００１５】
上記で述べた方法では、様々な任意選択のステップを用いて、モデルの正確さおよび／または簡便さを高めることができる。たとえば、患者ごとに、いくつかの変数または全変数の時間に対する変化率を計算することができる。こうした計算結果が反映されるように、これらの患者に対応するデータ・ファイルを補強することができる。さらに、得られたモデルを簡単にするために、次元縮小法（たとえば、主成分分析法や因子分析法）による後続の分析に基づいて、モデルで使用する変数の数を減らすことができ、それによって、データ・セットに付加する情報が比較的少ない変数が減るか、あるいは他の変数と組み合わされる。
【００１６】
上記で述べた方法に基づいて、臨床医は、１つまたは複数の観測した変数のどれが階層化に関して最も多くの情報をもたらすかを決定することができる。この決定により、研究者または臨床医は、検討中の疾患の階層化を行う診断マーカ・キットを開発することができるはずである。さらに、同じ疾患の階層中の同様な段階にいる他の患者との類推から、疾患の階層化および進行の情報を用いて、個々の患者の疾患の推移を予測することができる。特定の患者の疾患の階層化および進行の情報を臨床医に提示して、患者が疾患の階層化および進行モデルにどのように当てはまるか（すなわち、その患者がどの階層に属するかと、現在その患者がその階層のどこにいるか）の決定に関する臨床医の診断に基づいて、その患者に対する処置の最適な推移を決定することができる。
【００１７】
上記で説明した疾患を階層化し疾患の進行を判定するための情報処理方法に基づいてモデルが与えられる場合、臨床医は、このモデルで表される疾患を共通にもつ追加の１人または複数の患者に関する変数の時系列の観測値を記録することができる。これらの追加の観測値をデータ・セットとしてデジタル・コンピュータ・システムに入力し保存することによって、このモデルを修正し、それによって、改善することができる。さらに、臨床医は、それぞれの追加の患者の疾患の進行の段階を、その患者を最初に診察する時点で推定することができる。
【００１８】
これら追加の患者ごとに、臨床医は、いくつかの変数または全変数の時間に対する変化率を計算することができる。さらに、これらの計算結果が反映されるように、このデータ・セットを補強することができる。この階層化モデルを用いると（後で最初の階層化が不正確であると判明した場合には、さらに、後でこの階層化モデルを反復する）、追加の患者の時間進行が、整列され、端が切り捨てられ、あるいは延長されて、このモデルに既知の同様な階層にほぼ重なり合う。この時点で、各患者ごとに、コンピュータが、整列された時間進行を比較して、それらの間の数学的な距離の測定値を求めることができる。次いで、それらの間の決定された数学的な距離に基づくクラスタに追加の患者をそれぞれ割り当てることができる。こうすると、追加の患者が、疾患の特定の階層に割り当てられる。さらに、臨床医は、特定のクラスタ内で患者間の距離を決定することができる。最後に、特定クラスタ（それによって、特定の疾患階層）に追加の患者をこのように割り振ることに基づいて、臨床医は、その患者を最初に診察した時点でなされたその患者の疾患の進行段階の初期の推定を修正することができる。
【００１９】
疾患を階層化し疾患進行の判定を行う情報処理方法をよりよく理解すると、以下に示す図に照らして詳細な説明を検討する際に、理解がより容易になるであろう。
【００２０】
本明細書に組み込まれ、その一部を構成する添付の図面は、本発明の実施形態を示し、かつ、明細書本文とあいまって、本発明の原理を説明するのに役立つ。
【発明を実施するための最良の形態】
【００２１】
次に、図面に示す本発明の現時点で好ましい実施形態を詳細に参照する。本発明は、提供されるデータに完全に基づく疾患進行モデルを含む。本発明の手法は、疾患の基礎となる理論または機序に関する入力を必要としない。
【００２２】
本発明は、階層化および段階付けの基礎として、患者または他の生体の臨床的な観測値を利用する。これらの観測値は、デジタル・コンピュータ・システムに保存され、そこで処理される。幾人かの患者または全患者からのいくつかの観測値または全観測値は、一度に処理することができる。これらのデータは、「クラスタ分析」として知られる統計的な手順にかけられる。この「クラスタ分析」により、経時的に観測した変数の変化を表す曲線形状に基づいて、患者が合わせてグループ化される。各クラスタの患者は、異なる疾患階層を示す可能性がある。異なる患者の観測値が、それぞれの疾患プロセスの進行の異なる時点で始まるのを補正するために調整を行う。こうした調整を行って、患者の疾患階層内で、個々の患者ごとに疾患の進行段階を決定することができる。最初に階層および段階を規定した後で、クラスタ分析および調整を繰り返すことができ、それによって、階層化および段階付けの収束的な反復プロセスが行われる。
【００２３】
本発明は、患者の観測値に基づいて疾患を階層化する。「階層化」という用語は、乳癌など単一の疾患として従来周知とされているものの中のサブセットを特定することを指す。一般に、「患者」は、疾患を患った人間個人を指すが、疾患プロセスの対象となる動物さらには植物も包含する。階層化を行うことは、（ａ）特定の疾患階層に照準を合わせた治療用薬物を開発するための標的となる分子を特定し、（ｂ）薬物および／または生活様式の変更を含めて、特定の階層に基づく最適な治療を選択し、（ｃ）特定の階層に基づく診断的な検査を選択し、あるいは（ｄ）その患者が属する階層に基づいて、疾患の推移を予測することを含む。
【００２４】
仮想例として、図２（ａ）および２（ｂ）に、２つの異なる遺伝型の癌について、腫瘍成長の経時的なグラフを示す。腫瘍サイズは、疾患の重篤度に関連する。遺伝型Ａ１および遺伝型Ａ２は、臨床的には同じ疾患に見えることがあるが、それらは異なる時間経過をたどる。経時的に多数の患者からのデータを分析することによって、本発明は、臨床医および研究者が、実際、異なる種類の治療に反応し得るこれら２つの別の形態の癌を区別する助けとなることができる。簡単にするために、疾患に関連する単一の変数として、腫瘍のサイズを示す。実際の応用例では、遺伝型Ａ１および遺伝型Ａ２の間の区別は、高次元空間において、細胞ＤＮＡ含有量および様々な遺伝子の発現など、いくつかの変数を追加して検査しない限り、明確ではないことがある。
【００２５】
本発明により、患者の観測値の分析に基づいて、患者の疾患の進行段階も決定される。疾患は、処置が施されない場合には特に、経時的に一連の段階を経て進行する傾向がある。処置を施すことにより、進行の状態が改変されるか、あるいは、疾患プロセスの各段階にかかる期間を変えることができる。図１に、腎不全および移植に至る腎臓病の各段階の例を示す。多くの医療上の条件の任意の１つにより、患者が末期状態の腎臓病に至ることがあり、腎臓はもはや血流から排泄物を濾過できなくなる。次いで、患者は透析に付される。その後、多くの透析患者は、腎臓移植を受けることになる。これらの患者の一部は、免疫反応のために、急性拒絶を被り、腎臓を失うことになる。その他の患者は、慢性拒絶の影響に苦しむことになるが、最終的には、移植された腎臓によって、なんらかの状態の健康を維持することができるようになる。図１に、疾患の段階を離散ステップで示すが、他の疾患は連続的に進行し、段階（たとえば、Ｉ、ＩＩ、ＩＩＩなどの段階の腫瘍）間の区別は自然にではなく、臨床医および研究者の都合でつけられる。
【００２６】
各患者を周期的に時間をかけて観察することが重要である。経時的にいくつかの時点で観察がなされない場合、たとえば、患者が、重篤な疾患の過程の初期で観察されているのか、あるいは、比較的軽度の疾患の過程の後期で観察されているのか区別することができない。各患者の診察は、患者の医療ファイルに入力することができる任意の項目からなり得る。血液、尿その他の検体による検査室の検査結果とともに、家系および健康診断の結果を含めることができる。ＭＲＩなどの画像検査も含めてよい。心電図または肺機能検査などの特殊な検査を含めてもよい。検体の組織学／病理学的検査の結果もまた含めることができる。遺伝学的検査の結果を含めることもでき、これは、今後、重要な役割を果たすと期待されている。患者の重要組織中の遺伝子発現を測定するために、ＤＮＡマイクロアレイからのデータも含めてよい。また、比較的新しいマイクロアレイ技術からのデータにより、タンパク質発現も測定することができる。診察自体を行うとともに、診察日を記録することができる。観測値は、最初の症状が現れる以前の期間も含めて、疾患の時間経過全体を対象として含むことが望ましい。
【００２７】
あらゆる場合において、これらのデータを、数値的に２つの観測値を比較し得る形式で取得するか、あるいはそうした形態に変換するべきであり、それによって、観測値間の「距離」が決定される。健康診断などの言葉による説明では、管理用語および数値的な符号化でこれを行うことができる。たとえば、「この患者は健康そうである」は、「５」として符号化できるはずであり、「この患者は深刻な病気であるようだ」は「３」として、また、「この患者は昏睡状態である」は「１」として符号化できるはずである。画像による検討の場合、腫瘍の直径など画像中の特徴を測定することが必要なことがある。胸部Ｘ線写真の肺浸潤などのより主観的な特徴は、たとえば、臨床医が、０〜４の数字で符号化した０／＋〜＋＋＋＋という尺度で等級付けすることができるはずである。遺伝子が存在するかしないかは、０または１として符号化することができる。所与の遺伝子の複数の可能な対立遺伝子には、それぞれ特定の符号を与えることができる。「観測値」は、特定の時間における特定の患者に関連する単一の数字または数字に変換することができる記述を指す。「変数」は、血圧、腫瘍の直径、血清クレアチニン・レベルや特定の遺伝子の発現レベルなど観察し得る患者の態様である。
【００２８】
一般に、患者は、２つ以上の疾患を患っていることがあり、複数の疾患は相互に影響し得る。１つまたは複数の観測値によって、あるいは、これらの観測値から導出した疾患の進行の測定値によって、所与の疾患を特徴づけることができる。この測定値には、本発明により導出した疾患の進行の測定値が含まれる。こうした測定値は、同じ患者に存在する第２の疾患を調べる際の「観測値」の役割を果たすことができる。したがって、本発明は、本発明を用いて、個々の患者集団において一度に２つ以上の疾患の検討を行うことができると一般化することができる。
【００２９】
図５に、分析プロセスの流れ図を示す。観測値は、デジタル・コンピュータ・システムに保存する。この観測値は、キーボードから手作業で入力するか、あるいは、ＬＩＭＳ（検査室情報管理システム）などの別のコンピュータ、電子診療記録または遺伝分析システムから転送することができる。
【００３０】
一般に、疾患の「段階付け」は、離散項（たとえば、「段階Ｉ」、「段階ＩＩ」、「段階ＩＩＩ」など）と考えられているが、本発明では、一般に、疾患の段階は連続的な数値である。こうした連続的な段階付けの推定値は、患者の時系列データを、それらが整列するように各階層内で互いにシフトすることによって導出することができる。図４（ａ）に、図３（ａ）〜（ｄ）に示す患者の一連のデータが「実時間」で整列している場合、それらは疾患プロセスの段階に関して整列していないので、それらを互いに直接比較することができないことを示す。
【００３１】
時系列データを整列させた後、次の目標は、類似の時間経過を有する患者を合わせてクラスタ化することによって、疾患を階層化することである。このプロセスは、統計学、特にクラスタ分析の技術分野の技術者には周知の「距離マトリックス」を生成することから開始する。すべてのペアの患者間の距離の三角行列を計算しなければならない。患者間の距離はそれぞれ、各変数ごとに計算した個々の距離の関数になる。この関数は、和または加重和の形式をとるはずである。所与の変数に対する距離は、その変数についての個々の観測値の距離の和になるはずである。この和も重み付けを行うことができる。
【００３２】
従来方式のクラスタ化では、一般に、クラスタ化するすべての対象物と、その他のすべての対象物との類似性を列記する距離マトリックスにより作業する。従来、この距離マトリックスは、最初に一度計算し、その後、クラスタ化プロセス中はこの値を使用する。しかし、日付は本来時間的にシフトしているので、この距離マトリックスは、クラスタが形成される際に劇的に変化する。これは、単に、クラスタを形成するときは必ず、距離マトリックスの一部を更新しなければならないことを意味する。
【００３３】
観測値間の距離は、いくつかの方法で求めることができる。クラスタ分析では、多くの場合、数値変数に絶対差または自乗差を使用する。数値で符号化した遺伝子アレルなど、いくつかの事例では、手作業でルックアップ・テーブルを生成して、任意の２つの可能な観測値間の「距離」を評価することが望ましいであろう。
【００３４】
階層化および段階付けプロセスを有効なものにするには、分析を行う患者の集団構成を制限することが必要なことがある。たとえば、たとえ同じ疾患を共通にもつ場合でも、乳児で観測したある種の変数を、成人の同じ変数と比較しても意味がないであろう。また、単一の分析が、広範囲の治療処置を受けた患者を混在して含まないようにすることが必要であろう。そうしないと、この方法は、１つの階層には治療を受けた患者、別の階層には治療を受けていない患者からなる誤った「階層」群を生成することになるであろう。そのため、本発明は、患者の集団統計データ（年齢、身長、体重、性別など）および治療歴についての基準を指定するステップを含む。指定した基準を満たす患者だけが、後続の分析に含まれることになる。患者を選別するのに用いる基準は、疾患ごとに異なるものになるであろう。
【００３５】
後続のクラスタ分析では、一般に、変数の時間に対する変化率を含むことが望ましいであろう。時系列データの導関数を計算するためのアルゴリズムが、多数公開されている。これらのうちいくつかは、データ中のノイズを過度に増幅しないように多点フィルタリングを組み込んでいる。これらのアルゴリズム、たとえば、Ｓａｖｉｔｓｋｙ−Ｇｏｌａｙフィルタは、本発明に関連して有用であり得る。
【００３６】
各患者ごとに、比較的多数であり得る変数のデータ・ポイントを含めて、時系列データがデータ・セット中に存在する。こうした状況では、一般に、多数の変数が互いに密接に相関することがわかっている。したがって、あまり重大ではない情報を含む「余分な」変数があり得る。ニューラル・ネットワークと、主成分分析法および因子分析法などの統計技法とを用いて、計算に持ち越す変数の数を減らすことができる。挿入的に、これらの技法は、検討すべき変数間の関係を洞察する追加の利点となり得るものであり、また、今後の検討に必要な変数の数を減らすことができる。
【００３７】
疾患の階層化および段階付けの反復プロセスは、患者をクラスタ化することから始める。各患者は、（時系列データとも呼ぶ）時間進行を規定するその患者に関連した複数の時間依存性の測定値をもつ。各時間進行により、経時的に観測した変数の測定値に対応する曲線が描かれる。初期クラスタ化はこれらの曲線の形状に基づく。クラスタ化は、曲線間の距離を直接測定した値にではなく、曲線形状に基づいていなければならない。というのは、各患者ごとの観測値は、その患者の疾患プロセスの経過に沿った時間的に異なるポイントから始まるからである（すなわち、観測の暦日付では、患者の疾患がどのくらい長く進行しているかに関して何もわからない）。不慮の院内感染などの特殊な場合を除いて、一般に、「時間ゼロ」がいつであるかはわからない。コンピュータは、疾患の時間経過全体を分析するので、重篤な疾患の初期段階にある患者と、比較的軽度の疾患の後期段階にある患者とを区別する（というのは、一般に、この２つの場合の曲線形状が異なるものになるからである）。
【００３８】
曲線形状のクラスタ化は、任意のいくつかの時間進行整列アルゴリズムによって実施することができる。従来方式の任意のクラスタ化アルゴリズムを用いて、階層化を行うことができる。「単連結法」、「完全連結法」、「Ｋ−ｍｅａｎｓ法」、「ワード法」、または「セントロイド法」など、多くのこうしたアルゴリズムがある。これらのアルゴリズムは、データ分析の技術分野の技術者には周知のものであり、ＳＡＳおよびＳＰＳＳなど標準の統計パッケージの形で入手可能である。これらのアルゴリズムは、同じオブジェクトを合わせてグループ化し、異なるオブジェクトを別々のグループに保持する。最初のステップとして、Ｓａｖｉｔｓｋｙ−Ｇｏｌａｙフィルタまたは類似の公式を用いて、曲線を形成する値の時間導関数を計算し、それによって、１つの曲線から他の曲線への定数オフセットの影響をなくし、また、曲率その他の形状を画定する特徴を強調することができる。次いで、動的計画法またはウェーブレット変換などのアルゴリズムによって、互いに各曲線を整列させることができる。各クラスタは、疾患の階層を表し得る。臨床的に最も意味のある疾患階層化を得るために、人間のオペレータが、データを詳細に検討した後で、クラスタを分離し、また、結合することが望ましいであろう。
【００３９】
別々の階層の各患者から始め、次いで、クラスタ化アルゴリズムでこれらの階層をまとめる。疾患プロセスの「時間ゼロ」で患者をほとんど観察していないことを補正するために、これらの階層を組み合わせる際に互いに時間的にシフトさせる。さらに、各患者（または階層）は、疾患プロセスにおける異なる時点での第１観測値をもつ。時間シフトの適切な量は、反復的（可能なシフト量の範囲を適用し、数学的なモデルに最もフィットするものを選択する）にか、あるいは、解析的（モデル自体に基づいて最小自乗方程式を解き、最適な時間シフトを見つける）に決定することができる。
【００４０】
階層を組み合わせるとき、次に、測定したすべての疾患変数に許容可能なフィットが得られる「コンセンサス」時間シフトを見つける。最後に、この組み合わせた階層を全体的な数学モデルにフィットさせる。その後、この数学モデルを吟味し直して、許容可能なフィットが得られるようにする。モデルを吟味し直さないと、このモデルは、もっともらしい疾患プロセスを表すことにはならない、時間的に合わせて一続きになった長い「デイジー・チェーン型」の患者群を表すことになると考えられる。
【００４１】
各階層内で、各患者ごとの時系列データを、時間的にさらに整列させて、平均患者間距離を減少させることができる。この時系列データを整列させるのに必要なシフト量を用いて、患者の現在の疾患の段階の推定値を直接更新することができる。これは、その患者の「時間ゼロ」の暦日付を推定するのと等価である。次いで、クラスタ分析を繰り返すことができる。一般に、この反復プロセスは収束することになる。最後に、このクラスタは、疾患の階層を表すことになり、最終時点としての観測値とともに、各患者のデータに適用したシフト量は、各患者の疾患の進行の段階を示す。図４（ｂ）に、この分析プロセスの結果を示す。このデータは、疾患の段階によって整列しており、したがって、検討中の疾患のサブセットを表す階層にクラスタ化することができる。時間原点から中抜き円までの距離は、各患者ごとの疾患の段階または進行の測定値である。
【００４２】
まとめると、同期化および階層化では、３ステップからなるプロセスのクラスタ化を用いる。すなわち、１対の階層を組み合わせるために、（１）各変数ごとに最適な時間シフトを決定し、（２）すべての変数を合わせてコンセンサス時間シフトを決定し、（３）組み合わせかつシフトしたデータをモデルにフィットさせ、（４）モデルを吟味し直した後でフィット結果が許容できる場合、組み合わせた階層を有効なものとして受け入れる。
【００４３】
患者の時間経過イベントを同期化する助けとなる手法には、プレストレルスキ他、タンパク質１４、４３０〜３９頁、４４０〜５０頁、（１９９２）に記載のものを含み得る。プレストレルスキは、離散的に測定された特徴を整列させ同期させることができ、動的計画法を用いて、測定変数間のギャップを決定し補償することができる方法を記載している。
【００４４】
プレストレルスキの文献の例では、サンプリングまたは同期化の際に順序よく整理され得ることもあるしされ得ないこともある、変動するポイントにおける時間ドメインをサンプリングしていない。そうではなくて、アミノ酸配列中で、同じにならないように同様に番号付けできるはずの位置として、等価なドメインを定義している。直線軸内または軸座標の始まりのところでギャップまたは挿入が存在するので、この位置をドメインとして選択している。
【００４５】
疾患分析における階層化およびクラスタ化の適用例が、心臓移植受容者および提供者のデータベースの検討への応用例に見られる。こうした研究では、移植前および移植後の受容者に関する大量の情報があるが、移植前の提供者に関する情報は最小限のものしかなく、移植後のものは皆無である。こうした分析の所望の結果は、提供者と受容者を適合させるのに使用する基準を高める潜在的可能性を決定し、それによって、移植処置の成功率、すなわち、心臓移植受容者の生存率が高められることであろう。処置の標準により、組織適合試験が必要である。提供者と、それより体重が少ない受容者とを潜在的に適合させることに基づいて、（筋肉からなる）心臓が、移植中に生じる萎縮に耐えることと、より体重が少ない受容者ではよりうまく働くことを見込んで、追加のアルゴリズムが実施されている。
【００４６】
プレストレルスキ他の文献に記載の動的計画法による分析を適用すると、一般に、受容者は、移植時には身体的に弱い状態であり、受容者の実際の体重は、所望の臓器の機能的なプロフィールをより密に反映している理想的な体重よりも少ないという事実を織り込むように、受容者の体重に対する提供者の体重のファクタをさらに改善することができる。さらに、提供者は、体重超過または体調不良ために、理想的な体重よりもかなり重いことがある。単純な実際の体重比に依存しても、提供される材料の「質」を十分に反映しないことがある。さらに、生存／死亡の状態の分析により、この単純な分類のしかたは、（ａ）実際の所望の結果（生存日数）、および（ｂ）これを移植後に十分に評価するための処置手順の標準の潜在能力を表すのに不十分であることが示された。患者のスコアを変換して、移植成功による生存時間の長さを反映させると、（ａ）移植の成功または失敗の進行をより正確に決定することができ、（ｂ）処置に先だって予想され補正することができるはずの要因に関係し得る（時間的な）進行のいくつかの特定のクラスタを特定することができ、（ｃ）移植後の処置の標準の潜在的な有用性が評価された。したがって、検査室による検査は、臓器不全または拒絶の潜在的な危険性を警告することに成功した。
【００４７】
図３（ａ）〜（ｄ）に、４人の患者について、（図２（ａ）および２（ｂ）に示した仮想癌の例を継続して）腫瘍の成長の時間経過を示す。各図中のグラフ化した線は、各図に対応する患者から取得した第１の測定値から始まる。一般に、患者は、癌の進行の異なる時点で、すなわち、症状が最初に現れたときに、診療を仰ぐことになる。このため、症状が現れる以前の期間を対象として含むデータは、その間腫瘍が存在し成長したとしても入手可能ではない。中抜き円は、各患者ごとの最後（最も最近）の測定の日付を表す。
【００４８】
次いで、データの階層化および段階付けを用いて、個々の患者ごとに、診断、治療および生活様式の指針を展開することができ、また、疾患の結果を予測し、個々の患者に対する治療を最適化することができる。十分な組の患者に対して完全な分析を実施すれば、新しく追加された患者について、疾患を階層化し段階付けを行うことははるかに簡単である。単に、既存のデータ・セットに最もフィットするように、新しい患者の観測値を整列しクラスタ化することができる。さらに、たとえば、臨床的、生物学的、遺伝学的に新しい技術または方法に基づく新しい観測値を、いつでも階層化プロセスに組み込むことができる。整列により、前述の疾患の段階が示され、クラスタの割当てにより、患者が属する階層が示されることになる。さらに、新しい患者を反映するようにモデルを更新することができる。このようにして、モデルの正確さを経時的に連続して改善することができる。
【００４９】
次に、本発明の概念的な説明をはっきりさせるために、患者データを階層化し同期化して疾患モデルを形成するプロセスを詳細に記載することによって、上記で述べたことを実現する方法を説明する。
【００５０】
事前に、モデル用の入力を定義しなければならない。疾患モデル化プロセスへの入力は、ｉ＝１〜Ｎで示すＮ人からなる１組の患者に対してなされた経時的な１組の観測値である。Ｍ個の異なる臨床的な被観測変数があり、これらをｊ＝１〜Ｍで示す。各患者ごとに、ｔで示す時間で各変数を観測する。各患者ごとの観測の回数は、Ｎ人の患者間で変わり得るものであり、ｋ＝１〜ｎ_ｉで索引付けする。一般に、値ｔは、患者ごと、変数ごとに異なることがある。このように、これらの観測値は、順序付けられた組のペア、｛ｔ_ｉｊｋ，ｙ_ｉｊｋ｝からなるものである。ただし、ｉ＝１〜Ｎ、ｊ＝１〜Ｍ、ｋ＝１〜ｎ_ｉであり、各時間ｔごと（および各患者Ｎごと）に、それに対応する各変数Ｍごとの測定値ｙがある。
【００５１】
この疾患モデル化プロセスの第１の出力は、患者集団を階層すなわちクラスタに分けるように設計され、かつ意図されている。各階層は、原型の「モデル患者」が、ある疾患を通じて進行することができる仕方のパターンを示す。すなわち、所与の階層の構成員は、観測された疾患の変数が経時的に発展する仕方が類似のパターンを共通にもつ。
【００５２】
使用する特定のクラスタ化アルゴリズムによっては、所与の患者は、２つ以上の階層に属するように見えることがある。これは、たとえば、その患者が、疾患の経過の初期にしか診察されず、患者がどの階層に属するかを完全に決定するのに十分な情報がない場合に起こりえる。また、疾患プロセスの後期に診察が行われ、患者がどの経路をたどってその状態に達したかを決定できない場合にも起こりえる。
【００５３】
この疾患モデル化プロセスの第２の出力は、各変数ごと、各階層ごとの１組のモデル関数である。これらのモデル関数は、所与の階層の構成員である患者について、各変数の経時的な発展を予想することができるパターンを記述するものである。この疾患モデル化プロセスの第３の出力は、１組の時間オフセット値であり、ある患者がある階層の構成員である場合ごとに１つの時間オフセット値がある。この時間オフセット値は、それらが所与の患者のデータを時間的にシフトさせて、その階層の対応するモデル関数に患者の観測データを（最小自乗的な意味で）最もよくフィットさせるように決定する。変数１つ当たりではなく、患者１人に１つの時間オフセット値があることに留意されたい。所与の患者についてのすべての変数は、実際の患者において同時に発生するので本来時間的に結びついており、そのため、互いに時間的にシフトされない。
【００５４】
所望の出力を得るために、階層化および同期化プロセスを理解することが必要である。この同期化プロセスにより、患者の記録は、それらがともに結合されて階層を形成する際に、互いに時間的にオフセットされる。このようにして患者を結合することによって形成された階層は、３つの記号からなる（Ａ，Ｂ，Δ）によって表される。これは、「患者Ａの第１観測時間と患者Ｂの第１観測時間の間にオフセットΔがある状態で、患者Ａの記録に患者Ｂの記録を付加する」ことを意味する。Δの符号は、Ｂの第１の観測がＡの第１の観測よりも後で行われる場合はプラスであり、Ｂの第１の観測がＡの第１の観測の前に行われる場合はマイナスである。次いで、結合プロセスにおいて、「階層」が再帰的に「患者」の役割を果たす。たとえば、最終的に確定した階層は、次のように表される。
【００５５】
（（（Ａ，Ｂ，−１０．３），（Ｃ，Ｄ，−６．１），＋３．２），Ｅ，＋１．７）
（Ａ，Ｂ，−１０．３）に「Ｑ」を割り当て、（Ｃ，Ｄ，−６．１）に「Ｗ」を割り当てると、結果は次のようになる。
【００５６】
（（Ｑ，Ｗ，＋３．２），Ｅ，＋１．７）
さらに、（Ｑ，Ｗ，＋３．２）に「Ｚ」に割り当てると、最終的に確定した階層は次のようになる。
【００５７】
（Ｚ，Ｅ，＋１．７）
モデル化プロセスを開始するために、各患者をその患者自身の階層に配置する。すなわち、患者Ａは階層（Ａ，ｎｕｌｌ，０）になる。この患者のデータは、モデル化アルゴリズムを適用する前に、あらかじめ条件設定することができる。必要なら、変数は（対数、平方根などに）変換して、変動を安定化するべきであり、それによって、ｙの差異が、臨床的にも等しい重要性をもつことになる。振動的または周期的な変数は、ここで使用したより滑らかなモデルに合う変数（たとえば、包絡関数または振幅関数あるいは振動サイクル数すなわち周波数を示すなんらかのもの）で置き換えるべきである。データ中のノイズは、階層化プロセス自体を行う前にデジタル・フィルタリングで除去することができる。
【００５８】
以下のプロセスの各ステップにおいて、各階層内の変数のデータを数学的なモデル関数にフィットさせる。このモデル関数の数学的な定式化は、モデル曲線が、実際のデータと同じ概略形状の特徴を示すように選択するべきである。この定式化は、実際のデータをフィットさせる時間間隔の先まで外挿する際に、臨床的に適切な挙動を有するようにも選択するべきである。このため、２次または３次モデルなど数学的に簡単な形式は望ましくないことがある。というのは、それらは、それらを最初にフィットさせる領域外で±∞に発散するからである。外挿により導入される誤差が許容範囲なので、線形モデルがうまく利用されている。
【００５９】
上記の指針内で、ここで説明したもの以外の他のモデルの定式化を利用することができる。このモデル化プロセスでは、モデル用に４つの異なる数学的な定式化を続けて使用する。
【００６０】
定数：ｙ（ｔ）＝α
線形：ｙ（ｔ）＝α＋βｔ
【００６１】
【数１】

【００６２】
所与の階層では、各変数は、最終的にこれら４つのタイプのモデルの１つにフィットする。以下のプロセスによってフィッティングを行う。第１に、データを最小自乗法で「定数にフィット」させる。これは、単にデータの平均値に等しくαを設定するのと等価である。次いで、このモデルからデータのＲＭＳ（自乗平均）偏差を決定する。
【００６３】
第２に、このデータを線形モデルにフィットさせ、ベスト・フィットさせた直線からＲＭＳ偏差を決定する。ＲＭＳ偏差が指定したフラクション（モデル化プロセスのパラメータ）よりも減少する場合、この線形モデルを受け入れる。そうでない場合には、定数モデルを用いる。
【００６４】
第３に、このデータを、反復最小自乗フィッティング手順でロジスティック曲線にフィットさせる。この最小自乗フィッティング法では、米国林野部所属のＳｔｅｖｅｎＶｅｒｒｉｌｌが開発したＪａｖａ（登録商標）ルーチンを使用する。これは、Ｒ．Ｂ．Ｓｃｈｎａｂｅｌ、Ｊ．Ｅ．Ｋｏｏｎｔｚ、Ｂ．Ｅ．Ｗｅｉｓｓ、「ＡＭｏｄｕｌａｒＳｙｓｔｅｍｏｆＡｌｇｏｒｉｔｈｍｓｆｏｒＵｎｃｏｎｓｔｒａｉｎｅｄＭｉｎｉｍｉｚａｔｉｏｎ」、ＲｅｐｏｒｔＣＵ−ＣＳ−２４０−８２、Ｃｏｍｐ．Ｓｃｉ．Ｄｅｐｔ．、コロラド大学ボールダー校、１９８２年に記載の対応するＦＯＲＴＲＡＮソフトウエア・パッケージを適合させたものである。この線形モデルを用いて、最小自乗反復用の初期値を確定する。再度、この曲線からデータのＲＭＳ偏差を求め、このフィッティングにより線形モデルに比べて十分に改善する場合、このロジスティック・モデルを受け入れる。
【００６５】
第４に、これが最後であるが、２次ロジスティック曲線についてこのフィッティング手順を繰り返し、その後、このフィッティングにより十分に改善した場合、この新しいモデルを受け入れる。このステップの最後に、各階層ごとに、すなわち、各変数ごとに、このモデルのタイプ（すなわち、定数、線形、ロジスティックまたは２次ロジスティック）およびこのモデルについてのパラメータの数を記載する。定数モデルには１つのパラメータがあり、線形モデルには２つ、ロジスティック・モデルには４つ、２次ロジスティック・モデルには５つのパラメータがある。
【００６６】
次のステップでは、階層のすべてのペアを検討する。各ペアは「順序付けられたペア」であることに留意されたい。すなわち、（Ａ，Ｂ）は（Ｂ，Ａ）と等価ではない。階層を組み合わせる際、１人の患者は、その組合せ中に１回しか出現することができない。所与の患者が階層Ａおよび階層Ｂの両方に現れるペアは無視される。各階層の各ペアごとに、各変数を順番に検討する。第１ステップでは、各変数ごとに、Δで時間的にオフセットさせたとき、階層Ｂのデータが階層Ａのモデルに（最小自乗的な意味で）フィットするように、（適当な範囲にわたる）Δの最適値を決定する。この例では、単に、等間隔に並んだ一連のΔの候補値において最小自乗計算を反復することによってこれを行う。あるいは、１組の正規方程式を生成し、直接Δの最適値について解く。ほぼ同じ程度のフィットが得られるΔの値がいくつかあり得ることに留意されたい。実際、患者Ａのモデルが定数の場合、すべてのΔの値から、モデル化プロセスのパラメータであるεのある範囲内で同じように良好なフィットが得られる。したがって、このプロセスのこのステップでは、Δは、単一の値ではなく、値の並びまたは範囲であり得る。
【００６７】
このアルゴリズムでは、Δの最適値によってＢのデータにフィットさせても、Ａのモデルの曲線からのＲＭＳ偏差が十分に小さくならない場合、この階層ペアは拒絶される。ＲＭＳ偏差の閾値は、モデル化プロセスの別のパラメータであり、統計学の技術分野の技術者なら、分析の性質に応じて適切な値を設定することができる。任意の変数についてこのようになる場合、このプロセスの現在の段階では、ＡおよびＢは同じ階層に含まれる候補とみなされない。ただし、この階層ペア（Ａ，Ｂ）から、すべての変数について許容可能なΔ（またはΔの組）が得られる場合、次のステップで、すべての変数について、これらの値を単一のΔに一致させるように試みる。階層Ａおよび階層Ｂに関係するΔは１つしかないことがある。各変数ごとに別々のΔが存在することは物理的に現実的ではない。というのは、これらのデータは、ある特定の単一の時点で、現実の患者の現実の観測値から得られるからである。
【００６８】
この例では、このプロセスは、この階層ペアについて列記されたΔの各値に適合する変数の数を数えることである。これにより、すべての変数に共通で、数が減ったΔの並びが得られる。この数が減ったΔの並びに、２つ以上の可能なΔの値が含まれる場合、この例では、絶対値が最も小さいΔを選択する。こうしたΔ間の結びつきをばらすための、たとえば、全体としてＲＭＳに最もよくフィットするΔを選択するための他の任意選択肢も考えられる。
【００６９】
この時点で、階層ＡおよびＢを結合して、（Ａ，Ｂ，Δ）で示す新しい階層にする。すなわち、データＡに対するデータＢのオフセットΔを用いて、データＡおよびＢを組み合わせる。次いで、上述の４つのモデル・タイプを用いて、この組み合わせた階層について、新しい階層を決定する。この組み合わせたデータ・セットにフィットさせた最終的なＲＭＳモデルが、フィッティング・プロセスのパラメータ値と比較することによって十分に良好であると判定された場合、この新しい階層を「受け入れ」る。この階層が受け入れられた場合、階層（Ａ，Ｂ，Δ）は、評価用の階層の組に付加される。
【００７０】
すべての可能なペアを評価し終えるまで、ペアを評価するこのステップを繰り返す。その時点で、受け入れた階層の並びを編集して、あるサイズより小さい階層および／またはある回数のパス中に別の階層と結合されなかった階層を除去することができる。「概略値」であり、結合しないであろう小さい階層を繰り返し評価するのにかかる時間を減らしながら、大きい階層を集積することができるなんらかの他の方法で、編集を行うことができる。次いで、後続のパスについて、新しい階層が形成されなくなるまで、このペア評価プロセスを繰り返す。
【００７１】
上記で述べたペアの結合法に対する代替手段として、代替クラスタ化アルゴリズム、たとえば、Ｊ．Ｗ．Ｈａｒｔｉｇａｎ、「ＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓ」、ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ、１９７５年、７４〜８３頁に記載の「リーダー・アルゴリズム」を用いることができる。さらに、臨床または製薬研究の状況では、様々な階層の帰属関係および位置を、臨床およびゲノム・データに相関させることができる。
【実施例１】
【００７２】
モデル化用のデータを、「糖尿病コントロール・合併症調査」の公開ファイルから取り出した。これは、インターネット上でｇｃｒｃ．ｕｍｎ．ｅｄｕ／ｐｕｂ／ｄｃｃｔ／からｆｔｐを介して入手可能である。「標準治療グループ」中の７３０人の患者の記録を用いた。というのは、「実験治療グループ」の患者は、「糖尿病コントロール・合併症調査」の介入によって人為的に「同期」されていたからである。各患者ごとに、（ａ）ヘモグロビンＡｌｃ（血糖コントロールの測定値）、（ｂ）網膜疾患（眼球の一部である眼底の写真によるＥＴＤＲＳ尺度のスコア）、（ｃ）「運動神経速度」、および（ｄ）「知覚神経速度」の４つの変数について、１０年分の年次測定値を抽出した（すなわち、Ｉ＝１〜７３０、ｊ＝１〜４、ｋ＝１〜１０）。後者２つの値は、糖尿病の別の合併症である抹消神経疾患の測定値である。欠けていた値は、つい最近の入手可能な値から補充した。
【００７３】
前述のアルゴリズムを用い、同じ形状の曲線を整列させるために時間シフトを利用することによって、患者を階層にクラスタ化した。観測した４つの変数による階層についての結果を図６〜９に示す。（ａ）図６に、「ＨＢＡｌＣ」と題するヘモグロビンＡｌｃについての階層を示す。（ｂ）図７に、「ＥＴＤＲＳ」と題する網膜疾患についての階層を示す。（ｃ）図８に、「運動神経速度」についての階層を示す。（ｄ）図９に、「知覚神経速度」についての階層を示す。図５〜８は、適当な時間シフトを用いることによって、どのように患者の記録を合わせてフィットさせることができるかを示している。すなわち、各階層は、この４つの被検討変数に関して、原型の患者が、疾患を通じてどのように進行することになるかの様子を表している。図中の各印は、実際の患者のデータ・ポイントを示し、図６〜９のそれぞれの線は、各階層についてベスト・フィットしたモデル化関数である。
【００７４】
本発明は、上記の好ましい実施形態の記載により限定されるものではない。そうではなくて、上記説明は単なる例であり、限定するためのものではない。したがって、本明細書を読んだ後で当業者には明らかであろう代替形態は、本発明の範囲に含まれる。本発明の範囲または趣旨から逸脱することなく、ここで開示した本発明の好ましい実施形態に様々な改変および変更を加えることができることが当業者には明らかであろう。したがって、この方法の説明は、単なる例であり、添付の特許請求の範囲で示す本発明の範囲を限定するものではないことを理解されたい。
【図面の簡単な説明】
【００７５】
【図１】腎臓病に対する現在の治療手順を示す流れ図であり、どのようにして約４０個の別個の疾患により末期段階の腎臓病に至り、その後、現在は透析、そしておそらくはさらに腎臓移植による治療を受けるかが示されている。
【図２】図２（ａ）は、ある特定のタイプの癌の１つの遺伝型の腫瘍サイズと時間の関係を示すグラフを示す図であり、図２（ｂ）は、図２（ａ）に示す同じ癌の別の遺伝型の腫瘍サイズと時間の関係を示すグラフを示す。
【図３】図３（ａ）は、第１の患者の腫瘍の成長と時間の関係を示すグラフを示す図であり、図３（ｂ）は、第２の患者の腫瘍の成長と時間の関係を示すグラフを示す図であり、図３（ｃ）は、第３の患者の腫瘍の成長と時間の関係を示すグラフを示す図であり、図３（ｄ）は、第４の患者の腫瘍の成長と時間の関係を示すグラフを示す図である。図３（ａ）〜（ｄ）の患者は、同じ一般のタイプの癌をもつが、その癌の形態がそれぞれ異なることを理解されたい。
【図４】図４（ａ）は、図３（ａ）〜（ｄ）に示す４人の患者について、同じ時間経過にわたって描いた腫瘍の成長を示すグラフを示す図であり、図４（ｂ）は、図４（ａ）の曲線を整列し直したものを示すグラフを示す図であり、図３（ａ）〜（ｄ）のうちの２人の患者が、疾患進行の１つの階層で表される１つの遺伝型の疾患を共通にもつようであり、図３（ａ）〜（ｄ）の他の２人の患者が、異なる階層で表される異なる遺伝型の疾患を共通にもつようであるところが示されている。
【図５】時間依存性の測定データに基づき、特定の疾患の階層を決定するのに使用するモデルの定式化を表す流れ図である。
【図６】「ＨＢＡｌＣ」と題する、ヘモグロビンＡｌｃについての階層を示すグラフを示す図である。
【図７】「ＥＴＤＲＳ」と題する、網膜疾患についての階層を示すグラフを示す図である。
【図８】「運動神経速度」についての階層を示すグラフを示す図である。
【図９】「知覚神経速度」についての階層を示すグラフを示す図である。

Claims

（ａ）ある疾患を共通にもつ複数の患者から得られた複数の変数について時系列の観測値を記録するステップと、
（ｂ）後続のステップを自動計算として実施するコンピュータに、これらの前記観測値をデータ・セットとして入力し保存するステップと、
（ｃ）後続の分析のために、患者の集団統計的な情報や以前の治療履歴に基づくサブセットをデータ・セットから選択するステップと、
（ｄ）経時的な前記観測値の進行を表す曲線形状に基づく階層に、患者をクラスタ化することによって疾患を階層化するステップと、
（ｅ）ステップ（ｄ）またはステップ（ｇ）で生成した階層を用いて、ステップ（ｆ）で比較されるデータ・ポイントが、すべての患者の類似の疾患段階に一致するように、各時系列データを整列させ、端を切り捨て、あるいは延長するステップと、
（ｆ）各ペアの患者ごとに、前記整列させた時系列データを比較して、それらの間の数学的な距離の測定値を決定するステップと、
（ｇ）ステップ（ｆ）で決定した数学的な距離に基づいて、各クラスタが疾患の階層に対応するように患者をクラスタに割り当てることによって疾患の階層化を改善するステップとを含む、疾患を階層化し疾患の進行を判定するための情報処理方法。
前記変数が、集団統計的なデータ、生化学的なデータ、病理学的なデータ、組織学的なデータ、遺伝学的なデータ、または遺伝子発現データ、あるいはそれらの任意の組合せを含む、請求項１に記載の方法。
（ｈ）次元縮小を行って変数を削除するか、あるいは変数を組み合わせることによって、後続の分析で使用する変数の数を減らすステップをさらに含む、請求項１に記載の方法。
前記次元縮小を行う方法が、主成分分析法または因子分析法である、請求項３に記載の方法。
ステップ（ｄ）で用いる疾患段階の初期推定値が、臨床医または公開されている臨床疾患段階付けアルゴリズムにより与えられる、請求項１に記載の方法。
前記時系列データ間の数学的な距離を、ユークリッド距離、シティブロック距離または手作業で用意したルックアップ・テーブルを用いて点別に計算する、請求項１に記載の方法。
ステップ（ｆ）のクラスタの割当てを、人間のオペレータが対話式に改変する、請求項１に記載の方法。
同じ疾患階層中で類似の段階にいる他の患者の類推から、後で、疾患の階層化および進行の情報を用いて、個々の患者の疾患の推移を予測する、請求項１に記載の方法。
個々の患者の疾患の階層化および進行の情報を臨床医に提示して、その患者に対する診断および治療を導く、請求項１に記載の方法。
（ｈ）前記疾患の階層化の情報を、遺伝学的なデータ、遺伝子発現データまたは生化学的なデータと組み合わせて、疾患の特定の階層または階層の組を治療する薬物を開発するための生化学的な標的を特定するステップをさらに含む、請求項１に記載の方法。
（ｈ）各患者ごとに、複数の変数のいくつかまたはすべての変数の時間に対する変化率を表す情報を計算し、その情報でデータ・セットを補強するステップをさらに含む、請求項１に記載の方法。
（ｈ）後続のそれぞれの反復中に、進行および階層化の推定値の変化が所定の制限内に入るまで、ステップ（ｅ）〜（ｇ）を繰り返すステップをさらに含む、請求項１に記載の方法。
（ｈ）検討中の疾患の階層化を行う診断マーカ・キットを開発するために、１つまたは複数の被観測変数のどれが、前記階層化に関する最も多くの情報をもたらすかを統計的に決定するステップをさらに含む、請求項１に記載の方法。
（ｈ）疾患の階層化の情報に基づいて、疾患の特定の階層または階層の組についての改善した結果に相関する生活様式のファクタを決定するステップと、
（ｉ）前記生活様式ファクタに基づいて、１つまたは複数の特定の階層の患者に生活様式の変更を勧めるステップとをさらに含む、請求項１に記載の方法。
（ｈ）前記疾患を共通にもつ追加の患者に関する変数の時系列の観測値を記録するステップと、
（ｉ）コンピュータに保存されたデータ・セットにこれらの追加の観測値を入力し保存するステップと、
（ｊ）追加の患者を最初に診察する時点で、追加の患者の疾患の進行段階を推定するステップと、
（ｋ）ステップ（ｊ）の推定値を使用して、ステップ（ｌ）で比較されるデータ・ポイントが、すべての患者の類似の疾患段階に一致するように、追加の患者の時系列データを整列させ、端を切り捨て、あるいは延長して、新しい後続の各患者を反映させるステップと、
（ｌ）後続の新しい各患者ごとに、整列させた時系列データを比較して、各クラスタ内の患者のデータへの数学的な距離の測定値を決定するステップと、
（ｍ）ステップ（ｌ）で決定した数学的な距離に基づいて、追加の患者および後続の新しい患者をクラスタに割り当て、それによって、疾患のある階層にそれらの患者を割り当てるステップとをさらに追加して含む、請求項１に記載の方法。
（ｎ）追加の患者について、いくつかまたはすべての変数の時間に対する変化率を表す情報を計算し、その情報でデータ・セットを補強するステップをさらに含む、請求項１５に記載の方法。
（ｎ）ステップ（ｍ）で得られた階層化情報を用いて、各患者の疾患の進行段階の推定値を改善するステップをさらに含む、請求項１５に記載の方法。