JP2004529440A - 疾患を階層化し疾患の進行を判定するための情報処理方法 - Google Patents
疾患を階層化し疾患の進行を判定するための情報処理方法 Download PDFInfo
- Publication number
- JP2004529440A JP2004529440A JP2003502619A JP2003502619A JP2004529440A JP 2004529440 A JP2004529440 A JP 2004529440A JP 2003502619 A JP2003502619 A JP 2003502619A JP 2003502619 A JP2003502619 A JP 2003502619A JP 2004529440 A JP2004529440 A JP 2004529440A
- Authority
- JP
- Japan
- Prior art keywords
- disease
- patient
- data
- patients
- stratification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
デジタル・コンピュータ・システムにより、1組の観測値に基づいて1組の患者を階層化する。この観測値には、数あるタイプの情報の中でも、物理的、生化学的、組織学的、遺伝学的なデータおよび遺伝子発現データを含めることができる。幾人かの患者の観測値が、患者のそれぞれの疾患プロセスの進行の異なる時点で始まり得る可能性を補正するために調整を加えることができる。こうした調整を加えた後で、このデータを統計的なクラスタ分析にかける。患者群からなる各クラスタは、疾患に内在する原因、最適な治療および予後によって、異なる疾患の階層を示す可能性がある。各階層を規定しそれらに患者を割り当てた後で、データに対する調整値を改善することができる。次いで、クラスタ分析を繰り返すことができ、それによって、階層化および段階付けの反復プロセスが行われる。
Description
【技術分野】
【0001】
本発明は、一般に、個々の患者の生物学的および遺伝学的なバックグラウンドを考慮にいれるとき、ある種のファクタに応じて疾患の進行を判定するための予知医学に使用することができる疾患階層化の分野に関する。
【背景技術】
【0002】
本出願は、2001年6月1日出願の米国仮特許出願番号60/294,638の優先権を主張する。
【0003】
最新の医学は、(a)個々の患者に最適で最もコスト効果の高い治療を選択し、(b)(i)次世代の診断法、(ii)治療用の薬物、(iii)健康管理製品、および(iv)生活様式の提案の展開を指導するのに、疾患に固有の知識を利用する。個々の患者についての知識は、その患者の観測値から得られる。これらの観測値には、家系、健康診断からの知見、血液および尿の検査結果、MRIおよびCTなどの画像による検討結果などが含まれる。また、遺伝学的な情報も比較的頻繁に取得する。さらに、マイクロアレイ技術による遺伝子発現およびタンパク質発現のデータが、臨床用途にまもなく利用可能になるであろう。
【0004】
ますます、従来方式の疾患のクラス分けは、たとえすべての分類で同じ症状が示されるとしても、原因となる機序または遺伝子による分類に細分化される。この細分化処理は、「疾患の階層化」として知られている。階層化を用いて、患者に対する最適な診断および治療の過程を選択し、結果を予測することができる。また、階層化を用いて、薬物開発のための適切な階層固有の標的を規定することもできる。一般に、階層化は、(a)単一の重要な生化学マーカ、(b)現在の治療に反応した明らかな差異、または(c)特定の遺伝子の差異に基づいていた。
【0005】
診断情報を取得する主な理由の1つは、患者の疾患の進行の段階を決定するためである。こうした情報は、その疾患に対する適切な治療を決定するのに極めて重要である。癌の場合には、疾患の段階により、手術、放射線療法、化学療法または上記の組合せのいずれが最適かが決まることになり、さらに、それぞれへの的確なアプローチが決まることになる。腎臓病の場合には、疾患の段階によって、薬物、食餌療法および生活様式の変更により疾患が最適に処置されているかどうか、あるいは、透析および移植を検討する必要があるかどうかが決まることになる。別の例として、閉経後骨粗鬆症の段階付けおよび評価を利用して、エストロゲンの服用による副作用の危険性を、ホルモン補充療法の効用で均衡させることができる。
【0006】
臨床的な実務慣行の現在の状況では、階層化および段階付けは、あいまいさと重複を伴う。単一疾患用マーカでは、疾患の進行の完全な様子がわからない。たとえば、糖尿病の判定では、グルコースおよびヘモグロビンAlcを測定する。一方から、短期の測定値が得られ、他方から長期の血糖値調節が判定される。
【0007】
個々の患者を段階付ける方法では、どの疾患進行マーカを使用するかに応じて、あいまいさが生じることがある。さらに、規定した疾患の段階は重複することがある。したがって、(a)患者がどの疾患経路に位置しているか、(b)その患者はその経路のどこにいるかを決定するためのより優れた方法が求められている。
【0008】
米国特許第5,657,255号は、疾患進行モデルを生成するのに用いることができると考えられる生物学的なモデル化システムを記載している。’255特許に開示されているモデルには、すべての変数が観察されるべき数学的なモデルが必要である。このような疾患モデルを生成するには、その疾患の理論および機序が完全に説明されなければならない。しかし、臨床的な実務慣行では、こうした完全なモデルは、可能だとしても、まれにしか入手できない。米国特許第6,108,635号は、疾患の進行を調べるのに使用することができる「Integrated Disease Information System」に関するものである。しかし、問題のこのシステムは、疾患の進行を判定する各段階で、人間のオペレータが必要である。
【0009】
したがって、疾患の基礎をなす内部機序の詳細なモデルを必要とせずに、疾患を階層化し段階付けすることが求められている。さらに、この必要性を満足する際に、疾患の階層化および段階を自動的に決定できることが好ましいであろう。さらに、複数の生化学マーカの独特の組合せ、治療反応の微妙な差異、または複数の遺伝子座の組合せなど、あまり明白ではないが重要な判定基準に基づいて疾患を階層化できることが有益であろう。さらに、階層化は、生化学マーカまたは臨床的な徴候など複数の変数の時間経過の形状を反映するべきである。
【0010】
明らかに、個々の患者がどの疾患階層に属しているか(疾患階層はそれぞれ、同じ疾患の異なる時間進行を反映している)を予測または決定するのに用いることができる診断マーカを特定できることが求められている。したがって、こうした予測または決定を行うために、所与の診断マーカが使用され得る最も早い時点で決定することが求められているということになる。検討中の疾患ならびに他の疾患について、今後の臨床試験にこうしたマーカを組み込むことが望ましいであろう。個々の疾患の疾患階層が変化することを考慮すると、段階付けを行うのに使用する様々な疾患の測定値間であいまいさを解消することができることが求められている。
【特許文献1】
米国特許第5,657,255号
【特許文献2】
米国特許第6,108,635号
【非特許文献1】
プレストレルスキ他、タンパク質 14、430〜39頁、440〜50頁、(1992)
【非特許文献2】
R.B. Schnabel、J.E. Koontz、B.E. Weiss、「A Modular System of Algorithms for Unconstrained Minimization」、Report CU−CS−240−82、Comp. Sci. Dept.コロラド大学ボールダー校、1982年
【非特許文献3】
J.W. Hartigan、「Clustering Algorithms」、John Wiley & Sons、1975年、74〜83頁
【非特許文献4】
gcrc.umn.edu/pub/dcct/
【発明の開示】
【0011】
1つまたは複数の上記欠如に対する解決策は、疾患を階層化し、その進行を予測することができる情報処理方法によって実現することができる。以下で説明するこの方法は、疾患の基礎をなす内部機序の詳細なモデルを必要とせずに、こうした疾患の階層化および進行の予測を行うことができる。さらに、階層化により、複数の生化学マーカの独特の組合せ、治療応答の微妙な差異、または複数の遺伝子座の組合せなど、あまり明白でないが重要な判定基準に基づいて決定することができる。さらに、このモデルは、疾患の階層および段階を自動的に決定することができる。
【0012】
疾患を階層化し疾患の進行を判定するための1つの情報処理方法は、以下により詳細に記載するように、所与の疾患を共通にもつ複数の患者に関する変数の時系列の観測値を記録することを含む。より優れた、より有用なモデルを得るために、個々の組の患者は、たとえば、「成人である」ことや「治療を受けていない」という妥当な共通のバックグラウンドを反映していなければならない。したがって、こうした患者のグループは、患者の集団統計的な情報や以前の治療の履歴に基づいて、患者の母集団全体から選別しなければならない。観測し得る変数は、特定のクラスのものに限定されないが、それらには、集団統計的なデータ、生化学的なデータ、病理学的なデータ、組織学的なデータ、遺伝学的なデータ、または遺伝子発現データあるいはそれらの任意の組合せを含めてよい。これらの観測値を、データ・セットとしてデジタル・コンピュータ・システムに入力し保存する。このデータ・セットにより、後続のステップが自動計算として行われる。初期階層は、臨床医、あるいは、公開されている臨床疾患段階付けアルゴリズムによって得られるが、コンピュータにより、患者を階層にクラスタ化することによって、検討中の疾患が階層化されることが好ましい。これらの階層は、経時的に測定した観測値の進行を表す曲線形状に基づくものである。
【0013】
この階層化を用いると(最初の階層化が不正確であると判明した場合には、さらに、後でこの階層化モデルを反復する)、階層が、整列され、端が切り捨てられ、あるいは延長されて、同様な時間進行がほぼ重なり合う。この時点で、患者の各ペアごとに、コンピュータが、整列された時間進行を比較して、それらの間の数学的な距離の測定値を求める。時間進行間の数学的な距離を求めるには、ユークリッド距離、シティブロック距離または手作業で用意したルックアップ・テーブルを用いる点別計算を含めて、多数の方法がある。この階層化は、階層間の数学的な距離に基づいて、各クラスタが特定の階層の疾患に対応するようにクラスタに患者を割り当てることによって改善される。クラスタの割り当ては、人間のオペレータが対話式に改変することができる。最後に、進行および階層化の推定値が、後続の反復操作で大きく変わらなくなるまで、この階層化モデルを改善することができる。
【0014】
この疾患の階層化および進行の情報を、遺伝学的なデータ、遺伝子発現データまたは生化学的なデータと組み合わせて生化学的な標的を特定し、それによって、検討中の疾患の特定の階層または階層の組を治療する薬物を開発することができる。あるいは、この情報を用いて、検討中の疾患の特定の階層(または階層の組)に対する改善結果に相関する生活様式のファクタを決定し、それによって、特定の階層または複数の階層中の患者集団に生活様式の変更を提案することもできる。
【0015】
上記で述べた方法では、様々な任意選択のステップを用いて、モデルの正確さおよび/または簡便さを高めることができる。たとえば、患者ごとに、いくつかの変数または全変数の時間に対する変化率を計算することができる。こうした計算結果が反映されるように、これらの患者に対応するデータ・ファイルを補強することができる。さらに、得られたモデルを簡単にするために、次元縮小法(たとえば、主成分分析法や因子分析法)による後続の分析に基づいて、モデルで使用する変数の数を減らすことができ、それによって、データ・セットに付加する情報が比較的少ない変数が減るか、あるいは他の変数と組み合わされる。
【0016】
上記で述べた方法に基づいて、臨床医は、1つまたは複数の観測した変数のどれが階層化に関して最も多くの情報をもたらすかを決定することができる。この決定により、研究者または臨床医は、検討中の疾患の階層化を行う診断マーカ・キットを開発することができるはずである。さらに、同じ疾患の階層中の同様な段階にいる他の患者との類推から、疾患の階層化および進行の情報を用いて、個々の患者の疾患の推移を予測することができる。特定の患者の疾患の階層化および進行の情報を臨床医に提示して、患者が疾患の階層化および進行モデルにどのように当てはまるか(すなわち、その患者がどの階層に属するかと、現在その患者がその階層のどこにいるか)の決定に関する臨床医の診断に基づいて、その患者に対する処置の最適な推移を決定することができる。
【0017】
上記で説明した疾患を階層化し疾患の進行を判定するための情報処理方法に基づいてモデルが与えられる場合、臨床医は、このモデルで表される疾患を共通にもつ追加の1人または複数の患者に関する変数の時系列の観測値を記録することができる。これらの追加の観測値をデータ・セットとしてデジタル・コンピュータ・システムに入力し保存することによって、このモデルを修正し、それによって、改善することができる。さらに、臨床医は、それぞれの追加の患者の疾患の進行の段階を、その患者を最初に診察する時点で推定することができる。
【0018】
これら追加の患者ごとに、臨床医は、いくつかの変数または全変数の時間に対する変化率を計算することができる。さらに、これらの計算結果が反映されるように、このデータ・セットを補強することができる。この階層化モデルを用いると(後で最初の階層化が不正確であると判明した場合には、さらに、後でこの階層化モデルを反復する)、追加の患者の時間進行が、整列され、端が切り捨てられ、あるいは延長されて、このモデルに既知の同様な階層にほぼ重なり合う。この時点で、各患者ごとに、コンピュータが、整列された時間進行を比較して、それらの間の数学的な距離の測定値を求めることができる。次いで、それらの間の決定された数学的な距離に基づくクラスタに追加の患者をそれぞれ割り当てることができる。こうすると、追加の患者が、疾患の特定の階層に割り当てられる。さらに、臨床医は、特定のクラスタ内で患者間の距離を決定することができる。最後に、特定クラスタ(それによって、特定の疾患階層)に追加の患者をこのように割り振ることに基づいて、臨床医は、その患者を最初に診察した時点でなされたその患者の疾患の進行段階の初期の推定を修正することができる。
【0019】
疾患を階層化し疾患進行の判定を行う情報処理方法をよりよく理解すると、以下に示す図に照らして詳細な説明を検討する際に、理解がより容易になるであろう。
【0020】
本明細書に組み込まれ、その一部を構成する添付の図面は、本発明の実施形態を示し、かつ、明細書本文とあいまって、本発明の原理を説明するのに役立つ。
【発明を実施するための最良の形態】
【0021】
次に、図面に示す本発明の現時点で好ましい実施形態を詳細に参照する。本発明は、提供されるデータに完全に基づく疾患進行モデルを含む。本発明の手法は、疾患の基礎となる理論または機序に関する入力を必要としない。
【0022】
本発明は、階層化および段階付けの基礎として、患者または他の生体の臨床的な観測値を利用する。これらの観測値は、デジタル・コンピュータ・システムに保存され、そこで処理される。幾人かの患者または全患者からのいくつかの観測値または全観測値は、一度に処理することができる。これらのデータは、「クラスタ分析」として知られる統計的な手順にかけられる。この「クラスタ分析」により、経時的に観測した変数の変化を表す曲線形状に基づいて、患者が合わせてグループ化される。各クラスタの患者は、異なる疾患階層を示す可能性がある。異なる患者の観測値が、それぞれの疾患プロセスの進行の異なる時点で始まるのを補正するために調整を行う。こうした調整を行って、患者の疾患階層内で、個々の患者ごとに疾患の進行段階を決定することができる。最初に階層および段階を規定した後で、クラスタ分析および調整を繰り返すことができ、それによって、階層化および段階付けの収束的な反復プロセスが行われる。
【0023】
本発明は、患者の観測値に基づいて疾患を階層化する。「階層化」という用語は、乳癌など単一の疾患として従来周知とされているものの中のサブセットを特定することを指す。一般に、「患者」は、疾患を患った人間個人を指すが、疾患プロセスの対象となる動物さらには植物も包含する。階層化を行うことは、(a)特定の疾患階層に照準を合わせた治療用薬物を開発するための標的となる分子を特定し、(b)薬物および/または生活様式の変更を含めて、特定の階層に基づく最適な治療を選択し、(c)特定の階層に基づく診断的な検査を選択し、あるいは(d)その患者が属する階層に基づいて、疾患の推移を予測することを含む。
【0024】
仮想例として、図2(a)および2(b)に、2つの異なる遺伝型の癌について、腫瘍成長の経時的なグラフを示す。腫瘍サイズは、疾患の重篤度に関連する。遺伝型A1および遺伝型A2は、臨床的には同じ疾患に見えることがあるが、それらは異なる時間経過をたどる。経時的に多数の患者からのデータを分析することによって、本発明は、臨床医および研究者が、実際、異なる種類の治療に反応し得るこれら2つの別の形態の癌を区別する助けとなることができる。簡単にするために、疾患に関連する単一の変数として、腫瘍のサイズを示す。実際の応用例では、遺伝型A1および遺伝型A2の間の区別は、高次元空間において、細胞DNA含有量および様々な遺伝子の発現など、いくつかの変数を追加して検査しない限り、明確ではないことがある。
【0025】
本発明により、患者の観測値の分析に基づいて、患者の疾患の進行段階も決定される。疾患は、処置が施されない場合には特に、経時的に一連の段階を経て進行する傾向がある。処置を施すことにより、進行の状態が改変されるか、あるいは、疾患プロセスの各段階にかかる期間を変えることができる。図1に、腎不全および移植に至る腎臓病の各段階の例を示す。多くの医療上の条件の任意の1つにより、患者が末期状態の腎臓病に至ることがあり、腎臓はもはや血流から排泄物を濾過できなくなる。次いで、患者は透析に付される。その後、多くの透析患者は、腎臓移植を受けることになる。これらの患者の一部は、免疫反応のために、急性拒絶を被り、腎臓を失うことになる。その他の患者は、慢性拒絶の影響に苦しむことになるが、最終的には、移植された腎臓によって、なんらかの状態の健康を維持することができるようになる。図1に、疾患の段階を離散ステップで示すが、他の疾患は連続的に進行し、段階(たとえば、I、II、IIIなどの段階の腫瘍)間の区別は自然にではなく、臨床医および研究者の都合でつけられる。
【0026】
各患者を周期的に時間をかけて観察することが重要である。経時的にいくつかの時点で観察がなされない場合、たとえば、患者が、重篤な疾患の過程の初期で観察されているのか、あるいは、比較的軽度の疾患の過程の後期で観察されているのか区別することができない。各患者の診察は、患者の医療ファイルに入力することができる任意の項目からなり得る。血液、尿その他の検体による検査室の検査結果とともに、家系および健康診断の結果を含めることができる。MRIなどの画像検査も含めてよい。心電図または肺機能検査などの特殊な検査を含めてもよい。検体の組織学/病理学的検査の結果もまた含めることができる。遺伝学的検査の結果を含めることもでき、これは、今後、重要な役割を果たすと期待されている。患者の重要組織中の遺伝子発現を測定するために、DNAマイクロアレイからのデータも含めてよい。また、比較的新しいマイクロアレイ技術からのデータにより、タンパク質発現も測定することができる。診察自体を行うとともに、診察日を記録することができる。観測値は、最初の症状が現れる以前の期間も含めて、疾患の時間経過全体を対象として含むことが望ましい。
【0027】
あらゆる場合において、これらのデータを、数値的に2つの観測値を比較し得る形式で取得するか、あるいはそうした形態に変換するべきであり、それによって、観測値間の「距離」が決定される。健康診断などの言葉による説明では、管理用語および数値的な符号化でこれを行うことができる。たとえば、「この患者は健康そうである」は、「5」として符号化できるはずであり、「この患者は深刻な病気であるようだ」は「3」として、また、「この患者は昏睡状態である」は「1」として符号化できるはずである。画像による検討の場合、腫瘍の直径など画像中の特徴を測定することが必要なことがある。胸部X線写真の肺浸潤などのより主観的な特徴は、たとえば、臨床医が、0〜4の数字で符号化した0/+〜++++という尺度で等級付けすることができるはずである。遺伝子が存在するかしないかは、0または1として符号化することができる。所与の遺伝子の複数の可能な対立遺伝子には、それぞれ特定の符号を与えることができる。「観測値」は、特定の時間における特定の患者に関連する単一の数字または数字に変換することができる記述を指す。「変数」は、血圧、腫瘍の直径、血清クレアチニン・レベルや特定の遺伝子の発現レベルなど観察し得る患者の態様である。
【0028】
一般に、患者は、2つ以上の疾患を患っていることがあり、複数の疾患は相互に影響し得る。1つまたは複数の観測値によって、あるいは、これらの観測値から導出した疾患の進行の測定値によって、所与の疾患を特徴づけることができる。この測定値には、本発明により導出した疾患の進行の測定値が含まれる。こうした測定値は、同じ患者に存在する第2の疾患を調べる際の「観測値」の役割を果たすことができる。したがって、本発明は、本発明を用いて、個々の患者集団において一度に2つ以上の疾患の検討を行うことができると一般化することができる。
【0029】
図5に、分析プロセスの流れ図を示す。観測値は、デジタル・コンピュータ・システムに保存する。この観測値は、キーボードから手作業で入力するか、あるいは、LIMS(検査室情報管理システム)などの別のコンピュータ、電子診療記録または遺伝分析システムから転送することができる。
【0030】
一般に、疾患の「段階付け」は、離散項(たとえば、「段階I」、「段階II」、「段階III」など)と考えられているが、本発明では、一般に、疾患の段階は連続的な数値である。こうした連続的な段階付けの推定値は、患者の時系列データを、それらが整列するように各階層内で互いにシフトすることによって導出することができる。図4(a)に、図3(a)〜(d)に示す患者の一連のデータが「実時間」で整列している場合、それらは疾患プロセスの段階に関して整列していないので、それらを互いに直接比較することができないことを示す。
【0031】
時系列データを整列させた後、次の目標は、類似の時間経過を有する患者を合わせてクラスタ化することによって、疾患を階層化することである。このプロセスは、統計学、特にクラスタ分析の技術分野の技術者には周知の「距離マトリックス」を生成することから開始する。すべてのペアの患者間の距離の三角行列を計算しなければならない。患者間の距離はそれぞれ、各変数ごとに計算した個々の距離の関数になる。この関数は、和または加重和の形式をとるはずである。所与の変数に対する距離は、その変数についての個々の観測値の距離の和になるはずである。この和も重み付けを行うことができる。
【0032】
従来方式のクラスタ化では、一般に、クラスタ化するすべての対象物と、その他のすべての対象物との類似性を列記する距離マトリックスにより作業する。従来、この距離マトリックスは、最初に一度計算し、その後、クラスタ化プロセス中はこの値を使用する。しかし、日付は本来時間的にシフトしているので、この距離マトリックスは、クラスタが形成される際に劇的に変化する。これは、単に、クラスタを形成するときは必ず、距離マトリックスの一部を更新しなければならないことを意味する。
【0033】
観測値間の距離は、いくつかの方法で求めることができる。クラスタ分析では、多くの場合、数値変数に絶対差または自乗差を使用する。数値で符号化した遺伝子アレルなど、いくつかの事例では、手作業でルックアップ・テーブルを生成して、任意の2つの可能な観測値間の「距離」を評価することが望ましいであろう。
【0034】
階層化および段階付けプロセスを有効なものにするには、分析を行う患者の集団構成を制限することが必要なことがある。たとえば、たとえ同じ疾患を共通にもつ場合でも、乳児で観測したある種の変数を、成人の同じ変数と比較しても意味がないであろう。また、単一の分析が、広範囲の治療処置を受けた患者を混在して含まないようにすることが必要であろう。そうしないと、この方法は、1つの階層には治療を受けた患者、別の階層には治療を受けていない患者からなる誤った「階層」群を生成することになるであろう。そのため、本発明は、患者の集団統計データ(年齢、身長、体重、性別など)および治療歴についての基準を指定するステップを含む。指定した基準を満たす患者だけが、後続の分析に含まれることになる。患者を選別するのに用いる基準は、疾患ごとに異なるものになるであろう。
【0035】
後続のクラスタ分析では、一般に、変数の時間に対する変化率を含むことが望ましいであろう。時系列データの導関数を計算するためのアルゴリズムが、多数公開されている。これらのうちいくつかは、データ中のノイズを過度に増幅しないように多点フィルタリングを組み込んでいる。これらのアルゴリズム、たとえば、Savitsky−Golayフィルタは、本発明に関連して有用であり得る。
【0036】
各患者ごとに、比較的多数であり得る変数のデータ・ポイントを含めて、時系列データがデータ・セット中に存在する。こうした状況では、一般に、多数の変数が互いに密接に相関することがわかっている。したがって、あまり重大ではない情報を含む「余分な」変数があり得る。ニューラル・ネットワークと、主成分分析法および因子分析法などの統計技法とを用いて、計算に持ち越す変数の数を減らすことができる。挿入的に、これらの技法は、検討すべき変数間の関係を洞察する追加の利点となり得るものであり、また、今後の検討に必要な変数の数を減らすことができる。
【0037】
疾患の階層化および段階付けの反復プロセスは、患者をクラスタ化することから始める。各患者は、(時系列データとも呼ぶ)時間進行を規定するその患者に関連した複数の時間依存性の測定値をもつ。各時間進行により、経時的に観測した変数の測定値に対応する曲線が描かれる。初期クラスタ化はこれらの曲線の形状に基づく。クラスタ化は、曲線間の距離を直接測定した値にではなく、曲線形状に基づいていなければならない。というのは、各患者ごとの観測値は、その患者の疾患プロセスの経過に沿った時間的に異なるポイントから始まるからである(すなわち、観測の暦日付では、患者の疾患がどのくらい長く進行しているかに関して何もわからない)。不慮の院内感染などの特殊な場合を除いて、一般に、「時間ゼロ」がいつであるかはわからない。コンピュータは、疾患の時間経過全体を分析するので、重篤な疾患の初期段階にある患者と、比較的軽度の疾患の後期段階にある患者とを区別する(というのは、一般に、この2つの場合の曲線形状が異なるものになるからである)。
【0038】
曲線形状のクラスタ化は、任意のいくつかの時間進行整列アルゴリズムによって実施することができる。従来方式の任意のクラスタ化アルゴリズムを用いて、階層化を行うことができる。「単連結法」、「完全連結法」、「K−means法」、「ワード法」、または「セントロイド法」など、多くのこうしたアルゴリズムがある。これらのアルゴリズムは、データ分析の技術分野の技術者には周知のものであり、SASおよびSPSSなど標準の統計パッケージの形で入手可能である。これらのアルゴリズムは、同じオブジェクトを合わせてグループ化し、異なるオブジェクトを別々のグループに保持する。最初のステップとして、Savitsky−Golayフィルタまたは類似の公式を用いて、曲線を形成する値の時間導関数を計算し、それによって、1つの曲線から他の曲線への定数オフセットの影響をなくし、また、曲率その他の形状を画定する特徴を強調することができる。次いで、動的計画法またはウェーブレット変換などのアルゴリズムによって、互いに各曲線を整列させることができる。各クラスタは、疾患の階層を表し得る。臨床的に最も意味のある疾患階層化を得るために、人間のオペレータが、データを詳細に検討した後で、クラスタを分離し、また、結合することが望ましいであろう。
【0039】
別々の階層の各患者から始め、次いで、クラスタ化アルゴリズムでこれらの階層をまとめる。疾患プロセスの「時間ゼロ」で患者をほとんど観察していないことを補正するために、これらの階層を組み合わせる際に互いに時間的にシフトさせる。さらに、各患者(または階層)は、疾患プロセスにおける異なる時点での第1観測値をもつ。時間シフトの適切な量は、反復的(可能なシフト量の範囲を適用し、数学的なモデルに最もフィットするものを選択する)にか、あるいは、解析的(モデル自体に基づいて最小自乗方程式を解き、最適な時間シフトを見つける)に決定することができる。
【0040】
階層を組み合わせるとき、次に、測定したすべての疾患変数に許容可能なフィットが得られる「コンセンサス」時間シフトを見つける。最後に、この組み合わせた階層を全体的な数学モデルにフィットさせる。その後、この数学モデルを吟味し直して、許容可能なフィットが得られるようにする。モデルを吟味し直さないと、このモデルは、もっともらしい疾患プロセスを表すことにはならない、時間的に合わせて一続きになった長い「デイジー・チェーン型」の患者群を表すことになると考えられる。
【0041】
各階層内で、各患者ごとの時系列データを、時間的にさらに整列させて、平均患者間距離を減少させることができる。この時系列データを整列させるのに必要なシフト量を用いて、患者の現在の疾患の段階の推定値を直接更新することができる。これは、その患者の「時間ゼロ」の暦日付を推定するのと等価である。次いで、クラスタ分析を繰り返すことができる。一般に、この反復プロセスは収束することになる。最後に、このクラスタは、疾患の階層を表すことになり、最終時点としての観測値とともに、各患者のデータに適用したシフト量は、各患者の疾患の進行の段階を示す。図4(b)に、この分析プロセスの結果を示す。このデータは、疾患の段階によって整列しており、したがって、検討中の疾患のサブセットを表す階層にクラスタ化することができる。時間原点から中抜き円までの距離は、各患者ごとの疾患の段階または進行の測定値である。
【0042】
まとめると、同期化および階層化では、3ステップからなるプロセスのクラスタ化を用いる。すなわち、1対の階層を組み合わせるために、(1)各変数ごとに最適な時間シフトを決定し、(2)すべての変数を合わせてコンセンサス時間シフトを決定し、(3)組み合わせかつシフトしたデータをモデルにフィットさせ、(4)モデルを吟味し直した後でフィット結果が許容できる場合、組み合わせた階層を有効なものとして受け入れる。
【0043】
患者の時間経過イベントを同期化する助けとなる手法には、プレストレルスキ他、タンパク質 14、430〜39頁、440〜50頁、(1992)に記載のものを含み得る。プレストレルスキは、離散的に測定された特徴を整列させ同期させることができ、動的計画法を用いて、測定変数間のギャップを決定し補償することができる方法を記載している。
【0044】
プレストレルスキの文献の例では、サンプリングまたは同期化の際に順序よく整理され得ることもあるしされ得ないこともある、変動するポイントにおける時間ドメインをサンプリングしていない。そうではなくて、アミノ酸配列中で、同じにならないように同様に番号付けできるはずの位置として、等価なドメインを定義している。直線軸内または軸座標の始まりのところでギャップまたは挿入が存在するので、この位置をドメインとして選択している。
【0045】
疾患分析における階層化およびクラスタ化の適用例が、心臓移植受容者および提供者のデータベースの検討への応用例に見られる。こうした研究では、移植前および移植後の受容者に関する大量の情報があるが、移植前の提供者に関する情報は最小限のものしかなく、移植後のものは皆無である。こうした分析の所望の結果は、提供者と受容者を適合させるのに使用する基準を高める潜在的可能性を決定し、それによって、移植処置の成功率、すなわち、心臓移植受容者の生存率が高められることであろう。処置の標準により、組織適合試験が必要である。提供者と、それより体重が少ない受容者とを潜在的に適合させることに基づいて、(筋肉からなる)心臓が、移植中に生じる萎縮に耐えることと、より体重が少ない受容者ではよりうまく働くことを見込んで、追加のアルゴリズムが実施されている。
【0046】
プレストレルスキ他の文献に記載の動的計画法による分析を適用すると、一般に、受容者は、移植時には身体的に弱い状態であり、受容者の実際の体重は、所望の臓器の機能的なプロフィールをより密に反映している理想的な体重よりも少ないという事実を織り込むように、受容者の体重に対する提供者の体重のファクタをさらに改善することができる。さらに、提供者は、体重超過または体調不良ために、理想的な体重よりもかなり重いことがある。単純な実際の体重比に依存しても、提供される材料の「質」を十分に反映しないことがある。さらに、生存/死亡の状態の分析により、この単純な分類のしかたは、(a)実際の所望の結果(生存日数)、および(b)これを移植後に十分に評価するための処置手順の標準の潜在能力を表すのに不十分であることが示された。患者のスコアを変換して、移植成功による生存時間の長さを反映させると、(a)移植の成功または失敗の進行をより正確に決定することができ、(b)処置に先だって予想され補正することができるはずの要因に関係し得る(時間的な)進行のいくつかの特定のクラスタを特定することができ、(c)移植後の処置の標準の潜在的な有用性が評価された。したがって、検査室による検査は、臓器不全または拒絶の潜在的な危険性を警告することに成功した。
【0047】
図3(a)〜(d)に、4人の患者について、(図2(a)および2(b)に示した仮想癌の例を継続して)腫瘍の成長の時間経過を示す。各図中のグラフ化した線は、各図に対応する患者から取得した第1の測定値から始まる。一般に、患者は、癌の進行の異なる時点で、すなわち、症状が最初に現れたときに、診療を仰ぐことになる。このため、症状が現れる以前の期間を対象として含むデータは、その間腫瘍が存在し成長したとしても入手可能ではない。中抜き円は、各患者ごとの最後(最も最近)の測定の日付を表す。
【0048】
次いで、データの階層化および段階付けを用いて、個々の患者ごとに、診断、治療および生活様式の指針を展開することができ、また、疾患の結果を予測し、個々の患者に対する治療を最適化することができる。十分な組の患者に対して完全な分析を実施すれば、新しく追加された患者について、疾患を階層化し段階付けを行うことははるかに簡単である。単に、既存のデータ・セットに最もフィットするように、新しい患者の観測値を整列しクラスタ化することができる。さらに、たとえば、臨床的、生物学的、遺伝学的に新しい技術または方法に基づく新しい観測値を、いつでも階層化プロセスに組み込むことができる。整列により、前述の疾患の段階が示され、クラスタの割当てにより、患者が属する階層が示されることになる。さらに、新しい患者を反映するようにモデルを更新することができる。このようにして、モデルの正確さを経時的に連続して改善することができる。
【0049】
次に、本発明の概念的な説明をはっきりさせるために、患者データを階層化し同期化して疾患モデルを形成するプロセスを詳細に記載することによって、上記で述べたことを実現する方法を説明する。
【0050】
事前に、モデル用の入力を定義しなければならない。疾患モデル化プロセスへの入力は、i=1〜Nで示すN人からなる1組の患者に対してなされた経時的な1組の観測値である。M個の異なる臨床的な被観測変数があり、これらをj=1〜Mで示す。各患者ごとに、tで示す時間で各変数を観測する。各患者ごとの観測の回数は、N人の患者間で変わり得るものであり、k=1〜niで索引付けする。一般に、値tは、患者ごと、変数ごとに異なることがある。このように、これらの観測値は、順序付けられた組のペア、{tijk,yijk}からなるものである。ただし、i=1〜N、j=1〜M、k=1〜niであり、各時間tごと(および各患者Nごと)に、それに対応する各変数Mごとの測定値yがある。
【0051】
この疾患モデル化プロセスの第1の出力は、患者集団を階層すなわちクラスタに分けるように設計され、かつ意図されている。各階層は、原型の「モデル患者」が、ある疾患を通じて進行することができる仕方のパターンを示す。すなわち、所与の階層の構成員は、観測された疾患の変数が経時的に発展する仕方が類似のパターンを共通にもつ。
【0052】
使用する特定のクラスタ化アルゴリズムによっては、所与の患者は、2つ以上の階層に属するように見えることがある。これは、たとえば、その患者が、疾患の経過の初期にしか診察されず、患者がどの階層に属するかを完全に決定するのに十分な情報がない場合に起こりえる。また、疾患プロセスの後期に診察が行われ、患者がどの経路をたどってその状態に達したかを決定できない場合にも起こりえる。
【0053】
この疾患モデル化プロセスの第2の出力は、各変数ごと、各階層ごとの1組のモデル関数である。これらのモデル関数は、所与の階層の構成員である患者について、各変数の経時的な発展を予想することができるパターンを記述するものである。この疾患モデル化プロセスの第3の出力は、1組の時間オフセット値であり、ある患者がある階層の構成員である場合ごとに1つの時間オフセット値がある。この時間オフセット値は、それらが所与の患者のデータを時間的にシフトさせて、その階層の対応するモデル関数に患者の観測データを(最小自乗的な意味で)最もよくフィットさせるように決定する。変数1つ当たりではなく、患者1人に1つの時間オフセット値があることに留意されたい。所与の患者についてのすべての変数は、実際の患者において同時に発生するので本来時間的に結びついており、そのため、互いに時間的にシフトされない。
【0054】
所望の出力を得るために、階層化および同期化プロセスを理解することが必要である。この同期化プロセスにより、患者の記録は、それらがともに結合されて階層を形成する際に、互いに時間的にオフセットされる。このようにして患者を結合することによって形成された階層は、3つの記号からなる(A,B,Δ)によって表される。これは、「患者Aの第1観測時間と患者Bの第1観測時間の間にオフセットΔがある状態で、患者Aの記録に患者Bの記録を付加する」ことを意味する。Δの符号は、Bの第1の観測がAの第1の観測よりも後で行われる場合はプラスであり、Bの第1の観測がAの第1の観測の前に行われる場合はマイナスである。次いで、結合プロセスにおいて、「階層」が再帰的に「患者」の役割を果たす。たとえば、最終的に確定した階層は、次のように表される。
【0055】
(((A,B,−10.3),(C,D,−6.1),+3.2),E,+1.7)
(A,B,−10.3)に「Q」を割り当て、(C,D,−6.1)に「W」を割り当てると、結果は次のようになる。
【0056】
((Q,W,+3.2),E,+1.7)
さらに、(Q,W,+3.2)に「Z」に割り当てると、最終的に確定した階層は次のようになる。
【0057】
(Z,E,+1.7)
モデル化プロセスを開始するために、各患者をその患者自身の階層に配置する。すなわち、患者Aは階層(A,null,0)になる。この患者のデータは、モデル化アルゴリズムを適用する前に、あらかじめ条件設定することができる。必要なら、変数は(対数、平方根などに)変換して、変動を安定化するべきであり、それによって、yの差異が、臨床的にも等しい重要性をもつことになる。振動的または周期的な変数は、ここで使用したより滑らかなモデルに合う変数(たとえば、包絡関数または振幅関数あるいは振動サイクル数すなわち周波数を示すなんらかのもの)で置き換えるべきである。データ中のノイズは、階層化プロセス自体を行う前にデジタル・フィルタリングで除去することができる。
【0058】
以下のプロセスの各ステップにおいて、各階層内の変数のデータを数学的なモデル関数にフィットさせる。このモデル関数の数学的な定式化は、モデル曲線が、実際のデータと同じ概略形状の特徴を示すように選択するべきである。この定式化は、実際のデータをフィットさせる時間間隔の先まで外挿する際に、臨床的に適切な挙動を有するようにも選択するべきである。このため、2次または3次モデルなど数学的に簡単な形式は望ましくないことがある。というのは、それらは、それらを最初にフィットさせる領域外で±∞に発散するからである。外挿により導入される誤差が許容範囲なので、線形モデルがうまく利用されている。
【0059】
上記の指針内で、ここで説明したもの以外の他のモデルの定式化を利用することができる。このモデル化プロセスでは、モデル用に4つの異なる数学的な定式化を続けて使用する。
【0060】
定数:y(t)=α
線形:y(t)=α+βt
【0061】
【数1】
【0062】
所与の階層では、各変数は、最終的にこれら4つのタイプのモデルの1つにフィットする。以下のプロセスによってフィッティングを行う。第1に、データを最小自乗法で「定数にフィット」させる。これは、単にデータの平均値に等しくαを設定するのと等価である。次いで、このモデルからデータのRMS(自乗平均)偏差を決定する。
【0063】
第2に、このデータを線形モデルにフィットさせ、ベスト・フィットさせた直線からRMS偏差を決定する。RMS偏差が指定したフラクション(モデル化プロセスのパラメータ)よりも減少する場合、この線形モデルを受け入れる。そうでない場合には、定数モデルを用いる。
【0064】
第3に、このデータを、反復最小自乗フィッティング手順でロジスティック曲線にフィットさせる。この最小自乗フィッティング法では、米国林野部所属のSteven Verrillが開発したJava(登録商標)ルーチンを使用する。これは、R.B. Schnabel、J.E. Koontz、B.E. Weiss、「A Modular System of Algorithms for Unconstrained Minimization」、Report CU−CS−240−82、Comp. Sci. Dept.、コロラド大学ボールダー校、1982年に記載の対応するFORTRANソフトウエア・パッケージを適合させたものである。この線形モデルを用いて、最小自乗反復用の初期値を確定する。再度、この曲線からデータのRMS偏差を求め、このフィッティングにより線形モデルに比べて十分に改善する場合、このロジスティック・モデルを受け入れる。
【0065】
第4に、これが最後であるが、2次ロジスティック曲線についてこのフィッティング手順を繰り返し、その後、このフィッティングにより十分に改善した場合、この新しいモデルを受け入れる。このステップの最後に、各階層ごとに、すなわち、各変数ごとに、このモデルのタイプ(すなわち、定数、線形、ロジスティックまたは2次ロジスティック)およびこのモデルについてのパラメータの数を記載する。定数モデルには1つのパラメータがあり、線形モデルには2つ、ロジスティック・モデルには4つ、2次ロジスティック・モデルには5つのパラメータがある。
【0066】
次のステップでは、階層のすべてのペアを検討する。各ペアは「順序付けられたペア」であることに留意されたい。すなわち、(A,B)は(B,A)と等価ではない。階層を組み合わせる際、1人の患者は、その組合せ中に1回しか出現することができない。所与の患者が階層Aおよび階層Bの両方に現れるペアは無視される。各階層の各ペアごとに、各変数を順番に検討する。第1ステップでは、各変数ごとに、Δで時間的にオフセットさせたとき、階層Bのデータが階層Aのモデルに(最小自乗的な意味で)フィットするように、(適当な範囲にわたる)Δの最適値を決定する。この例では、単に、等間隔に並んだ一連のΔの候補値において最小自乗計算を反復することによってこれを行う。あるいは、1組の正規方程式を生成し、直接Δの最適値について解く。ほぼ同じ程度のフィットが得られるΔの値がいくつかあり得ることに留意されたい。実際、患者Aのモデルが定数の場合、すべてのΔの値から、モデル化プロセスのパラメータであるεのある範囲内で同じように良好なフィットが得られる。したがって、このプロセスのこのステップでは、Δは、単一の値ではなく、値の並びまたは範囲であり得る。
【0067】
このアルゴリズムでは、Δの最適値によってBのデータにフィットさせても、Aのモデルの曲線からのRMS偏差が十分に小さくならない場合、この階層ペアは拒絶される。RMS偏差の閾値は、モデル化プロセスの別のパラメータであり、統計学の技術分野の技術者なら、分析の性質に応じて適切な値を設定することができる。任意の変数についてこのようになる場合、このプロセスの現在の段階では、AおよびBは同じ階層に含まれる候補とみなされない。ただし、この階層ペア(A,B)から、すべての変数について許容可能なΔ(またはΔの組)が得られる場合、次のステップで、すべての変数について、これらの値を単一のΔに一致させるように試みる。階層Aおよび階層Bに関係するΔは1つしかないことがある。各変数ごとに別々のΔが存在することは物理的に現実的ではない。というのは、これらのデータは、ある特定の単一の時点で、現実の患者の現実の観測値から得られるからである。
【0068】
この例では、このプロセスは、この階層ペアについて列記されたΔの各値に適合する変数の数を数えることである。これにより、すべての変数に共通で、数が減ったΔの並びが得られる。この数が減ったΔの並びに、2つ以上の可能なΔの値が含まれる場合、この例では、絶対値が最も小さいΔを選択する。こうしたΔ間の結びつきをばらすための、たとえば、全体としてRMSに最もよくフィットするΔを選択するための他の任意選択肢も考えられる。
【0069】
この時点で、階層AおよびBを結合して、(A,B,Δ)で示す新しい階層にする。すなわち、データAに対するデータBのオフセットΔを用いて、データAおよびBを組み合わせる。次いで、上述の4つのモデル・タイプを用いて、この組み合わせた階層について、新しい階層を決定する。この組み合わせたデータ・セットにフィットさせた最終的なRMSモデルが、フィッティング・プロセスのパラメータ値と比較することによって十分に良好であると判定された場合、この新しい階層を「受け入れ」る。この階層が受け入れられた場合、階層(A,B,Δ)は、評価用の階層の組に付加される。
【0070】
すべての可能なペアを評価し終えるまで、ペアを評価するこのステップを繰り返す。その時点で、受け入れた階層の並びを編集して、あるサイズより小さい階層および/またはある回数のパス中に別の階層と結合されなかった階層を除去することができる。「概略値」であり、結合しないであろう小さい階層を繰り返し評価するのにかかる時間を減らしながら、大きい階層を集積することができるなんらかの他の方法で、編集を行うことができる。次いで、後続のパスについて、新しい階層が形成されなくなるまで、このペア評価プロセスを繰り返す。
【0071】
上記で述べたペアの結合法に対する代替手段として、代替クラスタ化アルゴリズム、たとえば、J.W. Hartigan、「Clustering Algorithms」、John Wiley & Sons、1975年、74〜83頁に記載の「リーダー・アルゴリズム」を用いることができる。さらに、臨床または製薬研究の状況では、様々な階層の帰属関係および位置を、臨床およびゲノム・データに相関させることができる。
【実施例1】
【0072】
モデル化用のデータを、「糖尿病コントロール・合併症調査」の公開ファイルから取り出した。これは、インターネット上でgcrc.umn.edu/pub/dcct/からftpを介して入手可能である。「標準治療グループ」中の730人の患者の記録を用いた。というのは、「実験治療グループ」の患者は、「糖尿病コントロール・合併症調査」の介入によって人為的に「同期」されていたからである。各患者ごとに、(a)ヘモグロビンAlc(血糖コントロールの測定値)、(b)網膜疾患(眼球の一部である眼底の写真によるETDRS尺度のスコア)、(c)「運動神経速度」、および(d)「知覚神経速度」の4つの変数について、10年分の年次測定値を抽出した(すなわち、I=1〜730、j=1〜4、k=1〜10)。後者2つの値は、糖尿病の別の合併症である抹消神経疾患の測定値である。欠けていた値は、つい最近の入手可能な値から補充した。
【0073】
前述のアルゴリズムを用い、同じ形状の曲線を整列させるために時間シフトを利用することによって、患者を階層にクラスタ化した。観測した4つの変数による階層についての結果を図6〜9に示す。(a)図6に、「HBAlC」と題するヘモグロビンAlcについての階層を示す。(b)図7に、「ETDRS」と題する網膜疾患についての階層を示す。(c)図8に、「運動神経速度」についての階層を示す。(d)図9に、「知覚神経速度」についての階層を示す。図5〜8は、適当な時間シフトを用いることによって、どのように患者の記録を合わせてフィットさせることができるかを示している。すなわち、各階層は、この4つの被検討変数に関して、原型の患者が、疾患を通じてどのように進行することになるかの様子を表している。図中の各印は、実際の患者のデータ・ポイントを示し、図6〜9のそれぞれの線は、各階層についてベスト・フィットしたモデル化関数である。
【0074】
本発明は、上記の好ましい実施形態の記載により限定されるものではない。そうではなくて、上記説明は単なる例であり、限定するためのものではない。したがって、本明細書を読んだ後で当業者には明らかであろう代替形態は、本発明の範囲に含まれる。本発明の範囲または趣旨から逸脱することなく、ここで開示した本発明の好ましい実施形態に様々な改変および変更を加えることができることが当業者には明らかであろう。したがって、この方法の説明は、単なる例であり、添付の特許請求の範囲で示す本発明の範囲を限定するものではないことを理解されたい。
【図面の簡単な説明】
【0075】
【図1】腎臓病に対する現在の治療手順を示す流れ図であり、どのようにして約40個の別個の疾患により末期段階の腎臓病に至り、その後、現在は透析、そしておそらくはさらに腎臓移植による治療を受けるかが示されている。
【図2】図2(a)は、ある特定のタイプの癌の1つの遺伝型の腫瘍サイズと時間の関係を示すグラフを示す図であり、図2(b)は、図2(a)に示す同じ癌の別の遺伝型の腫瘍サイズと時間の関係を示すグラフを示す。
【図3】図3(a)は、第1の患者の腫瘍の成長と時間の関係を示すグラフを示す図であり、図3(b)は、第2の患者の腫瘍の成長と時間の関係を示すグラフを示す図であり、図3(c)は、第3の患者の腫瘍の成長と時間の関係を示すグラフを示す図であり、図3(d)は、第4の患者の腫瘍の成長と時間の関係を示すグラフを示す図である。図3(a)〜(d)の患者は、同じ一般のタイプの癌をもつが、その癌の形態がそれぞれ異なることを理解されたい。
【図4】図4(a)は、図3(a)〜(d)に示す4人の患者について、同じ時間経過にわたって描いた腫瘍の成長を示すグラフを示す図であり、図4(b)は、図4(a)の曲線を整列し直したものを示すグラフを示す図であり、図3(a)〜(d)のうちの2人の患者が、疾患進行の1つの階層で表される1つの遺伝型の疾患を共通にもつようであり、図3(a)〜(d)の他の2人の患者が、異なる階層で表される異なる遺伝型の疾患を共通にもつようであるところが示されている。
【図5】時間依存性の測定データに基づき、特定の疾患の階層を決定するのに使用するモデルの定式化を表す流れ図である。
【図6】「HBAlC」と題する、ヘモグロビンAlcについての階層を示すグラフを示す図である。
【図7】「ETDRS」と題する、網膜疾患についての階層を示すグラフを示す図である。
【図8】「運動神経速度」についての階層を示すグラフを示す図である。
【図9】「知覚神経速度」についての階層を示すグラフを示す図である。
【0001】
本発明は、一般に、個々の患者の生物学的および遺伝学的なバックグラウンドを考慮にいれるとき、ある種のファクタに応じて疾患の進行を判定するための予知医学に使用することができる疾患階層化の分野に関する。
【背景技術】
【0002】
本出願は、2001年6月1日出願の米国仮特許出願番号60/294,638の優先権を主張する。
【0003】
最新の医学は、(a)個々の患者に最適で最もコスト効果の高い治療を選択し、(b)(i)次世代の診断法、(ii)治療用の薬物、(iii)健康管理製品、および(iv)生活様式の提案の展開を指導するのに、疾患に固有の知識を利用する。個々の患者についての知識は、その患者の観測値から得られる。これらの観測値には、家系、健康診断からの知見、血液および尿の検査結果、MRIおよびCTなどの画像による検討結果などが含まれる。また、遺伝学的な情報も比較的頻繁に取得する。さらに、マイクロアレイ技術による遺伝子発現およびタンパク質発現のデータが、臨床用途にまもなく利用可能になるであろう。
【0004】
ますます、従来方式の疾患のクラス分けは、たとえすべての分類で同じ症状が示されるとしても、原因となる機序または遺伝子による分類に細分化される。この細分化処理は、「疾患の階層化」として知られている。階層化を用いて、患者に対する最適な診断および治療の過程を選択し、結果を予測することができる。また、階層化を用いて、薬物開発のための適切な階層固有の標的を規定することもできる。一般に、階層化は、(a)単一の重要な生化学マーカ、(b)現在の治療に反応した明らかな差異、または(c)特定の遺伝子の差異に基づいていた。
【0005】
診断情報を取得する主な理由の1つは、患者の疾患の進行の段階を決定するためである。こうした情報は、その疾患に対する適切な治療を決定するのに極めて重要である。癌の場合には、疾患の段階により、手術、放射線療法、化学療法または上記の組合せのいずれが最適かが決まることになり、さらに、それぞれへの的確なアプローチが決まることになる。腎臓病の場合には、疾患の段階によって、薬物、食餌療法および生活様式の変更により疾患が最適に処置されているかどうか、あるいは、透析および移植を検討する必要があるかどうかが決まることになる。別の例として、閉経後骨粗鬆症の段階付けおよび評価を利用して、エストロゲンの服用による副作用の危険性を、ホルモン補充療法の効用で均衡させることができる。
【0006】
臨床的な実務慣行の現在の状況では、階層化および段階付けは、あいまいさと重複を伴う。単一疾患用マーカでは、疾患の進行の完全な様子がわからない。たとえば、糖尿病の判定では、グルコースおよびヘモグロビンAlcを測定する。一方から、短期の測定値が得られ、他方から長期の血糖値調節が判定される。
【0007】
個々の患者を段階付ける方法では、どの疾患進行マーカを使用するかに応じて、あいまいさが生じることがある。さらに、規定した疾患の段階は重複することがある。したがって、(a)患者がどの疾患経路に位置しているか、(b)その患者はその経路のどこにいるかを決定するためのより優れた方法が求められている。
【0008】
米国特許第5,657,255号は、疾患進行モデルを生成するのに用いることができると考えられる生物学的なモデル化システムを記載している。’255特許に開示されているモデルには、すべての変数が観察されるべき数学的なモデルが必要である。このような疾患モデルを生成するには、その疾患の理論および機序が完全に説明されなければならない。しかし、臨床的な実務慣行では、こうした完全なモデルは、可能だとしても、まれにしか入手できない。米国特許第6,108,635号は、疾患の進行を調べるのに使用することができる「Integrated Disease Information System」に関するものである。しかし、問題のこのシステムは、疾患の進行を判定する各段階で、人間のオペレータが必要である。
【0009】
したがって、疾患の基礎をなす内部機序の詳細なモデルを必要とせずに、疾患を階層化し段階付けすることが求められている。さらに、この必要性を満足する際に、疾患の階層化および段階を自動的に決定できることが好ましいであろう。さらに、複数の生化学マーカの独特の組合せ、治療反応の微妙な差異、または複数の遺伝子座の組合せなど、あまり明白ではないが重要な判定基準に基づいて疾患を階層化できることが有益であろう。さらに、階層化は、生化学マーカまたは臨床的な徴候など複数の変数の時間経過の形状を反映するべきである。
【0010】
明らかに、個々の患者がどの疾患階層に属しているか(疾患階層はそれぞれ、同じ疾患の異なる時間進行を反映している)を予測または決定するのに用いることができる診断マーカを特定できることが求められている。したがって、こうした予測または決定を行うために、所与の診断マーカが使用され得る最も早い時点で決定することが求められているということになる。検討中の疾患ならびに他の疾患について、今後の臨床試験にこうしたマーカを組み込むことが望ましいであろう。個々の疾患の疾患階層が変化することを考慮すると、段階付けを行うのに使用する様々な疾患の測定値間であいまいさを解消することができることが求められている。
【特許文献1】
米国特許第5,657,255号
【特許文献2】
米国特許第6,108,635号
【非特許文献1】
プレストレルスキ他、タンパク質 14、430〜39頁、440〜50頁、(1992)
【非特許文献2】
R.B. Schnabel、J.E. Koontz、B.E. Weiss、「A Modular System of Algorithms for Unconstrained Minimization」、Report CU−CS−240−82、Comp. Sci. Dept.コロラド大学ボールダー校、1982年
【非特許文献3】
J.W. Hartigan、「Clustering Algorithms」、John Wiley & Sons、1975年、74〜83頁
【非特許文献4】
gcrc.umn.edu/pub/dcct/
【発明の開示】
【0011】
1つまたは複数の上記欠如に対する解決策は、疾患を階層化し、その進行を予測することができる情報処理方法によって実現することができる。以下で説明するこの方法は、疾患の基礎をなす内部機序の詳細なモデルを必要とせずに、こうした疾患の階層化および進行の予測を行うことができる。さらに、階層化により、複数の生化学マーカの独特の組合せ、治療応答の微妙な差異、または複数の遺伝子座の組合せなど、あまり明白でないが重要な判定基準に基づいて決定することができる。さらに、このモデルは、疾患の階層および段階を自動的に決定することができる。
【0012】
疾患を階層化し疾患の進行を判定するための1つの情報処理方法は、以下により詳細に記載するように、所与の疾患を共通にもつ複数の患者に関する変数の時系列の観測値を記録することを含む。より優れた、より有用なモデルを得るために、個々の組の患者は、たとえば、「成人である」ことや「治療を受けていない」という妥当な共通のバックグラウンドを反映していなければならない。したがって、こうした患者のグループは、患者の集団統計的な情報や以前の治療の履歴に基づいて、患者の母集団全体から選別しなければならない。観測し得る変数は、特定のクラスのものに限定されないが、それらには、集団統計的なデータ、生化学的なデータ、病理学的なデータ、組織学的なデータ、遺伝学的なデータ、または遺伝子発現データあるいはそれらの任意の組合せを含めてよい。これらの観測値を、データ・セットとしてデジタル・コンピュータ・システムに入力し保存する。このデータ・セットにより、後続のステップが自動計算として行われる。初期階層は、臨床医、あるいは、公開されている臨床疾患段階付けアルゴリズムによって得られるが、コンピュータにより、患者を階層にクラスタ化することによって、検討中の疾患が階層化されることが好ましい。これらの階層は、経時的に測定した観測値の進行を表す曲線形状に基づくものである。
【0013】
この階層化を用いると(最初の階層化が不正確であると判明した場合には、さらに、後でこの階層化モデルを反復する)、階層が、整列され、端が切り捨てられ、あるいは延長されて、同様な時間進行がほぼ重なり合う。この時点で、患者の各ペアごとに、コンピュータが、整列された時間進行を比較して、それらの間の数学的な距離の測定値を求める。時間進行間の数学的な距離を求めるには、ユークリッド距離、シティブロック距離または手作業で用意したルックアップ・テーブルを用いる点別計算を含めて、多数の方法がある。この階層化は、階層間の数学的な距離に基づいて、各クラスタが特定の階層の疾患に対応するようにクラスタに患者を割り当てることによって改善される。クラスタの割り当ては、人間のオペレータが対話式に改変することができる。最後に、進行および階層化の推定値が、後続の反復操作で大きく変わらなくなるまで、この階層化モデルを改善することができる。
【0014】
この疾患の階層化および進行の情報を、遺伝学的なデータ、遺伝子発現データまたは生化学的なデータと組み合わせて生化学的な標的を特定し、それによって、検討中の疾患の特定の階層または階層の組を治療する薬物を開発することができる。あるいは、この情報を用いて、検討中の疾患の特定の階層(または階層の組)に対する改善結果に相関する生活様式のファクタを決定し、それによって、特定の階層または複数の階層中の患者集団に生活様式の変更を提案することもできる。
【0015】
上記で述べた方法では、様々な任意選択のステップを用いて、モデルの正確さおよび/または簡便さを高めることができる。たとえば、患者ごとに、いくつかの変数または全変数の時間に対する変化率を計算することができる。こうした計算結果が反映されるように、これらの患者に対応するデータ・ファイルを補強することができる。さらに、得られたモデルを簡単にするために、次元縮小法(たとえば、主成分分析法や因子分析法)による後続の分析に基づいて、モデルで使用する変数の数を減らすことができ、それによって、データ・セットに付加する情報が比較的少ない変数が減るか、あるいは他の変数と組み合わされる。
【0016】
上記で述べた方法に基づいて、臨床医は、1つまたは複数の観測した変数のどれが階層化に関して最も多くの情報をもたらすかを決定することができる。この決定により、研究者または臨床医は、検討中の疾患の階層化を行う診断マーカ・キットを開発することができるはずである。さらに、同じ疾患の階層中の同様な段階にいる他の患者との類推から、疾患の階層化および進行の情報を用いて、個々の患者の疾患の推移を予測することができる。特定の患者の疾患の階層化および進行の情報を臨床医に提示して、患者が疾患の階層化および進行モデルにどのように当てはまるか(すなわち、その患者がどの階層に属するかと、現在その患者がその階層のどこにいるか)の決定に関する臨床医の診断に基づいて、その患者に対する処置の最適な推移を決定することができる。
【0017】
上記で説明した疾患を階層化し疾患の進行を判定するための情報処理方法に基づいてモデルが与えられる場合、臨床医は、このモデルで表される疾患を共通にもつ追加の1人または複数の患者に関する変数の時系列の観測値を記録することができる。これらの追加の観測値をデータ・セットとしてデジタル・コンピュータ・システムに入力し保存することによって、このモデルを修正し、それによって、改善することができる。さらに、臨床医は、それぞれの追加の患者の疾患の進行の段階を、その患者を最初に診察する時点で推定することができる。
【0018】
これら追加の患者ごとに、臨床医は、いくつかの変数または全変数の時間に対する変化率を計算することができる。さらに、これらの計算結果が反映されるように、このデータ・セットを補強することができる。この階層化モデルを用いると(後で最初の階層化が不正確であると判明した場合には、さらに、後でこの階層化モデルを反復する)、追加の患者の時間進行が、整列され、端が切り捨てられ、あるいは延長されて、このモデルに既知の同様な階層にほぼ重なり合う。この時点で、各患者ごとに、コンピュータが、整列された時間進行を比較して、それらの間の数学的な距離の測定値を求めることができる。次いで、それらの間の決定された数学的な距離に基づくクラスタに追加の患者をそれぞれ割り当てることができる。こうすると、追加の患者が、疾患の特定の階層に割り当てられる。さらに、臨床医は、特定のクラスタ内で患者間の距離を決定することができる。最後に、特定クラスタ(それによって、特定の疾患階層)に追加の患者をこのように割り振ることに基づいて、臨床医は、その患者を最初に診察した時点でなされたその患者の疾患の進行段階の初期の推定を修正することができる。
【0019】
疾患を階層化し疾患進行の判定を行う情報処理方法をよりよく理解すると、以下に示す図に照らして詳細な説明を検討する際に、理解がより容易になるであろう。
【0020】
本明細書に組み込まれ、その一部を構成する添付の図面は、本発明の実施形態を示し、かつ、明細書本文とあいまって、本発明の原理を説明するのに役立つ。
【発明を実施するための最良の形態】
【0021】
次に、図面に示す本発明の現時点で好ましい実施形態を詳細に参照する。本発明は、提供されるデータに完全に基づく疾患進行モデルを含む。本発明の手法は、疾患の基礎となる理論または機序に関する入力を必要としない。
【0022】
本発明は、階層化および段階付けの基礎として、患者または他の生体の臨床的な観測値を利用する。これらの観測値は、デジタル・コンピュータ・システムに保存され、そこで処理される。幾人かの患者または全患者からのいくつかの観測値または全観測値は、一度に処理することができる。これらのデータは、「クラスタ分析」として知られる統計的な手順にかけられる。この「クラスタ分析」により、経時的に観測した変数の変化を表す曲線形状に基づいて、患者が合わせてグループ化される。各クラスタの患者は、異なる疾患階層を示す可能性がある。異なる患者の観測値が、それぞれの疾患プロセスの進行の異なる時点で始まるのを補正するために調整を行う。こうした調整を行って、患者の疾患階層内で、個々の患者ごとに疾患の進行段階を決定することができる。最初に階層および段階を規定した後で、クラスタ分析および調整を繰り返すことができ、それによって、階層化および段階付けの収束的な反復プロセスが行われる。
【0023】
本発明は、患者の観測値に基づいて疾患を階層化する。「階層化」という用語は、乳癌など単一の疾患として従来周知とされているものの中のサブセットを特定することを指す。一般に、「患者」は、疾患を患った人間個人を指すが、疾患プロセスの対象となる動物さらには植物も包含する。階層化を行うことは、(a)特定の疾患階層に照準を合わせた治療用薬物を開発するための標的となる分子を特定し、(b)薬物および/または生活様式の変更を含めて、特定の階層に基づく最適な治療を選択し、(c)特定の階層に基づく診断的な検査を選択し、あるいは(d)その患者が属する階層に基づいて、疾患の推移を予測することを含む。
【0024】
仮想例として、図2(a)および2(b)に、2つの異なる遺伝型の癌について、腫瘍成長の経時的なグラフを示す。腫瘍サイズは、疾患の重篤度に関連する。遺伝型A1および遺伝型A2は、臨床的には同じ疾患に見えることがあるが、それらは異なる時間経過をたどる。経時的に多数の患者からのデータを分析することによって、本発明は、臨床医および研究者が、実際、異なる種類の治療に反応し得るこれら2つの別の形態の癌を区別する助けとなることができる。簡単にするために、疾患に関連する単一の変数として、腫瘍のサイズを示す。実際の応用例では、遺伝型A1および遺伝型A2の間の区別は、高次元空間において、細胞DNA含有量および様々な遺伝子の発現など、いくつかの変数を追加して検査しない限り、明確ではないことがある。
【0025】
本発明により、患者の観測値の分析に基づいて、患者の疾患の進行段階も決定される。疾患は、処置が施されない場合には特に、経時的に一連の段階を経て進行する傾向がある。処置を施すことにより、進行の状態が改変されるか、あるいは、疾患プロセスの各段階にかかる期間を変えることができる。図1に、腎不全および移植に至る腎臓病の各段階の例を示す。多くの医療上の条件の任意の1つにより、患者が末期状態の腎臓病に至ることがあり、腎臓はもはや血流から排泄物を濾過できなくなる。次いで、患者は透析に付される。その後、多くの透析患者は、腎臓移植を受けることになる。これらの患者の一部は、免疫反応のために、急性拒絶を被り、腎臓を失うことになる。その他の患者は、慢性拒絶の影響に苦しむことになるが、最終的には、移植された腎臓によって、なんらかの状態の健康を維持することができるようになる。図1に、疾患の段階を離散ステップで示すが、他の疾患は連続的に進行し、段階(たとえば、I、II、IIIなどの段階の腫瘍)間の区別は自然にではなく、臨床医および研究者の都合でつけられる。
【0026】
各患者を周期的に時間をかけて観察することが重要である。経時的にいくつかの時点で観察がなされない場合、たとえば、患者が、重篤な疾患の過程の初期で観察されているのか、あるいは、比較的軽度の疾患の過程の後期で観察されているのか区別することができない。各患者の診察は、患者の医療ファイルに入力することができる任意の項目からなり得る。血液、尿その他の検体による検査室の検査結果とともに、家系および健康診断の結果を含めることができる。MRIなどの画像検査も含めてよい。心電図または肺機能検査などの特殊な検査を含めてもよい。検体の組織学/病理学的検査の結果もまた含めることができる。遺伝学的検査の結果を含めることもでき、これは、今後、重要な役割を果たすと期待されている。患者の重要組織中の遺伝子発現を測定するために、DNAマイクロアレイからのデータも含めてよい。また、比較的新しいマイクロアレイ技術からのデータにより、タンパク質発現も測定することができる。診察自体を行うとともに、診察日を記録することができる。観測値は、最初の症状が現れる以前の期間も含めて、疾患の時間経過全体を対象として含むことが望ましい。
【0027】
あらゆる場合において、これらのデータを、数値的に2つの観測値を比較し得る形式で取得するか、あるいはそうした形態に変換するべきであり、それによって、観測値間の「距離」が決定される。健康診断などの言葉による説明では、管理用語および数値的な符号化でこれを行うことができる。たとえば、「この患者は健康そうである」は、「5」として符号化できるはずであり、「この患者は深刻な病気であるようだ」は「3」として、また、「この患者は昏睡状態である」は「1」として符号化できるはずである。画像による検討の場合、腫瘍の直径など画像中の特徴を測定することが必要なことがある。胸部X線写真の肺浸潤などのより主観的な特徴は、たとえば、臨床医が、0〜4の数字で符号化した0/+〜++++という尺度で等級付けすることができるはずである。遺伝子が存在するかしないかは、0または1として符号化することができる。所与の遺伝子の複数の可能な対立遺伝子には、それぞれ特定の符号を与えることができる。「観測値」は、特定の時間における特定の患者に関連する単一の数字または数字に変換することができる記述を指す。「変数」は、血圧、腫瘍の直径、血清クレアチニン・レベルや特定の遺伝子の発現レベルなど観察し得る患者の態様である。
【0028】
一般に、患者は、2つ以上の疾患を患っていることがあり、複数の疾患は相互に影響し得る。1つまたは複数の観測値によって、あるいは、これらの観測値から導出した疾患の進行の測定値によって、所与の疾患を特徴づけることができる。この測定値には、本発明により導出した疾患の進行の測定値が含まれる。こうした測定値は、同じ患者に存在する第2の疾患を調べる際の「観測値」の役割を果たすことができる。したがって、本発明は、本発明を用いて、個々の患者集団において一度に2つ以上の疾患の検討を行うことができると一般化することができる。
【0029】
図5に、分析プロセスの流れ図を示す。観測値は、デジタル・コンピュータ・システムに保存する。この観測値は、キーボードから手作業で入力するか、あるいは、LIMS(検査室情報管理システム)などの別のコンピュータ、電子診療記録または遺伝分析システムから転送することができる。
【0030】
一般に、疾患の「段階付け」は、離散項(たとえば、「段階I」、「段階II」、「段階III」など)と考えられているが、本発明では、一般に、疾患の段階は連続的な数値である。こうした連続的な段階付けの推定値は、患者の時系列データを、それらが整列するように各階層内で互いにシフトすることによって導出することができる。図4(a)に、図3(a)〜(d)に示す患者の一連のデータが「実時間」で整列している場合、それらは疾患プロセスの段階に関して整列していないので、それらを互いに直接比較することができないことを示す。
【0031】
時系列データを整列させた後、次の目標は、類似の時間経過を有する患者を合わせてクラスタ化することによって、疾患を階層化することである。このプロセスは、統計学、特にクラスタ分析の技術分野の技術者には周知の「距離マトリックス」を生成することから開始する。すべてのペアの患者間の距離の三角行列を計算しなければならない。患者間の距離はそれぞれ、各変数ごとに計算した個々の距離の関数になる。この関数は、和または加重和の形式をとるはずである。所与の変数に対する距離は、その変数についての個々の観測値の距離の和になるはずである。この和も重み付けを行うことができる。
【0032】
従来方式のクラスタ化では、一般に、クラスタ化するすべての対象物と、その他のすべての対象物との類似性を列記する距離マトリックスにより作業する。従来、この距離マトリックスは、最初に一度計算し、その後、クラスタ化プロセス中はこの値を使用する。しかし、日付は本来時間的にシフトしているので、この距離マトリックスは、クラスタが形成される際に劇的に変化する。これは、単に、クラスタを形成するときは必ず、距離マトリックスの一部を更新しなければならないことを意味する。
【0033】
観測値間の距離は、いくつかの方法で求めることができる。クラスタ分析では、多くの場合、数値変数に絶対差または自乗差を使用する。数値で符号化した遺伝子アレルなど、いくつかの事例では、手作業でルックアップ・テーブルを生成して、任意の2つの可能な観測値間の「距離」を評価することが望ましいであろう。
【0034】
階層化および段階付けプロセスを有効なものにするには、分析を行う患者の集団構成を制限することが必要なことがある。たとえば、たとえ同じ疾患を共通にもつ場合でも、乳児で観測したある種の変数を、成人の同じ変数と比較しても意味がないであろう。また、単一の分析が、広範囲の治療処置を受けた患者を混在して含まないようにすることが必要であろう。そうしないと、この方法は、1つの階層には治療を受けた患者、別の階層には治療を受けていない患者からなる誤った「階層」群を生成することになるであろう。そのため、本発明は、患者の集団統計データ(年齢、身長、体重、性別など)および治療歴についての基準を指定するステップを含む。指定した基準を満たす患者だけが、後続の分析に含まれることになる。患者を選別するのに用いる基準は、疾患ごとに異なるものになるであろう。
【0035】
後続のクラスタ分析では、一般に、変数の時間に対する変化率を含むことが望ましいであろう。時系列データの導関数を計算するためのアルゴリズムが、多数公開されている。これらのうちいくつかは、データ中のノイズを過度に増幅しないように多点フィルタリングを組み込んでいる。これらのアルゴリズム、たとえば、Savitsky−Golayフィルタは、本発明に関連して有用であり得る。
【0036】
各患者ごとに、比較的多数であり得る変数のデータ・ポイントを含めて、時系列データがデータ・セット中に存在する。こうした状況では、一般に、多数の変数が互いに密接に相関することがわかっている。したがって、あまり重大ではない情報を含む「余分な」変数があり得る。ニューラル・ネットワークと、主成分分析法および因子分析法などの統計技法とを用いて、計算に持ち越す変数の数を減らすことができる。挿入的に、これらの技法は、検討すべき変数間の関係を洞察する追加の利点となり得るものであり、また、今後の検討に必要な変数の数を減らすことができる。
【0037】
疾患の階層化および段階付けの反復プロセスは、患者をクラスタ化することから始める。各患者は、(時系列データとも呼ぶ)時間進行を規定するその患者に関連した複数の時間依存性の測定値をもつ。各時間進行により、経時的に観測した変数の測定値に対応する曲線が描かれる。初期クラスタ化はこれらの曲線の形状に基づく。クラスタ化は、曲線間の距離を直接測定した値にではなく、曲線形状に基づいていなければならない。というのは、各患者ごとの観測値は、その患者の疾患プロセスの経過に沿った時間的に異なるポイントから始まるからである(すなわち、観測の暦日付では、患者の疾患がどのくらい長く進行しているかに関して何もわからない)。不慮の院内感染などの特殊な場合を除いて、一般に、「時間ゼロ」がいつであるかはわからない。コンピュータは、疾患の時間経過全体を分析するので、重篤な疾患の初期段階にある患者と、比較的軽度の疾患の後期段階にある患者とを区別する(というのは、一般に、この2つの場合の曲線形状が異なるものになるからである)。
【0038】
曲線形状のクラスタ化は、任意のいくつかの時間進行整列アルゴリズムによって実施することができる。従来方式の任意のクラスタ化アルゴリズムを用いて、階層化を行うことができる。「単連結法」、「完全連結法」、「K−means法」、「ワード法」、または「セントロイド法」など、多くのこうしたアルゴリズムがある。これらのアルゴリズムは、データ分析の技術分野の技術者には周知のものであり、SASおよびSPSSなど標準の統計パッケージの形で入手可能である。これらのアルゴリズムは、同じオブジェクトを合わせてグループ化し、異なるオブジェクトを別々のグループに保持する。最初のステップとして、Savitsky−Golayフィルタまたは類似の公式を用いて、曲線を形成する値の時間導関数を計算し、それによって、1つの曲線から他の曲線への定数オフセットの影響をなくし、また、曲率その他の形状を画定する特徴を強調することができる。次いで、動的計画法またはウェーブレット変換などのアルゴリズムによって、互いに各曲線を整列させることができる。各クラスタは、疾患の階層を表し得る。臨床的に最も意味のある疾患階層化を得るために、人間のオペレータが、データを詳細に検討した後で、クラスタを分離し、また、結合することが望ましいであろう。
【0039】
別々の階層の各患者から始め、次いで、クラスタ化アルゴリズムでこれらの階層をまとめる。疾患プロセスの「時間ゼロ」で患者をほとんど観察していないことを補正するために、これらの階層を組み合わせる際に互いに時間的にシフトさせる。さらに、各患者(または階層)は、疾患プロセスにおける異なる時点での第1観測値をもつ。時間シフトの適切な量は、反復的(可能なシフト量の範囲を適用し、数学的なモデルに最もフィットするものを選択する)にか、あるいは、解析的(モデル自体に基づいて最小自乗方程式を解き、最適な時間シフトを見つける)に決定することができる。
【0040】
階層を組み合わせるとき、次に、測定したすべての疾患変数に許容可能なフィットが得られる「コンセンサス」時間シフトを見つける。最後に、この組み合わせた階層を全体的な数学モデルにフィットさせる。その後、この数学モデルを吟味し直して、許容可能なフィットが得られるようにする。モデルを吟味し直さないと、このモデルは、もっともらしい疾患プロセスを表すことにはならない、時間的に合わせて一続きになった長い「デイジー・チェーン型」の患者群を表すことになると考えられる。
【0041】
各階層内で、各患者ごとの時系列データを、時間的にさらに整列させて、平均患者間距離を減少させることができる。この時系列データを整列させるのに必要なシフト量を用いて、患者の現在の疾患の段階の推定値を直接更新することができる。これは、その患者の「時間ゼロ」の暦日付を推定するのと等価である。次いで、クラスタ分析を繰り返すことができる。一般に、この反復プロセスは収束することになる。最後に、このクラスタは、疾患の階層を表すことになり、最終時点としての観測値とともに、各患者のデータに適用したシフト量は、各患者の疾患の進行の段階を示す。図4(b)に、この分析プロセスの結果を示す。このデータは、疾患の段階によって整列しており、したがって、検討中の疾患のサブセットを表す階層にクラスタ化することができる。時間原点から中抜き円までの距離は、各患者ごとの疾患の段階または進行の測定値である。
【0042】
まとめると、同期化および階層化では、3ステップからなるプロセスのクラスタ化を用いる。すなわち、1対の階層を組み合わせるために、(1)各変数ごとに最適な時間シフトを決定し、(2)すべての変数を合わせてコンセンサス時間シフトを決定し、(3)組み合わせかつシフトしたデータをモデルにフィットさせ、(4)モデルを吟味し直した後でフィット結果が許容できる場合、組み合わせた階層を有効なものとして受け入れる。
【0043】
患者の時間経過イベントを同期化する助けとなる手法には、プレストレルスキ他、タンパク質 14、430〜39頁、440〜50頁、(1992)に記載のものを含み得る。プレストレルスキは、離散的に測定された特徴を整列させ同期させることができ、動的計画法を用いて、測定変数間のギャップを決定し補償することができる方法を記載している。
【0044】
プレストレルスキの文献の例では、サンプリングまたは同期化の際に順序よく整理され得ることもあるしされ得ないこともある、変動するポイントにおける時間ドメインをサンプリングしていない。そうではなくて、アミノ酸配列中で、同じにならないように同様に番号付けできるはずの位置として、等価なドメインを定義している。直線軸内または軸座標の始まりのところでギャップまたは挿入が存在するので、この位置をドメインとして選択している。
【0045】
疾患分析における階層化およびクラスタ化の適用例が、心臓移植受容者および提供者のデータベースの検討への応用例に見られる。こうした研究では、移植前および移植後の受容者に関する大量の情報があるが、移植前の提供者に関する情報は最小限のものしかなく、移植後のものは皆無である。こうした分析の所望の結果は、提供者と受容者を適合させるのに使用する基準を高める潜在的可能性を決定し、それによって、移植処置の成功率、すなわち、心臓移植受容者の生存率が高められることであろう。処置の標準により、組織適合試験が必要である。提供者と、それより体重が少ない受容者とを潜在的に適合させることに基づいて、(筋肉からなる)心臓が、移植中に生じる萎縮に耐えることと、より体重が少ない受容者ではよりうまく働くことを見込んで、追加のアルゴリズムが実施されている。
【0046】
プレストレルスキ他の文献に記載の動的計画法による分析を適用すると、一般に、受容者は、移植時には身体的に弱い状態であり、受容者の実際の体重は、所望の臓器の機能的なプロフィールをより密に反映している理想的な体重よりも少ないという事実を織り込むように、受容者の体重に対する提供者の体重のファクタをさらに改善することができる。さらに、提供者は、体重超過または体調不良ために、理想的な体重よりもかなり重いことがある。単純な実際の体重比に依存しても、提供される材料の「質」を十分に反映しないことがある。さらに、生存/死亡の状態の分析により、この単純な分類のしかたは、(a)実際の所望の結果(生存日数)、および(b)これを移植後に十分に評価するための処置手順の標準の潜在能力を表すのに不十分であることが示された。患者のスコアを変換して、移植成功による生存時間の長さを反映させると、(a)移植の成功または失敗の進行をより正確に決定することができ、(b)処置に先だって予想され補正することができるはずの要因に関係し得る(時間的な)進行のいくつかの特定のクラスタを特定することができ、(c)移植後の処置の標準の潜在的な有用性が評価された。したがって、検査室による検査は、臓器不全または拒絶の潜在的な危険性を警告することに成功した。
【0047】
図3(a)〜(d)に、4人の患者について、(図2(a)および2(b)に示した仮想癌の例を継続して)腫瘍の成長の時間経過を示す。各図中のグラフ化した線は、各図に対応する患者から取得した第1の測定値から始まる。一般に、患者は、癌の進行の異なる時点で、すなわち、症状が最初に現れたときに、診療を仰ぐことになる。このため、症状が現れる以前の期間を対象として含むデータは、その間腫瘍が存在し成長したとしても入手可能ではない。中抜き円は、各患者ごとの最後(最も最近)の測定の日付を表す。
【0048】
次いで、データの階層化および段階付けを用いて、個々の患者ごとに、診断、治療および生活様式の指針を展開することができ、また、疾患の結果を予測し、個々の患者に対する治療を最適化することができる。十分な組の患者に対して完全な分析を実施すれば、新しく追加された患者について、疾患を階層化し段階付けを行うことははるかに簡単である。単に、既存のデータ・セットに最もフィットするように、新しい患者の観測値を整列しクラスタ化することができる。さらに、たとえば、臨床的、生物学的、遺伝学的に新しい技術または方法に基づく新しい観測値を、いつでも階層化プロセスに組み込むことができる。整列により、前述の疾患の段階が示され、クラスタの割当てにより、患者が属する階層が示されることになる。さらに、新しい患者を反映するようにモデルを更新することができる。このようにして、モデルの正確さを経時的に連続して改善することができる。
【0049】
次に、本発明の概念的な説明をはっきりさせるために、患者データを階層化し同期化して疾患モデルを形成するプロセスを詳細に記載することによって、上記で述べたことを実現する方法を説明する。
【0050】
事前に、モデル用の入力を定義しなければならない。疾患モデル化プロセスへの入力は、i=1〜Nで示すN人からなる1組の患者に対してなされた経時的な1組の観測値である。M個の異なる臨床的な被観測変数があり、これらをj=1〜Mで示す。各患者ごとに、tで示す時間で各変数を観測する。各患者ごとの観測の回数は、N人の患者間で変わり得るものであり、k=1〜niで索引付けする。一般に、値tは、患者ごと、変数ごとに異なることがある。このように、これらの観測値は、順序付けられた組のペア、{tijk,yijk}からなるものである。ただし、i=1〜N、j=1〜M、k=1〜niであり、各時間tごと(および各患者Nごと)に、それに対応する各変数Mごとの測定値yがある。
【0051】
この疾患モデル化プロセスの第1の出力は、患者集団を階層すなわちクラスタに分けるように設計され、かつ意図されている。各階層は、原型の「モデル患者」が、ある疾患を通じて進行することができる仕方のパターンを示す。すなわち、所与の階層の構成員は、観測された疾患の変数が経時的に発展する仕方が類似のパターンを共通にもつ。
【0052】
使用する特定のクラスタ化アルゴリズムによっては、所与の患者は、2つ以上の階層に属するように見えることがある。これは、たとえば、その患者が、疾患の経過の初期にしか診察されず、患者がどの階層に属するかを完全に決定するのに十分な情報がない場合に起こりえる。また、疾患プロセスの後期に診察が行われ、患者がどの経路をたどってその状態に達したかを決定できない場合にも起こりえる。
【0053】
この疾患モデル化プロセスの第2の出力は、各変数ごと、各階層ごとの1組のモデル関数である。これらのモデル関数は、所与の階層の構成員である患者について、各変数の経時的な発展を予想することができるパターンを記述するものである。この疾患モデル化プロセスの第3の出力は、1組の時間オフセット値であり、ある患者がある階層の構成員である場合ごとに1つの時間オフセット値がある。この時間オフセット値は、それらが所与の患者のデータを時間的にシフトさせて、その階層の対応するモデル関数に患者の観測データを(最小自乗的な意味で)最もよくフィットさせるように決定する。変数1つ当たりではなく、患者1人に1つの時間オフセット値があることに留意されたい。所与の患者についてのすべての変数は、実際の患者において同時に発生するので本来時間的に結びついており、そのため、互いに時間的にシフトされない。
【0054】
所望の出力を得るために、階層化および同期化プロセスを理解することが必要である。この同期化プロセスにより、患者の記録は、それらがともに結合されて階層を形成する際に、互いに時間的にオフセットされる。このようにして患者を結合することによって形成された階層は、3つの記号からなる(A,B,Δ)によって表される。これは、「患者Aの第1観測時間と患者Bの第1観測時間の間にオフセットΔがある状態で、患者Aの記録に患者Bの記録を付加する」ことを意味する。Δの符号は、Bの第1の観測がAの第1の観測よりも後で行われる場合はプラスであり、Bの第1の観測がAの第1の観測の前に行われる場合はマイナスである。次いで、結合プロセスにおいて、「階層」が再帰的に「患者」の役割を果たす。たとえば、最終的に確定した階層は、次のように表される。
【0055】
(((A,B,−10.3),(C,D,−6.1),+3.2),E,+1.7)
(A,B,−10.3)に「Q」を割り当て、(C,D,−6.1)に「W」を割り当てると、結果は次のようになる。
【0056】
((Q,W,+3.2),E,+1.7)
さらに、(Q,W,+3.2)に「Z」に割り当てると、最終的に確定した階層は次のようになる。
【0057】
(Z,E,+1.7)
モデル化プロセスを開始するために、各患者をその患者自身の階層に配置する。すなわち、患者Aは階層(A,null,0)になる。この患者のデータは、モデル化アルゴリズムを適用する前に、あらかじめ条件設定することができる。必要なら、変数は(対数、平方根などに)変換して、変動を安定化するべきであり、それによって、yの差異が、臨床的にも等しい重要性をもつことになる。振動的または周期的な変数は、ここで使用したより滑らかなモデルに合う変数(たとえば、包絡関数または振幅関数あるいは振動サイクル数すなわち周波数を示すなんらかのもの)で置き換えるべきである。データ中のノイズは、階層化プロセス自体を行う前にデジタル・フィルタリングで除去することができる。
【0058】
以下のプロセスの各ステップにおいて、各階層内の変数のデータを数学的なモデル関数にフィットさせる。このモデル関数の数学的な定式化は、モデル曲線が、実際のデータと同じ概略形状の特徴を示すように選択するべきである。この定式化は、実際のデータをフィットさせる時間間隔の先まで外挿する際に、臨床的に適切な挙動を有するようにも選択するべきである。このため、2次または3次モデルなど数学的に簡単な形式は望ましくないことがある。というのは、それらは、それらを最初にフィットさせる領域外で±∞に発散するからである。外挿により導入される誤差が許容範囲なので、線形モデルがうまく利用されている。
【0059】
上記の指針内で、ここで説明したもの以外の他のモデルの定式化を利用することができる。このモデル化プロセスでは、モデル用に4つの異なる数学的な定式化を続けて使用する。
【0060】
定数:y(t)=α
線形:y(t)=α+βt
【0061】
【数1】
【0062】
所与の階層では、各変数は、最終的にこれら4つのタイプのモデルの1つにフィットする。以下のプロセスによってフィッティングを行う。第1に、データを最小自乗法で「定数にフィット」させる。これは、単にデータの平均値に等しくαを設定するのと等価である。次いで、このモデルからデータのRMS(自乗平均)偏差を決定する。
【0063】
第2に、このデータを線形モデルにフィットさせ、ベスト・フィットさせた直線からRMS偏差を決定する。RMS偏差が指定したフラクション(モデル化プロセスのパラメータ)よりも減少する場合、この線形モデルを受け入れる。そうでない場合には、定数モデルを用いる。
【0064】
第3に、このデータを、反復最小自乗フィッティング手順でロジスティック曲線にフィットさせる。この最小自乗フィッティング法では、米国林野部所属のSteven Verrillが開発したJava(登録商標)ルーチンを使用する。これは、R.B. Schnabel、J.E. Koontz、B.E. Weiss、「A Modular System of Algorithms for Unconstrained Minimization」、Report CU−CS−240−82、Comp. Sci. Dept.、コロラド大学ボールダー校、1982年に記載の対応するFORTRANソフトウエア・パッケージを適合させたものである。この線形モデルを用いて、最小自乗反復用の初期値を確定する。再度、この曲線からデータのRMS偏差を求め、このフィッティングにより線形モデルに比べて十分に改善する場合、このロジスティック・モデルを受け入れる。
【0065】
第4に、これが最後であるが、2次ロジスティック曲線についてこのフィッティング手順を繰り返し、その後、このフィッティングにより十分に改善した場合、この新しいモデルを受け入れる。このステップの最後に、各階層ごとに、すなわち、各変数ごとに、このモデルのタイプ(すなわち、定数、線形、ロジスティックまたは2次ロジスティック)およびこのモデルについてのパラメータの数を記載する。定数モデルには1つのパラメータがあり、線形モデルには2つ、ロジスティック・モデルには4つ、2次ロジスティック・モデルには5つのパラメータがある。
【0066】
次のステップでは、階層のすべてのペアを検討する。各ペアは「順序付けられたペア」であることに留意されたい。すなわち、(A,B)は(B,A)と等価ではない。階層を組み合わせる際、1人の患者は、その組合せ中に1回しか出現することができない。所与の患者が階層Aおよび階層Bの両方に現れるペアは無視される。各階層の各ペアごとに、各変数を順番に検討する。第1ステップでは、各変数ごとに、Δで時間的にオフセットさせたとき、階層Bのデータが階層Aのモデルに(最小自乗的な意味で)フィットするように、(適当な範囲にわたる)Δの最適値を決定する。この例では、単に、等間隔に並んだ一連のΔの候補値において最小自乗計算を反復することによってこれを行う。あるいは、1組の正規方程式を生成し、直接Δの最適値について解く。ほぼ同じ程度のフィットが得られるΔの値がいくつかあり得ることに留意されたい。実際、患者Aのモデルが定数の場合、すべてのΔの値から、モデル化プロセスのパラメータであるεのある範囲内で同じように良好なフィットが得られる。したがって、このプロセスのこのステップでは、Δは、単一の値ではなく、値の並びまたは範囲であり得る。
【0067】
このアルゴリズムでは、Δの最適値によってBのデータにフィットさせても、Aのモデルの曲線からのRMS偏差が十分に小さくならない場合、この階層ペアは拒絶される。RMS偏差の閾値は、モデル化プロセスの別のパラメータであり、統計学の技術分野の技術者なら、分析の性質に応じて適切な値を設定することができる。任意の変数についてこのようになる場合、このプロセスの現在の段階では、AおよびBは同じ階層に含まれる候補とみなされない。ただし、この階層ペア(A,B)から、すべての変数について許容可能なΔ(またはΔの組)が得られる場合、次のステップで、すべての変数について、これらの値を単一のΔに一致させるように試みる。階層Aおよび階層Bに関係するΔは1つしかないことがある。各変数ごとに別々のΔが存在することは物理的に現実的ではない。というのは、これらのデータは、ある特定の単一の時点で、現実の患者の現実の観測値から得られるからである。
【0068】
この例では、このプロセスは、この階層ペアについて列記されたΔの各値に適合する変数の数を数えることである。これにより、すべての変数に共通で、数が減ったΔの並びが得られる。この数が減ったΔの並びに、2つ以上の可能なΔの値が含まれる場合、この例では、絶対値が最も小さいΔを選択する。こうしたΔ間の結びつきをばらすための、たとえば、全体としてRMSに最もよくフィットするΔを選択するための他の任意選択肢も考えられる。
【0069】
この時点で、階層AおよびBを結合して、(A,B,Δ)で示す新しい階層にする。すなわち、データAに対するデータBのオフセットΔを用いて、データAおよびBを組み合わせる。次いで、上述の4つのモデル・タイプを用いて、この組み合わせた階層について、新しい階層を決定する。この組み合わせたデータ・セットにフィットさせた最終的なRMSモデルが、フィッティング・プロセスのパラメータ値と比較することによって十分に良好であると判定された場合、この新しい階層を「受け入れ」る。この階層が受け入れられた場合、階層(A,B,Δ)は、評価用の階層の組に付加される。
【0070】
すべての可能なペアを評価し終えるまで、ペアを評価するこのステップを繰り返す。その時点で、受け入れた階層の並びを編集して、あるサイズより小さい階層および/またはある回数のパス中に別の階層と結合されなかった階層を除去することができる。「概略値」であり、結合しないであろう小さい階層を繰り返し評価するのにかかる時間を減らしながら、大きい階層を集積することができるなんらかの他の方法で、編集を行うことができる。次いで、後続のパスについて、新しい階層が形成されなくなるまで、このペア評価プロセスを繰り返す。
【0071】
上記で述べたペアの結合法に対する代替手段として、代替クラスタ化アルゴリズム、たとえば、J.W. Hartigan、「Clustering Algorithms」、John Wiley & Sons、1975年、74〜83頁に記載の「リーダー・アルゴリズム」を用いることができる。さらに、臨床または製薬研究の状況では、様々な階層の帰属関係および位置を、臨床およびゲノム・データに相関させることができる。
【実施例1】
【0072】
モデル化用のデータを、「糖尿病コントロール・合併症調査」の公開ファイルから取り出した。これは、インターネット上でgcrc.umn.edu/pub/dcct/からftpを介して入手可能である。「標準治療グループ」中の730人の患者の記録を用いた。というのは、「実験治療グループ」の患者は、「糖尿病コントロール・合併症調査」の介入によって人為的に「同期」されていたからである。各患者ごとに、(a)ヘモグロビンAlc(血糖コントロールの測定値)、(b)網膜疾患(眼球の一部である眼底の写真によるETDRS尺度のスコア)、(c)「運動神経速度」、および(d)「知覚神経速度」の4つの変数について、10年分の年次測定値を抽出した(すなわち、I=1〜730、j=1〜4、k=1〜10)。後者2つの値は、糖尿病の別の合併症である抹消神経疾患の測定値である。欠けていた値は、つい最近の入手可能な値から補充した。
【0073】
前述のアルゴリズムを用い、同じ形状の曲線を整列させるために時間シフトを利用することによって、患者を階層にクラスタ化した。観測した4つの変数による階層についての結果を図6〜9に示す。(a)図6に、「HBAlC」と題するヘモグロビンAlcについての階層を示す。(b)図7に、「ETDRS」と題する網膜疾患についての階層を示す。(c)図8に、「運動神経速度」についての階層を示す。(d)図9に、「知覚神経速度」についての階層を示す。図5〜8は、適当な時間シフトを用いることによって、どのように患者の記録を合わせてフィットさせることができるかを示している。すなわち、各階層は、この4つの被検討変数に関して、原型の患者が、疾患を通じてどのように進行することになるかの様子を表している。図中の各印は、実際の患者のデータ・ポイントを示し、図6〜9のそれぞれの線は、各階層についてベスト・フィットしたモデル化関数である。
【0074】
本発明は、上記の好ましい実施形態の記載により限定されるものではない。そうではなくて、上記説明は単なる例であり、限定するためのものではない。したがって、本明細書を読んだ後で当業者には明らかであろう代替形態は、本発明の範囲に含まれる。本発明の範囲または趣旨から逸脱することなく、ここで開示した本発明の好ましい実施形態に様々な改変および変更を加えることができることが当業者には明らかであろう。したがって、この方法の説明は、単なる例であり、添付の特許請求の範囲で示す本発明の範囲を限定するものではないことを理解されたい。
【図面の簡単な説明】
【0075】
【図1】腎臓病に対する現在の治療手順を示す流れ図であり、どのようにして約40個の別個の疾患により末期段階の腎臓病に至り、その後、現在は透析、そしておそらくはさらに腎臓移植による治療を受けるかが示されている。
【図2】図2(a)は、ある特定のタイプの癌の1つの遺伝型の腫瘍サイズと時間の関係を示すグラフを示す図であり、図2(b)は、図2(a)に示す同じ癌の別の遺伝型の腫瘍サイズと時間の関係を示すグラフを示す。
【図3】図3(a)は、第1の患者の腫瘍の成長と時間の関係を示すグラフを示す図であり、図3(b)は、第2の患者の腫瘍の成長と時間の関係を示すグラフを示す図であり、図3(c)は、第3の患者の腫瘍の成長と時間の関係を示すグラフを示す図であり、図3(d)は、第4の患者の腫瘍の成長と時間の関係を示すグラフを示す図である。図3(a)〜(d)の患者は、同じ一般のタイプの癌をもつが、その癌の形態がそれぞれ異なることを理解されたい。
【図4】図4(a)は、図3(a)〜(d)に示す4人の患者について、同じ時間経過にわたって描いた腫瘍の成長を示すグラフを示す図であり、図4(b)は、図4(a)の曲線を整列し直したものを示すグラフを示す図であり、図3(a)〜(d)のうちの2人の患者が、疾患進行の1つの階層で表される1つの遺伝型の疾患を共通にもつようであり、図3(a)〜(d)の他の2人の患者が、異なる階層で表される異なる遺伝型の疾患を共通にもつようであるところが示されている。
【図5】時間依存性の測定データに基づき、特定の疾患の階層を決定するのに使用するモデルの定式化を表す流れ図である。
【図6】「HBAlC」と題する、ヘモグロビンAlcについての階層を示すグラフを示す図である。
【図7】「ETDRS」と題する、網膜疾患についての階層を示すグラフを示す図である。
【図8】「運動神経速度」についての階層を示すグラフを示す図である。
【図9】「知覚神経速度」についての階層を示すグラフを示す図である。
Claims (17)
- (a)ある疾患を共通にもつ複数の患者から得られた複数の変数について時系列の観測値を記録するステップと、
(b)後続のステップを自動計算として実施するコンピュータに、これらの前記観測値をデータ・セットとして入力し保存するステップと、
(c)後続の分析のために、患者の集団統計的な情報や以前の治療履歴に基づくサブセットをデータ・セットから選択するステップと、
(d)経時的な前記観測値の進行を表す曲線形状に基づく階層に、患者をクラスタ化することによって疾患を階層化するステップと、
(e)ステップ(d)またはステップ(g)で生成した階層を用いて、ステップ(f)で比較されるデータ・ポイントが、すべての患者の類似の疾患段階に一致するように、各時系列データを整列させ、端を切り捨て、あるいは延長するステップと、
(f)各ペアの患者ごとに、前記整列させた時系列データを比較して、それらの間の数学的な距離の測定値を決定するステップと、
(g)ステップ(f)で決定した数学的な距離に基づいて、各クラスタが疾患の階層に対応するように患者をクラスタに割り当てることによって疾患の階層化を改善するステップとを含む、疾患を階層化し疾患の進行を判定するための情報処理方法。 - 前記変数が、集団統計的なデータ、生化学的なデータ、病理学的なデータ、組織学的なデータ、遺伝学的なデータ、または遺伝子発現データ、あるいはそれらの任意の組合せを含む、請求項1に記載の方法。
- (h)次元縮小を行って変数を削除するか、あるいは変数を組み合わせることによって、後続の分析で使用する変数の数を減らすステップをさらに含む、請求項1に記載の方法。
- 前記次元縮小を行う方法が、主成分分析法または因子分析法である、請求項3に記載の方法。
- ステップ(d)で用いる疾患段階の初期推定値が、臨床医または公開されている臨床疾患段階付けアルゴリズムにより与えられる、請求項1に記載の方法。
- 前記時系列データ間の数学的な距離を、ユークリッド距離、シティブロック距離または手作業で用意したルックアップ・テーブルを用いて点別に計算する、請求項1に記載の方法。
- ステップ(f)のクラスタの割当てを、人間のオペレータが対話式に改変する、請求項1に記載の方法。
- 同じ疾患階層中で類似の段階にいる他の患者の類推から、後で、疾患の階層化および進行の情報を用いて、個々の患者の疾患の推移を予測する、請求項1に記載の方法。
- 個々の患者の疾患の階層化および進行の情報を臨床医に提示して、その患者に対する診断および治療を導く、請求項1に記載の方法。
- (h)前記疾患の階層化の情報を、遺伝学的なデータ、遺伝子発現データまたは生化学的なデータと組み合わせて、疾患の特定の階層または階層の組を治療する薬物を開発するための生化学的な標的を特定するステップをさらに含む、請求項1に記載の方法。
- (h)各患者ごとに、複数の変数のいくつかまたはすべての変数の時間に対する変化率を表す情報を計算し、その情報でデータ・セットを補強するステップをさらに含む、請求項1に記載の方法。
- (h)後続のそれぞれの反復中に、進行および階層化の推定値の変化が所定の制限内に入るまで、ステップ(e)〜(g)を繰り返すステップをさらに含む、請求項1に記載の方法。
- (h)検討中の疾患の階層化を行う診断マーカ・キットを開発するために、1つまたは複数の被観測変数のどれが、前記階層化に関する最も多くの情報をもたらすかを統計的に決定するステップをさらに含む、請求項1に記載の方法。
- (h)疾患の階層化の情報に基づいて、疾患の特定の階層または階層の組についての改善した結果に相関する生活様式のファクタを決定するステップと、
(i)前記生活様式ファクタに基づいて、1つまたは複数の特定の階層の患者に生活様式の変更を勧めるステップとをさらに含む、請求項1に記載の方法。 - (h)前記疾患を共通にもつ追加の患者に関する変数の時系列の観測値を記録するステップと、
(i)コンピュータに保存されたデータ・セットにこれらの追加の観測値を入力し保存するステップと、
(j)追加の患者を最初に診察する時点で、追加の患者の疾患の進行段階を推定するステップと、
(k)ステップ(j)の推定値を使用して、ステップ(l)で比較されるデータ・ポイントが、すべての患者の類似の疾患段階に一致するように、追加の患者の時系列データを整列させ、端を切り捨て、あるいは延長して、新しい後続の各患者を反映させるステップと、
(l)後続の新しい各患者ごとに、整列させた時系列データを比較して、各クラスタ内の患者のデータへの数学的な距離の測定値を決定するステップと、
(m)ステップ(l)で決定した数学的な距離に基づいて、追加の患者および後続の新しい患者をクラスタに割り当て、それによって、疾患のある階層にそれらの患者を割り当てるステップとをさらに追加して含む、請求項1に記載の方法。 - (n)追加の患者について、いくつかまたはすべての変数の時間に対する変化率を表す情報を計算し、その情報でデータ・セットを補強するステップをさらに含む、請求項15に記載の方法。
- (n)ステップ(m)で得られた階層化情報を用いて、各患者の疾患の進行段階の推定値を改善するステップをさらに含む、請求項15に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29463801P | 2001-06-01 | 2001-06-01 | |
PCT/US2002/017015 WO2002099568A2 (en) | 2001-06-01 | 2002-05-31 | Information processing method for disease stratification and assessment of disease progressing |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004529440A true JP2004529440A (ja) | 2004-09-24 |
Family
ID=23134281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003502619A Withdrawn JP2004529440A (ja) | 2001-06-01 | 2002-05-31 | 疾患を階層化し疾患の進行を判定するための情報処理方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20040243362A1 (ja) |
EP (1) | EP1399868A2 (ja) |
JP (1) | JP2004529440A (ja) |
AU (1) | AU2002303912A1 (ja) |
CA (1) | CA2448915A1 (ja) |
WO (1) | WO2002099568A2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009054124A (ja) * | 2007-08-26 | 2009-03-12 | Takayuki Hoshino | 健診事業における個別指導・介入対象者選択・介入時期時期や頻度決定を支援する電子計算機システム |
JP2016021190A (ja) * | 2014-07-15 | 2016-02-04 | 株式会社 国際疾病管理研究所 | 情報表示装置及び方法、並びにコンピュータプログラム |
JP2017502439A (ja) * | 2013-12-04 | 2017-01-19 | マーク オレイニク | 大量医学分析を用いたコンピュータ医療計画方法及びシステム |
KR20220051445A (ko) * | 2020-10-19 | 2022-04-26 | 부산대학교 산학협력단 | 머신러닝을 이용한 손상된 망막에서 측정된 망막전위도검사(erg) 신호의 분류 방법 및 이를 이용한 손상된 망막에서 측정된 망막전위도검사(erg) 신호의 분류 시스템 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7680086B2 (en) * | 2002-09-09 | 2010-03-16 | Siemens Canada Limited | Wireless local area network with clients having extended freedom of movement |
CA2462664A1 (en) * | 2003-03-31 | 2004-09-30 | Ldt Systems, Inc. | Secure network gateway for accessible patient data and transplant donor data |
JP4745236B2 (ja) * | 2003-10-10 | 2011-08-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 信号アーチファクトを推定するためのシステム及び方法 |
US20050261941A1 (en) * | 2004-05-21 | 2005-11-24 | Alexander Scarlat | Method and system for providing medical decision support |
EP2290074B1 (en) | 2004-05-28 | 2014-12-17 | Asuragen, Inc. | Methods and compositions involving microRNA |
EP2287303B1 (en) | 2004-11-12 | 2014-07-02 | Asuragen, Inc. | Methods and compositions involving miRNA and miRNA inhibitor molecules |
AU2007299828C1 (en) * | 2006-09-19 | 2014-07-17 | Interpace Diagnostics, Llc | MicroRNAs differentially expressed in pancreatic diseases and uses thereof |
US20080103831A1 (en) * | 2006-10-16 | 2008-05-01 | Siemens Medical Solutions Usa, Inc. | Disease Management Information System |
US20090062624A1 (en) * | 2007-04-26 | 2009-03-05 | Thomas Neville | Methods and systems of delivering a probability of a medical condition |
EP2198050A1 (en) | 2007-09-14 | 2010-06-23 | Asuragen, INC. | Micrornas differentially expressed in cervical cancer and uses thereof |
US8071562B2 (en) | 2007-12-01 | 2011-12-06 | Mirna Therapeutics, Inc. | MiR-124 regulated genes and pathways as targets for therapeutic intervention |
EP2252953A1 (en) * | 2008-02-04 | 2010-11-24 | Iain Alexander Anderson | Integrated-model musculoskeletal therapies |
US8258111B2 (en) | 2008-05-08 | 2012-09-04 | The Johns Hopkins University | Compositions and methods related to miRNA modulation of neovascularization or angiogenesis |
US8538778B2 (en) * | 2008-05-15 | 2013-09-17 | Soar Biodynamics, Ltd. | Methods and systems for integrated health systems |
WO2010075446A1 (en) * | 2008-12-23 | 2010-07-01 | Soar Biodynamics, Ltd. | Methods and systems for prostate health monitoring |
US9644241B2 (en) | 2011-09-13 | 2017-05-09 | Interpace Diagnostics, Llc | Methods and compositions involving miR-135B for distinguishing pancreatic cancer from benign pancreatic disease |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US9996889B2 (en) * | 2012-10-01 | 2018-06-12 | International Business Machines Corporation | Identifying group and individual-level risk factors via risk-driven patient stratification |
US20160283686A1 (en) * | 2015-03-23 | 2016-09-29 | International Business Machines Corporation | Identifying And Ranking Individual-Level Risk Factors Using Personalized Predictive Models |
US11594310B1 (en) | 2016-03-31 | 2023-02-28 | OM1, Inc. | Health care information system providing additional data fields in patient data |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US11257574B1 (en) | 2017-03-21 | 2022-02-22 | OM1, lnc. | Information system providing explanation of models |
EP3477659A1 (en) * | 2017-10-27 | 2019-05-01 | Koninklijke Philips N.V. | A method and system of intelligent numeric categorization of noisy data |
US11263230B2 (en) * | 2017-09-29 | 2022-03-01 | Koninklijke Philips N.V. | Method and system of intelligent numeric categorization of noisy data |
US11177024B2 (en) * | 2017-10-31 | 2021-11-16 | International Business Machines Corporation | Identifying and indexing discriminative features for disease progression in observational data |
US11967428B1 (en) | 2018-04-17 | 2024-04-23 | OM1, Inc. | Applying predictive models to data representing a history of events |
US11862346B1 (en) | 2018-12-22 | 2024-01-02 | OM1, Inc. | Identification of patient sub-cohorts and corresponding quantitative definitions of subtypes as a classification system for medical conditions |
CN115019960B (zh) * | 2022-08-01 | 2022-11-29 | 浙江大学 | 一种基于个性化状态空间进展模型的疾病辅助决策系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6194217B1 (en) * | 1980-01-14 | 2001-02-27 | Esa, Inc. | Method of diagnosing or categorizing disorders from biochemical profiles |
US6210970B1 (en) * | 1980-01-14 | 2001-04-03 | Esa, Inc. | Method of diagnosing or categorizing disorders from biochemical profiles |
US5733721A (en) * | 1992-11-20 | 1998-03-31 | The Board Of Regents Of The University Of Oklahoma | Cell analysis method using quantitative fluorescence image analysis |
WO1995003739A1 (en) * | 1993-08-03 | 1995-02-09 | Peter Walter Kamen | A method of measuring autonomic activity of a patient |
US5812691A (en) * | 1995-02-24 | 1998-09-22 | Udupa; Jayaram K. | Extraction of fuzzy object information in multidimensional images for quantifying MS lesions of the brain |
US5945675A (en) * | 1996-03-18 | 1999-08-31 | Pacific Northwest Research Foundation | Methods of screening for a tumor or tumor progression to the metastatic state |
US5993388A (en) * | 1997-07-01 | 1999-11-30 | Kattan; Michael W. | Nomograms to aid in the treatment of prostatic cancer |
US6408198B1 (en) * | 1999-12-17 | 2002-06-18 | Datex-Ohmeda, Inc. | Method and system for improving photoplethysmographic analyte measurements by de-weighting motion-contaminated data |
US6788965B2 (en) * | 2001-08-03 | 2004-09-07 | Sensys Medical, Inc. | Intelligent system for detecting errors and determining failure modes in noninvasive measurement of blood and tissue analytes |
-
2002
- 2002-05-31 JP JP2003502619A patent/JP2004529440A/ja not_active Withdrawn
- 2002-05-31 CA CA002448915A patent/CA2448915A1/en not_active Abandoned
- 2002-05-31 AU AU2002303912A patent/AU2002303912A1/en not_active Abandoned
- 2002-05-31 US US10/479,192 patent/US20040243362A1/en not_active Abandoned
- 2002-05-31 WO PCT/US2002/017015 patent/WO2002099568A2/en active Application Filing
- 2002-05-31 EP EP02731977A patent/EP1399868A2/en not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009054124A (ja) * | 2007-08-26 | 2009-03-12 | Takayuki Hoshino | 健診事業における個別指導・介入対象者選択・介入時期時期や頻度決定を支援する電子計算機システム |
JP2017502439A (ja) * | 2013-12-04 | 2017-01-19 | マーク オレイニク | 大量医学分析を用いたコンピュータ医療計画方法及びシステム |
JP2020149711A (ja) * | 2013-12-04 | 2020-09-17 | マーク オレイニク | 大量医学分析を用いたコンピュータ医療計画方法及びシステム |
JP7071438B2 (ja) | 2013-12-04 | 2022-05-18 | マーク オレイニク | 大量医学分析を用いたコンピュータ医療計画方法及びシステム |
JP2022105174A (ja) * | 2013-12-04 | 2022-07-12 | マーク オレイニク | 大量医学分析を用いたコンピュータ医療計画方法及びシステム |
JP2016021190A (ja) * | 2014-07-15 | 2016-02-04 | 株式会社 国際疾病管理研究所 | 情報表示装置及び方法、並びにコンピュータプログラム |
KR20220051445A (ko) * | 2020-10-19 | 2022-04-26 | 부산대학교 산학협력단 | 머신러닝을 이용한 손상된 망막에서 측정된 망막전위도검사(erg) 신호의 분류 방법 및 이를 이용한 손상된 망막에서 측정된 망막전위도검사(erg) 신호의 분류 시스템 |
KR102434188B1 (ko) | 2020-10-19 | 2022-08-19 | 부산대학교 산학협력단 | 머신러닝을 이용한 손상된 망막에서 측정된 망막전위도검사(erg) 신호의 분류 방법 및 이를 이용한 손상된 망막에서 측정된 망막전위도검사(erg) 신호의 분류 시스템 |
Also Published As
Publication number | Publication date |
---|---|
AU2002303912A1 (en) | 2002-12-16 |
CA2448915A1 (en) | 2002-12-12 |
WO2002099568A2 (en) | 2002-12-12 |
WO2002099568A3 (en) | 2003-04-03 |
EP1399868A2 (en) | 2004-03-24 |
WO2002099568A9 (en) | 2004-04-08 |
US20040243362A1 (en) | 2004-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004529440A (ja) | 疾患を階層化し疾患の進行を判定するための情報処理方法 | |
US11037070B2 (en) | Diagnostic test planning using machine learning techniques | |
US20040172225A1 (en) | Information processing method and system for synchronization of biomedical data | |
US8032308B2 (en) | Modeling lung cancer survival probability after or side-effects from therapy | |
RU2007124523A (ru) | Способы, системы и компьютерные программные продукты для разработки и использования прогнозных моделей для прогнозирования большинства медицинских случаев, оценки стратегий вмешательства и для одновременной оценки нерегулярности биологических маркеров | |
US8929625B2 (en) | Method and device for side-effect prognosis and monitoring | |
CN110024044A (zh) | 用于挖掘医疗数据的系统及方法 | |
Fika et al. | A novel mortality prediction model for the current population in an adult intensive care unit | |
EP2504781A1 (en) | A method for construction and use of a probabilistic atlas for diagnosis and prediction of a medical outcome | |
CN115019960B (zh) | 一种基于个性化状态空间进展模型的疾病辅助决策系统 | |
Peixoto et al. | Predicting resurgery in intensive care-a data mining approach | |
JP2003526137A (ja) | 職員配置を自動的に割り振るための方法および装置 | |
WO2023128780A1 (ru) | Способ ранней диагностики хронических заболеваний пациента | |
RU2733077C1 (ru) | Способ диагностики острого коронарного синдрома | |
Li et al. | Ensemble learning-assisted prediction of prolonged hospital length of stay after spine correction surgery: a multi-center cohort study | |
Lan et al. | Ai-assisted prediction on potential health risks with regular physical examination records | |
RU2800315C2 (ru) | Способ ранней диагностики хронических заболеваний пациента, основанный на кластерном анализе больших данных | |
EP4053853A1 (en) | Apparatus for determining a temporal breast cancer risk | |
Zhang | Proximity-based diagnostic method to provide personalizedtreatment for cancer patients | |
Sayed | Validity of Various Severity Scoring System in the Surgical Intensive Care Unit | |
KR20240065435A (ko) | 암의 재발 및 전이를 예측 가능한 데이터 분석방법 | |
Shehab et al. | Accurate Prediction of Pulmonary Fibrosis Progression Using EfficientNet and Quantile Regression: A High Performing Approach | |
CN117612731A (zh) | 一种慢性病风险模型的构建方法 | |
KR20230037339A (ko) | 암 재발 및 전이 예측을 위한 ngs 기반 데이터 분석 방법 및 그 시스템 | |
WO2024100632A1 (en) | Systems and methods for prioritizing medical resources for cancer screening |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050316 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20060612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060612 |