JP2023526241A - 複数の機械学習モデルに基づく臨床予測器 - Google Patents
複数の機械学習モデルに基づく臨床予測器 Download PDFInfo
- Publication number
- JP2023526241A JP2023526241A JP2022568777A JP2022568777A JP2023526241A JP 2023526241 A JP2023526241 A JP 2023526241A JP 2022568777 A JP2022568777 A JP 2022568777A JP 2022568777 A JP2022568777 A JP 2022568777A JP 2023526241 A JP2023526241 A JP 2023526241A
- Authority
- JP
- Japan
- Prior art keywords
- data
- patient
- machine learning
- learning model
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 279
- 238000000034 method Methods 0.000 claims abstract description 97
- 239000002131 composite material Substances 0.000 claims abstract description 22
- 230000004083 survival effect Effects 0.000 claims description 165
- 238000012549 training Methods 0.000 claims description 50
- 238000003066 decision tree Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 37
- 238000011282 treatment Methods 0.000 claims description 34
- 201000011510 cancer Diseases 0.000 claims description 28
- 206010028980 Neoplasm Diseases 0.000 claims description 27
- 238000007637 random forest analysis Methods 0.000 claims description 26
- 239000000090 biomarker Substances 0.000 claims description 16
- 230000001186 cumulative effect Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 6
- 238000001574 biopsy Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000007705 chemical test Methods 0.000 claims 1
- 206010009944 Colon cancer Diseases 0.000 description 49
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 41
- 238000012360 testing method Methods 0.000 description 23
- 238000003745 diagnosis Methods 0.000 description 18
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 17
- 201000005202 lung cancer Diseases 0.000 description 17
- 208000020816 lung neoplasm Diseases 0.000 description 17
- 238000009533 lab test Methods 0.000 description 15
- 206010027476 Metastases Diseases 0.000 description 14
- 238000010200 validation analysis Methods 0.000 description 14
- 230000009401 metastasis Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 10
- 230000034994 death Effects 0.000 description 10
- 231100000517 death Toxicity 0.000 description 10
- 238000002790 cross-validation Methods 0.000 description 8
- 206010006187 Breast cancer Diseases 0.000 description 7
- 208000026310 Breast neoplasm Diseases 0.000 description 7
- 102100033793 ALK tyrosine kinase receptor Human genes 0.000 description 6
- 101710168331 ALK tyrosine kinase receptor Proteins 0.000 description 6
- 208000029742 colonic neoplasm Diseases 0.000 description 6
- 102000015694 estrogen receptors Human genes 0.000 description 6
- 108010038795 estrogen receptors Proteins 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 102000003998 progesterone receptors Human genes 0.000 description 6
- 108090000468 progesterone receptors Proteins 0.000 description 6
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 5
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 5
- 238000004393 prognosis Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 description 4
- 102000001301 EGF receptor Human genes 0.000 description 4
- 238000004820 blood count Methods 0.000 description 4
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 4
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 4
- 206010055113 Breast cancer metastatic Diseases 0.000 description 3
- 101150105104 Kras gene Proteins 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 101150048834 braF gene Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000002560 therapeutic procedure Methods 0.000 description 3
- 101100067974 Arabidopsis thaliana POP2 gene Proteins 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 206010052358 Colorectal cancer metastatic Diseases 0.000 description 2
- 108060006698 EGF receptor Proteins 0.000 description 2
- 102100030708 GTPase KRas Human genes 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 2
- 108010054147 Hemoglobins Proteins 0.000 description 2
- 101100118549 Homo sapiens EGFR gene Proteins 0.000 description 2
- DGAQECJNVWCQMB-PUAWFVPOSA-M Ilexoside XXIX Chemical compound C[C@@H]1CC[C@@]2(CC[C@@]3(C(=CC[C@H]4[C@]3(CC[C@@H]5[C@@]4(CC[C@@H](C5(C)C)OS(=O)(=O)[O-])C)C)[C@@H]2[C@]1(C)O)C)C(=O)O[C@H]6[C@@H]([C@H]([C@@H]([C@H](O6)CO)O)O)O.[Na+] DGAQECJNVWCQMB-PUAWFVPOSA-M 0.000 description 2
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 2
- 101100123851 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) HER1 gene Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000011575 calcium Substances 0.000 description 2
- 229910052791 calcium Inorganic materials 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 229940109239 creatinine Drugs 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 210000003743 erythrocyte Anatomy 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 238000005534 hematocrit Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 210000004698 lymphocyte Anatomy 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 239000011591 potassium Substances 0.000 description 2
- 229910052700 potassium Inorganic materials 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 239000011734 sodium Substances 0.000 description 2
- 229910052708 sodium Inorganic materials 0.000 description 2
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 2
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 1
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 1
- VEXZGXHMUGYJMC-UHFFFAOYSA-M Chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 description 1
- 101000851181 Homo sapiens Epidermal growth factor receptor Proteins 0.000 description 1
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 1
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 1
- 102000003855 L-lactate dehydrogenase Human genes 0.000 description 1
- 108700023483 L-lactate dehydrogenases Proteins 0.000 description 1
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 1
- 238000011366 aggressive therapy Methods 0.000 description 1
- 238000011256 aggressive treatment Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013103 analytical ultracentrifugation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007475 c-index Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- -1 monocytes Chemical compound 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000246 remedial effect Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
Description
[0001] 本特許出願は、2020年5月11日に出願された米国特許出願第16/871933号の優先権の利益を請求するものであり、これを、あらゆる目的のために、この参照によりここに組み込む。
[0032] 図1Aおよび図1Bは、本開示の例により提供することができる臨床予測の例を示す。図1Aは、癌との診断がなされたときからの時間に関しての患者の生存率を予測するための機構を示し、図1Bは、生存率予測の応用の例を示す。図1Aを参照すると、チャート100は、カプランマイヤー(K-M)・プロットの例を示し、これは、或る型の癌(例えば、肺癌)を持つ患者の中での生存の統計の典型を提供する。患者は、特定の治療を受けることができる。K-Mプロットは、患者が癌を有すると診断されたときからの測定された時間に関して、患者グループの生存率の変化を示す。患者が治療を受ける場合において、K-Mプロットはまた、その治療に応じた患者の生存率を示す。時間が進むと、幾人かの患者は死ぬことがあり、生存率は低下する。幾人かの他の患者は、研究される事象とは関連しない他の事象に起因して、プロットから削除される(落とされる)が、それらの関係していない事象は、K-Mプロットにおいてチェックマーク(tick)により表される。各横線の長さは、その間隔に関しての生存期間を表し、所与の点に対する全ての生存見積もりは、その時間に対しての累積の生存の確率を表す。
[0038] 機械学習予測モデルは、データ・カテゴリのセットを含む患者データに基づいて患者に関しての臨床予測を行うように訓練することができる。機械学習予測モデルは、臨床予測を行うための非常に強力なツールであり得るが、それは、このモデルが、予測される臨床パラメータ(例えば、生存率)と、患者データの様々なデータ・カテゴリとの間の、臨床医に考慮されなかったであろう隠れた関係を、あばくことができるからである。機械学習モデルは、患者の大集団のデータを用いて訓練することができ、それにより、臨床パラメータと様々なデータ・カテゴリとの間の様々な関係を学習するように、そして、患者データと、このモデルが訓練により学習した関係とに基づいて、患者に関する予測を行うようにする。
[0043] 機械学習予測モデル200は、ランダム・フォレスト・ツリー、回帰モデルなどのような様々な技術を用いて、実装することができる。図2Cは、機械学習予測モデル200を実装するために用いることができるランダム・フォレスト・モデル230の例を示す。図2Cに示すように、ランダム・フォレスト・モデル230は、例えば、デシジョン・ツリー232および234を含む複数のデシジョン・ツリーを含むことができる。各デシジョン・ツリーは複数のノードを含むことができ、複数のノードは、ルート・ノード(例えば、デシジョン・ツリー232のルート・ノード232a、デシジョン・ツリー234のルート・ノード234aなど)および子ノード(例えば、デシジョン・ツリー232の子ノード232b、232c、232d、および232e、デシジョン・ツリー234の子ノード234bおよび234cなど)を含む。子ノード(例えば、ノード232a、232b、および234a)を有する各親ノードは、その子ノードの1つへと患者を分類するように、所定の分類基準と関連付けることができる。子ノードを有さない子ノードは終端ノードであり、それらはノード232dおよび232e(デシジョン・ツリー232のもの)と、ノード234bおよび234c(デシジョン・ツリー234のもの)とを含み、それぞれに累積ハザード関数(CHF)の値が割り当てられる。
m(t)=exp(-CHFcombine(t)) (式1)
[0051] ランダム・フォレスト・モデル230に加えて、時間の関数として患者の生存率を予測するように回帰モデルを用いることもできる。図2Dは、回帰モデル250の例を示す。図2Dに示すように、回帰モデル250は、患者の生存率を予測するためのコックス比例ハザート・モデルとすることができる。生存率関数m(t)は、下記の式で表すことができる。
m(t)=m0(t)×(b0S0+b1S1+・・・+bnSn) (式2)
[0054] 機械学習予測モデルは、臨床予測を行うこと、および臨床判断をする際に臨床医を支援することに関しては、非常に強力なツールであり得るが、課題は、機械学習ベースの予測モデルを実際の臨床環境へ導入することに制限があることである。1組の課題は、データ可用性における患者間の変化性と関連する。ほとんどの実世界のデータセットでは、多くの患者は、多くのデータ・カテゴリに関しての所見の記録が欠けている。他方、機械学習モデルは、典型的には、大きいデータ・カテゴリ・セットのデータを用いて訓練されて、予測されるパラメータと大きいデータ・カテゴリ・セットとの間の、より多くの隠れたリンクをあばくようにされる。例えば、ランダム・フォレスト・モデル230および回帰モデル250は、テーブル220に列挙されたデータ・カテゴリからの多数のデータ・カテゴリに基づいて、訓練することができる。機械学習モデルが、データ・カテゴリ・セットに基づいて予測を行うように訓練されたが、患者データが、そのセットから1以上のカテゴリを欠いているものである場合、機械学習モデルは、その患者データに基づく予測を行うことができないかもしれない。
[0057] ランダム・フォレスト・デシジョン・ツリー・モデル(図2Cに示すようなもの)および回帰モデル(図2Dに示すようなもの)などのような機械学習は、予測の精度を向上させるために、患者の様々な特徴を表す多数のデータ・カテゴリを用いて訓練することができる。しかし、患者データは、典型的には、それらのデータ・カテゴリの全てを有してはいない。欠けたデータ・カテゴリに対しての代入を行うことは、患者に関する予測を行うために機械学習モデルが用いられることを可能にするが、そのような構成は、上述のように、エラーや不確実性をもたらす。
[0059] 図3A、図3B、および図3Cは、上述の問題の少なくとも幾つかに対応する臨床予測システム300の例を示す。図3Aに示すように、臨床予測システム300は、機械学習モデル・データベース302、選択モジュール304、および予測器モジュール306を含む。幾つかの例では、選択モジュール304および予測器モジュール306を含む臨床予測システム300の様々なモデルを、下記の機能を行うためにハードウェア・プロセッサにより実行可能なソフトウェア命令として実装することができる。
[0066] 上述のように、機械学習モデル・データベース302内の複数の機械学習モデルのそれぞれは、メタモデルの合成出力を生成するために用いることができる性能メトリックと関連付けることができる。性能メトリックは、特定の機械学習モデルが正しい予測を生成することについての信頼度を示すことができる。機械学習モデルの性能メトリックは、その機械学習モデルの受信者操作特性(ROC)曲線のエリア・アンダー・ザ・カーブ(AUC)を決定することなどのような、様々な技術を用いて決定することができる。
重み=(AUC-0.5)n (式3)
C-index=(一致対の数)/(一致対の数+不一致対の数) (式4)
[0081] 幾つかの例では、機械学習モデル・データベース302内の各機械モデルの訓練、および各機械モデルの性能メトリックの決定は、交差検証プロセスにおいて同じ患者グループの患者データの様々なサブセットに基づいて行うことができる。図3Dは、機械学習モデル304a、304bなどを含む機械学習モデル・データベース302の機械学習モデルの訓練プロセス360の例を示す。
A.実験方法の概要
[0087] 上述のメタモデルの技術は、遠隔転移を有する大腸癌(metastatic colorectal cancer)、遠隔転移を有する乳癌(metastatic breast cancer)、および進行肺癌の3つの癌タイプの患者に関してのフラットアイアン・ヘルス臨床DataMarts(Flatiron Health clinical DataMarts)からの臨床患者データを用いて、テストされる。1セットの個別予測モデル(individual prediction model)が開発され、それらのそれぞれは、遠隔転移を有する大腸癌、遠隔転移を有する乳癌、および進行肺癌に関して、様々なデータ・カテゴリ・セットに基づいて患者の生存率の予測を行う。この例では、遠隔転移を有する大腸癌に関して8つの個別予測モデルが開発され、遠隔転移を有する乳癌に関して7つの個別予測モデルが開発され、進行肺癌に関して5つの個別予測モデルが開発される。それぞれの個別モデルは、そのモデルに必要なデータ・カテゴリを全て有する患者の臨床患者データを用いて訓練されテストされる。次に、各癌に対する個別予測モデルは、各癌タイプに対してのメタモデルへと組み合わされ再訓練される。各癌タイプに対してのメタモデルと、その要素である個別予測モデルとは、性能メトリックAUCに基づいて評価される。
[0088] 遠隔転移を有する大腸癌、遠隔転移を有する乳癌、および進行肺癌のそれぞれに対して1つずつである3つの患者コーホートを、i)Metastatic CRC(遠隔転移を有するCRC)(大腸癌)、ii)Advanced NSSLC(進行NSSLC)(非小細胞肺癌)、およびiii)Metastatic Breast Cancer(進行肺癌)の3つのフラットアイアンDataMartsから定義することができる。患者コーホート内の各患者に関して、患者の生存の結果データが抽出される。患者の生存の結果データは、死と高度な診断(advanced diagnosis)の日との間の時間、または、死の日付が記録されていない場合は、記録された最後の訪問と高度な診断の日との間の時間の何れかとすることができる。
[0092] 図4Aに示すような生存率を予測するための全ての可能性のある予測因子(ラボラトリ・テスト、分子バイオマーカー、および臨床/人口統計的変数)のデータを有する患者がいたとしても、僅かである。この実験では、各癌タイプに対しての個別予測モデルが開発され、それぞれの個別予測モデルは、可能性のある予測因子のサブセットを用いて構築され訓練される。個別予測モデルは、次に、メタモデルへと組み合わされる。図4Aに示すように、遠隔転移を有する大腸癌に対しては7つの個別予測モデル(図4AではCRCA-CRCGとラベル付け)が開発され、遠隔転移を有する乳癌に対しては5つの個別予測モデル(図4AではBCA-BCEとラベル付け)が開発され、進行肺癌に対しては8つの個別予測モデル(図4AではLCA-LCHとラベル付け)が開発されている。それぞれの個別予測モデルは、入力として、データ・カテゴリ・セットにより表されている予測因子セットを受け取り、予測を行う。それぞれの予測モデルに関して、「1」とラベル付けされたデータ・カテゴリは、予測モデルを訓練するためにそのデータ・カテゴリが用いられることを示し、「0」とラベル付けされたデータ・カテゴリは、予測モデルを訓練するためにそのデータ・カテゴリが用いられないことを示す。例えば、進行肺癌に対する予測モデルLCAは、患者の性別および人種のデータに基づいて訓練され、図4Aでは、性別および人種のデータ・カテゴリは「1」とラベル付けされている。更に、進行肺癌に対する予測モデルLCBは、年齢、組織診、および喫煙ステータスに基づいて訓練され、図4Aでは、これらのデータ・カテゴリは「1」とラベル付けされている。
[0096] 図4Bに示されるような、それぞれの個別予測モデルに必要とされるデータ・カテゴリを有する臨床データの特定された部分は、次に、個別予測モデルを構築および訓練するために用いられる。実験の第1部では、それぞれの個別予測モデルは、図2Cで説明したようなランダム・フォレスト・モデルを含む。実験の第2部では、それぞれの個別予測モデルは、図2Dで説明したような数学モデルを含む。臨床データの各部分は、それぞれ、訓練とテストとの区画(partition)へと約75:25の比率でランダムに分けられる。訓練区画は、モデル開発に用いられ、テスト区画は、下記で説明するようにメタモデルをテストするために別に保持された。
[0098] 次に、それぞれの癌タイプ(遠隔転移を有する大腸癌、遠隔転移を有する乳癌、および進行肺癌)に対するメタモデルが、テスト区画を用いてテストされる。2セットのテストが行われる。第1テストは、ランダムに選択された患者に関してメタモデルを用いて患者の固有の生存率の予測を行うことを含み、第2テストは、メタモデルのAUCを決定することを含む。
[0106] 図5は、患者に関する臨床予測を行う方法500を例示する。臨床予測は、例えば、病気(例えば、特定のタイプの癌)との診断の後の特定の時間における患者の生存率を、含むことができる。方法500は、臨床予測システム300の様々なコンポーネントにより行うことができる。
[0118] ここで述べるコンピュータ・システムの何れのものも、任意の適切な数のサブシステムを用いることができる。そのようなサブシステムの例は、図6において、コンピュータ・システム10において示されている。幾つかの実施形態では、コンピュータ・システムは1つのコンピュータ装置を含み、サブシステムはコンピュータ装置のコンポーネントであり得る。他の実施形態では、コンピュータ・システムは複数のコンピュータ装置を含むことができ、それぞれがサブシステムであり、内部コンポーネントを有する。コンピュータ・システムは、デスクトップ・コンピュータおよびラップトップ・コンピュータ、タブレット、モバイル・フォン、および他のモバイル・デバイスを含むことができる。幾つかの実施形態では、クラウド・インフラストラクチャ(例えば、Amazon Web Services(登録商標))、グラフィカル・プロセッシング・ユニット(GPU)などを用いて、開示した技術を実装することができる。
Claims (21)
- コンピュータで実装される、臨床予測を行う方法であって、
患者の複数のデータ・カテゴリに対応するデータを受け取るステップと、
複数の訓練された機械学習モデルから、前記複数のデータ・カテゴリに基づいて、第1機械学習モデルおよび第2機械学習モデルを選択するステップであって、
前記第1機械学習モデルは、前記複数のデータ・カテゴリの第1サブセットの第1データを用いて訓練されていると共に、第1性能メトリックの値を有しており、
前記第2機械学習モデルは、前記複数のデータ・カテゴリの第2サブセットの第2データを用いて訓練されていると共に、第2性能メトリックの値を有しており、
前記複数のデータ・カテゴリの前記第2サブセットは、前記複数のデータ・カテゴリの前記第1サブセットとは異なるものである、ステップと、
第1予測結果を生成するために、前記第1機械学習モデルに対し、前記複数のデータ・カテゴリの前記第1サブセットに対応する、前記データの第1サブセットを入力するステップと、
第2予測結果を生成するために、前記第2機械学習モデルに対し、前記複数のカテゴリの前記第2サブセットに対応する、前記データの第2サブセットを入力するステップと、
前記第1予測結果、前記第2予測結果、前記第1性能メトリックの値を示す第1重み、および前記第2性能メトリックの値を示す第2重みに基づいて、合成予測結果を生成するステップであって、
前記第2性能メトリックの値が、前記第1性能メトリックの値とは異なるものである、ステップと、
前記合成予測結果に基づいて、前記患者についての臨床予測を行うステップと、
を含む方法。 - 請求項1に記載の方法において、前記複数のデータ・カテゴリの第1サブセットと前記複数のデータ・カテゴリの第2サブセットとが、少なくとも1つの共通のデータ・カテゴリを含む、方法。
- 請求項1または2に記載の方法において、データの前記カテゴリが、前記患者の個人データ、前記患者の1以上の化学テストの結果、前記患者のバイオプシー・イメージ・データ、前記患者の分子バイオマーカー、前記患者の癌部位、および前記患者の癌ステージのうちの少なくとも1つを含む、方法。
- 請求項1~3の何れか一項に記載の方法において、
前記複数の機械学習モデルは、第3データ・カテゴリの第3データを用いて訓練された第3機械学習モデルを含み、前記第3データ・カテゴリは前記複数のデータ・カテゴリの一部ではなく、
前記第3予測モデルが、前記患者の前記複数のデータ・カテゴリ内に存在しない前記第3データ・カテゴリに基づいては前記患者に対し選択されない、方法。 - 請求項1~4の何れか一項に記載の方法において、前記臨床予測が、前記患者が進行した癌を有すると診断された時からの所定の時間における前記患者の生存率を予測することを含む、方法。
- 請求項5の方法であって、更に、予測された前記生存率に基づいて前記患者に対する治療を決定するステップを含む方法。
- 請求項5または6に記載の方法において、
前記複数のデータ・カテゴリが、前記患者が受ける治療と関連するカテゴリを含み、
前記臨床予測が、前記治療に応じた、前記所定の時間における前記患者の生存率を予測することを含む、
方法。 - 請求項5~7の何れかの方法であって、前記第1機械学習モデルおよび前記第2機械学習モデルが、ランダム・フォレスト・モデルとハザード関数とのうちの少なくとも1つを含む、方法。
- 請求項8に記載の方法において、
前記第1機械学習モデルおよび前記第2が、ランダム・フォレスト・モデルを含み、
前記ランダム・フォレスト・モデルが、複数のデシジョン・ツリーを含み、
各デシジョン・ツリーが、累積ハザード関数(CHF)値を生成するために、前記データの前記第1サブセットのサブセットを処理するように構成され、
前記所定の時間における前記患者の前記生存率は、前記複数のデシジョン・ツリーにより出力される前記CHF値の平均に基づいて決定される、方法。 - 請求項8または9に記載の方法において、
前記第1機械学習モデルが、前記所定の時間における前記患者の非生存の確率を出力するハザード関数を含み、前記ハザード関数は、前記複数のデータ・カテゴリの前記第1サブセットの値の関数である、方法。 - 請求項1から10の何れか一項に記載の方法において、
前記第1性能メトリックの値および前記第2性能メトリックの値が、前記所定の時間における患者のグループに関しての前記第1機械学習モデルおよび前記第2機械学習モデルによる正しい生存予測の率および誤った生存予測の率に関する、方法。 - 請求項10または11に記載の方法において、
前記第1性能メトリックおよび前記第2性能メトリックが、前記第1機械学習モデルおよび前記第2機械学習モデルのそれぞれの受信者操作特性(ROC)曲線のエリア・アンダー・ザ・カーブ(AUC)に基づき、
前記第1重みは、前記第1機械学習モデルの第1ROC曲線の第1AUCのエリア測定に基づき、
前記第2重みは、前記第1機械学習モデルの第2ROC曲線の第2AUCのエリア測定に基づく、方法。 - 請求項12に記載の方法において、前記合成予測結果が、前記第1重みにより調整された前記第1予測結果と前記第2重みにより調整された前記第2予測結果との線形的組み合わせを表す、方法。
- 請求項1~13の何れか一項に記載の方法であって、
前記第1性能メトリックは前記第1データに基づいて決定され、
前記第2性能メトリックは前記第2データに基づいて決定される、
方法。 - 請求項14に記載の方法において、
前記第1機械学習モデルが、前記第1データの第1サブセットを用いて訓練され、
前記第1性能メトリックが、前記第1データの第2サブセットの処理における、訓練された前記第1機械学習モデルの出力に基づいて決定され、
前記第2機械学習モデルが、前記第2データの第3サブセットを用いて訓練され、
前記第2性能メトリックが、前記第2データの第4サブセットの処理における、訓練された前記第2機械学習モデルの出力に基づいて決定される、方法。 - 請求項15に記載の方法において、
前記第1機械学習モデルが、前記第1データについて異なる第1サブセットを用いて訓練され、
前記第1性能メトリックが、前記第1データについて異なる第2サブセットの処理における、訓練された前記第1機械学習モデルの出力に基づいて決定され、
前記第2機械学習モデルが、前記第2データについて異なる第3サブセットを用いて訓練され、
前記第2性能メトリックが、前記第2データについて異なる第4サブセットの処理における、訓練された前記第2機械学習モデルの出力に基づいて決定される、方法。 - 前記方法のうちの何れかの方法の動作を行うためにコンピュータ・システムを制御するための複数の命令を格納するコンピュータ読取可能媒体を含むコンピュータ製品。
- システムであって、
請求項17に記載の前記コンピュータ製品と、
前記コンピュータ読取可能媒体に格納された命令を実行するための1以上のプロセッサと
を含むシステム。 - 前記方法のうちの何れかの方法を行うための手段を含むシステム。
- 前記方法のうちの何れかの方法を行うように構成されたシステム。
- 前記方法のうちの何れかの方法のステップをそれぞれ行うモジュールを含むシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/871,933 US11664126B2 (en) | 2020-05-11 | 2020-05-11 | Clinical predictor based on multiple machine learning models |
US16/871,933 | 2020-05-11 | ||
PCT/US2021/031612 WO2021231317A1 (en) | 2020-05-11 | 2021-05-10 | Clinical predictor based on multiple machine learning models |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023526241A true JP2023526241A (ja) | 2023-06-21 |
Family
ID=76197641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022568777A Pending JP2023526241A (ja) | 2020-05-11 | 2021-05-10 | 複数の機械学習モデルに基づく臨床予測器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11664126B2 (ja) |
EP (1) | EP4150639A1 (ja) |
JP (1) | JP2023526241A (ja) |
CN (1) | CN115699204A (ja) |
WO (1) | WO2021231317A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220269986A1 (en) * | 2021-02-23 | 2022-08-25 | Anton Filikov | System and Method for Automated Prediction of Event Probabilities with Model Based Filtering |
US20220318389A1 (en) * | 2021-04-06 | 2022-10-06 | Safelishare, Inc. | Transforming dataflows into secure dataflows using trusted and isolated computing environments |
CA3227546A1 (en) * | 2021-07-30 | 2023-02-02 | Regents Of The University Of California | Machine learning enabled patient stratification |
US11664100B2 (en) * | 2021-08-17 | 2023-05-30 | Birth Model, Inc. | Predicting time to vaginal delivery |
US20230237409A1 (en) * | 2022-01-27 | 2023-07-27 | Reorg Research, Inc. | Automatic computer prediction of enterprise events |
CN114757433B (zh) * | 2022-04-24 | 2023-08-29 | 四川大学 | 一种饮用水源抗生素抗性相对风险快速识别方法 |
US20240186019A1 (en) * | 2022-12-01 | 2024-06-06 | Abbott Laboratories | Dual antiplatelet therapy and time based risk prediction |
CN116092680B (zh) * | 2023-03-08 | 2023-06-09 | 成都工业学院 | 基于随机森林算法的腹主动脉瘤早期预测方法及系统 |
CN117352064B (zh) * | 2023-12-05 | 2024-02-09 | 成都泰莱生物科技有限公司 | 一种肺癌代谢标志物组合及其筛选方法和应用 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805385B2 (en) * | 2006-04-17 | 2010-09-28 | Siemens Medical Solutions Usa, Inc. | Prognosis modeling from literature and other sources |
US8078554B2 (en) * | 2008-09-03 | 2011-12-13 | Siemens Medical Solutions Usa, Inc. | Knowledge-based interpretable predictive model for survival analysis |
US11562323B2 (en) * | 2009-10-01 | 2023-01-24 | DecisionQ Corporation | Application of bayesian networks to patient screening and treatment |
WO2017027432A1 (en) * | 2015-08-07 | 2017-02-16 | Aptima, Inc. | Systems and methods to support medical therapy decisions |
EP3389481A4 (en) * | 2015-12-18 | 2019-05-22 | Clear Gene, Inc. | PROCESSES, COMPOSITIONS, KITS AND DEVICES FOR FAST LANALYSIS OF BIOLOGICAL MARKERS |
US20180374583A1 (en) * | 2017-05-16 | 2018-12-27 | Abraxis Bioscience, Llc | Nomogram and survival predictions for pancreatic cancer |
AU2019253112A1 (en) * | 2018-04-13 | 2020-10-29 | Grail, Llc | Multi-assay prediction model for cancer detection |
US11462325B2 (en) * | 2018-09-29 | 2022-10-04 | Roche Molecular Systems, Inc. | Multimodal machine learning based clinical predictor |
-
2020
- 2020-05-11 US US16/871,933 patent/US11664126B2/en active Active
-
2021
- 2021-05-10 JP JP2022568777A patent/JP2023526241A/ja active Pending
- 2021-05-10 EP EP21729165.7A patent/EP4150639A1/en active Pending
- 2021-05-10 CN CN202180034445.XA patent/CN115699204A/zh active Pending
- 2021-05-10 WO PCT/US2021/031612 patent/WO2021231317A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
US11664126B2 (en) | 2023-05-30 |
CN115699204A (zh) | 2023-02-03 |
WO2021231317A1 (en) | 2021-11-18 |
EP4150639A1 (en) | 2023-03-22 |
US20210350930A1 (en) | 2021-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11664126B2 (en) | Clinical predictor based on multiple machine learning models | |
US11462325B2 (en) | Multimodal machine learning based clinical predictor | |
Doppalapudi et al. | Lung cancer survival period prediction and understanding: Deep learning approaches | |
Sun et al. | Identification of 12 cancer types through genome deep learning | |
JP6063446B2 (ja) | 細胞におけるバイオマーカーの発現の積率による解析 | |
US11574718B2 (en) | Outcome driven persona-typing for precision oncology | |
EP2864918B1 (en) | Systems and methods for generating biomarker signatures | |
US20160098514A1 (en) | Predictive Test for Aggressiveness or Indolence of Prostate Cancer from Mass Spectrometry of Blood-Based Sample | |
JP7197795B2 (ja) | 機械学習プログラム、機械学習方法および機械学習装置 | |
US10665347B2 (en) | Methods for predicting prognosis | |
US20230112591A1 (en) | Machine learning based medical data checker | |
JP7275334B2 (ja) | 個人の生物学的ステータスを予測するためのシステム、方法および遺伝子シグネチャ | |
JP2023551913A (ja) | 生物学的疾患及び障害の動的ラマンプロファイリングのためのシステム及び方法 | |
Esteban et al. | A step-by-step algorithm for combining diagnostic tests | |
JP2024501620A (ja) | 生物学的障害の動的免疫組織化学プロファイリングのためのシステム及び方法 | |
EP4202943A1 (en) | Method and system for finding missing value for physiological feature | |
Panapana et al. | A Survey on Machine Learning Techniques to Detect Breast Cancer | |
WO2023187139A1 (en) | Patient pooling based on machine learning model | |
Wang et al. | ResDeepSurv: A Survival Model for Deep Neural Networks Based on Residual Blocks and Self-attention Mechanism | |
Turgay et al. | Analyzing the Impact of Breast Cancer Risk Factors Using Decision Tree Modeling | |
PARDAL | ESTIMATION OF RELAPSE PROBABILITY IN EARLY STAGES NON-SMALL CELL LUNG CANCER PATIENTS | |
Kang et al. | Statistical uncertainty quantification to augment clinical decision support: a first | |
JP2024086633A (ja) | 病気の進行に影響を与える患者の特性 | |
JP2023076795A (ja) | リキッドバイオプシーデータを用いた癌診断装置及び癌診断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240624 |