JP2023544335A - 機械学習モデルの適応訓練システム及び方法 - Google Patents
機械学習モデルの適応訓練システム及び方法 Download PDFInfo
- Publication number
- JP2023544335A JP2023544335A JP2023519864A JP2023519864A JP2023544335A JP 2023544335 A JP2023544335 A JP 2023544335A JP 2023519864 A JP2023519864 A JP 2023519864A JP 2023519864 A JP2023519864 A JP 2023519864A JP 2023544335 A JP2023544335 A JP 2023544335A
- Authority
- JP
- Japan
- Prior art keywords
- model
- template
- data
- records
- dataset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 130
- 238000010801 machine learning Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims description 192
- 230000003044 adaptive effect Effects 0.000 title description 5
- 238000010200 validation analysis Methods 0.000 claims abstract description 52
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims description 42
- 239000000090 biomarker Substances 0.000 claims description 29
- 230000000873 masking effect Effects 0.000 claims description 27
- 238000007405 data analysis Methods 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000011282 treatment Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 10
- 238000011221 initial treatment Methods 0.000 claims description 6
- 208000015181 infectious disease Diseases 0.000 claims description 4
- 230000015654 memory Effects 0.000 description 43
- 230000036541 health Effects 0.000 description 31
- 238000013528 artificial neural network Methods 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 17
- 238000007619 statistical method Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 206010071362 Viral sepsis Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 229940124572 antihypotensive agent Drugs 0.000 description 2
- 201000005008 bacterial sepsis Diseases 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000005526 vasoconstrictor agent Substances 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 208000010496 Heart Arrest Diseases 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 206010040047 Sepsis Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 101150114976 US21 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 239000003146 anticoagulant agent Substances 0.000 description 1
- 229940127219 anticoagulant drug Drugs 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004820 blood count Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003831 deregulation Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012776 robust process Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 150000003431 steroids Chemical class 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011277 treatment modality Methods 0.000 description 1
- 238000007473 univariate analysis Methods 0.000 description 1
- -1 ventilators Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
システムは特定の母集団のために機械学習予測モデルを適合させる。システムは、プロセッサと命令を記憶するメモリ・デバイスとを含み、命令は処理を実行するためにメモリ・デバイスを構築するものである。処理は、医療機関に関連する患者のローカル・レコードを含むローカル・データセットを受信し、クラスタリング機能を実行して、テンプレート・レコードを含むテンプレート・データセットを取り出すステップを含むことが可能であり、テンプレート・レコードは、可変セントロイドを用いたクラスタで組織されている。また、処理は、ローカル及びテンプレート・レコードの間の類似性メトリックを算出し、テンプレート及びローカル・レコードを組み合わせることによって合成データセットを生成し、合成データセットを、訓練合成データセットと検証合成データセットとに分離し、且つ、訓練合成データセットに従ってテンプレート・モデルをチューニングすること、及び/又は、新たな予測モデルを生成すること、により機械学習予測モデルを生成及び/又は検証するステップを含むことも可能である。
Description
関連出願の相互参照
本件出願は、「機械学習モデルの適応訓練システム及び方法」と題する2020年10月2日付けで出願された米国仮特許出願No.63/086,977の優先権及び利益を主張しており、同出願は全ての適用可能な目的に関してあたかも以下に完全に記載されているかのように全体的に参照により本件に援用される。
本件出願は、「機械学習モデルの適応訓練システム及び方法」と題する2020年10月2日付けで出願された米国仮特許出願No.63/086,977の優先権及び利益を主張しており、同出願は全ての適用可能な目的に関してあたかも以下に完全に記載されているかのように全体的に参照により本件に援用される。
技術分野
本開示は、一般に、機械学習モデルの適応訓練のためのシステム及び方法に関連し、特に、訓練及び検証セットを拡張する合成データセットを使用して、医療期間向けにカスタマイズされた機械学習モデルを生成するためのシステム及び方法に関連する。
本開示は、一般に、機械学習モデルの適応訓練のためのシステム及び方法に関連し、特に、訓練及び検証セットを拡張する合成データセットを使用して、医療期間向けにカスタマイズされた機械学習モデルを生成するためのシステム及び方法に関連する。
機械学習(Machine Learning,ML)は、データから学習し、学習したパターンを活用して予測を行うことが可能なコンピュータ・アルゴリズムの発展を探求する研究分野である。MLモデルは、予測演算のためのMLアルゴリズムを訓練するために使用されるデータに基づいて生成される。MLでは、訓練データセットの質と量は、成功を収めるモデルを生成するために重要であり、なぜなら訓練データセットは、モデルが予測を実行できるようにする機能と調整を定めるからである。不十分又は不適切な訓練データセットで生成されたMLモデルは貧弱に動作する可能性があるが、大規模で注意深く監修された訓練データセットで生成されたMLモデルは良好な予測可能性やパフォーマンスを有する可能性がある。
MLモデルを首尾良く訓練するために必要な訓練データの量と質は、分類されるクラスの数、予測の複雑さ、システムが事前に訓練されたパラメータを使用できるかどうか、及び、訓練データセットのサンプル間の均一性などのような、多数の要因に依存する。更に、訓練データセットの範囲と質は、目標の分類器、考慮される機能の数、及び、目標の用途によって異なる。しかしながら、多くの場合、高い精度と優れた予測可能性を備えたMLモデルを達成するには、訓練データセットは大規模で高品質である必要がある。更に、訓練データセットは、過剰適合のような問題を防ぎ、実際に使用する実用的な機械学習モデルを生成できるように、多様性、微妙さ(subtlety)、ニュアンスを含むことを必要とする。
MLモデルを訓練するための大規模で高品質な訓練データセットを作成することは、時間とコストがかかる可能性がある。効果的な訓練データセットを生成したり又は集めたりすることは、バイアスの回避、データのラベル付け、及び/又はデータセットのフォーマット化、に関連する技術的な問題を提起する。例えば、訓練データセットがMLモデルを生成するために使用できるようになる前に、訓練データセットは、MLモデルのパフォーマンスを低下させるバイアスやエラーを回避するように監修されなければならない。更に、訓練データセットは、MLアルゴリズムに供給できるように、慎重にフォーマットを定めることを必要とする。更に、データセットを作成することは困難である可能性があり、なぜならデータ・ラベリングは、レコードを正確にラベル付けする特殊なツールを必要とする可能性があるからである。実際、訓練データセットを生成して収集するコストは、サンプルの収集に専用の機器や個人を必要とする特定の分野では特に高くなる可能性がある。これらの分野では、訓練データセットは、成功するMLモデルの開発を妨げる大きな障害となる。
開示されるシステム及び方法は、上記の1つ以上の問題及び/又は先行技術における他の問題に対処する。
本開示の一態様は、特定の母集団(specific population)に機械学習予測モデルを適合させるシステムに関連している。システムは、1つ以上のプロセッサと命令を記憶する1つ以上のメモリ・デバイスとを含むことが可能であり、命令は、処理を実行するように1つ以上のプロセッサを構築する。処理は、医療機関に関連する患者のローカル・レコードを含むローカル・データセットを(医療機関から)受信するステップ;及びテンプレート・レコードを含むテンプレート・データセットを(データベースから)取り出すステップを含むことが可能であり、テンプレート・レコードは、可変セントロイド(variable centroids)を含むクラスタで組織されている。処理は、ローカル・レコードとテンプレート・レコードとの間の類似性メトリック(similarity metric)を、デモグラフィックと前記可変セントロイドとを比較することによって算出する(例えば、クラスタリングする)ステップ;テンプレート・レコードの少なくとも一部分とローカル・レコードの少なくとも一部分とを組み合わせることによって合成データセットを生成するステップ(テンプレート・レコードの一部分は類似性閾値に基づいて選択される);及び、合成データセットを、訓練合成データセットと検証合成データセットとに分離するステップも含む可能性がある。処理は、訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップ;及び、そのチューニングされたテンプレート・モデル又は新たな予測モデルを、検証合成データセットを使用して検証するステップ;を行うことにより、機械学習予測モデルを生成するステップを更に含む可能性がある。
本開示の別の態様は、特定の母集団に機械学習予測モデルを適合させるコンピュータ演算方法に関連している。方法は、医療機関に関連する患者のローカル・レコードを含むローカル・データセットを(医療機関から)受信するステップ;及びテンプレート・レコードを含むテンプレート・データセットを(データベースから)取り出すステップを含むことが可能であり、テンプレート・レコードは、可変セントロイドを含むクラスタで組織されている。方法は、ローカル・レコードとテンプレート・レコードとの間の類似性メトリックを、デモグラフィックと可変セントロイドとを比較することによって算出する(例えば、クラスタリングする)ステップ;テンプレート・レコードの少なくとも一部分とローカル・レコードの少なくとも一部分とを組み合わせることによって合成データセットを生成するステップ(テンプレート・レコードの一部分は類似性閾値に基づいて選択される);及び、合成データセットを、訓練合成データセットと検証合成データセットとに分離するステップも含む可能性がある。方法は、訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップ;及び、そのチューニングされたテンプレート・モデル又は新たな予測モデルを、検証合成データセットを使用して検証するステップ;を行うことにより、機械学習予測モデルを生成するステップを更に含む可能性がある。
本開示の別の態様は、少なくとも1つのプロセッサと少なくとも1つのメモリ・デバイスを含むコンピュータ演算装置に関連しており、医療機関に関連する患者のローカル・レコードを含むローカル・データセットを(医療機関から)受信するステップ;及びテンプレート・レコードを含むテンプレート・データセットを(データベースから)取り出すステップを行うように、少なくとも1つのプロセッサを構築し、テンプレート・レコードは、可変セントロイドを含むクラスタで組織されている。少なくとも1つのプロセッサは、ローカル・レコードとテンプレート・レコードとの間の類似性メトリックを、デモグラフィックと可変セントロイドとを比較することによって算出する(例えば、クラスタリングする)ステップ;テンプレート・レコードの少なくとも一部分とローカル・レコードの少なくとも一部分とを組み合わせることによって合成データセットを生成するステップであって、テンプレート・レコードの一部分は類似性閾値に基づいて選択される、ステップ;合成データセットを、訓練合成データセットと検証合成データセットとに分離するステップ;及び、(1)訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップ;及び(2)そのチューニングされたテンプレート・モデル又は新たな予測モデルを、検証合成データセットを使用して検証するステップ;を行うことにより、機械学習予測モデルを生成するステップも行うように構成されている可能がある。
対象技術の他の構成は以下の詳細な説明から当業者にとっては容易に明らかになるであろう、ということが理解され、その場合において、対象技術の様々な構成は例示によって図示及び説明される。理解されるように、対象技術は他の及び相違する構成の可能性があり、その幾つかの詳細は、対象技術の範囲から逸脱することなく、様々な他の観点において変更される可能性がある。従って、図面及び詳細な説明は、本質的に例示的なものとみなされ、限定的なものではない。
更なる理解をもたらすように包含され、本明細書に組み込まれて一部を為す添付の図面は、開示される実施形態を示しており、本説明とともに、開示される実施形態の原理を説明する役割を果たす。
図1は、開示される実施形態による機械学習方法を実装するのに適した例示的なアーキテクチャを示す。
図2は、開示される実施形態による機械学習システムにおける例示的なサーバー及びクライアントのブロック図を示す。
図3は、開示される実施形態による合成データセットを生成するための例示的なワークフローを示す。
図4は、様々な実施形態による、事前モデルに基づくローカル・レコードに適合された訓練モデル用の例示的なワークフローを示す。
図5Aは、様々な実施形態による、テンプレート・モデルに基づくモデル生成プロセスの例示的なワークフローを示す。
図5Bは、様々な実施形態による、類似性の結果に基づくモデル生成プロセスの例示的なワークフローを示す。
図5Cは、様々な実施形態による、ローカル・データ予測に基づくモデル生成プロセスの例示的なワークフローを示す。
図5Dは、様々な実施形態による、テンプレート・モデルのチューニングに基づくモデル生成プロセスの例示的なワークフローを示す。
図6は、様々な実施形態による、訓練済みモデルの評価と選択のための例示的なワークフローを示す。
図7は、様々な実施形態による、重要業績評価指標(key performance indicators,KPI)に基づくモデルの選択のための例示的なワークフローを示す。
図8は、様々な実施形態による、適応予測モデルの評価のための例示的なワークフローを示す。
図9は、様々な実施形態による、より高性能なモデルを決定するプロセスのフローチャートを示す。
図10は、様々な実施形態による、機械学習モデルを特定の母集団に適応させるプロセスのフローチャートを示す。
図11は、様々な実施形態による、予測モデルを訓練するための合成データセットを生成するためのフローチャートを示す。
図12は、様々な実施形態による、ローカル・データセットとテンプレート・データセットとの間の類似性を決定するためのフローチャートを示す。
図13は、様々な実施形態による、合成データセットにおいてローカル・レコードとテンプレート・レコードを結合するためのフローチャートを示す。
図14は、様々な実施形態による、テスト合成データセットを使用して機械学習モデルを評価するためのフローチャートを示す。
図15は、様々な実施形態による、訓練合成データを使用して機械学習モデルを訓練するためのフローチャートを示す。
図16は、様々な実施形態による、ローカル・レコードを正規化するためのフローチャートを示す。
図17は、様々な実施形態による、機械学習モデルにおけるハイパーパラメータをチューニングするためのフローチャートを示す。
図18は、様々な実施形態による、クラスタリングされたローカル・レコードとテンプレート・レコードの図式的表現を示す。
図19は、様々な実施形態による、レコード・クラスタリングの図式的表現を示す。
図20は、様々な実施形態による、合成訓練データセットを用いる機械学習モデルの進展の図式的表現を示す。
図21は、様々な実施形態による、図1及び図2のクライアント及びサーバー並びに図9-17の方法を実装することが可能な例示的なコンピュータ・システムを示すブロック図である。
図22は、様々な実施形態による、機械学習モデルを実装するために使用することが可能な例示的なニューラル・ネットワークを示す。 図中、同一又は類似の参照番号で示される要素及びステップは、別意に指定されない限り、同一又は類似の要素及びステップに関連付けられる。
以下の詳細な説明では、本開示の完全な理解をもたらために、多数の具体的な詳細が述べられている。しかしながら、本開示の実施形態は、これらの何らかの具体的な詳細なしに実施されてもよいことは、当業者に明らかであろう。他の例では、開示を不明瞭にしないように、周知の構造及び技術は詳細には示されていない。
ML、人工知能(AI)、及びニューラル・ネットワーク(NN)モデルの開発者は、正確なモデルを訓練できるようにする有意義な訓練データセットを収集するという課題にしばしば直面する。訓練データセットは、量と質に重い要件が課せられており、対象とされる予測タスクの複雑さに合わせて適合させる必要がある。訓練データセットの収集は、特に医療環境で困難になる可能性があり、その場合、データ収集は、特殊な機器の慎重な操作、及び/又は、多数の要因や変数の考慮を必要とする。医療環境では、訓練データセットの生成は、時間とコストがかかり、セキュリティ対策を採用する必要があり、また、規制コンプライアンスのような医療業界特有のニーズを考慮する必要がある。
ML/AI/NNアルゴリズムを使用するシステムは、望ましくは、アルゴリズムの訓練前に利用可能な入力データの完全なセットを持っている。しかしながら、医療環境におけるモデルは、一刻を争うアプリケーションのために生成されることを必要とする場合があり、そのようなアプリケーションでは、完全で監修された(curated)訓練データセットの収集と処理を待っていることはできない。訓練データの利用可能性は、使用可能なML/AI/NNモデルの開発に対する主なボトルネックの1つを生じる。予測可能性を高めるために、特定の患者集団にモデルを適合又はカスタマイズしたい場合、この問題は悪化する。このような特定の患者集団の例は、全ての可能性のある表現型(phenotype)のうち、存在する一部の表現型を呈する可能性のある患者、を含む。例えば、(例えば、細菌性敗血症(bacterial sepsis)を有する可能性の高い患者集団とは対照的に)ウイルス性敗血症(viral sepsis)を有する可能性の高い患者集団に合わせて、モデルが適合される場合がある。更に、データ・ドリフトという概念で知られているものが生じる可能性があり、その場合、入力特徴及び/又は予測ラベルは、測定結果又は発生率におけるズレ(shift)を被る可能性がある。このような状況では、目標とされている集団に対する完全な訓練データセットを待つことは現実的ではない。このような複雑さは演算の問題につながり、その問題は、訓練処理で使用できるようになる前に、特定の方法(例えば、レコードに迅速にラベルを付けたり、及び/又は正規化したりする特定の方法)を必要とするものである。
本件で開示されるような実施形態は、上記の問題に対する解決策を、合成訓練及び検証データセットを使用してML/AI/NNモデルを訓練するシステムの形式で提供している。本開示の様々な実施形態は、完全な訓練データセットなしに、高品質のMLモデルを訓練することを可能にする合成データセットを使用したMLモデルの適応訓練方法及びシステムを含む。合成データセットは、以前に収集したレコードを、異なる母集団からのものであっても活用して、目標の母集団に焦点を当てたカスタマイズされたモデルに利用可能な訓練データセットの品質を拡張又は向上させる。例えば、医療施設からのデータが、ロバスト性のあるMLモデルを訓練するには不十分である場合、開示されるシステム及び方法は、新しくカスタマイズされたモデルを訓練するために十分なレコード、バリエーション、及び品質を有する合成データセットの発展を可能にすることができる。代替的又は追加的に、開示されるシステム及び方法は、記録された医療情報にバリエーションを追加することにより、合成レコードの生成を可能にすることができる。これらのバリエーションは、テンプレート・モデル又は統計分析に基づいて選択されてもよい。例えば、開示されるシステム及び方法は、テンプレート・レコードで観察された統計的に有意なバリエーションとともに、新たなレコードを追加することによって、NNのような予測アルゴリズムを訓練するためのバイオマーカー・レコード(biomarker record)の拡張された訓練セットの使用を可能にすることができる。更に、拡張された訓練セットは、数学的変換関数を医療施設のレコードに適用して合成レコードを生成することによって、開発されてもよい。これらの変換は、患者記録のバイオマーカー構成を変更するアフィン変換(例えば、シフト、ミラーリング、フィルタリング変換)を含むことが可能である。合成レコードを生成するための数学的変換関数の適用(例えば、患者記録のバイオマーカー構成を変更することによるもの)は、機械学習の準備のためのバイオマーカー・レコードのようなデータセットの正規化の一例であるとすることが可能である。機械学習のためのデータセットの正規化に関する詳細は、2021年8月6日付けで出願された「機械学習データセットの正規化のためのシステム及び方法」と題する出願人自身の国際出願(PCT)番号:PCT/US21/44943号に見受けられ、その全体が参照により本件に援用されている。次いで、MLモデルは、バックプロパゲーションその他のMLアルゴリズムであって数学的損失関数の勾配を使用してネットワークの重みを調整するもの、を用いる確率的学習を利用して、この拡張された合成訓練セットで訓練されることが可能である。
開示されるシステム及び方法は、医療記録に従って患者を分類する場合に生じる技術的問題に対処することによって、医療MLモデル生成の技術分野を改善することも可能である。例えば、開示されるシステム及び方法は、改善された感度、改善された特異度(specificity)、改善された陽性予測値(positive predictive value,PPV)、改善された陰性予測値(negative predictive value,NPV)などのような改善された統計的測定値(ただし、これらに限定されない)を用いて医療成果を予測できるMLモデルの生成を可能にする。例えば、開示されるシステム及び方法の様々な実施形態は、合成データの複数のバージョンを使用して、アルゴリズムの反復訓練及び検証を実行することによって、偽陽性を最小化する可能性がある。このような実施形態では、開示されるシステムは、異なる訓練データセットを用いる複数のMLモデルを生成し、次いで、それらは相互に比較される。訓練モデルと合成データセットを組み合わせ、(例えば、入院期間、再入院、死亡率のような)重要業績評価指標(KPI)のような客観的な尺度を使用して、モデル評価のモデルを比較することで、偽陽性の数を制限しながら、医療成果を予測することが可能なモデルの生成のために、堅牢なプロセスを提供する。
更に、開示される実施形態は、新たなMLモデルを生成するための演算コストを最小限に抑えることによって、コンピュータの機能性を向上させることができる。開示されたシステム及び方法の様々な実施形態は、2つのデータセット間の類似性分析に基づいて、訓練データセット内のレコードの選択を促進することができる。そのような実施形態では、開示されたシステムは、モデル生成中におけるコンピュータ・リソースの占有を減らすために、MLモデルの訓練に必要でないレコードをフィルタリングすることが可能である。開示されたシステム及び方法は、動作のうち欠けている特徴を特定して、合成レコードを訓練データセットに具体的に追加することを、冗長又は不要なレコードを含めることなく可能にする。開示されるシステム及び方法は、MLモデルの訓練中に使用されるコンピュータ・リソースを最小限に抑えるために、合成データセットで作成されるレコードの数を制限することによって、コンピュータの機能性を向上させる。
以下、本開示の例示的な実施形態を説明する添付図面を参照してゆく。
図1は、開示された実施形態による機械学習方法を実装するための例示的なアーキテクチャ100を示す。アーキテクチャ100は、ネットワーク150を介して接続されたサーバー130とクライアント・デバイス110を含む。多数のサーバー130のうちの1つは、命令を含むメモリをホストするように構成されており、命令は、プロセッサによって実行されると、本件で開示される方法のステップの少なくとも一部を、サーバー130に実行させる。少なくとも1つのサーバー130は、複数の患者の臨床データを含むデータベースを含むか、又はそれにアクセスすることができる。
サーバー130は、画像の集まりとトリガー論理エンジンをホストするための適切なプロセッサ、メモリ、通信機能を有する任意のデバイスを含むことが可能である。トリガー論理エンジンは、ネットワーク150を介して様々なクライアント・デバイス110によってアクセス可能であってもよい。クライアント・デバイス110は、例えば、デスクトップ・コンピュータ、モバイル・コンピュータ、タブレット・コンピュータ(例えば、電子書籍リーダーを含む)、モバイル・デバイス(例えば、スマートフォン又はPDA)、又は他の任意のデバイスであって、サーバー130のうちの1つにおけるトリガー論理エンジンにアクセスするための適切なプロセッサ、メモリ、及び通信機能を有するものであるとすることが可能である。様々な実施形態に従って、クライアント・デバイス110は、医師、看護師、又は救急救命士などの医療従事者が、リアル・タイムの緊急事態において(例えば、病院、診療所、救急車、又は何らかの他の公共の又は居住環境において)、何れかのサーバー130のトリガー論理エンジンにアクセスするために使用されることが可能である。様々な実施形態において、クライアント・デバイス110の1人以上のユーザー(例えば、看護師、救急救命士、医師、その他の医療従事者)は、ネットワーク150を介して、1つ以上のサーバー130のトリガー論理エンジンに、臨床データを提供することができる。
更に他の実施形態において、1つ以上のクライアント・デバイス110は、臨床データをサーバー130に自動的に提供する可能性がある。例えば、様々な実施形態において、クライアント・デバイス110は、患者の結果をネットワーク接続を介してサーバー130へ自動的に提供するように構成された、診療所の血液検査ユニットであってもよい。ネットワーク150は、例えば、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、インターネットなどのうちの任意の1つ以上を含むことが可能である。更に、ネットワーク150は、次のネットワーク・トポロジ、バス・ネットワーク、スター・ネットワーク、リング・ネットワーク、メッシュ・ネットワーク、スター・バス・ネットワーク、ツリー又は階層型ネットワーク、のうちの任意の1つ以上を含むことが可能であるが、これらに限定されない。
図2は、開示の様々な態様による図1のアーキテクチャ100における例示的なサーバー130及びクライアント・デバイス110を示すブロック図200である。クライアント・デバイス110とサーバー130は、それぞれの通信モジュール218-1及び218-2(以下「通信モジュール218」とまとめて言及される)を介して、ネットワーク150上で通信可能に結合される。通信モジュール218は、ネットワーク上の他のデバイスに対して、データ、要求、応答、コマンドのような情報を送受信するために、ネットワーク150との間のインターフェースとなるように構成される。通信モジュール218は、例えば、モデム又はイーサーネット・カードであるとすることが可能である。クライアント・デバイス110とサーバー130はそれぞれメモリ220-1と220-2(以下、「メモリ220」とまとめて言及される)、及び、プロセッサ212-1と212-2(以下、「プロセッサ212」とまとめて言及される)を含むことが可能である。メモリ220は命令を記憶することが可能であり、命令は、プロセッサ212によって実行されると、クライアント・デバイス110又はサーバー130のいずれかに、本件で開示される方法のうちの1つ以上のステップを実行させる。従って、プロセッサ212は、プロセッサ212に物理的にコーディングされた命令、メモリ220内のソフトウェアから受信した命令、又はその両方の組み合わせのような命令を実行するように構成されることが可能である。
様々な実施形態に従って、サーバー130は、データベース252-1及び訓練データベース252-2(以下、「データベース252」とまとめて参照される)を含むか、又はそれらに通信的に結合されることが可能である。1つ以上の実装において、データベース252は複数の患者の臨床データを格納することができる。様々な実施形態に従って、訓練データベース252-2は、データベース252-1と同じであってもよいし、又はそこに含まれていてもよい。データベース252の臨床データは、不特定患者特性のような計量情報;生体信号;完全血球算定(complete blood count,CBC)、総合代謝パネル(comprehensive metabolic panel,CMP)、及び血液ガス(例えば、酸素、CO2など)のような血液測定値;免疫学的情報;バイオマーカー;カルチャー(culture)などを含んでいてもよい。不特定患者特性は、年齢、性別、全般的な医療履歴、例えば慢性疾患(例えば、糖尿病、アレルギーなど)を含む可能性がある。様々な実施形態において、臨床データは、治療手段、薬物投与イベント、用量などのような計量情報に応じて医療従事者により採択される行為を含む可能性もある。様々な実施形態において、臨床データは、患者の病歴(例えば、敗血症(sepsis)、脳卒中(stroke)、心停止、ショックなど)で生じたイベントや成果を含む可能性がある。データベース252はサーバー130から分離されているように示されているが、様々な形態において、データベース252とデータ・パイプライン・エンジン240は、同じサーバー130でホストされることが可能であり、ネットワーク150内の他の任意のサーバー又はクライアント・デバイスによってアクセスされることが可能である。
サーバー130のメモリ220-2は、訓練データセットを生成するために、医療施設からの入力データを評価及び処理するためのデータ・パイプライン・エンジン240を含むことが可能である。データ・パイプライン・エンジン240は、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、及び類似性定義ツール248を含むことが可能である。モデリング・ツール242は、関連する臨床データを収集し、確からしい成果を評価するための命令及びコマンドを含むことが可能である。モデリング・ツール242は、線形モデル、アンサンブル機械学習(例えば、ランダム・フォレストや勾配ブースティング・マシンなど)、及び、ニューラル・ネットワーク(NN)(例えば、ディープ・ニューラル・ネットワーク(DNN)、畳み込みニューラル・ネットワーク(CNN)など)からのコマンドや命令を含むことが可能である。様々な実施形態に従って、モデリング・ツール242は、機械学習アルゴリズム、人工知能アルゴリズム、又はそれらの任意の組み合わせを含むことが可能である。
統計ツール244は、トリガー論理エンジン240によって収集された、データベース252に保存された、又は、モデリング・ツール242によって提供された、事前データ(prior data)を評価する。様々な実施形態において、統計ツール244は、モデリング・ツール242によって提供されるデータ要件に基づいて、正規化関数又は方法を定義することも可能である。補完ツール246は、トリガー論理エンジン240によって収集された計測情報から、それ以外の欠落しているデータ入力を、モデリング・ツール242に提供することができる。データ解析ツール246は、リアル・タイムのデータ・フィードを処理し、外部システムに接続することが可能である。データ解析ツール246は、効率性のために最適化されたデータを自動的にラベル付けして特徴付けを行い、グループ・メッセージを用いてネットワークのオーバーヘッドを削減することができる。データ・マスキング・ツール247は、構造的に類似しているが、真正でないバージョンの医療記録を作成する処理、例えば、個人を特定できる情報を削除する処理を実行することが可能である。データ・マスキング・ツール247は、ML訓練の機能的な代替を有する一方で、実際のデータを保護するように構成されることが可能である。類似性定義ツール248は、2つのデータセット間の類似性を評価する処理を実行することが可能である。例えば、類似性定義ツール248は、L2ノルム、L1ノルム、又はその他のハイブリッド・ノルムなどのノルム、又は、ユークリッド距離、マンハッタン距離、ミンコフスキー距離、又はその他の距離メトリックなどの距離メトリック、のような2つのデータセット内のクラスタ又はベクトル間の比較演算を使用することが可能である。代替的又は追加的に、類似性定義ツール248は、データセット間の特徴の相違を抽出したり、及び/又は、類似レコードと非類似レコードを識別したりするように構成されていてもよい。
クライアント・デバイス110は、クライアント・デバイス110にインストールされているアプリケーション222又はウェブ・ブラウザを介して、トリガー論理エンジン240にアクセスすることが可能である。プロセッサ212-1は、クライアント・デバイス110におけるアプリケーション222の実行を制御することが可能である。様々な実施形態に従って、アプリケーション222は、クライアント・デバイス110の出力デバイス216(例えば、グラフィカル・ユーザー・インターフェース,GUI)において、ユーザーのために表示されるユーザー・インターフェースを含むことが可能である。クライアント・デバイス110のユーザーは、入力デバイス214を使用して、入力データを計測情報として入力したり、アプリケーション222のユーザー・インターフェースを介して、論理エンジン240をトリガーするためにクエリをサブミットしたりすることが可能である。様々な実施形態に従って、入力データ{Xi(tx)}は、1×nベクトルであってもよく、ここで、Xijは、所与の患者iに対するデータ・エントリj(0≦j≦n)について、利用可能であるか又は利用可能でない可能性のある複数の臨床データ値のうちの何れかを示し(又はストック・プライス(stock prices))、txはデータ・エントリが収集された時間を示す。クライアント・デバイス110は、入力データ{Xi(tx)}に応答して、予測結果P(Si|{Xi,t},Yi,t},A)をサーバー130から受信することが可能である。様々な実施形態に従って、予測結果P(Si|{Xi,t},Yi,t},A)は、入力データ{Xi(tx)}だけでなく、補完されたデータ{Yi(tx)}にも基づいて決定されてもよい。従って、補完されたデータ{Yi(tx)}は、集合{Xi(tx)}から欠落しているデータに応じて、補完ツール246によって提供されることが可能である。様々な実施形態において、予測された結果P(Si|{Xi,t},Yi,t},A)は、検証及び/又はユーザー・レビューを可能にするために、関連する重要度のランキングとともに、クライアント・デバイスに送信されてもよい。入力デバイス214は、スタイラス、マウス、キーボード、タッチ・スクリーン、マイク、又はこれらの任意の組み合わせを含むことが可能である。出力デバイス216は、ディスプレイ、ヘッドセット、スピーカー、アラーム又はサイレン、又はこれらの任意の組み合わせを含むことも可能である。
図3は、開示される実施形態による、合成データセットを生成するための例示的なワークフロー300を示す。様々な実施形態において、本件で開示される1つ以上のクライアント・デバイス及びサーバーは、ワークフロー300を実行することが可能である。より具体的には、モデリング・ツール及び統計ツールを備えたデータ・パイプライン・エンジン240を含む処理エンジンは、ワークフロー300に使用されることが可能である。
ワークフロー300では、データベース252はオペレーション302においてローカル・データを提供することが可能である。ローカル・データは、目標の医療機関の医療記録又は患者を含む可能性があり、CSVファイル又は同様なデータ・レコード・ファイルとして取り出されることが可能である。データベース252は、クラスタを提供し、オペレーション304においてクラスタを付けることが可能である。テンプレート・データは、サンプルの医療施設からのデータや、過去の患者情報を含む可能性がある。
オペレーション306では、可変セントロイドを伴うクラスタが計算され、計算されたクラスタ及びセントロイドに基づいて、ローカル・データとテンプレート・データとの間の類似性メトリックが、オペレーション308において計算されてもよい。例えば、類似性定義ツール248は、ローカル・レコードとテンプレート・レコードの間の類似性メトリックを計算することが可能である。図18に関連して更に説明されるように、類似性の定義は、クラスタ化されたグループ間の距離に基づいていてもよい。類似性の決定に基づいて、レコードは、オペレーション310においてフィルタリングされることが可能である。例えば、データ・パイプライン・エンジン240は、指定された類似性閾値に基づいて、テンプレート・レコードをフィルタリングすることが可能である。
オペレーション312では、最終的な合成データセットを生成することが可能である。例えば、データ・パイプライン・エンジン240は、目標のヘルスケア・センター(即ち、新しいモデルが生成されているヘルスケア・センター)のローカル・レコードと、オペレーション310でフィルタリングされないテンプレート・レコードとを含む合成データセットを生成することが可能である。図3に示されるように、様々な実施形態において、最終的な合成データセットはデータベース252に格納されることが可能である。
図4は、様々な実施形態による、事前モデルに基づくローカル・レコードに適合された訓練モデル用の例示的なワークフロー400を示す。様々な実施形態において、本件で開示される1つ以上のクライアント・デバイス及びサーバーはワークフロー400を実行することが可能である。より具体的には、データ・パイプライン・エンジン240を含む処理エンジンは、ワークフロー400に使用されてもよい。
ワークフロー300では、データベース252は、オペレーション302において事前モデル・データを、オペレーション404において入力データを、オペレーション406において事前モデル予測を、提供することができる。入力データは、オペレーション424における訓練データと、オペレーション422における検証データとに分けられることが可能である。検証データは、オペレーション426におけるテスト・データに関する予測を作成するために使用されることが可能である。一方、訓練データは、オペレーション410においてMLモデルを訓練するために使用されることが可能である。図4に示されるように、モデルは、訓練データを使用して予測モデルをチューニングすることによって、又は、訓練データに基づいて新しい予測モデルを生成することによって訓練されることが可能である。
図5Aは、様々な実施形態による、テンプレート・モデルに基づくモデル生成プロセスの例示的なワークフロー500を示す。様々な実施形態において、本件で開示される1つ以上のクライアント・デバイス及びサーバーはワークフロー500を実行することが可能である。より具体的には、データ・パイプライン・エンジン240を含む処理エンジンは、ワークフロー500に使用されてもよい。
ワークフロー500では、ワークフロー300と同様に、データベース252がオペレーション302においてローカル・データを提供することが可能であり、ローカル・データは目標の医療機関の患者レコードを含む可能性がある。しかしながら、ローカル・データを提供するだけでなく、データベース252はオペレーション510においてテンプレート・モデルを提供することが可能である。テンプレート・モデルは、他の医療機関用に生成されているMLモデル、及び/又は、パブリックMLモデル又はデータセットを含む可能性がある。
ローカル・データは、オペレーション524における訓練データと、オペレーション522における検証データとに分けられることが可能である。検証データとテンプレート・モデルの両方を使用して、オペレーション530においてで予測データ・テストを作成することが可能である。例えば、データ・パイプライン・エンジン240は、オペレーション510において、データベース252から取得したテンプレート・モデルを用いて、オペレーション522の検証データを適用することによって、予測検証データを生成することが可能である。
図5Bは、様々な実施形態による、類似性の結果に基づくモデル生成プロセスの例示的なワークフロー540を示す。様々な実施形態において、本件で開示される1つ以上のクライアント・デバイス及びサーバーはワークフロー540を実行することが可能である。より具体的には、データ・パイプライン・エンジン240を含む処理エンジンは、ワークフロー540に使用されてもよい。
ワークフロー500と同様に、ワークフロー540では、データベース252はオペレーション302においてローカル・データを提供することが可能であり、ローカル・データはオペレーション524及び522における訓練データと検証データにそれぞれ分けられることが可能である。しかしながら、ワークフロー500とは異なり、ワークフロー540では、オペレーション542において、類似性定義ツール248のような類似性定義ツールにより、オペレーション546において新たな予測モデルが生成されてもよい。新たな予測モデルと検証データを使用して、オペレーション530における検証データに関する予測を作成することが可能である。
図5Cは、様々な実施形態による、ローカル・データ予測に基づくモデル生成プロセスの例示的なワークフロー550を示す。様々な実施形態において、本件で開示される1つ以上のクライアント・デバイス及びサーバーはワークフロー550を実行することが可能である。より具体的には、データ・パイプライン・エンジン240を含む処理エンジンは、ワークフロー550に使用されてもよい。
ワークフロー540と同様に、ワークフロー550では、データベース252はオペレーション302においてローカル・データを提供することが可能である。しかしながら、ワークフロー540とは異なり、ローカル・データ302は訓練データと検証データに分離されていない。むしろ、ローカル・データはテンプレート・モデルによってフィルタリングされて処理され、オペレーション522においてローカル・データ予測を生成し、ローカル・データ予測はオペレーション554において事前予測として使用されることが可能である。このような実施形態において、ローカル・データは、テンプレート・モデルからの事前予測を追加された後に、分離される可能性がある。更に、図5Cに示されるように、ローカル・データ予測に関するテンプレート・モデルは、データベース552から取り出されてもよい。
ワークフロー550では、訓練データを使用して、オペレーション556においてベイズ予測モデル(Bayesian predictive model)を生成し、これは、検証データと組み合わされて、オペレーション530において検証データに関する予測を作成するために使用されることが可能である。
図5Dは、様々な実施形態による、テンプレート・モデルのチューニングに基づくモデル生成プロセスの例示的なワークフロー560を示す。様々な実施形態において、本件で開示される1つ以上のクライアント・デバイス及びサーバーはワークフロー560を実行することが可能である。より具体的には、データ・パイプライン・エンジン240を含む処理エンジンは、ワークフロー560に使用されてもよい。
ワークフロー500と同様に、ワークフロー560では、データベース252はオペレーション302においてローカル・データを提供し、ローカル・データはオペレーション524及び522における訓練データと検証データにそれぞれ分けられることが可能である。更に、ワークフロー560では、データベース252はオペレーション562においてテンプレート・モデルを提供することが可能である。
テンプレート・モデルと訓練データは、オペレーション564においてモデルをチューニングするために使用されることが可能である。例えば、テンプレート・モデルと訓練データは、オペレーション564においてモデルをチューニングするためのハイパーパラメータをチューニングするために使用されてもよい。チューニングされたモデルは、検証データと組み合わせて、オペレーション530における検証データに関する予測を作成するために使用されてもよい。
場合によっては、チューニングされたテンプレート・モデルは、病院の重要業績評価指標(KPI)に基づいてハイパーパラメータを調整することによって、検証されてもよい。病院のKPIの非限定的な例は、救命救急成果指標、診断指標などを含む。場合によっては、救命救急成果指標は、患者の再入院率(例えば、30日の再入院)、死亡率、集中治療室(ICU)エスカレーション(escalations)、人工呼吸器の空き日数、人工呼吸器の日数(即ち、患者が人工呼吸器を使用している日数)、血圧上昇(vasopressor)の日数(即ち、患者が血圧昇圧状態ある日数)、入院期間、及び/又は等々を含む可能性があるが、これらに限定されない。場合によっては、診断指標は、病院で行われた診断のPPV、NPV、感度(検査結果が陽性になる確率)、特異度、真陽性率(TPR)、偽陽性率(FPR)及び/又は等々を含む可能性があるが、これらに限定されない。
図6は、様々な実施形態による、訓練済みモデルの評価と選択のための例示的なワークフロー600を示す。様々な実施形態において、図6に示されているように、本件で開示されるようにデータベース252と1つ以上のサーバーの組み合わせは、ワークフロー600を実行することができる。
データベース252は、訓練されたモデル654、データ・レコード656、及びモデル評価メトリック658を含むことが可能である。データベース252は、オペレーション612においてモデルを提供し、オペレーション614にこいてモデリング・データを提供することが可能である。モデルとモデリング・データは、オペレーション622においてモデリング・ツール(例えば、モデリング・ツール242)によって結合されることが可能である。モデリング・ツールは、モデリング・データのモデル予測を生成することが可能である。これらの予測は、オペレーション624において、統計ツール(例えば、統計ツール244)に伝送されることが可能である。
生成されたモデル予測は、オペレーション616におけるモデル・メトリックの下で評価されることも可能であり、評価の結果はデータベース252のモデル評価メトリック658に保存されることが可能である。
様々な実施形態において、モデル評価メトリックは、オペレーション634において、モデル選択ロジックを使用してモデルの選択に使用されてもよい。例えば、様々な訓練データセットを使用して複数のモデルが生成される場合、モデル選択ロジックは、様々なモデルを比較し、例えばKPIに基づいてグループの中から最良のパフォーマンスを示すモデルを特定し、最終的なモデルが、ワークフロー600のオペレーション632において選択される。
図7は、様々な実施形態による、重要業績評価指標(KPI)に基づくモデルの選択のためのワークフロー700を示す。様々な実施形態において、本件で開示される1つ以上のクライアント・デバイス及びサーバーはワークフロー700を実行することが可能である。より具体的には、データ・パイプライン・エンジン240を含む処理エンジンは、ワークフロー560に使用されてもよい。
ワークフロー600と同様に、ワークフロー700において、データベース252はオペレーション658においてモデル評価メトリックを提供することが可能である。モデル評価メトリックを使用して、データ・パイプライン・エンジン240は、オペレーション702において、KPIの最小の組み合わせを伴うモデルを識別することが可能である。識別されたモデルに基づいて、最終的なモデルは、最適な加重されたKPIパフォーマンスに基づいて選択されることが可能である(704)。例えば、データ・パイプライン・エンジン240は、加重されたKPIとモデル評価メトリック・パフォーマンスとに基づいて最終モデルを選択してもよい。
図8は、様々な実施形態による、適応予測モデルの評価のための例示的なワークフロー800を示す。様々な実施形態において、本件で開示される1つ以上のクライアント・デバイス及びサーバーはワークフロー800を実行することが可能である。より具体的には、データ・パイプライン・エンジン240を含む処理エンジンは、ワークフロー800に使用されてもよい。
ワークフロー800では、データベース252はオペレーション802においてデータ予測を提供することが可能である。データ予測は、感度、特異度、PPV、NPV、受信者動作特性(area under the receiver operating characteristic,AUROC)、PPV、病院KPI(例えば、患者の再入院率、患者の病院滞在期間、患者の死亡率など)及び/又は等々のような客観的な指標を計算するために使用することができるが、これらに限定されない。AUROC、PPV、病院KPIは、オペレーション804,806及び808においてデータ予測を使用して計算される。例えば、データ・パイプライン・エンジン240は、データ保護を使用して計算を実行することが可能である。AUCROC、PPV、及びKPIの計算は、オペレーション658でモデル評価メトリックに転送され、オペレーション810においてデータベース252に記憶されることが可能である。様々な実施形態において、AUROC PPV及びその他の伝統的なMLメトリックを取得するために、統計ツールにおいて予測を使用することが可能である。このような実施形態では、KPIが、予測から作成されるグループ化によって使用され、これらのメトリックがどの程度分離可能であるかを、シルエット・メトリック(silhouette metric)を見ることによって識別することが可能である。
図9は、様々な実施形態による、より高性能なモデルを決定する方法900のフローチャートを示す。方法900は、ネットワークを介して1つ以上のサーバーに結合されたクライアント・デバイスの任意の何れかによって少なくとも部分的に実行することが可能である(例えば、任意の1つのサーバー130、任意の1つのクライアント・デバイス110、及びネットワーク150)。例えば、様々な実施形態に従って、サーバーは、医療関係者又は医療従事者より持ち運ばれる1つ以上の医療機器又はポータブル・コンピュータ・デバイスをホストすることが可能である。クライアント・デバイス110は、医療施設の作業者又はその他の人員、又は、医療施設や病院の救急室、救急車に患者を搬送する救急車の救急隊員、又は、医療施設から離れた公共の場所や個人の住居で患者の世話をする者などのような、ユーザーによって携帯されるものであってもよい。方法900のステップの少なくとも一部は、コンピュータのメモリに記憶されたコマンドを実行するプロセッサを有するコンピュータによって実行されることが可能である(例えば、プロセッサ212とメモリ220)。様々な実施形態に従って、ユーザーは、ネットワークを介して、サーバー内のデータ・パイプライン・エンジンにアクセスするために、クライアント・デバイス内のアプリケーションを起動することが可能である(例えば、アプリケーション222及びデータ・パイプライン・エンジン240)。データ・パイプライン・エンジンは、リアル・タイムで臨床データを検索、供給、及び処理し、MLモデルを形成するための訓練データセットを提供するために、モデリング・ツール、統計ツール、データ解析ツール、データ・マスキング・ツール、及び類似性ツール(例えば、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、類似性ツール248)を含むことが可能である。
更に、方法900で開示されているようなステップは、とりわけトリガー論理エンジンを使用して、コンピュータの一部であるか、又はコンピュータと通信可能に結合されているデータベース内のファイルを検索、編集、及び/又は保存することを含む可能性がある(例えばデータベース252)。本開示に合致している方法は、方法900に示されているステップのうちの全てではなく少なくとも一部であって異なる順序で実行されるものを含む可能性がある。更に、本開示に合致する方法は、時間的に重複するか又はほぼ同時に実行される少なくとも2つ以上のステップを、方法900におけるものとして含む可能性がある。
ステップ902は、MLモデルの複数の形態を評価することを含む。例えば、その複数の形態は図15のステップ1502ないし1508において生じるものであってもよい。
ステップ902のモデル評価に基づいて、ステップ904ないし910で複数モデル最適化が実行されてもよい。最適化は、図9に示すように並行して実行されてもよいが、様々な実施形態では順次に(不図示)実行されてもよい。
ステップ904は、最適テンプレート・モデル・データを決定することを含む。例えば、最適テンプレート・モデルは、テンプレート・データだけで訓練された最適機械学習モデルを使用するものとして定義されてもよい。
ステップ906は、最適合成訓練モデルを決定することを含む。例えば、最適訓練済み合成モデルは、図10から特定された合成データセットで訓練された機械学習アルゴリズムを利用していてもよい。
ステップ908は、最適ベイズ・モデルを決定することを含む。例えば、最適ベイズ・モデルは、最適テンプレート・モデルから生成されたローカル・データの予測を含むことが可能である。これらの予測は、ローカル・データに関して訓練された新たなモデルの入力として使用されてもよい。
ステップ910は、最適化チューニング・モデルを決定することを含む。例えば、事前に訓練されたモデルがローカル・データで更に訓練されて、ローカル・データ用にチューニングされたモデルを生成することが可能である。
ステップ904-910の最適化されたモデルは、ステップ912において最も高く評価されたモデルを決定するために使用される可能性がある。例えば、図15に示すように、テスト・データのモデル評価メトリックとKPIの加重計算を利用して、最適モデルが発見されてもよい。
図10は、様々な実施形態による、機械学習モデルを特定の母集団に適応させる方法1000のフローチャートを示す。場合によっては、特定の母集団は、存在する可能性のある全ての表現型(phenotypes)のうち一部の表現型を示す可能性のある患者の母集団である可能性がある。例えば、特定の母集団は、(例えば、より多くの細菌性敗血症の患者集団とは対照的に)より多くのウイルス性敗血症の患者集団であってもよい。方法1000は、ネットワークを介して1つ以上のサーバーに結合されたクライアント・デバイスのうちの任意の1つによって少なくとも部分的に実行されてもよい(例えば、任意の1つのサーバー130、任意の1つのクライアント・デバイス110、及びネットワーク150)。例えば、様々な実施形態に従って、サーバーは、医療関係者又は医療従事者が携帯する1つ以上の医療機器又は携帯コンピュータ・デバイスをホストすることが可能である。クライアント・デバイス110は、医療施設の作業者又はその他の人員、又は、医療施設や病院の救急室、救急車に患者を搬送する救急車の救急隊員、又は、医療施設から離れた公共の場所や個人の住居で患者の世話をする者などのような、ユーザーによって携帯されるものであってもよい。方法1000のステップの少なくとも一部は、コンピュータのメモリに記憶されたコマンドを実行するプロセッサを有するコンピュータによって実行されることが可能である(例えば、プロセッサ212とメモリ220)。様々な実施形態に従って、ユーザーは、ネットワークを介して、サーバー内のデータ・パイプライン・エンジンにアクセスするために、クライアント・デバイス内のアプリケーションを起動することが可能である(例えば、アプリケーション222及びデータ・パイプライン・エンジン240)。データ・パイプライン・エンジンは、リアル・タイムで臨床データを検索、供給、及び処理し、MLモデルを形成するための訓練データセットを提供するために、モデリング・ツール、統計ツール、データ解析ツール、データ・マスキング・ツール、及び類似性ツール(例えば、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、類似性ツール248)を含むことが可能である。
更に、方法1000で開示されているようなステップは、とりわけトリガー論理エンジンを使用して、コンピュータの一部であるか、又はコンピュータと通信可能に結合されているデータベース内のファイルを検索、編集、及び/又は保存することを含む可能性がある(例えばデータベース252)。本開示に合致している方法は、方法1000に示されているステップのうちの全てではなく少なくとも一部であって異なる順序で実行されるものを含む可能性がある。更に、本開示に合致する方法は、時間的に重複するか又はほぼ同時に実行される少なくとも2つ以上のステップを、方法1000におけるものとして含む可能性がある。
ステップ1002は、医療施設に関連する患者のローカル・レコードを含むローカル・データセットを受信することを含む。データは、APIを介して2分間のバッチ(batch)で病院のSQLデータベースからデータを引き出すことによって受信されてもよい。様々な実施形態では、ステップ1002において、データは約2分単位で収集される。更に、ステップ1002は、FHIR APIを使用して、特定の患者に関する病院のEMRデータにアクセスすることを含む可能性がある。
ステップ1004は、テンプレート・レコードに基づいてクラスタを生成するためにクラスタリング機能を実行することを含む。場合によっては、複数のクラスタリング機能がテンプレート・レコードに関連付けられていてもよい。例えば、複数のクラスタリング機能は、テンプレート・レコードに基づいてクラスタを生成するために実行されてもよい。クラスタリング機能の例は、階層化方法やパーティショニング方法を含む。
ステップ1006は、テンプレート・レコードを含むテンプレート・データセットを取り出すことを含み、テンプレート・レコードは可変セントロイドを含むクラスタに編成されている。様々な実施形態において、テンプレート・レコードとローカル・レコードは、同様なグループ化セントロイドを有する可能性がある。このような実施形態では、(より多くのテンプレート・データを追加すること)vs(ローカル・データ)に関して何らの制約もない。代替的又は追加的に、テンプレート・レコードはデータベース内に記憶され、ステップ1006においてレコードは、ステップ1002で記憶又は計算されたレコード・マッピングに引き出される。
ステップ1008は、デモグラフィックと可変セントロイドを比較することによって、ローカル・レコードとテンプレート・レコードの間の類似性メトリックを計算することを含む。例えば、個々のローカル・データ・レコードからテンプレート・グループまでの類似性は、L1ノルム又はミンコフスキー距離(Minkowski Distance)を使用して計算され、最も近い又は最も類似するグループを決定してもよい。
ステップ1010は、テンプレート・レコードの少なくとも一部分とローカル・レコードの少なくとも一部分とを組み合わせることによって、合成データセットを生成することを含み、テンプレート・レコードの一部分は、テンプレート・クラスタ・セントロイドからの類似性閾値に基づいて選択される。検証ステップは、ローカル・データセットで必要とされる、テンプレート・データセット内の特徴入力の存在を確認することを含む可能性がある。必要に応じて、変換ステップが、テンプレート・データ特徴とローカル・データ特徴をマッピングするために使用されてもよい。更なる検証ステップは、ローカル・データセットと、機械学習変数の新しい合成平均及び標準偏差とを比較することを含む可能性がある。例えば、プロセスは、単変量分析(univariate analysis)を使用して、機械学習の主要な特徴や、医療成果のローカル・データセットから逸脱を特定することを含む可能性がある。他のプロセスは、ユーザーが指定した最小数のローカル・データ・レコードが存在しない場合に、ユーザーが指定した成果を詳細化するために使用される可能性がある。合成データは、訓練データベース252-2に存在していてもよい。
ステップ1012は、合成データセットを訓練合成データセットと検証合成データセットに分離することを含む。データは、そのデータを80%及び20%の区分けで分離するように課されたルールを有する可能性があり、この場合、両方の区分に存在するレコードidsは存在しない。様々な実施形態では、訓練合成データセット及び検証合成データセットの比率は、同じ検証データセットでモデルを比較するために、全てのモデルにわたって一貫して保たれる。
ステップ1014は、訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行することによって、予測モデルを生成することを含む。例えば、続く可能性のある方法は図5に示されている。様々な実施形態において、予測モデル・ステップ1014は、免疫系の脱調節(immune system deregulation)を評価するためのリスク・スコアを出力するように構成されていてもよい。例えば、予測モデル・ステップ1014は、最適化された閾値処理を通じてリスク・スコアを生成してもよい。
ステップ1016は、検証合成データセットを使用して、チューニングされたテンプレート・モデル又は新たな予測モデルを検証することを含む。様々な実施形態では、チューニングされたモデルを検証することは、ベースライン・モデル(ローカル・データに関してテンプレート・モデルを使用すること)が、何らかの新たなモデルによってパフォーマンスを上回るかどうかを判断することを含む可能性がある。そのような実施形態では、ステップ1016は、プロセスを合理化するために、ハイパーパラメータに対してユーザーが定めた数の修正を実行することを含む可能性がある。
方法1000の様々な実施形態において、データ・ストリームはデータ解析ツール246によってリアル・タイムで処理されてもよく、ローカル・レコードはデータ・マスキング・ツール247によって不特定化されてもよい。様々な実施形態において、データベースは、事前に訓練されたモデル、テンプレート・レコード、及びモデル評価メトリックを含む可能性がある。
様々な実施形態において、合成データセットを生成することは、ローカル・データセットに欠けているクラスタであって、テンプレート・データセットに存在するものを確認することを含む。様々な実施形態において、チューニングされたテンプレート・モデル又は新たな予測モデルを検証することは、医療の重要業績指標(KPI)に基づいてハイパーパラメータを調整することを含む。様々な実施形態において、クラスタは、データの正規化を実行することを含むクラスタリング機能を実行することによって、テンプレート・レコードに基づいて生成されてもよい。
方法1000の様々な実施形態において、機械学習予測モデルを生成することは、更に:
テンプレート・モデルをローカル・レコードを用いて訓練データとして適合させることにより、第1のチューニングされたモデルを生成すること;テンプレート・モデルを訓練合成データセットを用いて適合させることにより、第2のチューニングされたモデルを生成すること;ローカル・レコードを訓練データとして用いて第1の新たなモデルを生成すること;訓練合成データセットを用いて第2の新たなモデルを生成すること;及び、第1のチューニングされたモデル、第2のチューニングされたモデル、第1の新たなモデル、及び第2の新たなモデルを比較して、最も高く評価されたモデルを決定することを含む。様々な実施形態において、第1のチューニングされたモデル、第2のチューニングされたモデル、第1の新たなモデル、及び第2の新たなモデルを比較することは、第1のチューニングされたモデル、第2のチューニングされたモデル、第1の新たなモデル、及び第2の新たなモデルの重み付けされたKPIに基づいて、最終モデルを選択することを含む。場合によっては、第1のチューニングされたモデル、第2のチューニングされたモデル、第1の新たなモデル、及び第2の新たなモデルのうちの1つ以上が、それぞれ複数のバージョンを含む場合があり、そのため、これらのモデルの比較は、複数のバージョンからモデルのサブセットを形成することを含む場合があり、その結果、最終的なモデルは、モデルのサブセット内のモデル・バージョンの加重KPIに基づいて選択されることが可能である。
テンプレート・モデルをローカル・レコードを用いて訓練データとして適合させることにより、第1のチューニングされたモデルを生成すること;テンプレート・モデルを訓練合成データセットを用いて適合させることにより、第2のチューニングされたモデルを生成すること;ローカル・レコードを訓練データとして用いて第1の新たなモデルを生成すること;訓練合成データセットを用いて第2の新たなモデルを生成すること;及び、第1のチューニングされたモデル、第2のチューニングされたモデル、第1の新たなモデル、及び第2の新たなモデルを比較して、最も高く評価されたモデルを決定することを含む。様々な実施形態において、第1のチューニングされたモデル、第2のチューニングされたモデル、第1の新たなモデル、及び第2の新たなモデルを比較することは、第1のチューニングされたモデル、第2のチューニングされたモデル、第1の新たなモデル、及び第2の新たなモデルの重み付けされたKPIに基づいて、最終モデルを選択することを含む。場合によっては、第1のチューニングされたモデル、第2のチューニングされたモデル、第1の新たなモデル、及び第2の新たなモデルのうちの1つ以上が、それぞれ複数のバージョンを含む場合があり、そのため、これらのモデルの比較は、複数のバージョンからモデルのサブセットを形成することを含む場合があり、その結果、最終的なモデルは、モデルのサブセット内のモデル・バージョンの加重KPIに基づいて選択されることが可能である。
様々な実施形態において、合成データセットを生成することは、メジアン又はモード欠測値補完(median or mode imputation)を用いてローカル・レコードに基づいて追加レコードを生成することを含む。様々な実施形態において、合成データセットを生成することは、ベイジアン・モデルを用いて、ローカル・レコードに関する検証データセットを生成することを含む。様々な実施形態において、チューニングされたテンプレート・モデル及び新たな予測モデルは、患者に対する処置を提供するために、初期処置予測を提供する。例えば、一部の例では、テンプレート・モデルを使用して、患者の処置予測を特定することが可能であり、その特定された処置予測は、新たな予測モデルを使用して患者に処置予測を提供する場合に、新たな予測モデルの基準値(base value)として使用されることが可能である。方法1000の様々な実施形態は、更に、初期処置予測に基づいて、第2の患者に処置を提供するための処置プロトコルを割り当てることを含み、各々の処置プロトコルは、チューニングされたテンプレート・モデルと新たな予測モデルに基づいて最適化される。処置の例は、抗生物質、流動体、ステロイド、人工呼吸器、抗凝固剤、及び/又は等々を提供することのような医師による処置を含む可能性があるが、これらに限定されない。
様々な実施形態において、ローカル・レコードとテンプレート・レコードは、医療施設の電子カルテ(electronic health records)から取り出された患者バイオマーカー情報を含む。方法1000の様々な実施形態は、高速医療相互運用リソース(fast healthcare interoperability resources,FHIR)アプリケーション・プログラミング・インターフェースにより、モデルの結果を医療施設へ送信することを更に含む。様々な実施形態において、合成データセットは、ローカル・データセットよりも大きい。
方法1000の様々な実施形態は、テンプレート・レコードに基づいてクラスタを生成するために、クラスタリング機能を実行することを更に含む。様々な実施形態において、ローカル・レコードは、複数のバイオマーカー・メタデータ・フィールドを含むバイオマーカー・レコードを含む。様々な実施形態において、クラスタリング機能を実行することは:テンプレート・レコード内の複数のテンプレート・メタデータ・フィールドのうちの1つ以上と整合していないミスマッチ・メタデータ・フィールドが含まれるバイオマーカー・レコードを含む正規化ベクトルを生成すること;ミスマッチ・メタデータ・フィールドの調整機能を識別すること;調整機能を、ミスマッチ・メタデータ・フィールドに対応するデータ・フィールドに適用することにより、正規化ベクトルにおけるバイオマーカー・レコードのデータ・フィールドを修正すること;及び、その修正されたバイオマーカー・レコードを含む正規化されたデータ・ファイルを生成することを更に含む。
様々な実施形態において、訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行することは、感染に起因する調節不全宿主反応(dysregulated host response caused by infection)のモデル予測確率を生成することを含む。様々な実施形態において、方法1000は、統計ツールを用いてモデル尺度を生成し;及び、モデル尺度をデータベースに記憶することが可能である。
図11は、様々な実施形態による、予測モデルを訓練するための合成データセットを生成する方法1100のフローチャートを示す。方法1100は、ネットワークを介して1つ以上のサーバーに結合されたクライアント・デバイスの任意の何れかによって少なくとも部分的に実行することが可能である(例えば、任意の1つのサーバー130、任意の1つのクライアント・デバイス110、及びネットワーク150)。例えば、様々な実施形態に従って、サーバーは、医療関係者又は医療従事者より持ち運ばれる1つ以上の医療機器又はポータブル・コンピュータ・デバイスをホストすることが可能である。クライアント・デバイス110は、医療施設の作業者又はその他の人員、又は、医療施設や病院の救急室、救急車に患者を搬送する救急車の救急隊員、又は、医療施設から離れた公共の場所や個人の住居で患者の世話をする者などのような、ユーザーによって携帯されるものであってもよい。方法1100のステップの少なくとも一部は、コンピュータのメモリに記憶されたコマンドを実行するプロセッサを有するコンピュータによって実行されることが可能である(例えば、プロセッサ212とメモリ220)。様々な実施形態に従って、ユーザーは、ネットワークを介して、サーバー内のデータ・パイプライン・エンジンにアクセスするために、クライアント・デバイス内のアプリケーションを起動することが可能である(例えば、アプリケーション222及びデータ・パイプライン・エンジン240)。データ・パイプライン・エンジンは、リアル・タイムで臨床データを検索、供給、及び処理し、MLモデルを形成するための訓練データセットを提供するために、モデリング・ツール、統計ツール、データ解析ツール、データ・マスキング・ツール、及び類似性ツール(例えば、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、類似性ツール248)を含むことが可能である。
更に、方法1100で開示されているようなステップは、とりわけトリガー論理エンジンを使用して、コンピュータの一部であるか、又はコンピュータと通信可能に結合されているデータベース内のファイルを検索、編集、及び/又は保存することを含む可能性がある(例えばデータベース252)。本開示に合致している方法は、方法1100に示されているステップのうちの全てではなく少なくとも一部であって異なる順序で実行されるものを含む可能性がある。更に、本開示に合致する方法は、時間的に重複するか又はほぼ同時に実行される少なくとも2つ以上のステップを、方法1100におけるものとして含む可能性がある。
ステップ1102は、データ及びメタデータを医療センターから受信することを含む。例えば、データ・パイプライン・エンジン240は、APIを介して医療センターから患者データを要求することが可能である。更に、一部又は全ての患者データを測定するために使用される病院の機器に関する情報が包含されてもよい。
ステップ1104は、受信したデータセットを解析して、データベース252-1のスキーマ・ルールに準拠している構造化された方法で、カラム(column)を読み込むことを含む。
ステップ1106は、受信したデータから個人識別情報をマスキングすることを含む。このプロセスの一例は、PHIである可能性のあるデータを識別するための長短期メモリ・ネットワーク(long short-term memory network,LSTM)のような機械学習アルゴリズムやルール・ベースのアルゴリズムを含む可能性がある。
ステップ1108は、データの正規化を実行することを含む。例えば、データ・パイプライン・エンジン240は、ローカル・レコードに関連付けられたメタデータに基づいて、テンプレート・レコードと正規化機能を利用して、医療施設からのローカル・レコードを正規化することが可能である。
ステップ1110は、モデリングと統計に必要とされる欠損値(missing values)を特定することを含む。様々な実施形態において、ステップ1110は、データを読み込んだ後に、(missing_values(data X))機能を実行することを含み、この機能は、各レコードにわたって解析し、ヌル(null)値が存在するかどうかを判断する。
ステップ1112は、合成データセットを使用して欠損値を入力することを含む。例えば、ステップ1112は、メジアン又はモード欠測値補完又はその他の欠測値補完技術を利用して、欠損値を生成することを含む可能性がある。ステップ1114は、合成データをデータベースへアップロードすることを含む。
図12は、様々な実施形態による、ローカル・データセットとテンプレート・データセットとの間の類似性を決定する方法1200のフローチャートを示す。方法1200は、ネットワークを介して1つ以上のサーバーに結合されたクライアント・デバイスの任意の何れかによって少なくとも部分的に実行することが可能である(例えば、任意の1つのサーバー130、任意の1つのクライアント・デバイス110、及びネットワーク150)。例えば、様々な実施形態に従って、サーバーは、医療関係者又は医療従事者より持ち運ばれる1つ以上の医療機器又はポータブル・コンピュータ・デバイスをホストすることが可能である。クライアント・デバイス110は、医療施設の作業者又はその他の人員、又は、医療施設や病院の救急室、救急車に患者を搬送する救急車の救急隊員、又は、医療施設から離れた公共の場所や個人の住居で患者の世話をする者などのような、ユーザーによって携帯されるものであってもよい。方法1200のステップの少なくとも一部は、コンピュータのメモリに記憶されたコマンドを実行するプロセッサを有するコンピュータによって実行されることが可能である(例えば、プロセッサ212とメモリ220)。様々な実施形態に従って、ユーザーは、ネットワークを介して、サーバー内のデータ・パイプライン・エンジンにアクセスするために、クライアント・デバイス内のアプリケーションを起動することが可能である(例えば、アプリケーション222及びデータ・パイプライン・エンジン240)。データ・パイプライン・エンジンは、リアル・タイムで臨床データを検索、供給、及び処理し、MLモデルを形成するための訓練データセットを提供するために、モデリング・ツール、統計ツール、データ解析ツール、データ・マスキング・ツール、及び類似性ツール(例えば、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、類似性ツール248)を含むことが可能である。
更に、方法1200で開示されているようなステップは、とりわけトリガー論理エンジンを使用して、コンピュータの一部であるか、又はコンピュータと通信可能に結合されているデータベース内のファイルを検索、編集、及び/又は保存することを含む可能性がある(例えばデータベース252)。本開示に合致している方法は、方法1200に示されているステップのうちの全てではなく少なくとも一部であって異なる順序で実行されるものを含む可能性がある。更に、本開示に合致する方法は、時間的に重複するか又はほぼ同時に実行される少なくとも2つ以上のステップを、方法1200におけるものとして含む可能性がある。
ステップ1202は、データベースからテンプレート・データを引き出すことを含む。例えば、データ・パイプライン・エンジン240は、テンプレート・レコード及び/又はモデルをデータベース252から引き出すことが可能である。
ステップ1204は、モデルにおける独立変数を用いてテンプレート・データをクラスタリングすることを含む。例えば、テンプレート・データをクラスタリングするためのデータは、データベース252から引き出されててもよい。
ステップ1206は、テンプレート・データから、ローカル・データセットにおける各レコードまでの類似性を計算することを含む。例えば、図18に関連して更に説明されるように、データ・パイプライン・エンジン240、より具体的には類似性ツール248は、類似性を判断するために、ローカル及びテンプレート・データセットにおけるデータのクラスタ間の距離を決定することが可能である。
図13は、様々な実施形態による、合成データセットにおいてローカル・レコードとテンプレート・レコードを結合する方法1300のフローチャートを示す。方法1300は、ネットワークを介して1つ以上のサーバーに結合されたクライアント・デバイスの任意の何れかによって少なくとも部分的に実行することが可能である(例えば、任意の1つのサーバー130、任意の1つのクライアント・デバイス110、及びネットワーク150)。例えば、様々な実施形態に従って、サーバーは、医療関係者又は医療従事者より持ち運ばれる1つ以上の医療機器又はポータブル・コンピュータ・デバイスをホストすることが可能である。クライアント・デバイス110は、医療施設の作業者又はその他の人員、又は、医療施設や病院の救急室、救急車に患者を搬送する救急車の救急隊員、又は、医療施設から離れた公共の場所や個人の住居で患者の世話をする者などのような、ユーザーによって携帯されるものであってもよい。方法1300のステップの少なくとも一部は、コンピュータのメモリに記憶されたコマンドを実行するプロセッサを有するコンピュータによって実行されることが可能である(例えば、プロセッサ212とメモリ220)。様々な実施形態に従って、ユーザーは、ネットワークを介して、サーバー内のデータ・パイプライン・エンジンにアクセスするために、クライアント・デバイス内のアプリケーションを起動することが可能である(例えば、アプリケーション222及びデータ・パイプライン・エンジン240)。データ・パイプライン・エンジンは、リアル・タイムで臨床データを検索、供給、及び処理し、MLモデルを形成するための訓練データセットを提供するために、モデリング・ツール、統計ツール、データ解析ツール、データ・マスキング・ツール、及び類似性ツール(例えば、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、類似性ツール248)を含むことが可能である。
更に、方法1300で開示されているようなステップは、とりわけトリガー論理エンジンを使用して、コンピュータの一部であるか、又はコンピュータと通信可能に結合されているデータベース内のファイルを検索、編集、及び/又は保存することを含む可能性がある(例えばデータベース252)。本開示に合致している方法は、方法1300に示されているステップのうちの全てではなく少なくとも一部であって異なる順序で実行されるものを含む可能性がある。更に、本開示に合致する方法は、時間的に重複するか又はほぼ同時に実行される少なくとも2つ以上のステップを、方法1300におけるものとして含む可能性がある。
ステップ1302は、ローカル・データのテンプレート・データに対する類似性を計算することを含む。例えば、図12に関連して説明されているように、データ・パイプライン・エンジン240は、クラスタ間の距離に基づいて、データセット間の類似性を決定することが可能である。
ステップ1304は、類似性閾値を指定することを含む。類似性閾値は、目標の用途、及び/又は、訓練データセットの品質に基づいていてもよく、ユーザーにより決定されてもよい。このような実施形態では、類似性閾値はユーザーにより決定されてもよい。
ステップ1306は、ステップ1304で指定される距離閾値を下回るクラスタに関連するレコードのテンプレート・データを破棄することを含む。ステップ1308は、テンプレート・データのサブセットとローカル・データとを組み合わせることを含む。
図14は、様々な実施形態による、テスト合成データセットを使用して機械学習モデルを評価する方法1400のフローチャートを示す。方法1400は、ネットワークを介して1つ以上のサーバーに結合されたクライアント・デバイスの任意の何れかによって少なくとも部分的に実行することが可能である(例えば、任意の1つのサーバー130、任意の1つのクライアント・デバイス110、及びネットワーク150)。例えば、様々な実施形態に従って、サーバーは、医療関係者又は医療従事者より持ち運ばれる1つ以上の医療機器又はポータブル・コンピュータ・デバイスをホストすることが可能である。クライアント・デバイス110は、医療施設の作業者又はその他の人員、又は、医療施設や病院の救急室、救急車に患者を搬送する救急車の救急隊員、又は、医療施設から離れた公共の場所や個人の住居で患者の世話をする者などのような、ユーザーによって携帯されるものであってもよい。方法1400のステップの少なくとも一部は、コンピュータのメモリに記憶されたコマンドを実行するプロセッサを有するコンピュータによって実行されることが可能である(例えば、プロセッサ212とメモリ220)。様々な実施形態に従って、ユーザーは、ネットワークを介して、サーバー内のデータ・パイプライン・エンジンにアクセスするために、クライアント・デバイス内のアプリケーションを起動することが可能である(例えば、アプリケーション222及びデータ・パイプライン・エンジン240)。データ・パイプライン・エンジンは、リアル・タイムで臨床データを検索、供給、及び処理し、MLモデルを形成するための訓練データセットを提供するために、モデリング・ツール、統計ツール、データ解析ツール、データ・マスキング・ツール、及び類似性ツール(例えば、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、類似性ツール248)を含むことが可能である。
更に、方法1400で開示されているようなステップは、とりわけトリガー論理エンジンを使用して、コンピュータの一部であるか、又はコンピュータと通信可能に結合されているデータベース内のファイルを検索、編集、及び/又は保存することを含む可能性がある(例えばデータベース252)。本開示に合致している方法は、方法1400に示されているステップのうちの全てではなく少なくとも一部であって異なる順序で実行されるものを含む可能性がある。更に、本開示に合致する方法は、時間的に重複するか又はほぼ同時に実行される少なくとも2つ以上のステップを、方法1400におけるものとして含む可能性がある。
ステップ1402は、例えば、データベース252からデータセットを取得することを含む。
ステップ1404は、データセットをモデル訓練データセットと検証データセットに分割することを含む。
ステップ1406は、訓練データセットを用いて、候補機械学習アルゴリズムを訓練することを含む。例示的な機械学習モデルは、ニューラル・ネットワーク、又はアンサンブル機械学習モデル(不図示)であるとすることが可能である。例示的な機械学習モデルは、ユーザー定義の反復回数に対する交差検証アプローチを使用したユーザー定義のハイパーパラメータ空間、モデル訓練データセットを使用することによって、訓練されることが可能である。機械学習モデルは、ユーザー指定事項の事前定義リストから選択されてもよい。
ステップ1408は、検証データセットに関して機械学習モデルを評価することを含む。例えば、評価は図15に示すステップに従うことが可能である。
図15は、様々な実施形態による、訓練合成データを使用して機械学習モデルを訓練する方法1500のフローチャートを示す。方法1500は、ネットワークを介して1つ以上のサーバーに結合されたクライアント・デバイスの任意の何れかによって少なくとも部分的に実行することが可能である(例えば、任意の1つのサーバー130、任意の1つのクライアント・デバイス110、及びネットワーク150)。例えば、様々な実施形態に従って、サーバーは、医療関係者又は医療従事者より持ち運ばれる1つ以上の医療機器又はポータブル・コンピュータ・デバイスをホストすることが可能である。クライアント・デバイス110は、医療施設の作業者又はその他の人員、又は、医療施設や病院の救急室、救急車に患者を搬送する救急車の救急隊員、又は、医療施設から離れた公共の場所や個人の住居で患者の世話をする者などのような、ユーザーによって携帯されるものであってもよい。方法1500のステップの少なくとも一部は、コンピュータのメモリに記憶されたコマンドを実行するプロセッサを有するコンピュータによって実行されることが可能である(例えば、プロセッサ212とメモリ220)。様々な実施形態に従って、ユーザーは、ネットワークを介して、サーバー内のデータ・パイプライン・エンジンにアクセスするために、クライアント・デバイス内のアプリケーションを起動することが可能である(例えば、アプリケーション222及びデータ・パイプライン・エンジン240)。データ・パイプライン・エンジンは、リアル・タイムで臨床データを検索、供給、及び処理し、MLモデルを形成するための訓練データセットを提供するために、モデリング・ツール、統計ツール、データ解析ツール、データ・マスキング・ツール、及び類似性ツール(例えば、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、類似性ツール248)を含むことが可能である。
更に、方法1500で開示されているようなステップは、とりわけトリガー論理エンジンを使用して、コンピュータの一部であるか、又はコンピュータと通信可能に結合されているデータベース内のファイルを検索、編集、及び/又は保存することを含む可能性がある(例えばデータベース252)。本開示に合致している方法は、方法1500に示されているステップのうちの全てではなく少なくとも一部であって異なる順序で実行されるものを含む可能性がある。更に、本開示に合致する方法は、時間的に重複するか又はほぼ同時に実行される少なくとも2つ以上のステップを、方法1500におけるものとして含む可能性がある。
ステップ1502は、訓練されたモデルを使用して、検証データセットの予測を生成することを含む。例えば、訓練されたモデルは、ローカル・データ又はテンプレート・データの一部を使用して作成又は修正された任意のモデルである可能性がある。
ステップ1504は、検証データセットのAUROC、感度、特異度、PPV、F1尺度、及びその他の機械学習メトリックを計算することを含む。計算は、統計ツール242によって実行されてもよい。
ステップ1506は、ユーザー定義範囲内の死亡イベント、入院期間、ユーザー定義範囲内の再入院、又は、ユーザー定義範囲内の病院部門のエスカレーションなどのような、病院KPIに関する影響を計算することを含む。例示的なメトリックは、30日以内の再入院、及び予測中のメトリックの統計的有意性を特定することであってもよい。
ステップ1508は、病院KPIの計算を洗練するための反復を実行することを含む可能性がある。従って、ステップ1508は、データセットに基づいて追加の予測を生成するために、ステップ1502に戻ることを含む可能性がある。しかしながら、追加の反復が実行されることを必要としない場合、プロセスはステップ1508からステップ1510へ移ることが可能である。反復基準は、ユーザーが定義した反復回数の完了、及び、ローカル・データに適用されたテンプレート・モデルとの比較によって定義されてもよい。
ステップ1510は、計算されたメトリックと病院KPIにおける最高パフォーマンスに対応する少なくとも1つのモデルを特定することを含む。例えば、選択基準は、計算されたメトリックと病院KPIの加重計算を使用してもよい(不図示)。
ステップ1512は、データセット全体に関する最終モデルを訓練することを含む。図6に関連して前述したように、最終モデルは、モデル選択ロジックにより選択されることが可能である。
図16は、様々な実施形態による、ローカル・レコードを正規化する方法1600のフローチャートを示す。方法1600は、ネットワークを介して1つ以上のサーバーに結合されたクライアント・デバイスの任意の何れかによって少なくとも部分的に実行することが可能である(例えば、任意の1つのサーバー130、任意の1つのクライアント・デバイス110、及びネットワーク150)。例えば、様々な実施形態に従って、サーバーは、医療関係者又は医療従事者より持ち運ばれる1つ以上の医療機器又はポータブル・コンピュータ・デバイスをホストすることが可能である。クライアント・デバイス110は、医療施設の作業者又はその他の人員、又は、医療施設や病院の救急室、救急車に患者を搬送する救急車の救急隊員、又は、医療施設から離れた公共の場所や個人の住居で患者の世話をする者などのような、ユーザーによって携帯されるものであってもよい。方法1600のステップの少なくとも一部は、コンピュータのメモリに記憶されたコマンドを実行するプロセッサを有するコンピュータによって実行されることが可能である(例えば、プロセッサ212とメモリ220)。様々な実施形態に従って、ユーザーは、ネットワークを介して、サーバー内のデータ・パイプライン・エンジンにアクセスするために、クライアント・デバイス内のアプリケーションを起動することが可能である(例えば、アプリケーション222及びデータ・パイプライン・エンジン240)。データ・パイプライン・エンジンは、リアル・タイムで臨床データを検索、供給、及び処理し、MLモデルを形成するための訓練データセットを提供するために、モデリング・ツール、統計ツール、データ解析ツール、データ・マスキング・ツール、及び類似性ツール(例えば、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、類似性ツール248)を含むことが可能である。
更に、方法1600で開示されているようなステップは、とりわけトリガー論理エンジンを使用して、コンピュータの一部であるか、又はコンピュータと通信可能に結合されているデータベース内のファイルを検索、編集、及び/又は保存することを含む可能性がある(例えばデータベース252)。本開示に合致している方法は、方法1600に示されているステップのうちの全てではなく少なくとも一部であって異なる順序で実行されるものを含む可能性がある。更に、本開示に合致する方法は、時間的に重複するか又はほぼ同時に実行される少なくとも2つ以上のステップを、方法1600におけるものとして含む可能性がある。
ステップ1602は、ローカル・データを不特定化することを含む。例えば、ステップ1602では、データ・マスキング・ツール247は、目標の医療施設の患者のローカル・レコードを不特定化(de-identify)することが可能である。
ステップ1604は、ローカル・データを、ローカル・メタデータとともに、正規化統計ツール244へ送信することを含む。様々な実施形態において、統計ツールは、複数のメタデータ・フィールドを含むデータ・ファイルを受信することが可能である。例えば、ステップ1604において、統計ツール244は、病院、臨床検査室、又は研究機関からバイオマーカーの記録を受け取ることが可能である。更に、統計ツール244は、正規化のためにテンプレート・レコードを識別及び/又は取得することが可能であり、テンプレート・レコードはテンプレート・メタデータ・フィールドを含む。これは、先ず、検証名を入力バイオマーカー・レコードから取り出し、次いで、対応する検証名を伴うエントリを、テンプレート・メモリ456から取り出すことによって実現されることが可能である。更に、統計ツール244は、テンプレートとは異なるメタデータ・フィールドを有するミスマッチ・バイオマーカー・レコードを含む正規化ベクトルを生成することが可能である。正規化ベクトルは、各メタデータ・フィールド間で反復的な比較を実行し、それらが等しいかどうかを判断し、特定のフィールドの値を、等しければ「1」に、等しくなければ「0」に設定することによって、形成されることが可能である。従って、正規化ベクトルは:{field1:1/0,field2:1/0,...,fieldN:1/0}というフォーマットによるものである。
ステップ1606は、メタデータに関連付けられた関連する正規化関数を識別することを含む。例えば、ステップ1606には、バイオマーカー・レコード・データ内のメタデータ・フィールドを解析し、レコード・データとテンプレート・データとの間でメタデータ・フィールドの数を比較することを含む可能性がある。例えば、統計ツール244は、ローカル・レコード内のメタデータ・フィールドを読み込み、受信したバイオマーカー・レコード内のメタデータ・フィールドの数を、テンプレート・メモリに保存されているサンプルと比較することが可能である。更に、ステップ1606は、メタデータ・フィールドの数が同じであるかどうかを判断し、メタデータ・フィールドが同じでない場合に、調整機能を選択することを含む可能性がある。
ステップ1608は、それぞれのローカル・データ変数に正規化関数/係数を適用することを含む。例えば、ステップ1608は、調整機能を適用することによって、正規化ベクトル内のバイオマーカー・レコードのデータ・フィールドを変更することを含むことが可能である。具体的には、正規化ベクトル内の各メタデータ・フィールド名について、値が「1」に等しいかどうかを確認し、等しい場合は、対応する調整機能を特定及び/又は取得する。例えば、バイオマーカー・レコードが与えられている場合に、検証名を抽出し、次いで、対応するメタデータ・フィールドと組み合わせたその検証名を、調整機能(Adjust Functions)へのインデックスとして使用し、Adjust Functionsは対応する調整機能を出力することができる。調整機能が取得された後に、次いでそれはバイオマーカー・レコードに適用されることが可能である。
図17は、様々な実施形態による、機械学習モデルにおけるハイパーパラメータをチューニングする方法1700のフローチャートを示す。方法1700は、ネットワークを介して1つ以上のサーバーに結合されたクライアント・デバイスの任意の何れかによって少なくとも部分的に実行することが可能である(例えば、任意の1つのサーバー130、任意の1つのクライアント・デバイス110、及びネットワーク150)。例えば、様々な実施形態に従って、サーバーは、医療関係者又は医療従事者より持ち運ばれる1つ以上の医療機器又はポータブル・コンピュータ・デバイスをホストすることが可能である。クライアント・デバイス110は、医療施設の作業者又はその他の人員、又は、医療施設や病院の救急室、救急車に患者を搬送する救急車の救急隊員、又は、医療施設から離れた公共の場所や個人の住居で患者の世話をする者などのような、ユーザーによって携帯されるものであってもよい。方法1700のステップの少なくとも一部は、コンピュータのメモリに記憶されたコマンドを実行するプロセッサを有するコンピュータによって実行されることが可能である(例えば、プロセッサ212とメモリ220)。様々な実施形態に従って、ユーザーは、ネットワークを介して、サーバー内のデータ・パイプライン・エンジンにアクセスするために、クライアント・デバイス内のアプリケーションを起動することが可能である(例えば、アプリケーション222及びデータ・パイプライン・エンジン240)。データ・パイプライン・エンジンは、リアル・タイムで臨床データを検索、供給、及び処理し、MLモデルを形成するための訓練データセットを提供するために、モデリング・ツール、統計ツール、データ解析ツール、データ・マスキング・ツール、及び類似性ツール(例えば、モデリング・ツール242、統計ツール244、データ解析ツール246、データ・マスキング・ツール247、類似性ツール248)を含むことが可能である。
更に、方法1700で開示されているようなステップは、とりわけトリガー論理エンジンを使用して、コンピュータの一部であるか、又はコンピュータと通信可能に結合されているデータベース内のファイルを検索、編集、及び/又は保存することを含む可能性がある(例えばデータベース252)。本開示に合致している方法は、方法1700に示されているステップのうちの全てではなく少なくとも一部であって異なる順序で実行されるものを含む可能性がある。更に、本開示に合致する方法は、時間的に重複するか又はほぼ同時に実行される少なくとも2つ以上のステップを、方法1700におけるものとして含む可能性がある。
ステップ1702は、モデル・アーキテクチャに基づいて検索空間を作成することを含む。例えば、ステップ1702では、データ・パイプライン・エンジン240がハイパーパラメータ空間を定義する可能性がある。ステップ1704では、グリッド検索、ランダム検索、ベイズ最適化、又は進化した最適化のうちの1つ以上を含む可能性がある検索方法を選択することを含む。ステップ1706は、ステップ1704で選択した検索方法を使用して、ハイパーパラメータ検索空間において新たな設定を選択することを含む。例えば、データ・パイプライン・エンジン240は、候補MLモデルのハイパーパラメータの組み合わせを識別するために、ベイズ最適化を実行することが可能である。また、ステップ1708は、選択されたオプションを使用してモデルを生成することを含む。
ステップ1710は、訓練合成データセットを使用するモデルを訓練することを含む。例えば、モデリング・ツール242は、医療施設のローカル・レコードとテンプレート・レコードを組み合わせた合成訓練データセットに基づいて、アンサンブル機械学習モデルを生成することが可能である。ステップ1712は、検証合成データセットを使用してモデルの精度を計算し、モデルの構成と精度を保存することを含む。
ステップ1714は、方法1700が目標の反復回数を完了したか、又は、ステップ1712で評価されたモデルが目標の精度を達成したかを判断する。目標の反復回数が完了していない場合、又は、モデルが目標の精度を達成していなかった場合(ステップ1714:No)、方法1700はステップ1706に戻り、検索空間内の新たな設定を選択して、別のハイパーパラメータの組み合わせをテストすることが可能である。しかしながら、目標の反復回数を完了した場合、又は、モデルがその目標の精度を達成した場合(ステップ1714:Yes)、方法1700はステップ1716に進むことが可能である。
ステップ1716は、目標又は最高の精度でモデルのハイパーパラメータ値とポジションを報告することを含む。目標は、図15で特定されたメトリックを含む可能性がある。
図18は、様々な実施形態による、クラスタリングされたローカル・レコードとテンプレート・レコードの図式的表現1800を示す。図式的表現1800は、次元(dimension)と値(value)に対して編成されたテンプレート・レコードとローカル・レコードを示している。図式的表現1800は、ローカル・クラスタ1802A,1802B,1802C,1802Dを示している。ローカル・クラスタ1802A-Dは、セントロイドについての或る距離の内側にあるローカル・レコードをグループ化している可能性がある。様々な実施形態において、1つ以上のプロセッサ212は、ローカル・クラスタ1802A-Dを生成するために、階層的クラスタリング、ファジー(Fuzzy)クラスタリング、密度ベース・クラスタリング、又はモデル・ベース・クラスタリングのようなクラスタリング演算を実行することが可能である。
同様に、図式的表現1800は、テンプレート・クラスタ1804A,1804B,1804C,1804Dを示している。テンプレート・クラスタ1804A-Dは、セントロイドについての或る距離の内側にあるローカル・レコードをグループ化している可能性がある。ローカル・クラスタ1802A-Dと同様に、プロセッサ212は、階層的クラスタリング、ファジー・クラスタリング、密度ベース・クラスタリング、又はモデル・ベース・クラスタリングのようなクラスタリング技術を使用して、テンプレート・クラスタ1804A-Dを生成することが可能である。
図式的表現1800は、クラスタ距離1806A,1806B,1806C,1806Dも示している。クラスタ距離1806A-Dは、類似性定義ツール248によって推定することが可能である。図12に関連して説明されているように、類似性定義ツール248は、クラスタ距離1806A-Dに基づいて、テンプレート・データに対する、ローカル・データセット内の各レコードからの類似性を計算することが可能である。様々な実施形態において、合成レコード及び合成データセットの生成は、クラスタ距離1806A-Dに基づいて生成されることが可能である。
図19は、様々な実施形態による、レコード・クラスタリングの図式的表現1900を示す。表現1900において、最上位にある数字はグルーピングを示す。y軸はデータセット内の異なるカラムに関係し、x軸は患者レコードのインクリメントである。トーンは、レコードと患者に対する値の大きさを示す。
図20は、様々な実施形態による、合成訓練データセットを用いる機械学習モデル訓練の図式的表現2000を示す。図式的表現2000は、元の母集団2002を用いてMLモデルを訓練する標準プロセス2000を示す。図20に示すように、プロセス2000では、MLモデルは、データを正規化し、モデルを訓練及びチューニングし、次いでモデル評価を実行するというシーケンス2004を通じて生成されることが可能である。プロセス2000のモデリングは、完全な訓練データセットを有する医療施設に関して使用されることが可能である。
図式的表現2000は、改良されたプロセス2050も示しており、そのプロセスではMLモデルが別の新たな集団2052で訓練される。様々な実施形態において、新たな集団2052はMLモデルを訓練するには不十分なものとなるであろう。例えば、新たな集団2052は十分な数のサンプルを含んでいない可能性がある。しかしながら、前述したように、データ・パイプライン・エンジン240は、元の集団2002を使用し、且つそれを新たな集団2052と組み合わせて、合成データセットを、特定されたデモグラフィック及び/又はサブグループの決定に基づいて作成することが可能である。合成データセットは、修正されたモデリング・シーケンス2054を用いて、モデルの進展を可能にすることができる。
図21は、図1及び図2のクライアント・デバイス110及びサーバー130並びに図9-17で説明された方法を実装することが可能な例示的なコンピュータ・システム2100を示すブロック図である。様々な態様において、コンピュータ・システム2100は、ハードウェア、又は、ソフトウェアとハードウェアの組み合わせを使用して、専用のサーバーにて実装されるか、別のエンティティに統合されるか、又は、複数のエンティティに分散されることが可能である。
コンピュータ・システム2100(例えば、クライアント・デバイス110とサーバー130)は、情報を通信するためのバス2108又はその他の通信メカニズムと、情報を処理するためにバス2108と結合されたプロセッサ2102(例えば、プロセッサ212)とを含む。具体例として、コンピュータ・システム2100は、1つ以上のプロセッサ2102を用いて実装されてもよい。プロセッサ2102は、汎用マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラマブル論理デバイス(PLD)、コントローラ、状態マシン、ゲート制御ロジック、個別ハードウェア構成要素、又はその他の適切な任意のエンティティであって計算又はその他の情報処理を実行することが可能なものであってもよい。
コンピュータ・システム2100は、ハードウェアに加えて、対象のコンピュータ・プログラムの実行環境を作成するコード、例えば、プロセッサ・ファームウェア、プロトコル・スタック、データベース管理システム、オペレーティング・システムを構成するコード、又は、それらのうちの1つ以上の組み合わせであって包含されているメモリ2104(例えば、メモリ220)に記憶されるものを含むことが可能であり、メモリは、ランダム・アクセス・メモリ(RAM)、フラッシュ・メモリ、リード・オンリー・メモリ(ROM)、プログラマブル・リード・オンリー・メモリ(PROM)、消去可能PROM(EPROM)、レジスタ、ハード・ディスク、リムーバブル・ディスク、CD-ROM、DVD、又はその他の適切な任意のストレージ・デバイスのようなものであり、バス2108に結合されて、プロセッサ2102によって実行される情報及び命令を格納する。プロセッサ2102とメモリ2104は、特別な目的の論理回路によって補完され又は組み込まれることが可能である。
命令は、メモリ2104に格納され、1つ以上のコンピュータ・プログラム製品、即ち、コンピュータ・システム2100によって実行するため又はその動作を制御するためにコンピュータ読み取り可能な媒体上にエンコードされたコンピュータ・プログラム命令の1つ以上のモジュールにおいて実装されることが可能であり、また、データ指向言語(e.g.,SQL,dBase)、システム言語(例えば、C,Objective-C,C++,アセンブリ)、アーキテクチャ言語(e.g.,Java,NET)、アプリケーション言語(e.g.,PHP,Ruby,Perl,Python)のようなコンピュータ言語を含むが、これらに限定されない、当業者によく知られた任意の方法に従って実装されることが可能である。命令は、配列言語、アスペクト指向言語、アセンブリ言語、オーサリング言語、コマンド・ライン・インターフェース言語、コンパイル言語、同時実行言語、中括弧言語、データフロー言語、データ構造化言語、宣言型言語、難解言語、拡張言語、第4世代言語、関数型言語、インタラクティブ・モード言語、インタープリタ言語、反復言語、リスト・ベース言語、リトル言語、ロジック・ベース言語、マシン言語、マクロ言語、メタプログラミング言語、マルチ・パラダイム言語、数値解析、非英語ベース言語、オブジェクト指向クラス・ベース言語、オブジェクト指向プロトタイプ・ベース言語、オフ・サイド・ルール言語、手続き型言語、リフレクティブ言語、ルール・ベース言語、スクリプト言語、スタック・ベース言語、同期言語、構文処理言語、視覚言語、ウィズ・ランゲージ(with languages)、及び、xmlベース言語のようなコンピュータ言語で実装することも可能である。メモリ2104は、プロセッサ2102によって実行される命令の実行中に、一時変数又はその他の中間情報を記憶するために使用されることも可能である。
本件で説明されるコンピュータ・プログラムは、必ずしもファイル・システム内のファイルに対応するとは限らない。プログラムは、他のプログラム又はデータを保持するファイルの一部分(例えば、マークアップ言語ドキュメントに格納される1つ以上のスクリプト)、問題としているプログラムに専用の単一のファイル、又は、複数のコーディネートされたファイル(例えば、1つ以上のモジュール、サブプログラム、又はコードの一部分を格納するファイル)に格納されることが可能である。コンピュータ・プログラムは、1台のコンピュータ又は複数のコンピュータであって、1つのサイトに配置されているか又は複数のサイトにわたって分散されて通信ネットワークで相互接続されているものにおいて、実行されるように配備することが可能である。本件明細書で説明されているプロセス及び論理フローは、1つ以上のプログラマブル・プロセッサが1つ以上のコンピュータ・プログラムを実行することによって実行され、入力データを処理して出力を生成することによって機能を実行することが可能である。
コンピュータ・システム2100は、磁気ディスク又は光ディスクのようなデータ記憶デバイス1406であって情報と命令を記憶するためにバス2108に結合されているものを更に含む。コンピュータ・システム2100は、入/出力モジュール2110を介して様々なデバイスに結合されることが可能である。入/出力モジュール2110は、任意の入/出力モジュールであるとすることが可能である。例示的な入/出力モジュール2110は、USBポートのようなデータ・ポートを含む。入/出力モジュール2110は、通信モジュール2112に接続されるように構成されている。例示的な通信モジュール2112(例えば、通信モジュール218)は、イーサーネット・カード及びモデムのようなネットワーキング・インターフェース・カードを含む。様々な態様において、入/出力モジュール2110は、入力デバイス2114(例えば、入力デバイス214)及び/又は出力デバイス2116(例えば、出力デバイス216)のような複数のデバイスに接続されるように構成されている。例示的な入力デバイス2114は、キーボードやポインティング・デバイス、例えばマウスやトラックボールを含み、これによりユーザーはコンピュータ・システム2100に入力を提供することができる。他の種類の入力デバイス2114を使用して、触覚入力デバイス、視覚入力デバイス、音声入力デバイス、ブレイン・コンピュータ・インターフェース・デバイスのような、ユーザーとの対話を提供することも可能である。例えば、ユーザーに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックのような、何らかの形態の感覚フィードバックであるとすることが可能であり;また、ユーザーからの入力は、音響、スピーチ、触覚、脳波入力を含む任意の形態で受け取ることが可能である。例示的な出力デバイス2116は、ユーザーに情報を表示するための液晶ディスプレイ(LCD)モニタのような表示デバイスを含む。
本開示の一態様によれば、クライアント・デバイス110及びサーバー130は、プロセッサ2102がメモリ1404に含まれている1つ以上の命令の1つ以上のシーケンスを実行することに応じて、コンピュータ・システム2100を使用して実現されることが可能である。そのような命令は、データ記憶デバイス2106のような別の機械読み取り可能な媒体からメモリ2104に読み込まれてもよい。メイン・メモリ2104に含まれる命令シーケンスの実行により、本件で説明するプロセス・ステップをプロセッサ2102に実行させる。メモリ1404に含まれる命令シーケンスを実行するために、マルチ・プロセッシング配置における1つ以上のプロセッサが使用されてもよい。別の態様において、本開示の様々な態様を実装するために、ソフトウェア命令の代わりに又はソフトウェア命令と組み合わせて、有線回路が使用されてもよい。従って、本開示の態様は、ハードウェア回路とソフトウェアの何らかの特定の組み合わせに限定されない。
本件明細書に記述されている対象事項の様々な態様は、例えばデータ・サーバーのようなバック・エンド構成要素を含む演算システム、又は、アプリケーション・サーバーのようなミドルウェア構成要素を含む演算システム、又は、フロント・エンド構成要素、例えば、グラフィカル・ユーザー・インターフェース又はウェブ・ブラウザを有するクライアント構成要素を含む演算システムにおいて実現されることが可能であり、グラフィカル・ユーザー・インターフェース又はウェブ・ブラウザを介して、ユーザーは、本件明細書で説明される対象事項の実現手段とやり取りを行うことが可能であり、或いは、そのような1つ以上のバック・エンド構成要素、ミドルウェア構成要素、又はフロント・エンド構成要素の任意の組み合わせを含む演算システムにおいて実現されることが可能である。システムの構成要素は、例えば通信ネットワークのような、デジタル・データ通信の任意の形態又は媒体によって相互接続されることが可能である。通信ネットワーク(例えば、ネットワーク150)は、例えば、LAN、WAN、インターネット等のうちの任意の1つ以上を含むことが可能である。更に、通信ネットワークは、以下のネットワーク・トポロジ、例えば、バス・ネットワーク、スター・ネットワーク、リング・ネットワーク、メッシュ・ネットワーク、スター・バス・ネットワーク、ツリー又は階層型ネットワークなどを含むがこれらに限定されない任意の1つ以上を含むことが可能である。通信モジュールは、例えば、モデム又はイーサーネット・カードであるとすることが可能である。
コンピュータ・システム2100は、クライアントとサーバーを含むことが可能である。クライアントとサーバーは、一般的には、互いに離れており、通常、通信ネットワークを介して相互作用する。クライアントとサーバーの関係は、それぞれのコンピュータで動作するコンピュータ・プログラムによって、及び、互いに対してクライアント_サーバーの関係を持つことによって生じる。コンピュータ・システム2100は、例えば限定を伴うことなく、デスクトップ・コンピュータ、ラップトップ・コンピュータ、又はタブレット・コンピュータであるとすることが可能である。コンピュータ・システム2100は、他のデバイス、例えば限定を伴うことなく、携帯電話、PDA、モバイル・オーディオ・プレーヤー、グローバル・ポジショニング・システム(GPS)受信機、ビデオ・ゲーム・コンソール、及び/又は、テレビのセット・トップ・ボックスに組み込まれることも可能である。
本件で使用されるような「機械読み取り可能な記憶媒体」又は「コンピュータ読み取り可能な媒体」という用語は、実行のためにプロセッサ2102へ命令を提供することに関与する単一又は複数の媒体を指す。このような媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含むがこれらに限定されない多くの形態をとることが可能である。不揮発性媒体は、例えば、データ記憶デバイス1406のような光学ディスクや磁気ディスクを含む。揮発性媒体は、メモリ2104のようなダイナミック・メモリを含む。伝送媒体には、同軸ケーブル、銅線、光ファイバーであってバス2108を含むワイヤを含むものが含まれる。機械読み取り可能な媒体の一般的な形態は、例えば、フロッピー・ディスク、フレキシブル・ディスク、ハード・ディスク、磁気テープ、その他の任意の磁気媒体、CD-ROM、DVD、その他の任意の光学媒体、パンチ・カード、紙テープ、穴のパターンを有するその他の任意の物理媒体、RAM、PROM、EPROM、FLASH EPROM、その他の任意のメモリ・チップ又はカートリッジ、或いは、コンピュータが読み取ることが可能なその他の任意の媒体を含む。機械読み取り可能な記憶媒体は、機械読み取り可能なストレージ・デバイス、機械読み取り可能なストレージ基板、メモリ・デバイス、機械読み取り可能な伝播信号に影響を及ぼす物質の構成、又は、それらの1つ以上の組み合わせであるとすることが可能である。
図22は、本開示の様々な実施形態に従って、機械学習モデルを実装するために使用することが可能な例示的なニューラル・ネットワークを示している。図22は非限定的な例示であること、及び、他のタイプのニューラル・ネットワーク又はAI/MLアルゴリズムは、本開示の様々な実施形態に従って、機械学習モデルを実装するために使用可能であることが、理解されるべきである。
図示されているように、人工ニューラル・ネットワーク2200は、3つの層:入力層2202、隠れ層2204、及び出力層2206を含む。層2202、2204、及び2206の各々は1つ以上のノードを含む可能性がある。例えば、入力層2202はノード2208-2214を含み、隠れ層2204はノード2216-2218を含み、出力層2206はノード2222を含む。この例では、層の中の各ノードは隣接する層の中の全てのノードに接続されている。例えば、入力層2202のノード2208は、隠れ層2204のノード2216、2218の両方に接続されている。同様に、隠れ層のノード2216は、入力層2202のノード2208-2214、及び出力層2206のノード2222の全てに接続されている。唯1つの隠れ層がニューラル・ネットワーク2200に関して示されているが、本件で開示される機械学習モデルを実装するために使用されるニューラル・ネットワーク2200は、必要とされる又は所望の個数の隠れ層を含む可能性がある、ということが想定されている。
この例では、ニューラル・ネットワーク2200は入力値のセットを受け取り、出力値を生成する。入力層2202の各ノードは、個々の入力値に対応することが可能である。例えば、ニューラル・ネットワーク2200が、本件で開示される機械学習モデルを実装するために使用される場合、入力層2202の各ノードは入力データ{Xi(tx)}に対応してる可能性がある。
様々な実施形態において、隠れ層2204の各ノード2216-2218は、ノード2208-2214から受信した入力値に基づいて値を生成する数学的演算(又はアルゴリズム)を含む可能性がある表現を生成する。数学的演算は、ノード2208-2214から受信した各データ値に、様々な重みを割り当てることを含む。ノード2216及び2218は、ノード2208-2214からのデータ変数に割り当てられる様々なアルゴリズム及び/又は様々な重みを含む可能性があり、その結果、各ノード2216-2218は、同じノード2208-2214から受信される入力値に基づいて、様々な値を生成することが可能である。様々な実施形態において、各ノード2216-2218の特徴(又は入力値)に初期に割り当てられる重みは、(例えば、コンピュータの乱数生成器を用いて)ランダムに生成されてもよい。ノード2216及び2218によって生成された値は、ニューラル・ネットワーク2200の出力値を生成するために、出力層2206のノード2222によって使用されることが可能である。本件で開示される機械学習モデルを実装するためにニューラル・ネットワーク2200が使用される場合、ニューラル・ネットワーク2200によって生成される出力値は、帰属データ(imputed data){Yi(tx)}を示す可能性がある。
ニューラル・ネットワーク2200は、訓練データを使用することによって訓練されることが可能である。例えば、本件における訓練データは、訓練データベース252-2からの訓練データセットであってもよい。訓練データをニューラル・ネットワーク2200に提供することによって、隠れ層2204のノード2216-2218は、訓練データに基づいて出力層2206で最適な出力が生成されるように、訓練(調整)されることが可能である。訓練データの様々なセットを継続的に提供し、ニューラル・ネットワーク2200の出力が正しくない場合に、ニューラル・ネットワーク2200にペナルティを課すことによって、ニューラル・ネットワーク2200(及び具体的には、隠れ層2204のノードの表現)は、データ正規化におけるパフォーマンスを向上させるように訓練(調整)されることが可能である。ニューラル・ネットワーク2200を調整することは、隠れ層2204内の各ノードに関連付けられる重みを調整することを含む可能性がある。
上記の議論は、機械学習モデルの一例として、ニューラル・ネットワークに関連しているが、他のタイプのAI/ML手法も、本開示の様々な態様を実装するのに適している可能性がある、ということが理解される。例えば、サポート・ベクター・マシン(support vector machine,SVM)が、機械学習を実装するために使用されてもよい。SVMは、分類と回帰に使用される関連する一組の教師あり学習方法である。SVM訓練アルゴリズム(非確率的バイナリ線型分類器である可能性がある)は、新しい事例(new example)が何れかのカテゴリ又はそれ以外に分類されるかどうかを予測するモデルを構築することが可能である。別の例として、ベイジアン・ネットワークが、機械学習を実装するために使用されてもよい。ベイジアン・ネットワークは、非巡回確率的グラフィカル・モデル(acyclic probabilistic graphical model)であって、一組のランダム変数と、有向非巡回グラフ(directed acyclic graph,DAG)を用いた条件付き独立性とを表現するものである。ベイジアン・ネットワークは、ある変数と別の変数との間の確率的関係を示すことができる。別の例は、機械学習プロセスを実行するために、決定木学習モデルを採用する機械学習エンジンである。場合によっては、決定木学習モデルは、分類木モデルだけでなく回帰木モデルも含む可能性がある。様々な実施形態において、機械学習エンジンは、回帰木モデルとして、勾配ブースティング・マシン(Gradient Boosting Machine,GBM)モデル(e.g.,XGBoost)を採用する。ランダム・フォレストやディープ・ニューラル・ネットワークにより、機械学習エンジンを実装するために、他の機械学習技術が使用されてもよい。他のタイプの機械学習アルゴリズムについては、簡略性の理由から本件で詳細には議論されておらず、また、本開示は特定のタイプの機械学習に限定されないことが理解される。
本件で使用されるように、一連のアイテムにつながる「少なくとも1つの」という語句であって、何らかのアイテムを分離する「及び」又は「又は」という用語を伴うものは、そのリストの各メンバー(即ち、各アイテム)ではなく、リストを全体的に修飾している。「少なくとも1つの」という語句は、少なくとも1つのアイテムの選択を必須とはしておらず;むしろ、その語句は、任意の何れかのアイテムの少なくとも1つ、及び/又は、任意のアイテムの組み合わせの少なくとも1つ、及び/又は、各アイテムの少なくとも1つを含む意味を可能にしている。例として、「A、B、Cのうち少なくとも1つ」又は「A、B、又はCの少なくとも1つ」という語句は、それぞれ、Aのみ、Bのみ、又はCのみ;A、B、及びCの任意の組み合わせ;及び/又はA、B、及びCの各々のうちの少なくとも1つを示す。明細書又はクレームにおいて「含む(include)」、「有する(have)」又はそれに類する用語が使用されている限りにおいて、そのような用語は、用語「含む(comprise)」が、クレームの遷移語(transitional word)として使用される場合に解釈されるのと同様に、包括的であるように意図されている。「例示的な(exemplary)」という単語は、本件では「具体例、インスタンス、又は例示として機能する」という意味で使用されている。本件において「例示的」として説明される任意の実施形態は、必ずしも他の実施形態よりも好ましかったり又は有利であったりするように解釈されるとは限らない。
単独表現の要素に対する言及は、具体的に明示されていない限り、「1つであり且つ1つだけ」を意味するのではなく、むしろ「1つ以上」を意味するように意図されている。本開示全体を通して記述されている様々な構成の要素に相当する構造的及び機能的な均等物であって、当業者に既知の又は後に知られるようになるものは全て、参照により本件に明示的に組み込まれており、且つ、対象技術に含まれるように意図されている。更に、本件で開示されているものは、そのような開示が上記の説明において明示的に言及されているかどうかにかかわらず、公用に捧げられるように意図されてはいない。
本件明細書は多くの詳細を含んでいるが、これらはクレームされることが可能な範囲の制限としてではなく、対象事項の特定の実装の説明として解釈されるべきである。個々の実施形態の文脈で本件明細書に説明されている様々な特徴は、単一の実施形態において組み合わせて実装されることが可能である。逆に、単一の実施形態の文脈で説明されている様々な特徴は、複数の実施形態において別々に、又は任意の適切なサブコンビネーションで実装されることも可能である。更に、特徴は、様々な組み合わせで作用するように上記で説明され、当初はそのようにクレームされていたりさえする場合があるが、クレームされる組み合わせから1つ以上の特徴がその組み合わせから切り出すことが可能であり、クレームされる組み合わせは、サブコンビネーション又はサブコンビネーションの変形例に向けられてもよい。
本件明細書の対象事項は、特定の態様の観点で説明されているが、他の態様が実装されることも可能であり、本件のクレームの範囲内にある。例えば、動作は特定の順序で図面に描かれているが、これは、所望の結果を達成するために、そのような動作が図示の特定の順序で又は連続した順序で実行されること、又は、説明された全ての動作が実行されること、を要求するものとして理解されるべきではない。クレームに記載される動作は、異なる順序で実行されること及びそれでも所望の結果を達成することが可能である。一例として、添付図面に示されているプロセスは、所望の結果を達成するために、必ずしも図示の特定の順序又は連続した順序を必要としているわけではない。様々な状況において、マルチタスクと並列処理が有利な場合がある。更に、上記の態様における様々なシステム構成要素の区分けは、全ての態様でそのような区分けを必要とするものとして理解されるべきではなく、説明されるプログラム構成要素及びシステムは、一般に、単一のソフトウェア製品に一緒に統合されたり、複数のソフトウェア製品にパッケージ化されたりすることが可能である、ということが理解されるはずである。その他の変形例は以下のクレームの範囲内にある。
以下、本開示の様々な実施形態を例示的に列挙する:
実施形態1:
本方法は、医療機関から、前記医療機関に関連する第1の患者のローカル・レコードを含むローカル・データセットを受信するステップ;
データベースから、テンプレート・レコードを含むテンプレート・データセットを取り出すステップであって、前記テンプレート・レコードは、可変セントロイドを含むクラスタで組織されている、ステップ;
前記ローカル・レコードと前記テンプレート・レコードとの間の類似性メトリックを、デモグラフィックと前記可変セントロイドとを比較することによって算出するステップ;
前記テンプレート・レコードの少なくとも一部分と前記ローカル・レコードの少なくとも一部分とを組み合わせることによって合成データセットを生成するステップであって、前記テンプレート・レコードの一部分は類似性閾値に基づいて選択される、ステップ;
前記合成データセットを、訓練合成データセットと検証合成データセットとに分離するステップ;及び
前記訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップ;及びそのチューニングされたテンプレート・モデル又は前記新たな予測モデルを、前記検証合成データセットを使用して検証するステップ;を行うことによって、前記機械学習予測モデルを生成するステップを含む。
実施形態1:
本方法は、医療機関から、前記医療機関に関連する第1の患者のローカル・レコードを含むローカル・データセットを受信するステップ;
データベースから、テンプレート・レコードを含むテンプレート・データセットを取り出すステップであって、前記テンプレート・レコードは、可変セントロイドを含むクラスタで組織されている、ステップ;
前記ローカル・レコードと前記テンプレート・レコードとの間の類似性メトリックを、デモグラフィックと前記可変セントロイドとを比較することによって算出するステップ;
前記テンプレート・レコードの少なくとも一部分と前記ローカル・レコードの少なくとも一部分とを組み合わせることによって合成データセットを生成するステップであって、前記テンプレート・レコードの一部分は類似性閾値に基づいて選択される、ステップ;
前記合成データセットを、訓練合成データセットと検証合成データセットとに分離するステップ;及び
前記訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップ;及びそのチューニングされたテンプレート・モデル又は前記新たな予測モデルを、前記検証合成データセットを使用して検証するステップ;を行うことによって、前記機械学習予測モデルを生成するステップを含む。
実施形態2:実施形態1の方法において、データ・ストリームは、データ分析ツールによりリアル・タイムで処理され、ローカル・レコードはデータ・マスキング・ツールによって不特定化される。
実施形態3:実施形態1又は2の方法において、前記データセットは、事前に学習済みのモデル、前記テンプレート・レコード、及びモデル評価尺度を含む。
実施形態 4:実施形態1-3のうちの何れかの方法において、前記合成データセットを生成するステップは、前記ローカル・データセットに欠けているクラスタであって、前記テンプレート・データセットに存在するものを確認するステップを含む。
実施形態 5:実施形態1-4のうちの何れかの方法において、前記チューニングされたテンプレート・モデル又は前記新たな予測モデルを検証するステップは、医療の重要業績指標(KPI)に基づいてハイパーパラメータを調整するステップを含む。
実施形態 6:実施形態1-5のうちの何れかの方法において、前記テンプレート・レコードに基づいて前記クラスタを生成するためにクラスタリング機能を実行するステップを更に含み、前記クラスタリング機能を実行するステップはデータの正規化を実行するステップを含む。
実施形態 7:実施形態1-6のうちの何れかの方法において、前記機械学習予測モデルを生成するステップは、更に:
前記テンプレート・モデルを前記ローカル・レコードを用いて訓練データとして適合させることにより、第1のチューニングされたモデルを生成するステップ;
前記テンプレート・モデルを前記訓練合成データセットを用いて適合させることにより、第2のチューニングされたモデルを生成するステップ;
前記ローカル・レコードを訓練データとして用いて第1の新たなモデルを生成するステップ;
前記訓練合成データセットを用いて第2の新たなモデルを生成するステップ;及び
前記第1のチューニングされたモデル、前記第2のチューニングされたモデル、前記第1の新たなモデル、及び前記第2の新たなモデルを比較して、最も高く評価されたモデルを決定するステップを含む。
前記テンプレート・モデルを前記ローカル・レコードを用いて訓練データとして適合させることにより、第1のチューニングされたモデルを生成するステップ;
前記テンプレート・モデルを前記訓練合成データセットを用いて適合させることにより、第2のチューニングされたモデルを生成するステップ;
前記ローカル・レコードを訓練データとして用いて第1の新たなモデルを生成するステップ;
前記訓練合成データセットを用いて第2の新たなモデルを生成するステップ;及び
前記第1のチューニングされたモデル、前記第2のチューニングされたモデル、前記第1の新たなモデル、及び前記第2の新たなモデルを比較して、最も高く評価されたモデルを決定するステップを含む。
実施形態 8:実施形態7の方法において、前記第1のチューニングされたモデル、前記第2のチューニングされたモデル、前記第1の新たなモデル、及び前記第2の新たなモデルを比較するステップは、前記第1のチューニングされたモデル、前記第2のチューニングされたモデル、前記第1の新たなモデル、及び前記第2の新たなモデルの重み付けされたKPIに基づいて、最終モデルを選択するステップを含む。
実施形態 9:実施形態1-8のうちの何れかの方法において、前記合成データセットを生成するステップは、メジアン又はモード欠測値補完を用いて前記ローカル・レコードに基づいて追加レコードを生成するステップを含む。
実施形態 10:実施形態1-9のうちの何れかの方法において、前記合成データセットを生成するステップは、ベイジアン・モデルを用いて、前記ローカル・レコードに関する検証データセットを生成するステップを含む。
実施形態 11:実施形態1-10のうちの何れかの方法において、前記チューニングされたテンプレート・モデル及び前記新たな予測モデルは、患者に対する処置を提供するために、初期処置予測を提供する。
実施形態 12:実施形態1-11のうちの何れかの方法において、前記ローカル・レコードと前記テンプレート・レコードは、前記医療機関の電子カルテから取り出された患者バイオマーカー情報を含む。
実施形態 13:実施形態1-12のうちの何れかの方法において、高速医療相互運用リソース(FHIR)アプリケーション・プログラミング・インターフェースにより、モデルの結果を前記医療機関へ送信するステップを更に含む。
実施形態 14:実施形態11の方法において、前記初期処置予測に基づいて、第2の患者に処置を施すために処置プロトコルを指定するステップを更に含み、各々の処置プロトコルは、前記チューニングされたテンプレート・モデルと前記新たな予測モデルとに基づいて最適化される。
実施形態 15:実施形態1-14のうちの何れかの方法において、前記合成データセットは、前記ローカル・データセットより大きい。
実施形態 16:実施形態1-15のうちの何れかの方法において、前記テンプレート・レコードに基づいて前記クラスタを生成するためにクラスタリング機能を実行するステップを更に含み、前記ローカル・レコードは、複数のバイオマーカー・メタデータ・フィールドを含むバイオマーカー・レコードを含み;
前記クラスタリング機能を実行するステップは:
前記テンプレート・レコード内の複数のテンプレート・メタデータ・フィールドのうちの1つ以上と整合していないミスマッチ・メタデータ・フィールドが含まれるバイオマーカー・レコードを含む正規化ベクトルを生成するステップ;
前記ミスマッチ・メタデータ・フィールドの調整機能を識別するステップ;
前記調整機能を、前記ミスマッチ・メタデータ・フィールドに対応するデータ・フィールドに適用することにより、前記正規化ベクトルにおけるバイオマーカー・レコードのデータ・フィールドを修正するステップ;及び
その修正されたバイオマーカー・レコードを含む正規化されたデータ・ファイルを生成するステップを更に含む。
前記クラスタリング機能を実行するステップは:
前記テンプレート・レコード内の複数のテンプレート・メタデータ・フィールドのうちの1つ以上と整合していないミスマッチ・メタデータ・フィールドが含まれるバイオマーカー・レコードを含む正規化ベクトルを生成するステップ;
前記ミスマッチ・メタデータ・フィールドの調整機能を識別するステップ;
前記調整機能を、前記ミスマッチ・メタデータ・フィールドに対応するデータ・フィールドに適用することにより、前記正規化ベクトルにおけるバイオマーカー・レコードのデータ・フィールドを修正するステップ;及び
その修正されたバイオマーカー・レコードを含む正規化されたデータ・ファイルを生成するステップを更に含む。
実施形態 17:実施形態1-16のうちの何れかの方法において、前記訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップは、感染に起因する調節不全宿主反応のモデル予測確率を生成するステップを含む。
実施形態 18:実施形態1-17のうちの何れかの方法において、統計ツールを用いてモデル尺度を生成するステップ;及び前記モデル尺度を前記データベースに記憶するステップを更に含む。
実施形態 19:実施形態5の方法において、医療のKPIは、重要業績指標又は診断指標のうちの一方又は双方を含む。
実施形態 20:実施形態19の方法において、重要業績指標は、患者の再入院率、死亡率、集中治療室(ICU)のエスカレーション、患者の人工呼吸器の不使用日数、患者の人工呼吸器の使用日数、患者の昇圧器使用日数、又は入院期間のうちの1つ以上を含む。
実施形態 21:実施形態19又は20の方法において、診断指標は、病院で実施された診断の、陽性適中率(PPV)、陰性適中率(NPV)、感度、特異度、真陽性率(TPR)又は偽陽性率(FPR)を含む。
実施形態 22:1つ以上のメモリ・デバイス;及び命令を記憶する1つ以上のメモリ・デバイスに結合された1つ以上のプロセッサ;を含むシステムにおいて、命令は、実施形態1-21の方法を実行するように1つ以上のプロセッサを構築する。
実施形態 23:命令を記憶する非一次的なコンピュータ読み取り可能な媒体(CRM)において、命令は、1つ以上のプロセッサにより実行されると、実施形態1-21の方法を1つ以上のプロセッサに実行させる。
Claims (20)
- 機械学習予測モデルを生成するシステムであって:
1つ以上のプロセッサ;及び
処理を実行するように前記1つ以上のプロセッサを構築する命令を記憶する1つ以上のメモリ・デバイス;
を含み、前記処理は:
医療機関から、前記医療機関に関連する第1の患者のローカル・レコードを含むローカル・データセットを受信するステップ;
データベースから、テンプレート・レコードを含むテンプレート・データセットを取り出すステップであって、前記テンプレート・レコードは、可変セントロイドを含むクラスタで組織されている、ステップ;
前記ローカル・レコードと前記テンプレート・レコードとの間の類似性メトリックを、デモグラフィックと前記可変セントロイドとを比較することによって算出するステップ;
前記テンプレート・レコードの少なくとも一部分と前記ローカル・レコードの少なくとも一部分とを組み合わせることによって合成データセットを生成するステップであって、前記テンプレート・レコードの一部分は類似性閾値に基づいて選択される、ステップ;
前記合成データセットを、訓練合成データセットと検証合成データセットとに分離するステップ;及び
前記訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップ;及びそのチューニングされたテンプレート・モデル又は前記新たな予測モデルを、前記検証合成データセットを使用して検証するステップ;を行うことによって、前記機械学習予測モデルを生成するステップ;
を含む、システム。 - 請求項1に記載のシステムにおいて、前記1つ以上のプロセッサは、データ分析ツールとデータ・マスキング・ツールを含むデータ・パイプライン・エンジンを含み、前記データ分析ツールはデータ・ストリームをリアル・タイムで処理するように構成されており、前記データ・マスキング・ツールは前記ローカル・レコードを不特定化するように構成されている、システム。
- 請求項1に記載のシステムにおいて、前記データセットは、事前に学習済みのモデル、前記テンプレート・レコード、及びモデル評価尺度を含む、システム。
- 請求項1に記載のシステムにおいて、前記合成データセットを生成するステップは、前記ローカル・データセットに欠けているクラスタであって、前記テンプレート・データセットに存在するものを確認するステップを含む、システム。
- 請求項1に記載のシステムにおいて、前記チューニングされたテンプレート・モデル又は前記新たな予測モデルを検証するステップは、医療の重要業績指標(KPI)に基づいてハイパーパラメータを調整するステップを含む、システム。
- 請求項1に記載のシステムにおいて、前記処理は、前記テンプレート・レコードに基づいて前記クラスタを生成するためにクラスタリング機能を実行するステップを更に含み、前記クラスタリング機能を実行するステップはデータの正規化を実行するステップを含む、システム。
- 請求項1に記載のシステムにおいて、前記機械学習予測モデルを生成するステップは、更に:
前記テンプレート・モデルを前記ローカル・レコードを用いて訓練データとして適合させることにより、第1のチューニングされたモデルを生成するステップ;
前記テンプレート・モデルを前記訓練合成データセットを用いて適合させることにより、第2のチューニングされたモデルを生成するステップ;
前記ローカル・レコードを訓練データとして用いて第1の新たなモデルを生成するステップ;
前記訓練合成データセットを用いて第2の新たなモデルを生成するステップ;及び
前記第1のチューニングされたモデル、前記第2のチューニングされたモデル、前記第1の新たなモデル、及び前記第2の新たなモデルを比較して、最も高く評価されたモデルを決定するステップ;
を含む、システム。 - 請求項7に記載のシステムにおいて、前記第1のチューニングされたモデル、前記第2のチューニングされたモデル、前記第1の新たなモデル、及び前記第2の新たなモデルを比較するステップは、前記第1のチューニングされたモデル、前記第2のチューニングされたモデル、前記第1の新たなモデル、及び前記第2の新たなモデルの重み付けされたKPIに基づいて、最終モデルを選択するステップを含む、システム。
- 請求項1に記載のシステムにおいて、前記合成データセットを生成するステップは、メジアン又はモード欠測値補完を用いて前記ローカル・レコードに基づいて追加レコードを生成するステップを含む、システム。
- 請求項1に記載のシステムにおいて、前記合成データセットを生成するステップは、ベイジアン・モデルを用いて、前記ローカル・レコードに関する検証データセットを生成するステップを含む、システム。
- 請求項1に記載のシステムにおいて、前記チューニングされたテンプレート・モデル及び前記新たな予測モデルは、患者に対する処置を提供するために、初期処置予測を提供する、システム。
- 請求項1に記載のシステムにおいて、前記ローカル・レコードと前記テンプレート・レコードは、前記医療機関の電子カルテから取り出された患者バイオマーカー情報を含む、システム。
- 請求項1に記載のシステムにおいて、前記処理は:
高速医療相互運用リソース(FHIR)アプリケーション・プログラミング・インターフェースにより、モデルの結果を前記医療機関へ送信するステップを更に含む、システム。 - 請求項11に記載のシステムにおいて、前記処理は:
前記初期処置予測に基づいて、第2の患者に処置を施すために処置プロトコルを指定するステップを更に含み、各々の処置プロトコルは、前記チューニングされたテンプレート・モデルと前記新たな予測モデルとに基づいて最適化される、システム。 - 請求項1に記載のシステムにおいて、前記合成データセットは、前記ローカル・データセットより大きい、システム。
- 請求項1に記載のシステムにおいて:
前記処理は、前記テンプレート・レコードに基づいて前記クラスタを生成するためにクラスタリング機能を実行するステップを更に含み;
前記ローカル・レコードは、複数のバイオマーカー・メタデータ・フィールドを含むバイオマーカー・レコードを含み;及び
前記クラスタリング機能を実行するステップは:
前記テンプレート・レコード内の複数のテンプレート・メタデータ・フィールドのうちの1つ以上と整合していないミスマッチ・メタデータ・フィールドが含まれるバイオマーカー・レコードを含む正規化ベクトルを生成するステップ;
前記ミスマッチ・メタデータ・フィールドの調整機能を識別するステップ;
前記調整機能を、前記ミスマッチ・メタデータ・フィールドに対応するデータ・フィールドに適用することにより、前記正規化ベクトルにおけるバイオマーカー・レコードのデータ・フィールドを修正するステップ;及び
その修正されたバイオマーカー・レコードを含む正規化されたデータ・ファイルを生成するステップ;
を更に含む、システム。 - 請求項1に記載のシステムにおいて、前記訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップは、感染に起因する調節不全宿主反応のモデル予測確率を生成するステップを含む、システム。
- 請求項1に記載のシステムにおいて、前記処理は:
統計ツールを用いてモデル尺度を生成するステップ;及び
前記モデル尺度を前記データベースに記憶するステップ;
を更に含む、システム。 - 特定の母集団に対する機械学習予測モデルを生成するコンピュータにより実行される方法であって:
医療機関が、前記医療機関に関連する患者のローカル・レコードを含むローカル・データセットを受信するステップ;
データベースから、テンプレート・レコードを含むテンプレート・データセットを取り出すステップであって、前記テンプレート・レコードは、可変セントロイドを含むクラスタで組織されている、ステップ;
前記ローカル・レコードと前記テンプレート・レコードとの間の類似性メトリックを、デモグラフィックと前記可変セントロイドとを比較することによって算出するステップ;
前記テンプレート・レコードの少なくとも一部分と前記ローカル・レコードの少なくとも一部分とを組み合わせることによって合成データセットを生成するステップであって、前記テンプレート・レコードの一部分は類似性閾値に基づいて選択される、ステップ;
前記合成データセットを、訓練合成データセットと検証合成データセットとに分離するステップ;及び
前記訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップ;及びそのチューニングされたテンプレート・モデル又は前記新たな予測モデルを、前記検証合成データセットを使用して検証するステップ;を行うことにより、前記機械学習予測モデルを生成するステップ;
を含む、方法。 - 少なくとも1つのプロセッサと少なくとも1つのメモリ・デバイスとを含むコンピュータ演算装置であって:
医療機関から、前記医療機関に関連する患者のローカル・レコードを含むローカル・データセットを受信するステップ;
データベースから、テンプレート・レコードを含むテンプレート・データセットを取り出すステップであって、前記テンプレート・レコードは、可変セントロイドを含むクラスタで組織されている、ステップ;
前記ローカル・レコードと前記テンプレート・レコードとの間の類似性メトリックを、デモグラフィックと前記可変セントロイドとを比較することによって算出するステップ;
前記テンプレート・レコードの少なくとも一部分と前記ローカル・レコードの少なくとも一部分とを組み合わせることによって合成データセットを生成するステップであって、前記テンプレート・レコードの一部分は類似性閾値に基づいて選択される、ステップ;
前記合成データセットを、訓練合成データセットと検証合成データセットとに分離するステップ;及び
前記訓練合成データセットに従ってテンプレート・モデルをチューニングすること、又は、新たな予測モデルを生成すること、のうちの少なくとも1つを実行するステップ;及びそのチューニングされたテンプレート・モデル又は前記新たな予測モデルを、前記検証合成データセットを使用して検証するステップ;を行うことにより、機械学習予測モデルを生成するステップ;
を行うように前記少なくとも1つのプロセッサを構成している、装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063086977P | 2020-10-02 | 2020-10-02 | |
US63/086,977 | 2020-10-02 | ||
PCT/US2021/053251 WO2022072892A1 (en) | 2020-10-02 | 2021-10-01 | Systems and methods for adaptative training of machine learning models |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023544335A true JP2023544335A (ja) | 2023-10-23 |
Family
ID=80950964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023519864A Pending JP2023544335A (ja) | 2020-10-02 | 2021-10-01 | 機械学習モデルの適応訓練システム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230368070A1 (ja) |
EP (1) | EP4222610A1 (ja) |
JP (1) | JP2023544335A (ja) |
CN (1) | CN116783603A (ja) |
WO (1) | WO2022072892A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11948003B2 (en) * | 2020-11-04 | 2024-04-02 | RazorThink, Inc. | System and method for automated production and deployment of packaged AI solutions |
CN115732041B (zh) * | 2022-12-07 | 2023-10-13 | 中国石油大学(北京) | 二氧化碳捕获量预测模型构建方法、智能预测方法及装置 |
CN116720502B (zh) * | 2023-06-20 | 2024-04-05 | 中国航空综合技术研究所 | 基于机器阅读理解与模板规则的航空文档信息抽取方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090287546A1 (en) * | 2008-05-16 | 2009-11-19 | Trx, Inc. | System and method for organizing hotel-related data |
CA2767013A1 (en) * | 2009-06-30 | 2011-01-06 | Wake Forest University | Method and apparatus for personally controlled sharing of medical image and other health data |
US20120078661A1 (en) * | 2010-09-28 | 2012-03-29 | Scan Am Company | Health Care Facility Management and Information System |
US20160162779A1 (en) * | 2014-12-05 | 2016-06-09 | RealMatch, Inc. | Device, system and method for generating a predictive model by machine learning |
-
2021
- 2021-10-01 WO PCT/US2021/053251 patent/WO2022072892A1/en active Application Filing
- 2021-10-01 JP JP2023519864A patent/JP2023544335A/ja active Pending
- 2021-10-01 EP EP21876636.8A patent/EP4222610A1/en active Pending
- 2021-10-01 US US18/029,636 patent/US20230368070A1/en active Pending
- 2021-10-01 CN CN202180067563.0A patent/CN116783603A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022072892A1 (en) | 2022-04-07 |
EP4222610A1 (en) | 2023-08-09 |
US20230368070A1 (en) | 2023-11-16 |
CN116783603A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11101029B2 (en) | Systems and methods for predicting medications to prescribe to a patient based on machine learning | |
US10235633B2 (en) | Method and system for linking heterogeneous data sources | |
US11232365B2 (en) | Digital assistant platform | |
Raja et al. | A systematic review of healthcare big data | |
JP6419859B2 (ja) | 機械学習モデル評価のための対話型インターフェース | |
JP2023544335A (ja) | 機械学習モデルの適応訓練システム及び方法 | |
US20200311610A1 (en) | Rule-based feature engineering, model creation and hosting | |
CN115017893A (zh) | 校正通过深度学习生成的内容 | |
US11791048B2 (en) | Machine-learning-based healthcare system | |
Sathyabama et al. | An effective learning rate scheduler for stochastic gradient descent-based deep learning model in healthcare diagnosis system | |
Buragadda et al. | Multi Disease Classification System Based on Symptoms using The Blended Approach | |
Neysiani et al. | Data science in health informatics | |
US20220367051A1 (en) | Methods and systems for estimating causal effects from knowledge graphs | |
US11544275B2 (en) | Methods and systems for arranging and displaying guided recommendations via a graphical user interface based on biological extraction | |
Nasarian et al. | Designing Interpretable ML System to Enhance Trustworthy AI in Healthcare: A Systematic Review of the Last Decade to A Proposed Robust Framework | |
US20230042330A1 (en) | A tool for selecting relevant features in precision diagnostics | |
US20240062885A1 (en) | Systems and methods for generating an interactive patient dashboard | |
US11561938B1 (en) | Closed-loop intelligence | |
Al-Jaishi et al. | Machine learning algorithms to identify cluster randomized trials from MEDLINE and EMBASE | |
US20240013093A1 (en) | Methods, systems, and frameworks for debiasing data in drug discovery predictions | |
US20230389878A1 (en) | Methods, systems, and frameworks for debiasing data in drug discovery predictions | |
US20240020576A1 (en) | Methods, systems, and frameworks for federated learning while ensuring bi directional data security | |
Hamisu | Malaria Prediction using Bayesian and other Machine Learning Techniques | |
WO2022032096A1 (en) | Systems and methods for normalization of machine learning datasets | |
Kumar et al. | Big data analytics in healthcare environment using chaotic red deer optimizer with deep learning for disease classification model |