JP7680950B2 - 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 - Google Patents

生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 Download PDF

Info

Publication number
JP7680950B2
JP7680950B2 JP2021530139A JP2021530139A JP7680950B2 JP 7680950 B2 JP7680950 B2 JP 7680950B2 JP 2021530139 A JP2021530139 A JP 2021530139A JP 2021530139 A JP2021530139 A JP 2021530139A JP 7680950 B2 JP7680950 B2 JP 7680950B2
Authority
JP
Japan
Prior art keywords
class
dataset
data
data class
imbalanced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021530139A
Other languages
English (en)
Other versions
JP2022509835A (ja
JPWO2020112478A5 (ja
Inventor
ハガル,ヨランダ
ダッタ,ガルギ
アレクサンダー,レイ
ヒンテルベルグ,マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Somalogic Inc
Original Assignee
Somalogic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Somalogic Inc filed Critical Somalogic Inc
Publication of JP2022509835A publication Critical patent/JP2022509835A/ja
Publication of JPWO2020112478A5 publication Critical patent/JPWO2020112478A5/ja
Priority to JP2025003207A priority Critical patent/JP2025061136A/ja
Application granted granted Critical
Publication of JP7680950B2 publication Critical patent/JP7680950B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording for evaluating the cardiovascular system, e.g. pulse, heart rate, blood pressure or blood flow
    • A61B5/021Measuring pressure in heart or blood vessels
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Measuring devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/117Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/145Measuring characteristics of blood in vivo, e.g. gas concentration or pH-value ; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid or cerebral tissue
    • A61B5/14546Measuring characteristics of blood in vivo, e.g. gas concentration or pH-value ; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid or cerebral tissue for measuring analytes not otherwise provided for, e.g. ions, cytochromes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4866Evaluating metabolism
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4869Determining body composition
    • A61B5/4872Body fat
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7221Determining signal validity, reliability or quality
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B23/00Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Radiology & Medical Imaging (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Dentistry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Cardiology (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Vascular Medicine (AREA)
  • Optics & Photonics (AREA)
  • Obesity (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)

Description

関連出願の相互参照
本願は、2018年11月29日に出願された米国仮特許出願第62/773,028号、及び2018年12月21日に出願された米国仮特許出願第62/783,733号に対する優先権の利益を主張するものであり、それらの全内容は、参照することにより本明細書に組み込まれる。
本開示は、一般に、疾患のリスクの判定の分野に関し、より具体的には、電子データを処理して疾患のリスクを判定するためのシステム及び方法に関する。
心血管イベント、糖尿病診断、様々ながんの類など、様々な疾患関連の状態またはイベントのリスクに関連するバイオマーカーを識別する方法は、主に遺伝子シーケンシング、トランスクリプトミクス、プロテオミクス、及びメタボロミクスなどのハイスループット技術の発見により改善されてきた。しかし、これらのテクノロジーはまた、意味のあるバイオマーカーシグネチャの抽出を困難にする可能性のある複雑な生物学的プロセスを表す高次元のデータを生じることにより、問題を複雑にしている。
主な目標が、指定された期間内に疾患関連の状態またはイベントを経験する個人を正しく識別することである場合、通常は分類アプローチを使用するのみである分析は、分類ツールと組み合わせて生存モデルアプローチと共に組み込む、特別なタイプの分類問題として、それを組立てることによって、強化できる。ただし、生存分析は、疾患に関連する状態またはイベントを経験する患者と経験しない患者の数の不均衡に苛まれる可能性がある。モデルは「できるだけ頻繁に」正確になるようにトレーニングされているため、予測分類子は一般に不均衡なデータに対するパフォーマンスが低いことが知られている。この効果は、より大きな多数派クラスが、モデル用に選択された特徴を駆り立てることから発生する。少数派クラスが頻繁に誤分類される可能性がある一方で、多数派クラスは依然正確に予測されている。しかし、感度と特異度が不均衡になり、一方が、観察結果の数が多い群に依拠する形で、他方に対して最大にされる。健康の転帰のモデル化では、コホート内の疾患有病率が低く、少数派クラスを形成するのが一般的である。そのような状況では、感度を犠牲にして特異度が最大化される。これは、状態またはイベントの発生のリスクがある個人をできるだけ多く特定することが目標である場合に、問題になる。
したがって、特定の疾患または状態の分子シグネチャーまたはバイオマーカーを識別するための改善された方法に対する代替の方法の必要性が引き続き存在する。本開示は、バイオマーカーの発見を改善するための方法を提供することにより、そのような必要性を満たすものである。
本開示のいくつかの態様によれば、開示されるシステム及び方法は、生存分析における感度及び特異度を改良するために、時間の値を含むクラス不均衡データセットの多数派クラス、すなわちより多くの観察結果があるクラスのダウンサンプリングに関する。ダウンサンプリングの目的は、モデルの感度と特異度のバランスをとるために、診断された個人と診断されていない個人を均等に配慮するように分類子を「バイアス」することである。
一実施形態では、クラス不均衡データセットを取得することであって、クラス不均衡デ
ータセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない方法が、開示される。
本開示の態様によれば、曲線下面積(AUC)、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
他の例では、クラス不均衡データセットは生存データセットであり、及び/またはイベントは、対象の疾患、障害、または状態である。さらなる例では、生存分析は、コックス比例ハザード分析、ランダムフォレスト分析、加速故障時間分析、及びそれらの任意の組み合わせからなる群から選択され、ペナルティ付き回帰技術などの機械学習の適合を含む。この方法は、エラスティックネットペナルティをさらに含み得る。
他の実施形態では、交差検証は、少なくとも2分割、3分割、4分割、5分割、6分割、7分割、8分割、9分割、10分割、11分割、12分割、13分割、14分割、15分割、16分割、17分割、18分割、19分割、または20分割の交差検証である。他の実施形態では、生存モデルは5から1000の特徴を含み、各特徴は、タンパク質の測定、臨床因子、及びそれらの組み合わせからなる群から選択される。臨床因子は、年齢、体重、血圧、身長、BMI、コレステロール、性別、及びそれらの組み合わせからなる群から選択される。
さらなる実施形態では、臨床測定値は、プロテオミクス測定値、ゲノム測定値、トランスクリプトーム測定値、メタボロミクス測定値、及びそれらの組み合わせから選択される。さらに、交差検証は、k分割交差検証、一般化させたモンテカルロ交差検証、及びp個抜き交差検証またはブートストラッピング手法から選択される。
本開示の態様によれば、多数派データクラスがクラス不均衡データセットの95%であり、少数派データクラスがクラス不均衡データセットの5%であるか、多数派データクラスがクラス不均衡データセットの90%であり、少数派データクラスがクラス不均衡データセットの10%であるか、多数派データクラスがクラス不均衡データセットの85%であり、少数派データクラスがクラス不均衡データセットの15%であるか、多数派データクラスがクラス不均衡データセットの80%であり、少数派データクラスがクラス不均衡データセットの20%であるか、多数派データクラスがクラス不均衡データセットの75%であり、少数派データクラスがクラス不均衡データセットの25%であるか、多数派データクラスがクラス不均衡データセットの70%であり、少数派データクラスがクラス不均衡データセットの30%であるか、多数派データクラスがクラス不均衡データセットの65%であり、少数派データクラスがクラス不均衡データセットの35%であるか、多数派データクラスがクラス不均衡データセットの60%であり、少数派データクラスがクラス不均衡データセットの40%である。
別の実施形態では、方法であって、クラス不均衡データセットをダウンサンプリングし
て、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み;観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず;クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数のタンパク質の測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、方法が開示される。
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
本開示の例では、AUCは、対象が特定の時点までにイベントを有するかどうかの判定に基づいて計算される。
疾患のリスクを判定するためのコンピュータ実装方法であって、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み;観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず;ダウンサンプリング及び交差検証のステップは、コンピュータシステムを用いて計算される、方法がまた、開示される。
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
コンピュータによって読み取り可能なプログラム記憶装置であって、コンピュータによって実行可能な命令のプログラムを触知的に具現化して、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含む疾患のリスクを判定するための方法の方法ステップを実行し;観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない方法がまた、開示される。
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったA
UC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
疾患のリスクを判定するためのコンピューティングシステムであって、プログラムされた命令を格納するためのメモリ、及びクラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、操作を実行するためプログラムされた命令を実行するように構成されたプロセッサを含む、コンピューティングシステムがまた、開示されている。
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
非一時的なコンピュータ可読媒体であって、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することという操作を実行するためにプロセッサによって実行可能な命令が格納され、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、非一時的なコンピュータ可読媒体がまた、開示される。
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
疾患のリスクを判定するためのコンピュータ実装方法であって、クラス不均衡データセットをコンピュータで受信することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、受信すること;クラス不均衡データセットをコンピュータでダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対してコンピュータで交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、方法がまた開示される。
本開示の態様によれば、AUC、感度、特異度、及び/または生存モデルのC-indexは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
本開示の方法、システム、及び他の態様が実装され得るネットワーク化されたコンピューティング環境の例を示している。 本開示による臨床データの取得及び処理用の疾患リスク分析プラットフォームの高レベルのアーキテクチャの図である。 HUNT3 CHDサブコホートにおける心筋梗塞(MI)のカプランマイヤー生存曲線を示している。 予測されたイベントによって層化された、テストセットでのMIのカプランマイヤー生存曲線を示している。各方法について、テストセットは、交差検証によって識別されたしきい値を使用して、高リスクと平均のリスクの個人に分割されている。次に、両群についてカプランマイヤー曲線が計算される。ロジスティック回帰モデルの結果では、誰もが低リスクであると予測され、そのため、生存曲線は1つだけになった。 図4-1の続き。 ダウンサンプリングされたコックスエラスティックネットモデルを使用して4年以下のMIを予測した、テストセットでのMIのカプランマイヤー生存曲線を示している。個人を高リスクとして分類するための様々なしきい値が調査された。 図5-1の続き。
別段の注記がない限り、専門用語は従来の使用法に従って使用される。分子生物学における一般的な用語の定義は、Benjamin Lewin,Genes V,Oxford University Pressにより出版,1994(ISBN 0-19-854287-9)、Kendrew et al.(eds.),The Encyclopedia of Molecular Biology,Blackwell Science Ltd.により出版,1994(ISBN 0-632-02182-9)、及びRobert A.Meyers(ed.),Molecular Biology and Biotechnology:a Comprehensive Desk Reference,VCH Publishers,Inc.により出版,1995(ISBN 1-56081-569-8)に見出されてよい。別段の説明がない限り、本明細書で使用される全ての専門用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるものと同じ意味を有する。単数形「a」、「an」、及び「the」は、その内容に別段の明確な指示がない限り、複数の指示対象を含む。「AまたはBを含む」とは、A、またはB、またはA及びBを含むことを意味する。核酸またはポリペプチドについて与えられる、全ての塩基サイズまたはアミノ酸サイズ、及び全ての分子量または分子質量の値は概算であり、説明のために提供されることがさらに理解されるべきである。
さらに、本明細書で提供される範囲は、その範囲内の全ての値の簡略表記であると理解される。例えば、1~50の範囲は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50からなる群からの任意の数、数の組合せ、または部分範囲(加えて、その内容に別段の明確な指示がない限り、その分数)を含むと理解される。いずれの濃度範囲、パーセンテージ範囲、比率範囲、または整数範囲も、別段の指示がない限り、列挙される範囲内の任意の整数、ならびに適切な場合、その分数(整数の10分の1及び100分の1など)の値
も含むと理解されるべきである。また、任意の物理的特徴、例えば、ポリマーサブユニット、サイズまたは厚さなどに関する、本明細書で列挙される数値範囲のいずれも、別段の指示がない限り、列挙される範囲内のいずれの整数も含むと理解されるべきである。本明細書で使用される場合、「約」または「から本質的になる」とは、別段の指示がない限り、示される範囲、値、または構造の±20%を意味する。本明細書で使用される場合、「含む(include)」及び「含む(comprise)」という用語はオープンエンド形式であり、同義語として使用される。
本明細書に記載されるものと類似または同等の方法及び材料が本開示の実施または試験に使用され得るが、好適な方法及び材料が以下に記載される。本明細書で言及されるすべての刊行物、特許出願、特許、及び他の参考文献は、それら全体が参照によって組み込まれる。矛盾する場合には、用語の説明を含む本明細書が優先されることになる。加えて、材料、方法、及び実施例は例示にすぎず、限定することを意図するものではない。
本明細書で使用される場合、「SOMAmer」または遅いオフレート修飾アプタマーは、改善されたオフレート特性を有するアプタマーを指す。SOMAmerは、「Method for Generating Aptamers with Improved Off-Rates」と題した米国特許第7,947,447号に記載されている改良されたSELEX法を使用して生成され得る。
「生体試料」「試料」、及び「試験試料」という用語は、本明細書では互換的に使用され、個体から得られた、またはそうでなければ個体に由来する任意の材料、生体体液、組織、または細胞を指す。これには、血液(全血、白血球、末梢血単核細胞、バフィーコート、血漿、及び血清を含む)、痰、涙、粘液、鼻洗浄液、鼻吸引液、呼気、尿、精液、唾液、腹腔洗浄液、腹水、嚢胞液、髄膜液、羊水、腺液、リンパ液、乳頭吸引液、気管支吸引液(例えば、気管支肺胞洗浄液)、気管支擦過液、滑液、関節吸引液、臓器分泌物、細胞、細胞抽出物、ならびに脳脊髄液が挙げられる。これには、前述のすべての実験的に分離された画分も挙げられる。例えば、血液試料は、血清、血漿に、または特定の種類の血球、例えば、赤血球もしくは白血球(white blood cell)(白血球(leukocyte))などを含有する画分に分画され得る。いくつかの実施形態では、試料は、個体からの試料の組合せ、例えば、組織及び液体試料の組合せなどであり得る。「生体試料」という用語は、例えば、糞便試料、組織試料、または組織生検などからのホモジナイズされた固体材料を含有する材料も含む。「生体試料」という用語は、組織培養または細胞培養に由来する材料も含む。生体試料を得るための任意の好適な方法が用いられ得、例示的な方法としては、例えば、静脈切開、スワブ(例えば、頬スワブ)、及び穿刺吸引細胞診手順が挙げられる。穿刺吸引が可能な例示的な組織としては、リンパ節、肺、肺洗浄液、BAL(気管支肺胞洗浄液)、甲状腺、乳房、膵臓、及び肝臓が挙げられる。試料はまた、例えば、マイクロダイセクション(例えば、レーザーキャプチャーマイクロダイセクション(LCM)もしくはレーザーマイクロダイセクション(LMD))、膀胱洗浄、塗抹(例えば、PAP塗抹)、または管洗浄によって収集され得る。個体から得られる、または個体に由来する「生体試料」としては、個体から得られた後に任意の好適な方法で処理されている任意のそのような試料が挙げられる。
本明細書で使用される場合、「生物学的データ」は、生物学的試料に由来する任意のデータを指す。このような生物学的データには、任意選択で多重性のアプタマーベースのアッセイにおける、タンパク質の標的に特異的なアプタマーを利用して収集されるプロテオミクスデータが含まれるが、これに限定されない。
本明細書で使用される場合、「臨床的要因」は、病状またはイベントのリスクの増加に関連し得る生理学的属性を指す。臨床的要因には、年齢、体重、血圧、身長、BMI、コ
レステロール、及び性別が含まれるが、これらに限定されない。
本明細書で使用される場合、「クラス不均衡」は、セットのデータが2つ以上のクラスに分類されるとき、2つ以上のクラスが実質的に等しくない数の観察結果を有することを説明するデータセットの特性を指す。
本明細書で使用する場合、「交差検証」とは、モデルの構築に使用されるデータに対するモデルのパフォーマンスを評価するためのいずれかのモデル構築及び検証手法、及び統計分析の結果が独立したデータセットに一般化される方法を指し、k分割交差検証、モンテカルロ交差検証、及びp個抜き交差検証(pは1から試料の総数-1までであってよい)を含むが、これらに限定されない。
本明細書で使用される場合、「ダウンサンプリング」は、クラスの不均衡を減らすために、より多くの観察結果、すなわち多数決データクラスでクラスのデータをサブセット化することを指す。
本明細書で使用される場合、「同等」または「実質的に同等」は、観察結果の数の差が10%未満である、比較されたクラス間の差を指す。
本明細書で使用される場合、「特徴」は、データセット内の対象の測定可能な特質または特性を指す。特徴には、タンパク質の測定値及び臨床的要因が含まれるが、これらに限定されない。
本明細書で使用される場合、「多数派データクラス」は、2つのクラスを有するクラス不均衡データセットにおいて観察結果の数がより多いクラスを指す。
本明細書で使用される場合、「少数派データクラス」は、2つのクラスを有するクラス不均衡データセットにおいて観察結果の数がより少ないクラスを指す。
本明細書で使用される場合、「生存分析」は、イベントまでの時間のデータの任意のモデリングを指す。生存分析の方法は、MIまでの時間、糖尿病の発症、様々な形態のがんの発症など、任意のイベントまでの時間の転帰で使用できる。生存分析には、コックス比例ハザード分析、ランダムフォレスト分析、及び加速故障時間分析が挙げられるが、これらに限定されない。
本明細書で使用される場合、「生存データセット」は、対象のイベントが対象が観察された期間に発生したかどうかを示す、時間の値及びイベントステータスの値の両方を含む任意のデータセットを指す。
生存分析では、クラスの不均衡は大きな問題を引き起こし、それにおいて特定の時間枠内で、疾患(またはイベント)のない個人の数が疾患を患っている個人の数を上回っている。この不均衡は、疾患のリスクが高い個人のリスクの予測を不正確なものにする可能性がある。ダウンサンプリングは、少数派クラスと多数派クラスの個人数のバランスをとることでこの問題を軽減し、そのため少数派クラスの個人に関連する特徴、及び疾患やイベントの発生リスクに対する推定される影響の検出と選択を改善する。
生存分析のためのクラス不均衡データセットのダウンサンプリングがAUCを改善することが実証された1つのコンテキストは、安定した冠状動脈性心疾患(CHD)患者の心血管イベントのリスクに関連する循環性タンパク質バイオマーカーを特定するために使用されたSOMAscan(登録商標)プロテオミクスアッセイによって生成されたプロテ
オミクスデータに関するものである。結果として得られるモデルは、既存の臨床的なリスクのツールよりも優れた能力を付与し、心血管イベントの複合的なエンドポイントの中でも、幅広い適用性と一般化の可能性とを備えている。
本開示は、安定したCHDを有する患者の間で二次的MIを予測するための標的モデルを説明する。プロテオミクスデータを使用して、安定したCHDの患者の採血から4年以内に二次的MIを経る可能性のある患者を特定した。プロテオミクス信号に加えて、データには、特定の心血管イベントが観察中に発生したかどうか、及びa)イベント、またはb)他の要因による研究の終了のいずれかまでの時間の長さに関する情報が含まれている。これらのイベントまでの時間のデータにより、問題は生存分析手法に非常に適したものになっている。
主な目標が4年以内にMIイベントが発生する個人を正しく特定することである場合、分析は分類の問題として再構成できる。この場合、イベントが4年より前に発生した場合、個人は「陽性」クラスであり、個人がMIなしで4年という時間枠を超えて研究に残った場合、個人は「陰性」クラスとしてラベル付けされる。生存分析ツールを使用すると、分類子の展開にMIまでの時間を組み込むことにより、生存モデルが「すべての情報を使用する」ため、モデルの予測精度が向上する(標準の分類モデルと比較して)。このリフレーミングにより、AUCや混同行列などの標準的な分類メトリックを使用してモデルのパフォーマンスを評価することもできるようになる。生存モデルを評価するこの方法は、従来のアプローチではないが、イベント固有の分類は、臨床現場に多くの利点を与える。患者に「陽性」または「陰性」のラベルを付けることは、幅広い聴衆の間でより簡単に理解される(例えば、ハザード比または確率と比較して)。予後の検査のこの理解を向上させることにより、臨床医はより正確で的を絞った医療管理を提供できる。ただし、標準的な分類モデリングと同様に、生存分析へのこのアプローチは、イベントを経験する患者と経験しない患者の不均衡に悩まされる可能性がある。
例えば、実施例1で分析されたサブコホートの個人の8.1%のみが、4年以内に二次的MIを発症するが、8倍を超える数の参加者(66.9%)が、イベントなしで4年以上生存する。ダウンサンプリングの目的は、モデルの感度と特異度のバランスをとるために、診断された個人と診断されていない個人に等しく配慮するように分類子を「バイアス」することである。リサンプリング手法は様々な機械学習手法に適用されているが、クラスの不均衡は、生存モデリング手法を使用した機械学習では未踏のトピックである。
実施例1では、ダウンサンプリングをコックス比例ハザードエラスティックネット回帰モデルと組み合わせて、最初の採血から4年以内のMIイベントの予測を評価する。
実施例1から明らかなように、生存分析のパフォーマンス、例えばコックス比例ハザードエラスティックネットモデル(つまり、「Coxnet」モデル)は、モデリング中にデータをダウンサンプリングすることで改善できる。本開示は、ダウンサンプリングされたCoxnetモデルが、標準のCoxnetモデル、ダウンサンプリングされたエラスティックネットロジスティック回帰モデル、及び標準のエラスティックネットロジスティック回帰モデルよりも優れていることを効果的に示している。
ダウンサンプリングに加えて、生存モデルに組み込むこともできるクラスの不均衡を処理するための他の方法がある。例えば、ケースの重み付け、単純なオーバーサンプリング、または合成少数派オーバーサンプリング手法(SMOTE)などのより複雑なオーバーサンプリング手法は、従来の生存分析や、生存ランダムフォレストなどの拡張された機械学習手法で検討できる。
実施例1は、指定された時間枠内におけるMIイベントの予測という文脈における生存分析のダウンサンプリングの組み合わせを詳細に説明しているが、本明細書に開示される方法は、選択した時間枠内での病状または疾患関連イベントのリスクの任意の予測に適用することができる。
図1は、本開示の態様による、例えば、クラス不均衡データをダウンサンプリングすることによって、疾患のリスクを判定するために電子データを処理するためのネットワーク化されたコンピューティング環境100のブロック図である。図1に示されるように、ネットワーク化されたコンピューティング環境100は、サーバシステム104及び電子データベース106を含む、疾患リスク分析プラットフォーム102を含み得る。サーバシステム104は、インターネットなどの電子ネットワーク108を介して使用するために、疾患リスク分析プラットフォーム102のソフトウェアモジュール、アルゴリズム、または他のサブシステムを格納及び実行することができる。使用者は、コンピューティングデバイスなどのユーザデバイス110によって、電子ネットワーク108を介して疾患リスク分析プラットフォーム102にアクセスすることができる。ユーザデバイス110は、使用者が、電子ネットワーク108を介してサーバシステム104によってホストされる疾患リスク分析プラットフォーム102にアクセスするためのウェブブラウザを表示することを可能にし得る。ユーザデバイス110は、パーソナルコンピューティングデバイス、モバイルコンピューティングデバイスなどのような、ウェブページにアクセスするための任意のタイプのデバイスであり得る。ソースデバイス112は電子ネットワーク108を介した疾患リスク分析プラットフォーム102にデータを提供及び/または受信することができる。ソースデバイス112は、パーソナルコンピューティングデバイス、モバイルコンピューティングデバイスなどのような、ウェブページにアクセスするための任意のタイプのデバイスであり得る。
図1は単なる例として提示されている。他の例が可能であり、図1のネットワーク化されたコンピューティング環境100とは異なる場合がある。また、ネットワーク化されたコンピューティング環境100に示されるデバイス及びネットワークの数及び配置が、例として提示されている。実際には、追加のデバイス、より少ないデバイス及び/またはネットワーク、様々なデバイス及び/またはネットワーク、またはネットワーク化されたコンピューティング環境100に示されているものとは異なる配置のデバイス及び/またはネットワークがあり得る。さらに、図1に示される2つ以上のデバイスは、単一のデバイス内に実装され得、図1に示される単一のデバイスは、複数の分散したデバイスとして実装できる。さらに、または代わりに、1つまたは複数のユーザデバイス及び/またはネットワーク化されたコンピューティング環境100のサーバシステムは、サーバシステム104の1つまたは複数の機能、及び/または疾患リスク分析プラットフォーム102を実行することができる。
図2は、疾患のリスクを判定するために電子データを処理するための例示的なコンピュータアーキテクチャ200を示している。具体的には、図2は、本開示の1つまたは複数の実施形態による、クラス不均衡セットのダウンサンプリングを生存分析と組み合わせるように構成された、例示的なコンピュータアーキテクチャ200を示している。図2のコンピュータアーキテクチャ200に示されているように、疾患リスク分析プラットフォーム102のサーバシステム104は、データ取得モジュール212、ダウンサンプリングモジュール214、及び交差検証モジュール216を含み得る。疾患リスク分析プラットフォーム102は、ローカルまたはリモートでアクセスされるかどうかにかかわらず、1つまたは複数のデータベースまたはデータストアをさらに含むことができる。例えば、図2に示されるように、疾患リスク分析プラットフォーム102は、多数派クラスデータ202及び少数派クラスデータ204を含むクラス不均衡データセット206を含み得る。疾患リスク分析プラットフォーム102は、ダウンサンプリングされたデータセット20
8及び生存モデル210をさらに含み得る。データ取得モジュール212、ダウンサンプリングモジュール214、交差検証モジュール216、クラス不均衡データセット206、ダウンサンプリングされたデータセット208、及び生存モデル210のうちの1つまたは複数は、ローカル、リモート、またはローカルとリモートの両方で保存または実行されるその機能及び内容の一部またはすべてを有し得ること、及びその機能をプラットフォームの他のコンポーネントと組み合わせたり、分散させたりすることができることが理解されるべきである。
例示的なコンピュータアーキテクチャ200の一実施形態では、データ取得モジュール212は、ユーザデバイス110またはソースデバイス112から、多数派クラスデータ202及び少数派クラスデータ204を含むクラス不均衡データセット206を受信することができる。このクラス不均衡データセット206は、ダウンサンプリングモジュール214によって処理されて、ダウンサンプリングされたデータセット208を生成することができる。このダウンサンプリングされたデータセット208は、交差検証モジュール216によって処理されて、生存モデル210を生成することができる。次に、この生存モデル210は、電子ネットワーク108を介してユーザデバイス100及び/またはソースデバイス112に送信され得る。
プログラマブルロジックを使用する場合、そのようなロジックは、市販の処理プラットフォームまたは専用デバイスで実行できる。開示される主題の実施形態は、マルチコアのマルチプロセッサシステム、ミニコンピュータ、メインフレームコンピュータ、分散機能とリンクまたはクラスタ化されたコンピュータ、ならびに実質的にあらゆるデバイスの中に埋め込まれ得る普及型または小型のコンピュータを含む種々のコンピュータシステム構成と共に実践されることができることを、当業者は理解し得る。
例えば、少なくとも1つのプロセッサデバイス及びメモリが、上述の実施形態を実装するために使用され得る。プロセッサデバイスは、単一のプロセッサ、複数個のプロセッサ、またはその組み合わせであり得る。プロセッサデバイスは、1つまたは複数のプロセッサ「コア」を備えている場合がある。
本開示の様々な実施形態は、上記の図1及び図2の例に記載されているように、プロセッサデバイスを使用して実装することができる。本説明を閲読した後、他のコンピュータシステム及び/またはコンピュータアーキテクチャを使用して、本開示の実施形態をどのように実装するかが当業者には明らかとなろう。操作は連続的な処理として説明され得るが、操作のうちのいくつかは、実際には、並行して、一斉に、及び/または分散型の環境において行われ得、また単一のまたはマルチプロセッサマシンによってアクセスされるために、ローカルでまたはリモートで格納されたプログラムコードで行われ得る。加えて、いくつかの実施形態では、操作の順番は、開示される主題の精神を逸脱することなく再設定され得る。
疾患リスク分析プラットフォーム102、及び/またはユーザデバイス110またはソースデバイス112などの疾患リスク分析プラットフォーム102にアクセスするために使用される任意のデバイスは、中央処理装置(CPU)を含み得るということが、理解されるべきである。そのようなCPUは、例えば、任意のタイプの特別な目的または汎用のマイクロプロセッサデバイスを含む、任意のタイプのプロセッサデバイスであり得る。当業者によって認識されるように、CPUはまた、マルチコア/マルチプロセッサシステム、単独でまたはコンピューティングデバイスのクラスタで、クラスタでまたはサーバファームで動作するシステムの単一のプロセッサであり得る。CPUは、データインフラストラクチャ、例えば、バス、メッセージ待ち行列、ネットワーク、またはマルチコアメッセージ受け渡しスキームに接続され得る。
疾患リスク分析プラットフォーム102、及び/または疾患リスク分析プラットフォーム102にアクセスするために使用される任意のデバイス、例えばユーザデバイス110またはソースデバイス112はまた、メインメモリ、例えば、ランダムアクセスメモリ(RAM)を含み得、また、二次メモリを含み得るということが、さらに理解されるべきである。二次メモリ、例えば、読み取り専用メモリ(ROM)は、例えば、ハードディスクドライブまたはリムーバブルストレージドライブであり得る。このようなリムーバブルストレージドライブは、例えばフロッピーディスクドライブ、磁気テープドライブ、光ディスクドライブ、フラッシュメモリ、または同様のものを含み得る。本例のリムーバブルストレージドライブは、周知の手法でリムーバブルストレージユニットから読み出し、及び/またはこれに書き込む。リムーバブルストレージユニットは、リムーバブルストレージドライブによって読み出し及び書き込みがなされるフロッピーディスク、磁気テープ、光ディスクなどを含み得る。当業者によって認識されるように、リムーバブルストレージユニットは、概して、コンピュータソフトウェア及び/またはデータを格納したコンピュータ利用可能記憶媒体を含む。
代替的な実施態様において、二次メモリは、コンピュータプログラムまたは他の命令がデバイスにロードされることを可能にする他の類似の手段を含み得る。かかる手段の例は、プログラムカートリッジ及びカートリッジインターフェース(ビデオゲーム機器において見られるものなど)、取り外し可能なメモリチップ(EPROM、またはPROMなど)及び関連するソケット、及び他のリムーバブルストレージユニット及びソフトウェア及びデータがリムーバブルストレージユニットからデバイスへと転送されることを可能にするインターフェースを含み得る。
疾患リスク分析プラットフォーム102、及び/または疾患リスク分析プラットフォーム102にアクセスするために使用される任意のデバイス、例えばユーザデバイス110またはソースデバイス112はまた、通信インターフェース(「COM」)を含み得ることが、さらに理解されるべきである。通信インターフェースは、ソフトウェア及びデータが、デバイスと外部デバイスとの間で転送されることを可能にする。通信インターフェースは、モデム、ネットワークインターフェース(イーサネットカードなど)、COMポート、PCMCIAスロット及びカード、または同様のものを含み得る。通信インターフェースを経由して転送されるソフトウェア及びデータは、信号の形式であってもよく、これは通信インターフェースによって受信されることのできる電気、電磁、光、または他の信号であり得る。これらの信号は、デバイスの通信パスを介して通信インターフェースに与えることができ、それは、例えばワイヤまたはケーブル、光ファイバ、電話回線、携帯電話のリンク、RFリンクまたは他の通信チャネルを使用して実装され得る。
そのような機器のハードウェア要素、オペレーティングシステム、及びプログラミング言語は、本質的に従来式であり、当業者はそれらに十分に精通していると推定される。疾患リスク分析プラットフォームにアクセスするために使用されるデバイスは、キーボード、マウス、タッチスクリーン、モニタ、ディスプレイなどの入力及び出力デバイスに接続するための入力及び出力ポートも含み得る。もちろん、様々なサーバの機能は、処理での負荷を分散するために、多くの同様のプラットフォームで分散された様式で実装され得る。あるいは、サーバは、1つのコンピュータハードウェアプラットフォームの適切なプログラミングによって実装することもできる。
本明細書に開示されるシステム、装置、デバイス、及び方法は、例として、また図を参照しながら、詳細に説明されている。本明細書で論じられる例は、単なる例であり、本明細書で説明される装置、デバイス、システム、及び方法の説明を補うために提示されている。図面に示されている、または以下で説明されている機能またはコンポーネントは、特
に必須のものとして指定されていない限り、装置、デバイス、システム、または方法のいずれかの任意の特定の実装に対して必須のものとみなされるべきではない。読みやすく明確にするために、特定のコンポーネント、モジュール、または方法は、特定の図のみに関して説明されている場合がある。本開示において、特定の技術や配置などのいずれかを識別することは、提示されている特定の例に関連しているか、またはそのような技術や配置などの単なる一般的な説明である。特定の詳細または例を識別することは、意図されておらず、特にそのように指定されていない限り、必須または制限として解釈されるべきではない。コンポーネントの組み合わせまたはサブコンビネーションを具体的に説明していない場合でも、いずれかの組み合わせまたはサブコンビネーションが不可能であることを示すものとして理解されるべきではない。開示及び説明された例、配置、構成、コンポーネント、要素、装置、デバイス、システム、方法などに変更を加えることができ、特定の用途にとっては望ましい場合があることが理解されよう。また、説明されているいずれの方法についても、その方法がフロー図と併せて説明されているかどうかに関係なく、文脈による別段の指定または求めがない限り、方法の実行時に行われるステップのいずれかの明示的または暗黙的な順序付けは、これらのステップが、提示された順序で実行されなければならないことを意味するのではなく、代わりに別の順序で、または並行して実行できるということを理解されたい。
本開示全体を通して、コンポーネントまたはモジュールへの言及は、一般に、機能または関連する機能のグループを実行するために論理的に一緒にグループ化することができる品目を指す。コンポーネントとモジュールは、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせで実装できる。「ソフトウェア」という用語は、実行可能コード、例えば機械実行可能または機械解釈可能な命令だけでなく、ファームウェアを含む任意の適切な電子形式で格納されたデータ構造、データストア、及び計算命令、及び組み込みソフトウェアを含むように広範に使用される。「情報」及び「データ」という用語は広範に使用され、多種多様な電子情報、例えば実行可能コード;コンテンツ、例えばテキスト、ビデオデータ、及びオーディオデータなど;ならびに様々なコードまたはフラグを含む。「情報」、「データ」、及び「コンテンツ」という用語は、文脈上許されている場合、同じ意味で使用されることがある。
以下の実施例は、本発明のいくつかの実施形態をより十分に例証するために提示される。しかし、それらは、決して本発明の広範な範囲を限定するものとして解釈されるべきではない。当業者は、本発明の趣旨から逸脱することなく、本発見の基礎となる原理を容易に採用し、様々な混合物を設計することができる。
実施例1
この例は、コックス比例ハザードエラスティックネット回帰モデルと組み合わせたダウンサンプリングの説明を提供し、図2の例示的なデータリスク分析プラットフォーム内で実行できるように、最初の採血から4年以内の心筋梗塞(MI)イベントの予測を評価する。
この例の目的は、少なくとも2つある。1)少数派クラスと多数派クラスの両方を予測する特徴の選択と識別、及び2)少数派クラスのリスクが十分に予測されるように推定された効果量の導出。対照的に、ロジスティック回帰エラスティックネットモデルの予測能力(ダウンサンプリングありとなし)と、ダウンサンプリングなしのコックスエラスティックネットモデルを検討した。
材料及び方法-データセット
分析に使用された試料は、HUNT3研究のサブコホートであり、ノルウェーの前向き
コホート研究であり、研究参加者から採取された血液試料とフォローアップの健康情報が含まれていた。CHDサブコホートについては先に説明されており(PeterGanz,et al.Development and validation of a protein-based risk score for cardiovascular outcomes among patients with stable coronary heart disease.Jama, 315(23):2532-2541, 2016)、組み入れ基準は、6か月以上前のMIの病歴、狭窄、誘導性虚血、または以前の冠状動脈血行再建術を介して、存在しているが安定したCHDのエビデンスを対象とした。血漿試料は、SOMAscan(登録商標)Assay(SomaLogic,Inc;Boulder、コロラド州、米国)を使用してアッセイし、これは、Slow Off-rate Modified Aptamer(SOMAmer(登録商標))試薬を使用して相対的なタンパク質量を測定する。V4アッセイは、5,220のタンパク質分析物を測定するものであり、タンパク質のバイオマーカーを発見するための確立されたプラットフォームである。
サブコホートでは、患者の8.1%が4年以内に二次的MIを経験した(表1)。CHDサブコホートにおけるMIのカプランマイヤー生存曲線を図3に示す。カプランマイヤー曲線は、イベントフリー(MIフリーなど)の確率が時間の経過と共にどのように変化するかを調べるための経験的なノンパラメトリック手法である。HUNT3データセットのCHDサブコホートでは、MIのイベントフリーの確率が徐々に低下する。表1は、CHDサブコホートにおけるMIの発生率と人口統計学的情報を示している。
Figure 0007680950000001
材料及び方法-コックスエラスティックネットモデル
生存データは、MIイベント、がんによる死亡、疾患による再入院、機械部品の故障などの幅広いトピックに対応するイベントまでの時間である転帰によって、特徴付けられる。時間依存データの性質は、イベントが調査期間外に発生した場合に、幾ばくかの個人においてイベントが観察されていないというものである。これらの個人は「打ち切られ」る
が、それは複数の理由で発生する可能性がある(例えば、MIに関連しない原因による死亡、研究からの個人の離脱、研究の枠組みの終了後におけるMIの発生)。打ち切りには複数の種類があるが、データには右側打ち切りの個人が含まれている。つまり、MIイベントがない患者について、最後に観測された時点より後に発生していることが仮定されることを意味している。
生存データは、生存関数S(.)によって特徴付けられる。これは、イベントがない確率であり、時点tで次のように計算される。

式中、f(.)はMIまでの時間の確率密度関数である。生存関数と共に、イベントまでの時間を大幅に増加または減少させる特徴も識別及び特徴付けることができる。生存分析の手法は数多くあるが、最も一般的なものの1つは、コックス比例ハザードモデルである。コックスモデルは次のように表される。

この場合、λ(t|.)は、ハザード関数(または「障害の即時リスク」関数)であり、λ(t|.)=f(t|.)/S(t|.)のように定義される。さらに、Xは、i番目の個人の特徴の測定値のpx1ベクトルであり、βは特徴の効果のpx1ベクトルである。コックスモデルの主な目標は、特徴がイベント発生の個人のリスクに与える影響を推定することである。そのベースラインハザード率、λ(t)は、推定ルーチンにおいて迷惑パラメータとして扱われ、したがって、検討されない。
データセット内の特徴の数が試料のサイズよりも多いため、エラスティックネットペナルティをモデルに組み込むことができ、最小絶対収縮及び選択演算子(つまり、ラッソ)とリッジ回帰またはTikhonov正規化を組み合わせたペナルティ付き回帰の形式である。このツールは、pがnより大きくなるように、相関する特徴をモデルに一緒に残したまま、ラッソのルーチンを介して特徴選択を実行する。標準的な回帰モデルでは、特徴の効果βは、典型的には、応答Y、及び予測子X’βとの間の差を最小化することによって推定される。ただし、エラスティックネットの正則化では、推定された特徴の効果は次のように計算される。

式中、λは、ラッソ回帰に関連付けられているLペナルティであり、λは、リッジ回帰に関連するLペナルティである。
生存分析は、CRAN-Rで利用可能なglmnetパッケージを介して実装されたコックスエラスティックネットモデルを使用することにより、エラスティックネットペナルティと組み合わされた。コックスエラスティックネットモデルは、標準のコックス比例ハザードモデルをエラスティックネットペナルティとマージし、生存手法を使用して分類子を展開できるようにし、さらにペナルティ付き回帰の利点をもたらす。
クラス不均衡を緩和するために、コックス比例ハザードエラスティックネットモデルをダウンサンプリング手法と組み合わせた。このアプローチは、交差検証によって識別されたハザード比のしきい値を使用して「リスク高」の分類子を計算して、個人が4年以内にMIイベントが発生する「リスク高」であるかどうかを最もよく予測する特徴を識別することを可能にした。さらに、この手法は、リスクの高い個人を正確に予測する特徴が、完全なコホートを使用して導出された場合とは異なる「重み」(つまり、β推定)を有することを可能にする方法で、特徴の効果を推定した。
比較のために、2つのエラスティックネットロジスティック回帰モデル(ダウンサンプリングのあるときとないとき、Rのキャレットパッケージを介して実装できる)、及びダウンサンプリング手法を組み込んでいないコックスエラスティックネットモデルを行った。必要に応じて、AUC、感度、特異度、及びC-Indexを使用してモデルを比較した。
分析は、RStudioサーババージョン1.1.453のRバージョン3.4.4を使用して実行された。
材料及び方法-データのサブセット化
データセットは、トレーニングセット(データの80%)とテストセット(20%)に分割された。トレーニングセットはモデルの構築に使用され、最終モデルはテストセットで評価された。コックスエラスティックネットモデルのテストセットでの予測のしきい値は、交差検証中に分割ごとに生成されたしきい値の平均として計算された。ペナルティ付き回帰モデルを実装する前に、トレーニングセットを使用して単変量フィルタリングを実行した。スチューデントのt検定が分析対象物ごとに計算され、研究の枠組みでMIイベントが発生した個人と発生しなかった個人の間で、平均値が統計的に有意に異なるかどうかを評価した。この手法の有用性を示す際の一貫性を保つために、モデルの展開全体で上位100の分析対象物(偽発見率の値でランク付け)が含まれている。
結果
ダウンサンプリングされたコックスエラスティックネットモデルの結果を、2つのロジスティック回帰エラスティックネットモデル(ダウンサンプリングされたものとされていないもの)及びダウンサンプリングを使用しなかったコックスエラスティックネットモデルと比較した。表記を簡単にするために、コックスエラスティックネットモデルは「Coxnet」モデルと呼ばれ、エラスティックネットロジスティック回帰モデルは「LRnet」モデルと呼ばれる。ダウンサンプリングされたモデルには、「DS」が付加された(例えば、ダウンサンプリングを実装するコックスエラスティックネットモデルは「DS-Coxnet」である)。
モデル全体で、5回繰り返す5分割交差検証にてトレーニングセットを使用し、各モデルタイプ内で最適なモデルを選択した。最適なモデルは、最大AUCを介して選択された。特徴の選択、推定される効果、及び分類しきい値は、モデル間で異なることが許された。交差検証に続いて、各カテゴリの最上位モデルの予測能力が、テストデータセットで評価された。
モデル開発中に、Coxnetモデルは元のデータを使用して作成されたが、4年の時点でAUCメトリックを使用して、分類のために最適化された。これは、標準の生存モデルが構築されたことを意味するが、バイナリの4年マークの分類子(4年より前のMIに関する肯定/否定)を使用して、AUCを計算し、モデルを最適化した。4年の転帰は、ロジスティック回帰モデルの展開に使用され、それはまたAUCを使用して最適化された。C-Indexは、標準の生存モデルメトリックを使用してモデルを比較する目的で、
生存モデルに対して計算された。
モデルの結果及び比較
交差検証の結果は、両方のCoxnetモデルが標準のLRnetモデルを大幅に上回っていることを示している(表2を参照)。生存分析法は、特徴の選択とモデルの展開の一部として、イベントまでの時間の情報を使用するため、この結果は期待される。より説得力のある結果は、DS-Coxnetモデルが、すべての分類メトリック(AUC、感度、特異度)にわたってDS-LRnetモデルと標準的なCoxnetモデルの両方を上回ったことである。さらに、DS-Coxnetモデルは標準のCoxnetモデルよりも高いC-Indexを備えており、ダウンサンプリングされたモデルが、MIまでの時間の順序を、より適切に予測することを示している。
Figure 0007680950000005
交差検証によるモデルの最適化に続いて、上位モデルの予測能力が、テストセットで評価された。これには、4年のマークまでにMIが発生する「リスク高」として個人を正しく予測することに基づく感度と特異度の検討が含まれる。テストセットのすべてのモデルのパフォーマンスメトリックを表3に示す。DS-Coxnetモデルは、AUCが0.63で「ランダムチャンス」よりも優れたパフォーマンスを発揮する唯一のモデルである。さらに、DS-Coxnetモデルは、DS-LRnetモデルと標準のCoxnetモデルの両方と比較して、最高の感度と特異度を備えている(当然のことながら、LRnetモデルは、トレーニングデータセットと同様にテストデータセットでのパフォーマンスが不良になる)。
Figure 0007680950000006
ダウンサンプリングされた生存モデルアプローチの利点をさらに実証するために、各モデルについて、カプランマイヤー曲線がテストセットで生成され、交差検証によって識別されたモデル固有のしきい値を使用して、個人が高リスクとして予測されるかどうかによって層化された(図4を参照)。この比較では、標準モデルとDS-Coxnetモデルのしきい値が、交差検証の反復全体の平均のしきい値として計算された。この視覚的な精査の方法は、DS-Coxnetモデルのしきい値を使用して、高リスク群と平均リスク群を非常に明確に分離していることを示している。この分離は、他のモデルでは明確に定められない。
図とモデル評価メトリックスの組み合わされたエビデンス(表3)は、ダウンサンプリングされた生存モデルアプローチが、4年以内のMIのリスクが高い個人を特定するのに有益であるという説得力のある事例を示している。
ダウンサンプリングされたCoxnetモデルのしきい値の調査
DS-Coxnetモデルを使用してテストセットを予測するために使用されたしきい値は、交差検証の反復からのすべてのしきい値にわたる平均であった。このしきい値は他のモデルよりも高い感度と特異度に至ったが、それらの値は依然として相当不均衡であった。重要な考慮事項は、予測のしきい値を操作することで、感度/特異度のトレードオフの均衡をさらにとることができるかどうかである。
分類モデルと同様に、しきい値を調整して、感度を最大化する、特異度を最大化する、またはテストセットの感度と特異度の差を最小化する値を見つけることができる。表4は、テストセットの様々なしきい値のパフォーマンスのメトリックを示しており、図5は、それぞれのカプランマイヤー曲線をプロットしている。表4に示すように、予測のしきい値を変更すると、AUCを低下させることなく、感度が60%を超える結果に至る。しかし、カプランマイヤー曲線(図5)は、平均のしきい値を使用して、高リスクの個人と平均リスクの個人との間の最も広い分離を示している。
Figure 0007680950000007
感度と特異度は通常の望ましい値よりも比較的低いままであるが(つまり、70%以上)、この結果は、テストセットに4年前にMIイベントが発生した対象が13人しかいないため、モデルの展開が制限されているという事実に起因している可能性がある。ただし、分析は、生存モデルでリスクのレベルを分類するために使用されるしきい値は、分類モデルと同じ方法で調整できることを示している。
本明細書及び実施例は、例示的なものにすぎないとみなされることが意図され、本開示の真の範囲及び精神は、次の特許請求の範囲によって示される。

Claims (23)

  1. 疾患または状態のバイオマーカーを特定するためのコンピュータに実装された方法であって、
    a)クラス不均衡データセットを取得することであって、前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記取得すること、
    b)前記多数派データクラスのデータをサブセット化して、前記多数派データクラスの観察結果の数と前記少数派データクラスの観察結果の数との間のクラス不均衡を減少させることにより、前記クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
    c)前記ダウンサンプリングされたデータセットに対して交差検証を用いてコックス比例ハザードモデルをトレーニングすることにより生存分析を実行し、前記少数派データクラスと前記多数派データクラスの間の観察結果を分類する特徴を特定するエラスティックネットペナルティと生存モデルとを生成し、前記エラスティックネットペナルティは前記生存分析と組み合わされる、前記生存分析を実行することを含み、
    前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず、並びに
    AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、
    前記方法。
  2. 前記クラス不均衡データセットが生存データセットである、請求項1に記載の方法。
  3. 前記イベントが、対象の疾患、障害、または状態である、請求項1又は2に記載の方法。
  4. 前記交差検証は、2分割、3分割、4分割、5分割、6分割、7分割、8分割、9分割、10分割、11分割、12分割、13分割、14分割、15分割、16分割、17分割、18分割、19分割、または20分割の交差検証である、請求項1~3のいずれか一項に記載の方法。
  5. 前記生存モデルは5から1000の特徴を含み、各特徴は、タンパク質の測定、臨床因子、及びそれらの組み合わせからなる群から選択される、請求項1~4のいずれか一項に記載の方法。
  6. 前記臨床因子は、年齢、体重、血圧、身長、BMI、コレステロール、性別、及びそれらの組み合わせからなる群から選択される、請求項5に記載の方法。
  7. 前記臨床測定値は、プロテオミクス測定値、ゲノム測定値、トランスクリプトーム測定値、メタボロミクス測定値、またはそれらの組み合わせから選択される、請求項1~6のいずれか一項に記載の方法。
  8. 前記交差検証が、k分割交差検証、モンテカルロ交差検証、及びN個抜き交差検証から選択される、請求項1~7のいずれか一項に記載の方法。
  9. 前記多数派データクラスが前記クラス不均衡データセットの95%であり、前記少数派データクラスが前記クラス不均衡データセットの5%である、請求項1~8のいずれか一項に記載の方法。
  10. 前記多数派データクラスが前記クラス不均衡データセットの90%であり、前記少数派データクラスが前記クラス不均衡データセットの10%である、請求項1~8のいずれか一項に記載の方法。
  11. 前記多数派データクラスが前記クラス不均衡データセットの85%であり、前記少数派データクラスが前記クラス不均衡データセットの15%である、請求項1~8のいずれか一項に記載の方法。
  12. 前記多数派データクラスが前記クラス不均衡データセットの80%であり、前記少数派データクラスが前記クラス不均衡データセットの20%である、請求項1~8のいずれか一項に記載の方法。
  13. 前記多数派データクラスが前記クラス不均衡データセットの75%であり、前記少数派データクラスが前記クラス不均衡データセットの25%である、請求項1~8のいずれか一項に記載の方法。
  14. 前記多数派データクラスが前記クラス不均衡データセットの70%であり、前記少数派データクラスが前記クラス不均衡データセットの30%である、請求項1~8のいずれか一項に記載の方法。
  15. 前記多数派データクラスが前記クラス不均衡データセットの65%であり、前記少数派データクラスが前記クラス不均衡データセットの35%である、請求項1~8のいずれか一項に記載の方法。
  16. 前記多数派データクラスが前記クラス不均衡データセットの60%であり、前記少数派データクラスが前記クラス不均衡データセットの40%である、請求項1~8のいずれか
    一項に記載の方法。
  17. 疾患または状態のバイオマーカーを特定するためのコンピュータに実装された方法であって、
    a)多数派データクラスのデータをサブセット化して、前記多数派データクラスの観察結果の数と少数派データクラスの観察結果の数との間のクラス不均衡を減少させることにより、クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
    b)前記ダウンサンプリングされたデータセットに対して交差検証を用いてコックス比例ハザードモデルをトレーニングすることにより生存分析を実行し、前記少数派データクラスと前記多数派データクラスの間の観察結果を分類する特徴を特定するエラスティックネットペナルティと生存モデルとを生成し、前記エラスティックネットペナルティは前記生存分析と組み合わされる、前記生存分析を実行することを含み、
    前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず、
    前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、前記多数派データクラスまたは前記少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含み、並びに
    AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、
    前記方法。
  18. 前記AUCは、対象が特定の時点までにイベントを有するかどうかの判定に基づいて計算される、請求項17に記載の方法。
  19. 請求項1~16のいずれか一項に記載の方法のコンピュータ実装方法であって、
    ステップb)及びステップc)は、コンピュータシステムを用いて計算される、前記方法。
  20. ステップa)におけるクラス不均衡データセットが、コンピュータシステムによって受信される、請求項19に記載の方法。
  21. コンピュータによって読み取り可能なプログラム記憶装置であって
    請求項1~16のいずれか一項に記載の方法の方法ステップを実行するための命令プログラムを記憶した、前記装置。
  22. 疾患または状態のバイオマーカーを特定するためのコンピューティングシステムであって、プログラムされた命令を格納するためのメモリ;及び操作を実行するため前記プログラムされた命令を実行するように構成されたプロセッサを含み、
    前記操作が、請求項1~16のいずれか一項に記載の方法を実行するものである、前記システム。
  23. 非一時的なコンピュータ可読媒体であって、
    操作を実行するためにプロセッサによって実行可能な命令が格納され、
    前記操作が、請求項1~16のいずれか一項に記載の方法を実行するものである、前記非一時的なコンピュータ可読媒体。
JP2021530139A 2018-11-29 2019-11-21 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 Active JP7680950B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2025003207A JP2025061136A (ja) 2018-11-29 2025-01-09 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862773028P 2018-11-29 2018-11-29
US62/773,028 2018-11-29
US201862783733P 2018-12-21 2018-12-21
US62/783,733 2018-12-21
PCT/US2019/062561 WO2020112478A1 (en) 2018-11-29 2019-11-21 Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2025003207A Division JP2025061136A (ja) 2018-11-29 2025-01-09 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法

Publications (3)

Publication Number Publication Date
JP2022509835A JP2022509835A (ja) 2022-01-24
JPWO2020112478A5 JPWO2020112478A5 (ja) 2022-11-24
JP7680950B2 true JP7680950B2 (ja) 2025-05-21

Family

ID=70852605

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021530139A Active JP7680950B2 (ja) 2018-11-29 2019-11-21 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法
JP2025003207A Withdrawn JP2025061136A (ja) 2018-11-29 2025-01-09 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2025003207A Withdrawn JP2025061136A (ja) 2018-11-29 2025-01-09 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法

Country Status (10)

Country Link
US (1) US20220015714A1 (ja)
EP (1) EP3886696A4 (ja)
JP (2) JP7680950B2 (ja)
KR (1) KR20210099605A (ja)
CN (1) CN113271849B (ja)
AU (1) AU2019385818B2 (ja)
CA (1) CA3120716A1 (ja)
IL (1) IL283467A (ja)
SG (1) SG11202105063QA (ja)
WO (1) WO2020112478A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11996201B2 (en) * 2021-03-04 2024-05-28 Abbott Laboratories Technology to automatically identify the most relevant health failure risk factors
JP7322918B2 (ja) * 2021-03-29 2023-08-08 横河電機株式会社 プログラム、情報処理装置、及び学習モデルの生成方法
KR102393367B1 (ko) 2021-11-15 2022-05-03 오브젠 주식회사 생존 분석 시스템 및 그 제어방법
KR102424884B1 (ko) 2021-11-18 2022-07-27 오브젠 주식회사 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법
CN114548327A (zh) * 2022-04-27 2022-05-27 湖南工商大学 基于平衡子集的软件缺陷预测方法、系统、设备及介质
CN115114270B (zh) * 2022-06-14 2024-08-02 马上消费金融股份有限公司 数据降采样方法及装置、电子设备、计算机可读存储介质
KR102688743B1 (ko) * 2023-08-16 2024-07-26 렉스이노베이션 주식회사 분산 배터리의 soh에 기초하여 이상을 탐지하는 방법
US20250069754A1 (en) * 2023-08-22 2025-02-27 Elythea, Inc. Predicting risk of pregnancy-related complications using machine learning
CN121015165A (zh) * 2025-06-30 2025-11-28 延边大学 基于多模态特征融合的睡眠呼吸暂停识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017214397A1 (en) 2016-06-08 2017-12-14 University Of Iowa Research Foundation Compositions and methods for detecting predisposition to cardiovascular disease
WO2018048960A1 (en) 2016-09-07 2018-03-15 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
WO2018141840A1 (en) 2017-02-02 2018-08-09 B.R.A.H.M.S Gmbh Proadm as marker indicating an adverse event

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7982066B2 (en) * 2005-12-09 2011-07-19 Novalife, Inc. High protein supplement
US7947447B2 (en) 2007-01-16 2011-05-24 Somalogic, Inc. Method for generating aptamers with improved off-rates
CA2783536A1 (en) * 2009-12-09 2011-06-16 Aviir, Inc. Biomarker assay for diagnosis and classification of cardiovascular disease
US20120269418A1 (en) * 2011-04-22 2012-10-25 Ge Global Research Analyzing the expression of biomarkers in cells with clusters
CN104573708A (zh) * 2014-12-19 2015-04-29 天津大学 组合降采样极限学习机
EP3356560A4 (en) * 2015-09-30 2019-06-12 Inform Genomics, Inc. SYSTEMS AND METHODS FOR PREDICTING EVENTS RELATED TO A THERAPEUTIC REGIME
GB201614394D0 (en) * 2016-08-23 2016-10-05 Imp Innovations Ltd Method
AU2018100796A4 (en) * 2018-06-14 2018-07-19 Macau University Of Science And Technology A genetic feature identifying system and a search method for identifying features of genetic information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017214397A1 (en) 2016-06-08 2017-12-14 University Of Iowa Research Foundation Compositions and methods for detecting predisposition to cardiovascular disease
WO2018048960A1 (en) 2016-09-07 2018-03-15 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
WO2018141840A1 (en) 2017-02-02 2018-08-09 B.R.A.H.M.S Gmbh Proadm as marker indicating an adverse event

Also Published As

Publication number Publication date
IL283467A (en) 2021-07-29
CA3120716A1 (en) 2020-06-04
CN113271849A (zh) 2021-08-17
EP3886696A4 (en) 2022-08-24
US20220015714A1 (en) 2022-01-20
EP3886696A1 (en) 2021-10-06
JP2022509835A (ja) 2022-01-24
SG11202105063QA (en) 2021-06-29
WO2020112478A1 (en) 2020-06-04
JP2025061136A (ja) 2025-04-10
KR20210099605A (ko) 2021-08-12
CN113271849B (zh) 2024-08-30
AU2019385818B2 (en) 2025-04-24
AU2019385818A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
JP7680950B2 (ja) 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法
Kukar et al. COVID-19 diagnosis by routine blood tests using machine learning
Sweeney et al. A community approach to mortality prediction in sepsis via gene expression analysis
Kurstjens et al. Rapid identification of SARS-CoV-2-infected patients at the emergency department using routine testing
JP7431760B2 (ja) 癌分類子モデル、機械学習システム、および使用方法
Fujisawa et al. Nationwide cloud-based integrated database of idiopathic interstitial pneumonias for multidisciplinary discussion
Schupp et al. Diagnostic and prognostic role of platelets in patients with sepsis and septic shock
RU2640568C2 (ru) Способы и системы для оценки риска рака желудочно-кишечного тракта
Zheng et al. Prospective accuracy for longitudinal markers
US20130103321A1 (en) Selection of Preferred Sample Handling and Processing Protocol for Identification of Disease Biomarkers and Sample Quality Assessment
Shi et al. Machine learning-based in-hospital mortality prediction of HIV/AIDS patients with Talaromyces marneffei infection in Guangxi, China
JP2012502281A5 (ja)
CN105229471A (zh) 用于基于生物化学标记分析确定先兆子痫风险的系统和方法
US20220084639A1 (en) Electronic Phenotyping Technique for Diagnosing Chronic Kidney Disease
Aguirre et al. Diagnostic performance of machine learning models using cell population data for the detection of sepsis: a comparative study
Moore et al. Cell free RNA detection of pancreatic cancer in pre diagnostic high risk and symptomatic patients
Pecanha-Pietrobom et al. The clinical course of hospitalized moderately ill COVID-19 patients is mirrored by routine hematologic tests and influenced by renal transplantation
Shu et al. Acute ischemic stroke prediction and predictive factors analysis using hematological indicators in elderly hypertensives post-transient ischemic attack
Bernal-Dolores et al. The mean corpuscular volume (MCV) is a hematological biomarker associated with COVID-19 mortality risk
Sweeney et al. Mortality prediction in sepsis via gene expression analysis: a community approach
HK40059456A (en) Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis
JP2024525499A (ja) 機械学習を使用した全血算に基づく異常検出
HK40059456B (zh) 结合类别不平衡集降采样与生存分析的疾病风险确定方法
Lin et al. Monocyte distribution width enhances the detection of infection in patients after primary percutaneous coronary intervention
Pathania et al. Neutrophil-to-lymphocyte ratio as marker of organ dysfunction severity in patients with sepsis in the intensive care unit: an observational study

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240610

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250509

R150 Certificate of patent or registration of utility model

Ref document number: 7680950

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150