JP7680950B2 - 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 - Google Patents
生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 Download PDFInfo
- Publication number
- JP7680950B2 JP7680950B2 JP2021530139A JP2021530139A JP7680950B2 JP 7680950 B2 JP7680950 B2 JP 7680950B2 JP 2021530139 A JP2021530139 A JP 2021530139A JP 2021530139 A JP2021530139 A JP 2021530139A JP 7680950 B2 JP7680950 B2 JP 7680950B2
- Authority
- JP
- Japan
- Prior art keywords
- class
- dataset
- data
- data class
- imbalanced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording for evaluating the cardiovascular system, e.g. pulse, heart rate, blood pressure or blood flow
- A61B5/021—Measuring pressure in heart or blood vessels
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/05—Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Measuring devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/117—Identification of persons
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/145—Measuring characteristics of blood in vivo, e.g. gas concentration or pH-value ; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid or cerebral tissue
- A61B5/14546—Measuring characteristics of blood in vivo, e.g. gas concentration or pH-value ; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid or cerebral tissue for measuring analytes not otherwise provided for, e.g. ions, cytochromes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4866—Evaluating metabolism
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4869—Determining body composition
- A61B5/4872—Body fat
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7221—Determining signal validity, reliability or quality
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B23/00—Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Physics & Mathematics (AREA)
- Heart & Thoracic Surgery (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Radiology & Medical Imaging (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Dentistry (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Cardiology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Vascular Medicine (AREA)
- Optics & Photonics (AREA)
- Obesity (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
Description
本願は、2018年11月29日に出願された米国仮特許出願第62/773,028号、及び2018年12月21日に出願された米国仮特許出願第62/783,733号に対する優先権の利益を主張するものであり、それらの全内容は、参照することにより本明細書に組み込まれる。
ータセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること;クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない方法が、開示される。
て、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること;及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み;観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず;クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数のタンパク質の測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、方法が開示される。
UC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い。
も含むと理解されるべきである。また、任意の物理的特徴、例えば、ポリマーサブユニット、サイズまたは厚さなどに関する、本明細書で列挙される数値範囲のいずれも、別段の指示がない限り、列挙される範囲内のいずれの整数も含むと理解されるべきである。本明細書で使用される場合、「約」または「から本質的になる」とは、別段の指示がない限り、示される範囲、値、または構造の±20%を意味する。本明細書で使用される場合、「含む(include)」及び「含む(comprise)」という用語はオープンエンド形式であり、同義語として使用される。
レステロール、及び性別が含まれるが、これらに限定されない。
オミクスデータに関するものである。結果として得られるモデルは、既存の臨床的なリスクのツールよりも優れた能力を付与し、心血管イベントの複合的なエンドポイントの中でも、幅広い適用性と一般化の可能性とを備えている。
8及び生存モデル210をさらに含み得る。データ取得モジュール212、ダウンサンプリングモジュール214、交差検証モジュール216、クラス不均衡データセット206、ダウンサンプリングされたデータセット208、及び生存モデル210のうちの1つまたは複数は、ローカル、リモート、またはローカルとリモートの両方で保存または実行されるその機能及び内容の一部またはすべてを有し得ること、及びその機能をプラットフォームの他のコンポーネントと組み合わせたり、分散させたりすることができることが理解されるべきである。
に必須のものとして指定されていない限り、装置、デバイス、システム、または方法のいずれかの任意の特定の実装に対して必須のものとみなされるべきではない。読みやすく明確にするために、特定のコンポーネント、モジュール、または方法は、特定の図のみに関して説明されている場合がある。本開示において、特定の技術や配置などのいずれかを識別することは、提示されている特定の例に関連しているか、またはそのような技術や配置などの単なる一般的な説明である。特定の詳細または例を識別することは、意図されておらず、特にそのように指定されていない限り、必須または制限として解釈されるべきではない。コンポーネントの組み合わせまたはサブコンビネーションを具体的に説明していない場合でも、いずれかの組み合わせまたはサブコンビネーションが不可能であることを示すものとして理解されるべきではない。開示及び説明された例、配置、構成、コンポーネント、要素、装置、デバイス、システム、方法などに変更を加えることができ、特定の用途にとっては望ましい場合があることが理解されよう。また、説明されているいずれの方法についても、その方法がフロー図と併せて説明されているかどうかに関係なく、文脈による別段の指定または求めがない限り、方法の実行時に行われるステップのいずれかの明示的または暗黙的な順序付けは、これらのステップが、提示された順序で実行されなければならないことを意味するのではなく、代わりに別の順序で、または並行して実行できるということを理解されたい。
この例は、コックス比例ハザードエラスティックネット回帰モデルと組み合わせたダウンサンプリングの説明を提供し、図2の例示的なデータリスク分析プラットフォーム内で実行できるように、最初の採血から4年以内の心筋梗塞(MI)イベントの予測を評価する。
分析に使用された試料は、HUNT3研究のサブコホートであり、ノルウェーの前向き
コホート研究であり、研究参加者から採取された血液試料とフォローアップの健康情報が含まれていた。CHDサブコホートについては先に説明されており(PeterGanz,et al.Development and validation of a protein-based risk score for cardiovascular outcomes among patients with stable coronary heart disease.Jama, 315(23):2532-2541, 2016)、組み入れ基準は、6か月以上前のMIの病歴、狭窄、誘導性虚血、または以前の冠状動脈血行再建術を介して、存在しているが安定したCHDのエビデンスを対象とした。血漿試料は、SOMAscan(登録商標)Assay(SomaLogic,Inc;Boulder、コロラド州、米国)を使用してアッセイし、これは、Slow Off-rate Modified Aptamer(SOMAmer(登録商標))試薬を使用して相対的なタンパク質量を測定する。V4アッセイは、5,220のタンパク質分析物を測定するものであり、タンパク質のバイオマーカーを発見するための確立されたプラットフォームである。
生存データは、MIイベント、がんによる死亡、疾患による再入院、機械部品の故障などの幅広いトピックに対応するイベントまでの時間である転帰によって、特徴付けられる。時間依存データの性質は、イベントが調査期間外に発生した場合に、幾ばくかの個人においてイベントが観察されていないというものである。これらの個人は「打ち切られ」る
が、それは複数の理由で発生する可能性がある(例えば、MIに関連しない原因による死亡、研究からの個人の離脱、研究の枠組みの終了後におけるMIの発生)。打ち切りには複数の種類があるが、データには右側打ち切りの個人が含まれている。つまり、MIイベントがない患者について、最後に観測された時点より後に発生していることが仮定されることを意味している。
式中、f(.)はMIまでの時間の確率密度関数である。生存関数と共に、イベントまでの時間を大幅に増加または減少させる特徴も識別及び特徴付けることができる。生存分析の手法は数多くあるが、最も一般的なものの1つは、コックス比例ハザードモデルである。コックスモデルは次のように表される。
この場合、λ(t|.)は、ハザード関数(または「障害の即時リスク」関数)であり、λ(t|.)=f(t|.)/S(t|.)のように定義される。さらに、Xiは、i番目の個人の特徴の測定値のpx1ベクトルであり、βは特徴の効果のpx1ベクトルである。コックスモデルの主な目標は、特徴がイベント発生の個人のリスクに与える影響を推定することである。そのベースラインハザード率、λ0(t)は、推定ルーチンにおいて迷惑パラメータとして扱われ、したがって、検討されない。
式中、λ1は、ラッソ回帰に関連付けられているL1ペナルティであり、λ2は、リッジ回帰に関連するL2ペナルティである。
データセットは、トレーニングセット(データの80%)とテストセット(20%)に分割された。トレーニングセットはモデルの構築に使用され、最終モデルはテストセットで評価された。コックスエラスティックネットモデルのテストセットでの予測のしきい値は、交差検証中に分割ごとに生成されたしきい値の平均として計算された。ペナルティ付き回帰モデルを実装する前に、トレーニングセットを使用して単変量フィルタリングを実行した。スチューデントのt検定が分析対象物ごとに計算され、研究の枠組みでMIイベントが発生した個人と発生しなかった個人の間で、平均値が統計的に有意に異なるかどうかを評価した。この手法の有用性を示す際の一貫性を保つために、モデルの展開全体で上位100の分析対象物(偽発見率の値でランク付け)が含まれている。
ダウンサンプリングされたコックスエラスティックネットモデルの結果を、2つのロジスティック回帰エラスティックネットモデル(ダウンサンプリングされたものとされていないもの)及びダウンサンプリングを使用しなかったコックスエラスティックネットモデルと比較した。表記を簡単にするために、コックスエラスティックネットモデルは「Coxnet」モデルと呼ばれ、エラスティックネットロジスティック回帰モデルは「LRnet」モデルと呼ばれる。ダウンサンプリングされたモデルには、「DS」が付加された(例えば、ダウンサンプリングを実装するコックスエラスティックネットモデルは「DS-Coxnet」である)。
生存モデルに対して計算された。
交差検証の結果は、両方のCoxnetモデルが標準のLRnetモデルを大幅に上回っていることを示している(表2を参照)。生存分析法は、特徴の選択とモデルの展開の一部として、イベントまでの時間の情報を使用するため、この結果は期待される。より説得力のある結果は、DS-Coxnetモデルが、すべての分類メトリック(AUC、感度、特異度)にわたってDS-LRnetモデルと標準的なCoxnetモデルの両方を上回ったことである。さらに、DS-Coxnetモデルは標準のCoxnetモデルよりも高いC-Indexを備えており、ダウンサンプリングされたモデルが、MIまでの時間の順序を、より適切に予測することを示している。
DS-Coxnetモデルを使用してテストセットを予測するために使用されたしきい値は、交差検証の反復からのすべてのしきい値にわたる平均であった。このしきい値は他のモデルよりも高い感度と特異度に至ったが、それらの値は依然として相当不均衡であった。重要な考慮事項は、予測のしきい値を操作することで、感度/特異度のトレードオフの均衡をさらにとることができるかどうかである。
Claims (23)
- 疾患または状態のバイオマーカーを特定するためのコンピュータに実装された方法であって、
a)クラス不均衡データセットを取得することであって、前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記取得すること、
b)前記多数派データクラスのデータをサブセット化して、前記多数派データクラスの観察結果の数と前記少数派データクラスの観察結果の数との間のクラス不均衡を減少させることにより、前記クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
c)前記ダウンサンプリングされたデータセットに対して交差検証を用いてコックス比例ハザードモデルをトレーニングすることにより生存分析を実行し、前記少数派データクラスと前記多数派データクラスの間の観察結果を分類する特徴を特定するエラスティックネットペナルティと生存モデルとを生成し、前記エラスティックネットペナルティは前記生存分析と組み合わされる、前記生存分析を実行することを含み、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず、並びに
AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、
前記方法。 - 前記クラス不均衡データセットが生存データセットである、請求項1に記載の方法。
- 前記イベントが、対象の疾患、障害、または状態である、請求項1又は2に記載の方法。
- 前記交差検証は、2分割、3分割、4分割、5分割、6分割、7分割、8分割、9分割、10分割、11分割、12分割、13分割、14分割、15分割、16分割、17分割、18分割、19分割、または20分割の交差検証である、請求項1~3のいずれか一項に記載の方法。
- 前記生存モデルは5から1000の特徴を含み、各特徴は、タンパク質の測定、臨床因子、及びそれらの組み合わせからなる群から選択される、請求項1~4のいずれか一項に記載の方法。
- 前記臨床因子は、年齢、体重、血圧、身長、BMI、コレステロール、性別、及びそれらの組み合わせからなる群から選択される、請求項5に記載の方法。
- 前記臨床測定値は、プロテオミクス測定値、ゲノム測定値、トランスクリプトーム測定値、メタボロミクス測定値、またはそれらの組み合わせから選択される、請求項1~6のいずれか一項に記載の方法。
- 前記交差検証が、k分割交差検証、モンテカルロ交差検証、及びN個抜き交差検証から選択される、請求項1~7のいずれか一項に記載の方法。
- 前記多数派データクラスが前記クラス不均衡データセットの95%であり、前記少数派データクラスが前記クラス不均衡データセットの5%である、請求項1~8のいずれか一項に記載の方法。
- 前記多数派データクラスが前記クラス不均衡データセットの90%であり、前記少数派データクラスが前記クラス不均衡データセットの10%である、請求項1~8のいずれか一項に記載の方法。
- 前記多数派データクラスが前記クラス不均衡データセットの85%であり、前記少数派データクラスが前記クラス不均衡データセットの15%である、請求項1~8のいずれか一項に記載の方法。
- 前記多数派データクラスが前記クラス不均衡データセットの80%であり、前記少数派データクラスが前記クラス不均衡データセットの20%である、請求項1~8のいずれか一項に記載の方法。
- 前記多数派データクラスが前記クラス不均衡データセットの75%であり、前記少数派データクラスが前記クラス不均衡データセットの25%である、請求項1~8のいずれか一項に記載の方法。
- 前記多数派データクラスが前記クラス不均衡データセットの70%であり、前記少数派データクラスが前記クラス不均衡データセットの30%である、請求項1~8のいずれか一項に記載の方法。
- 前記多数派データクラスが前記クラス不均衡データセットの65%であり、前記少数派データクラスが前記クラス不均衡データセットの35%である、請求項1~8のいずれか一項に記載の方法。
- 前記多数派データクラスが前記クラス不均衡データセットの60%であり、前記少数派データクラスが前記クラス不均衡データセットの40%である、請求項1~8のいずれか
一項に記載の方法。 - 疾患または状態のバイオマーカーを特定するためのコンピュータに実装された方法であって、
a)多数派データクラスのデータをサブセット化して、前記多数派データクラスの観察結果の数と少数派データクラスの観察結果の数との間のクラス不均衡を減少させることにより、クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
b)前記ダウンサンプリングされたデータセットに対して交差検証を用いてコックス比例ハザードモデルをトレーニングすることにより生存分析を実行し、前記少数派データクラスと前記多数派データクラスの間の観察結果を分類する特徴を特定するエラスティックネットペナルティと生存モデルとを生成し、前記エラスティックネットペナルティは前記生存分析と組み合わされる、前記生存分析を実行することを含み、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず、
前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、前記多数派データクラスまたは前記少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含み、並びに
AUC、感度、特異度、及び/または前記生存モデルのC-indexは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったAUC、感度、特異度、及び/または生存モデルのC-indexよりも1に近い、
前記方法。 - 前記AUCは、対象が特定の時点までにイベントを有するかどうかの判定に基づいて計算される、請求項17に記載の方法。
- 請求項1~16のいずれか一項に記載の方法のコンピュータ実装方法であって、
ステップb)及びステップc)は、コンピュータシステムを用いて計算される、前記方法。 - ステップa)におけるクラス不均衡データセットが、コンピュータシステムによって受信される、請求項19に記載の方法。
- コンピュータによって読み取り可能なプログラム記憶装置であって、
請求項1~16のいずれか一項に記載の方法の各方法ステップを実行するための命令プログラムを記憶した、前記装置。 - 疾患または状態のバイオマーカーを特定するためのコンピューティングシステムであって、プログラムされた命令を格納するためのメモリ;及び操作を実行するため前記プログラムされた命令を実行するように構成されたプロセッサを含み、
前記操作が、請求項1~16のいずれか一項に記載の方法を実行するものである、前記システム。 - 非一時的なコンピュータ可読媒体であって、
操作を実行するためにプロセッサによって実行可能な命令が格納され、
前記操作が、請求項1~16のいずれか一項に記載の方法を実行するものである、前記非一時的なコンピュータ可読媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2025003207A JP2025061136A (ja) | 2018-11-29 | 2025-01-09 | 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 |
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201862773028P | 2018-11-29 | 2018-11-29 | |
| US62/773,028 | 2018-11-29 | ||
| US201862783733P | 2018-12-21 | 2018-12-21 | |
| US62/783,733 | 2018-12-21 | ||
| PCT/US2019/062561 WO2020112478A1 (en) | 2018-11-29 | 2019-11-21 | Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2025003207A Division JP2025061136A (ja) | 2018-11-29 | 2025-01-09 | 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2022509835A JP2022509835A (ja) | 2022-01-24 |
| JPWO2020112478A5 JPWO2020112478A5 (ja) | 2022-11-24 |
| JP7680950B2 true JP7680950B2 (ja) | 2025-05-21 |
Family
ID=70852605
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021530139A Active JP7680950B2 (ja) | 2018-11-29 | 2019-11-21 | 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 |
| JP2025003207A Withdrawn JP2025061136A (ja) | 2018-11-29 | 2025-01-09 | 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2025003207A Withdrawn JP2025061136A (ja) | 2018-11-29 | 2025-01-09 | 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 |
Country Status (10)
| Country | Link |
|---|---|
| US (1) | US20220015714A1 (ja) |
| EP (1) | EP3886696A4 (ja) |
| JP (2) | JP7680950B2 (ja) |
| KR (1) | KR20210099605A (ja) |
| CN (1) | CN113271849B (ja) |
| AU (1) | AU2019385818B2 (ja) |
| CA (1) | CA3120716A1 (ja) |
| IL (1) | IL283467A (ja) |
| SG (1) | SG11202105063QA (ja) |
| WO (1) | WO2020112478A1 (ja) |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11996201B2 (en) * | 2021-03-04 | 2024-05-28 | Abbott Laboratories | Technology to automatically identify the most relevant health failure risk factors |
| JP7322918B2 (ja) * | 2021-03-29 | 2023-08-08 | 横河電機株式会社 | プログラム、情報処理装置、及び学習モデルの生成方法 |
| KR102393367B1 (ko) | 2021-11-15 | 2022-05-03 | 오브젠 주식회사 | 생존 분석 시스템 및 그 제어방법 |
| KR102424884B1 (ko) | 2021-11-18 | 2022-07-27 | 오브젠 주식회사 | 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법 |
| CN114548327A (zh) * | 2022-04-27 | 2022-05-27 | 湖南工商大学 | 基于平衡子集的软件缺陷预测方法、系统、设备及介质 |
| CN115114270B (zh) * | 2022-06-14 | 2024-08-02 | 马上消费金融股份有限公司 | 数据降采样方法及装置、电子设备、计算机可读存储介质 |
| KR102688743B1 (ko) * | 2023-08-16 | 2024-07-26 | 렉스이노베이션 주식회사 | 분산 배터리의 soh에 기초하여 이상을 탐지하는 방법 |
| US20250069754A1 (en) * | 2023-08-22 | 2025-02-27 | Elythea, Inc. | Predicting risk of pregnancy-related complications using machine learning |
| CN121015165A (zh) * | 2025-06-30 | 2025-11-28 | 延边大学 | 基于多模态特征融合的睡眠呼吸暂停识别方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017214397A1 (en) | 2016-06-08 | 2017-12-14 | University Of Iowa Research Foundation | Compositions and methods for detecting predisposition to cardiovascular disease |
| WO2018048960A1 (en) | 2016-09-07 | 2018-03-15 | Veracyte, Inc. | Methods and systems for detecting usual interstitial pneumonia |
| WO2018141840A1 (en) | 2017-02-02 | 2018-08-09 | B.R.A.H.M.S Gmbh | Proadm as marker indicating an adverse event |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7982066B2 (en) * | 2005-12-09 | 2011-07-19 | Novalife, Inc. | High protein supplement |
| US7947447B2 (en) | 2007-01-16 | 2011-05-24 | Somalogic, Inc. | Method for generating aptamers with improved off-rates |
| CA2783536A1 (en) * | 2009-12-09 | 2011-06-16 | Aviir, Inc. | Biomarker assay for diagnosis and classification of cardiovascular disease |
| US20120269418A1 (en) * | 2011-04-22 | 2012-10-25 | Ge Global Research | Analyzing the expression of biomarkers in cells with clusters |
| CN104573708A (zh) * | 2014-12-19 | 2015-04-29 | 天津大学 | 组合降采样极限学习机 |
| EP3356560A4 (en) * | 2015-09-30 | 2019-06-12 | Inform Genomics, Inc. | SYSTEMS AND METHODS FOR PREDICTING EVENTS RELATED TO A THERAPEUTIC REGIME |
| GB201614394D0 (en) * | 2016-08-23 | 2016-10-05 | Imp Innovations Ltd | Method |
| AU2018100796A4 (en) * | 2018-06-14 | 2018-07-19 | Macau University Of Science And Technology | A genetic feature identifying system and a search method for identifying features of genetic information |
-
2019
- 2019-11-21 EP EP19888405.8A patent/EP3886696A4/en active Pending
- 2019-11-21 CN CN201980078901.3A patent/CN113271849B/zh active Active
- 2019-11-21 AU AU2019385818A patent/AU2019385818B2/en active Active
- 2019-11-21 JP JP2021530139A patent/JP7680950B2/ja active Active
- 2019-11-21 WO PCT/US2019/062561 patent/WO2020112478A1/en not_active Ceased
- 2019-11-21 US US17/297,669 patent/US20220015714A1/en active Pending
- 2019-11-21 KR KR1020217020120A patent/KR20210099605A/ko active Pending
- 2019-11-21 CA CA3120716A patent/CA3120716A1/en active Pending
- 2019-11-21 SG SG11202105063QA patent/SG11202105063QA/en unknown
-
2021
- 2021-05-26 IL IL283467A patent/IL283467A/en unknown
-
2025
- 2025-01-09 JP JP2025003207A patent/JP2025061136A/ja not_active Withdrawn
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017214397A1 (en) | 2016-06-08 | 2017-12-14 | University Of Iowa Research Foundation | Compositions and methods for detecting predisposition to cardiovascular disease |
| WO2018048960A1 (en) | 2016-09-07 | 2018-03-15 | Veracyte, Inc. | Methods and systems for detecting usual interstitial pneumonia |
| WO2018141840A1 (en) | 2017-02-02 | 2018-08-09 | B.R.A.H.M.S Gmbh | Proadm as marker indicating an adverse event |
Also Published As
| Publication number | Publication date |
|---|---|
| IL283467A (en) | 2021-07-29 |
| CA3120716A1 (en) | 2020-06-04 |
| CN113271849A (zh) | 2021-08-17 |
| EP3886696A4 (en) | 2022-08-24 |
| US20220015714A1 (en) | 2022-01-20 |
| EP3886696A1 (en) | 2021-10-06 |
| JP2022509835A (ja) | 2022-01-24 |
| SG11202105063QA (en) | 2021-06-29 |
| WO2020112478A1 (en) | 2020-06-04 |
| JP2025061136A (ja) | 2025-04-10 |
| KR20210099605A (ko) | 2021-08-12 |
| CN113271849B (zh) | 2024-08-30 |
| AU2019385818B2 (en) | 2025-04-24 |
| AU2019385818A1 (en) | 2021-07-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7680950B2 (ja) | 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法 | |
| Kukar et al. | COVID-19 diagnosis by routine blood tests using machine learning | |
| Sweeney et al. | A community approach to mortality prediction in sepsis via gene expression analysis | |
| Kurstjens et al. | Rapid identification of SARS-CoV-2-infected patients at the emergency department using routine testing | |
| JP7431760B2 (ja) | 癌分類子モデル、機械学習システム、および使用方法 | |
| Fujisawa et al. | Nationwide cloud-based integrated database of idiopathic interstitial pneumonias for multidisciplinary discussion | |
| Schupp et al. | Diagnostic and prognostic role of platelets in patients with sepsis and septic shock | |
| RU2640568C2 (ru) | Способы и системы для оценки риска рака желудочно-кишечного тракта | |
| Zheng et al. | Prospective accuracy for longitudinal markers | |
| US20130103321A1 (en) | Selection of Preferred Sample Handling and Processing Protocol for Identification of Disease Biomarkers and Sample Quality Assessment | |
| Shi et al. | Machine learning-based in-hospital mortality prediction of HIV/AIDS patients with Talaromyces marneffei infection in Guangxi, China | |
| JP2012502281A5 (ja) | ||
| CN105229471A (zh) | 用于基于生物化学标记分析确定先兆子痫风险的系统和方法 | |
| US20220084639A1 (en) | Electronic Phenotyping Technique for Diagnosing Chronic Kidney Disease | |
| Aguirre et al. | Diagnostic performance of machine learning models using cell population data for the detection of sepsis: a comparative study | |
| Moore et al. | Cell free RNA detection of pancreatic cancer in pre diagnostic high risk and symptomatic patients | |
| Pecanha-Pietrobom et al. | The clinical course of hospitalized moderately ill COVID-19 patients is mirrored by routine hematologic tests and influenced by renal transplantation | |
| Shu et al. | Acute ischemic stroke prediction and predictive factors analysis using hematological indicators in elderly hypertensives post-transient ischemic attack | |
| Bernal-Dolores et al. | The mean corpuscular volume (MCV) is a hematological biomarker associated with COVID-19 mortality risk | |
| Sweeney et al. | Mortality prediction in sepsis via gene expression analysis: a community approach | |
| HK40059456A (en) | Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis | |
| JP2024525499A (ja) | 機械学習を使用した全血算に基づく異常検出 | |
| HK40059456B (zh) | 结合类别不平衡集降采样与生存分析的疾病风险确定方法 | |
| Lin et al. | Monocyte distribution width enhances the detection of infection in patients after primary percutaneous coronary intervention | |
| Pathania et al. | Neutrophil-to-lymphocyte ratio as marker of organ dysfunction severity in patients with sepsis in the intensive care unit: an observational study |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221114 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221114 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231227 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240409 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240610 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240910 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250130 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250415 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250509 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7680950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |



