JP7680950B2

JP7680950B2 - 生存分析によるクラス不均衡セットのダウンサンプリングを組み合わせた疾患リスクを判定するための方法

Info

Publication number: JP7680950B2
Application number: JP2021530139A
Authority: JP
Inventors: ハガル，ヨランダ; ダッタ，ガルギ; アレクサンダー，レイ; ヒンテルベルグ，マイケル
Original assignee: Somalogic Inc
Current assignee: Somalogic Inc
Priority date: 2018-11-29
Filing date: 2019-11-21
Publication date: 2025-05-21
Anticipated expiration: 2039-11-21
Also published as: IL283467A; CA3120716A1; CN113271849A; EP3886696A4; US20220015714A1; EP3886696A1; JP2022509835A; SG11202105063QA; WO2020112478A1; JP2025061136A; KR20210099605A; CN113271849B; AU2019385818B2; AU2019385818A1

Description

関連出願の相互参照
本願は、２０１８年１１月２９日に出願された米国仮特許出願第６２／７７３，０２８号、及び２０１８年１２月２１日に出願された米国仮特許出願第６２／７８３，７３３号に対する優先権の利益を主張するものであり、それらの全内容は、参照することにより本明細書に組み込まれる。

本開示は、一般に、疾患のリスクの判定の分野に関し、より具体的には、電子データを処理して疾患のリスクを判定するためのシステム及び方法に関する。

心血管イベント、糖尿病診断、様々ながんの類など、様々な疾患関連の状態またはイベントのリスクに関連するバイオマーカーを識別する方法は、主に遺伝子シーケンシング、トランスクリプトミクス、プロテオミクス、及びメタボロミクスなどのハイスループット技術の発見により改善されてきた。しかし、これらのテクノロジーはまた、意味のあるバイオマーカーシグネチャの抽出を困難にする可能性のある複雑な生物学的プロセスを表す高次元のデータを生じることにより、問題を複雑にしている。

主な目標が、指定された期間内に疾患関連の状態またはイベントを経験する個人を正しく識別することである場合、通常は分類アプローチを使用するのみである分析は、分類ツールと組み合わせて生存モデルアプローチと共に組み込む、特別なタイプの分類問題として、それを組立てることによって、強化できる。ただし、生存分析は、疾患に関連する状態またはイベントを経験する患者と経験しない患者の数の不均衡に苛まれる可能性がある。モデルは「できるだけ頻繁に」正確になるようにトレーニングされているため、予測分類子は一般に不均衡なデータに対するパフォーマンスが低いことが知られている。この効果は、より大きな多数派クラスが、モデル用に選択された特徴を駆り立てることから発生する。少数派クラスが頻繁に誤分類される可能性がある一方で、多数派クラスは依然正確に予測されている。しかし、感度と特異度が不均衡になり、一方が、観察結果の数が多い群に依拠する形で、他方に対して最大にされる。健康の転帰のモデル化では、コホート内の疾患有病率が低く、少数派クラスを形成するのが一般的である。そのような状況では、感度を犠牲にして特異度が最大化される。これは、状態またはイベントの発生のリスクがある個人をできるだけ多く特定することが目標である場合に、問題になる。

したがって、特定の疾患または状態の分子シグネチャーまたはバイオマーカーを識別するための改善された方法に対する代替の方法の必要性が引き続き存在する。本開示は、バイオマーカーの発見を改善するための方法を提供することにより、そのような必要性を満たすものである。

本開示のいくつかの態様によれば、開示されるシステム及び方法は、生存分析における感度及び特異度を改良するために、時間の値を含むクラス不均衡データセットの多数派クラス、すなわちより多くの観察結果があるクラスのダウンサンプリングに関する。ダウンサンプリングの目的は、モデルの感度と特異度のバランスをとるために、診断された個人と診断されていない個人を均等に配慮するように分類子を「バイアス」することである。

一実施形態では、クラス不均衡データセットを取得することであって、クラス不均衡デ
ータセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること；クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること；及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない方法が、開示される。

本開示の態様によれば、曲線下面積（ＡＵＣ）、感度、特異度、及び／または生存モデルのＣ－ｉｎｄｅｘは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったＡＵＣ、感度、特異度、及び／または生存モデルのＣ－ｉｎｄｅｘよりも１に近い。

他の例では、クラス不均衡データセットは生存データセットであり、及び／またはイベントは、対象の疾患、障害、または状態である。さらなる例では、生存分析は、コックス比例ハザード分析、ランダムフォレスト分析、加速故障時間分析、及びそれらの任意の組み合わせからなる群から選択され、ペナルティ付き回帰技術などの機械学習の適合を含む。この方法は、エラスティックネットペナルティをさらに含み得る。

他の実施形態では、交差検証は、少なくとも２分割、３分割、４分割、５分割、６分割、７分割、８分割、９分割、１０分割、１１分割、１２分割、１３分割、１４分割、１５分割、１６分割、１７分割、１８分割、１９分割、または２０分割の交差検証である。他の実施形態では、生存モデルは５から１０００の特徴を含み、各特徴は、タンパク質の測定、臨床因子、及びそれらの組み合わせからなる群から選択される。臨床因子は、年齢、体重、血圧、身長、ＢＭＩ、コレステロール、性別、及びそれらの組み合わせからなる群から選択される。

さらなる実施形態では、臨床測定値は、プロテオミクス測定値、ゲノム測定値、トランスクリプトーム測定値、メタボロミクス測定値、及びそれらの組み合わせから選択される。さらに、交差検証は、ｋ分割交差検証、一般化させたモンテカルロ交差検証、及びｐ個抜き交差検証またはブートストラッピング手法から選択される。

本開示の態様によれば、多数派データクラスがクラス不均衡データセットの９５％であり、少数派データクラスがクラス不均衡データセットの５％であるか、多数派データクラスがクラス不均衡データセットの９０％であり、少数派データクラスがクラス不均衡データセットの１０％であるか、多数派データクラスがクラス不均衡データセットの８５％であり、少数派データクラスがクラス不均衡データセットの１５％であるか、多数派データクラスがクラス不均衡データセットの８０％であり、少数派データクラスがクラス不均衡データセットの２０％であるか、多数派データクラスがクラス不均衡データセットの７５％であり、少数派データクラスがクラス不均衡データセットの２５％であるか、多数派データクラスがクラス不均衡データセットの７０％であり、少数派データクラスがクラス不均衡データセットの３０％であるか、多数派データクラスがクラス不均衡データセットの６５％であり、少数派データクラスがクラス不均衡データセットの３５％であるか、多数派データクラスがクラス不均衡データセットの６０％であり、少数派データクラスがクラス不均衡データセットの４０％である。

別の実施形態では、方法であって、クラス不均衡データセットをダウンサンプリングし
て、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること；及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み；観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず；クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数のタンパク質の測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、方法が開示される。

本開示の態様によれば、ＡＵＣ、感度、特異度、及び／または生存モデルのＣ－ｉｎｄｅｘは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったＡＵＣ、感度、特異度、及び／または生存モデルのＣ－ｉｎｄｅｘよりも１に近い。

本開示の例では、ＡＵＣは、対象が特定の時点までにイベントを有するかどうかの判定に基づいて計算される。

疾患のリスクを判定するためのコンピュータ実装方法であって、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること；クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること；及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み；観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず；ダウンサンプリング及び交差検証のステップは、コンピュータシステムを用いて計算される、方法がまた、開示される。

コンピュータによって読み取り可能なプログラム記憶装置であって、コンピュータによって実行可能な命令のプログラムを触知的に具現化して、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること；クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること；及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含む疾患のリスクを判定するための方法の方法ステップを実行し；観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない方法がまた、開示される。

本開示の態様によれば、ＡＵＣ、感度、特異度、及び／または生存モデルのＣ－ｉｎｄｅｘは、クラス不均衡データセットが生存分析の前にダウンサンプリングされなかったＡ
ＵＣ、感度、特異度、及び／または生存モデルのＣ－ｉｎｄｅｘよりも１に近い。

疾患のリスクを判定するためのコンピューティングシステムであって、プログラムされた命令を格納するためのメモリ、及びクラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること；クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること；及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、操作を実行するためプログラムされた命令を実行するように構成されたプロセッサを含む、コンピューティングシステムがまた、開示されている。

非一時的なコンピュータ可読媒体であって、クラス不均衡データセットを取得することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、取得すること；クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること；及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対して交差検証を実行することという操作を実行するためにプロセッサによって実行可能な命令が格納され、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、非一時的なコンピュータ可読媒体がまた、開示される。

疾患のリスクを判定するためのコンピュータ実装方法であって、クラス不均衡データセットをコンピュータで受信することであって、クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、多数派データクラスは少数派データクラスよりも多くの観察結果を含む、受信すること；クラス不均衡データセットをコンピュータでダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、ダウンサンプリングが、少数派データクラスと同等または実質的に同等の数の観察結果を含む多数派データクラスを生成する、生成すること；及び生存モデルを生成するために、生存分析を使用してダウンサンプリングされたデータセットに対してコンピュータで交差検証を実行することを含み、観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まない、方法がまた開示される。

本開示の方法、システム、及び他の態様が実装され得るネットワーク化されたコンピューティング環境の例を示している。本開示による臨床データの取得及び処理用の疾患リスク分析プラットフォームの高レベルのアーキテクチャの図である。ＨＵＮＴ３ＣＨＤサブコホートにおける心筋梗塞（ＭＩ）のカプランマイヤー生存曲線を示している。予測されたイベントによって層化された、テストセットでのＭＩのカプランマイヤー生存曲線を示している。各方法について、テストセットは、交差検証によって識別されたしきい値を使用して、高リスクと平均のリスクの個人に分割されている。次に、両群についてカプランマイヤー曲線が計算される。ロジスティック回帰モデルの結果では、誰もが低リスクであると予測され、そのため、生存曲線は１つだけになった。図４－１の続き。ダウンサンプリングされたコックスエラスティックネットモデルを使用して４年以下のＭＩを予測した、テストセットでのＭＩのカプランマイヤー生存曲線を示している。個人を高リスクとして分類するための様々なしきい値が調査された。図５－１の続き。

別段の注記がない限り、専門用語は従来の使用法に従って使用される。分子生物学における一般的な用語の定義は、ＢｅｎｊａｍｉｎＬｅｗｉｎ，ＧｅｎｅｓＶ，ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓにより出版，１９９４（ＩＳＢＮ０－１９－８５４２８７－９）、Ｋｅｎｄｒｅｗｅｔａｌ．（ｅｄｓ．），ＴｈｅＥｎｃｙｃｌｏｐｅｄｉａｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ，ＢｌａｃｋｗｅｌｌＳｃｉｅｎｃｅＬｔｄ．により出版，１９９４（ＩＳＢＮ０－６３２－０２１８２－９）、及びＲｏｂｅｒｔＡ．Ｍｅｙｅｒｓ（ｅｄ．），ＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙａｎｄＢｉｏｔｅｃｈｎｏｌｏｇｙ：ａＣｏｍｐｒｅｈｅｎｓｉｖｅＤｅｓｋＲｅｆｅｒｅｎｃｅ，ＶＣＨＰｕｂｌｉｓｈｅｒｓ，Ｉｎｃ．により出版，１９９５（ＩＳＢＮ１－５６０８１－５６９－８）に見出されてよい。別段の説明がない限り、本明細書で使用される全ての専門用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるものと同じ意味を有する。単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、その内容に別段の明確な指示がない限り、複数の指示対象を含む。「ＡまたはＢを含む」とは、Ａ、またはＢ、またはＡ及びＢを含むことを意味する。核酸またはポリペプチドについて与えられる、全ての塩基サイズまたはアミノ酸サイズ、及び全ての分子量または分子質量の値は概算であり、説明のために提供されることがさらに理解されるべきである。

さらに、本明細書で提供される範囲は、その範囲内の全ての値の簡略表記であると理解される。例えば、１～５０の範囲は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、または５０からなる群からの任意の数、数の組合せ、または部分範囲（加えて、その内容に別段の明確な指示がない限り、その分数）を含むと理解される。いずれの濃度範囲、パーセンテージ範囲、比率範囲、または整数範囲も、別段の指示がない限り、列挙される範囲内の任意の整数、ならびに適切な場合、その分数（整数の１０分の１及び１００分の１など）の値
も含むと理解されるべきである。また、任意の物理的特徴、例えば、ポリマーサブユニット、サイズまたは厚さなどに関する、本明細書で列挙される数値範囲のいずれも、別段の指示がない限り、列挙される範囲内のいずれの整数も含むと理解されるべきである。本明細書で使用される場合、「約」または「から本質的になる」とは、別段の指示がない限り、示される範囲、値、または構造の±２０％を意味する。本明細書で使用される場合、「含む（ｉｎｃｌｕｄｅ）」及び「含む（ｃｏｍｐｒｉｓｅ）」という用語はオープンエンド形式であり、同義語として使用される。

本明細書に記載されるものと類似または同等の方法及び材料が本開示の実施または試験に使用され得るが、好適な方法及び材料が以下に記載される。本明細書で言及されるすべての刊行物、特許出願、特許、及び他の参考文献は、それら全体が参照によって組み込まれる。矛盾する場合には、用語の説明を含む本明細書が優先されることになる。加えて、材料、方法、及び実施例は例示にすぎず、限定することを意図するものではない。

本明細書で使用される場合、「ＳＯＭＡｍｅｒ」または遅いオフレート修飾アプタマーは、改善されたオフレート特性を有するアプタマーを指す。ＳＯＭＡｍｅｒは、「ＭｅｔｈｏｄｆｏｒＧｅｎｅｒａｔｉｎｇＡｐｔａｍｅｒｓｗｉｔｈＩｍｐｒｏｖｅｄＯｆｆ－Ｒａｔｅｓ」と題した米国特許第７，９４７，４４７号に記載されている改良されたＳＥＬＥＸ法を使用して生成され得る。

「生体試料」「試料」、及び「試験試料」という用語は、本明細書では互換的に使用され、個体から得られた、またはそうでなければ個体に由来する任意の材料、生体体液、組織、または細胞を指す。これには、血液（全血、白血球、末梢血単核細胞、バフィーコート、血漿、及び血清を含む）、痰、涙、粘液、鼻洗浄液、鼻吸引液、呼気、尿、精液、唾液、腹腔洗浄液、腹水、嚢胞液、髄膜液、羊水、腺液、リンパ液、乳頭吸引液、気管支吸引液（例えば、気管支肺胞洗浄液）、気管支擦過液、滑液、関節吸引液、臓器分泌物、細胞、細胞抽出物、ならびに脳脊髄液が挙げられる。これには、前述のすべての実験的に分離された画分も挙げられる。例えば、血液試料は、血清、血漿に、または特定の種類の血球、例えば、赤血球もしくは白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌ）（白血球（ｌｅｕｋｏｃｙｔｅ））などを含有する画分に分画され得る。いくつかの実施形態では、試料は、個体からの試料の組合せ、例えば、組織及び液体試料の組合せなどであり得る。「生体試料」という用語は、例えば、糞便試料、組織試料、または組織生検などからのホモジナイズされた固体材料を含有する材料も含む。「生体試料」という用語は、組織培養または細胞培養に由来する材料も含む。生体試料を得るための任意の好適な方法が用いられ得、例示的な方法としては、例えば、静脈切開、スワブ（例えば、頬スワブ）、及び穿刺吸引細胞診手順が挙げられる。穿刺吸引が可能な例示的な組織としては、リンパ節、肺、肺洗浄液、ＢＡＬ（気管支肺胞洗浄液）、甲状腺、乳房、膵臓、及び肝臓が挙げられる。試料はまた、例えば、マイクロダイセクション（例えば、レーザーキャプチャーマイクロダイセクション（ＬＣＭ）もしくはレーザーマイクロダイセクション（ＬＭＤ））、膀胱洗浄、塗抹（例えば、ＰＡＰ塗抹）、または管洗浄によって収集され得る。個体から得られる、または個体に由来する「生体試料」としては、個体から得られた後に任意の好適な方法で処理されている任意のそのような試料が挙げられる。

本明細書で使用される場合、「生物学的データ」は、生物学的試料に由来する任意のデータを指す。このような生物学的データには、任意選択で多重性のアプタマーベースのアッセイにおける、タンパク質の標的に特異的なアプタマーを利用して収集されるプロテオミクスデータが含まれるが、これに限定されない。

本明細書で使用される場合、「臨床的要因」は、病状またはイベントのリスクの増加に関連し得る生理学的属性を指す。臨床的要因には、年齢、体重、血圧、身長、ＢＭＩ、コ
レステロール、及び性別が含まれるが、これらに限定されない。

本明細書で使用される場合、「クラス不均衡」は、セットのデータが２つ以上のクラスに分類されるとき、２つ以上のクラスが実質的に等しくない数の観察結果を有することを説明するデータセットの特性を指す。

本明細書で使用する場合、「交差検証」とは、モデルの構築に使用されるデータに対するモデルのパフォーマンスを評価するためのいずれかのモデル構築及び検証手法、及び統計分析の結果が独立したデータセットに一般化される方法を指し、ｋ分割交差検証、モンテカルロ交差検証、及びｐ個抜き交差検証（ｐは１から試料の総数－１までであってよい）を含むが、これらに限定されない。

本明細書で使用される場合、「ダウンサンプリング」は、クラスの不均衡を減らすために、より多くの観察結果、すなわち多数決データクラスでクラスのデータをサブセット化することを指す。

本明細書で使用される場合、「同等」または「実質的に同等」は、観察結果の数の差が１０％未満である、比較されたクラス間の差を指す。

本明細書で使用される場合、「特徴」は、データセット内の対象の測定可能な特質または特性を指す。特徴には、タンパク質の測定値及び臨床的要因が含まれるが、これらに限定されない。

本明細書で使用される場合、「多数派データクラス」は、２つのクラスを有するクラス不均衡データセットにおいて観察結果の数がより多いクラスを指す。

本明細書で使用される場合、「少数派データクラス」は、２つのクラスを有するクラス不均衡データセットにおいて観察結果の数がより少ないクラスを指す。

本明細書で使用される場合、「生存分析」は、イベントまでの時間のデータの任意のモデリングを指す。生存分析の方法は、ＭＩまでの時間、糖尿病の発症、様々な形態のがんの発症など、任意のイベントまでの時間の転帰で使用できる。生存分析には、コックス比例ハザード分析、ランダムフォレスト分析、及び加速故障時間分析が挙げられるが、これらに限定されない。

本明細書で使用される場合、「生存データセット」は、対象のイベントが対象が観察された期間に発生したかどうかを示す、時間の値及びイベントステータスの値の両方を含む任意のデータセットを指す。

生存分析では、クラスの不均衡は大きな問題を引き起こし、それにおいて特定の時間枠内で、疾患（またはイベント）のない個人の数が疾患を患っている個人の数を上回っている。この不均衡は、疾患のリスクが高い個人のリスクの予測を不正確なものにする可能性がある。ダウンサンプリングは、少数派クラスと多数派クラスの個人数のバランスをとることでこの問題を軽減し、そのため少数派クラスの個人に関連する特徴、及び疾患やイベントの発生リスクに対する推定される影響の検出と選択を改善する。

生存分析のためのクラス不均衡データセットのダウンサンプリングがＡＵＣを改善することが実証された１つのコンテキストは、安定した冠状動脈性心疾患（ＣＨＤ）患者の心血管イベントのリスクに関連する循環性タンパク質バイオマーカーを特定するために使用されたＳＯＭＡｓｃａｎ（登録商標）プロテオミクスアッセイによって生成されたプロテ
オミクスデータに関するものである。結果として得られるモデルは、既存の臨床的なリスクのツールよりも優れた能力を付与し、心血管イベントの複合的なエンドポイントの中でも、幅広い適用性と一般化の可能性とを備えている。

本開示は、安定したＣＨＤを有する患者の間で二次的ＭＩを予測するための標的モデルを説明する。プロテオミクスデータを使用して、安定したＣＨＤの患者の採血から４年以内に二次的ＭＩを経る可能性のある患者を特定した。プロテオミクス信号に加えて、データには、特定の心血管イベントが観察中に発生したかどうか、及びａ）イベント、またはｂ）他の要因による研究の終了のいずれかまでの時間の長さに関する情報が含まれている。これらのイベントまでの時間のデータにより、問題は生存分析手法に非常に適したものになっている。

主な目標が４年以内にＭＩイベントが発生する個人を正しく特定することである場合、分析は分類の問題として再構成できる。この場合、イベントが４年より前に発生した場合、個人は「陽性」クラスであり、個人がＭＩなしで４年という時間枠を超えて研究に残った場合、個人は「陰性」クラスとしてラベル付けされる。生存分析ツールを使用すると、分類子の展開にＭＩまでの時間を組み込むことにより、生存モデルが「すべての情報を使用する」ため、モデルの予測精度が向上する（標準の分類モデルと比較して）。このリフレーミングにより、ＡＵＣや混同行列などの標準的な分類メトリックを使用してモデルのパフォーマンスを評価することもできるようになる。生存モデルを評価するこの方法は、従来のアプローチではないが、イベント固有の分類は、臨床現場に多くの利点を与える。患者に「陽性」または「陰性」のラベルを付けることは、幅広い聴衆の間でより簡単に理解される（例えば、ハザード比または確率と比較して）。予後の検査のこの理解を向上させることにより、臨床医はより正確で的を絞った医療管理を提供できる。ただし、標準的な分類モデリングと同様に、生存分析へのこのアプローチは、イベントを経験する患者と経験しない患者の不均衡に悩まされる可能性がある。

例えば、実施例１で分析されたサブコホートの個人の８．１％のみが、４年以内に二次的ＭＩを発症するが、８倍を超える数の参加者（６６．９％）が、イベントなしで４年以上生存する。ダウンサンプリングの目的は、モデルの感度と特異度のバランスをとるために、診断された個人と診断されていない個人に等しく配慮するように分類子を「バイアス」することである。リサンプリング手法は様々な機械学習手法に適用されているが、クラスの不均衡は、生存モデリング手法を使用した機械学習では未踏のトピックである。

実施例１では、ダウンサンプリングをコックス比例ハザードエラスティックネット回帰モデルと組み合わせて、最初の採血から４年以内のＭＩイベントの予測を評価する。

実施例１から明らかなように、生存分析のパフォーマンス、例えばコックス比例ハザードエラスティックネットモデル（つまり、「Ｃｏｘｎｅｔ」モデル）は、モデリング中にデータをダウンサンプリングすることで改善できる。本開示は、ダウンサンプリングされたＣｏｘｎｅｔモデルが、標準のＣｏｘｎｅｔモデル、ダウンサンプリングされたエラスティックネットロジスティック回帰モデル、及び標準のエラスティックネットロジスティック回帰モデルよりも優れていることを効果的に示している。

ダウンサンプリングに加えて、生存モデルに組み込むこともできるクラスの不均衡を処理するための他の方法がある。例えば、ケースの重み付け、単純なオーバーサンプリング、または合成少数派オーバーサンプリング手法（ＳＭＯＴＥ）などのより複雑なオーバーサンプリング手法は、従来の生存分析や、生存ランダムフォレストなどの拡張された機械学習手法で検討できる。

実施例１は、指定された時間枠内におけるＭＩイベントの予測という文脈における生存分析のダウンサンプリングの組み合わせを詳細に説明しているが、本明細書に開示される方法は、選択した時間枠内での病状または疾患関連イベントのリスクの任意の予測に適用することができる。

図１は、本開示の態様による、例えば、クラス不均衡データをダウンサンプリングすることによって、疾患のリスクを判定するために電子データを処理するためのネットワーク化されたコンピューティング環境１００のブロック図である。図１に示されるように、ネットワーク化されたコンピューティング環境１００は、サーバシステム１０４及び電子データベース１０６を含む、疾患リスク分析プラットフォーム１０２を含み得る。サーバシステム１０４は、インターネットなどの電子ネットワーク１０８を介して使用するために、疾患リスク分析プラットフォーム１０２のソフトウェアモジュール、アルゴリズム、または他のサブシステムを格納及び実行することができる。使用者は、コンピューティングデバイスなどのユーザデバイス１１０によって、電子ネットワーク１０８を介して疾患リスク分析プラットフォーム１０２にアクセスすることができる。ユーザデバイス１１０は、使用者が、電子ネットワーク１０８を介してサーバシステム１０４によってホストされる疾患リスク分析プラットフォーム１０２にアクセスするためのウェブブラウザを表示することを可能にし得る。ユーザデバイス１１０は、パーソナルコンピューティングデバイス、モバイルコンピューティングデバイスなどのような、ウェブページにアクセスするための任意のタイプのデバイスであり得る。ソースデバイス１１２は電子ネットワーク１０８を介した疾患リスク分析プラットフォーム１０２にデータを提供及び／または受信することができる。ソースデバイス１１２は、パーソナルコンピューティングデバイス、モバイルコンピューティングデバイスなどのような、ウェブページにアクセスするための任意のタイプのデバイスであり得る。

図１は単なる例として提示されている。他の例が可能であり、図１のネットワーク化されたコンピューティング環境１００とは異なる場合がある。また、ネットワーク化されたコンピューティング環境１００に示されるデバイス及びネットワークの数及び配置が、例として提示されている。実際には、追加のデバイス、より少ないデバイス及び／またはネットワーク、様々なデバイス及び／またはネットワーク、またはネットワーク化されたコンピューティング環境１００に示されているものとは異なる配置のデバイス及び／またはネットワークがあり得る。さらに、図１に示される２つ以上のデバイスは、単一のデバイス内に実装され得、図１に示される単一のデバイスは、複数の分散したデバイスとして実装できる。さらに、または代わりに、１つまたは複数のユーザデバイス及び／またはネットワーク化されたコンピューティング環境１００のサーバシステムは、サーバシステム１０４の１つまたは複数の機能、及び／または疾患リスク分析プラットフォーム１０２を実行することができる。

図２は、疾患のリスクを判定するために電子データを処理するための例示的なコンピュータアーキテクチャ２００を示している。具体的には、図２は、本開示の１つまたは複数の実施形態による、クラス不均衡セットのダウンサンプリングを生存分析と組み合わせるように構成された、例示的なコンピュータアーキテクチャ２００を示している。図２のコンピュータアーキテクチャ２００に示されているように、疾患リスク分析プラットフォーム１０２のサーバシステム１０４は、データ取得モジュール２１２、ダウンサンプリングモジュール２１４、及び交差検証モジュール２１６を含み得る。疾患リスク分析プラットフォーム１０２は、ローカルまたはリモートでアクセスされるかどうかにかかわらず、１つまたは複数のデータベースまたはデータストアをさらに含むことができる。例えば、図２に示されるように、疾患リスク分析プラットフォーム１０２は、多数派クラスデータ２０２及び少数派クラスデータ２０４を含むクラス不均衡データセット２０６を含み得る。疾患リスク分析プラットフォーム１０２は、ダウンサンプリングされたデータセット２０
８及び生存モデル２１０をさらに含み得る。データ取得モジュール２１２、ダウンサンプリングモジュール２１４、交差検証モジュール２１６、クラス不均衡データセット２０６、ダウンサンプリングされたデータセット２０８、及び生存モデル２１０のうちの１つまたは複数は、ローカル、リモート、またはローカルとリモートの両方で保存または実行されるその機能及び内容の一部またはすべてを有し得ること、及びその機能をプラットフォームの他のコンポーネントと組み合わせたり、分散させたりすることができることが理解されるべきである。

例示的なコンピュータアーキテクチャ２００の一実施形態では、データ取得モジュール２１２は、ユーザデバイス１１０またはソースデバイス１１２から、多数派クラスデータ２０２及び少数派クラスデータ２０４を含むクラス不均衡データセット２０６を受信することができる。このクラス不均衡データセット２０６は、ダウンサンプリングモジュール２１４によって処理されて、ダウンサンプリングされたデータセット２０８を生成することができる。このダウンサンプリングされたデータセット２０８は、交差検証モジュール２１６によって処理されて、生存モデル２１０を生成することができる。次に、この生存モデル２１０は、電子ネットワーク１０８を介してユーザデバイス１００及び／またはソースデバイス１１２に送信され得る。

プログラマブルロジックを使用する場合、そのようなロジックは、市販の処理プラットフォームまたは専用デバイスで実行できる。開示される主題の実施形態は、マルチコアのマルチプロセッサシステム、ミニコンピュータ、メインフレームコンピュータ、分散機能とリンクまたはクラスタ化されたコンピュータ、ならびに実質的にあらゆるデバイスの中に埋め込まれ得る普及型または小型のコンピュータを含む種々のコンピュータシステム構成と共に実践されることができることを、当業者は理解し得る。

例えば、少なくとも１つのプロセッサデバイス及びメモリが、上述の実施形態を実装するために使用され得る。プロセッサデバイスは、単一のプロセッサ、複数個のプロセッサ、またはその組み合わせであり得る。プロセッサデバイスは、１つまたは複数のプロセッサ「コア」を備えている場合がある。

本開示の様々な実施形態は、上記の図１及び図２の例に記載されているように、プロセッサデバイスを使用して実装することができる。本説明を閲読した後、他のコンピュータシステム及び／またはコンピュータアーキテクチャを使用して、本開示の実施形態をどのように実装するかが当業者には明らかとなろう。操作は連続的な処理として説明され得るが、操作のうちのいくつかは、実際には、並行して、一斉に、及び／または分散型の環境において行われ得、また単一のまたはマルチプロセッサマシンによってアクセスされるために、ローカルでまたはリモートで格納されたプログラムコードで行われ得る。加えて、いくつかの実施形態では、操作の順番は、開示される主題の精神を逸脱することなく再設定され得る。

疾患リスク分析プラットフォーム１０２、及び／またはユーザデバイス１１０またはソースデバイス１１２などの疾患リスク分析プラットフォーム１０２にアクセスするために使用される任意のデバイスは、中央処理装置（ＣＰＵ）を含み得るということが、理解されるべきである。そのようなＣＰＵは、例えば、任意のタイプの特別な目的または汎用のマイクロプロセッサデバイスを含む、任意のタイプのプロセッサデバイスであり得る。当業者によって認識されるように、ＣＰＵはまた、マルチコア／マルチプロセッサシステム、単独でまたはコンピューティングデバイスのクラスタで、クラスタでまたはサーバファームで動作するシステムの単一のプロセッサであり得る。ＣＰＵは、データインフラストラクチャ、例えば、バス、メッセージ待ち行列、ネットワーク、またはマルチコアメッセージ受け渡しスキームに接続され得る。

疾患リスク分析プラットフォーム１０２、及び／または疾患リスク分析プラットフォーム１０２にアクセスするために使用される任意のデバイス、例えばユーザデバイス１１０またはソースデバイス１１２はまた、メインメモリ、例えば、ランダムアクセスメモリ（ＲＡＭ）を含み得、また、二次メモリを含み得るということが、さらに理解されるべきである。二次メモリ、例えば、読み取り専用メモリ（ＲＯＭ）は、例えば、ハードディスクドライブまたはリムーバブルストレージドライブであり得る。このようなリムーバブルストレージドライブは、例えばフロッピーディスクドライブ、磁気テープドライブ、光ディスクドライブ、フラッシュメモリ、または同様のものを含み得る。本例のリムーバブルストレージドライブは、周知の手法でリムーバブルストレージユニットから読み出し、及び／またはこれに書き込む。リムーバブルストレージユニットは、リムーバブルストレージドライブによって読み出し及び書き込みがなされるフロッピーディスク、磁気テープ、光ディスクなどを含み得る。当業者によって認識されるように、リムーバブルストレージユニットは、概して、コンピュータソフトウェア及び／またはデータを格納したコンピュータ利用可能記憶媒体を含む。

代替的な実施態様において、二次メモリは、コンピュータプログラムまたは他の命令がデバイスにロードされることを可能にする他の類似の手段を含み得る。かかる手段の例は、プログラムカートリッジ及びカートリッジインターフェース（ビデオゲーム機器において見られるものなど）、取り外し可能なメモリチップ（ＥＰＲＯＭ、またはＰＲＯＭなど）及び関連するソケット、及び他のリムーバブルストレージユニット及びソフトウェア及びデータがリムーバブルストレージユニットからデバイスへと転送されることを可能にするインターフェースを含み得る。

疾患リスク分析プラットフォーム１０２、及び／または疾患リスク分析プラットフォーム１０２にアクセスするために使用される任意のデバイス、例えばユーザデバイス１１０またはソースデバイス１１２はまた、通信インターフェース（「ＣＯＭ」）を含み得ることが、さらに理解されるべきである。通信インターフェースは、ソフトウェア及びデータが、デバイスと外部デバイスとの間で転送されることを可能にする。通信インターフェースは、モデム、ネットワークインターフェース（イーサネットカードなど）、ＣＯＭポート、ＰＣＭＣＩＡスロット及びカード、または同様のものを含み得る。通信インターフェースを経由して転送されるソフトウェア及びデータは、信号の形式であってもよく、これは通信インターフェースによって受信されることのできる電気、電磁、光、または他の信号であり得る。これらの信号は、デバイスの通信パスを介して通信インターフェースに与えることができ、それは、例えばワイヤまたはケーブル、光ファイバ、電話回線、携帯電話のリンク、ＲＦリンクまたは他の通信チャネルを使用して実装され得る。

そのような機器のハードウェア要素、オペレーティングシステム、及びプログラミング言語は、本質的に従来式であり、当業者はそれらに十分に精通していると推定される。疾患リスク分析プラットフォームにアクセスするために使用されるデバイスは、キーボード、マウス、タッチスクリーン、モニタ、ディスプレイなどの入力及び出力デバイスに接続するための入力及び出力ポートも含み得る。もちろん、様々なサーバの機能は、処理での負荷を分散するために、多くの同様のプラットフォームで分散された様式で実装され得る。あるいは、サーバは、１つのコンピュータハードウェアプラットフォームの適切なプログラミングによって実装することもできる。

本明細書に開示されるシステム、装置、デバイス、及び方法は、例として、また図を参照しながら、詳細に説明されている。本明細書で論じられる例は、単なる例であり、本明細書で説明される装置、デバイス、システム、及び方法の説明を補うために提示されている。図面に示されている、または以下で説明されている機能またはコンポーネントは、特
に必須のものとして指定されていない限り、装置、デバイス、システム、または方法のいずれかの任意の特定の実装に対して必須のものとみなされるべきではない。読みやすく明確にするために、特定のコンポーネント、モジュール、または方法は、特定の図のみに関して説明されている場合がある。本開示において、特定の技術や配置などのいずれかを識別することは、提示されている特定の例に関連しているか、またはそのような技術や配置などの単なる一般的な説明である。特定の詳細または例を識別することは、意図されておらず、特にそのように指定されていない限り、必須または制限として解釈されるべきではない。コンポーネントの組み合わせまたはサブコンビネーションを具体的に説明していない場合でも、いずれかの組み合わせまたはサブコンビネーションが不可能であることを示すものとして理解されるべきではない。開示及び説明された例、配置、構成、コンポーネント、要素、装置、デバイス、システム、方法などに変更を加えることができ、特定の用途にとっては望ましい場合があることが理解されよう。また、説明されているいずれの方法についても、その方法がフロー図と併せて説明されているかどうかに関係なく、文脈による別段の指定または求めがない限り、方法の実行時に行われるステップのいずれかの明示的または暗黙的な順序付けは、これらのステップが、提示された順序で実行されなければならないことを意味するのではなく、代わりに別の順序で、または並行して実行できるということを理解されたい。

本開示全体を通して、コンポーネントまたはモジュールへの言及は、一般に、機能または関連する機能のグループを実行するために論理的に一緒にグループ化することができる品目を指す。コンポーネントとモジュールは、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせで実装できる。「ソフトウェア」という用語は、実行可能コード、例えば機械実行可能または機械解釈可能な命令だけでなく、ファームウェアを含む任意の適切な電子形式で格納されたデータ構造、データストア、及び計算命令、及び組み込みソフトウェアを含むように広範に使用される。「情報」及び「データ」という用語は広範に使用され、多種多様な電子情報、例えば実行可能コード；コンテンツ、例えばテキスト、ビデオデータ、及びオーディオデータなど；ならびに様々なコードまたはフラグを含む。「情報」、「データ」、及び「コンテンツ」という用語は、文脈上許されている場合、同じ意味で使用されることがある。

以下の実施例は、本発明のいくつかの実施形態をより十分に例証するために提示される。しかし、それらは、決して本発明の広範な範囲を限定するものとして解釈されるべきではない。当業者は、本発明の趣旨から逸脱することなく、本発見の基礎となる原理を容易に採用し、様々な混合物を設計することができる。

実施例１
この例は、コックス比例ハザードエラスティックネット回帰モデルと組み合わせたダウンサンプリングの説明を提供し、図２の例示的なデータリスク分析プラットフォーム内で実行できるように、最初の採血から４年以内の心筋梗塞（ＭＩ）イベントの予測を評価する。

この例の目的は、少なくとも２つある。１）少数派クラスと多数派クラスの両方を予測する特徴の選択と識別、及び２）少数派クラスのリスクが十分に予測されるように推定された効果量の導出。対照的に、ロジスティック回帰エラスティックネットモデルの予測能力（ダウンサンプリングありとなし）と、ダウンサンプリングなしのコックスエラスティックネットモデルを検討した。

材料及び方法－データセット
分析に使用された試料は、ＨＵＮＴ３研究のサブコホートであり、ノルウェーの前向き
コホート研究であり、研究参加者から採取された血液試料とフォローアップの健康情報が含まれていた。ＣＨＤサブコホートについては先に説明されており（ＰｅｔｅｒＧａｎｚ，ｅｔａｌ．Ｄｅｖｅｌｏｐｍｅｎｔａｎｄｖａｌｉｄａｔｉｏｎｏｆａｐｒｏｔｅｉｎ－ｂａｓｅｄｒｉｓｋｓｃｏｒｅｆｏｒｃａｒｄｉｏｖａｓｃｕｌａｒｏｕｔｃｏｍｅｓａｍｏｎｇｐａｔｉｅｎｔｓｗｉｔｈｓｔａｂｌｅｃｏｒｏｎａｒｙｈｅａｒｔｄｉｓｅａｓｅ．Ｊａｍａ，３１５（２３）：２５３２－２５４１，２０１６）、組み入れ基準は、６か月以上前のＭＩの病歴、狭窄、誘導性虚血、または以前の冠状動脈血行再建術を介して、存在しているが安定したＣＨＤのエビデンスを対象とした。血漿試料は、ＳＯＭＡｓｃａｎ（登録商標）Ａｓｓａｙ（ＳｏｍａＬｏｇｉｃ，Ｉｎｃ；Ｂｏｕｌｄｅｒ、コロラド州、米国）を使用してアッセイし、これは、ＳｌｏｗＯｆｆ－ｒａｔｅＭｏｄｉｆｉｅｄＡｐｔａｍｅｒ（ＳＯＭＡｍｅｒ（登録商標））試薬を使用して相対的なタンパク質量を測定する。Ｖ４アッセイは、５，２２０のタンパク質分析物を測定するものであり、タンパク質のバイオマーカーを発見するための確立されたプラットフォームである。

サブコホートでは、患者の８．１％が４年以内に二次的ＭＩを経験した（表１）。ＣＨＤサブコホートにおけるＭＩのカプランマイヤー生存曲線を図３に示す。カプランマイヤー曲線は、イベントフリー（ＭＩフリーなど）の確率が時間の経過と共にどのように変化するかを調べるための経験的なノンパラメトリック手法である。ＨＵＮＴ３データセットのＣＨＤサブコホートでは、ＭＩのイベントフリーの確率が徐々に低下する。表１は、ＣＨＤサブコホートにおけるＭＩの発生率と人口統計学的情報を示している。

材料及び方法－コックスエラスティックネットモデル
生存データは、ＭＩイベント、がんによる死亡、疾患による再入院、機械部品の故障などの幅広いトピックに対応するイベントまでの時間である転帰によって、特徴付けられる。時間依存データの性質は、イベントが調査期間外に発生した場合に、幾ばくかの個人においてイベントが観察されていないというものである。これらの個人は「打ち切られ」る
が、それは複数の理由で発生する可能性がある（例えば、ＭＩに関連しない原因による死亡、研究からの個人の離脱、研究の枠組みの終了後におけるＭＩの発生）。打ち切りには複数の種類があるが、データには右側打ち切りの個人が含まれている。つまり、ＭＩイベントがない患者について、最後に観測された時点より後に発生していることが仮定されることを意味している。

生存データは、生存関数Ｓ（．）によって特徴付けられる。これは、イベントがない確率であり、時点ｔで次のように計算される。

式中、ｆ（．）はＭＩまでの時間の確率密度関数である。生存関数と共に、イベントまでの時間を大幅に増加または減少させる特徴も識別及び特徴付けることができる。生存分析の手法は数多くあるが、最も一般的なものの１つは、コックス比例ハザードモデルである。コックスモデルは次のように表される。

この場合、λ（ｔ｜．）は、ハザード関数（または「障害の即時リスク」関数）であり、λ（ｔ｜．）＝ｆ（ｔ｜．）／Ｓ（ｔ｜．）のように定義される。さらに、Ｘ_ｉは、ｉ番目の個人の特徴の測定値のｐｘ１ベクトルであり、βは特徴の効果のｐｘ１ベクトルである。コックスモデルの主な目標は、特徴がイベント発生の個人のリスクに与える影響を推定することである。そのベースラインハザード率、λ_０（ｔ）は、推定ルーチンにおいて迷惑パラメータとして扱われ、したがって、検討されない。

データセット内の特徴の数が試料のサイズよりも多いため、エラスティックネットペナルティをモデルに組み込むことができ、最小絶対収縮及び選択演算子（つまり、ラッソ）とリッジ回帰またはＴｉｋｈｏｎｏｖ正規化を組み合わせたペナルティ付き回帰の形式である。このツールは、ｐがｎより大きくなるように、相関する特徴をモデルに一緒に残したまま、ラッソのルーチンを介して特徴選択を実行する。標準的な回帰モデルでは、特徴の効果βは、典型的には、応答Ｙ_Ｉ、及び予測子Ｘ’_ｉβとの間の差を最小化することによって推定される。ただし、エラスティックネットの正則化では、推定された特徴の効果は次のように計算される。

式中、λ_１は、ラッソ回帰に関連付けられているＬ_１ペナルティであり、λ_２は、リッジ回帰に関連するＬ_２ペナルティである。

生存分析は、ＣＲＡＮ－Ｒで利用可能なｇｌｍｎｅｔパッケージを介して実装されたコックスエラスティックネットモデルを使用することにより、エラスティックネットペナルティと組み合わされた。コックスエラスティックネットモデルは、標準のコックス比例ハザードモデルをエラスティックネットペナルティとマージし、生存手法を使用して分類子を展開できるようにし、さらにペナルティ付き回帰の利点をもたらす。

クラス不均衡を緩和するために、コックス比例ハザードエラスティックネットモデルをダウンサンプリング手法と組み合わせた。このアプローチは、交差検証によって識別されたハザード比のしきい値を使用して「リスク高」の分類子を計算して、個人が４年以内にＭＩイベントが発生する「リスク高」であるかどうかを最もよく予測する特徴を識別することを可能にした。さらに、この手法は、リスクの高い個人を正確に予測する特徴が、完全なコホートを使用して導出された場合とは異なる「重み」（つまり、β推定）を有することを可能にする方法で、特徴の効果を推定した。

比較のために、２つのエラスティックネットロジスティック回帰モデル（ダウンサンプリングのあるときとないとき、Ｒのキャレットパッケージを介して実装できる）、及びダウンサンプリング手法を組み込んでいないコックスエラスティックネットモデルを行った。必要に応じて、ＡＵＣ、感度、特異度、及びＣ－Ｉｎｄｅｘを使用してモデルを比較した。

分析は、ＲＳｔｕｄｉｏサーババージョン１．１．４５３のＲバージョン３．４．４を使用して実行された。

材料及び方法－データのサブセット化
データセットは、トレーニングセット（データの８０％）とテストセット（２０％）に分割された。トレーニングセットはモデルの構築に使用され、最終モデルはテストセットで評価された。コックスエラスティックネットモデルのテストセットでの予測のしきい値は、交差検証中に分割ごとに生成されたしきい値の平均として計算された。ペナルティ付き回帰モデルを実装する前に、トレーニングセットを使用して単変量フィルタリングを実行した。スチューデントのｔ検定が分析対象物ごとに計算され、研究の枠組みでＭＩイベントが発生した個人と発生しなかった個人の間で、平均値が統計的に有意に異なるかどうかを評価した。この手法の有用性を示す際の一貫性を保つために、モデルの展開全体で上位１００の分析対象物（偽発見率の値でランク付け）が含まれている。

結果
ダウンサンプリングされたコックスエラスティックネットモデルの結果を、２つのロジスティック回帰エラスティックネットモデル（ダウンサンプリングされたものとされていないもの）及びダウンサンプリングを使用しなかったコックスエラスティックネットモデルと比較した。表記を簡単にするために、コックスエラスティックネットモデルは「Ｃｏｘｎｅｔ」モデルと呼ばれ、エラスティックネットロジスティック回帰モデルは「ＬＲｎｅｔ」モデルと呼ばれる。ダウンサンプリングされたモデルには、「ＤＳ」が付加された（例えば、ダウンサンプリングを実装するコックスエラスティックネットモデルは「ＤＳ－Ｃｏｘｎｅｔ」である）。

モデル全体で、５回繰り返す５分割交差検証にてトレーニングセットを使用し、各モデルタイプ内で最適なモデルを選択した。最適なモデルは、最大ＡＵＣを介して選択された。特徴の選択、推定される効果、及び分類しきい値は、モデル間で異なることが許された。交差検証に続いて、各カテゴリの最上位モデルの予測能力が、テストデータセットで評価された。

モデル開発中に、Ｃｏｘｎｅｔモデルは元のデータを使用して作成されたが、４年の時点でＡＵＣメトリックを使用して、分類のために最適化された。これは、標準の生存モデルが構築されたことを意味するが、バイナリの４年マークの分類子（４年より前のＭＩに関する肯定／否定）を使用して、ＡＵＣを計算し、モデルを最適化した。４年の転帰は、ロジスティック回帰モデルの展開に使用され、それはまたＡＵＣを使用して最適化された。Ｃ－Ｉｎｄｅｘは、標準の生存モデルメトリックを使用してモデルを比較する目的で、
生存モデルに対して計算された。

モデルの結果及び比較
交差検証の結果は、両方のＣｏｘｎｅｔモデルが標準のＬＲｎｅｔモデルを大幅に上回っていることを示している（表２を参照）。生存分析法は、特徴の選択とモデルの展開の一部として、イベントまでの時間の情報を使用するため、この結果は期待される。より説得力のある結果は、ＤＳ－Ｃｏｘｎｅｔモデルが、すべての分類メトリック（ＡＵＣ、感度、特異度）にわたってＤＳ－ＬＲｎｅｔモデルと標準的なＣｏｘｎｅｔモデルの両方を上回ったことである。さらに、ＤＳ－Ｃｏｘｎｅｔモデルは標準のＣｏｘｎｅｔモデルよりも高いＣ－Ｉｎｄｅｘを備えており、ダウンサンプリングされたモデルが、ＭＩまでの時間の順序を、より適切に予測することを示している。

交差検証によるモデルの最適化に続いて、上位モデルの予測能力が、テストセットで評価された。これには、４年のマークまでにＭＩが発生する「リスク高」として個人を正しく予測することに基づく感度と特異度の検討が含まれる。テストセットのすべてのモデルのパフォーマンスメトリックを表３に示す。ＤＳ－Ｃｏｘｎｅｔモデルは、ＡＵＣが０．６３で「ランダムチャンス」よりも優れたパフォーマンスを発揮する唯一のモデルである。さらに、ＤＳ－Ｃｏｘｎｅｔモデルは、ＤＳ－ＬＲｎｅｔモデルと標準のＣｏｘｎｅｔモデルの両方と比較して、最高の感度と特異度を備えている（当然のことながら、ＬＲｎｅｔモデルは、トレーニングデータセットと同様にテストデータセットでのパフォーマンスが不良になる）。

ダウンサンプリングされた生存モデルアプローチの利点をさらに実証するために、各モデルについて、カプランマイヤー曲線がテストセットで生成され、交差検証によって識別されたモデル固有のしきい値を使用して、個人が高リスクとして予測されるかどうかによって層化された（図４を参照）。この比較では、標準モデルとＤＳ－Ｃｏｘｎｅｔモデルのしきい値が、交差検証の反復全体の平均のしきい値として計算された。この視覚的な精査の方法は、ＤＳ－Ｃｏｘｎｅｔモデルのしきい値を使用して、高リスク群と平均リスク群を非常に明確に分離していることを示している。この分離は、他のモデルでは明確に定められない。

図とモデル評価メトリックスの組み合わされたエビデンス（表３）は、ダウンサンプリングされた生存モデルアプローチが、４年以内のＭＩのリスクが高い個人を特定するのに有益であるという説得力のある事例を示している。

ダウンサンプリングされたＣｏｘｎｅｔモデルのしきい値の調査
ＤＳ－Ｃｏｘｎｅｔモデルを使用してテストセットを予測するために使用されたしきい値は、交差検証の反復からのすべてのしきい値にわたる平均であった。このしきい値は他のモデルよりも高い感度と特異度に至ったが、それらの値は依然として相当不均衡であった。重要な考慮事項は、予測のしきい値を操作することで、感度／特異度のトレードオフの均衡をさらにとることができるかどうかである。

分類モデルと同様に、しきい値を調整して、感度を最大化する、特異度を最大化する、またはテストセットの感度と特異度の差を最小化する値を見つけることができる。表４は、テストセットの様々なしきい値のパフォーマンスのメトリックを示しており、図５は、それぞれのカプランマイヤー曲線をプロットしている。表４に示すように、予測のしきい値を変更すると、ＡＵＣを低下させることなく、感度が６０％を超える結果に至る。しかし、カプランマイヤー曲線（図５）は、平均のしきい値を使用して、高リスクの個人と平均リスクの個人との間の最も広い分離を示している。

感度と特異度は通常の望ましい値よりも比較的低いままであるが（つまり、７０％以上）、この結果は、テストセットに４年前にＭＩイベントが発生した対象が１３人しかいないため、モデルの展開が制限されているという事実に起因している可能性がある。ただし、分析は、生存モデルでリスクのレベルを分類するために使用されるしきい値は、分類モデルと同じ方法で調整できることを示している。

本明細書及び実施例は、例示的なものにすぎないとみなされることが意図され、本開示の真の範囲及び精神は、次の特許請求の範囲によって示される。

Claims

疾患または状態のバイオマーカーを特定するためのコンピュータに実装された方法であって、
ａ）クラス不均衡データセットを取得することであって、前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、多数派データクラスまたは少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含む、前記取得すること、
ｂ）前記多数派データクラスのデータをサブセット化して、前記多数派データクラスの観察結果の数と前記少数派データクラスの観察結果の数との間のクラス不均衡を減少させることにより、前記クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
ｃ）前記ダウンサンプリングされたデータセットに対して交差検証を用いてコックス比例ハザードモデルをトレーニングすることにより生存分析を実行し、前記少数派データクラスと前記多数派データクラスの間の観察結果を分類する特徴を特定するエラスティックネットペナルティと生存モデルとを生成し、前記エラスティックネットペナルティは前記生存分析と組み合わされる、前記生存分析を実行することを含み、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず、並びに
ＡＵＣ、感度、特異度、及び／または前記生存モデルのＣ－ｉｎｄｅｘは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったＡＵＣ、感度、特異度、及び／または生存モデルのＣ－ｉｎｄｅｘよりも１に近い、
前記方法。
前記クラス不均衡データセットが生存データセットである、請求項１に記載の方法。
前記イベントが、対象の疾患、障害、または状態である、請求項１又は２に記載の方法。
前記交差検証は、２分割、３分割、４分割、５分割、６分割、７分割、８分割、９分割、１０分割、１１分割、１２分割、１３分割、１４分割、１５分割、１６分割、１７分割、１８分割、１９分割、または２０分割の交差検証である、請求項１～３のいずれか一項に記載の方法。
前記生存モデルは５から１０００の特徴を含み、各特徴は、タンパク質の測定、臨床因子、及びそれらの組み合わせからなる群から選択される、請求項１～４のいずれか一項に記載の方法。
前記臨床因子は、年齢、体重、血圧、身長、ＢＭＩ、コレステロール、性別、及びそれらの組み合わせからなる群から選択される、請求項５に記載の方法。
前記臨床測定値は、プロテオミクス測定値、ゲノム測定値、トランスクリプトーム測定値、メタボロミクス測定値、またはそれらの組み合わせから選択される、請求項１～６のいずれか一項に記載の方法。
前記交差検証が、ｋ分割交差検証、モンテカルロ交差検証、及びＮ個抜き交差検証から選択される、請求項１～７のいずれか一項に記載の方法。
前記多数派データクラスが前記クラス不均衡データセットの９５％であり、前記少数派データクラスが前記クラス不均衡データセットの５％である、請求項１～８のいずれか一項に記載の方法。
前記多数派データクラスが前記クラス不均衡データセットの９０％であり、前記少数派データクラスが前記クラス不均衡データセットの１０％である、請求項１～８のいずれか一項に記載の方法。
前記多数派データクラスが前記クラス不均衡データセットの８５％であり、前記少数派データクラスが前記クラス不均衡データセットの１５％である、請求項１～８のいずれか一項に記載の方法。
前記多数派データクラスが前記クラス不均衡データセットの８０％であり、前記少数派データクラスが前記クラス不均衡データセットの２０％である、請求項１～８のいずれか一項に記載の方法。
前記多数派データクラスが前記クラス不均衡データセットの７５％であり、前記少数派データクラスが前記クラス不均衡データセットの２５％である、請求項１～８のいずれか一項に記載の方法。
前記多数派データクラスが前記クラス不均衡データセットの７０％であり、前記少数派データクラスが前記クラス不均衡データセットの３０％である、請求項１～８のいずれか一項に記載の方法。
前記多数派データクラスが前記クラス不均衡データセットの６５％であり、前記少数派データクラスが前記クラス不均衡データセットの３５％である、請求項１～８のいずれか一項に記載の方法。
前記多数派データクラスが前記クラス不均衡データセットの６０％であり、前記少数派データクラスが前記クラス不均衡データセットの４０％である、請求項１～８のいずれか
一項に記載の方法。
疾患または状態のバイオマーカーを特定するためのコンピュータに実装された方法であって、
ａ）多数派データクラスのデータをサブセット化して、前記多数派データクラスの観察結果の数と少数派データクラスの観察結果の数との間のクラス不均衡を減少させることにより、クラス不均衡データセットをダウンサンプリングして、ダウンサンプリングされたデータセットを生成することであって、前記ダウンサンプリングが、前記少数派データクラスと同等の数の観察結果を含む前記多数派データクラスを生成する、前記生成すること、及び
ｂ）前記ダウンサンプリングされたデータセットに対して交差検証を用いてコックス比例ハザードモデルをトレーニングすることにより生存分析を実行し、前記少数派データクラスと前記多数派データクラスの間の観察結果を分類する特徴を特定するエラスティックネットペナルティと生存モデルとを生成し、前記エラスティックネットペナルティは前記生存分析と組み合わされる、前記生存分析を実行することを含み、
前記観察結果は、特定の時間の値でイベントを含むか、またはイベントを含まず、
前記クラス不均衡データセットは、複数の対象からの生物学的データを含み、各対象の前記生物学的データは、観察結果、時間の値、及び複数の臨床測定値を含み、前記生物学的データは、前記多数派データクラスまたは前記少数派データクラスの一部として分類され、前記多数派データクラスは前記少数派データクラスよりも多くの観察結果を含み、並びに
ＡＵＣ、感度、特異度、及び／または前記生存モデルのＣ－ｉｎｄｅｘは、前記クラス不均衡データセットが前記生存分析の前にダウンサンプリングされなかったＡＵＣ、感度、特異度、及び／または生存モデルのＣ－ｉｎｄｅｘよりも１に近い、
前記方法。
前記ＡＵＣは、対象が特定の時点までにイベントを有するかどうかの判定に基づいて計算される、請求項１７に記載の方法。
請求項１～１６のいずれか一項に記載の方法のコンピュータ実装方法であって、
ステップｂ）及びステップｃ）は、コンピュータシステムを用いて計算される、前記方法。
ステップａ）におけるクラス不均衡データセットが、コンピュータシステムによって受信される、請求項１９に記載の方法。
コンピュータによって読み取り可能なプログラム記憶装置であって、
請求項１～１６のいずれか一項に記載の方法の各方法ステップを実行するための命令プログラムを記憶した、前記装置。
疾患または状態のバイオマーカーを特定するためのコンピューティングシステムであって、プログラムされた命令を格納するためのメモリ；及び操作を実行するため前記プログラムされた命令を実行するように構成されたプロセッサを含み、
前記操作が、請求項１～１６のいずれか一項に記載の方法を実行するものである、前記システム。
非一時的なコンピュータ可読媒体であって、
操作を実行するためにプロセッサによって実行可能な命令が格納され、
前記操作が、請求項１～１６のいずれか一項に記載の方法を実行するものである、前記非一時的なコンピュータ可読媒体。