JP7455757B2 - 生体試料の多検体アッセイのための機械学習実装 - Google Patents

生体試料の多検体アッセイのための機械学習実装 Download PDF

Info

Publication number
JP7455757B2
JP7455757B2 JP2020556286A JP2020556286A JP7455757B2 JP 7455757 B2 JP7455757 B2 JP 7455757B2 JP 2020556286 A JP2020556286 A JP 2020556286A JP 2020556286 A JP2020556286 A JP 2020556286A JP 7455757 B2 JP7455757 B2 JP 7455757B2
Authority
JP
Japan
Prior art keywords
cancer
training
molecules
machine learning
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020556286A
Other languages
English (en)
Other versions
JP2021521536A (ja
Inventor
アダム・ドレイク
ダニエル・デルバック
キャサリン・ニーハウス
エリック・アリアジ
イムラン・ハーク
ツウィ・リウ
ネイサン・ワン
アジャイ・カナン
ブランドン・ホワイト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Freenome Holdings Inc
Original Assignee
Freenome Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Freenome Holdings Inc filed Critical Freenome Holdings Inc
Publication of JP2021521536A publication Critical patent/JP2021521536A/ja
Priority to JP2024038608A priority Critical patent/JP2024081675A/ja
Application granted granted Critical
Publication of JP7455757B2 publication Critical patent/JP7455757B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

関連出願の相互参照
本出願は、
2018年4月13日に出願された米国仮特許出願第US62/657,602号、
2018年10月24日に出願された同第US62/749,955号、
2018年6月18日に出願された同第US62/679,641号、
2018年11月14日に出願された同第US62/767,435号、
2018年6月1日に出願された同第US62/679,587号、
2018年9月14日に出願された同第US62/731,557号、
2018年10月8日に出願された同第US62/742,799号、
2019年2月2日に出願された同第US62/804,614号、
2018年11月14日に出願された同第US62/767,369号、および
2019年3月29日に出願された同第US62/824,709号、の利益を主張するものであり、それらの内容の全体が、参照により援用される。
癌スクリーニングは複雑であり、様々な癌タイプは、スクリーニングおよび早期発見のために異なるアプローチを必要とする。患者コンプライアンスは、問題として残されたままである。非血清検体を必要とするスクリーニング方法は、しばしば、参加率が低くなる。マンモグラム、パップ試験、S状結腸鏡検査/便潜血検査をそれぞれ用いた乳癌、子宮頸癌、および大腸癌のスクリーニング率は、米国予防医学専門委員会(USPSTF)が推奨する100%コンプライアンスからほど遠い(Sabatino et al,Cancer Screening Test Use-United States,2013,MMWR,2015 64(17):464-468、Adler et al.BMC Gastroenterology 2014,14:183)。最近の報告によると、これまでの州別の大腸癌スクリーニングによる適格な成人の割合は、2016年において58.5%(ニューメキシコ州)から75.9%(メイン州)の範囲であり、平均67.3%であった(Joseph DA,et al.Use of Colorectal Cancer Screening Tests by State.Prev Chronic Dis 2018;15:170535)。
血液ベースの試験は、癌診断および精密医療として非常に有望である。しかしながら、ほとんどの現在の試験は、単一クラスの分子(例えば、循環腫瘍DNA、血小板mRNA、循環タンパク質)の分析に制限されている。潜在的な分析のために、血液中には、広範な生物学的検体が存在し、関連するデータの生成は重要である。しかしながら、検体全体の分析には手間がかかり、経済的ではなく、有用なシグナルと比較して非常に大きな生物学的ノイズが注入され、診断または精密医学の用途のための有用な分析を混乱させる可能性がある。
早期発見およびゲノム特性評価を用いても、ゲノム分析が有効な薬物または適用可能な臨床試験を指定できないケースがかなり多く残っている。標的化可能なゲノム変化が発見された場合でも、患者は必ずしも治療に応答するとは限らない。(Pauli et al.,Cancer Discov.2017,7(5):462-477)。さらに、検出方法に関して、循環腫瘍DNA(ctDNA)の使用に対する感度障壁が存在する。ctDNAは、早期癌を検出するためのプロスペクティブ検体として最近評価されており、必要な特異度および感度でctDNAを検出するために、かなりの量の血液を必要とすることが見出されている。(Aravanis,A.et al.,Next-Generation Sequencing of Circulating Tumor DNA for Early Cancer Detection,Cell,168:571-574)。したがって、単純で容易に利用可能な単一検体試験は、依然として不明である。
癌診断の分野において、機械学習は、大規模な統計的アプローチおよびシグナル強度の自動化された特性評価を可能にすることができる。しかし、分子診断の文脈で生物学に適用される機械学習は、依然としてほとんど未探索の分野であり、検体の選択、アッセイの選択、および全体的な最適化などの診断および精密医学の面で、以前適用されていなかった。
したがって、癌のリスクがあるか、または癌を有する個体を階層化し、早期癌の効果的な特徴付けを提供して治療決定を導くために、容易に得られた生物学的検体を分析する方法が必要である。また、個々の集団を階層化し、癌などの疾患を検出するのに使用するための分類器を開発および改良するために、機械学習アプローチを検体データセットとともに組み込む方法も必要である。
本明細書に、個々の集団を階層化するために、様々な用途のための生体試料中の1つ以上の生物学的検体を用いた機械学習アプローチを組み込む方法およびシステムが記載される。特定の実施例では、方法およびシステムは、罹患した個体の疾患、治療効率を予測し、治療決定を導くために有用である。
本アプローチは、本方法が、腫瘍細胞に由来する検体、微小環境によって誘導または教化された健常な非腫瘍細胞、ならびに個体に存在する腫瘍細胞によって教化された可能性のある循環免疫細胞を含む、循環の非細胞部分を特徴付けるアプローチに焦点を当てるという点で、他の方法およびシステムとは異なる。
他のアプローチは、免疫系の細胞部分を特徴付けることを対象としているが、本方法およびシステムは、循環の癌教化非細胞部分を調査して、生物学的情報を提供し、次いで有用な用途のために機械学習ツールと組み合わせる。液体生体試料(例えば、血漿)中の非細胞検体の研究は、試料のデコンボリューションを可能にして、生きた細胞状態で個体の組織および免疫細胞の分子状態を再現することができる。免疫系の非細胞部分を研究することは、癌状態の代替指標を提供し、ctDNA単独でスクリーニングするときに、癌細胞および関連する生物学的マーカーを検出するための著しい血液量の要件を回避する。
第1の態様では、本開示は、個体の集団を識別することができる分類器を使用する方法を提供し、
a)生体試料中の複数のクラスの分子をアッセイすることであって、アッセイは、複数のクラスの分子を表す複数のセットの測定値を提供する、アッセイすることと、
b)機械学習または統計モデルに入力される複数のクラスの分子の各々のプロパティに対応する特徴のセットを特定することと、
c)複数のセットの測定値の各々から特徴量の特徴ベクトルを作成することであって、各特徴量は、特徴のセットの特徴に対応し、1つ以上の測定値を含み、特徴ベクトルは、複数のセットの測定値の各セットを使用して得られた少なくとも1つの特徴量を含む、作成することと、
d)コンピュータシステムのメモリに、分類器、訓練用生体試料から得られた訓練用ベクトルを使用して訓練された機械学習モデル、指定されたプロパティを有すると特定された訓練用生体試料の第1のサブセット、および指定されたプロパティを有さないと特定された訓練用生体試料の第2のサブセット、を含む機械学習モデルをロードすることと、
e)機械学習モデルに特徴ベクトルを入力して、生体試料が指定されたプロパティを有するか否かの出力分類を得ることにより、指定されたプロパティを有する個体の集団を識別することと、を含む。
例として、分子のクラスは、核酸、ポリアミノ酸、炭水化物、または代謝産物から選択することができる。さらなる実施例として、分子のクラスは、デオキシリボ核酸(DNA)、ゲノムDNA、プラスミドDNA、相補DNA(cDNA)、無細胞(例えば、非被包性)DNA(cfDNA)、循環腫瘍DNA(ctDNA)、ヌクレオソームDNA、クロマトソームDNA、ミトコンドリアDNA(miDNA)、人工核酸類似体、組換え核酸、プラスミド、ウイルスベクター、およびクロマチンを含む核酸を含むことができる。一実施例では、試料はcfDNAを含む。一実施例では、試料は、末梢血単核細胞由来(PBMC由来)ゲノムDNAを含む。
さらなる実施例として、分子のクラスは、リボ核酸(RNA)、メッセンジャーRNA(mRNA)、トランスファーRNA(tRNA)、マイクロRNA(mitoRNA)、リボソームRNA(rRNA)、循環RNA(cRNA)、選択的スプライシングmRNA、核内低分子RNA(snRNA)、アンチセンスRNA、ショートヘアピンRNA(shRNA)、または低分子干渉RNA(siRNA)を含む核酸を含むことができる。
さらなる実施例として、分子のクラスは、ポリアミノ酸、ペプチド、タンパク質、自己抗体、またはその断片を含むポリアミノ酸を含むことができる。
さらなる実施例として、分子のクラスは、糖、脂質、アミノ酸、脂肪酸、フェノール化合物、またはアルカロイドを含むことができる。
様々な実施例では、複数のクラスの分子は、cfDNA分子、cfRNA分子、循環タンパク質、抗体、および代謝産物のうちの少なくとも2つを含む。
本開示の態様、本明細書におけるシステムおよび方法の様々な実施例と同様に、複数のクラスの分子は、1)cfDNA、cfRNA、ポリアミノ酸および低化学分子、または2)cfDNAおよびcfRNAならびにポリアミノ酸、3)cfDNAおよびcfRNAならびに低化学分子、または4)cfDNA、ポリアミノ酸および低化学分子、または5)cfRNA、ポリアミノ酸および低化学分子、または6)cfDNAおよびcfRNA、または7)cfDNAおよびポリアミノ酸、または8)cfDNAおよび低化学分子、または9)cfRNAおよびポリアミノ酸、または10)cfRNAおよび低化学分子、または11)ポリアミノ酸および低化学分子、から選択することができる。
一実施例では、複数のクラスの分子は、cfDNA、タンパク質、および自己抗体である。
様々な実施例では、複数のアッセイは、全ゲノム配列決定(WGS)、全ゲノムバイサルファイト配列決定(WGSB)、低分子RNA配列決定、定量イムノアッセイ、酵素結合免疫吸着アッセイ(ELISA)、近接伸長アッセイ(PEA)、タンパク質マイクロアレイ、質量分析、低カバレッジ全ゲノム配列決定(lcWGS)、選択的タグ付け5mC配列決定(WO2019/051484)、CNVコーリング、腫瘍画分(TF)推定、全ゲノムバイサルファイト配列決定、LINE-1 CpGメチル化、56遺伝子CpGメチル化、cf-タンパク質免疫定量ELISA、SIMOA、およびcf-miRNA配列決定、ならびに上記アッセイのいずれかに由来する細胞型または細胞表現型の混合物比率のうちの少なくとも2つを含むことができる。
一実施例では、全ゲノムバイサルファイト配列決定は、メチル化分析を含む。
様々な実施例では、生体試料の分類は、線形判別分析(LDA)、部分最小二乗(PLS)、ランダムフォレスト、k-最近傍(KNN)、ラジアル基底関数カーネルを有するサポートベクトルマシン(SVM)(SVMRadial)、線形基底関数カーネルを有するSVM(SVMLinear)、多項式基底関数カーネルを有するSVM(SVMPoly)、決定木、多層パーセプトロン、混合エキスパート(mixture of experts)、スパース因子分析、階層分解、ならびに線形代数ルーチンおよび統計の組み合わせ、のうちの1つ以上に従って訓練および構築された分類器によって行われる。
様々な実施例では、指定されたプロパティは、臨床的に診断された障害であり得る。臨床的に診断された障害は、癌であってもよい。例として、癌は、大腸癌、肝臓癌、肺癌、膵臓癌、または乳癌から選択され得る。一部の実施例では、指定されたプロパティは、治療に対する応答性である。一実施例では、指定されたプロパティは、患者の形質または表現型の連続的な測定であってもよい。
第2の態様では、本開示は、生体試料の分類を行うためのシステムを提供し、
a)複数の訓練用試料を受信する受信器であって、複数の訓練用試料の各々は、複数のクラスの分子を有し、複数の訓練用試料の各々は、1つ以上の既知のラベルを含む、受信器と、
b)複数の訓練用試料の各々について、機械学習モデルに入力されるように動作可能なアッセイに対応する特徴のセットを特定する特徴モジュールであって、特徴のセットは、複数の訓練用試料中の分子のプロパティに対応し、
複数の訓練用試料の各々について、システムは、訓練用試料中の複数のクラスの分子を、複数の異なるアッセイに供して、測定値のセットを得るように動作可能であり、測定値の各セットは、訓練用試料中の分子のクラスに適用される1つのアッセイに由来し、複数のセットの測定値は、複数の訓練用試料について得られる、特徴モジュールと、
c)測定値のセットを分析して、訓練用試料の訓練用ベクトルを得るための分析モジュールであって、訓練用ベクトルは、対応するアッセイの特徴のNセットの特徴量を含み、各特徴量は、特徴に対応し、1つ以上の測定値を含み、訓練用ベクトルは、複数の異なるアッセイの第1のサブセットに対応する特徴のNセットのうちの少なくとも2つから少なくとも1つの特徴を使用して形成される、分析モジュールと、
d)複数の訓練用試料の出力ラベルを得るために、機械学習モデルのパラメータを使用して、システムに訓練用ベクトルを通知するラベルモジュールと、
e)出力ラベルを訓練用試料の既知のラベルと比較するための比較器モジュールと、
f)出力ラベルを訓練用試料の既知のラベルと比較することに基づいて、機械学習モデルの訓練の一部として、パラメータの最適値を反復的に検索する訓練用モジュールと、
g)機械学習モデルのパラメータおよび機械学習モデルの特徴のセットを提供する出力モジュールと、を含む。
第3の態様では、本開示は、生体試料組成物における多検体分析に基づいて、対象を分類するためのシステムを提供し、(a)多検体分析に基づいて、対象を分類するように動作可能な分類器を含むコンピュータ可読媒体、および(b)コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサ、を含む。
一実施例では、システムは、線形判別分析(LDA)分類器、二次判別分析(QDA)分類器、サポートベクトルマシン(SVM)分類器、ランダムフォレスト(RF)分類器、線形カーネルサポートベクトルマシン分類器、一次または二次多項式カーネルサポートベクトルマシン分類器、リッジ回帰分類器、エラスティックネットアルゴリズム分類器、逐次最小最適化アルゴリズム分類器、ナイーブベイズアルゴリズム分類器、およびNMF予測アルゴリズム分類器から選択される、機械学習分類器として構成される分類回路を含む。
一実施例では、システムは、前述の方法のいずれかを行うための手段を含む。一実施例では、システムは、前述の方法のいずれかを行うように構成される1つ以上のプロセッサを含む。一実施例では、システムは、前述の方法のいずれかのステップを、それぞれ、行うモジュールを含む。
本開示の別の態様は、1つ以上のコンピュータプロセッサによって実行されると、上記または本明細書中の他のいずれかの方法を実装する機械実行可能コードを含む、非一時的コンピュータ可読媒体を提供する。
本開示の別の態様は、1つ以上のコンピュータプロセッサおよびそれに結合されたコンピュータメモリを含む、システムを提供する。コンピュータメモリは、1つ以上のコンピュータプロセッサによって実行されると、上記または本明細書中の他の方法のいずれかを実装する機械実行可能コードを含む。
第4の態様では、本開示は、個体における癌の存在を検出する方法を提供し、
a)個体から得られた生体試料中の複数のクラスの分子をアッセイすることであって、アッセイは、複数のクラスの分子を表す複数のセットの測定値を提供する、アッセイすることと、
b)機械学習モデルに入力される複数のクラスの分子の各々のプロパティに対応する特徴のセットを特定することと、
c)複数のセットの測定値の各々から特徴量の特徴ベクトルを作成することであって、各特徴量は、特徴のセットの特徴に対応し、1つ以上の測定値を含み、特徴ベクトルは、複数のセットの測定値の各セットを使用して得られた少なくとも1つの特徴量を含む、作成することと、
d)コンピュータシステムのメモリに、訓練用生体試料から得られた訓練用ベクトル、癌を有する個体から特定された訓練用生体試料の第1のサブセット、および癌を有さない個体から特定された訓練用生体試料の第2のサブセット、を使用して訓練される機械学習モデルをロードすることと、
e)機械学習モデルに、特徴ベクトルを入力して、生体試料が癌と関連しているかどうかの出力分類を得ることにより、個体における癌の存在を検出することと、を含む。
一実施例では、本方法は、分類器分析からの分類データを組み合わせて、検出値を提供することを含み、検出値は、個体における癌の存在を示す。
一実施例では、本方法は、分類器分析からの分類データを組み合わせて、検出値を提供することを含み、検出値は、個体における癌のステージを示す。
実施例として、癌は、大腸癌、肝臓癌、肺癌、膵臓癌または乳癌から選択され得る。一実施例では、癌は大腸癌である。
第5の態様では、本開示は、癌を有する個体の予後を決定する方法を提供し、
a)生体試料中の複数のクラスの分子をアッセイすることであって、アッセイは、複数のクラスの分子を表す複数のセットの測定値を提供する、アッセイすることと、
b)機械学習モデルに入力される複数のクラスの分子のプロパティに対応する特徴のセットを特定することと、
複数のセットの測定値の各々から特徴量の特徴ベクトルを作成することであって、各特徴量は、特徴のセットの特徴に対応し、1つ以上の測定値を含み、特徴ベクトルは、複数のセットの測定値の各セットを使用して得られた少なくとも1つの特徴量を含む、作成することと、
c)コンピュータシステムのメモリに、訓練用生体試料から得られた訓練用ベクトル、良好な癌予後を有する個体から特定された訓練用生体試料の第1のサブセット、および良好な癌予後を有さない個体から特定された訓練用生体試料の第2のサブセット、を使用して訓練される機械学習モデルをロードすることと、
d)機械学習モデルに、特徴ベクトルを入力して、生体試料が良好な癌予後と関連しているかどうかの出力分類を得ることにより、癌を有する個体の予後を決定することと、を含む。
実施例として、癌は、大腸癌、肝臓癌、肺癌、膵臓癌または乳癌から選択され得る。
第6の態様では、本開示は、癌治療に対する応答性を決定する方法を提供し、
a)生体試料中の複数のクラスの分子をアッセイすることであって、アッセイは、複数のクラスの分子を表す複数のセットの測定値を提供する、アッセイすることと、
b)機械学習モデルに入力される複数のクラスの分子の各々のプロパティに対応する特徴のセットを特定することと、
複数のセットの測定値の各々から特徴量の特徴ベクトルを作成することであって、各特徴量は、特徴のセットの特徴に対応し、1つ以上の測定値を含み、特徴ベクトルは、複数のセットの測定値の各セットを使用して得られた少なくとも1つの特徴量を含む、作成することと、
c)コンピュータシステムのメモリに、訓練用生体試料から得られた訓練用ベクトル、治療に応答する個体から特定された訓練用生体試料の第1のサブセット、および治療に応答しない個体から特定された訓練用生体試料の第2のサブセット、を使用して訓練される機械学習モデルをロードすることと、
d)機械学習モデルに、特徴ベクトルを入力して、生体試料が治療応答と関連しているかどうかの出力分類を得ることにより、癌治療に対する応答性を決定することと、を含む。
一実施例では、癌治療は、アルキル化剤、植物アルカロイド、抗腫瘍抗生物質、代謝拮抗剤、トポイソメラーゼ阻害剤、レチノイド、チェックポイント阻害剤療法、またはVEGF阻害剤から選択される。
一実施例では、本方法は、分類器分析からの分類データを組み合わせて、検出値を提供することを含み、検出値は個体における治療に対する応答を示す。
これらおよび他の実施例を、以下に詳細に説明する。例えば、他の実施例は、本明細書に記載の方法に関連するシステム、デバイス、およびコンピュータ可読媒体を対象とする。
以下の詳細な説明および付属の図面を参照することによって、本開示の実施例の性質および利点を、より良く理解することができる。
図1は、本明細書に提供される方法を実装するようにプログラムされる、または他の方法で構成される、例示的なシステムを示す。 図2は、生体試料を分析する方法を示すフローチャートである。 図3は、様々な態様による、全体的なフレームワークを示す。 図4は、多検体アプローチの概要を示す。 図5は、様々な態様による、アッセイおよび対応する機械学習モデルを設計するための反復プロセスを示す。 図6は、一実施形態による、生体試料の分類を行う方法を示すフローチャートである。 図7Aおよび7Bは、異なる検体についての分類性能を示す。 図8A~図8Hは、cfDNA配列決定データに基づいて、高い(>20%)腫瘍画分を有する個体に対する腫瘍画分cfDNA試料の分布を示す。 図8A~図8Hは、cfDNA配列決定データに基づいて、高い(>20%)腫瘍画分を有する個体に対する腫瘍画分cfDNA試料の分布を示す。 図8A~図8Hは、cfDNA配列決定データに基づいて、高い(>20%)腫瘍画分を有する個体に対する腫瘍画分cfDNA試料の分布を示す。 図8A~図8Hは、cfDNA配列決定データに基づいて、高い(>20%)腫瘍画分を有する個体に対する腫瘍画分cfDNA試料の分布を示す。 図8A~図8Hは、cfDNA配列決定データに基づいて、高い(>20%)腫瘍画分を有する個体に対する腫瘍画分cfDNA試料の分布を示す。 図8A~図8Hは、cfDNA配列決定データに基づいて、高い(>20%)腫瘍画分を有する個体に対する腫瘍画分cfDNA試料の分布を示す。 図8A~図8Hは、cfDNA配列決定データに基づいて、高い(>20%)腫瘍画分を有する個体に対する腫瘍画分cfDNA試料の分布を示す。 図8A~図8Hは、cfDNA配列決定データに基づいて、高い(>20%)腫瘍画分を有する個体に対する腫瘍画分cfDNA試料の分布を示す。 図9は、LINE-1部位におけるCpGメチル化分析を示す。 図10は、cf-miRNA配列解析を示す。 図11Aは、循環タンパク質バイオマーカー分布を示す。 図11B~図11Gは、一元配置分散分析、続いてSidakの多重比較試験により、タンパク質のレベルが、組織タイプにわたって有意に異なっていることを示す。 図11B~図11Gは、一元配置分散分析、続いてSidakの多重比較試験により、タンパク質のレベルが、組織タイプにわたって有意に異なっていることを示す。 図11B~図11Gは、一元配置分散分析、続いてSidakの多重比較試験により、タンパク質のレベルが、組織タイプにわたって有意に異なっていることを示す。 図11B~図11Gは、一元配置分散分析、続いてSidakの多重比較試験により、タンパク質のレベルが、組織タイプにわたって有意に異なっていることを示す。 図11B~図11Gは、一元配置分散分析、続いてSidakの多重比較試験により、タンパク質のレベルが、組織タイプにわたって有意に異なっていることを示す。 図11B~図11Gは、一元配置分散分析、続いてSidakの多重比較試験により、タンパク質のレベルが、組織タイプにわたって有意に異なっていることを示す。 図12A~図12Dは、腫瘍画分の関数としてのcfDNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCAを示す。 図12A~図12Dは、腫瘍画分の関数としてのcfDNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCAを示す。 図12A~図12Dは、腫瘍画分の関数としてのcfDNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCAを示す。 図12A~図12Dは、腫瘍画分の関数としてのcfDNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCAを示す。 図12E~図12Hは、患者診断の関数としてのcfDNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCAを示す。 図12E~図12Hは、患者診断の関数としてのcfDNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCAを示す。 図12E~図12Hは、患者診断の関数としてのcfDNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCAを示す。 図12E~図12Hは、患者診断の関数としてのcfDNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCAを示す。 図13は、cfDNA試料を使用し、ゲノムの領域のピアソン/スピアマン/ケンダル相関を使用して生成された相関マトリックスのニュアンス構造から決定された、染色体構造スコアのヒートマップを示す。 図14は、図13と同じゲノム領域のHi-C配列決定から決定された染色体構造スコアのヒートマップを示す。 図15A-Cは、Hi-Cから生成された相関マップ、複数のcfDNA試料からの空間相関断片長、および単一cfDNA試料からの空間相関断片長分布を示す。 図15Dは、Hi-C、複数試料cfDNA、および単一試料cfDNAからの区画A/Bのゲノムブラウザトラックを示す。 図15E~図15Fは、Hi-C、複数試料cfDNA(図15E)、および単一試料cfDNA(図15F)の間の区画レベルでの一致度の散布図を示す。 図15E~図15Fは、Hi-C、複数試料cfDNA(図15E)、および単一試料cfDNA(図15F)の間の区画レベルでの一致度の散布図を示す。 図16Aは、画素レベル(500kbビン)におけるHi-CとcfHi-Cとの間の相関を示す。 図16Bは、区画レベル(500kbビン)におけるHi-CとcfHi-Cとの間の相関を示す。 図17Aは、G+C%がchr1上の各ビンの断片長からLOWESSによって回帰される前の、cfHi-Cのヒートマップを示す。図17Bは、G+C%がchr1上の各ビンの断片長からLOWESSによって回帰された後の、cfHi-Cのヒートマップを示す。図17Cは、G+C%がchr1上の各ビンの断片長からLOWESSによって回帰される前の、gDNAのヒートマップを示す。図17Dは、G+C%がchr1上の各ビンの断片長からLOWESSによって回帰された後の、gDNAのヒートマップを示す。 図17Eは、図17A-Dの図17A~17Dに表されるすべての染色体にわたる、Hi-C(WBC、反復2)との画素レベルの相関(ピアソンおよびスピアマン)のボックスプロットを示す。 図18Aは、複数試料cfHi-Cからの2次元空間における、G+C%およびマッピング能(mappability)バイアス分析を示す。 図18Bは、単一試料cfHi-Cからの2次元空間における、G+C%およびマッピング能バイアス分析を示す。 図18Cは、複数試料ゲノムDNAからの2次元空間における、G+C%およびマッピング能バイアス分析を示す。 図18Dは、単一試料ゲノムDNAからの2次元空間における、G+C%およびマッピング能バイアス分析を示す。 図18Eは、複数試料cfHi-Cからの2次元空間における、G+C%およびマッピング能バイアス分析を示す。 図18Fは、Hi-C(WBC)からの2次元空間における、G+C%およびマッピング能バイアス分析を示す。 図19Aは、1対のビンが任意の他の個体(chr14)からランダムにシャフルされた複数試料のcfHi-Cのヒートマップを示す。 図19Bは、図19Aと同じバッチからの試料に対する複数試料cfHi-Cのヒートマップを示す(11試料;chr14)。 図19Cは、図19Bと同じ試料サイズを有する試料に対する複数試料cfHi-Cのヒートマップを示す(11試料;chr14)。 図19Dは、図19A~19Cに表されるすべての染色体にわたる、Hi-C(WBC、反復2)との画素レベルの相関のボックスプロットを示す。 図20Aは、異なる試料サイズにおける、Hi-C(WBC、反復1)と複数試料cfHi-Cとの間のピアソン相関を示す。 図20Bは、異なる試料サイズにおける、Hi-C(WBC、反復1)と複数試料cfHi-Cとの間のスピアマン相関を示す。 図20Cは、異なる試料サイズにおける、Hi-C(WBC、反復2)と複数試料cfHi-Cとの間のピアソン相関を示す。 図20Dは、異なる試料サイズにおける、Hi-C(WBC、反復2)と複数試料cfHi-Cとの間のスピアマン相関を示す。 図21Aは、異なるビンサイズにおける、Hi-Cと複数試料cfHi-Cとの間の画素レベルでのピアソン相関を示す。 図21Bは、異なるビンサイズにおける、Hi-Cと複数試料cfHi-Cとの間の画素レベルでのスピアマン相関を示す。 図21Cは、異なるビンサイズにおける、Hi-Cと単一試料cfHi-Cとの間の画素レベルでのピアソン相関を示す。 図21Dは、異なるビンサイズにおける、Hi-Cと単一試料cfHi-Cとの間の画素レベルでのスピアマン相関を示す。 図21Eは、異なるビンサイズにおける、Hi-Cと複数試料cfHi-Cとの間の区画レベルでのピアソン相関を示す。 図21Fは、異なるビンサイズにおける、Hi-Cと複数試料cfHi-Cとの間の区画レベルでのスピアマン相関を示す。 図21Gは、異なるビンサイズにおけるHi-Cと単一試料cfHi-Cとの間の区画レベルでのピアソン相関を示す。 図21Hは、異なるビンサイズにおける、Hi-Cと単一試料cfHi-Cとの間の区画レベルでのスピアマン相関を示す。 図22Aは、ダウンサンプリング後の異なるリード数における、Hi-Cと単一試料cfHi-Cとの間の画素レベルでのピアソンとスピアマンの相関を示す。 図22Bは、ダウンサンプリング後の異なるリード数における、Hi-Cと単一試料cfHi-Cとの間の区画レベルでのピアソンおよびスピアマン相関を示す。 図23Aは、健常試料、ならびに結腸癌、肺癌、および黒色腫由来の高腫瘍画分試料のカーネルPCA(RBFカーネル)を示す。 図23B~図23Fは、健常試料、ならびに結腸癌、肺癌、および黒色腫由来の高腫瘍画分試料のCCAを示す。 図23B~図23Fは、健常試料、ならびに結腸癌、肺癌、および黒色腫由来の高腫瘍画分試料のCCAを示す。 図23B~図23Fは、健常試料、ならびに結腸癌、肺癌、および黒色腫由来の高腫瘍画分試料のCCAを示す。 図23B~図23Fは、健常試料、ならびに結腸癌、肺癌、および黒色腫由来の高腫瘍画分試料のCCAを示す。 図23B~図23Fは、健常試料、ならびに結腸癌、肺癌、および黒色腫由来の高腫瘍画分試料のCCAを示す。 図24は、同一の細胞タイプ(GM12878)由来のHi-CからのDNAアクセス可能性と区画レベルの固有値との間の相関マップを示す。 図25Aは、健常、大腸癌、肺癌、および黒色腫試料の単一試料cfDNAから推測される細胞組成物のヒートマップを示す。 図25Bは、健常、大腸癌、肺癌、および黒色腫試料の単一試料cfDNAから推測される細胞組成物の円グラフを示す。 図25Cは、100人の健常な個体由来の単一試料cfDNAから推測される白血球画分および腫瘍画分のボックスプロットを示す。 図26は、肺癌、黒色腫、および結腸癌についてCNV変化がないゲノム領域のみを使用することによる、ichorCNA由来の腫瘍画分とcfHi-C由来の腫瘍画分との比較を示す。 図27Aは、k-分割、k-バッチ、均衡k-バッチ、および順序付けk-バッチの訓練スキームを示す。図27Bは、機関的なダウンサンプリングスキームを有するk-バッチを示す。 図28A~図28Dは、癌検出のために評価されたすべての検証アプローチ(例えば、k-分割、k-バッチ、均衡k-バッチ、および順序付けk-バッチ)の受信者操作特性(ROC)曲線の例を示す。 図28A~図28Dは、癌検出のために評価されたすべての検証アプローチ(例えば、k-分割、k-バッチ、均衡k-バッチ、および順序付けk-バッチ)の受信者操作特性(ROC)曲線の例を示す。 図28A~図28Dは、癌検出のために評価されたすべての検証アプローチ(例えば、k-分割、k-バッチ、均衡k-バッチ、および順序付けk-バッチ)の受信者操作特性(ROC)曲線の例を示す。 図28A~図28Dは、癌検出のために評価されたすべての検証アプローチ(例えば、k-分割、k-バッチ、均衡k-バッチ、および順序付けk-バッチ)の受信者操作特性(ROC)曲線の例を示す。 図28Eは、評価されたすべての検証アプローチにわたる、CRCステージによる感度を示す。 図28Fは、評価されたすべての検証アプローチにわたる、IchorCNA推定腫瘍画分によるAUCを示す。 図28Gは、評価されたすべての検証アプローチにわたる、年齢別ビンによるAUCを示す。 図28Hは、評価されたすべての検証アプローチにわたる、性別ビンによるAUCを示す。 図29A~図29Bは、乳癌についての交差検証(ROC曲線)における分類性能を示す。 図29A~図29Bは、乳癌についての交差検証(ROC曲線)における分類性能を示す。 図29C~図29Dは、肝臓癌の交差検証(ROC曲線)における分類性能を示す。 図29C~図29Dは、肝臓癌の交差検証(ROC曲線)における分類性能を示す。 図29E~図29Fは、膵臓癌の交差検証(ROC曲線)における分類性能を示す。 図29E~図29Fは、膵臓癌の交差検証(ROC曲線)における分類性能を示す。 図30は、クラスによる推定腫瘍画分(TF)の分布を示す。 図31Aは、各分割の訓練セットが試料の割合のいずれかとしてダウンサンプリングされるときのCRC分類のAUC性能を示す。 図31Bは、各分割の訓練セットが試料の割合またはバッチの割合のいずれかとしてダウンサンプリングされるときのCRC分類のAUC性能を示す。 図32A~図32Cは、高い腫瘍画分を有する健常な試料の例を示す。 図32A~図32Cは、高い腫瘍画分を有する健常な試料の例を示す。 図32A~図32Cは、高い腫瘍画分を有する健常な試料の例を示す。 図33Aは、k-分割モデルの訓練方法および交差検証手順を示す。図33Bは、k-分割、k-バッチ、および均衡k-バッチの訓練スキームを示す。 図34Aは、50~84歳の患者における、CRCステージによる感度を示す。 図34Bは、50~84歳の患者における、腫瘍画分による感度を示す。 図34Cは、試料の総数間のCRC分類のAUC性能を示す。 図35は、クロマチン構造および転写状態を示す、cfDNA捕捉タンパク質-DNA会合に由来するV-プロットの概略図を示す。TF=転写因子(保護された小さなフットプリント領域)、NS=ヌクレオソーム(保護された大きな領域、DNAの完全ラップ) 図36は、遺伝子発現を予測するために使用されるTSS領域の周囲のcfDNA由来のV-プロットを示す。 図37は、異なるカットオフを使用して、オンおよびオフ遺伝子を正確に分類する断片長および位置の表現を使用する分類器を示す。 図38A~38Cは、テージ別および推定腫瘍画分別に設定された腫瘍標的遺伝子を使用した分類精度を示す。IchorCNAに基づく腫瘍画分推定値(ITF)は、ステージとともに増加するが、ほとんどのステージI~IIICRCは、低い推定ITF(1%未満)を有する(図38A)。性能はステージごとに増加し、ステージIVで最も顕著に増加する(図38B)。性能は、腫瘍画分とともに最も強く増加する(図38C)。 図38A~38Cは、テージ別および推定腫瘍画分別に設定された腫瘍標的遺伝子を使用した分類精度を示す。IchorCNAに基づく腫瘍画分推定値(ITF)は、ステージとともに増加するが、ほとんどのステージI~IIICRCは、低い推定ITF(1%未満)を有する(図38A)。性能はステージごとに増加し、ステージIVで最も顕著に増加する(図38B)。性能は、腫瘍画分とともに最も強く増加する(図38C)。 図38A~38Cは、テージ別および推定腫瘍画分別に設定された腫瘍標的遺伝子を使用した分類精度を示す。IchorCNAに基づく腫瘍画分推定値(ITF)は、ステージとともに増加するが、ほとんどのステージI~IIICRCは、低い推定ITF(1%未満)を有する(図38A)。性能はステージごとに増加し、ステージIVで最も顕著に増加する(図38B)。性能は、腫瘍画分とともに最も強く増加する(図38C)。 図39Aは、腫瘍画分推定値対44結腸遺伝子平均P(オン)を示す。 図39Bは、chr8およびchr9におけるコピー数変化の有力な証拠を含む健常試料について、平均カバレッジからの倍率交代を示す。
用語
「1つ(a)」、「1つ(an)」、および「その(the)」の記載は、特に反対の指示がない限り、「1つ以上の」を意味することが意図される。特に反対の指示がない限り、「または(or)」の使用は、「排他的論理和(exclusive or)」ではなく、「包含的論理和(inclusive or)」を意味することが意図される。「第1の」構成要素の参照は、必ずしも第2の構成要素が提供されることを必要としない。さらに、特に明記しない限り、「第1の」または「第2の」構成要素の参照は、参照された構成要素を、特定の場所に限定するものではない。「に基づく」という用語は、「少なくとも部分的に基づく」を意味することを意図している。
「曲線下面積」または「AUC」という用語は、受信者操作特性(ROC)曲線の曲線下面積を指す。AUC測度は、完全なデータ範囲にわたる分類器の精度を比較するのに有用である。より大きなAUCを有する分類器は、2つの対象となる群(例えば、癌試料および正常試料または対照試料)の間で未知のものを正しく分類する能力がより大きい。ROC曲線は、2つの集団(例えば、治療剤に応答する個体および応答しない個体)を識別する上で、特定の特徴(例えば、本明細書に記載のバイオマーカーのいずれかおよび/または追加の生物医学情報の任意のアイテム)の性能をプロットするのに有用である。典型的には、集団全体にわたる特徴データ(例えば、症例および対照)は、単一の特徴の値に基づいて昇順にソートされる。次いで、その特徴の値ごとに、データの真陽性率と偽陽性率が計算される。真陽性率は、その特徴の値を上回る症例数をカウントして、合計症例数で割ることによって決定される。偽陽性率は、その特徴の値を上回る対照数をカウントして、合計対照数で割ることによって決定される。この定義は、対照と比較して症例で特徴が上昇しているシナリオを指すが、この定義は、対照と比較して特徴がより低いシナリオにも適用される(そのようなシナリオでは、その特徴の値を下回る試料がカウントされ得る)。ROC曲線は、単一の特徴、ならびに他の単一の出力について生成することができ、例えば、2つ以上の特徴の組み合わせを数学的に組み合わせて(例えば、加算、減算、乗算など)、単一の合計値を提供することができ、この単一の合計値は、ROC曲線にプロットすることができる。さらに、組み合わせが単一の出力値を導出する複数の特徴の任意の組み合わせを、ROC曲線にプロットすることができる。これらの特徴の組み合わせは、試験を含んでもよい。ROC曲線は、試験の偽陽性率(1特異度)に対する試験の真陽性率(感度)のプロットである。
用語「生体試料」(または単に「試料」)は、対象から得られた任意の物質を指す。試料は、対象に由来する検体、例えば、本明細書に記載のもの(核酸、ポリアミノ酸、炭水化物、または代謝産物)を含有し得るか、または含有すると推定され得る。一部の態様では、試料は、インビボで得られた、インビトロで培養された、またはインサイチュで処理された細胞および/または無細胞材料、ならびに血統および系統を含む系譜を含み得る。様々な態様では、生体試料は、対象由来の正常または健常な組織などの組織(例えば、固形組織または液体組織(liquid tissue))であり得る。固形組織の例としては、原発性腫瘍、転移腫瘍、ポリープ、または腺腫が挙げられる。液体試料(例えば、体液)の例としては、全血、血液由来のバフィーコート(リンパ球を含み得る)、尿、唾液、脳脊髄液、血漿、血清、腹水、痰、汗、涙、口腔試料、空洞リンス、または器官リンスが挙げられる。場合によっては、液体は、無細胞の液体であり、本質的に無細胞の液体試料であるか、または無細胞の核酸、例えば、無細胞のDNAを含む。場合によっては、循環腫瘍細胞を含む細胞は、濃縮され得るか、または液体から単離され得る。
用語「癌」および「癌性」は、典型的には、未制御の細胞成長によって特徴付けられる、哺乳動物における生理学的状態を指すか、または説明する。新形成、悪性腫瘍、癌、および腫瘍は、多くの場合、互換的に使用され、過度の細胞分裂に起因する組織または細胞の異常な成長を指す。
用語「無癌」は、その臓器が癌と診断されていないか、または検出可能な癌を有さない対象を指す。
「遺伝的バリアント」(または「バリアント」)という用語は、1つ以上の期待値からの偏差を指す。例としては、配列バリアントまたは構造多型が挙げられる。様々な実施例では、バリアントは、科学的に確認され、文献に報告されているバリアント、生物学的変化に関連する推定バリアント、文献に報告されているが、生物学的にまだ確認されていない推定バリアント、または文献に報告されていないが計算分析に基づいて推測される推定バリアントなど、既知のバリアントを指し得る。
「生殖系列バリアント」という用語は、天然または正常な多型(例えば、皮膚の色、髪の色、および正常な重量)を誘導する核酸を指す。体細胞変異は、後天性または異常な多型(例えば、癌、肥満、症状、疾患、障害など)を誘導する核酸を指し得る。生殖系列バリアントは、遺伝性であり、したがって、基準的なヒトゲノムに対して生まれる個体の遺伝的相違に対応する。体細胞バリアントは、細胞分裂、発達、および老化の任意の時点で、接合体またはそれ以降に生じるバリアントである。一部の実施例では、分析は、生殖系列バリアント、例えば、プライベートバリアント、および体細胞変異体、の間で識別することができる。
「入力特徴」(または「特徴」)という用語は、試料の出力分類(ラベル)、例えば、状態、配列含有量(例えば、変異)、推奨されるデータ収集操作、または推奨される治療、を予測するために、モデルによって使用される変数を指す。変数の値は、試料について決定することができ、分類を決定するために使用することができる。遺伝子データの入力特徴の例としては、配列データ(例えば、配列の読み)のゲノムへの整列に関連する整列された変数、および、例えば、配列リードの配列含有量、タンパク質もしくは自己抗体の測定、またはゲノム領域における平均メチル化レベルに関連する整列されていない変数が挙げられる。
「機械学習モデル」(または「モデル」)という用語は、パラメータが訓練用試料のセット上で訓練されるパラメータおよび機能の集合を指す。パラメータおよび関数は、線形代数演算、非線形代数演算、およびテンソル代数演算の集合であり得る。パラメータおよび関数は、統計関数、試験、および確率モデルを含み得る。訓練用試料は、試料の測定された特性(例えば、ゲノムデータおよび画像または健康記録などの他の対象データ)、ならびに対象の既知の分類/ラベル(例えば、表現型または治療)を有する試料に対応し得る。モデルは、新しい試料を分類するための最適な品質の測定基準(例えば、精度)を提供するために、パラメータ(および潜在的に機能)を最適化する訓練プロセスにおいて、訓練用試料から学習することができる。訓練機能は、期待値最大化、最尤法、マルコフ連鎖モンテカルロなどのベイズパラメータ推定法、ギブスサンプリング、ハミルトニアンモンテカルロ、および変分推論、または確率的勾配降下およびブロイデン・フレッチャー・ゴールドファーブ・シャンノ(BFGS)アルゴリズムなどの勾配ベースの方法を含むことができる。例示的なパラメータは、例えば、回帰もしくはニューラルネットワーク、確率分布族、またはスコアを割り当て、モデル訓練を導く損失、コストもしくは目的関数において、値を乗算する重み(例えば、ベクトルまたはマトリックス変換)を含む。例示的なパラメータは、例えば、回帰またはニューラルネットワークにおいて、値を乗算する重みを含む。モデルは、複数のサブモデルを含むことができ、異なる層のモデルまたは独立したモデルであってもよく、異なる構造形態、例えば、ニューラルネットワークとサポートベクトルマシン(SVM)との組み合わせ、を有してもよい。機械学習モデルの例としては、深層学習モデル、ニューラルネットワーク(例えば、深層学習ニューラルネットワーク)、カーネルベースの回帰、適応ベースの回帰または分類、ベイズ法、アンサンブル法、ロジスティック回帰および拡張、ガウス過程、サポートベクトルマシン(SVM)、確率モデル、および確率グラフィカルモデルが挙げられる。機械学習モデルは、特徴量エンジニアリング(例えば、一次元、二次元、またはより大きな次元ベクトルなどのデータ構造への特徴の収集)および特徴表現(例えば、分類の推論のための訓練に使用する変換された特徴への特徴のデータ構造の処理)をさらに含むことができる。
「マーカー」または「マーカータンパク質」は、患者に見出される診断指標であり、本発明の方法により、直接的または間接的に検出される。間接的な検出が好ましい。特に、本発明のマーカーの全ては、癌患者または癌を発症するリスクのある患者において、(自己)抗原の産生を引き起こすことが示されている。したがって、これらのマーカーを検出する単純な方法は、患者由来の血液または血清試料中に、これらの(自己)抗体を検出することである。かかる抗体は、アッセイにおいて、それらのそれぞれの抗原に結合することによって検出することができる。かかる抗原は、特に、マーカータンパク質自体、またはその抗原断片である。好適な方法は、かかる抗体-抗原反応を特異的に検出するために使用され得、本開示のシステムおよび方法に従って使用され得る。好ましくは、試料の抗体含有量全体が正規化され(例えば、予め設定された濃度に希釈される)、抗原に適用される。好ましくは、IgG、IgM、IgD、IgAまたはIgE抗体画分が、もっぱら使用される。好ましい抗体は、IgGである。
「非癌性組織」という用語は、悪性の新生物が形成されたが、新生物の特徴的な病理を有さない、同じ臓器由来の組織を指す。一般に、非癌性組織は、組織学的に正常に見える。本明細書で使用される「正常な組織」または「健常な組織」は、臓器が癌性ではない、臓器由来の組織を指す。
用語「ポリヌクレオチド」、「ヌクレオチド」、「核酸」、および「オリゴヌクレオチド」は互換的に使用される。これらは、デオキシリボヌクレオチドもしくはリボヌクレオチド、またはその類似体のいずれかであり、長さ1で最小限で結合されたのみの、任意の長さのヌクレオチドのポリマー形態を指す。一部の実施例では、ポリヌクレオチドは任意の三次元構造を有し、既知または未知の任意の機能を行うことができる。核酸は、RNA、DNA、例えば、ゲノムDNA、ミトコンドリアDNA、ウイルスDNA、合成DNA、RNAから逆転写されるcDNA、細菌DNA、ウイルスDNA、およびクロマチンを含むことができる。ポリヌクレオチドの非限定的な例としては、遺伝子または遺伝子断片のコード領域または非コード領域、連鎖分析から定義される遺伝子座(座位)、エクソン、イントロン、メッセンジャーRNA(mRNA)、トランスファーRNA、リボソームRNA、リボザイム、cDNA、組換えポリヌクレオチド、分岐ポリヌクレオチド、プラスミド、ベクター、任意の配列の単離DNA、任意の配列の単離RNA、核酸プローブ、およびプライマーが挙げられ、また、単一塩基のヌクレオチドでもあり得る。一部の実施例では、ポリヌクレオチドは、メチル化ヌクレオチドまたはグリコシル化ヌクレオチドおよびヌクレオチド類似体などの改変ヌクレオチドを含む。ヌクレオチド構造への改変は、それが存在する場合、ポリマーの構築の前または後に付与され得る。一部の実施例では、ヌクレオチドの配列は、非ヌクレオチド成分によって中断される。特定の実施例では、ポリヌクレオチドは、標識成分との複合化などによって、重合後にさらに改変される。
「ポリペプチド」もしくは「タンパク質」または「ペプチド」という用語は、特に、天然に見られるタンパク質、ならびに組換えまたは合成で産生されるタンパク質を包含することが意図される。「ポリペプチド」または「タンパク質」という用語は、グリコシル化形態などの、タンパク質の天然に見られる修飾形態を含み得ることに留意されたい。本明細書で使用される「ポリペプチド」もしくは「タンパク質」または「ペプチド」という用語は、任意のアミノ酸配列を包含し、糖タンパク質などの修飾配列を含むことが意図される。
「予測」という用語は、患者が、薬物または薬物のセットに対して、有利にまたは不利に応答する可能性、確率またはスコア、およびそれらの応答の程度、ならびに疾患の検出を指すように、本明細書で使用される。本開示の例示的な予測方法は、任意の特定の患者に最も適切な治療様式を選択することによって、治療決定を行うために臨床的に使用することができる。本開示の予測方法は、外科的介入、所与の薬物または薬物の組み合わせによる化学療法、および/または放射線療法などの、治療レジメンに患者が良好に応答する可能性が高いかどうかを予測するための貴重なツールである。
本明細書で使用される「予後」という用語は、特定の疾患または障害に罹患している対象の臨床結果の可能性を指す。癌に関して、予後は、対象が生存する可能性(確率)(例えば、1、2、3、4、または5年間)および/または腫瘍が転移する可能性(確率)の表現である。
用語「特異度」(真陰性率とも呼ばれる)は、そのように正しく特定される実際の陰性の割合(例えば、病態を有さないと正しく特定される健常者の割合)の尺度を指す。特異度は、真陰性コール(TN)および偽陽性コール(FP)の数の関数である。特異度は、(TN)/(TN+FP)として測定される。
「感度」という用語(真陽性率、または検出の確率とも呼ばれる)は、そのように正しく特定される実際の陽性の割合(例えば、病状を有すると正しく特定される病人の割合)の尺度を指す。感度は、真陽性コール(TP)および偽陰性コール(FN)の数の関数である。感度は、(TP)/(TP+FN)として測定される。
「構造多型(SV)」という用語は、約50bpであり、サイズが大きい参照ゲノムとは異なるDNA領域を指す。SVの例としては、反転、転座、およびコピー数バリアント(CNV)、例えば、挿入、欠失、および増幅が挙げられる。
「対象」という用語は、遺伝物質を含有する生物学的実体を指す。生物学的実体の例としては、例えば、細菌、ウイルス、真菌、および原生動物を含む、植物、動物、または微生物が挙げられる。一部の実施例では、対象は、哺乳動物、例えば、ヒトで、雄または雌であり得る。かかるヒトは、様々な年齢、例えば、日齢1~約1歳、約1歳~約3歳、約3歳~約12歳、約13歳~約19歳、約20歳~約40歳、約40歳~約65歳、または65歳以上であり得る。様々な実施例では、対象は、健常もしくは正常、異常、または疾患と診断されているか、もしくは疾患のリスクがあると疑われ得る。様々な実施例では、疾患は、癌、障害、症状、症候群、またはそれらの任意の組み合わせを含む。
「訓練用試料」という用語は、分類が既知であり得る試料を指す。訓練用試料を使用して、モデルを訓練することができる。試料の特徴の値は、入力ベクトル、例えば、訓練用試料の訓練用ベクトルを形成することができる。訓練用ベクトル(または他の入力ベクトル)の各要素は、1つ以上の変数を含む特徴に対応し得る。例えば、訓練用ベクトルの要素は、マトリックスに対応し得る。試料のラベルの値は、文字列、数字、バイトコード、または任意のサイズ、寸法、または組み合わせの前述のデータ型の任意のコレクションを含むベクトルを形成することができる。
本明細書で使用される「腫瘍」、「新形成」、「悪性腫瘍」または「癌」という用語は、一般に、悪性または良性にかかわらず、腫瘍性細胞の成長および増殖、ならびにすべての前癌性および癌性細胞および組織、ならびに細胞の異常および未制御の成長の結果を指す。
「腫瘍負荷」という用語は、個体における腫瘍の量を指し、腫瘍の数、体積、または重量として測定することができる。転移しない腫瘍は、「良性」と称される。周囲の組織を浸潤し、かつ/または転移し得る腫瘍は、「悪性」と称される。
「核酸試料」という用語は、本明細書で使用される場合、任意の好適な方法によって調製された核酸ライブラリを含む「核酸ライブラリ」または「ライブラリ」を包含する。アダプターは、PCRによる増幅を容易にするためにPCRプライマーにアニールしてもよく、または、例えば、配列決定尾部アダプターなどのユニバーサルプライマー領域であってもよい。アダプターは、ユニバーサル配列決定アダプターであり得る。本明細書で使用される場合、「効率」という用語は、初代試料中に元々存在する固有の分子の数にわたる配列決定後、配列が利用可能であり得る固有の分子の数の割合として計算される、測定可能な測定基準を指し得る。加えて、「効率」という用語はまた、必要とされる初期核酸試料材料を減少させること、試料調製時間を減少させること、増幅プロセスを減少させること、および/または核酸ライブラリ調製の全体的なコストを減少させることを指し得る。
本明細書で使用される場合、「バーコード」という用語は、ポリヌクレオチド断片を、それが生成される入力ポリヌクレオチドまたは標的ポリヌクレオチドと関連付けるために使用される既知の配列であり得る。バーコード配列は、合成ヌクレオチドまたは天然ヌクレオチドの配列であり得る。バーコード配列は、バーコード配列が配列決定リードに含有されるように、アダプター配列内に含有され得る。各バーコード配列は、少なくとも4、5、6、7、8、9、10、11、12、13、14、15、16、またはそれ以上のヌクレオチド長を含み得る。場合によっては、バーコード配列は、十分な長さであってもよく、それらが会合するバーコード配列に基づく試料の特定を可能にするために、互いに十分に異なっていてもよい。場合によっては、バーコード配列を使用して、「元の」核酸分子(対象由来の試料に存在する核酸分子)にタグ付けし、その後特定する。場合によっては、バーコード配列またはバーコード配列の組み合わせは、元の核酸分子を特定するために内因性配列情報と組み合わせて使用される。例えば、バーコード配列(またはバーコード配列の組み合わせ)は、バーコードに隣接する内因性配列(例えば、内因性配列の開始部および終了部)、および/または内因性配列の長さとともに使用することができる。
一部の実施例では、本明細書で使用される核酸分子は、「タグメンテーション」または「ライゲーション」反応に供され得る。「タグメンテーション」は、断片化反応およびライゲーション反応をライブラリ調製プロセスの単一ステップに組み合わせる。タグ付けされたポリヌクレオチド断片は、タグメンテーション中にトランスポゾン末端配列で「タグ付け」され、さらに、増幅の数サイクル間での伸長中に付加される追加の配列を含み得る。あるいは、核酸分子またはその断片を処理するために、生物学的断片を直接「タグ付け」することができ、核酸増幅を行うことを含んでもよい。例えば、任意の種類の核酸増幅反応を使用して、標的核酸分子またはその断片を増幅し、増幅生成物を生成することができる。
生体試料中の検体を検出し、検体の様々な測定基準を測定し、特徴としての測定基準を機械学習モデルに入力して、医療診断用の分類器を訓練する方法およびシステムが提供される。本明細書に記載の方法を使用して生成される訓練された分類器は、複数のアプローチに有用であり、疾患検出およびステージ分類、治療応答者の特定、ならびにそれを必要とする患者集団に対する階層化を含む。
個々の集団を階層化する様々な用途のために、生体試料中の1つ以上の生物学的検体に、機械学習アプローチを組み込む方法およびシステムが本明細書に提供される。生体試料中の検体を検出し、検体の様々な測定基準を測定し、特徴としての測定基準を機械学習モデルに入力して、医療診断用の分類器を訓練する方法およびシステムが提供される。本明細書に記載の方法を使用して生成される訓練された分類器は、複数のアプローチに有用であり、疾患検出およびステージ分類、治療応答者の特定、ならびにそれを必要とする患者集団に対する階層化を含む。特定の実施例では、本方法およびシステムは、罹患した個体の疾患、治療効率を予測し、治療決定を導くために有用である。
本アプローチは、細胞部分も使用され得るが、本方法が循環免疫系の非細胞部分を特徴付けるアプローチに焦点を当てるという点で、他の方法およびシステムとは異なる。造血ターンオーバーのプロセスは、循環免疫細胞の自然死および溶解である。血液の血漿画分は、細胞が死に、細胞内内容物を循環中に放出する時点での、免疫系の断片濃縮試料を含有する。具体的には、血漿は、臨床症状を呈する前に、癌細胞の存在によって教化された免疫細胞の集団を反映する、情報豊富な生物学的検体の試料を提供する。他のアプローチは、免疫系の細胞部分を特徴付けることを対象としているが、本方法は、免疫系の癌で教化された非細胞部分を調査して、生物学的情報を提供し、次いで有用な用途のために機械学習ツールと組み合わせる。血漿などの液体中の非細胞検体の研究は、液体試料のデコンボリューションを可能にして、それらが生存していたときの免疫細胞の分子状態を再現する。免疫系の非細胞部分を研究することで、癌状態の代替指標が提供され、癌細胞および関連する生物学的マーカーを検出するためのかなりの血液量の必要性が回避される。
I.生物学的アッセイによる循環検体および細胞脱構築
体液の診断に完全にまたは部分的に基づく、健康関連の予測または生物学的な予測(例えば、薬物耐性/感受性の予測)に関して、各疑問についての費用対効果が高くかつ質が高いアッセイを開発することが重要である。高性能(精度)予測モデルをうまく学習させるために必要な、最も強いシグナルを運び得る異なる検体を表すデータを、迅速かつ効率的に生成できることが不可欠である。
A.検体
様々な実施例では、生体試料は、本明細書に記載のモデル、方法、およびシステムのために、特徴の情報源を提供する異なる検体を含む。検体は、アポトーシス、壊死、および腫瘍、非腫瘍、または免疫細胞からの分泌に由来し得る。情報価値が高い4つのクラスの分子バイオマーカーとしては、以下が挙げられる:1)DNAプロファイル、配列または修飾の分析に基づくゲノムバイオマーカー;2)RNA発現プロファイル、配列または修飾の分析に基づくトランスクリプトームバイオマーカー;3)タンパク質プロファイル、配列または修飾の分析に基づくプロテオミクスまたはタンパク質バイオマーカー;および4)代謝産物の存在量の分析に基づくメタボロームバイオマーカー。
1.DNA
核酸の例としては、限定されないが、デオキシリボ核酸(DNA)、ゲノムDNA、プラスミドDNA、相補的DNA(cDNA)、無細胞(例えば、非被包性)DNA(cfDNA)、循環腫瘍DNA(ctDNA)、ヌクレオソームDNA、クロマトソームDNA、ミトコンドリアDNA(miDNA)、人工核酸類似体、組換え核酸、プラスミド、ウイルスベクター、およびクロマチンが挙げられる。一実施例では、試料は、cfDNAを含む。一実施例では、試料は、PBMC由来ゲノムDNAを含む。
2.RNA
様々な実施例では、生体試料は、リボ核酸(RNA)、メッセンジャーRNA(mRNA)、トランスファーRNA(tRNA)、マイクロRNA(miRNA)、リボソームRNA(rRNA)、循環RNA(cRNA)、選択的スプライシングmRNA、低分子核RNA(snRNA)、アンチセンスRNA、ショートヘアピンRNA(shRNA)、低分子干渉RNA(siRNA)、を含むコード領域および非コード領域転写物を含む。
核酸分子またはその断片は、一本鎖を含み得るか、または二本鎖であり得る。試料は、1つ以上のタイプの核酸分子またはその断片を含んでもよい。
核酸分子またはその断片は、任意の数のヌクレオチドを含み得る。例えば、一本鎖核酸分子またはその断片は、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも110個、少なくとも120個、少なくとも130個、少なくとも140個、少なくとも150個、少なくとも160個、少なくとも170個、少なくとも180個、少なくとも190個、少なくとも200個、少なくとも220個、少なくとも240個、少なくとも260個、少なくとも280個、少なくとも300個、少なくとも350個、少なくとも400個、またはそれ以上のヌクレオチドを含み得る。二本鎖核酸分子またはその断片の場合、核酸分子またはその断片は、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも110個、少なくとも120個、少なくとも130個、少なくとも140個、少なくとも150個、少なくとも160個、少なくとも170個、少なくとも180個、少なくとも190個、少なくとも200個、少なくとも220個、少なくとも240個、少なくとも260個、少なくとも280個、少なくとも300個、少なくとも350個、少なくとも400個、またはそれ以上の塩基対(bp)、例えば、ヌクレオチド対、を含んでもよい。場合によっては、二本鎖核酸分子またはその断片は、100~200bp、例えば、120~180bpを含み得る。例えば、試料は、120~180bpを含むcfDNA分子を含んでもよい。
3.ポリアミノ酸、ペプチド、およびタンパク質
様々な実施例では、検体は、ポリアミノ酸、ペプチド、タンパク質、またはその断片である。本明細書で使用される場合、ポリアミノ酸という用語は、モノマーが、アミド結合を通してともに連結されるアミノ酸残基である、ポリマーを指す。アミノ酸がα-アミノ酸である場合、L-光学異性体またはD-光学異性体のいずれかを使用することができ、L-異性体が好ましい。一実施例では、検体は、自己抗体である。
癌患者では、血清-抗体プロファイルが変化するとともに、癌性組織に対する自己抗体が生成される。それらのプロファイル変更は、癌の早期診断のためのマーカーとして、腫瘍関連抗原について多くの可能性を提供する。腫瘍関連抗原の免疫原性は、変化した非自己エピトープを曝露する変異アミノ酸配列に付与される。この免疫原性に関連する他の説明としては、選択的スプライシング、成人期における胚性タンパク質の発現(例えば、異所性発現)、アポトーシスまたは壊死プロセスの調節解除(例えば、過剰発現)、異常な細胞局在(例えば、分泌されている核タンパク質)を含む。イントロン配列によりコードされる腫瘍制限抗原(tumour-restricted antigens)のエピトープの例(例えば、部分的にスプライシングされていないRNAが翻訳された)は、腫瘍関連抗原を高度に免疫原性にすることが示されている。
例示的な本発明のマーカーは、腫瘍中で過剰発現される好適なタンパク質抗原である。マーカーは、通常、患者において抗体反応を引き起こす。したがって、患者におけるこれらのマーカーの存在を検出するための最も便利な方法は、患者由来の試料、特に、血液、血漿または血清などの体液試料中のこれらのマーカータンパク質に対する(自己)抗体を検出することである。
4.その他の検体
様々な実施例では、生体試料は、限定されないが、糖、脂質、アミノ酸、脂肪酸、フェノール化合物、およびアルカロイドなどの小さな化学分子を含む。
一実施例では、検体は、代謝産物である。一実施例では、検体は、炭水化物である。一実施例では、検体は、炭水化物抗原である。一実施例では、炭水化物抗原は、O-グリカンに結合している。一実施例では、検体は、単糖、二糖、三糖、または四糖である。一実施例では、検体は、四糖である。一実施例では、四糖は、CA19-9である。一実施例では、検体は、ヌクレオソームである。一実施例では、検体は、多血小板血漿(PRP)である。一実施例では、検体は、リンパ球(好中球、好酸球、好塩基球、リンパ球、PBMCおよび単球)、または血小板などの細胞要素である。
一実施例では、検体は、リンパ球(好中球、好酸球、好塩基球、リンパ球、PBMCおよび単球)、または血小板などの細胞要素である。
様々な実施例では、本明細書に記載の方法に有用な情報を得るために、検体の組み合わせをアッセイする。様々な実施例では、癌のタイプまたは分類の必要性に応じて、アッセイされる検体の組み合わせが異なる。
様々な実施例では、検体の組み合わせは、1)cfDNA、cfRNA、ポリアミノ酸および低化学分子、または2)cfDNAおよびcfRNAならびにポリアミノ酸、3)cfDNAおよびcfRNAならびに低化学分子、または4)cfDNA、ポリアミノ酸および低化学分子、または5)cfRNA、ポリアミノ酸および低化学分子、または6)cfDNAおよびcfRNA、または7)cfDNAおよびポリアミノ酸、または8)cfDNAおよび低化学分子、または9)cfRNAおよびポリアミノ酸、または10)cfRNAおよび低化学分子、または11)ポリアミノ酸および低化学分子、から選択される。
II.試料調製
一部の実施例では、試料は、例えば、対象由来の組織もしくは体液、またはその両方、から得られる。様々な実施例では、生体試料は、血漿、または血清、バフィーコート、粘液、尿、唾液、または脳脊髄液などの、液体試料である。一実施例では、液体試料は、無細胞液体である。様々な実施例では、試料は、無細胞核酸(例えば、cfDNAまたはcfRNA)を含む。
1つ以上の検体を含む試料を処理して、特定の核酸分子もしくはその断片またはその収集物を、提供または精製することができる。例えば、1つ以上の検体を含む試料を処理して、1つのタイプの検体(例えば、cfDNA)を、他のタイプの検体から分離することができる。別の実施例では、試料は、試料からの各一定分量での異なる検体の分析のために、一定分量に分けられる。一実施例では、異なるサイズ(例えば、長さ)の1つ以上の核酸分子またはその断片を含む試料を処理して、より高い分子量および/またはより長い核酸分子もしくはその断片、あるいは、より低い分子量および/またはより短い核酸分子もしくはその断片を除去することができる。
本明細書に記載の方法は、核酸分子またはその断片を、処理または修飾することを含んでもよい。例えば、核酸分子またはその断片のヌクレオチドは、修飾核酸塩基、糖、および/またはリンカーを含むように修飾することができる。核酸分子またはその断片の修飾は、酸化、還元、加水分解、タグ付け、バーコード化、メチル化、脱メチル化、ハロゲン化、脱アミノ化、または任意の他のプロセスを含み得る。核酸分子またはその断片の修飾は、酵素、化学反応、物理的プロセス、および/またはエネルギーへの曝露を使用して達成することができる。例えば、メチル化分析のために、バイサルファイトの使用を通して、非メチル化シトシンの脱アミノを達成することができる。
試料処理は、例えば、遠心分離、濾過、選択的沈殿、タグ付け、バーコード化、および分配などの1つ以上のプロセスを含み得る。例えば、細胞DNAは、選択的ポリエチレングリコールおよび遠心分離または濾過プロセスなどのビーズベースの沈殿プロセスによって、cfDNAから分離することができる。試料に含まれる細胞は、異なるタイプの核酸分子またはその断片の分離の前に、溶解されていても、または溶解されていなくてもよい。一実施例では、試料は、実質的に細胞を含まない。一実施例では、細胞成分は、機械学習方法またはモデルに特徴として入力され得る測定値について、アッセイされる。様々な実施例では、PBMCリンパ球などの細胞成分が、検出され得る(例えば、フローサイトメトリー、質量分析または免疫パニングによって)。処理された試料は、例えば、少なくとも1フェムトグラム(fg)、10fg、100fg、1ピコグラム(pg)、10pg、100pg、1ナノグラム(ng)、10ng、50ng、100ng、500ng、1マイクログラム(μg)、またはそれ以上の、特定のサイズまたはタイプの核酸分子またはその断片を含み得る。
一部の実施例では、血液試料は、健常な個体、および癌を有する個体、例えば、ステージI、II、III、またはIV癌を有する個体から得られる。一実施例では、血液試料は、健常な個体、および良性ポリープ、進行性腺腫(AA)、およびステージI~IV大腸癌(CRC)を有する個体から得られる。本明細書に記載のシステムおよび方法は、AAおよびCRCの存在を検出し、そのステージおよびサイズを区別するのに有用である。このような区別は、行動および/または治療決定の変化のために集団中の個体を階層化するのに有用である。
A.ライブラリの調製と配列決定
精製された核酸(例えば、cfDNA)を使用して、配列決定のためのライブラリを調製することができる。ライブラリは、プラットフォーム固有のライブラリ調製方法またはキットを使用して調製することができる。方法またはキットは、市販のものであってもよく、シーケンサー対応ライブラリを生成することができる。プラットフォーム固有のライブラリ調製方法は、既知の配列を核酸分子の末端に付加することができ、その既知の配列は、アダプター配列と称され得る。任意選択的に、ライブラリ調製方法は、1つ以上の分子バーコードを組み込むことができる。
超並列配列決定システムを使用して二本鎖DNA断片の集団を配列決定するには、DNA断片を、既知のアダプター配列に隣接させなければならない。両端にアダプターを有するそのようなDNA断片の集合体は、配列決定ライブラリと呼ばれる。精製されたDNAから配列決定ライブラリを生成するための好適な方法の2つの例は、(1)ライゲーションに基づいて、既知のアダプターを、断片化DNAのいずれかの末端に結合すること、および(2)トランスポザーゼを介して、アダプター配列を挿入すること、である。任意の好適な超並列配列決定技術が、配列決定のために使用され得る。
メチル化分析については、配列決定の前に核酸分子を処理する。バイサルファイト、酵素的メチル-seqまたはヒドロキシメチル-seqで、核酸分子(例えば、DNA分子)を処理することで、非メチル化シトシン塩基を脱アミノ化し、それらをウラシル塩基に変換する。このバイサルファイト変換プロセスは、5’位(5mCまたは5hmC)でメチル化またはヒドロキシメチル化されるシトシンを脱アミノ化しない。配列決定分析と併せて使用する場合、核酸分子またはその断片のバイサルファイト変換を伴うプロセスは、バイサルファイト配列決定(BS-seq)と称され得る。場合によっては、核酸分子は、バイサルファイト変換を受ける前に、酸化され得る。核酸分子の酸化は、5hmCを、5-ホルミルシトシンおよび5-カルボキシルシトシンに変換することができ、その両方は、ウラシルへのバイサルファイト変換に感受性である。配列決定分析と併せて使用する場合、核酸分子またはその断片をバイサルファイト配列決定に供する前の核酸分子またはその断片の酸化は、酸化バイサルファイト配列決定(oxBS-seq)と称され得る。
1.配列決定
核酸は、次世代配列決定、ハイスループット配列決定、超並列配列決定、合成による配列決定(sequencing-by-synthesis)、ペアエンド配列決定(paired-end sequencing)、一分子配列決定(single-molecule sequencing)、ナノポア配列決定、パイロ配列決定(pyrosequencing)、半導体配列決定、ライゲーションによる配列決定(sequencing-by-ligation)、ハイブリダイゼーションによる配列決定(sequencing-by-hybridization)、RNA-seq、デジタル遺伝子発現(Digital Gene Expression)、合成による一分子配列決定(Single Molecule Sequencing by Synthesis、SMSS)、クローナル一分子アレイ(Clonal Single Molecule Array、Solexa)、ショットガン配列決定、マキシム-ギルバート配列決定、プライマーウォーキング(primer walking)、およびサンガー配列決定などの配列決定方法を使用して配列決定され得る。
配列決定方法は、標的化配列決定、全ゲノム配列決定(WGS)、ローパス配列決定、バイサルファイト配列決定、全ゲノムバイサルファイト配列決定(WGBS)、またはそれらの組み合わせを含み得る。配列決定方法は、好適なライブラリの調製を含み得る。配列決定方法は、核酸の増幅(例えば、PCRなどの標的または普遍的増幅による)を含み得る。配列決定方法は、所望の深度、例えば、少なくとも約5倍、少なくとも約10倍、少なくとも約15倍、少なくとも約20倍、少なくとも約25倍、少なくとも約30倍、少なくとも約35倍、少なくとも約40倍、少なくとも約45倍、少なくとも約50倍、少なくとも約60倍、少なくとも約70倍、少なくとも約80倍、少なくとも約90倍、少なくとも約100倍で行ってもよい。標的配列決定方法については、所望の深度、例えば、少なくとも約500倍、少なくとも約1000倍、少なくとも約1500倍、少なくとも約2000倍、少なくとも約2500倍、少なくとも約3000倍、少なくとも約3500倍、少なくとも約4000倍、少なくとも約4500倍、少なくとも約5000倍、少なくとも約6000倍、少なくとも約7000倍、少なくとも約8000倍、少なくとも約9000倍、少なくとも約10000倍で行ってもよい。
生物学的情報は、任意の有用な方法を使用して作成することができる。生物学的情報は、配列決定情報を含んでもよい。配列決定情報は、例えば、配列決定を使用するトランスポザーゼアクセス可能なクロマチンに対するアッセイ(ATAC-seq)法、小球菌ヌクレアーゼ配列決定(MNase-seq)法、デオキシリボヌクレアーゼ高感受性部位配列決定(DNase-seq)法、またはクロマチン免疫沈降配列決定(ChIP-seq)法を使用して、作成され得る。
配列決定リードは、例えば、全ゲノム配列決定、全エクソーム配列決定、標的配列決定、次世代配列決定、パイ配列決定、合成による配列決定、イオン半導体配列決定、タグベースの次世代配列決定、半導体配列決定、一分子配列決定、ナノポア配列決定、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、デジタル遺伝子発現(DGE)、超並列配列決定、クローナル一分子アレイ(Solexa/Illumina)、PacBioを使用する配列決定、およびオリゴヌクレオチドのライゲーションと検出による配列決定(Sequencing by Oligonucleotide Ligation and Detection、SOLiD)を含む、様々な供給源から得ることができる。
一部の実施例では、配列決定は、例えば、バーコード、固有分子識別子(UMI)、または別のタグを核酸分子またはその断片にライゲーションすることによる、核酸分子またはその断片の修飾を含む。バーコード、UMI、またはタグを核酸分子またはその断片の一端にライゲーションすることは、配列決定後の核酸分子またはその断片の分析を容易にし得る。一部の実施例では、バーコードは、固有バーコード(すなわち、UMI)である。一部の実施例では、バーコードは、非固有であり、バーコード配列は、標的核酸の開始および停止配列などの内因性配列情報と関連して使用され得る(例えば、標的核酸は、バーコードに隣接し、バーコード配列は、標的核酸の開始および終止での配列と関連して、一意的にタグ付けされた分子を作成する)。
配列決定リードは、脱多重化、脱脱重複(例えば、独自の分子識別子、UMIを使用する)、アダプタートリミング、品質フィルタリング、GC補正、増幅バイアス補正、バッチ効果の補正、深度正規化、性染色体の除去、および低品質ゲノムビンの除去などの方法を使用して処理され得る。
様々な実施例では、配列決定リードは、参照核酸配列に整列され得る。一実施例では、参照核酸配列は、ヒト参照ゲノムである。例として、ヒト参照ゲノムは、hg19、hg38、GrCH38、GrCH37、NA12878、またはGM12878であり得る。
2.アッセイ
どのアッセイを使用するかの選択は、システムの臨床目標を考慮して、機械学習モデルを訓練した結果に基づいて統合される。本明細書で使用される場合、「アッセイ」という用語は、既知の生物学的アッセイを含み、また、機械学習分析およびモデリングのための入力として、生物学的情報を有用な特徴に変換するための計算生物学的アプローチも含み得る。本明細書に記載のアッセイは、様々な前処理計算ツールが含まれ得、「アッセイ」という用語は、限定することを意図するものではない。様々なクラスの試料、試料の画分、異なるクラスの分子を有するそれらの画分/試料の部分、および複数のタイプのアッセイを使用して、計算方法およびモデルで使用するための特徴データを生成し、本明細書に記載の方法における有用な分類器に通知することができる。一実施例では、試料は、バイオアッセイを行うために、一定分量に分けられる。
様々な実施例では、生物学的アッセイは、生体試料の異なる部分において行われ、その部分の検体についての生物学的アッセイに対応するデータセットを提供する。様々なアッセイは、当業者に既知であり、生体試料を調査するのに有用である。そのようなアッセイの例としては、限定されないが、全ゲノム配列決定(WGS)、全ゲノムバイサルファイト配列決定(WGSB)、低分子RNA配列決定、定量イムノアッセイ、酵素結合免疫吸着アッセイ(ELISA)、近接伸長アッセイ(PEA)、タンパク質マイクロアレイ、質量分析、低カバレッジ全ゲノム配列決定(lcWGS)、選択的タグ付け5mC配列決定(WO2019/051484)、CNVコーリング、腫瘍画分(TF)推定、全ゲノムバイサルファイト配列決定、LINE-1 CpGメチル化、56遺伝子CpGメチル化、cf-タンパク質免疫定量ELISA、SIMOA、およびcf-miRNA配列決定、ならびに上記アッセイのいずれかに由来する細胞型または細胞表現型混合物比率、が含まれる。同じ生体試料またはその画分由来の複数の検体(限定されないが、DNA、RNA、タンパク質、自己抗体、代謝産物、またはそれらの組み合わせなど)を同時に分析することができるため、シグナル間の独立した情報を利用することによって、かかる体液の診断試験の感度および特異度を増加させることができる。
一実施例では、無細胞DNA(cfDNA)含有量は、低カバレッジ全ゲノム配列決定(lcWGS)もしくは標的配列決定、または全ゲノムバイサルファイト配列決定(WGBS)もしくは全ゲノム酵素的メチル配列決定によって評価され、無細胞マイクロRNA(cf-miRNA)は、低分子RNA配列決定またはPCR(デジタルドロップレットまたは定量的)によって評価され、ならびに循環タンパク質のレベルは、定量的イムノアッセイによって測定される。一実施例では、無細胞DNA(cfDNA)含有量は、全ゲノムバイサルファイト配列決定(WGBS)によって評価され、タンパク質は、定量的イムノアッセイ(ELISAまたは近接伸長アッセイを含む)によって測定され、および自己抗体は、タンパク質マイクロアレイによって測定される。
B.WGSを使用したcf-DNAアッセイ
様々な実施例では、cfDNAの特徴をプロファイルするアッセイは、計算用途において有用な特徴を生成するために使用される。一実施例では、cf-DNAの特徴は、機械学習モデルにおいて使用され、本明細書に記載されるように、個体を階層化する、または疾患を検出する分類器を生成する。例示的な特徴としては、限定されないが、cfDNA試料中の遺伝子発現、3Dクロマチン、クロマチン状態、コピー数バリアント、起源の組織、および細胞組成物、に関する生物学的情報を提供するものが挙げられる。機械学習方法およびモデルの入力特徴として使用され得るcfDNA濃度の測定基準は、限定されないが、指定されたサイズ範囲内でdsDNAを定量する方法(例えば、Agilent TapeStation、Bioanalyzer、Fragment Analyzer)、dsDNA結合色素を使用してすべてのdsDNAを定量する方法(例えば、QuantiFluor、PicoGreen、SYBR Green)、ならびに特定のサイズ以下でDNA断片(dsDNAまたはssDNAのいずれか)を定量する方法(例えば、短鎖断片qPCR、長鎖断片qPCR、および長鎖/短鎖qPCR比)を含む方法によって得ることができる。
また、生物学的情報は、転写開始部位、転写因子結合部位、配列決定を使用するトランスポザーゼアクセス可能クロマチンのアッセイ(ATAC-seq)データ、ヒストンマーカーデータ、DNAse高感受性部位(DHS)、またはそれらの組み合わせ、に関する情報を含み得る。
一実施例では、配列決定情報は、限定されないが、転写開始部位、転写因子結合部位、クロマチン開閉状態、ヌクレオソーム配置または占有などの複数の遺伝的特徴に関する情報を含む。
1.cfDNA血漿濃度
cfDNAの血漿濃度は、様々な実施例において、癌の存在を示す特徴としてアッセイされ得る。様々な実施例では、循環におけるcfDNAの総量とcfDNAに対する腫瘍由来の寄与(「腫瘍画分」とも称される)の推定値の両方を、予後バイオマーカーならびに治療に対する応答および耐性の指標として使用する。注釈付きゲノム領域内に整列した配列決定断片をカウントし、配列決定の深度について正規化して、試料当たり30,000次元ベクトルを生成し、各要素は、遺伝子のカウント(例えば、参照ゲノム内のその遺伝子に整列されるリード数)に対応する。一実施例では、その領域に整列された断片の数をカウントすることによって、注釈付き領域を有する既知の遺伝子のリストについて、それらの注釈付き領域の各々に対し、配列のリードカウントを決定する。遺伝子のリードカウントは、様々な方法で正規化され、例えば、ゲノムが配置されるグローバルな期待値、試料内正規化、および交差特徴正規化を使用する。交差特徴正規化は、指定された値、例えば、0、異なる負の値、1、または範囲が0~2、に平均化されるそれらの特徴のすべてを指す。交差特徴正規化に関して、試料からの総リードは可変であり、したがって、調製プロセスおよび配列決定負荷プロセスに依存し得る。正規化は、グローバル正規化の一部として、一定数のリードになされ得る。
試料内正規化のために、いくつかの領域の、特にGCバイアスのいくつかの特徴または選考する特徴によって正規化することが可能である。したがって、各領域の塩基対の構成は異なり、正規化に使用することができる。場合によっては、GCの数は、有意に高いまたは50%未満であり、その塩基がよりエネルギー的であるため熱力学的な影響を有し、プロセスが偏る。一部の領域は、実験室における試料調製の生物学的アーチファクトのため、予想以上のリードを与える。したがって、モデリング時、別の種類の特徴/特徴変換/正規化方法を適用することによって、このようなバイアスを補正する必要がある場合がある。
一実施例では、ソフトウェアツールichorCNAを使用して、スパース(約0.1×カバレッジ)からディープ(約30×カバレッジ)全ゲノム配列決定(WGS)まで検出されるコピー数変化を介して、cfDNAの腫瘍画分成分を特定する。別の実施例では、個々の対立遺伝子の存在の定量化による腫瘍含有量の測定を使用して、それらの対立遺伝子が既知のクローナルドライバーである癌において、治療に対する応答または耐性を評価する。
コピー数多型(CNV)は、平均ヒトゲノム生存率の主要な供給源として認識され、表現型多型に著しく寄与するゲノムの領域において増幅または欠失され得る。腫瘍由来cfDNAは、コピー数変化に対応するゲノム変化を有する。コピー数変化は、CRCを含む多くの癌で、発癌に役割を果たす。ゲノム全域にわたるコピー数変化の検出は、腫瘍バイオマーカーとして作用するcfDNAにおいて特徴付けることができる。一実施例では、検出には、ディープWGSを使用する。別の実施例では、低カバレッジ全ゲノム配列決定による無細胞DNAにおける染色体不安定性分析を、cfDNAのアッセイとして使用することができる。腫瘍DNA断片の検出に有用なcfDNAアッセイの他の例としては、鎖長混合モデル(Length Mixture Model、LMM)、および断片エンドポイント分析(Fragment Endpoint Analysis)が挙げられる。
一実施例では、高い腫瘍画分試料(>20%)は、大規模CNVの手動検査を介して特定される。
一実施例では、遺伝子発現の変化も血漿cfDNA濃度レベルに反映され、マイクロアレイ分析などの方法を使用して、cfDNA試料中の遺伝子発現レベルの変化をアッセイすることができる。機械学習方法およびモデルの入力特徴として使用され得るcfDNA濃度の測定基準としては、限定されないが、Tape Station、短鎖qPCR、長鎖qPCR、および長鎖/短鎖qPCR比が挙げられる。
2.体細胞変異解析
一実施例では、低カバレッジ全ゲノム配列決定(lcWGS)を使用して、試料中のcf-DNAを配列決定し、次いで、特定の癌のタイプに関連する体細胞変異について調査することができる。lcWGS、ディープWGS、または標的配列決定(NGSまたは他の技術による)からの体細胞変異を使用することで、本明細書に記載の機械学習方法およびモデルに入力され得る特徴を生成することができる。
体細胞変異分析は、マイクロアレイおよび次世代配列決定(NGS)または超並列配列決定などの高度に複雑な技術を含むように成熟している。このアプローチは、単一の試験において、広範な多重化能を可能にさせ得る。これらのタイプのホットスポットパネルは、単一のアッセイで、数~数百の遺伝子数に及び得る。他のタイプの遺伝子パネルは、全エクソンまたは全遺伝子配列決定を含み、特定の遺伝子セットにおける新規の変異を特定するという利点を提供する。
3.転写因子プロファイリング
cfDNAからの転写因子結合の推論は、癌において絶大な診断可能性を有する。転写因子結合部位(TFBS)におけるヌクレオソームシグネチャに関与する構成要素をアッセイして、異なる血漿試料中の転写因子結合部位アクセス可能性を評価し、比較する。一実施例では、cfDNAが循環腫瘍DNA(ctDNA)も含む場合、健常なドナー、および転移した前立腺癌、結腸癌または乳癌を有する癌患者由来の血漿試料から採取された血液試料から得られる、ディープ全ゲノム配列決定(WGS)データが使用される。シャローWGSデータは、複数の細胞型から生じるcfDNAシグナルの混合物を使用して一般的な組織特異的パターンを確立する代わりに、個々の転写因子をプロファイルし、フーリエ変換および統計的要約による分析を行う。したがって、本明細書に提供されるアプローチは、組織の寄与と生物学的なプロセスの両方のよりニュアンスの高い視点を提供し、これにより、起源の組織の分析と起源の腫瘍の分析の両方に好適な系統特異的転写因子の特定を可能にする。一実施例では、癌を有する患者由来のcfDNAにおける転写因子結合部位の可塑性は、癌のサブタイプ、ステージ、および治療に対する応答を分類するために使用される。
一実施例では、cfDNA断片化パターンは、非造血シグネチャを検出するために使用される。cfDNAからマッピングされた転写因子-ヌクレオソーム相互作用を同定するために、健常な対照由来の血漿試料において、造血転写因子-ヌクレオソームフットプリントを最初に特定する。一般にアクセス可能なデータベース(例えば、遺伝子転写制御データベース(Gene Transcription Regulation Database,(GTRD))からの転写因子結合部位の精選されたリストを使用して、cfDNAから、包括的な転写因子結合部位-ヌクレオソーム占有率マップを生成してもよい。異なるストリンジェンシー基準を使用して、転写因子結合部位でのヌクレオソームシグネチャを測定し、「アクセス可能性スコア」と称される測定基準、および、異なる血漿試料中で、転写因子結合部位アクセス可能性の有意な変化を客観的に比較するためのz-スコア統計を確立する。臨床目的として、cfDNAの起源の組織または癌を有する患者における起源の腫瘍を特定するために好適な一連の系統特異的転写因子を特定することができる。アクセス可能性スコアおよびzスコア統計を使用して、癌を有する患者のcfDNAから、変化する転写因子結合部位アクセス可能性を解明する。
一態様では、本開示は、対象において疾患を診断するための方法を提供し、(a)対象から抽出されたデオキシリボ核酸(DNA)からの配列リードを提供することと、(b)転写因子のカバレッジパターンを生成することと、(c)カバレッジパターンを処理してシグナルを提供することと、(d)シグナルと参照シグナルとを比較することであって、シグナルと参照シグナルは、異なる度数を有する、比較することと、(e)シグナルに基づいて、対象において疾患を診断することと、を含む。
一部の実施例では、(b)は、配列リードを参照配列に整列させて、整列配列パターンを提供し、転写因子の結合部位に対応する整列配列パターンの領域を選択し、領域内の整列配列パターンを正規化すること、を含む。
一部の実施例では、転写因子は、GRH-L2、ASH-2、HOX-B13、EVX2、PU.1、Lyl-1、Spi-B、およびFOXA1からなる群から選択される。
一部の実施例では、(e)は、転写因子のより高いアクセス可能性の兆候を特定すること、を含む。一部の実施例では、転写因子は、上皮転写因子である。一部の実施例では、転写因子は、GRHH-L2である。
4.推定染色体構造/クロマチン状態
他の実施例では、無細胞DNA(cfDNA)を使用してゲノムの三次元構造を推論するために、アッセイが使用される。特に、本開示は、癌などの疾患または状態に関連するクロマチン異常を検出するための方法およびシステムを提供する。いかなる特定のメカニズムにも束縛されるものではないが、DNA断片は、細胞から、例えば、血流中に、放出されると考えられる。一旦細胞から放出されると、無細胞DNA(cfDNA)として知られる放出されたDNA断片の半減期は、クロマチンリモデリング状態に依存し得る。したがって、生体試料中のcfDNA断片の存在量は、cfDNA断片が由来する遺伝子のクロマチン状態(cfDNAの「位置」として知られる)を示すことができる。遺伝子のクロマチン状態は、疾患で変化し得る。遺伝子のクロマチン状態の変化を特定することは、対象において疾患の存在を特定するための方法として機能し得る。遺伝子のクロマチン状態は、コンピュータ支援技術を使用して、生体試料中のcfDNA断片の存在量および位置から予測することができる。クロマチン状態は、試料中の遺伝子発現を推測する上でも有用であり得る。クロマチン状態を予測するために使用され得るコンピュータ支援技術の非限定的な例は、確率的グラフィカルモデル(PGM)である。PGMは、オープンおよびクローズドTSS(または状態間)のcfDNAプロファイルを特定するための期待値最大化または勾配法などの統計技術を使用して、PGMのパラメータを推定するために、それらのパラメータを訓練セットおよび統計技術に適合させることによって、推定することができる。訓練セットは、既知のオープンおよびクローズド転写開始部位のcfDNAプロファイルであってもよい。訓練されると、PGMは、ナイーブ(これまで調べられていない)試料中の1つ以上の遺伝子のクロマチン状態を予測することができる。予測は、分析され、定量化され得る。健常試料および疾患試料からの1つ以上の遺伝子のクロマチン状態における予測を比較することによって、バイオマーカーまたは診断試験を開発することができる。PGMは、モデルをより正確にし得るように貢献する様々な情報、測定値、および数学的オブジェクトを含むことができる。これらのオブジェクトは、データの生物学的文脈および試料の実験室プロセス条件などの、他の測定された共変量を含むことができる。
遺伝的特徴がクロマチン状態である一実施例では、第1のアレイは、参照として、複数の細胞型の構成的開放度の尺度を提供し、第2のアレイは、試料中の細胞型の相対的な割合を提供し、第3のアレイは、試料中のクロマチン状態の尺度を提供する。
遺伝子の発現は、細胞機構が転写開始部位にアクセスすることによって、制御され得る。転写開始部位へのアクセスは、転写開始部位が位置するクロマチンの状態により、決定され得る。クロマチンの状態は、クロマチンリモデリングによって制御することができ、クロマチンリモデリングは、転写開始部位を縮合する(閉じる)または弛緩する(開く)ことができる。閉じた転写開始部位は、遺伝子発現の減少をもたらし、開いた転写開始部位は、遺伝子発現の増加をもたらす。また、cfDNA断片の長さは、クロマチン状態に依存し得る。クロマチンリモデリングは、ヒストンおよび他の関連タンパク質の修飾を通じて生じ得る。クロマチンおよび転写開始部位の状態を制御することができるヒストン修飾の非限定的な例としては、例えば、メチル化、アセチル化、リン酸化、およびユビキチン化が挙げられる。
また、遺伝子の発現は、物理的なゲノムの3D空間における転写機構と相互作用するエンハンサーなどのより遠位の要素によっても制御される。ATAC-seqおよびDNAse-seqは、オープンクロマチンの測定値を提供し、オープンクロマチンは、明確に特定の遺伝子と関連付けられない場合があるが、これらのより遠位の要素の結合と相関する。例えば、ATAC-seqデータは、多数の細胞型および状態について得ることができ、活性転写開始部位または結合エンハンサーもしくはリプレッサーなどの様々な基礎領域について、オープンクロマチンを有するゲノムの領域を特定するために使用することができる。
cfDNAの半減期は、細胞から一度放出されると、クロマチンリモデリング状態に依存し得る。したがって、生体試料中のcfDNA断片の存在量は、cfDNA断片が由来する遺伝子のクロマチン状態(本明細書においてcfDNAの「位置」と称される)を示すことができる。遺伝子のクロマチン状態は、疾患で変化し得る。遺伝子のクロマチン状態の変化を特定することは、対象において疾患の存在を特定するための方法として機能し得る。発現遺伝子と無発現遺伝子を比較する場合、無細胞DNA(cfDNA)断片の数と位置分布の両方に定量的なシフトがみられる。より具体的には、転写開始部位(TSS)を取り囲む約1000~3000bp領域内のリードに強い枯渇がみられ、TSSの下流のヌクレオソームが強く位置決めされる(位置がはるかに予測可能になる)。本開示は、逆相関を解決する方法を提供するものであり、cfDNAから始めて、遺伝子の発現またはクロマチンの開放性を推測することができる。一実施例では、このアッセイは、本明細書に記載の多検体方法において使用される。
本開示はまた、同様に、例えば、抑制領域、活性または停滞(poised)プロモータなどにおいて、他のクロマチン状態について予測を生成する方法を提供する。これらの予測は、異なる個体(または試料)間、例えば、健常者、大腸癌(CRC)患者、または他の疾患もしくは癌と診断された試料間の差を定量化することができる。
オープンクロマチンの存在は、ヌクレオソームの不在によって、またはオープンクロマチンの内部領域に隣接する強く位置決めされたヌクレオソームの存在によっても、広く捕捉されるため、本明細書に記載の方法は、参照試料中の他の手段によって特定されるオープンクロマチンのエンハンサー、リプレッサー、または単純に領域に対しても使用され得る。
ゲノム内のcfDNA配列リードの位置は、配列を参照ゲノムに「マッピング」することによって決定することができる。マッピングは、例えば、Needleman-Wunschアルゴリズム、BLASTアルゴリズム、Smith-Watermanアルゴリズム、Burrows-Wheeler整列、サフィックス木、またはカスタム開発アルゴリズムを含むコンピュータアルゴリズムを用いて行うことができる。
染色体の三次元立体構造は、核を区画化し、空間的に離れた機能性要素を近接に連結することに関与する。染色体の空間的配置の分析および染色体がどのように折り畳まれるかを理解することで、クロマチン構造、遺伝子活性、および細胞の生物学的状態の間の関係についての洞察が与えられる。
DNA相互作用の検出および三次元クロマチン構造のモデリングは、染色体立体構造技術を使用して達成することができる。かかる技術としては、例えば、3C(染色体コンフォメーションキャプチャ)、4C(環状化染色体コンフォメーションキャプチャ)、5C(染色体コンフォメーションキャプチャカーボンコピー)、Hi-C(ハイスループット配列決定を有する3C)、ChIP-ループ(ChIP-seqを有する3C)、およびChIA-PET(ChIP-seqを有するHi-C)が挙げられる。
Hi-C配列決定は、近接ベースのライゲーションを超並列配列決定とカップリングすることによって、全ゲノムの三次元構造を探索するために使用される。Hi-C配列決定は、ハイスループットの次世代配列決定を利用して、ゲノム全体にわたる相互作用を不偏的に定量化する。Hi-C配列決定では、DNAをホルムアルデヒドで架橋し、架橋DNAを制限酵素で消化して5’-オーバーハングを得、次いでビオチン化残基で充填し、得られた平滑末端断片を架橋DNA断片間のライゲーションに有利な条件下でライゲーションする。得られたDNA試料は、接合部がビオチンで標識され、核内で空間的に近接していた断片からなる、ライゲーション生成物を含有する。Hi-Cライブラリは、DNAを剪断し、ストレプトアビジンビーズでビオチン化生成物を選択することによって、生成することができる。ライブラリは、超並列ペアエンドDNA配列決定を使用することによって、分析することができる。この技術を使用して、ゲノム内のすべてのペアワイズ相互作用を計算して、潜在的な染色体構造を推論することができる。
一実施例では、cfDNAのヌクレオソーム占有率は、DNAの開放度の指標および転写因子の結合を推論する能力を提供する。特定の実施例では、ヌクレオソーム占有率は、腫瘍細胞の表現型と関連する。
cfDNAは、全ゲノム配列決定によるヌクレオソーム占有率のインビボマップを生成するための、内因性生理学的プロセスによって生成される、固有の検体を表す。転写開始部位でのヌクレオソーム占有率は、それらのDNAを循環に放出する細胞由来の発現遺伝子を推論するために活用されている。cfDNAヌクレオソーム占有率は、転写因子の足跡を反映し得る。
様々な実施例では、cfDNAは、例えば、血液または血漿試料中の非被包性DNAを含み、ctDNAおよび/またはcfDNAを含むことができ、cfDNAは、例えば、120~180bp長など、200塩基対(bp)未満の長さであり得る。cfDNA断片末端を参照ゲノムにマッピングすることによって生成されるcfDNA断片化パターンは、リード深度が増加した領域(例えば、断片パイルアップ)を含み得る。リード深度が増加したこれらの領域は、ヌクレオソームDNAのサイズを反映する約120~180bpのサイズであってもよい。ヌクレオソームは、約147bpのDNAによって包まれる8個のヒストンタンパク質のコアである。クロマトソームは、ヌクレオソーム+ヒストン(例えば、ヒストンH1)、およびヌクレオソームの外側に係留された約20bpの付随したDNAを含む。cfDNAのリード深度が増加した領域は、ヌクレオソーム配置と相関し得る。したがって、本明細書に開示されるcfDNAの分析方法は、ヌクレオソームのマッピングを容易にし得る。cfDNAリードが参照ゲノムにマッピングされるときに見られる断片パイルアップは、細胞死(アポトーシス)、または肝臓および腎臓による循環cfDNAの全身クリアランスのプロセス中に、特定の領域をヌクレアーゼ消化から保護するヌクレオソーム結合を反映し得る。本明細書に開示されるcfDNAの分析方法は、例えば、MNaseによるDNAまたはクロマチンの消化、およびその後の配列決定(MNase配列決定)によって補完され得る。この方法は、ヌクレオソームヒストンが規則的な間隔で結合し、介在領域が優先的に分解されることから、MNase消化から保護されたDNAの領域を明らかにすることができ、したがって、ヌクレオソーム配置のフットプリントを反映する。
5.起源の組織アッセイ
cfDNA試料中の複数の核酸分子は、1つ以上の細胞型に由来する。様々な実施例では、アッセイを使用して、試料中の核酸配列の起源の組織を特定する。試料中の検体が由来する細胞の寄与を推論することは、生体試料中の検体情報の脱構築に有用である。様々な実施例では、調節領域の学習(LRR)、および免疫DHSシグネチャなどの方法は、生体試料中の検体の起源の細胞型および寄与する細胞型を決定する方法として有用である。様々な実施例では、V-プロット測定、FREE-C、転写開始部位上のcfDNA測定、およびcfDNA断片上のDNAメチル化レベルなどの遺伝的特徴が、機械学習方法およびモデルへの入力特徴として使用される。
一実施例では、複数の細胞型についての複数の遺伝的特徴の状態に対応する値の第1のアレイを作成してもよい。一実施例では、複数の遺伝的特徴の状態に対応する値は、参照集団について得られる。参照集団は、複数の遺伝的特徴の構成状態の指標を提供するために使用される値を提供する。
一実施例では、核酸試料の複数の核酸分子についての複数の遺伝的特徴に対応する値の第2のアレイもまた、作成され得る。第1および第2のアレイは、次いで、第3のアレイの値を作成するために使用され得る。
一実施例では、第1および第2のアレイは、マトリックスであり、マトリックス乗算およびパラメータ最適化によって、第3のアレイの値を作成するために使用される。一実施例では、第3のアレイの値は、試料の複数の核酸分子についての複数の細胞型の推定割合に対応する。試料からの核酸データを、情報の参照集団と組み合わせて使用して、試料の複数の核酸に最も適合する参照集団の混合物を推定する。この混合物を1に正規化し、試料中のそれらの参照集団の割合またはスコアを表すために使用することができる。
したがって、複数の核酸分子が由来する1つ以上の細胞型の種類および割合を決定してもよい。
第1の態様では、本開示は、複数の核酸分子を含む試料を処理する方法を提供し、
(a)複数の核酸分子を含む試料についての配列決定情報を提供することであって、配列決定情報は、複数の遺伝的特徴に関する情報を含み、複数の核酸分子は、1つ以上の細胞型に由来する、提供することと、
(b)複数の細胞型について、複数の遺伝的特徴のアスペクトに対応する第1のアレイの値を作成することであって、複数の細胞型は、1つ以上の細胞型を含む、作成することと、
(c)試料の複数の核酸分子について、複数の遺伝的特徴のアスペクトに対応する第2のアレイの値を作成することと、
(d)第1のアレイの値および第2のアレイの値を使用して、試料の複数の核酸分子について、複数の細胞型に対応する第3のアレイの値を作成することで、複数の核酸分子が由来する1つ以上の細胞型の種類および割合を決定することと、を含む。
C.WGBSを使用したメチル化のcfDNAアッセイ
1.メチル化配列決定
アッセイを使用して、全ゲノムを配列決定する(例えば、WGBSを介して)。酵素的メチル配列決定(「EMseq」)は、ゲノム内のほぼすべてのヌクレオチドのDNAメチル化を特徴付けることによって、究極的な分解能をもたらすことができる。他の標的化方法、例えば、ハイスループット配列決定、パイロ配列決定、サンガー配列決定、qPCR、またはddPCRは、メチル化分析に有用であり得る。DNAメチル化は、メチル基をDNAに付加することを指し、重要な機能的結果を伴う、最も広範に特徴付けられるエピジェネティック修飾の1つである。典型的には、DNAメチル化は、核酸配列のシトシン塩基で生じる。酵素的メチル配列決定は、3ステップの変換を使用し、分析のためにより少ない体積の試料を必要とすることから、特に有用である。
前述の態様のいずれかの一部の実施例では、DNAまたはバーコード化DNAを、DNAまたはバーコード化DNAのシトシン核酸塩基をウラシル核酸塩基に変換するのに十分な条件に供して、バイサルファイト変換を行うことを含む。一部の実施例では、バイサルファイト変換を行うことは、DNAまたはバーコード化DNAを酸化することを含む。一部の実施例では、DNAまたはバーコード化DNAを酸化することは、5-ヒドロキシメチルシトシンを、5-ホルミルシトシンまたは5-カルボキシルシトシンに酸化することを含む。一部の実施例では、バイサルファイト変換は、縮小表現(reduced representation)バイサルファイト配列決定を含む。
他の実施例では、メチル化分析に使用されるアッセイは、質量分析、メチル化特異的PCR(MSP)、縮小表現バイサルファイト配列決定(RRBS)、HELPアッセイ、GLAD-PCRアッセイ、ChIPオンチップアッセイ、制限ランドマークゲノム走査、メチル化DNA免疫沈降(MeDIP)、バイサルファイト処理DNAのパイロシーケンシング、分子切断光アッセイ、メチル感受性サザンブロッティング、高分解能溶融分析(HRMまたはHRMA、古代DNAメチル化再構築、またはメチル化感受性シングルヌクレオチドプライマー伸長アッセイ(msSNuPE)から選択される。
一実施例では、メチル化分析に使用されるアッセイは、全ゲノムバイサルファイト配列決定(WGBS)である。核酸分子またはその断片の修飾は、酵素または他の反応を使用して達成することができる。例えば、シトシンの脱アミノは、バイサルファイトの使用を通して達成することができる。バイサルファイトによる核酸分子(例えば、DNA分子)の処理は、非メチル化シトシン塩基を脱アミンし、それらをウラシル塩基に変換する。このバイサルファイト変換プロセスは、5位(5mCまたは5hmC)でメチル化またはヒドロキシメチル化されるシトシンを脱アミノしない。配列決定分析と併せて使用する場合、核酸分子またはその断片のバイサルファイト変換を伴うプロセスは、バイサルファイト配列決定(BS-seq)と称され得る。場合によっては、核酸分子は、バイサルファイト変換を受ける前に、酸化され得る。核酸分子の酸化は、5hmCを、5-ホルミルシトシンおよび5-カルボキシルシトシンに変換することができ、その両方は、ウラシルへのバイサルファイト変換に感受性である。配列決定分析と併せて使用する場合、核酸分子またはその断片をバイサルファイト配列決定に供する前の核酸分子またはその断片の酸化は、酸化バイサルファイト配列決定(oxBS-seq)と称され得る。
CpG部位におけるシトシンのメチル化は、隣接するDNAと比較して、ヌクレオソームスパニングDNAにおいて大幅に富化することができる。したがって、CpGメチル化パターンを用いて、機械学習アプローチを使用してヌクレオソーム配置を推論することもできる。小球菌ヌクレアーゼ-seq(MNase-seq)およびWGBSによってそれぞれ生成された同じcfDNA試料からのマッチしたヌクレオソーム配置および5mCデータセットを、機械学習モデルを訓練するために使用することができる。BS-seqまたはEM-seqデータセットは、メチル化変換に関わらず、機械学習方法およびモデルへの入力のための特徴を生成するために、WGSで使用される同じ方法に従って分析され得る。次いで、5mCパターンを使用して、ヌクレオソーム配置を予測することができ、疾患および癌の遺伝子発現および/または分類を推論するのに役立ち得る。別の実施例では、特徴は、メチル化状態とヌクレオソーム配置情報との組み合わせから得てもよい。
メチル化分析で使用される測定基準としては、限定されないが、M-バイアス(CpG、CHG、CHHについての塩基単位メチル化%)、変換効率(CHHについての100平均メチル化%)、低メチル化ブロック、メチル化レベル(CPG、CHH、CHG、chrM、LINE1、ALUについての全体平均メチル化)、ジヌクレオチドカバレッジ(ジヌクレオチドの正規化カバレッジ)、カバレッジの均一性((S4ラン)について1倍および10倍の平均ゲノムカバレッジでの固有CpG部位)、全体的な平均CpGカバレッジ(深度)、ならびにCpGアイランド(islands)、CGIシェルフ(shelves)、CGIショア(shores)での平均カバレッジが挙げられる。これらの測定基準は、機械学習方法およびモデルの特徴入力として使用され得る。
一態様では、本開示は、方法を提供し、(a)対象からのデオキシリボ核酸(DNA)を含む生体試料を提供することと、(b)DNAを、DNAの非メチル化シトシン核酸塩基をウラシル核酸塩基に変換するのに十分な条件に供することであって、その条件は、少なくとも部分的にDNAを分解する、供することと、(c)DNAを配列決定することで、配列リードを生成することと、(d)配列リードをコンピュータ処理して、(i)ウラシル核酸塩基の存在に基づいて、DNAのメチル化の程度を決定すること、および(ii)少なくとも部分的なDNAの分解をモデル化することで、分解パラメータを生成することと、(e)分解パラメータおよびメチル化の程度を使用して、遺伝子配列の特徴を決定することと、を含む。
別の態様では、本開示は、方法を提供し、(a)対象からのデオキシリボ核酸(DNA)を含む生体試料を提供することと、(b)DNAを、試料中のメチル化DNAの任意選択的な濃縮に十分な条件に供することと、(c)DNAの非メチル化シトシン核酸塩基をウラシル核酸塩基に変換することと、(d)DNAを配列決定することで、配列リードを生成することと、(e)配列リードをコンピュータ処理して、(i)ウラシル核酸塩基の存在に基づいて、DNAのメチル化の程度を決定すること、および(ii)少なくとも部分的なDNAの分解をモデル化することで、分解パラメータを生成することと、(f)分解パラメータおよびメチル化の程度を使用して、遺伝子配列の特徴を決定することと、を含む。
一部の実施例では、(d)は、変換シトシン核酸塩基に対する未変換シトシン核酸塩基の比率に基づいて、DNAのメチル化の程度を決定することを含む。一部の実施例では、変換シトシン核酸塩基は、ウラシル核酸塩基として検出される。一部の実施例では、ウラシル核酸塩基は、配列リードでチミン核酸塩基として観察される。
一部の実施例では、分解パラメータを生成することは、ベイズモデルを使用することを含む。
一部の実施例では、ベイズモデルは、鎖バイアスまたはバイサルファイト変換または過剰変換に基づく。一部の実施例では、(e)は、対応のあるHMMまたはナイーブベイズモデルのフレームワーク下で、分解パラメータを使用することを含む。
特定の実施例では、本明細書に記載の分類器に通知する際に使用するために、特定の遺伝子マーカーのメチル化をアッセイする。様々な実施例では、APC、IGF2、MGMT、RASSF1A、SEPT9、NDRG4、およびBMP3などのプロモータ、またはそれらの組み合わせ、のメチル化がアッセイされる。様々な実施例では、これらのマーカーのうちの2、3、4、または5個のメチル化をアッセイする。
2.メチル化可変領域(DMR)
一実施例では、メチル化分析は、可変メチル化領域(DMR)分析である。DMRを使用して、ゲノムの領域にわたるCpGメチル化を定量する。領域は、発見によって動的に割り当てられる。異なるクラスからのいくつかの試料を分析することができ、異なる分類間で、最も可変的にメチル化されている領域を特定することができる。サブセットは、可変的にメチル化され、分類のために使用されるように選択され得る。領域で捕捉されたCpGの数が、分析のために使用され得る。領域は、可変サイズである傾向があり得る。一実施例では、いくつかのCpG部位を一緒に領域として束ねる、発見前プロセスが行われる。一実施例では、DMRは、機械学習方法およびモデルの入力特徴として使用される。
3.ハプロタイプブロック
一実施例では、ハプロタイプブロックアッセイを試料に適用する。メチル化ハプロタイプブロックの特定は、異種組織試料のデコンボリューションおよび血漿DNAからの起源の腫瘍組織のマッピングを補助する。WGBSデータにおいて、メチル化ハプロタイプブロック(MHB)として知られる、緊密にカップリングされたCpG部位を特定することができる。メチル化ハプロタイプ負荷(MHL)と呼ばれる測定基準は、ブロックレベルで組織特異的メチル化分析を行うために使用される。この方法は、不均一な試料のデコンボリューションに有用な情報ブロックを提供する。この方法は、循環cf DNAにおける腫瘍負荷および起源の組織マッピングの定量的推定に有用である。一実施例では、ハプロタイプブロックは、機械学習方法およびモデルの入力特徴として使用される。
D.cfRNAアッセイ
様々な実施例では、cfRNAのアッセイは、RNA配列決定、全トランスクリプトームショットガン配列決定、ノーザンブロット、インサイチュハイブリダイゼーション、ハイブリダイゼーションアレイ、遺伝子発現の連鎖解析(SAGE)、逆転写PCR、リアルタイムPCR、リアルタイム逆転写PCR、定量PCR、デジタルドロップレットPCR、またはマイクロアレイ、Nanostring、FISHアッセイ、あるいはそれらの組み合わせ、などの方法を使用して達成され得る。
小分子cfRNA(onc-RNAおよびmiRNAを含む)を検体として使用する場合、測定値は、これらのcfRNAの存在量に関連する。それらの転写物は、特定のサイズであり、各転写物が保管され、それぞれについて見出されたcfRNAの数をカウントすることができる。RNA配列は、例えば、ヒトのトランスクリプトーム内の既知のcfRNAに対応する配列のセットなどの、参照cfRNAデータベースに整列させることができる。見出された各cfRNAは、それら自身の特徴として使用することができ、すべての試料にわたって見出された複数のcfRNAは、特徴セットになり得る。一実施例では、注釈付きcfRNAゲノム領域に整列したRNA断片をカウントし、配列決定の深度について正規化して、生体試料の多次元ベクトルを生成する。
様々な実施例では、すべての測定可能なcfRNA(cfRNA)が、特徴として使用される。いくつかの試料は、そのcfRNAについて発現が検出されない0の特徴量を有する。
一実施例では、すべての試料が採取され、リード値が一緒に集約される。試料中に見出される各マイクロRNAについて、多数の集約リードが見出され得る。高い発現ランクを有するマイクロRNAは、より大きな絶対変化で信頼性のより高いシグナルが得られるため、より良いマーカーを提供し得ることに留意されたい。
一実施例では、nCounter Analysis System(登録商標)(nanoString,South Lake Union,WA)から分子「バーコード」および顕微鏡イメージングなどの直接検出方法を用いて、cfRNAを、試料中に検出して、1つのハイブリダイゼーション反応で、最大数百個の固有の転写産物を検出およびカウントすることができる。
様々な実施例では、mRNAレベルのアッセイは、生体試料を、1つ以上の配列のmRNAと特異的にハイブリダイズさせることで、プローブ-標的ハイブリダイゼーション複合体を形成すること可能なポリヌクレオチドプローブと接触させることを含む。ハイブリダイゼーションベースのRNAアッセイには、限定されないが、ノーザンブロットまたはインサイチュハイブリダイゼーションなどの従来の「直接プローブ」方法が含まれる。これらの方法は、限定されないが、基質(例えば、膜またはガラス)結合方法、またはアレイベースのアプローチを含む、多種多様な形式で使用することができる。典型的なインサイチュハイブリダイゼーションアッセイでは、細胞は、固体支持体、典型的には、ガラススライドに固定される。核酸が探索される場合、細胞は、典型的には、熱またはアルカリで変性される。次いで、細胞を適度の温度でハイブリダイゼーション溶液と接触させて、タンパク質をコードする核酸配列に特異的な標識プローブのアニーリングを可能にする。次いで、標的(例えば、細胞)は、典型的には、適切なシグナル対ノイズ比が得られるまで、所定のストリンジェンシーまたは増加するストリンジェンシーで、洗浄する。プローブは、典型的には、例えば、放射性同位体または蛍光レポーターで標識される。好ましいプローブは、ストリンジェント条件下で、標的核酸(複数可)と特異的にハイブリダイズするように十分な長さである。一実施例では、そのサイズ範囲は、約200塩基~約1000塩基である。低分子RNAの別の例では、より短いプローブを、約20塩基~約200塩基のサイズ範囲で使用する。本発明の方法との使用に好適なハイブリダイゼーションのプロトコルとしては、例えば、Albertson(1984)EMBO J.3:1227-1234、Pinkel(1988) Proc.Natl.Acad.Sci.USA 85:9138-9142;EPO Pub.No.430,402;Methods in Molecular Biology,Vol.33:In situ Hybridization Protocols,Choo,ed.,Humana Press,Totowa,N.J.(1994)、Pinkel,et al.(1998) Nature Genetics 20:207-211、および/またはKallioniemi(1992) Proc.Natl Acad Sci USA 89:5321-5325(1992)を参照されたい。一部の用途では、反復配列のハイブリダイゼーション能をブロックする必要がある。したがって、一部の実施例では、tRNA、ヒトゲノムDNA、またはCot、I DNAを使用して、非特異的なハイブリダイゼーションをブロックする。
様々な実施例では、mRNAレベルをアッセイすることは、生体試料を、単一のエクソン遺伝子(SEG)のmRNAに特異的にハイブリダイズ可能なポリヌクレオチドプライマーと接触させ、プライマーテンプレートハイブリダイゼーション複合体を形成し、PCR反応を行うこと、を含む。一部の実施例では、ポリヌクレオチドプライマーは、表1に列挙されるSEGの配列と同一である(フォワードプライマーの場合)、または相補的である(リバースプライマーの場合)約15~45、20~40、または25~35bp配列を含む。非限定的な例として、STMN1のポリヌクレオチドプライマー(例えば、NM_203401、Homo sapiensスタスミン1(STMN1)、転写バリアント1、mRNA、1730bp)は、STMN1の1~20、5~25、10~30、15~35、20~40、25~45、30~50(bp)など、同様に、STMNの終わりまでの1690~1710、1695~1715、1700~1720、1705~1725、1710~1730(bp)など、と同一である配列(フォワードプライマーの場合)、または相補的である配列(リバースプライマーの場合)を含むことができる。紙面の都合上、本明細書に網羅的に列挙していないが、表1に列挙されるSTMN1および他のSEGのこれらのポリヌクレオチドプライマーの全ては、本開示のシステムおよび方法において、使用することができる。様々な実施例では、ポリヌクレオチドプライマーは、放射性同位体または蛍光分子で標識される。標識プライマーが放射または蛍光シグナルを発するため、標識プライマーを含有するPCR生成物は、検出され、様々な撮像機器で分析され得る。
「定量的」増幅の方法は、様々な好適な方法である。例えば、定量PCRは、同じプライマーを使用して、既知量の対照配列を同時に共増幅することを伴う。これは、内部標準を提供し、PCR反応を較正するために使用され得る。定量PCRのための詳細なプロトコルは、Innis,et al.(1990)PCR Protocols,A Guide to Methods and Applications,Academic Press,Inc.N.Y.)に提供されている。定量PCRアンライシスを使用したマイクロサテライト遺伝子座におけるDNAコピー数の測定は、Ginzonger,et al.(2000)Cancer Research 60:5405-5409に記載されている。遺伝子の既知の核酸配列によって、プライマーをルーチン的に選択して、遺伝子の任意の部分を増幅することが十分可能になる。蛍光発生的な定量PCRもまた、本発明の方法において使用され得る。蛍光発生的な定量PCRにおいて、定量は、蛍光シグナル、例えば、TaqManおよびSYBR greenの量に基づいている。他の好適な増幅方法としては、限定されないが、リガーゼ連鎖反応(LCR)を含む(Wu and Wallace(1989)Genomics 4:560,Landegren,et al.(1988)Science 241:1077、およびBarringer et al.(1990)Gene 89:117を参照のこと)、転写増幅(Kwoh,et al.(1989)Proc.Natl.Acad.Sci.USA 86:1173)、自己持続配列複製(Guatelli,et al.(1990)Proc.Nat.Acad.Sci.USA 87:1874)、ドットPCR、およびリンカーアダプターPCRなどが含まれる。
様々な実施例では、癌に関連するRNAマーカーは、miR-125b-5p、miR-155、miR-200、miR21-5pm、miR-210、miR-221、miR-222、またはそれらの組み合わせから選択される。
E.ポリアミノ酸および自己抗体アッセイ
1.タンパク質およびペプチド
様々な実施例において、タンパク質は、イムノアッセイまたは質量分析を使用して、アッセイされる。例えば、タンパク質は、液体クロマトグラフィー-タンデム質量分析(LC-MS/MS)によって測定することができる。
様々な実施例では、タンパク質は、タンパク質アレイ、SIMOA(抗体;Quanterix)、ELISA(Abcam)、O-リンク(DNA複合化抗体;O-link Proteomics)、またはSOMASCAN(アプタマー;SomaLogic)、LuminexおよびMeso Scale Discoveryなどの親和性試薬または免疫測定によって測定される。
一実施例では、タンパク質データは、標準曲線によって正規化される。様々な実施例では、各タンパク質は、本質的に独自のイムノアッセイとして処理され、それぞれ標準曲線を有し、様々な方法で計算することができる。濃度の関係は、典型的には、非線形である。次いで、試料を実行し、一次試料中の予想される蛍光濃度に基づいて計算してもよい。
いくつかの癌関連ペプチドおよびタンパク質配列は、既知であり、様々な実施例では、本明細書に記載のシステムおよび方法において有用である。
一実施例では、アッセイは、少なくとも2、3、4、5、6個またはそれ以上のマーカーを検出する組み合わせを含む。
様々な実施例において、癌関連ペプチドまたはタンパク質マーカーは、癌胎児性抗原(例えば、CEA、AFP)、糖タンパク質抗原または炭水化物抗原(例えば、CA125、CA19.9、CA15-3)、酵素(例えば、PSA、ALP、NSE)、ホルモン受容体(ER、PR)、ホルモン(b-hCG、カルシトニン)、または他の既知の生体分子(VMA、5HIAA)から選択される。
様々な実施例では、癌関連ペプチドまたはタンパク質マーカーは、1p/19q欠失、HIAA、ACTH、AE1、3、ALK(D5F3)、AFP、APC、ATRX、BOB-1、BCL-6、BCR-ABL1、β-hCG、BF-1、BTAA、BRAF、GCDFP-15、BRCA1、BRCA2、b72.3、c-MET、カルシトニン、CALR、カルレチニン、CA125、CA27.29、CA19-9、CEA M、CEA P、CEA、CBFB-MYH11、CALA、c-Kit、syndical-1、CD14、CD15、CD19、CD2、CD20、CD200、CD23、CD3、CD30、CD33、CD4、CD45、CD5、CD56、CD57、CD68、CD7、CD79A、CD8、CDK4、CDK2、クロモグラニンA、クレアチンキナーゼアイソザイム、Cox-2、CXCL13、cyclinD、CK19、CYFRA21-1、CK20、CK5、6、CK7、CAM5.2、DCC、デス-γ-カルボキシプロトロンビン、E-カドヘリン、EGFR T790M、EML4-ALK、ERBB2、ER、ESR1、FAP、ガストリン、グルカゴン、HER-2/neu、SDHB、SDHC、SDHD、HMB45、HNPCC、HVA、β-hCG、HE4、FBXW7、IDH1 R132H、IGH-CCND1、IGHV、IMP3、LOH、MUM1/IRF4、JAKエクソン12、JAK2 V617F、Ki-67、KRAS、MCC、MDM2、MGMT、メランA、MET、メタネフリン、MSI、MPLコドン515、Muc-1、Muckiest-4、MEN2、MYC、MYCN、MPO、myf4、ミオグロビン、ミオシン、ナプシンA、ニューロフィラメント、NSE P、NMP22、NPM1、NRAS、Oct2、p16、p21、p53、膵臓ポリペプチド、PTH、Pax-5、PAX8、PCA3、PD-L1 28-8、PIK3CA、PTEN、ERCC-1、エズリン、STK11、PLAP、PML/RARa転座、PR、プロインスリン、プロラクチン、PSA、PAP、PGP、RAS、ROS1、S-100、S100A2、S100B、SDHB、セロトニン、SAMD4、MESOMARK、扁平上皮癌抗原、SS18 SYT 18q11、シナプトフィシン、TIA-1、TdT、サイログロブリン、TNIK、TP53、TTF-1、TNF-α、TRAFF2、urovysion、VEGF、またはこれらの組み合わせ、から選択される。
一実施例では、癌は、大腸癌であり、CRC関連マーカーは、APC、BRAF、DPYD、ERBB2、KRAS、NRAS、RET、TP53、UGT1A1、およびこれらの組み合わせ、から選択される。
一実施例では、癌は、肺癌であり、肺癌関連マーカーは、ALK、BRAF、EGFR、ERBB2、KRAS、MET、NRAS、RET、ROS1、TP53、およびこれらの組み合わせ、から選択される。一実施例では、癌は、乳癌であり、乳癌関連マーカーは、BRCA1、BRCA2、ERBB2、TP53、およびそれらの組み合わせ、から選択される。一実施例では、癌は、胃癌であり、胃癌関連マーカーは、APC、ERBB2、KRAS、ROS1、TP53、およびこれらの組み合わせ、から選択される。一実施例では、癌は、神経膠腫であり、神経膠腫関連マーカーは、APCAPC、BRAF、BRCA2、EGFR、ERBB2、ROS1、TP53、およびこれらの組み合わせ、から選択される。一実施例では、癌は、黒色腫であり、黒色腫関連マーカーは、BRAF、KIT、NRAS、およびそれらの組み合わせ、から選択される。一実施例では、癌は卵巣癌であり、卵巣癌関連マーカーは、BRAF、BRCA1、BRCA2、ERBB2、KRAS、TP53、およびこれらの組み合わせ、から選択される。一実施例では、癌は、甲状腺癌であり、甲状腺癌関連マーカーは、BRAF、KRAS、NRAS、RET、およびこれらの組み合わせ、から選択される。一実施例では、癌は、膵臓癌であり、膵臓癌関連マーカーは、APC、BRCA1、BRCA2、KRAS、TP53、およびこれらの組み合わせ、から選択される。
2.自己抗体
別の実施例では、抗体(例えば、自己抗体)は、試料中で検出され、初期腫瘍形成のマーカーである。自己抗体は、腫瘍形成の初期に生成され、臨床症状が発症する数ヶ月または数年前から検出される可能性が実証されている。一実施例では、血漿試料は、ミニAPSアレイ(ITSI-Biosciences,Johnstown,PA,USA)を用いて、Somiari RIら(Somiari RI,et al.,A low-density antigen array for detection of disease-associated autoantibodies in human plasma.Cancer Genom Proteom 13:13-19,2016)に記載されたプロトコルを使用して、スクリーニングされる。自己抗体マーカーは、機械学習方法またはモデルにおける入力特徴として使用され得る。
自己抗体を検出するためのアッセイとしては、ELISAまたはPEAなどの免疫吸着アッセイが挙げられる。自己抗体、好ましくはマーカータンパク質、または少なくともその断片を含有するエピトープを検出する場合、固体支持体、例えば、マイクロタイターウェルに結合する。試料の自己抗体は、この抗原または断片に結合する。結合した自己抗体は、検出可能な標識、例えば、蛍光標識を有する二次抗体によって、検出することができる。次いで、標識を使用して、自己抗体への結合に依存するシグナルを生成する。二次抗体は、患者がヒトであれば、抗ヒト抗体であってもよく、または分析される患者試料に応じて、任意の他の生物を対象としてもよい。キットは、固体支持体などのかかるアッセイのための手段を含んでもよく、好ましくは二次抗体も含んでもよい。好ましくは、二次抗体は、患者の(自己)抗体のFc部分に結合する。また、緩衝液および洗浄液またはすすぎ溶液の追加も可能である。固体支持体は、非特異的結合を回避するために、ブロッキング化合物でコーティングされ得る。
一実施例では、自己抗体は、タンパク質マイクロアレイ、または他のイムノアッセイでアッセイされる。
入力特徴として使用され得る自己抗体アッセイのための測定基準としては、限定されないが、すべての自己抗体についての調整済み分位正規化z-スコア、バイナリ0/1、または特定のz-スコアのカットオフに基づいた各自己抗体についての不在/存在、が挙げられる。
様々な実施例では、自己抗体マーカーは、異なるサブタイプまたは癌のステージと関連している。様々な実施例では、自己抗体マーカーは、高い親和性で腫瘍関連抗原と結合することを対象としているか、またはその能力がある。様々な実施例では、腫瘍関連抗原は、癌胎児性抗原/未成熟ラミニン受容体タンパク質(OFA/iLRP)、αフェトプロテイン(AFP)、癌胎児性抗原(CEA)、CA-125、MUC-1、上皮腫瘍抗原(ETA)、チロシナーゼ、黒色腫関連抗原(MAGE)、rasの異常生成物、p53の異常生成物、rasの野生型、p53の野生型、またはそれらの断片、から選択される。
一実施例では、ZNF700は、大腸癌における自己抗体の検出のための捕捉抗原であることが示された。他の亜鉛フィンガータンパク質を有するパネルでは、ZNF特異的自己抗体の検出は、大腸癌の検出を可能にした(O’Reilly et al.,2015)。一実施例では、抗p53抗体は、かかる抗体が癌の臨床診断の数ヶ月~数年前に発症し得るため、アッセイされる。
F.炭水化物
生体試料中の炭水化物を測定するためのアッセイが存在する。炭水化物を分離および特定するために、薄層クロマトグラフィー(TLC)、ガスクロマトグラフィー(GC)および高性能液体クロマトグラフィー(HPLC)を使用することができる。炭水化物の濃度は、重量測定法(マンソン法およびウォーカー法)、分光光度測定法、または滴定法(例えば、レイン-エイノン法)によって判定され得る。また、炭水化物を分析する熱量測定法(アントロン法、フェノール-硫酸法)もある。炭水化物を特徴付ける他の物理的方法は、旋光分析、屈折率、IR、および密度を含む。一実施例では、炭水化物アッセイからの測定基準は、機械学習方法およびモデルの入力特徴として使用される。
III.例示的なシステム
一部の実施例では、本開示は、測定デバイス(例えば、シーケンシングマシンなどの実験機器)で実現されるデータ分析、コンピューティングハードウェア上で実行するソフトウェアコードを含み得るシステム、方法、またはキットを提供する。ソフトウェアは、メモリに記憶され、1つ以上のハードウェアプロセッサ上で実行され得る。ソフトウェアは、互いに通信することができるルーチンまたはパッケージに編成することができる。モジュールは、1つ以上のデバイス/コンピュータ、および1つ以上のデバイス/コンピュータ上で実行する1つ以上のソフトウェアルーチン/パッケージを含むことができる。例えば、分析アプリケーションまたはシステムは、少なくともデータ受信モジュール、データ前処理モジュール、データ分析モジュール(1つ以上のタイプのゲノムデータ上で動作し得る)、データ解釈モジュール、またはデータ可視化モジュールを含むことができる。
データ受信モジュールは、実験室のハードウェアまたは装置を、実験室のデータを処理するコンピュータシステムと、接続することができる。データ前処理モジュールは、分析の準備において、データに対して動作を行うことができる。前処理モジュールにおいて、データに適用され得る動作の例としては、アフィン変換、ノイズ除去動作、データクリーニング、リフォーマット、またはサブサンプリングが挙げられる。1つ以上のゲノム材料からのゲノムデータを分析するために特化することができるデータ分析モジュールは、例えば、構築されたゲノム配列を用い、疾患、病理学、状態、リスク、条件、または表現型に関連する異常パターンを特定するために確率的および統計的分析を行うことができる。データ解釈モジュールは、例えば、統計学、数学、または生物学から導かれた分析方法を使用して、特定された異常パターンと健康状態、機能状態、予後、またはリスクとの間の関係の理解を支援することができる。データ分析モジュールおよび/またはデータ解釈モジュールは、例えば、機械学習モデルを具体化するソフトウェアを実行するハードウェアで実装することができる、1つ以上の機械学習モデルを含むことができる。データ視覚化モジュールは、数学的モデリング、コンピュータグラフィックス、またはレンダリングの方法を使用して、結果の理解または解釈を容易にすることができるデータの視覚的表現を生成することができる。本開示は、本開示の方法を実装するようにプログラムされた、コンピュータシステムを提供する。
一部の実施例では、本明細書に開示される方法は、個体または複数の個体由来の試料の核酸配列決定データに関する計算分析を含むことができる。分析は、配列データから推測されるバリアントを特定して、確率的モデリング、統計的モデリング、機械的モデリング、ネットワークモデリング、または統計的推論に基づいて、配列バリアントを特定することができる。分析方法の非限定的な例としては、主成分分析、オートエンコーダ、特異値分解、フーリエ基底、ウェーブレット、判別分析、回帰、サポートベクトルマシン、木ベースの方法、ネットワーク、マトリックス分解、およびクラスタリングが挙げられる。バリアントの非限定的な例としては、生殖系列多型または体細胞変異が挙げられる。一部の実施例では、バリアントは、既知のバリアントを指し得る。既知のバリアントは、科学的に確認され、または文献に報告され得る。一部の実施例では、バリアントは、生物学的変化に関連する推定バリアントを指し得る。生物学的変化は、既知であっても未知であってもよい。一部の実施例では、推定バリアントは、文献で報告され得るが、生物学的にはまだ確認されていない。あるいは、推定バリアントは、文献には未だ報告されていないが、本明細書に開示される計算分析に基づいて推測することができる。一部の実施例では、生殖系列系バリアントは、天然または正常な多型を誘導する核酸を指すことができる。
天然または正常な多型は、例えば、皮膚の色、髪の色、および正常体重を含むことができる。一部の実施例では、体細胞変異は、後天性または異常な多型を誘導する核酸を指し得る。後天性または異常な多型は、例えば、癌、肥満、状態、症状、疾患、および障害を含むことができる。一部の実施例では、分析は、生殖系列バリアントを識別することを含み得る。生殖系列バリアントは、例えば、プライベートバリアントおよび体細胞変異体を含み得る。一部の実施例では、特定されたバリアントは、ヘルスケア方法論、診断の正確性、およびコスト削減を改善するために、臨床医または他の医療専門家によって使用され得る。
図1は、本明細書に記載の方法を行うようにプログラムされるか、または他の方法で構成される、システム100を示す。様々な実施例として、システム100は、試料を処理および/またはアッセイし、配列決定分析を行い、分子のクラスを表す値のセットを測定し、アッセイデータから特徴および特徴ベクトルのセットを特定し、出力分類を得るために機械学習モデルを使用して特徴ベクトルを処理し、機械学習モデルを訓練することができる(例えば、機械学習モデルのパラメータの最適値を反復的に検索する)。システム100は、コンピュータシステム101と、様々な検体を測定することができる1つ以上の測定デバイス151、152、または153とを含む。示されるように、測定デバイス151~153は、それぞれの検体1~3を測定する。
コンピュータシステム101は、本開示の試料処理およびアッセイの様々なアスペクトを調節することができ、例えば、バルブまたはポンプの活性化により、試薬または試料を1つのチャンバから別のチャンバに移すか、または試料に熱を適用すること(例えば、増幅反応中)、試料の処理および/またはアッセイの他のアスペクト、配列決定分析の実施、分子のクラスを表す値のセットの測定、アッセイデータから特徴および特徴ベクトルのセットの特定、出力分類を得るために機械学習モデルを使用して特徴ベクトルを処理すること、ならびに機械学習モデルを訓練すること(例えば、機械学習モデルのパラメータの最適値を反復的に検索すること)。コンピュータシステム101は、ユーザの電子デバイス、または電子デバイスに対して遠隔に位置するコンピュータシステムであり得る。
コンピュータシステム101には、シングルコアもしくはマルチコアのプロセッサ、または並列処理のための複数のプロセッサであり得る中央処理ユニット(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも)105、メモリ110(例えば、キャッシュ、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ、または他のメモリ)、電子記憶ユニット115(例えば、ハードディスク)、1つ以上の他のシステムと通信するための通信インターフェース120(例えば、ネットワークアダプタ)、ならびにキャッシュ、他のメモリ、データ記憶および/または電子ディスプレイのためのアダプターなどの周辺デバイス125、が含まれる。メモリ110、記憶ユニット115、インターフェース120、および周辺デバイス125は、マザーボードなどの通信バス(実線)を介してCPU105と通信してもよい。記憶ユニット115は、データを記憶するためのデータ記憶ユニット(またはデータリポジトリ)であってもよい。1つ以上の検体特徴の入力は、1つ以上の測定デバイス151、152、または153から入力され得る。例示的な検体および測定デバイスが、本明細書に記載される。
コンピュータシステム101は、通信インターフェース120を用いて、コンピュータネットワーク(「ネットワーク」)130に動作可能に結合することができる。ネットワーク130は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであり得る。ネットワーク130は、場合によっては、電気通信および/またはデータネットワークである。ネットワーク130は、1つ以上のコンピュータサーバを含み得、ネットワーク130(「クラウド」)を介したクラウドコンピューティングなどの分散型コンピューティングを可能にして、本開示の、分析、計算、および生成の様々な態様、例えば、バルブまたはポンプを活性化して、試薬または試料を1つのチャンバから別のチャンバに移すこと、または試料に熱を適用すること(例えば、増幅反応中)、試料の処理および/またはアッセイの他の態様、配列決定分析を実施すること、分子のクラスを表す値のセットを測定すること、アッセイデータから特徴および特徴ベクトルのセットを特定すること、出力分類を得るために機械学習モデルを使用する特徴ベクトルを処理すること、ならびに機械学習モデルを訓練すること(例えば、機械学習モデルのパラメータの最適値を反復的に検索する)、を行うことができる。そのようなクラウドコンピューティングは、例えば、Amazon Web Services(AWS)、Microsoft Azure、Googleクラウドプラットフォーム、およびIBMクラウドなどのクラウドコンピューティングプラットフォームによって提供され得る。ネットワーク130は、場合によっては、コンピュータシステム101を用いて、ピアツーピアネットワークを実装することができ、コンピュータシステム101に結合されたデバイスが、クライアントまたはサーバとして振る舞うことを可能にし得る。
CPU105は、プログラムまたはソフトウェアに具現化され得る、一連の機械可読命令を実行することができる。命令は、メモリ110などのメモリ位置に記憶され得る。命令は、その後、本開示の方法を実装するためにCPU105をプログラムする、またはそれ以外の方法で構成することができるCPU105に向けられ得る。CPU105は、集積回路などの回路の一部であり得る。システム101の1つ以上の他の構成要素が、回路に含まれてもよい。場合によっては、回路は、特定用途向け集積回路(ASIC)である。
記憶ユニット115は、ドライバ、ライブラリ、および保存されたプログラムなどの、ファイルを記憶することができる。記憶ユニット115は、ユーザデータ、例えば、ユーザプリファレンスおよびユーザプログラムを記憶することができる。コンピュータシステム101は、場合によっては、イントラネットまたはインターネットを介してコンピュータシステム101と通信するリモートサーバ上に位置するものなど、コンピュータシステム101の外部にある1つ以上の追加のデータ記憶ユニットを含むことができる。
コンピュータシステム101は、ネットワーク130を通して1つ以上のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム101は、ユーザのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ(例えば、ポータブルPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android対応デバイス、Blackberry(登録商標))、またはパーソナルデジタルアシスタントが挙げられる。ユーザは、ネットワーク130を介して、コンピュータシステム101にアクセスすることができる。
本明細書に記載される方法は、例えば、メモリ110または電子記憶ユニット115上など、コンピュータシステム101の電子記憶位置に記憶される機械(例えば、コンピュータプロセッサ)実行可能コードによって実装することができる。機械実行可能コードまたはマシン可読コードは、ソフトウェアの形態で提供され得る。使用中は、CPU105によってコードを実行することができる。場合によっては、コードは、記憶ユニット115から取得し、CPU105による即時アクセスのために、メモリ110に記憶することができる。状況によっては、電子記憶ユニット115は排除され得、機械実行可能命令は、メモリ110上に記憶される。
コードは、コードを実行するように適合されたプロセッサを有する機械とともに使用するために事前にコンパイルされ、構成され得るか、またはランタイム中にコンパイルされ得る。コードは、事前にコンパイルされた、またはそのままコンパイルされた様式でコードを実行することを可能にするように選択することができるプログラミング言語で提供することができる。
コンピュータシステム101などの本明細書に提供されるシステムおよび方法の態様は、プログラミングにおいて具現化され得る。技術の様々な態様は、典型的には、機械(またはプロセッサ)実行可能コードおよび/または機械可読媒体の種類に担持されるか、またはその種類に具現化される関連データの形態で「製品」または「製造物」と考えることができる。機械実行可能コードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの、電子記憶ユニットに記憶することができる。「記憶」型媒体は、コンピュータ、プロセッサなどの有形メモリのいずれかもしくはすべて、またはその関連モジュール、例えば、ソフトウェアプログラミングのためにいつでも非一過性記憶装置を提供し得る様々な半導体メモリ、テープドライブ、ディスクドライブなどを含むことができる。ソフトウェアのすべてまたは一部は、時々、インターネットまたは様々な他の電気通信ネットワークを通して通信され得る。そのような通信は、例えば、あるコンピュータまたはプロセッサから別のコンピュータ、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を担持することができる別のタイプの媒体は、ローカルデバイス間の物理インターフェースにわたって、有線固定電話ネットワークおよび光学固定電話ネットワークを通じて、ならびに様々な空気リンクを通して使用されるなどの光学、電気、および電磁波を含む。有線または無線リンク、光学リンクなどのそのような波を運ぶ物理的要素は、ソフトウェアを担持するメディアとも見なされ得る。本明細書で使用される場合、非一過性有形「記憶」媒体に限定されない限り、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
したがって、コンピュータ実行可能コードなどの機械可読媒体は、限定されないが、有形記憶媒体、搬送波媒体、または物理伝送媒体を含む多くの形態をとり得る。不揮発性記憶媒体は、例えば、図面に示されるデータベースなどを実装するために使用することができるような、任意のコンピュータ(複数可)内の記憶デバイスのいずれかなどの光ディスクまたは磁気ディスクを含む。揮発性記憶媒体は、かかるコンピュータプラットフォームのメインメモリなどのダイナミックメモリを含む。有形伝送媒体は、同軸ケーブル、銅線、およびコンピュータシステム内のバスを含む線を含む光ファイバーを含む。
搬送波伝送媒体は、電気もしくは電磁シグナル、または無線周波数(RF)および赤外線(IR)データ通信中に生成されるものなどの音波もしくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカードペーパーテープ、穴のパターンを有する任意の他の物理記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を伝送する搬送波、そのような搬送波を伝送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータ、を読み取ることができる任意の他の媒体、を含む。これらの形態のコンピュータ可読媒体の多くは、実行のための1つ以上の命令の1つ以上の配列をプロセッサに運ぶことに関与し得る。
コンピュータシステム101は、例えば、試料の処理またはアッセイの現在の段階(例えば、溶解ステップ、または行われている配列決定ステップなどの特定のステップ)を提供するためのユーザインターフェース(UI)140を含む電子ディスプレイ135を含むか、またはそれと通信することができる。入力は、1つ以上の測定デバイス151、152または153からコンピュータシステムによって受信される。UIの例としては、限定されないが、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースが挙げられる。アルゴリズムは、例えば、試料を処理および/またはアッセイし、配列決定分析を行い、分子のクラスを表す値のセットを測定し、アッセイデータから特徴および特徴ベクトルのセットを特定し、出力分類を得るために機械学習モデルを使用して特徴ベクトルを処理し、機械学習モデルを訓練することができる(例えば、機械学習モデルのパラメータの最適値を反復的に検索する)。
IV.機械学習ツール
実験試験で使用されるアッセイのセットを決定するために、機械学習システムを活用して、所与のアッセイまたは複数のアッセイから生成された所与のデータセットの有効性を評価し、所与の検体上で実行して、分類の全体的な予測精度に追加することができる。このようにして、新しいアッセイを設計するために、新しい生物学的な/健康の/診断の疑問に取り組むことができる。
機械学習を使用して、すべての(一次試料/検体/試験)の組み合わせから生成された一連のデータを、例えば、指定された基準を満たす最適な予測特徴のセットに減らすことができる。様々な実施例では、統計的学習、および/または回帰分析を適用することができる。さまざまなモデリング仮定を行う単純から複雑な小型から大型のモデルは、交差検証パラダイムでデータに適用することができる。単純から複雑には、線形性から非線形性への考慮、および特徴の非階層性から階層性への表現の考慮が含まれる。小型から大型のモデルでは、データを投影するための基底ベクトル空間のサイズ、ならびにモデリングプロセスに含まれる特徴間の相互作用の数の考慮が含まれる。
機械学習技術は、最初の疑問で定義されているように、コスト/性能/商業的範囲に最適な商業的試験モダリティを評価するために使用することができる。閾値チェックを行うことができる。交差検証で使用されなかったホールドアウトデータセットに適用された方法が、初期化された制約を上回る場合、アッセイはロックされ、運用が開始される。例えば、アッセイ性能の閾値は、所望の最小精度、陽性適中率(PPV)、陰性適中率(NPV)、臨床感度、臨床特異度、曲線下面積(AUC)、またはそれらの組み合わせを含み得る。例えば、所望の最小精度、PPV、NPV、臨床感度、臨床特異度、またはそれらの組み合わせは、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約81%、少なくとも約82%、少なくとも約83%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約87%、少なくとも約88%、少なくとも約89%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%、であり得る。別の例として、所望の最小AUCは、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.81、少なくとも約0.82、少なくとも約0.83、少なくとも約0.84、少なくとも約0.85、少なくとも約0.86、少なくとも約0.87、少なくとも約0.88、少なくとも約0.89、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99、であり得る。アッセイのサブセットは、所望の最小精度、陽性適中率(PPV)、陰性適中率(NPV)、臨床感度、臨床特異度、曲線下面積(AUC)、およびそれらの組み合わせなどのアッセイ性能の閾値に従ったアッセイのサブセットを実行する総コストに基づいて、所与の試料に対して行われるアッセイのセットから選択され得る。閾値が満たされない場合、アッセイエンジニアリング手順は、可能な緩和のための制約設定、またはデータが取得されたパラメータを変更するためにウェットラボのいずれかにループバックすることができる。臨床疑問を考慮すると、生物学的制約、予算、ラボマシンなどが、問題を制約する可能性がある。
様々な実施例では、機械学習技術のコンピュータ処理は、統計学、数学、生物学、またはそれらの任意の組み合わせの方法(複数可)を含むことができる。様々な実施例では、コンピュータ処理方法のいずれか1つは、次元削減法、ロジスティック回帰、次元削減、主成分分析、オートエンコーダ、特異値分解、フーリエ基底、特異値分解、ウェーブレット、判別分析、サポートベクトルマシン、木ベースの方法、ランダムフォレスト、勾配ブースト木、ロジスティック回帰、マトリックス分解、ネットワーククラスタリング、統計検定、およびニューラルネットワーク、を含むことができる。
様々な実施例では、機械学習技術のコンピュータ処理は、ロジスティック回帰、多重線形回帰(MLR)、次元削減、部分最小二乗(PLS)回帰、主成分回帰、オートエンコーダ、変分オートエンコーダ、特異値分解、フーリエ基底、ウェーブレット、判別分析、サポートベクトルマシン、決定木、分類および回帰木(CART)、木ベースの方法、ランダムフォレスト、勾配ブースト木、ロジスティック回帰、マトリックス分解、多次元スケーリング(MDS)、次元削減法、t-分布型確率的近傍埋め込み(t-SNE)、多層パーセプトロン(MLP)、ネットワーククラスタリング、ニューロファジィ、ニューラルネットワーク(浅いおよび深い)、人工ニューラルネットワーク、ピアソン積率相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数、またはそれらの任意の組み合わせ、を含むことができる。
一部の実施例では、コンピュータ処理方法は、例えば、回帰、サポートベクトルマシン、木ベースの方法、およびニューラルネットワークを含む、教師あり機械学習方法である。一部の実施例では、コンピュータ処理方法は、例えば、クラスタリング、ネットワーク、主成分分析、およびマトリックス分解を含む、教師なし機械学習方法である。
教師あり学習に関して、訓練用試料(例えば、数千個)は、測定されたデータ(例えば、様々な検体の)および既知のラベルを含み得、これらは、対象のイメージングおよび訓練された実践者による分析などの他の時間のかかるプロセスを介して決定され得る。例示的な標識は、対象の分類、例えば、対象が癌を有するか否かの別個の分類、または別個の値の確率(例えば、リスクまたはスコア)を提供する連続分類を含み得る。学習モジュールは、1つ以上の指定された基準で品質測定基準(例えば、既知のラベルに対する予測の精度)が得られるように、モデルのパラメータを最適化することができる。品質測定基準の決定は、すべてのリスク、損失、ユーティリティ、および決定機能のセットを含む任意の機能に対して実装することができる。勾配は、学習ステップ(例えば、最適化プロセスの所与の時間ステップのためにモデルのパラメータがどの程度更新されるべきかの尺度)と併せて使用することができる。
上述のように、実施例は、様々な目的のために使用することができる。例えば、血漿(または他の試料)は、症状のある対象(例えば、状態を有することが知られている)および健常な対象から収集することができる。遺伝子データ(例えば、cfDNA)は、様々な異なる特徴を得るために取得および分析することができ、ゲノムワイド分析に基づく特徴を含み得る。これらの特徴は、特徴空間を形成することができ、正確な機械学習モデルを生成するために、検索され、伸展され、回転され、平行移動され、直線的または非直線的に変換されて、健常な対象と病態を有する対象間を区別することができる(例えば、対象の疾患または非疾患の状態を特定する)。このデータおよびモデルに由来する出力(状態の確率、状態の段階(レベル)、または他の値を含み得る)を使用して、さらなる手順の推奨(例えば、生検を推奨するか、または対象の状態をモニターし続けるか)に使用可能な別のモデルを生成することができる。
V.入力特徴の選択
上述のように、特徴ベクトルを決定することができる特徴空間を提供するために、大きな特徴のセットを生成することができる。次いで、訓練用試料のセットの各々からのこの特徴ベクトルを、機械学習モデルの現在のバージョンを訓練するために使用することができる。使用される特徴の種類は、使用される検体の種類に依存し得る。
特徴の例は、構造多型(SV)に関連する変数、例えば、コピー数多型および転座、融合、変異(例えば、SNPもしくは他の単一ヌクレオチド多型(SNV)、またはわずかに大きな配列の多型)、テロメア短縮、ならびにヌクレオソーム占有率および分布、を含むことができる。これらの特徴は、ゲノム全体で計算することができる。機能の例示的なクラス(タイプ)を、以下に提供する。遺伝子配列データが、検体のうちの少なくとも1つから得られる場合、例示的な特徴は、整列された特徴(例えば、1つ以上の参照ゲノムとの比較)および整列されていない特徴を含み得る。例示的な整列された特徴の、ゲノムウィンドウ内の配列多型および配列カウントを含むことができる。整列されていない特徴の例としては、配列リードからのkmer、およびリードからの生体由来の情報が挙げられる。
一部の実施例では、特徴のうちの少なくとも1つは、遺伝子配列特徴である。例として、遺伝子配列特徴は、DNAのメチル化状態、単一ヌクレオチド多型、コピー数多型、挿入欠失、および構造バリアントから選択することができる。様々な実施例では、メチル化状態は、ヌクレオソーム占有率を決定するために、および/またはDNAもしくはバーコード化DNAのCpGアイランドにおけるメチル化密度、を決定するために使用することができる。
理想的には、特徴選択は、同じ分類を有する(例えば、特定の表現型の同じ確率または関連リスクを有する)試料内では不変であるかまたは変動が低い特徴を選択することができるが、そのような特徴は、異なる分類を有する試料のグループ間では変化する。手順を実装して、特定の集団内で最も不変であると思われる特徴を特定することができる(例えば、分類が実数である場合、分類またはリースを共有するものは同様の分類を有する)。手順はまた、集団間で異なる特徴を特定することもできる。例えば、ゲノムの様々なゲノム領域と部分的または完全に重複する配列リードのリードカウントを分析して、それらが集団内でどのように変化するかを決定することができ、そのようなリードカウントは、別個の集団(例えば、疾患もしくは障害を有することが既知の対象、または疾患もしくは障害に対して無症状である対象)のリードカウントと比較することができる。
様々な統計的測定基準を使用して、分類を予測し得る特徴を選択する目的で、集団にわたる特徴の変動を分析することができ、したがって、訓練に有利であり得る。また、さらなる例は、特徴空間の分析、および特徴ベクトルで使用される選択された特徴に基づいて、特定のタイプのモデルを選択することができる。
A.特徴ベクトルの作成
特徴ベクトルは、対応するデータが訓練用試料にわたってデータ構造内の同じ場所に現れるように、各訓練用試料について再現することができる任意のデータ構造として作成することができる。例えば、特徴ベクトルは、特定の値が各インデックスに存在するインデックスと関連付けることができる。上で説明したように、マトリックスは、特徴ベクトルの特定のインデックスに記憶することができ、マトリックスの要素は、さらなるサブインデックスを有することができる。特徴ベクトルの他の要素は、そのようなマトリックスの要約統計量から生成することができる。
別の例として、特徴ベクトルの単一の要素は、ゲノムのウィンドウのセットにわたる配列リードのセットに対応し得る。したがって、要素または特徴ベクトルは、それ自体がベクトルであり得る。そのようなリードのカウントは、すべてのリードまたは特定のグループ(クラス)のリード、例えば、特定の配列複雑性またはエントロピーを有するリードのものであり得る。配列リードのセットは、GCバイアスおよび/またはマッピング能バイアスのためなどにフィルタリングまたは正規化することができる。
一部の実施例では、特徴ベクトルの要素は、複数の特徴の連結の結果であり得る。これは、連結値が、値の集合とは対照的に、単一の値として扱うことができるという点で、要素自体が配列(例えば、ベクトルまたはマトリックス)である他の例とは異なり得る。したがって、特徴を、連結、結合、および組み合わせて、機械学習モデルのための操作された特徴または特徴表現として使用することができる。
特徴を併合するための複数の組み合わせおよびアプローチを、行うことができる。例えば、異なる尺度が同じウィンドウ(ビン)にわたってカウントされる場合、それらのビン間の比率(例えば、欠失により分割された反転)は有用な特徴であり得る。さらに、空間的に近接し、その合併が生物学的情報を伝達し得るビンの比、例えば、転写開始部位の数を遺伝子体数で割ることも有用な特徴として機能することができる。
また、特徴は、例えば、パラメータおよび潜在的なベクトルのセットが与えられたすべての特徴ベクトルの結合確率が最大化されるマルチタスク教師なし学習問題を設定することによって、操作することもできる。この確率的手順の潜在ベクトルは、生物学的配列データから表現型(または他の分類)を予測しようとする場合、優れた特徴として機能することが多い。
B.訓練に使用する重み
重みは、特徴ベクトルに追加された場合に、特徴に適用され得る。そのような重みは、特徴ベクトル内の要素、または特徴ベクトルの要素内の特定の値に基づき得る。例えば、ゲノム内のすべての領域(ウィンドウ)は、異なる重みを有することができる。一部のウィンドウは、ウィンドウが分類に寄与しないことを意味する、ゼロの重みを有し得る。他のウィンドウは、より大きな重み、例えば、0~1を有することができる。したがって、重み付けマスクは、特徴ベクトルを作成するために使用される特徴の値、例えば、集団におけるカウント、配列の複雑性、頻度、配列類似性などについて特徴に適用されるマスクの異なる値、に適用することができる。
一部の実施例では、訓練プロセスは、適用される重みを学習することができる。このようにして、訓練プロセスの前に、任意の事前知識またはデータへの生物学的洞察を、知っておく必要はない。最初に特徴に適用される重みは、モデルの第1層の一部と見なすことができる。モデルを訓練し、1つ以上の指定された基準が満たされると(例えば、所望の最小精度、陽性適中率(PPV)、陰性適中率(NPV)、臨床感度、臨床特異度、曲線下面積(AUC)、またはそれらの組み合わせ)、モデルは、新しい試料を分類するために本番運用(production run)で使用され得る。そのような本番運用では、初期重みがゼロである任意の特徴を計算する必要はない。したがって、特徴ベクトルのサイズは、訓練から運用まで縮小し得る。一部の実施例では、機械学習モデルを訓練するために、主成分分析(PCA)を使用することができる。機械学習モデルについては、様々な実施例では、各主成分が特徴であってもよく、または一緒に連結されたすべての主成分が特徴であってもよい。検体のこれらの各々に対するPCAの出力に基づいて、モデルを作成することができる。モデルは、PCA(必ずしもPCA出力ではない)の前の生の特徴に基づいて更新することができる。様々なアプローチでは、生の特徴は、データのすべてのビットを使用することができ、データの各バッチのランダムな選択を取って実行することができ、ランダムフォレストを行うことができ、または他の木もしくはランダムデータセットを作成することができる。特徴は、測定値自体であってもよいが、任意の次元削減の結果とは対照的に、両方を使用することもできる。
C.訓練反復間の特徴の選択
上述のように、訓練プロセスは、所望の基準を満たすモデルを生成しない場合がある。そのような時、特徴選択は、再度行われ得る。特徴空間は、かなり大きい場合があるため(例えば、35または100,000)、特徴ベクトルで使用する差特徴が異なる可能な置換の数は、巨大であり得る。特定の特徴(潜在的に多くの)は、同じクラス(タイプ)、例えば、ウィンドウ内のリードカウント、異なる領域からのカウントの比率、異なる部位でのバリアントなどに属し得る。さらに、特徴を単一の要素に連結することで、置換の数をさらに増加させ得る。
新しい特徴のセットは、訓練プロセスの以前の反復からの情報に基づいて、選択することができる。例えば、特徴に関連付けられた重みを分析することができる。これらの重みは、特徴を維持するか破棄するかを決定するために使用することができる。閾値を超える重みまたは平均重みに関連する特徴は、保持することができる。閾値未満の重みまたは平均重みに関連する特徴(同じまたは異なるものは保持する)は、取り除くことができる。
特徴の選択およびモデルを訓練するための特徴ベクトルの作成は、1つ以上の所望の基準、例えば、モデルに好適な品質の測定基準(例えば、所望の最小精度、陽性適中率(PPV)、陰性適中率(NPV)、臨床感度、臨床特異度、曲線下面積(AUC)、またはそれらの組み合わせ)を満たすまで繰り返すことができる。他の基準は、異なる特徴ベクトルで生成されたモデルのセットの中から最適な品質の測定基準を有するモデルを選択することであり得る。したがって、データから表現型を検出する能力において最高の統計的性能および汎化性を有するモデルを選択することができる。さらに、訓練用試料のセットは、異なる目的で、様々なモデルを訓練するために使用することができ、例えば、状態(例えば、癌を有するかまたは癌を有さない個体)、治療(例えば、治療応答を有するかまたは治療応答を有さない個体)、予後(例えば、良好な予後を有するかまたは良好な予後を有さない個体)などの分類に使用することができる。良好な癌予後は、個体が、症状の解消もしくは改善の可能性を有するか、または治療後に回復することが予想される(例えば、腫瘍が縮小しているか、または癌の再発が予想されない)ときに対応し得、本明細書で使用される場合、良好な癌予後は、侵襲性がより低いおよび/またはより治療可能な疾患形態に関連する予後を指す。例えば、侵襲性がより低く、より治療可能な癌の形態は、侵襲性がより高いおよび/または治療可能性がより低い形態よりも、高い予想生存を有する。様々な実施例では、良好な予後は、治療、寛解、または軽快した全生存に応じて、サイズが同じままか、または減少する腫瘍を指す。
同様に、予後不良(または良好な予後を有さない個体)は、本明細書で使用される場合、侵襲性がより高いおよび/または治療可能性がより低い疾患形態に関連する予後を指す。例えば、侵襲性で治療可能性がより低い形態は、侵襲性がより低いおよび/または治療可能がより低い形態よりも、低い生存を有する。様々な実施例では、予後不良は、腫瘍のサイズが同じままか、もしくは増加するか、または癌が再発するか、あるいは減少しないことを指す。
VI.多検体アッセイのための機械学習モデルの使用
図2は、一実施例による、生体試料を分析するための例示的な方法200を示す。方法200は、本明細書に記載のシステムのいずれかによって実装され得る。一実施例では、方法は、個体の集団におけるクラス識別が可能な機械学習モデルを使用する。様々な実施例では、クラス識別が可能なこのモデル(例えば、分類器)を使用して、健常集団と疾患集団との間、治療応答者と非応答者との間、および疾患のステージ間を識別し、治療決定を導くのに有用な情報を提供する。
ブロック210では、システムは、複数のクラスの分子を含む生体試料を受け取る。例示的な生体試料、例えば、血液、血漿、または尿、が本明細書に記載される。また、個別の試料も受け取ることができる。単一の試料(例えば、血液)は、複数の容器、例えば、バイアルのセットに収集されてもよい。
ブロック220において、システムは、生体試料を複数の部分に分離し、複数のクラスの分子の各々は、複数の部分のうちの1つにある。試料は、すでに、より大きな試料、例えば、血液試料から得られた血漿の画分であり得る。次いで、そのような分画から、部分を得ることができる。一部の実施例では、部分は、複数のクラスの分子を含むことができる。部分でのアッセイは、1つのクラスの分子のみを試験することができ、したがって、1つの部分中のクラスの分子は測定されなくてもよいが、異なる部分で測定され得る。例として、測定デバイス151、152および153は、試料の異なる部分に対して、それぞれのアッセイを行うことができる。コンピュータシステム101は、様々なアッセイから測定されたデータを、分析することができる。
ブロック230では、複数のアッセイの各々について、システムは、機械学習モデルに入力される特徴のセットを特定する。特徴のセットは、生体試料中の複数のクラスの分子のうちの1つの特性に対応することができる。使用する特徴のセットの定義は、コンピュータシステムのメモリに記憶することができる。特徴のセットは、例えば、本明細書に記載の機械学習技術を使用して、事前に特定することができる。特定のアッセイを使用する場合、対応する特徴のセットを、メモリから取得することができる。各アッセイは、特徴を作成するための任意の特定のソフトウェアコードとともに、対応する特徴のセットを得るために使用される識別子を有することができる。そのようなコードは、セクションが独立して更新できるようにモジュラー化することができ、使用されるアッセイおよび様々なセットの特徴の記憶された定義に基づいて特徴の最終的な集合が定義される。
ブロック240において、複数の部分の各部分について、システムは、その部分中の分子のクラスに対してアッセイを行い、生体試料中の分子のクラスの測定値のセットを得る。システムは、複数のアッセイから、生体試料について複数のセットの測定値を得ることができる。どのアッセイが指定されるかに応じて(例えば、入力ファイルまたはユーザによって指定される測定構成を介して)、特定の測定デバイスのセットを使用して、特定の測定値をコンピュータシステムに提供することができる。
ブロック250では、システムは、複数のセットの測定値から、特徴量の特徴ベクトルを形成する。各特徴量は、特徴に対応し、1つ以上の測定値を含むことができる。特徴ベクトルは、複数のセットの測定値の各々を使用して形成される、少なくとも1つの特徴量を含み得る。したがって、特徴ベクトルは、異なるクラスの分子に対するアッセイの各々から測定された値を使用して、決定することができる。特徴ベクトルの形成、および特徴ベクトルの抽出のための他の詳細は、他のセクションで説明されるが、特徴ベクトルの形成のためのすべての例に適用される。
所与の検体の特徴は、主成分分析を使用して決定され得る。機械学習モデルについては、様々な実施例では、各主成分が特徴であってもよく、または一緒に連結されたすべての主成分が特徴であってもよい。検体のこれらの各々に対するPCAの出力に基づいて、モデルを作成することができる。他の例では、モデルは、任意のPCAの前の生の特徴に基づいて更新することもでき、したがって、特徴は、必ずしも任意のPCA出力を含んでいないこともある。様々なアプローチでは、生の特徴は、データのすべてのビットを含むことができ、検体について各バッチのデータの無作為抽出を使用することができ、ランダムフォレストを行うことができ、または他の木もしくはランダムデータセットを作成することができる。特徴はまた、任意の次元削減(例えば、PCA)の結果とは対照的に、測定値自体であってもよく、両方もまた使用され得る。
ブロック260において、システムは、訓練用生体試料から得られた訓練用ベクトルを使用して訓練される機械学習モデルを、コンピュータシステムのメモリにロードする。訓練用試料は、同じ測定がなされ得、したがって、同じ特徴ベクトルを生成することができる。訓練用試料は、例えば、臨床疑問によって示されるように、所望の分類に基づいて選択され得る。異なるサブセットは、例えば、それらに割り当てられたラベルによって判定されるように、異なる特性を有し得る。訓練用生体試料の第1のサブセットは、指定されたプロパティを有するものとして特定され得、訓練用生体試料の第2のサブセットは、指定されたプロパティを有さないものとして特定され得る。特性の例は、様々な疾患または障害であるが、同様に、中間分類または測定でもあり得る。かかる特性の例としては、例えば、癌の治療のために、癌の存在もしくは癌のステージ、または癌の予後、が挙げられる。例として、癌は、大腸癌、肝臓癌、肺癌、膵臓癌、または乳癌であり得る。
ブロック270において、システムは、機械学習モデルに特徴ベクトルを入力して、生体試料が指定されたプロパティを有するかどうかの出力分類を得る。分類は、様々な方法で、例えば、1つ以上の分類のそれぞれの確率として提供され得る。例えば、癌の存在に、確率および出力を割り当てることができる。同様に、癌の不在は、確率および出力を割り当てることができる。最も高い確率を有する分類を使用することができ、例えば、1つの分類が、2番目に高い分類よりも十分に高い確率を有するように、1つ以上の基準に供することができる。差分は、閾値を上回る必要があり得る。1つ以上の基準が満たされない場合、出力分類は未定であり得る。したがって、出力分類は、個体における癌の存在を示す検出値(例えば、確率)を含むことができる。そして、機械学習モデルは、生体試料が癌を有さない確率を提供する別の分類をさらに出力することができる。
そのような分類の後、対象に治療が提供され得る。治療レジメンの例としては、外科的介入、所与の薬物もしくは薬物の組み合わせを用いた化学療法、および/または放射線療法が挙げられる。
VII.分類器生成
本開示の方法およびシステムは、試料間のクラス区別と相関する情報価値のある特徴(例えば、遺伝子座)のセットを特定することに関し、試料中のそれらの存在がクラス区別と相関する程度によって特徴(例えば、遺伝子)を選別すること、および当該相関が偶然による予想よりも強いかどうかを決定すること、を含む。機械学習技術は、入力特徴ベクトルからそのような情報価値のある特徴を暗黙的に使用することができる。一実施例では、クラスの区別は、既知のクラスの区別であり、一実施例では、クラスの区別は、疾患クラスの区別である。特に、疾患クラスの区別は、癌クラスの区別であり得る。様々な実施例では、癌は、大腸癌、肺癌、肝臓癌、または膵臓癌である。
本開示の一部の実施例はまた、試験される少なくとも1つの試料が分類される少なくとも1つの以前に知られていないクラス(例えば、疾患クラス、増殖性疾患クラス、癌ステージまたは治療応答)を確認することを対象とすることができ、試料は個体から得られる。一態様では、本開示は、個体の集団内の個体を識別することができる、分類器を提供する。分類器は、機械学習モデルの一部であり得る。機械学習モデルは、生体試料の複数のクラスの分子の各々の特性に対応する特徴のセットを、入力として受信し得る。生体試料中の複数のクラスの分子は、複数のクラスの分子を表す複数のセットの測定値を得るようにアッセイされ得る。複数のクラスの分子の各々のプロパティに対応する特徴のセットが特定され、機械学習モデルに入力され得る。複数のセットの測定値の各々から特徴量の特徴ベクトルは、各特徴量が特徴のセットの特徴に対応し、かつ1つ以上の測定値を含むように、生成されてもよい。特徴ベクトルは、複数のセットの測定値の各セットを使用して得られた少なくとも1つの特徴量を含み得る。分類器を含む機械学習モデルは、コンピュータメモリにロードされ得る。機械学習モデルを、訓練用生体試料から得られた訓練用ベクトルを使用して訓練し、訓練用生体試料の第1のサブセットが指定されたプロパティを有すると特定され、訓練用生体試料の第2のサブセットが指定されたプロパティを有さないと特定されるようにしてもよい。特徴ベクトルを機械学習モデルに入力して、生体試料が指定されたプロパティを有するかどうかの出力分類を得ることにより、指定されたプロパティを有する個体の集団を識別してもよい。一例として、指定されたプロパティは、個体が癌を有するか否かである。
一態様では、本開示は、生体試料の多検体分析に基づいて対象を分類するためのシステムを提供し、(a)多検体分析に基づいて対象を分類するように動作可能な分類器を含むコンピュータ可読媒体、および(b)コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサを含む。
一実施例では、システムは、線形判別分析(LDA)分類器、二次判別分析(QDA)分類器、サポートベクトルマシン(SVM)分類器、ランダムフォレスト(RF)分類器、線形カーネルサポートベクトルマシン分類器、一次または二次多項式カーネルサポートベクトルマシン分類器、リッジ回帰分類器、エラスティックネットアルゴリズム分類器、逐次最小最適化アルゴリズム分類器、ナイーブベイズアルゴリズム分類器、およびNMF予測アルゴリズム分類器から選択される、機械学習分類器として構成される分類回路を含む。
一実施例では、癌試料(例えば、組織)中のバイオマーカーの情報価値のある特徴(例えば、ゲノム遺伝子座)をアッセイして、プロファイルを形成する。線形分類器のスカラー出力の閾値は、精度、陽性適中率(PPV)、陰性適中率(NPV)、臨床感度、臨床特異度、曲線下面積(AUC)、またはそれらの組み合わせ、例えば、訓練用データセット内で観察されるような、交差検証下の感度および特異度の合計、を最大化するように最適化される。
所与の試料についての全体的な多検体アッセイデータ(例えば、発現データまたは配列データ)は、異なる量の出発物質、抽出および増幅反応などの様々な効率を補正するために、当業者に既知の方法を使用して正規化され得る。正規化されたデータに線形分類器を使用して、効果的に診断または予後コール(例えば、治療剤に対する応答性または耐性)を行うことは、データ空間を、例えば、分類器内のすべての特徴(例えば、遺伝子)のすべての可能な発現値の組み合わせを、分離超平面によって2つの素な部分に分割することを意味する。この分割は、例えば、治療剤に対する応答性または耐性を示す患者からの、大規模な訓練用の例のセットに実験的に由来する。一般性を失うことなく、1つを除くすべてのバイオマーカーについて、特定の固定セットの値を想定することができ、この残りのバイオマーカーの閾値を自動的に定義することができ、決定は、例えば、治療剤に対する応答性または耐性により変化し得る。次いで、この動的閾値を上回る発現値は、治療剤に対する耐性(負の重みを有するバイオマーカーについて)または応答性(正の重みを有するバイオマーカーについて)のいずれかを示し得る。この閾値の正確な値は、分類器内のすべての他のバイオマーカーの実際に測定された発現プロファイルに依存するが、特定のバイオマーカーの一般的な指標は固定されたままであり、例えば、高い値または「相対的過剰発現」は、応答性(正の重みを有する遺伝子)または耐性(負の重みを有する遺伝子)のいずれかに常に寄与する。したがって、全体的な遺伝子発現の分類器の文脈では、相対的発現は、特定のバイオマーカーの上方制御または下方制御のいずれかが、治療剤に対する応答性または耐性の指標になるかどうかを示し得る。
一実施例では、患者の生体(例えば、組織)試料のバイオマーカープロファイル(例えば、発現プロファイル)は、線形分類器によって評価される。本明細書で使用される場合、線形分類器は、化合物の決定スコア(「決定関数」)への個々のバイオマーカー特徴の加重合計を指す。次いで、決定スコアは、試料がスコア閾値を上回るか(決定関数が正)、または下回るか(決定関数が負)を示す、精度、陽性適中率(PPV)、陰性適中率(NPV)、臨床感度、臨床特異度、曲線下面積(AUC)、またはそれらの組み合わせの観点から、特定の設定値に対応する所定のカットオフスコア閾値と比較される。効果的に、これは、データ空間、例えば、バイオマーカー特徴量のすべての可能な組み合わせのセットが、異なる臨床分類または予測に対応する2つの相互排他的な半分に、例えば、治療剤に対する応答性に対応する半分と耐性に対応する他方の半分に、分割されることを意味する。
この量、すなわち、治療剤に対するカットオフ閾値応答性または耐性の解釈は、開発段階(「訓練」)において、既知の結果を有する一連の患者に由来する。決定スコアに対する対応する重みおよび応答性/抵抗カットオフ閾値は、当業者に既知の方法によって訓練用データから事前に固定される。一実施例では、部分最小二乗判別分析(PLS-DA)は、重みを決定するために使用される。(L.Stale,S.Wold,J.Chemom.1(1987)185-196;D.V.Nguyen,D.M.Rocke,Bioinformatics 18(2002)39-50)。当業者に既知の分類を行うための他の方法は、癌分類器のアッセイデータ(例えば、転写産物)に適用する場合、本明細書に記載の方法とともに用いてもよい。
異なる方法を使用して、これらのバイオマーカーで測定された定量的アッセイデータを、予後または他の予測的使用に変換することができる。これらの方法としては、限定されないが、パターン認識(Duda et al.Pattern Classification,2.sup.nd ed.,John Wiley,New York 2001)、機械学習(Scholkopf et al.Learning with Kernels,MIT Press,Cambridge 2002、Bishop,Neural Networks for Pattern Recognition,Clarendon Press,Oxford 1995)、統計学(Hastie et al.The Elements of Statistical Learning,Springer,New York 2001)、バイオインフォマティクス(Dudoit et al.,2002,J.Am.Statist.Assoc.97:77-87、Tibshirani et al.,2002,Proc.Natl.Acad.Sci.USA 99:6567-6572)、または計量化学(Vandeginste,et al.,Handbook of Chemometrics and Qualimetrics,Part B,Elsevier,Amsterdam 1998)の分野の方法が挙げられる。
訓練ステップでは、応答性および耐性の症例の両方についての患者試料のセット(例えば、治療に対する応答性を示す患者、治療に対する応答性を示さない患者、治療に対する耐性を示す患者、および/または治療に対する耐性を示さない患者を含む)が測定され、この訓練用データからの固有情報を使用して予測方法が最適化されて、訓練セットまたは将来の試料セットを最適に予測する。この訓練ステップにおいて、方法は、特定のアッセイデータのプロファイルから特定の予測コールへ予測するように、訓練またはパラメータ化される。適切な変換または前処理ステップは、測定データが分類(例えば、診断または予後)方法またはアルゴリズムに供される前に、測定データを用いて行われ得る。
アッセイデータ(例えば、転写産物)の各々について、前処理された特徴(例えば、強度)値の加重合計が形成され、訓練用セット上で最適化された閾値と比較される(Duda et al.Pattern Classification,2nd ed.,John Wiley,New York 2001)。重みは、限定されないが、部分最小二乗(PLS、(Nguyen et al.,2002,Bioinformatics 18(2002)39-50))またはサポートベクトルマシン(SVM、(Scholkopf et al.Learning with Kernels,MIT Press,Cambridge 2002))を含む多数の線形分類方法によって導出され得る。
データは、上述のように加重合計を適用する前に、非線形に変換してもよい。この非線形変換は、データの次元数を増加させることを含み得る。また、非線形変換および加重合計は、例えば、カーネル関数の使用を通じて、暗黙的に行われ得る。(Scholkopf et al.Learning with Kernels,MIT Press,Cambridge 2002)。
別の実施例では、決定木(Hastie et al.,The Elements of Statistical Learning,Springer,New York 2001)またはランダムフォレスト(Breiman,Random Forests,Machine Learning 45:5 2001)を使用して、アッセイデータ(例えば、転写セット)またはそれらの生成物の測定値(例えば、強度データ)から分類(例えば、診断または予後コール)を行う。
別の実施例では、ニューラルネットワーク(Bishop,Neural Networks for Pattern Recognition,Clarendon Press,Oxford 1995)を使用して、アッセイデータ(例えば、転写セット)またはそれらの生成物の測定値(例えば、強度データ)から分類(例えば、診断または予後コール)を行う。
別の例では、判別分析(Duda et al.,Pattern Classification,2nd ed.,John Wiley,New York 2001)は、線形、対角線状、二次的、およびロジスティック判別分析などの方法を含む方法を使用して、アッセイデータ(例えば、転写産物セット)またはそれらの生成物の測定値(例えば、強度データ)から分類(例えば、診断または予後コール)を行う。
別の実施例では、マイクロアレイの予測分析(PAM,(Tibshirani et al.,2002,Proc.Natl.Acad.Sci.USA 99:6567-6572))を使用して、アッセイデータ(例えば、転写産物セット)またはそれらの生成物の測定値(例えば、強度データ)から分類を行う(例えば、診断または予後コール)。
別の実施例では、クラスアナロジーのソフト独立モデリング(SIMCA,(Wold,1976,Pattern Recogn.8:127-139))は、転写セットまたはその生成物の測定された強度データから予測コールを行うために使用される。
機械学習モデルを使用して、様々な種類のシグナルを処理し、分類(例えば、表現型または表現型の確率)を推測することができる。1つのタイプの分類は、対象の状態(例えば、疾患および/または疾患のステージまたは重症度)に対応する。したがって、一部の実施例では、モデルは、モデルが訓練された条件の種類に基づいて、対象を分類することができる。そのような条件は、訓練用試料のラベル、またはカテゴリ変数の集合に対応し得る。上述のように、これらのラベルは、より集中的な測定を通じて、または状態がより後期の患者の測定(状態がより容易に特定された)を通じて決定することができる。
所定の条件を有する訓練用試料を使用して作成されたこのようなモデルは、特定の利点を提供することができる。このテクノロジーの利点としては、(a)疾患または障害(例えば、症状の発症前の加齢関連疾患、または代替方法による信頼できる検出)の事前スクリーニングで、適用としては、限定されないが、癌、糖尿病、アルツハイマー病、ならびに遺伝子シグネチャ、例えば、体細胞遺伝子シグネチャを有し得る他の疾患が挙げられる、(b)既存の診断方法(例えば、癌生検/医療画像スキャン)に対する診断確認または補足的証拠、ならびに(c)予後報告、治療応答、治療抵抗性、および再発検出のための治療および治療後モニタリング、が挙げられる。
様々な実施例では、生物学的状態は、生活習慣の改変(例えば、食事の変化、喫煙の変化、睡眠パターンの変化など)後の、疾患または障害(例えば、加齢関連疾患、加齢中の状態、治療効果、薬物効果、手術効果、測定可能な形質、または生物学的状態)を含むことができる。一部の実施例では、生物学的状態は不明であってもよく、分類は、別の状態の不在として決定することができる。したがって、機械学習モデルは、未知の生物学的状態を推論するか、または未知の生物学的状態を解釈することができる。
一部の実施例では、分類に段階的な変化が見られることがあり、したがって、条件、例えば、実数に対応する、多くのレベルの分類があり得る。したがって、分類は、状態または他の生物学的状態を有する対象に関する確率、リスク、または尺度であり得る。そのような値は、それぞれ異なる分類に対応することができる。
一部の実施例では、分類は、状態の以前の分類に基づき得る推奨事項を含むことができる。以前の分類は、同じ訓練用データを使用する別個のモデル(潜在的に異なる入力特徴であるが)、または様々な分類を含むより大きなモデルの一部である先ほどのサブモデルによって行うことができ、あるモデルの出力分類は、別のモデルへの入力として使用することができる。例えば、対象が心筋梗塞のリスクが高いと分類される場合、モデルは、ライフスタイルの変更、例えば、定期的な運動、健康的な食事の摂取、健康的な体重の維持、禁煙、LDLコレステロールの低下、を推奨することができる。別の実施例として、モデルは、分類(例えば、診断または予後コール)を確認するために、対象のための臨床試験を推奨することができる。この臨床試験は、画像検査、血液検査、コンピュータ断層撮影(CT)スキャン、磁気共鳴画像(MRI)スキャン、超音波スキャン、胸部X線、陽電子放射断層撮影(PET)スキャン、PET-CTスキャン、またはこれらの任意の組み合わせを含み得る。そのような推奨アクションは、本明細書に記載の方法およびシステムの一部として行うことができる。
したがって、実施例は、各々が異なるタイプの分類を対象とする多くの異なるモデルを提供することができる。別の実施例として、初期モデルは、対象が癌を有するか否かを判定することができる。さらなるモデルは、対象が特定の癌の特定のステージを有するか否かを決定することができる。さらなるモデルは、対象が特定の癌を有するか否かを決定することができる。さらなるモデルは、特定の手術、化学療法(例えば、薬物)、放射線療法、免疫療法、または他のタイプの治療に対する対象の予測応答を分類することができる。別の実施例として、サブモデルの連鎖の初期のモデルは、特定の遺伝的多型が正確であるか否か、または関連性があるか否かを判定し、次いで、その情報を使用して、後続のサブモデルへの入力特徴を生成することができる(例えば、パイプラインの後半)。
一部の実施例では、表現型の分類は、患者の血液、血漿、尿などにおいて実験者が観察し得る分子の種類および分布の変化を誘発する感染または生理学的ストレスにより、細胞のターンオーバーの変化などの生理学的プロセスに由来する。
したがって、一部の実施例は、能動学習を含むことができ、機械学習手順は、分類における不確実性を低減するそのデータの確率に基づいて得る将来の実験またはデータを提案することができる。かかる問題は、対象ゲノムの十分なカバレッジ、時点分解能の欠如、不十分な患者のバックグラウンド配列、または他の理由に関連し得る。様々な実施例では、モデルは、以下のうちの1つ以上を含む、欠損変数に基づいて、多くのフォローアップステップのうちの1つを提案し得る。(i)全ゲノム配列決定(WGS)の再配列決定、(ii)全染色体配列決定(WES)の再配列決定、(iii)対象のゲノムの特定の領域の標的配列決定、(iv)特異的プライマーまたは他のアプローチ、および(v)他のウェットラボアプローチ。推奨は、患者間で異なり得る(例えば、対象の遺伝データまたは非遺伝的データに起因する)。一部の実施例では、分析は、患者に対するコスト、リスク、もしくは罹患率などのいくつかの機能を最小化すること、または精度、陽性適中率(PPV)、陰性適中率(NPV)、臨床感度、臨床特異度、曲線下面積(AUC)、もしくはそれらの組み合わせなどの分類性能を最大化することを目的とし、最も正確な分類を得るための最良の次のステップを提案する。
VIII.癌の診断と検出
本明細書に記載の訓練される機械学習方法、モデル、および識別分類器は、癌検出、診断、および治療応答性を含む様々な医療用途に有用である。モデルが、個々のメタデータおよび検体由来の特徴で訓練されると、アプリケーションは、集団中の個体を階層化し、それに応じて治療決定を導くように調整されてもよい。
A.診断
本明細書に提供される方法およびシステムは、対象(患者)から取得されたデータを分析して、癌(例えば、大腸癌、CRC)を有する対象の診断の出力を生成するために、人工知能に基づくアプローチを使用して、予測分析を行い得る。例えば、このアプリケーションは、取得されたデータに予測アルゴリズムを適用して、癌を有する対象の診断を生成し得る。予測アルゴリズムは、癌を有する対象の診断を生成するために取得されたデータを処理するように構成された機械学習ベースの予測器などの、人工知能ベースの予測器を含んでもよい。
機械学習予測器は、癌を有する患者の1つ以上のコホートのセットからのデータセット(例えば、個体の生体試料の多検体アッセイを行うことによって生成されるデータセット)を入力として、対象の既知の診断(例えば、ステージ分類および/または腫瘍画分)結果を機械学習予測器への出力として、使用して訓練され得る。
訓練用データセット(例えば、個体の生体試料の多検体アッセイを行うことによって生成されるデータセット)は、例えば、共通の特徴(特徴)および結果(ラベル)を有する対象の1つ以上のセットから生成され得る。訓練用データセットは、診断に関連する特徴に対応する特徴のセットおよびラベルを含み得る。特徴は、例えば、cfDNAアッセイ測定の特定の範囲またはカテゴリなど(参照ゲノムのビン(ゲノムウィンドウ)のセットの各々に重複または該当する健常および疾患試料から得られた生体試料中のcfDNA断片のカウントなど)の特徴を含み得る。例えば、所与の時点で所与の対象から収集された特徴のセットは、所与の時点で対象の特定された癌を示し得る診断シグネチャとして一括的に機能し得る。特徴はまた、1つ以上の癌などの対象の診断結果を示すラベルを含み得る。
ラベルは、例えば、対象の既知の診断(例えば、ステージ分類および/または腫瘍画分)結果などの結果を含み得る。結果は、対象の癌に関連する特徴を含み得る。例えば、特徴は、対象が1つ以上の癌を有することを示し得る。
訓練セット(例えば、訓練用データセット)は、1つ以上の対象のセット(例えば、1つ以上の癌を有するか否かの患者の後向きおよび/または前向きコホート)に対応するデータのセットの無作為抽出によって選択してもよい。あるいは、訓練セット(例えば、訓練用データセット)は、1つ以上の対象のセット(例えば、1つ以上の癌を有するか否かの患者の後向きおよび/または前向きコホート)に対応するデータのセットの比例抽出によって選択してもよい。訓練セットは、1つ以上の対象のセット(例えば、異なる臨床部位または治験からの患者)に対応するデータセットにわたって均衡化され得る。機械学習予測器は、精度または性能のための特定の所定の条件が満たされるまで、例えば、診断精度尺度に対応する最小限の所望の値を有するまで、訓練され得る。例えば、診断精度尺度は、対象において、1つ以上の癌の診断、ステージ分類、または腫瘍画分の予測に対応し得る。
診断精度尺度の例としては、癌(例えば、大腸癌)の検出または予測の診断精度に対応する、受信者操作特性(ROC)曲線の感度、特異度、陽性適中率(PPV)、陰性適中率(NPV)、精度、および曲線下面積(AUC)が含まれ得る。
別の態様では、本開示は、対象における癌を特定する方法を提供し、(a)当該対象からの無細胞核酸(cfNA)分子を含む生体試料を提供することと、(b)当該対象からの当該cfNA分子を配列決定して、複数のcfNA配列決定リードを生成することと、(c)当該複数のcfNA配列決定リードを参照ゲノムに整列することと、(d)当該参照ゲノムの第1の複数のゲノム領域の各々で、当該複数のcfNA配列決定リードの定量的尺度を生成して、第1のcfNAの特徴セットを生成することであって、当該参照ゲノムの当該第1の複数のゲノム領域は、少なくとも約10の異なる領域を含み、当該少なくとも約10の異なる領域の各々は、表1の遺伝子からなる群から選択される遺伝子の少なくとも一部を含む、生成することと、(e)当該第1のcfNAの特徴セットに訓練されたアルゴリズムを適用して、当該対象が当該癌を有する可能性を生成することと、を含む。
一部の実施例では、当該少なくとも約10個の異なる領域は、少なくとも約20個の異なる領域を含み、当該少なくとも約20個の異なる領域の各々は、表1の群から選択される遺伝子の少なくとも一部を含む。一部の実施例では、当該少なくとも約10個の異なる領域は、少なくとも約30個の異なる領域を含み、当該少なくとも約30個の異なる領域の各々は、表1の群から選択される遺伝子の少なくとも一部を含む。一部の実施例では、当該少なくとも約10個の異なる領域は、少なくとも約40個の異なる領域を含み、当該少なくとも約40個の異なる領域の各々は、表1の群から選択される遺伝子の少なくとも一部を含む。一部の実施例では、当該少なくとも約10個の異なる領域は、少なくとも約50個の異なる領域を含み、当該少なくとも約50個の異なる領域の各々は、表1の群から選択される遺伝子の少なくとも一部を含む。一部の実施例では、当該少なくとも約10個の異なる領域は、少なくとも約60個の異なる領域を含み、当該少なくとも約60個の異なる領域の各々は、表1の群から選択される遺伝子の少なくとも一部を含む。一部の実施例では、当該少なくとも約10個の異なる領域は、少なくとも約70個の異なる領域を含み、当該少なくとも約70個の異なる領域の各々は、表1の群から選択される遺伝子の少なくとも一部を含む。
Figure 0007455757000001
例えば、かかる所定の状態は、癌(例えば、大腸癌、乳癌、膵臓癌、または肝臓癌)を予測する感度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%、の値を含むことであり得る。
別の例として、かかる所定の状態は、癌(例えば、大腸癌、乳癌、膵臓癌、または肝臓癌)を予測する特異度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%、の値を含むことであり得る。
別の例として、かかる所定の状態は、癌(例えば、大腸癌、乳癌、膵臓癌、または肝臓癌)を予測する陽性適中率(PPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%、の値を含むことであり得る。
別の例として、かかる所定の状態は、癌(例えば、大腸癌、乳癌、膵臓癌、または肝臓癌)を予測する陰性適中率(NPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%、の値を含むことであり得る。
別の例として、かかる所定の状態は、癌(例えば、大腸癌、乳癌、膵臓癌、または肝臓癌)を予測する受信者操作特性(ROC)曲線の曲線下面積(AUC)が、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99、の値を含むことであり得る。
前述の態様のいずれかの一部の実施例では、方法は、対象において、疾患の進行をモニターすることをさらに含み、モニターは、少なくとも部分的に、遺伝子配列の特徴に基づく。一部の実施例では、疾患は、癌である。
前述の態様のいずれかの一部の実施例では、方法は、対象において、癌の起源の組織を決定することをさらに含み、決定は、少なくとも部分的に、遺伝子配列の特徴に基づく。
前述の態様のいずれかの一部の実施例では、方法は、対象において、腫瘍負荷を推定することをさらに含み、推定は、少なくとも部分的に、遺伝子配列の特徴に基づく。
B.治療応答性
本明細書に記載の予測分類器、システム、および方法は、いくつかの臨床用途について、個体の集団を分類するのに有用である。(例えば、個体の生体試料の多検体アッセイの実施に基づく)。かかる臨床用途の例としては、早期癌を検出すること、癌を診断すること、癌を特定の疾患ステージに分類すること、癌を治療するための治療剤に対する応答性または耐性を決定すること、が挙げられる。
本明細書に記載される方法およびシステムは、グレードおよびステージと同様に、様々な癌のタイプに適用可能であり、したがって、単一の癌疾患タイプに限定されない。したがって、検体およびアッセイの組み合わせは、本システムおよび本方法において、異なる組織における異なる癌の種類にわたり癌治療薬の応答性を予測し、治療応答性に基づいて個体を分類するために使用されてもよい。一実施例では、本明細書に記載の分類器は、個体の群を治療応答者および治療非応答者に階層化することができる。
本開示はまた、対象となる状態または疾患の薬物標的(例えば、特定のクラスに関連する/重要な遺伝子)を決定するための方法を提供し、少なくとも1つの遺伝子の遺伝子発現レベルについて個体から得られた試料を評価し、隣接分析ルーチンを使用して試料の分類に関連する遺伝子を決定し、それによって、分類に関連する1つ以上の薬物標的を確認することを含む。
本開示はまた、疾患クラスを治療するように設計された薬物の有効性を決定するための方法を提供し、疾患クラスを有する個体から試料を得、試料を薬物に供し、少なくとも1つの遺伝子の遺伝子発現レベルについて薬物に曝露した試料を評価し、薬物に曝露した試料を、重み付き投票スキームで構築されたコンピュータモデルを使用して、モデルの遺伝子発現レベルに対する試料の相対的な遺伝子発現レベルの関数として、疾患のクラスに分類することを含む。
本開示はまた、疾患クラスを治療するように設計された薬物の有効性を決定するための方法を提供し、個体は薬物に供され、薬物に供された個体から試料を得、少なくとも1つの遺伝子の遺伝子発現レベルについて試料を評価し、重み付き投票スキームで構築されたモデルを使用して、試料を疾患のクラスに分類することを含み、モデルの遺伝子発現レベルと比較して、試料の遺伝子発現レベルを評価することが含まれる。
さらに別の用途は、個体が、表現型クラスに属するかどうかを決定する方法であり(例えば、インテリジェンス、治療に対する応答性、寿命、ウイルス感染の可能性または肥満)、個体から試料を得、少なくとも1つの遺伝子の遺伝子発現レベルについて試料を評価し、重み付き投票スキームで構築されたモデルを使用して、試料を疾患のクラスに分類することを含み、モデルの遺伝子発現レベルと比較して、試料の遺伝子発現レベルを評価することが含まれる。
結腸癌を有する患者の予後を予測するのに有用な、バイオマーカーを特定する必要がある。高リスク(予後不良)または低リスク(予後良好)として患者を分類する能力は、これらの患者のための適切な療法の選択を可能にし得る。例えば、リスクの高い患者は、積極的な治療から恩恵を受ける可能性が高く、一方で、治療はリスクの低い患者にとって顕著な利点を有さない可能性がある。しかし、この必要性にもかかわらず、この問題の解決策はなかった。
治療決定を導くことができる予測バイオマーカーは、特定の癌療法に対する「例外的な応答者」であり得る患者のサブセット、または代替的な治療様式から恩恵を受け得る個人を特定するために求められてきた。
一態様では、治療応答性に基づいて集団を分類することに関連する本明細書に記載のシステムおよび方法は、これらのクラスに限定されないが、化学療法剤のクラス、DNA損傷剤、DNA修復標的療法、DNA損傷シグナル伝達の阻害剤、DNA損傷誘発細胞周期停止の阻害、およびDNA損傷に間接的につながるプロセスの阻害剤で治療される、癌を指す。これらの化学療法剤の各々は、用語として本明細書で使用される場合、「DNA損傷治療剤」と見なされる。
患者の検体データは、臨床再発のリスクが高いまたは低い患者などの、リスクが高い患者群とリスクが低い患者群とに分類され、その結果を使用して、治療の経過を決定することができる。例えば、高リスク患者であると判定された患者は、手術後にアジュバント化学療法で治療され得る。低リスク患者とみなされた患者については、手術後にアジュバント化学療法を控えることができる。したがって、本開示は、ある特定の態様において、再発のリスクを示す結腸癌腫瘍の遺伝子発現プロファイルを作成するための方法を提供する。
様々な実施例では、本明細書に記載の分類器は、治療に対する応答者と非応答者との間で、個体の集団を階層化することができる。
様々な実施例では、治療は、アルキル化剤、植物アルカロイド、抗腫瘍抗生物質、代謝拮抗剤、トポイソメラーゼ阻害剤、レチノイド、チェックポイント阻害剤療法、またはVEGF阻害剤から選択される。
応答者および非応答者に集団を階層化し得る治療の例としては、ソラフェンブ、レゴラフェニブ、イマチニブ、エリブリン、ゲムシタビン、カペシタビン、パゾパニ、ラパチニブ、ダブラフェニブ、リンゴ酸スチニブ、クリゾチニブ、エベロリムス、トリシロリムス、シロリムス、アキシチニブ、ゲフィチニブ、アナストロール、ビカルタミド、フルベストラント、ラリトレクスド、ペメトレキセド、酢酸ゴセリリン、エルロチニンブ、ベムラフェニブ、ビシオフェニブ、クエン酸タモキシフェン、パクリタキセル、ドセタキセル、カバジタキセル、オキサリプラチン、ziv-アフリベルセプト、ベバシズマブ、トラスツズマブ、ペルツズマブ、パンチウムマブ、タキサン、ブレオマイシン、メルファレン、プルンバギン、カンプトサール、マイトマイシン-C、ミトキサントロン、スマンクス、ドキソルビシン、ペグ化ドキソルビシン、フォルフォリ、5-フルオロウラシル、テモゾロミド、パシレオチド、テガフール、ギメラシル、オテラシ、イトラコナゾール、ボルテゾミブ、レナリドミド、イリントテカン、エピルビシン、およびロミデプシン、レスミノスタット、タスキニモド、レファメチニブ、ラパチニブ、タイバーブ、アレネジル、パシレオチド、シグニフォー、チシリムマブ、トレメリムマブ、ランソプラゾール、PrevOnco、ABT-869、リニファニブ、ボロラニブ、チバンチニブ、タルセバ、エルロチニブ、スチバーガ、レゴラフェニブ、フルオロソラフェニブ、ブリバニブ、リポソームドキソルビシン、レンバチニブ、ラムシルマブ、ペレチノイン、Ruchiko、ムパフォスタット、ティーエスワン、テガフール、ギメラシル、オテラシル、およびオランチニブを含む化学療法薬;ならびにアレムツズマブ、アテゾリズマブ、イピリムマブ、ニボルマブ、オファツムマブ、ペムブロリズマブ、またはリツキシマブを含む抗体療法、が挙げられるが、これらに限定されない。
他の例では、集団は、PD-1またはCTLA4に結合する化合物などの、チェックポイント阻害剤療法に対する応答者および非応答者に階層化され得る。
他の例では、集団は、VEGF経路の標的に結合する抗VEGF療法に対する応答者および非応答者に階層化され得る。
IX.効能
一部の実施例では、生物学的状態は、疾患を含むことができる。一部の実施例では、生物学的状態は、疾患のステージであり得る。一部の実施例では、生物学的状態は、生物学的状態の段階的変化であり得る。一部の実施例では、生物学的状態は、治療効果であり得る。一部の実施例では、生物学的状態は、薬物効果であり得る。一部の実施例では、生物学的状態は、外科的効果であり得る。一部の実施例では、生物学的状態は、ライフスタイル改変後の生物学的状態であってもよい。ライフスタイル改変の非限定的な例としては、食事の変化、喫煙の変化、および睡眠パターンの変化が挙げられる。
一部の実施例では、生物学的状態は、不明である。本明細書に記載の分析は、未知の生物学的状態を推論する、または未知の生物学的状態を解釈するための機械学習を含むことができる。
一実施例では、本システムおよび方法は、結腸癌に関連する用途に特に有用である。結腸の組織(大腸の最も長い部分)で形成される癌。結腸癌のほとんどは、腺癌である(内臓のラインを作る細胞で始まり、腺様の特性を有する癌)。癌の進行は、体内の癌のステージまたは程度によって特徴付けられる。ステージングは、通常、腫瘍の大きさ、リンパ節が癌を含んでいるかどうか、および癌が元の部位から身体の他の部分へと広がっているかどうかに基づいている。結腸癌のステージには、ステージI、ステージII、ステージIII、およびステージIVが含まれる。特に明記しない限り、結腸癌という用語は、ステージ0、ステージI、ステージII(ステージIIAもしくはIIBを含む)、ステージIII(ステージIIIA、IIIBもしくはIIICを含む)、またはステージIV、における結腸癌を指す。本明細書の一部の実施例では、結腸癌は、任意のステージに由来する。一実施例では、結腸癌は、ステージIの大腸癌である。一実施例では、結腸癌は、ステージIIの大腸癌である。一実施例では、結腸癌は、ステージIIIの大腸癌である。一実施例では、結腸癌は、ステージIVの大腸癌である。
本開示の方法によって推測され得る状態としては、例えば、癌、腸関連疾患、免疫媒介性炎症性疾患、神経疾患、腎臓疾患、出生前の疾患、および代謝疾患が挙げられる。
一部の実施例では、本開示の方法を使用して、癌を診断することができる。
癌の非限定的な例としては、腺腫(腺腫性ポリープ)、広基性鋸歯状腺腫(SSA)、進行腺腫、大腸異形成、大腸腺腫、大腸癌(colorectal cancer)、結腸癌、直腸癌、大腸癌(colorectal carcinoma)、大腸腺癌、カルチノイド腫瘍、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、リンパ腫、および肉腫が挙げられる。
開示される方法およびシステムによって推測され得る癌の非限定的な例としては、急性リンパ芽球性白血病(ALL)、急性骨髄性白血病(AML)、副腎皮質癌、カポジ肉腫、肛門癌、基底細胞癌、胆管癌、膀胱癌、骨癌、骨肉腫、悪性線維性組織球腫、脳幹神経膠腫、脳癌、頭蓋咽頭腫、上衣芽腫、上衣腫、髄芽腫、髄上皮腫、松果実質腫瘍、乳癌、気管支腫瘍、バーキットリンパ腫、非ホジキンリンパ腫、カルチノイド腫瘍、子宮頸癌、脊索腫、慢性リンパ球性白血病(CLL)、慢性骨髄性白血病(CML)、結腸癌、大腸癌、皮膚T細胞リンパ腫、非浸潤性乳管癌、子宮内膜癌、食道癌、ユーイング肉腫、眼癌、眼球内黒色腫、網膜芽細胞腫、線維性組織球腫、胆嚢癌、胃癌、神経膠腫、有毛細胞白血病、頭頸部癌、心臓癌、肝細胞(肝臓)癌、ホジキンリンパ腫、下咽頭癌、腎臓癌、喉頭癌、口唇癌、口腔癌、肺癌、非小細胞癌、小細胞癌、黒色腫、口腔癌(mouth cancer)、骨髄異形成症候群、多発性骨髄腫、髄芽腫、鼻腔癌、副鼻腔癌、神経芽細胞腫、鼻咽頭癌、口腔癌(oral cancer)、中咽頭癌、骨肉腫、卵巣癌、膵臓癌、乳頭腫症、傍神経節腫、副甲状腺癌、陰茎癌、咽頭癌、下垂体腫瘍、形質細胞腫瘍、前立腺癌、直腸癌、腎細胞癌、横紋筋肉腫、唾液腺癌、セザリー症候群、皮膚癌、小腸癌、軟部組織肉腫、扁平上皮癌、精巣癌、咽頭癌、胸腺腫、甲状腺癌、尿道癌、子宮癌、子宮肉腫、膣癌、外陰癌、ワルデンストレームマクログロブリン血症、およびウィルムス腫瘍が挙げられる。
開示される方法およびシステムによって推測され得る腸関連疾患の非限定的な例としては、クローン病、大腸炎、潰瘍性大腸炎(UC)、炎症性腸疾患(IBD)、過敏性腸症候群(IBS)、およびセリアック病が挙げられる。一部の実施例では、疾患は、炎症性腸疾患、大腸炎、潰瘍性大腸炎、クローン病、顕微鏡的大腸炎、コラーゲン性大腸炎、リンパ球性大腸炎、空置性大腸炎、ベーチェット病、および鑑別未定な大腸炎である。
開示される方法およびシステムによって推測され得る免疫媒介性炎症性疾患の非限定的な例としては、乾癬、サルコイドーシス、関節リウマチ、喘息、鼻炎(花粉症)、食物アレルギー、湿疹、狼瘡、多発性硬化症、線維筋痛症、1型糖尿病、およびライム病が挙げられる。開示される方法およびシステムによって推測され得る神経疾患の非限定的な例としては、パーキンソン病、ハンチントン病、多発性硬化症、アルツハイマー病、脳卒中、てんかん、神経変性、および神経障害が挙げられる。開示される方法およびシステムによって推測され得る腎疾患の非限定的な例としては、間質性腎炎、急性腎不全、および腎症が挙げられる。開示される方法およびシステムによって推論され得る産前疾患の非限定的な例としては、ダウン症候群、異数性、二分脊椎、トリソミー、エドワーズ症候群、奇形腫、仙尾部奇形腫(SCT)、脳室拡大、腎無発生、嚢胞性線維症、および胎児水腫が挙げられる。開示される方法およびシステムによって推論され得る代謝疾患の非限定的な例としては、シスチン症、ファブリー病、ゴーシェ病、レッシュ・ナイハン症候群、ニーマン・ピック病、フェニルケトン尿症、ポンペ病、テイ・サックス病、フォン・ギールケ病、肥満、糖尿病、および心臓病が挙げられる。
特定の実施例の具体的な詳細は、本発明の開示された実施例の主旨および範囲から逸脱することなく、任意の好適な方法で組み合わせることができる。しかしながら、本発明の他の実施例は、各個々の態様に関連する特定の実施例、またはこれらの個々の態様の特定の組み合わせを対象とし得る。本明細書に言及されるすべての特許、特許出願、刊行物、および説明は、あらゆる目的のために参照によりそれらの全体が援用される。
X.実施例
上記の説明および本発明の以下に提供される実施例は、例示および説明のために提示されている。本発明を網羅的であること、または説明される正確な形態に限定することを意図するものではなく、上記の教示に照らして多くの修正および変形が可能である。
A.実施例1:生体試料の多検体アッセイの調製
この実施例は、シグナル間の独立した情報を利用するための、多検体アプローチを提供する。正確な分類を行うために、対応する機械学習モデルを用いたアッセイのためのシステムの異なる構成要素について、プロセス図を以下に説明する。どのアッセイを使用するかの選択は、システムの臨床目標を考慮して、機械学習モデルを訓練した結果に基づいて統合することができる。様々なクラスの試料、試料の画分、異なるクラスの分子を有するそれらの画分/試料の一部、およびアッセイの種類を使用することができる。
1.システム図
図3は、開示されるシステムおよび方法の全体的なフレームワーク300を示す。フレームワーク300は、対象を分類するための一連のアッセイおよび特徴、例えば、診断または予後、を特定するために、機械学習と組み合わせて、対象に関する試料(ウェットラボ320)および他のデータの測定値を使用することができる。この例では、プロセスのステップは、以下のようでもよい。
ステージ310のブロック311では、臨床的、科学的、および/または商業的な関連性を有する疑問、例えば、実行可能なフォローアップのための初期大腸癌検出、が問われる。ブロック312では、対象(新規または以前に試験された)が特定される。対象は、後に機械学習で使用するための既知の分類(ラベル)を有することができる。したがって、異なるコホートが特定され得る。ブロック313では、分析は、採掘される試料の種類を選択することができ(すなわち、試料は最終アッセイに残らない場合がある)、病態/障害(例えば、初期大腸癌悪性腫瘍)の存在または不在を評価するのに十分なシグナルを生成することができる試料(例えば、血液)のそれぞれにおける生体分子の収集を決定することができる。例えば、精度に関連して、アッセイ/モデルに制約を課すことができる。例示的な制約としては、アッセイの最小感度、アッセイの最小特異度、アッセイの最大コスト、アッセイを開発するために利用可能な時間、利用可能な生物学的材料および予想される集積率、それらの生物学的材料上で行うことができる実験の最大セットを決定する以前に開発されたプロセスの利用可能なセット、ならびにデータを得るためにそれらの生物学的材料に対して実行可能なプロセスの数を制限する利用可能なハードウェア、が挙げられる。
患者のコホートは、臨床目標を適切に達成するために必要な異なる分類を正確に表すように設計およびサンプリングすることができる(健常な、結腸直腸や他の、進行性腺腫、大腸癌(CRC))。患者コホートを選択することができ、選択したコホートを、システム上の制約として見ることができる。一例のコホートは、100例のCRC、200例の進行性腺腫、200例の非進行性腺腫、および200例の健常な対象である。選択されたコホートは、最終アッセイへの使用を意図した集団に対応することができ、コホートは、アッセイの性能を計算する試料の数を指定することができる。
コホートが選択されると、コホート設計を満たすように、試料が収集され得る。様々な試料、例えば、血液、脳脊髄液(CSF)、および本明細書で言及される他の試料を収集することができる。このような分析は、図3のブロック313で行われ得る。
ステージ320では、最初のセットのアッセイのために、ウェットラボの実験を行うことができる。例えば、拘束されていない試験セットを選択することができる(一次試料/検体/試験の組み合わせ)。一次試料から検体を単離するためのプロトコルおよびモダリティを行うことができる。試験実行のための、プロトコルとモダリティを生成することができる。ウェットラボ活動の性能は、シーケンサー、蛍光検出器、および遠心分離器を含むハードウェアデバイスを使用して行うことができる。
ブロック321では、試料は、例えば遠心分離によって(画分または部分とも呼ばれる)小成分に分割される。一例として、血液は、血漿、バフィーコート(白血球および血小板)、血清、赤血球、ならびにエクソソームなどの細胞外小胞の画分に分割される。画分(例えば、血漿)を一定分量に分割して、異なる検体をアッセイすることができる。例えば、異なる一定分量を用いて、cfDNAおよびcfRNAを抽出する。したがって、検体は、多検体アッセイを可能にするために、画分または一定分量から単離され得る。タンパク質濃度を測定するために、画分(例えば、いくつかの血漿)を保持することができる。
ブロック323において、上記分子のそれぞれの画分における特徴および量、例えば(1)血漿中に見出される無細胞DNA断片のゲノムに沿った配列および帰属された位置、(2)血漿中に見出されるcfDNA断片のメチル化パターン、(3)血漿中に見出されるマイクロRNAの量および種類、ならびに(4)文献(CRP、CEA、FAP、FRILなど)からのCRCに関連することが知られているタンパク質の濃度、を測定するために、実験手順が実行される。
任意の所与のパイプライン上で処理される試料の各々のQCを検証することができる。cfDNA QCとしては、挿入サイズ分布、GCバイアスの相対的表現、スパイクインのバーコード配列(試料トレーサビリティのために導入される)などが挙げられる。メチル化QCの例としては、対照DNAのバイサルファイト変換効率、挿入サイズ分布、平均配列決定深度、重複%などが挙げられる。miRNA QCの例としては、挿入サイズ分布、正規化スパイクインの相対的表現などが挙げられる。タンパク質QCの例としては、標準曲線の直線性、対照試料濃度などが挙げられる。
次に、試料を処理し、コホート内のすべての患者についてデータを得る。生データは、患者のメタデータにより、インデックス化される。他のソースからデータを得て、データベースに格納することができる。データは、GTEX、TCGA、およびENCODEなどの関連するオープンデータベースから精選することができる。これは、ChIP-seq、RNA-seq、およびeQTLを含む。
ステージ340では、他のソース、例えば、ウェアラブル、画像などからデータを得ることができる。そのような他のデータは、生体試料の外部で決定されるデータに対応する。そのような測定値は、心拍数、活動測定値、またはウェアラブルデバイスから入手可能な他のそのようなデータであり得る。イメージングデータは、臓器のサイズおよび位置などの情報を提供し、未知の質量を特定することができる。
データベース330は、データを格納することができる。データは、GTEX、TCGA、およびENCODEなどの関連するオープンデータベースから精選することができる。これは、ChIP-seq、RNA-seq、およびeQTLを含む。各対象の記録は、測定されたデータおよび対象のラベルを有するフィールド、例えば、状態が存在するかどうか、状態の重症度(ステージ)などを含むことができる。対象は、複数のラベルを有している可能性がある。
ブロック350では、ドライラボ操作が起こり得る。「ドライラボ」作業は、予測タスクを実行するために、関連するデータおよびメタデータの値のマトリックスを生成するために、データベースへのクエリで開始することができる。特徴は、着信データを処理し、おそらく関連する入力のサブセットを選択することによって生成される。
ブロック351では、機械学習を使用して、すべての(一次試料/検体/試験)組み合わせから生成されたデータのセット全体を、ブロック352で、最も予測的な特徴のセットに減らすことができる。異なる特徴のセットの精度測定基準を互いに比較して、最も予測的な特徴のセットを決定することができる。一部の実施形態では、精度閾値を満たす特徴/モデルの集合を特定することができ、次いで、最適なモデル/特徴のグループ化を選択するために、他の制約(例えば、コストおよび試験の数)を使用することができる。
様々な異なる機能とモデルを、試験することができる。さまざまなモデリング仮定を行う単純から複雑な小型から大型のモデルは、交差検証パラダイムでデータに適用することができる。単純から複雑には、線形性から非線形性への考慮、および特徴の非階層性から階層性への表現の考慮が含まれる。小型から大型のモデルでは、データを投影するための基底ベクトル空間のサイズ、ならびにモデリングプロセスに含まれる特徴間の相互作用の数の考慮が含まれる。
機械学習技術は、最初の疑問で定義されているように、コスト/性能/商業的範囲に最適な商業的試験モダリティを評価するために使用することができる。閾値チェックを行うことができる。交差検証で使用されなかったホールドアウトデータセットに適用された方法が、初期化された制約を上回る場合、アッセイはロックされ、運用が開始される。したがって、アッセイは、ブロック360で出力され得る。
閾値が満たされない場合、アッセイエンジニアリング手順は、可能な緩和のための制約設定、またはデータが取得されたパラメータを変更するためにウェットラボのいずれかにループバックする。
臨床疑問を考慮すると、生物学的制約、予算、ラボマシンなどが、問題を制約する可能性がある。次いで、コホート設計は、実際に性能または事前知識の基礎に基づいている臨床試料、統計的で情報価値のある実施可能な事項、および試料集積率に基づくことができる。
2.試料およびその一部の階層
一実施例では、複数の検体をコホート内の患者から採取し、複数のアッセイを介して、複数の分子タイプに分析する。次いで、アッセイの結果を、MLモデルにより分析し、有意な特徴および検体の選択後、臨床的、科学的、または商業的に重要な疑問に関連するアッセイ結果が出力される。
図4は、例示的な「液体生検」に使用される多検体アプローチの階層的な概要を示す。ステージ401では、異なる試料が収集される。図示されるように、血液、CSF、および唾液が収集される。ステージ402では、試料を、画分(部分)に分割することができ、例えば、血液を、血漿、血小板、およびエクソソームに分割することが示されている。ステージ403では、画分の各々を分析して、1つ以上のクラスの分子、例えば、DNA、RNA、および/またはタンパク質を測定することができる。ステージ404では、各クラスの分子を、1つ以上のアッセイに供することができる。例えば、メチル化および全ゲノムアッセイを、DNAに適用することができる。RNAについては、mRNAまたは単鎖RNAを検出するアッセイを適用することができる。タンパク質については、酵素結合免疫吸着アッセイ(ELISA)を使用することができる。
この実施例では、収集した血漿を、以下を含む多検体アッセイを使用して分析した:低カバレッジ全ゲノム配列決定、CNVコーリング、腫瘍画分(TF)推定、全ゲノムバイサルファイト配列決定、LINE-1 CpGメチル化、56遺伝子CpGメチル化、cf-タンパク質免疫定量ELISA、SIMOA、およびcf-miRNA配列決定。K3-EDTAチューブに全血を採取し、2回遠心して、血漿を分離することができる。血漿は、cfDNA、lcWGS、WGS、WGBS、cf-miRNA配列決定、および定量イムノアッセイ(酵素結合免疫吸着アッセイ[ELISA]または単一分子アレイ[SIMOA]のいずれか)のための一定分量に分割することができる。
ステージ405では、コンピュータハードウェア上で実行する学習モジュールは、様々な試料(複数可)の様々な画分(複数可)の様々なアッセイから測定されたデータを受信することができる。学習モジュールは、モデル/機能の様々なグループ化の測定基準を提供することができる。例えば、様々な特徴のセットは、複数のモデルの各々について特定され得る。異なるモデルでは、ニューラルネットワークまたは決定木などの異なる技術を使用することができる。ステージ406は、使用するモデル/特徴グループを選択することができ、または潜在的に、さらなる測定を行うための命令(コマンド)を提供することができる。ステージ407は、新しい試料を測定し分類を行うために使用される全アッセイの一部として使用される、試料、画分、および個々のアッセイを指定することができる。
3.モジュール間の反復フロー
図5は、本発明の実施形態によるアッセイおよび対応する機械学習モデルを設計するための反復プロセスを示す。ウェットラボの構成要素を左に、コンピュータの構成要素を右に示す。省略されたモジュールには、外部データ、以前の構造、臨床メタデータなどが含まれる。これらのメタ構成要素は、ウェットラボおよびドライラボ(コンピュータ)構成要素の両方に流入し得る。一般に、反復プロセスは、初期化段階、探索段階、精錬段階、および検証/確認段階を含む様々な段階を含むことができる。初期化段階は、ブロック502~508を含むことができる。探索段階は、ブロック512~528を通る第1の流路を含むことができる。精錬段階は、ブロック512~528、ならびにブロック530および532を通る追加の流路を含むことができる。検証/確認段階は、ブロック524および529を使用して生じ得る。様々なブロックは、任意選択的であってもよく、または指定された結果を提供するためにハードコード化されてもよく、例えば、特定のモデルでは、モジュール518が常に選択されてもよい。
ブロック502では、例えば、大腸癌(CRC)の存在をスクリーニングするために、臨床疑問が受信される。そのような臨床疑問には、必要とされる分類の数も含まれ得る。例えば、分類の数は、癌の異なる段階に対応することができる。
ブロック504では、コホート(複数可)が設計される。例えば、コホートの数は、分類の数に等しく、コホート内の対象は、同じラベルを有することができる。プロセスの後期または段階で、追加のコホートを加えることができる。
一実施形態では、任意の生化学試験が行われる前に、試料および/または試験の初期選択が存在する。例えば、初期試料、例えば、血液についての情報を得るために、全ゲノム配列決定を選択することができる。かかる初期試料および初期アッセイは、臨床疑問に基づいて、例えば、関連する器官に基づいて、選択することができる。
ブロック506では、初期試料が得られる。試料は、様々なタイプ、例えば、血液、尿、唾液、脳脊髄液、であり得る。初期試料の取得の一部として、試料は、本明細書に記載されるように、画分に分割することができ(例えば、血液を血漿、バフィーコート、エクソソームなどに分割する)、それらの画分は、特定のクラスの分子を有する部分へと、さらに分割することができる。
ブロック508では、1つ以上の初期アッセイが行われる。初期アッセイは、個々のクラスの分子について、操作することができる。アッセイの初期セットの一部またはすべては、様々な臨床疑問にわたってデフォルトとして使用することができる。初期データ510は、データを評価し、機械学習モデルを決定し、潜在的に実施されるさらなるアッセイを提案するために、コンピュータ511に送信することができる。コンピュータ511は、このセクションおよび本開示の他のセクションに記載される操作を行うことができる。
データフィルタモジュール512は、初期データ510をフィルタリングして、フィルタリングされたデータの1つ以上のセットを提供することができる。そのようなフィルタリングは、異なるアッセイからのデータを単に入手することができるが、例えば、生データから測定値を提供するために統計解析を行うなど、より複雑であり得、初期データ510は、生データと見なされる。フィルタリングは、次元削減、例えば、主成分分析(PCA)、非負値行列因子分解(NMF)、カーネルPCA、グラフベースのカーネルPCA、線形判別分析(LDA)、一般化判別分析(GDA)、またはオートエンコーダを含むことができる。フィルタリングされたデータの複数のセットは、単一のアッセイの生データから決定することができる。フィルタリングされた異なるセットのデータを使用して、異なるセットの特徴を決定することができる。一部の実施形態では、データフィルタモジュール512は、下流モジュールによって行われる処理を考慮することができる。例えば、機械学習モデルのタイプは、使用される次元削減のタイプに影響を与え得る。
特徴抽出モジュール514は、例えば、遺伝子データ、非遺伝子データ、フィルタリングされたデータ、および参照配列を使用して、特徴を抽出することができる。特徴抽出は、特徴量エンジニアリングとも称されてもよい。アッセイから得られたデータの特徴は、そのアッセイで得られた分子のクラスの特性に対応するであろう。例として、特徴(およびそれらの対応する特徴量)は、フィルタリングから出力される測定値、そのような測定値の一部のみ、そのような測定値のさらなる統計結果、または互いに付加される測定値であり得る。特定の特徴は、いくつかの特徴が、異なる対象のグループ間で異なる値を有する(例えば、病態を有する対象間および病態を有さない対象間で異なる値)という目標で抽出され、それによって、異なるグループ間の識別、または特性、状態、または形質の程度の推論を可能にする。特徴の例を、セクションVに提供する。
コスト/損失選択モジュール516は、機械学習モデルの訓練において最適化するために特定のコスト関数(損失関数とも称される)を選択することができる。コスト関数は、現在のモデルの精度を定義するための様々な用語を有し得る。この時点で、アルゴリズム的に、他の制約が注入され得る。例えば、コスト関数は、誤分類(例えば、偽陽性および偽陰性)の数を測定することができ、異なるタイプの誤分類の各々についてスケーリング因子を有し、それによって、現在のモデルが満足できるかどうかを判定するために閾値と比較することができるスコアを提供する。また、そのような精度の試験は、特徴のセットおよびアッセイのセットが、満足のいくモデルを提供することができるかどうかを、暗黙的に決定することができ、その特徴およびアッセイのセットでは提供されない場合、異なる特徴のセットが選択され得る。
ある例において、データの分布は、例えば、システムの技術的制御を有するためのモニターされていないタスクのための損失関数の選択に影響を及ぼし得る。この場合、損失関数は、入力データと一致する分布に対応することができる。
モデル選択モジュール518は、使用するモデル(複数可)を選択することができる。そのようなモデルの例としては、ロジスティック回帰、異なるカーネル(例えば、線形または非線形カーネル)を有するサポートベクトルマシン、ニューラルネットワーク(例えば、多層パーセプトロン)、および様々なタイプの決定木(例えば、ランダムフォレスト、勾配木、または勾配ブースティング技術)が挙げられる。複数のモデルを使用することができ、例えば、モデルを順次使用することができる(例えば、1つのモデルの出力が別のモデルの入力に入る)、または並列で使用することができる(例えば、最終的な分類を決定するために投票を使用する)。複数のモデルが選択されている場合、これらはサブモデルと称され得る。
コスト関数は、モデルとは異なり、機能とは異なる。これらのアーキテクチャの異なる部分は、互いに大きな影響を及ぼす可能性があるが、それらは試験設計の他の構成要素とそれに対応する制約によっても定義される。例えば、コスト関数は、特徴の分布、特徴の数値、ラベル分布の多様性、ラベルの種類、ラベルの複雑性、異なるエラータイプに関連するリスクなどを含む、構成要素によって定義することができる。特定の特徴の変更により、モデルやコスト関数が変更され、その逆も同様に変更される可能性がある。
特徴選択モジュール520は、機械学習モデルの訓練における現在の反復のために使用される特徴のセットを選択することができる。様々な実施形態では、特徴抽出モジュール514によって抽出されたすべての特徴を使用することができるか、または特徴の一部のみを使用することができる。選択された特徴の特徴量を決定し、訓練の入力として使用することができる。選択の一部として、一部またはすべての抽出された特徴は、変換を受けることができる。例えば、重みは、例えば、他の特徴(複数可)に対する特定の特徴(複数可)の予想される重要度(確率)に基づいて、特定の特徴に適用され得る。他の例としては、次元削減(例えば、マトリックスの)、分布分析、正規化または正則化、マトリックス分解(例えば、カーネルベースの判別分析および非負値マトリックス因子分解)が挙げられ、これらは、マトリックスに対応する低次元多様体を提供することができる。別の例は、例えば、異なる試料が、異なる機器を使用して測定される場合、ある種類の機器からの生データまたは特徴を、別の種類の機器のものに変換することである。
訓練モジュール522は、サブモデルを含み得る機械学習モデルのパラメータの最適化を行うことができる。様々な最適化技術、例えば、勾配降下または二階導関数(ヘッセ)の使用を使用することができる。他の実施形態では、訓練は、動的プログラミングまたは進化的アルゴリズムなどのヘッセまたは勾配計算を必要としない方法で実装することができる。
評価モジュール524は、現在のモデル(例えば、パラメータのセットによって定義されるような)が出力制約(複数可)に含まれる1つ以上の基準を満たすかどうかを判定することができる。例えば、品質測定基準は、ラベルが既知である試料の訓練セットおよび/または検証セットに対するモデルの予測精度を測定することができる。そのような精度測定基準は、感度および特異度を含むことができる。品質測定基準は、精度、例えば、いくつかのアッセイ、アッセイの予想されるコスト、およびアッセイの測定を行う時間、以外の値を使用して決定され得る。制約が満たされる場合、最終アッセイ529が、提供され得る。最終アッセイ529は、例えば、デフォルトリストにないアッセイが選択されたとき、試験試料に対してアッセイを行うための特定の順序を含むことができる。
出力制約が満たされない場合、様々な項目を更新することができる。例えば、選択された特徴のセットは、更新することができ、または選択されたモデルのセットは、更新することができる。一部またはすべての上流モジュールを評価、チェック、および代替物を提案することができる。したがって、フィードバックは、上流パイプラインの任意の場所に提供することができる。評価モジュール524が、特徴およびモデルの空間が制約を満たすことなく十分に検索された(例えば、枯渇した)と判定すると、プロセスは、さらなるモジュールに流れて、新しいアッセイおよび/または試料の種類を得るように決定することができる。そのような決定は、制約によって定義することができる。例えば、ユーザは、非常に多くのアッセイ(および関連する時間および費用)を行うこと、非常に多くの試料を有すること、または反復ループ(またはいくつかのループ)を何度も行うことだけしかできない。これらの制約は、最小限の測定基準を超える代わりに、現在の一連の特徴、モデル、およびアッセイの試験設計を停止することに寄与し得る。
アッセイ特定モジュール526は、行う新しいアッセイを特定することができる。特定のアッセイが重要でないと判定される場合、そのデータは破棄されることがある。アッセイ特定モジュール526は、特定の入力制約を受信することができ、これを使用して、例えばアッセイを行うコストまたはタイミングに基づいて、選択する1つ以上のアッセイを決定することができる。
試料特定モジュール528は、使用する新しい試料タイプ(またはその一部)を決定することができる。選択は、どの新しいアッセイ(複数可)が行われるかに依存し得る。入力制約は、試料特定モジュール528にも提供され得る。
アッセイ特定モジュール526および試料特定モジュール528は、アッセイおよびモデルが出力制約(例えば、精度)を満たさないという評価である場合、使用することができる。アッセイの廃棄は、そのアッセイまたは試料タイプが使用されない、次のラウンドのアッセイ設計で実施することができる。新しいアッセイまたは試料は、以前に測定されたが、データが使用されなかったものであり得る。
ブロック530では、例えば、コホート内の試料の数を増加させるために、新しい試料タイプ、または、潜在的により多くの同じタイプの試料が得られる。
ブロック532では、例えば、アッセイ特定モジュール526から提案されたアッセイに基づいて、新しいアッセイを行うことができる。
最終アッセイ529は、例えば、セット内のアッセイの順序、データ量、データ品質、およびデータスループット、を指定することができる。アッセイの順序は、コストおよびタイミングを最適化することができる。アッセイの順序およびタイミングは、最適化されるパラメータであり得る。
一部の実施形態では、コンピュータモジュールは、ウェットラボステップの他の部分に通知することができる。例えば、いくつかのコンピュータモジュール(複数可)は、ウェットラボ実験の開始点を通知するために外部データを使用することができる場合など、いくつかのアッセイ開発手順のためのウェットラボのステップに先行することもある。さらに、ウェットラボ実験コンポーネントの出力は、コホート設計および臨床疑問などをコンピュータ構成要素に供給され得る。一方、コンピュータの結果は、コスト関数の選択がコホート設計に与える影響など、ウェットラボにフィードバックされる可能性がある。
4.多検体アッセイの設計方法
図6は、開示される方法の全体的なプロセスフローを示す。この例では、プロセスのステップは、以下の通りである。
ブロック610では、動作中、システムは、それぞれ複数のクラスの分子を含む、複数の訓練用試料を受信し、各々の訓練用試料について1つ以上のラベルが既知である。検体の例として、例えば、無細胞DNA、無細胞RNA(例えば、miRNAまたはmRNA)、タンパク質、炭水化物、自己抗体または代謝産物が、本明細書に提供される。ラベルは、特定の状態(例えば、癌もしくは特定の癌の異なる分類)、または治療応答性についてであってもよい。ブロック610は、測定デバイス、例えば、図1の測定デバイス151~153などの、1つ以上の受信デバイスを含む受信器によって行われてもよい。測定デバイスは、異なるアッセイを実施し得る。測定デバイスは、コンピュータが、特定の生体試料を分類するために特定のMLモデルが必要とする入力特徴の組み合わせを選択することができるように、試料を、使用可能な特徴(例えば、試料からの各検体に関する大量の情報のライブラリ)に変換することができる。
ブロック620では、複数の異なるアッセイの各々について、システムは、複数の訓練用試料の各々について機械学習モデルに入力されるように動作可能な特徴のセットを特定する。特徴のセットは、訓練用試料中の分子のプロパティに対応し得る。例えば、特徴は、異なる領域におけるリードカウント、領域におけるメチル化の割合、異なるmiRNAのカウント数、またはタンパク質のセットの濃度であってもよい。異なるアッセイは、異なる特徴を有し得る。ブロック620は、図5の特徴選択モジュール520によって行われてよい。図5では、特徴選択は、例えば、可能であれば、行われるアッセイの種類に基づいて既に特徴が知られている場合、特徴抽出の前または後に生じ得る。反復手順の一部として、例えば、評価モジュール524からの結果に基づいて、新しい特徴のセットを特定することができる。
ブロック630では、複数の訓練用試料の各々について、システムは、訓練用試料中の分子のクラスのグループを、複数の異なるアッセイに供して、測定値のセットを得る。測定値の各セットは、訓練用試料中の分子のクラスに適用される1つのアッセイに由来し得る。複数のセットの測定値は、複数の訓練用試料について得ることができる。例として、異なるアッセイは、lcWGS、WGBS、cf-miRNA配列決定、およびタンパク質濃度測定であってもよい。一実施例では、1つの部分は、2つ以上のクラスの分子を含有するが、その部分には、1つのタイプのアッセイのみが適用される。測定値は、生データ(例えば、シーケンスリード)の分析から得られる値に対応し得る。測定値の例としては、ゲノムの異なるゲノム領域と部分的または完全に重複する配列のリードカウント、領域におけるメチル化の割合、異なるmiRNAのカウント数、またはタンパク質のセットの濃度である。特徴は、複数の測定値、例えば、測定値の分布の統計値、または互いに付加された測定値の連結から、決定することができる。
ブロック640では、システムは、測定値のセットを分析して、訓練用試料の訓練用ベクトルを得る。訓練用ベクトルは、対応するアッセイの特徴のセットの特徴量を含み得る。各特徴量は、特徴に対応してもよく、1つ以上の測定値を含んでもよい。訓練用ベクトルは、複数の異なるアッセイの第1のサブセットに対応するNセットの特徴のうちの少なくとも2つから、少なくとも1つの特徴を使用して形成され得、Nは、異なるアッセイの数に対応する。訓練用ベクトルは、各試料について決定することができ、訓練用ベクトルは、アッセイの一部または全て、したがって分子のすべてのクラスからの特徴を潜在的に含む。ブロック640は、図5の特徴抽出モジュール514によって行われてもよい。
ブロック650では、システムは、複数の訓練用試料の出力ラベルを得るために、機械学習モデルのパラメータを使用して訓練用ベクトル上で動作する。ブロック650は、機械学習モデルを実装する機械学習モジュールによって行われ得る。
ブロック660において、システムは、出力ラベルを、訓練用試料の既知のラベルと比較する。比較器モジュールは、ラベルのそのような比較を行って、機械学習モデルの現在の状態の誤差の測定を形成することができる。比較器モジュールは、図5の訓練モジュール522の一部であり得る。
複数の訓練用試料の第1のサブセットは、指定されたラベルを有するものとして特定され得、複数の訓練用試料の第2のサブセットは、指定されたラベルを有さないものとして特定され得る。一実施例では、指定されたラベルは、臨床的に診断された障害、例えば、大腸癌である。
ブロック670では、システムは、出力ラベルを訓練用試料の既知のラベルと比較することに基づいて、機械学習モデルの訓練の一部として、パラメータの最適値を反復的に検索する。反復検索を行うための様々な技術、例えば、勾配技術が本明細書に記載される。ブロック670は、図5の訓練モジュール522によって実装され得る。
機械学習モデルの訓練は、例えば、モジュール512~528を通して1つ以上の追加のパスを含み得るリファイメントの段階後、機械学習モデルの第1のバージョンを提供することができる。品質測定基準は、第1のバージョンについて決定することができ、品質測定基準は、1つ以上の基準、例えば閾値、と比較することができる。品質測定基準は、図4について説明されるように、様々な測定基準、例えば、精度測定基準、コスト測定基準、時間測定基準などから構成されてもよい。これらの測定基準の各々は、閾値と個別に比較することができるか、または他にその測定基準が1つ以上の基準を満たすかどうかを判定することができる。比較(複数可)に基づいて、例えば、図5の場合、ブロック526および532で、特徴のセットを決定するための新しいアッセイのサブセットを選択するかどうかを決定することができる。
新しいアッセイのサブセットは、第1のサブセットになかった複数の異なるアッセイのうちの少なくとも1つを含み得る、および/またはアッセイを潜在的に除去し得る。新しいアッセイのサブセットは、第1のサブセットからの少なくとも1つのアッセイを含み得、新しい特徴のセットは、第1のサブセットからの1つのアッセイについて決定され得る。新しいアッセイのサブセットの品質測定基準が、1つ以上の基準を満たす場合、新しいアッセイのサブセットは、例えば、図5の最終アッセイ529として出力され得る。
新しいサブセットが、以前に実施されなかった新しいアッセイを含む場合、訓練用試料中の分子を、複数の異なるアッセイに含まれない新しいアッセイに供して、1つ以上の基準を満たさない新しいアッセイのサブセットについての品質測定基準に基づいて、測定値の新しいセットを得ることができる。新しいアッセイは、分子のクラスのグループにない新しいクラスの分子に対して行うことができる。
ブロック680では、システムは、機械学習モデルのパラメータおよび機械学習モデルの特徴のセットを提供する。機械学習モデルのパラメータは、所定の形式で記憶され得るか、またはパラメータの各々の数および同一性を特定するタグとともに記憶され得る。特徴の定義は、例えば、特徴抽出モジュール514および特徴選択モジュール520を通して現在の反復によって指定されるように、特徴の抽出および選択で使用される設定から取得され得る。ブロック680は、出力モジュールによって行われ得る。
5.癌の特定方法
一態様では、本開示は、対象における癌を特定する方法を提供し、(a)当該対象からの無細胞核酸(cfNA)分子を含む生体試料を提供することと、(b)当該対象からの当該cfNA分子を配列決定して、複数のcfNA配列決定リードを生成することと、(c)当該複数のcfNA配列決定リードを参照ゲノムに整列することと、(d)当該参照ゲノムの第1の複数のゲノム領域の各々で、当該複数のcfNA配列決定リードの定量的尺度を生成して、第1のcfNAの特徴セットを生成することであって、当該参照ゲノムの当該第1の複数のゲノム領域は、少なくとも約15,000個の異なる低メチル化領域を含む、生成することと、(e)当該第1のcfNAの特徴セットに訓練されたアルゴリズムを適用して、当該対象が当該癌を有する可能性を生成することと、を含む。
一部の実施例では、当該訓練されたアルゴリズムは、特異値分解による次元削減を行うことを含む。一部の実施例では、方法は、当該参照ゲノムの第2の複数のゲノム領域の各々で、当該複数のcfNA配列決定リードの定量尺度を生成して、第2のcfNAの特徴セットを生成することであって、当該参照ゲノムの当該第2の複数のゲノム領域が少なくとも約2万個の異なるタンパク質コード遺伝子領域を含む、生成することと、当該第2のcfNAの特徴セットに当該訓練されたアルゴリズムを適用して、当該対象が当該癌を有する当該可能性を生成することと、をさらに含む。一部の実施例では、方法は、第3のcfNAの特徴セットを生成するために、当該参照ゲノムの第3の複数のゲノム領域の各々で、当該複数のcfNA配列決定リードの定量尺度を生成することであって、当該参照ゲノムの当該第3の複数のゲノム領域が、等しいサイズの連続した非重複ゲノム領域を含む、生成することと、当該第3のcfNAの特徴セットに当該訓練されたアルゴリズムを適用して、当該対象が当該癌を有する当該可能性を生成することと、をさらに含む。一部の実施例では、当該参照ゲノムの当該第3の複数の非重複ゲノム領域は、少なくとも約6万個の異なるゲノム領域を含む。一部の実施例では、方法は、当該対象が当該癌を有する当該可能性を示す情報を含むレポートを生成することをさらに含む。一部の実施例では、方法は、当該対象が当該癌を有する当該生成された可能性に少なくとも部分的に基づいて、当該対象のために当該癌を治療するための1つ以上の推奨ステップを生成することをさらに含む。一部の実施例では、方法は、当該対象が当該癌を有する当該可能性が所定の基準を満たすときに、当該対象を当該癌と診断することをさらに含む。一部の実施例では、当該所定の基準は、当該可能性が所定の閾値よりも大きいことである。一部の実施例では、当該所定の基準は、当該診断の精度測定基準に基づいて決定される。一部の実施例では、当該精度測定基準は、感度、特異度、陽性適中率(PPV)、陰性適中率(NPV)、精度、および曲線下面積(AUC)からなる群から選択される。
一部の実施例では、コンピュータモジュールは、ウェットラボステップの他の部分に通知することができる。例えば、いくつかのコンピュータモジュール(複数可)は、外部データを使用してウェットラボ実験の開始点を通知する場合など、いくつかのアッセイ開発手順のためのウェットラボステップに先行してもよい。さらに、ウェットラボ実験コンポーネントの出力は、コホート設計および臨床疑問などのコンピュータ構成要素に供給され得る。一方、コンピュータ結果は、コスト関数の選択がコホート設計に与える影響など、ウェットラボにフィードバックされる可能性がある。
6.結果
表2は、本開示の実施例による、異なる検体および対応する最高性能モデルについての結果を示す。
Figure 0007455757000002
検体にわたって類似している試料を使用した。
表2において、SDは、有意差を指し、異なる分類ラベル間の異なる遺伝子のリードカウントを比較することによって決定される。これは、次元削減の一部である。2つの分類間で有意に異なるものの特徴をフィルタリングしており、次いで、それらを分類に転送する。PCAは、まとめられた特徴のグループを見るが、特定の方法で相関する一方、SDは、個々の特徴を片側的に見る。SDが最も高い特徴(例えば、遺伝子のリードカウント)は、対象の特徴ベクトルに使用することができる。PCAは、最初の少数の構成要素を通じて測定値の投影に関する。これは、例えば、より小さな次元空間における多くの特徴の凝縮された表現である。
表は、検体の異なる組み合わせについて、異なる次元削減(削減なしを含む)を伴う異なるモデルの結果を分析することによって作成された。表には、最高の性能を発揮したモデルが含まれる。一例として、タンパク質が関与する多検体アッセイデータセットについては、次元数が小さい(14)ため、PCAの必要性がない場合があり、したがって、ロジスティック回帰(LR)のみが使用される。
これらのモデルのうち、LRは、PCA(上位5つの構成要素)とともに試され、特徴選択に有意差(特徴の10%を維持)がみられた。PCAは、検体にわたって、または1つの検体内で行うことができる。
特徴カラムは、検体、例えば、遺伝子(無細胞DNA分析)+メチル化、の異なる組み合わせに対応する。2つ以上の検体が使用された場合、2つの選択肢があり、特徴を1つの特徴のセットに組み合わせるか、または、2つのモデルを実行して2つの分類(例えば、分類の確率)を出力し、それらを投票として、例えば、多数決またはいくつかの加重平均または確率として使用して、どの分類が最も高いスコアを有するかを決定する。別の例としては、スコアを見るのとは対照的に、予測の平均またはモードを取ることができる。
交差検証を5回行って、図7Aおよび図7Bの受信者操作特性曲線についてのAUC情報を取得した。試料を、5つの異なるデータセットに(4つのデータセットを訓練用に、5つ目のデータセットを検証用に)分割することができる。感度および特異度は、4つのセットについて決定することができる。さらに、セットへの割り当ては、さらなるデータを提供するために、乱数シードで更新することができる。感度および特異度を決定するために、4つの分類を4つに減らし、健常および良性ポリープを1つの分類として、AAおよびCRCを他の分類として用いた。
図7Aおよび図7Bは、異なる検体の分類性能を示す。
B.実施例2:生体試料の分類のための個々のアッセイの分析
この実施例は、健常な個体、AA、およびCRCのステージを識別するための、複数の検体および複数のアッセイの分析を説明する。
血液試料を、異なる部分に分離し、3つのクラスの分子を、4つのアッセイで調査した。分子のクラスは、無細胞DNA、無細胞miRNA、および循環タンパク質であった。cfDNAに対して2つのアッセイを行った。
非特定化された血液試料は、健常な個体、および良性ポリープ、進行性腺腫(AA)、第I~IV期大腸癌(CRC)を有する個体から得た。血漿を分離後、複数の検体を、以下のようにアッセイした。まず、無細胞DNA(cfDNA)含有量を、低カバレッジ全ゲノム配列決定(lcWGS)および全ゲノムバイサルファイト配列決定(WGBS)により評価した。次に、低分子RNA配列決定により、無細胞マイクロRNA(cf-miRNA)を評価した。最後に、循環タンパク質およびのレベルを、定量イムノアッセイによって測定した。
配列決定されたcfDNA、WGBS、およびcf-miRNAのリードを、ヒト参照ゲノム(hg38)に整列させ、以下のように分析した。材料および方法セクションで、さらに詳細に提供されている。
cfDNA(lcWGS):注釈付きゲノム領域内に整列した断片をカウントし、配列決定の深度について正規化して、試料当たり30,000次元ベクトルを生成し、各要素は、遺伝子のカウントに対応する(例えば、参照ゲノム内のその遺伝子に整列するリードの数)。高い腫瘍画分(>20%)を有する試料を、大規模CNVの手動検査を介して特定した。
WGBS:標的遺伝子(56個の遺伝子)中のLINE-1 CpGおよびCpG部位にわたって、試料当たりのメチル化の割合を計算した。
cf-miRNA:注釈付きmiRNAゲノム領域に整列した断片をカウントし、配列決定の深度について正規化して、試料当たり1700次元ベクトルを生成した。
これらのセットのデータをそれぞれフィルタリングして、測定値を特定することができる(例えば、異なる遺伝子のリードのカウントを得るために参照ゲノムに整列されたリード)。測定値は、正規化することができる。各検体の正規化については、各検体の別のサブセクションで、さらに詳しく記載されている。
各検体についてPCA分析を行い、結果を得た。機械学習モデルの適用は、別のセクションで提供される。
1.cf-DNA低カバレッジ全ゲノム配列決定
注釈付き領域を有する既知の遺伝子のリストについて、配列リードカウントは、その領域に整列した断片の数をカウントすることによって、それらの注釈付き領域の各々について決定した。遺伝子のリードカウントは、例えば、ゲノムが展開される全体的な期待値、試料内正規化、および交差特徴正規化を使用して、様々な方法で正規化することができる。交差特徴正規化は、指定された値、例えば、0、異なる負の値、1、または0~2の範囲、に平均化されるそれらの特徴の全てを指し得る。交差特徴正規化に関して、試料からの総リードは可変であり、したがって、調製プロセスおよび配列決定負荷プロセスに依存し得る。正規化は、グローバル正規化の一部として、一定数のリードになされ得る。
試料内正規化のために、いくつかの領域の、特にGCバイアスのいくつかの特徴または選考する特徴によって正規化することが可能である。したがって、各領域の塩基対の構成は異なり、正規化に使用することができる。場合によっては、GCの数は、有意に高いまたは50%未満であり、その塩基がよりエネルギー性で、プロセスが偏っているため、熱力学的な影響を与える。一部の領域は、実験室における試料調製の生物学的アーチファクトのため、予想以上のリードを与える。したがって、別の種類の特徴/特徴変換/正規化方法を適用することによって、このようなバイアスを補正する必要がある場合がある。
図8Aおよび8Bは、臨床ステージにわたってCNVによって推測された高腫瘍画分試料(すなわち、20%超)の分布を示し、健常と正常との間の差を示す。この実施例では、血漿cfDNAのlcWGSにより、ゲノムにわたるCNVに基づいて、高腫瘍画分(>20%)を有するCRC試料を特定することができた。さらに、高腫瘍画分は、後期CRC試料でより頻繁に観察されるが、ステージIおよびIIのいくつかの試料でも観察された。高腫瘍画分は、健常な個体、または良性ポリープもしくはAAを有する個体からの試料では観察されなかった。
図8A~図8Hは、cfDNA-seqデータに基づいて、高い(>20%)腫瘍画分を有する個体のCNVプロットを示す。なお、図8A~図8Hの各プロットは、自己リードDNAコピー数の固有の試料のヒストグラムに対応することに留意されたい。また、腫瘍画分は、CNVからの推定によって、またはichor DNAなどのオープンソースソフトウェアを使用することによって計算され得ることにも留意されたい。表3は、臨床ステージにわたる高腫瘍画分cfDNA試料の分布を示す。
Figure 0007455757000003
高腫瘍画分試料は、必ずしも後期として臨床的に分類される試料に対応するものではない。図では、健常者の総数は、26人である。「BP」は良性ポリープを指し、「AA」は進行性腺腫を指し、「Chr」は染色体を指す。
2.メチル化
メチル化可変領域(DMR)がCpG部位に使用される。領域は、発見によって動的に割り当てることができる。異なるクラスからいくつかの試料を取り、異なる分類間でどの領域が最も可変的にメチル化されているかを発見することが可能である。次いで、可変的にメチル化されるサブセットを選択し、これらを分類のために使用する。領域で捕捉されたCpGの数が使用される。領域は、可変サイズである傾向があり得る。したがって、いくつかのCPG部位を一緒に領域として束ねる、発見前プロセスを行うことが可能である。この例では、56個の遺伝子およびLINE1要素(ゲノムにわたって繰り返される領域)を研究した。分類を行うために、これらの領域におけるメチル化の割合を調査し、機械学習モデルを訓練するための特徴として使用した。この実施例では、分類は、PCAに使用される本質的に57個の特徴を利用する。特定の領域は、試料を通して十分なカバレッジを有した領域に基づいて、選択することができる。
図9は、LINE-1部位におけるCpGメチル化分析を示し、健常試料と正常試料との間の差を示す。図は、PCAに使用される57領域すべてのメチル化を示す。正常試料について示される各データポイントは、異なる遺伝子領域およびメチル化に関するものである。
この例では、LINE-1 CpG遺伝子座におけるゲノム全体の低メチル化は、CRCを有する個体においてのみ観察された。CRCなしの試料、例えば、健常な個体、または良性ポリープもしくはAAを有する個体からの試料では、低メチル化が観察されなかった。なお、正常の各データポイントは、異なる遺伝子領域およびメチル化に関するものであることに留意されたい。一実施例では、領域にマッピングされるすべてのリードを、計算してもよい。システムは、リードが、メチル化された位置であるかどうかを判定し、次いで、メチル化CpG(例えば、連続的に隣接するCおよびG塩基)とメチル化CpGの数を合計し、メチル化CpGの数対メチル化CpGの数の比を計算することができる。
この例では、有意性を一元配置分散分析(ANOVA)、続いてSidak多重比較検定によって評価した。有意な調整済みP値のみが示されている。LINE-1のCpG低メチル化は、CRC症例でのみ観察された。ポリープ(良性ポリープ)、AA、CRC(ステージI~IV)。5mC、5-メチルシトシン。
部位に整列し、メチル化を有するDNA断片の割合は、対象となる領域全体において研究することができる。例えば、遺伝子領域は、例えば、合計190個のリードごとに(例えば、第1のCpG部位に整列する100個のリード、および第2のCpG部位に整列する90個のリード)、2つのCpG部位(例えば、連続する互いに隣接したCおよびG塩基)を有してもよい。その領域にマッピングされるすべてのリードが見出され、リードがメチル化されているかどうかが観察される。次いで、メチル化CpGの数を合計し、メチル化CpGの数対非メチル化CpGの数の比率を計算する。
3.マイクロRNA
この実施例では、測定可能であった(この実施例では、およそ1700)実質的にすべてのマイクロRNA(miRNA)を、特徴として使用した。測定値は、これらのmiRNAの発現データに関連する。それらの転写物は、一定のサイズであり、各転写物が保管され、それぞれについて見出されるmiRNAの数をカウントすることができる。例えば、RNA配列は、参照miRNA配列、例えば、ヒトトランスクリプトーム内の既知のmiRNAに対応する1700個の配列のセットに整列され得る。見出された各miRNAは、それら自身の特徴として使用することができ、すべての試料にわたって、すべてが特徴のセットとなり得る。一部の試料は、そのmiRNAについて発現が検出されない場合、0である特徴量を有する。
図10は、マイクロRNAを特徴付けるためのcf-miRNA配列決定分析を示す。発現順にランク付けされた、すべての試料からのリードをプールした後、各miRNAにマッピングするリードの数が示される。赤色で示されたmiRNAは、文献では、潜在的なCRCバイオマーカーとして示唆されている。アダプタートリミングされたリードを、bowtie2を使用して、成体ヒトマイクロRNA配列(miRBase21)にマッピングした。少なくとも1リードを有する血漿試料中で1800を超えるmiRNAが検出されたが、375個のmiRNAは、より高い存在量で存在した(試料当たり平均≧10リードで検出された)。
一実施例では、すべての試料が採取され、リード値が一緒に集約される。試料中に見出される各マイクロRNAについて、多数の集約リードが見出され得る。この実施例では、約1000万の集約リードが1つの単一のマイクロRNAにマッピングされることが見出され、集約では、300個のマイクロRNAが、1,000個を超えるリードで見出され、約600個が、100個を超えるリードで見出され、1,200個が、10個のリードで見出され、1,800個程度が、単一のリードのみで見出された。高い発現ランクを有するマイクロRNAは、より大きな絶対変化で信頼性のより高いシグナルが得られ得るため、より良いマーカーを提供し得ることに留意されたい。
CRCを有する個体におけるcf-miRNAのプロファイルは、健常な対照におけるものと不整合であった。この実施例では、文献で潜在的なCRCバイオマーカーとして示唆されるmiRNAは、他のmiRNAと比較して、より高い存在量で存在する傾向にあった。
4.タンパク質
タンパク質データは、標準曲線(14のタンパク質)により正規化した。14のタンパク質の各々は、本質的に固有なイムノアッセイであるため、各々は、独自の標準曲線を有し、典型的には組換えタンパク質であり、最適化された緩衝液中で非常に安定である。したがって、多くの方法で計算され得る、標準曲線が生成される。濃度の関係は、典型的には非線形である。次いで、試料を実行し、一次試料中の予想される蛍光濃度に基づいて計算する。測定値は、三重で測定してもよいが、例えば、平均化またはより複雑な統計分析によって、14個の個々の値に低減することができる。
図11Aおよび図11B~図11Gは、循環タンパク質のバイオマーカーの分布を示す。図11Aは、分析されたすべての循環タンパク質のレベルを示すボックスプロットであり、外れ値を菱形で示している。図11B~図11Gは、一元配置分散分析、続いてSidakの多重比較試験により、タンパク質のレベルが、組織タイプにわたって有意に異なっていることを示す。有意な調整済みP値のみが示されている。SIMOA(Quanterix)を使用して測定したタンパク質:ATP結合カセットトランスポーターA1/G1(A1G1)、アシル化刺激タンパク質(C3a des Arg)、癌抗原72-4(CA72-4)、癌胎児性抗原(CEA)、サイトケラチン断片21-1(CYFRA21-1)、FRIL u-PA。ELISA(Abcam)によって測定したタンパク質:AACT、カテプシンD(CATD)、CRP、皮膚T細胞誘導ケモカイン(CTACK)、FAP、マトリックスメタロプロエイナーゼ-9(MMP9)、SAA1。
この実施例では、CRC試料において、アルファ-1-アンチキモトリプシン(AACT)、C反応性タンパク質(CRP)、および血清アミロイドA(SAA)タンパク質の循環レベルが上昇したが、ウロキナーゼ型プラスミノーゲンアクチベーター(u-PA)レベルは、健常対照と比較して低かった。AA試料では、線維芽細胞活性化タンパク質(FAP)およびFlt3受容体相互作用レクチン前駆体(FRIL)タンパク質の循環レベルが上昇したが、CRPレベルは、CRC試料と比較して低かった。
この実施例では、一部の分散分析プロット間で、差異が観察され得る。例えば、CRPは、予測可能であるように見える。FAPは、異なるものでは変動する。したがって、多検体試験は、集約傾向を示し得るが、それぞれを個別に評価することは、困難な場合がある。
5.次元削減(例えば、PCAまたは有意差)
主要成分分析(PCA)は、検体ごとに行った。一実施例では、PCAは、タンパク質、無細胞DNA、メチル化、およびマイクロRNAのデータに対して行われる。したがって4つのPCAを、その文脈で行うことができる。
一実施例では、14のタンパク質を、単一の検体として考慮することができる。タンパク質については、14の測定値があり、したがって、個々の蛍光に基づいて14の濃度が存在する。これらは、14でベクトル化されている。PCAの出力は、変動の31%を説明する構成要素1、および変動の17%を説明する構成要素2など、とすることができる。これによって、どのタンパク質が、最も変動をもたらすかを特定することができる。
無細胞DNAに対するlcWGSについては、遺伝子カウントの統計値(例えば、平均値、中央値など)の差を使用して、最も分散性の高い遺伝子を特定する。
図12A~図12Dは、腫瘍画分の関数として、cf-DNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCA分析の出力を示す。図12E~図12Hは、検体の関数として、cf-DNA、CpGメチル化、cf-miRNAおよびタンパク質カウントのPCAを示す。高腫瘍画分試料は、調査した4検体すべてにわたって、一貫して異常挙動を有する。
図12A~図12Dの例では、PCAを使用して、高腫瘍画分と低腫瘍画分との間の距離を分離する。図12E~図12Hでは、それは、異なる検体の試料分類である(正常、健常、良性ポリープ、および大腸癌)。開示されるシステムおよび方法を使用して、かかるクラス間の差異を最大化することができる。この実施例では、検体にわたる異常なプロファイルは、癌のステージではなく、高TF(cfDNA CNVから推定される)を示した。示された各ドットは、別個の試料に対応し、PCAは、最も高い成分の値である。
様々な実装が、次元削減のために使用され得る。次元削減について、複数の異なる仮説検定を使用して計算することができ、例えば、有意差、およびいくつを含むかの閾値を設定するために使用される複数の異なる基準がある。PCAまたはSVD(特異値分解)は、データ自体ではなく相関マトリックスまたは共分散マトリックス上で行われ得る。オートエンコードまたは変分オートエンコードを使用することができる。このようなフィルタリングは、低分散を有する測定値(例えば、領域のカウント)をフィルタリングすることができる。
6.結論
血漿cfDNAのlcWGSは、ゲノムにわたるコピー数多型(CNV)に基づいて、高い腫瘍画分(>20%)を有するCRC試料を特定することができた。高腫瘍画分は、後期癌試料でより頻繁に観察されるが、一部のステージIおよびIIの患者でも観察された。また、健常な対照のもとの不整合な3つの他の検体(cf-miRNAプロファイル)の各々における異常なシグナル、LINE1(長鎖散在反復配列1)CpG遺伝子座におけるゲノム全体での低メチル化、ならびに、循環癌胎児性抗原(CEA)およびサイトケラチン断片21-1(CYFRA 21-1)タンパク質のレベルの上昇、も癌患者において観察された。驚くべきことに、多検体にわたる異常なプロファイルは、癌のステージではなく、高い腫瘍画分(cfDNA CNVから推定される)を示した。
これらのデータは、腫瘍画分が癌のステージと相関しているが、初期試料においても大きな潜在的範囲を有することを示唆している。癌の検出のための血液ベースのスクリーニングに関する以前の文献は、異なる単一の検体が早期癌を検出する主張された能力の点で不一致を示してきた。
cfDNA CpGメチル化、cf-miRNA、および循環タンパク質レベルの間の異常なプロファイルが、後期よりも高腫瘍画分とより強く関連していたことを我々が見出したことから、歴史的な不一致が、腫瘍画分により説明され得るかもしれない。これらの知見は、一部の陽性の「初期」の検出結果が、実は「高い腫瘍画分」の検出結果である可能性を示唆している。結果は、単一の試料から多検体をアッセイすることで、低腫瘍画分で信頼性があり前悪性疾患または早期疾患を検出するための分類器の開発が可能になることをさらに実証する。かかる多検体分類器を、以下に記載する。
C.実施例3:複数の試料にわたるcfDNAからの2つの異なるゲノム領域における配列深度の共分散を使用したHi-C様構造の特定。
この実施例は、単一試料中のcfDNAからの2つの異なるゲノム領域におけるHi-C様構造の特定方法を説明し、多検体モデルの生成のための特徴として、起源の細胞型を特定する。
複数のcfDNA試料のゲノム配列を、様々な長さの非重複ビン(例えば、10-kb、50-kb、および1-Mb非重複ビン)にセグメント化した。次いで、各ビン内の高品質マッピング化断片の数を定量化した。高品質マッピング化断片は、品質閾値を満たした。次いで、ピアソン/ケンダル/スピアマン相関を使用して、同じ染色体内のビン由来のペア間、または異なる染色体間の相関を計算した。相関マトリックスのニュアンス構造から計算された構造スコアを使用して、図13に示されるヒートマップを生成した。図14に示すように、Hi-C配列決定を使用して決定された構造スコアを使用して、同様のヒートマップを生成した。2つのヒートマップの類似性は、共分散を使用して決定されたニュアンス構造が、Hi-C配列決定によって決定された構造と類似していたことを示唆する。GCバイアス、ゲノムDNA、およびMNase消化における相関構造に起因する潜在的な技術的バイアスを排除した。
ゲノム領域(より大きなビンサイズ)を、より小さいビンに分割し、コルモゴロフ-スミルノフ(KS)検定を使用して、2つのより大きなビン間の相関を計算した。KS検定スコアは、癌および対照群を識別するために使用することができるHi-C様構造に関する情報を提供した。
2次元セグメンテーション(HiCseg)を使用して、cfDNAおよびHi-Cにおける相関構造におけるドメインをセグメント化し、コールした。2つのアプローチは、同様の数のドメインおよび高度に重複するドメインをもたらした。
cfDNA特異的共放出パターンの特定。cfDNAにおける共分散構造分析は、クロマチン構造、ゲノムDNA、MNase消化、およびcfDNAの可能な共放出パターンを含む複数の供給源からの混合入力シグナルパターンを示した。深層学習を使用して、他の源からのシグナルを除去し、cfDNAの潜在的な共放出パターンのみを保持した。
癌試料および非癌試料中のクロマチンの三次元的な近接は、長距離空間相関断片化パターンから推測することができる。異なるゲノム領域からのcfDNAの断片化パターンは、均一ではなく、ゲノムの局所的なエピジェネティックシグネチャを反映する。長距離エピジェネティック相関構造と高次クロマチン組織との間には高い類似性がある。したがって、長距離空間相関断片化パターンは、クロマチンの三次元的な近接を反映し得る。cfDNA中の断片長のみを使用して、共断片化パターンから推測されるインビボ高次クロマチン組織のゲノム全体のマップを生成した。内因性の生理学的プロセスから生成された断片は、Hi-Cライブラリ調製中のランダムライゲーション、制限酵素消化、およびビオチンライゲーションに関連する技術的変動の可能性を低減することができる。試料の収集と前処理:結腸癌(大腸癌)と診断された45人の患者、肺癌と診断された49人の患者、および黒色腫と診断された19人の患者から遡及的ヒト血漿試料(>0.27mL)を取得した。現在癌診断を受けていない患者からも、100個の試料を取得した。合計で、試料は、南欧および北欧、ならびに米国より、商業的バイオバンクから収集された。すべての試料を非特定化した。血漿試料は、-80℃で保管し、使用前に解凍した。
無細胞DNAを、製造業者の説明書に従って、MagMAX無細胞DNA単離キット(Applied Biosystems)を使用して、250μLの血漿(試料追跡のために、固有の合成dsDNA断片でスパイクされている)から抽出した。ペアエンド配列決定ライブラリを、NEBNext Ultra II DNAライブラリ調製キット(New England Biolabs)を使用して調製し、2x51塩基対で複数のS2またはS4フローセルにわたり、デュアルインデックスを用いて、Illumina NovaSeq 6000配列決定システム上で配列決定した。
全ゲノム配列決定のデータ処理:BWA-MEM 0.7.15を使用して、リードを脱多重化し、ヒトゲノム(デコイ、altコンティグ、およびHLAコンティグを有するGRCh38)に整列させた。固有の分子識別子(UMI)を使用して、PCR重複断片を除去した。コンタミネーションは、1000ゲノム(IGSR)によって特定された一般的なSNPについて、考えられるすべての遺伝子型およびコンタミネーション画分にわたって周辺化されたコンタミネーションモデルを使用して評価した。
以下の条件のいずれかを満たす場合、シーケンシングデータの品質をチェックし、分析から省いた:ATドロップアウト>10またはGCドロップアウト>2(いずれもPicard 2.10.5を介して計算)。予想対立遺伝子画分<0.99、予想外遺伝子型コール、または失敗陰性対照のためにコンタミネーションが疑われる任意の試料を、データセットに含める前に手動で検査した。アダプターは、デフォルトパラメータを用いてAtroposによりトリミングされた。すべての下流分析には、両端が一意にマッピングされた(マッピング品質スコアが60を超える)、適切にペアリングされた高品質のリードのみが使用され、PCR重複は使用されなかった。すべての下流分析には、常染色体のみを使用した。
Hi-Cライブラリの調製:全血細胞および好中球のインサイチュHi-Cライブラリ調製は、Arimaゲノミクスサービスを使用することによって行った。
Hi-Cデータ処理:生のFastqファイルは、Juicerboxコマンドラインツールv1.5.6を通して一様に処理した。リードをフィルタリングした後、30超のマッピング品質スコアを有する結果を用いて、ピアソン相関マトリックスおよび区画A/Bを生成した。主成分分析(PCA)は、Python 3.5のscikit-learn 0.19.1におけるPCA関数により計算した。第1主成分を使用して、区画をセグメント化した。各染色体について、区画を符号に基づいて2つの群にグループ化した。遺伝子密度の平均値が低い区画の群は、区画Bとして定義した。他方の群は、区画Aとして定義した。遺伝子密度は、アンサンブルv84によって注釈付けされた遺伝子番号によって決定した。配列決定の要約統計量および関連するメタデータ情報を、表4に示す。
Figure 0007455757000004
複数試料cfHi-C:マッピング可能性(mappability)が0.75未満の500kbビンを、下流分析のために除去した。最初に、各500kbのビンを、50kbのサブビンに分割した。各サブビンの断片長の中央値を、まず、500kbビンにまとめ、次に、各染色体および各試料の平均および標準偏差を用いて、zスコア法により正規化した。すべての個体にわたって各対のビン間のピアソン相関を計算した。
単一試料cfHi-C:マッピング可能性が0.75未満の500kbビンを、下流分析から除去した。次いで、各500kbビン中のすべての高品質断片の断片長を決定した。500kbビンの各対内の断片長の分布類似性は、2標本KS検定(Python 3.6でSciPy 1.1.0に実装されたks_2samp関数)によって計算した。その後、P値を、log10スケールに変換した。次いで、特定のペアビンについて、ピアソン相関を計算した。
配列組成およびマッピング可能性バイアス分析:マッピング可能性スコアを、51bpのリード長について、GEM17によって生成した。G+C%を、UCSCゲノムブラウザからのgc5塩基トラックによって計算した。500kbビンの各ペアについて、G+C%およびマッピング可能性を、ビン1およびビン2から得た。次いで、勾配ブースティングマシン(GBM)回帰木(GradientBoostingRegressor関数をPython 3.6のscikit-learn 0.19.1で実装)を適用して、cfHi-C、gDNA、およびHi-Cデータのマトリックスから、相関係数スコアの各ピクセルのG+C%およびマッピング可能性を回帰させた。N_estimatorsは、異なるモデル複雑性で深度=5で変化した。次いで、回帰後の残存値を使用して、画素レベルでの全血細胞(WBC)Hi-Cデータとの相関を計算した。r2値を計算して、モデルの適合度を測定した。
cfHi-Cにおける起源の組織分析:cfHi-Cデータから起源の組織を推論するために、cfHi-Cデータの区画(cfHi-Cにおける相関行列上の最初のPC)を、各参照Hi-Cデータにおける区画の線形組み合わせとしてモデル化した(cfHi-Cにおける相関行列上の最初のPC)。固有値を再評価し、区画Aが正の数であることを確認した。マッピング可能性が0.75未満のゲノム領域は、フィルタリングで除いた。cfHi-Cおよび参照Hi-Cパネルにわたる固有値を、分位正規化(quantile normalization)によって最初に変換した。各参照Hi-Cデータセットについて、逆畳み込み分析には、参照Hi-Cデータセットの残りに対して最も高い固有値を示したゲノムのビン(固有値が陰性の場合は最低)のみを使用した。重みは、合計が1になるように制約することで、重みがcfDNAへの組織寄与として解釈できるようにした。二次計画法を使用して、制約最適化問題を解いた。腫瘍画分を定義するために、癌からの組織寄与画分をまとめた。
ichorCNA分析:デフォルトパラメータを用いたichorCNA v0.1.0を使用して、内部健常試料の群に正規化した後、各cfDNA WGS試料中の腫瘍画分を計算した。
コードおよびデータの利用可用性:すべての分析コードは、Python3.6およびR3.3.3に実装された。試験に使用された一般に利用可能なデータを、表5に示す。各cfDNA試料のゲノムビンのレベルにおける断片長の詳細な要約統計量。
Figure 0007455757000005
ペアエンド全ゲノム配列決定(WGS)を、568個の異なる健常な個体からのcfDNA上で行った。各試料について、平均3.95億個のペアエンドリード値を得た(約12.8倍のカバレッジ)。品質管理およびリードフィルタリング後、各試料について平均3.10億個の高品質ペアエンドリード値(約10倍のカバレッジ)を得た。オートソームを500kbの非重複ビンに分割し、各個々の試料について、各ビンにおける断片長のみから、正規化断片化スコアを計算した。次いで、ピアソン相関係数を、すべての個体にわたる正規化断片化スコアで、ビンの各ペア間で計算した。cfDNAの断片化相関マップと、2人の健常な個体由来の全血細胞(WBC)からのHi-C実験の区画との間に、同様のパターンが見られた(図15A-Cおよび図15D)。図15A-Cは、Hi-Cから生成された相関マップ、複数のcfDNA試料からの空間相関断片長、および単一のcfDNA試料からの空間相関断片長の分布を示す。図15Dは、Hi-C(WBC)、複数試料cfDNA、および単一試料cfDNAからの、区画A/Bのゲノムブラウザトラックを示す。すべての比較は、染色体14(chr14)から行った。
類似性の程度を定量化するために、Hi-CとcfDNAから推測されるクロマチン組織との間のピアソン相関を、画素レベルで計算した(ゲノム全体の平均ピアソンr=0.76、p<2.2e-16)。Hi-Cに示される画素レベルの相関係数を、2人の異なる健常な個体の複製から計算した。cfDNAに示される画素レベルの相関係数(図15Eの複数試料および図15Fの単一試料)を、WBC個体2との相関によって計算した。
Hi-Cデータにおける区画A/BおよびcfDNAから推定されるクロマチン組織を、さらにコールした。区画レベルでは、Hi-CとcfDNAから推定されるクロマチン組織との間に、より高い一致度がみられた(ピアソンr=0.89、p<2.2e-16)。Hi-Cから呼び出された区画A/Bは、cfDNAからの結果と大きく重複していた(超幾何検定p<2.2e-16)。このアプローチは、cfHi-Cと称される。
cfHi-Cの単一試料レベルへの適用を拡大するために、各試料中の各500kbビンを、より小さい5kbサブビンに分割し、コルモゴロフ-スミルノフ(KS)検定を使用して、各ペアの500kbビン間の断片化スコア分布の類似性を測定した。さらにKS検定は、画素レベルおよび区画レベルの両方において、Hi-CとcfHi-Cとの間の高い相関を確認した(図16Aおよび図16B)。NovaSeqにおけるパターン化フローセル技術に起因する可能性のある内部ライブラリ調製バイアスおよび配列決定バイアスを排除するために、HiSeq 2000プラットフォーム(BH01)によって生成された一般に入手可能な外部cfDNAデータセットを使用して、アルゴリズムを複製した。このデータセットを使用して、健常なcfDNA試料中で同様のパターンが観察された(図15D)。
配列組成によって引き起こされる可能性のある技術的バイアスを排除するために、局所重み付き散布図平滑化(LOWESS)法を適用して、各ビンの断片長を平均G+C%値で正規化した。G+C%を回帰した後、WBCにおけるHi-Cと複数試料cfHi-Cとの間の高い類似性が観察された(ピアソン相関r=0.57、p<2.2e-16、図17A-Dの図17Aおよび図17A-Dの図17B)。
陰性対照として、120人の個体由来の初代白血球からのゲノムDNA(gDNA)を使用して、同じステップを繰り返した。G+C%を回帰する前に、再び、Hi-CとgDNAとの間に、比較的高い類似性がみられた(ピアソン相関r=0.40、p<2.2e-16、図17A-Dの図17Cおよび図17A-Dの図17D)。しかしながら、gDNA中のG+C%で正規化した後、Hi-CとgDNAとの間には、低い残存類似性が観察され(ピアソン相関r=0.15、p<2.2e-16、図17A-Dの図17D)、Hi-C様ブロック構造は、もはや観察されなかった。図17Eは、図17A-Dの図17A~17Dに表されるすべての染色体にわたる、Hi-C(WBC、反復2)との画素レベルの相関(ピアソンおよびスピアマン)のボックスプロットを示す。
二次元空間におけるG+C%の効果およびマッピング可能性を明らかにするために、GBM回帰木をcfHi-Cに適用した。cfHi-Cマトリックス上の各ピクセルについて、相互作用ペアビンにおける2つのG+C%およびマッピング可能性の値を取得し、次いで、cfHi-Cマトリックスの各ピクセルにおけるシグナルからのG+C%およびマッピング可能性を回帰させた。G+C%のバイアスおよびマッピング可能性を回帰した後、WBC中のHi-Cと、複数試料(ピアソン相関r=0.28、p<2.2e-16、n_estimator=500、図18A)および単一試料cfHi-C(ピアソン相関r=0.36、p<2.2e-16、n_estimator=500、図18B)の両方との間の著しい残存類似性が観察された。
gDNAを使用した陰性対照では、WBCにおけるHi-Cと複数試料(ピアソン相関r=0.009、p=0.0002、図18C)および単一試料gDNA(ピアソン相関r=-0.03、p<2.2e-16、図18D)の両方との間の残存類似性は、同じ範囲のモデル複雑性において、観察されなかった。さらに、cfDNA中の各ペアのビンについて、ビンのうちの1つを、同じG+C%およびマッピング可能性を有する別の染色体由来のランダムなビンで置換し、共断片化スコアを再計算した。シミュレートされたcfHi-Cマトリックス上で同じGBM回帰木アプローチを使用することによって、同じ範囲のモデル複雑性において、Hi-Cと有意に低い残存類似性が観察された(ピアソン相関r=0.13、p<2.2e-16、図18E)。
G+C%およびマッピング可能性を回帰した後、モデルが生物学的シグナルを保持していたことを実証するために、同じ回帰木アプローチを、別の個体からのWBC Hi-Cに適用した(反復1)。複製では、依然として高い類似性が観察された(ピアソン相関r=0.53、p<2.2e-16、図18F)。
分析に対するモデルの複雑性効果を探索するために、回帰木を異なるモデルの複雑性(n_estimator)で繰り返した。別の個体からの複数試料cfHi-C、単一試料cfHi-C、およびHi-Cを使用して、高いモデル複雑性であっても、Hi-Cとの相関を除去することは困難であった。この現象は、複数試料gDNA、単一試料gDNA、および置換ビンを有するcfHi-Cなどの陰性対照試料では生じなかった。
複数試料cfHi-Cにおいて観察された共断片化パターンが、配列決定およびライブラリ調製中のバッチ欠陥に起因する可能性を排除するために、cfHi-C中の各ペアのビンについて個体間で1つのビンを無作為にシャフルした。予想通り、Hi-Cとの相関は観察されなかった(ピアソン相関r=-0.0002、p=0.74、図19Aおよび図19D)。同じバッチ内の試料(18試料)から、複数試料cfHi-Cマトリックスを生成した。画素レベルでのHi-C(ピアソン相関r=0.60、p<2.2e-16、図19Bおよび図19D)と、同じサイズにダウンサンプリングされた試料(ピアソン相関r=0.63、p<2.2e-16、図19Cおよび図19D)との間に、高い相関が観察された。
このアプローチの堅牢性を試験するために、異なる試料サイズのデータを、複数試料cfHi-Cについて無作為にサブサンプリングした。試料サイズが10で、画素レベルでは約0.55、WBC Hi-Cとの区画レベルでは0.7の相関係数が得られた。試料サイズが80を超える飽和が得られた(図20A~20D)。
ビンサイズの効果を理解するために、異なるビンサイズで、同じ手順を繰り返した。異なる分解能でのHi-C実験との高い一致が、一貫して観察された(図21A~21H)。単一試料cfHi-Cにおける配列決定深度の効果を明らかにするために、断片番号を、異なるサイズにダウンサンプリングした。約0.7倍のカバレッジであっても、WBC Hi-Cとの画素レベルで約0.45、および区画レベルで0.7の相関係数が依然として得られた(図22Aおよび図22B)。
観察されたcfHi-Cシグナルが異なる病理学的条件で変化するかどうかを判定するために、45人の大腸癌、48人の肺癌、および19人の黒色腫の癌患者から得られたcfDNAについて、同様の配列決定深度で追加のWGSを生成した。すべてのcfHi-C試料にわたって区画レベルで固有値を標準化した後、主成分分析(PCA)を、すべての健常試料および高腫瘍画分(腫瘍画分>=0.2、ichorCNAにより推定)を含有する選択された癌試料に適用した。500kb分解能でも、健常および異なるタイプの癌試料の間で分離が観察された(図23A)。半モニター次元削減法、正準相関分析(CCA)をさらに適用することにより、健常試料と癌試料との間で明確な分離が観察された(図23B~23F)。
cfDNAを通して測定したインビボクロマチン組織を使用して、健常な個体および癌を有する患者において、cfDNAに寄与する細胞型を推論することができるかどうかを決定するために、Hi-Cデータで観察された固有値の振幅を、染色体における開閉状態の振幅と相関させた。GM12878からの500kb分解能では、Hi-C区画におけるDNase-seqのシグナル強度と固有値との間に、有意に高い相関が観察された(ピアソン相関r=0.8、p<2.2e-16、図24)。この観察は、区画レベルでの固有値が、染色体の開放度を定量化するために、さらに使用され得ることを示唆した。
起源の組織分析のための参照Hi-Cパネルを生成するために、18個の異なる細胞型からのHi-Cデータを、異なる病理学的および健常状態から均一に処理した。相関パターンが細胞特異的であるかどうかを判定するために、インサイチュHi-Cデータを、19.6億ペアのリードおよび10.6億の高品質接触を有する好中球細胞から生成した(マッピング品質スコア>30)。参照Hi-Cパネルから特定された細胞型特異的区画における分位正規化固有値を使用して、異なるタイプの白血球から、約80%のcfDNAが検出され、cfHi-C内の癌細胞からは、ほとんどcfDNAが検出されなかった(図25A~25C)。健常試料とは対照的に、関連する細胞型からの増加した癌成分の画分が、cfHi-Cを使用して、大腸癌、肺癌、および黒色腫試料において観察された(図25Aおよび図25B)。
ライブラリ調製および配列決定中に考えられるアーチファクトを排除するために、健常な個体、大腸癌、肺扁平上皮癌、小細胞肺腺癌、および乳癌の試料から一般に利用可能なcfDNA WGSデータを使用して、手順を反復した。同様の結果が観察された(図25Aおよび25B)。
アプローチの精度を定量化するために、cfHi-Cによって推定される腫瘍画分を、ichorCNAによって推定されるものと比較した。ichorCNAは、cfDNA中のコピー数多型(CNV)を使用して、カバレッジにより腫瘍画分を推定するための直交法である。健常な個体において同様の低腫瘍画分が観察され(腫瘍画分中央値=0.00、平均値=0.02、図25C)、異なる癌患者において、ichorCNAと有意な高い一致が観察された(図26)。
後期癌からの交絡CNVを回避するために、起源の組織分析のための任意の有意なCNVシグナルを有するゲノム領域を除外した。結果は、後期癌試料の除外前の結果とほぼ同じであった。
cfDNAで観察される長距離、空間相関断片化パターンが、主にエピジェネティックランドスケープの影響を受ける場合、類似の2次元Hi-C様パターンは、異なるエピジェネティックシグナルで観察され得る。この仮説を単一試料レベルで試験するために、修正KS試験を使用して、GM12878からの異なるエピジェネティックシグナルにおけるペアビン間の類似性を決定した。DNase-seq、全ゲノムバイサルファイト配列決定(WGBS)からのメチル化レベル、H3K4me1 ChIP-seq、およびH3K4me2 ChIP-seqを使用した同じ細胞型からのHi-C実験と、高い一致が観察された。この観察は、これらのエピジェネティックマークから推測される「仮想区画」が、ニュアンスの起源の組織分析を行うための包括的な参照パネルであることを示唆している。
結論として、これらの分析は、異なる臨床条件についてインビボでクロマチン組織および細胞型組成の経時的変化をモニターするために、cfDNAをバイオマーカーとして使用する可能性を実証する。
D.実施例4:大腸癌、乳癌、膵臓癌、または肝臓癌の検出
この実施例では、人工知能ベースのアプローチを使用して、対象から取得したcfDNAデータを分析するために、予測分析の実行を使用することを説明する(癌、例えば、大腸癌、乳癌もしくは肝臓癌もしくは膵臓癌、を有する対象の診断の出力を生成するため)。
遡及的ヒト血漿試料は、大腸癌(CRC)と診断された937人の患者、乳癌と診断された116人の患者、肝臓癌と診断された26人の患者、および膵臓癌と診断された76人の患者から取得した。加えて、605個の対照試料のセットを、現在癌診断を受けていない(ただし、潜在的に他の併存症または未診断の癌を有する)患者から取得し、そのうちの127個は、大腸内視鏡検査で陰性と確認された。合計で、試料は、南欧および北欧ならびに米国より、11の機関および商業バイオバンクから収集した。すべての試料を非特定化した。
CRCモデルの対照試料には、肝臓対照試料を除くすべての試料が含まれる(n=524)。乳癌モデルにおける対照試料(n=123)には、乳癌試料に寄与する同じ機関からの試料が含まれた。肝臓癌試料は、25個の適合した対照試料を有する症例対照研究に由来する。対照試料は、事実上HBV陽性であるが、癌については陰性である。膵臓癌試料および対応する対照も、単一の機関から入手した。66個の対照のうち、45個の対照試料は、膵炎、CBD結石、良性狭窄、偽嚢胞などを含むいくつかの非癌性病理を有する。
各患者の年齢、性別、および癌のステージ(利用可能な場合)を、各試料について得た。各患者から採取した血漿試料を、-80℃で保存し、使用前に解凍した。
無細胞DNAを、製造業者の説明書に従って、MagMAX無細胞DNA単離キット(Applied Biosystems)を使用して、250μLの血漿(試料追跡のために、固有の合成二本鎖DNA(dsDNA)断片でスパイクされている)から抽出した。ポリメラーゼ連鎖反応(PCR)増幅および固有分子識別子(UMI)を含むNEBNext Ultra II DNA Library Prep Kit(New England Biolabs)を使用して、ペアエンド配列決定ライブラリを調製し、複数のS2またはS4フローセルにわたり2x51塩基対でIllumina NovaSeq6000配列決定システムを使用して、少なくとも4億リード(中央値=6.36億リード)を配列決定し、ただし肝臓癌試料については、少なくとも4百万リード(中央値=2.8百万リード)を配列決定した。
得られた配列決定リードを、脱多重化し、アダプタートリミングし、Burrows Wheeler aligner(BWA-MEM 0.7.15)を使用して、ヒト参照ゲノム(デコイ、altコンティグ、およびHLAコンティグを有するGRCh38)に整列させた。PCR重複断片は、存在する場合、断片エンドポイントまたは固有分子識別子(UMI)を使用して除去した。
肝臓癌実験を除くすべての試料について、配列決定データを、品質についてチェックし、以下の条件のいずれかを満たす場合、さらなる分析から除外した:約10を超えるATドロップアウト(Piccard 2.10.5を介して計算)、約2を超えるGCドロップアウト(Piccard 2.10.5を介して計算)、または約10倍未満の配列決定深度。さらに、性染色体での相対カウントが注釈付き性別と一致しなかった試料を、さらなる処理から除去し、廃棄した。さらに、データセットに含める前に、コンタミネーションが疑われる任意の試料を(例えば、約0.99未満の予想対立遺伝子画分、予想外遺伝子型コール、またはコンタミネーションした陰性対照を有するバッチのため)、手動で検査した。
ゲノムの各推定タンパク質コード領域に整列した断片の数をカウントすることによって、各試料について、cfDNA「プロファイル」を作成した。このタイプのデータ表現は、少なくとも2つのタイプのシグナルを捕捉することができる。(1)体細胞CNV(遺伝子領域がゲノムのサンプリングを提供し、任意の一貫した大規模増幅または欠失の捕捉を可能にする)、および(2)カバレッジで観察された変化を引き起こす可変ヌクレオソーム保護による、cfDNAに表される免疫系のエピジェネティック的変化。
推定タンパク質コード遺伝子領域を含む(イントランおよびエクソンの両方を含むゲノム座標範囲を有する)ヒトゲノムの機能領域のセットは、配列決定データに注釈を付けた。タンパク質コード遺伝子領域(「遺伝子」領域)の注釈は、包括的ヒト発現配列(CHESS)プロジェクト(v1.0)から入手した。一連のゲノム領域に対応するcfDNA断片のカウントのベクトルを含む注釈付きヒトゲノム領域から、特徴セットを生成した。特徴セットは、注釈付き遺伝子領域の各々と重複する少なくとも60のマッピング品質を有するいくつかのcfDNA断片を、少なくとも1塩基によりカウントすることによって取得し、それによって、各試料について「遺伝子特徴」のセット(D=24,152、1352Mbをカバーする)を生成した。
カウントの特徴化ベクトルを、以下の変換を介して前処理した。第1に、性染色体に対応するcfDNA断片のカウントを除去した(常染色体のみを保持した)。第2に、低品質のゲノムビンに対応するcfDNA断片のカウントを除去した。第3に、その長さについて、特徴を正規化した。低品質のゲノムビンは、約0.75未満のビンにわたる平均マッピング可能性、約30%未満もしくは約70%超のGCパーセンテージ、または約10%超の参照ゲノムN含有量のいずれかを有することによって、特定した。第4に、cfDNA断片の数について、深度の正規化を行った。試料深度正規化ごとに、試料中のビンにわたるカウントの平均を計算する前に、ビンの底部および上部の10パーセントを除去することによってトリミングした平均を生成し、トリミング平均をスケーリング因子として使用した。GC補正をcIDNA断片のカウントに適用し、Loess回帰補正を使用してGCバイアスに対処した。これらのフィルタリング変換後、得られた遺伝子特徴のベクトルは、1172Mbをカバーする17,582個の特徴の次元を有した。
交差検証手順は、機械学習技術の一部として行われて、新たに前向きに収集された初見データに対するモデルの性能の近似値を得ることができる。そのような近似値は、データのサブセット上でモデルを順次訓練し、訓練中のモデルには初見の保持されたデータセット上で試験することによって、得られ得る。k-分割交差検証手順を適用することができ、これは、すべてのデータを、k個のグループ(または分割)に無作為に階層化し、他の分割に適合したモデル上で、各グループを試験することを要求する。このアプローチは汎化性能を推定するための一般的で追跡可能な方法であり得る。しかしながら、クラスラベルが既知の共変量と交絡している場合、そのような「k-分割」交差検証スキームは、新しいデータセットに汎化されない可能性のある膨張した性能の問題をもたらし得る。マシンは、ラベルのバッチおよび関連する分布を単純に特定することを学習してもよい。これは、分類器が、クラスラベルと訓練セット内の交絡因子との間の誤った関連付けを学習し、試験セットに不正確に適用されるため、誤解を招く結果と汎化性の低下につながる可能性がある。交差検証性能は、試験セットに同じ交絡要因がある可能性があるため、汎化性能を過大評価する可能性があるが、交絡因子のない予測セットが機能しない可能性があり、大きな汎化エラーにつながる。
そのような問題は、「k-バッチ」検証を行うことによって緩和される場合があり、これは、試験セットが交絡因子の見えない要素のみを含むように階層化される。そのような「k-バッチ」検証は、異なる時点で処理されるデータの汎化性能のより堅牢な評価を提供し得る。この効果は、試験セットが交絡因子の見えない要素のみを含むように階層化された検証を行うことによって緩和され得る。同じバッチ(例えば、特定のGCバイアスプロファイル)上で処理された試料と同時に生じる短期効果が観察される場合があるため、交差検証は、ランダムな階層化の代わりに、バッチによる階層化を含んでもよい。すなわち、試験セット内のどの試料も、訓練では見られたバッチから得られない場合がある。そのようなアプローチは、「k-バッチ」と称され得、この様式での検証は、新しいバッチ上のデータについて、汎化性能のより堅牢な評価を提供し得る。
加えて、試料収集および/または処理プロトコルは、また、バイアス源を表し得る。プロトコルの違いは、データに大きな変動をもたらす可能性がある。そのような変動は、試料が由来する機関により、試料をグループ化することによって、概ね捕捉することができる。k-バッチで対処するには、訓練の際、機関からのすべての試料のクラスラベルを、均衡化することができる。各分割の訓練セット内の各調達機関について、ダウンサンプリングを行い、その機関に由来する症例と対照とのマッチした比率を得ることができる。このダウンサンプリングが訓練用データに適用される場合、交差検証は均衡化されていると見なすことができ、そのような検証アプローチは、「均衡k-バッチ」と呼ぶことができる。
加えて、k-バッチ交差検証は、バッチバイアス内で制御するためによく機能するが、試料が長期間にわたって(例えば、数ヶ月、1年、2年などにわたって)処理される際に生じるプロセスドリフトもあり得る。時系列分割と同様に、バッチは時間内にソートした後にのみ分割できる。試料の順序は依然としてバッチによって決定されているため、そのような検証アプローチは、「順序付けk-バッチ」と称することができる。
特徴セットを前処理した後、データに対して、4つすべての交差検証の戦略(「k-分割」、「k-バッチ」、「均衡k-バッチ」、「順序付けk-バッチ」)を行った。すべての交差検証の戦略を使用して、各試料を正確に1回試験するモデルを訓練する。このアプローチで、異なる交差検証技術によって訓練されたモデルのセットを、直接比較することができるようになる。完璧なデータセットと完璧なマシンを備えた理想的な世界では、あらゆる形式の交差検証で、同じ結果がもたらされ得る。
図28A~図28Dは、訓練スキームのk-分割、k-バッチ、均衡k-バッチ、および順序付けk-バッチを示す。各正方形は、単一の試料を表し、塗りつぶしの色はクラスラベルを示し、境界色は機関のような交絡因子を表し、数字は処理バッチを示す。保持された試料の試験セットは、破線によって訓練セットから分離されている。
一例として、機関的なダウンサンプリングスキームを有するk-バッチは、CRC分類器訓練に適用され得る(図27A)。訓練セットは、各機関の遡及的患者のセット間で均衡化され得る。分割は、上述したように、配列決定バッチに関して構築されてもよく、バッチの10%は、試験セットとして無作為に保持され、残りの90%のバッチに対して訓練が行われる。各分割内で、分析前処理手順における潜在的な相違から生じる交絡は、入力訓練用試料をダウンサンプリングして、各試料源にわたって等しいクラスバランスを保証することによって排除することができる。言い換えれば、所与の試料源について、訓練用試料の70%がCRC試料である場合、この源の機関からのCRC例を、ダウンサンプリングして、CRC例と対照例との間で、50%クラス分割が達成されるようにする。
モデル訓練に関して、一連の変換を訓練用データに適合させ、試験データに適用した。外れ値(例えば、特徴ごとの訓練用データの99パーセンタイルを超える任意の値)を、観察された特徴量の99パーセンタイルに置き換えた。データは、特徴あたりの平均を引いて、標準偏差で割ることによって標準化した。入力データ上で特異値分解を行い、上部1500成分を切り捨てること、主成分分析(例えば、同様に、上部1500成分を切り捨てる)を行うこと、または次元削減ステップを適用せずに、標準化された特徴を分類器に直接渡すことを含む、入力特徴ベクトルの次元数を削減するための標的とする一連の方法を比較した。変換されたデータは、ロジスティック回帰およびサポートベクトルマシン(SVM)を含む標的セットの分類器への入力として提供された。訓練用データの20%の内部検証セットを使用したランダムサーチを各分割で使用して、正則化定数および(ラジアル基底関数SVMの場合)カーネル帯域幅を含む分類器ハイパーパラメータを最適化した。
試験分割にわたる平均AUCは、標準偏差とともに報告される。観察された感度および特異度は、試験分割にわたる平均として報告され、各閾値セットは、その試験分割のIU試料内の85%の特異度に対応した。感度およびAUCの信頼区間は、再標本化ブートストラッピングで得られた。
個々の特徴が分類に与える影響を理解するために、事前の次元削減なしに、LIロジスティック回帰正則化(LASSOを使用)のレベルにわたってスイープを行った。LI正則化は、ロジスティクス回帰モデル内の重み係数をその大きさの絶対値によってペナルティを与え、スパースな特徴セットの特定を可能にする。最高性能の分類パイプラインの性能に最も近い分類性能で、正規化レベルが特定された。複数の実験にわたって複数の分割に共通する遺伝子を交差させることによって、一連の重要なスパースな遺伝子の特徴を特定した。重要なスパース特徴のセットを用いて、CRCおよび対照試料の2つの一次クラス分布にわたる前処理されたリードカウントの分布を調べ、各遺伝子領域におけるそのセグメント(IchorCNAでコールされる)におけるコピー数の分布と比較した。2つの集団間のコピー数の分布において有意である遺伝子は、コピー数バリアント(CNV)を示し得る一方で、有意でない差は、他の生物学的メカニズムを示し得る。
ペアエンド全ゲノム配列決定(WGS)を、937人の対照対象および524人のCRCと診断された患者から得られた血漿DNA試料に対して行った。集団は、全体として、性別にほぼ等分された(女性54%、男性46%)。CRC患者集団は、表6に示すように、85%の初期(ステージIおよびステージII)試料を含んだ。すべての報告された分析では、モデルはすべての利用可能な試料に対して訓練されたが、市販のCRCスクリーニング試験で検査される使用目的の集団と一致するように、性能の結果は、50~84歳の年齢範囲内の患者からの試料に限定された。得られた対照試料の集団は、癌試料の集団(中央値年齢=67歳、IQR=60~74歳、p<0.01、マン・ホイットニーU検定)よりも若い側に歪んでいた(中央値年齢=61歳、四分位範囲[IQR]=56~67歳)。
Figure 0007455757000006
モデル性能の汎化性を評価するために、k-分割交差検証手順を検討した。k=10分割では、ハイパーパラメータのランダムサーチ後の上位の方法は、サポートベクトルマシン(SVM)への訓練セット全体にわたり、主成分分析(PCA)であった。他の方法もまた、このモデルのエラー範囲内であり、代替的な例で使用することができる。この方法は、表7に示すように、IU試料の特異度が85%、平均の感度が77%(分割にわたって標準偏差が0.059)で、平均曲線下面積(AUC)が0.87(分割にわたって標準偏差が0.026)を得た。
Figure 0007455757000007
新しいデータへの汎化性を評価するために、可能性のある交絡要因を探索した様々な検証スキームが評価され(図27Bに示される)、k-バッチ、均衡k-バッチ、および時系列k-バッチが含まれ、それぞれ、短期的、機関的、または長期的な可能性のあるバイアスを制御する様々な方法である。これらの検証の形態は、以前に記載したk-分割実験で選択されたものと同じ方法で行った。分割の数(例えば、k=10)は、すべての手順にわたって一定である。
まず、特にバッチの数が少ない場合に著しい交絡を引き起こす可能性のあるバッチ効果を評価した。同じPCAの方法およびSVM上のランダムサーチにより、k-バッチ交差検証は、k-分割性能と同様の85%の特異度で、70%の平均感度を有し、0.84の平均AUC(分割にわたって標準偏差が0.33)を得た(表7)。
異なる機関からの遡及的試料は、異なる分析前処理および保管条件に供されていた可能性があるため(機関では、訓練用データにおいて、その機関のために癌対非癌が均一な分布になるようにサンプリングされている(例えば、機関Aは、訓練用データセットにおいて、等しい数の癌試料および非癌試料を有する))、均衡k-分割検証も評価した。このアプローチによって、訓練用データが有意に減少したにもかかわらず(訓練では、1分割あたりの平均654.6試料に対して、k-分割またはk-バッチでは、1分割あたりの1314.9試料)、この手順は、依然として、85%の特異度で、66%の平均感度を有し、0.83の平均AUC(分割にわたって標準偏差が0.018)を得た(表7)。
最後に、より長期的なプロセスドリフトを評価するためのアプローチを、時系列k-バッチを使用して実施し、プロセスの日付で試料を分割し、同じ頃に処理された試料を同じ分割で互いにグループ化することによって行った。この戦略を使用すると、訓練日の範囲内で技術プロセスについて学習した情報は、試験日には汎化されない場合がある。この技術は、85%の特異度で、62%の平均感度を有し、0.81の平均AUC(分割にわたって標準偏差が0.10)を得た(表7)。
得られたモデルを理解し始めるために、データ内の様々な集団にわたって、各検証方法について性能を分析した。図28A~図28Dは、癌検出のために評価されたすべての検証アプローチ(例えば、k-分割、k-バッチ、均衡k-バッチ、および順序付けk-バッチ)の受信者操作特性(ROC)曲線の例を示す。各検証方法内で、ステージI~IIIにわたって、一貫した感度を達成し(信頼区間内)、ステージIV試料を、一貫して正しく分類した(図28E、評価されたすべての検証アプローチにわたるCRCステージによる感度を示す)。これは、観察したCNVの数が多いため、後期癌が比較的容易に識別され得るため、驚くことではないかもしれない。さらに、性能は、検証のタイプにわたって、全体的なAUCの一般的な傾向と同等であることが観察された。次に、腫瘍画分を、臨床ステージ分類とは別個に分析した。腫瘍画分を推定するために、各試料について、腫瘍画分およびCNVセグメンテーションを反復的に推定する、隠れマルコフモデル(IchorCNA)を使用した。癌および対照試料で推定腫瘍画分との重複が約2%未満であることが見出された腫瘍画分の様々なビン内で、性能を評価した(図28C)。腫瘍画分値のみを使用して癌を予測した場合、IU集団にわたって、63%のAUCが得られ得るが、すべての検証方法よりも低い。高腫瘍画分ビン内を除いては(約6%超、少数の非常に高い腫瘍画分を有する対照試料があり、例えば、おそらくラベルがスワップされた可能性がある)、再び、腫瘍画分の範囲にわたって、交差検証の手順内で一貫した性能が観察された(図28F、評価されたすべての検証アプローチにわたるIchorCNA推定腫瘍画分によるAUCを示す)。
年齢は既知の交絡要因である可能性があり、性別のクラス均衡が不均一であるため(表6)、データが利用可能な試料中で、年齢と性別だけに対して、癌を予測する分類器の能力を評価した。得られた性能は、平均AUCが0.75であり、これは、癌が加齢関連疾患であり、我々のデータの集団に反映されているという一般的な概念を確証させる。AUC性能は、より上の年齢帯とともに増加する(図28G、評価されたすべての検証アプローチにわたる年齢ビン別のAUCを示す)。ここでは、性能特性の多様性が観察され、これらの分割において年齢集団の分布が非常に異なることを示唆している。
性別間の性能は、検証タイプにわたって同等であり(図28Hは、評価されたすべての検証アプローチにわたる性別のAUCを示す)、異なる検証にわたって、ほとんど差がないか、または差がない。女性試料に対する性能は男性試料の性能を上回るが、この観察は、データセットに女性試料がより多くあることのアーチファクトであり得、したがって、その年齢が性別よりも強い交絡要因であることを示唆している。
どの入力特徴が、癌クラスを予測する分類器の能力に寄与するのかを推定するために、スパースシグナルを捕捉するように設計されたモデルを訓練した。k-分割交差検証を用いて、スイープオーバー正則化係数を行い、初期セットの実験のものと同様な性能を有する5つのスパースモデルを発見した。5つのモデルのLI正則化強度の逆数(C)は、0.022~0.071の範囲であり、5つのモデルの平均AUCは、0.80~0.82の範囲であった。7分割以上の学習分類器にわたって0を超える絶対値を有する対応する学習重み付け係数を有する特徴のセットが特定された。5つの実験の交差は、表8に列挙される29個の遺伝子をもたらし、癌検出分類器に対して「非常に重要な特徴」とみなされ得る。
Figure 0007455757000008
表8の特徴のうち、ほぼ全ては、CRCと健常な試料との間に、単変量有意差(p<0.05、ボンフェローニ補正)を有した。加えて、IchorCNAによりコールされた、癌試料と対照試料との間のこれらの遺伝子部位の各々でコピー数分布を比較した。非常に重要な特徴のうち、10個のみが、CNVにおいて有意な差を有し、単変量差を有する有意な特徴と一致した(p<0.05、ボンフェローニ補正)。より有意なCNV p値は、癌とその遺伝子領域の対照試料との間のCNVの差を示し得る。これらの10個のサイトは、CNVを非常にうまく拾っている可能性があるが、他の部位では、他の変化を拾っているか可能性がある。これらの変化は、IchorCNAによって検出されないCNVの変化、または他の生物学的メカニズムの結果である変化のいずれかであり得る。免疫遺伝子が、非常に重要な特徴のリストに現れることから、いくつかの遺伝子は、CRC関連遺伝子を超えるマーカーを示している可能性がある。
そのような非常に重要な特徴の使用の一例として、分類器は、対象における癌(例えば、大腸癌、乳癌、膵臓癌、または肝臓癌)を検出するために、非常に重要な特徴群の少なくとも約10個の異なる領域、少なくとも約20個の異なる領域、少なくとも約30個の異なる領域、少なくとも約40個の異なる領域、少なくとも約50個の異なる領域、少なくとも約60個の異なる領域、少なくとも約70個の異なる領域、または少なくとも約75個の異なる領域を含む複数のゲノム領域の各々で対象の試料から得られたcfNA配列決定リードの定量的尺度(例えば、カウント)を分析するようにプログラムまたは構成することができる。CRC検出の評価に加えて、機関適合対照患者とも膵臓癌(n=126)、乳癌(n=116)、および肝臓癌(n=26)と診断された患者から得られた血漿cIDNA試料について、同じ配列決定プロトコルを評価した(図29A~図29B、図29C~図29D、および図29E~図29F、それぞれ、乳癌、肝臓癌、および膵臓癌についての交差検証(ROC曲線)における分類性能を示す)。また、乳癌試料の大部分は、早期癌に偏っている:乳癌試料の73%は、ステージIまたはステージIIであった(1.7%の乳癌試料は、ステージ情報を欠いている)。すべての肝臓癌および膵臓癌試料は、ステージ情報を欠いていた。分割数をデータサイズにスケールしたことを除いて、上述したものと同じ分類フレームワークを適用した(表9)。結果は低いが、これらの実験における試料の数が少ないことを考慮すると、それらは不合理であるように見える。図30は、クラス別の推定腫瘍画分の分布を示し、図31Aおよび図31Bは、各分割の訓練セットが、試料の割合またはバッチの割合のいずれかとしてダウンサンプリングされたときの、CRC分類のAUC性能を示す。CRC実験内で同等の数でデータが訓練されるときに、同様の性能低下が観察される。図32A~図32Cは、高い腫瘍画分を有する健常な試料の例を示す。
Figure 0007455757000009
結果は、血液からの初期(例えば、ステージIおよびステージII)癌検出の優れた性能を実証する。機械学習技術は、試料源の国際的なプールからの初期CRC cfDNA試料の大規模なコホートに適用され、厳密に定義された試料外評価において、85%の特異度、約62~77%の感度で、患者のcfDNAプロファイルと癌診断との間の関係を効果的に学習した。加えて、乳癌、膵臓癌、および肝臓癌の患者から得られたcfDNA試料のコホートに、同じ機械学習技術を適用した場合、85%の特異度、47%~64%の範囲の感度で、同様のレベルの予測性能を達成した。これらの分析に含まれる試料がかなりの数であるにもかかわらず、分類性能は、追加の試料とともに増加し続けることができ、これは、さらなる方法論的進歩がなくても、さらなる試料収集によって癌検出性能が改善されることが期待され得ることを示唆している。結果はまた、以前の研究と一致しており、いくつかの特定された重要な特徴は、癌と推定的な関係を有する。
遡及的試料を使用してバイオマーカー発見を行うために(上記に示すように)学習および検証アプローチを行う場合、交絡因子を制御することが重要な場合がある。一般に、分析前処理(例えば、遠心分離速度、収集管の種類、凍結融解サイクルの数)ならびに分析処理(例えば、ライブラリの調製バッチ、配列決定の実行)の違いは、クラスラベルと交絡している場合、誤解を招く汎化結果を提供し得る。例えば、処理変数が適切に考慮されていない場合、癌対照データセットにおいて予測性能がはるかに高い検証測定基準を達成することが可能である(例えば、均衡k-バッチアプローチで84%のAUCと比較して、標準的なk-分割交差検証アプローチで87%AUCのAUCが観察され得る、または、汎化性能のより厳密な計算を組み込む別のアプローチ)。一般に、統計的アプローチは、概して交絡効果に対して耐性がない場合があり、高次元の全ゲノム機械学習アプローチは、適切に考慮されなければ、そのような交絡効果に対して特に感受性であり得る。
そのような処理効果は、計算的にやや軽減することができるが、堅牢な実験設計は、クラスラベルと任意の潜在的なノイズ誘発変数との間の相互情報の最小化(例えば、交絡の最小化)により、一般化可能な結果を確保する非常に有効な方法であり得る。遡及的研究では、また大規模な前向き収集研究であっても、潜在的に重要な共変量が多いことを考えると、そのような無作為化は必ずしも可能ではない場合がある。そのような場合、既知の交絡変数にわたってクラス均衡を強制する、学習中の堅牢な交差検証階層化、または潜在的な共変量を正規化するための計算アプローチなどの技術が、適切に使用され得る。試料源によるクラス均衡を確保するためのダウンサンプリングのアプローチおよびライブラリ調製処理バッチによる試料外検証などの技術は、新しいデータに対する方法の一般化可能性のより現実的な評価を提供することができる。
入力cfDNAのcfDNAカウントプロファイル表現は、(例えば、変異に基づくまたはメチル化アッセイアプローチと比較して)血液中の利用可能なシグナルの偏りのない表現として機能し得、例えば、循環免疫系または腫瘍微小環境からの免疫学的エピジェネティック細胞状態の変化など、腫瘍(例えば、CNV)および非腫瘍源からのシグナルの両方の直接的な捕捉を可能にする。早期癌患者における予想される低腫瘍画分を考慮すると、このアプローチの成功は、生理学的状態の変化を捕捉するために、cfDNAを誘導されたエピジェネティックな細胞シグナルとして使用することができることを示唆し得る。
主に初期ステージの集団では、腫瘍画分(CNVコールによって推定される)は、必ずしも臨床的な癌のステージに対応しない場合がある。カウントプロファイルのアプローチが、共通のCNV部位を有する遺伝子(例えば、7q32アーム上のIRF5およびKLF14)、ならびにCNVには重要ではないが、免疫系および結腸系には重要な遺伝子(例えば、CD4、WNTI、およびSTATI)を含む、非常に重要な遺伝子特徴のセットを有するモデルにおいて、多様なシグナルを使用する証拠がある。
さらに、かかるシグナルは、ゲノムにわたり分散し、ctDNA変異を検出するために、極めて高い深度の標的配列決定(例えば、少なくとも約1,000倍、少なくとも約5,000倍、少なくとも約10,000倍、少なくとも約20,000倍、少なくとも約30,000倍、少なくとも約40,000倍、少なくとも約50,000倍、または少なくとも約60,000倍、の配列決定深度)と比較して、比較的低い配列決定深度を必要とし得るため、cfDNAのアプローチは、より実用的であり、したがって、必要とされる試料体積に関して有利であり得る。
人工知能を使用してヒト血漿試料中で初期大腸癌を検出し、表10に示されるように、様々なステージ(例えば、ステージI~IVおよび不明)で、大腸癌(CRC)と診断された797人の患者から、無細胞DNAヒト血漿試料の全ゲノム配列決定を取得した。加えて、456個の対照試料のセットを、現在癌診断なしの対象から取得した。学術医療センターおよび商業バイオバンクから試料を収集した。すべての試料を非特定化した。
無細胞DNAを、250μLの血漿から抽出した。ペアエンド配列決定ライブラリを調製し、Illumina NovaSeq 6000配列決定システムを使用して、最低4億リード(中央値=6.36億リード)まで配列決定した。
注釈付きタンパク質コード遺伝子に整列するリードを抽出し、リードカウントを正規化して、リード深度、配列含有量バイアス、および技術的バッチ効果の可変性を考慮した。
Figure 0007455757000010
機械学習モデルは、標準的なk-分割、k-バッチ、および均衡k-バッチを含む異なる交差検証技術を使用して訓練された(図34A)。すべての方法は、k-分割で訓練され、他の交差検証手順のためのモデルを訓練するために、最適な性能方法が選択された。
図34Aは、k-分割、k-バッチ、および均衡k-バッチの訓練スキームを示す。各正方形は、単一の試料を表し、塗りつぶしの色は、クラスラベル(CRCまたは非癌対照)を示し、境界色は、起源の機関を表し、番号は、処理バッチを示す。保持された試料の試験セット(図33B)は、破線によって訓練セットから分離される。
すべての検証方法にわたる使用予定年齢範囲(50~84歳)内のCRCの分類性能。図34Aおよび図34Bは、それぞれ、CRCステージまたは腫瘍画分によるCRC感受性を示す。
図34Aでは、感度の閾値は、各試験分割において、85%の特異度で定義された。Nは、各ステージの試料数である。CI=95%ブートストラップ信頼区間。試料の82%は、初期CRC(ステージIおよびII)を有する患者からのものであった。すべての検証方法は、信頼区間に基づいて、ステージIからIIIにわたってほぼ同等の感度を達成した。ステージIV癌は、常に正しく分類されていた。
図34Bでは、感度の閾値は、各試験分割において85%の特異度で定義した。Nは、CRC試料の数である。腫瘍画分は、腫瘍組織(例えば、ctDNA/cfDNA)に由来するcfDNAの割合であり、IchorCNAを使用して推定した。CI=95%ブートストラップ信頼区間。
図34Cは、各分割の訓練セットがダウンサンプリングされたときのCRC分類のAUC性能を示す。分類器の性能は、より多くの訓練用試料の追加とともに、改善され続けた。
表11は、50~84歳の患者における交差検証(ROC曲線)における分類性能を示す。k-バッチ検証を使用して、バッチ間の技術的変動を評価した。集団または試料取り扱いにおける機関固有の違いを、均衡k-バッチ検証を使用して評価した。すべての検証方法にわたって、腫瘍画分の増加とともに、感度が増加した。IchorCNA推定腫瘍画分単独のAUCは、0.63であり、任意の交差検証スキーム下で、MLモデルからの結果よりも低かった。
Figure 0007455757000011
cfDNAおよび機械学習を使用した試作血液ベースのCRCスクリーニング試験は、主に初期のCRCコホート(ステージIおよびII)において高い感度および特異度を達成した。分類器の性能は、腫瘍および非腫瘍(例えば、免疫)由来のシグナルの両方からの寄与を示唆する。中程度のカバレッジ深度であれば、少量の血漿試料を使用して、ゲノム全体のcfDNAプロファイルを評価することができる。交差検証法は、遡及的(および前向き)研究のための同様の交絡分析の重要性を強調した。
E.実施例5:cfDNA断片カバレッジおよび鎖長を使用して、どの遺伝子がcfDNA産生細胞において高発現または低発現であるかを予測する、遺伝子発現予測モデル
この実施例は、例えば、1つ以上の畳み込みニューラルネットワーク(CNN)を使用してcfDNAプロファイルを分析することによって、遺伝子の発現またはクロマチン状態の予測を生成するための方法を説明する。かかる方法は、大腸癌(CRC)を有する、または有さない個体の分類のための多検体プラットフォームにおいて有用である。遺伝子の発現は、細胞の機構が転写開始部位(TSS)にアクセスすることによって制御され得る。TSSへのアクセスは、TSSが位置するクロマチンの状態を決定することができる。クロマチン状態は、TSSを凝縮する(閉じる)または弛緩する(開く)ことができるクロマチンリモデリングによって制御され得る。クローズド(閉じた)TSSは、遺伝子発現の減少をもたらし、オープン(開いた)TSSは、遺伝子発現の増加をもたらす。遺伝子のクロマチン状態の変化を特定することは、対象において、疾患の存在を特定するための方法として機能し得る。
大腸癌(n=532)および非癌対照(n=234)を有する患者からの非特定化された血漿試料は、学術的医療センターおよび商業的バイオバンクから入手した。血漿試料を、以下のようにCRCステージ情報に基づいて分離した:ステージI(n=169)、ステージII(n=256)、ステージIII(n=97)、ステージIV(n=6)および不明なステージ情報(n=4)。
予測モデルを訓練して、遺伝子が、cfDNA中で「オン」または「オフ」であるかどうかを決定した。モデルを、外部データセットからの安定した遺伝子の平均的な発現について訓練した。事前に訓練したモデルからの知識を使用して、疾患予測モデルを訓練した。別個の遺伝子セットを使用して、以前のモデルを修正して、癌と非癌との間の発現状態を合理的に変化させた。
V-プロットは、クロマチン構造および転写状態を示すcfDNA捕捉タンパク質-DNA会合に由来する。フットプリントを実施して、cfDNAがタンパク質によって保護されたゲノムの領域に対応することを示した。生のシーケンシングデータ:cfDNAのペアエンド配列決定は、断片長を提供し、DNAの保護された断片を回収する。発現(「オン」)遺伝子の平均V-プロット:DNAタンパク質結合位置および結合部位サイズは、配列決定されたcfDNA断片の断片長および位置(ゲノム位置)から推測することができる。V-プロット内の各ピクセルは、この位置(X軸)に中間点を有する特定の長さ(Y軸)を有する断片の数によって着色される。色が濃いほど、断片の数が多いことを示す。(図35)
入力V-プロットは、遺伝子のTSS領域におけるcfDNA断片の位置およびサイズの豊富であるがスパースな表現を示す。ウェーブレット圧縮と平滑化が適用され、シグナルの重要な部分を保持しながら複雑性を低減する。学習されたロジスティック回帰係数:赤色領域は、一般に、遺伝子が「オン」であることの証拠を提供し、青色領域は、一般に、遺伝子が「オフ」であることの証拠を提供する。これらの係数をデータに適用すると、より高いP(「オン」)に寄与する領域が赤色で示され、より低いP(「オン」)に寄与する領域が青色で示される。(図36)オンおよびオフの遺伝子発現を分類することに加えて、一方が他方よりもはるかに豊富である血液の2つの細胞集団において、アクセス可能なクロマチンの存在または不在を、ATAC-seqにより測定した。この方法は依然として、pDC特異的ピークから単球特異的ATAC-seqピークを有するcfDNA領域を区別することができた。これらのピークは、任意の特定の機能に限定されず、例えば、TSS、ならびに他の種類の遠位エンハンサーを含んでもよい。
Figure 0007455757000012
正規化TSSカバレッジは、発現を予測するために、「オン」対「オフ」遺伝子における正規化された断片カウントのみを使用する。「オン」遺伝子は、「オフ」遺伝子(1)よりも低いカバレッジ(ヌクレオソームによってあまり保護されていない)を有する。(図37)FPKM-百万マッピング化リードあたりのキロ塩基転写物あたりの相対発現断片の正規化RNA-seq測定値、pDC-形質細胞様樹状細胞、ROC-受信者操作特性、AUC-受信者操作特性の曲線下面積
ステージ別に設定された腫瘍標的遺伝子を使用して、分類精度を評価し、腫瘍画分を推定した。このアプローチでは、ロードマップで測定したように、結腸で発現し、血液細胞では発現しない44個の遺伝子を使用した。結腸遺伝子は、結腸癌、ならびに隣接する健常な結腸組織において発現されると仮定され、健常な個体では、相当量の物質がcfDNAに寄与するということはない。(図38A~38C)
平均遺伝子発現予測は、CNVベースの腫瘍画分推定を増強することが示された。高腫瘍画分の非癌対照は、44個の結腸遺伝子の発現P(オン)の低い平均確率を示し、高腫瘍画分のCRC試料とは異なっていた(図39A)。これらのコピー数の変化は、生殖系列系、または体細胞のいずれかであり得、腫瘍に由来するものではなく、体内の他の非癌性細胞に由来するものであり得る(図39B)。好ましい実施例が本明細書に示され、記載されているが、そのような実施例が単なる例として提供されることは、当業者には明らかであろう。本発明から逸脱することなく、当業者に多くの変形、変更、および置換が生じるであろう。本明細書に記載される実施例の様々な代替物は、本開示を実施する際に使用され得ることが理解されるべきである。以下の特許請求の範囲は、その範囲を定義し、これらの特許請求の範囲内の方法および構造、ならびにそれらの均等物が、それによって網羅されることが意図される。
XI.コンピュータシステム
本明細書で言及されるコンピュータシステムまたは回路のいずれかは、任意の適切な数のサブシステムを利用することができる。サブシステムは、システムバス75を介して接続することができる。例として、サブシステムは、コンピュータシステムを他のデバイス(例えば、エンジン制御ユニット)に接続するために使用され得る、入力/出力(I/O)デバイス、システムメモリ、記憶デバイス(複数可)、およびネットワークアダプタ(複数可)(例えば、Ethernet、Wi-Fi)を含むことができる。システムメモリおよび/または記憶デバイス(複数可)は、コンピュータ可読媒体を具現化し得る。
コンピュータシステムは、例えば、外部インターフェースによって、内部インターフェースによって、またはある構成要素から別の構成要素に接続および取り外すことができる取り外し可能な記憶デバイスを介して一緒に接続される複数の同じ構成要素またはサブシステムを含むことができる。一部の実施形態では、コンピュータシステム、サブシステム、または装置はネットワークを介して通信することができる。
実施形態の態様は、ハードウェア回路(例えば、アプリケーション特有の集積回路またはフィールドプログラマブルゲートアレイ)を使用し、および/または一般的にプログラマブルプロセッサを有するコンピュータソフトウェアをモジュラーまたは集積された様式で使用して、制御論理の形態で実装され得る。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一回路基板もしくはネットワーク上の複数の処理ユニット、ならびに専用ハードウェアを含むことができる。本明細書に提供される開示および教示に基づいて、当業者は、ハードウェアならびにハードウェアおよびソフトウェアの組み合わせを使用して、本発明の実施形態を実装するための他の方法および/または方法を知り、理解するであろう。
本出願に記載されるソフトウェアの構成要素または機能のいずれかは、例えば、従来のまたはオブジェクト指向の技術を使用して、例えば、Java、C、C++、C#、Objective-C、Swift、またはPerlもしくはPythonなどのスクリプト言語などの任意の好適なコンピュータ言語を使用して、プロセッサによって実行されるソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶および/または送信のためにコンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、ハードドライブもしくはフロッピーディスクなどの磁気媒体、またはコンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)、フラッシュメモリなどの光学媒体を含むことができる。コンピュータ可読媒体は、そのような記憶デバイスまたは送信デバイスの任意の組み合わせであり得る。
そのようなプログラムはまた、インターネットを含む様々なプロトコルに準拠した有線、光学、および/または無線ネットワークを介して送信するように適合されたキャリアシグナルを使用して符号化され、送信され得る。したがって、コンピュータ可読媒体は、そのようなプログラムで符号化されたデータシグナルを使用して作成され得る。プログラムコードで符号化されたコンピュータ可読媒体は、互換性のあるデバイスとパッケージ化され得るか、または他のデバイスとは別個に提供され得る(例えば、インターネットダウンロードを介して)。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(例えば、ハードドライブ、CD、またはコンピュータシステム全体)上またはその中に存在し得、システムまたはネットワーク内の異なるコンピュータ製品上またはその中に存在し得る。コンピュータシステムは、本明細書で言及される結果のいずれかをユーザに提供するための、モニター、プリンタ、または他の好適なディスプレイを含んでもよい。
本明細書に記載の方法のうちのいずれかは、ステップを行うように構成され得る1つ以上のプロセッサを含むコンピュータシステムを用いて完全にまたは部分的に行われ得る。したがって、実施形態は、潜在的に、対応するステップまたは対応するステップのグループを行う異なる構成要素を用いて、本明細書に記載の方法のいずれかのステップを行うように構成されたコンピュータシステムを対象とすることができる。番号付けされたステップとして提示されるが、本明細書における方法のステップは、同時に、または異なる時間に、あるいは異なる順序で行うことができる。加えて、これらのステップの一部は、他の方法からの他のステップの一部とともに使用されてもよい。また、ステップの全てまたは一部は、任意選択的であり得る。加えて、方法のいずれかのステップのいずれかは、モジュール、ユニット、回路、またはこれらのステップを行うためのシステムの他の手段で行うことができる。
特定の実施形態の特定の詳細は、本発明の実施形態の主旨および範囲から逸脱することなく任意の好適な方法で組み合わされ得る。しかしながら、本発明の他の実施形態は、各個々の態様に関連する特定の実施形態、またはこれらの個々の態様の特定の組み合わせを対象とし得る。
本発明の例示的な実施形態の上記の説明は、例示および説明のために提示されている。本発明を網羅的であること、または説明される正確な形態に限定することを意図するものではなく、上記の教示に照らして多くの修正および変形が可能である。
「1つ(a)」、「1つ(an)」、および「その(the)」の記載は、特に反対の指示がない限り、「1つ以上の」を意味することが意図される。特に反対の指示がない限り、「または(or)」の使用は、「排他的論理和(exclusive or)」ではなく、「包含的論理和(inclusive or)」を意味することが意図される。「第1の」構成要素の参照は、必ずしも第2の構成要素が提供されることを必要としない。さらに、「第1の」または「第2の」構成要素への言及は、明示的に記述されない限り、参照される構成要素を特定の位置に限定しない。「に基づく」という用語は、「少なくとも部分的に基づく」を意味することを意図している。
本明細書に言及されるすべての特許、特許出願、刊行物、および説明は、あらゆる目的のために参照によりそれらの全体が援用される。いずれも、先行技術であると認めるものではない。

Claims (30)

  1. 個体の集団を識別することができる分類器を使用する方法であって、
    a)複数のアッセイを使用して、生体試料中の複数のクラスの分子を分析することであって、前記分析することは、前記複数のクラスの分子を表す複数のセットの測定値を提供するものである、分析することと、
    b)機械学習モデルに入力される前記複数のクラスの分子の各々のプロパティに対応する特徴のセットを特定することと、
    c)前記複数のセットの測定値から特徴量の特徴ベクトルを作成することであって、各特徴量は、前記特徴のセットの特徴に対応し、1つ以上の測定値を含み、前記特徴ベクトルは、前記複数のセットの測定値の各セットを使用して得られた少なくとも1つの特徴量を含む、作成することと、
    d)コンピュータシステムのメモリに、前記分類器を含む前記機械学習モデルをロードすることであって、前記機械学習モデルは、生体試料が指定されたプロパティを有するかどうかを分類するために、訓練用生体試料から得られた訓練用ベクトルを使用して訓練されたものであり、前記訓練用生体試料の第1のサブセットは指定されたプロパティを有すると特定されたものであり、前記訓練用生体試料の第2のサブセットは前記指定されたプロパティを有さないと特定されたものである、ロードすることと、
    e)前記機械学習モデルに前記特徴ベクトルを入力して、前記生体試料が前記指定されたプロパティを有するか否かの出力分類を得ることにより、前記指定されたプロパティを有する個体の前記集団を識別することと、を含む、方法。
  2. 前記複数のクラスの分子は、核酸、ポリアミノ酸、炭水化物、または代謝産物からなる群から選択される、請求項1に記載の方法。
  3. 前記複数のクラスの分子は、デオキシリボ核酸(DNA)、ゲノムDNA、プラスミドDNA、相補DNA(cDNA)、無細胞DNA(cfDNA)、循環腫瘍DNA(ctDNA)、ヌクレオソームDNA、クロマトソームDNA、ミトコンドリアDNA(miDNA)、人工核酸類似体、組換え核酸、プラスミド、ウイルスベクター、クロマチン、および末梢血単核細胞由来(PBMC由来)ゲノムDNAからなる群から選択される、請求項1に記載の方法。
  4. 前記複数のクラスの分子は、リボ核酸(RNA)、メッセンジャーRNA(mRNA)、トランスファーRNA(tRNA)、マイクロRNA(mitoRNA)、リボソームRNA(rRNA)、循環RNA(cRNA)、選択的スプライシングmRNA、核内低分子RNA(snRNA)、アンチセンスRNA、ショートヘアピンRNA(shRNA)、または低分子干渉RNA(siRNA)を含む核酸からなる群から選択される、請求項1に記載の方法。
  5. 前記複数のクラスの分子は、ポリアミノ酸、ペプチド、タンパク質、自己抗体、またはその断片からなる群から選択される、請求項1に記載の方法。
  6. 前記クラスの分子は、糖、脂質、アミノ酸、脂肪酸、フェノール化合物、またはアルカロイドからなる群から選択される、請求項1に記載の方法。
  7. 前記複数のクラスの分子は、cfDNA分子、cfRNA分子、循環タンパク質、抗体、および代謝産物のうちの少なくとも2つからなる群から選択される、請求項1に記載の方法。
  8. 前記複数のクラスの分子は、1)cfDNA、cfRNA、ポリアミノ酸および低化学分子、または2)cfDNAおよびcfRNAならびにポリアミノ酸、3)cfDNAおよびcfRNAならびに低化学分子、または4)cfDNA、ポリアミノ酸および低化学分子、または5)cfRNA、ポリアミノ酸および低化学分子、または6)cfDNAおよびcfRNA、または7)cfDNAおよびポリアミノ酸、または8)cfDNAおよび低化学分子、または9)cfRNAおよびポリアミノ酸、または10)cfRNAおよび低化学分子、または11)ポリアミノ酸および低化学分子、からなる群から選択される、請求項1に記載の方法。
  9. 前記複数のクラスの分子は、cfDNA、タンパク質、および自己抗体である、請求項1に記載の方法。
  10. 前記複数のアッセイは、全ゲノム配列決定(WGS)、全ゲノムバイサルファイト配列決定(WGSB)、EM-seq配列決定、低分子RNA配列決定、定量イムノアッセイ、酵素結合免疫吸着アッセイ(ELISA)、近接伸長アッセイ(PEA)、タンパク質マイクロアレイ、質量分析、低カバレッジ全ゲノム配列決定(lcWGS)、選択的タグ付け5mC配列決定(WO2019/051484)、CNVコーリング、腫瘍画分(TF)推定、全ゲノムバイサルファイト配列決定、LINE-1 CpGメチル化、56遺伝子CpGメチル化、cf-タンパク質免疫定量ELISA、SIMOA、およびcf-miRNA配列決定、ならびに上記アッセイのいずれかに由来する細胞型または細胞表現型の混合比率、のうちの少なくとも2つを含み得る、請求項1に記載の方法。
  11. 前記全ゲノムバイサルファイトまたはEM-seq配列決定は、メチル化分析を含む、請求項10に記載の方法。
  12. 前記分類器は、線形判別分析(LDA)、部分最小二乗(PLS)、ランダムフォレスト、k-最近傍(KNN)、ラジアル基底関数カーネルを有するサポートベクトルマシン(SVM)(SVMRadial)、線形基底関数カーネルを有するSVM(SVMLinear)、多項式基底関数カーネルを有するSVM(SVMPoly)、決定木、多層パーセプトロン、混合エキスパート、スパース因子分析、階層分解、ならびに線形代数ルーチンおよび統計の組み合わせ、のうちの1つ以上に従って訓練および構築される、請求項1に記載の方法。
  13. 前記指定されたプロパティは、臨床的に診断された障害の存在である、請求項1に記載の方法。
  14. 前記指定されたプロパティは、大腸癌、肝臓癌、肺癌、膵臓癌、および乳癌からなる群から選択される癌である、請求項1に記載の方法。
  15. 前記指定されたプロパティは、治療に対する応答性である、請求項1に記載の方法。
  16. 生体試料の分類を行うためのシステムであって、
    a)複数の訓練用試料を受信する受信器であって、前記複数の訓練用試料の各々は、複数のクラスの分子を有し、前記複数の訓練用試料の各々は、1つ以上の既知のラベルを含む、受信器と、
    b)前記複数の訓練用試料の各々について、機械学習モデルに入力されるように動作可能な複数の異なるアッセイの各々に対応する特徴のセットを特定する特徴選択モジュールであって、前記特徴のセットは、前記複数の訓練用試料中の分子のプロパティに対応し、
    前記複数の訓練用試料の各々について、前記システムは、前記訓練用試料中の前記複数のクラスの分子を、前記複数の異なるアッセイに供して、測定値のセットを得るように動作可能であり、測定値の各セットは、前記訓練用試料中の分子のクラスに適用される1つのアッセイに由来し、複数のセットの測定値は、前記複数の訓練用試料について得られる、特徴選択モジュールと、
    c)前記複数の訓練用試料の各々について、前記測定値のセットを分析して、前記訓練用試料の訓練用ベクトルを得る特徴抽出モジュールであって、前記訓練用ベクトルは、前記対応するアッセイの特徴のセットの特徴量を含み、各特徴量は、特徴に対応し、1つ以上の測定値を含み、前記訓練用ベクトルは、前記複数の異なるアッセイの第1のサブセットに対応する前記特徴のセットのうちの少なくとも2つから少なくとも1つの特徴を使用して形成される、特徴抽出モジュールと、
    d)前記複数の訓練用試料の出力ラベルを得るために、前記機械学習モデルのパラメータを使用して、前記訓練用ベクトル上で動作するように構成された機械学習モジュールと、
    e)前記出力ラベルを、前記訓練用試料の前記既知のラベルと比較するための比較器モジュールと、
    f)前記出力ラベルを前記訓練用試料の前記既知のラベルと比較することに基づいて、前記機械学習モデルの訓練の一部として、前記パラメータの最適値を反復的に検索する訓練用モジュールと、
    g)前記機械学習モデルの前記パラメータおよび前記機械学習モデルの前記特徴のセットを提供する出力モジュールと、を含む、システム。
  17. 前記機械学習モジュールは、線形判別分析(LDA)分類器、二次判別分析(QDA)分類器、サポートベクトルマシン(SVM)分類器、ランダムフォレスト(RF)分類器、線形カーネルサポートベクトルマシン分類器、一次または二次多項式カーネルサポートベクトルマシン分類器、リッジ回帰分類器、エラスティックネットアルゴリズム分類器、逐次最小最適化アルゴリズム分類器、ナイーブベイズアルゴリズム分類器、およびNMF予測アルゴリズム分類器、から選択される、機械学習分類器として構成される分類回路を含む、請求項16に記載のシステム。
  18. 個体における癌の存在を検出する方法であって、
    a)前記個体から得られた生体試料中の複数のクラスの分子を分析することであって、前記分析することは、前記複数のクラスの分子を表す複数のセットの測定値を提供するものである、分析することと、
    b)機械学習モデルに入力される前記複数のクラスの分子の各々のプロパティに対応する特徴のセットを特定することと、
    c)前記複数のセットの測定値の各々から特徴量の特徴ベクトルを作成することであって、各特徴量は、前記特徴のセットの特徴に対応し、1つ以上の測定値を含み、前記特徴ベクトルは、前記複数のセットの測定値の各セットを使用して得られた少なくとも1つの特徴量を含む、作成することと、
    d)コンピュータシステムのメモリに、生体試料が癌と関連するかどうかを分類するために、訓練用生体試料から得られた訓練用ベクトルを使用して訓練された、前記機械学習モデルをロードすることであって、前記訓練用生体試料の第1のサブセットは癌を有する個体から特定されたものであり、前記訓練用生体試料の第2のサブセットは癌を有さない個体から特定されたものである、ロードすることと、
    e)前記機械学習モデルに、前記特徴ベクトルを入力して、前記生体試料が前記癌と関連しているかどうかの出力分類を得ることにより、前記個体における前記癌の存在を検出することと、を含む、方法。
  19. 前記出力分類は、前記個体における前記癌の存在を示す検出値を含む、請求項18に記載の方法。
  20. 前記機械学習モデルは、前記生体試料が癌を有さない確率を提供する別の分類をさらに出力する、請求項18に記載の方法。
  21. 前記癌は、大腸癌、肝臓癌、肺癌、膵臓癌、または乳癌である、請求項18に記載の方法。
  22. 癌を有する個体の予後を決定する方法であって、
    a)生体試料中の複数のクラスの分子を分析することであって、前記分析することは、前記複数のクラスの分子を表す複数のセットの測定値を提供する、アッセイすることと、
    b)機械学習モデルに入力される前記複数のクラスの分子のプロパティに対応する特徴のセットを特定することと、
    c)前記複数のセットの測定値の各々から特徴量の特徴ベクトルを作成することであって、各特徴量は、前記特徴のセットの特徴に対応し、1つ以上の測定値を含み、前記特徴ベクトルは、前記複数のセットの測定値の各セットを使用して得られた少なくとも1つの特徴量を含む、作成することと、
    d)コンピュータシステムのメモリに、生体試料が良好な癌予後と関連するかどうかを分類するために、訓練用生体試料から得られた訓練用ベクトルを使用して訓練された、前記機械学習モデルをロードすることであって、前記訓練用生体試料の第1のサブセットは良好な癌予後を有する個体から特定されたものであり、前記訓練用生体試料の第2のサブセットは良好な癌予後を有さない個体から特定されたものである、ロードすることと、
    e)前記機械学習モデルに、前記特徴ベクトルを入力して、前記生体試料が前記良好な癌予後と関連しているかどうかの出力分類を得ることにより、前記癌を有する個体の前記予後を決定することと、を含む、方法。
  23. 前記癌は、大腸癌、肝臓癌、肺癌、膵臓癌、または乳癌から選択され得る、請求項22に記載の方法。
  24. 癌治療に対する個体の応答性を決定する方法であって、
    a)生体試料中の複数のクラスの分子を分析することであって、前記分析することは、前記複数のクラスの分子を表す複数のセットの測定値を提供するものである、分析することと、
    b)機械学習モデルに入力される前記複数のクラスの分子の各々のプロパティに対応する特徴のセットを特定することと、
    c)前記複数のセットの測定値の各々から特徴量の特徴ベクトルを作成することであって、各特徴量は、前記特徴のセットの特徴に対応し、1つ以上の測定値を含み、前記特徴ベクトルは、前記複数のセットの測定値の各セットを使用して得られた少なくとも1つの特徴量を含む、作成することと、
    d)コンピュータシステムのメモリに、生体試料が治療応答と関連するかどうかを分類するために、訓練用生体試料から得られた訓練用ベクトルを使用して訓練された、前記機械学習モデルをロードすることであって、前記訓練用生体試料の第1のサブセットは前記癌治療に応答する個体から特定されたものであり、前記訓練用生体試料の第2のサブセットは前記癌治療に応答しない個体から特定されたものである、をロードすることと、
    e)前記機械学習モデルに、前記特徴ベクトルを入力して、前記生体試料が治療応答と関連しているかどうかの出力分類を得ることにより、前記癌治療に対する前記応答性を決定することと、を含む、方法。
  25. 前記癌治療は、アルキル化剤、植物アルカロイド、抗腫瘍抗生物質、代謝拮抗剤、トポイソメラーゼ阻害剤、レチノイド、チェックポイント阻害剤療法、またはVEGF阻害剤から選択される、請求項24に記載の方法。
  26. 前記出力分類は、前記個体における癌の存在を示す検出値を含む、請求項24に記載の方法。
  27. 前記複数のクラスの分子が、第1のクラスの核酸、及び、第2のクラスのポリアミノ酸含み、
    前記第1のクラスの核酸が無細胞DNAであり、
    無細胞DNAのアッセイがメチル化アッセイを含み、
    前記生体試料が血漿試料である、請求項1、18、22、または24に記載の方法。
  28. 前記測定値が、前記血漿試料中に見出される前記無細胞DNAのメチル化パターンを含む、請求項27に記載の方法。
  29. 1つ以上のコンピュータプロセッサによって実行されると、請求項1~15、18~28のいずれか一項に記載の方法を実装する機械実行可能コードを含む非一時的コンピュータ可読記憶媒体。
  30. 1つ以上のコンピュータプロセッサと、それに結合されたコンピュータメモリとを含むシステムであって、前記コンピュータメモリが、前記1つ以上のコンピュータプロセッサによって実行されると、請求項1~15、18~28のいずれか一項に記載の方法を実装する機械実行可能コードを含む、システム。
JP2020556286A 2018-04-13 2019-04-15 生体試料の多検体アッセイのための機械学習実装 Active JP7455757B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024038608A JP2024081675A (ja) 2018-04-13 2024-03-13 生体試料の多検体アッセイのための機械学習実装

Applications Claiming Priority (21)

Application Number Priority Date Filing Date Title
US201862657602P 2018-04-13 2018-04-13
US62/657,602 2018-04-13
US201862679587P 2018-06-01 2018-06-01
US201862679641P 2018-06-01 2018-06-01
US62/679,587 2018-06-01
US62/679,641 2018-06-01
US201862731557P 2018-09-14 2018-09-14
US62/731,557 2018-09-14
US201862742799P 2018-10-08 2018-10-08
US62/742,799 2018-10-08
US201862749955P 2018-10-24 2018-10-24
US62/749,955 2018-10-24
US201862767369P 2018-11-14 2018-11-14
US201862767435P 2018-11-14 2018-11-14
US62/767,369 2018-11-14
US62/767,435 2018-11-14
US201962804614P 2019-02-12 2019-02-12
US62/804,614 2019-02-12
US201962824709P 2019-03-27 2019-03-27
US62/824,709 2019-03-27
PCT/US2019/027565 WO2019200410A1 (en) 2018-04-13 2019-04-15 Machine learning implementation for multi-analyte assay of biological samples

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024038608A Division JP2024081675A (ja) 2018-04-13 2024-03-13 生体試料の多検体アッセイのための機械学習実装

Publications (2)

Publication Number Publication Date
JP2021521536A JP2021521536A (ja) 2021-08-26
JP7455757B2 true JP7455757B2 (ja) 2024-03-26

Family

ID=68163332

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020556286A Active JP7455757B2 (ja) 2018-04-13 2019-04-15 生体試料の多検体アッセイのための機械学習実装
JP2024038608A Pending JP2024081675A (ja) 2018-04-13 2024-03-13 生体試料の多検体アッセイのための機械学習実装

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024038608A Pending JP2024081675A (ja) 2018-04-13 2024-03-13 生体試料の多検体アッセイのための機械学習実装

Country Status (8)

Country Link
US (3) US11681953B2 (ja)
EP (1) EP3776381A4 (ja)
JP (2) JP7455757B2 (ja)
KR (1) KR20200143462A (ja)
AU (1) AU2019253118B2 (ja)
CA (1) CA3095056A1 (ja)
SG (1) SG11202009696WA (ja)
WO (1) WO2019200410A1 (ja)

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019060716A1 (en) 2017-09-25 2019-03-28 Freenome Holdings, Inc. SAMPLE EXTRACTION METHODS AND SYSTEMS
US11461891B2 (en) * 2018-03-06 2022-10-04 Case Western Reserve University Phenotyping tumor infiltrating lymphocytes on hematoxylin and eosin (HandE) stained tissue images to predict recurrence in lung cancer
US11569981B1 (en) * 2018-08-28 2023-01-31 Amazon Technologies, Inc. Blockchain network based on machine learning-based proof of work
WO2020047177A1 (en) * 2018-08-28 2020-03-05 Essenlix Corporation Assay accuracy improvement
EP3815005A4 (en) * 2018-10-08 2022-03-30 Freenome Holdings, Inc. PROFILE OF TRANSCRIPTION FACTORS
US11308325B2 (en) * 2018-10-16 2022-04-19 Duke University Systems and methods for predicting real-time behavioral risks using everyday images
US20220101147A1 (en) 2018-12-28 2022-03-31 Osaka University System and method for predicting trait information of individuals
WO2020150258A1 (en) * 2019-01-15 2020-07-23 Luminist, Inc. Methods and systems for detecting liver disease
WO2020206464A1 (en) * 2019-04-05 2020-10-08 Essenlix Corporation Assay accuracy and reliability improvement
AU2020313915A1 (en) * 2019-07-12 2022-02-24 Tempus Ai, Inc. Adaptive order fulfillment and tracking methods and systems
US20210062272A1 (en) * 2019-08-13 2021-03-04 10X Genomics, Inc. Systems and methods for using the spatial distribution of haplotypes to determine a biological condition
US11829871B2 (en) * 2019-08-20 2023-11-28 Lg Electronics Inc. Validating performance of a neural network trained using labeled training data
JP2022550286A (ja) * 2019-09-30 2022-12-01 エフ.ホフマン-ラ ロシュ アーゲー ハンチントン病(hd)を評価する手段および方法
EP4038546B1 (en) * 2019-10-01 2024-08-21 10X Genomics, Inc. Systems and methods for identifying morphological patterns in tissue samples
US11367189B2 (en) * 2019-10-18 2022-06-21 Carnegie Mellon University Method for object detection using hierarchical deep learning
CN111833965B (zh) * 2019-11-08 2024-06-04 中国科学院北京基因组研究所(国家生物信息中心) 一种尿沉渣基因组dna的分类方法、装置和用途
CN113966522A (zh) 2019-11-25 2022-01-21 Essenlix 公司 基于成像的测定的有效训练和准确度改进
US20230005576A1 (en) * 2019-12-05 2023-01-05 Multiplai Health Ltd. Analysis of selectively normalized spatial representations of data
WO2021110987A1 (en) * 2019-12-06 2021-06-10 Life & Soft Methods and apparatuses for diagnosing cancer from cell-free nucleic acids
US20230135171A1 (en) * 2019-12-24 2023-05-04 Lexent Bio, Inc. Methods and systems for molecular disease assessment via analysis of circulating tumor dna
CN111048207B (zh) * 2019-12-27 2023-06-16 四川九八村信息科技有限公司 一种供血浆者评价方法及系统
CN113052199A (zh) * 2019-12-28 2021-06-29 中移(成都)信息通信科技有限公司 病情检测模型的训练方法、装置、设备及计算机存储介质
WO2021140199A1 (en) 2020-01-09 2021-07-15 Healios Gmbh Methods for staging of diseases
EP3854887A1 (en) * 2020-01-23 2021-07-28 Institut Jean Paoli & Irène Calmettes In vitro method for identifying efficient therapeutic molecules for treating pancreatic ductal adenocarcinoma
WO2021154893A1 (en) 2020-01-30 2021-08-05 Prognomiq Inc Lung biomarkers and methods of use thereof
CN111351942B (zh) * 2020-02-25 2024-03-26 北京尚医康华健康管理有限公司 肺癌肿瘤标志物筛选系统及肺癌风险分析系统
US20210358626A1 (en) * 2020-03-04 2021-11-18 Grail, Inc. Systems and methods for cancer condition determination using autoencoders
WO2021188354A1 (en) * 2020-03-14 2021-09-23 DataRobot, Inc. Automated and adaptive design and training of neural networks
CN111584064A (zh) * 2020-03-27 2020-08-25 湖州市中心医院 一种结、直肠癌转移预测系统及其使用方法
CN115667554A (zh) * 2020-03-31 2023-01-31 福瑞诺姆控股公司 通过核酸甲基化分析检测结直肠癌的方法和系统
WO2021202620A1 (en) * 2020-03-31 2021-10-07 The Board Of Trustees Of The Leland Stanford Junior University Metabolomics approach combined with machine learning to recognize a medical condition
US12080426B2 (en) * 2020-04-06 2024-09-03 University Of Florida Research Foundation, Incorporated Functional deep neural network for high-dimensional data analysis
GB202006144D0 (en) * 2020-04-27 2020-06-10 Univ Oxford Innovation Ltd Method of diagnosing a biological entity, and diagnostic device
JP2023524016A (ja) * 2020-04-29 2023-06-08 フリーノム ホールディングス,インク. 結腸細胞増殖性障害を特定するためのrnaマーカと方法
CA3177168A1 (en) * 2020-04-30 2021-11-04 Dermot P. Mcgovern Methods and systems for assessing fibrotic disease with deep learning
WO2021224916A1 (en) * 2020-05-04 2021-11-11 Carmel Haifa University Economic Corporation Ltd. Prediction of biological role of tissue receptors
CN111583998B (zh) * 2020-05-06 2023-05-02 西安交通大学 一种考虑拷贝数变异因素的基因组结构变异分型方法
BR112022022429A2 (pt) * 2020-05-08 2022-12-13 Paige Ai Inc Sistemas e métodos para processar imagens eletrônicas para determinar informações principais em patologia digital
WO2021252514A1 (en) * 2020-06-09 2021-12-16 Zymergen Inc. Metabolite fingerprinting
US20210388451A1 (en) * 2020-06-16 2021-12-16 Grail, Inc. Methods for analysis of cell-free rna
US20220028547A1 (en) * 2020-07-22 2022-01-27 Iterative Scopes, Inc. Systems and methods for analysis of medical images for scoring of inflammatory bowel disease
US20230274834A1 (en) * 2020-07-22 2023-08-31 Spora Health, Inc. Model-based evaluation of assessment questions, assessment answers, and patient data to detect conditions
US20220042106A1 (en) * 2020-08-06 2022-02-10 Agendia NV Systems and methods of using cell-free nucleic acids to tailor cancer treatment
CN112002380B (zh) * 2020-08-14 2023-05-05 四川大学 基于机器学习的高生成热含能材料的自适应设计方法
US11909482B2 (en) * 2020-08-18 2024-02-20 Qualcomm Incorporated Federated learning for client-specific neural network parameter generation for wireless communication
EP4200874A4 (en) * 2020-08-19 2024-09-11 Tempus Ai Inc SYSTEMS AND METHODS FOR HOMOGENIZING DIVERSE DATA SETS
US11769048B2 (en) * 2020-09-15 2023-09-26 Microsoft Technology Licensing, Llc Recommending edges via importance aware machine learned model
CN116210011A (zh) * 2020-09-23 2023-06-02 富士胶片株式会社 特征量选择方法、特征量选择程序、及特征量选择装置、多类分类方法、多类分类程序、及多类分类装置、以及特征量集
JP2023545012A (ja) * 2020-10-05 2023-10-26 フリーノム ホールディングス,インク. 結腸細胞増殖性障害を早期発見するためのマーカー
CN112233722B (zh) * 2020-10-19 2024-01-30 北京诺禾致源科技股份有限公司 品种鉴定的方法、其预测模型的构建方法和装置
WO2022104393A1 (en) * 2020-11-16 2022-05-19 University Of Virginia Patent Foundation Automated classification of biological subpopulations using impedance parameters
CN112466389B (zh) * 2020-12-04 2024-05-17 深圳市新合生物医疗科技有限公司 一种基于机器学习算法获取肿瘤标记物的方法和系统
JP2024500872A (ja) * 2020-12-17 2024-01-10 プレジデント アンド フェローズ オブ ハーバード カレッジ 胚外メチル化CpGアイランドを用いたがん検出の方法
KR20230124038A (ko) * 2020-12-21 2023-08-24 프리놈 홀딩스, 인크. 결장 세포 증식 장애의 조기 검출을 위한 마커
AU2021409868A1 (en) * 2020-12-21 2023-06-29 The Johns Hopkins University Detection of lung cancer using cell-free dna fragmentation
WO2022155613A1 (en) * 2021-01-15 2022-07-21 Essenlix Corporation Imaging based assay accuracy improvement through guided training
CN112837743B (zh) * 2021-02-04 2024-03-26 东北大学 一种基于机器学习的药物重定位方法
WO2022203093A1 (ko) * 2021-03-22 2022-09-29 이원다이애그노믹스(주) 암 발생여부를 진단 또는 예측하는 방법
US20220328129A1 (en) * 2021-03-31 2022-10-13 PrognomIQ, Inc. Multi-omic assessment
AU2022249074A1 (en) * 2021-03-31 2023-09-21 PrognomIQ, Inc. Multi-omic assessment
US20220328155A1 (en) * 2021-04-09 2022-10-13 Endocanna Health, Inc. Machine-Learning Based Efficacy Predictions Based On Genetic And Biometric Information
CN113130004B (zh) * 2021-04-27 2024-05-14 上海海事大学 一种识别阿尔茨海默症相关生物标志物的相关性分析方法
WO2022240875A1 (en) * 2021-05-13 2022-11-17 Scipher Medicine Corporation Assessing responsiveness to therapy
EP4341701A1 (en) * 2021-05-20 2024-03-27 Clara Foods Co. Systems and methods for algorithmically estimating protein concentrations
CN113355421B (zh) * 2021-07-03 2023-02-28 南京世和基因生物技术股份有限公司 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质
US20230039614A1 (en) * 2021-08-06 2023-02-09 Grail, Llc Microsimulation of multi-cancer early detection effects using parallel processing and integration of future intercepted incidences over time
CN113718031B (zh) * 2021-08-17 2022-05-20 浙江大学医学院附属妇产科医院 一种卵巢癌早期诊断组合物的建立
WO2023023282A1 (en) * 2021-08-19 2023-02-23 Rheos Medicines, Inc. Transcriptional subsetting of patient cohorts based on metabolic pathway activity
EP4402473A1 (en) 2021-09-13 2024-07-24 Prognomiq Inc Enhanced detection and quantitation of biomolecules
CN113823356B (zh) * 2021-09-27 2024-05-28 电子科技大学长三角研究院(衢州) 一种甲基化位点识别方法及装置
WO2023053140A1 (en) * 2021-09-30 2023-04-06 Algorithmic Biologics Private Limited System for detecting and quantifying a plurality of molecules in a plurality of biological samples
JPWO2023074829A1 (ja) * 2021-10-29 2023-05-04
EP4427227A1 (en) * 2021-11-01 2024-09-11 Personalis, Inc. Determining fragmentomic signatures based on latent variables of nucleic acid molecules
US11754536B2 (en) 2021-11-01 2023-09-12 Matterworks Inc Methods and compositions for analyte quantification
US12100484B2 (en) 2021-11-01 2024-09-24 Matterworks Inc Methods and compositions for analyte quantification
EP4184514A1 (en) * 2021-11-23 2023-05-24 Eone Reference Laboratory Apparatus and method for diagnosing cancer using liquid biopsy data
CN113872024A (zh) * 2021-12-01 2021-12-31 中国工程物理研究院电子工程研究所 面向光纤激光系统多源物理监测量的智能故障诊断方法
WO2023107297A1 (en) * 2021-12-08 2023-06-15 Artera Inc. Methods and systems for digital pathology assessment of cancer via deep learning
AU2023217105A1 (en) * 2022-02-14 2024-08-22 Venn Biosciences Corporation Diagnosis of colorectal cancer using targeted quantification of site-specific protein glycosylation
CN114694748B (zh) * 2022-02-22 2022-10-28 中国人民解放军军事科学院军事医学研究院 一种基于预后信息与强化学习的蛋白质组学分子分型方法
WO2023164672A2 (en) * 2022-02-24 2023-08-31 Venn Biosciences Corporation Sample preparation for glycoproteomic analysis that includes diagnosis of disease
KR102491322B1 (ko) * 2022-03-29 2023-01-27 주식회사 아이엠비디엑스 암 진단을 위한 다중 분석 예측 모델의 제조 방법
WO2023190136A1 (ja) * 2022-03-30 2023-10-05 富士フイルム株式会社 学習システム、決定システム、及び予測システム、並びに学習方法、決定方法、及び予測方法
WO2023212509A1 (en) * 2022-04-25 2023-11-02 Whitehead Institute For Biomedical Research Methods And Systems For Quantifying Partitioning Of Agents In Vivo Based on Partitioning Of Agents In Vitro
WO2023212116A1 (en) * 2022-04-26 2023-11-02 Ge Healthcare Limited Model generation apparatus for therapeutic prediction and associated methods and models
WO2023212332A1 (en) * 2022-04-29 2023-11-02 Icahn School Of Medicine At Mount Sinai Biomarker set identification for lyme disease
WO2023220192A1 (en) * 2022-05-11 2023-11-16 Foundation Medicine, Inc. Methods and systems for predicting an origin of an alteration in a sample using a statistical model
WO2023225004A1 (en) * 2022-05-16 2023-11-23 Bioscreening & Diagnostics Llc Prediction of alzheimer's disease
WO2023235878A2 (en) * 2022-06-03 2023-12-07 Freenome Holdings, Inc. Markers for the early detection of colon cell proliferative disorders
WO2023239714A1 (en) * 2022-06-07 2023-12-14 Pangea Biomed Ltd Predicting patient response to cancer therapy via histopathology images
KR20230168942A (ko) 2022-06-07 2023-12-15 주식회사 베르티스 단백질 정량을 위한 질량분석 피크의 자동 선별 방법
CN114724550B (zh) * 2022-06-10 2022-09-06 慕思健康睡眠股份有限公司 一种基于睡眠的音频识别方法、装置、床垫及存储介质
CN114973245B (zh) * 2022-06-20 2024-03-15 重庆医科大学 基于机器学习的细胞外囊泡分类方法、装置、设备及介质
WO2024006142A1 (en) * 2022-07-01 2024-01-04 Bioaffinity Technologies, Inc. Detection of early-stage lung cancer in sputum using automated flow cytometry and machine learning
CN115099652A (zh) * 2022-07-05 2022-09-23 东北电力大学 一种基于ssa-dbp神经网络的单个电采暖负荷调节能力评估方法
WO2024010875A1 (en) * 2022-07-06 2024-01-11 The Regents Of The University Of California Repeat-aware profiling of cell-free rna
WO2024026413A2 (en) * 2022-07-27 2024-02-01 Durin Technologies, Inc. Early detection and monitoring of neurodegenerative diseases using a multi-disease diagnostic platform
CN115240854B (zh) * 2022-07-29 2023-10-03 中国医学科学院北京协和医院 一种胰腺炎预后数据的处理方法及其系统
CN115032376B (zh) * 2022-08-11 2022-10-21 乐比(广州)健康产业有限公司 一种驱蚊止痒组合物成分检测方法
CN115497630B (zh) * 2022-08-24 2023-11-03 中国医学科学院北京协和医院 一种急性重症溃疡性结肠炎数据的处理方法及其系统
CN115762796A (zh) * 2022-09-27 2023-03-07 京东方科技集团股份有限公司 目标模型的获取方法、预后评估值确定方法、装置、设备及介质
US20240117435A1 (en) * 2022-10-05 2024-04-11 Grail, Llc Systems and methods for performing methylation-based risk stratification for myelodysplastic syndromes
JP2024064128A (ja) * 2022-10-27 2024-05-14 チューニングフォーク・バイオ・インク 抗原探索方法及び抗原探索システム
CN115527612B (zh) * 2022-10-28 2023-11-14 四川天瓴创新科技集团有限公司 基于数值特征表达的基因组二四代融合组装方法及系统
WO2024097224A1 (en) * 2022-10-31 2024-05-10 William Marsh Rice University Analysis of mixture using combination of spectroscopy and machine learning
WO2024098073A1 (en) * 2022-11-06 2024-05-10 The Johns Hopkins University Detecting liver cancer using cell-free dna fragmentation
WO2024107982A1 (en) * 2022-11-16 2024-05-23 Grail, Llc Optimization of model-based featurization and classification
WO2024117233A1 (ja) * 2022-12-02 2024-06-06 国立大学法人東京大学 一粒子生物分析のための方法及び装置
CN116230082B (zh) * 2022-12-06 2024-05-14 序科码医学检验实验室(广州)有限公司 基于样品基因型的数据拆分的无标记多样品混合单细胞测序方法
KR20240105981A (ko) * 2022-12-29 2024-07-08 씨제이올리브네트웍스 주식회사 인공지능에 기반한 미생물의 종을 예측하는 방법 및 장치
WO2024168114A1 (en) * 2023-02-08 2024-08-15 Battelle Memorial Institute Technologies for individualized metagenomic profiling
US20240273718A1 (en) * 2023-02-15 2024-08-15 Insitro, Inc. Machine-learning-enabled predictive biomarker discovery and patient stratification using standard-of-care data
WO2024187092A1 (en) * 2023-03-08 2024-09-12 The Trustees Of Dartmouth College Hierarchical artificial intelligence tumor classifier for tracing tissue of origin and tumor type
CN116622822A (zh) * 2023-03-17 2023-08-22 四川大学 一种多重混样直接rna纳米孔测序方法
CN116561627B (zh) * 2023-05-11 2024-04-16 中南大学 用于确定胚胎移植类型的方法、装置、处理器及存储介质
CN117890320B (zh) * 2024-01-22 2024-08-23 冠县新瑞实业有限公司 基于数据融合的面粉蛋白质含量在线监测的方法
CN117935914B (zh) * 2024-03-22 2024-06-14 北京求臻医学检验实验室有限公司 一种意义未明的克隆性造血识别及其应用方法
CN118366547B (zh) * 2024-06-19 2024-08-23 南京世和基因生物技术股份有限公司 基因标志物在多癌种早筛中的应用、早筛模型构建方法以及检测装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014522993A (ja) 2011-08-08 2014-09-08 カリス ライフ サイエンシズ ルクセンブルク ホールディングス エス.アー.エール.エル. バイオマーカー組成物および方法
WO2017062867A1 (en) 2015-10-09 2017-04-13 Helmy Eltoukhy Population based treatment recommender using cell free dna
WO2018009723A1 (en) 2016-07-06 2018-01-11 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
WO2018013865A1 (en) 2016-07-13 2018-01-18 uBiome, Inc. Method and system for microbial pharmacogenomics
US20180068083A1 (en) 2014-12-08 2018-03-08 20/20 Gene Systems, Inc. Methods and machine learning systems for predicting the likelihood or risk of having cancer

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2618939A1 (en) * 2004-08-13 2006-04-27 Jaguar Bioscience Inc. Systems and methods for identifying diagnostic indicators
ATE501267T1 (de) 2005-01-06 2011-03-15 Eastern Virginia Med School Apolipoprotein-a-ii-isoform als biomarker für prostatakrebs
CN101268367A (zh) * 2005-06-24 2008-09-17 赛弗吉生物系统公司 卵巢癌的生物标记
EP1975252A1 (en) * 2007-03-29 2008-10-01 INSERM (Institut National de la Santé et de la Recherche Medicale) Methods for the prognosis or for the diagnosis of a thyroid disease
EP4335932A3 (en) 2008-11-07 2024-06-26 Adaptive Biotechnologies Corporation Methods of monitoring conditions by sequence analysis
US9495515B1 (en) * 2009-12-09 2016-11-15 Veracyte, Inc. Algorithms for disease diagnostics
US10295540B1 (en) * 2009-02-13 2019-05-21 Cancer Genetics, Inc. Systems and methods for phenotypic classification using biological samples of different sample types
US10446272B2 (en) * 2009-12-09 2019-10-15 Veracyte, Inc. Methods and compositions for classification of samples
EP2613278A2 (en) 2011-12-05 2013-07-10 Koninklijke Philips Electronics N.V. Retroactive extraction of clinically relevant information from patient sequencing data for clinical decision support
CN104603292A (zh) * 2012-07-20 2015-05-06 戴格努生命科学公司 用于提供前列腺癌的临床评估的方法、试剂盒和组合物
EP2926138A4 (en) * 2012-11-30 2016-09-14 Applied Proteomics Inc METHOD FOR ASSESSING THE PRESENCE OR RISK OF COLON TUMORS
US20140274767A1 (en) * 2013-01-23 2014-09-18 The Johns Hopkins University Dna methylation markers for metastatic prostate cancer
US20150324527A1 (en) * 2013-03-15 2015-11-12 Northrop Grumman Systems Corporation Learning health systems and methods
GB2525804B (en) * 2013-03-15 2020-08-05 Veracyte Inc Methods and compositions for classification of samples
US9710606B2 (en) * 2014-10-21 2017-07-18 uBiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics for neurological health issues
US10388407B2 (en) * 2014-10-21 2019-08-20 uBiome, Inc. Method and system for characterizing a headache-related condition
EP3250708B1 (en) 2015-01-30 2021-08-11 BGI Shenzhen Biomarkers for colorectal cancer related diseases
EP3591074B1 (en) * 2015-02-24 2024-10-23 Adaptive Biotechnologies Corp. Methods for diagnosing infectious disease and determining hla status using immune repertoire sequencing
WO2017065959A2 (en) * 2015-09-25 2017-04-20 Veracyte, Inc. Methods and compositions that utilize transcriptome sequencing data in machine learning-based classification
EP4009246A1 (en) * 2015-09-30 2022-06-08 Just, Inc. Systems and methods for identifying entities that have a target property
CN108474779B (zh) 2016-03-08 2021-01-26 马格雷股份有限公司 用于肺癌的诊断和治疗的蛋白质和自体抗体生物标志物
CN110168099B (zh) * 2016-06-07 2024-06-07 加利福尼亚大学董事会 用于疾病和病症分析的无细胞dna甲基化模式
US20190391151A1 (en) * 2017-03-07 2019-12-26 Elypta Ab Cancer biomarkers
US10318350B2 (en) * 2017-03-20 2019-06-11 International Business Machines Corporation Self-adjusting environmentally aware resource provisioning
US20180357361A1 (en) * 2017-06-13 2018-12-13 Feliks Frenkel Systems and methods for identifying responders and non-responders to immune checkpoint blockade therapy
WO2019067092A1 (en) * 2017-08-07 2019-04-04 The Johns Hopkins University METHODS AND SUBSTANCES FOR THE EVALUATION AND TREATMENT OF CANCER
US20210020314A1 (en) * 2018-03-30 2021-01-21 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
WO2019195268A2 (en) * 2018-04-02 2019-10-10 Grail, Inc. Methylation markers and targeted methylation probe panels

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014522993A (ja) 2011-08-08 2014-09-08 カリス ライフ サイエンシズ ルクセンブルク ホールディングス エス.アー.エール.エル. バイオマーカー組成物および方法
US20180068083A1 (en) 2014-12-08 2018-03-08 20/20 Gene Systems, Inc. Methods and machine learning systems for predicting the likelihood or risk of having cancer
WO2017062867A1 (en) 2015-10-09 2017-04-13 Helmy Eltoukhy Population based treatment recommender using cell free dna
WO2018009723A1 (en) 2016-07-06 2018-01-11 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
WO2018013865A1 (en) 2016-07-13 2018-01-18 uBiome, Inc. Method and system for microbial pharmacogenomics

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Joshua D. Cohenほか,Detection and localization of surgically resectable cancers with a multi-analyte blood test,SCIENCE [ONLINE],2018年02月23日,p.1-12,[検索日:2023/04/20],[URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6080308/pdf/nihms982921.pdf]
Joshua D. Cohenほか,Supplementary Material for Detection and localization of surgically resectable cancers with a multianalyte blood test,SCIENCE [ONLINE],2018年01月18日,p.1-11,[検索日:2023/04/20],[URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6080308/bin/NIHMS982921-supplement-Supplementary_Material.pdf]

Also Published As

Publication number Publication date
US11681953B2 (en) 2023-06-20
AU2019253118A1 (en) 2020-10-22
WO2019200410A1 (en) 2019-10-17
US11847532B2 (en) 2023-12-19
JP2021521536A (ja) 2021-08-26
EP3776381A4 (en) 2022-01-05
US20240202603A1 (en) 2024-06-20
EP3776381A1 (en) 2021-02-17
JP2024081675A (ja) 2024-06-18
CN112292697A (zh) 2021-01-29
US20210174958A1 (en) 2021-06-10
KR20200143462A (ko) 2020-12-23
AU2019253118B2 (en) 2024-02-22
SG11202009696WA (en) 2020-10-29
CA3095056A1 (en) 2019-10-17
US20210210205A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
JP7455757B2 (ja) 生体試料の多検体アッセイのための機械学習実装
US20210230684A1 (en) Methods and systems for high-depth sequencing of methylated nucleic acid
EP4073805B1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CA3129831A1 (en) An integrated machine-learning framework to estimate homologous recombination deficiency
US11211144B2 (en) Methods and systems for refining copy number variation in a liquid biopsy assay
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
KR20230017169A (ko) 핵산 메틸화 분석을 통한 결장직장암 검출을 위한 방법 및 시스템
US20210108274A1 (en) Pancreatic ductal adenocarcinoma evaluation using cell-free dna hydroxymethylation profile
CN112292697B (en) Machine learning embodiments for multi-analyte determination of biological samples
US20240076744A1 (en) METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING
Emmert-Streib Statistical diagnostics for cancer: analyzing high-dimensional data
US20240312564A1 (en) White blood cell contamination detection
El-Charif et al. Machine learning applications in cancer genomics
TW202330933A (zh) 用於癌症分類之汙染片段之樣品汙染偵測
WO2024192105A1 (en) Optimization of sequencing panel assignments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240313

R150 Certificate of patent or registration of utility model

Ref document number: 7455757

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150