JP2023540221A - バリアントの起源を予測するための方法およびシステム - Google Patents

バリアントの起源を予測するための方法およびシステム Download PDF

Info

Publication number
JP2023540221A
JP2023540221A JP2023513344A JP2023513344A JP2023540221A JP 2023540221 A JP2023540221 A JP 2023540221A JP 2023513344 A JP2023513344 A JP 2023513344A JP 2023513344 A JP2023513344 A JP 2023513344A JP 2023540221 A JP2023540221 A JP 2023540221A
Authority
JP
Japan
Prior art keywords
nucleic acid
sequence
epigenetic
determining
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023513344A
Other languages
English (en)
Inventor
ロス キーティング エプラー,
Original Assignee
ガーダント ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ガーダント ヘルス, インコーポレイテッド filed Critical ガーダント ヘルス, インコーポレイテッド
Publication of JP2023540221A publication Critical patent/JP2023540221A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

Figure 2023540221000001
コンピュータを少なくとも部分的に使用して、試験対象から得られた試験試料中の腫瘍起源核酸バリアントと非腫瘍(例えば、未確定の潜在能をもつクローン性造血(CHIP))起源核酸バリアントとを互いに差別化するための方法が、本明細書で提供される。他の態様は、対象における疾患を処置する方法を対象とする。さらに他の態様は、腫瘍起源核酸バリアントと非腫瘍起源核酸バリアントとを互いに差別化するために使用される関連システムおよびコンピュータ可読媒体を含む。

Description

関連する特許出願への相互参照
本願は、2020年8月25日に出願した米国仮出願第63/070,182号に基づく優先権を主張するものであり、前記仮出願は、これによりその全体が参照により本明細書に組み込まれる。
背景
液体生検次世代シークエンシング(NGS)アッセイでは、白血球が起源である核酸バリアントからの交絡ゲノムシグナルが見られることは公知である。骨髄における幹細胞である「白血球」は、分裂して新しい血液細胞を産生し、細胞分裂のたびに、DNA複製の間違いが発生し得る可能性がある。幹細胞における高い細胞分裂率は変異の蓄積を可能にし、その結果、これらの変異を共有する娘血液細胞が、たとえこれらの細胞が非がん性であったとしても、産生される。血液細胞の変異の蓄積は、未確定の潜在能をもつクローン性造血(CHIP)と呼ばれる。遺伝子の特定のサブセットに見られるバリアントが交絡CHIPシグナルの大半を提供することは十分に理解されているが、今のところ、これらの遺伝子に見られるバリアントが白血球から生じるのか、腫瘍から生じるのかを判定することは困難である。
したがって、腫瘍起源核酸バリアントとCHIP起源核酸バリアントとを互いに差別化する方法が必要である。
要旨
試料が、がん起源のものであるのか非がん起源のものであるのかを予測または決定する方法が開示される。
複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、配列データが、複数の配列リードを含み、複数の配列リードが、複数の試料からの複数の配列断片からシークエンシングされ、複数の試料のうちの各試料が、腫瘍由来または非腫瘍由来とラベルされる、ステップ;複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ;配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップ;配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第1の部分に基づいて、複数の特徴に従って予測モデルを訓練するステップ;配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第2の部分に基づいて、予測モデルを試験するステップ;ならびに試験するステップに基づいて、予測モデルを出力するステップを含む方法が、開示される。
対象について、複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、配列データが、複数の配列リードを含み、複数の配列リードが、対象からの試料からの複数の配列断片からシークエンシングされる、ステップ;複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ;訓練された予測モデルに、配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分を提供するステップ;ならびに予測モデルに基づいて、試料が腫瘍由来または非腫瘍由来であることを決定するステップを含む方法が、開示される。
コンピュータを少なくとも部分的に使用して、試験対象から得られた試験試料中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントとを互いに差別化する方法であって、コンピュータにより、標的ゲノム領域のセットの中の試験核酸バリアントを、試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ;コンピュータにより、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ;コンピュータにより、試験核酸バリアント-エピジェネティックシグネチャー群のセットの中の所与の試験核酸バリアント-エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントに対応する参照核酸バリアント-エピジェネティックシグネチャー群と、またはCHIP起源核酸バリアントに対応する参照核酸バリアント-エピジェネティックシグネチャー群とマッチさせ、それによって、試験対象から得られた試験試料中の腫瘍起源核酸バリアントとCHIP起源核酸バリアントとを互いに差別化するステップを含む方法が、開示される。
試験対象におけるがんを処置する方法であって、コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ;コンピュータにより、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ;コンピュータにより、少なくとも1つの訓練された分類器を使用して、試験核酸バリアント-エピジェネティックシグネチャー群のセット中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントとを互いに差別化して、試験試料中に存在する差別化された腫瘍起源核酸バリアントとCHIP起源核酸バリアントのセットを生じさせるステップ;および試験試料中に存在する差別化された腫瘍起源核酸バリアントとCHIP起源核酸バリアントのセットの中の差別化された腫瘍起源核酸バリアントの1つまたは複数に基づいて、試験対象に少なくとも1つの療法を投与し、それによって試験対象におけるがんを処置するステップを含む方法が、開示される。
試験対象におけるがんを処置する方法であって、試験試料中に存在する差別化された腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントのセットの中の1つまたは複数の差別化された腫瘍起源核酸バリアントに基づいて、試験対象に少なくとも1つの療法を投与するステップを含み、差別化された腫瘍起源核酸バリアントとCHIP起源核酸バリアントのセットが、コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせること;コンピュータにより、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせること;およびコンピュータにより、少なくとも1つの訓練された分類器を使用して、試験核酸バリアント-エピジェネティックシグネチャー群のセット中の腫瘍起源核酸バリアントとCHIP起源核酸バリアントとを互いに差別化することにより生じる、方法が、開示される。
訓練された分類器を、コンピュータを少なくとも部分的に使用して生成する方法であって、コンピュータにより、標的ゲノム領域の少なくとも1セットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ;コンピュータにより、同定された参照核酸バリアントのセットの中の複数の同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、参照試料中の核酸から得られたエピジェネティック情報から同定して、参照核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ;ならびにコンピュータにより、参照核酸バリアント-エピジェネティックシグネチャー群のセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、1つまたは複数の試験核酸バリアント-エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントおよび/または未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントを含むものとして分類するように構成されている、少なくとも1つの訓練された分類器を作出するステップを含む方法が、開示される。
訓練された分類器を、コンピュータを少なくとも部分的に使用して生成する方法であって、コンピュータにより、標的ゲノム領域の少なくとも1セットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ;コンピュータにより、同定された参照核酸バリアントのセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、標的ゲノム領域のセットの中の核酸バリアントを試験試料中の核酸から得られた配列情報から分類するように構成されている少なくとも第1のモデルを作出して、同定された試験核酸バリアントのセットを生じさせるステップ;コンピュータにより、同定された参照核酸バリアントのセットの中の複数の同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、参照試料中の核酸から得られたエピジェネティック情報から同定して、参照エピジェネティックシグネチャーのセットを生じさせるステップ;コンピュータにより、参照エピジェネティックシグネチャーのセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、試験核酸バリアント-エピジェネティックシグネチャー群のセットの中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントとを互いに差別化するように構成されている少なくとも第2のモデルを作出して、同定された試験核酸バリアントのセットを生じさせ、それによって訓練された分類器を生成するステップを含む方法が、開示される。
一部の実施形態では、本明細書で開示されるシステムおよび方法の結果は、レポートを生成するための入力データとして使用される。レポートは、紙または電子形式のものであり得る。例えば、バリアントおよび/または試料が腫瘍由来であるのか、非腫瘍由来であるのかの決定は、本明細書で開示される方法またはシステムによって決定された場合、そのようなレポートで直接表示することができる。
本明細書で開示される方法の様々なステップ、または本明細書で開示されるシステムにより実行されるステップは、同じもしくは異なる時点で、同じもしくは異なる地理的位置、例えば国において、および/または同じもしくは異なる人物により、実行され得る。
本出願に組み込まれ、その一部を構成する添付の図面は、ある特定の実施形態を例示し、本明細書の記載と共に、本明細書で開示される方法、コンピュータ可読媒体、およびシステムのある特定の原理を説明するように機能する。本明細書で提供される記載は、限定としてではなく例として含められる添付の図面と併せて読むと、より良く理解される。文脈が他を示さない限り、同様の参照数字は、これらの図面を通じて同様の構成要素を特定すると理解される。また、図面の一部または全ては、例示を目的とした概略表示であり得、示された要素の実際の相対的なサイズまたは位置を必ずしも示さないことが理解される。
図1は、一部の実施形態に従う、腫瘍由来核酸バリアントと非腫瘍由来核酸バリアントとを差別化する、例示的な方法ステップを概略的に示すフローチャートである。
図2は、本開示のある実施形態に従うエピジェネティック構成要素およびフラグメントミクス構成要素を含むシステムの例を示す。
図3は、無細胞(cf)DNAの断片をシークエンシングしてメチル化状態ベクトルを得るプロセスを示す。
図4は、末端モチーフを決定するための例となる方法を示す。
図5は、5’オーバーハングの程度を評価するための例となる方法を示す。
図6は、メチル化レベルを決定するための例となる方法を示す。
図7は、オーバーハングインデックスを決定するための例となる方法を示す。
図8は、予測モデルを生成するための例となるブロック図である。
図9は、例となる訓練方法を示すフローチャートである。
図10は、機械学習に基づく分類器を使用するための例示的なプロセスの流れの図である。
図11は、例となる方法を示す。
図12は、例となる方法を示す。
図13は、例となる方法を示す。
図14は、例となる方法を示す。
図15は、例となる方法を示す。
定義
本開示をより容易に理解することができるように、ある特定の用語が最初に下で定義される。以下の用語および他の用語についてのさらなる定義は、本明細書を通じて示され得る。下で示される用語の定義が、参照により組み込まれる特許出願または交付済み特許における定義と矛盾する場合には、本願で示される定義を、用語の意味を理解するために使用されたい。
本明細書および添付の特許請求の範囲で使用される場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈による別段の明白な指図がない限り、複数の言及対象を含む。したがって、例えば、「方法(a method)」への言及は、本明細書に記載されるタイプの、および/または本開示などを読むことで当業者には明らかになるタイプの、1つまたは複数の方法および/またはステップを含む。本明細で論じられる温度、濃度、時間、塩基または塩基対の数、カバレッジなどの前に暗黙の「約」があり、したがって、ほんのわずかな、非実質的な同等のものは、本開示の範囲内であることも、理解されるであろう。本願では、単数形の使用は、別段の具体的な記述がない限り複数形を含む。また、「含む(comprise)」、「含む(comprises)」、「含むこと(comprising)」、「含有する(contain)」、「含有する(contains)」、「含有すること(containing)」、「含む(include)」、「含む(includes)」、および「含むこと(including)」は、制限となるように意図されたものではない。
本明細書において使用される用語法が特定の実施形態の説明を目的にしたものに過ぎず、限定となるように意図されたものでないことも、理解されたい。さらに、別段の定義がない限り、本明細書で使用される全ての専門および科学用語は、本開示が属する技術分野の当業者によって一般に理解されているのと同じ意味を有する。方法、コンピュータ可読媒体、およびシステムについての記述、および特許請求の範囲への記載には、以下の用語法、およびその文法上の異表記が、下で示される定義に従って使用されることになる。
約:本明細書で使用される場合、目的の1つまたは複数の値または要素に適用される場合の「約」または「おおよそ」は、述べられている参照値または要素と同様である値または要素を指す。ある特定の実施形態では、用語「約」または「おおよそ」は、別段の記述がない限り、または文脈からそうでないことが明らかでない限り、述べられている参照値または要素の(それを超えるまたはそれに満たない)両方向に25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、またはそれ未満の%内に入る、値または要素の範囲を指す(ただし、そのような数が可能な値または要素の100%を超える場合を除く)。
アダプター:本明細書で使用される場合、「アダプター」は、通常は少なくとも部分的に二本鎖であり、かつ所与の試料核酸分子のどちらかまたは両方の末端に連結させるために使用される、短い核酸(例えば、長さ約500ヌクレオチド未満、約100ヌクレオチド未満、または約50ヌクレオチド未満)を指す。アダプターは、両末端がアダプターと隣接している核酸分子の増幅を可能にするための核酸プライマー結合部位、および/または様々な次世代シークエンシング(NGS)応用などのシークエンシング応用のためのプライマー結合部位をはじめとするシークエンシングプライマー結合部位を含み得る。アダプターは、フローセル支持体またはこれに類するものに結合されたオリゴヌクレオチドなどの、捕捉用プローブのための結合部位も含み得る。アダプターは、本明細書に記載の核酸タグも含み得る。核酸タグは、核酸タグが所与の核酸分子のアンプリコンおよびシークエンシングリードに含まれるように、増幅プライマーおよびシークエンシングプライマー結合部位に対して通常は位置する。同じまたは異なる配列のアダプターを、核酸分子のそれぞれの末端に連結させることができる。ある特定の実施形態では、核酸タグがその配列の点で異なることを除いて、同じアダプターが、核酸分子のそれぞれの末端に連結される。一部の実施形態では、アダプターは、一方の末端が本明細書に記載されるように平滑末端化されているかまたは尾部を有するY型アダプターであって、同じく平滑末端化されている核酸分子に、または1つもしくは複数の相補的ヌクレオチドを伴う尾部を有する核酸分子に結合させるための、Y型アダプターである。さらに他の例示的な実施形態では、アダプターは、分析されることになる核酸に結合させるための平滑末端または尾部を有する末端を含む、釣り鐘型アダプターである。他の例示的なアダプターとしては、Tを尾部に有するアダプターおよびCを尾部に有するアダプターが挙げられる。
投与する:本明細書で使用される場合、治療剤(例えば、免疫学的治療剤、DNA損傷応答(DDR)阻害剤(例えば、ポリ(ADP-リボース)ポリメラーゼ(PARP)阻害剤(PARPi))など)を対象に「投与する」または「投与すること」は、組成物を対象に与えること、適用すること、または対象と接触させることを意味する。投与は、例えば、局所、経口、皮下、筋肉内、腹腔内、静脈内、髄腔内および皮内経路をはじめとする、いくつかの経路のいずれかによって遂行され得る。
アラインする:本明細書で使用される場合、核酸の文脈での「アラインする」、「アラインメント」、および「アラインすること」は、類似性の領域を同定するためにDNAまたはRNAの配列を並べることを指す。類似性は、配列間の機能的、構造的および/または進化的関係に関するものであり得る。DNA配列のアラインメントは、1つの配列のゲノムDNAと少なくとも1つの他の配列のゲノムDNAのアラインメントを含む。そのようなアラインメントは、非ゲノムDNA、例えば、分子バーコード、パディング塩基、およびこれらに類するものを除外し得る。例えば、配列リードのゲノムDNAは、配列リードに結合され得るあらゆる分子タグを除外して、参照DNA配列のゲノムDNAにアラインされ得る。
アレル:本明細書で使用される場合、「アレル」または「アレルバリアント」は、定義された遺伝子位置またはゲノム座位における特定の遺伝的バリアントを指す。アレルバリアントは、通常、アレルがヘテロ接合性であるのか、ホモ接合性であるのかに依存して50%(0.5)または100%の頻度で示される。例えば、生殖細胞系バリアントは遺伝され、通常、0.5または1の頻度を有する。しかし、体細胞バリアントは、後天的バリアントであり、通常は、<0.5の頻度を有する。遺伝子座位のメジャーおよびマイナーアレルは、参照配列のヌクレオチドおよび参照配列とは異なるバリアントヌクレオチドによってそれぞれ占められている座位を持つ核酸を指す。遺伝子座位における測定値は、アレルが試料中に見られる頻度の測度となるアレル割合(AF)の形をとり得る。
増幅する:本明細書で使用される場合、核酸の文脈での「増幅する」または「増幅」は、少量のポリヌクレオチド(例えば、単一ポリヌクレオチド分子)から通常は始まる、ポリヌクレオチドの、またはポリヌクレオチドの一部分の、複数のコピーの産生を指し、増幅産物またはアンプリコンは、一般に検出可能である。ポリヌクレオチドの増幅は、様々な化学的および酵素的プロセスを包含する。
バーコード:本明細書で使用される場合、核酸の文脈での「バーコード」は、分子の識別子(分子バーコード)、パーティションの識別子(パーティションバーコード)または試料の識別子(試料バーコードまたは試料インデックス)としての機能を果たすことができる配列を有する核酸分子を指す。例えば、個々の「バーコード」配列は、通常は、最終データ分析の前に各リードを識別および選別することができるように、次世代シークエンシング(NGS)ライブラリー調製中にDNA断片に付加される。
切断点:本明細書で使用される場合、核酸融合分子または対応するシークエンシングリードの文脈での「切断点」は、核酸融合体の融合した部分配列間の接合部における末端ヌクレオチド位置、または対応するシークエンシングリードで表される末端ヌクレオチド位置を指す。例えば、所与の分割配列リードは、その分割配列リードにおける第2の部分配列と連続しており、かつ第2の部分配列の5’側にある、第1の部分配列を含み、この第1の部分配列は、参照配列における第1の遺伝子座位に位置し、この第1の遺伝子座位は、第2の部分配列が位置するその参照配列内の第2の遺伝子座位と不連続である。この例では、分割配列リードの第1の部分配列は、3’末端ヌクレオチドに切断点を含むが、分割配列リードの第2の部分配列は、5’末端ヌクレオチドに切断点を含む。ある特定の応用では、切断点、例えばこれらの切断点は、「切断点対」と呼ばれる。
がん型:本明細書で使用される場合、「がん」、「がん型」または「腫瘍型」は、例えば病理組織診断により定義される、がんのタイプまたはサブタイプを指す。がん型は、任意の従来の基準により、例えば、所与の組織における存在(例えば、血液がん、中枢神経系(CNS)、脳がん、肺がん(小細胞および非小細胞)、皮膚がん、鼻のがん、咽頭がん、肝臓がん、骨がん、リンパ腫、膵臓がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、乳がん、前立腺がん、卵巣がん、肺がん、腸管がん、軟部組織がん、神経内分泌がん、胃食道がん、頭頸部がん、婦人科がん、大腸がん、尿路上皮がん、固体がん、異種がん、同種がん)、原因不明、およびこれらに類するものに、ならびに/または同じ細胞系列(例えば、癌腫、肉腫、リンパ腫、胆管癌、白血病、中皮腫、黒色腫、もしくは膠芽細胞腫)に、ならびに/またはがんマーカー、例えば、Her2、CA15-3、CA19-9、CA-125、CEA、AFP、PSA、HCG、KRAS、BRAF、NRAS、ホルモン受容体およびNMP-22、を提示するがんに基づいて、定義され得る。がんはまた、ステージ(例えば、ステージ1、2、3または4)によって、および一次性であるのか、二次性であるのかによって、分類され得る。
無細胞核酸:本明細書で使用される場合、「無細胞核酸」は、細胞内に含有されておらず、別様に細胞に結合してもいない、核酸を指す。一部の実施形態では、「無細胞核酸」は、対象からの単離の時点で、細胞内に含有されておらず、別様に細胞に結合してもいない、核酸を指す。無細胞核酸は、例えば、対象からの体液(例えば、血液、血漿、血清、尿、脳脊髄液(CSF)など)から供給される全ての非カプセル化核酸を含み得る。無細胞核酸は、ゲノムDNA、ミトコンドリアDNA、循環DNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体低分子RNA(snoRNA)、Piwi結合RNA(piRNA)、長鎖ノンコーディングRNA(長鎖ncRNA)、および/またはこれらのいずれかの断片を含む、DNA(cfDNA)、RNA(cfRNA)およびこれらのハイブリッドを含む。無細胞核酸は、二本鎖のもの、一本鎖のもの、またはこれらのハイブリッドであり得る。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞壊死、アポトーシス、またはそれに類するプロセスによって、体液に放出され得る。がん細胞から体液に放出される無細胞核酸、例えば、循環腫瘍DNA、(ctDNA)もある。健康な細胞から放出されるものもある。ctDNAは、非カプセル化腫瘍由来断片化DNAであり得る。無細胞核酸の別の例は、母体血流中を自由に循環している胎児DNAであり、これは、無細胞胎児DNA(cffDNA)とも呼ばれる。無細胞核酸は、1つまたは複数のエピジェネティック改変を有することがあり、例えば、無細胞核酸は、アセチル化、5-メチル化、ユビキチン化、リン酸化、SUMO化、リボシル化および/またはシトルリン化されていることがある。
細胞起源:本明細書で使用される場合、無細胞核酸の文脈での「細胞起源」は、所与の無細胞核酸分子が由来するまたは別様に生じる(例えば、アポトーシスプロセス、壊死プロセス、またはこれらに類することによって)、細胞型を意味する。ある特定の実施形態では、例えば、所与の無細胞核酸分子は、腫瘍細胞(例えば、がん性肺細胞など)が起源であることもあり、または非腫瘍細胞もしくは正常な細胞(例えば、非がん性肺細胞など)が起源であることもある。
分類器:本明細書で使用される場合、「分類器」は、試験データを入力データとして受信し、1つまたは別のクラス(例えば、DNA損傷修復欠損(DDRD)を有するまたはDDRDを有さない、腫瘍DNAまたは非腫瘍DNA)に属するものとしての入力データの分類を出力データとして生じさせる、アルゴリズムコンピュータコードを一般に指す。
未確定の潜在能をもつクローン性造血:本明細書で使用される場合、「未確定の潜在能をもつクローン性造血」または「CHIP」は、1つまたは複数の体細胞変異(例えば、血液がん関連変異および/または非がん関連変異)を含むが、それ以外の点では悪性血液疾患の診断基準、例えば、異形成の明確な形態的証拠を欠く、造血幹細胞の拡大増殖を含む個体における造血を指す。CHIPは、造血幹細胞が血液細胞の遺伝的に異なる亜集団の形成に寄与する一般的な加齢関連現象である。
連続する配列:本明細書で使用される場合、「連続する配列」または「コンティグ」は、核酸のコンセンサス領域を一緒に表す、オーバーラップ核酸セグメントのセットを指す。
コピー数バリアント:本明細書で使用される場合、「コピー数バリアント」、「CNV」、または「コピー数多様性」は、ゲノムの区画が反復されてゲノム内のリピート数が考慮中の集団内の個体間で異なる現象を指す。
カバレッジ:本明細書で使用される場合、用語「カバレッジ」、「総分子計数値」または「総アレル計数値」は、同義で使用される。これらの用語は、所与の試料中の特定のゲノム位置におけるDNA分子の総数を指す。
デオキシリボ核酸またはリボ核酸:本明細書で使用される場合、「デオキシリボ核酸」または「DNA」は、糖部分の2’位に水素基を有する、天然または改変ヌクレオチドを指す。典型的に、DNAは、4つのタイプの核酸塩基、すなわち、アデニン(A)、チミン(T)、シトシン(C)およびグアニン(G)、のうちの1つを含むデオキシリボヌクレオシドを含むヌクレオチド鎖を指す。本明細書で使用される場合、「リボ核酸」または「RNA」は、糖部分の2’位にヒドロキシル基を有する、天然または改変ヌクレオチドを指す。典型的に、RNAは、4つのタイプの核酸塩基、すなわち、A、ウラシル(U)、GおよびC、のうちの1つを含むリボヌクレオシドを含むヌクレオチド鎖を指す。本明細書で使用される場合、用語「ヌクレオチド」は、天然ヌクレオチドまたは改変ヌクレオチドを指す。ある特定のヌクレオチド対は、相補的な形で互いに特異的に結合する(これは、相補的塩基対合と呼ばれる)。DNAでは、アデニン(A)は、チミン(T)と対合し、シトシン(C)は、グアニン(G)と対合する。RNAでは、アデニン(A)は、ウラシル(U)と対合し、シトシン(C)は、グアニン(G)と対合する。第1の核酸鎖が、第1の鎖内のものと相補的であるヌクレオチドで構成されている第2の核酸鎖に結合する場合、これら2本の鎖は、二重鎖を形成するように結合する。本明細書で使用される場合、「核酸シークエンシングデータ」、「核酸シークエンシング情報」、「配列情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、または「断片配列」、または「核酸シークエンシングリード」は、DNAまたはRNAなどの核酸の分子(例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル)の順序および同一性を示す任意の情報またはデータを意味する。本教示が、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的ヌクレオチド同定システム、パイロシークエンシング、イオンまたはpHに基づく検出ステム、および電子署名に基づくシステムを含むがこれらに限定されない、あらゆる利用可能な種類の技法、プラットフォームまたは技術を使用して得られる配列情報を企図していることを、理解されたい。
検出する:本明細書で使用される場合、「検出する」、「検出すること」、または「検出」は、試料中の1つまたは複数の標的核酸(例えば、標的変異または他のマーカーを有する核酸)の存在(existence)または存在(presence)を決定する行為を指す。
濃縮試料:本明細書で使用される場合、「濃縮試料」は、目的の特定の領域が濃縮された試料を指す。目的の領域を増幅することにより、または目的の核酸分子にハイブリダイズすることができる一本鎖DNA/RNAプローブもしくは二本鎖DNAプローブ(例えば、SureSelect(登録商標)プローブ、Agilent Technologies)を使用することにより、試料を濃縮することができる。一部の実施形態では、濃縮試料は、濃縮される処理された試料のサブセットまたは一部分を指し、濃縮される処理された試料のこのサブセットまたは一部分は、無細胞ポリヌクレオチドの試料またはポリヌクレオチドの試料からの核酸分子を含有する。
エピジェネティック情報:本明細書で使用される場合、DNAポリマーの文脈での「エピジェネティック情報」は、そのポリマーにおいて示される1つまたは複数のエピジェネティックパターンまたはシグネチャーを意味する。
エピジェネティック座位:本明細書で使用される場合、「エピジェネティック座位」または「エピジェネティック部位」は、ヌクレオチド配列の変化または変更を伴わない異なる状態またはステータスを示す染色体上の定位置を意味する。誤解を避けるために、所与のエピジェネティック座位は、遺伝的または配列多様性(例えば、変異)も示す所与のヌクレオチド位置またはゲノム領域と一致し得る。例えば、所与のエピジェネティック座位は、アセチル化、メチル化(例えば、5-メチルシトシン(5mC)で改変、5-ヒドロキシメチルシトシン(5hmC)で改変、および/または同様に改変)、ユビキチン化、リン酸化、SUMO化、リボシル化、シトルリン化されていることもあり、またはされていないこともあり、ヒストン翻訳後改変もしくは他のヒストン多様性、および/またはこれらに類することを有することもあり、有さないこともある。
エピジェネティック率:本明細書で使用される場合、「エピジェネティック率」は、DNA分子中の所与のエピジェネティック特徴についての確率、尤度、またはパーセンテージを指す。例えば、エピジェネティック特徴が、メチル化である場合には、エピジェネティック率は、DNA分子上の所与の塩基(例えば、CpG中のシトシン残基)がメチル化される確率、尤度、またはパーセンテージを指す。一部の実施形態では、エピジェネティック率は、DNA分子中の所与のエピジェネティック特徴を有する残基(例えば、CpG残基)のパーセンテージを指す。一部の実施形態では、エピジェネティック率は、特定のゲノム位置またはゲノム領域にアラインされた分子中の所与のエピジェネティック特徴を有する残基(例えば、CpG残基)のパーセンテージを指す。
エピジェネティック率閾値:本明細書で使用される場合、「エピジェネティック率閾値」は、試料中の腫瘍DNAの存在を決定するために使用される、エピジェネティック率の所定の閾値を指す。例えば、特定のゲノム領域が、腫瘍内で高メチル化されている場合、したがって特定のゲノム領域におけるエピジェネティック率が、エピジェネティック率閾値より高い場合には、患者は、がんを有すると分類される。別の例では、特定のゲノム領域が、腫瘍内で低メチル化されている場合、したがって特定のゲノム領域におけるエピジェネティック率が、エピジェネティック率閾値より低い場合には、患者は、がんを有すると分類される。エピジェネティック率閾値を、腫瘍内の低メチル化ゲノム領域および腫瘍内の高メチル化ゲノム領域を含む実施形態に対応するように設定することができる。エピジェネティック率閾値を、既知腫瘍割合を有する訓練試料(健康なドナーおよびがん患者または人為的な試料)のセットに基づいて決定することができる。一部の実施形態では、エピジェネティック率閾値は、複数のゲノム領域のうちの1つまたは複数についてのエピジェネティック率に適用される。
エピジェネティックシグネチャー:本明細書で使用される場合、「エピジェネティックシグネチャー」は、所与のDNA分子における1つまたは複数のエピジェネティック座位により示されるエピジェネティック状態またはステータスを意味する。例えば、所与のゲノム領域または座位(例えば、CTCF結合領域など)を含むDNA分子またはcfDNA断片は、これらのDNA分子の一部が、メチル化されているある特定の数のエピジェネティック座位を含む、エピジェネティックパターンを示すこともあるが、他の事例では、同じゲノム領域を含む他のDNA分子またはcfDNA断片における対応するエピジェネティック座位がメチル化されていない。「メチル化シグネチャー」は、所与のDNA分子における1つまたは複数のエピジェネティック座位により示されるメチル化状態またはステータスに関連するエピジェネティックシグネチャーを意味する。
融合事象:本明細書で使用される場合、「融合事象」は、特定の位置における少なくとも2つの別々の遺伝子間の融合を指す。融合事象の原因例としては、転座、中間部欠失、または染色体逆位事象が挙げられる。
遺伝子:本明細書で使用される場合、「遺伝子」は、生物学的機能に関連するDNAの任意のセグメントを指す。したがって、遺伝子は、コード配列、および必要に応じて、それらの発現に必要な調節配列を含む。遺伝子はまた、必要に応じて、例えば他のタンパク質の認識配列を形成する、非発現DNAセグメントを含む。
ゲノム領域:本明細書で使用される場合、「ゲノム領域」は、遺伝子またはゲノムマーカーの位置などの、染色体上の定位置または区画を意味する。例示的なゲノムマーカーとしては、転写因子結合領域(例えば、CTCF結合領域など)、遠位調節エレメント(DRE)、反復エレメント(例えば、マイクロサテライトなど)、イントロン-エクソンまたはエクソン-イントロン接合部、転写開始部位(TSS)、およびこれらに類するものが挙げられる。
生殖細胞系変異:本明細書で使用される場合、「生殖細胞系変異」は、生殖細胞における変異、したがって、子孫に継代され得る変異を意味する。
ホモ接合型欠失:本明細書で使用される場合、「ホモ接合型欠失」または「両アレル性不活性化」は、所与の遺伝子の両方のアレルの喪失をもたらす、変異または核酸バリアントを指す。
半接合型欠失:本明細書で使用される場合、「半接合型欠失」または「片アレル性不活性化」は、所与の遺伝子の2つのアレルの一方の喪失をもたらす、変異または核酸バリアントを指す。「ヘテロ接合型欠失」は、所与の遺伝子の本来のまたは初期の2つのアレルが互いに異なる、半接合型欠失である。
インデル:本明細書で使用される場合、「インデル」は、対象のゲノムにおけるヌクレオチド位置の挿入または欠失を含む変異を指す。
機械学習アルゴリズム:本明細書で使用される場合、「機械学習アルゴリズム」は、コンピュータにより実行されるアルゴリズムであって、分析モデル構築、例えば、クラスタリング、分類またはパターン認識を自動化するアルゴリズムを一般に指す。機械学習アルゴリズムは、教師ありであることもあり、または教師なしであることもある。学習アルゴリズムとしては、例えば、人工ニューラルネットワーク(例えば、誤差逆伝播ネットワーク)、判別分析(例えば、ベイズ分類器またはフィッシャー分析)、サポートベクターマシン、決定木(例えば、再帰分割プロセス、例えば、CART分類および回帰木、またはランダムフォレスト)、線形分類器(例えば、線形重回帰(MLR)、部分最小二乗(PLS)回帰、および主成分回帰)、階層的クラスタリング、およびクラスター分析が挙げられる。機械学習アルゴリズムが学習するデータセットは、「訓練データ」と呼ばれ得る。
マッチ:本明細書で使用される場合、「マッチ」は、少なくとも第1の値またはエレメントが、少なくとも第2の値またはエレメントと少なくともほぼ等しいことを意味する。ある特定の実施形態では、例えば、cfDNA試料からのDNA分子の少なくともサブセットの細胞起源は、cfDNA断片特性の試験試料分布とcfDNA断片特性の参照試料分布との間に少なくとも実質的または近似的なマッチが存在するときに決定される。
マイナーアレル頻度:本明細書で使用される場合、「マイナーアレル頻度」は、マイナーアレル(例えば、最も頻度の高いアレルではない)が、対象から得られた試料などの所与の核酸集団に存在する頻度を指す。低いマイナーアレル頻度の遺伝的バリアントは、通常は、試料中の存在頻度が相対的に低い。
変異型アレル割合:本明細書で使用される場合、「変異型アレル割合」または「MAF」は、所与の試料中の所与のゲノム位置における参照に対してアレル変更または変異を内部に持つ核酸分子の割合を指す。MAFは、一般に、割合またはパーセンテージとして表される。例えば、MAFは、通常は、所与の座位に存在する全ての体細胞バリアントまたはアレルの約0.5、0.1、0.05、または0.01未満(すなわち、約50%、10%、5%、または1%未満)である。
最大変異型アレル割合:本明細書で使用される場合、「最大変異型アレル割合」、「最大MAF」、または「MAX MAF」は、所与の試料に存在するまたは見られる全ての体細胞バリアントの最大または最も大きいMAFを指す。
変異:本明細書で使用される場合、「変異」、「核酸バリアント」、「バリアント」、または「遺伝子異常」は、既知の参照配列からの変動を指し、例えば、一塩基バリアント(SNV)、コピー数バリアントまたは多様性(CNV)/異常、挿入または欠失(インデル)、短縮化、遺伝子融合、トランスバージョン、転座、フレームシフト、重複、リピート伸長、およびエピジェネティックバリアントなどの、変異を含む。変異は、生殖細胞系または体細胞変異であり得る。一部の実施形態では、比較目的の参照配列は、試験試料を提供する対象の種の野生型ゲノム配列、通常はヒトゲノムである。ある特定の場合には、変異またはバリアントは、腫瘍形成を引き起こす、または腫瘍形成に少なくとも寄与する、「腫瘍関連遺伝的バリアント」である。
次世代シークエンシング:本明細書で使用される場合、「次世代シークエンシング」または「NGS」は、旧来のサンガーおよびキャピラリー電気泳動に基づく手法と比較してスループットが増大した、例えば、何十万もの比較的短い配列リードを同時に生成する能力がある、シークエンシング技術を指す。次世代シークエンシング技法の一部の例としては、一塩基合成法、ライゲーションによるシークエンシング、およびハイブリダイゼーションによるシークエンシングが挙げられるが、これらに限定されない。
核酸タグ:本明細書で使用される場合、「核酸タグ」は、短い核酸(例えば、長さ約500、約100、約50または約10ヌクレオチド未満)であって、異なるタイプの、もしくは異なる処理を経た、異なる試料からの核酸を区別するために核酸分子を標識するために使用される核酸(例えば、試料インデックスを表す)、または異なるタイプの、もしくは異なる処理を経た、同じ試料中の異なる核酸分子を区別するために核酸分子を標識するために使用される核酸(例えば、分子タグを表す)を指す。核酸タグは、一本鎖状、二本鎖状、または少なくとも部分的に二本鎖状であることがある。核酸タグは、必要に応じて、同じ長さまたは多様な長さを有する。核酸タグは、1つもしくは複数の平滑末端を有する二本鎖分子を含むこともあり、5’もしくは3’一本鎖領域(例えば、オーバーハング)を含むこともあり、および/または1つもしくは複数の他の一本鎖領域を所与の分子内の他の位置に含むこともある。核酸タグを、他の核酸(例えば、増幅および/またはシークエンシングされることになる試料核酸)の一方の末端または両末端に結合させることができる。核酸タグを解読して、所与の核酸の起源試料、形態または処理などの情報を明らかにすることができる。核酸タグを使用して、異なる核酸タグおよび/または試料インデックスを有する核酸を含む複数の試料のプールおよび/または並行処理を可能にすることもでき、これらの核酸は、その後、核酸タグを読み取ることによりデコンボリューションされる。核酸タグは、分子識別子もしくはタグ、試料識別子、インデックスタグ、および/またはバーコードと呼ばれることもある。加えてまたは代替的に、核酸タグを使用して同じ試料中の異なる分子を区別することができる。これは、例えば、所与の試料中の異なる核酸分子に一意的にタグ付けすること、またはそのような分子に非一意的にタグ付けすることを含む。非一意なタグ付け応用の場合には、限定数の異なる配列を有するタグを使用して、核酸分子にタグ付けすることができ、したがって、異なる分子を、例えば、それらが少なくとも1つの核酸タグとの組合せで選択された参照ゲノムに位置する開始および/または停止位置に基づいて、区別することできる。通常は、異なる核酸タグの十分な数が使用され、したがって、任意の2つの分子が、同じ開始/停止位置を有することになり、かつ同じ核酸タグも有することになる確率は低い(例えば、約10%未満、約5%未満、約1%未満、または約0.1%未満の機会)。一部の核酸タグは、試料、試料の中の核酸分子の形態、ならびに同じ開始および停止位置を有する形態の中の核酸分子を標識するために、複数の分子識別子を含む。大文字の文字が、試料タイプを示し、アラビア数字が、試料の中の分子の形態を示し、小文字のローマ数字が、ある形態の中の分子を示す、例示的な形態「A1i」を使用して、そのような核酸タグを参照することができる。
核酸バリアント-エピジェネティックシグネチャー群:本明細書で使用される場合、「核酸バリアント-エピジェネティックシグネチャー群」は、互いに相関する核酸バリアントとエピジェネティックシグネチャー(例えば、核酸バリアントを含むゲノム領域に見られるエピジェネティックシグネチャー、またはこれに類するもの)を指す。
ポリヌクレオチド:本明細書で使用される場合、「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間連結により結合されたヌクレオシドの直鎖状ポリマー(デオキシリボヌクレオシド、リボヌクレオシド、またはこれらのアナログ)を指す。通常は、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。オリゴヌクレオチドは、多くの場合、少数のモノマー単位、例えば3~4から、数百のモノマー単位まで、サイズに幅がある。ポリヌクレオチドが、「ATGCCTG」などの文字の配列によって表される場合は常に、別段の断り書きがない限り、ヌクレオチドが左から右へ5’→3’の順序であること、およびDNAの場合、「A」がデオキシアデノシンを示し、「C」がデオキシシチジンを示し、「G」がデオキシグアノシンを示し、「T」がデオキシチミジンを示すことは、理解されるであろう。文字A、C、GおよびTは、当技術分野では一般的であるように、塩基自体を指すために使用されることもあり、ヌクレオシドを指すために使用されることもあり、または塩基を含むヌクレオチドを指すために使用されることもある。
保有率(prevalence):本明細書で使用される場合、核酸バリアントの文脈での「保有率」は、所与の核酸バリアントが、所与の試料(例えば、所与の体液試料、所与の非体液試料など)または他の集団(例えば、体液試料の所与の集団、非体液試料の所与の集団、など)に見られるまたは見られた程度、広汎性、または頻度を指す。
参照試料:本明細書で使用される場合、「参照試料」または「参照cfDNA試料」は、分析手順の精度を評価するために試験試料と一緒に分析されるまたは試験試料と比較される、既知組成の、および/または特定の特性(例えば、既知核酸バリアント、既知細胞起源、既知腫瘍割合、既知カバレッジ、および/またはこれらに類すること)を有する、または有することもしくは欠いていることが分かっている、試料を指す。参照試料データセットは、通常は、少なくとも約25~少なくとも約30,000またはそれより多くの参照試料を含む。一部の実施形態では、参照試料データセットは、約50、75、100、150、200、300、400、500、600、700、800、900、1,000、2,500、5,000、7,500、10,000、15,000、20,000、25,000、50,000、100,000、1,000,000、またはそれより多くの参照試料を含む。
参照配列:本明細書で使用される場合、「参照配列」または「参照ゲノム」は、実験的に決定された配列と比較する目的で使用される既知配列を指す。例えば、既知配列は、全ゲノム、染色体、またはこれらの任意のセグメントであり得る。参照配列は、通常は、少なくとも約20、少なくとも約50、少なくとも約100、少なくとも約200、少なくとも約250、少なくとも約300、少なくとも約350、少なくとも約400、少なくとも約450、少なくとも約500、少なくとも約1000、少なくとも約10,000、少なくとも約100,000、少なくとも約1,000,000、少なくとも約10,000,000、少なくとも約100,000,000、少なくとも約1,000,000,000、またはそれより多くのヌクレオチドを含む。参照配列をゲノムもしくは染色体の単一の連続する配列とアラインすることができ、または参照配列は、ゲノムもしくは染色体の異なる領域とアラインする不連続なセグメントを含み得る。例示的な参照配列としては、例えば、ヒトゲノム、例えば、hG19およびhG38が挙げられる。
試料:本明細書で使用される場合、「試料」は、本明細書で開示される方法および/またはシステムにより分析することができる任意の生体試料を意味する。本開示のある特定の態様では、試料は、体液試料、例えば、無細胞(細胞内に含有されても、別様に細胞に結合されてもいない、循環)核酸が供給される体液のタイプの中でも特に、全血もしくはその画分、リンパ液、尿、および/または脳脊髄液である。ある特定のインプリメンテーションでは、体液試料は、血漿試料であり、これは、赤血球および白血球などの細胞を除く、全血の流体部分である。一部のインプリメンテーションでは、体液試料は、血清試料、すなわち、フィブリノゲンを欠いている血漿である。本開示の一部の態様では、試料は、「非体液試料」または「非血漿試料」、すなわち、「体液試料」以外の生体試料、例えば、無細胞核酸以外の核酸が供給される細胞および/または組織試料のような生体試料である。
感度:本明細書で使用される場合、所与のアッセイまたは方法の文脈での「感度」は、標的(例えば、核酸バリアント)分析物および非標的分析物を検出するならびにこれらを区別する、アッセイまたは方法の能力を指す。
配列断片:本明細書で使用される場合、「配列断片」は、長さが様々であり得、核酸分子の配列情報(または配列データ)を保有し得る、核酸分子またはその一部分を指す。配列情報は、配列断片のシークエンシングから得られるシークエンシングリードから導出され得る。
配列リード:本明細書で使用される場合、「配列リード」は、配列断片の全てまたは一部に対応するヌクレオチドの配列を指し、シーケンサー(例えば、これに限定されるものではないがIlluminaシーケンサーのような、次世代シーケンサー)により生成される。
シークエンシング:本明細書で使用される場合、「シークエンシング」は、生体分子、例えば、DNAまたはRNAなどの核酸、の配列(例えば、同一性、およびモノマー単位の順序)を決定するために使用されるいくつかの技術のいずれかを指す。例示的なシークエンシング方法としては、標的シークエンシング、単一分子リアルタイムシークエンシング、エクソンまたはエクソームシークエンシング、イントロンシークエンシング、電子顕微鏡法に基づくシークエンシング、パネルシークエンシング、トランジスタ媒介シークエンシング、ダイレクトシークエンシング、ランダムショットガンシークエンシング、サンガージデオキシターミネーションシークエンシング、全ゲノムシークエンシング、ハイブリダイゼーションによるシークエンシング、パイロシークエンシング、キャピラリー電気泳動、デュプレックスシークエンシング、サイクルシークエンシング、一塩基伸長シークエンシング、固相シークエンシング、ハイスループットシークエンシング、大規模並列シグネチャーシークエンシング、エマルジョンPCR、より低い変性温度での共増幅-PCR(COLD-PCR)、マルチプレックスPCR、可逆的ダイターミネーターによるシークエンシング、ペアエンドシークエンシング、ニアタームシークエンシング、エクソヌクレアーゼシークエンシング、ライゲーションによるシークエンシング、ショートリードシークエンシング、単一分子シークエンシング、一塩基合成法、リアルタイムシークエンシング、リバースターミネーターシークエンシング、ナノポアシークエンシング、454シークエンシング、Solexa Genome Analyzerシークエンシング、SOLiD(商標)シークエンシング、MS-PETシークエンシング、およびこれらの組合せが挙げられるが、それらに限定されない。一部の実施形態では、シークエンシングは、例えば、数ある中でも特に、Illumina,Inc.、Pacific Biosciences,Inc.、またはApplied Biosystems/Thermo Fisher Scientificから市販されている遺伝子分析装置などの、遺伝子分析装置により行うことができる。
配列情報:本明細書で使用される場合、核酸ポリマーの文脈での「配列情報」は、そのポリマー中のモノマー単位(例えば、ヌクレオチドなど)の順序および/または同一性を意味する。
配列モチーフ:本明細書で使用される場合、「配列モチーフ」は、DNA断片(例えば、無細胞DNA断片)中の塩基の短い、反復パターンを指し得る。配列モチーフは、断片の末端に存在し得、したがって、終了配列の一部であり得るかまたはそれを含み得る。「末端モチーフ」は、潜在的には特定の型の組織の、DNA断片の末端に優先的に存在する終了配列の配列モチーフを指すことができる。末端モチーフは、断片の末端のすぐ前またはすぐ後ろに存在することによって終了配列になお対応することもある。ヌクレアーゼは、特定の末端モチーフに対する特異的な切断選好性はもちろん、第2の末端モチーフに対する2番目に選好度が高い切断選好性も有することがある。
一塩基バリアント:本明細書で使用される場合、「一塩基バリアント」または「SNV」は、ゲノム内の特定の位置に存在する単一ヌクレオチドの変異または多様性を意味する。
体細胞変異:本明細書で使用される場合、「体細胞変異」は、受胎後に起こる所与のゲノムの変異を意味する。体細胞変異は、生殖細胞を除く身体のあらゆる細胞で起こるものであり得、したがって、子孫に継代されない。
特異度:本明細書で使用される場合、診断分析またはアッセイの文脈での「特異度」は、分析またはアッセイが所与の試料の他の成分を除外して意図された標的分析物を検出する程度を指す。
ステータス:本明細書で使用される場合、対象の文脈での「ステータス」は、所与の対象の1つまたは複数の状態、例えば、対象ががんを有するか否かを指す。
対象:本明細書で使用される場合、「対象」または「試験対象」は、動物、例えば、哺乳類種(例えば、ヒト)もしくはトリ(例えば、鳥)種、または他の生物、例えば植物を指す。より具体的には、対象は、脊椎動物、例えば、哺乳動物、例えばマウス、霊長類、サルまたはヒトであり得る。動物は、家畜(例えば、生産牛、乳牛、家禽、馬、豚、およびこれらに類するもの)、競技動物、および伴侶動物(例えば、ペットまたは支援動物)を含む。対象は、健康な個体、疾患もしくは疾患素因がある、もしくはある疑いがある個体、または療法を必要としている、もしくは療法を必要とする疑いがある個体であり得る。用語「個体」または「患者」は、「対象」と同義であるように意図されている。一部の実施形態では、対象は、がんを有する、または有する疑いがある、ヒトである。例えば、対象は、がんを有すると診断された個体、がん療法を受けることになる個体、および/または少なくとも1つのがん療法を受けたことがある個体であり得る。対象は、がんの寛解期にあることもある。別の例として、対象は、自己免疫疾患を有すると診断される個体であり得る。別の例では、対象は、疾患、例えば、がん、自己免疫疾患を有すると、もしくは有する疑いがあると診断されたことがあり得る妊娠している女性個体、または妊娠を計画している女性個体であり得る。「参照個体」は、特定の特性(例えば、既知がんもしくは疾患ステータス、既知核酸バリアント、既知細胞起源、既知腫瘍割合、既知カバレッジ、および/またはこれらに類すること)を有することまたは欠いていることが分かっている対象を指す。
閾値:本明細書で使用される場合、「閾値(threshold)」は、実験的に決定された値を特徴付けるまたは分類するために使用される、別々に決定された値を指す。ある特定の実施形態では、例えば、「閾値(threshold value)」は、所与の標的核酸バリアントが所与の遺伝子座位に非存在であることを決定するために定量値が比較される、選択された値を指す。
腫瘍割合:本明細書で使用される場合、「腫瘍割合」は、所与の試料中の腫瘍に由来する核酸分子の割合の推定値を指す。例えば、試料の腫瘍割合は、試料の最大変異型アレル頻度(MAX MAF)、または試料のカバレッジ、または試料中のcfDNA断片の長さ、エピジェネティック状態、もしくは他の特性、または試料の任意の他の選択された特徴から導出される測度であり得る。用語「MAX MAF」は、所与の試料中に存在する全ての体細胞バリアントの最大または最も大きいMAFを指す。一部の実施形態では、試料の腫瘍割合は、試料のMAX MAFに等しい。
値:本明細書で使用される場合、「値」または「スコア」は、一般に、値が指す特徴を特徴付けるあらゆるものであり得るデータセット内の登録事項を指す。これは、数、語または句、記号(例えば、+もしくは-)または程度を含むが、これらに限定されない。
詳細な説明
I.序論
試験対象から得られた核酸試料中の腫瘍および非腫瘍起源核酸バリアントを差別化または分類するための方法およびシステムが、本明細書で提供される。一部の態様では、方法およびシステムは、体細胞配列データ(例えば、体細胞ゲノムデータ)をエピジェネティックデータと結びつける。一部の態様では、方法およびシステムは、配列データをフラグメントミクスデータと結びつける。一部の態様では、方法およびシステムは、配列データをエピジェネティックデータおよびフラグメントミクスデータと結びつける。エピジェネティックデータおよび/またはフラグメントミクスデータは、配列データにおけるバリアントの起源(例えば、腫瘍または非腫瘍)の決定を助けるための追加のゲノムシグナルを提供し得る。例えば、バリアントは、未確定の潜在能をもつクローン性造血(CHIP)の結果であり得る。一部の態様では、核酸試料は、これらに限定されるものではないが、無細胞核酸(cfNA)、ゲノムDNA、またはRNAであり得る。
ある特定の実施形態では、遺伝子における既知メチル化部位、またはCHIP干渉が起こる可能性が高い他のエピジェネティック部位(例えば、DNMT3A、TP53、LRP1B、KRASなど)を調査する標的ハイブリダイゼーションパネルの組込みを使用して、体細胞ゲノムデータにおけるバリアントの起源の決定に寄与することができる。
本開示の方法および関連態様を使用して、本質的に任意の数の遺伝子を必要に応じて評価することができる。一部の実施形態では、例えば、本明細書に記載の、分析の対象となる遺伝子のセットは、少なくとも約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、100、1,000、10,000、またはそれより多くの遺伝子を含む。遺伝子の非網羅的リストが表1で提供され、必要に応じて、これらの遺伝子のうちの1つまたは複数が、本明細書で開示される方法および関連態様を使用する評価に選択される。
Figure 2023540221000002
Figure 2023540221000003
Figure 2023540221000004
特定の標的療法の候補者である患者を同定するために本明細書に記載されるように評価することができる遺伝子の例示的なセットが、表2に収載される。
Figure 2023540221000005
Figure 2023540221000006
Figure 2023540221000007
図1は、試験対象から得られた無細胞核酸(cfDNA)試料における腫瘍起源核酸バリアントと非腫瘍起源核酸バリアントの差別化または分類用に構成された分類器を生成するための、例となる人工知能(例えば、機械学習)技法を概略的に示すフローチャートである。示されているように、方法100は、ステップ102において、データを、例えば、複数の対象の無細胞核酸(cfDNA)試料からがん(例えば、腫瘍)起源および非がん起源配列データの形で得ることを含み得る。方法100は、配列データに関連するまたは別様に由来するエピジェネティックデータおよび/またはフラグメントミクスデータを得ることも含み得る。配列データ、エピジェネティックデータ、およびフラグメントミクスデータは全て、cfDNA試料中のゲノム領域から決定され得る。エピジェネティックデータは、例えば、DNAメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化状態に関する情報を含み得る。フラグメントミクスデータは、例えば、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および/または断片の終点を示す任意の値に関する情報を含み得る。ある実施形態では、配列データにおける配列断片および/またはバリアントの起源もまた、配列データ、エピジェネティックデータ、および/またはフラグメントミクスデータに関連し得る。例えば、腫瘍由来であることが既知の配列断片および/またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、腫瘍由来とラベルすることができ、非腫瘍由来であることが既知の配列断片および/またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、非腫瘍由来とラベルすることができる。その上、さらなるラベル、例えば、がん型、組織型およびこれらに類するものを、割り当てることができる。
一部の実施形態では、本明細書で開示される方法、ならびに関連システムおよびコンピュータ可読媒体インプリメンテーションは、所与のセットの各メンバーcfDNA断片が互いに共通のゲノム領域を含む、cfDNA試料からのDNA分子またはcfDNA断片のセットを同定することを含む。所与のゲノム領域を含むcfDNA断片が、少なくとも2つの細胞または組織型間で異なる特性(例えば、cfDNA断片長、cfDNA断片に含まれるゲノム領域の中点に対してのcfDNA断片の中点のオフセット、エピジェネティック状態、および/またはこれらに類すること)を示すのであれば、本質的に任意のゲノム領域を使用することができる。ある特定の実施形態では、例えば、ゲノム領域は、少なくとも2つの細胞または組織型間で差次的なクロマチン構成の領域を含む。より具体的には、cfDNA試料中のDNA分子の断片化パターンは、cfDNA断片の起源である細胞または組織のクロマチン構成についての情報を保有する。特に、血流に放出されるDNA断片は、多くの場合、起始細胞または原発組織中のヌクレオソームおよび/または他のDNA結合タンパク質の周囲で断片化または切断される。さらに、ヌクレオソームの配置およびDNA結合タンパク質の位置は、非常に組織特異的であり、それ故、cfDNA断片の起源である細胞または組織(例えば、腫瘍細胞はもちろん、腫瘍微小環境にある細胞、および免疫応答に関与する細胞も)から来たシグナルを増幅するために本明細書では使用される。ある特定の実施形態では、ゲノム領域は、転写因子結合領域、遠位調節エレメント(DRE)、反復エレメント、イントロン-エクソンもしくはエクソン-イントロン接合部(スプライスジャンクション)、転写開始部位(TSS)、および/またはこれらに類するものを含む。
転写因子(または配列特異的DNA結合因子)は、特定のDNA認識配列に結合することによってDNAからメッセンジャーRNAへの遺伝子情報の転写率を調節するタンパク質である。転写因子は、多くの場合、転写調節以外の他の細胞プロセスにも関与する。ヒトゲノムにはおよそ2600の転写因子があると考えられている。転写因子は、それが調節する遺伝子に隣接したDNAの特定の認識配列に結合する少なくとも1つのDNA結合ドメイン(DBD)を含む。転写因子の非限定的な例としては、CCCTC結合因子(CTCFまたは11-ジンクフィンガータンパク質)(認識配列:5’-CCGCGNGGNGGCAG-3’(配列番号1))、SP1(認識配列:5’-GGGCGG-3’)、C/EBP(認識配列:5’-ATTGCGCAAT-3’(配列番号2))、AP-1(認識配列:5’-TGA(G/C)TCA-3’)、c-Myc(認識配列:5’-CACGTG-3’)、ATF/CREB(認識配列:5’-TGACGTCA-3’)、およびOct-1(認識配列:5’-ATGCAAAT-3’)が挙げられる。本明細書に記載される方法において使用されるゲノム領域は、必要に応じて、これらのまたは任意の他の転写因子認識配列または結合部位のうちの1つまたは複数を含む。転写因子および関連認識配列に関するさらなる詳細は、例えば、Latchman,"Transcription factors: an overview," The International Journal of Biochemistry & Cell Biology, 29(12):1305-12 (1997)およびPtashne et al., "Transcriptional activation by recruitment," Nature, 386(6625):569-77に記載されており、これらの参考文献は、参照により本明細書に組み込まれる。
さらに例を挙げて説明すると、CTCFは、転写調節およびクロマチン構成を含むがこれらに限定されない、多くの細胞プロセスに関与する転写因子(転写受容体CTCF、11-ジンクフィンガータンパク質、またはCCCTC結合因子としても公知)である。CTCFへの結合は、組織特異的であり得、CTCF結合部位の上流および下流で強いヌクレオソーム構成を誘導し得る。それ故、例えばがん患者の血漿cfDNAに特有の組織の寄与に起因するそのようなヌクレオソーム構成の摂動を、これらの部位(CTCF結合領域)内のおよびその周囲のcfDNA断片を分析すること(フラグメントミクス)によって検出することができ、明らかにすることができる。CTCF結合部位などのゲノム領域の推論、および本明細書に記載される方法を行う際の使用に適応される関連態様に関するさらなる詳細は、2018年6月29日に出願された米国仮特許出願第62/692,495号において開示されており、この参考特許文献は、参照により本明細書に組み込まれる。
遠位調節エレメント(DRE)は、転写調節に関与し、座位制御領域、エンハンサー、インシュレーター、およびサイレンシングエレメントを含む。DREに関する結合部位は、本明細書に記載される方法において、必要に応じてゲノム領域として使用される。DREに関するさらなる詳細は、例えば、Heintzman et al., "Finding distal regulatory elements in the human genome," Curr Opin Genet Dev, Dec; 19(6):541-549 (2009)に記載されており、この参考文献は、参照により本明細書に組み込まれる。
反復エレメントは、所与のゲノムおよび/またはゲノム集団の至る所に複数のコピーで存在するヌクレオチドの反復パターンである。反復エレメントの非限定的な例としては、マイクロサテライト、末端リピート、タンデムリピート、ミニサテライト、サテライトDNA、散在リピート、転位因子(例えば、DNAトランスポゾン、レトロトランスポゾン(例えば、LTR型レトロトランスポゾン(HERV)およびLTR型レトロトランスポゾン(HERV))など)、クラスター化して規則的な配置の短い回文配列リピート(CRISPR)、ダイレクトリピート、逆方向リピート、ミラーリピート、および反転リピートが挙げられる。本明細書に記載される方法において使用されるゲノム領域は、必要に応じて、1つまたは複数の反復エレメントを含む。反復エレメントに関するさらなる詳細は、例えば、de Koning et al., "Repetitive elements may comprise over two-thirds of the human genome," PLoS Genet 7.12 (2011)に記載されており、この参考文献は、参照により本明細書に組み込まれる。
エクソン/イントロンまたはイントロン/エクソン接合部(スプライスジャンクション)は、典型的に、ゲノム内の特異的な二重配列パターンを含み、mRNAのRNAスプライシングに関与する。これらの配列は、本明細書に記載される方法において、必要に応じてゲノム領域として使用される。エクソン/イントロンまたはイントロン/エクソン接合部および関連配列に関するさらなる詳細は、例えば、Mount, "A catalogue of splice junction sequences," Nucleic Acids Research, 10(2):459-472 (1982)に記載されており、この参考文献は、参照により本明細書に組み込まれる。
転写開始部位(TSS)は、所与の遺伝子の5’末端の第1のDNAヌクレオチドがRNAに転写される位置である。TSS配列は、本明細書に記載される方法において、必要に応じてゲノム領域として使用される。TSSに関するさらなる詳細は、例えば、Farman et al., "Nucleosomes positioning around transcriptional start site of tumor suppressor (Rbl2/p130) gene in breast cancer," Molecular Biology Reports, 45(2):185-194 (2018)に記載されており、この参考文献は、参照により本明細書に組み込まれる。
一部の実施形態では、本明細書で開示される方法、ならびに関連システムおよびコンピュータ可読媒体インプリメンテーションは、cfDNA試料からのDNA分子の細胞起源を、これらのDNA分子の特性、例えば、これらの分子または断片により示されるエピジェネティックパターンを使用して、決定することを含む。本明細書において説明されるように、ゲノム領域のエピジェネティック変化は、多くの場合、これらのゲノム領域内のクロマチン構成およびヌクレオソーム位置の変化に付随して起こる。したがって、本開示の方法および関連態様は、これらのシグナル源を併用して、cfDNA試料中の標的細胞(例えば、罹病細胞、例えば、腫瘍細胞またはこれに類するもの、胎児細胞、移植ドナー細胞、およびこれらに類するもの)の存在を検出する能力を増大する。
少なくとも2つの細胞または組織型間で差次的な改変(例えば、複製後改変またはこれに類するもの)を示す任意のエピジェネティック部位または座位を使用して、本開示の方法および関連態様を行うことができる。そのような部位の例としては、メチル化部位、アセチル化部位、ユビキチン化部位、リン酸化部位、SUMO化部位、リボシル化部位、シトルリン化部位、ヒストン翻訳後改変部位、ヒストンバリアント部位、および/またはこれらに類するものが挙げられる。複製後改変の例としては、数ある中でも特に、5-メチル-シトシン、5-ヒドロキシメチル-シトシン、5-カルボキシル-シトシン、および5-ホルミル-シトシンが挙げられる。エピジェネティック部位または座位に関するさらなる詳細は、例えば、Jin et al., "DNA Methylation: Superior or Subordinate in the Epigenetic Hierarchy?," Genes Cancer, 2(6):607-617 (2011)、Javaid et al., "Acetylation- and Methylation-Related Epigenetic Proteins in the Context of Their Target," Genes (Basel), 8(8):196 (2017)、Cao et al., "Histone Ubiquitination and Deubiquitination in Transcription, DNA Damage Response, and Cancer," Front Oncol, 2:26 (2012)、Rossetto et al., "Histone phosphorylation: A chromatin modification involved in diverse nuclear event," Epigenetics, 7(10):1098-1108 (2012)、Vranych et al., "SUMOylation and deimination of proteins: two epigenetic modifications involved in Giardia encystation," Biochim Biophys Acta, 1843(9):1805-17 (2014)、Sadakierska-Chudy et al., "A Comprehensive View of the Epigenetic Landscape. Part II: Histone Post-translational Modification, Nucleosome Level, and Chromatin Regulation by ncRNAs," Neurotox Res, 27:172-197 (2015)、Fuhrmann et al., "Protein Arginine Methylation and Citrullination in Epigenetic Regulation," ACS Chem Biol, 11(3):654-668 (2016)、Fan et al., "Metabolic regulation of histone post-translational modifications," ACS Chem Biol, 10(1):95-108 (2015)、およびHenikoff et al., "Histone Variants and Epigenetics," Cold Spring Harb Perspect Biol, 7(1) (2015)に記載されており、これらの参考文献は、参照により本明細書に組み込まれる。
エピジェネティック情報は、当業者に公知の任意の技法を使用してcfDNA断片から得ることができる。一部の実施形態では、例えば、所与のcfDNA試料からのDNA分子は、パーティションを生成するために物理的に分画(例えば、様々なメチル化度またはこれに類するものにcfDNA断片を階層化するためのメチル結合ドメインタンパク質(「MBD」)ビーズでの分画)される。これらの実施形態では、分子タグ付きパーティションを生成するために、差次的分子タグおよびNGS利用可能なアダプターが、2つまたはそれより多くのパーティションの各々に適用される。加えて、これらの実施形態は、分子タグ付きパーティションをNGS機器でアッセイして、試料を差次的にパーティショニングされた分子にデコンボリューションするための配列データを生成して、エピジェネティック情報を生成することも含む。一部の実施形態では、バイサルファイトシークエンシング技法も、cfDNA試料からエピジェネティック情報を生成するために使用される。本明細書で開示される方法を行う際の使用に必要に応じて適応されるエピジェネティック改変の分析に関するさらなる詳細は、例えば、2017年12月22日に出願されたWO2018/119452に記載されており、この参考特許文献は、参照により本明細書に組み込まれる。
一部の実施形態では、本明細書で開示される方法ならびに関連システムおよびコンピュータ可読媒体インプリメンテーションは、核酸試料、例えばcfDNA試料からのDNA分子の細胞起源を、シークエンシングプロセスによって突き止められる配列(例えば、配列断片/リード)の特性、例えば、それらの分子または断片により示されるフラグメントミクスパターンを使用して、決定することを含む。ヒト血漿DNAは、異なるサイズのDNA断片の混合物を含み、したがって、配列断片のサイズは、フラグメントミクスシグネチャーの一部を形成し得る。サイズ最頻値は、おおよそ166塩基対(bp)であり、ヌクレオソーム構造に関係し得る。がん患者の血漿中の無細胞腫瘍由来DNAは、おおよそ143bpのより短いサイズ最頻値を有する。ctDNAのサイズプロファイルは、がんを有さない対象よりがんを有する対象におけるほうが、短い長さ中央値を有し得、可変性が高いものであり得る。加えて、無細胞DNAサイズピークのパターンを使用して、腫瘍配列断片と非腫瘍配列断片とを区別することができる。
無細胞腫瘍由来DNAは、無細胞非腫瘍由来DNAと比較したとき異なる末端を示し得、したがって、末端モチーフはフラグメントミクスシグネチャーの一部を形成し得る。終了配列は、様々なヌクレオチドを特徴とし得るある特定のモチーフ、例えば、2-ヌクレオチドオリゴマー(2-mer)または4-merモチーフの過剰提示を明示する。多くのヒトがんは、DNASE1L3の発現の下方調節を示し、この下方調節は、DNASE1L3関連末端モチーフを有する血漿DNAの低減をもたらす。血漿DNA末端モチーフは、それらの最大診断力を、比較的少数のDNA分子を分析することで得ることができることで、利点を実証する。例えば、コンピュータシミュレーションに基づいて、10%の腫瘍DNA割合で、それは、肝細胞癌を有する患者と有さない患者を差別化するために50,000個の血漿DNA分子(各細胞のDNA含有量が、約20,000,000個の無細胞DNA分子に分画される)しか必要としないことになるが、少なくとも7,500,000のDNA分子が、1メガ塩基(Mb)のコピー数異常を検出するために必要とされることになる。血漿DNAにおける腫瘍由来一塩基バリアントの検出は、はるかに大きいシークエンシング深度(例えば、半数体ヒトゲノムカバレッジの>200倍)を必要とすることが示されている。
二本鎖無細胞DNAは、平滑末端またはジャギド末端を有することがあり、したがって、ジャギド末端の存在および/または程度は、フラグメントミクスシグネチャーの一部を形成し得る。突出またはジャギド末端を有する切断二本鎖DNAの生成に対する平滑末端を有する切断二本鎖DNAの生成への選好性は、ヌクレアーゼによって異なる。ジャギド末端は、メチル化シトシンまたは非メチル化シトシンのどちらかで修復され得、したがってジャギド末端の存在量は、ゲノムのものからのメチル化レベルの変化により測定され得る。ジャギド末端の頻度は、がん患者のctDNAにおいて増加されることが判明している。ジャギド末端の頻度をDNASE1とDNASE1L3との間の相対活性に関係付けることができ、前者はジャギド末端の頻度を増加させ、後者はジャギド末端の頻度を低下させる。
血漿DNA断片化は、ある特定のゲノム領域が、「好ましい末端部位」と呼ばれる血漿DNA断片の末端で切断されるおよび見いだされる傾向がより高い、非無作為プロセスであり、したがって、そのような部位は、フラグメントミクスシグネチャーの一部を形成し得る。これらの部位は、組織源の異なるDNA分子では異なり得る。無細胞DNAがヒトゲノムにアラインされたとき、それらの末端は、遺伝子位置(好ましい末端部位)でクラスタリングする傾向があり、この傾向は、DNA分子間でそれらの起源組織によって異なり得る。所与のウイドウサイズ内の断片終点の数を引いた完全断片の数として計算され得るウインドウ保護スコアは、消化からのDNA保護についての情報を伝えることができ、これを使用してヌクレオソームの配置を推論することができる。無細胞DNA終了位置-すなわち、上流側末端または下流側末端-のゲノムカバレッジおよび方向性情報は、原発組織のクロマチン構造(例えば、TF、転写因子)を反映している。
cfDNAに寄与する組織内のヒトゲノムにわたるヌクレオソームの主要な局所位置を、1つまたは複数の参照マップとのアラインされた断片終点の分布の比較またはその数学的変換により、推論することができる。フラグメントミクス分析に使用され得る値の例は、PCT出願WO2016/015058に記載されているようなウインドウ化保護スコア(Windowed Protection Score)(「WPS」)であり、これはそのような配置を表すために開発されたものであり、したがって、フラグメントミクスシグネチャーの一部を形成し得る。具体的には、cfDNA断片終点は、ヌクレオソームの境界に隣接してクラスタリングし、それと同時にヌクレオソーム自体でも枯渇されるはずであると予想される。WPSの値は、in vitro法または古代DNAを用いて他のグループによりマッピングされたように、強固に配置されたアレイ内のヌクレオソームの位置と相関する。他の部位で、WPSは、ゲノム特徴、例えば、DNase I高感受性(DHS)部位(例えば、遠位調節エレメントに隣接しているヌクレオソームの再配置と一致する)と相関する。フラグメントミクス分析は、典型的には、特定の遺伝子位置(1塩基またはそれより多い)に位置する断片終点の数に基づく値(単数または複数)を、その遺伝子位置におけるまたはその付近における配列データの量に正規化して、決定することを含み、したがって、フラグメントミクス値を、健康な個体と罹患した個体とを比較するためのモデルに入力して、試験対象における疾患の存在または非存在の可能性を決定することができる。例えば、10000の対合末端リードが、500bpゲノム領域内に位置する末端を有し、100の末端が、その500bp領域内の単一塩基位置に位置する場合には、100/1000の値が、その単一塩基位置についてのフラグメントミクス値となり得る。理論により拘束されないが、フラグメントミクス値は、照合されるゲノム領域に結合されたタンパク質、例えばヒストンまたは転写因子の存在または非存在を示すように思われる。そのような結合されたタンパク質の存在または非存在は、結合されたタンパク質により保護されたDNAへのヌクレアーゼの接近可能性に影響を与えると考えられる。
ある実施形態では、特徴エンジニアリングステップ104で、機械学習ステップ用の入力特徴が、例えば、配列データ、エピジェネティックデータ、フラグメントミクスデータ、これらの組合せ、およびそれらに類するものを分析することにより作出され得る。追加のまたは他のデータタイプを、必要に応じて、特徴エンジニアリングステップに使用することができる。方法100はまた、データ正規化ステップ106において1つまたは複数の変換および/またはクリーンアップ、例えば、試料保有率のクリーンアップ(例えば、所与の核酸バリアント数が少ない試料、試料数が少ない試料などを調整する)プロセスを含むことができ、対数変換(例えば、Log(x+1)またはNp.log1p)を行うことができ、正規化(例えば、Yeo-Johnson正規化、ミニマックス正規化、zスコア正規化、および/またはこれらに類する正規化)を行うことができる(ステップ108)。
方法100は、ステップ102で得られたデータから(例えば、訓練データセットの作出によって)生成された訓練データセットおよびステップ104からの入力特徴に従って、機械学習モデル(例えば、分類器)を生成する機械学習ステップ108を含み得る。機械学習モデルは、試験試料に存在する所与の核酸バリアントの起源が腫瘍または非腫瘍である1つまたは複数の可能性を提供、分類、予測または別様に決定するように構成され得る。機械学習ステップ108は、任意の機械学習技法、例えば、ロジスティック回帰または深層学習技法を使用し得る。訓練および分類に使用され得る例示的なモデルは、これらに限定されないが、ロジスティック回帰、プロビット回帰、決定木、ランダムフォレスト、勾配ブースティング、サポートベクターマシン、k最近傍法、ニューラルネットワーク、またはこれらの方法の1つより多くのアンサンブルのうちの1つまたは複数を含み得る。アンサンブル法は、いくつかの機械学習技法を、分散を減少させるために(バギング)、バイアスを減少させるために(ブースティング)または予測を改善するために(スタッキング)、1つの予測モデルに統合する、メタアルゴリズムである。大部分のアンサンブル法は、均一なアンサンブルをもたらす均一な基本学習器、すなわち同じタイプの学習器を産生するために、単一の基本学習アルゴリズムを使用する。不均一なアンサンブルをもたらすために不均一な学習器、すなわち異なるタイプの学習器を使用する一部の方法もある。アンサンブル法がその個々のどのメンバーよりも高精度になるために、基本学習器は、できる限り正確でなければならず、できる限り多様でなければならない。
方法100は、ステップ110において、バリアントに関連する配列データ、エピジェネティックデータおよび/またはフラグメントミクスデータが提供されたとき、バリアントの起源を分類または別様に予測するように構成されている機械学習モデル/分類器を出力し得る。
機械学習モデル/分類器を使用して、試験試料における新たに提示された配列断片および/またはバリアントの起源を決定することができる。起源は、腫瘍由来であることもあり、または非腫瘍由来であることもある。機械学習モデル/分類器により導出された、腫瘍として分類された配列断片および/またはバリアントを使用して、対象の処置を方向付けることができる。対象が疾患を有するかどうかが事前に不明であることもあり、対象が疾患を有することが既知であることもある。疾患は、がんであり得る。方法は、疾患を処置するために対象に1つまたは複数の療法を投与するステップを含み得る。療法は、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含み得る。方法は、腫瘍由来であるとの起源の決定を試験試料に関連する対象に通信することを支援するステップを含み得る。
II.例示的なシステムおよび方法
図2は、本開示の実施形態に従って、試験対象211のバリアントの起源を決定するためのシステム200の一例を示す。システム200は、対象211からの1つまたは複数の試料201を処理して、バリアント検出およびバリアント起源決定のための配列リードを生成することができる。システム200は、研究室システム202、コンピュータシステム210、および/または他の構成要素を含み得る。研究室システム202およびコンピュータシステム210が、互いに遠く離れたところにあり得、コンピュータネットワーク(図示されていない)によって互いに接続され得ることに留意されたい。研究所システム202は、試料収集および調製パイプライン203、シークエンシングパイプライン205、配列リードデータストア209、および/または他の構成要素を含み得る。シークエンシングパイプライン205は、1つまたは複数のシークエンシングデバイス207(図2にシークエンシングデバイス207a...nとして図示されている)を含み得る。
本開示の方法は、無細胞核酸の操作、調製、同定、定量化および/または分析において多種多様に使用することができる。図2に示されているように、試料収集および調製パイプライン203は、1つまたは複数の参照対象からcfDNA参照試料201を、および試験対象からcfDNA試験試料211を得ることを含み得る。本明細書に記載されるように、ポリヌクレオチドは、DNAおよび/またはRNAなどの、任意のタイプの核酸を含み得る。例えば、ポリヌクレオチドがDNAである場合、それは、ゲノムDNA、相補的DNA(cDNA)、または任意の他のデオキシリボ核酸であり得る。ポリヌクレオチドはまた、無細胞核酸、例えば、無細胞DNA(cfDNA)であり得る。例えば、ポリヌクレオチドは、循環cfDNAであり得る。循環cfDNAは、アポトーシスまたは壊死によって体の細胞から排出されるDNAを含み得る。アポトーシスまたは壊死によって排出されるcfDNAは、正常な(例えば、健康な)体の細胞が起源であり得る。異常な組織増殖、例えば、がんのための異常な組織増殖がある場合、腫瘍DNAが排出され得る。循環cfDNAは、循環腫瘍DNA(ctDNA)を含み得る。
a.試料
様々な技法を使用して試料を収集することによって、無細胞ポリヌクレオチドの単離および抽出を行うことができる。試料は、対象から単離された任意の生体試料であり得る。試料は、体内組織、全血、血小板、血清、血漿、糞便、赤血球、白血球またはロイコサイト、内皮細胞、組織生検材料(例えば、既知のまたは疑わしい固形腫瘍からの生検材料)、脳脊髄液、滑液、リンパ液、腹水、間質または細胞外液(例えば、間質腔からの流体)、歯肉滲出液、歯肉溝滲出液、骨髄、胸水、脳脊髄液、唾液、粘液、痰、精液、汗、尿を含み得る。試料は、好ましくは、体液、特に、血液およびその画分ならびに尿である。そのような試料は、腫瘍から排出された核酸を含む。核酸は、DNAおよびRNAを含み得、二本鎖形態または一本鎖形態であり得る。試料は、対象から最初に単離された形態であることもあり、あるいは細胞などの成分を除去もしくは追加するための、ある成分を別の成分と比べて濃縮するための、または核酸のある形態を別の形態に、例えば、RNAをDNAに、もしくは一本鎖核酸を二本鎖核酸に、変換するための、さらなる処理に付されたものであることもある。したがって、例えば、分析のための体液試料は、無細胞核酸、例えば無細胞DNA(cfDNA)、を含有する血漿または血清である。
一部の実施形態では、対象から採取される体液の試料体積は、シークエンシングされる領域についての所望の読み取り深度に依存する。例示的な体積は、約0.4~40ml、約5~20ml、約10~20mlである。例えば、体積は、約0.5ml、約1ml、約5ml、約10ml、約20ml、約30ml、約40ml、またはそれを超えるミリリットルである。試料採取される血漿の体積は、通常は、約5ml~約20mlの間である。
試料は、様々な量の核酸を含み得る。通常は、所与の試料中の核酸の量は、複数のゲノム等価物と同等とみなされる。例えば、約30ngのDNAの試料は、約10,000(10)半数体ヒトゲノム等価物、およびcfDNAの場合は約200,000,000,000(2×1011)の個々のポリヌクレオチド分子を含有し得る。同様に、約100ngのDNAの試料は、約30,000の半数体ヒトゲノム等価物、およびcfDNAの場合は約600,000,000,000の個々の分子を含有し得る。
一部の実施形態では、試料は、異なる供給源からの、例えば、細胞からの、および無細胞源(例えば、血液試料など)からの、核酸を含む。通常は、試料は、変異を保有する核酸を含む。例えば、試料は、必要に応じて、生殖細胞系変異および/または体細胞変異を保有するDNAを含む。通常は、試料は、がん関連変異(例えば、がん関連体細胞変異)を保有するDNAを含む。本開示の一部の実施形態では、対象における無細胞核酸は、腫瘍に由来し得る。例えば、試料から単離された無細胞DNAは、ctDNAを含み得る。
増幅前の試料中の無細胞核酸の例示的な量は、通常は、約1フェムトグラム(fg)~約1マイクログラム(μg)、例えば、約1ピコグラム(pg)~約200ナノグラム(ng)、約1ng~約100ng、約10ng~約1000ngの範囲である。一部の実施形態では、試料は、約600ng以下、約500ng以下、約400ng以下、約300ng以下、約200ng以下、約100ng以下、約50ng以下、または約20ng以下の無細胞核酸分子を含む。必要に応じて、量は、無細胞核酸分子少なくとも約1fg、少なくとも約10fg、少なくとも約100fg、少なくとも約1pg、少なくとも約10pg、少なくとも約100pg、少なくとも約1ng、少なくとも約10ng、少なくとも約100ng、少なくとも約150ng、または少なくとも約200ngである。ある特定の実施形態では、量は、無細胞核酸分子約1fg、約10fg、約100fg、約1pg、約10pg、約100pg、約1ng、約10ng、約100ng、約150ng、または約200ng以下である。一部の実施形態では、方法は、試料から約1fg~約200ngの無細胞核酸分子を得るステップを含む。
無細胞核酸は、通常は、長さ約100ヌクレオチド~長さ約500ヌクレオチドの間のサイズ分布を有し、長さ約110ヌクレオチド~長さ約230ヌクレオチドの分子が試料中の分子の約90%に相当し、最頻値は、約168ヌクレオチド長であり、第二の微小ピークが、長さ約240~約440ヌクレオチドの間の範囲にある。ある特定の実施形態では、無細胞核酸は、長さ約160~約180ヌクレオチド、または長さ約320~約360ヌクレオチド、または長さ約440~約480ヌクレオチドである。
一部の実施形態では、無細胞核酸は、分別ステップによって体液から単離され、このステップで、溶液中に見られる場合の無細胞核酸は、無傷細胞、および体液中の他の不溶性成分から分離される。これらのうちの一部の実施形態では、分別は、遠心分離または濾過などの技法を含む。あるいは、体液中の細胞は溶解され、無細胞核酸と細胞核酸が一緒に処理される。一般に、緩衝剤の添加および洗浄ステップ後、無細胞核酸は、例えばアルコールで、沈殿される。ある特定の実施形態では、夾雑物または塩を除去するためのシリカに基づくカラムなどの、追加の清浄化ステップが、使用される。例えば、非特異的バルク担体核酸が、収率などの例示的な手順のある特定の態様を最適化するために、反応を通じて、必要に応じて、添加される。そのような処理後、試料は、二本鎖DNA、一本鎖DNAおよび/または一本鎖RNAをはじめとする、様々な形態の核酸を典型的に含む。必要に応じて、一本鎖DNAおよび/または一本鎖RNAは、後続の処理および分析ステップにそれらを含めるために、二本鎖形態に変換される。cfDNA分別、および本明細書で開示される方法を行う際の使用に必要に応じて適応されるエピジェネティック改変の関連分析に関するさらなる詳細は、例えば、2017年12月22日に出願されたWO2018/119452に記載されており、この参考特許文献は、参照により本明細書に組み込まれる。
b.パーティショニング;エピジェネティック特徴の分析
本明細書に記載される、ある特定の実施形態では、異なる形態の核酸(例えば、対象からの試料中の高メチル化および低メチル化DNA、例えば、タグ付きDNAまたはそのアリコート)の集団を、分析、例えば、シークエンシング、またはタグ付けおよびシークエンシングの前に、核酸の1つまたは複数の特徴に基づいて物理的にパーティショニングすることができる。この手法を使用して、例えば、高メチル化可変エピジェネティック標的領域が、腫瘍細胞の高メチル化特徴を示すのか、もしくは低メチル化可変エピジェネティック標的領域が、腫瘍細胞の低メチル化特徴を示すのか、または疾患の存在を別様に示すのかを判定することができる。加えて、不均一な核酸集団をパーティショニングすることにより、稀なシグナルを、例えば、その集団の1画分(またはパーティション)においてより多く見られる稀な核酸分子を濃縮することにより、増加させることができる。例えば、高メチル化DNAに存在するが低メチル化DNAにはあまり(または全く)存在しない遺伝的多様性を、試料を高メチル化核酸分子と低メチル化核酸分子にパーティショニングすることによってより容易に検出することができる。試料の複数の画分を分析することにより、ゲノムの単一遺伝子座位または核酸の種の多次元分析を行うことができ、それ故、より高い感度を達成することができる。
一部の実施形態では、パーティションは、差次的にタグ付けされ、次いで、組み換えられた後、試料が第1のアリコートと第2のアリコートに分けられ、それに本明細書に記載される方法の後続のステップが続く。一部の実施形態では、第1のアリコートと第2のアリコートに分けられる試料は、低メチル化パーティションなどのパーティションであり、第2のアリコートは、方法の濃縮および/または他のステップに付される前に、高メチル化パーティションなどの少なくとも1つの他のパーティションと併せられる。
一部の事例では、不均一な核酸試料は、2つまたはそれより多くのパーティション(例えば、少なくとも3、4、5、6または7つのパーティション)にパーティショニングされる。一部の実施形態では、各パーティションは、差次的にタグ付けされる。次いで、タグ付けされたパーティションは、集団試料調製および/またはシークエンシングのために一緒にプールされ得る。パーティショニング-タグ付け-プールステップを1回より多く行うことができ、各パーティショニングラウンドは、異なる特徴(本明細書で提供される例)に基づいて、ならびに他のパーティションおよびパーティショニング手段と区別される差次的なタグを使用してタグ付けされて、行われる。
パーティショニングに使用され得る特徴の例としては、配列長、メチル化レベル、ヌクレオソーム結合、配列ミスマッチ、免疫沈降、および/またはDNAに結合するタンパク質が挙げられる。結果として得られるパーティションは、次の核酸形態のうちの1つまたは複数を含み得る:一本鎖DNA(ssDNA)、二本鎖DNA(dsDNA)、より短いDNA断片、およびより長いDNA断片。一部の実施形態では、核酸の不均一集団は、1つまたは複数のエピジェネティック改変を有する核酸と、1つまたは複数のエピジェネティック改変を有さない核酸とにパーティショニングされる。エピジェネティック改変の例としては、メチル化の存在または非存在;メチル化レベル;メチル化のタイプ(例えば、他のタイプのメチル化、例えばアデニンメチル化および/またはシトシンヒドロキシメチル化に対する、5-メチルシトシン);ならびにヒストンなどの1つまたは複数のタンパク質との会合および会合レベルが挙げられる。あるいは、または加えて、核酸の不均一集団を、ヌクレオソームを伴う核酸分子と、ヌクレオソームを欠いている核酸分子とにパーティショニングすることができる。あるいは、または加えて、核酸の不均一集団を、一本鎖DNA(ssDNA)と二本鎖DNA(dsDNA)とにパーティショニングすることができる。あるいは、または加えて、核酸の不均一集団を、核酸長(例えば、160bp以下の分子、および160bpを超える長さを有する分子)に基づいてパーティショニングすることができる。
一部の事例では、各パーティション(異なる核酸形態を代表するもの)は、差次的に標識され、それらのパーティションは、シークエンシングの前に一緒にプールされる。他の事例では、異なる形態は、別々にシークエンシングされる。
試料は、ヌクレオチドへの複製後改変および1つまたは複数のタンパク質への結合、通常は非共有結合を含む、改変の点で異なる核酸を含み得る。
ある実施形態では、核酸の集団は、新生物、腫瘍もしくはがんを有する疑いがある対象または以前に新生物、腫瘍もしくはがんと診断された対象からの血清、血漿または血液試料から得られたものである。核酸の集団は、様々なレベルのメチル化を有する核酸を含む。メチル化は、任意の1つまたは複数の複製後または転写後改変から生じ得る。複製後改変は、ヌクレオチドシトシンの改変、特に、この核酸塩基の5位における改変、例えば、5-メチルシトシン、5-ヒドロキシメチルシトシン、5-ホルミルシトシンおよび5-カルボキシルシトシンを含む。
一部の実施形態では、元の集団における核酸は、一本鎖状および/または二本鎖状であり得る。核酸の二本鎖性に対する一本鎖性に基づくパーティショニングを、例えば、ssDNAをパーティショニングするために標識された捕捉用プローブを使用すること、およびdsDNAをパーティショニングするために二本鎖アダプターを使用することにより、果たすことができる。
親和性剤は、所望の特異性を有する抗体、それらの天然の結合パートナーもしくはバリアント(Bock et al., Nat Biotech 28: 1106-1114 (2010);Song et al., Nat Biotech 29: 68-72 (2011))であることもあり、または例えば、ファージディスプレイにより所与の標的に対する特異性を有するように選択された、人工ペプチドであることもある。
本明細書で企図される捕捉用部分の例としては、本明細書に記載のメチル結合ドメイン(MBD)およびメチル結合タンパク質(MBP)が挙げられる。
同様に、異なる形態の核酸のパーティショニングを、ヒストンに結合した核酸を遊離もしくは未結合核酸から分離することができるヒストン結合タンパク質を使用して行うことができる。本明細書で開示される方法において使用され得るヒストン結合タンパク質の例としては、RBBP4(RbAp48)およびSANTドメインペプチドが挙げられる。
一部の親和性剤および改変物について、その薬剤への結合は、核酸が改変を有するかどうかに依存して、本質的に悉無律的に起こり得るが、分離は、度合いについてのものであり得る。そのような事例では、改変物において過剰提示される核酸は、その改変物において過少提示される核酸より大きな程度で薬剤に結合する。あるいは、改変を有する核酸は、全か無か的に結合し得る。とは言え、様々なレベルの改変物を、結合剤から逐次的に溶離することができる。
例えば、一部の実施形態では、パーティショニングは、バイナリであり得るか、または改変度/レベルに基づき得る。例えば、メチル結合ドメインタンパク質(例えば、MethylMiner Methylated DNA Enrichment Kit(Thermo Fisher Scientific))を使用して、全てのメチル化断片を非メチル化断片からパーティショニングすることができる。その後、さらなるパーティショニングは、メチル結合ドメインと結合した断片とを有する溶液中の塩濃度を調整することにより、異なるメチル化レベルを有する断片を溶離することを含み得る。塩濃度が上昇するにつれて、より高いメチル化レベルを有する断片が溶離される。
一部の事例では、最終的なパーティションは、改変の程度が異なる核酸を代表するもの(改変の過剰代表または過少代表)である。過剰提示および過少提示を、集団における1鎖当たりの改変数中央値に対する核酸が有する改変数によって定義することができる。例えば、試料における核酸中の5-メチルシトシン残基数の中央値が2である場合、2つより多くの5-メチルシトシン残基を含む核酸は、この改変では過剰提示され、1またはゼロ個の5-メチルシトシン残基を有する核酸は、過少提示される。親和性分離の効果は、結合相での改変で過剰提示される核酸および未結合相で(すなわち、溶解状態で)の改変で過少提示される核酸を濃縮することである。結合相における核酸をその後の処理の前に溶離することができる。
MethylMiner Methylated DNA Enrichment Kit(Thermo Fisher Scientific)を使用する場合、逐次的溶離を使用して様々なメチル化レベルをパーティショニングすることができる。例えば、磁気ビーズに結合されているキットからのMBDと核酸集団を接触させることにより、低メチル化パーティション(例えば、無メチル化)をメチル化パーティションから分離することができる。ビーズは、メチル化核酸を非メチル化核酸から分離除去するために使用される。その後、メチル化レベルが異なる核酸を溶離するために、1つまたは複数の溶離ステップが逐次的に行われる。例えば、メチル化核酸の第1のセットを、160mMまたはそれより高い、例えば、少なくとも200mM、300mM、400mM、500mM、600mM、700mM、800mM、900mM、1000mM、または2000mMの塩濃度で溶離することができる。そのようなメチル化核酸が溶離された後、メチル化レベルがより高い核酸をメチル化レベルがより低いものから分離するために磁気分離がもう一度使用される。溶離および磁気分離ステップそれら自体が反復して、様々なパーティション、例えば、低メチル化パーティション(例えば、無メチル化を代表するもの)、メチル化パーティション(低メチル化レベルを代表するもの)、および高メチル化パーティション(高メチル化レベルを代表するもの)を作出することができる。
一部の方法では、親和性分離に使用される薬剤に結合した核酸は、洗浄ステップに付される。洗浄ステップは、親和性剤に弱く結合している核酸を洗浄除去する。そのような核酸では、改変を有する核酸が平均値または中央値(すなわち、試料と薬剤の最初の接触時に固相に結合したままの核酸と固相に結合していない核酸との中間)に近い程度に濃縮され得る。
親和性分離の結果として、改変の程度が異なる核酸の少なくとも2つのパーティションが得られ、3つまたはそれより多くのパーティションが得られることもある。パーティションは、さらに分離されるが、少なくとも1つの、通常は2つまたは3つの(またはそれより多くの)パーティションの核酸は、アダプターの成分として通常は提供される核酸タグに連結され、異なるパーティションの中の核酸には異なるタグが与えられ、それによって、あるパーティションのメンバーが、別のパーティションのメンバーと区別される。同じパーティションの核酸分子に連結されるタグは、互いに同じまたは異なることがある。しかし、互いに異なっていたとしても、それらのタグにはそれらのコードに共通している部分があり、したがって、それらが特定のパーティションのものであるときに結合されている分子を同定することができる。
メチル化などの特徴に基づく核酸試料のポーショニングに関するさらなる詳細については、WO2018/119452を参照されたく、この参考特許文献は、参照により本明細書に組み込まれる。
一部の実施形態では、特定のタンパク質またはその断片に結合している核酸分子、およびその特定のタンパク質またはその断片に結合していない核酸分子に基づいて、核酸分子を異なるパーティションに分画することができる。
核酸分子を、DNA-タンパク質結合に基づいて分画することができる。タンパク質-DNA複合体を、タンパク質の特定の特性に基づいて分画することができる。そのような特性の例としては、様々なエピトープ、改変(例えば、ヒストンメチル化またはアセチル化)または酵素活性が挙げられる。DNAに結合し得るおよび分画のための基礎として役立ち得るタンパク質の例としては、これらに限定されないが、プロテインAおよびプロテインGを挙げることができる。任意の好適な方法を使用して、タンパク質結合領域に基づいて核酸分子を分画することができる。タンパク質結合領域に基づいて核酸分子を分画するために使用される方法の例としては、これらに限定されないが、SDS-PAGE、クロマチン免疫沈降(ChIP)、ヘパリンクロマトグラフィー、および非対称フィールドフローフラクショネーション(AF4)が挙げられる。
一部の実施形態では、核酸のパーティショニングは、核酸をメチル化結合タンパク質(「MBP」)のメチル化結合ドメイン(「MBD」)と接触させることにより行われる。MBDは、5-メチルシトシン(5mC)に結合する。MBDは、Dynabeads(登録商標)M-280 Streptavidinなどの常磁性ビーズにビオチンリンカーを介して連結されている。メチル化の程度が異なる画分へのパーティショニングは、NaCl濃度を上昇させることによって画分を溶離することにより行うことができる。
本明細書で企図されるMBPの例としては、これらに限定されないが、以下のものが挙げられる:
(a)MeCP2は、未改変シトシンより5-メチル-シトシンに優先的に結合するタンパク質である。
(b)RPL26、PRP8およびDNAミスマッチ修復タンパク質MHS6は、未改変シトシンより5-ヒドロキシメチル-シトシンに優先的に結合する。
(c)FOXK1、FOXK2、FOXP1、FOXP4およびFOXI3は、未改変シトシンより5-ホルミル-シトシンに好んで結合する(Iurlaro et al., Genome Biol. 14: R119 (2013))。
(d)1つまたは複数のメチル化ヌクレオチド塩基に特異的な抗体。
一般に、溶離は、1分子当たりのメチル化部位の数と相関関係にあり、メチル化度が高い分子ほど、高い塩濃度下で溶離する。メチル化の程度に基づいてDNAを別個の集団に溶離するために、漸増NaCl濃度の一連の溶離緩衝剤を使用することができる。塩濃度は、約100mM~約2500mM NaClの範囲であり得る。一実施形態では、このプロセスの結果として3つのパーティションが得られる。分子を、第1の塩濃度を有する溶液であって、メチル結合ドメインを含む分子を含み、この分子がストレプトアビジンなどの捕捉用部分に結合され得るものである溶液と、接触させる。第1の塩濃度で、分子のある集団は、MBDと結合することになり、ある集団は、未結合のままとなる。未結合集団を「低メチル化」集団として分離することができる。例えば、低メチル化形態のDNAを代表する第1のパーティションは、低い塩濃度、例えば、100mMまたは160mMで未結合のままであるパーティションである。中メチル化DNAを代表する第2のパーティションは、中等度の塩濃度、例えば、100mM~2000mMの間の濃度を使用して溶離される。これも試料から分離される。高メチル化形態のDNAを代表する第3のパーティションは、高い塩濃度、例えば、少なくとも約2000mMを使用して溶離される。
一部の実施形態では、例えば、エピジェネティック標的領域セットが捕捉される場合、試料DNA(例えば、1~300ngの間のものについて)は、適切な量のメチル結合ドメイン(MBD)緩衝剤(MBD緩衝剤の量は、使用されるDNAの量に依存する)、およびMBDタンパク質とコンジュゲートした磁気ビーズと混合され、一晩、インキュベートされる。メチル化DNA(高メチル化DNA)は、このインキュベーション中に磁気ビーズ上のMBDタンパク質に結合する。非メチル化(低メチル化DNA)または然程メチル化されていないDNA(中メチル化DNA)は、漸増濃度の塩を含有する緩衝剤でビーズから洗い流される。例えば、非メチル化、低メチル化および/または中メチル化DNAを含有する1つ、2つまたはそれより多くの画分を、そのような洗浄から得ることができる。最後に、高塩緩衝剤が、重度にメチル化されたDNA(高メチル化DNA)をMBDタンパク質から溶離するために使用される。一部の実施形態では、これらの洗浄の結果として、漸増メチル化レベルを有するDNAの3つのパーティション(低メチル化パーティション、中メチル化画分、および高メチル化パーティション)が得られる。
一部の実施形態では、DNAのこれら3つのパーティションは、ライブラリー調製の酵素的ステップのための調製中に脱塩され、濃縮される。
一部の実施形態では、分子のメチル化シグネチャーを、MeDIP-seq、MBD-seq、BS-seq、Ox-BS-seq、TAP-seq、ACE-seq、hmC-seal、およびTAB-seqなどの方法により決定することができる。例えば、Schutsky, E.K. et al. Nondestructive, base-resolution sequencing of 5-hydroxymethylcytosine using a DNA deaminase. Nature Biotech, 2018; doi.10.1038/nbt.4204 (ACE-Seq);Yu, Miao et al. Base-resolution analysis of 5-hydroxymethylcytosine in the Mammalian Genome. Cell, 2012; 149(6):1368-80 (TAB-Seq);Han, D. A highly sensitive and robust method for genome-wide 5hmC profiling of rare cell populations. Mol Cell. 2016; 63(4):711-719 (5hmC-Seal);Shen, S.Y. et al. Sensitive tumour detection and classification using plasma cell-free DNA methylomes. Nature. 2018; 563(7732):579-583 (cfMeDIP);Nair, SS et al. Comparison of methyl-DNA immunoprecipitation (MeDIP) and methyl-CpG binding domain (MBD) protein capture for genome-wide DNA. Epigenetics. 2011; 6(1):34-44を参照されたい。一部の実施形態では、分子のメチル化シグネチャーを、1つまたは複数のメチル化感受性制限酵素(MSRE)および/またはメチル化依存性制限酵素(MDRE)で試料を処理することにより決定することができる。一部の実施形態では、上記方法のいずれかを単独でまたは組み合わせて使用して、分子のメチル化シグネチャーを決定することができる。
c.核酸タグ
一部の実施形態では、核酸分子(ポリヌクレオチドの試料からの)に試料インデックスおよび/または分子バーコード(一般に「タグ」と呼ばれる)でタグ付けすることができる。数ある方法の中でも特に、化学合成、ライゲーション(例えば、平滑末端ライゲーションまたは付着末端ライゲーション)、またはオーバーラップ伸長ポリメラーゼ連鎖反応(PCR)によって、タグをアダプターに組み込むことまたは別様に結合させることができる。そのようなアダプターを、最終的に、標的核酸分子に結合させることができる。他の実施形態では、従来の核酸増幅法を使用して核酸分子に試料インデックスを導入するために、1または複数ラウンドの増幅サイクル(例えば、PCR増幅)が一般に適用される。増幅を1つまたは複数の反応混合物(例えば、アレイ状の複数のマイクロウェル)で行うことができる。分子バーコードおよび/または試料インデックスを同時にまたは任意の順番で導入することができる。一部の実施形態では、分子バーコードおよび/または試料インデックスは、配列捕捉ステップが行われる前に、および/または行われた後に導入される。一部の実施形態では、分子バーコードのみがプローブ捕捉の前に導入され、試料インデックスは、配列捕捉ステップが行われた後に導入される。一部の実施形態では、分子バーコードと試料インデックスの両方が、プローブに基づく捕捉ステップを行う前に導入される。一部の実施形態では、試料インデックスは、配列捕捉ステップが行われた後に導入される。一部の実施形態では、分子バーコードは、ライゲーション(例えば、平滑末端ライゲーションまたは付着末端ライゲーション)によってアダプターを介して試料中の核酸分子(例えば、cfDNA分子)に組み込まれる。一部の実施形態では、試料インデックスは、オーバーラップ伸長ポリメラーゼ連鎖反応(PCR)によって試料中の核酸分子(例えば、cfDNA分子)に組み込まれる。典型的には、配列捕捉プロトコールは、標的核酸配列、例えばゲノム領域のコード配列に相補的な一本鎖核酸分子を導入することを含み、そのような領域の変異は、がん型に関連している。
一部の実施形態では、タグは、試料核酸分子の一方の末端に位置することもあり、または両方の末端に位置することもある。一部の実施形態では、タグは、所定の配列、無作為配列または半無作為配列のオリゴヌクレオチドである。一部の実施形態では、タグは、長さ約500、200、100、50、20、10、9、8、7、6、5、4、3、2または1ヌクレオチド未満であり得る。タグは、試料核酸に無作為に連結されることもあり、または作為的に連結されることもある。
一部の実施形態では、各試料は、試料インデックス、または試料インデックスの組合せで、一意的にタグ付けされる。一部の実施形態では、試料または二次試料の各核酸分子は、分子バーコード、または分子バーコードの組合せで、一意的にタグ付けされる。他の実施形態では、複数の分子バーコードの中の分子バーコードが互いに必ずしも一意でないような複数のバーコード(例えば、非一意の分子バーコード)が使用され得る。これらの実施形態では、分子バーコードは、一般に、個々の分子に(例えば、ライゲーションにより)結合され、その結果、分子バーコードとそれに結合され得る配列の組合せによって、個々に追跡することができる一意の配列が作出される。内因性配列情報(例えば、試料中の元の核酸分子の配列に対応する最初の(開始)および/もしくは最後の(停止)遺伝子位置/ゲノム位置、試料中の元の核酸分子の配列に対応する開始および停止ゲノム位置、参照配列にマッピングされる配列リードの最初の(開始)および/もしくは最後の(停止)遺伝子位置/ゲノム位置、参照配列にマッピングされる配列リードの開始および停止遺伝子位置、配列リードの一方もしくは両方の末端における部分配列、配列リードの長さ、ならびに/または試料中の元の核酸分子の長さ)と組み合わせて非一意の分子バーコードを検出することにより、典型的には、特定の分子に一意の同一性を割り当てることが可能になる。一部の実施形態では、最初の領域は、参照配列にアラインするシークエンシングリードの5’末端の最初の1、最初の2、最初の5、最初の10、最初の15、最初の20、最初の25、最初の30、または少なくとも最初の30塩基位置を含む。一部の実施形態では、最後の領域は、参照配列にアラインするシークエンシングリードの3’末端の最後の1、最後の2、最後の5、最後の10、最後の15、最後の20、最後の25、最後の30、または少なくとも最後の30塩基位置を含む。個々の配列リードの長さまたは塩基対の数も、必要に応じて、所与の分子に一意の同一性を割り当てるために使用される。本明細書で説明されるように、それによって、一意の同一性が割り当てられた核酸の一本鎖からの断片により、親鎖および/または相補鎖からの断片のその後の同定が可能になり得る。
ある特定の実施形態では、あるクラスの中の分子の数、z、を一意に識別するために使用される異なるタグの数は、2×z、3×z、4×z、5×z、6×z、7×z、8×z、9×z、10×z、11×z、12×z、13×z、14×z、15×z、16×z、17×z、18×z、19×z、20×zまたは100×zのいずれか(例えば、下限)~100,000×z、10,000×z、1000×zまたは100×zのいずれか(例えば、上限)の間の数であり得る。一部の実施形態では、分子バーコードは、識別子のセット(例えば、一意または非一意の分子バーコードの組合せ)の、試料中の分子に対する予想比で導入される。1つの例示的な形式は、標的分子の両方の末端にライゲーションされた、約2~約1,000,000の異なる分子バーコード配列、または約5~約150の異なる分子バーコード配列、または約20~約50の異なる分子バーコード配列を使用する。あるいは、約25~約1,000,000の異なる分子バーコード配列が使用され得る。例えば、20~50×20~50の分子バーコード配列(すなわち、20~50の異なる分子バーコード配列のうちの1つが標的分子の各末端に結合され得る)が使用され得る。典型的には、そのような識別子数は、同じ開始点および停止点を有する異なる分子が、識別子の異なる組合せを受け取る確率が高くなる(例えば、少なくとも94%、99.5%、99.99%、または99.999%)のに十分な数である。一部の実施形態では、分子の約80%、約90%、約95%、または約99%は、分子バーコードの同じ組合せを有する。
一部の実施形態では、反応における一意または非一意の分子バーコードの割り当ては、例えば、米国特許出願公開第20010053519号、同第20030152490号、および同第20110160078号、ならびに米国特許第6,582,908号、同第7,537,898号、同第9,598,731号、および同第9,902,992号に記載されている方法およびシステムを使用して行われ、これらの参考特許文献の各々は、これによりその全体が参照により本明細書に組み込まれる。あるいは、一部の実施形態では、内因性配列情報(例えば、開始および/もしくは停止位置、配列の一方もしくは両方の末端の部分配列、ならびに/または長さ)のみを使用して、試料の異なる核酸分子を同定することができる。
本明細書に記載されるある特定の実施形態では、異なる形態の核酸(例えば、試料中の高メチル化および低メチル化DNA)の集団を、分析、例えば、シークエンシング、またはタグ付けおよびシークエンシングの前に、物理的にパーティショニングすることができる。この手法を使用して、例えば、高メチル化可変エピジェネティック標的領域が、腫瘍細胞の高メチル化特徴を示すのか、または低メチル化可変エピジェネティック標的領域が、腫瘍細胞の低メチル化特徴を示すのかを判定することができる。加えて、不均一な核酸集団をパーティショニングすることにより、稀なシグナルを、例えば、その集団の1画分(またはパーティション)においてより多く見られる稀な核酸分子を濃縮することにより、増加させることができる。例えば、高メチル化DNAに存在するが低メチル化DNAにはあまり(または全く)存在しない遺伝的多様性を、試料を高メチル化核酸分子と低メチル化核酸分子にパーティショニングすることによってより容易に検出することができる。試料の複数の画分を分析することにより、ゲノムの単一遺伝子座または核酸の種の多次元分析を行うことができ、それ故、より高い感度を達成することができる。
一部の事例では、不均一な核酸試料は、2つまたはそれより多くのパーティション(例えば、少なくとも3、4、5、6または7つのパーティション)にパーティショニングされる。一部の実施形態では、各パーティションは、差次的にタグ付けされる-すなわち、各パーティションは、分子バーコードの異なるセットを有し得る。次いで、タグ付けされたパーティションは、集団試料調製および/またはシークエンシングのために一緒にプールされ得る。パーティショニング-タグ付け-プールステップを1回より多く行うことができ、各パーティショニングラウンドは、異なる特徴(本明細書で提供される例)に基づいて、ならびに他のパーティションおよびパーティショニング手段と区別される差次的なタグを使用してタグ付けされて、行われる。
パーティショニングに使用され得る特徴の例としては、配列長、メチル化レベル、ヌクレオソーム結合、配列ミスマッチ、免疫沈降、および/またはDNAに結合するタンパク質が挙げられる。結果として得られるパーティションは、次の核酸形態のうちの1つまたは複数を含み得る:一本鎖DNA(ssDNA)、二本鎖DNA(dsDNA)、より短いDNA断片、およびより長いDNA断片。一部の実施形態では、核酸の不均一集団は、1つまたは複数のエピジェネティック改変を有する核酸と、1つまたは複数のエピジェネティック改変を有さない核酸にパーティショニングされる。エピジェネティック改変の例としては、メチル化の存在または非存在;メチル化レベル;メチル化のタイプ(例えば、他のタイプのメチル化、例えばアデニンメチル化および/またはシトシンヒドロキシメチル化に対する、5-メチルシトシン);ならびにヒストンなどの1つまたは複数のタンパク質との会合および会合レベルが挙げられる。あるいは、または加えて、核酸の不均一集団を、ヌクレオソームを伴う核酸分子と、ヌクレオソームを欠いている核酸分子にパーティショニングすることができる。あるいは、または加えて、核酸の不均一集団を、一本鎖DNA(ssDNA)と二本鎖DNA(dsDNA)にパーティショニングすることができる。あるいは、または加えて、核酸の不均一集団を、核酸長(例えば、160bp以下の分子、および160bpを超える長さを有する分子)に基づいてパーティショニングすることができる。
一部の事例では、各パーティション(異なる核酸形態を代表するもの)は、分子バーコードで差次的にタグ付けされ、それらのパーティションは、シークエンシングの前に一緒にプールされる。他の事例では、異なる形態は、別々にシークエンシングされる。一部の実施形態では、特定のパーティションを標識するために単一のタグが使用され得る。一部の実施形態では、特定のパーティションを標識するために複数の異なるタグが使用され得る。特定のパーティションを標識するために複数の異なるタグを利用する実施形態では、1つのパーティションを標識するために使用されるタグのセットを、他のパーティションを標識するために使用されるタグのセットと容易に差別化することができる。一部の実施形態では、タグは、多機能性であり得る-すなわち、それは、同時に分子識別子(すなわち、分子バーコード)、パーティション識別子(すなわち、パーティションタグ)および試料識別子(すなわち、試料インデックス)として機能することができる。例えば、4つのDNA試料があり、各DNA試料が3つのパーティションにパーティショニングされる場合には、12のパーティション(すなわち、4つのDNA試料について合計で12のパーティション)の各々におけるDNA分子に、DNA分子に結合されたタグ配列によってDNA分子の同一性、それが属するパーティション、およびその起源である試料が明らかになるように、タグの別々のセットでタグ付けすることができる。一部の実施形態では、タグを分子バーコードとしてもパーティションタグとしても使用することができる。例えば、DNA試料が、3つのパーティションにパーティショニングされる場合には、各パーティションの中のDNA分子は、DNA分子に結合されたタグ配列によってDNA分子の同一性、およびそれが属するパーティションが明らかになるように、タグの別々のセットでタグ付けされる。一部の実施形態では、タグを分子バーコードとしても試料インデックスとしても使用することができる。例えば、4つのDNA試料がある場合には、各試料中のDNA分子は、DNA分子に結合されたタグ配列が、分子識別子として、および試料識別子としての機能を果たすように、各試料と区別可能であり得るタグの別々のセットでタグ付けされることになる。
一実施形態では、パーティションのタグ付けは、パーティションタグで各パーティションの中の分子にダグ付けすることを含む。パーティションとシークエンシング分子を組み合わせ直した後、パーティションタグによって供給源パーティションが同定される。別の実施形態では、例えば一対のバーコードで構成されている、分子タグの異なるセットで、異なるパーティションにタグ付けされる。このように、各分子バーコードは、パーティション内の分子を区別するのに有用であるばかりでなく、供給源パーティションも示す。例えば、35のバーコードの第1のセットを使用して第1のパーティションの中の分子にタグ付けすることができ、その一方で35のバーコードの第2のセットを使用して第2のパーティションの中の分子にタグ付けすることができる。
一部の実施形態では、パーティショニング、およびパーティションタグでのタグ付けの後、単回実行でのシークエンシングのために分子をプールすることができる。一部の実施形態では、試料タグは、例えば、パーティションタグを付加するステップおよびプールするステップの後のステップで、分子に付加される。試料タグは、複数の試料から生成された材料を単回シークエンシング実行でのシークエンシングのためにプールすることを容易にし得る。
あるいは、一部の実施形態では、パーティションタグをパーティションばかりでなく試料とも相関させることができる。簡単な例として、第1のタグは、第1の試料の第1のパーティションを示すことができ、第2のタグは、第1の試料の第2のパーティションを示すことができ、第3のタグは、第2の試料の第1のパーティションを示すことができ、第4のタグは、第2の試料の第2のパーティションを示すことができる。
1つまたは複数のエピジェネティック特徴に基づいて既にパーティショニングされた分子にタグを結合させることができるが、ライブラリー中の最終タグ付き分子は、もはやそのエピジェネティック特徴を有さないことがある。例えば、一本鎖DNA分子をパーティショニングし、タグ付けすることができるが、ライブラリー中の最終タグ付き分子は、二本鎖である可能性が高い。同様に、DNAを異なるメチル化レベルに基づいてパーティショニングに付すことができるが、最終ライブラリーの中のこれらの分子に由来するタグ付き分子は、メチル化されない可能性が高い。したがって、ライブラリー中の分子に結合されたタグは、典型的には、「親分子」の特徴を示し、最終的なタグ付き分子はこの親分子に由来するが、親分子自体は必ずしもそのタグ付き分子の特徴を示さない。
一例として、バーコード1、2、3、4などは、第1のパーティションの中の分子にタグ付けおよび標識するために使用され、バーコードA、B、C、Dなどは、第2のパーティションの中の分子にタグ付および標識するために使用され、バーコードa、b、c、dなどは、第3のパーティションの中の分子にタグ付けおよび標識するために使用される。差次的にタグ付けされたパーティションをシークエンシングの前にプールすることができる。差次的にタグ付けされたパーティションを、別々にシークエンシングすることができ、または並行して一緒に、例えば、Illuminaシーケンサーの同じフローセルで、シークエンシングすることができる。
一部の実施形態では、タグは、期待される識別子(例えば、一意および/または非一意のバーコードの組合せ)比でマイクロウェルに導入される。例えば、約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000または1,000,000,000より多くの識別子がゲノム試料ごとに負荷されるように、識別子を負荷することができる。一部の実施形態では、識別子は、約2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000または1,000,000,000未満の識別子がゲノム試料ごとに負荷されるように、負荷される。ある特定の実施形態では、試料ゲノムあたりの負荷される識別子の平均数は、ゲノム試料あたり識別子約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000もしくは1,000,000,000未満であるか、またはそれを超える。識別子は、一般に、一意および/または非一意である。
1つの例示的な形式は、標的核酸分子の両末端にライゲーションされた約2~約1,000,000の異なるタグ、または約5~約150の異なるタグ、または約20~約50の異なるタグを使用する。20~50×20~50のタグの場合、合計400~2500のタグが作出される。通常は、そのようなタグ数は、同じ開始点および停止点を有する異なる分子が、タグの異なる組合せを受け取る確率が高くなる(例えば、少なくとも94%、99.5%、99.99%、99.999%)のに十分な数である。
シークエンシング後、遺伝的バリアントを検出するためのリードの分析を、パーティションごとのレベルで、および全核酸集団レベルで、行うことができる。タグは、異なるパーティションからのリードを選別するために使用される。分析は、配列情報、ゲノム座標長さ、カバレッジおよび/またはコピー数を使用して遺伝的およびエピジェネティック多様性(メチル化、クロマチン構造などのうちの1つまたは複数)を決定するためのin silico分析を含み得る。一部の実施形態では、より高いカバレッジは、ゲノム領域におけるより高いヌクレオソーム占有率と相関し得、その一方で、より低いカバレッジは、より低いヌクレオソーム占有率またはヌクレオソーム枯渇領域(NDR)と相関し得る。
d.核酸増幅
アダプターと隣接している試料核酸は、通常は、試料収集および調製パイプライン203の一部として、増幅されることになるDNA分子に隣接しているアダプターの中のプライマー結合部位への核酸プライマーの結合を使用して、PCRおよび他の増幅方法により増幅される。一部の実施形態では、増幅方法は、熱循環の結果として生じる伸長、変性およびアニーリングのサイクルを含み、または例えば、転写媒介増幅の場合のように、等温性であることもある。必要に応じて利用される他の例示的な増幅方法としては、数ある手法の中でも特に、リガーゼ連鎖反応、鎖置換増幅、核酸配列ベース増幅、および自家持続配列ベース複製が挙げられる。
従来の核酸増幅法を使用して核酸分子に分子タグおよび/または試料インデックス/タグを導入するために、1または複数ラウンドの増幅サイクルが一般に適用される。増幅は、通常は、1つまたは複数の反応混合物で行われる。分子タグおよび試料インデックス/タグは、必要に応じて、同時にまたは任意の順序で導入される。一部の実施形態では、分子タグおよび試料インデックス/タグは、配列捕捉ステップが行われる前におよび/または後に導入される。一部の実施形態では、分子タグのみがプローブ捕捉の前に導入され、試料インデックス/タグは、配列捕捉ステップが行われた後に導入される。ある特定の実施形態では、分子タグと試料インデックス/タグの両方が、プローブに基づく捕捉ステップを行う前に導入される。一部の実施形態では、試料インデックス/タグは、配列捕捉ステップが行われた後に導入される。通常は、配列捕捉プロトコールは、標的核酸配列、例えば、ゲノム領域のコード配列、およびがん型に関連するそのような領域の変異のコード配列、に相補的な一本鎖核酸分子を導入することを含む。通常は、増幅反応は、約200ヌクレオチド(nt)~約700nt、250nt~約350nt、または約320nt~約550ntの範囲のサイズの、分子タグおよび試料インデックス/タグで非一意的にまたは一意的にタグ付けされた複数の核酸アンプリコンを生成する。一部の実施形態では、アンプリコンは、約300ntのサイズを有する。一部の実施形態では、アンプリコンは、約500ntのサイズを有する。
e.核酸濃縮
一部の実施形態では、配列は、試料収集および調製パイプライン203の一部として、核酸をシークエンシングする前に濃縮される。濃縮は、必要に応じて、特定の標的領域に行われるか、または非特異的に(「標的配列」に)行われる。一部の実施形態では、目的の標的領域を、差次的タイリングおよび捕捉スキームを使用して1つまたは複数のベイトセットパネルに選択された核酸捕捉用プローブ(「ベイト」)を用いて濃縮することができる。差次的タイリングおよび捕捉スキームは、一般に、異なる相対濃度のベイトセットを使用して、ベイトに関連するゲノム領域にわたって差次的に(例えば、異なる「解像度」で)タイリングし、一連の制約(例えば、シーケンサーの制約、例えば、シークエンシング負荷、各ベイトの利用、など)をかけ、下流のシーケンシングに所望されるレベルで標的核酸を捕捉する。目的のこれらの標的ゲノム領域は、必要に応じて、核酸構築物の天然または合成ヌクレオチド配列を含む。一部の実施形態では、目的の1つまたは複数の区画にプローブを有するビオチン標識ビーズを使用して、標的配列を捕捉することができ、必要に応じて、続いてそれらの区画の増幅を行って、目的領域について濃縮することができる。
配列捕捉は、通常は、標的核酸配列にハイブリダイズするオリゴヌクレオチドプローブの使用を含む。ある特定の実施形態では、プローブセット戦略は、目的の区画にわたってプローブをタイリングすることを含む。そのようなプローブは、例えば、長さ約60~約120ヌクレオチドであり得る。このセットは、約2倍、3倍、4倍、5倍、6倍、8倍、9倍、10倍、15倍、20倍、50倍またはそれを超える深度を有し得る。一般に、配列捕捉の有効性は、一部は、プローブの配列と相補的(またはほぼ相補的)である標的分子内の配列の長さに依存する。
f.核酸シークエンシング
図2に示されているように、試料収集および調製パイプライン203による試料からのcfDNAの抽出および単離の後、1つまたは複数のシークエンシングデバイス207を含むシークエンシングパイプライン205によって、cfDNAをシークエンシングすることができる。事前に増幅されたまたはされていない、必要に応じてアダプターと隣接している、試料核酸が、一般に、シークエンシングに付される。必要に応じて利用されるシークエンシング方法または市販の形式としては、例えば、サンガーシークエンシング、ハイスループットシークエンシング、バイサルファイトシークエンシング、パイロシークエンシング、一塩基合成法、単一分子シークエンシング、ナノポアベースのシークエンシング、半導体シークエンシング、ライゲーションによるシークエンシング、ハイブリダイゼーションによるシークエンシング、RNA-Seq(Illumina)、Digital Gene Expression(Helicos)、次世代シークエンシング(NGS)、Single Molecule Sequencing by Synthesis(SMSS)(Helicos)、大規模並列シークエンシング、Clonal Single Molecule Array(Solexa)、ショットガンシークエンシング、Ion Torrent、Oxford Nanopore、Roche Genia、Maxim-Gilbertシークエンシング、プライマーウォーキング;PacBio、SOLiD、Ion Torrentまたはナノポアプラットフォームを使用するシークエンシングが、挙げられる。複数のレーン、複数のチャネル、複数のウェル、または実質的に同時に複数の試料セットを処理する他の手段を含み得る、様々な試料処理ユニットで、シークエンシング反応を行うことができる。試料処理ユニットは、複数の実行を同時に処理することを可能にするための複数の試料チャンバーも含み得る。
シークエンシング反応を、がんのまたは他の疾患のマーカーを含有することが分かっている1つまたは複数の核酸断片型または区画に関して行うことができる。シークエンシング反応を、試料中に存在する任意の核酸断片に関して行うこともできる。シークエンシング反応は、ゲノムの少なくとも約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%である、ゲノムの配列カバレッジを提供することができる。他の場合には、ゲノムの配列カバレッジは、ゲノムの約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%未満であり得る。
マルチプレックスシークエンシング技法を使用して、同時シークエンシング反応を行うことができる。一部の実施形態では、無細胞ポリヌクレオチドは、少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000または100,000のシークエンシング反応でシークエンシングされる。他の実施形態では、無細胞ポリヌクレオチドは、約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000または100,000未満のシークエンシング反応でシークエンシングされる。シークエンシング反応は、通常は、逐次的にまたは同時に行われる。後続のデータ分析は、一般に、シークエンシング反応の全てまたは一部に関して行われる。一部の実施形態では、データ分析は、少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000または100,000のシークエンシング反応に関して行われる。他の実施形態では、データ分析は、約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000または100,000未満のシークエンシング反応に関して行われ得る。例示的な読み取り深度は、1座位(塩基位置)あたり約1000~約50000リードである。
一部の実施形態では、核酸集団は、シークエンシングのために、一方または両方の末端に一本鎖オーバーハングを有する二本鎖核酸に平滑末端を酵素的に形成することにより調製される。これらの実施形態では、集団は、ヌクレオチド(例えば、A、C、GおよびTまたはU)の存在下で、5’-3’DNAポリメラーゼ活性および3’-5’エキソヌクレアーゼ活性を有する酵素で通常は処理される。必要に応じて使用される例示的な酵素またはその触媒性断片としては、クレノウ大断片およびT4ポリメラーゼが挙げられる。5’オーバーハングでは、通常は、酵素は、反対の鎖上の陥凹3’末端を、その3’末端が5’末端とぴったり重なって平滑末端を生成するまで伸長する。3’オーバーハングでは、酵素は、反対の鎖の3’末端から5’末端までを一般に消化し、5’末端を超えて消化することもある。この消化が、反対の鎖の5’末端を超えて進行した場合、5’オーバーハングに使用されるのと同じポリメラーゼ活性を有する酵素が、そのギャップを埋めることができる。二本鎖核酸上の平滑末端の形成は、例えば、アダプターの結合およびその後の増幅を助長する。
一部の実施形態では、核酸集団は、追加の処理、例えば、一本鎖核酸の二本鎖核酸への変換、および/またはRNAのDNAへの変換に付される。核酸のこれらの形態も、必要に応じて、アダプターに連結され、増幅される。
事前に増幅されたまたはされていない、上記の平滑末端形成プロセスに付される核酸、および必要に応じて試料中の他の核酸をシークエンシングして、シークエンシングされた核酸を生じさせることができる。シークエンシングされた核酸は、核酸の配列(すなわち、配列情報)を指すこともあり、または配列が決定された核酸を指すこともある。シークエンシングを行って、試料中の個々の核酸分子の配列データを、試料中の個々の核酸分子の増幅産物のコンセンサス配列から、直接または間接的に得ることができる。
一部の実施形態では、試料中の一本鎖オーバーハングを有する二本鎖核酸は、平滑末端形成後、両末端が、バーコードを含むアダプターに連結され、シークエンシングによって、核酸配列はもちろん、アダプターにより誘導されたインラインバーコードも決定される。平滑末端DNA分子は、少なくとも部分的に二本鎖のアダプター(例えば、Y型または釣り鐘型)の平滑末端に、必要に応じてライゲーションされる。あるいは、試料核酸およびアダプターの平滑末端に、ライゲーション(例えば、付着末端ライゲーション)を助長するために相補的ヌクレオチドの尾部をつけることができる。
通常は、核酸試料を十分な数のアダプターと接触させ、したがって、同じ核酸の任意の2つのコピーが、両末端に連結されたアダプターからアダプターバーコードの同じ組合せを受け取る確率は低い(例えば、<1または0.1%)。このようにアダプターを使用することよって、参照核酸上の同じ開始および停止点を有し、かつバーコードの同じ組合せに連結されている、核酸配列のファミリーの同定が可能になる。そのようなファミリーは、増幅前の試料中の核酸の増幅産物の配列を示す。平滑末端形成およびアダプター結合により改変された場合、ファミリーメンバーの配列をコンパイルして、元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全コンセンサス配列を導出することができる。言い換えると、試料中の核酸の特定位置を占めるヌクレオチドは、ファミリーメンバー配列中の対応する位置を占めるヌクレオチドのコンセンサスであると判定される。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含み得る。ファミリーのメンバーが、二本鎖核酸からの両方の鎖の配列を含む場合、一方の鎖の配列は、コンセンサスヌクレオチドまたは配列を導出するために全ての配列をコンパイルすることを目的として、それらの相補鎖に変換される。一部のファミリーは、単一のメンバー配列のみを含む。この場合、この配列を増幅前の試料中の核酸の配列と考えることができる。あるいは、単一のメンバー配列のみを有するファミリーを後続の分析から除外することができる。
本明細書に記載される形式および応用を含む、核酸シークエンシングに関する追加の詳細は、例えば、Levy et al., Annual Review of Genomics and Human Genetics, 17: 95-115 (2016)、Liu et al., J. of Biomedicine and Biotechnology, Volume 2012, Article ID 251364:1-11 (2012)、Voelkerding et al., Clinical Chem., 55: 641-658 (2009)、MacLean et al., Nature Rev. Microbiol., 7: 287-296 (2009)、Astier et al., J Am Chem Soc., 128(5):1705-10 (2006)、米国特許第6,210,891号、米国特許第6,258,568号、米国特許第6,833,246号、米国特許第7,115,400号、米国特許第6,969,488号、米国特許第5,912,148号、米国特許第6,130,073号、米国特許第7,169,560号、米国特許第7,282,337号、米国特許第7,482,120号、米国特許第7,501,245号、米国特許第6,818,395号、米国特許第6,911,345号、米国特許第7,501,245号、米国特許第7,329,492号、米国特許第7,170,050号、米国特許第7,302,146号、米国特許第7,313,308号、および米国特許第7,476,503号においても提供されており、これらの参考文献は、各々、それら全体が参照により本明細書に組み込まれる。
i.シークエンシングパネル
目的のゲノム領域を検出する尤度、および必要に応じて、変異を示す腫瘍を検出する尤度を高めるために、シークエンシングされるDNAの区画は、既知のゲノム領域を含む遺伝子またはゲノム区画のパネルを含み得る。限られた区画(例えば、限られたパネル)をシークエンシングに選択することによって、必要とされる全シークエンシング(例えば、シークエンシングされるヌクレオチドの総量)は低減され得る。シークエンシングパネルは、複数の異なる遺伝子または領域を、例えば、単一のがん、がんのセット、または全てのがんを検出するための標的とすることができる。あるいは、全ゲノムシークエンシング(WGS)、または他の不偏の(unbiased)シークエンシング方法によって、シークエンシングパネルを使用せずにDNAをシークエンシングすることができる。好適なパネルおよびパネルにおける使用のための標的の例は、2020年1月31日に出願された国際出願WO2020160414に記載されているエピジェネティック標的において見つけることができ、前記参考特許文献は、その全体が参照により本明細書に組み込まれる。
一部の態様では、がんを有する対象の所定の比率が、パネル内の1つまたは複数の異なる遺伝子において遺伝的バリアントまたは腫瘍マーカーを示すように、複数の異なる遺伝子またはゲノム領域(例えば、CHIP遺伝子、転写因子結合領域、遠位調節エレメント(DRE)、反復エレメント、イントロン-エクソン連結部、転写開始部位(TSS)、および/またはこれらに類するもの)を標的とするパネルが選択される。パネルは、シークエンシングする領域を固定数の塩基対に限定するように選択され得る。パネルは、DNAの所望の量をシークエンシングするように選択され得る。パネルは、さらに、所望の配列読み取り深度を達成するように選択され得る。パネルは、シークエンシングされる塩基対の量について所望される配列読み取り深度または配列読み取りカバレッジを達成するように選択され得る。パネルは、試料中の1つまたは複数の遺伝的バリアントの検出についての理論感度、理論特異度、および/または理論精度を達成するように選択され得る。
このパネルに含まれる遺伝子は、ATM、ATR、BAP1、BARD1、BRCA1、BRCA2、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、HDAC2、MRE11、NBN、PALB2、RAD50、RAD51、RAD51B、RAD51C、RAD51D、RAD54L、XRCC2、XRCC3、DNMT3A、TP53、LRP1B、KRAS、MARCH11、TAC1、TCF21、SHOX2、p16、Casp8、CDH13、MGMT、MLH1、MSH2、TSLC1、APC、DKK1、DKK3、LKB1、WIF1、RUNX3、GATA4、GATA5、PAX5、E-カドヘリン、H-カドヘリン、VIM、SEPT9、CYCD2、TFPI2、GATA4、RARB2、p16INK4a、APC、NDRG4、HLTF、HPP1、hMLH1、RASSF1A、IGFBP3、ITGA4、PIK3CA、ERBB2(HER2)、BRCA1/2、NTRK1/2/3、MSI-High、ESR1、ATM、HRR、FGFR2/3、IDH1、KRAS、NRAS、BRAF、KIT、PDGFRA、EGFR、ALK、ROS1、MET、TMB、またはRETのうちの1つまたは複数を含み得る。
領域のパネルを検出するためのプローブは、目的のゲノム領域(ホットスポット領域)を検出するためのものはもちろん、ヌクレオソーム認識プローブ(例えば、KRASコドン12および13)も含むことができ、そのようなプローブを、ヌクレオソーム結合パターンおよびGC配列組成による影響を受けるcfDNAカバレッジおよび断片サイズの変動についての分析に基づいて捕捉を最適化するように設計することができる。この場合に使用される領域は、ヌクレオソーム位置およびGCモデルに基づいて最適化された非ホットスポット領域も含み得る。パネルは、原発組織を同定するためのサブパネル(例えば、組織にわたって最も多様な転写プロファイルを有する遺伝子(必ずしもプロモーターとは限らない)を代表する50~100のベイトを定義するための公開文献の使用)、全ゲノム足場を同定するためのサブパネル(例えば、超保存的ゲノムコンテンツを同定し、コピー数ベースライニングを目的として少数のプローブを用いて染色体全体にわたって疎にタイリングするための)、転写開始部位(TSS)/CpGアイランドを同定するためのサブパネル(例えば、差次的なメチル化領域(例えば、可変メチル化領域(DMR))を、例えば、腫瘍抑制遺伝子(例えば、大腸がんにおけるSEPT9/VIM)のプロモーターにおいて、捕捉するための)をはじめとする、複数のサブパネルを含み得る。一部の実施形態では、原発組織のためのマーカーは、組織特異的な後成的マーカーである。
目的の遺伝子位置のリストの一部の例を表3および表4で見つけることができる。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表3の遺伝子のうちの少なくとも5つ、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、少なくとも75、少なくとも80、少なくとも85、少なくとも90、少なくとも95、または97の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表3のSNVのうちの少なくとも5つ、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、または70を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表3のCNVのうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、または18を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表3の融合体のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、または6つを含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表3のインデルのうちの少なくとも1つ、少なくとも2つ、または3つの少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表4の遺伝子のうちの少なくとも5つ、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、少なくとも75、少なくとも80、少なくとも85、少なくとも90、少なくとも95、少なくとも100、少なくとも105、少なくとも110、または115の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表4のSNVのうちの少なくとも5つ、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、または73を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表4のCNVのうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、または18を含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表4の融合体のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、または6つを含む。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表4のインデルのうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、または18の少なくとも一部分を含む。目的のこれらの遺伝子位置の各々を、所与のベイトセットパネルについての骨格領域またはホットスポット領域として同定することができる。目的のホットスポット遺伝子位置のリストの一例を表5で見つけることができる。一部の実施形態では、本開示の方法において使用される遺伝子位置は、表5の遺伝子のうちの少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、少なくとも7つ、少なくとも8つ、少なくとも9つ、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、または少なくとも20の少なくとも一部分を含む。各ホットスポット遺伝子位置は、関連遺伝子、それが存在する染色体、遺伝子の座位を表すゲノムの開始および停止位置、塩基対での遺伝子の座位の長さ、遺伝子によりカバーされるエクソン、ならびに目的の所与の遺伝子位置が獲得しようとし得る極めて重要な特徴(例えば、変異のタイプ)をはじめとする、いくつかの特徴と共に収載される。
Figure 2023540221000008
Figure 2023540221000009
Figure 2023540221000010
Figure 2023540221000011
Figure 2023540221000012
Figure 2023540221000013
Figure 2023540221000014
一部の実施形態では、パネル内の1つまたは複数の領域は、外科手術後の残存がんを検出するために1つまたは複数の遺伝子からの1つまたは複数の座位を含む。この検出は、既存のがん検出方法が可能であるものより早期であり得る。一部の実施形態では、パネル内の1つまたは複数の遺伝子位置は、高リスク患者集団においてがんを検出するために1つまたは複数の遺伝子からの1つまたは複数の座位を含む。例えば、喫煙者は、一般集団よりはるかに高い肺がん率を有する。さらに、喫煙者は、肺における不規則な小結節の発症などの、がんの検出をより困難にする他の肺の状態を発症し得る。一部の実施形態では、本明細書に記載される方法は、高リスク患者におけるがんを、既存のがん検出方法が可能であるものより早期に検出することができる。
シークエンシングパネルに含めるための遺伝子位置を、腫瘍マーカーがその遺伝子または領域にあるがんを有する対象の数に基づいて選択することができる。シークエンシングパネルに含めるための遺伝子位置を、がんおよび腫瘍マーカーがその遺伝子に存在するがんを有する対象の有病率に基づいて選択することができる。領域内の腫瘍マーカーの存在は、がんを有する対象を示し得る。
一部の事例では、1つまたは複数のデータベースからの情報を使用して、パネルを選択することができる。がんに関する情報は、がん腫瘍生検またはcfDNAアッセイから導出され得る。データベースは、シークエンシングされた腫瘍試料の集団を記述する情報を含み得る。データベースは、腫瘍試料におけるmRNA発現についての情報を含み得る。データベースは、腫瘍試料における調節エレメントまたはゲノム領域についての情報を含み得る。シークエンシングされた腫瘍試料に関する情報は、様々な遺伝的バリアントの頻度を含み得、遺伝的バリアントが存在する遺伝子または領域を記述するものであり得る。遺伝的バリアントは、腫瘍マーカーであり得る。そのようなデータベースの非限定的な例は、COSMICである。COSMICは、様々ながんに見られる体細胞変異のカタログである。特定のがんについて、COSMICは、変異の頻度に基づいて遺伝子をランク付けしている。所与の遺伝子の中での変異頻度が高いことから、パネルに含めるための遺伝子を選択することができる。例えば、COSMICは、シークエンシングされた乳がん試料の集団の33%がTP53の変異を有し、試料採取された乳がんの集団の22%がKRASの変異を有することを示す。APCをはじめとする、他のランク付けされた遺伝子は、シークエンシングされた乳がん試料の集団の約4%にしか見られない変異を有する。TP53およびKRASを、試料採取された乳がんの中で(例えば、約4%の頻度で存在するAPCと比較して)頻度が相対的に高いことに基づいてシークエンシングパネルに含めることができる。COSMICを非限定的な例として提供するが、がんを遺伝子または遺伝領域に位置する腫瘍マーカーと関連付ける任意のデータベースまたは情報セットを使用することができる。別の例では、COSMICにより提供されているように、1156の胆道がん試料のうちの380の試料(33%)は、TP53の変異を保有する。APCなどの、いくつかの他の遺伝子は、全試料の4~8%に変異を有する。したがって、TP53を、胆道がん試料の集団における相対的に高い頻度に基づいてパネルに含めるために選択することができる。
遺伝子またはゲノム区画は、腫瘍マーカーの頻度が、試料採取された腫瘍組織または循環腫瘍DNAにおいて所与のバックグラウンド集団に見られる頻度より有意に高い場合、パネルに選択することができる。がんを有する対象の少なくとも大多数が、パネル内の遺伝子位置または遺伝子の少なくとも1つに存在する腫瘍マーカーまたはゲノム領域を有するような、遺伝子位置の組合せを、パネルに含めるために選択することができる。特定のがんまたはがんのセットについて、対象の大多数が、選択された領域の1つまたは複数に1つまたは複数の腫瘍マーカーを有することを示すデータに基づいて、遺伝子位置の組合せを選択することができる。例えば、がん1を検出するために、がん1を有する対象の90%がパネルの領域A、B、Cおよび/またはDに腫瘍マーカーを有することを示すデータに基づいて、領域A、B、Cおよび/またはDを含むパネルを選択することができる。あるいは、腫瘍マーカーは、がんを有する対象の2つまたはそれより多くの領域に独立して存在することが示されることがあり、したがって、併せると、2つまたはそれより多くの領域における腫瘍マーカーが、がんを有する対象の集団の大部分に存在する。例えば、がん2を検出するために、対象の90%が1つまたは複数の領域に腫瘍マーカーを有すること、ならびにそのような対象の30%では、腫瘍マーカーが領域Xにおいてのみ検出されるが、腫瘍マーカーが検出された対象の残部については腫瘍マーカーが領域Yおよび/またはZにおいてのみ検出されることを示すデータに基づいて、領域X、YおよびZを含むパネルを選択することができる。1つまたは複数のがんに関連することが以前に証明された1つまたは複数の遺伝子位置に存在する腫瘍マーカーは、腫瘍マーカーがそのときの50%またはそれより多くの領域の1つまたは複数で検出された場合、対象ががんを有することを示すことまたは予測することができる。1つまたは複数の領域内の腫瘍マーカーのセットについてのがんの頻度から判断してがんを検出する条件付き確率を利用するモデルなどの、計算論的手法を使用して、どの領域が、単独でまたは組合せで、がんを予測し得るのかを予測することができる。パネル選択のための他の手法は、大パネルでの腫瘍の包括的ゲノムプロファイリングおよび/または全ゲノムシークエンシング(WGS、RNA-seq、Chip-seq、バイサルファイトシークエンシング、ATAC-seqなど)を用いる研究からの情報を記述するデータベースの使用を含む。文献から集められた情報には、ある特定のがんの場合に一般に影響を受け、変異する経路も、記述されていることがある。遺伝子情報を記述するオントロジーの使用によって、パネル選択のさらなる情報を得ることができる。
シークエンシングのためのパネルに含まれる遺伝子は、完全転写領域、プロモーター領域、エンハンサー領域、調節エレメント、および/または下流の配列を含み得る。変異を示す腫瘍を検出する尤度をさらに高めるために、エクソンのみをパネルに含めることができる。パネルは、選択された遺伝子の全てのエクソンを含むこともあり、または選択された遺伝子のエクソンのうちの1つだけもしくは複数を含むこともある。パネルは、複数の異なる遺伝子の各々からのエクソンを含むことがある。パネルは、複数の異なる遺伝子の各々からの少なくとも1つのエクソンを含むこともある。
一部の態様では、複数の異なる遺伝子の各々からのエクソンのパネルは、がんを有する対象の所定の比率が、エクソンのパネル内の少なくとも1つのエクソンにおける遺伝的バリアントを示すように選択される。
遺伝子のパネル内の異なる遺伝子各々からの少なくとも1つの全エクソンをシークエンシングすることができる。シークエンシングされるパネルは、複数の遺伝子からのエクソンを含み得る。パネルは、2~100の異なる遺伝子、2~70の遺伝子、2~50の遺伝子、2~30の遺伝子、2~15の遺伝子、または2~10の遺伝子からのエクソンを含み得る。
選択されるパネルは、様々な数のエクソンを含み得る。パネルは、2~3000のエクソンを含み得る。パネルは、2~1000のエクソンを含み得る。パネルは、2~500のエクソンを含み得る。パネルは、2~100のエクソンを含み得る。パネルは、2~50のエクソンを含み得る。パネルは、300以下のエクソンを含み得る。パネルは、200以下のエクソンを含み得る。パネルは、100以下のエクソンを含み得る。パネルは、50以下のエクソンを含み得る。パネルは、40以下のエクソンを含み得る。パネルは、30以下のエクソンを含み得る。パネルは、25以下のエクソンを含み得る。パネルは、20以下のエクソンを含み得る。パネルは、15以下のエクソンを含み得る。パネルは、10以下のエクソンを含み得る。パネルは、9以下のエクソンを含み得る。パネルは、8以下のエクソンを含み得る。パネルは、7以下のエクソンを含み得る。
パネルは、複数の異なる遺伝子からの1つまたは複数のエクソンを含み得る。パネルは、複数の異なる遺伝子のある比率の各々からの1つまたは複数のエクソンを含み得る。パネルは、異なる遺伝子の少なくとも25%、50%、75%または90%の各々からの少なくとも2つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも25%、50%、75%または90%の各々からの少なくとも3つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも25%、50%、75%または90%の各々からの少なくとも4つのエクソンを含み得る。
シークエンシングパネルのサイズは、様々であり得る。例えば、シークエンシングされるヌクレオチドの総量、またはパネル内の特定の領域についてシークエンシングされる一意の分子の数を含む、いくつかの因子に依存して、シークエンシングパネルを(ヌクレオチドサイズに関して)より大きくまたはより小さくすることができる。シークエンシングパネルを5kb~50kbサイズにすることができる。シークエンシングパネルを10kb~30kbサイズにすることができる。シークエンシングパネルを12kb~20kbサイズにすることができる。シークエンシングパネルを12kb~60kbサイズにすることができる。シークエンシングパネルは、少なくとも10kb、12kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、60kb、70kb、80kb、90kb、100kb、110kb、120kb、130kb、140kb、または150kbのサイズであり得る。シークエンシングパネルは、100kb、90kb、80kb、70kb、60kb、または50kb未満のサイズであり得る。
シークエンシングに選択されるパネルは、少なくとも1、5、10、15、20、25、30、40、50、60、80、または100の遺伝子位置(例えば、各々が目的のゲノム領域を含む)を含み得る。一部の場合には、位置のサイズが相対的に小さい、パネル内の遺伝子位置が、選択される。一部の場合には、パネル内の領域は、約10kbもしくはそれ未満、約8kbもしくはそれ未満、約6kbもしくはそれ未満、約5kbもしくはそれ未満、約4kbもしくはそれ未満、約3kbもしくはそれ未満、約2.5kbもしくはそれ未満、約2kbもしくはそれ未満、約1.5kbもしくはそれ未満、または約1kbもしくはそれ未満またはそれ未満のサイズを有する。一部の場合には、パネル内の遺伝子位置は、約0.5kb~約10kb、約0.5kb~約6kb、約1kb~約11kb、約1kb~約15kb、約1kb~約20kb、約0.1kb~約10kb、または約0.2kb~約1kbのサイズを有する。例えば、パネル内の領域は、約0.1kb~約5kbのサイズを有し得る。
本明細書で選択されるパネルは、低頻度の遺伝的バリアント(例えば、試料から得られた無細胞核酸分子中の)を検出するのに十分である深いシークエンシングを可能にし得る。試料中の遺伝的バリアントの量は、所与の遺伝的バリアントについてのマイナーアレル頻度の点から言及されることがある。マイナーアレル頻度は、マイナーアレル(例えば、最も頻度の高いアレルではない)が、試料などの所与の核酸集団に存在する頻度を指し得る。低いマイナーアレル頻度の遺伝的バリアントは、試料中の存在頻度が相対的に低いものであり得る。一部の場合には、パネルは、少なくとも0.0001%、0.001%、0.005%、0.01%、0.05%、0.1%、または0.5%のマイナーアレル頻度の遺伝的バリアントの検出を可能にする。パネルは、0.001%またはそれより大きいマイナーアレル頻度の遺伝的バリアントの検出を可能にし得る。パネルは、0.01%またはそれより大きいマイナーアレル頻度の遺伝的バリアントの検出を可能にし得る。パネルは、0.0001%、0.001%、0.005%、0.01%、0.025%、0.05%、0.075%、0.1%、0.25%、0.5%、0.75%、または1.0%ほども低い頻度で試料中に存在する遺伝的バリアントの検出を可能にする。パネルは、少なくとも0.0001%、0.001%、0.005%、0.01%、0.025%、0.05%、0.075%、0.1%、0.25%、0.5%、0.75%、または1.0%の頻度で試料中に存在する腫瘍マーカーの検出を可能にする。パネルは、試料中の1.0%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.75%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.5%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.25%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.1%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.075%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.05%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.025%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.01%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.005%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.001%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.0001%ほども低い頻度の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の1.0%~0.0001%ほども低い頻度のシークエンシングされたcfDNA中の腫瘍マーカーの検出を可能にし得る。パネルは、試料中の0.01%~0.0001%ほども低い頻度のシークエンシングされたcfDNA中の腫瘍マーカーの検出を可能にし得る。
遺伝的バリアントを、疾患(例えば、がん)を有する対象の集団のパーセンテージで示すことができる。一部の場合には、がんを有する集団の少なくとも1%、2%、3%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、または99%は、パネル内の領域のうちの少なくとも1つの領域における1つまたは複数の遺伝的バリアントを示す。例えば、がんを有する集団の少なくとも80%は、パネル内のゲノム位置のうちの少なくとも1つのゲノム位置における1つまたは複数の遺伝的バリアントを示し得る。
パネルは、1つまたは複数の遺伝子の各々からの目的のゲノム領域を含む1つまたは複数の位置を含み得る。一部の場合には、パネルは、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、または80の遺伝子の各々からの目的のゲノム領域を含む1つまたは複数の位置を含み得る。一部の場合には、パネルは、多くても1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、または80の遺伝子の各々からの目的のゲノム領域を含む1つまたは複数の位置を含み得る。一部の場合には、パネルは、約1~約80、1~約50、約3~約40、5~約30、10~約20の異なる遺伝子の各々からの目的のゲノム領域を含む1つまたは複数の位置を含み得る。
1つまたは複数のエピジェネティックに改変された領域が検出されるように、パネル内のゲノム領域を含む位置を選択することができる。1つまたは複数のエピジェネティックに改変された領域は、アセチル化、メチル化、ユビキチン化、リン酸化、SUMO化、リボシル化、および/またはシトルリン化されていることがある。例えば、1つまたは複数のメチル化領域が検出されるように、パネル内の領域を選択することができる。一部の実施形態では、パネルのゲノム領域は、次の遺伝子のうちの1つまたは複数を含み得る:DNMT3A、TP53、LRP1B、KRAS、MARCH11、TAC1、TCF21、SHOX2、p16、Casp8、CDH13、MGMT、MLH1、MSH2、TSLC1、APC、DKK1、DKK3、LKB1、WIF1、RUNX3、GATA4、GATA5、PAX5、E-カドヘリン、H-カドヘリン、VIM、SEPT9、CYCD2、TFPI2、GATA4、RARB2、p16INK4a、APC、NDRG4、HLTF、HPP1、hMLH1、RASSF1A、IGFBP3、ITGA4、PIK3CA、ERBB2(HER2)、BRCA1/2、NTRK1/2/3、MSI-High、ESR1、ATM、HRR、FGFR2/3、IDH1、KRAS、NRAS、BRAF、KIT、PDGFRA、EGFR、ALK、ROS1、MET、TMB、またはRET。
パネル内の領域を、それらが1つまたは複数の組織にわたって差次的に転写された配列を含むように選択することができる。一部の場合には、ゲノム領域を含む位置は、ある特定の組織に他の組織と比較して高いレベルで転写された配列を含み得る。例えば、ゲノム領域を含む位置は、転写された配列をある特定の組織に含み得るが、他の組織には含み得ない。
パネル内の遺伝子位置は、コードおよび/または非コード配列を含み得る。例えば、パネル内の遺伝子位置は、エクソン、イントロン、3’非翻訳領域、5’非翻訳領域、調節エレメント、転写開始部位、および/またはスプライス部位における1つまたは複数の配列を含み得る。一部の場合には、パネル内の領域は、偽遺伝子、反復配列、トランスポゾン、ウイルスエレメント、およびテロメアをはじめとする、他の非コード配列を含み得る。一部の場合には、パネル内の遺伝子位置は、非コードRNA、例えば、リボソームRNA、トランスファーRNA、Piwi結合RNA、およびマイクロRNA内の配列を含み得る。
パネル内の遺伝子位置を、所望の感度レベルで(例えば、1つまたは複数の遺伝的バリアントの検出によって)がんを検出(診断)するように選択することができる。例えば、パネル内の領域を、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で(例えば、1つまたは複数の遺伝的バリアントの検出によって)がんを検出するように選択することができる。パネル内の遺伝子位置を、100%の感度でがんを検出するように選択することができる。
パネル内の遺伝子位置を、所望の特異度レベルで(例えば、1つまたは複数の遺伝的バリアントの検出によって)がんを検出(診断)するように選択することができる。例えば、パネル内の遺伝子位置を、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度で(例えば、1つまたは複数の遺伝的バリアントの検出によって)がんを検出するように選択することができる。パネル内の遺伝子位置を、100%の特異度で1つまたは複数の遺伝的バリアントを検出するように選択することができる。
パネル内の遺伝子位置を、所望の陽性予測値でがんを検出(診断)するように選択することができる。感度(実際の陽性が検出される機会)および/または特異度(実際の陰性を陽性と間違えない機会)を高めることによって、陽性予測値を上昇させることができる。非限定的な例として、パネル内の遺伝子位置を、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の陽性予測値で1つまたは複数の遺伝的バリアントを検出するように選択することができる。パネル内の領域を、100%の陽性予測値を有する1つまたは複数の遺伝的バリアントを検出するように選択することができる。
パネル内の遺伝子位置を、所望の精度でがんを検出(診断)するように選択することができる。本明細書で使用される場合、用語「精度」は、疾患状態(例えば、がん)と健康な状態とを弁別する試験の能力を指す。精度は、感度および特異度、予測値、尤度比、ROC曲線下面積、ヨーデン指標および/または診断オッズ比などの尺度を使用して定量化することができる。
精度は、パーセンテージとして提示することができ、このパーセンテージは、正しい結果を与える試験の数と行われた試験の総数との比を指す。パネル内の領域を、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の精度でがんを検出するように選択することができる。パネル内の遺伝子位置を、100%の精度でがんを検出するように選択することができる。
高感度になるように、および低頻度の遺伝的バリアントを検出するように、パネルを選択することができる。例えば、試料中に0.01%、0.05%、または0.001%ほども低い頻度で存在する遺伝的バリアントまたは腫瘍マーカーを少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で検出することができるように、パネルを選択することができる。パネル内の遺伝子位置を、試料中に1%またはそれ未満の頻度で存在する腫瘍マーカーを70%またはそれより高い感度で検出するように選択することができる。試料中の0.1%ほども低い頻度の腫瘍マーカーを少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で検出するように、パネルを選択することができる。試料中の0.01%ほども低い頻度の腫瘍マーカーを少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で検出するように、パネルを選択することができる。試料中の0.001%ほども低い頻度の腫瘍マーカーを少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で検出するように、パネルを選択することができる。
高い特異度になるように、および低頻度の遺伝的バリアントを検出するように、パネルを選択することができる。例えば、試料中に0.01%、0.05%、または0.001%ほども低い頻度で存在する遺伝的バリアントまたは腫瘍マーカーを少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度で検出することができるように、パネルを選択することができる。パネル内の遺伝子位置を、試料中に1%またはそれ未満の頻度で存在する腫瘍マーカーを70%またはそれより高い特異度で検出するように選択することができる。試料中の0.1%ほども低い頻度の腫瘍マーカーを少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度で検出するように、パネルを選択することができる。試料中の0.01%ほども低い頻度の腫瘍マーカーを少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度で検出するように、パネルを選択することができる。試料中の0.001%ほども低い頻度の腫瘍マーカーを少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度で検出するように、パネルを選択することができる。
高精度になるように、および低頻度の遺伝的バリアントを検出するように、パネルを選択することができる。試料中に0.01%、0.05%、または0.001%ほども低い頻度で存在する遺伝的バリアントまたは腫瘍マーカーを少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の精度で検出することができるように、パネルを選択することができる。パネル内の遺伝子位置を、試料中に1%またはそれ未満の頻度で存在する腫瘍マーカーを70%またはそれより高い精度で検出するように選択することができる。試料中の0.1%ほども低い頻度の腫瘍マーカーを少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の精度で検出するように、パネルを選択することができる。試料中の0.01%ほども低い頻度の腫瘍マーカーを少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の精度で検出するように、パネルを選択することができる。試料中の0.001%ほども低い頻度の腫瘍マーカーを少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の精度で検出するように、パネルを選択することができる。
高度に予測するように、および低頻度の遺伝的バリアントを検出するように、パネルを選択することができる。試料中に0.01%、0.05%、または0.001%ほども低い頻度で存在する遺伝的バリアントまたは腫瘍マーカーが少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の陽性予測値を有することができるように、パネルを選択することができる。
パネルに使用されるプローブまたはベイトの濃度を、試料中のより多くの核酸分子を捕捉するために(2から6ng/μLに)上昇させることができる。パネルに使用されるプローブまたはベイトの濃度は、少なくとも2ng/μL、3ng/μL、4ng/μL、5ng/μL、6ng/μL、またはそれより高い濃度であり得る。プローブの濃度は、約2ng/μL~約3ng/μL、約2ng/μL~約4ng/μL、約2ng/μL~約5ng/μL、約2ng/μL~約6ng/μLであり得る。パネルに使用されるプローブまたはベイトの濃度は、2ng/μLまたはそれより高い濃度~6ng/μLまたはそれ未満の濃度であり得る。一部の事例では、これは、生物製剤中のより多くの分子を分析することを可能にし、それによって、より低頻度のアレルを検出することが可能になる。
ある実施形態では、シークエンシングパイプライン205を利用して、パネルを、ゲノムワイドなメチル化パターンを調べる全ゲノムバイサルファイトシークエンシング(WGBS);全ゲノムシークエンシング(WGS);ならびに/またはコピー数バリアント(CNV)および一塩基バリアント(SNV)を調べる標的シークエンシング手法のうちの1つまたは複数に付すことができる。
対象のDNAから得られた遺伝子および/またはエピジェネティック情報を組み合わせて、対象ががんを有するかどうかまたは対象ががんを有する尤度を決定することができる。がんに関連する遺伝的バリアントとエピジェネティックバリアントの両方について無細胞ヒトDNAを分析する方法の詳細な説明は、米国仮特許出願第62/799637号で見つけることができ、この参考特許文献は、その全体が参照により本明細書に組み込まれる。がんを検出するために無細胞DNAを分析するためのさらなるガイダンスは、数ある場所の中でも特に、米国特許第9834822号、PCT出願WO2018064629A1、およびPCT出願WO2017106768A1において見つけることができる。
様々な実施形態は、がんに関連する遺伝子の遺伝的バリアントを検出する目的でDNA(例えば、cfDNA)をシークエンシングするステップを含む。様々な実施形態は、がんに関連する遺伝子のエピジェネティックバリアントを検出する目的でDNA(例えば、cfDNA)をシークエンシングするステップも含み、例えば、これらに限定されないが、がん性および非がん性細胞において差次的にメチル化されるDNA配列ならびにヌクレオソーム断片化パターン、例えば、米国特許出願公開第2017/0211143号に記載されているものを含む。
一部の実施形態では、核酸、例えば、DNA(例えば、cfDNA)を含む核酸、の捕捉されたセットが提供される。開示される方法に関して、DNAの捕捉されたセットは、例えば、本明細書に記載の捕捉および/または分離ステップ後に、提供され得る。捕捉されたセットは、配列可変標的領域セットおよびエピジェネティック標的領域セットの一方または両方に対応するDNAを含み得る。一部の実施形態では、捕捉されたセットは、配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するDNAを含む。配列可変標的領域セットおよびエピジェネティック標的領域セットを含む、本明細書に記載される全ての実施形態において、配列可変標的領域セットは、エピジェネティック標的領域セットに存在しない領域を含み、逆にエピジェネティック標的領域セットは、配列可変標的領域セットに存在しない領域を含むが、一部の事例では、これらの領域の何分の1かは、オーバーラップしている場合がある(例えば、ゲノム位置の何分の1かは、両方の標的領域セットにおいて示され得る)。
メチル化標的領域セット
一部の実施形態では、エピジェネティック標的領域セットが捕捉される。エピジェネティック標的領域セットは、DNAと、新生物(例えば、腫瘍またはがん)細胞とを、および健康な細胞、例えば、非新生物循環細胞とを、差別化する可能性が高い、1つまたは複数のタイプの標的領域を含み得る。標的内の特定のヌクレオチドの配列決定の高い精度に依存しない方法を含む、様々な方法で、エピジェネティック標的領域セットを分析することができる。そのような領域の例示的なタイプは、本明細書において詳細に論じられる。一部の実施形態では、本開示による方法は、エピジェネティック標的領域セットに対応するcfDNA分子が、がん関連エピジェネティック改変(例えば、1つもしくは複数の高メチル化可変標的領域における高メチル化;CTCF結合の1つもしくは複数の摂動;および/または転写開始部位の1つもしくは複数の摂動)および/またはコピー数多様性(例えば、局所増幅)を含むまたは示すかどうかを判定するステップを含む。そのような分析は、シークエンシングにより行うことができ、配列変異、例えば、塩基置換、挿入または欠失の存在または非存在を決定するより少ないデータ(例えば、配列リード数、またはシークエンシングカバレッジの深度)を必要とし得る。エピジェネティック標的領域セットは、例えば本明細書に記載されるような、1つまたは複数の対照領域も含み得る。
一部の実施形態では、エピジェネティック標的領域セットは、少なくとも100kb、例えば、少なくとも200kb、少なくとも300kb、または少なくとも400kbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、100~1000kb、例えば、100~200kb、200~300kb、300~400kb、400~500kb、500~600kb、600~700kb、700~800kb、800~900kb、および900~1,000kbの範囲のフットプリントを有する。
高メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットは、1つまたは複数の高メチル化可変標的領域を含む。一般に、高メチル化可変標的領域は、観察メチル化レベルの上昇が、試料(例えば、cfDNA)が腫瘍またはがん細胞などの新生物細胞により産生されたDNAを含有する尤度の上昇を示す、領域を指す。例えば、腫瘍抑制遺伝子のプロモーターの高メチル化が繰り返し観察されている。例えば、Kang et al., Genome Biol. 18:53 (2017)およびそこに引用されている参考文献を参照されたい。
大腸がんにおけるメチル化可変標的領域の広範にわたる論述が、Lam et al., Biochim Biophys Acta. 1866:106-20 (2016)において提供されている。これらは、VIM、SEPT9、ITGA4、OSM4、GATA4およびNDRG4を含む。大腸がん(CRC)研究に基づく遺伝子またはそれらの部分を含む高メチル化可変標的領域の例示的なセットは、表6で提供される。これらの遺伝子の多くは、大腸がん以外のがんと関連性がある可能性が高く、例えば、TP53は、非常に重要な腫瘍サプレッサーとして広く認知されており、この遺伝子の高メチル化に基づく不活性化は、一般的な発がん機構であり得る。
Figure 2023540221000015
Figure 2023540221000016
一部の実施形態では、高メチル化可変標的領域は、表6に収載されている複数の遺伝子またはそれらの部分、例えば、表6に収載されている遺伝子またはそれらの部分の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%を含む。例えば、標的領域に含まれる各座位には、遺伝子の転写開始部位と停止コドン(代替的にスプライシングされる遺伝子の最後の停止コドン)との間に結合するハイブリダイゼーション部位を有する1つまたは複数のプローブがあり得る。一部の実施形態では、1つまたは複数のプローブは、表6に収載されている遺伝子またはそれらの部分の上流および/または下流300bp以内、例えば、200bpまたは100bp以内に結合する。
様々なタイプの肺がんにおけるメチル化可変標的領域が、例えば、Ooki et al., Clin. Cancer Res. 23:7141-52 (2017);Belinksy, Annu. Rev. Physiol. 77:453-74 (2015);Hulbert et al., Clin. Cancer Res. 23:1998-2005 (2017);Shi et al., BMC Genomics 18:901 (2017);Schneider et al., BMC Cancer. 11:102 (2011);Lissa et al., Transl Lung Cancer Res 5(5):492-504 (2016);Skvortsova et al., Br. J. Cancer. 94(10):1492-1495 (2006);Kim et al., Cancer Res. 61:3419-3424 (2001);Furonaka et al., Pathology International 55:303-309 (2005);Gomes et al., Rev. Port. Pneumol. 20:20-30 (2014);Kim et al., Oncogene. 20:1765-70 (2001);Hopkins-Donaldson et al., Cell Death Differ. 10:356-64 (2003);Kikuchi et al., Clin. Cancer Res. 11:2954-61 (2005);Heller et al., Oncogene 25:959-968 (2006);Licchesi et al., Carcinogenesis. 29:895-904 (2008);Guo et al., Clin. Cancer Res. 10:7917-24 (2004);Palmisano et al., Cancer Res. 63:4620-4625 (2003);およびToyooka et al., Cancer Res. 61:4556-4560, (2001)において詳細に論じられている。
肺がん研究に基づく遺伝子またはそれらの部分を含む高メチル化可変標的領域の例示的なセットは、表7で提供される。これらの遺伝子の多くは、肺がん以外のがんと関連性がある可能性が高く、例えば、Casp8(カスパーゼ8)は、プログラム細胞死における肝要な酵素であり、この遺伝子の高メチル化に基づく不活性化は、肺がんに限定されない一般的な発がん機構であり得る。加えて、いくつかの遺伝子が、一般概念を示す表6および7の両方に掲載されている。
Figure 2023540221000017
表2で特定される標的領域に関する上述の実施形態のいずれかを、表1で特定される標的領域に関する上記の実施形態のいずれかと組み合わせてもよい。一部の実施形態では、高メチル化可変標的領域は、表1または表2に収載されている複数の遺伝子またはそれらの部分、例えば、表1または表2に収載されている遺伝子またはそれらの部分の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%を含む。
さらなる高メチル化標的領域を、例えば、Cancer Genome Atlasから、得ることができる。Kang et al., Genome Biology 18:53 (2017)には、乳房、結腸、腎臓、肝臓および肺からの高メチル化標的領域を使用するCancer Locatorと呼ばれる確率論的方法の構築が記載されている。一部の実施形態では、高メチル化標的領域は、1つまたは複数の種類のがんに特異的であり得る。したがって、一部の実施形態では、高メチル化標的領域は、乳がん、結腸がん、腎臓がん、肝臓がんおよび肺がんのうちの1つ、2つ、3つ、4つまたは5つにおいて高メチル化を集団で示す、高メチル化標的領域の1つ、2つ、3つ、4つまたは5つのサブセットを含む。
低メチル化可変標的領域
全体的低メチル化は、様々ながんによく見られる現象である。例えば、Hon et al., Genome Res. 22:246-258 (2012)(乳がん);Ehrlich, Epigenomics 1:239-259 (2009)(結腸、卵巣、前立腺、白血病、肝細胞および子宮頸部がんにおける低メチル化の観察を記述している総説論文)を参照されたい。例えば、反復エレメント、例えば、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、ペリセントロメアタンデムリピート、およびサテライトDNAなどの領域、ならびに健康な細胞において通常メチル化される遺伝子間領域は、腫瘍細胞においてメチル化の低減を示し得る。したがって、一部の実施形態では、エピジェネティック標的領域セットは、観察メチル化レベルの低下が、試料(例えば、cfDNAの)が腫瘍またはがん細胞などの新生物細胞により産生されたDNAを含有する尤度の上昇を示す、低メチル化可変標的領域を含む。
一部の実施形態では、低メチル化可変標的領域は、反復エレメントおよび/または遺伝子間領域を含む。一部の実施形態では、反復エレメントは、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、ペリセントロメアタンデムリピート、および/またはサテライトDNAのうちの1つ、2つ、3つ、4つ、または5つを含む。
がん関連低メチル化を示す例示的な特定のゲノム領域としては、例えばhg19またはhg38ヒトゲノムコンストラクトによる、ヒト第1染色体のヌクレオチド8403565~8953708および151104701~151106035を含む。一部の実施形態では、低メチル化可変標的領域は、これの領域の一方もしくは両方とオーバーラップするか、または一方もしくは両方を含む。
CTCF結合領域
CTCFは、クロマチン構成に寄与するDNA結合タンパク質であり、多くの場合、コヒーシンと共局在する。CTCF結合部位の摂動が様々な異なるがんにおいて報告されている。例えば、Katainen et al., Nature Genetics, doi:10.1038/ng.3335、2015年6月8日にオンラインで発表;Guo et al., Nat. Commun. 9:1520 (2018)を参照されたい。CTCF結合は、cfDNAにおいて認識可能なパターンを生じさせる結果となり、これらのパターンをシークエンシングにより、例えば、断片長分析によって、検出することができる。例えば、シークエンシングに基づく断片長分析に関する詳細は、Snyder et al., Cell 164:57-68 (2016);WO2018/009723;および米国特許出願公開第20170211143A1号において提供されており、これらの参考文献の各々は、参照により本明細書に組み込まれる。
結果として、CTCF結合の摂動は、cfDNAの断片化パターンの変動をもたらす。しかるが故に、CTCF結合部位は、ある種の断片化可変標的領域を代表するものである。
多くの公知CTCF結合部位がある。例えば、CTCFBSDB(CTCF Binding Site Database)、インターネットでinsulatordb.uthsc.edu/において利用可能;Cuddapah et al., Genome Res. 19:24-32 (2009);Martin et al., Nat. Struct. Mol. Biol. 18:708-14 (2011);Rhee et al., Cell. 147:1408-19 (2011)を参照されたく、これらの各々が参照により本明細書に組み込まれる。例示的なCTCF結合部位は、例えば、hg19またはhg38ヒトゲノムコンストラクトによる、第8染色体上のヌクレオチド56014955~56016161および第13染色体上のヌクレオチド95359169~95360473にある。
したがって、一部の実施形態では、エピジェネティック標的領域セットは、CTCF結合領域を含む。一部の実施形態では、CTCF結合領域は、少なくとも10、20、50、100、200もしくは500のCTCF結合領域、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000のCTCF結合領域、例えば、上記のCTCF結合領域、あるいは上記で引用されたCTCFBSDBまたはCuddapah et al.、Martin et al.、もしくはRhee et al.の論文の1つまたは複数に記載されているCTCF結合領域などを含む。
一部の実施形態では、CTCF部位の少なくとも一部は、メチル化されていてもよくまたはメチル化されていなくてもよく、このメチル化状態は、細胞ががん細胞であるか否かと相関する。一部の実施形態では、エピジェネティック標的領域セットは、CTCF結合部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、少なくとも1000bp上流および/または下流領域を含む。
転写開始部位
転写開始部位もまた新生物細胞において摂動を示し得る。例えば、造血系統の健康な細胞における様々な転写開始部位でのヌクレオソーム構成-これは、健康な個体におけるcfDNAに大きく寄与する-は、新生物細胞におけるそれらの転写開始部位でのヌクレオソーム構成と異なり得る。この結果として、例えば、Snyder et al., Cell 164:57-68 (2016);WO2018/009723;および米国特許出願公開第20170211143A1号において一般に論じられているように、シークエンシングにより検出され得る異なるcfDNAパターンが生じることになる。
結果として、転写開始部位の摂動も、cfDNAの断片化パターンの変動をもたらす。しかるが故に、転写開始部位もまた、ある種の断片化可変標的領域を代表するものである。
ヒト転写開始部位は、インターネットでdbtss.hgc.jpにおいて利用可能なDBTSS(DataBase of Human Transciption Start Sites)から入手可能であり、参照により本明細書に組み込まれるYamashita et al., Nucleic Acids Res. 34(Database issue): D86-D89 (2006)に記載されている。
したがって、一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位を含む。一部の実施形態では、転写開始部位は、少なくとも10、20、50、100、200もしくは500の転写開始部位、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000の転写開始部位、例えば、DBTSSに収載されている転写開始部位などを含む。一部の実施形態では、転写開始部位の少なくとも一部は、メチル化されていてもよくまたはメチル化されていなくてもよく、このメチル化状態は、細胞ががん細胞であるか否かと相関する。一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、少なくとも1000bp上流および/または下流領域を含む。
メチル化対照領域
データ検証を容易にするために対照領域を含めることは有用であり得る。一部の実施形態では、エピジェネティック標的領域セットは、DNAが、がん細胞に由来するのか、正常な細胞に由来するのかを問わず、本質的に全ての試料においてメチル化されているまたはメチル化されていないと予想される対照領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において低メチル化されていると予想される対照低メチル化領域を含む。
一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において高メチル化されていると予想される対照高メチル化領域を含む。
コピー数多様性;局所増幅
局所増幅などのコピー数多様性は体細胞変異であるが、それらを、メチル化の変化などのある特定のエピジェネティック変化を検出するための手法に類似した方法でシークエンシングによって読み取り頻度に基づいて検出することができる。しかるが故に、がんにおいて局所増幅などのコピー数多様性を示し得る領域をエピジェネティック標的領域セットに含めることができ、これらの領域は、AR、BRAF、CCND1、CCND2、CCNE1、CDK4、CDK6、EGFR、ERBB2、FGFR1、FGFR2、KIT、KRAS、MET、MYC、PDGFRA、PIK3CA、およびRAF1のうちの1つまたは複数を含み得る。例えば、一部の実施形態では、エピジェネティック標的領域セットは、前述の標的のうちの少なくとも2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10、11、12、13、14、15、16、17または18を含む。
g.配列分析パイプライン
ある実施形態では、シークエンシング後、配列リードおよび任意の関連データを、配列データストア209に記憶させることができる。配列リードを、任意の形式で記憶させることができる。配列データストア209は、シークエンシングが行われる位置に対してローカルおよび/または遠隔にあり得る。図2に示されているように、記憶されたリードは、配列分析パイプライン212に供され得る。
i.配列品質管理
配列分析パイプライン212は、研究室システム102からの配列断片/リードをフィルタリングすることができる配列品質管理(QC)構成要素213を含み得る。配列QC構成要素213は、1つまたは複数の配列断片/リードに品質スコアを割り当てることができる。品質スコアは、配列断片/リードの表示であって、それらの配列断片/リードが閾値に基づいて後続の分析に有用であり得るかどうかを示す表示であり得る。一部の場合には、一部の配列断片/リードは、後続のマッピングステップを行うのに十分な品質のものでも長さのものでもない。品質スコア少なくとも90%、95%、99%、99.9%、99.99%または99.999%を有する配列断片/リードをフィルタリングして配列断片/リードのデータセットから除去することができる。他の場合には、品質スコア少なくとも90%、95%、99%、99.9%、99.99%または99.999%が割り当てられた配列断片/リードをフィルタリングしてデータセットから除去することができる。
特定品質スコア閾値を満たす配列断片/リードを配列QC構成要素213により参照ゲノムにマッピングすることができる。マッピングアラインメント後、配列断片/リードにマッピングスコアを割り当てることができる。マッピングスコアは、各位置が一意的にマッピング可能であるか否かを示す、参照配列にマッピングし直された配列断片/リードの表示であり得る。マッピングスコア少なくとも90%、95%、99%、99.9%、99.99%または99.999%を有する配列断片/リードをフィルタリングしてデータセットから除去することができる。他の場合には、90%、95%、99%、99.9%、99.99%または99.999%未満のマッピングスコアが割り当てられたシークエンシング断片/リードをフィルタリングしてデータセットから除去することができる。
ii.エピジェネティック構成要素
ある実施形態では、エピジェネティック構成要素214は、配列断片/リード分析してエピジェネティックデータを決定することができる。エピジェネティックデータは、例えば、DNAメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化ステータスに関する情報を含み得る。エピジェネティックデータを、エピジェネティックシグネチャーとして使用することができる。エピジェネティックデータを、当技術分野において公知の任意の手段により決定することができる。エピジェネティックデータを、分析データストア218に記憶させることができる。
本明細書に従って、試料201および/または対象211からのcfDNA断片を、試料収集および調製パイプライン203において、例えば、非メチル化シトシンをウラシルに変換することにより処置し、シークエンシングパイプライン205に従ってシークエンシングすることができ、配列断片/リードをエピジェネティック構成要素214により参照ゲノムと比較して、配列断片/リード内の特定のCpG部位におけるメチル化状態を同定することができる。各CpG部位は、メチル化されていてもよくまたはメチル化されていなくてもよい。健康な個体と比較して異常にメチル化された断片を同定することは、対象のがんステータスを理解する上での手掛かりとなる。DNAメチル化異常(健康な対照と比較して)は、がんの一因となり得る種々の効果を引き起こし得る。メチル化は、典型的に、デオキシリボ核酸(DNA)において、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、5-メチルシトシンを形成したときに起こる。特に、メチル化は、本明細書では「CpG部位」と呼ばれる、シトシンおよびグアニンのジヌクレオチドで起こる傾向がある。異常なDNAメチル化を高メチル化または低メチル化として同定することができ、これらの両方ががんステータスを示し得る。本開示を通して、高メチル化および低メチル化は、配列断片/リードが、閾値パーセンテージより多くのCpG部位がメチル化されているまたはメチル化されていないCpG部位を閾値より多く含む場合、配列断片/リードについて特徴付けられ得る。CpG部位の数の例となる閾値としては、3、4、5、6、7、8、9、10などより大きい値が挙げられる。メチル化または非メチル化についての例となるパーセンテージ閾値としては、80%、85%、90%もしくは95%を超える%、または50%~100%の範囲内の任意の他のパーセンテージが挙げられる。本明細書に記載される原理が、非シトシンメチル化をはじめとする非CpGコンテキストでのメチル化の検出に同様に適用可能であることは、当業者には理解されるであろう。
ある実施形態では、エピジェネティック構成要素214は、参照ゲノムへのアラインメントに基づいてCpG部位ごとに位置およびメチル化状態を決定するように構成され得る。エピジェネティック構成要素214は、参照ゲノムにおける断片の位置(例えば、各断片における最初のCpG部位の位置、または別の同様のメトリクスにより特定されるような)、断片中のCpG部位の数、および断片中の各CpG部位のメチル化状態、メチル化されている(例えば、Mと示される)か、非メチル化である(例えば、Uと示される)か、または未確定である(例えば、Iと示される)かを特定する、メチル化状態ベクトルを断片ごとに生成することができる。観察される状態は、メチル化状態または非メチル化状態であり、その一方で、観察されない状態は、未確定である。未確定メチル化状態は、DNA断片の相補鎖のメチル化状態間のシークエンシングエラーおよび/または不一致から生じ得る。メチル化状態ベクトルをその後の使用および処理のために分析データストア218に記憶させることができる。さらに、エピジェネティック構成要素214は、単一の試料から重複リードまたは重複メチル化状態ベクトルを除去することができる。エピジェネティック構成要素214は、1つまたは複数のCpG部位を有するある特定の断片が、閾値数またはパーセンテージを超える未確定メチル化ステータスを有することを決定することができ、そのような断片を除外することができる。
図3は、メチル化状態ベクトルを得るためにcfDNA分子をシークエンシングするための方法300の説明図である。一例として、研究室システム202は、cfDNA分子301を受け取り、cfDNA分子301は、この例では3つのCpG部位を含有する。示されているように、cfDNA分子301の第1および第3のCpG部位は、メチル化されたもの302である。試料収集および調製パイプライン203の一部として、cfDNA分子301は変換されて、変換されたcfDNA分子303を生成する。メチル化されていなかった第2のCpG部位は、ウラシルに変換されたそのシトシンを有するが、第1および第3のCpG部位は、変換されなかった。
変換後、シークエンシングパイプライン205は、配列断片/リード304を生成するために使用される。エピジェネティック構成要素214は、配列断片/リード304を参照ゲノム305にアラインするように構成され得る。参照ゲノム305は、ヒトゲノム内のどの位置が断片cfDNAの起源であるのかについてのコンテキストを提供する。この単純化された例では、エピジェネティック構成要素214は、3つのCpG部位がCpG部位1、2および3と相関するように配列リード304をアラインする。したがって、エピジェネティック構成要素214は、cfDNA分子301上の全てのCpG部位のメチル化ステータスとCpG部位が位置するヒトゲノム内の位置の両方に関する情報を生成する。示されているように、メチル化された配列リード304上のCpG部位は、シトシンとして読み取られる。この例では、シトシンは、配列リード304の第1および第3のCpG部位のみに現れ、このことにより、元のcfDNA分子中の第1および第3のCpG部位がメチル化されたと推論することができる。その一方で、第2のCpG部位は、チミンとして読み取られ(Uが、シークエンシングプロセスの間にTに変換される)、それ故、元のcfDNA分子中の第2のCpG部位がメチル化されていないと推論することができる。これら2つの情報、メチル化ステータスおよび位置を用いて、エピジェネティック構成要素214は、断片cfDNA301についてのメチル化状態ベクトル306を生成する。この例において、得られるメチル化状態ベクトル306は、<M1、U2、M3>であり、ここで、Mは、メチル化CpG部位に対応し、Uは、非メチル化CpG部位に対応し、下付き数字は、参照ゲノム中の各CpG部位の位置に対応する。
別の実施形態では、シークエンシングおよびアラインメント後、個々のCpG部位のメチル化ステータスを、CpGコンテキストのシトシン残基におけるメチル化配列リード「M」(メチル化されている)の計数値および非メチル化配列リード「U」(メチル化されていない)の計数値から推論することができる。血漿中の特定の座位の平均メチル化CpG密度(メチル化密度mとも呼ばれる)を、方程式:m=M/(M+U)を使用して計算することができ、この式中、Mは、遺伝子座位内のCpG部位におけるメチル化リードの計数値であり、Uは、遺伝子座位内のCpG部位における非メチル化リードの計数値である。座位内に1つより多くのCpG部位がある場合には、MおよびUは、その部位にわたっての計数値に対応する。
シークエンシングに加えて、他の技法を使用してDNAメチル化に関する情報を判定することができる。一実施形態では、メチル化プロファイリングを、メチル化特異的PCR、またはメチル化感受性制限酵素消化に続いてのPCR、またはリガーゼ連鎖反応に続いてのPCRにより行うことができる。さらに他の実施形態では、PCRは、一分子またはデジタルPCRの形態である(B. Vogelstein et al. 1999 Proc Natl Acad Sci USA; 96: 9236-9241)。さらに他の実施形態では、PCRは、リアルタイムPCRであり得る。他の実施形態では、PCRは、マルチプレックスPCRであり得る。
iii.フラグメントミクス構成要素
図2に戻って、ある実施形態では、フラグメントミクス構成要素215は、配列断片/リードを分析してフラグメントミクスデータを決定することができる。フラグメントミクスデータは、例えば、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、および/または断片の終点を示す任意の値に関する情報を含み得る。フラグメントミクス構成要素215を、配列断片/リードを分析して、断片サイズ、末端モチーフ頻度、ジャギド末端長、好ましい末端座標、中心点座標、配向末端密度、モチーフ密度スコア、ウインドウ保護スコア、cfDNA完全性、ヌクレオソームフットプリンティング、これらの組合せ、およびそれらに類するもののうちの1つまたは複数を決定するように、構成することができる。フラグメントミクスデータをフラグメントミクスシグネチャーとして使用することができる。フラグメントミクスデータを、当技術分野において公知の任意の手段により決定することができる。フラグメントミクスデータを、分析データストア218に記憶させることができる。
ある実施形態では、フラグメントミクス構成要素215は、特定のサイズを有する無細胞DNA断片の量を決定するように構成され得る。特定のサイズは、範囲であり得る。例えば、サイズ範囲は、サイズカットオフ、例えば100bp、150bpまたは200bpより大きいこともあり、それ未満であることもある。他の例では、サイズ範囲は、最大および最小サイズ、例えば、50~80、50~100、50~150、100~150、100~200、150~200、150~230、200~300、または300~400塩基、ならびに他の範囲により特定され得る。サイズ範囲の幅は、例えば50、100、150、または200塩基になるように、変動し得る。例として、量は、生の計数値であることもあり、または例えば、分析される配列リードまたはDNA断片の総数を使用して頻度として、正規化されることもある。
ある実施形態では、フラグメントミクス構成要素215を、配列断片/リードの末端モチーフを決定するように、および末端モチーフ頻度を決定するように、構成することができる。末端モチーフは、無細胞DNA断片の終了配列、例えば、断片の両端のK塩基についての配列に関するものである。終了配列は、様々な塩基数、例えば、1、2、3、4、5、6、7などを有する、k-merであり得る。末端モチーフ(または「配列モチーフ」)は、参照ゲノム内の特定の位置とは対照的に配列自体に関するものである。したがって、同じ末端モチーフが参照ゲノム全体にわたって非常に多くの位置に存在し得る。参照ゲノムを使用して末端モチーフを決定して、例えば、開始位置の直前または末端位置の直後の塩基を同定することができる。そのような塩基は、例えば、断片の終了配列に基づいて同定されるので、やはり無細胞DNA断片の末端に対応することになる。
図4は、本開示の実施形態による末端モチーフについての例を示す。図4は、分析すべき4-mer末端モチーフを定義するための技法を示す。技法404では、4-mer末端モチーフは、血漿DNA分子の各末端の最初の4bp配列から直接構築される。例えば、配列断片の最初の4ヌクレオチドまたは最後の4ヌクレオチドが使用され得る。技法409では、これらの4-mer末端モチーフは、断片のシークエンシングされた末端からの2-mer配列とその断片の末端に隣接したゲノム領域からの他の2-mer配列とを使用することによって一緒に構築される。他の実施形態では、他のタイプのモチーフ、例えば、1-mer、2-mer、3-mer、5-mer、6-mer、7-mer末端モチーフが使用され得る。
図4に示されているように、方法400は、研究室システム202と試料収集および調製パイプライン203とを経由して(例えば、血液試料に関して、例えば遠心分離による、精製プロセスを使用して)ステップ401で無細胞DNA断片を得ることで始まり得る。血漿DNA断片に加えて、他のタイプの無細胞DNA分子、例えば、血清、尿、唾液、および本明細書で言及される他の試料からのものを使用することができる。一実施形態では、DNA断片は、平滑末端化され得る。
ステップ402で、DNA断片は、シークエンシングパイプライン205経由でペアエンドシークエンシングに付される。一部の実施形態では、ペアエンドシークエンシングは、DNA断片の2つの末端から2つの配列リード、例えば、配列リードあたり30~120塩基対を、生成することができる。これら2つの配列リードは、各配列リードがDNA断片のそれぞれの末端の終了配列を含む、DNA断片(分子)のリードペアを形成し得る。他の実施形態では、DNA断片全体をシークエンシングすることができ、それによって、DNA断片の両末端の終了配列を含む単一の配列リードが得られる。両末端の2つの終了配列を、たとえそれらが1回のシークエンシング操作から一緒に生成されたとしても、やはりペアの配列リードと見なすことができる。
ステップ403で、フラグメントミクス構成要素215は、配列リードを参照ゲノムにアラインし得る。このようなアラインメントは、配列モチーフの異なる定義方法を例証するためのものであり、一部の実施形態では使用されないことがある。例えば、断片の末端における配列を、参照ゲノムにアラインする必要なく、直接使用することができる。しかし、対象における多様性(例えばSNP)に依存しない、終了配列の均一性を有するように、アラインメントを設計することが望まれ得る。例えば、終了塩基は、多様性またはシークエンシングエラーに起因して参照ゲノムとは異なり得るが、参照における塩基は、計数されたものであり得る。あるいは、配列リードの末端の塩基を、個体に合わせるように使用することができる。様々なソフトウェアパッケージ、例えば(これらに限定されるものではないが)BLAST、FASTA、Bowtie、BWA、BFAST、SHRiMP、SSAHA2、NovoAlign、およびSOAPを使用して、アラインメント手順を行うことができる。
方法400が進行して、技法404および/または技法409を利用して末端モチーフをさらに評価することができる。技法404は、ゲノム408へのアラインメントを用いて、配列断片405の配列リードを示す。5’末端を開始部と見なすと、第1の末端モチーフ406(CCCA)は、配列断片405の開始部にある。第2の末端モチーフ407(TCGA)は、配列断片405の尾部にある。cfDNA断片の末端優位性を分析するとき、この配列リードは、5’末端のC末端計数値に寄与することになる。このような末端モチーフは、一実施形態では、酵素がCCCAを認識し、ひいては第1のCの直前で切断した場合に生じ得る。その場合には、CCCAは、優先的に血漿DNA断片の末端に存在することになる。TCGAについては、酵素は、それを認識し、ひいてはAの後で切断し得る。Aについての計数値を決定するとき、この配列リードは、A末端計数値に寄与することになる。
技法409は、ゲノム413へのアラインメントを用いて、シークエンシングされた断片410の配列リードを示す。5’末端を開始部と見なすと、第1の末端モチーフ411(CGCC)は、配列断片410の配列の開始部の直前に存在する第1の部分(CG)、およびシークエンシングされた断片410の開始部の終了配列の一部である第2の部分(CC)を有する。第2の末端モチーフ412(CCGA)は、シークエンシングされた断片410の尾部の直後に存在する第1の部分(GA)、およびシークエンシングされた断片410の尾部の終了配列の一部である第2の部分(CC)を有する。このような末端モチーフは、一実施形態では、酵素がCGCCを認識し、ひいてはGおよびCの直前で切断した場合に生じ得る。その場合には、CCは、優先的に血漿DNA断片の末端にあり、その直前にCGが存在し、それによって末端モチーフCGCCが得られることになる。第2の末端モチーフ164(CCGA)に関しては、酵素がCとGとの間で切断し得る。その場合には、CCは、優先的に血漿DNA断片の末端に存在することになる。技法409については、隣接ゲノム領域およびシークエンシングされた血漿DNA断片からの塩基の数は、様々であり得、必ずしも固定比に限定されず、例えば、2:2ではなく、比は、2:3、3:2、4:4、2:4などであることがある。
ゲノム内に正確な配置で整列した6つの塩基を有する確率は、ゲノム内に正確な配置で整列した2つの塩基を有する確率より低いため、無細胞DNA末端シグネチャーに含まれているヌクレオチドの数が多いほど、モチーフの特異度が高くなる。それ故、末端モチーフの長さの選択は、意図された用途に必要な感度および/または特異度に左右され得る。
終了配列は、配列リードを参照ゲノムにアラインするために使用されるので、いずれの配列モチーフも終了配列から決定され、または直前/後もやはり終了配列から決定される。したがって、技法409は、終了配列を他の塩基に関連付け、参照が、それを関連付ける機序として使用される。技法404と409の差異は、2つの末端モチーフのどちらに特定のDNA断片が割り当てられるかということであり、これは、相対頻度の特定の値に影響を与える。しかし、全般的な結果(例えば、遺伝性障害の検出、投薬量の有効性の決定、ヌクレアーゼの活性のモニタリングなど)は、例えば、機械学習モデルを使用して行われ得るような、参照値を決定するためのいずれの訓練データについても、一貫した技法が使用されるのであれば、DNA断片を末端モチーフに割り当てる方法による影響を受けないであろう。
特定の末端モチーフ(例えば、特定の塩基)に対応する終了配列を有するDNA断片の数の計数値が、特定の末端モチーフの量を決定するために計数(例えば、メモリにアレイで記憶)され得る。生の計数値または頻度などの量を、様々な方法で測定することができ、その量が正規化される。正規化は、DNA断片の総数を使用して(例えば、それで割って)行われることもあり、またはDNA断片(例えば、特定サイズを有する、または1つもしくは複数の特定末端モチーフを有する、特定領域からの)の特定群における数を使用して行われることもある。遺伝性障害が存在する場合、および抗凝固薬の有効用量が投与された場合、ならびにヌクレアーゼの活性が変化(例えば、増加または減少)した場合、末端モチーフの量の差異が検出されている。
ある実施形態では、フラグメントミクス構成要素215は、ジャギド末端(例えば、オーバーハング)の存在、および関連定量値を決定するように構成され得る。図5は、無細胞DNA分子のオーバーハングの程度(すなわち、オーバーハングインデックス)を決定し得る方法を示す一例を示す。図501、502および503は、メチル化CpG部位を表す黒丸、および非メチル化CpG部位を表す白抜きの丸を含む。図502および503は、新たに充填されたヌクレオチドを表す破線を含む。図503は、シークエンシング結果における第1のリード(リード1)を示す矢印、および第2のリード(リード2)を示す矢印を含む。グラフ504は、5’から3’へリード1およびリード2におけるメチル化レベルのグラフ、およびオーバーハングインデックス250
Figure 2023540221000018
を示し、このオーバーハングインデックスは、次の変数を含む:リード1のメチル化レベルとしてのR1、およびリード2のメチル化レベルとしてのR2。
図6は、ヒト参照ゲノムへのマッピング後のDNA分子に沿ったメチル化レベルの計算の説明図である。ワトソン-クリック鎖からの全てのDNA分子を、ヒト参照ゲノムへのマッピング後に相対位置および配向に従ってそれぞれスタックすることができる。スタックされた分子を、図6に示されているようにアラインメント結果における5’末端に対する位置に従って総合オーバーハングインデックスを計算するために、使用することができる。
最近端(すなわち、リード1については5’末端)に対する特定の位置iでのメチル化レベル(MD)は、CとTの総数に対するCの数の比:
Figure 2023540221000019
により定量され得る。第1のリード(5’末端を有するもの、すなわち、リード1)は、第2のリード(3’末端を有するもの、すなわち、リード2)より高い平均のメチル化レベルを有し得る。なぜなら、第2のリードの3’ギャップは、非メチル化Cで充填されることになり、その非メチル化Cは、バイサルファイトシークエンシング結果ではTに変換されることになるからである。総合オーバーハングインデックスは、次の式に従って決定され得る:
Figure 2023540221000020
図7は、オーバーハングインデックスを決定するための方法700を示す。生体試料は、複数の核酸分子を含み得る。複数の核酸分子は、無細胞であり得る。複数の核酸分子の各核酸分子は、第1の部分を有する第1の鎖と第2の鎖とを有する二本鎖状であり得る。複数の核酸分子の少なくとも一部の第1の鎖の第1の部分は、第2の鎖にオーバーハングしていることがあり、第2の鎖とハイブリダイズしていないことがあり、第1の鎖の第1の末端にあることがある。
ステップ701で、1つまたは複数の鎖の1つまたは複数の部位のメチル化ステータスが決定され得る。1つまたは複数のヌクレオチドを含む第1の化合物は、複数の核酸分子の各核酸分子についての第1の鎖の第1の部分とハイブリダイズしていることがある。第1の化合物が第2の鎖の第1の末端に結合されて、第1の化合物を含む第1の末端を有する伸長された第2の鎖を形成し得る。第1の化合物は、第2の鎖に接触していない第1の末端を含み得る。1つまたは複数のヌクレオチドは、メチル化されていなくてもよい。他のインプリメンテーションでは、ある特定のヌクレオチド(例えば、シトシン)は、全てメチル化されており、他のヌクレオチドはメチル化されていない。第1の化合物は、第1の部分と1度に1ヌクレオチドずつハイブリダイズし得る。
第1の鎖は、複数の核酸分子の各核酸分子の伸長された第2の鎖から分離され得る。伸長された第2の鎖の1つまたは複数の第1の部位の各々についての第1のメチル化状態が、複数の核酸分子の各核酸分子について決定され得る。1つまたは複数の第1の部位は、伸長された第2の鎖の第1の末端にあり得る。伸長された第2の鎖の1つまたは複数の第2の部位の各々についての第2のメチル化ステータスが、必要に応じて、複数の核酸分子の各核酸分子について決定され得る。1つまたは複数の第2の部位は、伸長された第2の鎖の第2の末端にあり得る。1つまたは複数の第2の部位は、伸長された第2の鎖の第2の末端の最も外側の部位を含み得る。一部の例では、第2の部位についてのメチル化ステータスを決定する必要がないことがあり、その代わりに、そのメチル化ステータスは、平均メチル化ステータスであると仮定され得る。平均メチル化ステータスを、ゲノムの特定の領域におけるメチル化CpG部位の既知の頻度から、知ることができる。一部の事例では、平均メチル化ステータスは、生体試料が得られる同じ個体から採取されるおよび/または他の個体から採取される参照試料から、決定され得る。
ステップ702で、第1のメチル化レベルが、複数の伸長された第2の鎖についての1つまたは複数の第1の部位での第1のメチル化ステータスを使用して決定され得る。第1のメチル化レベルは、第1のメチル化ステータスの平均値または中央値であり得る。
ステップ703で、第2のメチル化レベルが、必要に応じて、複数の伸長された第2の鎖についての1つまたは複数の第2の部位での第2のメチル化ステータスを使用して計算され得る。第2のメチル化レベルは、第2のメチル化ステータスの平均値または中央値であり得る。一部の実施形態では、第2のメチル化レベルは、平均メチル化レベルであると仮定され得る。平均メチル化レベルは、ゲノムの特定の領域におけるメチル化CpG部位の既知の頻度に基づき得る。一部の事例では、平均メチル化レベルは、生体試料が得られる同じ個体から採取されるおよび/または他の個体から採取される参照試料から、決定され得る。例えば、第2のメチル化レベルは、70%~80%の値であると仮定され得る。
ステップ704で、第1のメチル化レベルおよび第2のメチル化レベルを使用して、オーバーハングインデックスが決定され得る。第1のメチル化レベルと第2のメチル化レベルとの差は、第2の鎖にオーバーハングする第1の鎖の平均長に比例し得る。オーバーハングインデックスの計算は、第1のメチル化レベルと第2のメチル化レベルとの差を計算し、その差を第1のメチル化レベルで割ることにより得る(例えば、図6の総合オーバーハングインデックス)。
ある実施形態では、フラグメントミクス構成要素215は、断片終点の遺伝子位置を決定するように構成され得る。フラグメントミクス構成要素215は、DNA分子の2つの物理的末端についての情報を判定することができる。両方のリードが同じ染色体にアラインした、およびそれらのリードが反対の配向を有する、対合末端データの両方の外側アラインメント座標が、リード出発点として使用され得る。対合末端データをアダプタートリミングにより単一リードデータに変換した場合、単一リードアラインメントの両方の末端座標をリード出発点として使用することができる。カバレッジについては、2つの(推論)分子末端間の全ての位置が、これらの末端位置を含めて、考慮され得る。cfDNA断片終点は、ヌクレオソームの境界に隣接してクラスタリングし、それと同時にヌクレオソーム自体でも枯渇されるはずであると予想される。このことを定量化するために、ウインドウサイズkのウインドウ化保護スコア(WPS)を、ウインドウにより包含される任意の塩基で開始する分子の数を引いた、ウインドウにわたる分子の数と定義することができる。決定されたWPSをウインドウの中心に割り当てることができる。35~80bp範囲の分子(短い部分)には、例えば、16のウインドウサイズを使用することができ、120~180bpの分子(長い部分)には、例えば、120のウインドウサイズを使用することができる。高いWPS値は、消化からのDNAの保護の増大を示し、低い値は、DNAが未保護であることを示す。ピークコールによって、連続したWPS上昇領域が同定される。
図2に戻って、エピジェネティック構成要素214およびフラグメントミクス構成要素215により決定された結果を、そのような結果を生成するために使用された配列データにおける配列断片および/またはバリアントと関連付けることができる。そして、既知の試料201から得られる配列データの場合、配列断片および/またはバリアントの起源を、配列データ、エピジェネティックデータ、および/またはフラグメントミクスデータと関連付けることもできる。例えば、腫瘍由来であることが既知の配列断片および/またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、腫瘍由来とラベルすることができ、非腫瘍由来であることが既知の配列断片および/またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、非腫瘍由来とラベルすることができる。その上、さらなるラベル、例えば、がん型、組織型およびこれらに類するものを、割り当てることができる。
iv.コピー数構成要素
コピー数構成要素216は、配列断片/リードを使用して染色体のカバレッジ領域を生成することができる。コピー数構成要素216は、その染色体領域を可変長のウインドウまたはビンに分割することができる。ウインドウまたはビンは、少なくとも5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb、または1000kbであり得る。ウインドウまたはビンはまた、5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb、または1000kb以下の塩基を有し得る。ウインドウまたはビンはまた、約5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb、または1000kbであり得る。
コピー数構成要素216は、ウインドウまたはビンにほぼ同数のマッピング可能な塩基を含有させることにより、カバレッジを正規化することができる。一部の場合には、染色体領域内の各ウインドウまたはビンは、ちょうど同数のマッピング可能な塩基を含有することがある。他の場合には、各ウインドウまたはビンは、異なる数のマッピング可能な塩基を含有することもある。加えて、各ウインドウまたはビンは、隣接するウインドウともビンともオーバーラップしていないことがある。他の場合には、ウインドウまたはビンは、別の隣接するウインドウまたはビンとオーバーラップしていることもある。一部の場合には、ウインドウまたはビンは、少なくとも1bp、2bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp、または1000bpオーバーラップしていることがある。他の場合には、ウインドウまたはビンは、1bp、2bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp、または1000bp以下オーバーラップしていることがある。一部の場合には、ウインドウまたはビンは、約1bp、2bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp、または1000bpオーバーラップしていることがある。
一部の場合には、ウインドウ領域の各々は、指定されたサイズを有することができ、そのため、それらは、ほぼ同数の一意的にマッピング可能な塩基を含有する。ウインドウ領域を構成する各塩基のマッピング可能性が決定され、マッピング可能性ファイルを生成するために使用され、このマッピング可能性ファイルは、各ファイルの参照にマッピングし直される参照からの断片/リードの表示を含有する。マッピング可能性ファイルは、位置ごとに一行を含有し、これによって各位置が一意にマッピング可能であるか否かが示される。
加えて、ゲノム全体にわたってシークエンシングが困難であることまたはかなり高いGCバイアスを含有することが分かっている、事前に定義されたウインドウを、データセットからフィルタリングすることができる。例えば、染色体のセントロメア(すなわち、セントロメアDNA)付近にあることが分かっている領域は、偽陽性結果を生じさせ得る高反復配列を含有することが分かっている。これらの領域をフィルタリングして除去することができる。ゲノムの他の領域、例えば、マイクロサテライトDNAなどの異常に高濃度の他の高反復配列を含有する領域を、データセットからフィルタリングすることができる。
分析されるウインドウの数も、様々であり得る。一部の場合には、少なくとも10、20、30、40、50、100、200、500、1000、2000、5,000、10,000、20,000、50,000または100,000のウインドウが分析される。他の場合には、分析されるウインドウの数は、10、20、30、40、50、100、200、500、1000、2000、5,000、10,000、20,000、50,000または100,000以下であり、これらのウインドウが分析される。
コピー数構成要素216は、ウインドウ/ビン領域ごとにリードカバレッジを決定することができる。この決定を、バーコードを伴う断片/リード、またはバーコードを伴わない断片/リードのどちらかを使用して行うことができる。バーコードを伴わない場合、前のマッピングステップは、異なる塩基位置のカバレッジを提供することになる。十分なマッピングおよび品質スコアを有する配列断片/リードであって、フィルタリングされない染色体ウインドウ内に入る配列断片/リードが、計数され得る。カバレッジ断片/リードの数に、各マッピング可能な位置ごとにスコアが割り当てられ得る。
ある実施形態では、シークエンシングリードカバレッジに関する定量的測度は、遺伝子座位に対応するDNA分子に由来する断片/リード(例えば、参照ゲノムからの特定の位置、塩基、領域、遺伝子または染色体)の数を示す測度である。断片/リードを遺伝子座位と関連付けるために、断片/リードを参照にマッピングまたはアラインすることができる。マッピングまたはアライニングを行うためのソフトウェア(例えば、Bowtie、BWA、mrsFAST、BLAST、BLAT)は、シークエンシングリードを遺伝子座位と関連付けることができる。マッピングプロセス中に、特定のパラメーターを最適化することができる。マッピング処理の最適化の非限定的な例としては、反復領域のマスキング;マッピング品質(例えば、MAPQ)スコアカットオフの利用;アラインメントを生成するための異なるシード長の使用;およびゲノム位置間の編集距離の制限を挙げることができる。
シークエンシングリードカバレッジに関連する定量的測度は、遺伝子座位に関連付けられた断片/リードの計数値を含み得る。一部の場合には、これらの計数値は、異なるシークエンシング深度、ライブラリーの複雑度、または遺伝子座位のサイズの効果を和らげるために、新たなメトリクスに変換される。例示的なメトリクスは、100万リードあたりのキロベースあたりのリード(RPKM:Read Per Kilobase per Million)、100万断片あたりのキロベースあたりの断片(FPKM:Fragments Per Kilobase per Million)、M値のトリム平均(TMM:Trimmed Mean of M values)、分散安定化された生の計数値、およびlog変換された生の計数値である。他の変換も、当業者には公知であり、それらを特定の応用に使用することができる。
リードファミリーまたは折り畳まれたリードの各々が初期鋳型DNA分子に対応する、断片/リードファミリーまたは折り畳まれた断片/リードの数を使用して、定量的測度を決定することができる。リードファミリーを折り畳むためのおよび定量化するための方法は、PCT/US2013/058061およびPCT/US2014/000048において見つけることができ、これらの参考特許文献の各々は、その全体が参照により本明細書に組み込まれる。特に、参照配列にマッピングされたときに各ファミリーがバーコード配列とシークエンシングリード配列および/または同じゲノム座標の少なくとも一部分とを共有するように、シークエンシングリードからのバーコードおよび配列情報を使用して断片/リードをファミリーに選別する、リードファミリーの定量化および/または折り畳み方法を、用いることができる。したがって、ファミリーの大部分について、各ファミリーは、単一の初期鋳型DNA分子に由来する。ファミリーからの配列のマッピングから導出される計数値を、「一意の分子計数値」(UMC)と呼ぶことができる。一部の場合には、シークエンシングリードカバレッジに関連する定量的測度を決定することは、ライブラリーサイズに関連するメトリクスによりUMCを正規化して、正規化されたUMC(「正規化UMC」)を得ることを含む。例示的な方法は、遺伝子座位のUMCを全てのUMCの合計で割ること;遺伝子座位のUMCを全ての常染色体UMCの合計で割ることである。複数のシークエンシングリードデータセットを比較する場合、UMCを、例えば、2つのシークエンシングリードデータセットの遺伝子座位のUMC中央値によって正規化することができる。一部の場合には、シークエンシングリードカバレッジに関連する定量的測度は、以下のようにさらに正規化される、正規化UMCであり得る:(i)訓練試料から導出されたシークエンシング断片/リードからの対応する遺伝子座位について、正規化UMCを決定する;(ii)各遺伝子座位について、試料の正規化UMCを対応する座位における訓練試料の正規化UMCの中央値により正規化し、それによって、遺伝子座位の相対存在量(RA)を得る。
コンセンサス配列を、それらの配列に基づいて、例えば、最初の5、10、15、20または25塩基の中の同一配列に基づいてシークエンシング断片/リードを折り畳むことにより、同定することができる。一部の場合には、折り畳みは、他の点では同一である断片/リードにおける1つの差異、2つの差異、3つの差異、4つの差異、または5つの差異を許容する。一部の場合には、折り畳みは、リードのマッピング位置、例えば、シークエンシングリードの初期の塩基のマッピング位置を使用する。一部の場合には、折り畳みは、バーコードを使用し、バーコード配列を共有するシークエンシング断片/リードがコンセンサス配列に折り畳まれる。一部の場合には、折り畳みは、バーコードと初期鋳型分子の配列を両方とも使用する。例えば、バーコードを共有し、参照ゲノム内の同じ位置にマッピングされる全ての断片/リードを、折り畳むことができる。別の例では、バーコードと初期鋳型分子の配列(または初期鋳型分子の配列に対する同一性パーセンテージ)とを共有する全ての断片/リードを折り畳むことができる。
一部の場合には、シークエンシングリードカバレッジの定量的測度は、ゲノムの特定の小領域について決定される。領域は、ビン、目的の遺伝子、エクソン、配列プローブに対応する領域、プライマー増幅産物に対応する領域、またはプライマー結合部位に対応する領域であり得る。一部の場合には、ゲノム小領域は、配列捕捉用プローブに対応する領域である。リードは、リードの少なくとも一部分が、配列捕捉用プローブに対応する領域の少なくとも一部分をマッピングする場合、配列捕捉用プローブに対応する領域に位置し得る。リードは、リードの少なくとも一部分が、配列捕捉用プローブに対応する領域の大部分に位置する場合、配列捕捉用プローブに対応する領域に位置し得る。リードは、リードの少なくとも一部分が、配列捕捉用プローブに対応する領域の中心点を横断して位置する場合、配列捕捉用プローブに対応する領域に位置し得る。
バーコードを含む別の実施形態では、同じバーコード、物理的特性、またはこれら2つの組合せを有する全ての配列を、それら全てが試料親分子に由来する場合、1つのリードに折り畳んで、増幅中に導入された可能性があるバイアスを低減させることができる。例えば、ある分子は10回増幅されるが、別の分子は1000回増幅される場合、各分子が折り畳み後に1回だけ提示されることによって、不均一な増幅の効果が打ち消される。一意のバーコードを有する断片/リードのみが、マッピング可能な位置ごとに計数され得、割り当てられるスコアに影響を与え得る。
コンセンサス配列を、配列断片/リードのファミリーから当技術分野において公知の任意の方法により生成することができる。そのような方法としては、例えば、デジタル通信理論、情報理論、またはバイオインフォマティクスから導出された、コンセンサス配列の線形または非線形構築方法(例えば、投票、平均化、統計的、最大事後もしくは最大尤度検出、ダイナミックプログラミング、ベイジアン、隠れマルコフまたはサポートベクターマシン方法など)が挙げられる。
配列リードカバレッジを決定した後、確率論的モデリングアルゴリズムを適用して、各ウインドウ/ビン領域についての正規化核酸配列リードカバレッジを別々のコピー数状態に変換することができる。一部の場合には、このアルゴリズムは、次のうちの1つまたは複数を含み得る:隠れマルコフモデル、ダイナミックプログラミング、サポートベクターマシン、ベイジアンネットワーク、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリング方法論およびニューラルネットワーク。各ウインドウ領域の別々のコピー数状態を利用して、染色体領域におけるコピー数多様性を同定することができる。一部の場合には、同じコピー数を有する全ての隣接ウインドウ/ビン領域をマージしてセグメントにして、コピー数多様性状態の存在または非存在を報告することができる。一部の場合には、様々なウインドウ/ビンを、それらを他のセグメントとマージする前にフィルタリングすることができる。コピー数多様性を、分析データストア218に記憶させることができ、および/またはゲノム内の様々な位置とそれぞれの位置各々でのコピー数多様性の対応する増加もしくは減少もしくは維持とを示すグラフとして報告することができる。加えて、コピー数多様性を使用して、どの程度の疾患材料(またはコピー数多様性を有する核酸)が無細胞ポリヌクレオチド試料中に存在するのかを示すパーセンテージスコアを報告することができる。
v.バリアントコーラー構成要素
バリアントコーラー217は、分析データストア218からデータを取り込む/受信することができる。例えば、バリアントコーラー217は、複数の配列断片/リードを表すデータを取り込む/受信することができる。複数の配列断片/リードを分析して1つまたは複数のバリアントを決定することができる。バリアントは、例えば、一塩基バリアント(SNV)、インデル、融合、およびコピー数多様性を含み得る。バリアントコーリングのための任意の公知の技法を使用することができる。ある実施形態では、シークエンシングされた核酸におけるヌクレオチドの多様性を、シークエンシングされた核酸を参照配列と比較することにより決定することができる。参照配列は、多くの場合、既知の配列、例えば、対象からの既知の全または部分ゲノム配列(例えば、ヒト対象からの全ゲノム配列)である。参照配列は、例えば、hG19またはhG38であり得る。シークエンシングされた核酸は、上で説明されたとおり、試料中の核酸について直接決定された配列を表すこともあり、またはそのような核酸の増副産物の配列のコンセンサスであることもある。参照配列上の1つまたは複数の指定位置で比較を行うことができる。それぞれの配列を最大限にアラインしたときに参照配列の指定位置に対応する位置を含む、シークエンシングされた核酸のサブセットを同定することができる。そのようなサブセットの中で、もしあれば、シークエンシングされたどの核酸が、指定位置にヌクレオチドの多様性を含むのか;その終点(すなわち、その5’および3’末端ヌクレオチド)が参照配列に位置する場合、cfDNA断片内のゲノム領域の中点からの所与のcfDNA断片の中点のオフセットに基づいて、所与のcfDNA断片の長さ;および必要に応じて、もしあれば、どれが、参照ヌクレオチド(すなわち、参照配列内のものと同じもの)を含むのかを、決定することができる。ヌクレオチドバリアントを含むサブセット中のシークエンシングされた核酸の数が、選択された閾値を超えると、バリアントヌクレオチドは、指定位置でコールされ得る。閾値は、ヌクレオチドバリアントを含むサブセット内のシークエンシングされた核酸少なくとも1、2、3、4、5、6、7、9もしくは10などの単純な数であり得、または閾値は、数ある可能性の中でも特に、ヌクレオチドバリアントを含むサブセット内のシークエンシングされた核酸の少なくとも0.5、1、2、3、4、5、10、15もしくは20などの比であり得る。参照配列中の目的の任意の指定位置について比較を繰り返すことができる。ときには、参照配列上の少なくとも約20、100、200または300の連続する位置、例えば、約20~500、または約50~300の連続する位置を占める指定位置について、比較を行うことができる。
配列分析パイプライン212により分析、決定および/または出力された任意のデータを、分析データストア218に記憶させることができる。一般的に言えば、プロセッサー220は、配列分析パイプライン212の様々な構成要素、例えば、配列品質管理構成要素213、エピジェネティック構成要素214、フラグメントミクス構成要素215、コピー数構成要素216、バリアントコーラー217、および/または他の構成要素を実装し得る(そのような要素によってプログラムされ得る)。あるいは、配列分析パイプライン212のこれらの構成要素は、ハードウェアモジュールを含み得ることに留意されたい。便宜上、別々に図示されているが、配列品質管理構成要素213、エピジェネティック構成要素2114、フラグメントミクス構成要素215、コピー数構成要素216、および/またはバリアントコーラー217などの、様々な構成要素または命令の1つまたは複数を、互いに統合することができる。
コンピュータシステム210は、ネットワーク223を使用してコンピュータシステム224とデータをやりとりすることができる。例えば、コンピュータシステム224は、分析データストア218からデータを取り込むことができる。コンピュータシステム224は、予測モデル(例えば、分類器)を生成するために、ならびに/または予測モデルを利用して配列断片および/もしくはバリアントの起源を決定するために構成され得る。
h.予測モデル
次に図8を参照して、予測モデル(例えば、分類器)を生成するためのさらなる方法が説明される。記載される方法は、訓練するために、訓練モジュール820による1つまたは複数の訓練データセット810の分析に基づく機械学習(「ML」)技法であって、少なくとも1つのMLモジュール830が、血漿中の配列断片および/またはバリアントを、腫瘍起源、またはクローン性造血もしくは生物学的ノイズからのものであり得る非腫瘍起源に分類するように構成されている、技法を使用し得る。
訓練データセット810は、腫瘍由来および非腫瘍由来(例えば、がん/非がん)体液(例えば、血液、血漿、血清、脳脊髄液、尿)試料データを含み得る。試料データは、1つまたは複数の配列断片/リードおよび/またはバリアントについての配列情報を含み得る、配列データを含み得る。試料データは、エピジェネティックデータを含み得る。エピジェネティックデータは、例えば、DNAメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化状態に関する情報を含み得る。試料データは、フラグメントミクスデータを含み得る。フラグメントミクスデータは、例えば、断片がマッピングされた開始および停止の位置(ヌクレオソーム位置と相関する)、断片長ならびに関連ヌクレオソーム占有率に関する情報を含み得る。ある実施形態では、配列データにおける配列断片/リードおよび/またはバリアントの起源(腫瘍由来および非腫瘍由来)もまた、配列データ、エピジェネティックデータ、および/またはフラグメントミクスデータに関連し得る。例えば、腫瘍由来であることが既知の配列断片/リードおよび/またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、腫瘍由来とラベルすることができ、非腫瘍由来であることが既知の配列断片および/またはバリアントの配列データ、エピジェネティックデータおよびフラグメントミクスデータに、非腫瘍由来とラベルすることができる。その上、さらなるラベル、例えば、がん型、組織型およびこれらに類するものを、割り当てることができる。
腫瘍由来/非腫瘍由来試料データのサブセットを、訓練データセット810に、または試験データセットに、無作為に割り当てることができる。一部のインプリメンテーションでは、訓練データセットまたは試験データセットへのデータの割り当ては、完全には無作為でないことがある。この場合、1つまたは複数の基準が割り当て中に使用され得る。一般に、任意の好適な方法を使用して、データ分布が訓練データセットと試験データセットで多少類似していることを確認しながら、データを訓練または試験データセットに割り当てることができる。
訓練モジュール820は、1つまたは複数の特徴選択技法に従って訓練データセット810における腫瘍由来/非腫瘍由来試料データから特徴セットを抽出することにより、MLモジュール830を訓練することができる。訓練モジュール820は、統計的に有意な特徴を含む訓練データセット810から特徴セットを抽出することにより、MLモジュール830を訓練することができる。
訓練モジュール820は、訓練データセット810から特徴セットを様々な方法で抽出することができる。訓練モジュール820は、毎回、異なる特徴抽出技法を使用して、複数回、特徴抽出を行うことができる。ある例では、異なる技法を使用して生成された特徴セットを各々使用して、機械学習に基づく異なる分類モデル840を生成することができる。例えば、品質メトリクスが最も高い特徴セットを、訓練における使用に選択することができる。訓練モジュール820は、特徴セットを使用して、新たなバリアント(例えば、起源が未知である)について起源を腫瘍または非腫瘍に分類するように構成されている1つまたは複数の機械学習に基づく分類モデル840A~840Nを構築することができる。
訓練データセット810を分析して、訓練データセット810における特徴と実験パラメーターとの間の任意の依存性、関連性および/または相関を決定することができる。同定された相関は、特徴のリストの形態を有し得る。用語「特徴」は、本明細書で使用される場合、データの項目が1つまたは複数の特定のカテゴリーに入るかどうかを決定するために使用され得る、データの項目の任意の特性を指し得る。例として、本明細書に記載される特徴は、悪性血液疾患を含む特定のがん型の試料間の遺伝的バリアントの観察頻度;血漿、腫瘍組織または白血球におけるバリアントの保有率;メチル化状態ベクトル;メチル化密度;断片サイズ;断片サイズ分布;末端モチーフ;末端モチーフ頻度;ジャギド末端の存在;オーバーハングインデックス;断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値;ウインドウ化保護スコア;これらの組合せ、およびそれらに類するものを含む、本明細書に記載される任意のデータおよび/または計算値を含み得る。
特徴選択技法は、1つまたは複数の特徴選択規則を含み得る。1つまたは複数の特徴選択規則は、特徴出現規則を含み得る。特徴出現規則は、訓練データセット810におけるどの特徴が閾値回数を超えて出現するのかを決定すること、および特徴としての閾値を満たす特徴を同定することを含み得る。
単一の特徴選択規則を適用して特徴を選択することができ、または複数の特徴選択規則を適用して特徴を選択することができる。特徴選択規則が特定の順序で適用され、かつ前の規則の結果に適用される、カスケード方式で、特徴選択規則を適用することができる。例えば、特徴出現規則を訓練データセット810に適用して、特徴の第1のリストを生成することができる。特徴の最終リストをさらなる特徴選択技法に従って分析して、1つまたは複数の特徴群(例えば、配列断片/リードおよび/またはバリアントを腫瘍由来または非腫瘍由来に分類するために使用され得る特徴の群)を決定することができる。フィルター、ラッパーおよび/または埋め込み法などの任意の特徴選択技法を使用する任意の好適なコンピュータによる技法を使用して、特徴群を同定することができる。1つまたは複数の特徴群をフィルター法に従って選択することができる。フィルター法は、例えば、ピアソン相関、線形判別分析、分散分析(ANOVA)、カイ二乗、これらの組合せ、およびそれらに類するものを含む。フィルター法による特徴の選択は、いずれの機械学習アルゴリズムにも依存しない。その代わりに、特徴を、結果変数とのそれらの相関についての様々な統計的試験におけるスコアのバイアスに基づいて選択することができる。
別の例として、1つまたは複数の特徴群をラッパー法に従って選択することができる。ラッパー法は、特徴のサブセットを使用するように、および特徴のサブセットを使用して機械学習モデルを訓練するように、構成され得る。前のモデルから引き出した推論に基づいて、特徴をサブセットから追加および/または削除することができる。ラッパー法は、例えば、前方特徴選択、後方特徴除去、再帰的特徴除去、これらの組合せ、およびそれらに類するものを含む。一例として、前方特徴選択を使用して、1つまたは複数の特徴群を同定することができる。前方特徴選択は、機械学習モデルに特徴を含めずに始まる反復法である。新たな変数の追加が機械学習モデルのパフォーマンスを向上させなくなるまで、各反復の際に、モデルを最も向上させる特徴が追加される。一例として、後方除去を使用して、1つまたは複数の特徴群を同定することができる。後方除去は、機械学習モデルに全ての特徴を含めて始まる反復法である。特徴除去時に向上が観察されなくなるまで、各反復の際に、有意性が最も低い特徴が除去される。再帰的特徴除去を使用して、1つまたは複数の特徴群を同定することができる。再帰的特徴除去は、最良のパフォーマンスを示す特徴のサブセットを見つけることを目的とする欲張り最適化アルゴリズムである。再帰的特徴除去は、モデルを繰り返し作出し、各反復時に最良のパフォーマンスまたは最悪のパフォーマンスを示す特徴を取って置く。再帰的特徴除去は、全ての特徴が使い果たされるまで、残存する特徴を用いて次のモデルを構築する。したがって、再帰的特徴除去は、それらの除去の順序に基づいて特徴をランク付けする。
さらなる例として、1つまたは複数の特徴群を埋め込み法に従って選択することができる。埋め込み法は、フィルター法の質とラッパー法の質を併せ持つ。埋め込み法は、例えば、過剰学習を減少させるためにペナルティ関数を実行する、最小絶対収縮および選択演算子(LASSO)およびリッジ回帰を含む。例えば、LASSO回帰は、係数の大きさの絶対値に相当するペナルティを加えるL1正則化を行い、リッジ回帰は、係数の大きさの二乗に相当するペナルティを加えるL2正則化を行う。
訓練モジュール820が特徴セットを生成した後、訓練モジュール820は、特徴セットに基づいて機械学習に基づく分類モデル840を生成し得る。機械学習に基づく分類モデルは、機械学習技法を使用して生成されるデータ分類用の複雑な数学モデルを指し得る。一例では、機械学習に基づく分類モデル840は、境界特徴を表すサポートベクターのマップを含み得る。例として、境界特徴は、特徴セットから選択され得る、および/または特徴セットの中の最高ランクの特徴を表し得る。
訓練モジュール820は、訓練データセット810から決定または抽出された特徴セットを使用して、機械学習に基づく分類モデル840A~840Nを構築することができる。一部の例では、機械学習に基づく分類モデル840A~840Nを組み合わせて、単一の機械学習に基づく分類モデル840にすることができる。同様に、MLモジュール830は、単一もしくは複数の機械学習に基づく分類モデル840を含有する単一の分類器、および/または単一もしくは複数の機械学習に基づく分類モデル840を含有する複数の分類器を表し得る。
機械学習手法、例えば、判別分析;決定木;最近傍(NN)アルゴリズム(例えば、k-NNモデル、レプリケーターNNモデルなど);統計アルゴリズム(例えば、ベイジアンネットワークなど);クラスタリングアルゴリズム(例えば、k平均法、ミーンシフト法など);ニューラルネットワーク(例えば、リザバーネットワーク、人工ニューラルネットワークなど);サポートベクターマシン(SVM);ロジスティック回帰アルゴリズム;線形回帰アルゴリズム;マルコフモデルもしくはチェーン;主成分分析(PCA)(例えば、線形モデルのための);多層パーセプトロン(MLP)ANN(例えば、非線形モデルのための);複製リザバーネットワーク(例えば、非線形モデルのための、典型的には時系列についての);ランダムフォレスト分類;これらの組合せおよび/またはそれらに類するもの、を使用して訓練された分類モデルに、特徴を組み込むことができる。結果として得られるMLモジュール830は、バリアントの腫瘍/非腫瘍起源を決定するための各特徴の決定則またはマッピングを含み得る。
ある実施形態では、訓練モジュール820は、機械学習に基づく分類モデル840を畳み込みニューラルネットワーク(CNN)として訓練することができる。CNNは、最終分類層(ソフトマックス)に至る、少なくとも1つの畳み込み特徴層および3つの全結合層を含む。最終分類層は、当技術分野において公知であるようにソフトマックス関数を使用して全結合層の出力を組み合わせるために最後に適用され得る。
特徴およびMLモジュール830を使用して、試験データセットにおける配列断片/リードおよび/またはバリアントの腫瘍由来または非腫瘍由来起源を予測することができる。一例では、各配列断片/リードおよび/またはバリアントについての予測結果は、試験データセットにおける配列断片/リードおよび/またはバリアントが腫瘍起源または非腫瘍起源に関連する尤度または確率に対応する信頼レベルを含み得る。信頼レベルは、0~1の間の値であり得る。一例では、2つのステータス(例えば、腫瘍起源および非腫瘍起源)がある場合、信頼レベルは、特定のバリアントが第1のステータス(例えば、腫瘍起源)に属する尤度を指す値pに対応し得る。この場合、値1-pは、特定のバリアントが第2のステータス(例えば、非腫瘍起源)に属する尤度を指し得る。一般に、複数の信頼レベルが、試験データセットの各バリアントに、および2つより多くのステータスがある場合には各特徴に、提供され得る。各試験バリアントについて得られた結果を、各試験バリアントについての既知の腫瘍/非腫瘍起源と比較することにより、最高のパフォーマンスを示す特徴を決定することができる。一般に、最高のパフォーマンスを示す特徴は、既知の腫瘍/非腫瘍起源ステータスと厳密にマッチする結果を有することになる。最高のパフォーマンスを示す特徴を使用して、所与のバリアントの腫瘍/非腫瘍起源ステータスを予測/分類することができる。
図9は、訓練モジュール820を使用してMLモジュール830を生成するための例となる訓練方法900を示すフローチャートである。訓練モジュール820は、教師あり、教師なし、および/または半教師あり(例えば、強化に基づく)機械学習に基づく分類モジュール840を実施することができる。図9に示されている方法900は、教師あり学習方法の一例であり、訓練方法のこの例の変型形態は、下で論じられるが、他の訓練方法を類似的に実施して教師なしおよび/または半教師あり機械学習モデルを訓練することができる。
訓練方法900は、ステップ910でデータを決定する(例えば、データにアクセスする、データを受信する、データを取り込む、など)ことができる。データは、腫瘍由来/非腫瘍由来体液試料データを含み得る。データは、各配列断片/リードおよび/またはバリアントが、割り当てられた腫瘍起源または非腫瘍由来起源ステータスを有する、1つまたは複数の配列断片リードおよび/またはバリアントについての、配列データ、エピジェネティックデータ、および/またはフラグメントミクスデータを含み得る。
訓練方法900は、ステップ920で、訓練データセットおよび試験データセットを生成することができる。訓練データセットおよび試験データセットは、データを、訓練データセットまたは試験データセットのどちらかに無作為に割り当てることにより生成され得る。一部のインプリメンテーションでは、訓練または試験データとしての計算パラメーターおよび関連実験パラメーターの割り当ては、完全には無作為でないことがある。一例として、計算パラメーターおよび関連実験パラメーターの大半は、訓練データセットを生成するために使用され得る。例えば、計算パラメーターおよび関連実験パラメーターの75%は、訓練データを生成するために使用され得、25%は、試験データセットを生成するために使用され得る。別の例では、計算パラメーターおよび関連実験パラメーターの80%は、訓練データを生成するために使用され得、20%は、試験データセットを生成するために使用され得る。
訓練方法900は、ステップ930で、例えば、分類器による腫瘍由来のステータスの非腫瘍由来のステータスに対する異なる分類間での差別化に使用され得る1つまたは複数の特徴を決定する(例えば、抽出する、選択する、など)ことができる。一例として、訓練方法900は、特徴のセットを、腫瘍由来/非腫瘍由来体液試料データから決定することができる。さらなる例では、特徴のセットを、訓練データセットまたは試験データセットのどちらかにおける腫瘍由来/非腫瘍由来体液試料データとは異なるデータから決定することができる。そのような他のデータを使用して特徴の最初のセットを決定することができ、そのセットを、訓練データセットを使用してさらに低減させることができる。
訓練方法900は、ステップ940で1つまたは複数の特徴を使用して1つまたは複数の機械学習モデルを訓練することができる。一例では、機械学習モデルを、教師あり学習を使用して訓練することができる。別の例では、教師なし学習および半教師ありをはじめとする他の機械学習技法を利用することができる。940で訓練された機械学習モデルを、解決すべき問題、および/または訓練データセットにおいて利用可能なデータに依存して、異なる基準に基づいて選択することができる。例えば、機械学習分類器にはバイアスの程度が異なるという欠点があることがある。したがって、1つより多くの機械学習モデルを940で訓練し、最適化し、改善し、ステップ950で交差検証することができる。
訓練方法900は、960で、1つまたは複数の機械学習モデルを選択して予測モデルを構築することができる。予測モデルを、試験データセットを使用して評価することができる。予測モデルは、ステップ970で、試験データセットを分析し、予測腫瘍/非腫瘍起源ステータスを生成することができる。予測された腫瘍/非腫瘍起源をステップ980で評価して、そのような値が所望の精度レベルを達成したかどうかを決定することができる。予測モデルのパフォーマンスを、予測モデルにより示される複数のデータ点の真陽性、擬陽性、真陰性および/または偽陰性分類の数に基づいて、いくつかの方法で評価することができる。
例えば、予測モデルの擬陽性は、予測モデルが、実際には非腫瘍起源であった配列断片/リードおよび/またはバリアントを腫瘍基源と誤って分類した回数を指し得る。逆に、予測モデルの偽陰性は、機械学習モデルが、実際には配列断片/リードおよび/またはバリアントが腫瘍起源であったときに配列断片/リードおよび/またはバリアントを非腫瘍起源と分類した回数を指し得る。真陰性および真陽性は、予測モデルが1つまたは複数の配列断片/リードおよび/またはバリアントを正しく分類した回数を指し得る。再現率および適合率の概念は、これらの測定結果に関係している。一般に、再現率は、真陽性と偽陰性の合計に対する真陽性の比を指し、これによって予測モデルの感度が定量化される。同様に、適合率は、真陽性と偽陽性の合計に対する真陽性の比を指す。そのような所望の精度レベルが達成されたとき、訓練相は終了し、予測モデル(例えば、MLモジュール830)は、ステップ990で出力され得るが、所望の精度レベルが達成されなかったときには、例えばより大規模なデータ収集を考慮することなどの変更を加えてステップ910で開始して、訓練方法900のその後の反復が行われ得る。
図10は、機械学習に基づく分類器を使用して配列断片/リードおよび/またはバリアントを腫瘍起源または非腫瘍起源に分類するための例示的なプロセスの流れの図である。図10に示されているように、未分類の配列断片/リードおよび/またはバリアント1010についての配列データ、エピジェネティックデータ、および/またはフラグメントミクスデータが、MLモジュール830に入力として提供され得る。MLモジュール830は、機械学習に基づく分類器を使用して未分類の配列断片/リードおよび/またはバリアント1010についての配列データ、エピジェネティックデータ、および/またはフラグメントミクスデータを処理して、予測結果1020に達することができる。予測結果1020によって、未分類の配列断片/リードおよび/またはバリアント1010についての配列データ、エピジェネティックデータ、および/またはフラグメントミクスデータの1つまたは複数の特徴が同定され得る。例えば、分類結果1020によって、配列断片/リードおよび/またはバリアント1010の起源ステータス(例えば、配列断片/リードおよび/またはバリアントが、腫瘍起源であるのか、非腫瘍起源であるのか)が同定され得る。したがって、ある実施形態では、1または複数台のプロセッサーと、ネットワークインターフェースと、1つまたは複数のメモリとを含む、ネットワークベースのコンピュータシステムを使用して実施される方法であって、コンピュータシステムにより、腫瘍由来起源または非腫瘍由来起源ステータスを示した配列データ、エピジェネティックデータおよび/またはフラグメントミクスデータを取り込むステップと、1または複数台のプロセッサーにより、機械学習モデルを、1つまたは複数のモデルの配列データ、エピジェネティックデータおよび/またはフラグメントミクスデータへのフィッティングによって訓練するステップとを含み、1つまたは複数のモデルの各々が、個体の配列データ、エピジェネティックデータおよび/またはフラグメントミクスデータを入力配列データとして受け取り、個体の腫瘍罹患または発症の予測を出力として提供するように構成されている、方法が開示される。
i.例となる方法
一部の態様では、本開示は、腫瘍を確定的にコールするためのまたは既知CHIP遺伝子におけるバックグラウンド未確定の潜在能をもつクローン性造血(CHIP)バリアントについてのバイオインフォマティクスによる除外を助けるための追加のゲノムシグナルを提供するエピジェネティックシグネチャー(例えば、メチル化プロファイル、フラグメントミクスなど)と体細胞ゲノム情報を結びつける方法を提供する。一部の実施形態では、CHIPを示す正常な白血球のメチル化および断片化プロファイルは、それらの病原性腫瘍対応物と異なる。ある特定の実施形態では、既知メチル化部位、またはCHIP干渉が起こる可能性が高い遺伝子の他のエピジェネティック部位(例えば、DNMT3A、TP53、LRP1B、KRASなど)を調査する標的ハイブリダイゼーションパネルをNGSワークフローに組み込むことによって、CHIPを判定するための直交情報が得られる。同様に、高いCHIP保有率を示すことが既知の遺伝子のctDNA断片分布を分析するバイオインフォマティクスモジュールの組込みが、一部の実施形態でのCHIP判定コーラーを生成するための直交情報として使用される。CHIP保有率が既知である遺伝子または他のゲノム領域とエピジェネティックプロファイル(例えば、メチル化プロファイル、ctDNA断片分布(例えば、フラグメントミクス)、バイサルファイド(bi-sulfide)シークエンシング、および/またはこれらに類するもの)を組み合わせることによって、診断の有効性を向上させるための技術的な解決策が得られる。
例を挙げて説明すると、図11は、本発明の一部の実施形態に従ってコンピュータを使用して試験対象から得られた試験試料中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントを互いに差別化する例示的な方法ステップを概略的に示すフローチャートである。示されているように、方法1100は、標的ゲノム領域のセットの中の核酸バリアントを、試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ(ステップ1101)を含む。方法は、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ(ステップ1102)も含む。一部の実施形態では、エピジェネティックシグネチャー、例えばメチル化シグネチャーは、PCT出願番号PCT/US2021/025201において開示されている方法およびシステムに基づいて決定され得る。方法は、試験核酸バリアント-エピジェネティックシグネチャー群のセットの中の所与の試験核酸バリアント-エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントに対応する参照核酸バリアント-エピジェネティックシグネチャー群と、またはCHIP起源核酸バリアントに対応する参照核酸バリアント-エピジェネティックシグネチャー群とマッチさせ、それによって、試験対象から得られた試験試料中の腫瘍起源核酸バリアントとCHIP起源核酸バリアントとを互いに差別化するステップ(ステップ1103)も含む。一部の実施形態では、方法1100は、少なくとも1つの訓練された分類器を使用して、試験核酸バリアント-エピジェネティックシグネチャー群のセット中の腫瘍起源核酸バリアントとCHIP起源核酸バリアントとを互いに差別化して、試験試料中に存在する差別化された腫瘍起源核酸バリアントとCHIP起源核酸バリアントのセットを生じさせるステップも含む。一部の実施形態では、方法は、試験試料中に存在する差別化された腫瘍起源核酸バリアントとCHIP起源核酸バリアントのセットの中の差別化された腫瘍起源核酸バリアントの1つまたは複数に基づいて、試験対象に少なくとも1つの療法を投与するステップであって、それによって試験対象におけるがんを処置するステップも含む。
例を挙げて説明すると、図12は、本発明の一部の実施形態に従ってコンピュータを使用して訓練された分類器を生成する例示的な方法ステップを概略的に示すフローチャートである。示されているように、方法1200は、標的ゲノム領域の少なくとも1つのセットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ(ステップ1201)を含む。方法1200は、同定された参照核酸バリアントのセットの中の複数の同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、参照試料中の核酸から得られたエピジェネティック情報から同定して、参照核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ(ステップ1202)も含む。方法1200は、参照核酸バリアント-エピジェネティックシグネチャー群のセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、1つまたは複数の試験核酸バリアント-エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントおよび/または未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントを含むものとして分類するように構成されている、少なくとも1つの訓練された分類器を作出するステップ(ステップ1203)も含む。
さらに例を挙げて説明すると、図13は、本発明の一部の実施形態に従ってコンピュータを使用して訓練された分類器を生成する例示的な方法ステップを概略的に示すフローチャートである。示されているように、方法1300は、標的ゲノム領域の少なくとも1つのセットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ(ステップ1301)を含む。方法1300は、同定された参照核酸バリアントのセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、標的ゲノム領域のセットの中の核酸バリアントを試験試料中の核酸から得られた配列情報から分類するように構成されている少なくとも第1のモデルを作出して、同定された試験核酸バリアントのセットを生じさせるステップ(ステップ1302)も含む。方法1300は、同定された参照核酸バリアントのセットの中の複数の同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、参照試料中の核酸から得られたエピジェネティック情報から同定して、参照エピジェネティックシグネチャーのセットを生じさせるステップ(ステップ1303)も含む。方法1300は、参照エピジェネティックシグネチャーのセットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、試験核酸バリアント-エピジェネティックシグネチャー群のセットの中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントとを互いに差別化するように構成されている少なくとも第2のモデルを作出して、同定された試験核酸バリアントのセットを生じさせるステップ(ステップ1304)も含む。
一部の実施形態では、試験核酸バリアント-エピジェネティックシグネチャー群のセットは、同一の核酸バリアントおよび異なる対応するエピジェネティックシグネチャーを含む、少なくとも第1および第2のメンバーを含む。これらの実施形態のうちの一部では、異なる対応するエピジェネティックシグネチャーは、所与の標的ゲノム領域の中の1つまたは複数エピジェネティック座位により示される異なるエピジェネティック状態またはステータスを含む。これらの実施形態のうちの一部では、異なる対応するエピジェネティックシグネチャーは、異なる無細胞核酸(cfNA)断片長、位置、および/または終点密度分布を含む。一部の実施形態では、試験核酸バリアント-エピジェネティックシグネチャー群のセットは、異なる核酸バリアントおよび同一の対応するエピジェネティックシグネチャーを含む、少なくとも第1および第2のメンバーを含む。
一部の実施形態では、マッチさせるステップは、少なくとも1つの訓練された分類器を使用して、試験対象から得られた試験試料中の腫瘍起源核酸バリアントとCHIP起源核酸バリアントとを互いに差別化するステップを含む。一部の実施形態では、同定された核酸バリアントのセットは、体細胞核酸バリアントを含む。一部の実施形態では、所与の標的ゲノム領域は、2つまたはそれより多くの核酸バリアント座位を含む。一部の実施形態では、試験核酸バリアント-エピジェネティックシグネチャー群のセットは、標的ゲノム領域のセットの中の異なるゲノム領域からのものである1つまたは複数の核酸バリアントおよび1つまたは複数の対応するエピジェネティックシグネチャーを含む少なくとも1つのメンバーを含む。一部の実施形態では、試験核酸バリアント-エピジェネティックシグネチャー群のセットは、標的ゲノム領域のセットの中の同一のゲノム領域内のものである1つまたは複数の核酸バリアントおよび1つまたは複数の対応するエピジェネティックシグネチャーを含む少なくとも1つのメンバーを含む。一部の実施形態では、複数の標的ゲノム領域は、DNMT3A、TP53、LRP1B、KRAS、MARCH11、TAC1、TCF21、SHOX2、p16、Casp8、CDH13、MGMT、MLH1、MSH2、TSLC1、APC、DKK1、DKK3、LKB1、WIF1、RUNX3、GATA4、GATA5、PAX5、E-カドヘリン、H-カドヘリン、VIM、SEPT9、CYCD2、TFPI2、GATA4、RARB2、p16INK4a、APC、NDRG4、HLTF、HPP1、hMLH1、RASSF1A、IGFBP3、ITGA4、PIK3CA、ERBB2(HER2)、BRCA1/2、NTRK1/2/3、MSI-High、ESR1、ATM、HRR、FGFR2/3、IDH1、KRAS、NRAS、BRAF、KIT、PDGFRA、EGFR、ALK、ROS1、MET、TMB、またはRETからなる群から選択される、1つまたは複数の遺伝子を含む。一部の実施形態では、試料中の核酸は、試料中の1つまたは複数の組織または細胞から得られた無細胞核酸(cfNA)断片および/または核酸分子を含む。一部の実施形態では、エピジェネティックシグネチャーは、cfNA断片長、位置、および/または終点密度分布を含む。
一部の実施形態では、エピジェネティックシグネチャーは、所与の標的ゲノム領域の中の1つまたは複数エピジェネティック座位により示されるエピジェネティック状態またはステータスを含む。一部の実施形態では、エピジェネティック状態またはステータスは、メチル化、ヒドロキシメチル化、アセチル化、ユビキチン化、リン酸化、SUMO化、リボシル化、シトルリン化、および/またはヒストン翻訳後改変もしくは他のヒストン多様性の存在または非存在を含む。一部の実施形態では、方法は、差別化されたCHIP起源核酸バリアントをさらなる分析から排除するステップをさらに含む。一部の実施形態では、方法は、試験試料中の互いに差別化された腫瘍起源核酸バリアントおよびCHIP起源核酸バリアントを収載する少なくとも1つのレポートを生成するステップをさらに含む。
一部の実施形態では、方法は、差別化された腫瘍起源核酸バリアントに関連する少なくとも1つのがん型を同定するステップをさらに含む。一部の実施形態では、方法は、同定されたがん型を処置するために試験対象に少なくとも1つの療法を投与するステップをさらに含む。一部の実施形態では、方法は、差別化された腫瘍起源核酸バリアントの1つまたは複数に基づいて、試験対象に少なくとも1つの療法を投与するステップをさらに含む。一部の実施形態では、1つまたは複数の細胞は、試験試料中の核酸を含む。
一部の実施形態では、方法は、コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ;コンピュータにより、同定された試験核酸バリアントのセットの中の複数の同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、試験試料中の核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ;および訓練された分類器を使用して、試験対象から得られた試験試料中の試験核酸バリアント-エピジェネティックシグネチャー群のセットの中の腫瘍起源核酸バリアントとCHIP起源核酸バリアントとを互いに差別化するステップをさらに含む。一部の実施形態では、第2のモデルは、第1のモデルのさらに訓練されたバージョンである。一部の実施形態では、参照核酸バリアント-エピジェネティックシグネチャー群のセットは、同定された参照核酸バリアントのセットの中の所与の核酸バリアントに対応するエピジェネティックシグネチャーについての保有率データを含む。
一部の実施形態では、所与の核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを同定するステップは、所与の核酸バリアントに対応するエピジェネティック率を決定するステップであって、少なくとも第1のエピジェネティック率が、所与の対象から第1の時点で得られた第1の試料から生成され、少なくとも第2のエピジェネティック率が、所与の対象から第1の時点とは異なる第2の時点で得られた第2の試料から生成される、ステップ;少なくとも第1のエピジェネティック率に基づいて少なくとも1つのエピジェネティック率閾値を調整して、調整されたエピジェネティック率閾値を生じさせるステップ;および調整されたエピジェネティック率閾値を使用して、エピジェネティックシグネチャーを同定するステップを含む。一部の実施形態では、第1および第2の試料は、試験試料を含む。一部の実施形態では、第1および第2の試料は、参照試料を含む。一部の実施形態では、第1の試料は、腫瘍組織試料を含む。一部の実施形態では、第2の試料は、体液試料を含む。一部の実施形態は、エピジェネティック率を使用して試料中の腫瘍割合を同定することを含む。ある特定の実施形態は、必要に応じて、第1の試料の複数のゲノム領域についての複数のエピジェネティック率を決定するステップ;第2の試料の複数のゲノム領域のエピジェネティック率の所定のセット、複数のゲノム領域にマッピングされた第2の試料中の無細胞ポリヌクレオチドのセットについてのエピジェネティック特徴のセット、および第1の試料の複数のゲノム領域のエピジェネティック率に基づいて、第2の試料における複数のゲノム領域の1つまたは複数についての腫瘍割合の尤度を決定するステップ;複数のゲノム領域の1つまたは複数についての複数の尤度を組み合わせて、対象にがんが存在する全事後確率を決定するステップ;ならびに対象にがんが存在する全事後確率を所定の閾値と比較するステップを含む。これらの実施形態の一部は、対象を、(a)対象にがんが存在する全事後確率が所定の閾値より高いもしくは等しい場合、循環腫瘍DNA(ctDNA)について陽性と、または(b)対象にがんが存在する全事後確率が所定の閾値より低い場合、ctDNAについて陰性と分類するステップも含む。一部の実施形態では、エピジェネティックステータスを分析するために使用される方法およびシステムを、2020年6月1日に出願された、発明の名称が「METHODS AND SYSTEMS FOR IMPROVING PATIENT MONITORING AFTER SURGERY」である、国際特許出願番号PCT/US2020/035605において見つけることができ、この参考特許文献は、参照により本明細書に組み込まれる。
ある実施形態では、図14に示されているように、予測モデルを生成するための方法1400が、開示される。ある実施形態では、配列QC構成要素113、エピジェネティック構成要素214、フラグメントミクス構成要素215、コピー数構成要素216、バリアントコーラー217、示されていない追加の構成要素(例えば、コンピュータシステム224の構成要素)を単独でおよび/またはこれらを組み合わせて、配列データストア209および/または分析データストア218にアクセスして方法1400の全部および/または一部を行うように構成することができる。方法1400の全部または一部を、単一のコンピュータデバイス、複数のコンピュータデバイス、およびこれらに類するものによって行うことができる。方法1400は、1401において配列データを決定するステップを含み得る。方法1400は、1402においてエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップを含み得る。方法1400は、1403において予測モデルのための複数の特徴を決定するステップを含み得る。方法1400は、1404において複数の特徴に従って予測モデルを訓練および/または試験するステップを含み得る。方法1400は、1405において予測モデルを出力するステップを含み得る。
複数のゲノム領域は、DNMT3A、TP53、LRP1B、KRAS、MARCH11、TAC1、TCF21、SHOX2、p16、Casp8、CDH13、MGMT、MLH1、MSH2、TSLC1、APC、DKK1、DKK3、LKB1、WIF1、RUNX3、GATA4、GATA5、PAX5、E-カドヘリン、H-カドヘリン、VIM、SEPT9、CYCD2、TFPI2、GATA4、RARB2、p16INK4a、APC、NDRG4、HLTF、HPP1、hMLH1、RASSF1A、IGFBP3、ITGA4、PIK3CA、ERBB2(HER2)、BRCA1/2、NTRK1/2/3、MSI-High、ESR1、ATM、HRR、FGFR2/3、IDH1、KRAS、NRAS、BRAF、KIT、PDGFRA、EGFR、ALK、ROS1、MET、TMB、またはRETのうちの少なくとも1つを含み得る。配列データを決定するステップは、複数の対象から複数の試料を得るステップを含み得、複数の試料は、複数の無細胞核酸を含む。複数のゲノム領域は、がん型に関連することが公知のゲノム領域、公知のメチル化ステータスに関連するゲノム領域、低メチル化に関連することが公知のゲノム領域、または治療応答に関連することが公知のゲノム領域のうちの少なくとも1つを含み得る。
エピジェネティックデータは、DNAメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化状態に関する情報の少なくとも1つを含み得る。複数の配列断片に関連するエピジェネティックデータを決定するステップは、複数の配列断片のメチル化状態を決定するステップを含む。
複数の配列断片のメチル化状態を決定するステップは、メチル化状態ベクトルまたはメチル化CpG密度の少なくとも一方を決定するステップを含み得る。メチル化状態ベクトルを決定するステップは、複数の配列リードを参照配列にアラインするステップ;アラインするステップに基づいて、複数の配列リードのうちの配列リードにおける1つまたは複数のCpG部位のメチル化ステータス、および1つまたは複数のCpG部位の位置を決定するステップ;ならびに1つまたは複数のCpG部位のメチル化ステータス、および1つまたは複数のCpG部位の位置をベクトル化して、複数の配列リードのうちの配列リードのメチル化状態ベクトルを生成するステップを含み得る。メチル化CpG密度を決定するステップは、複数の配列リードを参照配列にアラインするステップ;アラインするステップに基づいて、複数の配列リードのうちの配列リードにおける1つまたは複数のCpG部位のメチル化ステータスを決定するステップ;配列リードにおける1つまたは複数のCpG部位のメチル化ステータスに基づいて、配列リードがメチル化されているまたはメチル化されていないことを決定するステップ;複数の配列リードについて、メチル化配列リードの計数値、および非メチル化配列リードの計数値を決定するステップ;およびメチル化配列リードの計数値および非メチル化配列リードの計数値に基づいて、メチル化CpG密度を決定するステップを含み得る。
フラグメントミクスデータは、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および/または断片の終点を示す任意の値に関する情報の少なくとも1つを含み得る。複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の断片のうちの配列断片のサイズを決定するステップ、または特定のサイズを有する複数の配列断片の量を決定するステップの少なくとも一方を含み得る。特定のサイズは、範囲であり得る。範囲は、50~80、50~100、50~150、100~150、100~200、150~200、150~230、200~300、または300~400塩基のうちの少なくとも1つであり得る。
複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の配列断片の末端モチーフを決定するステップを含み得、末端モチーフは、配列断片の終了配列に関するものである。複数の配列断片の末端モチーフを決定するステップは、複数の配列断片からシークエンシングされた複数の配列リードを参照配列にアラインするステップ;およびアラインするステップに基づいて、複数の配列断片のうちの配列断片の各末端の末端モチーフを決定するステップを含み得る。終了配列は、いくつかの塩基を含み得、いくつかの塩基は、1~6個の間の塩基である。終了配列は、配列断片を越えて伸長するいくつかの塩基を含み得、いくつかの塩基は、1~6個の間の塩基である。方法1400は、複数の配列断片内の末端モチーフの出現頻度を決定するステップをさらに含み得る。方法1400は、末端モチーフの末端塩基を決定するステップ、および末端モチーフの末端塩基の出現頻度を決定するステップをさらに含み得る。複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の配列断片のうちの配列断片のジャギド末端を決定するステップを含み得る。複数の配列断片のうちの配列断片のジャギド末端を決定するステップは、オーバーハングインデックスを決定するステップを含み得る。配列断片は、第1の部分を有する第1の鎖と第2の鎖とを有する二本鎖状であり得、オーバーハングインデックスを決定するステップは、第2の鎖にオーバーハングしている第1の鎖の長さに比例する第1の鎖または第2の鎖のメチル化ステータスを決定するステップ;およびメチル化ステータスに基づいて、オーバーハングインデックスを決定するステップであって、オーバーハングインデックスが、ある鎖が別の鎖にオーバーハングしている測度を提供する、ステップを含み得る。
複数の配列断片に関連するフラグメントミクスデータを決定するステップは、断片終点の遺伝子位置を決定するステップを含み得る。断片終点の遺伝子位置を決定するステップは、ウインドウ化保護スコア(WPS)を決定するステップを含み得る。WPSを決定するステップは、ウインドウにわたる配列断片の数を決定するステップ;およびウインドウ内で開始する任意の配列断片に基づいて、ウインドウにわたる配列断片の数を調整するステップを含み得る。
方法1400は、配列断片の起源を決定するステップ、および配列断片の起源を、配列断片に関連する配列データ、エピジェネティックデータおよびフラグメントミクスデータに割り当てるステップをさらに含み得る。起源は、腫瘍由来もしくは非腫瘍由来であり得るか、起源は、組織型であるか、または起源は、がん型である。
配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップは、メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも1つを決定するステップ;およびメチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも1つのどれが、単独で、または組合せで、配列断片の起源に関連する予測値を有するのかを決定するステップを含み得る。
配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第1の部分に基づいて、複数の特徴に従って予測モデルを訓練するステップは、機械学習手法に従って予測モデルを訓練するステップを含み得る。機械学習手法は、判別分析、決定木、最近傍(NN)アルゴリズム、ベイジアンネットワーク、クラスタリングアルゴリズム、ニューラルネットワーク、サポートベクターマシン(SVM)、ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、マルコフモデル、または主成分分析(PCA)のうちの少なくとも1つを含み得る。配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第2の部分に基づいて、予測モデルを試験するステップは、予測モデルを再訓練させるステップを含み得る。
方法1400は、対象について、複数のゲノム領域に関連する複数の配列断片を含む試験配列データを決定するステップであって、複数の配列断片が、対象からの試料からシークエンシングされる、ステップ;複数の配列断片に関連する試験エピジェネティックデータまたは試験フラグメントミクスデータの少なくとも一方を決定するステップ;予測モデルに、対象の試験配列データ、試験エピジェネティックデータ、および試験フラグメントミクスデータを提供するステップ;ならびに対象の試験配列データ、試験エピジェネティックデータ、および試験フラグメントミクスデータに基づいて、配列データ中の少なくとも1つの配列断片の起源を決定するステップをさらに含み得る。起源は、腫瘍由来または非腫瘍由来の一方であり得る。
方法1400は、腫瘍に由来する起源に基づいて、対象に1つまたは複数の療法を投与するステップをさらに含み得る。療法は、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含み得る。療法は、ALECENSA(登録商標)、ALUNBRIG(登録商標)、BRAFTOVI(登録商標)、ERBITUX(登録商標)、GAVRETO(商標)、GILOTRIF(登録商標)、HERCEPTIN(登録商標)、IRESSA(登録商標)、KADCYLA(登録商標)、KEYTRUDA(登録商標)、LORBRENA(登録商標)、LUMAKRAS(商標)、LYNPARZA(登録商標)、MEKINIST(登録商標)、OPDIVO(登録商標)、PERJETA(登録商標)、PIQRAY(登録商標)、RETEVMO(商標)、ROZLYTREK(商標)、RUBRACA(登録商標)、TABRECTA(商標)、TAFINLAR(登録商標)、TAGRISSO(登録商標)、TALZENNA(登録商標)、TARCEVA(登録商標)、TEPMETKO(商標)、TYKERB(登録商標)、VITRAKVI(登録商標)、VIZIMPRO(登録商標)、XALKORI(登録商標)、YBREVANT(商標)、YERVOY(登録商標)、またはZYKADIA(登録商標)のうちの少なくとも1つを投与することを含み得る。
図15に示されている、ある実施形態では、試料の起源を決定するための方法1500が、開示される。ある実施形態では、配列QC構成要素113、エピジェネティック構成要素214、フラグメントミクス構成要素215、コピー数構成要素216、バリアントコーラー217、示されていない追加の構成要素(例えば、コンピュータシステム224の構成要素)を単独でおよび/またはこれらを組み合わせて、配列データストア209および/または分析データストア218にアクセスして方法1500の全部および/または一部を行うように構成することができる。方法1500の全部または一部を、単一のコンピュータデバイス、複数のコンピュータデバイス、およびこれらに類するものによって行うことができる。方法1500は、1501において対象の試料についての配列データを決定するステップを含み得る。方法1500は、1502においてエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップを含み得る。方法1500は、配列データとエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方とを予測モデルに提供するステップを含み得る。方法1500は、予測モデルに基づいて、試料が腫瘍由来または非腫瘍由来であることを決定するステップを含み得る。方法1500は、予測モデルを生成するステップをさらに含み得る。予測モデルを生成するステップは、複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、配列データが、複数の配列リードを含み、複数の配列リードが、複数の試料からの複数の配列断片からシークエンシングされ、複数の試料のうちの各試料が、腫瘍由来または非腫瘍由来とラベルされる、ステップ;複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ;配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップ;配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第1の部分に基づいて、複数の特徴に従って予測モデルを訓練するステップ;配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第2の部分に基づいて、予測モデルを試験するステップ;ならびに試験するステップに基づいて、予測モデルを出力するステップを含み得る。
複数のゲノム領域は、DNMT3A、TP53、LRP1B、KRAS、MARCH11、TAC1、TCF21、SHOX2、p16、Casp8、CDH13、MGMT、MLH1、MSH2、TSLC1、APC、DKK1、DKK3、LKB1、WIF1、RUNX3、GATA4、GATA5、PAX5、E-カドヘリン、H-カドヘリン、VIM、SEPT9、CYCD2、TFPI2、GATA4、RARB2、p16INK4a、APC、NDRG4、HLTF、HPP1、hMLH1、RASSF1A、IGFBP3、ITGA4、PIK3CA、ERBB2(HER2)、BRCA1/2、NTRK1/2/3、MSI-High、ESR1、ATM、HRR、FGFR2/3、IDH1、KRAS、NRAS、BRAF、KIT、PDGFRA、EGFR、ALK、ROS1、MET、TMB、またはRETのうちの少なくとも1つを含み得る。
配列データを決定するステップは、複数の対象から複数の試料を得るステップを含み得、複数の試料は、複数の無細胞核酸を含む。複数のゲノム領域は、がん型に関連することが公知のゲノム領域、公知のメチル化ステータスに関連するゲノム領域、低メチル化に関連することが公知のゲノム領域、または治療応答に関連することが公知のゲノム領域のうちの少なくとも1つを含み得る。
エピジェネティックデータは、DNAメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、タンパク質結合、またはヌクレオチド塩基配列のみから突き止められない分析される核酸断片に反映される他の分子の状態、例えば、所与の塩基もしくはセット塩基のメチル化状態に関する情報の少なくとも1つを含み得る。複数の配列断片に関連するエピジェネティックデータを決定するステップは、複数の配列断片のメチル化状態を決定するステップを含み得る。複数の配列断片のメチル化状態を決定するステップは、メチル化状態ベクトルまたはメチル化CpG密度の少なくとも一方を決定するステップを含み得る。メチル化状態ベクトルを決定するステップは、複数の配列リードを参照配列にアラインするステップ;アラインするステップに基づいて、複数の配列リードのうちの配列リードにおける1つまたは複数のCpG部位のメチル化ステータス、および1つまたは複数のCpG部位の位置を決定するステップ;ならびに1つまたは複数のCpG部位のメチル化ステータス、および1つまたは複数のCpG部位の位置をベクトル化して、複数の配列リードのうちの配列リードのメチル化状態ベクトルを生成するステップを含み得る。メチル化CpG密度を決定するステップは、複数の配列リードを参照配列にアラインするステップ;アラインするステップに基づいて、複数の配列リードのうちの配列リードにおける1つまたは複数のCpG部位のメチル化ステータスを決定するステップ;配列リードにおける1つまたは複数のCpG部位のメチル化ステータスに基づいて、配列リードがメチル化されているまたはメチル化されていないことを決定するステップ;複数の配列リードについて、メチル化配列リードの計数値、および非メチル化配列リードの計数値を決定するステップ;ならびにメチル化配列リードの計数値および非メチル化配列リードの計数値に基づいて、メチル化CpG密度を決定するステップを含み得る。
フラグメントミクスデータは、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および/または断片の終点を示す任意の値に関する情報の少なくとも1つを含み得る。複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の断片のうちの配列断片のサイズを決定するステップ、または特定のサイズを有する複数の配列断片の量を決定するステップの少なくとも一方を含み得る。特定のサイズは、範囲であり得る。範囲は、50~80、50~100、50~150、100~150、100~200、150~200、150~230、200~300、または300~400塩基のうちの少なくとも1つであり得る。複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の配列断片の末端モチーフを決定するステップを含み得、末端モチーフは、配列断片の終了配列に関するものである。複数の配列断片の末端モチーフを決定するステップは、複数の配列断片からシークエンシングされた複数の配列リードを参照配列にアラインするステップ;およびアラインするステップに基づいて、複数の配列断片のうちの配列断片の各末端の末端モチーフを決定するステップを含み得る。終了配列は、いくつかの塩基を含み得る。いくつかの塩基は、1~6個の間の塩基であり得る。終了配列は、配列断片を越えて伸長するいくつかの塩基を含み、いくつかの塩基は、1~6個の間の塩基である。方法1500は、複数の配列断片内の末端モチーフの出現頻度を決定するステップをさらに含み得る。方法1500は、末端モチーフの末端塩基を決定するステップ、および末端モチーフの末端塩基の出現頻度を決定するステップをさらに含み得る。
複数の配列断片に関連するフラグメントミクスデータを決定するステップは、複数の配列断片のうちの配列断片のジャギド末端を決定するステップを含む。複数の配列断片のうちの配列断片のジャギド末端を決定するステップは、オーバーハングインデックスを決定するステップを含む。配列断片は、第1の部分を有する第1の鎖と第2の鎖とを有する二本鎖状であり得、オーバーハングインデックスを決定するステップは、第2の鎖にオーバーハングしている第1の鎖の長さに比例する第1の鎖または第2の鎖のメチル化ステータスを決定するステップ;およびメチル化ステータスに基づいて、オーバーハングインデックスを決定するステップであって、オーバーハングインデックスが、ある鎖が別の鎖にオーバーハングしている測度を提供する、ステップを含み得る。
複数の配列断片に関連するフラグメントミクスデータを決定するステップは、断片終点の遺伝子位置を決定するステップを含み得る。断片終点の遺伝子位置を決定するステップは、ウインドウ化保護スコア(WPS)を決定するステップを含み得る。WPSを決定するステップは、ウインドウにわたる配列断片の数を決定するステップ;およびウインドウ内で開始する任意の配列断片に基づいて、ウインドウにわたる配列断片の数を調整するステップを含み得る。
方法1500は、配列断片の起源を決定するステップ、および配列断片の起源を、配列断片に関連する配列データ、エピジェネティックデータおよびフラグメントミクスデータに割り当てるステップをさらに含み得る。起源は、腫瘍由来もしくは非腫瘍由来であり得るか、起源は、組織型であるか、または起源は、がん型である。
配列データの少なくとも一部分、およびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップは、メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも1つを決定するステップ;およびメチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、断片の終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも1つのどれが、単独で、または組合せで、配列断片の起源に関連する予測値を有するのかを決定するステップを含む。
配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第1の部分に基づいて、複数の特徴に従って予測モデルを訓練するステップは、機械学習手法に従って予測モデルを訓練するステップを含み得る。機械学習手法は、判別分析、決定木、最近傍(NN)アルゴリズム、ベイジアンネットワーク、クラスタリングアルゴリズム、ニューラルネットワーク、サポートベクターマシン(SVM)、ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、マルコフモデル、または主成分分析(PCA)のうちの少なくとも1つを含み得る。配列データおよびエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第2の部分に基づいて、予測モデルを試験するステップは、予測モデルを再訓練させるステップを含み得る。
方法1500は、腫瘍由来である試料に基づいて、腫瘍由来である起源に基づいて、対象に1つまたは複数の療法を投与するステップをさらに含み得る。療法は、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含み得る。療法は、ALECENSA(登録商標)、ALUNBRIG(登録商標)、BRAFTOVI(登録商標)、ERBITUX(登録商標)、GAVRETO(商標)、GILOTRIF(登録商標)、HERCEPTIN(登録商標)、IRESSA(登録商標)、KADCYLA(登録商標)、KEYTRUDA(登録商標)、LORBRENA(登録商標)、LUMAKRAS(商標)、LYNPARZA(登録商標)、MEKINIST(登録商標)、OPDIVO(登録商標)、PERJETA(登録商標)、PIQRAY(登録商標)、RETEVMO(商標)、ROZLYTREK(商標)、RUBRACA(登録商標)、TABRECTA(商標)、TAFINLAR(登録商標)、TAGRISSO(登録商標)、TALZENNA(登録商標)、TARCEVA(登録商標)、TEPMETKO(商標)、TYKERB(登録商標)、VITRAKVI(登録商標)、VIZIMPRO(登録商標)、XALKORI(登録商標)、YBREVANT(商標)、YERVOY(登録商標)、またはZYKADIA(登録商標)のうちの少なくとも1つを投与することを含み得る。
III.がんおよび他の疾患
本方法は、対象の状態、特にがんの存在または非存在を診断して、状態を特徴付ける(例えば、がんをステージ分類すること、またはがんの不均一性を決定すること)ために、状態のための処置を選択するために、状態の処置に対する応答をモニターするために、状態を発症するリスクまたは状態のその後の経過の予後判定を行うために、使用され得る。
様々ながんが、本発明の方法を使用して検出され得る。がん細胞は、ほとんどの細胞と同様、古い細胞が死に、新しい細胞によって置き換えられる、ターンオーバーの速度によって特徴付けられ得る。一般に、所与の対象において脈管構造と接触している死細胞は、DNAまたはDNAの断片を血流中に放出し得る。これは、様々な疾患ステージのがん細胞にも当てはまる。がん細胞は、疾患のステージに依存して、様々な遺伝子異常、例えば、コピー数多様性および稀な変異によっても特徴付けられ得る。この現象は、本明細書に記載される方法およびシステムを使用して個体におけるがんの存在または非存在を検出するために使用され得る。
ある特定の実施形態では、本明細書で開示される方法および態様は、患者における所与の疾患、障害または状態を診断するために使用される。典型的に、考慮されている疾患は、ある型のがんである。そのようながんの非限定的な例としては、胆道がん、膀胱がん、移行上皮癌、尿路上皮癌、脳がん、神経膠腫、星細胞腫、乳癌、化生性癌、子宮頸部がん、子宮頸部扁平上皮癌、直腸がん、大腸癌、結腸がん、遺伝性非ポリポーシス大腸がん、結腸直腸腺癌、消化管間質腫瘍(GIST)、子宮内膜癌、子宮内膜間質肉腫、食道がん、食道扁平上皮癌、食道腺癌、眼黒色腫、ブドウ膜黒色腫、胆嚢癌、胆嚢腺癌、腎細胞癌、淡明細胞型腎細胞癌、移行上皮癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ球性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ球性(CLL)、慢性骨髄性(CML)、慢性骨髄単球性(CMML)、肝臓がん、肝臓癌、ヘパトーマ、肝細胞癌、胆管細胞癌、肝芽腫、肺がん、非小細胞肺がん(NSCLC)、中皮腫、B細胞リンパ腫、非ホジキンリンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、T細胞リンパ腫、非ホジキンリンパ腫、前駆Tリンパ芽球性リンパ腫/白血病、末梢性T細胞リンパ腫、多発性骨髄腫、鼻咽頭癌(NPC)、神経芽腫、中咽頭がん、口腔扁平上皮癌、骨肉腫、卵巣癌、膵がん、膵管腺癌、偽乳頭状新生物、腺房細胞癌、前立腺がん、前立腺腺癌、皮膚がん、黒色腫、悪性黒色腫、皮膚黒色腫、小腸癌、胃がん、胃癌、消化管間質腫瘍(GIST)、子宮がん、または子宮肉腫が挙げられる。
本明細書で開示される方法およびシステムを使用して評価され得る他の遺伝子ベースの疾患、障害、または状態の非限定的な例としては、DNA損傷修復欠損、軟骨無形成症、アルファ-1アンチトリプシン欠損症、抗リン脂質抗体症候群、自閉症、常染色体優性多発性嚢胞腎、シャルコー-マリー-トゥース(CMT)、ネコ鳴き、クローン病、嚢胞性線維症、ダーカム病、ダウン症候群、デュアン症候群、デュシェンヌ型筋ジストロフィー、第V因子ライデン血栓性素因、家族性高コレステロール血症、家族性地中海熱、脆弱X症候群、ゴーシェ病、ヘモクロマトーシス、血友病、全前脳胞症、ハンチントン病、クラインフェルター症候群、マルファン症候群、筋強直性ジストロフィー、神経線維腫症、ヌーナン症候群、骨形成不全症、パーキンソン病、フェニルケトン尿症、ポーランド症候群、ポルフィリン症、早老症、網膜色素変性症、重症複合免疫不全症(scid)、鎌状赤血球症、脊髄性筋萎縮症、テイ-サックス、サラセミア、トリメチルアミン尿症、ターナー症候群、口蓋心臓顔面症候群、WAGR症候群、ウィルソン病、またはこれらに類するものが挙げられる。
がんは、変異、稀な変異、インデル、コピー数多様性、トランスバージョン、転座、逆位、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変更、遺伝子融合、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、DNA病変、核酸の化学的改変における異常な変化、エピジェネティックパターンにおける異常な変化が含まれる遺伝的多様性から検出され得る。
配列データ、エピジェネティックデータ、および/またはフラグメントミクスデータは、がんの特定の形態を特徴付けるためにも使用され得る。がんは、多くの場合、組成の点でもステージ分類の点でも不均一である。遺伝子プロファイルデータは、その特定のサブタイプの診断または処置において重要であり得るがんの特定のサブタイプの特徴付けを可能にし得る。この情報はまた、対象または実務者に、特定の型のがんの予後に関する手がかりを提供し得、対象または実務者のいずれかが疾患の進行に合わせて処置選択を適応させることを可能にし得る。一部のがんは、進行すると、より高悪性度になり、遺伝的に不安定になる。他のがんは、良性、不活性または休止状態のままであり得る。本開示のシステムおよび方法は、疾患進行を決定する際に有用であり得る。
さらに、本開示の方法は、対象における異常な状態の不均一性を特徴付けるために使用され得、この方法は、対象における細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップを含み、この遺伝子プロファイルは、コピー数多様性および稀な変異の分析から得られた複数のデータを含む。がんを含むがこれに限定されるものではない一部の症例では、疾患は、不均一であり得る。疾患細胞は、同一でないことがある。がんの例では、一部の腫瘍は、異なる型の腫瘍細胞を含むことが公知であり、一部の細胞は、がんの異なるステージにあることが公知である。他の例では、不均一性は、疾患の複数の病巣を含み得る。重ねて、がんの例では、複数の腫瘍病巣が存在し得、おそらくは、この場合、1つまたは複数の病巣は、原発部位から広がった転移の結果である。
IV.例示的な精密処置
改善されたコンピュータシステム210および/または224により提供される精密診断法は、精密処置計画を生じ得、これは、コンピュータシステム210および/または224により同定され得る(および/または医療専門家によってキュレートされ得る)。例えば、精密診断および処置の1つの型は、特定のがん型に影響を及ぼすことが公知の経路における遺伝子に関連し得る。
試料中のバリアントヌクレオチドの数および型は、処置、すなわち治療介入に対する、試料を提供する対象の適性の指標を提供し得る。例えば、様々なポリADPリボースポリメラーゼ(PARP)阻害剤は、BRCA1またはBRCA2遺伝子の遺伝性変異によって引き起こされる乳がん、卵巣がんおよび前立腺がんからの腫瘍の成長を停止させることが示されている。
本発明の分析は、特定の処置選択の有効性を決定する際にも有用である。処置が成功した場合、より多くのがんが死に、DNAを排出し得るので、処置選択の成功は、対象の血液において検出されるコピー数多様性または稀な変異の量を増加させ得る。他の例では、これが起こらないことがある。別の例では、おそらく、ある特定の処置選択は、がんの遺伝子プロファイルと経時的に相関し得る。この相関は、療法を選択する際に有用であり得る。さらに、がんが処置後に寛解状態にあることが観察された場合、本発明の方法を使用して、残存疾患または疾患の再発をモニタリングすることができる。
一部の実施形態では、本明細書で開示される方法は、所与の疾患、障害または状態を有する患者を同定すること、およびその患者に療法を投与することに関する。本質的に、あらゆるがん療法(例えば、外科的療法、放射線療法、化学療法、および/またはこれらに類するもの)が、これらの方法の一部として含まれる。典型的に、療法は、少なくとも1つの免疫療法(または免疫療法剤)を含む。免疫療法は、一般に、所与のがん型に対する免疫応答を増強する方法を指す。ある実施形態では、免疫療法は、腫瘍またはがんに対するT細胞応答を増強する方法を指す。
一部の実施形態では、免疫療法または免疫療法剤は、免疫チェックポイント分子を標的とする。ある特定の腫瘍は、免疫チェックポイント経路を選出することにより免疫系から逃れることができる。それ故、免疫系から逃れる腫瘍の能力に対抗するための、およびある特定のがんに対する抗腫瘍免疫を活性化するための有効な手法として、免疫チェックポイントの標的化が浮上している。Pardoll, Nature Reviews Cancer, 2012, 12:252-264。
ある特定の実施形態では、免疫チェックポイント分子は、抗原に対するT細胞応答に関与するシグナルを低減させる阻害分子である。例えば、CTLA4は、T細胞上に発現され、抗原提示細胞上のCD80(別名B7.1)またはCD86(別名B7.2)に結合することによりT細胞活性化の下方調節に関与する。PD-1は、T細胞上に発現されるもう1つの阻害性チェックポイント分子である。PD-1は、炎症反応中の末梢組織におけるT細胞の活性を制限する。加えて、PD-1のリガンド(PD-L1またはPD-L2)は、一般的に、多くの異なる腫瘍の表面で上方調節され、その結果として腫瘍微小環境において抗腫瘍免疫応答の下方調節が生じることになる。ある特定の実施形態では、阻害性免疫チェックポイント分子は、CTLA4またはPD-1である。他の実施形態では、阻害性免疫チェックポイント分子は、PD-1のリガンド、例えば、PD-L1またはPD-L2である。他の実施形態では、阻害性免疫チェックポイント分子は、CTLA4のリガンド、例えば、CD80またはCD86である。他の実施形態では、阻害性免疫チェックポイント分子は、リンパ球活性化遺伝子3(LAG3)、キラー細胞免疫グロブリン様受容体(KIR)、T細胞膜タンパク質3(TIM3)、ガレクチン9(GAL9)、またはアデノシンA2a受容体(A2aR)である。
これらの免疫チェックポイント分子を標的とするアンタゴニストを使用して、ある特定のがんに対する抗原特異的T細胞応答を増強することができる。したがって、ある特定の実施形態では、免疫療法または免疫療法剤は、阻害性免疫チェックポイント分子のアンタゴニストである。ある特定の実施形態では、阻害性免疫チェックポイント分子は、PD-1である。ある特定の実施形態では、阻害性免疫チェックポイント分子は、PD-L1である。ある特定の実施形態では、阻害性免疫チェックポイント分子のアンタゴニストは、抗体(例えば、モノクローナル抗体)である。ある特定の実施形態では、抗体またはモノクローナル抗体は、抗CTLA4、抗PD-1、抗PD-L1、または抗PD-L2抗体である。ある特定の実施形態では、抗体は、モノクローナル抗PD-1抗体である。ある特定の実施形態では、抗体は、モノクローナル抗PD-L1抗体である。ある特定の実施形態では、モノクローナル抗体は、抗CTLA4抗体と抗PD-1抗体の組合せ、抗CTLA4抗体と抗PD-L1抗体の組合せ、または抗PD-L1抗体と抗PD-1抗体の組合せである。ある特定の実施形態では、抗PD-1抗体は、ペムブロリズマブ(Keytruda(登録商標))またはニボルマブ(Opdivo(登録商標))のうちの1つまたは複数である。ある特定の実施形態では、抗CTLA4抗体は、イピリムマブ(Yervoy(登録商標))である。ある特定の実施形態では、抗PD-L1抗体は、アテゾリズマブ(Tecentriq(登録商標))、アベルマブ(Bavencio(登録商標))、またはデュルバルマブ(Imfinzi(登録商標))のうちの1つまたは複数である。
ある特定の実施形態では、免疫療法または免疫療法剤は、CD80、CD86、LAG3、KIR、TIM3、GAL9またはA2aRに対するアンタゴニスト(例えば、抗体)である。他の実施形態では、アンタゴニストは、阻害性免疫チェックポイント分子の細胞外ドメインと抗体のFcドメインとを含む可溶性融合タンパク質などの、阻害性免疫チェックポイント分子の可溶性バージョンである。ある特定の実施形態では、可溶性融合タンパク質は、CTLA4、PD-1、PD-L1またはPD-L2の細胞外ドメインを含む。ある特定の実施形態では、可溶性融合タンパク質は、CD80、CD86、LAG3、KIR、TIM3、GAL9またはA2aRの細胞外ドメインを含む。一実施形態では、可溶性融合タンパク質は、PD-L2またはLAG3の細胞外ドメインを含む。
ある特定の実施形態では、免疫チェックポイント分子は、抗原に対するT細胞応答に関与するシグナルを増幅する共刺激分子である。例えば、CD28は、T細胞上に発現される共刺激受容体である。T細胞がそのT細胞受容体を介して抗原に結合すると、CD28は、抗原提示細胞上のCD80(別名B7.1)またはCD86(別名B7.2)に結合して、T細胞受容体シグナル伝達を増幅し、T細胞活性化を促進する。CD28は、CTLA4と同じリガンド(CD80およびCD86)に結合するため、CTLA4は、CD28により媒介される共刺激シグナル伝達を弱めることまたは調節することができる。ある特定の実施形態では、免疫チェックポイント分子は、CD28、誘導性T細胞共刺激因子(ICOS)、CD137、OX40またはCD27から選択される共刺激分子である。他の実施形態では、免疫チェックポイント分子は、例えば、CD80、CD86、B7RP1、B7-H3、B7-H4、CD137L、OX40LまたはCD70をはじめとする、共刺激分子のリガンドである。
これらの共刺激チェックポイント分子を標的とするアゴニストを使用して、ある特定のがんに対する抗原特異的T細胞応答を増強することができる。したがって、ある特定の実施形態では、免疫療法または免疫療法剤は、共刺激チェックポイント分子のアゴニストである。ある特定の実施形態では、共刺激チェックポイント分子のアゴニストは、アゴニスト抗体であり、好ましくはモノクローナル抗体である。ある特定の実施形態では、アゴニスト抗体またはモノクローナル抗体は、抗CD28抗体である。他の実施形態では、アゴニスト抗体またはモノクローナル抗体は、抗ICOS、抗CD137、抗OX40または抗CD27抗体である。他の実施形態では、アゴニスト抗体またはモノクローナル抗体は、抗CD80、抗CD86、抗B7RP1、抗B7-H3、抗B7-H4、抗CD137L、抗OX40Lまたは抗CD70抗体である。
がん以外の特定の遺伝子ベースの疾患、障害または状態を処置するための処置選択肢は、一般に当業者に周知であり、考慮している特定の疾患、障害または状態を考えればすぐに分かるであろう。
ある特定の実施形態では、本明細書に記載されるカスタマイズされた療法は、通常は非経口(例えば、静脈内または皮下)投与される。免疫療法剤を含有する医薬組成物は、典型的には静脈内投与される。ある特定の治療剤は、経口投与される。しかし、カスタマイズされた療法(例えば、免疫療法剤など)を、例えば、頬側、舌下、直腸、膣、尿道内、局所、眼内、鼻腔内および/または耳介内のものを含む、当技術分野において公知の任意の方法により投与することもでき、これらの投与は、錠剤、カプセル、顆粒、水性懸濁液、ゲル、スプレー剤、座剤、固めの軟膏、柔らかい軟膏、またはこれらに類するものを含み得る。
V.システムおよびコンピュータ可読媒体
図面に示される種々の処理操作および/または方法は、本明細書に詳細に記載されるシステム構成要素の一部または全てを使用して達成され得、一部のインプリメンテーションでは、種々の操作は異なるシーケンスで行われ得、種々の操作は割愛され得る。さらなる操作が、示されたフローダイヤグラム中に示される操作の一部または全てと共に行われ得る。1つまたは複数の操作は、同時に行われ得る。したがって、例示される(本明細書にさらに詳細に記載される)操作は、例として提供されており、したがって、限定とみなすべきではない。
湿式化学ステップ以外の、本明細書および添付の特許請求の範囲に記載された任意のまたは全ての操作が、適切なプログラミングされたコンピュータで行われ得るように、本発明の方法は、コンピュータで実施され得る。コンピュータは、メインフレーム、パーソナルコンピュータ、タブレット、スマートフォン、クラウド、オンラインデータストレージ、リモートデータストレージなどであり得る。コンピュータは、1つまたは複数の場所で操作され得る。
本発明の方法の種々の操作は、コンピュータ可読媒体(例えば、ハードドライブ、補助メモリ、外部メモリ、サーバー;データベース、ポータブルメモリデバイス(例えば、CD-R、DVD、ZIPディスク、フラッシュメモリカード)など上に記憶された情報および/またはプログラムを利用でき、および/または結果を生成することができる。
本開示は、実行された場合に本発明の方法のステップを実施する1つまたは複数のプログラムを含有する機械可読媒体を含む、核酸集団を分析するための製造品もまた含む。
本開示は、ハードウェアおよび/またはソフトウェアにおいて実施され得る。例えば、本開示の異なる態様は、クライアント側の論理回路またはサーバー側の論理回路のいずれかにおいて実施され得る。本開示またはその構成要素は、適切に構成されたコンピュータデバイス中にロードされた場合に、そのデバイスに本開示に従って遂行させる論理命令および/またはデータを含有する固定媒体プログラム構成要素で具体化され得る。論理命令を含有する固定媒体は、視聴者のコンピュータ中に物理的にロードするための固定媒体上で視聴者に届けられ得、または論理命令を含有する固定媒体は、プログラム構成要素をダウンロードするために通信媒体を介して視聴者がアクセスするリモートサーバー上に存在し得る。
本開示は、本開示の方法を実施するようにプログラミングされるコンピュータ制御システムを提供する。図2に戻って、プロセッサー220は、シングルコアもしくはマルチコアプロセッサー、または並列処理のための複数のプロセッサーを含み得る。ストレージデバイス222は、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ、ハードディスク、および/または他のタイプのストレージをみ得る。コンピュータシステム210は、1つまたは複数の他のシステムおよび周辺デバイス、例えば、キャッシュ、他のメモリ、データストレージおよび/または電子ディスプレイアダプターと通信するための通信インターフェース(例えば、ネットワークアダプター)を含み得る。コンピュータシステム210の構成要素は、内部通信バス、例えばマザーボードを介して互いに通信することができる。ストレージデバイス222は、データを記憶するためのデータストレージユニット(またはデータリポジトリ)であり得る。コンピュータシステム210を、通信インターフェースを活用してネットワーク223(「ネットワーク」)に動作可能に連結させることができる。ネットワーク223は、Internet、インターネットおよび/もしくはエクストラネット、またはInternetと通信しているイントラネットおよび/もしくはエクストラネットであり得る。ネットワーク223は、一部の場合には、電気通信および/またはデータネットワークである。ネットワーク223は、ローカルエリアネットワークを含み得る。ネットワーク23は、分散コンピューティング、例えばクラウドコンピューティングを可能にし得る1つまたは複数のコンピュータサーバーを含み得る。ネットワーク223は、一部の場合にはコンピュータシステム210を活用して、ピアツーピアネットワークを実施することができ、これにより、コンピュータシステム220に連結されているデバイスは、クライアントまたはサーバーとして動作することが可能になり得る。コンピュータシステム210は、ネットワーク223を使用してデータをコンピュータシステム224とやりとりすることができる。例えば、コンピュータシステム224は、分析データストア218からデータを取り込むことができる。
プロセッサー220は、プログラムまたはソフトウェアで具体化され得る機械可読命令のシーケンスを実行し得る。命令は、メモリ場所、例えば、ストレージデバイス222中に記憶され得る。命令をプロセッサー220に向けることができ、それによって、その後、プロセッサー220は、本開示の方法を実施するようにプログラムまたは別様に構成され得る。プロセッサー220により行われる動作の例としては、フェッチ、デコード、実行、およびライトバックを挙げることができる。
プロセッサー220は、回路、例えば集積回路の一部であり得る。システム200の1つまたは複数の他の構成要素を回路に含めることができる。一部の場合には、回路は、特定用途向け集積回路(ASIC)を含み得る。
ストレージデバイス222は、ファイル、例えば、ドライバー、ライブラリーおよび保存されたプログラムを記憶することができる。ストレージデバイス222は、ユーザーデータ、例えば、ユーザー選好およびユーザープログラムを記憶することができる。コンピュータシステム210は、一部の場合には、イントラネットまたはInternetを介してコンピュータシステム210と通信しているリモートサーバー上に位置するものなどの、コンピュータシステム210の外部にある1つまたは複数の追加のデータストレージユニットを含み得る。
コンピュータシステム210は、ネットワークを介して1つまたは複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム210は、ユーザーのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ(例えば、ポータブルPC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、アンドロイド(登録商標)対応デバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザーは、ネットワーク経由でコンピュータシステム110にアクセスすることができる。
本明細書に記載の方法を、例えばストレージデバイス222上などの、コンピュータシステム210の電子ストレージ場所上に記憶された機械(例えば、コンピュータプロセッサー)実行可能コードによって実施することができる。機械実行可能または機械可読コードをソフトウェア(例えば、コンピュータ可読媒体)の形態で提供することができる。使用中に、コードは、プロセッサー220により実行され得る。一部の場合には、コードをストレージデバイス222から読み出すことができ、プロセッサー220がすぐにアクセスできるようにストレージデバイス222上に記憶させることができる。
コードは、コードを実行するように適合されたプロセッサーを有する機械との使用のために、プリコンパイルおよび構成され得、またはランタイムの間にコンパイルされ得る。コードは、プリコンパイルまたはアズコンパイルされた(as-compiled)様式でのコードの実行を可能にするために選択され得るプログラミング言語で供給され得る。
本明細書で提供されるシステムおよび方法の態様、例えば、コンピュータシステム210は、プログラミングで具体化され得る。技術の種々の態様は、典型的には、ある型の機械可読媒体上で運搬されるまたはある型の機械可読媒体で具体化される機械(またはプロセッサー)実行可能コードおよび/または関連データの形態の、「製品」または「製造品」と考えられ得る。機械実行可能コードは、電子ストレージユニット、例えば、メモリ(例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスク上に記憶され得る。
「ストレージ」型媒体は、ソフトウェアプログラミングのための非一時的なストレージをいつでも提供し得る、任意のまたは全ての、コンピュータの有形メモリ、プロセッサーなど、またはその関連のモジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどを含み得る。ソフトウェアの全てまたは部分は、インターネットまたは種々の他の遠隔通信ネットワークを介して、折に触れ通信され得る。かかる通信は、例えば、1つのコンピュータまたはプロセッサーから別のコンピュータまたはプロセッサーへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへの、ソフトウェアのローディングを可能にし得る。したがって、ソフトウェアエレメントを保有し得る別の型の媒体には、ローカルデバイス間の物理的インターフェースを横断して、有線のおよび光学的固定電話回線ネットワークを介して、および種々のエアリンク(air-link)を通じて使用されるものなどの、光波、電波および電磁波が含まれる。かかる波を搬送する物理的エレメント、例えば、有線または無線リンク、光学リンクなどもまた、ソフトウェアを保有する媒体とみなされ得る。本明細書で使用される場合、非一時的な有形ストレージ媒体に限定されない限り、「媒体」は、他の型の(無形)媒体を含み得る。
「ストレージ」媒体、コンピュータまたは機械「可読媒体」などの用語は、実行のために命令をプロセッサーに提供することに関与する任意の有形の(例えば、物理的な)非一時的な媒体を指す。
したがって、機械可読媒体、例えば、コンピュータ実行可能コードは、有形ストレージ媒体、搬送波媒体または物理的伝送媒体が含まれるがこれらに限定されない多くの形態を取り得る。非揮発性ストレージ媒体には、例えば、光学または磁気ディスク、例えば、図面中に示されるデータベースなどを実施するために使用され得るものなどの、任意のコンピュータ中のストレージデバイスのいずれかなどが含まれる。揮発性ストレージ媒体には、ダイナミックメモリ、例えば、かかるコンピュータプラットフォームのメインメモリが含まれる。有形伝送媒体には、同軸ケーブル;コンピュータシステム内のバスを含むワイヤを含む銅ワイヤおよび光ファイバーが含まれる。搬送波伝送媒体は、無線周波数(RF)および赤外線(IR)データ通信の間に生成されるものなどの、電気的もしくは電磁気信号、または音波もしくは光波の形態を取り得る。したがって、コンピュータ可読媒体の一般的な形態には、例えば、以下が含まれる:フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的ストレージ媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を輸送する搬送波、かかる搬送波を輸送するケーブルもしくはリンク、またはコンピュータがそこからプログラミングコードおよび/もしくはデータを読み取り得る任意の他の媒体。これらの形態のコンピュータ可読媒体の多くは、1つまたは複数の命令の1つまたは複数のシーケンスを実行のためにプロセッサーに搬送することに関与し得る。
コンピュータシステム210は、例えばレポートを提供するためのユーザーインターフェース(UI)を含む電子ディスプレイ935を含むことがあり、またはそれと通信していることがある。UIの例としては、これらに限定されないが、グラフィカルユーザーインターフェース(GUI)およびウェブベースのユーザーインターフェースが挙げられる。
本開示の方法およびシステムは、1つまたは複数のアルゴリズムによって実施され得る。アルゴリズムは、プロセッサー220による実行時にソフトウェアによって実施され得る。
上または下で引用された全ての特許出願、ウェブサイト、他の刊行物、受託番号などは、各個々の項目がそのように参照により組み込まれると具体的かつ個々に示されるのと同程度まで、全ての目的のためにそれらの全体が参照により組み込まれる。異なる時点において異なるバージョンの配列が受託番号に関連付けられている場合、本出願の有効出願日の時点でその受託番号に関連付けられたバージョンを意味する。有効出願日とは、該当する場合、実際の出願日またはその受託番号に言及する優先出願の出願日のいずれか早い方を意味する。同様に、異なる時点において異なるバージョンの刊行物、ウェブサイトなどが公開されている場合、他が示されない限り、本出願の有効出願日の時点で一番最近公開されたバージョンを意味する。本開示の任意の特色、ステップ、要素、実施形態、または態様は、具体的に他が示されない限り、任意の他の特色、ステップ、要素、実施形態、または態様と組み合わせて使用され得る。本開示は、明確さおよび理解を目的として、例示および例を目的としていくらか詳細に記載されてきたが、ある特定の変化および改変が添付の特許請求の範囲内で実施され得ることは明らかである。

Claims (116)

  1. 複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、前記配列データが、複数の配列リードを含み、前記複数の配列リードが、複数の試料からの前記複数の配列断片からシークエンシングされ、前記複数の試料のうちの各試料が、腫瘍由来または非腫瘍由来とラベルされる、ステップ;
    前記複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ;
    前記配列データの少なくとも一部分、および前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、予測モデルのための複数の特徴を決定するステップ;
    前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第1の部分に基づいて、前記複数の特徴に従って前記予測モデルを訓練するステップ;
    前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第2の部分に基づいて、前記予測モデルを試験するステップ;ならびに
    前記試験するステップに基づいて、前記予測モデルを出力するステップ
    を含む方法。
  2. 前記複数のゲノム領域が、DNMT3A、TP53、LRP1B、KRAS、MARCH11、TAC1、TCF21、SHOX2、p16、Casp8、CDH13、MGMT、MLH1、MSH2、TSLC1、APC、DKK1、DKK3、LKB1、WIF1、RUNX3、GATA4、GATA5、PAX5、E-カドヘリン、H-カドヘリン、VIM、SEPT9、CYCD2、TFPI2、GATA4、RARB2、p16INK4a、APC、NDRG4、HLTF、HPP1、hMLH1、RASSF1A、IGFBP3、ITGA4、PIK3CA、ERBB2(HER2)、BRCA1/2、NTRK1/2/3、MSI-High、ESR1、ATM、HRR、FGFR2/3、IDH1、KRAS、NRAS、BRAF、KIT、PDGFRA、EGFR、ALK、ROS1、MET、TMB、またはRETのうちの少なくとも1つを含む、請求項1に記載の方法。
  3. 配列データを決定するステップが、複数の対象から複数の試料を得ることを含み、前記複数の試料が、複数の無細胞核酸を含む、請求項1に記載の方法。
  4. 前記複数のゲノム領域が、がん型に関連することが公知のゲノム領域、公知のメチル化ステータスに関連するゲノム領域、低メチル化に関連することが公知のゲノム領域、または治療応答に関連することが公知のゲノム領域のうちの少なくとも1つを含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記エピジェネティックデータが、DNAメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、またはタンパク質結合に関する情報のうちの少なくとも1つを含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記複数の配列断片に関連する前記エピジェネティックデータを決定するステップが、前記複数の配列断片のメチル化状態を決定することを含む、請求項1から5のいずれか一項に記載の方法。
  7. 前記複数の配列断片の前記メチル化状態を決定するステップが、メチル化状態ベクトルまたはメチル化CpG密度の少なくとも一方を決定することを含む、請求項5に記載の方法。
  8. 前記メチル化状態ベクトルを決定するステップが、
    前記複数の配列リードを参照配列にアラインすること;
    前記アラインするステップに基づいて、前記複数の配列リードのうちの配列リードにおける1つまたは複数のCpG部位のメチル化ステータス、および前記1つまたは複数のCpG部位の位置を決定すること;ならびに
    前記1つまたは複数のCpG部位の前記メチル化ステータス、および前記1つまたは複数のCpG部位の前記位置をベクトル化して、前記複数の配列リードのうちの前記配列リードの前記メチル化状態ベクトルを生成すること
    を含む、請求項7に記載の方法。
  9. 前記メチル化CpG密度を決定するステップが、
    前記複数の配列リードを参照配列にアラインすること;
    前記アラインするステップに基づいて、前記複数の配列リードのうちの配列リードにおける1つまたは複数のCpG部位のメチル化ステータスを決定すること;
    前記配列リードにおける前記1つまたは複数のCpG部位の前記メチル化ステータスに基づいて、前記配列リードがメチル化されているまたはメチル化されていないことを決定すること;
    前記複数の配列リードについて、メチル化配列リードの計数値、および非メチル化配列リードの計数値を決定すること;ならびに
    メチル化配列リードの前記計数値および非メチル化配列リードの前記計数値に基づいて、前記メチル化CpG密度を決定すること
    を含む、請求項7に記載の方法。
  10. 前記フラグメントミクスデータが、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および/または前記断片の前記終点を示す任意の値に関する情報のうちの少なくとも1つを含む、請求項1から9のいずれか一項に記載の方法。
  11. 前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の断片の配列断片のサイズを決定すること、または特定のサイズを有する前記複数の配列断片の量を決定することのうちの少なくとも一方を含む、請求項1から10のいずれか一項に記載の方法。
  12. 前記特定のサイズが、範囲である、請求項11に記載の方法。
  13. 前記範囲が、50~80、50~100、50~150、100~150、100~200、150~200、150~230、200~300、または300~400塩基のうちの少なくとも1つである、請求項12に記載の方法。
  14. 前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の配列断片の末端モチーフを決定することを含み、前記末端モチーフが、配列断片の終了配列に関するものである、請求項1から13のいずれか一項に記載の方法。
  15. 前記複数の配列断片の前記末端モチーフを決定するステップが、
    前記複数の配列断片からシークエンシングされた前記複数の配列リードを参照配列にアラインすること;および
    前記アラインするステップに基づいて、前記複数の配列断片のうちの配列断片の各末端の末端モチーフを決定すること
    を含む、請求項14に記載の方法。
  16. 前記終了配列が、いくつかの塩基を含み、前記いくつかの塩基が、1~6個の間の塩基である、請求項14に記載の方法。
  17. 前記終了配列が、前記配列断片を越えて伸長するいくつかの塩基を含み、前記いくつかの塩基が、1~6個の間の塩基である、請求項14に記載の方法。
  18. 前記複数の配列断片内の前記末端モチーフの出現頻度を決定するステップをさらに含む、請求項15から17のいずれか一項に記載の方法。
  19. 前記末端モチーフの末端塩基を決定するステップ、および前記末端モチーフの前記末端塩基の出現頻度を決定するステップをさらに含む、請求項15から18のいずれか一項に記載の方法。
  20. 前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の配列断片のうちの配列断片のジャギド末端を決定することを含む、請求項1から19のいずれか一項に記載の方法。
  21. 前記複数の配列断片のうちの前記配列断片の前記ジャギド末端を決定するステップが、オーバーハングインデックスを決定することを含む、請求項20に記載の方法。
  22. 前記配列断片が、第1の部分を有する第1の鎖と第2の鎖とを有する二本鎖状であり、前記オーバーハングインデックスを決定することが、
    前記第2の鎖にオーバーハングしている前記第1の鎖の長さに比例する前記第1の鎖または前記第2の鎖のメチル化ステータスを決定すること;および
    前記メチル化ステータスに基づいて、前記オーバーハングインデックスを決定するステップであって、前記オーバーハングインデックスが、ある鎖が別の鎖にオーバーハングしている測度を提供する、こと
    を含む、請求項21に記載の方法。
  23. 前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、断片終点の遺伝子位置を決定することを含む、請求項1から22のいずれか一項に記載の方法。
  24. 断片終点の前記遺伝子位置を決定するステップが、ウインドウ化保護スコア(WPS)を決定することを含む、請求項23に記載の方法。
  25. 前記WPSを決定するステップが、
    ウインドウにわたる配列断片の数を決定すること;および
    前記ウインドウ内で開始する任意の配列断片に基づいて、前記ウインドウにわたる配列断片の前記数を調整すること
    を含む、請求項24に記載の方法。
  26. 配列断片の起源を決定するステップ、ならびに前記配列断片の前記起源を、前記配列断片に関連する前記配列データ、前記エピジェネティックデータおよび前記フラグメントミクスデータに割り当てるステップをさらに含む、請求項1から25のいずれか一項に記載の方法。
  27. 前記起源が腫瘍由来もしくは非腫瘍由来であるか、前記起源が組織型であるか、または前記起源ががん型であるかの少なくとも1つである、請求項26に記載の方法。
  28. 前記配列データの前記少なくとも一部分、および前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記少なくとも一部分に基づいて、前記予測モデルのための前記複数の特徴を決定するステップが、
    メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、前記断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、前記断片の前記終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも1つを決定すること;および
    メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、前記断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、前記断片の前記終点を示す任意の値、またはウインドウ化保護スコアのうちの前記少なくとも1つのどれが、単独で、または組合せで、配列断片の起源に関連する予測値を有するのかを決定すること
    を含む、請求項1から27のいずれか一項に記載の方法。
  29. 前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記第1の部分に基づいて、前記複数の特徴に従って前記予測モデルを訓練するステップが、機械学習手法に従って前記予測モデルを訓練することを含む、請求項1から28のいずれか一項に記載の方法。
  30. 前記機械学習手法が、判別分析、決定木、最近傍(NN)アルゴリズム、ベイジアンネットワーク、クラスタリングアルゴリズム、ニューラルネットワーク、サポートベクターマシン(SVM)、ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、マルコフモデル、または主成分分析(PCA)のうちの少なくとも1つを含む、請求項29に記載の方法。
  31. 前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記第2の部分に基づいて、前記予測モデルを試験するステップが、前記予測モデルを再訓練させることを含む、請求項1から30のいずれか一項に記載の方法。
  32. 対象について、前記複数のゲノム領域に関連する複数の配列断片を含む試験配列データを決定するステップであって、前記複数の配列断片が、前記対象からの試料からシークエンシングされるステップ;
    前記複数の配列断片に関連する試験エピジェネティックデータまたは試験フラグメントミクスデータの少なくとも一方を決定するステップ;
    前記予測モデルに、前記対象の試験配列データ、試験エピジェネティックデータ、および試験フラグメントミクスデータを提供するステップ;ならびに
    前記対象の前記試験配列データ、前記試験エピジェネティックデータ、および前記試験フラグメントミクスデータに基づいて、前記配列データにおける少なくとも1つの配列断片の起源を決定するステップ
    をさらに含む、請求項1から30のいずれか一項に記載の方法。
  33. 前記起源が、腫瘍由来または非腫瘍由来の一方である、請求項32に記載の方法。
  34. 腫瘍由来である前記起源に基づいて、前記対象に1つまたは複数の療法を投与するステップをさらに含む、請求項33に記載の方法。
  35. 前記療法が、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含む、請求項34に記載の方法。
  36. 前記療法が、ALECENSA(登録商標)、ALUNBRIG(登録商標)、BRAFTOVI(登録商標)、ERBITUX(登録商標)、GAVRETO(商標)、GILOTRIF(登録商標)、HERCEPTIN(登録商標)、IRESSA(登録商標)、KADCYLA(登録商標)、KEYTRUDA(登録商標)、LORBRENA(登録商標)、LUMAKRAS(商標)、LYNPARZA(登録商標)、MEKINIST(登録商標)、OPDIVO(登録商標)、PERJETA(登録商標)、PIQRAY(登録商標)、RETEVMO(商標)、ROZLYTREK(商標)、RUBRACA(登録商標)、TABRECTA(商標)、TAFINLAR(登録商標)、TAGRISSO(登録商標)、TALZENNA(登録商標)、TARCEVA(登録商標)、TEPMETKO(商標)、TYKERB(登録商標)、VITRAKVI(登録商標)、VIZIMPRO(登録商標)、XALKORI(登録商標)、YBREVANT(商標)、YERVOY(登録商標)、またはZYKADIA(登録商標)のうちの少なくとも1つを投与することを含む、請求項34に記載の方法。
  37. 対象について、複数のゲノム領域に関連する複数の配列断片の配列データを決定するステップであって、前記配列データが、複数の配列リードを含み、前記複数の配列リードが、前記対象からの試料からの前記複数の配列断片からシークエンシングされる、ステップ;
    前記複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定するステップ;
    訓練された予測モデルに、前記配列データの少なくとも一部分、および前記エピジェネティックデータまたは前記フラグメントミクスデータの少なくとも一方の少なくとも一部分を提供するステップ;ならびに
    前記予測モデルに基づいて、前記試料が腫瘍由来または非腫瘍由来であることを決定するステップ
    を含む、方法。
  38. 前記予測モデルを生成するステップをさらに含む、請求項37に記載の方法。
  39. 前記予測モデルを生成するステップが、
    複数のゲノム領域に関連する複数の配列断片の配列データを決定することであって、前記配列データが、複数の配列リードを含み、前記複数の配列リードが、複数の試料からの前記複数の配列断片からシークエンシングされ、前記複数の試料のうちの各試料が、腫瘍由来または非腫瘍由来とラベルされること;
    前記複数の配列断片に関連するエピジェネティックデータまたはフラグメントミクスデータの少なくとも一方を決定すること;
    前記配列データの少なくとも一部分、および前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の少なくとも一部分に基づいて、前記予測モデルのための複数の特徴を決定すること;
    前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第1の部分に基づいて、前記複数の特徴に従って前記予測モデルを訓練すること;
    前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの少なくとも一方の第2の部分に基づいて、前記予測モデルを試験すること;ならびに
    前記試験するステップに基づいて、前記予測モデルを出力すること
    を含む、請求項38に記載の方法。
  40. 前記複数のゲノム領域が、DNMT3A、TP53、LRP1B、KRAS、MARCH11、TAC1、TCF21、SHOX2、p16、Casp8、CDH13、MGMT、MLH1、MSH2、TSLC1、APC、DKK1、DKK3、LKB1、WIF1、RUNX3、GATA4、GATA5、PAX5、E-カドヘリン、H-カドヘリン、VIM、SEPT9、CYCD2、TFPI2、GATA4、RARB2、p16INK4a、APC、NDRG4、HLTF、HPP1、hMLH1、RASSF1A、IGFBP3、ITGA4、PIK3CA、ERBB2(HER2)、BRCA1/2、NTRK1/2/3、MSI-High、ESR1、ATM、HRR、FGFR2/3、IDH1、KRAS、NRAS、BRAF、KIT、PDGFRA、EGFR、ALK、ROS1、MET、TMB、またはRETのうちの少なくとも1つを含む、請求項37から39のいずれか一項に記載の方法。
  41. 配列データを決定するステップが、複数の対象から複数の試料を得ることを含み、前記複数の試料が、複数の無細胞核酸を含む、請求項39から40のいずれか一項に記載の方法。
  42. 前記複数のゲノム領域が、がん型に関連することが公知のゲノム領域、公知のメチル化ステータスに関連するゲノム領域、低メチル化に関連することが公知のゲノム領域、または治療応答に関連することが公知のゲノム領域のうちの少なくとも1つを含む、請求項37から41のいずれか一項に記載の方法。
  43. 前記エピジェネティックデータが、DNAメチル化、ヒストンの状態もしくは改変、炎症媒介シトシン損傷産物、またはタンパク質結合に関する情報のうちの少なくとも1つを含む、請求項37から42のいずれか一項に記載の方法。
  44. 前記複数の配列断片に関連する前記エピジェネティックデータを決定するステップが、前記複数の配列断片のメチル化状態を決定することを含む、請求項37から43のいずれか一項に記載の方法。
  45. 前記複数の配列断片の前記メチル化状態を決定するステップが、メチル化状態ベクトルまたはメチル化CpG密度の少なくとも一方を決定することを含む、請求項44に記載の方法。
  46. 前記メチル化状態ベクトルを決定するステップが、
    前記複数の配列リードを参照配列にアラインすること;
    前記アラインするステップに基づいて、前記複数の配列リードのうちの配列リードにおける1つまたは複数のCpG部位のメチル化ステータス、および前記1つまたは複数のCpG部位の位置を決定すること;ならびに
    前記1つまたは複数のCpG部位の前記メチル化ステータス、および前記1つまたは複数のCpG部位の前記位置をベクトル化して、前記複数の配列リードのうちの前記配列リードのメチル化状態ベクトルを生成すること
    を含む、請求45に記載の方法。
  47. 前記メチル化CpG密度を決定するステップが、
    前記複数の配列リードを参照配列にアラインすること;
    前記アラインするステップに基づいて、前記複数の配列リードのうちの配列リードにおける1つまたは複数のCpG部位のメチル化ステータスを決定すること;
    前記配列リードにおける前記1つまたは複数のCpG部位の前記メチル化ステータスに基づいて、前記配列リードがメチル化されているまたはメチル化されていないことを決定すること;
    前記複数の配列リードについて、メチル化配列リードの計数値、および非メチル化配列リードの計数値を決定すること;ならびに
    メチル化配列リードの前記計数値および非メチル化配列リードの前記計数値に基づいて、前記メチル化CpG密度を決定すること
    を含む、請求項47に記載の方法。
  48. 前記フラグメントミクスデータが、断片サイズ、断片末端におけるヌクレオチドモチーフ、一本鎖ジャギド末端、断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置および/または前記断片の前記終点を示す任意の値に関する情報のうちの少なくとも1つを含む、請求項37から47のいずれか一項に記載の方法。
  49. 前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の断片の配列断片のサイズを決定すること、または特定のサイズを有する前記複数の配列断片の量を決定することのうちの少なくとも一方を含む、請求項37から48のいずれか一項に記載の方法。
  50. 前記特定のサイズが、範囲である、請求項49に記載の方法。
  51. 前記範囲が、50~80、50~100、50~150、100~150、100~200、150~200、150~230、200~300、または300~400塩基のうちの少なくとも1つである、請求項50に記載の方法。
  52. 前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の配列断片の末端モチーフを決定することを含み、前記末端モチーフが、配列断片の終了配列に関するものである、請求項37から51のいずれか一項に記載の方法。
  53. 前記複数の配列断片の前記末端モチーフを決定するステップが、
    前記複数の配列断片からシークエンシングされた前記複数の配列リードを参照配列にアラインすること;および
    前記アラインするステップに基づいて、前記複数の配列断片のうちの配列断片の各末端の末端モチーフを決定すること
    を含む、請求項52に記載の方法。
  54. 前記終了配列が、いくつかの塩基を含み、前記いくつかの塩基が、1~6個の間の塩基である、請求項52に記載の方法。
  55. 前記終了配列が、前記配列断片を越えて伸長するいくつかの塩基を含み、前記いくつかの塩基が、1~6個の間の塩基である、請求項52に記載の方法。
  56. 前記複数の配列断片内の前記末端モチーフの出現頻度を決定するステップをさらに含む、請求項53から55のいずれか一項に記載の方法。
  57. 前記末端モチーフの末端塩基を決定するステップ、および前記末端モチーフの前記末端塩基の出現頻度を決定するステップをさらに含む、請求項53から56のいずれか一項に記載の方法。
  58. 前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、前記複数の配列断片のうちの配列断片のジャギド末端を決定することを含む、請求項37から57のいずれか一項に記載の方法。
  59. 前記複数の配列断片のうちの前記配列断片の前記ジャギド末端を決定するステップが、オーバーハングインデックスを決定することを含む、請求項58に記載の方法。
  60. 前記配列断片が、第1の部分を有する第1の鎖と第2の鎖とを有する二本鎖状であり、前記オーバーハングインデックスを決定するステップが、
    前記第2の鎖にオーバーハングしている前記第1の鎖の長さに比例する前記第1の鎖または前記第2の鎖のメチル化ステータスを決定すること;および
    前記メチル化ステータスに基づいて、前記オーバーハングインデックスを決定することであって、前記オーバーハングインデックスが、ある鎖が別の鎖にオーバーハングしている測度を提供すること
    を含む、請求項59に記載の方法。
  61. 前記複数の配列断片に関連する前記フラグメントミクスデータを決定するステップが、断片終点の遺伝子位置を決定することを含む、請求項37から60のいずれか一項に記載の方法。
  62. 断片終点の前記遺伝子位置を決定するステップが、ウインドウ化保護スコア(WPS)を決定することを含む、請求項61に記載の方法。
  63. 前記WPSを決定するステップが、
    ウインドウにわたる配列断片の数を決定すること;および
    前記ウインドウ内で開始する任意の配列断片に基づいて、前記ウインドウにわたる配列断片の数を調整すること
    を含む、請求項62に記載の方法。
  64. 配列断片の起源を決定するステップ、ならびに前記配列断片の前記起源を、前記配列断片に関連する前記配列データ、前記エピジェネティックデータおよび前記フラグメントミクスデータに割り当てるステップをさらに含む、請求項37から63のいずれか一項に記載の方法。
  65. 前記起源が腫瘍由来もしくは非腫瘍由来であるか、前記起源が組織型であるか、または前記起源ががん型であるかの少なくとも1つである、請求項64に記載の方法。
  66. 前記配列データの前記少なくとも一部分、および前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記少なくとも一部分に基づいて、前記予測モデルのための前記複数の特徴を決定するステップが、
    メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、前記断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、前記断片の前記終点を示す任意の値、またはウインドウ化保護スコアのうちの少なくとも1つを決定すること;および
    メチル化状態ベクトル、メチル化密度、断片サイズ、断片サイズ分布、末端モチーフ、末端モチーフ頻度、ジャギド末端の存在、オーバーハングインデックス、前記断片長の中心点の遺伝子位置、断片終点の遺伝子位置、断片終点の遺伝子位置、前記断片の前記終点を示す任意の値、またはウインドウ化保護スコアのうちの前記少なくとも1つのどれが、単独で、または組合せで、配列断片の起源に関連する予測値を有するのかを決定すること
    を含む、請求項39から65のいずれか一項に記載の方法。
  67. 前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記第1の部分に基づいて、前記複数の特徴に従って前記予測モデルを訓練するステップが、機械学習手法に従って前記予測モデルを訓練することを含む、請求項39から66のいずれか一項に記載の方法。
  68. 前記機械学習手法が、判別分析、決定木、最近傍(NN)アルゴリズム、ベイジアンネットワーク、クラスタリングアルゴリズム、ニューラルネットワーク、サポートベクターマシン(SVM)、ロジスティック回帰アルゴリズム、線形回帰アルゴリズム、マルコフモデル、または主成分分析(PCA)のうちの少なくとも1つを含む、請求項67に記載の方法。
  69. 前記配列データおよび前記エピジェネティックデータまたはフラグメントミクスデータの前記少なくとも一方の前記第2の部分に基づいて、前記予測モデルを試験するステップが、前記予測モデルを再訓練させることを含む、請求項39から68のいずれか一項に記載の方法。
  70. 腫瘍由来である前記試料に基づいて、腫瘍由来である前記起源に基づいて前記対象に1つまたは複数の療法を投与するステップをさらに含む、請求項37から68のいずれか一項に記載の方法。
  71. 前記療法が、化学療法を投与すること、放射線療法を投与すること、または腫瘍の全てもしくは一部分を切除するために外科手術を行うことを含む、請求項70に記載の方法。
  72. 前記療法が、ALECENSA(登録商標)、ALUNBRIG(登録商標)、BRAFTOVI(登録商標)、ERBITUX(登録商標)、GAVRETO(商標)、GILOTRIF(登録商標)、HERCEPTIN(登録商標)、IRESSA(登録商標)、KADCYLA(登録商標)、KEYTRUDA(登録商標)、LORBRENA(登録商標)、LUMAKRAS(商標)、LYNPARZA(登録商標)、MEKINIST(登録商標)、OPDIVO(登録商標)、PERJETA(登録商標)、PIQRAY(登録商標)、RETEVMO(商標)、ROZLYTREK(商標)、RUBRACA(登録商標)、TABRECTA(商標)、TAFINLAR(登録商標)、TAGRISSO(登録商標)、TALZENNA(登録商標)、TARCEVA(登録商標)、TEPMETKO(商標)、TYKERB(登録商標)、VITRAKVI(登録商標)、VIZIMPRO(登録商標)、XALKORI(登録商標)、YBREVANT(商標)、YERVOY(登録商標)、またはZYKADIA(登録商標)のうちの少なくとも1つを投与することを含む、請求項70に記載の方法。
  73. コンピュータを少なくとも部分的に使用して、試験対象から得られた試験試料中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントとを互いに差別化する方法であって、
    前記コンピュータにより、標的ゲノム領域のセットの中の試験核酸バリアントを、前記試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ;
    前記コンピュータにより、同定された試験核酸バリアントの前記セットの中の複数の前記同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、前記試験試料中の前記核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ;
    前記コンピュータにより、試験核酸バリアント-エピジェネティックシグネチャー群の前記セットの中の所与の試験核酸バリアント-エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントに対応する参照核酸バリアント-エピジェネティックシグネチャー群と、またはCHIP起源核酸バリアントに対応する参照核酸バリアント-エピジェネティックシグネチャー群とマッチさせ、それによって、前記試験対象から得られた前記試験試料中の前記腫瘍起源核酸バリアントと前記CHIP起源核酸バリアントとを互いに差別化するステップ
    を含む、方法。
  74. 試験対象におけるがんを処置する方法であって、
    コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、前記試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ;
    前記コンピュータにより、同定された試験核酸バリアントの前記セットの中の複数の前記同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、前記試験試料中の前記核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ;
    前記コンピュータにより、少なくとも1つの訓練された分類器を使用して、試験核酸バリアント-エピジェネティックシグネチャー群の前記セット中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントとを互いに差別化して、前記試験試料中に存在する差別化された腫瘍起源核酸バリアントとCHIP起源核酸バリアントのセットを生じさせるステップ;および
    前記試験試料中に存在する差別化された腫瘍起源核酸バリアントとCHIP起源核酸バリアントの前記セットの中の前記差別化された腫瘍起源核酸バリアントの1つまたは複数に基づいて、前記試験対象に少なくとも1つの療法を投与し、それによって前記試験対象におけるがんを処置するステップ
    を含む、方法。
  75. 試験対象におけるがんを処置する方法であって、試験試料中に存在する差別化された腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントのセットの中の1つまたは複数の差別化された腫瘍起源核酸バリアントに基づいて、前記試験対象に少なくとも1つの療法を投与するステップを含み、差別化された腫瘍起源核酸バリアントとCHIP起源核酸バリアントの前記セットが、
    コンピュータにより、標的ゲノム領域のセットの中の核酸バリアントを、前記試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせること;
    前記コンピュータにより、同定された試験核酸バリアントの前記セットの中の複数の前記同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、前記試験試料中の前記核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせること;および
    前記コンピュータにより、少なくとも1つの訓練された分類器を使用して、試験核酸バリアント-エピジェネティックシグネチャー群の前記セット中の腫瘍起源核酸バリアントとCHIP起源核酸バリアントとを互いに差別化すること
    により生じる、方法。
  76. 訓練された分類器を、コンピュータを少なくとも部分的に使用して生成する方法であって、
    前記コンピュータにより、標的ゲノム領域の少なくとも1セットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ;
    前記コンピュータにより、同定された参照核酸バリアントの前記セットの中の複数の前記同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、前記参照試料中の前記核酸から得られたエピジェネティック情報から同定して、参照核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ;ならびに
    前記コンピュータにより、参照核酸バリアント-エピジェネティックシグネチャー群の前記セットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、1つまたは複数の試験核酸バリアント-エピジェネティックシグネチャー群を、腫瘍起源核酸バリアントおよび/または未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントを含むものとして分類するように構成されている、少なくとも1つの訓練された分類器を作出するステップ
    を含む方法。
  77. 訓練された分類器を、コンピュータを少なくとも部分的に使用して生成する方法であって、
    前記コンピュータにより、標的ゲノム領域の少なくとも1セットの中の核酸バリアントを、複数の参照試料中の核酸から得られた配列情報から同定して、同定された参照核酸バリアントのセットを生じさせるステップ;
    前記コンピュータにより、同定された参照核酸バリアントの前記セットの少なくとも一部分を使用して機械学習アルゴリズムを訓練して、標的ゲノム領域の前記セットの中の核酸バリアントを試験試料中の核酸から得られた配列情報から分類するように構成されている少なくとも第1のモデルを作出して、同定された試験核酸バリアントのセットを生じさせるステップ;
    前記コンピュータにより、同定された参照核酸バリアントの前記セットの中の複数の前記同定された参照核酸バリアントについての所与の核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、前記参照試料中の前記核酸から得られたエピジェネティック情報から同定して、参照エピジェネティックシグネチャーのセットを生じさせるステップ;
    前記コンピュータにより、参照エピジェネティックシグネチャーの前記セットの少なくとも一部分を使用して前記機械学習アルゴリズムを訓練して、試験核酸バリアント-エピジェネティックシグネチャー群のセットの中の腫瘍起源核酸バリアントと未確定の潜在能をもつクローン性造血(CHIP)起源核酸バリアントとを互いに差別化するように構成されている少なくとも第2のモデルを作出して、同定された試験核酸バリアントのセットを生じさせ、それによって前記訓練された分類器を生成するステップ
    を含む方法。
  78. 試験核酸バリアント-エピジェネティックシグネチャー群の前記セットが、同一の核酸バリアントおよび異なる対応するエピジェネティックシグネチャーを含む少なくとも第1および第2のメンバーを含む、前記請求項のいずれか一項に記載の方法。
  79. 前記異なる対応するエピジェネティックシグネチャーが、所与の標的ゲノム領域の中の1つまたは複数のエピジェネティック座位により示される異なるエピジェネティック状態またはステータスを含む、請求項78に記載の方法。
  80. 前記異なる対応するエピジェネティックシグネチャーが、異なる無細胞核酸(cfNA)断片長、位置、および/または終点密度分布を含む、請求項78に記載の方法。
  81. 試験核酸バリアント-エピジェネティックシグネチャー群の前記セットが、異なる核酸バリアントおよび同一の対応するエピジェネティックシグネチャーを含む少なくとも第1および第2のメンバーを含む、前記請求項のいずれか一項に記載の方法。
  82. 前記マッチさせるステップが、少なくとも1つの訓練された分類器を使用して、前記試験対象から得られた前記試験試料中の前記腫瘍起源核酸バリアントと前記CHIP起源核酸バリアントとを互いに差別化することを含む、前記請求項のいずれか一項に記載の方法。
  83. 同定された核酸バリアントの前記セットが、体細胞核酸バリアントを含む、前記請求項のいずれか一項に記載の方法。
  84. 所与の標的ゲノム領域が、2つまたはそれより多くの核酸バリアント座位を含む、前記請求項のいずれか一項に記載の方法。
  85. 試験核酸バリアント-エピジェネティックシグネチャー群の前記セットが、標的ゲノム領域の前記セットの中の異なるゲノム領域からのものである1つまたは複数の核酸バリアントおよび1つまたは複数の対応するエピジェネティックシグネチャーを含む少なくとも1つのメンバーを含む、前記請求項のいずれか一項に記載の方法。
  86. 試験核酸バリアント-エピジェネティックシグネチャー群の前記セットが、標的ゲノム領域の前記セットの中の同一のゲノム領域内のものである1つまたは複数の核酸バリアントおよび1つまたは複数の対応するエピジェネティックシグネチャーを含む少なくとも1つのメンバーを含む、前記請求項のいずれか一項に記載の方法。
  87. 複数の標的ゲノム領域が、DNMT3A、TP53、LRP1B、KRAS、MARCH11、TAC1、TCF21、SHOX2、p16、Casp8、CDH13、MGMT、MLH1、MSH2、TSLC1、APC、DKK1、DKK3、LKB1、WIF1、RUNX3、GATA4、GATA5、PAX5、E-カドヘリン、H-カドヘリン、VIM、SEPT9、CYCD2、TFPI2、GATA4、RARB2、p16INK4a、APC、NDRG4、HLTF、HPP1、hMLH1、RASSF1A、IGFBP3、ITGA4、PIK3CA、ERBB2(HER2)、BRCA1/2、NTRK1/2/3、MSI-High、ESR1、ATM、HRR、FGFR2/3、IDH1、KRAS、NRAS、BRAF、KIT、PDGFRA、EGFR、ALK、ROS1、MET、TMB、およびRETからなる群から選択される1つまたは複数の遺伝子を含む、前記請求項のいずれか一項に記載の方法。
  88. 前記試料中の前記核酸が、前記試料中の1つまたは複数の組織または細胞から得られた無細胞核酸(cfNA)断片および/または核酸分子を含む、前記請求項のいずれか一項に記載の方法。
  89. 前記エピジェネティックシグネチャーが、cfNA断片長、位置、および/または終点密度分布を含む、前記請求項のいずれか一項に記載の方法。
  90. 前記エピジェネティックシグネチャーが、所与の標的ゲノム領域の中の1つまたは複数のエピジェネティック座位により示されるエピジェネティック状態またはステータスを含む、前記請求項のいずれか一項に記載の方法。
  91. 前記エピジェネティック状態またはステータスが、メチル化、ヒドロキシメチル化、アセチル化、ユビキチン化、リン酸化、SUMO化、リボシル化、シトルリン化、および/またはヒストン翻訳後改変もしくは他のヒストン多様性の存在または非存在を含む、請求項90に記載の方法。
  92. 差別化されたCHIP起源核酸バリアントをさらなる分析から排除するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
  93. 前記試験試料中の互いに差別化された腫瘍起源核酸バリアントおよびCHIP起源核酸バリアントを収載する少なくとも1つのレポートを生成するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
  94. 前記差別化された腫瘍起源核酸バリアントに関連する少なくとも1つのがん型を同定するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
  95. 前記同定されたがん型を処置するために前記試験対象に少なくとも1つの療法を投与するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
  96. 前記差別化された腫瘍起源核酸バリアントの1つまたは複数に基づいて、前記試験対象に少なくとも1つの療法を投与するステップをさらに含む、前記請求項のいずれか一項に記載の方法。
  97. 1つまたは複数の細胞が、前記試験試料中の前記核酸を含む、前記請求項のいずれか一項に記載の方法。
  98. 1つまたは複数の組織が、前記細胞を含む、請求項97に記載の方法。
  99. 前記請求項のいずれか一項に記載の方法により生成される訓練された分類器。
  100. 前記コンピュータにより、標的ゲノム領域の前記セットの中の核酸バリアントを、試験対象から得られた試験試料中の核酸から得られた配列情報から同定して、同定された試験核酸バリアントのセットを生じさせるステップ;
    前記コンピュータにより、同定された試験核酸バリアントの前記セットの中の複数の前記同定された試験核酸バリアントについての所与の試験核酸バリアントに対応する少なくとも1つのエピジェネティックシグネチャーを、前記試験試料中の前記核酸から得られたエピジェネティック情報から同定して、試験核酸バリアント-エピジェネティックシグネチャー群のセットを生じさせるステップ;および
    前記訓練された分類器を使用して、前記試験対象から得られた前記試験試料中の試験核酸バリアント-エピジェネティックシグネチャー群の前記セットの中の前記腫瘍起源核酸バリアントと前記CHIP起源核酸バリアントとを互いに差別化するステップ
    をさらに含む、前記請求項のいずれか一項に記載の方法。
  101. 前記第2のモデルが、前記第1のモデルのさらに訓練されたバージョンである、前記請求項のいずれか一項に記載の方法。
  102. 参照核酸バリアント-エピジェネティックシグネチャー群の前記セットが、同定された参照核酸バリアントの前記セットの中の所与の核酸バリアントに対応するエピジェネティックシグネチャーについての保有率データを含む、前記請求項のいずれか一項に記載の方法。
  103. 所与の核酸バリアントに対応する前記少なくとも1つのエピジェネティックシグネチャーを同定するステップが、
    前記所与の核酸バリアントに対応するエピジェネティック率を決定するステップであって、少なくとも第1のエピジェネティック率が、所与の対象から第1の時点で得られた第1の試料から生成され、少なくとも第2のエピジェネティック率が、前記所与の対象から前記第1の時点とは異なる第2の時点で得られた第2の試料から生成されること;
    少なくとも前記第1のエピジェネティック率に基づいて少なくとも1つのエピジェネティック率閾値を調整して、調整されたエピジェネティック率閾値を生じさせること;および
    前記調整されたエピジェネティック率閾値を使用して、前記エピジェネティックシグネチャーを同定すること
    を含む、前記請求項のいずれか一項に記載の方法。
  104. 前記第1および第2の試料が、試験試料を含む、前記請求項のいずれか一項に記載の方法。
  105. 前記第1および第2の試料が、参照試料を含む、前記請求項のいずれか一項に記載の方法。
  106. 前記第1の試料が、腫瘍組織試料を含む、前記請求項のいずれか一項に記載の方法。
  107. 前記第2の試料が、体液試料を含む、前記請求項のいずれか一項に記載の方法。
  108. プロセッサーによる実行時に請求項1から36のいずれかに記載の方法を前記プロセッサーに行わせるプロセッサー実行可能命令を自体が記憶している、1つまたは複数の非一時的なコンピュータ可読媒体。
  109. 請求項1から36のいずれかに記載の方法を行うように構成されたコンピュータデバイスと、
    前記予測モデルを出力するように構成された出力デバイスと
    を含むシステム。
  110. 1または複数台のプロセッサーと、
    前記1または複数台のプロセッサーによる実行時に請求項1から36のいずれかに記載の方法を装置に行わせるプロセッサー実行可能命令を記憶しているメモリと
    を含む装置。
  111. プロセッサーによる実行時に請求項37から72のいずれかに記載の方法を前記プロセッサーに行わせるプロセッサー実行可能命令を自体が記憶している、1つまたは複数の非一時的なコンピュータ可読媒体。
  112. 請求項37から72のいずれかに記載の方法を行うように構成されたコンピュータデバイスと、
    前記試料が腫瘍由来または非腫瘍由来であるという表示を出力するように構成された出力デバイスと
    を含むシステム。
  113. 1または複数台のプロセッサーと、
    前記1または複数台のプロセッサーによる実行時に請求項37から72のいずれかに記載の方法を装置に行わせるプロセッサー実行可能命令を記憶しているメモリと
    を含む装置。
  114. プロセッサーによる実行時に請求項73から107のいずれかに記載の方法を前記プロセッサーに行わせるプロセッサー実行可能命令を自体が記憶している、1つまたは複数の非一時的なコンピュータ可読媒体。
  115. 請求項73から107のいずれかに記載の方法を行うように構成されたコンピュータデバイスと、
    前記試料が腫瘍由来または非腫瘍由来であるという表示を出力するように構成された出力デバイスと
    を含むシステム。
  116. 1または複数台のプロセッサーと、
    前記1または複数台のプロセッサーによる実行時に請求項73から107のいずれかに記載の方法を装置に行わせるプロセッサー実行可能命令を記憶しているメモリと
    を含む装置。
JP2023513344A 2020-08-25 2021-08-25 バリアントの起源を予測するための方法およびシステム Pending JP2023540221A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063070182P 2020-08-25 2020-08-25
US63/070,182 2020-08-25
PCT/US2021/047619 WO2022046947A1 (en) 2020-08-25 2021-08-25 Methods and systems for predicting an origin of a variant

Publications (1)

Publication Number Publication Date
JP2023540221A true JP2023540221A (ja) 2023-09-22

Family

ID=78049778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023513344A Pending JP2023540221A (ja) 2020-08-25 2021-08-25 バリアントの起源を予測するための方法およびシステム

Country Status (4)

Country Link
US (1) US20240021271A1 (ja)
EP (1) EP4205126A1 (ja)
JP (1) JP2023540221A (ja)
WO (1) WO2022046947A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220108772A1 (en) * 2020-10-01 2022-04-07 Gsi Technology Inc. Functional protein classification for pandemic research
WO2023077114A1 (en) * 2021-11-01 2023-05-04 Personalis Inc. Determining fragmentomic signatures based on latent variables of nucleic acid molecules
WO2023220192A1 (en) * 2022-05-11 2023-11-16 Foundation Medicine, Inc. Methods and systems for predicting an origin of an alteration in a sample using a statistical model
CN116434830B (zh) * 2023-04-13 2024-01-23 深圳市睿法生物科技有限公司 基于ctDNA多位点甲基化的肿瘤病灶位置识别方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
ATE226983T1 (de) 1994-08-19 2002-11-15 Pe Corp Ny Gekoppeltes ampflikation- und ligationverfahren
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
EP1975251A3 (en) 2000-07-07 2009-03-25 Visigen Biotechnologies, Inc. Real-time sequence determination
US7208271B2 (en) 2001-11-28 2007-04-24 Applera Corporation Compositions and methods of selective nucleic acid isolation
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
US7482120B2 (en) 2005-01-28 2009-01-27 Helicos Biosciences Corporation Methods and compositions for improving fidelity in a nucleic acid synthesis reaction
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
KR102028375B1 (ko) 2012-09-04 2019-10-04 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2016015058A2 (en) 2014-07-25 2016-01-28 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
SG11201805119QA (en) 2015-12-17 2018-07-30 Guardant Health Inc Methods to determine tumor gene copy number by analysis of cell-free dna
WO2017181146A1 (en) * 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer
WO2018009723A1 (en) 2016-07-06 2018-01-11 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
CA3027919C (en) 2016-09-30 2023-02-28 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
BR112019012958A2 (pt) 2016-12-22 2019-11-26 Guardant Health Inc métodos e sistemas para análise de moléculas de ácido nucleico
AU2020216438A1 (en) * 2019-01-31 2021-07-29 Guardant Health, Inc. Compositions and methods for isolating cell-free DNA

Also Published As

Publication number Publication date
EP4205126A1 (en) 2023-07-05
WO2022046947A1 (en) 2022-03-03
US20240021271A1 (en) 2024-01-18

Similar Documents

Publication Publication Date Title
JP2022519045A (ja) 無細胞dnaを単離するための組成物および方法
US20240021271A1 (en) Methods and systems for predicting an origin of a variant
US20190385700A1 (en) METHODS AND SYSTEMS FOR DETERMINING The CELLULAR ORIGIN OF CELL-FREE NUCLEIC ACIDS
US11939636B2 (en) Methods and systems for improving patient monitoring after surgery
CA3075932A1 (en) Methods and systems for differentiating somatic and germline variants
US20230107807A1 (en) Homologous recombination repair deficiency detection
JP2022550131A (ja) メチル化分配アッセイにおいて無細胞dnaを解析するための組成物および方法
JP2023544720A (ja) Dnaメチル化分配アッセイのシグナル対ノイズ比を改善するための方法およびシステム
JP2023547620A (ja) 分配および塩基変換を使用してdnaを解析するための組成物および方法
US20240029890A1 (en) Computational modeling of loss of function based on allelic frequency
JP2023517029A (ja) 無細胞核酸において検出された遺伝的突然変異を、腫瘍起源または非腫瘍起源として分類するための方法
US20220028494A1 (en) Methods and systems for determining the cellular origin of cell-free dna
JP2023502752A (ja) メチル化ポリヌクレオチドの結合を改善するための方法、組成物およびシステム
US20200020416A1 (en) Methods for detecting and suppressing alignment errors caused by fusion events
US20210214803A1 (en) Methods and systems for improving patient monitoring after surgery
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
JP2023551292A (ja) メチル化されたポリヌクレオチドを富化するための組成物および方法
JP2024057050A (ja) 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング
JP2024511425A (ja) 免疫細胞dnaを定量するための方法および組成物
JP2023524681A (ja) 分配された核酸を使用した配列決定のための方法
CN117063239A (zh) 用于分析分子响应的方法和相关方面