JP2021516962A - バリアント検出の改善 - Google Patents

バリアント検出の改善 Download PDF

Info

Publication number
JP2021516962A
JP2021516962A JP2020546469A JP2020546469A JP2021516962A JP 2021516962 A JP2021516962 A JP 2021516962A JP 2020546469 A JP2020546469 A JP 2020546469A JP 2020546469 A JP2020546469 A JP 2020546469A JP 2021516962 A JP2021516962 A JP 2021516962A
Authority
JP
Japan
Prior art keywords
patient
sample
mutation
dna
tumor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020546469A
Other languages
English (en)
Other versions
JP7523353B2 (ja
JPWO2019170773A5 (ja
Inventor
フィッシャー,エイアル
ハイダー,カトリン
マッシー,チャールズ
ムリエール,フローレント
ローゼンフェルド,ニツァン
スミス,クリストファー・ジー
ワン,ジョナサン・シー・エム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cancer Research Technology Ltd
Original Assignee
Cancer Research Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1803596.4A external-priority patent/GB201803596D0/en
Priority claimed from GBGB1819134.6A external-priority patent/GB201819134D0/en
Application filed by Cancer Research Technology Ltd filed Critical Cancer Research Technology Ltd
Publication of JP2021516962A publication Critical patent/JP2021516962A/ja
Publication of JPWO2019170773A5 publication Critical patent/JPWO2019170773A5/ja
Application granted granted Critical
Publication of JP7523353B2 publication Critical patent/JP7523353B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本発明は、患者から取得したDNA含有試料における循環腫瘍DNA等の無細胞DNA(cfDNA)を検出するためのコンピュータ実装方法であって、(a)患者の腫瘍を表す少なくとも2つの変異含有座位(「患者特異的座位」)を含む目的の座位を用意するステップ、(b)患者由来のDNA含有試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを用意するステップであり、前記配列リードがステップ(a)の前記少なくとも2つの変異含有座位にまたがる、ステップ、(c)任意選択で、リードコラプシングを実施して配列リードをリードファミリーにグループ化するステップ、(d)前記少なくとも2つの患者特異的座位の一部または全てにわたる変異アレル割合を算出するステップであり、任意選択で変異アレル割合が変異リードおよび総リードを集計することによって算出される、ステップ、(e)試料を、算出した変異アレル割合に基づいて、標的cfDNAを含有するまたは含有しないと分類するステップを含む、コンピュータ実装方法を提供する。関連する方法およびシステムもまた提供される。【選択図】図25−1

Description

本出願は、内容および要素があらゆる目的のために参照によって本明細書に組み込まれる、2018年3月6日に出願された英国特許出願第1803596.4号および2018年11月23日に出願された英国特許出願第1819134.6号に基づく優先権を主張する。
本発明は、部分的には、例えば血液血漿等の無細胞DNA(cfDNA)源からの循環腫瘍DNA(ctDNA)等のバリアントDNAの存在を検出するための、または法科学的用途、病原体同定、種の汚染の農業的および環境的モニタリングにおいてバリアントDNAを検出するための方法に関する。特に、本発明の方法は、癌の診断、処置、およびとりわけモニタリング、例えば腫瘍切除後に行われるモニタリング、における使用を見出す。
本発明に至る研究は、助成契約番号337905の下、欧州連合第7次枠組み計画(FP7/2007〜2013)からの資金提供を受けた。
循環腫瘍DNA(ctDNA)等の無細胞DNA(cfDNA)は、疾患負荷、処置に対する応答、および再燃のリスクをモニタリングするための非侵襲性ツールとしてますます使用されている1、2。処置後、患者は低いctDNAレベルを有する場合があり、進行した疾患においてさえ、濃度は試料容量当たり数コピー未満であり得る。そのような場合、個々の試料は、所与の変異の検出可能なコピーをサンプリング統計量のために1コピー未満含有する場合があり、結果として平均濃度が0ではない場合であっても未検出のctDNA、すなわちctDNAレベルに関して偽陰性という過小評価をもたらす1、3、4
次世代配列決定(NGS)は、単回の反応で血漿における数多くの変異を分析する可能性を提供する。このことは、標準化されたパネル5、9または各患者に特異的な領域を包含する特注のパネル5〜7のいずれかを使用する、標的化配列決定7〜9のための、増幅産物に基づく方法5、6およびハイブリッド捕捉法によって実証されている。これらの手法は通例、個々の変異をスクリーニングまたはモニタリングするために適用される。近年の研究は、約20の患者特異的座位を標的としたにもかかわらず、早期NSCLCを有する患者の50%未満においてctDNAを検出し、後に再燃した大半の患者において外科的処置直後にctDNAを検出しなかった。このことは、この重要な臨床目標を効果的に達成するためにはより高い感度が必要とされ得ることを示唆する。数千の変異を包含する高度に多重化された捕捉パネルの使用が示唆されているが1、7、これはctDNAの分析に関して今までのところ実証されていない。ctDNA分析のためのこれらの手法は、可変サイズのパネルにわたる個々の変異の同定に依存していた。
個々の変異の検出は、サンプリングエラーと配列決定バックグラウンドノイズの両方によって限定される。シグナルが変異呼び出しのための事前に指定された閾値に達しない場合、これらのシグナルにおける情報は失われる。
Pecuchetら、Clin.Chem.(臨床化学)、2016年、62巻、11号、1492〜1503ページは、循環DNAにおける腫瘍変異を検出するための次世代配列決定の塩基位置エラー率の分析を記載している。国際公開第2016/009224号は遺伝子バリアントを検出するための方法を記載している。国際公開第2015/164432号は染色体セグメントにおける変異および倍数性を検出するための方法を記載している。国際公開第2013/138510号は高多重化エラー抑制ディープ配列決定を使用した核酸バリアントの測定を記載している。Ahnら、Scientific Reports(サイエンティフィックリポーツ)、2017年、7:46678|DOI:10.1038/srep46678は、循環腫瘍DNAにおけるまれな変異を検出するための、非対称バーコードアダプターに支援された重複リードの回収およびエラー補正戦略を記載している。Kockanら、Bioinformatics(バイオインフォマティクス)、2017年、33巻、1号、26〜34ページは、循環腫瘍DNAにおける一塩基バリアントおよび挿入欠失の超高感度検出を記載している。国際公開第2014/039556号はまれな変異およびコピー数多型を検出するシステムおよび方法を記載している。これらの参考文献は全体として、例えば固有分子識別子(UMI)の使用によって配列決定のバックグラウンドノイズ率を低下させるための方法に関する。
Newmanら、2016年は、統合デジタルエラー抑制が用いられる、ctDNAを検出するためのCAPP−Seq法(iDES CAPP−Seq)の改善を記載している。しかしながら、iDES CAPP−Seq法は、エラー補正のために位置特異的エラー率の使用を伴う。これは各座位のエラー率の決定を必要とし、この決定は探査される全ての座位において少なくとも1/(位置特異的エラー率)個の分子が標的とされることを必要とする。分析されるために必要とされる試料の数を減少させてエラー抑制を実行するctDNA検出の方法に関する満たされていない必要性が依然として存在する。
ctDNAの検出は癌治療の分野における期待を示すが、低いctDNA割合のコンテキストにおいてシグナル対ノイズ比を最大化する方法およびシステムに関する満たされていない必要性が依然として存在する。本発明は、これらの必要性に対する解決策を提供することに努め、さらなる関連する利点を提供する。
本発明者らは、数多くの変異座位にわたるシグナルを組み込むことによって、サンプリングノイズの効果を軽減し、ctDNAが非常に低い濃度で存在する場合であってもctDNAレベルのより高感度かつ正確な推定を取得することが可能となるだろうと仮説を立てた(図1a)。
ctDNA情報をより効率的に使用するために、本発明者らは、個々の変異の「呼び出し」を避け、腫瘍により変異した複数の、例えば全ての座位にわたる変異リードからの情報を組み合わせることを目的とした。本発明者らは、患者の腫瘍において変異している複数の座位を包含する血漿DNAから数多くの配列決定リードを生成して組み合わせることによって、以前の方法の感度を上回る検出を達成することが可能となることを見出した。本発明者らは、数百または数千の変異座位にわたる変異シグナルを集計する、INtegration of VAriant Reads(INVAR)と称されるアルゴリズムを開発して、ゲノム全域に及ぶシグナルがバックグラウンドよりも有意に高いかまたはバックグラウンドと識別不能かを評価した(図1b)。各患者に関して腫瘍により変異した座位を包含する約10個のリードを配列決定効率的に生成するために、本発明者らはテイラードパネル配列決定(TAPAS:TAilored PAnel Sequencing;図1c)を用いた。本発明者らは最初に、全身抗癌療法を受け取っている10名のステージIVの黒色腫患者に関して、腫瘍組織配列決定から変異を同定した。これらの変異は、患者当たり中央値で673(四分位範囲「IQR」250〜1,209)の変異を標的とするハイブリダイゼーション捕捉ベイトのパネルを設計するために使用され、このパネルは経時的血漿試料に適用された。本明細書に詳述されるように、本発明者らは、TAPASデータおよびINVAR分析を使用して、最小で個々の百万分率単位以下のレベルまで残存ctDNAを検出することができた。
INVAR手法のさらなる最適化では、統合は残存疾患シグナルの統合に焦点を当てるように標的化され得る。特に、本明細書に記載される焦点化INVAR手法は、最大2個の変異分子のみを有する座位からのシグナルを選択することによって微小残存病変(MRD)に関する「MRD様シグナル」を集計する。第2に、順方向および逆方向(F+R)リードによって支持される変異を有する分子のみがシグナルに寄与するために検討され、このことはエラー抑制ステップとサイズ選択ステップの両方を構成する。第3に、座位当たりの変異リードがその腫瘍アレル割合に基づいて加重され、腫瘍においてより広く存在する変異を上向き加重する。第4に、シグナルは次いで、場合によってはトリヌクレオチドコンテキストごとに集計される。第5に、P値が、好適な方法(例えばフィッシャーの方法またはブラウンの方法)を使用して、ただしMRD様シグナルに焦点を当てるために上位N個のクラスのみにわたって統合される。最終の結果は、残存疾患の検出に関して最適化される焦点化INVARアルゴリズムである。
したがって、第1の態様では、本発明は、患者から取得したDNA含有試料における、循環腫瘍DNA(ctDNA)等の無細胞DNA(cfDNA)を検出および/または定量するための方法(任意選択でコンピュータ実装方法)であって、
(a)患者の腫瘍を表す少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または少なくとも5000の変異含有座位(「患者特異的座位」)を含む目的の座位を用意するステップ、
(b)患者由来のDNA含有試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを取得するステップであり、前記配列リードがステップ(a)の前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の変異含有座位にまたがる、ステップ、
(c)任意選択で、配列決定ノイズ低減を実施する、例えばリードコラプシングを実施して配列リードをリードファミリーにグループ化するステップ、
(d)前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の患者特異的座位の一部または全てにわたる変異アレル割合を、任意選択で変異リードおよび総リードを集計することによって算出するステップ、
を含む方法、を提供する。特に、変異アレル割合を算出するステップは、式:
Figure 2021516962
に従って変異リードおよび総リードを集計することを含み得る。ある特定の場合では、変異アレル割合を算出するステップは、患者特異的座位のそれぞれにおけるアレル割合の加重平均を算出することを含み得る。ある特定の場合では、変異アレル割合を算出するステップは、変異リードの数を数えること、およびこれを所定の閾値と比べることを含み得る。所定の閾値は、場合によっては配列決定深度の関数であり得るが、単純な合計である必要はない。特に、変異リードの数に関する閾値モデルが適用され得る。
ステップ(c)は、その機能が、ある特定の場合には必要ではないことがあるノイズを低減することであるため、任意選択と考えられ得る。一部の実施形態では、ノイズ低減ステップが用いられてもよく、このステップは例えばリードコラプシングを含み得る。ある特定の実施形態では、ノイズ低減ステップは省略されてもよい。特に、他の機構(例えば複製、クラスの使用等)から、または将来的に生じ得る配列決定品質の改善の結果として信頼性が生じる場合。特に、ステップ(c)が実施される場合、リードコラプシングは本明細書においてさらに定義されるようなものであり得る。本明細書で使用する場合、「リードコラプシング」および「リードのコラプシング」というこれらの用語は交換可能であることが意図される。
ステップ(d)は、任意選択と考えられ得る、および/または異なる実施形態では異なる手段で実行され得る。特に、一部の実施形態では、ステップ(d)は変異割合をバックグラウンドと比べるために実施される。これは総リードの合計で割られる変異体の合計を算出するステップを含む必要はない。その算出を使用せず、代わりに変異リードの数および総リードの数のみを、それらを割らずに使用する一部の不可欠な統計的検定。一部の実施形態では、方法は、各変異リードにおける個体の探査を含み、個体のバックグラウンド率を評価して変異リードと比較する。この実施形態では、全ての座位にわたる変異リードの合計を算出する必要はない。
一部の実施形態では、方法は、
(e)試料を
(i)変異アレル割合が所定の閾値(例えばバックグラウンド配列決定エラー率)よりも大きいと見出される場合、cfDNA(例えばctDNA)を含有する、または
(ii)変異アレル割合が所定の閾値(例えばバックグラウンド配列決定エラー率)よりも大きいと見出されず、統計的に有意に大きいとも見出されない場合、cfDNA(例えばctDNA)を含有してもなく、未知のcfDNA(例えばctDNA)のステータスを有してもいない
と分類するステップ
をさらに含む。
一部の実施形態では、方法は、患者から取得した試料におけるcfDNA(例えばctDNA)の濃度または量を定量するステップを含み、cfDNA(例えばctDNA)の濃度または量を定量するステップは、ステップ(d)において算出した変異アレル割合からバックグラウンド配列決定エラー率を減算することを含む。一部の実施形態では、フィッシャーの正確確率検定の算出は前記ステップ(d)と独立であり得る。
本明細書に記載されるように、変異のクラス当たりのバックグラウンド配列決定エラー率において差が観察された、すなわち、別々の一塩基置換のエラー率は異なる(例えばT>GよりもG>Aに関してより高いエラー率を示す図2bを参照のこと)。実際、「ノイズが最も大きい」(最大エラー)変異クラスと「ノイズ」が最も小さい(最小エラー)変異クラスとの間のエラー率においてほぼ40倍の差が見られた。本発明者らは、依然としてクラスにおける全てのバリアントリードにわたって統合を行う一方で、変異をクラスごとに分割すること(これは変異をクラスごとのグループに分割またはグループ化することと考えてもよい)を検討して、技術的ノイズ、すなわちエラーを克服し、低いレベルのcfDNA(例えばctDNA)に関する感度を改善することが可能であるだろうということを認識した(特に、変異クラスに「データを分割すること」(すなわち変異クラスに基づいて変異をグループにグループ化すること)が、最低検出アレル割合において0.3ppmまで、10倍前後の改善をもたらした図3aおよび3bを参照のこと)。したがって、一部の実施形態では、変異アレル割合は、変異の各クラスに関するバックグラウンド配列決定エラー率を考慮に入れて、変異のクラス当たりで決定される。
一部の実施形態では、バックグラウンド配列決定エラー率は、前記少なくとも2、3、4、5、6、7、8、9、または10以上の患者特異的座位において表される変異の各クラス(例えば塩基置換の各クラス)(「変異クラス」)に関して決定されるかまたは決定されており、ステップ(d)における変異アレル割合算出は各変異クラスに関して、その変異クラスのバックグラウンド配列決定エラー率を考慮に入れて実施され、各クラスの変異アレル割合は組み合わされて、試料の全体変異アレル割合の尺度を得る。特に、全体変異アレル割合は、そのクラスにおいて観察されたリードファミリーの総数によって加重された、クラス当たりの個々のバックグラウンド減算変異アレル割合の全ての平均として算出され得る。ある特定の実施形態では、特に、変異および非変異リードの数が、変異アレル割合を決定せずにcfDNAの存在を決定するために使用される場合、算出ステップ(d)は省略してもよい。
一部の実施形態では、方法は、バックグラウンド配列決定エラー率を考慮に入れて、統計的有意性またはそうでない場合は算出した変異アレル割合の決定を行うステップを含む。変異アレル割合が変異クラス当たりで算出され、次いで組み合わされて全体変異アレル割合となる場合、算出した全体変異アレル割合の統計的有意性の決定は、各変異クラスの変異アレル割合の個々の統計的有意性を決定し、次いで個々の統計的有意性決定を組み合わせて、全体変異アレル割合に関する全体統計的有意性決定とすることを含み得る。様々な統計的方法は、変異アレル割合の統計的有意性の決定に好適であり得る。特定の場合では、変異アレル割合の統計的有意性の決定は、試料からの変異リードの数、試料からのリードの総数、およびバックグラウンド配列決定エラー率から予期された変異リードの数を含む分割表を考慮して、フィッシャーの片側正確確率検定を実行することを含み得る。変異アレル割合が変異クラス当たりを基準として算出されるある特定の実施形態では、変異アレル統計的有意性の決定は、フィッシャーの片側正確確率検定を複数回実行して、観察された変異リードの数の統計的有意性を、その変異クラスに関するバックグラウンド配列決定エラー率を考慮して決定し、それにより各変異クラスに関してp値を生成し、経験的なブラウンの方法を使用してp値を組み合わせて、試料の変異アレル割合に関する統計的有意性の全体的尺度を得ることを含み得る。
変異アレル割合が変異クラス当たりを基準として算出される場合、変異クラスの数は全体として、患者の腫瘍を表す少なくとも2、3、4、5、6、7、8、9、10、100、1000、または少なくとも5000の変異含有座位(「患者特異的座位」)に存在すると見出される変異によって左右され得る。多くの場合、変異クラスは、以下の変異クラス:C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T、およびT>Cのうちの少なくとも2、3、4、5、6、7、8、9、10、11、または12個全てを含み得る。好ましくは、患者特異的座位における腫瘍特異的変異は、少なくとも2、3、4、5、6、7、8、9、10、11、または12の異なる変異クラスに属する変異を含む。さらなる変異クラスが本明細書において企図される。例えば、変異はより大きな数の配列サブセットに基づいて、例えばジヌクレオチドコンテキスト、トリヌクレオチドコンテキスト、または個々の座位ごとに分割されてもよく、このことはエラー率の分解能をさらに改善し得る。
本明細書に記載されるように(実施例8ならびに図11および13を参照のこと)、場合によっては、変異クラス当たりのエラー率は、トリヌクレオチドコンテキストごとに評価された。トリヌクレオチドコンテキストは、以下のトリヌクレオチドコンテキスト:CGC、GGC、TCG、ACG、GCG、TGC、CCG、GCA、CGA、GCC、CGG、CGT、AGC、GCT、TCA、TGA、AGT、ACC、CCC、CCA、CTT、GGG、CCT、GAG、CTG、AGG、CAG、CTC、AGA、TCC、GGT、TGG、CTA、ACA、TCT、TAG、AAG、TGT、ACT、GTC、GGA、TAC、TTG、CAA、TTC、TTA、ATC、ATG、TAA、TAT、CAT、GTT、ATT、ATA、GAA、GAC、GAT、CAC、GTG、TTT、GTA、AAT、AAA、およびAACのうちの1つまたは複数(例えば全て)であり得る。変異クラスは、以下の変異クラス:C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T、およびT>Cのうちの少なくとも2、3、4、5、6、7、8、9、10、11、または12個全てを含み得る。特に、方法は、総変異クラスおよび/またはトリヌクレオチドコンテキストのサブセットのみを用い得る。例えば、方法は、試料当たり2、3、4、5、6、7、8、10、または12の最も有意なトリヌクレオチドコンテキストからのP値を組み合わせるステップを含み得る。特定の場合では、本発明の方法は、試料当たり6つの最も有意なトリヌクレオチドコンテキストを組み合わせるステップを含み得る。ある特定の場合では、トリヌクレオチドコンテキスト当たりのp値は、トリヌクレオチドコンテキストに関する変異リードの数を、そのコンテキストに関するバックグラウンドエラー率を考慮して比較するフィッシャーの検定を使用して決定され得る。各変異クラスおよびトリヌクレオチドコンテキストに関するバックグラウンドエラー率は、標的塩基の10b.p.以内であるが、標的化された塩基を含まない、配列決定データの使用によって決定され得る。本発明者らは、シグナルは任意の1つの試料からの少数のコンテキストにおいてのみ予期され得ると考えられるため、変異クラスごとのエラー補正をトリヌクレオチドコンテキストから実施する場合、あらゆるトリヌクレオチドコンテキストが使用されるわけではないということが好ましい、ということを見出した。微小残存病変(MRD)のコンテキストでは、予期は、ctDNAレベルは低いだろうというものであり、したがって、真のシグナルを示すトリヌクレオチドコンテキストはほとんどないということが予期される。したがって、分析中、分析をより少数のトリヌクレオチドコンテキスト(例えば上で定義された2、3、4、5、6、7、8、10、または12の最も有意なトリヌクレオチドコンテキスト)に制限することが正当化され得る。例えば対照試料が高いレベルのシグナルを無秩序に示す場合、そのような結果はMRDと一致しないと考えられるため、このことはバックグラウンドノイズを低減することに関する有用性を有し得る。
一部の実施形態では、ステップ(b)において取得される配列リードを含む配列データは、テイラードパネル配列決定(TAPAS)配列リード、焦点化エクソーム配列リード、全エクソーム配列リード、または全ゲノム配列リードを表す。配列リードの選択は、とりわけ、研究されている癌の変異率を反映し得る。腫瘍由来変異は、本明細書において実証されるようにエクソーム配列決定を使用して同定することができるが、より小さな焦点化パネルまたはより大きな規模、例えば全ゲノムにわたって同定することもできる。患者が黒色腫を有する、本明細書に記載される例では、エクソーム配列決定は患者当たり数百から数千の変異を同定するのに十分であった。癌の種類の既知の変異率に基づくと、エクソーム配列決定はまた、比較的高い変異率を有する多くの癌の種類、例えば肺、膀胱、食道、または結腸直腸癌に関しても十分であり得る。メガベース当たり約1以下の変異率を有する癌の場合、変異解析のための腫瘍の全ゲノム配列決定が望ましいことがある。卵巣および脳癌の場合、これは結果として患者当たり数千の同定された変異をもたらすと考えられる。さらに、配列リードを含む配列データは、少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または少なくとも5000の変異含有座位を同定するのに十分な、配列腫瘍のエクソームまたはゲノムの部分を包含し得る。付加的にまたは代替的に、配列リードを含む配列データは、患者特異的座位における腫瘍特異的変異が少なくとも2、3、4、5、6、7、8、9、10、11、または12の異なる変異クラスに属する変異を含むことを保証するのに十分な、配列腫瘍のエクソームまたはゲノムの部分を包含し得る。付加的にまたは代替的に、配列リードを含む配列データは、患者特異的座位における腫瘍特異的変異が少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、または少なくとも64のトリヌクレオチドコンテキスト、特に、CGC、GGC、TCG、ACG、GCG、TGC、CCG、GCA、CGA、GCC、CGG、CGT、AGC、GCT、TCA、TGA、AGT、ACC、CCC、CCA、CTT、GGG、CCT、GAG、CTG、AGG、CAG、CTC、AGA、TCC、GGT、TGG、CTA、ACA、TCT、TAG、AAG、TGT、ACT、GTC、GGA、TAC、TTG、CAA、TTC、TTA、ATC、ATG、TAA、TAT、CAT、GTT、ATT、ATA、GAA、GAC、GAT、CAC、GTG、TTT、GTA、AAT、AAA、およびAACからなる群から選択されるトリヌクレオチドコンテキストを含むことを保証するのに十分な、腫瘍のエクソームまたはゲノムの部分を包含し得る。
一部の実施形態では、患者の腫瘍を表す2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または少なくとも5000の変異含有座位は、患者由来の腫瘍試料から直接取得したDNAを配列決定するか、または高腫瘍疾患負荷時(例えば治療的処置の開始前もしくは外科的切除前)の患者由来の血漿試料から取得したDNAを配列決定することによって取得される。このように、腫瘍配列、例えば腫瘍エクソームもしくはその部分または腫瘍ゲノムもしくはその部分の決定は、腫瘍由来DNAの比較的豊富な供給源を使用して行うことができ、次いで座位が腫瘍特異的変異を含有するという情報(ステップ(a))は、配列リード(腫瘍由来DNAがより欠乏している時(例えば患者が少なくとも1コースの処置を受け取った後および/または外科的腫瘍切除後)に取得したステップ(b))に対して実施される本発明の方法において用いることができる。例えば、方法は、低いレベルのctDNAを検出することによって腫瘍の再発をモニタリングするために使用され得る。患者の腫瘍を表す2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または少なくとも5000の変異含有座位を含む目的の座位の決定は全体として、どの座位が腫瘍に特異的な変異を含有するかを患者の生殖細胞系列ゲノム配列に関してまたはそれと比較して同定するために、患者の生殖細胞系列DNA配列決定との比較を必要とし得る。例えば、バフィーコートまたは生殖細胞系列DNAの任意の他の好適な供給源(例えば唾液、毛包、皮膚、頬スワブ、白血球)から抽出されるDNA。
一部の実施形態では、目的の座位は、一塩基多型(SNP)であることが既知の座位を取り除くことによって、例えば共通のSNPデータベース(例えば1000Genomes ALLまたはEUR)において見出される位置を取り除くことによってフィルタリングされる。このフィルタリングは、SNPであり得る座位を排除することによって、シグナル、すなわち腫瘍により変異した座位に焦点を当てる(本明細書における実施例10を参照のこと)。
一部の実施形態では、ステップ(b)において用意される配列リードを含む配列データは、患者由来の実質的に無細胞の血漿試料からの複数のDNA断片の配列リードを表す。一部の実施形態では、ステップ(b)において用意される配列リードを含む配列データは、本明細書において定義される任意の試料種からの複数のDNA断片の配列リードを表す。試料源としての無細胞DNA(cfDNA)の使用は、試料を取得するための比較的非侵襲性の方法(いわゆる「液体生検」)を提供する。cfDNAから取得した配列リードは、患者の1つまたは複数の腫瘍に起源を有する循環DNA断片の分画(ctDNA分画)と、存在する場合は、非腫瘍組織または細胞に起源を有する循環DNA断片の分画の両方の配列リードを含み得る。
一部の実施形態では、ステップ(b)において取得される配列リードを含む配列データは、患者が腫瘍の1コースの処置を開始した後および/または患者が腫瘍の外科的切除を行った後に患者から取得した試料からの複数のポリヌクレオチド断片の配列リードを表し、方法は、腫瘍の存在、成長、処置応答、または再発をモニタリングするためのものである。特定の実施形態では、方法は、微小残存病変(MRD)の存在および/または再発をモニタリングするためのものである。
本発明のこの態様および他の態様においては、患者は、黒色腫、肺癌、膀胱癌、食道癌、結腸直腸癌、卵巣癌 脳癌、および/または乳癌から選択される癌を有するかまたは有していたことがある患者であり得る。特に、患者は、転移を伴うかまたは伴わない進行したおよび/または侵襲性黒色腫を含む黒色腫を有すると診断されていてもよい。
一部の実施形態では、リードコラプシングステップ(c)は、断片開始および終了位置、ならびに個々の出発cfDNA分子を固有に標識する少なくとも1つの分子バーコードに基づいた、重複配列決定リードのリードファミリーへのグループ化を含む。本明細書においてさらに定義されるように、「バーコード」または「分子バーコード」とは、本明細書で使用する場合、通例20未満、例えば10bp未満の長さの、ライブラリ調製中の第1のステップとしてDNA分子にライゲートされ得る塩基の固有の文字列を意味する。結果として、リードファミリーはただ1つに同定され、したがってその出発分子に連結され得る。このことは、「リードコラプシング」を介したエラー抑制を可能にする。したがって、同じ開始および終了位置ならびに分子バーコードを有する重複リードは、同じ出発cfDNA分子を起源としているとコンピュータにより同定することができ、「リードファミリー」と称される。特に、リードがリードファミリーに含まれるためには、最低でも60%、70%、75%、80%、85%、90%、またはさらには95%のコンセンサス(「コンセンサス閾値」)が全てのファミリーメンバー間で必要とされ得る。したがって、例えば、リードファミリーに3個のリードが存在し、所与のヌクレオチド位置につき、それらのリードのうちの2個はコンセンサスを示すが、1個は例えば代替塩基を示す場合、リードファミリーは結果として2/3または66%のコンセンサスを有すると考えられる。変異が存在するが、変異塩基がリードファミリーに含めるためのコンセンサス閾値より大きいかまたは等しいコンセンサスによって支持されない場合、リードファミリーは廃棄され得る(すなわち分析においてさらには使用されない)。特定の場合では、2、3、4、または5個のリードの最小ファミリーサイズが必要とされ得る。場合によっては、この最小ファミリーサイズを満たさないリードファミリーは分析において対象から外され得る。ファミリーサイズが大きくなるほど、リードファミリーにわたるコンセンサスがより多い数の独立したリードによって支持されるため、エラー抑制の程度は大きくなる。したがって、エラー抑制ステップに関する限界を設定するために、特定の最小ファミリーサイズ閾値を指定することは好都合であり得る。
本明細書に記載されるように、本発明者らは、in silicoサイズ選択は、緩やかな設定であっても、まれな変異アレルの喪失を最小限にしつつ変異シグナル(すなわちctDNA)をエンリッチすることができることを見出した。エンリッチメントは、場合によってはより小さい初期アレル割合の場合により大きかった(図4cを参照のこと)。したがって、一部の実施形態では、配列リードは、非変異リードに比して、変異リードに好都合となるかまたは変異リードをエンリッチするようにサイズ選択され得る。ある特定の実施形態では、配列リードは、115〜160bp、115〜190bp、250〜400bp、および/または440〜460bpのサイズ範囲内のリードにin silicoでサイズ選択され、ctDNAを表すリードをエンリッチする。全般的に、ctDNAがエンリッチされ、枯渇しないサイズ範囲を使用することは好都合である。これらのサイズ範囲は癌の種類およびステージによって変動し得る。
非腫瘍DNAは166bpでピークに達することが観察されており、したがって一部の態様では、サイズ選択窓はこの最大値の近位の長さの非腫瘍DNAを排除するかまたは最小限にするように調整され得る。より大きなエンリッチメントを結果としてもたらすと予期され得る、サイズ選択に関する1つまたは複数のより狭いサイズ窓もまた本明細書において企図される。例えば、120〜155bp、120〜180bp、260〜390bp、および/または445〜455のサイズ範囲が用いられ得る。あるいは、サイズ選択は、110〜200bp、240〜410bp、および/または430〜470bp等のより広いサイズ選択窓ではより厳密でなくなり得る。一部の実施形態では、in silicoサイズ選択は、当該試料におけるctDNAをエンリッチする実験的に決定したサイズ窓に基づいてあらかじめ決定された1つまたは複数(例えば2つまたは3つ)のサイズ窓に対してサイズ選択し得る。例えば、1つまたは複数の試料からの配列リードが組み合わされ、断片のサイズ分布が決定され、変異リードの割り前と野生型(すなわち生殖細胞系列配列)リードの割り前との比が決定され得る。本発明の方法のためのサイズ窓は、変異リードの野生型リードに対する比率におけるエンリッチメントを表示するサイズ窓であり得る。
ある特定の実施形態では、1つまたは複数のフィルターは、腫瘍由来である可能性のより高いファミリーに焦点を当てるために、リードファミリーに適用される。場合によっては、1つまたは複数のフィルターは、微小残存病変(MRD)フィルター、例えば本明細書において実施例10に記載されるフィルターであり得る。特に、フィルタリングステップは2個超の変異分子を有する座位を排除することを含み得る。代替的にまたは付加的に、フィルタリングステップは順(F)方向と逆(R)方向の両方において配列決定された断片のみを選択すること(すなわち含めること)を含み得る。実施例10に記載されるように、少なくとも1個のFリードと少なくとも1個のRリードとが座位において存在する場合にのみ変異リードは座位におけるシグナルに寄与すると考えられるという要件は、配列決定アーチファクトを抑制すること、およびctDNAにおいてわずかにエンリッチする(図4(a))短いcfDNA断片からの変異リード(両方向のリードによって支持される)を選択することという2つの目的に役立つ。MRDフィルター、例えば2個超の変異分子を有する座位の排除、および少なくとも1個のFリードと少なくとも1個のRリードとを座位に有するリードのみの選択のうちの一方または両方を適用し、その結果生じたフィルタリングされた座位は、「MRD様座位」と称される場合がある。
ある特定の実施形態では、腫瘍アレル割合加重は、腫瘍においてより広く存在する変異から適用されたシグナルの加重を増加させる(上向き加重する)ために適用される。本明細書において実施例11に記載されるように、本発明者らは、血漿からのcfDNAにおいて所与の変異を観察する尤度は腫瘍における所与の変異に関する腫瘍アレル割合に比例することを見出した(図16を参照のこと)。したがって、本発明者らは、患者特異的腫瘍配列決定が、変異コンテキストごとのシグナルの集計前に腫瘍アレル割合によって座位当たりのシグナルを好都合に加重する機会を提供すると推論した。一部の実施形態では、座位当たりの変異アレル割合は腫瘍アレル割合によって加重される。一部の実施形態では、座位当たりの変異アレルの数は腫瘍割合によって加重される。好ましくは、腫瘍アレル割合加重は、座位を含む変異リードファミリーの数を(1マイナスその座位における腫瘍アレル割合)で割ることによって、および座位を含むリードファミリーの総数をまた(1マイナスその座位における腫瘍アレル割合)で割ることによって座位当たりに適用される。これは式:
Figure 2021516962
を使用して表現され得、
式中、
AFコンテキストは所与の(例えばトリヌクレオチド)コンテキストのアレル頻度であり、腫瘍AFは腫瘍の分析によって(例えば腫瘍から直接取得したDNAを配列決定することによって)決定される座位のアレル頻度であり、MRD様座位は、患者の腫瘍から決定され、微小残存病変シグナルを選択するためにフィルタリングされた変異含有座位である。腫瘍アレル割合による加重の効果は、特に図15および18を比較する実施例11に見ることができる。図18においては行われたが図15においては行われなかった、上記式に従った腫瘍アレル割合による加重は、結果として変異シグナルの示差的エンリッチメントを生じる。
ある特定の実施形態では、各トリヌクレオチドコンテキストに関するp値は、試料をバックグラウンドエラー率に対して比較することによって決定される。次いで、トリヌクレオチドコンテキストからの上位(すなわち最も有意な)n個のp値は、好適な技法、例えばフィッシャーの方法またはブラウンの方法を使用して組み合わされる。場合によっては、nは2、3、4、5、6、7、8、10、または12以上であり得る。例えば、n=6である場合、上位6つのトリヌクレオチドコンテキストからのp値が式:
Figure 2021516962
に従って組み合わされ得る。
ある特定の実施形態では、全体アレル割合AF全体は、全てのコンテキストにおける全てのシグナルに基づいて、バックグラウンドエラーEを考慮に入れて算出される。好ましくは、AF全体は式:
Figure 2021516962
に従って決定される。
第2の態様では、本発明は、患者における癌の存在、成長、予後、退縮、処置応答、または再発をモニタリングするための方法であって、
(i)患者から取得したポリヌクレオチド含有試料を配列決定して、試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを取得するステップであり、前記配列リードが、患者の癌細胞における変異保有座位であると決定された少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または少なくとも5000の座位にまたがる、ステップ、
(ii)本発明の第1の態様の方法を、ステップ(i)において取得した配列データを使用して実行するステップ、
(iii)患者における癌の存在、成長、予後、退縮、処置応答、または再発を、少なくとも、試料を、ctDNAを含有する、ctDNAを含有しないと分類することに基づいて、またはバックグラウンドエラーを考慮に入れて算出したアレル割合に基づいて決定するステップ
を含み、任意選択で腫瘍切除後の癌の再発をモニタリングするためのものである、方法を提供する。
場合によっては、配列決定ステップ(i)は、Illumina(登録商標)配列決定を含む次世代配列決定(NGS)、またはサンガー配列決定を含み得る。NGSは、全ゲノム配列決定(WGS)により、または全エクソーム配列決定(WES)もしくは標的化遺伝子配列決定を使用して特異的領域もしくは遺伝子に焦点を当てることによって、変異を検出するために必要とされる速度および確度を提供する。NGS技法の例としては、合成による配列決定、ハイブリダイゼーションによる配列決定、ライゲーションによる配列決定、パイロシーケンシング、ナノポア配列決定、または電気化学的配列決定を用いる方法が挙げられる。
場合によっては、本発明のこの態様の方法は、配列決定前に、患者または2名以上の患者から取得した試料(例えば血漿試料)からDNAライブラリを調製するステップをさらに含む。任意選択で、ライブラリはバーコード化されていてもよい。
場合によっては、本発明のこの態様の方法は、配列決定前に、患者から試料を取得するステップをさらに含む。例えば、血液試料は、癌を有するかまたは有する可能性が高いと診断された患者から収集され得る。試料は、実質的に無細胞のDNA源を取得する(例えば血漿試料を取得する)ために1つまたは複数の抽出または精製ステップ、例えば遠心分離に供されてもよい。方法は、試料のcfDNA濃度を決定するステップをさらに含み得る。試料が輸送および/または保管され得る(任意選択で凍結後)ことは具体的に企図される。試料収集は配列決定の場所から離れた場所で行われ得る、ならびに/またはコンピュータ実装方法ステップは試料収集の場所から離れたおよび/もしくは配列決定の場所から離れた場所で行われ得る(例えばコンピュータ実装方法ステップは、ネットワーク接続したコンピュータによって、例えば「クラウド」プロバイダによって実施され得る)。にもかかわらず、方法全体は、場合によっては単一の場所で実施されてもよく、これは癌の「現場」決定またはモニタリングに好都合であり得る。
場合によっては、本発明のこの態様の方法は、腫瘍撮像データを取得するステップ、および/または癌の存在、成長、処置応答、もしくは再発の決定を支援する1種もしくは複数種の腫瘍バイオマーカーを測定もしくは検出するステップをさらに含み得る。特に、腫瘍撮像データは、例えば腫瘍体積を測定するためのコンピュータ断層撮影(CT)データを含み得る。特定の場合では、バイオマーカーは乳酸脱水素酵素(LDH)濃度を含み得る。そのような追加の腫瘍検出および/または定量の手段は、本発明の方法によってなされた決定を確証し得る、および/または不明瞭な決定を解決することを支援し得る。
場合によっては、この態様の方法は、患者を後続もしくは継続処置を含む抗癌処置に推奨するかまたは患者をそのような抗癌処置のために選択するステップをさらに含み得る。例えば、試料がctDNAを含有すると決定される場合(例えば変異アレル割合がバックグラウンド配列決定エラー率よりも大きい、例えば統計的に有意に大きいと見出される場合)、患者は、化学療法、免疫療法、放射線療法、外科的処置、もしくはそれらの組合せを含む抗癌処置から恩恵を受け得る癌を有するかまたはそのような癌の再発を有すると決定され得る。同様に、試料がctDNAを含有しないかまたは本発明の方法の検出の限界未満のctDNAレベルを有すると決定される場合(例えば変異アレル割合がバックグラウンド配列決定エラー率より大きくもなく、統計的に有意に大きくもないと見出される場合)、患者は癌を有しないかまたは癌から寛解していると決定され得る。したがって、患者は、望まない副作用と関連し得る不必要な抗癌処置の回避から恩恵を受け得る。
第3の態様では、本発明は、癌を有するかまたは有していたことがある患者の処置の方法であって、
a)本発明の第1または第2の態様の方法を実行するステップ、および
b)(i)試料がcfDNA(例えばctDNA)を含有すると決定される場合(例えば変異アレル割合がバックグラウンド配列決定エラー率よりも大きい、例えば統計的に有意に大きいと見出される場合)、抗癌処置を患者に投与するステップ、または
(ii)試料がcfDNA(例えばctDNA)を含有しないかもしくは本発明の方法の検出の限界未満のcfDNA(例えばctDNA)レベルを有すると決定される場合(例えば変異アレル割合がバックグラウンド配列決定エラー率より大きくもなく、統計的に有意に大きくもないと見出される場合)、患者が癌を有しないかもしくは癌から寛解していると決定され得、抗癌療法が短縮され得ること
を含む、方法を提供する。
場合によっては、抗癌処置は、化学療法、免疫療法、放射線療法、および外科的処置から選択され得る。特に、抗癌処置は、ベムラフェニブ、イピリムマブ、パゾパニブ、ダブラフェニブ、およびトラメチニブのうちの1つまたは複数を含み得る。特に、患者が黒色腫を有するかまたは有していたことがあり、試料がcfDNA(例えばctDNA)を含有すると決定される場合、前述の抗癌処置は好適であり得る。
いかなる特定の理論にも拘束されることを望むものではないが、本発明者らは、本発明の方法は癌モニタリングおよびcfDNA、例えばctDNA検出の分野を越えた適用を見出し得ると考える。特に、INVARアルゴリズムは、法科学(例えば微量の加害者(または被害者)のものと疑われるDNAを、被害者(または文脈が指示する場合、加害者)と疑われる人物等の別の人物のより大きな割合のDNAを含有する試料において検出すること、農業および食料(例えば汚染を検出すること)、細胞系譜追跡、臨床遺伝学、ならびに移植医療における使用を見出し得る。多くの、例えば全ての変異リードにわたって集計すること、および任意選択で変異クラスごとに分割すること(さらに分析すること)によってシグナル対ノイズ比を改善するINVAR法の能力は、この方法を、いくつかの座位においてDNAまたはその断片等の他のポリヌクレオチド(例えばRNA)と配列が異なり得る少ない割合の標的DNAまたはその断片等の他のポリヌクレオチド(例えばRNA)を試料が含有すると疑われる場合の適用において魅力的なものにし、より大きな割合の試料を作製する。
したがって、第4の態様において、本発明は、試料における総ポリヌクレオチドの少ない割合である、試料における標的ポリヌクレオチドを検出するための方法であって、標的ポリヌクレオチドおよび非標的ポリヌクレオチドは、複数の座位における配列が異なり、方法が、
(a)少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または少なくとも5000の座位であり、それぞれにおける少なくとも1つの塩基が標的ポリヌクレオチド配列と非標的ポリヌクレオチド配列との間で異なる、座位(「標的特異的座位」)を含む配列情報を取得するステップ、
(b)試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを取得するステップであり、前記配列リードが、ステップ(a)の前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の標的特異的座位にまたがる、ステップ、
(c)任意選択で、リードコラプシングを実施して配列リードをリードファミリーにグループ化するステップ、
(d)前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000以上の標的特異的座位の一部または全てにわたる標的ポリヌクレオチド割合を算出するステップであり、任意選択で標的ポリヌクレオチド割合が式:
Figure 2021516962
に従って変異リードおよび総リードを集計することによって算出される、ステップ、
(e)試料を
(i)標的ポリヌクレオチド割合がバックグラウンド配列決定エラー率に基づいて予期され得る割合よりも統計的に有意に大きいと見出される場合、標的ポリヌクレオチドを含有する、または
(ii)標的ポリヌクレオチド割合がバックグラウンド配列決定エラー率に基づいて予期され得る割合よりも統計的に有意に大きいと見出されない場合、標的ポリヌクレオチドを含有してもなく、未知の標的ポリヌクレオチドのステータスを有してもいない
と分類するステップ
を含む、方法を提供する。
場合によっては、バックグラウンド配列決定エラー率は、前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の座位において表される塩基置換の各クラスに関して決定されるかまたは決定されており、ステップ(d)における標的ポリヌクレオチド割合算出は各塩基置換クラスに関して実施され、
標的ポリヌクレオチド割合統計的有意性決定は、各塩基置換クラスに関する統計的有意性を、その塩基置換クラスのバックグラウンド配列決定エラー率を考慮に入れて計算すること、および計算した各塩基置換クラスの統計的有意性を組み合わせて、試料の全体標的ポリヌクレオチド割合に関する統計的有意性の尺度を得ることを含む。
標的ポリヌクレオチドはDNAであってもRNAであってもよい。
本発明の任意の態様においては、患者は哺乳動物、好ましくはヒトである。患者は癌を有すると診断されていてもよい。場合によっては、患者は、癌のための1コースの処置を経験した場合がある、および/または癌を切り取る外科的処置を経験した場合がある。
本発明の任意の態様においては、方法は、複数(例えば2、3、4、5、または6つ以上)の複製物における所与の試料を分析するステップ、および複製物におけるシグナルを使用して、試料におけるcfDNAの存在または非存在の決定における信頼性を改善するステップを含み得る。そのような場合、本発明の方法の他の制約を緩和することが可能である。例えば、試料複製物を使用することによって、リードコラプシングステップを省略することが可能であり得る。にもかかわらず、試料複製物の使用およびリードコラプシングは相互に排他的ではなく、したがって試料複製物とリードコラプシングの両方は、ある特定の実施形態では、本発明の方法において共に用いられ得る。
本発明の任意の態様においては、一部の実施形態では、試料の分析は異なる断片サイズのDNAを分けるサイズ選択ステップを含む。
一部の実施形態では、患者から取得した試料は、1つ未満の腫瘍由来一倍体ゲノムを含む有限容量試料である。一部の実施形態では、試料からの配列決定データは、1、2、3、4、10、または12未満の一倍体ゲノムの配列決定カバレッジまたは深度を表す。
一部の実施形態では、患者から取得した試料は、
(i)500μl未満、400未満、200未満、100μl未満、または75μl未満の血液、血清、または血漿試料(例えば約50μlの血液または血漿試料)、
(ii)穿刺吸引(FNA)、
(iii)リンパ節生検、
(iv)尿、脳脊髄液、喀痰、気管支洗浄、子宮頸部スメア、または細胞学的試料、
(v)患者からの収集時から1年、2年、3年、5年、または10年超保管された試料、および
(vi)以前に処理されており、DNAもしくは配列決定品質に関する品質測定基準を満たしていない試料、または1組の試料に属する試料であり、1組の試料からの他の試料が、以前に処理されており、DNAもしくは配列決定品質に関する品質測定基準を満たしていない、試料
からなる群から選択される有限容量試料である。
一部の実施形態では、患者から取得した試料は、
乾燥血斑試料、
穿刺血液試料、
患者からの収集後1日超(例えば少なくとも1か月)、または少なくとも1年間、または少なくとも10年間保管された、500μl未満である保存血液、血清、または血漿試料
である。
一部の実施形態では、患者は健康であるかもしくは疾患(例えば癌)を有する、および/または患者はヒトもしくは非ヒト動物(例えばげっ歯類)である。
一部の実施形態では、動物は異種移植または異種間移植されたヒト腫瘍組織を有する。
一部の実施形態では、分析される試料(例えば患者から取得した試料)は、200bp超、300bp超、500bp超、700bp超、1000bp超、1200bp超、1500bp超、または2000bp超のゲノムDNA(gDNA)断片が分析前、例えばDNA配列決定前に試料からフィルター除去されるか、枯渇されるか、または取り除かれるサイズ選択ステップに供されて、サイズ選択された試料を生成する。
一部の実施形態では、サイズ選択ステップは配列決定ライブラリ調製前または配列決定ライブラリ調製後に実行される。
一部の実施形態では、サイズ選択ステップは、gDNA断片のビーズに基づいた捕捉を用いる右側サイズ選択である。
一部の実施形態では、方法は、その試料における患者特異的変異シグナルの残りの分布と一致しない、座位における外れ値ノイズを抑制する(「外れ値抑制」)ステップを含む。
一部の実施形態では、試料におけるctDNA存在の尤度は、一般化尤度比:
Figure 2021516962
によって決定され、一般化尤度比という用語は、実施例14の補足的方法に定義されているようなものである。
第5の態様では、本発明は、患者から取得した試料におけるバリアント無細胞DNA(cfDNA)を検出するための方法であって、試料の分析が異なる断片サイズのDNAを分けるサイズ選択ステップを含む、方法を提供する。
一部の実施形態では、取得される試料は、
(i)500μl未満、400未満、200未満、100μl未満、または75μl未満の血液、血清、または血漿試料(例えば約50μlの血液または血漿試料)、
(ii)穿刺吸引(FNA)、
(iii)リンパ節生検、
(iv)尿、脳脊髄液、喀痰、気管支洗浄、子宮頸部スメア、または細胞学的試料、
(v)患者からの収集時から1年、2年、3年、5年、または10年超保管された試料、および
(vi)以前に処理されており、DNAもしくは配列決定品質に関する品質測定基準を満たしていない試料、または1組の試料に属する試料であり、1組の試料からの他の試料が、以前に処理されており、DNAもしくは配列決定品質に関する品質測定基準を満たしていない、試料
からなる群から選択される有限容量試料である。
一部の実施形態では、前記サイズ選択ステップは、200bp超、300bp超、500bp超、700bp超、1000bp超、1200bp超、1500bp超、または2000bp超のゲノムDNA(gDNA)断片を、分析前、例えばDNA配列決定前にフィルター除去するか、枯渇させるか、または取り除くことを含む。
一部の実施形態では、方法は、
(i)サイズ選択された試料もしくはサイズ選択された試料から生成されたライブラリをDNA配列決定して複数の配列リードを生成し、配列リードを分析してctDNAの存在を検出するステップ、または
(ii)メチル化等のDNA修飾を分析するステップ
を含む。
一部の実施形態では、患者から取得した試料は、
乾燥血斑試料、
穿刺血液試料、
患者からの収集後1日超(例えば少なくとも1か月)、少なくとも1年間、または少なくとも10年間保管された、500μl未満である保存血液、血清、または血漿試料
である。
一部の実施形態では、患者は健康であるかもしくは疾患(例えば癌)を有する、および/または患者はヒトもしくは非ヒト動物(例えばげっ歯類)である。
一部の実施形態では、動物モデルは異種移植または異種間移植されたヒト腫瘍組織を有する。
一部の実施形態では、前記分析は、サイズ選択された試料またはサイズ選択された試料から生成されたライブラリの次世代配列決定(NGS)を含む。
一部の実施形態では、前記分析は、サイズ選択された試料またはサイズ選択された試料から生成されたライブラリを配列決定して配列リードを生成することを含み、
本発明の第1から第4の態様のいずれかの方法を実施すること、
コピー数分析を実施すること、
配列リードを処理して、コピー数中立からのトリミングされた中央絶対偏差(t−MAD)スコアもしくはichorCNAスコアを決定すること、ならびに/または
配列リードを少なくとも2種の異なる参照ゲノム、例えばヒト参照ゲノムおよびげっ歯類参照ゲノムに対してアラインメントすること
から選択される配列リードの分析をさらに含む。
一部の実施形態では、t−MADスコアは、健康な対象に由来する全ゲノムデータセットにおいて高コピー数変動を呈するゲノムの領域をトリミングし、次いでゲノムのトリミングされなかった領域の、logR=0からの中央絶対偏差を算出することによって決定される。
一部の実施形態では、サイズ選択ステップは配列決定ライブラリ調製ステップの前または後に実行される。
一部の実施形態では、サイズ選択ステップは、gDNA断片のビーズに基づいた捕捉を用いる右側サイズ選択である。
一部の実施形態では、バリアント無細胞DNAは循環腫瘍DNA(ctDNA)である。
一部の実施形態では、方法は、癌の早期検出、癌処置のモニタリング、残存疾患の検出のためのものであり、処置決定を導くため、すなわち患者における癌の状況におけるステータス、または癌の進行、または処置に対する癌の応答、または患者のためのさらなる処置の必要性もしくは種類を評価するために使用される。
一部の実施形態では、患者はヒトまたは癌の動物モデル(例えばげっ歯類)である。
一部の実施形態では、バリアント無細胞DNAは、
患者に移植されたドナー組織もしくは器官からのcfDNA、
患者の妊娠中の胎児からの胎児cfDNA、または
異常にメチル化したcfDNA
を含む。
一部の実施形態では、方法は、医療処置、食事の変更、もしくは身体運動を導く情報を提供するために使用されるか、または法科学的分析のため、もしくは生物学的材料が試料に存在する固体を同定するため、もしくは生物学的材料が試料に存在する生物を同定するために使用される。
一部の実施形態では、患者は、小児癌を有するかまたは有すると疑われるヒト小児である。小児癌は多くの場合、例えば患者の年齢のために試料収集における困難と関連し、試料は少ない容量であり得る、および/または低いレベルのctDNAを含有し得る。小児癌としては、様々な脳腫瘍、リンパ腫、白血病、神経芽腫、ウィルムス腫瘍、非ホジキンリンパ腫、小児横紋筋肉腫、網膜芽腫、骨肉腫、ユーイング肉腫、胚細胞腫瘍、胸膜肺芽腫、肝芽腫、および肝細胞癌腫が挙げられる。
第6の態様では、本発明は、患者から取得したDNA含有試料における標的無細胞DNA(cfDNA)を検出するためのシステムであって、
少なくとも1つのプロセッサ、ならびに
少なくとも1つのプロセッサによって実行される場合、少なくとも1つのプロセッサに、
(a)患者由来のDNA含有試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを受け取るステップであり、前記配列リードが少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の変異含有座位にまたがる、ステップ、
(b)任意選択で、配列決定ノイズ低減を実施する、例えばリードコラプシングを実施して配列リードをリードファミリーにグループ化するステップ、
(c)前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の患者特異的座位の一部または全てにわたる変異アレル割合を算出するステップであり、任意選択で変異アレル割合が式:
Figure 2021516962
に従って変異リードおよび総リードを集計することによって算出される、ステップ、
(d)試料を、算出した変異アレル割合に基づいて、標的cfDNAを含有するまたは含有しないと分類するステップ
を含む操作を実施させる命令を含有する少なくとも1つの非一時的コンピュータ可読媒体
を含む、システムを提供する。
一部の実施形態では、システムは本発明の方法における使用のためのものである。
第7の態様では、本発明は、患者から取得したDNA含有試料における標的無細胞DNA(cfDNA)を検出するための非一時的コンピュータ可読媒体であって、少なくとも1つのプロセッサによって実行される場合、少なくとも1つのプロセッサに、
(a)患者由来のDNA含有試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを受け取るステップであり、前記配列リードが前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の変異含有座位にまたがる、ステップ、
(b)任意選択で、配列決定ノイズ低減を実施する、例えばリードコラプシングを実施して配列リードをリードファミリーにグループ化するステップ、
(c)前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の患者特異的座位の一部または全てにわたる変異アレル割合を算出するステップであり、任意選択で変異アレル割合が式:
Figure 2021516962
に従って変異リードおよび総リードを集計することによって算出される、ステップ、
(d)試料を、算出した変異アレル割合に基づいて、標的cfDNAを含有するまたは含有しないと分類するステップ
を含む操作を実施させる命令を含む、非一時的コンピュータ可読媒体を提供する。
一部の実施形態では、媒体は本発明の方法における使用のためのものである。
次に、本発明の実施形態が、添付の図面を参照して例として、ただしそれによって限定されずに説明される。しかしながら、本発明の様々なさらなる態様および実施形態は、本開示を考慮して当業者に明らかとなるだろう。
本発明は、記載される態様および好ましい特徴の組合せが明確に容認できないかまたは明白に回避されるべきであると述べられている場合を除き、そのような組合せを含む。本発明のこれらのおよびさらなる態様および実施形態は、添付の実施例および図面を参照して下にさらに詳細に記載される。
INtegration of VAriant Readsおよびテイラードパネル配列決定の原理的説明および概略を示す図である。完全な分析性能を有するとしても、単一座位アッセイは、無作為なサンプリングのために低いctDNAレベルを検出することができない可能性がある。このことは、同じ試料に関して多重アッセイを使用することによって克服され得る。表は、多様なレベルの入力材料および標的化された変異に関して探査される断片の数を示し、1,000の入力ゲノムにおいて探査される1,000の変異座位は、サンプリングされる10個の分子をもたらす。 INtegration of VAriant Readsおよびテイラードパネル配列決定の原理的説明および概略を示す図である。サンプリングエラーを克服するために、数百から数千の変異にわたるシグナルを統合し、試料(変異ではない)を、ctDNAに関して有意に陽性または検出されないと分類する。既知の腫瘍遺伝子型同定された座位と重なる血漿における配列決定リードは「患者特異的」リードと称され、隣接する座位、および他の患者において評価された同じ座位は、バックグラウンドノイズ率を推定するために使用することができる。 INtegration of VAriant Readsおよびテイラードパネル配列決定の原理的説明および概略を示す図である。本明細書に記載されるように、腫瘍配列決定を最初に実行し、患者特異的ハイブリッド捕捉ベイトの設計を可能にした。患者特異的ハイブリッド捕捉ベイトは、無細胞DNAを捕捉し、血漿における中央値で673の座位(90〜5,312の範囲)を配列決定するために使用され、各試料においてSNV座位当たり1,367xの品質フィルター処理深度中央値(IQR 761〜1,886x)を達成した。 エラー抑制後に観察されたエラー率を示すグラフである。1から5の間のリードファミリーの最小ファミリーサイズ要件を有する、リードをコラプシングするリードファミリーによるエラー抑制後に残留する分子の比率を示す箱ひげ図(上側のパネル)。各ファミリーサイズ閾値に関して、リードファミリー当たりのエラー率を示す(下側のパネル)。標的化バリアントの両側10bpの標的外(ただしベイト適合)配列決定リードは、エラー率を決定するために使用した。 エラー抑制後に観察されたエラー率を示すグラフである。5の最小ファミリーサイズを用いた、12の変異クラスに分割された配列変化に関するエラー抑制されていない(青;上側)およびエラー抑制された(赤;下側)エラー率。示された中央値前後のデータの広がりを特性解析するために、データをリサンプリング、または「ブートストラップ」し、それによって複数の試料をデータから反復して取り出し、広がりを特性解析する。この場合、データは100回ブートストラップされ、95%信頼区間が示される。 図3aはINVARとクラスごとの検出との感度の分析を示す図である。データを変異クラスに分割していない、エラー抑制を用いた添加希釈実験(spike−in dilution experiment)(50ngの入力)に関する予期されたアレル割合対観察されたアレル割合のプロット。塗りつぶされた丸は、INVARを使用したctDNAの有意な検出を示す。エラー抑制されたデータに関する全体のバックグラウンドエラー率を示す(赤の横破線)。図3bはINVARとクラスごとの検出との感度の分析を示す図である。INVARを使用し、かつデータを変異クラスごとに分割した検出を用いた同じ添加希釈を示す。全体のバックグラウンドエラー率およびノイズが最も小さい変異クラスのエラー率を示す(赤の横破線)。バックグラウンド減算をクラスごとに実施した。有意な検出は0.3ppmまで達成された。 図3cはINVARとクラスごとの検出との感度の分析を示す図である。分析する座位の数をin silicoでダウンサンプリングし、50から5,000の間の変異を試験した(方法)。感度は、変異DNAが異なるレベル(示されている)に希釈された試料に関して示す。2,500の変異に関して、希釈ctDNAは0.3ppmにおいて約50%の感度で検出された。図3dはINVARとクラスごとの検出との感度の分析を示す図である。特異度を、非患者特異的データを使用して異なる数の変異に関して評価して、偽陽性検出率を評価した。2,500の変異に関して、偽陽性率は200分の1未満であった。 血漿における腫瘍由来および野生型DNA断片のサイズプロファイルを示すグラフである。患者特異的座位におけるエラー抑制されたリードファミリーを変異および野生型ファミリーに分割した。5bpの区間における変異リードの比率を赤で示し、野生型リードを青で示す。 血漿における腫瘍由来および野生型DNA断片のサイズプロファイルを示すグラフである。各区間に関して、正規化した変異リードと野生型リードとの比をエンリッチメント比として決定した。エンリッチメント最大値は、リンカーDNAの長さを引いたヌクレオソームDNAに概ね対応する約140bpおよび約300bpで観察された、エンリッチされた区間を青で着色する。 血漿における腫瘍由来および野生型DNA断片のサイズプロファイルを示すグラフである。(b)におけるエンリッチ区間に基づいてin silicoでサイズ選択された各試料に関して、変異アレル割合のエンリッチメント百分率を示す。エンリッチされた試料を青で着色する。指数曲線はデータに適合した。 INVAR−TAPASの臨床適用を示すグラフである。ctDNA変異アレル割合を、濃く塗られた異なる四角によって示される複数の療法を連続して受けた1名の患者(MR1004)に関して時間の経過と共にプロットする。塗りつぶされた丸は、ctDNAの有意な検出を示す。検出されなかった時点は、達成された総深度に基づいて、考えられる最大のアレル割合でプロットする。第4の時点の検出はサイズ選択後に達成され、追加の丸によって示す。 INVAR−TAPASの臨床適用を示すグラフである。同じ患者に関する、時間の経過を伴う総腫瘍体積を示す。 INVAR−TAPASの臨床適用を示すグラフである。この患者によって時間の経過と共に受け取られた全身療法およびRECIST応答データを示す。PD=進行性疾患。 INVAR−TAPASの臨床適用を示すグラフである。CT撮像からの腫瘍体積を、全ての患者に関してctDNA変異アレル割合に対してプロットする。0.67のピアソン相関が観察された(P=0.0002)。 INVAR−TAPASの臨床適用を示すグラフである。ctDNAレベルが処置開始後に10ppm未満に低減した患者(n=10)(赤)は、ctDNAレベルがいずれの時点でもこの閾値未満に一度も低下しなかった患者(淡青)よりも24か月長い全生存期間を有した(ログランク検定、P=0.009)。 INVAR−TAPASの臨床適用を示すグラフである。変異DNAの有意な検出を有する各ライブラリ(方法)に関して、ライブラリ調製に対するDNA入力質量を、INVARによって決定された試料における変異DNA割合に対してプロットする。青線は、単一座位に関するアッセイが、その座位において少なくとも1個の変異分子をサンプリングする確率に基づいて95%の感度を有し得る位置を示す。 耐性変異の新たな検出を示す図である。患者MR1022に関して、COSMICにおいて以前に同定された個々の変異を、処置中の時間の経過と共にプロットする。NRAS Q61K変異が3つの経時的血漿時点において新たに同定された。この変異は患者の腫瘍において以前には同定されなかった。 耐性変異の新たな検出を示す図である。時間の経過を伴う複数の腫瘍病変の体積を同じ患者に関して示し、総体積を太線で示す。 耐性変異の新たな検出を示す図である。患者MR1022に関する病変位置を示すCT撮像。 複数の変異にわたるシグナルの統合を示すグラフである。患者当たりのエクソーム当たりの同定された変異の数を示す。 複数の変異にわたるシグナルの統合を示すグラフである。高いレベルのctDNAを有する血漿試料の一例として、各患者特異的座位のアレル割合を示す。y軸は100までに限定されている。変異リードを全ての座位にわたって集計して、深度加重平均変異アレル割合を得ることができる。この統合された変異アレル割合を赤の縦破線で示す(「平均」と称する)。 データを変異クラスに分割していない、エラー抑制を用いた経験的添加希釈実験(3.7ngの入力)に関する予期されたアレル割合対観察されたアレル割合のプロットを示すグラフである。塗りつぶされた丸は、INVARを使用したctDNAの有意な検出を示す。エラー抑制されたデータに関する全体のバックグラウンドエラー率を示す(赤の横破線)。 患者当たりのctDNAのエンリッチメント比を示すグラフである。各患者に関して、変異および野生型リードを、エラー抑制されたデータからの患者の全ての血漿試料にわたって集計した。各5bpの空間に関して、変異断片の割り前対野生型断片の割り前の比を示す。1超のエンリッチメント比を有する区間を青で着色する。 血漿ctDNAと臨床パラメータとの関係を示すグラフである。血漿ctDNA変異アレル割合を、適合した時点における乳酸脱水素酵素(LDH)濃度に対してプロットする。塗りつぶされた丸はctDNAの有意な検出を示す。LDHの正常の上限である245U/Lを赤の破線で示す。 血漿ctDNAと臨床パラメータとの関係を示すグラフである。ベースラインctDNA濃度は全生存期間と負に相関する(ピアソンr=−0.61;P=0.04)。 トリヌクレオチドコンテキストおよび変異クラスごとに分割された変異計数を示すグラフである。ステージIVの黒色腫を有する10名の患者からの新鮮凍結腫瘍生検を配列決定した。 腫瘍変異アレル割合のヒストグラムを示す図である。ステージIVの黒色腫を有する10名の患者からの新鮮凍結腫瘍生検を配列決定した。腫瘍変異アレル割合中央値は約25%であると推定された。 トリヌクレオチドコンテキストおよび変異クラスごとのバックグラウンドエラー率のプロットを示すグラフである。エラー率は、コンテキストにおいて非参照である総リードファミリーの比率として決定した。配列決定は、健康な個体からの血漿に関するTAPASを使用して実施し、2の最小ファミリーサイズ閾値を用いてエラー抑制した。シグナルは、FリードとRリードの両方において検討するために必要とされた。 添加希釈実験に関する変異アレル割合のヒストグラムを示す図である。 添加実験の希釈レベルごとの、座位当たりの変異リードの数のプロットを示すグラフである。各点は1つの座位を表す。変異リードを有しない点は示していない。配列決定がPE150を用いて実施され、かつcfDNA分子が約160bpである場合、FリードとRリードの両方においてTAPASを用いて配列決定された個々の変異は、その座位に2個の変異リードを有し得る。 腫瘍エクソームアレル割合対血漿TAPASアレル割合のプロットを示すグラフである。高いレベルのctDNAを有する患者からの血漿試料を、変異出現のこの分析のために使用した。 血漿における1%未満の変異アレル割合の座位の比率対腫瘍アレル割合のプロットを示すグラフである。変異アレル割合が1%未満である座位の比率は、低い変異アレル割合を有する腫瘍変異座位において最大であった。 腫瘍アレル割合によって加重された(1−腫瘍AF)、座位当たりの添加希釈実験変異リードファミリーを示すグラフである。図15と同じ希釈実験を使用した。 試験および対照試料に関する腫瘍AF加重前および後の変異の合計を示すグラフである。変異の合計が4以下の座位のみを示す。試験試料からの変異リードを青で示し、対照を赤で示す。試験および対照に関する変異リードの絶対数を、このプロットに関して等しくなるようにダウンサンプリングした。破線は、参照用のy=xおよびy=2xの線を表す。 エクソーム配列決定を使用した試験および対照試料に関する腫瘍AF加重前および後の変異の合計を示すグラフである。変異の合計が4以下の座位のみを示す。試験試料からの変異リードを青で示し、対照を赤で示す。リードファミリーのダウンサンプリングは実施しなかった。破線は、参照用のy=xおよびy=2xの線を表す。 分子バーコードを用いない、血漿エクソーム配列決定を使用した5×10−5の変異アレル割合の検出を示すグラフである。試験および対照試料に関するP値を示し、INVARからのそれらの全体アレル割合に対してプロットする。各点は1つの試料を表す。検出された試料を青で示し、検出されなかった試料を赤で示す。P値の閾値は、97.5%の特異度を有する対照試料を使用して経験的に設定した。 TAPASデータに対する非標的化INVARの適用を示すグラフである。この添加希釈実験の予期されたアレル割合(AF)を、INVARによって決定された全体アレル割合(AF)に対してプロットする。試験試料を青で示し、対照を赤で示す。 図23aはINtegration of VAriant Readsの研究概略および原理的説明を示す図である。高いレベルのctDNAを有する試料(青で示す、上段のパネル)では、変異(橙色)を保有する複数のDNA断片は、血漿において、ホットスポットアッセイまたは限定された遺伝子パネル(ピンク色の陰)によって包含された座位にわたって見出され得る。これらは、種々のアッセイを使用して、健康な細胞からのバックグラウンド非変異リード(灰色)と区別することができる。非常に低い存在量のctDNAを有する試料(下段のパネル)では、限定されたカバレッジの範囲を有するアッセイはいかなる変異断片も検出しない場合があるが、変異断片は、腫瘍において変異している数多くの座位(緑の縦点線)にまたがることによって検出される可能性がより高くなる。散発性変異もまた低い比率で生じ得るが、本図では表さなかった。図23bはINtegration of VAriant Readsの研究概略および原理的説明を示す図である。分析された一倍体ゲノム対変異の数をプロットする、INVARを使用したctDNA分析に関する考えられる機能点の範囲の図。斜めの線は、同数の有益なリード(IR、hGA×標的化座位と等価)を生成する複数の手段を示す。現行の方法は多くの場合、患者当たり1〜30の変異にわたる、約10ngのDNA(ゲノムの300〜10,000の一倍体コピー)の分析に焦点を当てる。これは典型的には、結果として約10,000個のIRを生じ、頻繁に直面する0.01%〜0.1%の検出限界に至る6、10。本研究において、本発明者らは、より多い数の標的化変異からの情報を利用するINVARという分析枠組み(図24)を開発した。患者特異的ハイブリッド捕捉パネルを使用して、大半の試料に関して10〜10個のIRを取得した(図25および図26を参照のこと)。INVARと調和するようにcfDNAのWESおよびWGSを使用して、限定された入力からctDNAを検出した(図27および図28)。ng、ナノグラム;mL、ミリリットル。 図23cはINtegration of VAriant Readsの研究概略および原理的説明を示す図である。INVAR法による配列決定データの使用法の概要。個々の変異リストを、患者の腫瘍試料および非癌性物質の分析によって各患者に関して生成する。本研究では、WESを使用して腫瘍およびバフィーコートDNAを分析した。データを、適合した患者(着色した四角で示す)、および腫瘍またはバフィーコート分析においてこの座位が変異していると見出されなかった同じコホートからの追加の患者(灰色の四角によって示す)における目的の座位それぞれに関して収集する。そのようなデータは、標準化された配列決定パネル(例えばWES/WGS)を全ての試料に適用することによって(図27および図28)、または複数の患者特異的変異リストを組み合わせて複数の患者にわたって配列決定されるカスタムパネルとすることによって(図25および図26)生成することができる。各患者に関して、INVARは、患者特異的変異リストの座位にわたる配列決定情報を集計する。それらの座位における他の患者からのデータ(「非適合変異」)は、バックグラウンド変異率およびctDNA検出カットオフを決定するために使用される。図23dはINtegration of VAriant Readsの研究概略および原理的説明を示す図である。大きな患者特異的変異リストにわたる配列決定データを高深度で生成するために、腫瘍遺伝子型同定によって生成された患者特異的変異リストを使用して、血漿試料から抽出したDNAに適用されるハイブリッド捕捉パネルを定義した。 図24aはINVAR法の開発および分析性能を示す図である。INtegration of VAriant Reads。サンプリングエラーを克服するために、シグナルを数百から数千の変異にわたって集計した。ここで、本発明者らは、試料(個々の変異ではない)を、ctDNAを有意に含有するまたは不検出と分類する。「有益なリード」(IR、青で示す)は、患者の試料から生成された、同じ患者の変異リストにおける座位と重なり合うリードである。これらのうちの一部は目的の座位において変異を保有し得る(橙色で示す)。同じ座位における他の患者の血漿試料からのリード(「非患者特異的」)は、配列決定エラー、PCRアーチファクト、または生物学的バックグラウンドシグナルに起因して生じ得るバックグラウンドエラー率(紫で示す)の率を算出するための対照データとして使用する。INVARは、断片長および腫瘍アレルの割合に関する追加の配列決定情報を統合して検出を増強する。 図24bはINVAR法の開発および分析性能を示す図である。異なるエラー抑制設定(補足的方法)後のエラー率の低下。図24cはINVAR法の開発および分析性能を示す図である。データフィルタリング後のトリヌクレオチドコンテキストおよび変異クラスごとのエラー率。エラー率は同じ変異クラス内で100倍以上変動する可能性があり、それらのトリヌクレオチドコンテキストに関する座位を評価する必要性を強調する。図24dはINVAR法の開発および分析性能を示す図である。患者の3つの異なるコホートからの変異断片のLogエンリッチメント比。ctDNAに関してエンリッチされたサイズ範囲は、INVARアルゴリズムによってより大きな重みが割り当てられる。図24eはINVAR法の開発および分析性能を示す図である。INVARの感度を評価するための添加希釈実験。エラー抑制されたデータをINVARに対して使用した場合、ctDNAは、3.6ppmまでは全ての希釈液の複製物において、3.6×10−7の予期されたctDNAアレル割合では3つの複製物のうちの2つにおいて検出された(補足的方法)。癌患者からの添加されたDNAを含まない、同じ健康な個体からの11の複製物のエラー抑制されたデータを使用した場合、変異リードは、患者特異的変異リストにわたって集計された6.3×10個の有益なリードにおいて観察されなかった。図24fはINVAR法の開発および分析性能を示す図である。添加希釈系列における感度は、分析された座位の数を1から5,000の間の変異にin silicoでダウンサンプリングした後に評価した(補足的方法)。 図25aは患者特異的捕捉パネルにわたるINtegration of VAriant Readsを示す図である。3つのコホートにわたる66名の癌患者からの144の血漿試料における、分析された一倍体ゲノム(hGA)の数(固有のリードの平均深度として算出)および標的化された変異の数。これらを、患者特異的変異リストを包含するカスタムハイブリッド捕捉パネル(図23d)を使用して配列決定して、中央値で628の変異した座位にわたって、185の、リードのコラプシング後の固有深度中央値(hGA)(方法)を達成した。各ハイブリッド捕捉パネルは、同じコホート由来の複数の患者からの変異リストを組み合わせ、複数の患者からの血漿試料に適用されて、患者適合リードと対照データの両方を生成した(図23c)。斜めの破線は、示されたIRを生じる標的化座位hGAの数を示す。図25bは患者特異的捕捉パネルにわたるINtegration of VAriant Readsを示す図である。これらの3つのコホートの症例にわたる、異なる数の分析された変異を用いて取得可能であり得る有益なリードの数。感度の増加はIRに直接相関し、検出される最小ctDNA割合はINVARの現行の実装(方法)では2/IRである。赤線は、腫瘍WESによって同定された全ての変異を包含するカスタムパネルを用いて取得したIRの分布を示す。淡い/濃い緑線は、1または20の変異を各試料に関して分析した場合に生成されたIRを示す(座位当たりの平均IRに基づいて算出)。IRは、カスタムパネルの設計を導く全ゲノム配列決定(WGS)を使用することによってさらに増加し得る(橙色の曲線、本発明者らのWESにおいて観察された変異率に基づいて外挿)。WESからの変異リストを使用した場合、10個のIRを超える試料には橙色で陰を付け、2×10個未満のIRを有する試料には青で陰を付ける。 図25cは患者特異的捕捉パネルにわたるINtegration of VAriant Readsを示す図である。設計プロセス、分析、および考えられる成果:ctDNAが検出され得る、高いIRにもかかわらず未検出、または場合によっては数個の変異もしくは配列決定の低い固有深度に起因して低いIRが取得される、を示す概略図。この最後の場合は、分析感度が限定されるため、技術的失敗と定義すべきである。慣例的な実装では、そのような場合は、深度を増加する追加の配列決定を用いて、追加の材料の分析を用いて、または改訂捕捉パネルを設計するために使用することができる腫瘍のより広範な配列決定を使用して(例えばWGSによって)拡張した変異リストを生成することによって、再分析することができる。 図25dは患者特異的捕捉パネルにわたるINtegration of VAriant Readsを示す図である。各試料のIRに対してプロットした、検出されたctDNA分画の二次元表示。ctDNAは、その分画濃度(IMAF)が2/IRよりも高い(1/IRでプロットされる破線よりも上に置かれる)場合に検出することができた。一部の試料では、10個超のIRが取得され、ctDNAは、数ppm(橙色で陰を付けた領域)の割合まで検出された。一部の試料では、IRはほとんど取得されず、結果として限定された感度となった。本発明者らの研究では、20,000というIRの閾値を使用し(最も左の点線)、その結果、20,000個未満のIRを有する、未検出ctDNAを有する試料は、技術的不成功として排除した(144の試料のうち総計で6;濃青で陰を付けた領域)。この領域外の試料は、検出されたctDNAを有したか、または0.01%未満の推定ctDNAレベル(20,000個超のIRで未検出;この値の信頼性範囲は、各試料に関してIRに応じて変動する)を有した。それらの試料を技術的失敗として排除した場合、ctDNAにわたる全体の検出率は、組み合わせた3つのコホートに関して73.6%から76.2%に増加した。代替的な閾値、例えば66,666個のIRが使用され得、結果として0.003%または30ppmの検出レベル(第2の点線および淡青で陰を付けた領域によって示す)をもたらす。0.003%の検出感度に達しなかった試料(11の試料)を排除した場合、コホートにわたるctDNA検出率は82.6%に増加した。図25eは患者特異的捕捉パネルにわたるINtegration of VAriant Readsを示す図である。ctDNA IMAFおよび腫瘍体積を、いくつかの処置方針(陰を付けた四角によって示す)の過程にわたって、転移性黒色腫を有する1名の患者に関して時間の経過と共にプロットする。ctDNAは、疾患体積がおよそ1.3cmであった場合、抗BRAF標的化療法を用いた処置中2.5ppmまで検出された。 図26aは早期および進行した疾患におけるINVARによるctDNA検出を示すグラフである。3つのコホートのそれぞれに関して昇順で示される、本研究における試料において検出されたctDNA分画レベル(IMAF)。塗りつぶされた丸は、測定されたIMAFを考慮して、分析された一倍体ゲノムの数が完全な単一座位アッセイに関する95%の検出の限界未満に低下し得る試料を示す(補足的方法)。白抜きの丸は技術的失敗、すなわちctDNAがIR<20,000で検出されなかった(ND)試料を示す。図26bは早期および進行した疾患におけるINVARによるctDNA検出を示すグラフである。照会された座位の数で割った変異断片の数として算出した、上記のパート(a)におけるのと同じ順番の試料のそれぞれに関して検出された癌ゲノムのコピーの数。 図26cは早期および進行した疾患におけるINVARによるctDNA検出を示すグラフである。健康なボランティアからの試料と比べた、ステージI〜IIIAのNSCLC患者の診断時の血漿におけるctDNAの検出に関するROC分析。97.4%の特異度で、ctDNAはステージIの患者の50%において検出された(ステージIAでは5例のうちの20%、およびステージIBでは5例のうちの80%;10例のうちの9例が腺癌腫であった)。図26dは早期および進行した疾患におけるINVARによるctDNA検出を示すグラフである。ctDNAが外科的処置後の初めの6か月において検出された試料(青線)または検出されなかった試料(赤線)に関する、ステージII〜IIIの黒色腫を有する患者における外科的切除後の無疾患個体の比率。無疾患期間は、ctDNAが外科的処置後6か月以内に検出された患者において有意に劣っており(P=0.007)、これらの患者には5年の期間以内に再発した患者のうちの半分が含まれた。図26eは早期および進行した疾患におけるINVARによるctDNA検出を示すグラフである。異なる数の配列決定されたIRに関するctDNAの検出率を推定した。ステージIVの黒色腫コホートのベースライン試料(青)において、IRと検出との間に線形関係が存在した(R=0.95)。診断時のステージI〜IIIAのNSCLC(緑)および外科的処置後のステージII〜IIIの黒色腫(赤)において、線形関係がIRと検出率との間で観察され、ctDNAの予測された検出の率を外挿した。ND、不検出。 INVARを使用したWES/WGSデータからのctDNAの高感度検出を示す図である。(a)一般化したINVAR手法の概略図。腫瘍(およびバフィーコート)、ならびに血漿試料は、全エクソームまたはゲノム配列決定を使用して並行して配列決定され、INVARは、腫瘍(およびバフィーコート)配列決定から推測された変異リストを使用して血漿WES/WGSデータに適用することができる。(b)INVARを、238xの平均配列決定深度(リードのコラプシング前)を有する21の血漿試料からのWESデータ、および0.6xの平均配列決定深度(リードのコラプシングの前)を有する33の血漿試料からのWGSデータに適用した。IMAF値を、あらゆる試料に関する固有のIRの数と対照してプロットする。この深度におけるWESはカスタム捕捉パネルと比べて低いIRを生じたが、場合によっては、IRは10を超えた。低深度におけるWGSは、変異リストがこれらの症例に関する腫瘍配列決定の程度に基づいてエクソームにまたがるのみであるため、10,000個未満のIRを生じた。縦点線は20,000のIR閾値を示し、斜めの破線は1/IRを示す。(c)低から高へ並べられた、WESを用いて分析した21の試料に関して観察されたIMAF。ND、不検出。(d)患者特異的変異リスト(WES腫瘍解析に基づく、各患者に関して500超の変異を含む)と共にINVARを使用して分析した、0.6xの平均深度を有するsWGSデータを使用した、ステージIVの黒色腫を有する6名の患者の血漿におけるctDNAレベルの経時的モニタリング。塗りつぶされた丸は、INVAR尤度のROC分析による、0.99超の特異度レベルでの検出を示す(方法、図36)。他の試料の場合、ctDNAレベルの95%信頼区間を、各試料に関する有益なリードの数に基づいて示す(白丸および棒)。ND、不検出。 図28aは個々の血滴におけるctDNAの検出を示す図である。DNA抽出、それに続くサイズ選択および低深度WGSによる乾燥血斑の分析に関する概要。リードは、INVARを適用する前かまたはコピー数異常の分析前に固有分子識別子(UMI)を使用してコラプシングする。右側のプロット図はゲノムにわたるリード密度を示す。図28bは個々の血滴におけるctDNAの検出を示す図である。癌患者から収集した乾燥血斑から抽出したDNAの配列決定からの、腫瘍により変異したアレル(淡青)および参照アレル(濃青)を保有するリードの断片長。図28cは個々の血滴におけるctDNAの検出を示す図である。卵巣癌の異種移植モデル(左側のパネルに例示)から収集した血斑から抽出したDNAを、浅い全ゲノム配列決定によって分析した。ヒトゲノムに対してアラインメントしたリードの断片長(赤)は、マウスゲノムに対してアラインメントしたもの(青)より短かった。 図28dは個々の血滴におけるctDNAの検出を示す図である。全血斑(赤菱形)から、または0.6倍のhGAと等価である0.6xの平均深度のWGSで配列決定したライブラリ(黒丸、図27dに示すデータ)からの、WGSによって分析された試料に関して分析したhGAおよび変異の数。濃青で陰を付けた四角は、1〜2滴の血液からのWGSデータを使用した場合に達成される機能点を示し、約10個のIRおよび10−4未満の感度に達することができる。淡青で陰を付けた四角は、sWGSデータを使用した場合の機能点を示す。図28eは個々の血滴におけるctDNAの検出を示す図である。平均で0.1×または10×のカバレッジ(0.1および10のhGAと等価)を使用した、異なる癌の種類を有する患者における乾燥血斑のWGS分析に関する予測感度。異なる癌の種類に関するゲノムのMbp当たりの既知の変異率に基づいて24、液滴当たりの取得可能な有益なリードの数が推定され得る。コピー数変化に基づくctDNAに関する検出の限界を、3%の目印として示す28 患者特異的分析が従来の限定された入力シナリオにおけるサンプリングエラーを克服することを示す図である。高いレベルのctDNAが存在する場合、遺伝子パネルおよびホットスポット分析はctDNAを検出するのに十分である。しかしながら、ctDNA濃度が低い(患者における低いctDNA濃度、または限定された材料アベイラビリティに起因する)場合、これらの一般的なアッセイは、サンプリングノイズに起因する偽陰性結果のリスクが高い。広範囲にわたる患者特異的変異のリストを利用することは、複数の座位における変異リードのサンプリングを可能にし、極端に低いctDNAレベルまたは限定された出発物質のいずれかのために変異リードがほとんど存在しない場合にctDNAの検出を可能にする。 INVARアルゴリズムの概要を示す図である。(a)INVARは、患者を活用して互いに照合し、別個の健康な対照を使用する。本研究において、個々の変異リストは腫瘍およびバフィーコート配列決定から生成される。目的の各座位は、適合した患者において、およびこの座位が腫瘍分析においてもバフィーコート分析においても変異していると見出されなかった同じコホートからの追加の患者において配列決定される。これは、一般的なパネルを全ての試料に適用することによって(例えばWES/WGS、図27)、または複数の患者特異的変異リストを組み合わせて複数の患者にわたって配列決定される組み合わせたカスタムパネルとすることによって(図25および図26)行うことができる。各患者に関して、INVARは、患者特異的変異リストの座位にわたる配列決定情報を集計する。それらの座位における他の患者からのデータ(「非適合変異」)は、バックグラウンド変異率および検出カットオフを決定するために使用される(補足的方法)。健康な個体からの追加の試料は同じパネルによって分析され、このデータはINVARアルゴリズムにおいて、患者試料におけるctDNAの検出を決定するためには使用せず、健康な個体における偽陽性率を評価するために使用した。(b)INtegration of VAriant Readsのワークフロー。INVARは、血漿配列決定データを利用し、腫瘍または血漿配列決定に由来し得る患者特異的変異のリストを必要とする。フィルターを配列決定データに適用し、次いでデータを、患者特異的(その患者に属する座位)、非患者特異的(その患者に属しない座位)、および標的付近(全ての患者特異的座位の10bp以内の塩基)に分割する。患者特異的および非患者特異的データに、実際の変異を観察する確率に影響を及ぼす特徴を注釈付けする。外れ値抑制を適用して、患者特異的シグナルの全体のレベルと一致しない変異シグナルを同定する。次に、注釈付けした特徴を考慮に入れて、シグナルを全ての座位にわたって集計して、試料当たりのINVARスコアを生成する。非患者特異的試料に基づいて、INVARスコア閾値を、各コホートに関するROC分析を使用して決定する。健康な対照試料は、同じステップを別個に受けて、各コホートに関する特異度の値を確立する。 図31aはINVARに関する腫瘍変異リスト特性解析を示すグラフである。癌の種類およびコホートごとに並べられた患者当たりの体細胞変異の数。図31bはINVARに関する腫瘍変異リスト特性解析を示すグラフである。各パネル設計に含まれる各変異クラスの頻度。 図31cはINVARに関する腫瘍変異リスト特性解析を示すグラフである。変異クラスごとに着色した、トリヌクレオチドコンテキストごとの変異計数。図31dはINVARに関する腫瘍変異リスト特性解析を示すグラフである。変異クラスごとに着色した、癌の種類当たりの腫瘍試料における腫瘍変異アレル割合の分布。 バックグラウンドエラー率の特性解析を示すグラフである。(a)特注のINVARフィルターを用いたおよび用いていない、エラー抑制された(ファミリーサイズ 2)およびエラー抑制されていないバックグラウンドエラー率。バックグラウンドエラー率は、検討される全ての塩基にわたる全ての非参照塩基を集計することによって算出した。バックグラウンドエラー率を評価するために、患者特異的座位の両側10bpを使用して、患者特異的座位それ自体を排除した(「標的付近」、補足的方法)。(b)異なる最小ファミリーサイズ要件の結果として生じる全体のバックグラウンドエラー率、および各設定と共に保持されるリードファミリーの比率。(c)バックグラウンドエラー率は、グループ当たりのリードファミリーの数を均等にした後、健康な対照個体(青)および患者試料(赤)に関して変異クラスごとに算出した。相補的な変異クラスを組み合わせ。t検定を健康な試料と患者試料との間で実施した。NS、非有意。 図33aはエラー率フィルターおよび座位ノイズフィルターの適用を示すグラフである。INVARデータのために開発した異なるフィルター(補足的方法)を用いたクラスごとのエラー率の要約。図33bはエラー率フィルターおよび座位ノイズフィルターの適用を示すグラフである。座位において順方向および逆方向リードを必要とすることの効果。このフィルターの場合、中央値で84.0%の野生型リードおよび中央値で92.4%の変異リードが保持された。図33cはエラー率フィルターおよび座位ノイズフィルターの適用を示すグラフである。各トリヌクレオチドコンテキストに関して、バックグラウンドエラー率(トリヌクレオチド当たり)を、各バックグラウンドエラーフィルター前および後にプロットし、エラーフィルターそれぞれの付加的な利益を強調する。 図33dはエラー率フィルターおよび座位ノイズフィルターの適用を示すグラフである。バックグラウンドエラー率を、対照試料から生成されコホートごとに分割した全てのリードに基づいて座位当たりで特性解析した。座位ノイズフィルターを通過した座位を青で示し、フィルターを通過しなかった座位を赤で示す。このフィルターによってブラックリストに登録された座位の比率を右上に示す。図33eはエラー率フィルターおよび座位ノイズフィルターの適用を示すグラフである。各座位当たりの重複排除固有深度のヒストグラム(3つのコホートに分離)。この深度は、10〜10の範囲にあり、定量を限定し得るかまたは個々の座位それぞれに関するバックグラウンドエラー率を0.1%〜0.01%に限定し得る。より大きい深度を用いてバックグラウンドノイズ率を推定するために、座位をトリヌクレオチドコンテキストに従ってグループ化した(図24c)。 図34aは患者特異的外れ値抑制フィルターを示すグラフである。その患者の残りの座位よりも有意に大きなシグナルを有すると観察された座位は、その座位におけるノイズ、汚染、または誤って遺伝子型同定されたSNP座位に起因する場合がある(赤、方法を参照のこと)。図34bは患者特異的外れ値抑制フィルターを示すグラフである。全てのコホートに対する外れ値抑制の効果の要約。変異シグナルは、対照試料では3分の1に減少したが、患者試料では96.1%の変異シグナルを保持した。 図34cは患者特異的外れ値抑制フィルターを示すグラフである。外れ値抑制されたデータ点を赤で示す、全てのコホートに関する生データ点(患者および対照試料)。 図35aは腫瘍アレルの割合情報および血漿DNA断片長を利用してctDNAシグナルを増強することを示すグラフである。腫瘍アレル割合を、血漿における検出されたシグナルを有する座位と有しない座位との間で比較した。血漿におけるシグナルを有する座位は、患者試料において有意に高い腫瘍アレル割合を有した。この分析を非患者特異的試料に関して実施した場合、腫瘍アレル割合の有意な増加は存在しなかった(スチューデントのt検定、NS、非有意;***=P<0.0001)。図35bは腫瘍アレルの割合情報および血漿DNA断片長を利用してctDNAシグナルを増強することを示すグラフである。腫瘍変異アレル割合と血漿変異アレル割合との比較。エラー抑制されたデータを使用して、腫瘍座位を0.01の変異アレル割合の区間にグループ化し、血漿において観察された座位の比率を、異なるレベルの希釈系列に関して決定した。添加希釈系列の希釈レベルを、各色によって示す。各希釈レベルにおいて、腫瘍アレル割合と血漿において観察された座位の比率との間に正の相関が存在する。 図35cは腫瘍アレルの割合情報および血漿DNA断片長を利用してctDNAシグナルを増強することを示すグラフである。各コホートに関して、変異および野生型断片のサイズプロファイルを生成した。図35dは腫瘍アレルの割合情報および血漿DNA断片長を利用してctDNAシグナルを増強することを示すグラフである。変異断片分布のコホート間での比較。これらは、変異リードの数をダウンサンプリングして全てのコホートに関して適合させた後、両側ウィルコクソン順位検定を使用して比較した。図35eは腫瘍アレルの割合情報および血漿DNA断片長を利用してctDNAシグナルを増強することを示すグラフである。加重を断片サイズに割り当てるために使用した、異なるレベルの平滑化に関する断片サイズの分布(補足的方法)。 全てのコホートおよびデータの種類に関するROC曲線および特異度を示す図である。特異度は、分析的特異度(他の患者からの対照データに基づく;黒線)と臨床的特異度(健康な個体のデータに基づく;赤線)の両方として決定した。ステージII〜IIIの黒色腫(外科的処置後)コホートの場合、分析は、成果について盲検化され、5年以内に再燃しなかった患者もまたROC分析に含めた。したがって、このコホートに関する考えられる最大の「感度」(定義されている)は、再燃する患者の割合(18/33=54.5%)であった。INVARは、再燃した18名の患者うち9名を検出した(9/33=27.3%の感度を示すROC)。健康な対照は、このパネルに関して実行されなかった。表は選択されたしきい値での特異度を示す。 図37aは進行した黒色腫におけるctDNAレベルの特性解析を示すグラフである。入力質量と観察されたIMAFとの比較。検出されたctDNAを有する各ライブラリに関して、ライブラリ調製のためのDNA入力質量を、INVARによって決定されたIMAFに対してプロットする。黒線は、試料における変異コピーの予期された数を考慮した場合に変異コピーがサンプリングされない尤度に基づく、下回った場合に完全な単一座位アッセイが95%未満の感度を有し得る閾値を示す。本研究では、48%の試料は、使用した血漿DNA入力量での完全な単一座位アッセイを使用して検出可能ではない可能性がある。図37bは進行した黒色腫におけるctDNAレベルの特性解析を示すグラフである。本発明者らの研究における(ピアソンのr=0.67、P=0.0002)、ならびにCAPP−Seqを使用して、およびTRACERxコホートにおける多重PCRを使用してNSCLCの患者当たりの複数の変異を測定する以前の刊行物における、ctDNAと腫瘍体積との間の比較。腫瘍体積とctDNAレベルとの関係は、以前の分析におけるよりも本研究において急勾配であった。これは、他のアッセイによって見落とされたかまたは過剰評価された場合があるより低い濃度のctDNAの、INVARを使用した検出に起因すると考えられる。 図37cは進行した黒色腫におけるctDNAレベルの特性解析を示すグラフである。進行期黒色腫患者における血清乳酸脱水素酵素とIMAFとの関係。0.46のピアソン相関スコアが観察された(P=0.0058)。破線は、LDHの正常の上限である250IU/Lで引かれている。図37dは進行した黒色腫におけるctDNAレベルの特性解析を示すグラフである。進行した黒色腫患者に関する経時的ctDNAプロファイル。IMAF値を、エラー抑制された個別的配列決定データを使用して、患者当たりで時間の経過と共にプロットする。縦破線は放射線学的進行に関する時間を示す。 初期コホートにおけるIMAF値の特性解析を示す図である。(a)初期NSCLCコホートにおけるIMAF値。試料病態およびステージを各試料に関して示す。低感度試料(LS)は、20,000個未満の固有分子(IR)が分析された試料を示す。(b)初期NSCLCコホートに関する検出結果要約。患者をステージおよびctDNA検出結果ごとにグループ化する。感度を、20,000個超のIRを有する試料にわたって算出する。(c)ステージII〜IIIの切除黒色腫コホートに関する患者特性の要約表(n=38)。(d)ステージII〜IIIの切除黒色腫コホートにおいて、検出されたctDNAを有する患者は、有意に劣った全生存期間を有した(P=0.02、コックス比例ハザードモデル)。検出されたctDNAを有する患者の生存期間中央値は2.6年であった(95%CI 1.1〜5.3)のに対し、他方は中央値に達しなかった(95%CI 3.1〜中央値未到達)。(e)異なるレベルのIRに関するctDNAの検出率を推定した(補足的方法)。ステージIVの黒色腫コホートのベースライン試料(青)において、IRの数と検出率との間に線形関係を観察する(R=0.95)。ctDNAは、10個のIRを有するベースライン試料の100%において検出されたが、処置の開始後は、10〜10個のIRが全ての経時的試料を検出するために必要であり、より低いレベルのctDNAを反映する。 全エクソーム配列決定データへのINVARの適用を示すグラフである。(a)血漿WESから取得したIMAFを、適合試料のカスタム捕捉手法から取得したIMAFと比べたところ、0.95の相関を示した。(b)血漿WESによる、hGAの数(リードのコラプシング後の固有カバレッジの深度を示す)および標的化された変異。カスタム捕捉手法と比べて、WES試料は、より少ないhGAを有し、二次元空間においてさらに左側に空間を占めており、INVARが限定されたデータ、およびライブラリにおいて配列決定された数個のゲノムコピーからctDNAを検出することができることを示す。 図40aは乾燥血斑からのctDNA検出を示すグラフである。cfDNAを単離するために右側ビーズ選択を必要とする、高いレベルのゲノムDNA汚染を示す50μLのヒト乾燥血斑溶出液のバイオアナライザによるトレース。50〜300bpの間の短い断片はこの段階では示されない。図40bは乾燥血斑からのctDNA検出を示すグラフである。サイズ選択された血斑DNAから生成されたライブラリのサイズプロファイル。全体のサイズプロファイルはcfDNAのサイズプロファイルに匹敵し、約166bpにピークを有する。 図40cは乾燥血斑からのctDNA検出を示すグラフである。多様性推定のための統計的方法を使用した、50μLの乾燥血斑からのcfDNAゲノムコピーの数の推定。図40dは乾燥血斑からのctDNA検出を示すグラフである。血斑から、および同じ個体由来の適合血漿試料から生成されたライブラリのsWGSからのコピー数プロファイル。図40eは乾燥血斑からのctDNA検出を示すグラフである。マウス卵巣異種移植モデル(方法)由来の50μLの乾燥血斑からのコピー数プロファイル。 REMARK流れ図である。本研究において分析された患者の数を示す。患者は、ctDNAの検出、およびそれぞれに関して生成された有益なリード(IR)の数に基づいて類別する。全てのコホート(外科的処置後のステージII〜IIIの黒色腫、ステージI〜IIIAのNSCLC、およびステージIVの黒色腫)をこの流れ図に組み合わせた。 統合変異アレル割合(IMAF)(y軸)を全てのコホートにおける各試料(X軸)に関してプロットする。左から右に向かって、コホートは肺癌(血漿)および乳癌(血漿)である。 統合変異アレル割合(IMAF)(y軸)を全てのコホートにおける各試料(X軸)に関してプロットする。左から右に向かって、コホートは膠芽腫(CSF)、膠芽腫(血漿)、腎臓癌(血漿)、および腎臓癌(尿)である。 INVARスコア(y軸)を、評価可能と分類された各試料に関してプロットする。左から右に向かって、コホートは肺癌(血漿)および乳癌(血漿)である。 INVARスコア(y軸)を、評価可能と分類された各試料に関してプロットする。左から右に向かって、コホートは膠芽腫(CSF)、膠芽腫(血漿)、腎臓癌(血漿)、および腎臓癌(尿)である。
本発明を説明する際、以下の用語が用いられ、また下記に示されるように定義されることが意図される。
「および/または」とは、本明細書において使用する場合、2つの指定された特徴または構成要素のそれぞれの、他方を伴うかまたは伴わない具体的な開示として理解されるべきである。例えば「Aおよび/またはB」は、それぞれが本明細書において個別的に述べられるように、(i)A、(ii)B、ならびに(iii)AおよびBのそれぞれの具体的な開示として理解されるべきである。
「コンピュータ実装方法」とは、本明細書において使用する場合、実行がコンピュータ、コンピュータネットワーク、または他のプログラム可能な装置の使用を伴う方法であって、方法の1つまたは複数の特徴が全体的にまたは部分的にコンピュータプログラムによって実現される、方法を意味すると理解されるべきである。
「患者」とは、本発明の任意の態様に従って本明細書で使用する場合、「対象(サブジェクト)」と等価であることが意図され、具体的には健康な個体と疾患または障害(例えば癌等の増殖性障害)を有する個体の両方が挙げられる。患者は、ヒト、伴侶動物(例えばイヌまたはネコ)、実験動物(例えばマウス、ラット、ウサギ、ブタ、または非ヒト霊長類)、異種移植または異種間移植された腫瘍または腫瘍組織(例えばヒト腫瘍からの)を有する動物、飼育または家畜動物(例えばブタ、ウシ、ウマ、またはヒツジ)であり得る。好ましくは、患者はヒト患者である。場合によっては、患者は、癌と診断されたか、癌を有すると疑われるか、または癌を発症するリスクがあると分類されたヒト患者である。
「試料」とは、本明細書で使用する場合、生体試料、例えば無細胞DNA試料、細胞(循環腫瘍細胞を含む)または組織試料(例えば生検)、生体液、抽出物(例えば対象から取得したタンパク質またはDNA抽出物)であり得る。特に、試料は腫瘍試料、DNAを含有する生体液試料、血液試料(血漿もしくは血清試料を含む)、尿試料、子宮頸部スメア、脳脊髄液(CSF)試料、または非腫瘍組織試料であり得る。尿および子宮頸部スメアは細胞を含有し、したがって本発明に従った使用に好適な試料を提供し得ることが見出されている。本発明に従った使用に好適な他の試料種としては、穿刺吸引、リンパ節、外科的縁、骨髄、または微小量の腫瘍DNAが見出され得るかもしくは見出されると予期され得る腫瘍微小環境からの他の組織が挙げられる。試料は、対象から新しく取得した試料(例えば採血)であっても、計測を行う前に処理および/または保管された(例えば凍結されたか、固定されたか、または遠心分離を含む1つもしくは複数の精製、濃縮、もしくは抽出ステップに供された)試料であってもよい。試料は、濃縮または増幅のプロセスを介した上記生体試料のうちの1つまたは複数に由来してもよい。例えば、試料は生体試料から生成されたDNAライブラリを含んでもよく、任意選択で、バーコードDNAライブラリまたはそうでなければタグ付きDNAライブラリであってもよい。複数の試料は単一の患者から、例えば一連の処置中に連続的に採取されてもよい。さらに、複数の試料は複数の患者から採取されてもよい。試料調製は、本明細書において材料および方法の節に記載されるようなものであり得る。さらに、本発明の方法は、尿試料における腫瘍由来変異DNAを検出することが実証されている(データは示していない)。したがって、検出される変異腫瘍DNAを潜在的に含有する患者DNAの供給源としての血液または尿試料の使用は、本明細書において具体的に企図される。法科学的用途の場合、試料は、混合DNAまたはRNA(例えば標的およびバックグラウンド、例えば加害者DNAまたはRNAおよび被害者DNAまたはRNA)を有するかまたは有すると疑われる、任意の流体または組織または物品であり得る。汚染の分析の場合、試料は、混合DNAまたはRNA(例えば標的およびバックグラウンド、例えば汚染源(例えば病原体)DNAまたはRNAおよび非汚染源DNAまたはRNA)を有するかまたは有すると疑われる、任意の流体、生物、物品、食品、または植物であり得る。
「右側サイズ選択」とは、本明細書で使用する場合、一部の実施形態ではhttps://research.fhcrc.org/content/dam/stripe/hahn/methods/mol_biol/SPRIselect%20User%20Guide.pdf(その内容全体は参照によって本明細書に組み込まれる)に記載されているAMPureビーズを用いる。特に、一部の実施形態で使用される1倍選択ステップは、1.2倍の曲線と0.95倍の曲線との間のカットオフを暗示し、それゆえ200〜300bp前後に推定される。
「血斑」とは、本明細書で使用する場合、一部の実施形態では乾燥血斑試料であり得る。典型的には、血液試料は濾紙に吸着され、乾燥される。乾燥血斑標本は、手指、かかと、または足指からランセットによって採取した1滴または数滴の血液(例えば50μl前後)を特別に製造された吸収濾紙に加えることによって収集し得る。血液は濾紙に徹底的に含ませてもよく、典型的には数時間風乾され得る。標本は、湿度を低下させるために乾燥材が添加された低ガス透過性プラスチックバッグに保管されてもよく、周囲温度で維持されてもよい。
患者特異的座位の決定
本発明の一部の実施形態においては、患者の腫瘍に特異的な変異を保有する座位が同定され得る。場合によっては、腫瘍DNAは、平均で80%の塩基対が20個超のリードによって包含される、試料当たり平均8Gbのマッピングされた固有のリードを得るように配列決定される。場合によっては、一塩基バリアント(SNV)(例えばバフィーコート試料からの生殖細胞系列配列に対する)は、腫瘍試料から取得した配列データから選択され得る。場合によっては、患者特異的座位は、腫瘍配列決定から決定される、1個以上の変異リードと10個以上の総リードとに関するSNVを表示する座位である。場合によっては、座位は、生殖細胞系列配列(例えばバフィーコート試料)において(リード重複排除後に)1個の順方向(F)非参照リードと1個の逆方向(R)非参照リードとを示す場合、排除され得る。任意選択で、座位は、共通のSNPデータベース、例えば1000Genomesデータベースにおいて同定されたSNPである場合、排除され得る。
配列リードを用意するステップ
配列リードデータは、例えば、cfDNA試料もしくはライブラリを配列決定することによって、または既に生成されている配列決定データを取得するかもしくは用意する、例えば配列リードデータを不揮発性もしくは揮発性コンピュータメモリ、データストア、もしくはネットワークの場所から回収することによって、直接用意または取得され得る。配列リードが試料を配列決定することによって取得される場合、入力DNAの質量中央値は、場合によっては1〜100ng、例えば2〜50ngまたは3〜10ngの範囲であり得る。DNAは、例えば100〜1000ngのDNAを有するライブラリを取得するために増幅され得る。各患者特異的座位における配列リード(例えば品質フィルター処理された配列リード)の配列決定深度中央値は、500x〜2000x、例えば750x〜1500xまたはさらには1200x〜1400xの範囲であり得る。配列リードはFASTQ等の好適なデータ形式であり得る。
配列データ処理およびエラー抑制
配列リードデータ、例えばFASTQファイルは、リードファミリーへのリードコラプシングのステップの前にまたはそのステップの一部として、1つまたは複数の処理または整理ステップに供され得る。例えば、配列データファイルは、FastQC v0.11.5の場合、アダプター配列を取り除くツール(例えばcutadapt v1.9.1)から選択される1つまたは複数のツールを使用して処理され得る。配列リード(例えばトリミングした配列リード)は適切な参照ゲノム、例えば、ヒトゲノムhg19に対してアラインメントされ得る。
本明細書で使用する場合、「リード」または「配列決定リード」とは、1個の分子およびリードから一度読み取られた配列を意味すると理解することができる。各分子は、実施される配列決定に応じて、任意の回数読み取ることができる。
本明細書で使用する場合、「リードファミリー」とは、同じ分子から生じる複数の配列決定リード(したがって複製物)を意味すると理解することができる。これらは同じ出発分子由来であるため、各リードは、そのリードのアラインメント後、ヒトゲノムにおいて同じ開始および終了位置を有することができる。加えて、分子バーコードがPCRおよび配列決定の前に出発分子にライゲートされる場合、各リードファミリーは同じ分子バーコードを有することもできる。分子バーコードによるエラー抑制のプロセスは以下のURL:https://github.com/umich−brcf−bioinf/Connor/blob/master/doc/METHODS.rst(2018年3月5日に示されるその内容は参照によって本明細書に明白に組み込まれる)に記載されている。
本明細書で使用する場合。「コラプシング」または「リードコラプシング」とは、リードファミリー(複製リードの組)を考慮した場合に、PCRおよび配列決定エラーのエラー抑制が、そのファミリーにわたるコンセンサス配列をあらゆる塩基位置に関して生成することによって実施され得ることを意味すると理解することができる。したがって、N個(の数)のリードのファミリーは1個のリードのコンセンサス配列に「コラプシング」され、そのコンセンサス配列はより少ないエラーを含有すると予期することができる。
リードコラプシングは、断片開始および終了位置ならびにカスタムインラインバーコードに基づいて実施され得る。好適なツールは、https://github.com/umich−brcf−bioinf/Connor/blob/master/doc/METHODS.rst(2018年3月5日に示されるその内容全体は参照によって本明細書に明白に組み込まれる)に記載されているCONNORである。CONNORは、8.8、0.85、0.9、または0.95に設定されるコンセンサス頻度閾値−fで使用され得る。CONNORは、2、3、4、5、6、7、8、9、または10として設定される最小ファミリーサイズ閾値−sで使用され得る。好ましくは、コンセンサス頻度閾値は0.9であり、最小ファミリーサイズ閾値は5である。
品質フィルターは、本明細書において材料および方法の節に記載されるように、変異および野生型リード/リードファミリーの数を決定するプロセスにおいて適用され得る。
場合によっては、1つまたは複数のMRDフィルターが、腫瘍由来MRDリードファミリーに焦点を当てるために適用され得る。特に、MRDフィルタリングステップは、
(i)2個超の変異分子を有する座位を排除すること、および
(ii)順(F)方向と逆(R)方向の両方において配列決定された断片のみを選択すること(すなわち含めること)
のうちの一方または両方を含み得る。
本明細書で使用する場合、「バーコード」または「分子バーコード」とは、必ずというわけではないが通例10bp未満の長さ、例えば本発明によって用いられる分子バーコードは6、7、8、9、または10bp長であり得る)の、ライブラリ調製中の第1のステップとして1個または複数個のDNA分子にライゲートされ得る塩基の固有の文字列を意味すると理解することができる。結果として、リードファミリー(上記からの)はただ1つに同定され、したがってその出発分子に連結され得る。このことは、上に記載したように、「リードコラプシング」を介したエラー抑制を可能にする。
バックグラウンド配列決定エラー率を決定するステップ
場合によっては、各患者特異的座位の両側(例えば両側の20、15、10、または5bp)の領域は、各変異クラスに関するエラー率を決定するために用いられ得る。場合によっては、非参照塩基は、順方向Fリードと逆方向Rリードの両方に存在すると見出される場合にのみ受容される。場合によっては、座位が3つ以上の別個のライブラリにおいてエラー抑制された変異ファミリーを表示する場合、その座位は、より高い座位特異的エラー率を有することを根拠にフィルター除去(「ブラックリストに登録」)され得る。
配列決定エラー分析は、変異クラスと無関係なバックグラウンドエラー率を決定するために、データを変異クラスごとに分離することによって実行され得る。エラー率は、クラスにおける変異リードの合計とクラスにおけるリードの総数との比を取ることによって決定され得る。場合によっては、この比データは、エラー率の95%信頼区間を取得するために復元抽出を用いて100回リサンプリングされ得る。
INtegration of VAriant Reads(INVAR)
本発明の一部の実施形態においては、特定の患者特異的座位に関するバリアントリードは、観察されたバリアント(例えばSNV)がその座位の腫瘍配列において決定された変異と合致する場合にのみ受容され得る。例えば、C>T変異が腫瘍配列決定/遺伝子型同定に基づいて予期されたが、C>Aが変異リードにおいて観察される場合、変異リードは対象から外され得、患者特異的シグナルから排除され得る。代替的にまたは付加的に、座位は、少なくとも1つ以上のFリードファミリーと少なくとも1つ以上のRリードファミリーとがその位置に存在する場合にのみシグナルに寄与すると考えられ得る。このことは2つの利点:配列決定からの一本鎖アーチファクトを低減すること、およびある特定の配列決定プラットフォーム、例えばPE150配列決定においてFリードとRリードとの間により大きな重なりを有する短い断片に検出を偏らせることを有する。
各試料に関して、変異アレル割合は全ての患者特異的座位にわたって以下:
Figure 2021516962
のように算出され得る。
ある特定の場合では、変異アレル割合はトリヌクレオチドコンテキストごとに算出され得る。コンテキストごとの変異アレル割合は、式:
Figure 2021516962
に従って腫瘍加重したリードファミリーに基づき得、
式中、
AFコンテキストは所与の(例えばトリヌクレオチド)コンテキストのアレル頻度であり、腫瘍AFは腫瘍から直接取得したDNAを配列決定することによって決定される座位のアレル頻度であり、MRD様座位は、患者の腫瘍から決定され、微小残存病変シグナルを選択するためにフィルタリングされた変異含有座位である。
観察された変異リードの数の有意性は、どちらも目的の試料に関する変異リードと総リードとの数、およびバックグラウンドエラー率からの変異リードの数を含む分割表を考慮して、フィッシャーの片側正確確率検定を使用して決定され得る。
変異クラスごとに分割した変異アレル割合決定
本発明の一部の実施形態では、各試料は、その座位において腫瘍配列決定から予期された変異クラスに基づいて複数の変異クラス(例えば以下のSNVクラス:C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T、およびT>Cのうちの2、3、4、5、6、7、8、9、10、11、または12個全て)に分割され得る。バリアントリードは上記のように各クラスに関して統合され得る。複数回のフィッシャーの片側正確確率検定は、観察された変異リードファミリーの数の有意性を、その変異クラスに関するバックグラウンドエラー率を考慮して決定するために使用され得る。この方法は、試料当たり12個のP値を生成することができ、これらのP値は次いで経験的なブラウンの方法を使用して組み合わされ得る。試料がクラスにおけるデータを有しなかった場合、そのクラスは0個の変異リード、したがって1のP値を有すると扱われ得る。
特異度をさらに改善するために、一部の実施形態では、本発明の方法は2つ以上の別個のクラスにおいて変異リードを有する試料を必要とし得る。このことは、検出が異なる種類のエラープロセスの対象となる複数の座位に存在するシグナルに基づくことを保証する。
統計的有意性決定
INVARによって取得した組み合わせたP値に関する有意性閾値は、場合によっては、患者特異的(試験)および非患者特異的(対照)試料に関する受信者操作特性分析を使用して決定され得る。例えば、分析は、分類確度を最大化する「MaxEfficiency」法を有するRでのOptimalCutpointsパッケージを用いてもよい。
バックグラウンド減算
場合によっては、バックグラウンドエラー率は観察されたアレル割合から減算され得る。このことは、クラスごとのエラー率の差を考慮に入れて実施することも、考慮に入れずに実施することもできる。観察された変異アレル割合がバックグラウンドエラー率よりも小さい場合、バックグラウンド減算アレル割合は0に設定され得る。試料に関する変異クラスごとのバックグラウンド減算の場合、クラスのそれぞれのエラー率は、そのクラスの変異アレル割合から減算され得る。次いで平均アレル割合が、そのクラスにおいて観察されたリードファミリーの総数によって加重された、個々のバックグラウンド減算アレル割合のそれぞれから算出され得る。
以下は例として提示され、特許請求の範囲に対する限定として解釈されるべきではない。
[実施例]
材料および方法
試料およびデータ収集
MelResist(REC番号11/NE/0312)は、BRAF標的化療法および免疫療法を含む黒色腫の全身療法に対する応答および耐性機構の橋渡し研究である。このコホートにおける各患者に関して、新鮮凍結転移性腫瘍生検および血漿試料を処置の開始前に収集し、血漿を処置中の多様な時点で収集した。患者は、複数の方針の処置を時間の経過と共に受け取っていてもよい。患者背景および臨床成績を前向きに収集する。研究はCambridge Cancer Trials Unit−Cancer Themeによって統括された。
末梢血試料を各来院時にS−Monovette 9mL EDTAチューブにおいて経時的に収集した。この研究に関して、患者当たり最大8つの試料を、連続的に収集した試料から分析した。ベースライン時の全血の1つのアリコートを生殖細胞系列DNAのために−80℃で保管した。血漿収集に関して、試料を採血の1時間以内に1600gで10分間遠心分離して、次いで20,000gで10分間の追加の遠心分離を実行した。血漿アリコートを−80℃で保管した。
新鮮凍結組織および血漿からのDNAの抽出
最大30mgの各新鮮凍結組織生検試料を600μLのRLT緩衝液(QIAGEN)と組み合わせ、次いでPrecellys CD14チューブ(Bertin Technologies)に入れ、5秒で区切られた2回の20秒のバーストの間6,500rpmで均質化した。次いでDNAを、AllPrep抽出キット(Qiagen)を製造業者のプロトコルに従って使用して抽出した。
ゲノムDNAを10mLの全血から、Gentra Puregene Blood Kit(Qiagen)を製造業者のプロトコルに従って使用して抽出した。溶出DNA濃度を、Qubit(ThermoFisher Scientific)を使用して定量した。
血漿試料を、2mL QIAampプロトコルを使用するQIAsymphony機器(Qiagen)を使用して抽出した。各QIAsymphonyバッチに関して、健康な個体の対照試料(Seralab)を含む24の試料を抽出した。血漿試料を90μLの水に溶出し、−80℃で保管した。
撮像
CT撮像を標準治療の一部として各患者に関して獲得し、後ろ向きに検査した。スライス厚は全ての症例において5mmであった。約5mmを超える非常に大きな直径を有する全ての病変は、熟練した操作者によって、放射線科医の指導の下、MATLAB(登録商標)(Mathworks、Natick、MA)で書かれたカスタムソフトウェアを使用してCT画像上でスライスごとに輪郭抽出された。その後、輪郭を処理のためにNifTI形式でLIFExソフトウェアアプリケーション25にインポートした。次いで腫瘍体積をLIFExによって、テクスチャに基づく処理モジュールからの出力パラメータとして報告した。
無細胞DNA定量
各試料のcfDNA濃度を定量するために、デジタルPCRを、それぞれROXおよびFAMで標識した、ハウスキーピング遺伝子RPP30(Sigma Aldrich)および固有のXenT座位に関するTaq−manプローブを使用するBiomark HD(Fluidigm)を使用して実行した。55のPCRサイクルを使用した。RPP30アッセイは65bp長であった。溶出液1μL当たりの推定された数のRPP30 DNAコピーを使用して、元の試料におけるcfDNA濃度を決定した。
エクソームおよび標的化配列決定
腫瘍およびバフィーコート(生殖細胞系列)ライブラリ調製、配列決定、ならびにバリアント呼び出しを、SureSelectXT Human All Exon 50Mb(Agilent)ベイトセットまたはカスタム標的化配列決定ベイトセットを使用して、Varelaら26によって記載されているように実施した。プール当たり8つの試料を多重化し、各プールをHiSeq 2000(Illumina)の2つのレーンに装填し、平均で80%の塩基対が20個超のリードによって包含されている、試料当たり平均8Gbのマッピングされた固有のリードを得た。標的化配列決定を、癌に関連する365の遺伝子に関するSanger CGP Cancer Genes V3パネルを使用して、これまでに記載されているように27実行した。この探索的分析に関して、腫瘍配列決定からの全ての変異コールをTAPASパネル設計に含めた(結果を参照のこと)。座位は、バフィーコート試料において(リード重複排除後に)1個の順方向(F)非参照リードと1個の逆方向(R)非参照リードとを示した場合、排除した。
テイラードパネル配列決定ライブラリ調製
10名の患者からのTAPASライブラリを、Rubicon ThruPLEX Tag−seqキットを使用して2連で調製した。血漿DNAライブラリに関する入力質量中央値は4.4ngであった(IQR 3.2〜10.0ng)。分子バーコード化されたライブラリと分子バーコード化されていないライブラリとの間でエラー率を比較するために、追加の血漿ライブラリを、Rubicon ThruPLEX Plasma−seqキットを使用して調製した。必要な場合、cfDNA試料を、ライブラリ調製前にSpeedVac(ThemoFisher)を使用して30℃で真空濃縮した。
各試料におけるDNAの開始濃度に基づいて、ThruPLEXプロトコル中のPCR増幅サイクルの数を、製造業者によって推奨されるように28、7〜15サイクルの間で変動させた。増幅および試料バーコード化後、ライブラリを、Ampure XTビーズ(Beckman Coulter)を1:1の比で使用して精製した。ライブラリ濃度を、Illumina/ROX低ライブラリ定量キット(Roche)を2つの試料希釈液に関して使用して、3連で決定した。1:10に希釈したライブラリをBioanalyzer HSチップ(Agilent)において泳動し、ライブラリ断片サイズを決定した。
333〜750ngの各ライブラリを、製造業者によって推奨されるように29、i5およびi7ブロッキングオリゴ(IDT)の添加を含むAgilent SureSelectXTプロトコルを使用して捕捉した。ライブラリを、捕捉のために1から3重の間のプールに、1000ngの最大捕捉入力までプールした。13サイクルを捕捉後増幅のために使用した。捕捉後ライブラリを、Ampure XTビーズを1:1.8の比で用いて精製し、次いで定量し、ライブラリ断片サイズを上述の通りに決定した。HiSeq 4000のレーン当たり中央値で9つのTAPASライブラリをプールした。
配列データ処理およびエラー抑制
FastQC v0.11.5を全てのFASTQファイルに関して実行し、次いでcutadapt v1.9.1を使用して、アダプター配列の別個のFASTAにおいて指定された既知の5’および3’アダプター配列を取り除いた。トリミングしたFASTQファイルを、19のシード長を用いるBWA−mem v0.7.13を使用してhg19ゲノムに対してアラインメントした。重複を、Picardtools v2.2.4 MarkDuplicatesを使用してマーキングした。BAMファイルのインデックスを、Samtools v1.3.1を使用して作成した。既知の挿入欠失に関する局所再アラインメント、および塩基品質再較正を、GATK v3.7を使用して実行した。次に、ENCODEコンソーシアムによって同定された、高いレベルの配列決定ノイズを有することを根拠に対象から外される領域(「ブラックリスト登録領域」としても公知)をBAMファイルから取り除いた。
エラー抑制
エラー抑制を、ThruPLEX Tag−seqライブラリBAMファイルに関して、断片開始および終了位置、ならびにカスタムインライン分子バーコードに基づいて複製配列決定リード間のコンセンサス配列を生成するConnor30を使用して実行した。エラー率対保持されたデータの比率に関する分析後、コンセンサス頻度閾値−fを0.9として設定し、最小ファミリーサイズ閾値−sを5として設定し、これらの閾値未満のリードファミリーを廃棄した。ThruPLEX Plasma−seqライブラリもまた、同じ設定を有するConnorに関する、カスタムシェルスクリプトを使用した入力として使用した。このスクリプトは偽のバーコードおよびステムを各リードの適切な末端に付加し、CIGAR文字列を修飾する。
品質フィルター
Samtools mpileup v1.3.1を患者特異的座位において使用して、生データおよびエラー抑制されたデータに関する変異および野生型リード/リードファミリーの数を決定した。以下の設定を使用した:−d 10000(最大深度閾値)、−−ff UNMAP(マッピングされないリードを排除)、−q 13(最小Phredマッピング品質スコア)、−Q 13(最小Phred塩基品質スコア)、−x(重なりを無視する)、−f ucsc.hg19.fasta。VCF Parser31 v1.6 −−splitを使用して複アレルコールを分離し、SnpSift extractFieldsを使用して目的のカラムを抽出した。エラー抑制されていないTAPASデータの分析に関して、最小で5個のリードが座位において必要とされ、エラー抑制されたデータに関する閾値は最小で1リードファミリー(5つのメンバーからなる)であった。個々のデータ点(すなわち単一試料における単一座位)は、Samtools mpileupによって決定されるその座位におけるマッピング品質/ストランドバイアス(MQSB)が0.01未満であった場合、フィルタリングした。
TAPASベースライン血漿変異呼び出し
TAPASを患者の第1の血漿時点に適用して、全体がタイリングされた目的の遺伝子における、または腫瘍エクソーム配列決定単独から見落とされた場合がある患者特異的バリアントの両側のベイト領域におけるバリアントを呼び出した。Mutect2(GATK)を初回変異呼び出しのために使用し、hg19 COSMICデータベースVCF、dbSNPデータベースVCF、ベイトセットBEDファイル(耐性座位および目的の遺伝子を含む)に対して実行した。適合バフィーコートエクソームBAMを生殖細胞系列試料として使用した。
バックグラウンドエラー率の決定
バックグラウンドエラー率を求めるために、TAPASデータからの標的外塩基を使用した。生殖細胞系列事象はバフィーコートのエクソーム配列決定に基づいて取り除くことができ、既知の腫瘍座位は排除することができるため、患者からの配列決定データをこの目的のために使用した。したがって、各患者特異的バリアントの両側10bpを使用して、SNVの各クラスに関するエラー率を決定した。本発明者らは、非参照塩基はFリードとRリードの両方に存在しなければならないと規定した。考えられるエラー率の生物学的汚染を回避するために、COSMICにおいて1個以上の重なり合う変異を有した場合、座位を排除した。加えて、エラー抑制後、各座位を、同じ患者に属する全ての試料において個々に評価し、座位が3つ以上の別個のライブラリにおいてエラー抑制された変異ファミリーを示した場合、さらなる分析の対象から外した。リードファミリー当たりのバックグラウンドエラー率が約6×10−5であると仮定すると、座位当たり平均で200のリードファミリーに関して、同じ個体からの3つ以上の試料(患者当たり中央値で6つの試料のうち)の単一座位において変異リードファミリーを偶然に観察する確率は、約1×10−12の二項確率となる。
この分析は、変異クラスと無関係なバックグラウンドエラー率を決定するために、またデータを変異クラスごとに分離することによって、実行した。エラー率は、クラスにおける変異リードの合計とクラスにおけるリードの総数との比を考慮に入れることによって決定した。このデータを、復元抽出を用いて100回リサンプリングし、エラー率の95%信頼区間を取得した。
INtegration of VAriant Reads
ctDNAの検出を、患者特異的座位のみに関して実行した、すなわち、C>T変異が腫瘍遺伝子型同定に基づいて予期されたが、C>Aが観察された場合、変異リードは無視され、患者特異的シグナルに寄与しなかった。さらに、座位は、少なくとも1つ以上のFリードファミリーと少なくとも1つ以上のRリードファミリーとがその位置に存在する場合にのみシグナルに寄与すると考えられた。このことは2つの利点:配列決定からの一本鎖アーチファクトを低減すること、およびPE150配列決定を使用してFリードとRリードとの間により大きな重なりを有する短い断片に検出を偏らせることを有する。
各試料に関して、変異アレル割合を全ての患者特異的座位にわたって以下:
Figure 2021516962
のように算出した。観察された変異リードの数の有意性を、どちらも目的の試料に関する変異リードと総リードとの数、およびバックグラウンドエラー率からの変異リードの数を含む分割表を考慮して、フィッシャーの片側正確確率検定を使用して決定した。
クラスごとの検出
エラー率の差がSNVクラス間で観察されたため、各試料を、その座位において腫瘍配列決定から予期された変異クラスに基づいて12に分割した。バリアントリードを上記のように各クラスに関して統合した。フィッシャーの片側正確確率検定を複数回使用して、観察された変異リードファミリーの数の有意性を、その変異クラスに関するバックグラウンドエラー率を考慮して決定した。これは、試料当たり12個のP値を生成し、これらのP値を次いで、フィッシャーの方法の延長であり、従属的なP値を組み合わせるために使用することができる16、経験的なブラウンの方法を使用して組み合わせた。試料がクラスにおけるデータを有しなかった場合、そのクラスは0個の変異リード、したがって1のP値を有すると扱った。この手法の特異度をさらに改善するために、2つ以上の別個のクラスにおいて変異リードを有する試料を必要とした。このことは、検出が異なる種類のエラープロセスの対象となる複数の座位に存在するシグナルに基づくことを保証するためのものであった。
有意性閾値決定
全ての患者を、同じ配列決定パネルを用いて配列決定し、99.9%のバリアントが各患者個人のもの(すなわちその個体のみに固有のもの)であったため、他の全ての患者を使用してctDNA検出に関する偽陽性を決定し、したがってコホートに関するP値閾値を設定することができた。この手法は、実施された冗長配列決定(redundant sequencing)を活用し、各個体からの配列決定された複数の試料を利用して生殖細胞系列バリアントを排除する。したがって、TAPASデータを、各座位が患者の腫瘍において変異しているか否かに基づいて、患者特異的および非患者特異的に分割した。非患者特異的データは、有意性閾値を決定するために使用した。
患者を対照として使用するために、技術的ノイズは、血漿において検出され得るが腫瘍において見落とされた任意の真の生物学的シグナルから分離すべきである。したがって、エラー抑制された非患者特異的データを使用して、座位が、これらの座位を無視することを正当化するのに十分なほど観察される可能性が低いと本発明者らが算出した(P=1×10−12、バックグラウンドエラー率の決定を参照のこと)変異リードファミリーを、同じ個体からの3つ以上の別個のライブラリにおいて含有した場合、その座位をさらなる分析の対象から外した(「ブラックリストに登録した」)。結果として、12,558のうち44の座位(0.35%)をさらなる分析の対象から外した(「ブラックリストに登録した」)。患者の不完全な腫瘍およびバフィーコート遺伝子型同定は結果として対照試料において残存生物学的シグナルを生じ得るが、このことは、同じパネルを用いて多くの対照試料を配列決定し、非患者特異的データを廃棄することに関する費用よりも好ましかった。
INVARによって取得した組み合わせたP値に関する有意性閾値を、分類確度を最大化する「MaxEfficiency」法を有するRでのOptimalCutpointsパッケージを使用する、患者特異的(試験)および非患者特異的(対照)試料に関する受信者操作特性分析を使用して決定した。
感度に関する実験的添加希釈
3.7ngの添加希釈実験
血漿cfDNAを1名の健康な個体から取得し(Seralab)、変異cfDNAを高腫瘍負荷時点の1名の患者(MR1004;2,746の患者特異的変異)から取得した。溶出液のcfDNA濃度を、水を使用して均等にし、次いで患者の試料を健康なcfDNAによって1:5の比で段階希釈して、元のcfDNA溶出液の15,625倍最終希釈液を得た。ライブラリ調製を、全てのライブラリに関して3.7ngの入力でThruPLEX Plasma−seqキットを使用して2連で実行した。
50ngの添加希釈実験
6名の患者からの等質量の血漿cfDNAをプールして、総計9,636の患者特異的バリアントを有する仮想患者を作出した。血漿cfDNAのプールを11名の健康な個体から生成した(Seralab)。患者試料プールおよび健康なプールのcfDNA濃度を、水を使用して均等にし、次いで患者試料を健康なcfDNAによって1:10の比で段階希釈して、元の1倍プール試料の100,000倍希釈液を得た。ライブラリ調製を、ライブラリ当たり最大50ngの入力量でThruPLEX Tag−seqキットを用いて2連で実行した。エラー抑制を伴わないTAPASの検出の限界よりも大きい、予期されたアレル割合を有するライブラリの場合、ライブラリ調製への入力材料を減少させ、検出されることが確実である患者血漿DNAを節約した。
変異のin silicoでのダウンサンプリング
多様な数の変異を用いてINVAR−TAPASの検出の限界を試験するために、患者特異的混合物実験と全ての非患者特異的データの両方を50〜5,000の間の変異にダウンサンプリングした。BRAFを、サンプリングした変異の各セットに常に含め、BRAFmut患者に関するパネル設計を模擬した。変異を100回繰り返しサンプリングし、ctDNAの検出を、INVARを使用して試験した。
ctDNA定量のためのバックグラウンド減算
変異アレル割合を百万分率まで正確に決定するために、バックグラウンドエラー率を観察されたアレル割合から減算した。これは、クラスごとのエラー率の差を考慮に入れて実施することも、考慮に入れずに実施することもできる。観察された変異アレル割合がバックグラウンドエラー率未満であった場合、バックグラウンド減算アレル割合は0に設定した。
試料に関する変異クラスごとのバックグラウンド減算の場合、12のクラスのそれぞれのエラー率を、そのクラスの変異アレル割合から減算した。次いで平均アレル割合を、そのクラスにおいて観察されたリードファミリーの総数によって加重された個々のバックグラウンド減算アレル割合のそれぞれから算出した。
新たな変異検出
ブラックリストに登録することによって取り除かれる(すなわち、上に記載したようにより高い座位特異的エラー率を有することを根拠にフィルター除去される)バリアントは、生物学的シグナルであることに関する証拠を示すことを根拠に以前に排除した。既知の変異であったバリアントに関して、このブラックリストから変異を呼び出すことを試みた。したがって、データを、既知のドライバー変異に関するCOSMICデータベースと交差させた(重なり合う変異の数≧5)。各変異座位に関して、その座位に関するバックグラウンドエラー率を、非患者特異的データ(すなわち腫瘍がその変異に関して陰性と遺伝子型同定された患者)を使用して決定した。フィッシャーの片側正確検定を使用して、試料における変異リードの数の有意性を、その試料における総深度、ならびにバックグラウンドにおける変異リードおよび総深度を考慮して検定した。P値閾値を0.05として設定し、ボンフェローニ法によって複数の仮説に関して補正した。個々の変異コールを、複数の一時的に分離した試料にわたって変異リードを集計することによって確認した。
[実施例1]
腫瘍および血漿からの患者特異的変異の同定
患者の腫瘍において変異している定義された座位において高い配列決定深度を達成するために、テイラードハイブリッド捕捉配列決定パネルを、腫瘍生検の配列決定において同定された一塩基バリアント(SNV)に基づいて設計した。1個以上の変異リードおよび10個以上の総リードを有するSNVを、ベースライン転移生検のエクソーム配列決定(9名の患者)または標的化配列決定(1名の患者)から選択した。患者当たりの同定されたSNVの数の中央値は673であった(IQR 250〜1,209;図7a)。患者特異的バリアントを決定した(示していない)。加えて、血漿における変異の新たな同定を可能にするために、以下の遺伝子のコード配列および非翻訳領域をパネル設計に含めた:ARID2、BRAF、CDKN2A、NF1、PTEN、およびTP53、ならびに黒色腫において一般的に変異している37の追加の遺伝子におけるホットスポット座位(示していない)。最終パネル設計は1.527Mbpを包含した。
完成されたベイトセットを、2年にわたって収集した、連続的に収集した血漿cfDNA試料(患者当たり最大8つの試料)から2連で生成されたライブラリに適用した。DNAを2mLの血漿から抽出し、血漿DNAライブラリに関する入力質量中央値は4.4ngであった(IQR 3.2〜10.0ng)。HiSeq 4000(PE150)のレーン当たり中央値で9つのTAPASライブラリ(IQR 8〜12)をプールした。患者特異的座位のそれぞれに関して、品質フィルター処理リードの深度中央値(方法)は各試料に関して1,367xであった(IQR 761〜1,886x)。
腫瘍配列決定によって見落とされた場合がある、パネルによって包含された追加の変異を同定するために、ctDNAレベルがより高いと予期された場合、追加の変異呼び出しステップを、薬物処置の開始前または開始時の第1の血漿時点において実施した。血漿変異呼び出しは、その後の分析に関して患者当たり中央値で19のSNV変異を付加し(IQR 9〜22;示していない)、コホートにわたって総計12,558の患者特異的SNVを得た。本発明者らのコホートにおけるSNVの新たな同定の観察率は、以前に報告された10、黒色腫におけるMb当たり14.4のコード変異という推定値と一致した(IQR=8.0〜24.9)。BRAF V600E変異は10名の患者のうち9名に見出され、さらなる18の変異は任意の2名の患者の間で共有された。全体としては、99.9%の変異した標的化座位は個々の患者に固有であった。
[実施例2]
バックグラウンドエラー率の特性解析
TAPAS配列決定データにおいてエラー抑制を伴うおよび伴わないバックグラウンドエラー率(すなわち予期されなかった変異塩基を観察する率)を求めることを試みた。患者特異的バリアントの両側の塩基は、患者特異的バリアントに匹敵する配列決定深度を有し、同じ技術的な偏りの対象となり得るため、これらを研究した。患者試料のこの標的外配列決定を活用するために、生殖細胞系列事象および潜在的な生物学的シグナルは、同じ個体からの試料において複数回生じた場合、排除し(方法)、これらの座位は、その後の新たな変異呼び出しのために一時的に除いた。
エラー抑制は、リードファミリーにわたるコンセンサス配列を、リードのコラプシングを使用して決定することによって達成することができる。これを達成するために、重複リードを、以前に「内在性バーコード」と称された11、12開始および終了断片位置と、分子バーコードの両方に基づいて、「リードファミリー」にグループ化した。リードファミリーをコラプシングし、塩基が呼び出されるための最低限の要件を全てのファミリーメンバー間で90%以上のコンセンサスと設定した。エラー抑制を伴わない場合、平均バックグラウンドエラー率は2×10−4であった。エラー抑制を適用する前に、リードファミリー当たりの重複の最適な最小数(「ファミリーサイズ」)を決定した。1、2、3、および5の最小ファミリーサイズ要件を有するデータに関する、保持されたリードファミリーの比率および対応するエラー率を図2aに示す。1超のサイズのリードコラプシングされたファミリーと、コラプシングされなかった1のサイズのファミリーとを含有する、1の最小ファミリーサイズ閾値は、エラー率を2.3×10−5まで低下させた。5の最小ファミリーサイズ要件を選択し、これは42%のリードファミリーを保持する一方でバックグラウンドエラー率を5.9×10−6までさらに低下させた。ファミリーサイズに関するより厳密でない規準はより多くのリードを保持し得るが、増加した配列決定ノイズを伴う。
[実施例3]
INtegration of VAriant Reads(INVAR)
厳密なレベルのエラー抑制(5の最小ファミリーサイズで、90%のファミリーメンバーにおいて必要とされるコンセンサス)を使用して、中央値で4.4ngの入力に関して、それぞれがその患者の癌において変異している座位を包含する、中央値で3.2×10のリードファミリーを各時点において取得した(IQR 8.7×10〜6.2×10)。したがって、そのようなリードファミリーのそれぞれが単一の分子に対応するという仮定に基づくと、出発物質がわずか約1300コピーのゲノムを含有する場合であっても各試料に関して数十万の標的分子を調べることができたことになる。
ctDNAレベルが低い場合、多くの患者特異的座位はその位置に変異DNA断片を有することができない(図7b)。したがって、サンプリングエラーを克服するために、全ての患者特異的リードファミリーを、INVARを使用して集計し、同時に分析した(図1b)。各試料に関して、「全体」変異アレル割合を全ての患者特異的座位にわたって以下:
Figure 2021516962
のように算出した。観察された変異リードの数の有意性を、どちらも目的の試料に関する変異リードと総リードとの数、およびバックグラウンドエラー率からの変異リードの数を含む分割表を考慮して、フィッシャーの片側正確確率検定を使用して決定した。PE150配列決定データからの少なくとも1個の順方向(F)リードと少なくとも1個の逆方向(R)リードとが存在した場合にのみ、座位において、変異リードはシグナルに寄与すると考えた。このことは、配列決定アーチファクト、およびctDNAにおいてエンリッチする短いcfDNA断片(両方向のリードによって包含される)からのデータへの偏りを抑制し得る13〜15
ハイブリッド捕捉配列決定における塩基置換間のエラー率の公知の差に基づいて、TAPASデータにおける変異クラスごとのエラー率を、INVARを使用して評価した。データを12のクラス(C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T、T>C)に分割し、エラー抑制前と後の両方でクラスごとのエラー率の差を示した(図2b)。ノイズが最も大きいクラスとノイズが最も小さいクラスとの間のエラー率においてほぼ40倍の差を同定した。これらのデータは、低エラー率変異クラスを利用することの、技術的ノイズを克服し、低いレベルのctDNAに関する感度を改善する可能性を示唆した。
本発明者らは、各試料からのリードファミリーを12のクラスに分割することに基づいてctDNAを検出するアルゴリズムを開発した。P値を、フィッシャーの正確確率検定を使用して各エラークラスに関して別個に導き、P値を、フィッシャーの方法の延長であり、従属的なP値を組み合わせるために使用することができる16、経験的なブラウンの方法を使用して組み合わせた(方法)。この手法の特異度をさらに増加させるために、本発明者らは、変異シグナルは少なくとも2つの変異クラスに存在しなければならず、それにより個々のノイズを含む座位またはクラスへの検出の依存を低減すると規定した。
全ての患者を、同じ配列決定パネルを用いて配列決定し、99.9%のバリアントが各患者に固有のものであったため、他の全ての患者を使用してctDNA検出に関する偽陽性を決定し、したがって各検出アルゴリズムのためのコホートに関するP値閾値を設定することができた。この手法は、他の場合では廃棄され得る実施された冗長配列決定を活用し、各個体からの配列決定された複数の試料を利用して、生殖細胞系列バリアントを排除する(方法)。したがって、配列決定データを、座位が患者の腫瘍において変異しているか否かに基づいて、「患者特異的」および「非患者特異的」に分割した。検出に関する有意性閾値を、分類確度を最大化するRでのOptimalCutpointsパッケージを使用する、患者特異的(試験)および非患者特異的(対照)試料に関する受信者操作特性(ROC)分析を使用して、経験的に決定した。本発明においては、ROC分析を使用して、感度と特異度の両方を最大化することに基づいて最適な閾値を同定することも、特異度をある特定のレベル、例えば99.5%で固定して、感度を探査することもできる。
[実施例4]
INVAR−TAPASの感度分析
INVAR−TAPASの感度を評価するために、2,743の変異がTAPASパネルに包含される患者からの血漿DNAを使用して、ライブラリ当たり3.7ngでの添加希釈実験を2連で生成した。内在性バーコードを用いたエラー抑制を使用して、最初にリードを変異クラスに分割せずにINVARを適用し、1.9×10−6の予期された変異アレル割合を有する試料を検出した(図8)。したがって、百万分率単位(ppm)の検出を達成した。この同じ入力(およそ1,100の一倍体ゲノム)での完全な単一座位アッセイは、1000倍以上高い2.7×10−3の変異アレル割合の検出の限界(95%の感度)を有し得る。1.9ppmの予期された変異アレル割合を有した検出された試料は、27ppmの観察された変異アレル割合を有した。観察されたアレル割合はバックグラウンドエラー率(6ppm)と真のシグナルとから構成されるため、バックグラウンドエラー率を観察されたアレル割合から減算し、予期された変異アレル割合よりもおよそ10倍大きい22ppmの「バックグラウンド減算」アレル割合を得た。低いレベルの入力において、配列決定ノイズとサンプリングエラーの両方は正確な定量を依然として妨げ得る。
次に、最大50ngの入力cfDNAでの第2の添加希釈実験を2連で行い、分子バーコードを使用した。この実験に関して、6名の患者からのDNAをプールし、健康な個体のDNAに段階希釈した(方法)。患者のcfDNAプールは、総計9,636の患者特異的変異を含んだ。50ngの入力DNAは、このコホートからの3.0mLの血漿におけるcfDNAに対応する(cfDNA濃度中央値は5,160コピー/mL)。クラスごとの分析をせずにINVARを使用して、3ppmの予期された変異アレル割合の添加試料を、9ppmの観察されたアレル割合において検出した(図3a)。上述の通りのバックグラウンド減算後、試料は3.3ppmの観察された変異アレル割合を有した(3.0ppmの予期された変異アレル割合)。このことは、バックグラウンドエラー率に接近しているアレル割合の定量の場合、バックグラウンドはシグナルの増加する比率を含み得るため、バックグラウンドエラーを減算することがますます重要となることを強調する。
次いで、INVARを、上に記載したように試料を12の変異クラスに分割することによって適用した。変異クラス間のエラー率の差を活用することによって、有意な検出を0.3ppmまで達成した(図3b)。この検出限界は、以前の捕捉配列決定方法の100分の1以下であり、また同じライブラリ入力質量(50ng、15,000ゲノムコピーと等価)での完全な単一座位アッセイに関する検出の限界(95%の感度)の100分の1〜1000分の1以下である。減算をクラスごとに実行し、次いで深度加重平均を取ることによって組み合わせたことを除いて、上述の通り、バックグラウンド減算を実施した。0.3ppmの予期された添加希釈液に関して0.4ppmのバックグラウンド減算アレル割合を観察し、百万分率までのctDNA定量に関して高い程度の線形性を実証した。
この手法の感度を、より小さなパネル設計を用いて試験するために、50から5,000の間の変異のサブセットを、BRAF V600座位の近傍でin silicoで無作為にサンプリングし、INVARを変異クラスごとに使用したctDNAの検出を繰り返し反復した(方法)。BRAF V600をサンプリングした各パネルに含め、BRAFmut患者に関するパネル設計を模擬した。各数の変異に関して達成した感度を図3cに示し、2500の変異について、0.3ppmをほぼ50%の感度で検出することができた。2,500の変異に関して、この手法の特異度を99.6%と経験的に決定した(図3d)。
[実施例5]
In silicoサイズ選択
リードの開始および終了位置を使用して断片サイズ分布を決定した。全ての血漿試料からのエラー抑制されたデータを組み合わせ、断片の分布を算出した(図4a)。各5bpのサイズ区間に関して、変異の割り前と野生型の割り前との比を決定した(図4b)。ctDNAに関するエンリッチメントを、ヌクレオソームDNAサイズ(166bpの倍数)よりも約20〜30bp短い断片において観察した。エンリッチメントの大きさは、モノヌクレオソームピークよりもジヌクレオソームピークにおいて大きかった。1名の患者は変異トリヌクレオソームDNAに関する証拠を示した(図9)。以前のデータは、変異断片が野生型断片よりも短いことを実証しているが13、14、17、これらのデータは、変異DNAがモノ、ジ、およびトリヌクレオソームDNAよりも一貫して短いことを示す。
これらの所見を考慮して、本発明者らは、in silicoサイズ選択により変異シグナルをエンリッチすることを目的とした。ctDNAのエンリッチメントを示したサイズ範囲に基づいて、データを、115〜190bp、250〜400bp、および440〜460bpのサイズ範囲内のリードにin silicoでサイズ選択した。変異および野生型断片のサイズ分布は大半の場合重なり合っていたため、これらの比較的広い範囲を選択して、まれな変異アレルの喪失を最小限にした。過度に厳密なサイズ選択は、結果としてまれな変異分子の脱落を生じる場合があり、これはctDNAレベルが百万分率に近づくにつれてますます問題となる。原則として、より多くの入力DNAおよびさらなる配列決定を用いる場合、より狭いフィルターを適用してより強力なエンリッチメント因子を生成することができる。血漿試料および添加希釈液に適用された場合、サイズ選択は、93.7%の変異リードを保持する一方で、野生型に対してctDNAにおいて6.3%のエンリッチメント中央値を生じた。サイズ選択後のエンリッチメントの程度は、試料の開始変異アレル割合に関係し、減少する変異アレル割合との指数関係に従った(図4c)。最低変異アレル割合(1ppm未満)を有する50ngの添加実験からの試料は、おそらくは最も高いレベルの汚染野生型リードを有したため、最も大きい程度のエンリッチメントを示した。1名の患者(MR1004)では、サイズ選択は以前に検出されなかった変異シグナルの検出を可能にし、9.1ppmの変異アレル割合であった(図5a)。これは、患者が体積測定CT分析によって決定された総計1.3cmの疾患を有した時点で観察された(図5a、b)。サイズ選択は、患者MR1004のベムラフェニブ標的化療法中の第2の時点に関して、0の変異リードファミリーが存在したため、利益をもたらさなかった(図5a、c)。
[実施例6]
残存腫瘍体積の検出
コホートにわたって、ctDNA変異アレル割合を体積測定CT撮像データに対して比較し、これは0.67のピアソン相関を示し(P=0.0002;図5d)、以前に公開された研究に一致した6、8。1名の患者(MR1014)は、国際RECIST規準18によって測定不能であった低体積皮下転移を有したため、この比較から排除したが、依然としてctDNAに寄与し得る。患者MR1004の検出されなかった時点(図5a)に関する考えられる最大の変異アレル割合は、ポアソン分布および完全なアッセイに基づいて1個の変異分子をサンプリングする95%の確率を得るように調整された、その試料におけるリードファミリーの数の逆数を取ることによって、3.4ppmと推測した。
全ての時点にわたって、ctDNAと、黒色腫患者に関して使用される予後マーカーである血清乳酸脱水素酵素との間に0.86のピアソン相関が存在した(P=2.2×10−15;図10a)。43%の時点において、患者は検出されたctDNAと正常なLDHとを有し、タンパク質マーカーと比べて低いctDNAの生理学的バックグラウンドを反映した。同時に、これらのデータは、ctDNAが、LDHに類似しかつ残存疾患に関する増強した感度を有する予後的役割を果たし得ることを示す。
全身療法の開始後、10名のうち3名の患者のctDNAが10ppm未満のレベルに下がった。本発明者らは、ctDNAが10ppm未満まで落ちた患者はより高いレベルの残存ctDNAを有する患者と比べて24か月長い全生存期間を有したことを見出した(中央値954対229日;ログランク検定P=0.009;図5e)。また、ベースラインctDNAレベルは全生存期間との逆相関を示した(ピアソンr=−0.61、P=0.04;図10b)。このコホートにわたって、ctDNAの最初の上昇は、放射線学的進行より中央値で54日先に生じた(IQR 0〜112日)。リードタイム(lead time)を、上昇が明らかとなった時点から算出した。これは、55日という分析された試料間の時間の中央値(IQR 28〜73.5)よりも頻繁な血漿サンプリングによりさらに改善し得る。
ライブラリ調製のために使用した限定されたDNA入力質量にもかかわらず(ライブラリ当たりの中央値4.4ng、1320の一倍体ゲノム)、40%の血漿試料は、完全な単一座位アッセイを使用した理論的な検出の限界(95%の感度)未満であった、有意に検出されたアレル割合を有した図5f)。注目すべきことに、本発明者らは、cfDNA濃度とctDNA変異アレル割合との間に0.27のピアソン相関を観察し、これは、低い総cfDNAレベルが低いctDNAレベルを伴う可能性があり、低いレベルのctDNAの検出を、個々の変異座位に依存するアッセイに関してより一層困難を伴うものにすることを示した。
[実施例7]
新たな変異検出
ctDNAレベルが十分に高い場合、耐性変異は新たに同定され得、クローン進化は変異のアレル割合の変化を通してモニタリングされ得る。1名の患者(MR1022)からの一例を図6に示し、これは、COSMICデータベース19において5つ以上の発生を有した個々の変異に関するアレル割合(図6a)を、個々の腫瘍病変体積(図6b)および腫瘍病変位置(図6c)と共に示す。ホットスポット変異座位を試験することによって(方法)、上昇するNRAS Q61K変異は、総計2名の患者からの血漿試料において新たに有意に検出され、これらの変異は、これらの患者のベースライン腫瘍生検において同定されなかった。個々の変異呼び出しに関して、検出を、試料当たりを基準として実行した。低いレベルのシグナルおよび入力材料のコンテキストでは、一連の試料からのバリアントリードを統合することは、各試料が収集および配列決定されるにつれて、閾値未満のctDNAレベルを有する複数の試料を集計することを可能にすることによって、感度を増強し得る。
考察
数千の腫瘍由来変異の多重化ディープ配列決定とINtegration of VAriant Readsとの組合せは、0.3ppmまでのctDNAを検出することを可能にした。cfDNA配列決定データからのエラー率および断片化パターンの特性解析を通して、本発明者らはcfDNAのハイブリッド捕捉配列決定に関するワークフローを最適化した。本研究では、各患者に関する数多くの変異を、ベースライン腫瘍生検のエクソームまたは標的化配列決定によって同定された全ての変異を使用することによって分析した。このことは、他の高感度増幅産物およびハイブリッド捕捉法6、8のために使用された入力量のおよそ10分の1の、ライブラリ調製への限定されたDNA入力量にもかかわらず、高感度分析を可能にした。エラー抑制を使用してバックグラウンド配列決定エラーを低減し、in silicoサイズ選択を使用して変異シグナルを増強した。各患者に関する既知の腫瘍変異と重なる大量の患者特異的リードを生成することによって、TAPASは、少ない入力量と、エラー抑制およびサイズ選択によって引き起こされたデータ喪失とを補償する一方で、非常に高感度な検出に十分な変異リードを依然として保持する。結果として、高い感度(百万分率未満)と高い特異度(99.5%超)の両方を達成した。
INVAR−TAPASは、変異クラス間のエラー率の差を活用して、利用可能なデータを効率的に使用する一方でまれな変異アレルを検出する。変異クラスごとの検出と、それに続く各検定統計量の組合せは、各クラスがクラスのバックグラウンドエラー率に基づいて全体のシグナルに寄与することを可能にした。変異クラス間の従属関係を考慮する、相関するデータセットに関するP値を組み合わせるための方法16を使用した。ここで、12の変異クラスによる分析を使用し、より大きなデータセットは、トリヌクレオチドコンテキストごとまたは個々の座位ごと等のより大きい数の配列サブセットに基づく分析を可能にし、このことはエラー率に対する分解能をさらに一層改善し得る。
エラー抑制されたデータを使用して、PCRおよび/または配列決定からの最小の交絡的エラーを有する変異リードと野生型リードの両方に関するサイズプロファイルを視覚化した。本発明者らは、ctDNAが短い血漿cfDNA断片においてエンリッチし、ジヌクレオソームDNAにおける変異DNAのエンリッチメントに関する証拠を提供し、これが癌患者の血漿におけるより長い変異DNAに関する以前の所見20、21に寄与した可能性があることを確認する。サイズ選択を、非侵襲性出生前検査22(ここで胎児DNA断片は母体断片よりも短い23)の分野において最初に実証され、癌患者試料に関して実験的に使用され始めている17本発明者らのデータに適用した。Fanら22はサイズ選択を用いて変異分子を保持することの困難を強調するが、本発明者らは、これは大部分、変異および野生型断片の高度に重なり合うサイズ分布に起因することを確認する。現行の研究では、本発明者らは緩やかなサイズ選択を選択して大きな割合の出発変異分子を保持し、緩やかなカットオフは、特に変異割合が非常に低い(1ppm以下の変異アレル割合の範囲)場合に利益をもたらすことができることを実証した。より大きい配列決定深度およびDNA入力を用いる場合、より厳密なフィルタリングはさらなるエンリッチメントを提供することができる。
INVAR−TAPASは腫瘍由来変異の知識を活用するが、これは高い腫瘍含量を有する初期試料の分析を必要とする。この方法は、処置後、特に腫瘍組織DNAが配列決定のために取得され得る外科的処置後の疾患再発をモニタリングすることに関して潜在的有用性を有する。本発明者らは、この方法が9.1ppmのctDNAを用いて1.3cmという小さい残存疾患を検出した一例において、この観察された変異アレル割合は、以前に記載されたモデルからの所与の腫瘍体積に関して予測されたアレル割合と一致し、INVAR−TAPASがCT検出に関する検出の限界において病変を理論的に同定し得ることを示す、ということを示した。高感度手法を用いた再燃または疾患進行のより早期の検出は、アジュバント療法または療法の変更のより早期の開始を容易にし得る。その後の療法を導くことに関して、本発明者らは、変異は新たに同定され得るが、この感度はその座位において分析される、感度を限定している可能性のある分子の数に直接比例することを実証する。シグナルは、限定された入力DNAのコンテキストにおける同定を増強するために、複数の経時的試料にわたってさらに統合され得る。本発明の手法の1つの利点は、以前の試料における低いレベルのシグナルが、後の試料における変異検出を支持する証拠を提供することができることである。したがって、各経時的試料は別の試料を支持する。
このテイラード手法は、血漿からの異なる種類の入力データ、および分析結果を通知する異なる変異のリストを使用して実行され得る。腫瘍由来変異は、ここで実証されるようにエクソーム配列決定を使用して同定することができるが、より小さな焦点化パネルまたはより大きな規模、例えば全ゲノムにわたって同定することもできる。10名の黒色腫患者のこのコホートでは、エクソーム配列決定は患者当たり数百から数千の変異を同定するのに十分であった。癌の種類の既知の変異率24に基づくと、エクソーム配列決定はまた、比較的高い変異率を有する多くの癌の種類、例えば肺、膀胱、食道、または結腸直腸癌に関しても十分であり得る。メガベース当たり約1以下の変異率を有する癌の場合24、変異解析のための腫瘍の全ゲノム配列決定が望ましいことがある。卵巣および脳癌の場合、これは結果として患者当たり数千の同定された変異をもたらすと考えられる。
INVARのためのデータを生成するために、数多くの変異のディープ配列決定を提供するが、患者特異的配列決定パネルの開発を必要とする、患者特異的パネルを用いる標的化配列決定(例えばTAPAS)を使用した。これは、INVARのためのデータを、同じTAPASパネルを用いて分析することができる経時的試料から生成するために費用効果が高い。異なる実装形態では、患者特異的パネルの設計を伴わない全エクソームまたは全ゲノム配列決定は、INVARに好適な類似したデータを生じ得る。この手法を用いる場合、ワークフローの複雑性を低減するが、配列決定データの多くは腫瘍により変異した座位を包含し得ず(したがってINVARに関して有益となり得ず)、結果として、より多くの配列決定が実施されない限り、より少ない、INVARに利用可能な患者特異的リードファミリーをもたらし得る。配列決定費用が減少し、かつ腫瘍配列決定が個別化腫瘍学の到来と共により頻繁になる場合、血漿cfDNAのエラー抑制された配列決定からのINtegration of VAriant Readsは、処置モニタリング、疾患監視、および残存疾患の検出の非常に高感度な手段を提供し得る。
[実施例8]
トリヌクレオチドコンテキストの使用
腫瘍配列決定
患者の腫瘍において変異している定義された座位において高い配列決定深度を達成するために、テイラード配列決定パネルを、ステージII〜IVの黒色腫を有する48名の患者からの新鮮凍結またはFFPE腫瘍生検の配列決定において同定された一塩基バリアント(SNV)に基づいて設計した。変異呼び出しを全ての腫瘍生検に関して実施し、バリアントコールをフィルタリングして、患者の適合生殖細胞系列DNAにおける、共通のSNP部位、反復領域、およびシグナルを有する座位を排除した(方法)。
変異プロファイルを、新鮮凍結腫瘍生検配列決定(図11および12)、ならびにFFPE生検配列決定(データは示していない)において評価した。大多数の変異はC>Tであり、GGAおよびTCCコンテキストが最も広く存在し、UVシグネチャの優勢を反映した(図11)。腫瘍変異の変異アレル割合中央値は約0.25と推定された。
血漿配列決定
本発明者らは、2の最小ファミリーサイズ閾値を有するエラー抑制されたデータを使用して、ハイブリッド捕捉配列決定からの血漿におけるバックグラウンドエラー率がトリヌクレオチドコンテキスト間で変動することを見出した(図13)。トリヌクレオチドコンテキストの使用は、コンテキストにわたるリードファミリーの集計により、1000万分の1までのバックグラウンドエラー率の決定を可能にするが、座位当たりのレベルに関する同じ確度のバックグラウンドエラー推定を達成することは、莫大な数の試料が配列決定されることを必要とし得る。トリヌクレオチドコンテキストの使用は、エラー抑制後のリードファミリーの最大限の保持を可能にするが(図2a)、100倍以上にまたがる広範囲のエラー率を有する。
コンテキストを取り扱うためのINVARの修正
ctDNAレベルが低い場合、多くの患者特異的座位はその位置に変異DNA断片を有することができない。したがって、サンプリングエラーを克服するために、全ての患者特異的リードファミリーを、INVARを使用して集計し、同時に分析した。各試料に関して、変異リードファミリーおよび総リードファミリーをトリヌクレオチドコンテキストごとに集計し、比率:
Figure 2021516962
を決定した。観察された変異リードの数の有意性を、各コンテキストに関してフィッシャーの片側正確確率検定を使用して決定し、各試料に関するP値のベクトルを生成した。各患者において表されるコンテキストの数はその患者の変異プロファイルに基づいて異なるため、各P値ベクトルの長さは試料間で変動した。このことを考慮するために、および微小残存病変(MRD)環境において少数の分子のみが存在し得ることを考慮に入れるために、試料当たり6つの最も有意なトリヌクレオチドコンテキストからのP値を組み合わせた。これを試験試料と対照試料の両方に関して実施し、対照を使用して、97.5%の特異度でP値カットオフを決定した。
[実施例9]
黒色腫に関するUV由来ジヌクレオチド変異の活用
皮膚黒色腫における高い変異率はほとんど完全に、UV誘導変異の特性であるシチジンからチミジンへの(C>T)転位の存在量を原因とすることができる(Hodisら、2012年)。本発明者らは、この変異シグネチャを本発明者らのデータにおいて確認する(図11)。C>T転位に関して、10の変異のうちの1つはCC>TTであり(Brash、2015年)、これは本発明者らのデータにおいてCCまたはGGを含有するコンテキストにおける変異の存在量と一致する(図11)。
黒色腫において、CC>TT変異は、任意の確率論的なPCR/配列決定エラーが連続して2回生じなければならないと考えられるため、極端に低いエラー率を達成する機会を提供する。CC>TT変異は、独自の変異クラスとして集計することができるが、個々の挿入欠失それぞれは、別個のエラープロファイルを有し得る。したがって、CC>TT変異は、低ノイズプロファイルを利用するのに十分な数の分子の探査を可能にするほど、データに十分広く存在し得る。本発明者らは現在、2の最小ファミリーサイズを用いてエラー抑制されたデータから隣接する塩基においてCC>TTを有する変異リードを同定するためのスクリプトを生成している。これらの変異は、INVARに関する独自のエラープロファイルを有する別個のクラスとして扱うことができる。
[実施例10]
INVAR−微小残存病変(MRD)シグナルの統合
残存疾患の検出のためにINVARを最適化するために、添加希釈系列を、患者のcfDNAと健康な個体のcfDNAとの混合物を使用して生成し、最低希釈倍率において生じるシグナルを特性解析した。この実験に関して、6名の患者からのcfDNAをプールして、総計9,636の患者特異的変異を有する理論的患者を創出した。次いで、このプールを健康な個体のDNAに段階希釈した(方法)。
希釈実験に関する個々の患者特異的変異の変異アレル割合のヒストグラムを図14に示す。試料をさらに希釈するにつれて、次第に増加する比率の座位がサンプリングされなくなるため、変異アレル割合のヒストグラムは左にシフトする。これにもかかわらず、低いレベルのctDNAにおいて、観察される座位は、低い変異アレル割合(0.03未満)で見られる。このシグナルは、図15に示す標的化された患者特異的座位にわたって無作為に分布した変異分子の確率論的なサンプリングを表す。
最低レベルの残存疾患において、ctDNAは個々の座位における個々の変異分子に見出され得る。多くの変異分子が1つの座位に完全に集中し、他の座位が表されない可能性は非常に低いと考えられ、このことは本発明者らのデータによって支持される(図14および15)。残りの座位に比して予期せぬほど高いレベルのシグナルを有する座位は、SNPまたはノイズを含む塩基であり得る。したがって、この特性解析に基づいて、本発明者らは、4個以下の変異リード(最大2個の分子が座位に存在することを可能にする、リードはFリードとRリードの両方)、および0.03未満の変異アレル割合(このシグナルがSNP由来ではないことを確信的とするために十分に多くの総リードファミリーを必要とする)を有する座位を起源とするシグナルに計画的に焦点を当てるMRDフィルターを提唱する。
この手法を使用する場合、50個の総分子のうち2個以下の分子を有する座位に焦点を当てることによってSNPと誤って遺伝子型同定する確率(予期されたAF=50%)は、1×10−12である(50回のうち2回以下の成功;p=0.5)。これは、座位が共通のSNPデータベース(すなわち1000Genomes ALL、EUR)に基づいてフィルタリングされる、腫瘍配列決定段階において実行される事前のSNPフィルタリングによってさらに低下する。
加えて、座位当たりの変異リードの数に関する下限も設けた。変異リードは、少なくとも1個のFリードと少なくとも1個のRリードとが座位において存在する場合にのみ、座位におけるシグナルに寄与すると考えられた。PE150を用いて配列決定したことを考慮すると、重なり合うF変異リードおよびR変異リードの支持を必要とすることは、配列決定アーチファクトを抑制することという2つの目的に役立ち、ctDNAに関してわずかにエンリッチする(図4)短いcfDNA断片からの変異リード(両方向のリードによって支持される)を選択した。
同時に、これらの上記パラメータは、INVARアルゴリズムの焦点を、MRDのコンテキストにおいて無作為にサンプリングされた腫瘍を起源とする可能性が最も高い変異分子からのシグナルを集計することに当てる。
[実施例11]
INVAR腫瘍アレル割合加重
ctDNAが高い時点の血漿における変異の出現を評価した。腫瘍エクソームAFと血漿AFとの間に相関を見出した(図16)。したがって、血漿において所与の変異を観察する尤度は腫瘍AFに比例する。このことは、Jamal−Hanjaniら(2016年)によって実行された研究と一致する。
患者特異的配列決定は、そのような腫瘍事前情報を活用する機会を提供する。したがって、座位当たりのINVARシグナルを腫瘍AFによって加重した後で、シグナルの変異コンテキストごとの集計を行った。これは、その座位における変異リードファミリーの数と総リードファミリーの数の両方を1−腫瘍アレル割合で割ることによって実施した。これは、血漿における真のシグナルを含有する可能性のより高い座位により大きい重みを付与する。
座位当たりの変異ファミリーの生の数を図15に示す。図18は腫瘍加重後の同じデータを示す。加重前および後の座位当たりの変異の合計を、試験と対照との間で同じ数の変異リードとなるようにダウンサンプリングした、希釈実験および7名の健康な対照試料に関する図19に示す。これは、加重に起因する試験試料と対照試料との間の変異シグナルの示差的エンリッチメントを示す。
[実施例12]
エクソーム配列決定データへのINVARの適用
次に、INVARをエクソーム配列決定データに適用して、非個別的配列決定データへのINVARの一般化可能性を実証した。血漿エクソーム配列決定を、ステージIVの疾患を有する患者からの試料のサブセットに関して実行した。
エクソーム配列決定データに関しては、分子バーコードの使用が比較的頻繁ではない既存のエクソームデータにINVARが適用され得るかを実証するために、分子バーコードを使用しなかった。INVARが多くの座位を標的とすることを考慮すると、目的のファミリーは複数のゲノム領域にわたって広がっており、したがって対立する内在性バーコードの尤度は低下する。この確率は、エクソーム配列決定によって取得された、座位当たりの減少した数のファミリーによってさらに低下する。HiSeq 4000のレーン当たり3〜6つのエクソームライブラリをプールした(試料当たり60〜100M個のリード)。
腫瘍加重前および後のMRDフィルタリングされた座位における変異リードの数を、2個の変異リード(1Fおよび1R)を必要とすることの有用性と、試験および対照試料からの変異リードファミリー間の加重の程度との両方を強調して図20に示す。検出を腫瘍特異的加重後の全ての血漿試料において達成し、1名の患者において約5×10−5までのAFのctDNAの定量を可能にした(図21)。したがって、INVARは、個別的配列決定パネルの事前の設計を伴わずに配列決定データに適用することができる。
[実施例13]
非標的化INVAR
個々の座位を呼び出すことと対照的なトリヌクレオチドコンテキストにわたるシグナルの集計は、INVARがアプリオリな腫瘍知識を伴わない血漿配列決定データに潜在的に一般化されることを可能にする。このことは、腫瘍配列決定が利用可能でない患者における適用可能性を有し得るが、その代価は、真の変異シグナルに決して寄与し得ない座位の存在量に起因する、より低い感度、およびctDNAレベルを定量する低下した能力であると予期され得る。
初めに、上述の通り、TAPASデータを使用し、2の最小ファミリーサイズを用いてエラー抑制を適用した。次に、データにおいて50以上のリードファミリーを有する全ての塩基を同定し、それぞれにおける変異シグナルを各位置で決定した。
ctDNAのみから生じる変異シグナルに焦点を当てるために、公開エクソームにおける上位100の頻繁に変異している遺伝子は、Shyrら(2014年;補足的方法)から同定された遺伝子のミトコンドリア染色体および反復変異ファミリーであったため、排除した(Shyrら、2014年)。
INVARを、十分なファミリーを有する全ての塩基にわたって添加希釈実験時に実行した。座位のブラックリストへの登録(すなわち、より高い座位特異的エラー率を有することを根拠としたある特定の座位のフィルター除去)後、およびMRDフィルター(1F+1R MRDシグナルのみに関する)を適用した後、非標的化された方法におけるINVARの使用に関する予備的証拠を示す(図22)。
[実施例14]
数千の変異した座位にわたるINtegration of VAriant Readsによる、低負荷癌におけるctDNAの百万分率までのモニタリング
材料および方法
患者コホート。試料を、MelResist(REC11/NE/0312)、AVAST−M(REC07/Q1606/15、ISRCTN81261306)30、およびLUCID(REC14/WM/1072)研究に登録された患者から収集した。研究に参加することへの同意は、調査に関して十分に訓練を受けたリサーチナース/専門看護師または臨床医によって得られた。MelResistは、ステージIVの黒色腫を有する患者におけるBRAF標的化療法および免疫療法を含む黒色腫の全身療法に対する応答および耐性機構の橋渡し研究である。AVAST−Mは、外科的処置後の再燃のリスクがあるステージIIB〜IIIの黒色腫を有する患者におけるベバシズマブの有効性を評価した無作為化対照臨床試験であり、観察群からの患者のみをこの分析のために選択した。LUCIDは、治癒的目的で根治処置(外科的処置または放射線療法+/−化学療法)を受けることを予定しているステージI〜IIIBの非小細胞肺癌患者(NSCLC)の前向きおよび観察研究である。Cambridge Cancer Trials Unit−Cancer Themeが全ての研究を統括し、患者背景および臨床成績を前向きに収集した。図41はこの研究を経験する患者の流れをREMARK図として示す。
試料収集および処理。処置前の新鮮凍結腫瘍生検を、ステージIVの皮膚黒色腫を有する患者から収集した。ホルマリン固定パラフィン包埋(FFPE)腫瘍組織を、AVAST−MおよびLUCID(外科的処置から)臨床試験のために取得した。AVAST−M研究の患者に関して、血漿試料を腫瘍切除の12週間以内に収集し、入手可能な場合は3か月後のその後の試料も収集した。LUCID研究の患者は、1つの血漿および適合バフィーコート試料を外科的処置前に採取された。経時的試料を、ステージIVの黒色腫を有する患者の処置中にMelResist研究の一部として収集した。末梢血試料を各来院時にS−Monovette 9mL EDTAチューブにおいて収集した。血漿収集に関して、試料を採血の1時間以内に1600gで10分間遠心分離して、次いで20,000gで10分間の追加の遠心分離を実行した。全てのアリコートを−80℃で保管した。
組織および血漿抽出および定量。FFPE試料を最大8μmの切片に切断し、H&E染色スライドを1つ生成し、病理組織学者によって腫瘍領域に関して輪郭抽出した。マーキングした腫瘍領域のマクロダイセクションを行い、DNA抽出を、ヒートブロック上における56℃での一晩のインキュベーションおよび500rpmでの撹拌を除いては標準的なプロトコルを使用するQIAamp DNA FFPE Tissue Kitを使用して実施した。DNAを、各回20μLのATE緩衝液を使用して最高速度の遠心分離で2回溶出した。抽出後、DNA修復を、NEBNext(登録商標)FFPE DNA Repair Mixを製造業者のプロトコルに従って使用して実施した。新鮮凍結組織生検を最初に均質化した後で、DNA抽出を以下のように実施した:最大30mgの各新鮮凍結組織生検試料を600μLのRLT緩衝液と組み合わせ、次いでPrecellys CD14チューブ(Bertin Technologies)に入れ、5秒で区切られた2回の20秒のバーストの間6,500rpmで均質化した。その後、製造業者のプロトコルに従ったQiagen AllPrep抽出キット。
ゲノムDNAを最大1mLの全血またはバフィーコートから、Gentra Puregene Blood Kit(Qiagen)を製造業者のプロトコルに従って使用して抽出した。試料を2ラウンドの70μLの緩衝液AEに溶出し、3分間インキュベートした後に遠心分離した。最大4mLの血漿を、QIAsymphony(Qiagen)をQIAampプロトコルと共に使用して抽出した。DNAを90μLの溶出緩衝液に溶出し、−80℃で保管した。血漿試料を、2〜4mL QIAampプロトコルを使用するQIAsymphony機器(Qiagen)を使用して抽出した。各QIAsymphonyバッチに関して、陽性および陰性対照を含む24の試料を抽出した。
新鮮凍結FFPEおよびゲノムDNAの抽出後、溶出DNA濃度を、dsDNA広範囲アッセイに関してQubit蛍光光度計(ThermoFisher Scientific)を使用して定量した。血漿DNA溶出液の無細胞DNA濃度を定量するために、デジタルPCRを、ハウスキーピング遺伝子RPP30(Sigma Aldrich)に関するTaq−manプローブを用いるBiomark HD(Fluidigm)を使用して実行した。55のPCRサイクルを使用した。RPP30アッセイは65bp長であった。溶出液1μL当たりの推定された数のRPP30 DNAコピーを使用して、元の試料における無細胞DNA濃度を決定した。
腫瘍ライブラリ調製。FFPE腫瘍組織DNA試料(最大150ng)およびバフィーコートDNA試料(75ng)を、Covaris LE220(Covaris、Massachusetts、USA)を使用して150bpの長さに剪断した。8 microTUBE−15 AFA Beads Strip V2を使用する、150bpの最終断片長および15μlの入力容量に関する標準的なCovarisプロトコルを使用した。剪断後、断片化パターンを、バイオアナライザ(Agilent)を使用して検証した。
配列決定ライブラリを、ThruPLEX DNA−seqキット(Rubicon)を使用して調製した。それぞれ100ngおよび50ngの剪断された腫瘍およびバフィーコートDNAを使用して、プロトコルを製造業者の説明書に従って実行した。ライブラリ調製中の増幅サイクルの数を、製造業者の推奨に従って変動させた。ライブラリ濃度を、Illumina/ROX低ライブラリ定量キット(Roche)を用いるqPCRを使用して決定した。ライブラリ断片サイズを、バイオアナライザ(Agilent)を使用して決定した。ライブラリ調製後、エクソーム捕捉を、TruSeq Exome Library Kit(Illumina)を用いて、45Mbpエクソームベイトセットを使用して実施した。3つのライブラリを1回の捕捉反応において多重化し、250ngの各ライブラリを入力として使用した。ThruPLEXライブラリとの適合性のために、プロトコルを、1μlのi5およびi7 TruSeq HT xGen汎用ブロッキングオリゴ(IDT)を各ハイブリダイゼーションステップ中に添加することによって変更した。増加したハイブリダイゼーション容量を補償するために、CT3緩衝液の容量を51μLに調整した。2ラウンドのハイブリダイゼーションを実行し、それぞれ24時間続いた。ライブラリQCを、上記のようにqPCRおよびバイオアナライザを使用して実施した。試料を多重化し、HiSeq 4000(Illumina)を用いて配列決定した。新鮮凍結腫瘍生検および適合バフィーコートライブラリ調製を、SureSelectXT Human All Exon 50Mb(Agilent)ベイトセットを使用して、Varelaら31によって記載されているように実施した。試料を多重化し、HiSeq 2000(Illumina)を用いて配列決定した。
腫瘍変異呼び出し。新鮮凍結腫瘍生検に関して、変異呼び出しをVarelaら31によって記載されているように実施した。FFPE腫瘍生検に関して、変異呼び出しを、Mutect2を初期設定で用いて実施した:−−cosmic v77/cosmic.vcfおよび−−dbsnp v147/dbsnp.vcf。保持された変異の数を最大化するために、Mutect2の通過(LUCIDおよびAVAST−M試料)または腫瘍LOD>5.3を達成したバリアントを保持した(AVAST−M試料)。変異コールを以下のようにフィルタリングした:
1.バフィーコート変異アレル割合が0に等しい
2.変異が相同領域に存在しない
3.変異が複アレル座位に存在しない
4.1000Genomes ALLおよびEUR頻度が0に等しい
5.最小固有腫瘍深度が5。
加えて、黒色腫コホートにおけるFFPEデータに関して、Costelloら32によって提唱されたC/Aエラーに関するフィルターを適用してC/Aアーチファクトを抑制した。結果として、ステージII〜IVの黒色腫およびステージI〜IIIAの肺癌を有する64名の患者に関する患者特異的変異リストを生成した。黒色腫および肺癌を有する患者当たりそれぞれ中央値で625(IQR 411〜1076)および388(IQR 230〜600)の患者特異的変異を同定した(図31)。これらの変異リストは、カスタム捕捉配列決定パネルを設計するためにも、INVAR方法に関する入力としても使用した。
血漿ライブラリ調製。必要な場合、無細胞DNA試料を、ライブラリ調製前にSpeedVac(ThemoFisher)を使用して30℃で真空濃縮した。ライブラリへの入力中央値は1652の一倍体ゲノムであった(IQR 900〜3013)。血漿無細胞DNAに関する全ゲノムライブラリ調製を、Rubicon ThruPLEX Tag−Seqキットを使用して実施した。ThruPLEXプロトコル中のPCR増幅サイクルの数を、製造業者によって推奨されるように、7〜15サイクルの間で変動させた。増幅および試料バーコード化後、ライブラリを、AMPure XPビーズ(Beckman Coulter)を1:1の比で使用して精製した。ライブラリ濃度を、Illumina/ROX低ライブラリ定量キット(Roche)を使用して決定した。ライブラリ断片サイズを、バイオアナライザ(Agilent)を使用して決定した。
ステージIVの黒色腫コホートに関して、ライブラリ調製および配列決定を2連で実行して、コンピュータによる実験的方法の技術的再現性を評価し、INVARパイプラインによって生成されたIMAF値間で0.97の相関を示した(ピアソンのr、p値<2.2×10−16)。初期コホートに関して、入力無細胞DNA材料を分割せず、代わりに時点当たりの単一試料として調製および配列決定した。
カスタムハイブリッド捕捉パネル設計および血漿配列決定。変異呼び出し後、カスタムハイブリッド捕捉配列決定パネルを、Agilent SureDesignソフトウェアを使用して設計した。5から20名の間の患者を、この実装形態においてパネル当たりでまとめてグループ化した。ベイトを、黒色腫患者に関しては4〜5xの密度およびバランス調整したブースティング、肺癌患者に関しては1xの密度およびバランス調整したブースティングで設計した。95.5%のバリアントは成功裏に設計されたベイトを有し、ベイト設計は失敗した座位に関して再びは試みられなかった。カスタムパネルは、1.26〜2.14Mbの間のサイズの範囲であり、120bpのRNAベイトを有した。各パネルに関して、変異クラスおよび腫瘍アレル割合を図31に示す。
ライブラリを、ThruPLEXライブラリとの適合性のために製造業者によって推奨されるように33、i5およびi7ブロッキングオリゴ(IDT)の添加を含むAgilent SureSelectXTプロトコルを使用して、単一または3重のいずれかにおいて(総計1000ngの捕捉入力まで)捕捉した。カスタムAgilent SureSelectXTベイトを、13サイクルの捕捉後増幅に関して使用した。捕捉後ライブラリを、AMPure XPビーズを1:1.8の比で用いて精製し、次いで定量し、ライブラリ断片サイズを、バイオアナライザ(Agilent)を使用して決定した。
血漿のエクソーム捕捉配列決定。血漿のエクソーム配列決定に関して、Illumina TruSeq Exome捕捉プロトコルに従った。Rubicon ThruPLEXプロトコルを使用して(上記のように)生成されたライブラリを、各ライブラリに関して250ngの入力で3重にプールした。ライブラリは、ThruPLEXライブラリとの適合性のために製造業者によって推奨されるように、i5およびi7ブロッキングオリゴ(IDT)の添加を含むプロトコルに従って、2ラウンドのハイブリダイゼーションおよび捕捉を受けた。標的エンリッチメント後、産物を、8ラウンドのPCRを用いて増幅し、AMPure XPビーズを使用して精製した後にQCを行った。
血漿配列決定データ処理。Cutadapt v1.9.1を使用して、アダプター配列の別個のFASTAにおいて指定された既知の5’および3’アダプター配列を取り除いた。トリミングしたFASTQファイルを、19のシード長を用いるBWA−mem v0.7.13を使用してUCSC hg19ゲノムに対してアラインメントした。エラー抑制を、ThruPLEX Tag−seqライブラリBAMファイルに関して、CONNOR34を使用して実行した。コンセンサス頻度閾値−fを0.9(90%)として設定し、最小ファミリーサイズ閾値−sをエラー率の特性解析のために2から5の間で変動させた。カスタム捕捉およびエクソーム配列決定データに関しては、2の最小ファミリーサイズを使用した。sWGSおよび血斑分析に関しては、1の最小ファミリーサイズを使用した。
複数の時点にわたるシグナルを活用するために、エラー抑制されたBAMファイルを、「samtools view −ubS−|samtools sort−」を使用して組み合わせた後にさらなるデータ処理を行うことができる。試料が外科的処置後3か月時点と6か月時点の両方で入手可能であった初期黒色腫コホート(AVAST−M)では、BAMファイルを結合した後に分析を行った。
血漿の低深度全ゲノム配列決定。WGSに関して、HiSeq 4000のレーン当たり30のライブラリを配列決定して、試料当たり中央値で0.6×の重複排除カバレッジを達成した。これらのライブラリに関して、有益なリード(IR)の数は、バックグラウンドエラーが限定するようになり得る前に感度を限定し得るため、この特定の環境に関して1のファミリーサイズを用いるエラー抑制を使用した。トリヌクレオチド当たりのエラー率を、1のファミリーサイズに関するWGSデータとカスタムハイブリッド捕捉配列決定データとの間で比較し、0.91のピアソンrを示した。WGSデータは、座位における最小深度を1に設定したこと、およびシグナルを有する座位対シグナルを有しない座位は0または1のアレル割合をもたらし得るのみであるため、0.6xの深度を考慮して患者特異的外れ値抑制(補足的方法)を使用しなかったことを除いて、データ処理(補足的方法)を受けた。
乾燥血斑からの無細胞DNA抽出。50μlの新鮮(または解凍した凍結)全血をMelResist研究の患者から、Whatman(商標)FTA(商標)クラシックカード上に収集し、風乾させた。50μlの新鮮全血を、屠殺直後の卵巣癌異種移植マウスモデルから取得し、Whatman(商標)FTA(商標)クラシックカードを同様に適用し、風乾させた。血斑カード試料を、再密封可能なプラスチックバッグ内に室温で保管した。DNAを、新生児における遺伝性の遺伝子状態に関するgDNAからの評価のために従来使用される、FTAおよびGuthrieカードに関する製造業者の推奨される抽出プロトコルを使用するQIAamp DNA Investigatorキットを使用して、カードから抽出した。3つの3mmのパンチ穴を血斑から作製し、キャリアRNAを製造業者の推奨に従って緩衝液ALに添加した。血斑DNA(無細胞DNAとgDNAの両方を含有すると仮説を立てた)を25μlの水に溶出し、膜に再適用し、再溶出した。
血斑無細胞DNAのサイズ選択およびライブラリ調製。血斑DNA溶出液は、広いバックグラウンドのgDNAにおいて低い濃度の無細胞DNAを含有する(図40a)。多量の長い断片は、任意の無細胞DNA断片がアダプター分子で成功裏にライゲートされ、増幅する尤度を低下させるため、無細胞DNAライブラリ調製は、そのような試料から効果的に実施することができない。1〜10kb超のgDNA長に関する本発明者らの特性解析(図40a)、および無細胞DNAが約166bpである35という事実に基づいて、サイズ選択を実施して汚染gDNA断片を取り除くことを選択した。
右側サイズ選択を、ライブラリ調製前のDNA溶出液に関して、AMPure XPビーズ(Beckman Coulter)を使用して実施し、長いgDNA断片を取り除いた。この目的のために、次世代配列決定前のDNAライブラリサイズ選択のために従来使用される、右側サイズ選択に関する公開されているプロトコル36を改変した。無細胞DNA断片サイズに関するビーズ:試料比の最適化後、1:1のビーズ:試料比を使用して、汚染gDNAを取り除いた。上清を右側選択プロトコルの一部として保持した。第2のサイズ選択ステップは、3:1のビーズ:試料比を使用して残りの全ての断片を捕捉し、サイズ選択されたDNAを20μlの水に溶出した。血斑溶出液を、真空濃縮装置(SpeedVac)を使用して10ul容量に濃縮した。次に、Rubicon Tag−Seqライブラリ調製を実行し、ライブラリはバイオアナライザ(Agilent)およびqPCR(上に記載したように)を使用したQCを受けた。ライブラリに対してHiSeq4000(Illumina)で全ゲノム配列決定を行い、INVAR分析パイプラインを使用した(補足的方法)。
切除されたステージII〜IIIの黒色腫のコホートに関する生存分析。AVAST−M臨床試験の無作為化の日から最初の再発の日まで、または死亡日までの無疾患期間(DFI)および全生存期間をそれぞれ算出した。カプラン・マイヤー分析を使用して、検出されたctDNAレベルを有する患者対検出されなかったctDNAレベルを有する患者におけるDFIとOSとの間の差に関する生存曲線を生成し、コックス比例ハザードモデルを使用して比較して、ハザード比および95%CIを取得した。
撮像。CT撮像を標準治療の一部としてステージIVの黒色腫コホートの各患者から獲得し、後ろ向きに検査した。スライス厚は全ての症例において5mmであった。約5mmを超える非常に大きな直径を有する全ての病変は、熟練した操作者によって、放射線科医の指導の下、MATLAB(Mathworks、Natick、MA)で書かれたカスタムソフトウェアを使用してCT画像上でスライスごとに輪郭抽出された。その後、輪郭を処理のためにNifTI形式でLIFExソフトウェア37にインポートした。次いで腫瘍体積をLIFExによって、テクスチャに基づく処理モジュールからの出力パラメータとして報告した。
結果
循環腫瘍DNA(ctDNA)は、複数のコピーが存在する場合は血漿において堅牢に検出することができるが、試料が数コピーの腫瘍DNAを有する場合は、個々の変異座位の分析が、アッセイが完全な分析性能を有する場合であっても、サンプリングノイズのために結果として偽陰性となる可能性がある(図23a)。血漿における低量のctDNAは、サンプリングの限定のために入力材料がほとんど存在しない場合、または初期癌を有する患者、もしくは処置を受けている全てのステージの患者1、2等、より大量の血漿が存在するが、血漿において非常に低い腫瘍負荷が存在する場合に生じ得る(図29)。配列決定エラーは検出をさらに限定し得る。感度を改善するために、複数の研究は、複数の血液チューブからのより大容量の血漿を分析した3、4、および/または18〜507の遺伝子(2kb〜2Mbのゲノム)を包含する配列決定パネルを使用した。最大32の患者特異的変異(組織分析を介して予め同定された)の血漿における分析は、非小細胞肺癌(NSCLC)を有する患者において25,000コピー当たり1個の変異分子のレベルまでの検出を達成した。ctDNAは、ステージIのNSCLCを有する患者の50%未満において6、7、および肺腺癌腫症例のわずか19%において検出された。外科的処置を受けて後に再燃した初期患者では、ctDNAは、およそ50%の乳癌または結腸直腸癌患者4、8、ただしわずか15%の黒色腫患者において外科的処置後に検出された。しかしながら、感度は原則として、より低量のctDNAを検出するために、分析される変異の数を増加させることによってさらに増加させることができる。
ctDNAの検出は、本発明者らが分析された一倍体ゲノム(hGA)の数として定量するDNAの量によって限定される。配列決定データの観点から見れば、hGAは平均固有配列決定カバレッジと等価である。浅い全ゲノム配列決定(sWGS)等の方法では、多くの場合DNAの1未満のhGAが分析され(1×未満のカバレッジ)、これは多くの場合ナノグラム(ng)量のDNAから生成されるが、原則としてはピコグラムのDNAから生成することができる。他の方法は、DNA入力が数ng以下である場合に同じ分子の重複リードを表し得る何千倍もの配列決定深度を生成する。分析感度の別の決定因子は、腫瘍により変異した分析される座位の数である2、5〜7。ctDNAを検出することに関する感度は、本発明者らが患者特異的変異を有する座位を包含する全てのリードの合計として定義する「有益なリード」(IR)の総数によって限定される。これは、変異の数と平均固有深度(変異した座位にわたる)との積と等価である。したがって、これら2つの変数を二次元空間にプロットする(図23b)。同じIRは、二次元の異なる組合せから生成してもよい。例えば、10個のIRは10,000のhGAおよび10の変異した座位(患者当たり数個の腫瘍変異を包含するパネルのディープ配列決定)から取得しても、10のhGAにおいて分析される10,000の座位(限定された入力または配列決定深度)から取得してもよい。これらの変異の一部はサブクローン事象またはパッセンジャー事象である可能性が高いが、本発明者らは、数多くの変異を分析することによって、これは個々の変異シグナルの喪失を補償し得ると仮説を立てた。10−5のctDNA割合を有する試料において、10個のIRにわたって単一の変異リードを観察することは、二項統計量に基づいて0.63の確率を有し得るが、これは5×10個のIRを用いて0.99まで増加し、サンプリングされる分子と達成可能な最大感度との間の関係を強調する。
患者当たりの数多くの変異から情報を取得するために、血漿DNAを、カスタム捕捉パネル、全エクソーム配列決定(WES)、または全ゲノム配列決定(WGS)を使用して配列決定した。配列決定データを分析することにおいて、ctDNA検出アルゴリズムはこれまで、限定された情報を非効率的に使用する、すなわち、変異呼び出し閾値を超えない任意のシグナルが廃棄され失われる、個々の変異の同定に依存していた3、6、10。複数の研究は、移植された器官11または希釈された腫瘍DNAからのDNAを検出するために複数の座位にわたってシグナルを集計することの潜在的利点を強調している。癌モニタリングにおいて、患者当たり複数の変異がこれまでに分析されているが3、5、6、12、13、検出は各変異に関して別個に実施された。血漿からの配列決定情報を効率的に使用するために、本発明者らはINtegration of VAriant Reads(INVAR)を開発した。INVARは、腫瘍配列決定からの事前情報を使用して、分析を導き、患者の癌における10〜10の変異した座位にわたってシグナルを集計する(図23c)。変異リストは患者特異的であり、したがって、他の患者からの試料は、その患者の腫瘍配列決定データにおいて見出されないことを各変異に関して確認した後でバックグラウンドシグナル率を算出するために使用する(図23d)。健康な個体からの追加の試料を対照として使用して特異度を評価した(図30a)。INVARは、患者の腫瘍におけるトリヌクレオチドエラー率、ctDNA断片長パターン、および各変異のアレル割合を含む、ctDNA配列決定の生物学的および技術的特徴を検討する(図30bにおける流れ図)。ctDNAは、各座位における変異を呼び出すことを試みるのではなく集計で検出されるため、INVARはまた、低い配列決定深度(1×未満の固有カバレッジ)を有するデータ、および入力材料が限定される場合のデータからのctDNAを検出することもできる。
患者特異的変異を同定するために、ステージII〜IVの黒色腫を有する45名の患者およびステージI〜IIIAのNSCLCを有する19名の患者の腫瘍配列決定を実施した。腫瘍変異を同定した後(方法)、黒色腫を有する患者当たり中央値で625の変異(IQR 411〜1076)、およびステージI〜IIIAのNSCLCを有する患者当たり中央値で388の変異(IQR 230〜600)からなる患者特異的変異リストを生成した(図31)。これらのリストをINVARに関する入力として使用して、カスタム捕捉配列決定パネル(2,301xの平均生深度)、WES(238xの深度)およびsWGS(0.6xの深度)を使用して生成された血漿配列決定データに適用した。
14.1 バックグラウンドノイズ低減およびシグナル統合
入力(hGA)または分析される変異のいずれかを増加させることによって有益なリードの数を増加することは、サンプリングエラーを解決する。高いIRにおける偽陽性検出の尤度を低下させるために、バックグラウンドエラーはIRの逆数未満でなければならない。INVARワークフロー(図24a)の一部として、内在性または外在性固有分子識別子14(UMI)に基づいてリードコラプシングすること、順方向リードと逆方向リードの両方によって支持されないシグナルを排除すること、異なる変異コンテキストに関するエラー率を評価する特注のエラーモデルを使用すること、その試料における残りの患者特異的変異シグナルの分布と一致しない座位における外れ値ノイズを抑制すること、すなわち「外れ値抑制」によって、バックグラウンドエラー率を低下させた(図32〜34、補足的方法)。このことは、結果として異なるトリヌクレオチドコンテキストにわたって平均して131分の1に低下したバックグラウンドエラー率をもたらした(図24b、図24c)。
以前の研究は、腫瘍アレル割合と血漿アレル割合との間の関係を示しているだけでなく13、15、変異無細胞DNA断片と野生型無細胞DNA断片との間のサイズ差も示している16〜18。配列決定情報を効果的に使用するために、INVARは、ctDNA断片サイズおよび各変異座位の腫瘍アレル割合に基づいて加重する確率によりctDNAシグナルをエンリッチする(図24d、図35、方法)。このことは、患者特異的変異リストにおける座位のそれぞれに関する有意水準を生成し、有意水準は組み合わされて集計尤度関数となる。非適合変異リストを使用した患者の血漿DNAからの配列決定データ(図23c)は、各コホートのctDNA検出に関する尤度閾値を選択するための受信者操作特性(ROC)曲線分析のための陰性対照として使用する(方法、図36)。健康な個体からの配列決定データは、この閾値における偽陽性検出を評価するために使用する(図30a)。統合変異アレル割合(IMAF)は、その試料における患者特異的座位にわたるバックグラウンド減算深度加重平均アレル割合を取ることによって決定する(補足的方法)。
14.2 陽性および陰性対照における分析性能
INVARの分析性能を、2名の健康な対照ボランティアからの血漿に、3.6×10−7と低い予期されたIMAFまで希釈され、2連で分析された、エクソーム配列決定によって5,073の変異を同定した(補足的方法)1名の黒色腫患者(ステージIV)からの血漿の希釈系列において、カスタム捕捉パネルからの配列決定の分析によって評価した。エラー抑制を用いない場合、0.85超の分析的特異度で検出された最低希釈倍率(方法)は、3.6×10−5の予期されたctDNA濃度を有した。この濃度において、2/2の複製物は4.7×10−5の平均IMAFで検出された(図24e)。エラー抑制およびサイズ加重後、1つを除く全ての試料は0.95超の分析的特異度で検出された。3.6×10−6(3.6百万分率、ppm)の予期されたIMAFまで希釈された両方の複製物は、4.3および5.2ppmのIMAF値で検出された。予期された3.6×10−7まで希釈された3つの複製物のうち、2つは3.9ppmおよび1.3ppmの測定されたIMAF値で検出された(それぞれ3.16×10および2.44×10個のIRを有した)。第3の試料は低いIR(370,381)を有し、変異リードは観察されず、多くのIRが低いctDNA濃度を検出するために必要であることを強調した。対照的に、検出の限界の近くに数個の変異リードで検出されたctDNA(例えば上記の例)は、成功バイアスに起因して人工的に増大されたIMAFを示す場合がある。
IMAFと予期された変異割合との間の相関は0.98であった(ピアソンのr、p<2.2×10−16、図24e)。癌患者からの添加DNAを含まない場合、変異リードは、総計6,328,410個のIRにおける、これらの健康な個体からのDNAの11の複製物にわたって観察されなかった(図24e)。エラー抑制およびサイズ加重を用いずに分析された同じ配列決定データでは、ctDNAの偽陽性検出が、添加DNAを含まない3つの試料において観察された(図24e)。配列決定データを、患者特異的変異リストのサブセットのみを含むようにin silicoでダウンサンプリングして、より多くの変異は結果としてより多いIR、およびそれに応じてより高いctDNA検出率をもたらすことを確認した(図24f、補足的方法)。
患者の血漿DNAからの配列決定データを使用した分析的特異度を、非適合変異リストを使用して定義した(図23c)。これは98.0%の特異度中央値をもたらした(図36)。このことを確認するために、患者特異的変異リストのそれぞれを使用して、健康な個体からの試料に関するカスタム捕捉配列決定およびINVAR分析を実行した(図30a)。26名の健康な個体からの血漿DNAの4つの分析結果にわたって、97.05%という特異度の値の中央値が取得され、これは予期された分析的特異度と適合した(図36)。
14.3 癌患者の血漿においてctDNAを検出するためのINVARの適用
INVARを、47名のステージII〜IVの黒色腫患者由来の125の血漿試料、および19名のステージI〜IIIAのNSCLC患者由来の19の血漿試料からカスタム捕捉パネルを使用して生成された配列決定データに適用した。黒色腫を有する患者当たり中央値で625の変異、およびステージI〜IIIAのNSCLCを有する患者当たり中央値で388の変異を分析し、結果として試料当たり最大2.9×10個のIR(中央値1.7×10個のIR)を生じ、したがって個々のまたはより少ない座位を分析する方法と比べて桁違いに多い無細胞DNA断片を分析した(図25a)。同じ入力DNAおよび配列決定データを使用した場合、最も高い深度を有する20の変異座位の分析は、結果としてほぼ全ての試料に関して20,000個未満のIRを生じ得たが、大きな変異リストの使用は大半の試料に関して20,000から10個のIRを生成した(図25b)。
少数の試料は、20,000個未満のIRを有し、したがってINVARが原則として生じることができる高い感度を達成しなかった。将来の診療においてINVARを実装する場合、本発明者らは、ctDNAが低いIRで検出されないような症例は、技術的不成功と定義され、より大きなDNA入力/より多くの配列決定を用いて、またはWGS等のより広い規模の配列決定によるその患者からの腫瘍および正常DNAの再分析によって反復され得ることを示唆する(図25c)。本発明者らの研究では、144の試料のうち6つは、ctDNAが20,000個未満のIRで検出されず(図25d)、下に記載される検出統計量において技術的失敗として示される。より大きい感度が所望される場合、IRに関するより高い閾値が選択されてもよく、さらなる11の試料は、ctDNAが66,666個未満のIRで検出されなかった(図25d)。INVARの現行の実装では、陽性検出は少なくとも2個の変異リード(全てのIRにわたって)を必要とし、したがって、95.8%の試料は、ctDNAが検出されたか、または0.01%未満(20,000個超のIRにわたって2個未満の変異リード)であると決定された。88.2%は、ctDNAが検出されたか、または0.003%未満(66,666個超のIRにわたって2個未満の変異リード)であると決定された。
対照的に、少数の症例は10個超のIRを達成し、比類のない感度ならびに2.9および6.5ppmのレベルにおけるctDNAの検出をもたらした(図25d)。患者特異的変異リストが各患者からの腫瘍および正常DNA試料のWESではなくWGSによって生成され得る場合、本発明者らは、このレベルの感度は黒色腫またはNSCLCのこれらの症例の大多数に関して到達され得ると予期する(図25b)。
14.4 百万分率までのctDNAモニタリングおよび細胞のゲノムの割合
ctDNAを検出し、IMAF値によって示されるそのレベルを定量したところ、2.5×10−6〜0.25の範囲であった(図25dおよび25e)。これは10万倍の動的範囲、およびゲノムの1638コピーの入力材料中央値(5.46ngのDNA)からの、癌患者由来の血漿試料における微小レベルのctDNAの数ppm範囲までの検出を確認した(図26a)。144の分析された血漿試料のうち総計17において、ctDNAは、その患者の腫瘍のために変異していることが既知である座位の1%未満においてシグナルと共に検出され、これらの試料が単一の腫瘍細胞のごく小さな割合のゲノムを含有することを示した(図26b)。検出された変異の最低割合は1/714であり、5フェムトグラム未満の腫瘍DNAと等価であった。限定された入力であることを考慮すると、検出された低いctDNAレベルは、48%の症例において完全な単一座位アッセイに関する95%の検出の限界未満であり得る(図26b、図37a)。
転移性黒色腫を有する患者において、IMAFは、撮像と0.8の相関(ピアソンのr、P=6.7×10−10、図37b)、および血清乳酸脱水素酵素(LDH)と0.53の相関(ピアソンのr、P=2.8×10−4、図37c)を示した。INVAR分析を使用して、処置に対する応答におけるctDNA動力学をモニタリングした(図37d)。黒色腫に関する標的化療法および免疫療法を用いて連続的に処置された1名の患者において、ctDNAは2.5ppmのIMAFで検出され、腫瘍体積はその時点で1.3cmであった(図25e)。他の研究6、19と比べて、INVARは腫瘍体積とIMAFとの間により急な勾配を示し、この勾配はINVARを用いて検出可能なより低いIMAFを反映し得る(図37b)。
14.5 初期NSCLCにおけるctDNA検出
新しく診断されたステージI〜IIIAのNSCLCを有する19名の患者(ステージI/II/IIIAを有するそれぞれ11名、6名、および2名の患者からなる)から処置前に収集した血漿試料において、INVARによるctDNA検出を試験した。2つの試料では、ctDNAは検出されなかったが、適合組織のWESにおいて同定された少数の変異(各症例において59および93)のため、20,000個未満のIRを分析した(図25d)。これらの2名の患者を排除した場合(図25cを参照のこと)、有益なリードの数の中央値は7.2×10であった(IQR 3.9〜10.3×10)。ctDNAは、17名の患者のうち12名において検出され(0.98超の分析的特異度、図36)(図26a、図26c)、1/5名のステージIAを有する患者、4/5名のステージIBを有する患者、5/5名のステージIIを有する患者、および2/2名のステージIII疾患を有する患者を含んだ(図38aおよび38b)。10名のステージIAおよびIB患者のうちの9名は腺癌腫の組織学的亜型を有し、これは他の方法を使用して検出することがこれまで困難であった。コホートにわたって、ROC分析を、INVARによって生成された尤度比に適用し(補足的方法)、ステージIのみ、ステージI〜IIIA、およびステージII〜IIIAのみに関してそれぞれ0.73、0.82、および0.93の曲線下面積(AUC)値を得た(図26d)。0.003%の感度に達しなかった患者を排除した場合(66,666個未満のIR、図25d)、ctDNAは、14の試料のうち12において検出され、1/2名のステージIAを有する患者、4/5名のステージIBを有する患者、5/5名のステージIIを有する患者、および2/2名のステージIII疾患を有する患者を含んだ。
14.6 INVARによる微小残存病変の検出
INVARを残存疾患環境において試験するために、治癒的目的の外科的処置の最大6か月後に収集した、UK AVAST−M臨床試験において募集された切除されたステージII〜IIIの黒色腫を有する38名の患者からの試料を分析した(図38c)。中央値で3.6×10個のIR(IQR 0.64×10〜4.03×10)を探査し、ctDNAを2.85ppmの最小IMAFまで検出した(0.98超の分析的特異度、図36)。5名の患者は未検出のctDNAおよび20,000個未満のIRを有し、排除した(図25d)。33名の評価可能な患者のうち、ctDNAは、50%の後に再発した患者において検出され、有意により短い無疾患期間(4.5か月対5年の追跡期間で中央値未到達;ハザード比(HR)=3.69;95%CI 1.44〜9.46、P=0.007;図26d)および全生存期間(2.6年対中央値未到達、図38d)と関連した。同じ臨床試験からの切除されたBRAFまたはNRAS変異黒色腫を有する161名の患者からの血漿DNAの単一座位デジタルPCRアッセイを使用する以前の分析では、ctDNAは15.6%の後に再燃した患者のみにおいて検出された
14.7 多様なIRを用いた検出率の評価
臨床試料からのIMAF値を使用して、限定された数のIRを有する患者の異なるコホートに関する予期された検出率を推定し、線形モデルを適合させて(R=0.95)、異なる検出率を達成するために必要とされ得るIRを予測した。ベースライン時点におけるステージIVの黒色腫患者では、ctDNAは10個のIRを使用して、100%の症例において検出された(図26e)。ctDNAレベルがより低い、処置を受けているステージIVの黒色腫を有する患者では、線形適合からの外挿は、10〜10個のIRがほぼ全ての試料においてctDNAの検出を可能にし得ることを予測した(図38e)。初期NSCLCを有する患者では、本発明者らは、10個のIRを各試料に関して配列決定した場合、ほぼ全ての患者においてctDNAを検出することが可能であり得ることを示唆する。試料当たり10個超のIRに到達することは、配列決定費用、必要とされる入力DNAの量、および標的化される必要がある変異の数の全ての点で限定的となる。外科的処置を受けたステージII〜IIIの黒色腫患者に関して、本発明者らのデータは結果として、10個のIRの分析でさえも、66.7%の再燃し得る患者のみにおいて外科的処置の6か月以内のctDNAの検出を生じ得ることを示唆する(図26e)。
14.8 WESおよびWGSからのctDNAの高感度検出
患者特異的捕捉パネルは、より低い配列決定費用で患者特異的変異リストのディープ配列決定を可能にするが、時間のかかるステップを追加する。本発明者らは、INVARは、全エクソームまたはゲノム配列決定等の標準化されたワークフローに適用された場合であっても、有益なリードを集計することによって増加した感度を達成するために活用することができると仮説を立てた。これは、腫瘍−正常材料の配列決定を血漿配列決定に並行して生じさせることができ、結果として生じる腫瘍−正常データは、血漿無細胞DNAから生成された配列決定データに関するINVAR分析のために使用することができる(図27a)。
INVARの一般化可能性を試験するために、市販のエクソーム捕捉キットを利用して、ctDNAが4.5×10−5〜0.16のIMAFの範囲にまたがる患者特異的捕捉パネルによって検出された試料のサブセットにおける血漿DNAを配列決定した(深度中央値238x)(図39a)。各症例に関する、腫瘍エクソームにおいて検出された変異の数および配列決定の深度に応じて、商業的なプラットフォームを使用した配列決定の中程度の深度にもかかわらず、1,565から473,300個のIRを取得した(図27b)。21の試料のうち21において、4.34×10−5のIMAFまでctDNAを検出し(図27c)、ctDNAが、カスタム配列決定パネルを設計することに関する必要性を有しない患者特異的変異リストを使用して、INVARによって高い感度で検出することができることを実証した。これらのIMAF値は、同じ試料に関するカスタム捕捉データと0.96の相関を示した(ピアソンのr、P=8.5×10−12、図39a)。血漿DNAのディープ配列決定を可能にし、10〜10のhGAの等価物から情報を生成したカスタム捕捉パネルとの比較において(図25a)、エクソーム配列決定によって取得したより低い深度は、数ダースのみのhGAからのデータを生じた(図39b)。
本発明者らは、ctDNAは、より少量の入力データからであってもINVARを用いて検出および定量することができると仮説を立てた。ステージIVの黒色腫を有する6名の患者のサブセットからの経時的血漿試料由来の無細胞DNAからのライブラリに関して全ゲノム配列決定を実施して、0.6xの平均深度を得た(図27d)。各患者の腫瘍および正常DNAからWESによって生成した患者特異的変異リストを使用して、患者のそれぞれに関して500超の患者特異的変異を生成した。このことは、結果として試料当たり226から7,696個のIRをもたらした(中央値861、IQR 471〜1,559;図27b)。このデータをINVARによって分析して、一部の試料では1.1×10−3と低い分画レベルのctDNAを検出した。ctDNAが検出されなかった試料では、95%の信頼性を有する、その試料の考えられる最大のctDNA割合を、サンプリングされたIRの数に基づいて算出した(図27d、方法)。
これらの結果は、1未満のhGAを有する非標的化配列決定データからのctDNAの検出を実証し、十分に多い数の腫瘍特異的変異を用いる場合、INVARは、ごくわずかな量のDNA入力であってもctDNA検出に関する高い感度を生じ得ることを示唆する。
14.9 乾燥血斑からのctDNAの検出
次に本発明者らは、ゲノムにわたって変異リードを統合することによって、ctDNAが、乾燥血斑(50μLの容量を有する、血液の単一の液滴)から抽出した数コピーのゲノムから生成された限定された配列決定データから検出することができると仮説を立てた。リアルタイムPCRはこれまで、母体乾燥血斑を使用して胎児RHD遺伝子型同定およびHIV検出を実行するために使用されてきたが20、21、血斑からの無細胞DNAのNGSはこれまで記載されていない。無細胞DNA配列決定ライブラリを血斑から生成することは、存在する少ない数の無細胞DNAコピーのため、および血液細胞によって放出された多量の長いゲノムDNA(gDNA)断片のために困難を伴う(図40a)。ctDNAが血斑から検出することができるか否かを決定するために、存在する限定された無細胞DNA分子から配列決定ライブラリを生成するワークフローを開発した(方法)。汚染gDNA断片を取り除くために、黒色腫を有する患者から収集した乾燥血斑から抽出したDNAにサイズ選択を適用した。次に、このサイズ選択されたDNAから配列決定ライブラリを生成し、sWGSを使用して複数のコピー数変化を明らかにし(図28a)、このコピー数変化は伝統的な方法によって単離された同じ患者からの適合血漿試料において見出されたコピー数変化と一致した(図40b)。INVARをこのデータに適用した場合、ctDNAは、配列決定データの6つのhGAから0.039のIMAFで検出された。統計的方法であるSPECIES22を使用して、配列決定ライブラリにおける一倍体ゲノムの総数を10hGAと推定し(図40c、補足的方法)、これはこのライブラリからより大きい配列決定深度で到達し得る。したがって、これは、乾燥血斑における小部分の癌細胞の単一ゲノムと等価のctDNAの検出を実証した。
血斑から配列決定されたDNA断片のサイズ分布は、血漿試料の無細胞DNAから取得したものと類似した2、16、18(図40d)。断片サイズは、患者特異的変異リストの座位において参照配列または腫瘍特異的変異のいずれかを有したリードに関して別個に評価した。これは、腫瘍由来断片はより短く、145bp前後にピークを有し、変異していないリードは166bp前後にピークを有したことを示し(図28b)、癌患者からの血漿試料の分析によって近年観察された結果を再現する2、16、18
ヒトにおける臨床的有用性以外に、ごくわずかな量の血液の分析は、げっ歯類等の他の生物またはモデルからの経時的ctDNAモニタリングを容易にし得る23。同所異種移植卵巣腫瘍マウスモデルを使用して、50μLの全血を、乾燥血斑カードを使用してサンプリングし、配列決定ライブラリを調製し、sWGSを用いて配列決定した(方法)。配列決定リードのアラインメント時、ヒトゲノム(腫瘍由来)リードとマウスゲノム(野生型)リードの両方を、変異および野生型無細胞DNAの特性ある断片化パターンに関して観察した(図28c)。複数のコピー数多型がヒト配列において観察された(図40e)。
本発明者らは、異なる癌の種類に関する既知の変異率24を使用して、乾燥血斑(50μLの容量)におけるctDNAの潜在的な感度を推定する。患者特異的変異リストを各患者由来の腫瘍および正常DNAのWGSから生成する場合(本研究において使用したWESではない)、あらゆる患者に関するより大きな変異リストを生成し得る。このことは、血斑からのWGSデータが、試料当たり10〜100倍以上大きいIR、およびそれに応じて、本発明者らが観察した検出限界と比べてより低いctDNA検出に関する限界(図28e)を生成することを可能にし得る。黒色腫では、例えば0.1×のWGSカバレッジの場合、ctDNAに関する検出限界は、中央値で0.007(四分位範囲、4.4×10−4〜1.5×10−3)を有すると予測される。10×のWGSカバレッジの場合、異なる癌の種類に関する予測される検出限界は、高い変異率を有する一部の癌に関する1ppm未満から、乳癌および前立腺癌等の低い変異率を有する癌に関するおよそ10−4までの範囲である。
実施例14の考察
INtegration of VAriant Readsは、サンプリングノイズの内在する限定を克服して、患者の腫瘍において同定された複数の変異にわたってシグナルを組み合わせることによって、1コピーよりはるかに少ない癌ゲノムを含有する試料におけるctDNAを検出する方法を提供する(図23)。本発明者らは、10〜10の変異した座位にわたってシグナルを集計することによって、0.01コピー未満の癌ゲノムが、以前の研究3、5よりも10〜100倍以上少ない、血漿における数百万分率の無細胞DNAを表す場合であっても、これを検出することができることを示した。このレベルの感度は、数多くの変異を標的として有益なリード(IR)の数を最大化することによってのみ達成することができるが、入力質量をこの程度まで増加することは、実際には実行可能ではないと考えられる(図23b)。腫瘍配列決定から取得される変異の数は、癌の種類および配列決定の範囲に依存する。この方法のこの第1の適用において、本発明者らは、エクソーム配列決定を使用して癌変異を同定し、いくつかの症例では、少ない有益なリードのために試料を分析から排除しなければならなかった。試料を少なくとも0.01%の感度で評価することによって、67%の外科的処置前のステージI〜IIのNSCLC患者においてctDNAを検出した。これは、より厳密なIR閾値を使用した場合、83%まで増加し、事実上、0.003%(30ppm)の最小感度を必要とした。外科的処置後、ctDNAは、50%の後に再燃したステージII〜IIIの黒色腫を有する患者において6か月以内に検出された。この所見は、患者が初回の処置の何年も後に再燃し得る臨床環境25における、外科的処置後のctDNAの検出に関する課題を反映する。追加の変異および入力材料によるIRのさらなる増加は、微小残存病変の検出に関するctDNAの感度をさらに押し上げ得る(図27e)。
上咽頭癌の早期検出に関する近年の臨床試験は、各癌性細胞における複数のコピーのエプスタイン−バーウイルス(EBV)を活用して、無症候性個体からの血液試料において癌の存在を検出した26。著者らは、これは各癌細胞がおよそ500コピーの、アッセイが標的としたウイルスDNA配列を含有したために可能であったと推定し、約500の標的の多重分析は他の癌における早期検出を可能にし得ると示唆した26。INVAR法は、現行の実装において、腫瘍変異の事前知識を必要とし、したがって、癌の早期検出のためのスクリーニングアッセイとして適用することはできないが、高多重分析の原理を活用して、初期癌を有する患者の大多数におけるctDNAを検出することができる(図26)。INVARは、特異的な配列変化以外の無細胞DNAの特徴、例えば断片サイズおよび各変異の腫瘍アレル割合を活用し、将来的に、追加の非変異特徴、例えば断片末端27が、より大きい重みを癌由来断片に帰属させるために組み込まれ得る。
本発明者らは、INVARが患者特異的捕捉パネル(図26)、商業的なエクソーム配列決定パネル、またはWGS(図27)を使用して生成されたNGSデータに柔軟に適用することができることを示した。これらの最後の方法は、より少ないIRを生成したが、限定された配列決定入力は、WESでは50ppm未満のctDNA分画レベル、およびsWGSでは約0.1%(WGSからのコピー数分析に基づく以前に記載された方法28、29の100分の1以下)での検出を可能にした。これらの所見に基づいて、次いでINVARを活用して、限定されたDNA入力から、例えば癌患者から収集した乾燥血斑からctDNAを検出した。本発明者らは、ゲノム全体にわたって生成された変異リストを用いるINVARの将来的実装が、50μLの乾燥血斑における無細胞DNAからctDNAの1〜100ppmのレベルまでの検出を可能にし得る方法を記載する。これは、乾燥血斑を用いる自己サンプリングに基づく、残存疾患または疾患再燃に関する癌モニタリングのための将来的試験の可能性を創出する。
実施例14に関する参考文献
1. Bettegowda, C. et al. Detection of circulating tumor DNA in early- and late-stage human malignancies. Sci. Transl. Med. 6, 224ra24 (2014).
2. Wan, J. C. M. et al. Liquid biopsies come of age: towards implementation of circulating tumour DNA. Nat Rev Cancer 17, 223−238 (2017).
3. Cohen, J. D. et al. Detection and localization of surgically resectable cancers with a multi-analyte blood test. Science (80-.). (2018).
4. Tie, J. et al. Circulating tumor DNA analysis detects minimal residual disease and predicts recurrence in patients with stage II colon cancer. Sci. Transl. Med. 8, 346ra92 (2016).
5. Newman, A. M. et al. Integrated digital error suppression for improved detection of circulating tumor DNA. Nat Biotechnol 34, 547−55 (2016).
6. Abbosh, C. et al. Phylogenetic ctDNA analysis depicts early-stage lung cancer evolution. Nature 545, 446−451 (2017).
7. Abbosh, C., Birkbak, N. J. & Swanton, C. Early stage NSCLC − challenges to implementing ctDNA-based screening and MRD detection. Nature Reviews Clinical Oncology 1−10 (2018). doi:10.1038/s41571-018-0058-3
8. Garcia-Murillas, I. et al. Mutation tracking in circulating tumor DNA predicts relapse in early breast cancer. Sci. Transl. Med. 7, (2015).
9. Lee, R. J. et al. Circulating tumor DNA predicts survival in patients with resected high risk stage II/III melanoma. (2017). doi:10.1093/annonc/mdx717/4589598
10. Phallen, J. et al. Direct detection of early-stage cancers using circulating tumor DNA. Sci. Transl. Med. 9, (2017).
11. De Vlaminck, I. et al. Circulating cell-free DNA enables noninvasive diagnosis of heart transplant rejection. Sci. Transl. Med. 6, 241ra77 (2014).
12. Forshew, T. et al. Noninvasive Identification and Monitoring of Cancer Mutations by Targeted Deep Sequencing of Plasma DNA. Sci. Transl. Med. 4, 136ra68-136ra68 (2012).
13. Murtaza, M. et al. Multifocal clonal evolution characterized using circulating tumour DNA in a case of metastatic breast cancer. Nat. Commun. 6, 8760 (2015).
14. Kinde, I., Wu, J., Papadopoulos, N., Kinzler, K. W. & Vogelstein, B. Detection and quantification of rare mutations with massively parallel sequencing. Proc. Natl. Acad. Sci. U. S. A. 108, 9530−5 (2011).
15. Jamal-Hanjani, M. et al. Detection of ubiquitous and heterogeneous mutations in cell-free DNA from patients with early-stage non-small-cell lung cancer. Ann. Oncol. 27, 862−867 (2016).
16. Mouliere, F. et al. High Fragmentation Characterizes Tumour-Derived Circulating DNA. PLoS One 6, e23418 (2011).
17. Underhill, H. R. et al. Fragment Length of Circulating Tumor DNA. PLoS Genet. 12, 426−37 (2016).
18. Mouliere, F. et al. Enhanced detection of circulating tumor DNA by fragment size analysis. Sci. Transl. Med. 4921, 1−14 (2018).
19. Newman, A. M. et al. An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage. Nat. Med. 20, 548−54 (2014).
20. Xiong, Y., Jeronis, S., Hoffman, B., Liebermann, D. A. & Geifman-Holtzman, O. First trimester noninvasive fetal RHD genotyping using maternal dried blood spots. Prenat. Diagn. 37, 311−317 (2017).
21. Luo, W., Yang, H., Rathbun, K., Pau, C. P. & Ou, C. Y. Detection of human immunodeficiency virus type 1 DNA in dried blood spots by a duplex real-time PCR assay. J. Clin. Microbiol. 43, 1851−1857 (2005).
22. Wang, J.-P. SPECIES: An R Package for Species Richness Estimation. J. Stat. Softw. 40, 1−15 (2011).
23. Rago, C. et al. Serial Assessment of Human Tumor Burdens in Mice by the Analysis of Circulating DNA. Cancer Res. 67, 9364−9370 (2007).
24. Lawrence, M. S. et al. Mutational heterogeneity in cancer and the search for new cancer-associated genes. Nature 499, 214−218 (2013).
25. Corrie, P. G. et al. Adjuvant bevacizumab for melanoma patients at high risk of recurrence: survival analysis of the AVAST-M trial. Ann. Oncol. 29, 1843−1852 (2018).
26. Chan, K. C. A. et al. Analysis of Plasma Epstein−Barr Virus DNA to Screen for Nasopharyngeal Cancer. N. Engl. J. Med. 377, 513−522 (2017).
27. Jiang, P. et al. Preferred end coordinates and somatic variants as signatures of circulating tumor DNA associated with hepatocellular carcinoma. Proc. Natl. Acad. Sci. U. S. A. 201814616 (2018). doi:10.1073/pnas.1814616115
28. Adalsteinsson, V. A. et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. Nat. Commun. 8, 1324 (2017).
29. Belic, J. et al. Rapid Identification of Plasma DNA Samples with Increased ctDNA Levels by a Modified FAST-SeqS Approach. Clin. Chem. 61, 838−849 (2015).
30. Corrie, P. G. et al. Adjuvant bevacizumab in patients with melanoma at high risk of recurrence (AVAST-M): Preplanned interim results from a multicentre, open-label, randomised controlled phase 3 study. Lancet Oncol. 15, 620-630 (2014).
31. Varela, I. et al. Exome sequencing identifies frequent mutation of the SWI / SNF complex gene PBRM1 in renal carcinoma. Nature 469, 539−542 (2011).
32. Costello, M. et al. Discovery and characterization of artifactual mutations in deep coverage targeted capture sequencing data due to oxidative DNA damage during sample preparation. Nucleic Acids Res. 41, 1−12 (2013).
33. Rubicon Genomics. Targeted Capture of ThruPLEX(登録商標) Libraries with Agilent SureSelect(登録商標)XT Target Enrichment System. at <rubicongenomics.com/wp-content/uploads/2016/11/RDM-152-002-SureSelectXT.pdf>
34. University of Michigan. Connor - METHODS. (2016). at <https://github.com/umich-brcf-bioinf/Connor/blob/master/doc/METHODS.rst>
35. Schwarzenbach, H., Hoon, D. S. B. & Pantel, K. Cell-free nucleic acids as biomarkers in cancer patients. Nat. Rev. Cancer 11, 426−437 (2011).
36. Beckman Coulter. SPRIselect User Guide. Beckman 1−30 (2012).
37. Nioche, C. et al. A freeware for tumor heterogeneity characterization in PET, SPECT, CT, MRI and US to accelerate advances in radiomics. J. Nucl. Med. 58, 1316 (2017).
実施例14に関する補足的方法
INVARパイプラインの概要
INVARパイプラインは、エラー抑制されたBAMファイル、患者特異的座位に関するBEDファイル、ならびに各変異の腫瘍アレル割合およびその変異がどの患者に属するかを示すCSVファイルを得る。INVARパイプラインはクラスタを実行するSlurmに関して最適化される。ワークフローを図30に示す。簡潔に述べると、パイプラインは、野生型および変異リードを全ての試料の患者特異的座位において評価し、このデータに、トリヌクレオチドエラー率、座位エラー率、変異がどの患者に属するか、腫瘍アレル割合、断片サイズ、FリードとRリードの両方における存在、およびその座位におけるシグナルがその試料における他の全ての患者特異的座位に比して外れ値であるか否か、を注釈付けする。データ注釈付け後、シグナルをその試料における全ての患者特異的座位にわたって集計して、尤度比を生成し、さらにそれを使用して特異度を定義する。統合変異アレル割合(IMAF)は別個に算出する。
INVARデータ処理
SAMtools mpileup1.3.1を、変異に関するBEDファイルに基づいて患者特異的座位に、以下の設定:−−ff UNMAP、−q 40(マッピング品質)、−Q 20(塩基品質)、−x、−−d 10,000で使用し、次いで複アレルコールを、BCFtools1.3.1を使用して分割した。次に、全てのTSVファイルに、1,000Genomes SNPデータ、COSMICデータ、およびトリヌクレオチドコンテキストを、カスタムPythonスクリプトを使用して注釈付けした。次いで、出力ファイルを連結し、圧縮し、Rに読み込んだ。最初に、腫瘍配列決定データからの事前知識に基づいて、患者当たりの全ての座位に、患者特異的(患者の腫瘍に存在)または非患者特異的(患者の腫瘍に存在しないか、もしくは個体が癌を有しない)のいずれかであるかを注釈付けした。各非患者特異的試料は複数の患者からの座位を含有するため、あらゆる非患者特異的試料は、同じ配列決定パネルまたは方法(個体間で共有される座位を排除する)を用いて分析される他の全ての患者と照合することができる。
INVARデータフィルターI
以下のフィルターを、座位あたりを基準としてINVARデータに適用した:
1. MQSB<0.01(マッピング品質/ストランドバイアス)の場合、座位を排除した。
2. 複アレル座位を同定し、3つの異なる代替アレルがエラー抑制されたリードファミリーを有するデータセットにおいて観察された場合、ブラックリストに登録した。データセットにおいて観察された2つの別個の代替アレルを有する座位は、重要でない代替アレルのエラー抑制されたリードが3個以上存在する場合にのみ排除した。
3. 10%超の非患者特異的(患者対照)試料において変異シグナルを示した、または1%超の座位当たり平均変異アレル割合を示した座位をブラックリストに登録した。このフィルターを用いてブラックリストに登録された座位の比率は0.21%〜3.53%の範囲であった(図33)。99.8%の変異が各患者個人のものであったため、患者試料を使用して、座位当たりのノイズ(患者試料に所属しなかった座位における)を特性解析することができる。
4. 変異シグナルは、そのリード対のFリードとRリードの両方において表されなければならなかった(図33)。このことは、配列決定エラーを低減することに役立ち、断片に関するサイズ選択を引き起こして、PE150配列決定を実施した場合に300bp未満の断片を保持する(FリードおよびRリードの重なり合う領域における変異シグナルのみが保持され得る)。結果として生じるエラー抑制は、ペアエンドリードを結合するツールと同様である。
INVARデータ注釈付け
データフィルタリング後、データに座位ノイズフィルターとトリヌクレオチドエラー率の両方を注釈付けした。座位ノイズフィルターはその座位における対照試料およびcfDNA分子の数によって限定されるため、トリヌクレオチドエラー率も評価した。トリヌクレオチドエラー率は、あらゆる患者特異的座位の両側最大10bpの領域(患者特異的座位それ自体を排除する)から決定し、データはトリヌクレオチドコンテキストごとにプールした。この方法においてデータをプールした後、トリヌクレオチドコンテキスト当たり中央値で3.0×10個の有益なリード(または重複排除リード)を分析した。トリヌクレオチドエラー率を、各特異的変異コンテキストに関する非適合率として算出した。トリヌクレオチドコンテキストが変異重複排除リードを有しなかった場合、エラー率はそのコンテキストにおけるIR/重複排除リードの数の逆数に設定した。
加えて、各データ点にそのリードのcfDNA断片サイズを、カスタムPythonスクリプトを使用して注釈付けした。次いで、その患者の残りの座位と一致しなかった外れ値シグナルを除外するために、患者特異的外れ値抑制を実施した(図34)。次に、データをエラー抑制し(リードコラプシングと患者特異的配列決定データのための特注の方法との両方によって)、データに、シグナルエンリッチメントのために必要とされるパラメータ(ctDNA配列決定の特徴による)を、INVAR法のために注釈付けする。
INVARデータフィルターII−患者特異的外れ値抑制
患者特異的配列決定データは、複数の既知の患者特異的座位における有益なリードからなり、エラー抑制の手段として座位にわたる変異アレル割合を比較する機会を提供する。座位にわたるシグナルの分布は、全体のシグナル分布と一致しないノイズを含む座位の同定を潜在的に可能にする。各座位を、全ての座位にわたる平均シグナルを考慮した、観察された変異リードを有する確率に関して試験した(図34)。残りの座位よりも有意に大きなシグナルを有すると観察された座位は、その座位におけるノイズ、汚染、または誤って遺伝子型同定されたSNP座位に起因すると考えられ得る。誤って遺伝子型同定されたSNPの可能性は、数多くの変異座位がINVARによって標的化される場合ますます高くなる。各試料に関して、IMAFを、INVAR前データ処理フィルターを通過した、その座位において0.25未満の変異アレル割合を有する全ての座位にわたって決定した。0.25超の変異アレル割合のシグナルを有する座位は、(i)残存疾患環境において、座位はそのような高い変異アレル割合を有すると予期され得ない(誤って遺伝子型同定されたSNPでない限り)ため、および(ii)試料の真のIMAFが0.25超である場合に数多くの座位が試験される場合、座位は、シグナルを有する多くの低アレル割合座位を有することによって検出が支持されるようなアレル割合の分布を示すことができるため、算出に含めなかった。
試料のctDNAレベルに基づいて、その試料のIMAFを考慮した個々の各座位を観察する二項確率を算出した。0.05未満のボンフェローニ補正されたP値を有する座位(探査された座位の数に関して補正)をその試料において排除し、それにより外れ値を抑制した。外れ値抑制の結果として、バックグラウンドノイズは、33%の対照試料に低減したが、患者試料では96.1%のシグナルを保持した(図34)。試験した座位の数に関するP値閾値を補正することによって、このフィルターは、患者当たりの可変数の標的化された変異を有するデータに適用することができ、高い変異率と低い変異率の両方の癌の種類を有する患者からの試料の分析を可能にする。
INVARのための統計的検出方法
本発明者らは、複数の患者特異的座位における変異リードの数をモデル化する統計的方法であって、患者特異的配列決定から入手可能な事前情報、例えばトリヌクレオチドコンテキストのバックグラウンドエラー、座位における腫瘍アレル割合、および断片長を組み込む、統計的方法を開発した。この手法は、エラー抑制後の複数の患者特異的変異にわたってシグナルを集計する。各座位に関して、そのコンテキストのトリヌクレオチドエラー率を考慮して変異リードの数の有意性を検定する。トリヌクレオチドエラー率を、座位特異的エラー率の代わりに使用して、バックグラウンドエラー率のより正確な推定を10−7まで決定した(図24c)。
腫瘍アレル割合およびトリヌクレオチドエラー率を以下のように検討した:AFを座位iにおける腫瘍変異アレル割合として表し、eを座位iのコンテキストにおけるバックグラウンドエラーとして表し、pをINVARアルゴリズムのためのその試料におけるctDNA含量の推定値とする。座位iにおける無作為なリードは、変異分子または不正確に配列決定された野生型DNA分子から生じた場合、変異と観察され得る。これは確率q
=AF・(1−e)・p+(1−AF)・e・p+e・(1−p) (1)
で生じる。ここで、ctDNAの存在を検定することは、統計的仮説H:p=0を検定することと等価である。観察された変異リードの数は座位間で独立であると仮定して、以下の尤度関数:
Figure 2021516962
を作成することができ、式中、Mijは座位iのリードjにおける変異に関する指示記号であり、Rは座位iにおけるリードの数である。上記の方法は腫瘍アレル割合によるシグナルの加重を可能にし、本発明者らはこの腫瘍アレル割合が初期および進行した疾患を有する患者試料における(図35a)、ならびに1名の患者からの添加希釈系列における(図35b)血漿変異出現に影響を及ぼすと確認する。
各配列決定リードは断片サイズ情報を提供し(図35c)、この情報は変異分子を野生型分子から分離してctDNAにおけるエンリッチメントをもたらすために使用され得る(図24d)。確率加重は、非侵襲性出生前試験環境において、Fanらによって示唆されている極端に低いアレル割合におけるアレルの喪失を回避するためのサイズ選択よりも好ましかった。したがって、リード長情報もまた尤度に組み込むことができる。変異および野生型断片のリード長分布推定のための方法は、INVARのためのリード長分布の推定の節で述べる。この手法はサイズ選択と対照的であり、上で実施した腫瘍AF加重と共にサイズ加重ステップと考えられ得る。各配列決定リードに関する断片サイズはINVAR法に組み込むことができる。そうするために、Ljiを座位iにおけるリードjの長さとする。尤度は:
Figure 2021516962
と書くことができる。リードの供給源(変異または野生型DNA)を考慮してリード長と変異状況とは独立であると仮定して、尤度を以下:
Figure 2021516962
のように因数分解することができ、式中、zijは座位iのリードjがctDNA由来であったという指示記号であり、p(lij)=P(lij│zij=k)であり、およびg=AF・(1−e)+(1−AF)・eである。上記方法は、変異リードと野生型リードの両方の断片長に基づいてシグナルを加重するが、INVARのこの実装では、全ての野生型サイズ区間の重みは等しいと設定し、それにより野生型リードからのサイズ情報を考慮しない。
最後に、スコアを、その試料における全ての患者特異的座位にわたるシグナルの集計により、一般化尤度比検定(GLRT)を使用して各試料に関して生成する。GLRTは、帰無仮説の下での尤度を、pの最尤推定の下での尤度に対して直接比較する:
Figure 2021516962
尤度比の値が高くなるほど、試料におけるctDNA存在に関するより大きな証拠となる。試料の分類を、患者試料と対照試料との間の尤度比の比較に基づいて実施した。
尤度比閾値決定
他の患者を使用して、非共有座位において互いに照合した(図23c)。同じ配列決定パネル(すなわち同じカスタム配列決定パネル設計)に関して、同じエラー抑制設定を用いて実行され、同じ変異リストを標的とする試料のみを使用して互いに照合した。
尤度比(LR)に関する閾値を対照に基づいて正確に決定するために、各対照試料からのリードを、復元抽出を用いて10回繰り返しリサンプリングし、GLRTスクリプトを実行した。非患者特異的対照座位におけるシグナルの任意の患者特異的汚染のリスク(患者特異的部位と重なり合う新たな変異による)を最小限にするために、1%未満の患者特異的IMAFを有する試料のみを、カットポイントの決定のための対照として使用した。患者対照および患者試料におけるLR分布に基づいて、LRに関するカットオフを各コホートに関してRでの「OptimalCutpoints」パッケージを使用して決定し、感度および特異度を、「MaxSnSp」設定を使用して最大化した。コホート当たりのLRに基づいて、分析的特異度を各コホートに関して決定した(図36)。
健康な個体における特異度の評価
26名の健康な個体の血漿からのcfDNAを、ステージIVの黒色腫カスタム捕捉パネルおよびステージI〜IIIAのNSCLCカスタム捕捉パネルを使用して分析した。これらの試料は、「患者」試料として扱い、したがってパイプラインにおけるフィルターに対する影響を有せず、LR閾値の決定に関して使用しなかった。LR閾値の決定(上に記載したように)後、健康な個体の試料からのLRをctDNAの偽陽性検出に関して評価した。これらのコホートのそれぞれに関して、健康な個体における臨床的特異度の値を決定した(図36)。
尤度比決定のための試料当たりのctDNA含量の推定
この節では、期待値最大化(EM)アルゴリズムを導いて、INVAR法の一部としてのpを推定する。起源の腫瘍zijを潜在変数として扱い、それが既知であると仮定する場合、Z、M(mijは座位iのリードjにおける変異に関する指示記号である)、L(lijは座位jのリードiの長さである)、AF(AFは座位iにおける腫瘍アレル割合である)、e(eは座位iのコンテキストにおけるバックグラウンドエラーである)の結合尤度は:
Figure 2021516962
と書くことができ、式中、g=AF・(1−e)+(1−AF)・eである。対数尤度はzijにおいて線形であり、それゆえ尤度の期待値を取ることは、単にzijをステージlにおける期待値、
Figure 2021516962
と置き換えることに等しく、式中、pは繰り返しlにおけるpの最良推定値である。したがって、EMを使用して、pに関する尤度を繰り返し最大化し、zijに関する尤度の期待値を取ることによってpの最尤推定値を見出すことができる。pの推定値は、pに関する導関数を取り、それを0に等しくすることによって取得される:
Figure 2021516962
上記は単に、ステージlにおけるctDNAからのリードの予期された比率である。ベイズの定理は、
Figure 2021516962

Figure 2021516962
を計算するために使用することができる。それぞれの確率を代入することによって:
Figure 2021516962
を取得する。アルゴリズムは、pの最大化、およびzijの期待値を交互に行うことによって進行する。
INVARのためのリード長分布の推定
INVARを用いたサイズ加重は、加重を実施するための変異および野生型リードのサイズの既知の分布を最初に有することに依存する。リード長分布を最大の確度で推定するために、そのコホートにおける全ての試料からの全ての野生型および変異リードを使用し、試験された1つの試料を省き、カーネル密度推定を使用してそれぞれの確率を平滑化した。
研究したコホートのそれぞれからのサイズ分布を図35に示し、各サイズ範囲のエンリッチメント比を図24dに示す。初期コホートはサイズプロファイルの点で有意には異ならないが、進行した黒色腫コホートは、同程度の数のリードへのデータのダウンサンプリングにもかかわらず、ジヌクレオソーム断片の有意に大きい比率を有したことを実証した(図35d)。したがって、両方の初期コホートからのデータをプールして、変異および野生型断片のサイズの事前分布を生成し、データを0.25の初期設定でガウシアンカーネルを用いて平滑化した(図35e)。
野生型の起源の細胞の場合にリードが長さlである確率P(L=l│z=0)を推定するために、プールした各データセットからの全ての野生型リードを使用した。両方のデータセットに関して、ガウシアンカーネルと共にR関数「density」を使用して、推定された確率を平滑化し、密度推定値
Figure 2021516962
を取得した。最終的に、P(L=l│z=z)を推定するために、それぞれの密度を積分した:
Figure 2021516962
サイズ分布推定値を平滑化することは、データがまばらであるデータセットにおいて、あまりにも大きな重みを任意の所与の変異断片に割り当てることを回避するために重要である。
有益なリード(IR)の算出
試料に関する有益なリード(IR)の数は、標的化された変異の数(すなわち変異リストの長さ)と配列決定によって分析された一倍体ゲノム(hGA)の数(リードコラプシング後の重複排除カバレッジと等価)との積である。したがって、あらゆる試料に関する検出の限界は、1/IRに基づいて(二項確率に基づいた、変異分子をサンプリングすることに関する調整を含む)算出することができる。検出されなかった試料の場合、1/IRの値はその試料におけるctDNAの上限の推定値を提供し、これは、変異分子が存在しない場合であっても試料の定量を可能にし、図27dにおいて、sWGSデータを使用して約10−4までの上側信頼限界を定義するために利用される。また、限定された感度を有する試料は、INVAR法がIRの数によって限定される「低感度」または「非評価可能」群として同定および分類することができる(図25)。本研究では、他の方法よりも大きい感度でctDNAを定量することを目的とし、20,000個未満のIRを有する、検出されなかったctDNAを有する試料を低感度、したがって非評価可能と分類した。本研究におけるコホートにわたって、6名の患者がこれらの規準で非評価可能であった。
統合変異アレル割合(IMAF)の算出
複数の変異座位にわたってctDNAを定量するために、「統合変異アレル割合」を以下のように算出した:
a)試料における各トリヌクレオチドコンテキストに関して、全ての患者特異的座位にわたる重複排除深度加重平均アレル割合を算出した
b)対照データにおけるトリヌクレオチドコンテキスト当たりのバックグラウンドエラー率を、(a)において算出した平均アレル割合から減算した。減算後に負の変異アレル割合を有するトリヌクレオチドコンテキストは0に設定した。
(c)各トリヌクレオチドコンテキストにおける重複排除深度によって加重された、トリヌクレオチドコンテキストにわたる平均バックグラウンド減算アレル割合を取った。
実験的添加希釈系列
総計5,073の患者特異的バリアントを有する1名の患者からの血漿DNAを、11名の健康な個体からの血漿cfDNA(Seralab)のプールに各ステップ10倍で段階希釈して、1〜100,000倍にまたがる希釈系列を得た。ライブラリ調製を、方法に記載されているように、希釈液当たり50ngの入力を用いて実施した。希釈系列における、感度を評価するのに十分に多い数の分子を探査するために、最低希釈倍率(100,000倍)を3連で生成した。健康対照cfDNAプールを、座位エラー率の決定のための対照試料として含め、潜在的SNP座位を同定および排除した(図24e)。腫瘍アレル割合と血漿変異出現との関係を考慮すると(図35b)、INVARのための任意のより小さなパネルは、最も高い優先度を有するクローン変異に基づき、より低いアレル割合は、血漿配列決定データが十分に広範である場合にのみ含めるべきである。したがって、希釈系列配列決定ライブラリのそれぞれから復元抽出を用いてデータを繰り返しサンプリングし(50回の繰り返し)、次いで上位N個の変異(1から5,000の変異にまたがる)を選択した。最も高い変異アレル割合を有する座位はBRAF V600E変異であった。座位の数をダウンサンプリングした後、外れ値抑制を、単一BRAF V600E座位データを除くすべての試料に関して反復した。
より少ない有益なリードを用いた推定検出率
検出された試料のIMAFに基づいて、より少ないIRが完全に高感度なアッセイを用いて達成された場合の検出率を推定することができる。所与の数のIR(r)に関して、ctDNAに関する95%の検出の限界(p)は以下:
Figure 2021516962
のように決定することができる。したがって、IR値のベクトルにおける各入力事項(10、10・・・10)に関して、癌に関する検出率をコホート当たりで算出し、図26eにプロットする。IR値のベクトルの最大値を、そのコホートにおける試料当たりのIRの最大数より大きくなるように設定し、最も近い桁に丸めた。ステージII〜IIIの黒色腫患者に関して、検出を5年以内に再燃した患者に関する感度と定義した。線形回帰を使用して各コホートに関するR値を算出した。
実施例14に対する補足的方法の参考文献
1. Zhang, J., Kobert, K., Flouri, T. & Stamatakis, A. PEAR: A fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics 30, 614−620 (2014).
2. Fan, H. C., Blumenfeld, Y. J., Chitkara, U., Hudgins, L. & Quake, S. R. Analysis of the size distributions of fetal and maternal cell-free DNA by paired-end sequencing. Clin. Chem. 56, 1279−1286 (2010).
3. Lopez-Raton, M., Rodriguez-Alvarez, M. X., Suarez, C. C. & Sampedro, F. G. OptimalCutpoints: An R Package for Selecting Optimal Cutpoints in Diagnostic Tests. J. Stat. Softw. 61, 1−36 (2014).
4. University of Michigan. Connor - METHODS. (2016). at <https://github.com/umich-brcf-bioinf/Connor/blob/master/doc/METHODS.rst>
5. Forshew, T. et al. Noninvasive Identification and Monitoring of Cancer Mutations by Targeted Deep Sequencing of Plasma DNA. Sci. Transl. Med. 4, 136ra68-136ra68 (2012).
6. Newman, A. M. et al. An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage. Nat. Med. 20, 548−54 (2014).
7. Abbosh, C. et al. Phylogenetic ctDNA analysis depicts early stage lung cancer evolution. Nature 22364, 1−25 (2017).
8. Wang, J.-P. SPECIES: An R Package for Species Richness Estimation. J. Stat. Softw. 40, 1−15 (2011).
[実施例15]
さらなる癌の種類へのINVARの適用
下記に概略を述べる全てのコホートに関して、ctDNA検出のために0.1のINVARスコア閾値を適用した。その閾値未満の試料は不検出(ND)として示す。0.1未満のINVARスコアおよび20,000個未満の総IRを有する試料は評価不能と分類した(プロットに示していない)。
Figure 2021516962
肺癌
総計90の試料を、INVARを用いて分析した。4例は、十分な有益なリードを生じなかったため、「評価不能」と分類した(示していない)。残りの86の試料のうち、60の試料においてctDNAが検出され、70%の総検出率を得た。現在、本発明者らはこれらの患者のステージについて依然として盲検化されているが、コホートは60%がステージIの患者である初期患者(33%がステージIA、および27%がステージIB)に大いに偏る。
腎臓癌
INVARを39の血漿試料に適用し、そのうちの7つは評価不能であった(示していない)。残りの32の試料のうち、22は0.1超のINVARスコアに達した(69%)。INVARを尿試料にも適用した。分析した23の試料のうち、6つは評価不能であった(示していない)。残りの17の試料のうち、6つは0.1超のINVARスコアに達した(35%)。試料は異なる疾患亜型から由来する。
尿試料調製:
尿試料を外科的処置前に収集した(平均8.6、外科的処置の0〜35日前の範囲)。同じ尿試料から、下に記載するように、尿上清(USN)と尿細胞ペレット(UCP)の両方を単離した。
30〜50mlの尿を50mlファルコンチューブに収集し、0.5M EDTAを収集の1時間以内に添加した(pH8.0;30mlに対し600μl、最終濃度10mM。より多い容量の尿の場合、EDTAの容量を適宜調整した)。穏やかな反転後、試料を2,400gで10分間遠心した。その後、上清の約3.6mlのアリコートを別個のクライオチューブに移した。追加の1mlの上清を、別個のマイクロ遠心チューブに移し、次いで尿細胞ペレット(UCP)を含有する元のファルコンチューブに戻した。チューブを撹拌し、残りの液体を2mlの滅菌マイクロ遠心チューブに移して、13,300rpmで10分間遠心し、上清を廃棄して乾燥UCPを保管のために残した。
尿試料を、QIAsymphonyプラットフォーム(Qiagen、Germany)を使用して抽出した。最大4mlの尿を抽出し、60uLに溶出した。
膠芽腫
膠芽腫患者における血漿および脳脊髄液(CSF)のINVARを使用した検出。CSF試料において、2つの試料は、不十分な数の有益なリードのため分析から排除した(示していない)。残りの6つ全ての試料は、0.1超のINVARスコアで検出された。血漿において、12の試料のうち11はこのINVAR閾値に達した(92%)。
CSF試料調製:
腰椎穿刺を、腫瘍減量のための開頭術の直前に実施した。滅菌野調製後、硬膜嚢に、0.61mmゲージの腰椎穿刺針を使用してL3とL5の間の椎間空間でカニューレを挿入し、10mlのCSFを採った。収集後、CSF試料を直ちに氷上に置き、次いで処理のために事前に冷却した遠心分離機に急速に移した。試料を1500g、4Cで10分間遠心分離し、上清を取り除き、20,000gで10分間さらに遠心分離し、−80Cでの保管のために2mLマイクロチューブ(Sarstedt、Germany)に等分した。
流体を、QIAsymphonyプラットフォーム(Qiagen、Germany)を使用して抽出した。最大8mLのCSFを抽出のために使用した。CSF試料からのDNAを90uLに溶出し、Speed−Vac濃縮装置(Eppendorf)を使用して30uLまでさらに濃縮した。次いで、試料は、血漿試料に関しても使用した通常のライブラリ調製プロトコルに従った。
乳癌
INVARを乳癌試料に適用した。35の試料のうち34は0.1以上のINVARスコアに達し、検出と分類した(97%)。本研究における腫瘍変異をエクソン領域のみではなくゲノム全体にわたって同定した。試料を7名の患者から経時的に採取し、時間経過にわたるctDNA濃度の増減は処置に対する応答を表す可能性が高い。
結果を図42〜45に示す。図42および43では、統合変異アレル割合(IMAF)(y軸)を全てのコホート(試料、X軸)に関して示す。
図44および45は、評価可能と分類された全ての試料のINVARスコアを示す。
参考文献
1. Wan JCM, Massie C, Garcia-Corbacho J, et al. Liquid biopsies come of age: towards implementation of circulating tumour DNA. Nat Rev Cancer 2017;17:223−38.
2. Siravegna G, Marsoni S, Siena S, Bardelli A. Integrating liquid biopsies into the management of cancer. Nat Rev Clin Oncol 2017;
3. Bettegowda C, Sausen M, Leary RJ, et al. Detection of circulating tumor DNA in early- and late-stage human malignancies. Sci Transl Med 2014;6(224):224ra24.
4. Diehl F, Li M, Dressman D, et al. Detection and quantification of mutations in the plasma of patients with colorectal tumors. Proc Natl Acad Sci U S A 2005;102(45):16368−73.
5. Forshew T, Murtaza M, Parkinson C, et al. Noninvasive Identification and Monitoring of Cancer Mutations by Targeted Deep Sequencing of Plasma DNA. Sci Transl Med 2012;4(136):136ra68-136ra68.
6. Abbosh C, Birkbak NJ, Wilson GA, et al. Phylogenetic ctDNA analysis depicts early stage lung cancer evolution. Nature 2017;22364:1−25.
7. Newman AM, Lovejoy AF, Klass DM, et al. Integrated digital error suppression for improved detection of circulating tumor DNA. Nat Biotechnol 2016;34(5):547−55.
8. Newman AM, Bratman S V, To J, et al. An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage. Nat Med 2014;20(5):548−54.
9. Murtaza M, Dawson S-J, Tsui DWY, et al. Non-invasive analysis of acquired resistance to cancer therapy by sequencing of plasma DNA. Nature 2013;497(7447):108−12.
10. Hodis E, Watson IR, Kryukov G V., et al. A Landscape of Driver Mutations in Melanoma. Cell 2013;150(2):251−63.
11. Kinde I, Wu J, Papadopoulos N, Kinzler KW, Vogelstein B. Detection and quantification of rare mutations with massively parallel sequencing. Proc Natl Acad Sci 2011;108(23):9530−5.
12. Hoang ML, Kinde I, Tomasetti C, et al. Genome-wide quantification of rare somatic mutations in normal human tissues using massively parallel sequencing. Proc Natl Acad Sci 2016;113(35):9846−51.
13. Underhill HR, Kitzman JO, Hellwig S, et al. Fragment Length of Circulating Tumor DNA. PLOS Genet 2016;12(7):426−37.
14. Mouliere F, Rosenfeld N. Circulating tumor-derived DNA is shorter than somatic DNA in plasma. Proc Natl Acad Sci 2015;112(11):201501321.
15. Thierry AR, Mouliere F, Gongora C, et al. Origin and quantification of circulating DNA in mice with human colorectal cancer xenografts. Nucleic Acids Res 2010;38(18):6159−75.
16. Poole W, Gibbs DL, Shmulevich I, Bernard B, Knijnenburg TA. Combining dependent P-values with an empirical adaptation of Brown’s method. Bioinformatics 2016;32(17):i430−6.
17. Mouliere F, Piskorz AM, Chandrananda D, et al. Selecting Short DNA Fragments In Plasma Improves Detection Of Circulating Tumour DNA. bioRxiv 2017;
18. Eisenhauer EA, Therasse P, Bogaerts J, et al. New response evaluation criteria in solid tumours: Revised RECIST guideline (version 1.1). Eur J Cancer 2009;45(2):228−47.
19. Forbes SA, Beare D, Gunasekaran P, et al. COSMIC: Exploring the world’s knowledge of somatic mutations in human cancer. Nucleic Acids Res 2015;43(D1):D805−11.
20. Jiang P, Chan CWM, Chan KCA, et al. Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients. Proc Natl Acad Sci 2015;112(11):E1317-25.
21. Jiang P, Lo YMD. The Long and Short of Circulating Cell-Free DNA and the Ins and Outs of Molecular Diagnostics. Trends Genet 2016;32(6):360−71.
22. Fan HC, Blumenfeld YJ, Chitkara U, Hudgins L, Quake SR. Analysis of the size distributions of fetal and maternal cell-free DNA by paired-end sequencing. Clin Chem 2010;56(8):1279−86.
23. Chan KCA, Zhang J, Hui ABY, et al. Size Distributions of Maternal and Fetal DNA in Maternal Plasma. Clin Chem 2004;50(1):88−92.
24. Alexandrov LB, Jones PH, Wedge DC, Sale JE, Peter J. Clock-like mutational processes in human somatic cells. Nat Publ Gr 2015;47(12):1402−7.
25. Nioche C, Orlhac F, Boughdad S, et al. A freeware for tumor heterogeneity characterization in PET, SPECT, CT, MRI and US to accelerate advances in radiomics. J Nucl Med 2017;58(supplement 1):1316.
26. Varela I, Tarpey P, Raine K, et al. Exome sequencing identifies frequent mutation of the SWI / SNF complex gene PBRM1 in renal carcinoma. Nature 2011;469(7331):539−42.
27. Manson-Bahr D, Ball R, Gundem G, et al. Mutation detection in formalin-fixed prostate cancer biopsies taken at the time of diagnosis using next-generation DNA sequencing. J Clin Pathol 2015;68(3):212−7.
28. Rubicon Genomics. ThruPLEX(登録商標) Tag-seq Kit Instruction Manual [インターネット]. 2016;Available from: http://rubicongenomics.com/wp-content/uploads/2016/08/QAM-328-001-ThruPLEX-Tag-seq-Kit-Instruction-Manual.pdf
29. Rubicon Genomics. Targeted Capture of ThruPLEX(登録商標) Libraries with Agilent SureSelect(登録商標)XT Target Enrichment System [インターネット]. Available from: rubicongenomics.com/wp-content/uploads/2016/11/RDM-152-002-SureSelectXT.pdf
30. University of Michigan. Connor - METHODS [インターネット]. 2016 [2017 Mar 27引用];Available from: https://github.com/umich-brcf-bioinf/Connor/blob/master/doc/METHODS.rst
31. moonso. VCF Parser [インターネット]. [2016 2017 May 8,引用];Available from: https://github.com/moonso/vcf_parser
Brash DE. UV Signature Mutations. Photochemistry and photobiology. 2015;91(1):15−26. doi:10.1111/php.12377.
Hodis E, Watson IR, Kryukov GV, et al. A Landscape of Driver Mutations in Melanoma. Cell. 2012;150(2):251-263. doi:10.1016/j.cell.2012.06.024.
Jamal-Hanjani GA et al. Detection of ubiquitous and heterogeneous mutations in cell-free DNA from patients with early-stage non-small-cell lung cancer, Annals of Oncology, Volume 27, Issue 5, 1 May 2016, Pages 862−867, https://doi.org/10.1093/annonc/mdw037
Shyr C, Tarailo-Graovac M, Gottlieb M, Lee JJ, van Karnebeek C, Wasserman WW. FLAGS, frequently mutated genes in public exomes. BMC Medical Genomics. 2014;7:64. doi:10.1186/s12920-014-0064-y.
本明細書において引用された全ての参考文献は、個々の各刊行物または特許または特許出願の全体が参照によって組み込まれることが具体的かつ個別的に示される場合と同じ程度に、その全体があらゆる目的のために参照によって本明細書に組み込まれる。
本明細書に記載される具体的な実施形態は、限定としてではなく例として提供される。本明細書におけるいずれの小見出しも説明の便宜のためにのみ含まれ、いかなる点でも本開示を限定するものとして解釈されるべきではない。

Claims (36)

  1. 患者から取得したDNA含有試料における、循環腫瘍DNA(ctDNA)等の無細胞DNA(cfDNA)を検出するためのコンピュータ実装方法であって、
    (a)前記患者の腫瘍を表す少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または少なくとも5000の変異含有座位(「患者特異的座位」)を含む目的の座位を用意するステップと、
    (b)前記患者由来のDNA含有試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを用意するステップであり、前記配列リードが前記ステップ(a)の前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の変異含有座位にまたがる、ステップと、
    (c)任意選択で、リードコラプシングを実施して前記配列リードをリードファミリーにグループ化するステップと、
    (d)前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の患者特異的座位の一部または全てにわたる変異アレル割合を算出するステップであり、任意選択で前記変異アレル割合が式:
    Figure 2021516962
    に従って変異リードおよび総リードを集計することによって算出される、ステップと、
    (e)前記試料を
    (i)前記変異アレル割合がバックグラウンド配列決定エラー率よりも大きいか、もしくは統計的に有意に大きいと見出される場合、cfDNA(例えばctDNA)を含有する、または
    (ii)前記変異アレル割合が前記バックグラウンド配列決定エラー率よりも大きいと見出されず、統計的に有意に大きいとも見出されない場合、cfDNA(例えばctDNA)を含有してもなく、未知のcfDNA(例えばctDNA)のステータスを有してもいない
    と分類するステップと
    を含む、コンピュータ実装方法。
  2. 前記変異アレル割合に関する統計的有意性の計算が、前記試料からの変異リードの数、前記試料からのリードの総数、および前記バックグラウンド配列決定エラー率から予期された変異リードの数を含む分割表を考慮して、フィッシャーの片側正確確率検定を実行することを含む、請求項1に記載の方法。
  3. 前記バックグラウンド配列決定エラー率が、前記少なくとも2、3、4、5、6、7、8、9、または10の患者特異的座位において表される塩基置換の各クラス(「変異クラス」)に関して、任意選択でトリヌクレオチドコンテキストごとに決定されており、
    前記ステップ(d)における前記変異アレル割合算出が各変異クラスに関して実施され、
    前記変異アレル統計的有意性計算が、各変異クラスに関する統計的有意性を、該変異クラスの前記バックグラウンド配列決定エラー率を考慮に入れて計算すること、および計算した各変異クラスの前記統計的有意性を組み合わせて、前記試料の全体変異アレル割合に関する統計的有意性の尺度を得ることを含む、
    請求項1または2に記載の方法。
  4. 前記変異アレル統計的有意性計算が、フィッシャーの片側正確確率検定を複数回実行して、観察された変異リードの数の統計的有意性を、該変異クラスに関するバックグラウンド配列決定エラー率を考慮して決定し、それにより各変異クラスに関してp値を生成し、経験的なブラウンの方法を使用して前記p値を組み合わせて、前記試料の前記変異アレル割合に関する統計的有意性の全体的尺度を得ることを含む、請求項3に記載の方法。
  5. 前記変異クラスが、以下の変異クラス:C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T、およびT>Cのうちの少なくとも5、6、7、8、9、10、11、または12個全てを含む、請求項3または4に記載の方法。
  6. 前記ステップ(b)において取得される配列リードを含む前記配列データが、テイラードパネル配列決定(TAPAS)配列リード、焦点化エクソーム配列リード、全エクソーム配列リード、または全ゲノム配列リードを表す、請求項1から5のいずれか一項に記載の方法。
  7. 前記ステップ(b)において用意される配列リードを含む前記配列データが、前記患者由来の実質的に無細胞の液体試料からの複数のDNA断片の配列リードを表す、請求項1から6のいずれか一項に記載の方法。
  8. 前記患者の腫瘍を表す前記少なくとも2、3、4、5、6、7、8、9、または10の変異含有座位が、前記患者由来の腫瘍試料から直接取得したDNAを配列決定するか、または液体、例えば高腫瘍疾患負荷時の前記患者由来の血漿試料から取得したDNAを配列決定することによって取得されている、請求項1から7のいずれか一項に記載の方法。
  9. 前記ステップ(b)において取得される配列リードを含む前記配列データが、前記患者が前記腫瘍の一連の処置を開始した後および/または前記患者が前記腫瘍の外科的切除を行った後に前記患者から取得した試料からの複数のポリヌクレオチド断片の配列リードを表し、
    前記方法が、前記腫瘍の存在、成長、予後、退縮、処置応答、または再発をモニタリングするためのものである、
    請求項1から8のいずれか一項に記載の方法。
  10. 前記患者が、黒色腫、肺癌、膀胱癌、食道癌、結腸直腸癌、卵巣癌、脳癌、および/または乳癌を有するかまたは有していたことがある、請求項1から9のいずれか一項に記載の方法。
  11. 前記リードコラプシングの前記ステップ(c)が、断片開始および終了位置、ならびに少なくとも1つの分子バーコードに基づいて、リードをリードファミリーにグループ化することを含み、
    全てのファミリーメンバー間で最低でも60%、70%、80%、または90%のコンセンサスが必要とされ、
    2、3、4、または5の最小ファミリーサイズが必要とされる、
    請求項1から10のいずれか一項に記載の方法。
  12. 前記配列リードが、115〜160bp、115〜190bp、250〜400bp、および440〜460bpのサイズ範囲内のリードにin silicoでサイズ選択され、ctDNAを表すリードをエンリッチする、請求項1から11のいずれか一項に記載の方法。
  13. リードコラプシングを実施する前記ステップが、
    (i)2個より多い変異分子を有する座位を排除すること、および
    (ii)順(F)方向と逆(R)方向との両方において配列決定された断片のみを選択すること
    からなる群から選択される少なくとも1つの微小残存病変(MRD)フィルターを適用することをさらに含む、請求項1から12のいずれか一項に記載の方法。
  14. 座位当たりの前記変異アレル割合が腫瘍アレル割合によって加重される、または座位当たりの変異アレルの数が腫瘍割合によって加重される、請求項13に記載の方法。
  15. 座位当たりの前記変異アレル割合が、式:
    Figure 2021516962
    に従って腫瘍アレル割合によって加重され、
    式中、
    AFコンテキストは所与のコンテキストのアレル頻度であり、腫瘍AFは前記腫瘍から直接取得したDNAを配列決定することによって決定される前記座位のアレル頻度であり、MRD様座位は、前記患者の前記腫瘍から決定され、その後前記MRDフィルターが適用された前記変異含有座位である、
    請求項13または14に記載の方法。
  16. 前記コンテキストがトリヌクレオチドコンテキストであり、任意選択で、最も有意なp値を有する6つのトリヌクレオチドコンテキストのみが組み合わされる、請求項15に記載の方法。
  17. n個の最も有意なトリヌクレオチドコンテキストp値が、式:
    Figure 2021516962
    に従って組み合わされ、
    式中、n=1、2、3、4、5、6、8、10、または12である、
    請求項16に記載の方法。
  18. 全体アレル割合が、式:
    Figure 2021516962
    に従って決定される、請求項14から17のいずれか一項に記載の方法。
  19. 患者における癌の存在、成長、予後、退縮、処置応答、または再発をモニタリングするための方法であって、
    (i)前記患者から取得したポリヌクレオチド含有試料を配列決定して、前記試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを取得するステップであり、前記配列リードが、前記患者の癌細胞における変異保有座位であると決定された少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または少なくとも5000の座位にまたがる、ステップと、
    (ii)請求項1から18のいずれか一項に記載の方法を、ステップ(i)において取得した前記配列リードを使用して実行するステップと、
    (iii)前記患者における前記癌の存在、成長、予後、退縮、処置応答、または再発を、少なくとも、前記試料を、cfDNA(例えばctDNA)を含有する、cfDNA(例えばctDNA)を含有しないと分類することに基づいて、または算出した全体変異アレル割合に基づいて決定するステップと、
    を含み、任意選択で腫瘍切除後の癌の再発をモニタリングするためのものである、方法。
  20. 試料における総ポリヌクレオチドの少ない割合である、前記試料における標的ポリヌクレオチドを検出するためのコンピュータ実装方法であって、前記標的ポリヌクレオチドおよび非標的ポリヌクレオチドは、複数の座位における配列が異なり、前記方法が、
    (a)少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または少なくとも5000の座位であり、それぞれにおける少なくとも1つの塩基が標的ポリヌクレオチド配列と非標的ポリヌクレオチド配列との間で異なる、座位(「標的特異的座位」)を用意するステップと、
    (b)前記試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを用意するステップであり、前記配列リードが前記ステップ(a)の前記少なくとも2、3、4、5、6、7、8、9、または10の標的特異的座位にまたがる、ステップと、
    (c)任意選択で、リードコラプシングを実施して前記配列リードをリードファミリーにグループ化するステップと、
    (d)前記少なくとも2、3、4、5、6、7、8、9、または10の標的特異的座位の全てにわたる標的ポリヌクレオチド割合を算出するステップであり、任意選択で前記標的ポリヌクレオチド割合が式:
    Figure 2021516962
    に従って変異リードおよび総リードを集計することによって算出される、ステップと、
    (e)前記試料を
    (i)前記標的ポリヌクレオチド割合がバックグラウンド配列決定エラー率に基づいて予期され得る割合よりも統計的に有意に大きいと見出される場合、前記標的ポリヌクレオチドを含有する、または
    (ii)前記標的ポリヌクレオチド割合が前記バックグラウンド配列決定エラー率に基づいて予期され得る前記割合よりも統計的に有意に大きいと見出されない場合、前記標的ポリヌクレオチドを含有してもなく、未知の標的ポリヌクレオチドのステータスを有してもいない
    と分類するステップと
    を含む、コンピュータ実装方法。
  21. 前記バックグラウンド配列決定エラー率が、前記少なくとも2、3、4、5、6、7、8、9、または10の座位において表される塩基置換の各クラスに関して、任意選択でトリヌクレオチドコンテキストごとに決定されるかまたは決定されており、
    前記ステップ(d)における前記標的ポリヌクレオチド割合算出が各塩基置換クラスに関して実施され、
    標的ポリヌクレオチド割合統計的有意性決定が、各塩基置換クラスに関する統計的有意性を、該塩基置換クラスの前記バックグラウンド配列決定エラー率を考慮に入れて計算すること、および計算した各塩基置換クラスの前記統計的有意性を組み合わせて、前記試料の全体標的ポリヌクレオチド割合に関する統計的有意性の尺度を得ることを含む、
    請求項20に記載の方法。
  22. 前記試料の分析が、異なる断片サイズのDNAを分けるサイズ選択ステップを含む、請求項1から21のいずれか一項に記載の方法。
  23. 前記患者から取得した前記試料が、1つ未満の腫瘍由来一倍体ゲノムを含む有限容量試料である、または前記試料からの配列決定データが、1、2、3、4、10、もしくは20未満の一倍体ゲノムの配列決定カバレッジもしくは深度を表す、請求項1から22のいずれか一項に記載の方法。
  24. 前記患者から取得した前記試料が、
    (i)500μl未満、400未満、200未満、100μl未満、または75μl未満の血液、血清、または血漿試料(例えば約50μlの血液または血漿試料)、
    (ii)穿刺吸引(FNA)、
    (iii)リンパ節生検、
    (iv)尿、脳脊髄液、喀痰、気管支洗浄、子宮頸部スメア、または細胞学的試料、
    (v)前記患者からの収集時から1年、2年、3年、5年、または10年超保管された試料、および
    (vi)以前に処理されており、DNAもしくは配列決定品質に関する品質測定基準を満たしていない試料、または1組の試料に属する試料であり、前記1組の試料からの他の試料が、以前に処理されており、DNAもしくは配列決定品質に関する品質測定基準を満たしていない、試料、
    からなる群から選択される有限容量試料である、請求項1から23のいずれか一項に記載の方法。
  25. 前記患者から取得した前記試料が、
    乾燥血斑試料、
    穿刺血液試料、
    前記患者からの収集後1日超(例えば少なくとも1か月)、または少なくとも1年間、または少なくとも10年間保管された、500μl未満である保存血液、血清、または血漿試料
    である、請求項1から24のいずれか一項に記載の方法。
  26. 前記患者が健康であるかもしくは疾患(例えば癌)を有する、および/または前記患者がヒトもしくは非ヒト動物(例えばげっ歯類)である、請求項1から25のいずれか一項に記載の方法。
  27. 前記動物が異種移植または異種間移植されたヒト腫瘍組織を有する、請求項26に記載の方法。
  28. 分析される前記試料が、200bp超、300bp超、500bp超、700bp超、1000bp超、1200bp超、1500bp超、または2000bp超のゲノムDNA(gDNA)断片が分析前、例えばDNA配列決定前にフィルター除去されるか、枯渇されるか、または取り除かれるサイズ選択ステップに供されて、サイズ選択された試料を生成する、請求項1から27のいずれか一項に記載の方法。
  29. 前記サイズ選択ステップが配列決定ライブラリ調製前または配列決定ライブラリ調製後に実行される、請求項22から28のいずれか一項に記載の方法。
  30. 前記サイズ選択ステップが、gDNA断片のビーズに基づいた捕捉を用いる右側サイズ選択である、請求項28または29に記載の方法。
  31. 該試料における患者特異的変異シグナルの残りの分布と一致しない、座位における外れ値ノイズを抑制するステップを含む、請求項1から30のいずれか一項に記載の方法。
  32. 前記試料におけるctDNA存在の尤度が、一般化尤度比:
    Figure 2021516962
    によって決定され、一般化尤度比という用語が、実施例14に定義されているようなものである、請求項1から31のいずれか一項に記載の方法。
  33. 患者から取得したDNA含有試料における標的無細胞DNA(cfDNA)を検出するためのシステムであって、
    少なくとも1つのプロセッサ、ならびに
    前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサに、
    (a)前記患者由来のDNA含有試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを受け取るステップであり、前記配列リードが少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の変異含有座位にまたがる、ステップと、
    (b)任意選択で、リードコラプシングを実施して前記配列リードをリードファミリーにグループ化するステップと、
    (c)前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の患者特異的座位の一部または全てにわたる変異アレル割合を算出するステップであり、任意選択で前記変異アレル割合が式:
    Figure 2021516962
    に従って変異リードおよび総リードを集計することによって算出される、ステップと、
    (d)前記試料を、算出した前記変異アレル割合に基づいて、前記標的cfDNAを含有するまたは含有しないと分類するステップと
    を含む操作を実施させる命令を含有する少なくとも1つの非一時的コンピュータ可読媒体
    を含む、システム。
  34. 請求項1から32のいずれか一項に記載の方法における使用のための、請求項33に記載のシステム。
  35. 患者から取得したDNA含有試料における標的無細胞DNA(cfDNA)を検出するための非一時的コンピュータ可読媒体であって、少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサに、
    (a)前記患者由来のDNA含有試料からの複数のポリヌクレオチド断片の配列リードを含む配列データを受け取るステップであり、前記配列リードが前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の変異含有座位にまたがる、ステップと、
    (b)任意選択で、リードコラプシングを実施して前記配列リードをリードファミリーにグループ化するステップと、
    (c)前記少なくとも2、3、4、5、6、7、8、9、10、50、100、500、1000、2500、または5000の患者特異的座位の一部または全てにわたる変異アレル割合を算出するステップであり、任意選択で前記変異アレル割合が式:
    Figure 2021516962
    に従って変異リードおよび総リードを集計することによって算出される、ステップと、
    (d)前記試料を、算出した前記変異アレル割合に基づいて、前記標的cfDNAを含有するまたは含有しないと分類するステップと
    を含む操作を実施させる命令を含む、非一時的コンピュータ可読媒体。
  36. 請求項1から32のいずれか一項に記載の方法における使用のための、請求項35に記載の媒体。
JP2020546469A 2018-03-06 2019-03-06 バリアント検出の改善 Active JP7523353B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GBGB1803596.4A GB201803596D0 (en) 2018-03-06 2018-03-06 Improvements in variant detection
GB1803596.4 2018-03-06
GB1819134.6 2018-11-23
GBGB1819134.6A GB201819134D0 (en) 2018-11-23 2018-11-23 Improvements in variant detection
PCT/EP2019/055610 WO2019170773A1 (en) 2018-03-06 2019-03-06 Improvements in variant detection

Publications (3)

Publication Number Publication Date
JP2021516962A true JP2021516962A (ja) 2021-07-15
JPWO2019170773A5 JPWO2019170773A5 (ja) 2022-03-15
JP7523353B2 JP7523353B2 (ja) 2024-07-26

Family

ID=65685355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020546469A Active JP7523353B2 (ja) 2018-03-06 2019-03-06 バリアント検出の改善

Country Status (7)

Country Link
US (1) US20200402613A1 (ja)
EP (1) EP3762512A1 (ja)
JP (1) JP7523353B2 (ja)
CN (1) CN112020563A (ja)
AU (1) AU2019229606A1 (ja)
CA (1) CA3093092A1 (ja)
WO (1) WO2019170773A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023237530A1 (en) * 2022-06-06 2023-12-14 Invitae Corporation Techniques for detecting minimum residual disease

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3062591A1 (en) 2017-05-08 2018-11-15 Gritstone Oncology, Inc. Alphavirus neoantigen vectors
JP7457733B2 (ja) 2019-05-30 2024-03-28 グリットストーン バイオ インコーポレイテッド 改変アデノウイルス
WO2021092231A1 (en) * 2019-11-06 2021-05-14 Chan Zuckerberg Biohub, Inc. User interface and backend system for pathogen analysis
CN111048152B (zh) * 2019-11-26 2022-04-01 深圳市人民医院 评价cfDNA检测对胶质瘤治疗疗效的实验方法
CN113053460A (zh) * 2019-12-27 2021-06-29 分子健康有限责任公司 用于基因组和基因分析的系统和方法
WO2021142437A1 (en) * 2020-01-10 2021-07-15 Gritstone Bio, Inc. Cell-free dna monitoring
CN116018646A (zh) * 2020-05-22 2023-04-25 阿克图尔公司 用于表征无细胞核酸片段的方法
US12093803B2 (en) 2020-07-01 2024-09-17 International Business Machines Corporation Downsampling genomic sequence data
WO2022032196A2 (en) 2020-08-06 2022-02-10 Gritstone Bio, Inc. Multiepitope vaccine cassettes
CN112397150B (zh) * 2021-01-20 2021-04-20 臻和(北京)生物科技有限公司 基于目标区域捕获测序的ctDNA甲基化水平预测装置及方法
JP2024513668A (ja) * 2021-03-05 2024-03-27 ガーダント ヘルス, インコーポレイテッド 分子応答を分析するための方法および関連する態様
CN114596918B (zh) * 2022-03-11 2023-03-24 苏州吉因加生物医学工程有限公司 一种检测突变的方法及装置
CN115376612B (zh) * 2022-09-13 2023-10-13 郑州思昆生物工程有限公司 一种数据评测方法、装置、电子设备及存储介质
WO2024129844A1 (en) * 2022-12-14 2024-06-20 Invitae Corporation Techniques for designing patient-specific panels and methods of use thereof for detecting minimal residual disease

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016040901A1 (en) * 2014-09-12 2016-03-17 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acids
WO2017024784A1 (zh) * 2015-08-10 2017-02-16 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160032396A1 (en) * 2013-03-15 2016-02-04 The Board Of Trustees Of The Leland Stanford Junior University Identification and Use of Circulating Nucleic Acid Tumor Markers
EP3405574A4 (en) * 2016-01-22 2019-10-02 Grail, Inc. VARIANTS-BASED SICKNESS DIAGNOSTICS AND PURSUIT

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016040901A1 (en) * 2014-09-12 2016-03-17 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acids
WO2017024784A1 (zh) * 2015-08-10 2017-02-16 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GERBER, B. ET AL.: "Circulating tumor DNA as a liquid biopsy in plasma cell dyscrasias", HAEMATOLOGICA, vol. 103(6), JPN7023000316, 22 February 2018 (2018-02-22), pages 245 - 248, ISSN: 0005116408 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023237530A1 (en) * 2022-06-06 2023-12-14 Invitae Corporation Techniques for detecting minimum residual disease

Also Published As

Publication number Publication date
JP7523353B2 (ja) 2024-07-26
AU2019229606A1 (en) 2020-10-15
EP3762512A1 (en) 2021-01-13
US20200402613A1 (en) 2020-12-24
CA3093092A1 (en) 2019-09-12
CN112020563A (zh) 2020-12-01
WO2019170773A1 (en) 2019-09-12

Similar Documents

Publication Publication Date Title
JP7523353B2 (ja) バリアント検出の改善
US20220017891A1 (en) Improvements in variant detection
Esfahani et al. Inferring gene expression from cell-free DNA fragmentation profiles
JP7506380B2 (ja) 残存病変の検出システム及び方法
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
US20220195530A1 (en) Identification and use of circulating nucleic acid tumor markers
Newman et al. Integrated digital error suppression for improved detection of circulating tumor DNA
WO2018090298A2 (en) Systems and methods for monitoring lifelong tumor evolution
CN110114477A (zh) 用于使用总的和特异性无细胞dna评估风险的方法
WO2017009372A2 (en) System and methodology for the analysis of genomic data obtained from a subject
WO2018151601A1 (en) Swarm intelligence-enhanced diagnosis and therapy selection for cancer using tumor- educated platelets
US20210065842A1 (en) Systems and methods for determining tumor fraction
CN112218957A (zh) 用于确定在无细胞核酸中的肿瘤分数的系统及方法
CN115443341A (zh) 分析无细胞核酸的方法及其应用
AU2020364225B2 (en) Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis
Cheng et al. Whole genome error-corrected sequencing for sensitive circulating tumor DNA cancer monitoring
US20200399711A1 (en) Method of predicting response to therapy by assessing tumor genetic heterogeneity
US20190249229A1 (en) Bam signatures from liquid and solid tumors and uses therefor
Heider Detection of trace levels of circulating tumour DNA in early stage non-small cell lung cancer
Poletti TiMMing: developing an innovative suite of bioinformatic tools to harmonize and track the origin of copy number alterations in the evolutive history of multiple myeloma
Cattelan Development of a NGS workflow for diagnostic applications in oncology
WO2024038396A1 (en) Method of detecting cancer dna in a sample
WO2023091517A2 (en) Systems and methods for gene expression and tissue of origin inference from cell-free dna

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220307

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240624

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240716

R150 Certificate of patent or registration of utility model

Ref document number: 7523353

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150