JP2023156402A - ターゲットシーケンシングのためのモデル - Google Patents

ターゲットシーケンシングのためのモデル Download PDF

Info

Publication number
JP2023156402A
JP2023156402A JP2023127900A JP2023127900A JP2023156402A JP 2023156402 A JP2023156402 A JP 2023156402A JP 2023127900 A JP2023127900 A JP 2023127900A JP 2023127900 A JP2023127900 A JP 2023127900A JP 2023156402 A JP2023156402 A JP 2023156402A
Authority
JP
Japan
Prior art keywords
variants
cancer
variant
sample
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023127900A
Other languages
English (en)
Inventor
ウィーバー ブロッカー アレキサンダー
Weaver Blocker Alexander
ハベル アール
Hubbell Earl
クラウド ベン オリバー
Claude Venn Oliver
リウ チンウェン
Qinwen Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grail Inc
Original Assignee
Grail Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail Inc filed Critical Grail Inc
Publication of JP2023156402A publication Critical patent/JP2023156402A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)

Abstract

【課題】ターゲットシーケンシングのためのモデル、バリアントコーリングおよび品質コントロールにおけるそのモデルの利用。【解決手段】処理システムは、ターゲットシーケンシングまたはバリアントコーリングのためのベイズ推論ベースのモデルを使用する。一実施形態においては、前記処理システムは無細胞核酸サンプルの候補バリアントを生成する。前記処理システムは前記無細胞核酸サンプルおよび対応するゲノム核酸サンプルにおける前記候補バリアントの各々について、真の代替頻度の尤度を決定する。前記処理システムは、少なくとも真の代替頻度の前記尤度を使用して前記モデルによって、前記候補バリアントをふるい分けるまたは記録する。前記処理システムはふるい分けられた前記候補バリアントを出力し、これは予測癌または疾病モデルのために、フィーチャを生成するために使用され得る。【選択図】図1A

Description

本開示は、一般に、ターゲットシーケンシングのためのモデル、バリアントコーリングおよび品質コントロールにおけるそのモデルの利用、ならびに試験サンプルに対して実行される物理的アッセイの結果の統計的分析に関する。
様々なタイプの癌または他の疾病に対応し得る、DNAにおける変異またはバリアントを同定するために、コンピュータ技法が、DNAシーケンシングデータに対して使用され得る。したがって、被験者から採取された組織生検材料または血液などの生体サンプルを分析することによって、癌診断または予測が、実行され得る。血液サンプルから腫瘍細胞が起源のDNAを検出することは、困難であり、そのわけは、循環腫瘍DNA(ctDNA)は、一般に、血液から抽出された無細胞DNA(cfDNA)内の他の分子に比べて、低レベルで存在するからである。既存の方法が、信号ノイズから(例えば、被験者における癌を示す)真陽性を識別することができないことは、ノイズソースによって引き起こされた偽陽性から真陽性を区別するための知られたシステムおよび将来のシステムの能力を損ない、それは、バリアントコーリングまたは他のタイプの分析についての信頼性のない結果をもたらすことがある。cfDNAを分析することは、従来の腫瘍生検方法と比べて有利であり得るが、しかしながら、腫瘍由来のcfDNAにおいて癌を示唆する信号を識別することは、特に、癌を示唆する信号がまだ目立たない場合の癌の早期検出などの目的に関して、異なる課題に直面する。一例として、腫瘍由来のフラグメントの必要なシーケンシング深さを達成することは、困難であり得る。別の例として、サンプル準備およびシーケンシング中に導入されるエラーは、まれなバリアントの正確な同定を困難にすることがある。これら様々な課題の組み合わせは、被験者から獲得されたcfDNAの使用を通して、被験者における癌の特徴を、十分な感度および特異度で正確に予測する妨げになる。
シーケンシングデータにおいて単一ヌクレオチドバリアント(SNV)などのバリアントを検出するために、数々の異なる方法が、開発されてきた。ほとんどの従来の方法は、組織サンプルから獲得されたDNAシーケンシングデータからバリアントをコールするために開発された。これらの方法は、無細胞核酸サンプルから獲得された深いシーケンシングデータからバリアントをコールするためには適さないことがある。
癌の非侵襲的診断および監視については、無細胞ヌクレオチドのターゲットシーケンシングデータは、重要なバイオソースとしての役割を果たす。しかしながら、深いシーケンシングデータセットにおけるバリアントの検出は、異なる課題をもたらし、すなわち、シーケンシングされるフラグメントの数は、数桁大きくなる傾向があり(例えば、シーケンシング深さは2000倍以上になることがあり)、既存のバリアントコーラのほとんどを、計算時間およびメモリ使用において消耗させる。
バリアントの正確な検出に対する主要な課題は、処理中に発生する、シーケンシングされるフラグメントの損傷の可能性である。シーケンシングされるフラグメントの損傷の例は、自然にまたはアッセイ処理ステップのせいで発生する、ヌクレオチド置換であることができる。例えば、損傷は、ヌクレオチド塩基の自発的な脱アミノ化が原因で、または末端修復エラーが原因で発生することがある。処理中に損傷が発生するので、既存のバリアントコーラは、これらのヌクレオチド塩基変化を、ゲノム内のバリアントとして同定することがある。言い換えると、この損傷は、システマティックエラーをもたらすことがあり、変異が誤って同定される、例えば、偽陽性として識別される原因となり得る。
米国特許出願公開第2012/0065081号明細書 米国特許出願公開第2014/0227705号明細書 米国特許出願公開第2015/0044687号明細書 米国特許出願公開第2017/0058332号明細書
Duncavage et al., J Mol Diagn. 13(3): 325-333 (2011) Newman et al., Nat Med. 20(5): 548-554 (2014) Cheng, D., et al, Memorial Sloan Kettering-Integrated Mutation Profiling of Actionable Cancer Targets (MSK-IMPACT), A Hybridization Capture-Based Next-Generation Sequencing Clinical Assay for Solid Tumor Molecular Oncology, Journal of Molecular Diagnostics, 17(3), p. 251 - 264 Chakravarty et al., JCO PO 2017 Forbes et al. COSMIC: somatic cancer genetics at high-resolution, Nucleic Acids Research, Volume 45, Issue D1, 4 January 2017, Pages D777-D783
処理システムは、ターゲットシーケンシング、バリアントコーリング、品質コントロール、および物理的アッセイの統計的分析を含む、様々な適用のためのモデルを使用する。処理システムは、血液、腫瘍生検材料、または他の体液もしくは身体物質を含み得る、サンプルから獲得された、シーケンスリードを使用して、候補バリアントを生成する。候補バリアントは、単一ヌクレオチドバリアント、塩基対の挿入または欠失を含み得る。処理システムは、無細胞核酸サンプルまたはゲノム核酸サンプルにおける候補バリアントについての、真の代替頻度の尤度を決定し得る。いくつかの使用事例においては、ゲノム核酸サンプルは、白血球細胞からのものである。処理システムは、真の代替頻度の尤度を使用して、候補バリアントを点数化またはふるい分けし得る。処理システムは、点数化またはふるい分けされた候補バリアントを出力し、それは、例えば、推定されたノイズレベルに基づいて、潜在的な偽陽性をふるい落とすことによって、バリアントコーリングまたは品質コントロールのために使用され得る。加えて、処理システムは、シーケンスリードからフィーチャを生成し得、フィーチャは、予測癌または疾病モデルに入力される。
処理システムは、部位特異的ノイズモデルをトレーニングおよび適用し得、それは、本明細書においては、ターゲットシーケンシングにおける真陽性の尤度を決定するための、「ベイズ階層モデル」、「ノイズモデル」、または「モデル」とも呼ばれる。モデルは、ベイズ推論を使用して、例えば、核酸配列の位置ごとのある変異の予期される尤度を示す、ノイズのレートまたはレベルを決定し得る。さらに、モデルは、共変量(例えば、トリヌクレオチドコンテキスト、マッピング可能性、またはセグメント重複)、および様々なタイプのパラメータ(例えば、混合成分、またはシーケンスリードの深さ)を考慮する、階層モデルであり得る。モデルは、健康な被験者のシーケンスリードから、マルコフ連鎖モンテカルロサンプリングによって、トレーニングされ得る。したがって、モデルを組み込んだ全体的なパイプラインは、より高い感度で真陽性を識別し、偽陽性をふるい落とすことができる。ノイズモデルに加えて、処理システムは、個人から獲得された試験サンプルに基づいた、個人についての癌または他のタイプの疾病の分類または予測のために、モデルをトレーニングおよび適用し得る。
処理システムは、フィルタリングプロセスを使用して、サンプリング処理中に生じた、コールされたバリアントを同定および除去し得る。アーチファクトは、自発的なシトシン脱アミノ化、および末端修復エラーなど、cfDNAの処理中に発生する様々なソースから生じることがある。これらのアーチファクトは、エッジバリアントおよびアーチファクトバリアントを含む、様々な用語によって呼ばれ得る。これらのアーチファクトプロセスの結果として検出された、コールされたバリアントは、被験者のゲノムに存在する実際の変異を反映しない。様々な実施形態においては、本明細書において開示されるフィルタリングプロセスは、少なくとも2つの分析を組み合わせる。1つの分析は、サンプルレベルで行われ、サンプルにわたって観測された、コールされたバリアントの分布を分析する。別の分析は、バリアントレベルで行われ、各コールされたバリアントを検討して、そのコールされたバリアントがアーチファクトプロセスの結果である可能性が高いかどうかを決定する。これらの分析を組み合わせることは、個々のコールされたバリアントのサンプル特異的フィルタリングを可能にする。例示的なシナリオとして、サンプルにおいて同定されたコールされたバリアントは、(例えば、アーチファクトプロセスからもたらされた)エッジバリアントとして区分けされることができ、一方、異なるサンプルにおいて同定された同じコールされたバリアントは、(例えば、アーチファクトプロセスからもたらされない)非エッジバリアントとして区分けされることができる。
様々な実施形態においては、方法は、無細胞核酸サンプルの複数の候補バリアントを生成するステップを含む。方法は、無細胞核酸サンプルおよび対応するゲノム核酸サンプルにおける候補バリアントの各々について、真の代替頻度の尤度を決定するステップをさらに含む。方法は、少なくとも、真の代替頻度の尤度を使用するモデルによって、候補バリアントをふるい分けるステップをさらに含む。いくつかの使用事例においては、方法は、ふるい分けに加えて、またはふるい分けの代わりに、候補バリアントを点数化するステップを含み得る。方法は、ふるい分けられた候補バリアントを出力するステップをさらに含む。
1つまたは複数の実施形態においては、方法は、同義変異と関連付けられた少なくとも1つの候補バリアントを除去することによって、候補バリアントをふるい分けるステップをさらに含む。
1つまたは複数の実施形態においては、真の代替頻度の尤度を決定するステップは、候補バリアントの少なくとも1つについて、被験者の無細胞核酸サンプルからの第1のシーケンスリードの第1の深さおよび第1の代替深さを決定するステップをさらに含む。方法は、被験者のゲノム核酸サンプルからの第2のシーケンスリードの第2の深さおよび第2の代替深さを決定するステップをさらに含む。方法は、無細胞核酸サンプルの第1の深さおよび真の代替頻度によってパラメータ化された第1の関数を使用して、第1の代替深さをモデル化することによって、無細胞核酸サンプルの真の代替頻度の第1の尤度を決定するステップをさらに含む。方法は、ゲノム核酸サンプルの第2の深さおよび真の代替頻度によってパラメータ化された第2の関数を使用して、第2の代替深さをモデル化することによって、ゲノム核酸サンプルの真の代替頻度の第2の尤度を決定するステップをさらに含む。モデルは、少なくとも、第1の尤度、第2の尤度、および1つまたは複数のパラメータを使用して、無細胞核酸サンプルの真の代替頻度が、ゲノム核酸サンプルの真の代替頻度の関数よりも大きい確率を決定することによって、候補バリアントをふるい分ける。
1つまたは複数の実施形態においては、第1の関数は、無細胞核酸サンプルの第1の深さの1つと真の代替頻度との積によってパラメータ化された、ポアソン分布関数である。第2の関数は、ゲノム核酸サンプルの第2の深さの1つと真の代替頻度との別の積によってパラメータ化された、ポアソン分布関数である。
1つまたは複数の実施形態においては、確率は、無細胞核酸サンプルからの第1のシーケンスリードからの(例えば、ヌクレオチド)変異が、被験者のゲノム核酸サンプルからの第2のシーケンスリード内に見つからないことについての信頼性レベルを表す。
1つまたは複数の実施形態においては、確率が1つまたは複数のパラメータのうちの1つよりも大きいと決定したのに応答して、無細胞核酸サンプルからの第1のシーケンスリードからの少なくともいくつかの(例えば、ヌクレオチド)変異が、被験者のゲノム核酸サンプルからの第2のシーケンスリード内に見つからないと決定するステップをさらに含む。
1つまたは複数の実施形態においては、確率を決定するステップは、無細胞核酸サンプルの真の代替頻度が、1つまたは複数のパラメータのうちの1つによって乗算されたゲノム核酸サンプルの真の代替頻度よりも大きい確率を決定するステップを含む。
1つまたは複数の実施形態においては、確率を決定するステップは、第1の尤度と第2の尤度のジョイント尤度を決定するステップを含み、第1のシーケンスリードと第2のシーケンスリードを与えられた場合、第1の尤度と第2の尤度は、条件付きで独立である。
1つまたは複数の実施形態においては、確率を決定するステップは、第1の尤度および第2の尤度の一方の累積和を決定し、第1の尤度および第2の尤度の他方の積分を決定することによって、第1の尤度と第2の尤度のジョイント尤度を数値的に近似するステップを含む。
1つまたは複数の実施形態においては、1つまたは複数のパラメータは、健康なゲノム核酸サンプルの代替頻度を入力として取る第3の関数を使用して決定される、第1のパラメータを含む。
1つまたは複数の実施形態においては、第3の関数は、シーケンスリードにおけるヘテロ接合性の消失イベントを防ぐための基準によって定義される。
1つまたは複数の実施形態においては、第3の関数は、非線形関数である。
1つまたは複数の実施形態においては、基準は、第1のパラメータについては3の値を、健康なゲノム核酸サンプルの代替頻度については1/3のより低い閾値を示す。
1つまたは複数の実施形態においては、1つまたは複数のパラメータは、第2のパラメータを含む。第1のパラメータおよび第2のパラメータは、複数の個人の無細胞核酸サンプルとゲノム核酸サンプルのセットを用いて交差検証を行うことによって、経験的に決定される。
1つまたは複数の実施形態においては、第1のパラメータは、1以上5以下の値を有し、第2のパラメータは、0.5と1の間の別の値を有する。
1つまたは複数の実施形態においては、交差検証を行うことは、複数のタイプの疾病と関連付けられたサンプルを使用して導出された候補パラメータ値を適用して、異なるタイプの疾病と関連付けられた別のサンプルを試験することを含む。
1つまたは複数の実施形態においては、方法は、第1のパラメータによってパラメータ化された第3の関数を使用して、健康な無細胞核酸サンプルに関する(例えば、ヌクレオチド)変異の第1のノイズレベルを決定するステップをさらに含み、被験者の無細胞核酸の真の代替頻度の第1の尤度が、さらに第1のノイズレベルを使用して決定される。方法は、第2のパラメータによってパラメータ化された第4の関数を使用して、健康なゲノム核酸サンプルに関する(例えば、ヌクレオチド)変異の第2のノイズレベルを決定するステップをさらに含み、被験者のゲノム核酸の真の代替頻度の第2の尤度が、さらに第2のノイズレベルを使用して決定される。
1つまたは複数の実施形態においては、第1の代替深さをモデル化することは、第1の関数の出力に第1のノイズレベルを加算することを含み、第2の代替深さをモデル化することは、第2の関数の別の出力に第2のノイズレベルを加算することを含む。
1つまたは複数の実施形態においては、第1のパラメータおよび第2のパラメータは、シーケンスリードの与えられた位置に関する(例えば、ヌクレオチド)変異のノイズレベルを符号化した分布のパラメータを表す。
1つまたは複数の実施形態においては、第3の関数および第4の関数は、各々、平均レートおよび分散パラメータによってパラメータ化された、負の2項分布関数である。
1つまたは複数の実施形態においては、第3の関数および第4の関数は、同じタイプの関数であり、同じタイプのパラメータによってパラメータ化される。
1つまたは複数の実施形態においては、第1のパラメータは、無細胞核酸サンプルのセットを使用してトレーニングされる第1のモデルを使用して導出され、第2のパラメータは、ゲノム核酸サンプルのセットを使用してトレーニングされる第2のモデルを使用して導出される。
1つまたは複数の実施形態においては、ゲノム核酸サンプルのセットは、白血球細胞からのものである。
1つまたは複数の実施形態においては、第1のモデルおよび第2のモデルは、ベイズ階層モデルである。
1つまたは複数の実施形態においては、第1のモデルおよび第2のモデルは、同じタイプのモデルである。
1つまたは複数の実施形態においては、方法は、被験者の血液サンプルから無細胞核酸サンプルを収集するステップまたは収集したステップをさらに含む。方法は、無細胞核酸サンプルに対する濃縮を実行して、第1のシーケンスリードを生成するステップをさらに含む。
1つまたは複数の実施形態においては、第1のシーケンスリードは、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、涙液、組織生検材料、胸膜液、心膜液、または腹水のサンプルから獲得される。
1つまたは複数の実施形態においては、第1のシーケンスリードは、被験者の少なくともCD4+細胞を含む血液からの細胞の分離から獲得される。
1つまたは複数の実施形態においては、第2のシーケンスリードは、被験者の腫瘍生検材料から獲得された腫瘍細胞から獲得される。
1つまたは複数の実施形態においては、第2のシーケンスリードは、被験者の白血球細胞から獲得される。
1つまたは複数の実施形態においては、方法は、確率が閾値確率よりも小さいと決定したのに、およびゲノム核酸サンプルからの第2のシーケンスリードの第2の代替深さの1つが、ゼロよりも大きいと決定したのに応答して、無細胞核酸サンプルからの第1のシーケンスリードの候補バリアントが、ゲノム核酸サンプルのヌクレオチド変異と関連付けられると決定するステップをさらに含む。
1つまたは複数の実施形態においては、閾値確率は、0.8に等しい。
1つまたは複数の実施形態においては、方法は、無細胞核酸サンプルからの第1のシーケンスリードの候補バリアントについて、(i)確率が閾値確率よりも小さいと決定したのに、および(ii)候補バリアントと関連付けられたゲノム核酸サンプルからの第2のシーケンスリードの第2の代替深さの1つが、ゼロに等しいと決定したのに応答して、第1の深さ、第1の代替深さ、第2の深さ、および第2の代替深さを使用して、比を決定するステップと、少なくとも、比が閾値比よりも小さいと決定したのに応答して、候補バリアントはゲノム核酸サンプルの(例えば、ヌクレオチド)変異とおそらく関連付けられると決定するステップとをさらに含む。
1つまたは複数の実施形態においては、候補バリアントはゲノム核酸サンプルの(例えば、ヌクレオチド)変異とおそらく関連付けられるとの決定に基づいて、1つまたは複数のパラメータのうちの少なくとも1つが、候補バリアントのために決定される。
1つまたは複数の実施形態においては、方法は、候補バリアントに対応する1つまたは複数のパラメータの第1のセットを決定するステップをさらに含む。方法は、1つまたは複数のパラメータの第1のセットを使用して、第1のフィルタを候補バリアントに適用するステップをさらに含む。方法は、別の候補バリアントがゲノム核酸サンプルの別の(例えば、ヌクレオチド)変異とおそらく関連付けられないと決定したのに応答して、別の候補バリアントに対応する1つまたは複数のパラメータの第2のセットを決定するステップをさらに含む。方法は、1つまたは複数のパラメータの第2のセットを使用して、第2のフィルタを別の候補バリアントに適用するステップをさらに含み、第2のフィルタは、第1のフィルタのそれよりも厳しいフィルタリング基準を有する。
1つまたは複数の実施形態においては、方法は、第2のシーケンスリードの第2の代替深さを使用して、gDNA深さ品質スコアを決定するステップをさらに含む。その場合、候補バリアントが(例えば、ヌクレオチド)変異とおそらく関連付けられると決定することは、gDNA深さ品質スコアが閾値スコア以上であると決定することにさらに応答する。
1つまたは複数の実施形態においては、閾値スコアは、1である。
1つまたは複数の実施形態においては、方法は、第1のシーケンスリードが複数の基準のうちの少なくとも1つを満たすと決定することによって、無細胞核酸サンプルからの第1のシーケンスリードの候補バリアントをふるい分けることを決定するステップをさらに含む。
1つまたは複数の実施形態においては、第1のシーケンスリードが複数の基準のうちの少なくとも1つを満たすかどうかを決定することは、候補バリアントがエッジバリアントアーチファクトであると決定することを含む。
1つまたは複数の実施形態においては、第1のシーケンスリードが複数の基準のうちの少なくとも1つを満たすかどうかを決定することは、第1のシーケンスリードの第1の深さの1つが閾値深さよりも小さいと決定することを含む。
1つまたは複数の実施形態においては、第1のシーケンスリードが複数の基準のうちの少なくとも1つを満たすかどうかを決定することは、1つまたは複数の生殖細胞系列変異に類似する、第1の配列における(例えば、ヌクレオチド)変異の頻度が、閾値頻度よりも大きいと決定することと、(例えば、ヌクレオチド)変異が生殖細胞系列変異と関連付けられた位置において見つけられたと決定することとを含む。
1つまたは複数の実施形態においては、方法は、ふるい分けされたシーケンスリードを使用して、1つまたは複数のフィーチャの値を生成するステップをさらに含む。方法は、1つまたは複数のフィーチャの値を予測癌モデルに入力して、被験者についての癌予測を生成するステップをさらに含み、予測癌モデルは、学習された重みを含む関数を通して、1つまたは複数のフィーチャの値を、被験者についての癌予測に変換する。方法は、被験者についての癌予測を提供するステップをさらに含む。
1つまたは複数の実施形態においては、1つまたは複数のフィーチャは、体細胞バリアントの総数、非同義バリアントの総数、同義バリアントの総数、遺伝子パネル内の遺伝子ごとの体細胞バリアントの存在または非存在、癌と関連付けられることが知られた特定の遺伝子についての体細胞バリアントの存在または非存在、遺伝子パネル内の遺伝子ごとの体細胞バリアントの対立遺伝子頻度、体細胞バリアントのAFに従った順位序列、および区分ごとの体細胞バリアントの対立遺伝子頻度のうちの1つまたは複数を含む。
1つまたは複数の実施形態においては、モデルによって候補バリアントをふるい分けるステップは、複数の候補バリアントのうちの候補バリアントについて、無細胞核酸サンプルにおける候補バリアントの真の代替頻度が、対応するゲノム核酸サンプルにおける候補バリアントの真の代替頻度の関数よりも大きい確率を決定するステップを含む。ふるい分けるステップは、確率が閾値確率よりも小さいと決定するステップをさらに含む。ふるい分けるステップは、ゲノム核酸サンプルにおける候補バリアントの代替深さが閾値深さよりも大きいと決定するステップをさらに含む。ふるい分けるステップは、無細胞核酸サンプルの深さおよび代替深さと、ゲノム核酸サンプルの別の深さおよび代替深さとを使用して、比を決定するステップをさらに含む。ふるい分けるステップは、ゲノム核酸サンプルの代替深さを使用して、gDNA深さ品質スコアを決定するステップをさらに含む。ふるい分けるステップは、比が閾値比よりも小さいと決定したのに、およびgDNA深さ品質スコアが閾値スコア以上であると決定したのに応答して、候補バリアントはゲノム核酸サンプルの(例えば、ヌクレオチド)変異とおそらく関連付けられると決定するステップをさらに含む。
様々な実施形態においては、方法は、被験者の無細胞核酸サンプルからの第1のシーケンスリードの第1の深さおよび第1の代替深さを決定するステップを含む。方法は、被験者のゲノム核酸サンプルからの第2のシーケンスリードの第2の深さおよび第2の代替深さを決定するステップをさらに含む。方法は、無細胞核酸サンプルの第1の深さおよび真の代替頻度によってパラメータ化された第1の関数を使用して、第1の代替深さをモデル化することによって、無細胞核酸サンプルの真の代替頻度の第1の尤度を決定するステップをさらに含む。方法は、ゲノム核酸サンプルの第2の深さおよび真の代替頻度によってパラメータ化された第2の関数を使用して、第2の代替深さをモデル化することによって、ゲノム核酸サンプルの真の代替頻度の第2の尤度を決定するステップをさらに含む。方法は、少なくとも、第1の尤度、第2の尤度、および1つまたは複数のパラメータを使用して、無細胞核酸サンプルの真の代替頻度が、ゲノム核酸サンプルの真の代替頻度の関数よりも大きい確率を決定することによって、被験者の候補バリアントをふるい分けるステップをさらに含む。方法は、ふるい分けられた候補バリアントを出力するステップをさらに含む。
処理システムは、事前サンプル(例えば、トレーニングサンプル)から獲得された、先に区分けされたエッジバリアントおよび先に区分けされた非エッジバリアントを使用して生成された、分布を考慮して、サンプル特異的な分析またはバリアント特異的な分析を行い得る。例えば、第1の分布は、先に区分けされたエッジバリアントのフィーチャの分布を記述し、一方、第2の分布は、先に区分けされた非エッジバリアントのフィーチャの分布を記述する。フィーチャは、エッジバリアントまたは非エッジバリアントのシーケンスリードにわたる、変異させられたヌクレオチド塩基のロケーションに関連することができる。例えば、1つの特定のフィーチャは、シーケンスリードにわたる、変異させられたヌクレオチド塩基が検出されたシーケンスリードのエッジからの中央値距離であることができる。
様々な実施形態においては、サンプル特異的な分析は、サンプルにおけるアーチファクトの予測されるレートを決定する、サンプル特異的なレート予測モデルを利用する。例えば、サンプル特異的な分析は、尤度推定を実行して、サンプルにおけるエッジバリアントの予測されるレートを決定することを含み得る。ここでは、予測されるレートは、第1の分布および第2の分布を考慮して、サンプルにわたって観測されるコールされたバリアントの分布を最も良く説明し得る。高い予測されるレートは、サンプルにわたって観測されるコールされたバリアントの分布が、知られたエッジバリアントのフィーチャを記述する第1の分布により類似することを示す。言い換えると、サンプルにわたって観測されるコールされたバリアントの大きい比率が、アーチファクトプロセスにおそらく起因する。このような例示的な結果は、サンプルにおけるエッジバリアントを同定および除外するために、より積極的なフィルタリングプロセスの使用を提案する。他方では、低い予測されるレートは、サンプルにわたって観測されるコールされたバリアントの分布が、知られた非エッジバリアントのフィーチャを記述する第2の分布により類似することを示す。言い換えると、サンプルにわたって観測されるコールされたバリアントの小さい比率が、アーチファクトプロセスにおそらく起因する。このような例示的な結果は、サンプルにおけるエッジバリアントを同定および除外するために、あまり積極的でないフィルタリングプロセスの使用を提案する。
様々な実施形態においては、バリアント特異的な分析は、第1の分布および第2の分布を考慮して、特定のコールされたバリアントのフィーチャを分析する、エッジバリアント予測モデルを利用する。エッジバリアント予測モデルは、コールされたバリアントが処理アーチファクトの結果である尤度を表すアーチファクトスコア、およびコールされたバリアントが非エッジバリアントである尤度を表す非アーチファクトスコアを出力する。各コールされたバリアントについて、サンプル特異的な予測されるレートは、コールされたバリアントのためのアーチファクトスコアおよび非アーチファクトスコアと組み合わされる。したがって、コールされたバリアントは、サンプル特異的な分析とバリアント特異的な分析の両方を考慮することによって、エッジバリアントまたは非エッジバリアントとして同定される。エッジバリアントは、ふるい落とされることができ、一方、非エッジバリアントは、保持される。
様々な実施形態においては、方法は、無細胞核酸サンプルの複数の候補バリアントを生成するステップを含む。方法は、無細胞核酸サンプルにおけるおよび対応するゲノム核酸サンプルにおける候補バリアントの各々について、真の代替頻度の尤度を決定するステップをさらに含む。方法は、少なくとも、真の代替頻度の尤度を使用するモデルによって、候補バリアントをふるい分けるステップをさらに含む。方法は、候補バリアントの各々について、候補バリアントがエッジバリアントである確率を示すエッジバリアント確率を決定することによって、候補バリアントをふるい分けるステップをさらに含む。方法は、ふるい分けられた候補バリアントを出力するステップをさらに含む。
様々な実施形態においては、候補バリアントをふるい分けるステップは、シーケンスリード上において見つけられた代替対立遺伝子を受け取るステップを含み、シーケンスリードは、ゲノム内の複数の位置から獲得される。方法は、受け取られた代替対立遺伝子に基づいて、無細胞核酸サンプルについてのエッジバリアントの予測されるレートを決定するステップをさらに含む。方法は、複数の位置のサブセットの各々について、位置から獲得されたシーケンスリードからフィーチャを抽出するステップと、抽出されたフィーチャをトレーニングされたモデルへの入力として適用して、位置についてのアーチファクトスコアおよび位置についての非アーチファクトスコアを獲得するステップであって、アーチファクトスコアは、位置から獲得されたシーケンスリード上において見つけられた代替対立遺伝子が、処理アーチファクトの結果である尤度を反映し、非アーチファクトスコアは、位置から獲得されたシーケンスリード上において見つけられた代替対立遺伝子が、処理アーチファクトの結果でない尤度を反映する、ステップと、位置についてのアーチファクトスコア、位置についての非アーチファクトスコア、および無細胞核酸サンプルについてのアーチファクトの予測されるレートを組み合わせることによって、位置についてのエッジバリアント確率を生成するステップと、エッジバリアント確率に基づいて、位置における候補バリアントの1つをエッジバリアントとして報告するステップとをさらに含む。
1つまたは複数の実施形態においては、無細胞核酸サンプルについてのエッジバリアントは、シーケンスリードのうちの1つまたは複数の部分の自発的な脱アミノ化に起因する。
1つまたは複数の実施形態においては、無細胞核酸サンプルについてのエッジバリアントの予測されるレートを決定するステップは、受け取られた代替対立遺伝子を考慮して、尤度ベースの推定を実行して、推定量を生成するステップと、最尤推定量に基づいて、エッジバリアントの予測されるレートを選択するステップとを含む。
1つまたは複数の実施形態においては、尤度ベースの推定は、アーチファクト区分に区分けされたシーケンスリードから生成された第1の分布を考慮して、さらに実行される。
1つまたは複数の実施形態においては、尤度ベースの推定は、非アーチファクト区分に区分けされたシーケンスリードから生成された第2の分布を考慮して、さらに実行される。
1つまたは複数の実施形態においては、位置についてのシーケンスリードから抽出されたフィーチャの1つは、シーケンシングリードのサブセットにおける代替対立遺伝子のロケーションと、シーケンシングリードのサブセットのエッジとの間の中央値距離である。
1つまたは複数の実施形態においては、位置についてのシーケンスリードから抽出されたフィーチャの1つは、1)シーケンシングリードの第1のサブセットにおける代替対立遺伝子のロケーションと、第1のサブセットにおけるシーケンシングリードのエッジとの間の第1の中央値距離と、2)シーケンシングリードの第2のサブセットにおける参照対立遺伝子のロケーションと、第2のサブセットにおけるシーケンシングリードのエッジとの間の第2の中央値距離との間の差を表す有意性スコアである。
1つまたは複数の実施形態においては、位置についてのシーケンスリードから抽出されたフィーチャの1つは、位置を横断する代替対立遺伝子を含むシーケンスリードのフラクションを表す、対立遺伝子フラクションである。
1つまたは複数の実施形態においては、エッジバリアント確率に基づいて、コールされたバリアントをエッジバリアントとして報告するステップは、エッジバリアント確率を閾値と比較するステップと、比較に基づいて、コールされたバリアントをエッジバリアントとして報告するステップとを含む。
1つまたは複数の実施形態においては、複数の位置のサブセットに含まれる、ゲノム内の位置は、複数のうちの各位置について、位置に対応するコールされたバリアントの変異タイプを同定し、コールされたバリアントの変異タイプが、シトシンからチミンへの塩基置換またはグアニンからアデニンへの塩基置換の一方であるかどうかを決定することによって決定される。
1つまたは複数の実施形態においては、トレーニングされるモデルは、トレーニングシーケンスリード上において見つけられた代替対立遺伝子であって、トレーニングシーケンスリードはゲノム内の複数の位置から獲得される、代替対立遺伝子を含む、トレーニングデータを受け取り、トレーニングシーケンスリード上において見つけられた代替対立遺伝子の特性に基づいて、トレーニングシーケンスリードの各々を2つ以上の区分に区分けし、トレーニングバリアントの2つ以上の区分の各々について、区分に区分けされたトレーニングシーケンスリードからフィーチャを抽出し、抽出されたフィーチャに基づいて、分布を生成することによってトレーニングされる。
1つまたは複数の実施形態においては、トレーニングシーケンスリードの特性は、代替リードのヌクレオチド塩基変異のタイプを含み、トレーニングシーケンスリードの各々を2つ以上の区分に区分けすることは、トレーニングシーケンスリードにおける代替対立遺伝子のヌクレオチド塩基変異のタイプに基づいて、各トレーニングシーケンスリードを、アーチファクト区分または非アーチファクト区分の一方に区分けすることを含む。
1つまたは複数の実施形態においては、アーチファクト区分に区分けされたトレーニングシーケンスリードは、各々、シトシンからチミンへの変異またはグアニンからアデニンへの変異のどちらかである代替リードを含む。
1つまたは複数の実施形態においては、アーチファクト区分に区分けされたトレーニングシーケンスリードは、各々、トレーニングシーケンシングリードのエッジから閾値距離内に見つけられる代替対立遺伝子を含む。
1つまたは複数の実施形態においては、非アーチファクト区分に区分けされたトレーニングシーケンスリードは、各々、トレーニングシーケンシングリードのエッジから閾値距離外に見つけられる、またはシトシンからチミンへの変異もしくはグアニンからアデニンへの変異以外の塩基置換である、代替対立遺伝子を含む。
本明細書において開示される実施形態は、被験者における癌の存在を検出するための方法について説明し、方法は、被験者からの試験サンプルにおける複数の無細胞核酸から生成されたシーケンシングデータを獲得するステップであって、シーケンシングデータは、複数の無細胞核酸から決定される複数のシーケンスリードを含む、ステップと、1つまたは複数のシーケンシングベースのフィーチャを同定するために、適切にプログラムされたコンピュータを使用して、複数のシーケンスリードを分析するステップと、1つまたは複数のフィーチャの分析に基づいて、癌の存在を検出するステップであって、癌の存在は、少なくとも約95%の特異度、および少なくとも約30%感度の感度で検出される、ステップとを含む。
いくつかの実施形態においては、癌の存在は、少なくとも約95%の特異度、および少なくとも約50%感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約95%の特異度、および少なくとも約60%感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約95%の特異度、および少なくとも約70%感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約95%の特異度、および少なくとも約80%感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約95%の特異度、および少なくとも約90%感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約95%の特異度、および少なくとも約95%感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約99%の特異度、および少なくとも約35%感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約95%の特異度、および少なくとも約40%感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約95%の特異度、および少なくとも約45%感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約96%、97%、98%、99%、99.5%、99.8%、または99.9%の特異度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、または95%の特異度で検出される。
本明細書において開示される実施形態は、無症状の被験者における癌の存在を検出するための方法についてさらに説明し、方法は、無症状の被験者からの試験サンプルにおける複数の無細胞核酸から生成されたシーケンシングデータを獲得するステップと、1つまたは複数のシーケンシングベースのフィーチャを同定するために、適切にプログラムされたコンピュータを使用して、シーケンシングデータを分析するステップと、1つまたは複数のフィーチャの分析に基づいて、癌の存在を検出するステップであって、癌の存在についての受信者動作特性(ROC)の曲線下面積(AUC)が、0.60よりも大きい、ステップとを含む。いくつかの実施形態においては、AUCは、0.65、0.70、0.75、0.80、0.85、0.90、0.95、0.97、0.98、または0.99よりも大きい。
本明細書において開示される実施形態は、無症状の被験者における癌の存在を検出するための方法についてさらに説明し、方法は、無症状の被験者からの試験サンプルにおける複数の無細胞核酸から生成されたシーケンシングデータを獲得するステップと、1つまたは複数のシーケンシングベースのフィーチャを同定するために、適切にプログラムされたコンピュータを使用して、シーケンシングデータを分析するステップと、1つまたは複数のフィーチャの分析に基づいて、癌の存在を検出するステップであって、癌の存在は、少なくとも約30%の推定される陽性予測値で検出される、ステップとを含む。
いくつかの実施形態においては、癌の存在は、少なくとも35%、40%、45%、50%、55%、60%、65%、70%、または75%の推定される陽性予測値で検出される。いくつかの実施形態においては、方法は、2つ以上の異なるタイプの癌を検出する。いくつかの実施形態においては、方法は、3つ以上の異なるタイプの癌を検出する。いくつかの実施形態においては、方法は、5つ以上の異なるタイプの癌を検出する。いくつかの実施形態においては、方法は、10以上の異なるタイプの癌を検出する。いくつかの実施形態においては、方法は、20以上の異なるタイプの癌を検出する。いくつかの実施形態においては、2つ以上の異なるタイプの癌は、乳がん、肺がん、前立腺がん、大腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、胃がん、肛門直腸がん、およびそれらの任意の組み合わせから選択される。
いくつかの実施形態においては、被験者は、無症状である。いくつかの実施形態においては、無細胞核酸は、無細胞DNA(cfDNA)を含む。いくつかの実施形態においては、シーケンスリードは、次世代シーケンシング(NGS)手順から生成される。いくつかの実施形態においては、シーケンスリードは、合成によるシーケンシングを使用する、超並列シーケンシング手順から生成される。
いくつかの実施形態においては、1つまたは複数のフィーチャは、試験サンプルにおける複数の無細胞核酸に対する少なくとも小バリアントシーケンシングアッセイから導出される。
いくつかの実施形態においては、小バリアントシーケンシングアッセイは、ターゲットシーケンシングアッセイであり、シーケンスデータは、遺伝子のターゲットパネルから導出される。いくつかの実施形態においては、遺伝子のターゲットパネルは、2から10000の間の遺伝子を含む。いくつかの実施形態においては、小バリアントシーケンシングアッセイから決定された1つまたは複数のフィーチャの分析に基づいて、癌の存在を検出すること。いくつかの実施形態においては、小バリアントシーケンシングアッセイフィーチャは、体細胞バリアントの総数、非同義バリアントの総数、同義バリアントの総数、遺伝子ごとの体細胞バリアントの存在/非存在、癌と関連付けられることが知られた特定の遺伝子についての体細胞バリアントの存在/非存在、遺伝子ごとの体細胞バリアントの対立遺伝子頻度、体細胞バリアントのAFに従った順序統計量、および対立遺伝子頻度に基づいた癌と関連付けられることが知られた体細胞バリアントの分類のうちの1つまたは複数を含む。いくつかの実施形態においては、方法は、被験者のさらなる白血球細胞のうちの1つからゲノムDNAのシーケンスデータを獲得するステップをさらに含み、シーケンシングデータは、ゲノムDNAから決定される複数のシーケンスリードを含み、分析は、被験者からの無細胞核酸についてのシーケンスデータを、被験者の1つまたは複数の白血球細胞からのDNAのシーケンスデータと比較して、1つまたは複数の腫瘍由来の小バリアントシーケンシングアッセイフィーチャを同定することを含む。
いくつかの実施形態においては、検出される癌は、ステージIの癌である。いくつかの実施形態においては、検出される癌は、ステージIIの癌である。いくつかの実施形態においては、検出される癌は、ステージIIIの癌である。いくつかの実施形態においては、検出される癌は、ステージIVの癌である。いくつかの実施形態においては、検出される癌は、乳がん、肺がん、大腸がん、卵巣がん、子宮がん、黒色腫、腎臓がん、膵臓がん、甲状腺がん、胃がん、肝胆道がん、食道がん、前立腺がん、リンパ腫、多発性骨髄腫、頭頸部がん、膀胱がん、子宮頸がん、またはそれらの任意の組み合わせである。いくつかの実施形態においては、方法は、試験サンプルからのシーケンスリードの分析に基づいて、乳がんを、HR陽性、HER2過剰発現、HER2増幅、またはトリプルネガティブとして分類するステップをさらに含む。
いくつかの実施形態においては、分析は、試験サンプルにおいて1つまたは複数のウイルス由来の核酸の存在を検出することをさらに含み、癌の検出は、部分的に、1つまたは複数のウイルス核酸の検出に基づく。例えば、一実施形態においては、1つまたは複数のフィーチャは、ウイルス由来の核酸の存在/非存在、またはウイルス由来の核酸から決定されるウイルス量を含み得る。いくつかの実施形態においては、1つまたは複数のウイルス由来の核酸は、ヒトパピローマウイルス、エプスタイン-バーウイルス、B型肝炎、C型肝炎、およびそれらの任意の組み合わせから成る群から選択される。
いくつかの実施形態においては、試験サンプルは、血液、血漿、血清、尿、脳脊髄液、糞便物質、唾液、胸膜液、心膜液、子宮頸部スワブ、唾液、または腹水サンプルである。
一実施形態に従った、シーケンシングのために核酸サンプルを準備するための方法のフローチャートである。 一実施形態に従った、シーケンスリードを獲得するためのプロセスのグラフィカル表現を示す図である。 一実施形態に従った、シーケンスリードを処理するための処理システムのブロック図である。 一実施形態に従った、シーケンスリードのバリアントを決定するための方法のフローチャートである。 一実施形態に従った、ベイズ階層モデルの適用の図である。 一実施形態に従った、真の単一ヌクレオチドバリアントを決定するための、パラメータとベイズ階層モデルのサブモデルとの間の依存関係を示す図である。 一実施形態に従った、真の挿入または欠失を決定するための、パラメータとベイズ階層モデルのサブモデルとの間の依存関係を示す図である。 一実施形態に従った、ベイズ階層モデルと関連付けられた図である。 一実施形態に従った、ベイズ階層モデルと関連付けられた図である。 一実施形態に従った、ベイズ階層モデルをフィッティングすることによってパラメータを決定する図である。 一実施形態に従った、ベイズ階層モデルからのパラメータを使用して、偽陽性の尤度を決定する図である。 一実施形態に従った、ベイズ階層モデルをトレーニングするための方法のフローチャートである。 一実施形態に従った、与えられたヌクレオチド変異の候補バリアントを点数化するための方法のフローチャートである。 一実施形態に従った、ジョイントモデルを使用して、無細胞核酸サンプルおよびゲノム核酸サンプルを処理するための方法のフローチャートである。 一実施形態に従った、ジョイントモデルの適用の図である。 一実施形態に従った、健康な個人からのサンプルにおけるバリアントの観測されたカウントの図である。 一実施形態に従った、ジョイントモデルについての例示的なパラメータの図である。 一実施形態に従った、ジョイントモデルによって決定されるバリアントコールの図である。 一実施形態に従った、ジョイントモデルによって決定されるバリアントコールの図である。 一実施形態に従った、ジョイントモデルによって決定される確率密度の図である。 一実施形態に従った、ジョイントモデルの感度および特異度の図である。 一実施形態に従った、ジョイントモデルを使用してターゲットシーケンシングアッセイから検出された遺伝子のセットの図である。 一実施形態に従った、ジョイントモデルを使用してターゲットシーケンシングアッセイから検出された図17に示された遺伝子のセットの長さ分布の図である。 一実施形態に従った、ジョイントモデルを使用してターゲットシーケンシングアッセイから検出された遺伝子の別のセットの図である。 一実施形態に従った、無細胞核酸サンプルおよびゲノム核酸サンプルを処理するために、ジョイントモデルを調整するための方法のフローチャートである。 一実施形態に従った、cfDNAサンプルの候補バリアントの例示的なカウントの表を示す図である。 一実施形態に従った、健康な個人からのcfDNAサンプルの候補バリアントの例示的なカウントの表を示す図である。 一実施形態に従った、cfDNAとgDNAの比に基づいてプロットされた候補バリアントの図である。 一実施形態に従った、トレーニングバリアントを使用して、アーチファクト分布および非アーチファクト分布を生成するプロセスを示す図である。 一実施形態に従った、アーチファクトトレーニングデータ区分に区分けされるシーケンスリードを示す図である。 一実施形態に従った、非アーチファクトトレーニングデータ区分に区分けされるシーケンスリードを示す図である。 一実施形態に従った、参照対立遺伝子トレーニングデータ区分に区分けされるシーケンスリードを示す図である。 一実施形態に従った、エッジからの統計的距離フィーチャを抽出するためのプロセスの例示的な図である。 一実施形態に従った、有意性スコアフィーチャを抽出するためのプロセスの例示的な図である。 一実施形態に従った、対立遺伝子フラクションフィーチャを抽出するためのプロセスの例示的な図である。 様々な実施形態に従った、エッジバリアントを同定するために使用される例示的な分布を示す図である。 様々な実施形態に従った、エッジバリアントを同定するために使用される例示的な分布を示す図である。 一実施形態に従った、サンプル特異的な予測されるレートを決定するためのブロック図フロープロセスを示す図である。 一実施形態に従った、エッジバリアントを同定するためのエッジバリアント予測モデルの適用を示す図である。 一実施形態に従った、サンプルから検出されたエッジバリアントを同定および報告するフロープロセスを示す図である。 様々な実施形態に従った、アーチファクト区分または非アーチファクト区分の一方に区分けされる、例示的なトレーニングバリアントのフィーチャを示す図である。 様々な実施形態に従った、アーチファクト区分または非アーチファクト区分の一方に区分けされる、例示的なトレーニングバリアントのフィーチャを示す図である。 様々な実施形態に従った、アーチファクト区分または非アーチファクト区分の一方に区分けされる、例示的なトレーニングバリアントのフィーチャを示す図である。 様々な実施形態に従った、被験者から獲得された例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。 様々な実施形態に従った、被験者から獲得された例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。 様々な実施形態に従った、被験者から獲得された例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。 様々な実施形態に従った、被験者から獲得された別の例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。 様々な実施形態に従った、被験者から獲得された別の例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。 様々な実施形態に従った、被験者から獲得された別の例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。 一実施形態に従った、様々な被験者サンプルにわたるエッジバリアントの同定を示す図である。 一実施形態に従った、cfDNAにおいてコールされたバリアントのフラクションとして、異なるエッジフィルタを使用してエッジバリアントを除去した後に、固形腫瘍とcfDNAの両方においてコールされた一致バリアントを示す図である。 一実施形態に従った、固形腫瘍においてコールされたバリアントのフラクションとして、異なるエッジフィルタを使用してエッジバリアントを除去した後に、固形腫瘍とcfDNAの両方においてコールされた一致バリアントを示す図である。 一実施形態に従った、異なるタイプのフィルタおよびモデルを使用して、候補バリアントを処理するための方法のフローチャートである。 一実施形態に従った、無細胞ゲノム研究のためのサンプルセットの個人を記述した表を示す図である。 一実施形態に従った、図33Aの無細胞ゲノム研究のためのサンプルセットと関連付けられた癌のタイプを示すチャートである。 一実施形態に従った、図33Aの無細胞ゲノム研究のためのサンプルセットを記述した別の表を示す図である。 一実施形態に従った、1つまたは複数のタイプのフィルタおよびモデルを使用して決定された、コールされたバリアントの例示的なカウントの図である。 一実施形態に従った、乳がんを有することが知られたサンプルの例示的な品質スコアの図である。 一実施形態に従った、乳がんを有することが知られたサンプルの例示的な品質スコアの別の図である。 一実施形態に従った、肺がんを有することが知られたサンプルの例示的な品質スコアの図である。 一実施形態に従った、癌の異なるステージにある様々なタイプの癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの表を示す図である。 一実施形態に従った、癌の異なるステージにある様々なタイプの癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの図である。 一実施形態に従った、早期または末期癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの図である。 一実施形態に従った、早期または末期癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの別の図である。 一実施形態に従った、個人から獲得されたcfDNAサンプルに由来するフィーチャに基づいて、癌予測を生成するための方法のフローチャートである。 一実施形態に従った、小バリアントフィーチャの第1のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度の受信者動作特性(ROC)曲線を示す図である。 一実施形態に従った、小バリアントフィーチャの第2のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度のROC曲線を示す図である。 一実施形態に従った、小バリアントフィーチャの第3のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度のROC曲線を示す図である。
図は、もっぱら例示の目的で、本発明の実施形態を示している。本明細書において例示される構造および方法の代替的実施形態が、本明細書において説明される本発明の原理から逸脱することなく、利用され得ることを、当業者は、以下の説明から容易に認識しよう。
今から、それらの例が添付の図に例示された、いくつかの実施形態に対する言及が、詳細に行われる。実施可能なときはつねに、類似のまたは同じ参照番号が、図において使用され得、類似のまたは同じ機能性を示し得ることが留意される。例えば、「シーケンスリード180A」など、参照番号の後の文字は、本文が、その特定の参照番号を有する要素を特定的に参照していることを示す。「シーケンスリード180」など、後続する文字のない本文中の参照番号は、その参照番号を有する、図中の任意のまたはすべての要素を参照している(例えば、本文中の「シーケンスリード180」は、図中の参照番号「シーケンスリード180A」および/または「シーケンスリード180B」を参照している)。
I.定義
「個人」という語は、人間の個人のことを指す。「健康な個人」という語は、癌または疾病を有さないと推定される個人のことを指す。「被験者」という語は、癌または疾病を有することが知られている、または潜在的に有する個人のことを指す。
「シーケンスリード」という語は、個人から獲得されたサンプルからのヌクレオチド配列リードのことを指す。シーケンスリードは、当技術分野において知られた様々な方法を通して、獲得されることができる。
「リードセグメント」または「リード」という語は、個人から獲得されたシーケンスリードを含む任意のヌクレオチド配列、および/または個人から獲得されたサンプルからの初期シーケンスリードに由来するヌクレオチド配列のことを指す。例えば、リードセグメントは、アライメントされたシーケンスリード、コラプスされたシーケンスリード、またはつなぎ合わされたリードのことを指し得る。さらに、リードセグメントは、単一ヌクレオチドバリアントなど、個々のヌクレオチド塩基のことを指し得る。
「単一ヌクレオチドバリアント」または「SNV」という語は、ヌクレオチド配列、例えば、個人からのシーケンスリードの位置(例えば、部位)における、1つのヌクレオチドの異なるヌクレオチドへの置換のことを指す。第1の核酸塩基Xから第2の核酸塩基Yへの置換は、「X>Y」と表記され得る。例えば、シトシンからチミンへのSNVは、「C>T」と表記され得る。
「インデル」という語は、シーケンスリードにおける、長さおよび位置(アンカ位置と呼ばれることもある)を有する、1つまたは複数の塩基の任意の挿入または欠失のことを指す。挿入は、正の長さに対応し、一方、欠失は、負の長さに対応する。
「変異」という語は、1つまたは複数のSNVまたはインデルのことを指す。
「候補バリアント」、「コールされたバリアント」、または「推定バリアント」という語は、例えば、変異させられたと決定されたゲノム内の位置における、ヌクレオチド配列の1つもしくは複数の検出されたヌクレオチドバリアント(すなわち、候補SNV)、または1つもしくは複数の塩基における挿入もしくは欠失(すなわち、候補インデル)のことを指す。一般に、ヌクレオチド塩基は、シーケンスリードにおける代替対立遺伝子の存在、またはコラプスされたリードに基づいて、コールされたバリアントと見なされ、位置におけるヌクレオチド塩基は、基準ゲノム内のヌクレオチド塩基と異なる。加えて、候補バリアントは、真陽性または偽陽性と呼ばれることがある。
「真陽性」という語は、リアルなバイオロジ(real biology)、例えば、個人における潜在的な癌、疾病、または生殖細胞系列変異の存在を示す変異のことを指す。真陽性は、健康な個人において自然に発生する変異(例えば、再発性変異)、または核酸サンプルのアッセイ準備中におけるプロセスエラーなど、アーチファクトの他のソースによっては引き起こされない。
「偽陽性」という語は、真陽性であると誤って決定された変異のことを指す。一般に、偽陽性は、より大きい平均ノイズレートまたはノイズレートにおけるより大きい不確実性と関連付けられた、シーケンスリードを処理するときに、発生する可能性がより高くなり得る。
「cfNA」の「無細胞核酸」という語は、細胞外において見つけられることができる、血液、汗、尿、または唾液などの体液中の、核酸分子のことを指す。無細胞核酸は、循環核酸として交換可能に使用される。
「無細胞核酸」、「無細胞DNA」、または「cfDNA」という語は、血液、汗、尿、または唾液などの体液中を循環し、1つもしくは複数の健康な細胞および/または1つもしくは複数の癌細胞を起源とする、デオキシリボ核酸フラグメントのことを指す。
「循環腫瘍DNA」または「ctDNA」という語は、死にかけた細胞のアポトーシスもしくはネクローシスなどの生物学的プロセスの結果として、血液、汗、尿、もしくは唾液などの個人の体液中に放出され得る、または生存可能な腫瘍細胞によって能動的に放出され得る、腫瘍細胞または他のタイプの癌細胞を起源とするデオキシリボ核酸フラグメントのことを指す。
「循環腫瘍RNA」または「ctRNA」という語は、死にかけた細胞のアポトーシスもしくはネクローシスなどの生物学的プロセスの結果として、血液、汗、尿、もしくは唾液などの個人の体液中に放出され得る、または生存可能な腫瘍細胞によって能動的に放出され得る、腫瘍細胞または他のタイプの癌細胞を起源とするリボ核酸フラグメントのことを指す。
「ゲノム核酸」、「ゲノムDNA」、または「gDNA」という語は、1つまたは複数の健康な細胞を起源とする、染色体DNAを含む核酸のことを指す。
「代替対立遺伝子」または「ALT」という語は、例えば、知られた遺伝子に対応する、参照対立遺伝子に対して、1つまたは複数の変異を有する対立遺伝子のことを指す。
「シーケンシング深さ」または「深さ」という語は、与えられた位置、領域、または遺伝子座における、個人から獲得されたサンプルからのリードセグメントの総数のことを指す。いくつかの実施形態においては、深さは、ゲノムにわたる、またはターゲットシーケンシングパネルにわたる平均シーケンシング深さのことを指す。
「代替深さ」または「AD」という語は、ALTを支持する、例えば、ALTの変異を含む、サンプルにおけるリードセグメントの数のことを指す。
「参照深さ」という語は、候補バリアントロケーションにおける、参照対立遺伝子を含む、サンプル内のリードセグメントの数のことを指す。
「代替頻度」または「AF」という語は、与えられたALTの頻度のことを指す。AFは、サンプルの対応するADを、与えられたALTについてのサンプルの深さによって除算することによって、決定され得る。
「バリアント」または「真のバリアント」という語は、ゲノム内の位置における変異させられたヌクレオチド塩基のことを指す。そのようなバリアントは、個人における癌の発症および/または進行をもたらすことがある。
「エッジバリアント」という語は、シーケンスリードのエッジ付近、例えば、シーケンスリードのエッジからヌクレオチド塩基の閾値距離内に見つけられる、変異のことを指す。
「非エッジバリアント」という語は、例えば、本明細書において説明されるエッジバリアントフィルタリング方法を使用して、アーチファクトプロセスからもたらされたのではないと決定された、候補バリアントのことを指す。いくつかのシナリオにおいては、非エッジバリアントは、真のバリアント(例えば、ゲノムにおける変異)ではないことがあるが、それは、非エッジバリアントが、1つまたは複数のアーチファクトプロセスではない、異なる理由が原因で生じ得るからである。
II.例示的なアッセイプロトコル
図1Aは、一実施形態に従った、シーケンシングのために核酸サンプルを準備するための方法100のフローチャートである。方法100は、以下のステップを含むが、それらに限定されない。例えば、方法100のいずれのステップも、当業者に知られた品質コントロールまたは他の実験室アッセイ手順のために、定量化サブステップを含み得る。
ステップ110において、複数の核酸分子(DNAまたはRNA)を含む試験サンプルが、被験者から獲得され、核酸が、試験サンプルから抽出され、および/または精製される。本開示においては、別段の指摘がない限り、DNAとRNAは、交換可能に使用され得る。すなわち、バリアントコーリングおよび品質コントロールにおいてエラーソース情報を使用するための以下の実施形態は、DNAおよびRNAタイプ両方の核酸配列に適用可能であり得る。しかしながら、明瞭化および説明の目的で、本明細書において説明される例は、DNAに焦点を絞り得る。抽出されたサンプル内の核酸は、全ヒトゲノム、または全エクソームを含むヒトゲノムの任意のサブセットを含み得る。あるいは、サンプルは、全トランスクリプトームを含むヒトトランスクリプトームの任意のサブセットであり得る。試験サンプルは、癌を有することが知られた、または癌を有することが疑われる被験者から獲得され得る。いくつかの実施形態においては、試験サンプルは、血液、血漿、血清、尿、糞便、唾液、他のタイプの体液、またはそれらの任意の組み合わせを含み得る。あるいは、試験サンプルは、全血、血液フラクション、組織生検材料、胸膜液、心膜液、脳脊髄液、および腹水から成る群から選択される、サンプルを含み得る。いくつかの実施形態においては、血液サンプルを採取するための方法(例えば、注射器またはフィンガプリック)は、手術を必要とすることがある、組織生検材料を獲得するための手順ほどは、侵襲的でないものであり得る。抽出されたサンプルは、cfDNAおよび/またはctDNAを含み得る。健康な個人の場合、人間の体は、cfDNAおよび他の細胞残屑を自然に取り除き得る。一般に、当技術分野において知られた任意の方法が、試験サンプルから無細胞核酸を抽出し、精製するために、使用されることができる。例えば、無細胞核酸は、QIAamp循環核酸キット(QIAGEN(登録商標))などの、1つまたは複数の知られた市販のプロトコルまたはキットを使用して、抽出および精製されることができる。被験者が、癌または疾病を有する場合、抽出されたサンプル内のctDNAが、診断のために検出可能なレベルで存在し得る。
ステップ120において、シーケンシングライブラリが、準備される。ライブラリ準備中、固有分子識別子(UMI)を含むシーケンシングアダプタが、例えば、(T4もしくはT7 DNA連結酵素を使用する)アダプタライゲーション、または当技術分野において知られた他の手段を通して、核酸分子(例えば、DNA分子)に追加される。UMIは、DNAフラグメントの末端に追加される短い核酸配列(例えば4~10個の塩基対)であり、特定のDNAフラグメントを起源とする核酸(またはシーケンスリード)を同定するために使用されることができるユニークなタグとしての役割を果たす。アダプタ追加に続いて、アダプタ-核酸構築物が、例えば、ポリメラーゼ連鎖反応(PCR)を使用して増幅される。PCR増幅中、UMIは、付着させられたDNAフラグメントとともに複製され、それは、下流の分析において、同じ元のフラグメントから来たシーケンスリードを同定するための方法を提供する。任意選択で、当技術分野においてよく知られているように、シーケンシングアダプタは、ユニバーサルプライマ、(多重化のための)サンプル特異的バーコード、ならびに/または後続のクラスタ生成および/もしくはシーケンシングにおいて使用するための1つもしくは複数のシーケンシングオリゴヌクレオチド(例えば、合成によるシーケンシング(SBS)(ILLUMINA(登録商標)、カリフォルニア州、サンディエゴ)において使用するための知られたP5およびP7配列)をさらに含み得る。
ステップ130において、標的DNA配列が、ライブラリから濃縮される。一実施形態に従うと、標的濃縮中、癌(もしくは疾病)の存在もしくは非存在、癌ステータス、または癌分類(例えば、癌タイプもしくは原発組織)についての情報を提供することが知られた、または情報を提供し得る、核酸フラグメントを標的にし、プルダウンするために、(本明細書においては「プローブ」とも呼ばれる)ハイブリダイゼーションプローブが、使用される。与えられたワークフローについて、DNAまたはRNAの標的(相補)鎖に対するアニール(またはハイブリダイゼーション)を行うために、プローブが、設計され得る。標的鎖は、「プラス」鎖(例えば、mRNAに転写され、その後、タンパク質に翻訳される鎖)、または相補「マイナス」鎖であり得る。プローブは、塩基対数十個、数百個、または数千個の長さにわたり得る。一実施形態においては、プローブは、ある種の癌または他のタイプの疾病に対応することが疑われる、(例えば、人間または別の生命体の)ゲノムの特定の変異または標的領域を分析するために、遺伝子パネルに基づいて、設計される。さらに、プローブは、標的領域のオーバラップした部分をカバーし得る。当業者が容易に理解するように、当技術分野において知られた任意の手段が、標的濃縮のために使用されることができる。例えば、一実施形態においては、プローブは、プローブ捕捉された標的核酸に対する濃縮を行うために使用される、ビオチン化およびストレプトアビジンコーティングされた磁気ビーズであり得る。例えば、非特許文献1および非特許文献2を参照されたい。全ゲノムをシーケンシングすること(「全ゲノムシーケンシング」)、ゲノムのすべての発現遺伝子をシーケンシングすること(「全エクソームシーケンシング」または「全トランスクリプトームシーケンシング」)の代わりに、標的遺伝子パネルを使用することによって、方法100が、標的領域のシーケンシング深さを増やすために、使用され得、深さとは、サンプル内の与えられた標的配列がシーケンシングされた回数のカウントのことを指す。シーケンシング深さを増やすことは、サンプル内のまれな配列バリアントの検出を可能にし、および/またはシーケンシングプロセスのスループットを高める。ハイブリダイゼーションステップの後、ハイブリダイゼーションされた核酸フラグメントが、捕捉され、PCRを使用して増幅もされ得る。
図1Bは、一実施形態に従った、シーケンスリードを獲得するためのプロセスのグラフィカル表現である。図1Bは、サンプルからの核酸セグメント160の一例を示している。ここでは、核酸セグメント160は、一本鎖DNAまたは一本鎖RNAセグメントなどの、一本鎖核酸セグメントであることができる。いくつかの実施形態においては、核酸セグメント160は、二本鎖cfDNAセグメントである。例示された例は、異なるプローブによって標的にされることができる、核酸セグメント160の3つの領域165A、165B、165Cを示している。具体的には、3つの領域165A、165B、165Cの各々は、核酸セグメント160におけるオーバラップする位置を含む。例示的なオーバラップする位置は、シトシン(「C」)ヌクレオチド塩基162として、図1Bに示されている。シトシンヌクレオチド塩基162は、領域165Aの第1のエッジ付近、領域165Bの中央、および領域165Cの第2のエッジ付近において見つけられる。
いくつかの実施形態においては、プローブのうちの1つまたは複数(もしくはすべて)は、ある種の癌または他のタイプの疾病に対応することが疑われる、(例えば、人間または別の生命体の)ゲノムの特定の変異または標的領域を分析するために、遺伝子パネルに基づいて、設計される。「全エクソームシーケンシング」としても知られる、ゲノムのすべての発現遺伝子をシーケンシングすることの代わりに、標的遺伝子パネルを使用することによって、方法100が、標的領域のシーケンシング深さを増やすために、使用され得、深さとは、サンプル内の与えられた標的配列がシーケンシングされた回数のカウントのことを指す。シーケンシング深さを増やすことは、核酸サンプルの必要とされる入力量を低減させる。
1つまたは複数のプローブを使用する、核酸サンプル160のハイブリダイゼーションは、標的配列170の理解をもたらす。図1Bに示されるように、標的配列170は、ハイブリダイゼーションプローブによって標的にされた領域165のヌクレオチド塩基配列である。標的配列170は、ハイブリダイゼーションされた核酸フラグメントと呼ばれることもある。例えば、標的配列170Aは、第1のハイブリダイゼーションプローブによって標的にされた領域165Aに対応し、標的配列170Bは、第2のハイブリダイゼーションプローブによって標的にされた領域165Bに対応し、標的配列170Cは、第3のハイブリダイゼーションプローブによって標的にされた領域165Cに対応する。シトシンヌクレオチド塩基162が、ハイブリダイゼーションプローブによって標的にされた各領域165A~165C内の異なるロケーションにおいて見つけられると仮定すると、各標的配列170は、標的配列170における特定のロケーションにおいて、シトシンヌクレオチド塩基162に対応するヌクレオチド塩基を含む。
図1Bの例においては、標的配列170Aおよび標的配列170Cは、各々、標的配列170A、170Cのエッジ付近に見つけられる、(チミン「T」として示された)ヌクレオチド塩基を有する。ここでは、(例えば、シトシン塩基ではなく)チミンヌクレオチド塩基が、シトシン塩基が、その後、シーケンシングプロセス中に、チミンヌクレオチド塩基として認識される原因となる、ランダムなシトシン脱アミノ化プロセスの結果であり得る。したがって、標的配列170A、170CについてのC>T SNVは、変異が標的配列170A、170Cのエッジにおいて見つけられるので、エッジバリアントと見なされ得る。シトシン脱アミノ化プロセスは、核酸セグメント160における実際のヌクレオチド塩基対の正確な捕捉を妨げる、下流のシーケンシングアーチファクトをもたらすことがある。加えて、標的配列170Bは、標的配列170Bの中央に見つけられる、シトシン塩基を有する。ここでは、中央に見つけられるシトシン塩基は、シトシン脱アミノ化の影響をあまり受けずにいられ得る。
ハイブリダイゼーションステップの後、ハイブリダイゼーションされた核酸フラグメントが、捕捉され、PCRを使用して増幅もされ得る。例えば、標的配列170は、濃縮された配列180を獲得するために、濃縮されることができ、それは、その後、シーケンシングされることができる。いくつかの実施形態においては、各濃縮された配列180は、標的配列170から複製される。標的配列170A、170Cからそれぞれ増幅された、濃縮された配列180A、180Cも、各シーケンスリード180Aまたは180Cのエッジ付近に見つけられる、チミンヌクレオチド塩基を含む。以降本明細書において使用される場合、参照対立遺伝子(例えば、シトシンヌクレオチド塩基162)に対して変異させられた、濃縮された配列180における変異させられたヌクレオチド塩基(例えば、チミンヌクレオチド塩基)は、代替対立遺伝子と見なされる。加えて、標的配列170Bから増幅された各濃縮された配列180Bは、各濃縮された配列180Bの中央付近または中央に見つけられる、シトシンヌクレオチド塩基を含む。
ステップ140において、シーケンスリードが、濃縮された核酸分子(例えば、DNA分子)から生成される。シーケンシングデータまたはシーケンスリードは、当技術分野において知られた手段によって、濃縮された核酸分子から獲得され得る。例えば、方法100は、合成技術(ILLUMINA(登録商標))、パイロシーケンシング(454 LIFE SCIENCES)、イオン半導体技術(Ion Torrent sequencing)、単一分子リアルタイムシーケンシング(PACIFIC BIOSCIENCES(登録商標))、ライゲーションによるシーケンシング(SOLiD sequencing)、ナノポアシーケンシング(OXFORD NANOPORE TECHNOLOGIES)、またはペアードエンドシーケンシングを含む、次世代シーケンシング(NGS)技法を含み得る。いくつかの実施形態においては、超並列シーケンシングが、リバーシブルダイターミネータを用いる、合成によるシーケンシングを使用して、実行される。
様々な実施形態においては、濃縮された核酸サンプル115が、シーケンシングのために、シーケンサ145に提供される。図1Aに示されるように、シーケンサ145は、特定のタスクとのユーザ対話(例えば、シーケンシングの開始、またはシーケンシングの終了)を可能にする、グラフィカルユーザインターフェース150と、濃縮されたフラグメントサンプル、および/またはシーケンシングアッセイを実行するために必要なバッファを提供するための、1つまたは複数のローディングトレイ155とを含むことができる。したがって、ユーザがひとたび、必要な試薬および濃縮されたフラグメントサンプルを、シーケンサ145のローディングトレイ155に提供すると、ユーザは、シーケンサ145のグラフィカルユーザインターフェース150と対話することによって、シーケンシングを開始することができる。ステップ140において、シーケンサ145は、シーケンシングを実行し、核酸サンプルから濃縮されたフラグメント115のシーケンスリードを出力する。
いくつかの実施形態においては、シーケンサ145は、1つまたは複数のコンピューティングデバイス160と通信可能に結合される。各コンピューティングデバイス160は、バリアントコーリングまたは品質コントロールなど、様々な適用のために、シーケンスリードを処理することができる。シーケンサ145は、シーケンスリードを、BAMファイルフォーマットで、コンピューティングデバイス160に提供し得る。各コンピューティングデバイス160は、パーソナルコンピュータ(PC)、デスクトップコンピュータ、ラップトップコンピュータ、ノートブック、タブレットPC、またはモバイルデバイスのうちの1つであり得る。コンピューティングデバイス160は、無線、有線、または無線および有線通信技術の組み合わせを通して、シーケンサ145に通信可能に結合されることができる。一般に、コンピューティングデバイス160は、プロセッサと、プロセッサによって実行されたときに、プロセッサにシーケンスリードを処理させ、または本明細書において開示される方法もしくはプロセスのいずれかの1つもしくは複数のステップを実行させるコンピュータ命令を記憶するメモリとを備えるように構成される。
いくつかの実施形態においては、シーケンスリードは、アライメント位置情報を決定するための、当技術分野において知られた方法を使用して、基準ゲノムに対してアライメントされ得る。例えば、一実施形態においては、シーケンスリードは、ヒト基準ゲノムhg19に対してアライメントされる。ヒト基準ゲノムhg19の配列は、リファレンス番号GRCh37/hg19を用いて、ゲノムリファレンスコンソーシアムから入手可能であり、サンタクルーズゲノミクスインスティテュート(Santa Cruz Genomics Institute)によって提供されるゲノムブラウザからも入手可能である。アライメント位置情報は、与えられたシーケンスリードの開始ヌクレオチド塩基と終了ヌクレオチド塩基に対応する、基準ゲノムにおける領域の開始位置と終了位置を示し得る。アライメント位置情報は、開始位置と終了位置から決定されることができる、シーケンスリード長も含み得る。基準ゲノムにおける領域は、遺伝子または遺伝子のセグメントと関連付けられ得る。
様々な実施形態においては、例えば、ペアードエンドシーケンシングプロセスが、使用されるとき、シーケンスリードは、R1およびR2と表記されるリード対から構成される。例えば、第1のリードR1は、二重鎖DNA(dsDNA)分子の第1の末端からシーケンシングされ得、一方、第2のリードR2は、二重鎖DNA(dsDNA)の第2の末端からシーケンシングされ得る。したがって、第1のリードR1および第2のリードR2のヌクレオチド塩基対は、基準ゲノムのヌクレオチド塩基と(例えば、反対向きに)整合するようにアライメントされ得る。リード対R1およびR2から導出されたアライメント位置情報は、第1のリード(例えば、R1)の末端に対応する、基準ゲノムにおける開始位置と、第2のリード(例えば、R2)の末端に対応する、基準ゲノムにおける終了位置とを含み得る。言い換えると、基準ゲノムにおける開始位置と終了位置は、基準ゲノム内における核酸フラグメントが対応する可能性が高いロケーションを表す。SAM(配列アライメントマップ)フォーマットまたはBAM(バイナリ)フォーマットを有する出力ファイルが、図2に関して以下で説明されるように、バリアントコーリングなど、さらなる分析のために、生成および出力され得る。
III.例示的な処理システム
図2は、一実施形態に従った、シーケンスリードを処理するための処理システム200のブロック図である。処理システム200は、配列プロセッサ205と、配列データベース210と、モデルデータベース215と、機械学習エンジン220と、(例えば、「ベイズ階層モデル」または「予測癌モデル」を含む)モデル225と、パラメータデータベース230と、スコアエンジン235と、バリアントコーラ240と、エッジフィルタ250と、非同義フィルタ260とを含む。図3は、一実施形態に従った、シーケンスリードのバリアントを決定するための方法300のフローチャートである。いくつかの実施形態においては、処理システム200は、入力シーケンシングデータに基づいて、(例えば、SNVおよび/またはインデルに対する)バリアントコーリングを実行するために、方法300を実行する。さらに、処理システム200は、上で説明された方法100を使用して準備された核酸サンプルと関連付けられた出力ファイルから、入力シーケンシングデータを獲得し得る。方法300は、処理システム200のコンポーネントに関して説明される、以下のステップを含むが、それらに限定されない。他の実施形態においては、方法300の1つまたは複数のステップは、例えば、HaplotypeCaller、VarScan、Strelka、またはSomaticSniperなど、バリアントコールフォーマット(VCF)を使用する、バリアントコールを生成するための異なるプロセスのステップによって、置き換えられ得る。
ステップ300において、任意選択で、配列プロセッサ205は、入力シーケンシングデータのアライメントされたシーケンスリードをコラプスする。一実施形態においては、シーケンスリードをコラプスすることは、UMI、および任意選択で、出力ファイルのシーケンシングデータからの(例えば、図1Aに示された方法100からの)アライメント位置情報を使用して、複数のシーケンスリード(すなわち、同じ元の核酸分子に由来する複数のシーケンスリード)を同定し、コンセンサス配列にコラプスすることを含む。このステップに従うと、コンセンサス配列は、元の分子の最も可能性が高い核酸配列またはそれの部分を表す、同じ元の核酸分子に由来する複数のシーケンスリードから決定される。UMI配列は、シーケンシングライブラリのPCR増幅を通して複製されるので、配列プロセッサ205は、あるシーケンスリードが、核酸サンプルにおける同じ分子を起源とすると決定することができる。いくつかの実施形態においては、同じまたは類似のアライメント位置情報(例えば、閾値オフセット内の開始および終了位置)を有し、共通のUMIを含む、シーケンスリードは、コラプスされ、配列プロセッサ205は、核酸フラグメントを表すために、(本明細書においては、コンセンサスリードとも呼ばれる)コラプスされたリードを生成する。いくつかの実施形態においては、配列プロセッサ205は、シーケンスリードの対応する対(すなわち、R1とR2)、またはコラプスされたシーケンスリードが、起源の核酸分子のプラス鎖とマイナス鎖の両方が捕捉されたことを示す、共通のUMIを有する場合、コンセンサスリードを「二重」と指定し、それ以外の場合、コラプスされたリードは、「非二重」と指定される。いくつかの実施形態においては、配列プロセッサ205は、シーケンスリードをコラプスする代わりに、またはコラプスするのに加えて、他のタイプのエラー訂正をシーケンスリードに対して実行し得る。
ステップ305において、任意選択で、配列プロセッサ205は、対応するアライメント位置情報に基づいて、シーケンスリードまたはコラプスされたシーケンスリードをつなぎ合わせて、2つのシーケンスリードを一緒にして単一のリードセグメントにマージし得る。いくつかの実施形態においては、配列プロセッサ205は、第1のシーケンスリードと第2のシーケンスリード(またはコラプスされたシーケンスリード)の間で、アライメント位置情報を比較して、第1のリードおよび第2のリードのヌクレオチド塩基対が、基準ゲノムにおいて部分的にオーバラップするかどうかを決定する。1つの使用事例においては、第1のリードおよび第2のリードの間の(例えば、与えられた数のヌクレオチド塩基の)オーバラップが、閾値長(例えば、ヌクレオチド塩基の閾値数)よりも大きいと決定したのに応答して、配列プロセッサ205は、第1のリードおよび第2のリードを「つなぎ合わされる」として指定し、それ以外の場合、コラプスされたリードは、「つなぎ合わされない」として指定される。いくつかの実施形態においては、オーバラップが閾値長よりも大きい場合、およびオーバラップがスライドするオーバラップでない場合、第1のリードおよび第2のリードは、つなぎ合わされる。例えば、スライドするオーバラップは、ホモポリマラン(例えば、単一反復するヌクレオチド塩基)、ジヌクレオチドラン(例えば、2つのヌクレオチドが反復する塩基配列)、またはトリヌクレオチドラン(例えば、3つのヌクレオチドが反復する塩基配列)を含み得、ホモポリマラン、ジヌクレオチドラン、またはトリヌクレオチドランは、少なくとも閾値長の塩基対を有する。
ステップ310において、配列プロセッサ205は、任意選択で、2つ以上のリード、またはリードセグメントをアセンブルして、マージされたシーケンスリード(または標的領域をカバーするパス)にし得る。いくつかの実施形態においては、配列プロセッサ205は、リードをアセンブルして、標的領域(例えば、遺伝子)についての有向グラフ、例えば、ドブラン(de Bruijn)グラフを生成する。有向グラフの一方向エッジは、標的領域における(本明細書において「k-mer」とも呼ばれる)k個のヌクレオチド塩基からなる配列を表し、エッジは、頂点(またはノード)によって接続される。配列プロセッサ205は、コラプスされたリードのいずれもが、エッジと対応する頂点とのサブセットによって順番に表され得るように、コラプスされたリードを有向グラフにアライメントする。
いくつかの実施形態においては、配列プロセッサ205は、有向グラフを記述するパラメータのセットを決定し、有向グラフを処理する。加えて、パラメータのセットは、コラプスされたリードから有向グラフ内のノードまたはエッジによって表されるk-merへのアライメントに成功したk-merのカウントを含み得る。配列プロセッサ205は、例えば、配列データベース210内に、有向グラフ、および対応するパラメータのセットを記憶し、それらは、グラフを更新するために、または新しいグラフを生成するために取り出され得る。例えば、配列プロセッサ205は、パラメータのセットに基づいて、有向グラフの圧縮されたバージョンを生成し得る(または、例えば、既存のグラフを変更し得る)。1つの使用事例においては、より低いレベルの重要さを有する、有向グラフのデータをふるい落とすために、配列プロセッサ205は、閾値よりも小さいカウントを有するノードまたはエッジを削除し(例えば、「切り取り」または「刈り取り」)、閾値以上のカウントを有するノードまたはエッジを維持する。
ステップ315において、バリアントコーラ240は、シーケンスリード、コラプスされたシーケンスリード、または配列プロセッサ205によってアセンブルされたマージされたシーケンスリードから、候補バリアントを生成する。一実施形態においては、バリアントコーラ240は、シーケンスリード、コラプスされたシーケンスリード、または(ステップ310においてエッジまたはノードを刈り取ることによって圧縮されていることがある)マージされたシーケンスリードを、基準ゲノム(例えば、ヒト基準ゲノムhg19)の標的領域の参照配列と比較することによって、候補バリアントを生成する。バリアントコーラ240は、シーケンスリード、コラプスされたシーケンスリード、またはマージされたシーケンスリードのエッジを、参照配列にアライメントし得、一致しないエッジおよびエッジに隣接する一致しないヌクレオチド塩基のゲノム位置を、候補バリアントのロケーションとして記録する。いくつかの実施形態においては、左および右エッジに一致しないヌクレオチド塩基のゲノム位置が、コールされたバリアントのロケーションとして記録される。加えて、バリアントコーラ240は、標的領域のシーケンシング深さに基づいて、候補バリアントを生成し得る。特に、バリアントコーラ240は、より大きいシーケンシング深さを有する標的領域におけるバリアントを同定する際に、より確信的になり得るが、それは、例えば、より多数のシーケンスリードは、配列間におけるミスマッチまたは他の塩基対変化を(例えば、冗長さを使用して)解決する助けとなるからである。
一実施形態においては、バリアントコーラ240は、被験者(例えば、健康な被験者)からのシーケンスリードについての予想されるノイズレートを決定するために、モデル225を使用して、候補バリアントを生成する。モデル225は、ベイズ階層モデルであり得るが、いくつかの実施形態においては、処理システム200は、1つまたは複数の異なるタイプのモデルを使用する。さらに、ベイズ階層モデルは、候補バリアントを生成するために使用され得る、多くの可能なモデルアーキテクチャのうちの1つであり得、バリアントコーリングの感度または特異度を改善するために、それらすべてが位置特異的ノイズ情報をモデル化するという点で、それらは互いに関連する。より具体的には、機械学習エンジン220は、シーケンスリードの位置ごとの予想されるノイズレートをモデル化するために、健康な個人からのサンプルを使用して、モデル225をトレーニングする。
さらに、複数の異なるモデルが、モデルデータベース215内に記憶され、またはトレーニング後の適用のために取り出され得る。例えば、第1のモデルは、SNVノイズレートをモデル化するために、トレーニングされ、第2のモデルは、インデルノイズレートをモデル化するために、トレーニングされる。さらに、スコアエンジン235は、モデル225のパラメータを使用して、シーケンスリードにおける1つまたは複数の真陽性の尤度を決定し得る。スコアエンジン235は、尤度に基づいて、(例えば、対数目盛り上の)品質スコアを決定し得る。例えば、品質スコアは、フレッド品質スコアQ=-10×log10Pであり、ここで、Pは、不正確な候補バリアントコール(例えば、偽陽性)の尤度である。
ステップ320において、スコアエンジン235は、モデル225、または真陽性もしくは品質スコアの対応する尤度に基づいて、候補バリアントを得点化する。モデル225のトレーニングおよび適用は、以下でより詳細に説明される。いくつかの実施形態においては、処理システム200は、1つまたは複数の基準を使用して、候補バリアントをふるい分け得る。例えば、処理システム200は、少なくとも閾値スコアを有する(またはそれよりも小さい)候補バリアントをふるい分ける。
ステップ325において、処理システム200は、候補バリアントを出力する。いくつかの実施形態においては、処理システム200は、決定された候補バリアントのいくつかまたはすべてを、対応するスコアとともに出力する。例えば、処理システム200の外部の下流のシステム、または処理システム200の他のコンポーネントは、癌、疾病、または生殖細胞系列変異の存在を予測することを含むが、それに限定されない、様々な適用のために、候補バリアントおよびスコアを使用し得る。
図1~図3は、シーケンシングリードデータを生成し、候補バリアントまたはまれな変異コールを同定するための可能な実施形態を例示している。しかしながら、当業者が容易に理解するように、シーケンスリードまたはコンセンサス配列リードなどのシーケンシングデータを獲得し、それらから候補バリアントまたはまれな変異コールを同定するための、当技術分野において知られた他の手段が、本発明の実施形態の実施において使用されることができる(例えば、特許文献1、特許文献2、特許文献3、および特許文献4を参照)。
IV.例示的なノイズモデル
図4は、一実施形態に従った、ベイズ階層モデル225の適用の図である。変異Aおよび変異Bが、説明の目的で、例として示されている。図4の実施形態においては、変異AおよびBは、SNVとして表されているが、他の実施形態においては、以下の説明は、インデルまたは他のタイプの変異にも適用可能である。変異Aは、第1のサンプルからの第1の参照対立遺伝子の位置4における、C>T変異である。第1のサンプルは、10の第1のADと、1000の第1の合計深さとを有する。変異Bは、第2のサンプルからの第2の参照対立遺伝子の位置3における、T>G変異である。第2のサンプルは、1の第2のADと、1200の第2の合計深さとを有する。AD(またはAF)だけに基づくと、変異Aは、真陽性であるように思われ得、一方、変異Bは、偽陽性であるように思われ得るが、それは、前者のAD(またはAF)が、後者のそれよりも大きいからである。しかしながら、変異Aと変異Bは、対立遺伝子ごと、および/または対立遺伝子の位置ごとに、ノイズレートの異なる相対レベルを有し得る。実際には、これら異なる位置の相対ノイズレベルが、ひとたび考慮されると、変異Aが、偽陽性であることがあり、変異Bが、真陽性であることがある。本明細書において説明されるモデル225は、真陽性の適切な識別のために、このノイズをしかるべくモデル化する。
図4に例示された確率質量関数(PMF)は、被験者からのサンプルが位置において与えられたADカウントを有する確率(または尤度)を示す。(例えば、配列データベース210に記憶された)健康な個人のサンプルからのシーケンシングデータを使用して、処理システム200は、健康なサンプルについてのPMFがそれから導出され得る、モデル225をトレーニングする。特に、PMFは、(例えば、健康な個人の)正常組織における、対立遺伝子ごと、位置ごとの予想される平均ADカウントをモデル化した、mpと、このADカウントにおける予想される変動(例えば、分散)をモデル化した、rpとに基づく。言い換えると、mpおよび/またはrpは、正常組織についてのシーケンシングデータにおける、位置ごと、対立遺伝子ごとベースのノイズの基線レベルを表す。
さらなる例示のために図4の例を使用すると、健康な個人からのサンプルは、yiによってモデル化される人間母集団のサブセットを表し、ここで、iは、トレーニングセットにおける健康な個人のインデックスである。例のために、モデル225がすでにトレーニングされていると仮定すると、モデル225によって生成されたPMFは、各変異についての測定されたADの尤度を視覚的に例示し、したがって、どれが真陽性であり、どれが偽陽性であるかの表示を提供する。変異Aと関連付けられた図4の左の例示的なPMFは、位置4における変異について、10のADカウントを有する第1のサンプルの確率が、近似的に20%であることを示している。加えて、変異Bと関連付けられた右の例示的なPMFは、位置3における変異について、1のADカウントを有する第2のサンプルの確率が、近似的に1%であることを示している(注:図4のPMFは、必ずしも正確に目盛られていない)。したがって、PMFのこれらの確率に対応するノイズレートは、変異Bはより低いADおよびAFを有するにもかかわらず、変異Aが、変異Bよりも発生する可能性が高いことを示している。したがって、この例においては、変異Bが、真陽性であり得、変異Aが、偽陽性であり得る。したがって、処理システム200は、より正確なレートで真陽性を偽陽性から区別し、これらの尤度に関する数値的な信頼度をさらに提供するための、モデル225を使用することによって、改善されたバリアントコーリングを実行し得る。
図5Aは、一実施形態に従った、真の単一ヌクレオチドバリアントを決定するための、パラメータとベイズ階層モデル225のサブモデルとの間の依存関係を示している。モデルのパラメータは、パラメータデータベース230に記憶され得る。図5Aに示される例においては、
Figure 2023156402000002
は、各混合成分に割り当てられる重みのベクトルを表す。ベクトル
Figure 2023156402000003
は、K次元の単体内の値を取り、トレーニング中に、事後サンプリングを介して、学習または更新され得る。それは、そのようなトレーニングのために、単体上において一様事前分布を与えられ得る。位置pが属する混合成分は、1つまたは複数の異なる多項分布を使用して、潜在的変数zpによってモデル化され得る。
Figure 2023156402000004
一緒になって、潜在的変数zp、混合成分からなるベクトル
Figure 2023156402000005
、α、およびβは、μのためのモデル、すなわち、ベイズ階層モデル225のサブモデルが、ノイズについての知識を「プールする」パラメータを有することを可能にし、すなわち、それらは、複数の位置にわたるノイズ特性の類似性を表す。したがって、シーケンスリードの位置は、モデルによって、プールされ、または潜在的クラスにグループ化され得る。また、有利なことに、これらの「プールされた」位置のいずれについてのサンプルも、これらの共有されるパラメータをトレーニングする助けとなることができる。これの利益は、(例えば、モデルをトレーニングするために使用された健康な組織サンプルにおいて)与えられた位置について以前に観測された、代替対立遺伝子の直接的な証拠が僅かしかない、またはまったくない場合であっても、処理システム200が、健康なサンプルにおけるノイズのモデルを決定し得ることである。
共変量xp(例えば、プレディクタ)は、トリヌクレオチドコンテキスト、マッピング可能性、セグメント重複、反復に最も近い距離、ユニーク性、k-merユニーク性、配列の行儀の悪い領域についての警告、またはシーケンスリードと関連付けられた他の情報などの情報を含み得るが、それらに限定されない、位置pに関する知られたコンテキスト情報を符号化する。トリヌクレオチドコンテキストは、参照対立遺伝子に基づき得、数値(例えば、整数)表現を割り当てられ得る。例えば、「AAA」は、1を割り当てられ、「ACA」は、2を割り当てられ、「AGA」は、3を割り当てられるなどである。マッピング可能性は、ゲノムの特定の標的領域に対するリードのアライメントのユニーク性のレベルを表す。例えば、マッピング可能性は、シーケンスリードがユニークにマッピングする位置の数の逆数として計算される。セグメント重複は、ほぼ同一(例えば、90%よりも大きい一致)であり、(例えば、癌または疾病と関連付けられない)自然な複製イベントの結果として、ゲノム内の複数のロケーションにおいて発生する、(例えば、近似的に1000個の塩基対よりも大きい長さを有する)長い核酸配列に対応する。
位置pにおけるSNVの予想される平均ADカウントは、パラメータμpによってモデル化される。この説明を明瞭にするため、μpおよびypという語は、ベイズ階層モデル225の位置特異的なサブモデルのことを指す。一実施形態においては、μpは、形状パラメータ
Figure 2023156402000006
および平均パラメータ
Figure 2023156402000007
を有する、ガンマ分布に従う確率変数としてモデル化される。
Figure 2023156402000008
他の実施形態においては、他の関数が、μpを表すために、使用され得、それの例は、対数平均
Figure 2023156402000009
および対数標準偏差
Figure 2023156402000010
を有する対数正規分布、ワイブル分布、べき法則、指数関数的に変調されたべき法則、または前述したものの混合を含むが、それらに限定されない。
図5Aに示される例においては、形状パラメータおよび平均パラメータは、各々、共変量xpおよび潜在的変数zpに依存するが、他の実施形態においては、依存関係は、トレーニング中の情報プーリングの様々な程度に基づいて、異なり得る。例えば、モデルは、代替的に、
Figure 2023156402000011
が、潜在的変数に依存するが、共変量には依存しないように、構造化され得る。(健康な個人の)人間母集団サンプルiにおける、位置pにおけるSNVのADカウントの分布は、確率変数
Figure 2023156402000012
によってモデル化される。一実施形態においては、位置におけるサンプルの深さ
Figure 2023156402000013
を与えられた場合、分布は、ポアソン分布である。
Figure 2023156402000014
他の実施形態においては、他の関数が、
Figure 2023156402000015
を表すために、使用され得、それの例は、負の2項分布、コンウェイ-マクスウェル-ポアソン分布、ゼータ分布、およびゼロ過剰ポアソン分布を含むが、それらに限定されない。
図5Bは、一実施形態に従った、真の挿入または欠失を決定するための、パラメータとベイズ階層モデルのサブモデルとの間の依存関係を示している。図5Aに示されたSNVモデルとは対照的に、図5Bに示されたインデルについてのモデルは、異なるレベルの階層を含む。共変量xpは、位置pにおける知られたフィーチャを符号化し、例えば、ホモポリマまでの距離、RepeatMasker反復までの距離、または以前観測されたシーケンスリードと関連付けられた他の情報を含み得る。潜在的変数
Figure 2023156402000016
は、位置におけるインデル長分布を表し、共変量に基づき得る、ベクトル
Figure 2023156402000017
のパラメータに基づいて、ディリクレ分布によって、モデル化され得る。いくつかの実施形態においては、
Figure 2023156402000018
も、同じ共変量値を共有する、位置
Figure 2023156402000019
にわたって共有される。したがって、例えば、潜在的変数は、ホモポリマインデルは、アンカ位置から塩基対1つ、2つ、3つなどの位置において発生し、一方、トリヌクレオチドインデルは、アンカ位置から3つ、6つ、9つなどの位置において発生するなどといった情報を表し得る。
位置pにおける予想される平均合計インデルカウントは、分布μpによってモデル化される。いくつかの実施形態においては、分布は、共変量に基づき、形状パラメータ
Figure 2023156402000020
および平均パラメータ
Figure 2023156402000021
を有する、ガンマ分布を有する。
Figure 2023156402000022
他の実施形態においては、他の関数が、μpを表すために、使用され得、それの例は、負の2項分布、コンウェイ-マクスウェル-ポアソン分布、ゼータ分布、およびゼロ過剰ポアソン分布を含むが、それらに限定されない。
(健康な個人の)人間母集団サンプルiにおける、位置pにおける観測されるインデルは、分布
Figure 2023156402000023
によってモデル化される。図5Aにおける例と同様に、いくつかの実施形態においては、位置におけるサンプルの深さ
Figure 2023156402000024
を与えられた場合、インデルの激しさの分布は、ポアソン分布である。
Figure 2023156402000025
他の実施形態においては、他の関数が、
Figure 2023156402000026
を表すために、使用され得、それの例は、負の2項分布、コンウェイ-マクスウェル-ポアソン分布、ゼータ分布、およびゼロ過剰ポアソン分布を含むが、それらに限定されない。
インデルは可変長であり得るという事実のせいで、SNVについてのモデルには存在しない追加の長さパラメータが、インデルモデルには存在する。結果として、図5Bに示される例示的なモデルは、上で説明されたSNVモデルにはやはり存在しない、追加の階層レベル(例えば、別のサブモデル)を有する。サンプルi内の位置pにおける長さlのインデルの観測されたカウント(例えば、最大で100以上の塩基対の挿入または欠失)は、パラメータ次第のノイズ下におけるインデル分布を表す、確率変数
Figure 2023156402000027
によってモデル化される。サンプルのインデルの激しさ
Figure 2023156402000028
と、位置におけるインデル長の分布
Figure 2023156402000029
を与えられた場合、分布は、多項分布であり得る。
Figure 2023156402000030
他の実施形態においては、ディリクレ-多項式関数、または他のタイプのモデルが、
Figure 2023156402000031
を表すために、使用され得る。
この方式でモデルを構築することによって、機械学習エンジン220は、インデルの激しさ(すなわち、ノイズレート)の学習を、インデル長分布の学習から切り離し得る。健康なサンプルにおけるインデルが発生するかどうかの予想についての推論と、位置におけるインデルの長さの予想についての推論を独立に決定することは、モデルの感度を改善し得る。例えば、長さ分布は、ゲノム内の多数の位置または領域におけるインデルの激しさと比べて、より安定的であり得、またはその反対であり得る。
図6A~図6Bは、一実施形態に従った、ベイズ階層モデル225と関連付けられた図を例示している。図6Aに示されるグラフは、ノイズレートの分布μp、すなわち、モデルによって特徴付けられるような、与えられた位置についてのSNVまたはインデルの尤度(または激しさ)を示している。連続的分布は、(例えば、配列データベース210から取り出された)健康な個人からの観測された健康なサンプルのトレーニングデータに基づいた、非癌または非疾病変異(例えば、健康な組織において自然に発生する変異)の予想されるAF μpを表す。図6Aには示されていないが、いくつかの実施形態においては、μpの形状パラメータおよび平均パラメータは、共変量xpまたは潜在的変数zpなどの、他の変数に基づき得る。図6Bに示されるグラフは、与えられた位置におけるシーケンシング深さdpなどのサンプルのパラメータを与えられた場合の、被験者のサンプルについての与えられた位置におけるADの分布を示している。μpの取得の離散的確率は、予想される平均分布μpに基づいた、人間母集団の予測される真の平均ADカウントに基づいて、決定される。
図7Aは、一実施形態に従った、ベイズ階層モデル225をフィッティングすることによってパラメータを決定するための、例示的なプロセスの図である。モデルをトレーニングするために、機械学習エンジン220は、位置のセットの各位置についての予想されるノイズレートの事後分布(例えば、図6Bに示されるグラフ)から、反復的にサンプリングする。機械学習エンジン220は、サンプリングのために、マルコフ連鎖モンテカルロ(MCMC)法を、例えば、サンプリングアルゴリズムの中でもとりわけ、メトロポリス-ヘイスティングス(MH)アルゴリズム、カスタムMHアルゴリズム、ギブスサンプリングアルゴリズム、ハミルトニアン力学ベースのサンプリング、ランダムサンプリングを使用し得る。ベイズ推論トレーニング中、モデルのすべての(またはいくつかの)パラメータおよび潜在的変数(例えば、
Figure 2023156402000032
、zp
Figure 2023156402000033
Figure 2023156402000034
、μpなど)を反復的に更新するために、パラメータが、結合事後分布から取得される。
一実施形態においては、機械学習エンジン220は、μpの取得、位置ごと、サンプルごとのAFの予想される平均カウントを、パラメータデータベース230に記憶することによって、モデルフィッティングを実行する。モデルは、先に説明されたように、事後サンプリングを通して、トレーニングまたはフィッティングされる。一実施形態においては、μpの取得は、サンプリングされた位置のセットのうちの位置別の行と、(例えば、観測されたデータ次第のすべてのパラメータの)結合事後分布からの取得別の列と有する、行列データ構造内に記憶される。行の数Rは、600万よりも大きくなり得、サンプルのN回の反復に対する列の数は、数千になり得る。他の実施形態においては、行および列の指定は、図7Aに示される実施形態とは異なり、例えば、各行は、事後サンプルからの取得を表し、各列は、サンプリングされた位置を表す(例えば、図7Aに示される行列例の転置)。
図7Bは、一実施形態に従った、ベイズ階層モデル225からのパラメータを使用して、偽陽性の尤度を決定する図である。機械学習エンジン220は、図7Aに示されるR行N列の行列を、図7Bに例示されるR行2列の行列に縮小し得る。一実施形態においては、機械学習エンジン220は、事後サンプルμpにわたって、位置ごとに、分散パラメータrp(例えば、形状パラメータ)、および(平均レートパラメータmpと呼ばれることもある)平均パラメータmpを決定する。分散パラメータrpは、
Figure 2023156402000035
として決定され得、ここで、mpおよびvpは、それぞれ、位置におけるμpのサンプリングされた値の平均および分散である。最尤推定など、rpを決定するための他の関数も使用され得ることを、当業者は理解されよう。
機械学習エンジン220は、平均パラメータを与えられた場合、縮小された行列において、分散パラメータの分散再推定も実行し得る。一実施形態においては、ベイズトレーニングおよび事後近似に続いて、機械学習エンジン220は、位置ごとの負の2項分布最尤推定量に基づいた、分散パラメータ
Figure 2023156402000036
のための再トレーニングによって、分散再推定を実行する。平均パラメータは、再トレーニング中、固定されたままであり得る。一実施形態においては、機械学習エンジン220は、トレーニングデータ(例えば、健康なサンプルに基づいた
Figure 2023156402000037
および
Figure 2023156402000038
)の元のADカウントについての、各位置における分散パラメータr’pを決定する。機械学習エンジン220は、
Figure 2023156402000039
を決定し、
Figure 2023156402000040
を縮小された行列に記憶する。モーメント法推定量、事後平均、または事後最頻値など、
Figure 2023156402000041
を決定するための他の関数も使用され得ることを、当業者は理解されよう。
トレーニングされたモデルの適用中、処理システム200は、
Figure 2023156402000042
およびmpによってパラメータ化された関数を決定するために、分散(例えば、形状)パラメータ
Figure 2023156402000043
および平均パラメータmpにアクセスし得る。関数は、被験者の新しいサンプルについて、事後予測確率質量関数(または確率密度関数)を決定するために、使用され得る。与えられた位置におけるあるADカウントの予測される確率に基づいて、処理システム200は、サンプルから真陽性を検出するとき、シーケンスリードの位置ごとの部位特異的ノイズレートを考慮し得る。図4に関して説明された例示的な使用事例を再び参照すると、変異AおよびBについて示されたPMFは、図7Bの縮小された行列からのパラメータを使用して、決定され得る。事後予測確率質量関数は、ある位置においてADカウントを有する変異AまたはBについてのサンプルの確率を決定するために、使用され得る。
V.ノイズモデルのための例示的なプロセスフロー
図8は、一実施形態に従った、ベイズ階層モデル225をトレーニングするための方法800のフローチャートである。ステップ810において、機械学習エンジン220は、シーケンスリードのデータベース(例えば、配列データベース210)から、サンプル、例えば、トレーニングデータを収集する。ステップ820において、機械学習エンジン220は、マルコフ連鎖モンテカルロ法を使用して、サンプルを使用して、ベイズ階層モデル225をトレーニングする。トレーニング中、モデル225は、トレーニングデータ次第のシーケンスリードを保持または拒絶し得る。機械学習エンジン220は、閾値よりも小さい深さ値、または閾値頻度よりも大きいAFを有する、健康な個人のシーケンスリードを排除し得る。シーケンスリードにおいて標的ノイズを示さない疑わしい生殖細胞系列変異を除去するために、他の実施形態においては、機械学習エンジン220は、どの位置が生殖細胞系列バリアントを含む可能性が高いかを決定し、上述のような閾値を使用して、そのような位置を選択的に排除し得る。一実施形態においては、機械学習エンジン220は、そのような位置を、生殖細胞系列頻度(例えば、0、1/2、および1)から、AFの小さい平均絶対偏差を有するとして識別し得る。
ベイズ階層モデル225は、モデルに含まれる複数(またはすべて)の位置について、パラメータを同時に更新し得る。加えて、モデル225は、各ALTについての予想されるノイズをモデル化するために、トレーニングされ得る。例えば、SNVについてのモデルは、A、T、C、およびG塩基の各々の他の3つの塩基の各々への変異についてのパラメータ(例えば、1対1置換)を更新するために、トレーニングプロセスを4回以上実行し得る。ステップ830において、機械学習エンジン220は、ベイズ階層モデル225のパラメータ(例えば、マルコフ連鎖モンテカルロ法によって出力されたアンサンブルパラメータ)を記憶する。ステップ840において、機械学習エンジン220は、パラメータに基づいて、位置ごとに、(例えば、分散パラメータおよび平均パラメータによって表される)ノイズ分布を近似する。ステップ850において、機械学習エンジン220は、ベイズ階層モデル225をトレーニングするために使用された、サンプル(例えば、トレーニングデータ)からの元のADカウントを使用して、分散再推定(例えば、最尤推定)を実行する。
図9は、一実施形態に従った、偽陽性の尤度を決定するための方法900のフローチャートである。ステップ910において、処理システム200は、個人から獲得されたcfDNAサンプルから獲得され得る、シーケンスリードのセットからの、例えば、シーケンスリードの位置pにおける、候補バリアントを同定する。ステップ920において、処理システム200は、候補バリアントの位置pに基づき得る、候補バリアントに特異的なパラメータ、例えば、それぞれ、分散パラメータ
Figure 2023156402000044
および平均レートパラメータmpにアクセスする。パラメータは、与えられたシーケンスリードの観測された深さ、および位置pにおける平均パラメータμpを入力として用いる、事後予測分布を表すモデル、例えば、ベイズ階層モデル225を使用して、導出され得る。一実施形態においては、平均パラメータμpは、トレーニングサンプルについての位置pに関するヌクレオチド変異のノイズレベルを符号化した、ガンマ分布である。
ステップ930において、処理システム200は、シーケンスリードのセットのリード情報(例えば、ADまたはAF)を、パラメータ、例えば、
Figure 2023156402000045
およびmpによってパラメータ化された、(例えば、負の2項分布に基づいた)関数に入力する。ステップ940において、処理システム200(例えば、スコアエンジン235)は、入力されたリード情報に基づいた関数の出力を使用して、(例えば、位置pにおける)候補バリアントについてのスコアを決定する。スコアは、(例えば、被験者からの)与えられたサンプルについて、(例えば、モデルおよび関数の出力によって決定された)候補バリアントの決定された対立遺伝子カウント以上である、対立遺伝子カウントを見る尤度を示し得る。処理システム200は、尤度をフレッドスケールのスコアに変換し得る。いくつかの実施形態においては、処理システム200は、尤度が閾値よりも小さいと決定したのに応答して、偽陽性変異を決定するために、尤度を使用する。いくつかの実施形態においては、処理システム200は、シーケンスリードのサンプルが、個人の腫瘍生検材料からのシーケンスリードに見つけられる、遺伝子に対応する少なくとも閾値カウントの対立遺伝子を含むと決定するための関数を使用する。この決定に応答して、処理システム200は、バリアントコールに基づいて、個人における癌細胞の存在を予測し得る。いくつかの実施形態においては、処理システム200は、品質スコアに基づいて、重み付けを実行し、偽発見方法のために、候補バリアントおよび品質スコアを使用し、品質スコアを用いて、推定コールに注釈を付け、または後続システムに供給し得る。
処理システム200は、下流の分析のために、与えられたトレーニングサンプルに関するヌクレオチド変異のノイズレベルを符号化する関数を使用し得る。いくつかの実施形態においては、処理システム200は、サンプル、例えば、cfDNAまたはgDNA内の特定の核酸位置についての予想されるノイズを決定するために、分散パラメータ
Figure 2023156402000046
および平均レートパラメータmpによってパラメータ化された、上述の負の2項分布関数を使用する。さらに、処理システム200は、特定の核酸サンプルと関連付けられたトレーニングデータを使用して、ベイズ階層モデル225をトレーニングすることによって、パラメータを導出し得る。以下の実施形態は、ベイズ階層モデル225の出力を使用し得る、本明細書においてジョイントモデル225と呼ばれる、別のタイプのモデルについて説明する。
VI.例示的なジョイントモデル
図10は、一実施形態に従った、ジョイントモデル225を使用して、無細胞核酸(例えば、cfDNA)サンプルおよびゲノム核酸(例えば、gDNA)サンプルを処理するための方法1000のフローチャートである。ジョイントモデル225は、cfDNAおよびgDNAの核酸の位置とは独立であり得る。方法1000は、図8~図9に示された方法800および/または900と併せて、実行され得る。例えば、方法800および900は、健康なサンプルからのトレーニングデータのcfDNAおよびgDNAサンプルに関して、ヌクレオチド変異のノイズを決定するために実行される。図11は、一実施形態に従った、ジョイントモデルの適用の図である。方法1000のステップが、図11を参照して、以下で説明される。
ステップ1010において、配列プロセッサ205は、被験者のcfDNAサンプルから獲得されたシーケンスリードからの核酸の様々な位置について、深さおよびADを決定する。cfDNAサンプルは、被験者からの血漿のサンプルから収集され得る。ステップ1010は、図1Aに示される方法100の先に説明されたステップを含み得る。
ステップ1020において、配列プロセッサ205は、同じ被験者のgDNAサンプルから獲得されたシーケンスリードからの核酸の様々な位置について、深さおよびADを決定する。gDNAは、被験者からの白血球細胞または腫瘍生検材料から収集され得る。ステップ1020は、図1Aに示される方法100の先に説明されたステップを含み得る。
VI.A.ジョイントモデルの例示的な信号
ステップ1030において、ジョイントモデル225は、cfDNAについての観測されたADをモデル化することによって、被験者のcfDNAサンプルの「真の」AFの尤度を決定する。一実施形態においては、ジョイントモデル225は、cfDNAのシーケンスリードから観測された深さと、cfDNAサンプルの真のAFとによってパラメータ化された、ポアソン分布関数を使用して、(やはり図11に示される)被験者のcfDNAにおいて、与えられたADを観測する確率をモデル化する。深さと真のAFとの積は、cfDNAの平均予想AFを表す、ポアソン分布関数のレートパラメータであり得る。
P(ADcfDNA|depthcfDNA,AFcfDNA)~Poisson(depthcfDNA×AFcfDNA)+noisecfDNA
ノイズ成分noisecfDNAは、以下のセクションVI.B.ジョイントモデルの例示的なノイズにおいて、さらに説明される。他の実施形態においては、他の関数が、ADcfDNAを表すために使用され得、それの例は、負の2項分布、コンウェイ-マクスウェル-ポアソン分布、ゼータ分布、およびゼロ過剰ポアソン分布を含むが、それらに限定されない。
ステップ1040において、ジョイントモデル225は、gDNAについての観測されたADをモデル化することによって、被験者のgDNAサンプルの「真の」AFの尤度を決定する。一実施形態においては、ジョイントモデル225は、gDNAのシーケンスリードから観測された深さと、gDNAサンプルの真のAFとによってパラメータ化された、ポアソン分布関数を使用して、(やはり図11に示される)被験者のgDNAにおいて、与えられたADを観測する確率をモデル化する。ジョイントモデル225は、gDNAおよびcfDNAの真のAFの尤度をモデル化するために、同じ関数を使用し得るが、パラメータ値は、被験者の対応するサンプルから観測された値に基づいて、異なる。
P(ADgDNA|depthgDNA,AFgDNA)~Poisson(depthgDNA×AFgDNA)+noisegDNA
ノイズ成分noisegDNAは、以下のセクションVI.B.ジョイントモデルの例示的なノイズにおいて、さらに説明される。他の実施形態においては、他の関数が、ADgDNAを表すために使用され得、それの例は、負の2項分布、コンウェイ-マクスウェル-ポアソン分布、ゼータ分布、およびゼロ過剰ポアソン分布を含むが、それらに限定されない。
cfDNAの真のAF、およびgDNAの真のAFは、特定の被験者のバイオロジの生得的な特性であるので、どちらかのソースからの真のAFの正確な値を決定することは、必ずしも実用的でないことがある。さらに、ノイズの様々なソースも、真のAFの推定値に不確実さを導入する。したがって、ジョイントモデル225は、被験者からの観測されたデータ(例えば、深さおよびAD)、ならびに対応するノイズパラメータ次第の真のAFの事後分布を決定するために、数値的な近似を使用する。
Figure 2023156402000047
ジョイントモデル225は、事前分布、例えば、一様分布を用いる、ベイズの定理を使用して、事後分布を決定する。cfDNAおよびgDNAのために使用される事前分布は、同じ(例えば、0から1までの範囲の一様分布)で、互いに独立であり得る。
一実施形態においては、ジョイントモデル225は、cfDNAのサンプルからの観測されたデータの固定されたセットを与えられた場合、パラメータ、cfDNAの真のAFを変化させることによって、尤度関数を使用して、cfDNAの真のAFの事後分布を決定する。加えて、ジョイントモデル225は、gDNAのサンプルからの観測されたデータの固定されたセットを与えられた場合、パラメータ、gDNAの真のAFを変化させることによって、別の尤度関数を使用して、gDNAの真のAFの事後分布を決定する。cfDNAおよびgDNAの両方について、ジョイントモデル225は、負の2項分布(NB)をフィッティングすることによって、出力された事後分布を数値的に近似する。
Figure 2023156402000048
一実施形態においては、ジョイントモデル225は、計算スピードの改善を提供し得る、負の2項分布についての以下のパラメータを使用して、数値的な近似を実行する。
Figure 2023156402000049
ここで、
Figure 2023156402000050
である。観測されたデータは、cfDNAとgDNAとの間で異なるので、cfDNAの負の2項分布について決定されたパラメータは、gDNAの負の2項分布について決定されたそれらとは異なる。
ステップ1050において、バリアントコーラ240は、尤度を使用して、cfDNAサンプルの真のAFが、gDNAサンプルの真のAFの関数よりも大きい確率を決定する。関数は、1つまたは複数のパラメータ、例えば、パラメータデータベース230に記憶され、図12~図13を参照してさらに詳細に説明される、経験的に決定されるkおよびpの値を含み得る。確率は、cfDNAのシーケンスリードからの少なくともいくつかのヌクレオチド変異が、参照組織のシーケンスリードにおいて見つけられない、信頼レベルを表す。バリアントコーラ240は、下流の分析のために、この情報を他のプロセスに提供し得る。例えば、高い確率は、被験者のcfDNAのシーケンスリードからの、gDNAのシーケンスリードにおいて見つからない、ヌクレオチド変異が、被験者内の癌の腫瘍または他のソースを起源とし得ることを示す。対照的に、低い確率は、cfDNAにおいて観測されたヌクレオチド変異が、おそらく、被験者の潜在的な癌細胞または他の疾患細胞を起源としないことを示す。代わりに、ヌクレオチド変異は、とりわけ、生殖細胞系列変異、クローン造血(血液細胞DNAのサブ母集団を形成するユニークな変異)、モザイク現象、化学療法または変異原性処理、技術的アーチファクトなどの要因が原因の、健康な個人において自然に発生する変異に帰され得る。
一実施形態においては、バリアントコーラ240は、1つまたは複数のパラメータ(例えば、以下で説明されるkおよびp)に基づいて、事後確率が選択された基準を満たすと決定する。cfDNAおよびgDNAの配列を与えられた場合、バリアントの分布は、条件付きで独立である。すなわち、バリアントコーラ240は、cfDNAまたはgDNAサンプルの一方に存在するALTおよびノイズが、他方のサンプルのそれらによって影響されず、その逆も成り立つと推定する。したがって、バリアントコーラ240は、両方のソースからの観測されたデータおよびノイズパラメータを与えられた場合、cfDNAのある真のAFおよびgDNAのある真のAFの両方を観測する確率を決定する際に、ADの予想される分布の確率を独立事象と見なす。
Figure 2023156402000051
図11における例示的な3Dプロットにおいては、確率P(AFcfDNA,AFgDNA)は、AFcfDNA値とAFgDNA値のペアについての3D輪郭としてプロットされる。AFcfDNA軸とAFgDNA軸に沿った3D輪郭プロットの例示的な2Dスライスは、輪郭プロットの体積が、AFcfDNAの値と比べてより大きいAFgDNAの値に向かって歪められることを例示している。他の実施形態においては、輪郭プロットは、異なるように歪められ、または図11に示される例とは異なる形を有し得る。ジョイント尤度を数値的に近似するために、配列プロセッサ205は、P(AFcfDNA,AFgDNA)の3D輪郭と、図11のプロットに示される点線によって例示される境界線とによって定められる体積を計算し得る。配列プロセッサ205は、kパラメータの値に従って、境界線の傾きを決定し、境界線は、原点と交わる。kパラメータの値は、決定された真のAFにおける許容誤差を考慮し得る。特に、許容誤差は、生殖細胞系列変異、クローン造血、(図13を参照して以下でさらに説明される)ヘテロ接合性の消失、および上で説明されたような他のソースなど、健康な個人において自然に発生する変異をカバーし得る。3D輪郭は、境界線によって分割されるので、cfDNAサンプルから検出されたバリアントの少なくとも一部は、潜在的に、gDNAサンプルから検出されたバリアントに帰され得、一方、バリアントの別の部分は、潜在的に、癌の腫瘍または他のソースに帰され得る。
一実施形態においては、配列プロセッサ205は、与えられた基準を満たすジョイント尤度の部分を決定することによって、与えられた基準が事後確率によって満足されると決定する。与えられた基準は、kおよびpパラメータに基づき得、ここで、pは、比較のための閾値確率を表す。例えば、配列プロセッサ205は、cfDNAの真のAFがk倍されたgDNAの真のAF以上である事後確率、および事後確率がpよりも大きいかどうか、すなわち、
P(AFcfDNA≧k×AFgDNA)>p
であるかどうかを決定し、ここで、
Figure 2023156402000052
である。上記の式に示されるように、配列プロセッサ205は、cfDNAの真のAFの尤度の累積和FcfDNAを決定する。さらに、配列プロセッサ205は、gDNAの真のAFの尤度関数上において積分を行う。別の実施形態においては、配列プロセッサ205は、gDNAの真のAFの尤度についての累積和を決定し得、cfDNAの真のAFの尤度関数上において積分を行う。cfDNAおよびgDNAについての両方の尤度上において、2重積分を計算する代わりに、2つの尤度のうちの一方の累積和を計算する(例えば、累積分布関数を作り上げる)ことによって、配列プロセッサ205は、ジョイント尤度が基準を満たすかどうかを決定するのに必要とされる、(計算時間または他の同様のメトリックに関して表現される)計算リソースを低減させ、事後確率の計算の精度も高め得る。
VI.B.ジョイントモデルの例示的なノイズ
cfDNAおよびgDNAサンプルにおけるノイズによって導入される、真のAFの推定値におけるノイズを考慮するために、ジョイントモデル225は、図4~図9に関して先に説明された、処理システム200の他のモデルを使用し得る。一実施形態においては、P(ADcfDNA|depthcfDNA,AFcfDNA)およびP(ADgDNA|depthgDNA,AFgDNA)についての上記の式に示されるノイズ成分は、候補バリアント(例えば、SNVまたはインデル)に特異的であり得る、ベイズ階層モデル225を使用して決定される。さらに、ベイズ階層モデル225は、ヌクレオチド変異の特定の位置またはインデル長の範囲にわたって、候補バリアントをカバーし得る。
一例においては、ジョイントモデル225は、cfDNAの真のAFについてのノイズレベルを決定するために、cfDNA特異的なパラメータによってパラメータ化された関数を使用する。cfDNA特異的なパラメータは、例えば、健康な個人からの、cfDNAサンプルのセットを用いてトレーニングされた、ベイズ階層モデル225を使用して、導出され得る。加えて、ジョイントモデル225は、gDNAの真のAFについてのノイズレベルを決定するために、gDNA特異的なパラメータによってパラメータ化された別の関数を使用する。gDNA特異的なパラメータは、例えば、同じ健康な個人からの、gDNAサンプルのセットを用いてトレーニングされた、別のベイズ階層モデル225を使用して、導出され得る。一実施形態においては、関数は、平均パラメータmおよび分散パラメータ
Figure 2023156402000053
を有する、負の2項分布関数であり、トレーニングサンプルからのシーケンスリードの観測された深さにも依存し得る。
Figure 2023156402000054
他の実施形態においては、配列プロセッサ225は、異なるタイプの関数、ならびにcfDNAおよび/またはgDNAについてのパラメータのタイプを使用し得る。cfDNA特異的なパラメータとgDNA特異的なパラメータは、トレーニングデータの異なるセットを使用して導出されるので、パラメータは、互いに異なり、それぞれのタイプの核酸サンプルに特有であり得る。例えば、cfDNAサンプルは、gDNAサンプルよりも大きいAFの変動を有し得、したがって、
Figure 2023156402000055
は、
Figure 2023156402000056
よりも大きくなり得る。図8、図9、および図10に関して上で説明された方法は、様々な実施形態において、図1Aに示されるコンピューティングデバイス160などの、コンピュータ上において実行される。
VII.ジョイントモデルについての例
以下の図に示される例示的な結果は、1つまたは複数のトレーニングされたジョイントモデル225を使用して、処理システム100によって決定された。様々な実施形態においては、結果は、図に示されるように、2つの研究「研究A」および「研究B」の一方において被験者から獲得された循環無細胞DNA(cfDNA)サンプルからのターゲットシーケンシングデータからのバリアントを評価およびコールするために、GRAIL(GRAIL, Inc.、カリフォルニア州メンロパーク)のプロプライエタリ508癌遺伝子パネルを利用した、ターゲットシーケンシングアッセイを使用して、生成された。研究Aは、(癌と診断されない)50人の健康な被験者から獲得された血漿サンプル、ならびに前転移性乳がんおよび前転移性非小細胞肺がんを有する被験者の各々からの50のサンプルからのシーケンシングデータを含んだ。研究Bは、124人の癌患者(転移性乳がん(MBC)を有する39人の被験者、非小細胞肺がん(NSCLC)を有する41人の被験者、および去勢抵抗性前立腺がん(CRCP)を有する44人の被験者から獲得された血漿サンプルからの評価可能なシーケンシングデータを含んだ。
全血が、健康な個人および癌患者から、STRECK採血管(BCT(登録商標))に採取され、血漿と軟膜とに分離され、-80℃で保存された。無細胞DNA(cfDNA)が、改良されたQIAmp循環核酸キット(QIAGEN(登録商標)、メリーランド州ジャーマンタウン)を使用して、血漿から抽出され、フラグメントアナライザ高感度NGSキット(ADVANCED ANALYTICAL TECHNOLOGIES(登録商標)、アイオワ州Akneny)を使用して、定量化された。シーケンシングライブラリが、改良されたIllumina TruSeq DNAナノプロトコル(ILLUMINA(登録商標);カリフォルニア州サンディエゴ)を用いて抽出されたcfDNAから準備された。ライブラリ準備プロトコルは、上で説明されたような、エラー訂正のために使用される固有分子識別子(UMI)を含む、シーケンシングアダプタのアダプタライゲーションを含んだ。シーケンシングライブラリは、フラグメントアナライザ標準感度NGSキットを使用して、PCR増幅および定量化された。
定量化されたDNAライブラリは、508癌関連遺伝子を標的にするGRAILのプロプライエタリリサーチパネル(GRAIL, Inc.、カリフォルニア州メンロパーク)を用いて、ハイブリダイゼーションベースの捕捉を経験した。標的DNA分子は、最初に、ビオチン化一本鎖DNAハイブリダイゼーションプローブを使用して捕捉され、次に、磁気ストレプトアビシンビーズを使用して濃縮された。非標的分子は、後続の洗浄ステップを使用して除去された。濃縮されたライブラリは、60000Xの公称未加工標的カバレッジで、HiSeq X試薬キットv2.5(ILLUMINA(登録商標);カリフォルニア州サンディエゴ)を使用して、HiSex X上においてシーケンシングされた。フローセル当たり4つのライブラリが、プールされ、デュアルサンプルインデキシングリードを可能にするために、デュアルインデキシングプライマミックスが、含まれた。リード長は、リード1、リード2、インデックスリード1、およびインデックスリード2に対して、それぞれ、150、150、8、および8に設定された。リード1およびリード2における最初の6つの塩基リードは、UMI配列であった。
VII.A.ジョイントモデルのための例示的なパラメータ
図12は、一実施形態に従った、健康な個人からのサンプルにおけるバリアントの観測されたカウントの図である。各データ点は、個人のうちの与えられた1人の(核酸位置の範囲にわたる)位置に対応する。ジョイント尤度計算のためにジョイントモデル225によって使用されるパラメータkおよびpは、健康な個人からのcfDNAおよびgDNAサンプルのセットと、癌を有することが知られているサンプルとの交差検証を行うことによって、(例えば、感度閾値を調整するために)経験的に選択され得る。図12に示される例示的な結果は、cfDNAについては血漿サンプルを、gDNAについては白血球細胞サンプルを使用して、研究Bによって獲得された。k(図12に示される「k0」)およびpについての与えられたパラメータ値に対して、図は、対応するサンプルについての偽陽性の計算された信頼上限(UCB)を表す、バリアントの平均数をプロットしている。図は、pの値が増加するにつれて、偽陽性の数が減少することを示している。加えて、プロットされた曲線は、kのより低い値、例えば、1.0により近い値に対して、より多数の偽陽性を有する。点線は、1つのバリアントのターゲットを示すが、経験的な結果は、1.0から5.0の間のkの値、および0.5から1.0の間のpの値について、偽陽性の平均数は、ほとんど、バリアント1つ~5つの範囲内に入ることを示す。
パラメータの選択は、(例えば、kおよびpを使用して調整される)ターゲット感度と、ターゲットエラー(例えば信頼上限)との間のトレードオフを含み得る。kおよびp値の与えられたペアについて、偽陽性の対応する平均数は、値的に同様であり得るが、感度値は、より大きい分散を示し得る。いくつかの実施形態においては、感度は、特異度の測定に使用され得るcfDNAについてのPPAとは異なり、腫瘍についての陽性一致率(PPA)値を使用して測定される。
Figure 2023156402000057
上記の式において、「tumor」は、パラメータのセットを使用して、ctDNAサンプルからの平均バリアントコールの数を表し、「cfDNA」は、同じパラメータのセットを使用して、対応するcfDNAサンプルからの平均バリアントコールの数を表す。
一実施形態においては、ジョイントモデル225をトレーニングするために使用されたシーケンスリードと異なる、(与えられたタイプの組織についての)シーケンスリードに対する、ジョイントモデル225の予想されるフィットを推定するために、交差検証が実行される。例えば、シーケンスリードは、肺がん、前立腺がん、および乳がんなどを有する組織から獲得され得る。任意の与えられたタイプの癌組織に対するジョイントモデル225の過剰フィットを回避する、またはその程度を低減させるために、癌組織のタイプのセットのうちのサンプルを使用して導出されたパラメータ値が、使用されて、異なるタイプの癌組織を有することが知られた他のサンプルの統計的な結果を評価する。例えば、肺がんおよび前立腺がん組織についてのパラメータ値が、乳がん組織を有するサンプルに適用される。いくつかの実施形態においては、感度を最大化する、肺がんおよび前立腺がん組織データからの1つまたは複数の最低のk値が、選択されて、乳がんサンプルに適用される。パラメータ値は、偽陽性のターゲット平均数からの閾値偏差、またはサンプル当たり最大で3の95% UCBなど、他の制約を使用しても選択され得る。処理システム200は、癌特異的なパラメータのセットを交差検証するために、複数のタイプの組織を巡回し得る。
図13は、一実施形態に従った、ジョイントモデル225についての例示的なパラメータの図である。kについてのパラメータ値は、gDNAサンプルにおいて観測されたAFの関数として、決定され得、特定のタイプの癌組織、例えば、例示されたような、乳、肺、または前立腺に基づいて、変化し得る。曲線1310は、乳がんおよび前立腺がん組織についてのパラメータ値を表し、曲線1320は、肺がん組織についてのパラメータ値を表す。これまでの例は、kおよびpを、一般的に、これらのパラメータが固定された実施を参照して、説明したが、実際には、kおよびpは、gDNAサンプルにおいて観測されたAFの任意の関数として変化し得る。図13に示される例においては、関数は、例えば、1/3の、ヒンジ値(またはより低い閾値)を有する、ヒンジ損失関数である。具体的には、関数は、ヒンジ値以上のAFgDNA値について、kが、事前決定された上限閾値、例えば、3に等しいことを指定する。ヒンジ値よりも小さいAFgDNA値については、対応するk値は、AFgDNAとともに変調する。図13の例は、具体的には、1/3よりも小さいAFgDNA値についてのk値は、癌組織のタイプの間で変化し得る、係数(例えば、線形関係のケースにおいては傾き)に従って、AFgDNAに比例し得ることを例示している。他の実施形態においては、ジョイントモデル225は、2乗損失、ロジスティック損失、交差エントロピ損失など、別のタイプの損失関数を使用することができる。
ジョイントモデル225は、kについての固定された値が、それらのイベントを正確に捕捉および区分けしない、非腫瘍または疾病関連の影響を防ぐために、ヒンジ損失関数または別の関数に従って、kを変更し得る。ヒンジ損失関数の例は、特に、ヘテロ接合性の消失(LOH)イベントを扱うことを目標にする。LOHイベントは、遺伝子のコピーが個人の親の一方から失われているときに発生する、生殖細胞系列変異である。LOHイベントは、gDNAサンプルの観測されたAFのかなりの部分の原因となり得る。k値をヒンジ損失関数の事前決定された上限閾値までに制限することによって、ジョイントモデル225は、ほとんどのシーケンスリードにおいて真陽性を検出するためのより大きい感度を達成し得、同時に、さもなければ、LOHの存在のせいで、真陽性としてフラグを立てられた偽陽性の数もコントロールする。他の実施形態においては、kおよびpは、例えば、ターゲット母集団またはシーケンシングアッセイを有する、与えられた関心がある適用に固有のトレーニングデータに基づいて、選択され得る。
いくつかの実施形態においては、ジョイントモデル225は、低AF候補バリアントを過少に重み付けすることを防ぐために、gDNAサンプルのAFとgDNAサンプルの品質スコアの両方を考慮する。図3、図4、および図9を参照して先に説明されたように、ノイズモデルについてのスコアエンジン235によって生成された品質スコアは、フレッドスケールでエラーの確率を推定するために、使用され得る。加えて、ジョイントモデル225は、ヒンジ関数についての変更された区分的関数を使用し得る。例えば、区分的関数は、2つ以上の追加の成分を含む。1つの成分は、gDNAサンプルのAFに基づいた、線形関数であり、別の成分は、gDNAサンプルの品質スコアに基づいた、指数関数である。品質スコア閾値および最大AFスケーリング係数kmaxを与えられた場合、ジョイントモデル225は、区分的関数の指数関数成分を使用して、
Figure 2023156402000058
を決定する。上記の計算において、P(not error)は、gDNAサンプルの対立遺伝子がエラーではない確率であり、P(error)は、gDNAサンプルの対立遺伝子がエラーである確率であり、P(error)minは、エラーの最小確率である。エラーレートについての最小閾値は、gDNAサンプルの対立遺伝子のおそらくは体細胞候補バリアントと、おそらくは生殖細胞系列候補バリアントとの間の、品質スコア密度についての交点として、経験的に決定され得る。
VII.B.ジョイントモデルの例示的なバリアントコール
図14A~図14Bは、一実施形態に従った、ジョイントモデルによって決定されるバリアントコールの図である。図14Aに示される例示的な結果は、研究A、および早期癌によって影響されていることが知られたサンプルを使用して、獲得された。図14Bに示される例示的な結果は、研究B、および末期癌によって影響されていることが知られたサンプルを使用して、獲得された。図14A~図14Bにおけるプロットは、gDNAについての観測されたAFを表す共通のx軸を共有する。さらに、プロットは、cfDNAとgDNAのサンプルの観測されたAFの比の分散は、早期癌についてよりも、末期がんについての方が大きいことを示している。バリアントコーラ240は、AFcfDNAとAFgDNAのデータ点の対について、事後確率P(AFcfDNA≧k×AFgDNA)を決定し、ここで、プロットの勾配は、確率の範囲を表す。各データ点は、個人における(例えば、与えられた核酸位置についての)候補cfDNAバリアントを表し、プロットは、データセット内の複数の個人についてのデータ点を含む。例示された実施形態においては、事後確率は、8.00よりも大きい比、0.00391よりも小さいAFgDNA値については、1.0により近く、一方、事後確率は、0.25に接近する比については、0.0により近い。
図15は、一実施形態に従った、ジョイントモデル225によって決定される確率密度の図である。図15に示される例示的な結果は、0に等しいgDNAの観測されたAFを有する、乳、肺、および前立腺組織サンプルからのシーケンスリードを使用して、決定された。図15は、特定の実施にかかわらず、ジョイントモデル225についてのいくつかの一般的なポイントを例示している。ALTが観測されない(AFgDNA=0)、またはgDNAにおいて少数のALTが観測されるようなケースにおいては、処理システム200は、対応するcfDNAサンプルにおいて観測されるALTのソースに関して、低い信頼レベルを有し得る。これらの状況は、背景ノイズ、またはgDNAサンプルの低い深さが原因で、発生し得る。配列プロセッサ205は、gDNAサンプルのALTの必ずしもすべてを検出し得ないので、観測されたAFgDNA=0のときであっても、cfDNAのシーケンスリードは、偽陽性をまだ含み得る。加えて、ジョイントモデル225は、AFgDNAを、ノイズを有する分布としてモデル化し、そのため、真のAFgDNAは、尤度の非ゼロ値上の分布としてモデル化され得る。結果として、これらの条件においては、バリアントコーラ240は、ALTのソースの低い信頼度のせいで、例えば、観測されたALTがgDNAを起源とするか、それとも癌または疾患細胞を起源とするかが不確実であるせいで、cfDNAサンプルにおいて観測されるALTをふるい落とし得る。一実施形態においては、バリアントコーラ240は、図15において点線によって例示されるように、閾値確率よりも小さい確率を有するデータ点をふるい落とす。
VII.C.ジョイントモデルの例示的な陽性一致率
図16は、一実施形態に従った、ジョイントモデル225の感度および特異度の図である。バリアントコーラ240は、研究AおよびBにおいて、健康なサンプル、ならびに乳がん、肺がん、および前立腺がんを有することが知られたサンプルを用いて、感度(例えば、PPAtumor)および特異度(例えば、PPAcfDNA)測定値を決定する。経験的な閾値を使用して獲得された例示的な結果と比較して、ジョイントモデル225を使用して獲得された例示的な結果は、肺組織サンプルを使用する研究AのPPAtumorについて、感度の僅かな低下、例えば、0.14から0.12への低下を示している。しかしながら、ジョイントモデル225の結果は、肺組織サンプルを使用する研究AのPPAcfDNAについて、特異度のより大きい増加、例えば、0.12から0.22への増加を示している。
VII.D.ジョイントモデルを使用した例示的な検出遺伝子
図17は、一実施形態に従った、ジョイントモデル225を使用したターゲットシーケンシングアッセイから検出された遺伝子のセットの図である。セットは、クローン造血中に普通に変異させられた遺伝子を含む。配列プロセッサ205は、研究AおよびBにおける結果、ならびに乳がん、肺がん、および前立腺がんを有すると知られたサンプルを決定する。試験「閾値X」および「ジョイントモデルX」は、非同義変異を含まず、一方、試験「閾値Y」および「ジョイントモデルY」は、非同義変異を含む。ジョイントモデル225を使用して獲得された例示的な結果は、経験的な閾値を使用して検出されたカウントと比較して、様々なタイプの組織のサンプルからの検出された生殖細胞系列変異の(図17~図19に示されるように、x軸上に「n」として示される)カウントを低減させる。例えば、研究Bについての肺がんのグラフによって例示されるように、「閾値X」および「閾値Y」は、それぞれ、5および6の検出されたTET2遺伝子のカウントをもたらす。「ジョイントモデルX」および「ジョイントモデルY」は、それぞれ、2および3の検出されたTET2遺伝子のカウントをもたらし、それは、ジョイントモデル225が改善された感度を提供することを示す。
図18は、一実施形態に従った、ジョイントモデル225を使用してターゲットシーケンシングアッセイから検出された図17に示された遺伝子のセットの長さ分布の図である。一般に、腫瘍または疾患細胞を起源とする核酸フラグメントは、参照対立遺伝子を起源とするそれらよりも(例えば、ヌクレオチドの)短い長さを有する。研究Bについての乳がんサンプルのボックスプロット結果に示されるように、TET2遺伝子についての検出されたALTと参照対立遺伝子との間の長さの中央値の差は、「閾値X」および「閾値Y」の両方について、近似的にゼロである。対照的に、TET2遺伝子についての検出されたALTと参照対立遺伝子との間の長さの中央値の差は、「ジョイントモデルX」および「ジョイントモデルY」の両方について、近似的に-5である。したがって、バリアントコーラ240は、検出されたALTは、参照対立遺伝子の代わりに、潜在的に腫瘍または疾患細胞を起源とすると、より大きい信頼度で決定し得る。さらに、例示的な結果は、ジョイントモデル225が、変化するノイズレベルを有するサンプルにおいて、シーケンスリードの短いフラグメントのバリアントコールを実行することができることを示す。
図19は、一実施形態に従った、ジョイントモデル225を使用してターゲットシーケンシングアッセイから検出された遺伝子の別のセットの図である。例示的な結果は、ジョイントモデル225のドライバ遺伝子を検出するための感度が、モデルを使用しないフィルタのそれに匹敵することを示す。すなわち、ジョイントモデル225は、経験的な閾値を使用して獲得された結果と比べて、検出されたドライバ遺伝子を著しく過剰にはふるい分けない。
VIII.ジョイントモデルの例示的な調整
図20は、一実施形態に従った、無細胞核酸(例えば、cfDNA)サンプルおよびゲノム核酸(例えば、gDNA)サンプルを処理するために、ジョイントモデル225を調整するための方法2000のフローチャートである。方法2000は、図8~図10に示された方法800、方法900、および/もしくは方法1000、または別の類似の方法と併せて、実行され得る。例えば、方法1000は、方法2000のステップ2010のための確率を決定するために、ジョイントモデル255を使用して、実行される。図20~図22に関して説明される例は、gDNAサンプルのソースとして、被験者の血液(例えば、白血球細胞)に言及するが、他の実施形態においては、gDNAは、異なるタイプの生物学的サンプルからのものであり得ることが留意されるべきである。処理システム200は、cfDNAサンプルにおける候補バリアントをふるい分ける、または処理するための決定木として、方法2000の少なくとも一部を実施し得る。例えば、処理システム200は、候補バリアントがgDNAサンプルと関連付けられる可能性が高いかどうか、または関連付けが不確実かどうかを決定する。関連付けは、(例えば、生殖細胞系列変異、クローン造血、アーチファクト、エッジバリアント、HLA-Aなどのヒト白血球抗原などの要因に起因する)gDNAサンプルにおける変異によりバリアントが考慮されることができ、したがって、おそらくは腫瘍由来ではなく、癌または疾病を示していないことを示し得る。方法2000は、いくつかの実施形態においては、図20と関連して説明されたものとは異なるステップもしくは追加のステップを含み得、または図20と関連して説明された順序とは異なる順序で、ステップを実行し得る。
VIII.A.ジョイントモデルの例示的な品質スコアおよび比
ステップ2010において、配列プロセッサ205は、cfDNAサンプルの真の代替頻度が、gDNAサンプルの真の代替頻度の関数よりも大きい確率を決定する。ステップ2010は、図10に示された方法1000の先に説明されたステップ1050に対応し得る。
ステップ2020において、配列プロセッサ205は、確率が閾値確率よりも小さいかどうかを決定する。例として、閾値確率は、0.8であり得るが、しかしながら、実際には、閾値確率は、(例えば、望ましいフィルタリング厳密さに基づいて決定される)0.5から0.999の間の任意の値であり得、静的もしくは動的であり得、遺伝子によって変化し得、および/または位置もしくは他のマクロ要因によって設定され得るなどする。確率が閾値確率以上であると決定したのに応答して、配列プロセッサ205は、候補バリアントが、被験者の白血球細胞を含む血液採取などのgDNAサンプルとおそらく関連付けられないと、すなわち、血液由来ではないと決定する。例えば、候補バリアントは、一般に、健康な個人についてのgDNAサンプルのシーケンスリード内には存在しない。したがって、バリアントコーラ240は、候補バリアントを、癌または疾病と潜在的に関連付けられる、例えば、潜在的に腫瘍由来である、真陽性としてコールし得る。
ステップ2030において、配列プロセッサ205は、gDNAサンプルの代替深さが、有意にゼロと同じか、それともゼロと異なるかを決定する。例えば、配列プロセッサ205は、図3、図4、および図9を参照して先に説明されたように、ノイズモデル225を使用してスコアエンジン235によって決定された、候補バリアントの品質スコアを使用して、評価を実行する。配列プロセッサ205は、代替深さを閾値深さと比較することもし得、例えば、代替深さが、閾値深さ以下であるかどうかを決定する。例として、閾値深さは、0または1リードであり得る。gDNAサンプルの代替深さは、有意にゼロと異なると決定したのに応答して、配列プロセッサ205は、候補バリアントが、癌または疾病によって引き起こされたのではないヌクレオチド変異と関連付けられることの肯定的な証拠が存在すると決定する。例えば、候補バリアントは、健康な白血球細胞のシーケンスリードにおいて一般に発生し得る変異に基づいた、血液由来のものである。
gDNAサンプルの代替深さは、有意に非ゼロではないと決定したのに応答して、配列プロセッサ205は、候補バリアントが、gDNAサンプルとおそらく関連付けられると決定するが、以下で説明されるような、スコアエンジン235によるさらなるチェックなしには、候補バリアントのソースの決定を行わない。言い換えると、配列プロセッサ205は、候補バリアントが血液由来か、それとも腫瘍由来かについては、不確かであり得る。いくつかの実施形態においては、配列プロセッサ205は、代替深さとの比較のために、複数の閾値深さのうちの1つを選択し得る。選択は、処理されるサンプルのタイプ、ノイズレベル、信頼レベル、または他の要因に基づき得る。
ステップ2040において、スコアエンジン235は、gDNAサンプルのシーケンスリードのgDNA深さ品質スコアを決定する。一実施形態においては、スコアエンジン235は、gDNAサンプルの代替深さを使用して、gDNA深さ品質スコアを計算し、ここで、Cは、弱い事前分布を使用して、gDNA深さ品質スコアを平滑化するための、事前決定された定数(例えば、2)であり、それは、ゼロによる除算を回避する。
Figure 2023156402000059
ステップ2050において、スコアエンジン235は、gDNAサンプルのシーケンスリードの比を決定する。比は、処理されるサンプルにおける、観測されたcfDNA頻度と観測されたgDNA頻度を表し得る。一実施形態においては、スコアエンジン235は、cfDNAサンプルおよびgDNAサンプルの深さおよび代替深さを使用して、比を計算する。
Figure 2023156402000060
スコアエンジン235は、弱い事前分布によって比を平滑化するために、事前決定された定数C1、C2、C3、およびC4を使用し得る。例として、定数は、C1=2、C2=4、C3=2、およびC4=4であり得る。したがって、スコアエンジン235は、比の分母における深さまたは代替深さの一方がゼロに等しい場合、ゼロによる除算を回避し得る。したがって、スコアエンジン235は、比をある値、例えば、1または0.5に導くために、事前決定された定数を使用し得る。
ステップ2060において、配列プロセッサ205は、gDNA深さ品質スコアが、閾値スコア(例えば、1)以上であるかどうか、また比が、閾値比(例えば、6)よりも小さいかどうかを決定する。gDNA深さ品質スコアが閾値スコアよりも小さい、または比が閾値比以上であると決定したのに応答して、配列プロセッサ205は、候補バリアントのgDNAサンプルとの関連付けに関して、不確実な証拠が存在すると決定する。言い換えると、候補バリアントは、「ブラディシュ(bloodish)」に思えるが、対応する変異が健康な血液細胞において見つけられた明確な証拠が存在しないので、配列プロセッサ205は、候補バリアントが血液由来か、それとも腫瘍由来かについて不確かであり得る。
ステップ2070において、gDNA深さ品質スコアが閾値スコア以上であり、比が閾値比よりも小さいと決定されたのに応答して、配列プロセッサ205は、候補バリアントが、gDNAサンプルのヌクレオチド変異とおそらく関連付けられると決定する。言い換えると、配列プロセッサ205は、対応する変異が健康な血液細胞において見つけられたことの明確な証拠は存在しないが、候補バリアントは、標準よりも「ブラディア(bloodier)」に思えると決定する。
したがって、配列プロセッサ205は、比およびgDNA深さ品質スコアを使用して、ジョイントモデル225を調整し、ある候補バリアントが、偽陽性としてふるい落とされるべきか(例えば、最初は腫瘍由来と予測されたが、実際には血液由来であるか)、真陽性であるか、それとも不十分な証拠または信頼性のせいで、どちらかの区分に分類するか不確かであるかを決定する際に、より大きい粒度を提供し得る。例えば、方法2000の結果に基づいて、配列プロセッサ205は、ジョイントモデル225のヒンジ損失関数のためのパラメータのうちの1つまたは複数(例えば、kパラメータ)を変更し得る。いくつかの実施形態においては、配列プロセッサ205は、方法2000の1つまたは複数のステップを使用して、候補バリアントを、異なる区分に、例えば、(例えば、図21A~図21Bに示されるように)gDNAとの関連付けが「明確」、「可能性が高い」、または「不確か」に割り当てる。
VIII.B.例示的な決定木
様々な実施形態においては、処理システム200は、図20に示された方法2000のフローチャートを参照して説明されるステップに加えて、1つまたは複数のフィルタを使用して、候補バリアントを処理する。配列プロセッサ205は、決定木の一部として、配列において、フィルタを実施し得、配列プロセッサ205は、例えば、与えられた候補バリアントが、基準のうちの少なくとも1つを満たして、ふるい分けられたために、与えられた候補バリアントが、決定木を「出る」まで、フィルタの基準をチェックし続ける。ふるい分けられた候補バリアントは、(例えば、白血球細胞gDNAと関連付けられた)健康な個人において自然に発生する、またはプロセスエラーに起因する、変異のソースまたは原因によって、候補バリアントが、考慮されることができることを示し得る。
いくつかの実施形態においては、配列プロセッサ205は、シーケンスリードについての品質スコアが存在しないと決定したのに応答して、cfDNAサンプルのシーケンスリードの候補バリアントをふるい分ける。スコアエンジン235は、図3、図4、および図9を参照して先に説明されたような、ノイズモデル225を使用して、候補バリアントについての品質スコアを決定し得る。スコアエンジン235は、塩基アライメントを用いずに、品質スコアを決定し得る。いくつかの実施形態においては、品質スコアは、ジョイントモデル225についてのトレーニングデータの不足、または与えられた候補バリアントについての有益なパラメータを生成できない貧弱なトレーニングデータのせいで、いくつかのサンプルまたは候補バリアントについて、見当たらないことがある。例えば、シーケンスリードにおける高いノイズレベルは、有益なトレーニングデータの利用不可能性をもたらし得る。スコアエンジン235は、単一のバリアントが処理されるかどうか、または配列プロセッサ205がターゲットパネルに対してコントロールしているかどうかに基づいて、ジョイントモデル225の特異性および選択性を調整し得る。他の例として、配列プロセッサ205は、候補バリアントが、エッジバリアントアーチファクトである、閾値よりも小さい(例えば、200シーケンスリードの)cfDNA深さを有する、閾値よりも小さい(例えば、60の)cfDNA品質スコアを有する、またはヒト白血球抗原(HLA)、例えば、HLA-Aに対応すると決定したのに応答して、候補バリアントをふるい分ける。HLA-Aと関連付けられる配列は、アライメントするのが難しいことがあるので、配列プロセッサ205は、これらの領域における配列に対して、カスタムフィルタリング、またはバリアントコーリングプロセスを実行し得る。
いくつかの実施形態においては、配列プロセッサ205は、生殖細胞系列変異と関連付けられると決定された候補バリアントをふるい分ける。配列プロセッサ205は、候補バリアントが、与えられた生殖細胞系列変異イベントに対応する適切な頻度で発生し、生殖細胞系列イベントと関連付けられることが知られた(例えば、ヌクレオチド配列における)特定の1つまたは複数の位置に存在すると決定することによって、候補バリアントが生殖細胞系列であると決定し得る。加えて、配列プロセッサ205は、gDNA頻度の点推定を決定し得、ここで、Cは、定数(例えば、0.5)である。
Figure 2023156402000061
配列プロセッサ205は、pointafDNAが、閾値点推定閾値(例えば、0.3)よりも大きいと決定したのに応答して、候補バリアントが生殖細胞系列であると決定し得る。いくつかの実施形態においては、配列プロセッサ205は、局所配列反復と関連付けられたバリアントの数が、閾値よりも大きいと決定したのに応答して、候補バリアントをふるい分ける。例えば、「AAAAAA」または「ATATATAT」局所配列反復は、局所エラーレートの増加を引き起こす、ポリメラーゼスリップの結果であり得る。
VIII.C.調整されたジョイントモデルについての例
図21Aは、一実施形態に従った、cfDNAサンプルの候補バリアントの例示的なカウントの表である。図21A~図21Bおよび図22における例示的なデータは、図33A~図33Cを参照して以下で説明される、無細胞ゲノム研究の個人のサンプルセットから獲得されたシーケンスリードを使用して、生成された。cfDNAサンプルは、癌または別のタイプの疾病を有することが知られた個人からのサンプルを含む。図21Aに示される例においては、処理システム200は、図20の方法2000を使用して、候補バリアントのうちの23805は、gDNAに「明確に」関連付けられ(例えば、生殖細胞系列変異または血液におけるクローン造血によって占められ)、候補バリアントのうちの1360は、gDNAに「おそらく」関連付けられる(例えば、「ブラディア」または閾値信頼レベルよりも大きい)ことを決定する。したがって、処理システム200は、これらの候補バリアントを、例えば、これらの候補バリアントが血液由来として分類されるように、ジョイントモデル225または別のパイプラインからふるい落とし得る。処理システム200は、2607の「不確かな」(例えば、「ブラディシュ」)候補バリアントのカウントを、腫瘍由来としても、血液由来としても区分けしないと決定し得る。したがって、例えば、方法2000からのgDNA比およびgDNA深さ品質スコアを使用して、ジョイントモデル225を調整することによって、処理システム200は、候補バリアントのソースを分類する際の粒度(例えば、信頼度の異なるレベル)を改善する。図21Bは、一実施形態に従った、健康な個人からのcfDNAサンプルの候補バリアントの例示的なカウントの表である。図21A~図21Bに示される例示的なカウントは、200リードの閾値深さ、(例えば、フレッドスケールでの)60の閾値品質スコア、生殖細胞系列変異頻度閾値からの0.005の平均2乗偏差を有する対応する位置における品質スコア、0.3のgDNA頻度の閾値点推定、0.05の閾値アーチファクト再発レート、7の閾値局所配列反復カウント、0.8の(例えば、cfDNAサンプルの真の代替頻度がgDNAサンプルの真の代替頻度の関数よりも大きい)閾値確率、0の閾値gDNA深さ、1の閾値gDNA深さ品質スコア、および6の閾値gDNAサンプル比を使用して、処理システム200によって決定された。さらに、処理システム200は、品質スコアを有さない候補バリアント、体細胞バリアント、およびHLA-A領域をふるい落とした。
図22は、一実施形態に従った、cfDNAとgDNAの比に基づいてプロットされた候補バリアントの図である。被験者の多数のプロットされた候補バリアントの各々について、x軸の値は、gDNAサンプルにおいて観測されたAFを表し、y軸は、被験者の対応するcfDNAサンプルにおいて観測されたAFを表す。図22に示される例は、図13に例示された曲線1310または曲線1320などのヒンジ関数を使用する、ジョイントモデル225によって合格させられた、候補バリアントを含む。この例示的なデータ、および上で列挙されたパラメータについて、処理システム200は、相対的に高いAFcfDNA対AFgDNA比を有する、プロットの左に向かう×印として示される、候補バリアントのクラスタは、白血球細胞において自然に発生するヌクレオチド変異と関連付けられない可能性が高く、したがって、腫瘍由来と予測されると決定する。点線2220は、1:1のAFcfDNA対AFgDNA比を表す、基準線である。ヒンジ関数は、点線のグラフ2210によって表され、それは、必ずしも直線ではないことがある(例えば、1つまたは複数のヒンジで接続された複数の線分を含み得る)。円として示された候補バリアントのクラスタは、相対的により低いAFcfDNA対AFgDNA比を有するが、(例えば、候補バリアントのいくつかは、2210よりも上にプロットされるので)2210によって表されるヒンジ関数を使用するとき、ジョイントモデル225によって依然として合格させられた。しかしながら、これらの候補バリアントのいくつかは、実際には、gDNA、例えば、血液由来と関連付けられることがあり、腫瘍由来とコールされる代わりに、ふるい落とされるべきである。点線2200は、×印で示されたデータ点のクラスタにおいて、ロバストフィット回帰を使用して決定される、回帰直線である。回帰直線2200を使用して、ヒンジ関数を調整することによって、ジョイントモデル225は、実際には血液由来であり得る候補バリアントのより多くを、ふるい落とすことができる。いくつかの実施形態においては、2200、2210、および2220は、各々、原点(0,0)と交差する。処理システム200は、(×印と円タイプの候補バリアントのクラスタの間に一般に見つけられる)三角形として示される候補バリアントのクラスタが、血液由来か、それとも腫瘍由来かについては、不確かな証拠しか存在しないと決定する。
これらの候補バリアントを捉える正確性を改善するために、処理システム200は、図20を参照して上で説明されたような、フィルタを使用し得る。さらに、処理システム200は、ある条件下では、ヒンジ関数のためのより積極的なパラメータを使用することによって、ジョイントモデル225を調整し得る。例えば、処理システム200は、健康なサンプルの血液におけるヌクレオチド変異の支持的な証拠である、gDNAサンプルのADが、閾値深さ(例えば、0)よりも大きいと決定したのに応答して、(例えば、図20に示される方法2000のステップ2020のために)より大きい確率閾値を使用する。いくつかの実施形態においては、処理システム200は、より大きい確率閾値を使用する、変更されたヒンジ関数(または真陽性と偽陽性を分類するための別のタイプの関数)を決定する。例えば、変更された関数は、図22における斜め点線に沿って、クラスタの少なくともいくつかの候補バリアントをふるい落とす、(例えば、図13の曲線1310および1320と比べて)よりシャープなカットオフを有し得る。処理システム200は、方法2000のステップ2040およびステップ2050においてそれぞれ決定されるような、gDNAサンプル品質スコアまたは比を使用して、変更された関数も調整し得る。
IX.例示的なエッジフィルタリング
IX.A.アーチファクトおよび非エッジバリアントからのフィーチャの例示的なトレーニング分布
図23Aは、一実施形態に従った、トレーニングバリアントを使用して、アーチファクト分布および非アーチファクト分布を生成するプロセスを示している。エッジフィルタ250は、以前のサンプル(例えば、トレーニングサンプル)からのトレーニングデータ2305を使用して、トレーニングプロセス2300中に、アーチファクト分布2340および非アーチファクト分布2345を生成する。ひとたび生成されると、アーチファクト分布2340および非アーチファクト分布2345は、各々、後の必要とされる時の取り出しのために、(例えば、モデルデータベース215に)記憶されることができる。
トレーニングデータ2305は、濃縮された配列180から獲得されたシーケンスリードなど、様々なシーケンスリードを含む(図1Bを参照)。トレーニングデータ2305におけるシーケンスリードは、ゲノム上の様々な位置に対応することができる。様々な実施形態においては、トレーニングデータ2305におけるシーケンスリードは、2つ以上のトレーニングサンプルから獲得される。
エッジフィルタ250は、トレーニングデータ2305におけるシーケンスリードを、アーチファクトトレーニングデータ2310A区分、参照対立遺伝子トレーニングデータ2330区分、または非アーチファクトトレーニングデータ2310B区分のうちの1つに区分けする。様々な実施形態においては、アーチファクトトレーニングデータ2310A区分、参照対立遺伝子トレーニングデータ2330区分、または非アーチファクトトレーニングデータ2310B区分のいずれかに配置されるための基準を、シーケンスリードが満たしていないと決定したのに応答して、トレーニングデータ2305におけるシーケンスリードは、「結果なし」または「分類なし」区分に区分けされることもできる。
図23Aに示されるように、複数のグループのアーチファクトトレーニングデータ2310A、複数のグループの参照対立遺伝子トレーニングデータ2330、および複数のグループの非アーチファクトトレーニングデータ2310Bが、存在し得る。一般に、グループ内にあるシーケンスリードは、ゲノム内の共通の位置を横断する(位置に重なる)。様々な実施形態においては、グループ内のシーケンスリードは、単一のトレーニングサンプル(例えば、1人の個人から獲得されたトレーニングサンプル)に由来し、ゲノム内の共通の位置を横断する。例えば、M人の異なる個人から獲得されたM個の異なるトレーニングサンプルからのシーケンスリードを与えられた場合、M個の異なるグループが、存在することができ、各々は、M個の異なるトレーニングサンプルのうちの1つからのシーケンスリードを含む。以降の説明は、ゲノム上の共通の位置を横断するシーケンスリードのグループに言及するが、説明は、さらに、ゲノム上の他の位置を横断するシーケンスリードの他のグループに拡張されることができる。
ゲノム上の共通の位置に対応するシーケンスリードは、1)参照対立遺伝子と異なる位置にヌクレオチド塩基(例えば、ALT)を含むシーケンスリードと、2)参照対立遺伝子と一致する位置にヌクレオチド塩基を含むシーケンスリードとを含む。図1Bを再び参照すると、シーケンスリードは、ALT(例えば、濃縮された配列180Aまたは180Cにおけるチミン)を含む濃縮された配列180から獲得されることができ、または参照対立遺伝子(例えば、濃縮された配列180Bにおけるシトシン)を含むことができる。
エッジフィルタ250は、ALTを含むシーケンスリードを、アーチファクトトレーニングデータ2310Aまたは非アーチファクトトレーニングデータ2310Bの一方に区分けする。具体的には、1つまたは複数の基準を満たすシーケンスリードは、アーチファクトトレーニングデータ2310Aとして区分けされる。基準は、ALTの変異のタイプと、シーケンスリードにおけるALTのロケーションとの組み合わせであることができる。変異のタイプの例を参照すると、アーチファクトトレーニングデータとして区分けされるシーケンスリードは、シトシンからチミンへの(C>T)ヌクレオチド塩基置換、またはグアニンからアデニンへの(G>A)ヌクレオチド塩基置換のどちらかである代替対立遺伝子を含む。代替対立遺伝子のロケーションの例を参照すると、代替対立遺伝子は、シーケンスリードのエッジからの塩基対の閾値数より小さい。一実施形態においては、塩基対の閾値数は、ヌクレオチド塩基対25個であるが、閾値数は、実施によって変化し得る。
図23Bは、一実施形態に従った、アーチファクトトレーニングデータ2310A区分に区分けされるシーケンスリードを示している。加えて、シーケンスリードの各々は、1つまたは複数の基準を満たす。例えば、各シーケンスリードは、C>Tヌクレオチド塩基置換である、代替対立遺伝子2375Aを含む。加えて、各シーケンスリードにおける代替対立遺伝子2375Aは、閾値エッジ距離2360よりも小さいエッジ距離2350Aに見つけられる。
非アーチファクトトレーニングデータ2310B区分に区分けされる、代替対立遺伝子を有するシーケンスリードは、アーチファクトトレーニングデータ2310Aとして区分けされる基準を満たさない、代替対立遺伝子を有する他のすべてのシーケンスリードである。例えば、C>TまたはG>Aヌクレオチド塩基置換の一方ではない代替対立遺伝子を含む、いずれのシーケンスリードも、非エッジトレーニングバリアントとして区分けされる。別の例として、ヌクレオチド変異のタイプにかかわらず、シーケンスリードのエッジから閾値数の塩基対よりも大きいところに見つけられる代替対立遺伝子を含む、いずれのシーケンスリードも、非アーチファクトトレーニングデータ2310Bとして区分けされる。一実施においては、塩基対の閾値数は、ヌクレオチド塩基対25個であるが、閾値数は、実施によって変化し得る。
図23Cは、一実施形態に従った、非アーチファクトトレーニングデータ2310B区分に区分けされるシーケンスリードを示している。ここでは、シーケンスリードの各々は、両方の基準を満たさない代替対立遺伝子2375Bを含む。例えば、各代替対立遺伝子2375Bは、代替対立遺伝子2375Bのロケーションにかかわらず、非C>Tまたは非G>Aヌクレオチド塩基置換のどちらかであることができる。別の例として、各代替対立遺伝子2375Bは、C>TまたはG>Aヌクレオチド塩基置換であるが、閾値エッジ距離2360よりも大きいエッジ距離2350Bのところに見つけられる。
ここで参照対立遺伝子トレーニングデータ2330区分を参照すると、参照対立遺伝子を含むシーケンスリードは、参照対立遺伝子トレーニングデータ2330区分に区分けされる。図23Dは、一実施形態に従った、参照対立遺伝子トレーニングデータ2330区分に区分けされる、ゲノム内の同じ位置に対応するシーケンスリードを示している。例として、図23Dに示されるシーケンスリードは、各々、(図1Bに示されるシトシンヌクレオチド塩基162に一致する)参照対立遺伝子2380を含む。加えて、参照対立遺伝子2380を含むこれらのシーケンスリードは、参照対立遺伝子とシーケンスリードのエッジとの間のエッジ距離2350Cにかかわらず、参照対立遺伝子トレーニングデータ2330に区分けされる。
図23Aに戻ると、エッジフィルタ250は、アーチファクトトレーニングデータ2310A、非アーチファクトトレーニングデータ2310B、および参照対立遺伝子トレーニングデータ2330の各々に区分けされるシーケンスリードのグループから、フィーチャを抽出する。シーケンスリードの各グループは、ゲノム内の同じ位置に対応する。具体的には、アーチファクトフィーチャ2320および非アーチファクトフィーチャ2325が、アーチファクトトレーニングデータ2310A、非アーチファクトトレーニングデータ2310B、および参照対立遺伝子トレーニングデータ2330のうちの1つ、2つ、または3つすべてにおけるシーケンスリードから、抽出される。アーチファクトフィーチャ2320および非アーチファクトフィーチャ2325の例は、エッジからの統計的距離フィーチャ、有意性スコアフィーチャ、および対立遺伝子フラクションフィーチャを含む。これらのフィーチャの各々は、図23E~図23Gに関連して、以下でさらに詳細に説明される。
図23Eは、一実施形態に従った、エッジからの統計的距離フィーチャを抽出するためのプロセスの例示的な図である。ここでは、エッジフィルタ250は、アーチファクトトレーニングデータ2310Aにおけるシーケンスリードのグループと、非アーチファクトトレーニングデータ2310Bにおけるシーケンスリードのグループから、それぞれ、エッジからのアーチファクト統計的距離2322Aフィーチャとエッジからの非アーチファクト統計的距離2322Bフィーチャを抽出する。各エッジからの統計的距離2322Aおよび2322Bフィーチャは、シーケンスリードにおける代替対立遺伝子2375と、シーケンスリードの対応するエッジとの間の距離(例えば、ヌクレオチド塩基対の数)の平均、中央値、または最頻値を表すことができる。より具体的には、エッジからのアーチファクト統計的距離2322Aは、アーチファクトトレーニングデータ2310Aのグループ内のシーケンスリードにわたる、エッジ距離2350A(図23Bを参照)の組み合わせを表す。同様に、エッジからの非アーチファクト統計的距離2322Bは、アーチファクトトレーニングデータ2310Bのグループ内のシーケンスリードにわたる、エッジ距離2350B(図23Cを参照)の組み合わせを表す。
図23Fは、一実施形態に従った、有意性スコアフィーチャを抽出するためのプロセスの例示的な図である。エッジフィルタ250は、アーチファクトトレーニングデータ2310Aにおけるシーケンスリードのグループと、参照対立遺伝子トレーニングデータ2330におけるシーケンスリードのグループの組み合わせから、アーチファクト有意性スコア2323Aフィーチャを抽出する。同様に、エッジフィルタ250は、非アーチファクトトレーニングデータ2310Bにおけるシーケンスリードのグループと、参照対立遺伝子トレーニングデータ2330におけるシーケンスリードのグループの組み合わせから、非アーチファクト有意性スコア2323Bフィーチャを抽出する。一般に、アーチファクトトレーニングデータ2310A、非アーチファクトトレーニングデータ2310B、および参照対立遺伝子トレーニングデータ2330からのシーケンスリードのグループは、ゲノムにおける共通の位置に対応する。したがって、各位置について、その位置についてのアーチファクト有意性スコア2323Aおよび非アーチファクト有意性スコア2323Bが、存在することができる。以降の説明は、アーチファクト有意性スコア2323Aを抽出するプロセスに言及するが、同じ説明が、非アーチファクト有意性スコア2323Bを抽出するプロセスに適用される。
アーチファクト有意性スコア2323Aフィーチャは、アーチファクトトレーニングデータ2310Aにおけるシーケンスリードのグループにおける(例えば、シーケンスリードのエッジからの距離または別の尺度に関する)代替対立遺伝子2375Aのロケーションが、参照対立遺伝子トレーニングデータ2330におけるシーケンスリードのグループにおける参照対立遺伝子2380のロケーションと、統計的に有意な程度、十分に異なるかどうかの表現である。具体的には、アーチファクト有意性スコア2323Aは、アーチファクトトレーニングデータ2310Aにおける代替対立遺伝子2375Aのエッジ距離2350A(図23Bを参照)と、参照対立遺伝子トレーニングデータ2330における参照対立遺伝子2380のエッジ距離2350C(図23Dを参照)との間の比較である。
様々な実施形態においては、エッジフィルタ250は、エッジ距離の間の比較について、統計的有意性テストを実行する。一例として、統計的有意性テストは、ウィルコクソン順位和検定である。ここで、エッジフィルタ250は、アーチファクトトレーニングデータ2310Aにおける各シーケンスリードと、参照対立遺伝子トレーニングデータ2330における各シーケンスリードに、それぞれ、各エッジ距離2350Aおよび2350Cの大きさに応じて、順位を割り当てる。例えば、最も大きいエッジ距離2350Aまたは2350Cを有するシーケンスリードは、最も高い順位(例えば、順位=1)を割り当てられることができ、2番目に大きいエッジ距離2350Aまたは2350Cを有するシーケンスリードは、2番目に高い順位(例えば、順位=2)を割り当てられることができ、以降も同様である。エッジフィルタ250は、アーチファクトトレーニングデータ2310Aにおける代替対立遺伝子2375のロケーションが、参照対立遺伝子トレーニングデータ2330Aにおける参照対立遺伝子2380のロケーションと有意に異なるかどうかを決定するために、アーチファクトトレーニングデータ2310Aにおけるシーケンスリードの中央値順位を、参照対立遺伝子トレーニングデータ2330におけるシーケンスリードの中央値順位と比較する。例として、中央値順位の間の比較は、中央値順位が有意に異なるかどうかに関する統計的優位性スコアを表す、p値をもたらすことができる。様々な実施形態においては、アーチファクト有意性スコア2223Aは、フレッドスコアによって表され、それは、
フレッドスコア=-10log10
として表現されることができ、ここで、Pは、p値スコアである。要するに、低いアーチファクト有意性スコア2323Aは、中央値順位の差が、統計的に有意ではないことを表し、一方、高いアーチファクト有意性スコア2323Aは、中央値順位の差が、統計的に有意であることを表す。
図23Gは、一実施形態に従った、対立遺伝子フラクションフィーチャを抽出するためのプロセスの例示的な図である。対立遺伝子フラクションフィーチャとは、代替対立遺伝子2375Aまたは2375Bの対立遺伝子フラクションのことを指す。具体的には、アーチファクト対立遺伝子フラクション2324Aとは、代替対立遺伝子2375A(図23Bを参照)の対立遺伝子フラクションのことを指し、一方、非アーチファクト対立遺伝子フラクション2324Bとは、代替対立遺伝子2375B(図23Cを参照)の対立遺伝子フラクションのことを指す。対立遺伝子フラクションは、代替対立遺伝子を含む、ゲノム内の位置に対応する、シーケンスリードのフラクションを表す。例えば、アーチファクトトレーニングデータ2310Aにおいては、代替対立遺伝子2375Aを含む、合計X個のシーケンスリードが、存在し得る。非アーチファクトトレーニングデータ2310Bにおいても、代替対立遺伝子2375Bを含む、合計Y個のシーケンスリードが、存在し得る。加えて、参照対立遺伝子トレーニングデータ2330において、参照対立遺伝子を有する、合計Z個のシーケンスリードが、存在し得る。したがって、代替対立遺伝子2375Aのアーチファクト対立遺伝子フラクション2324Aは、
Figure 2023156402000062
と表されることができる。加えて、代替対立遺伝子2375Bの非アーチファクト対立遺伝子フラクション2324Bは、
Figure 2023156402000063
と表されることができる。
図23Aに戻ると、エッジフィルタ250は、シーケンスリードのグループから抽出されたアーチファクトフィーチャ2320を、ゲノムの様々な位置にわたって集め、アーチファクト分布2340を生成する。加えて、エッジフィルタ250は、シーケンスリードのグループから抽出された非アーチファクトフィーチャ2325を、ゲノムの様々な位置にわたって集め、非アーチファクト分布2345を生成する。図23Aは、アーチファクト分布2340を生成するために、3つの異なるフィーチャ2320Aが使用され、非アーチファクト分布2345を生成するために、3つの異なるフィーチャ2320Bが使用される、1つの特定の実施形態を示している。他の実施形態においては、アーチファクト分布2340または非アーチファクト分布2345を生成するために、より少数または多数の各タイプのフィーチャ2320Aまたは2320Bが、使用される。
図23Hおよび図23Iは、様々な実施形態に従った、エッジバリアントを同定するために使用される例示的な分布を示している。具体的には、図23Hは、アーチファクトフィーチャ2320または非アーチファクトフィーチャ2325のうちの一方のタイプから生成される、分布2340または2345を示している。図23Gは、例示のために、正規分布を示しているが、実際には、分布2340および2345は、フィーチャ2320または2325の値に応じて、変化する。
別の実施形態においては、エッジフィルタ250は、単一の分布2340または2345を生成するために、複数のアーチファクトフィーチャ2320または非アーチファクトフィーチャ2325を使用し得る。例えば、図23Iは、2つのタイプのアーチファクトフィーチャ2320、または2つのタイプの非アーチファクトフィーチャ2325から生成される、分布2340または2345を示している。ここでは、分布2340または2345は、第1のフィーチャと第2のフィーチャの間の関係を記述する。さらなる実施形態においては、分布2340または2345は、3つ以上のタイプのアーチファクトフィーチャ2320または非アーチファクトフィーチャ2325の間の関係を表すことができる。
IX.B.エッジバリアントを同定するためのサンプル特異的なレートの例示的な決定
図24Aは、一実施形態に従った、サンプル特異的な予測されるレートを決定するためのブロック図フロープロセス2400を示している。一般に、エッジフィルタ250は、サンプル2405に特異的な予測されるレート2420を決定するために、サンプル2405におけるコールされたバリアントのサンプルワイドな分析を行う。言い換えると、図24Aに示されるプロセス2400は、各サンプル2405に対して一度、行われることができる。
コールされたバリアントのシーケンスリード2410は、サンプル2405から獲得される。図1Aおよび図3に関連して上で説明されたように、サンプル2405からコールされたバリアントを同定するためのステップは、方法100または300の1つまたは複数のステップを含むことができる。一般に、コールされたバリアントのシーケンスリード2410とは、コールされたバリアントが対応するゲノム内の位置を横断するシーケンスリードのグループのことを指す。
各コールされたバリアントについて、エッジフィルタ250は、コールされたバリアントのシーケンスリード2410からフィーチャ2412を抽出する。コールされたバリアントのシーケンスリード2410から抽出される各フィーチャ2412は、シーケンスリードにおける代替対立遺伝子のエッジからの統計的距離、代替対立遺伝子の対立遺伝子フラクション、有意性スコア、別のタイプのフィーチャ、またはそれらの何らかの組み合わせであることができる。エッジフィルタ250は、サンプル2405のコールされたバリアントにわたって抽出されたフィーチャ2412を、サンプル2405についての予測されるレート2420を決定するサンプル特異的なレート予測モデル2415(例えば、図2に示されるモデル225のうちの1つ)への入力として適用する。サンプル2405についての予測されるレート2420とは、コールされたバリアントがエッジバリアントである推定される比率のことを指す。様々な実施形態においては、予測されるレート2420は、0から1の間、例えば、0以上1以下の値である。
図24Aに示されるように、サンプル特異的なレート予測モデル2415は、先に生成されたアーチファクト分布2340および非アーチファクト分布2345の両方を使用する。サンプル特異的なレート予測モデル2415は、サンプル2405におけるコールされたバリアントのシーケンスリードから抽出されたフィーチャ2412を、アーチファクト分布2340および非アーチファクト分布2345を考慮して、分析することによって、予測されるレート2420を決定する。例として、サンプル特異的なレート予測モデル2415は、アーチファクト分布2340および非アーチファクト分布2345を与えられた場合に、観測されたフィーチャ2412を説明する予測されるレート2420を決定するために、フィッティング度を実行する。一実施形態においては、サンプル特異的なレート予測モデル2415は、アーチファクト分布2340および非アーチファクト分布2345を考慮して、フィーチャ2412を観測する尤度を最大化する予測されるレート2420を推定するために、最尤推定を実行する。しかしながら、他の実施は、他のプロセスを使用し得る。
一実施形態においては、推定のための尤度式は、
L(w|x)=w×(L(x)|d1)+(1-w)×(L(x)|d2) (1)
と表現されることができ、ここで、wは、予測されるレート2420であり、xは、フィーチャ2412を表し、d1は、アーチファクト分布2340を表し、d2は、非アーチファクト分布2345を表す。言い換えると、式1は、アーチファクト分布2340を考慮したフィーチャ2412を観測する尤度と、非アーチファクト分布2345を考慮したフィーチャ2412を観測する尤度との加重和である。したがって、最尤推定は、条件のあるセットを与えられた場合、この全体的な尤度を最大化する、予測されるレート2420(例えば、レートw)を決定する。
図24Aに示されるように、エッジフィルタ250は、コールされたバリアント310のシーケンスリードから複数のフィーチャ2412を抽出し、フィーチャ2412をレート予測モデル2415に提供することができる。例えば、3つのタイプのフィーチャ(例えば、シーケンスリードにおける代替対立遺伝子のエッジからの統計的距離、代替対立遺伝子の対立遺伝子フラクション、または有意性スコア)が、存在し得る。さらに一般化して、n個の異なるタイプのフィーチャ2412(例えば、x1、x2、...xn)が、レート予測モデル2415に提供されると仮定すると、式1は、
Figure 2023156402000064
と表現されることができる。
要するに、サンプル2405におけるコールされたバリアントのシーケンスリードから抽出されたフィーチャ2412の分布が、非アーチファクト分布2345よりもアーチファクト分布2340に類似していると決定したのに応答して、レート予測モデル2415は、コールされたバリアントのうちの高い推定される比率が、おそらくエッジバリアントであることを示す、高い予測されるレート2420を決定する。あるいは、サンプル2405におけるバリアントのシーケンスリードから抽出されたフィーチャ2412の分布が、アーチファクト分布2340よりも非アーチファクト分布2345に類似しているのに応答して、レート予測モデル2415は、コールされたバリアントのうちの低い推定される比率が、おそらくエッジバリアントであることを示す、低い予測されるレート2420を決定する。以下で説明されるように、予測されるレート2420は、サンプルにおいてエッジバリアントが同定される、「積極さ」のレベルをコントロールするために、使用されることができる。したがって、高い予測されるレート2420を割り当てられたサンプルは、(例えば、可能性があるより多数のエッジバリアントをふるい落とすための、より広い基準を使用して)積極的にふるい分けられることができ、一方、低い予測されるレート2420を割り当てられたサンプルは、あまり積極的にふるい分けられないことができる。
IX.C.エッジバリアントを同定するための例示的なバリアント特異的な分析
図24Bは、一実施形態に従った、エッジバリアントを同定するためのエッジバリアント予測モデル2435の適用を示している。バリアント特異的な分析2450においては、エッジフィルタ250は、コールされたバリアントがエッジバリアントであるかどうかを決定するために、コールされたバリアントのシーケンスリード2410を分析する。図24Bに示されるプロセスは、単一のサンプル2405について検出された、各コールされたバリアントまたはコールされたバリアントのサブセットに対して行われることができる。
一実施形態においては、エッジフィルタ250は、コールされたバリアントの変異のタイプに基づいて、コールされたバリアントをふるい分ける。ここで、C>TまたはG>A変異タイプではないコールされたバリアントは、自動的に非エッジバリアントとして特徴付けられることができる。あるいは、C>TまたはG>Aであるいずれのコールされたバリアントも、これ以降で説明される後続ステップにおいて、さらに分析される。
図24Bに示されるように、エッジフィルタ250は、コールされたバリアントのシーケンスリード2410から、フィーチャ2412を抽出する。コールされたバリアントのシーケンスリード2410の抽出されたフィーチャ2412は、図24Aに示されるのと同じ、コールされたバリアントのシーケンスリード2410から抽出されたフィーチャ2412であることができる。すなわち、フィーチャ2412は、フィーチャのタイプの中でもとりわけ、シーケンスリードにおける代替対立遺伝子のエッジからの統計的距離、代替対立遺伝子の対立遺伝子フラクション、または有意性スコアのうちの1つまたは複数であることができる。
エッジフィルタ250は、抽出されたフィーチャ2412を、エッジバリアント予測モデル2435(例えば、図2に示されるモデル225のうちの1つ)への入力として提供する。図24Bに示されるように、エッジバリアント予測モデル2435は、先に生成されたアーチファクト分布2340および非アーチファクト分布2345の両方を使用する。エッジバリアント予測モデル2435は、コールされたバリアントがエッジバリアントである尤度を表すアーチファクトスコア2455、およびコールされたバリアントが非エッジバリアントである尤度を表す非アーチファクトスコア2460など、複数のスコアを生成する。
具体的には、エッジバリアント予測モデル2435は、アーチファクト分布2340および非アーチファクト分布2345を考慮して、コールされたバリアントのシーケンスリード2410のフィーチャ2412を観測する確率を決定する。一実施形態においては、エッジバリアント予測モデル2435は、アーチファクト分布2340を考慮して、フィーチャ2412を分析することによって、アーチファクトスコア2455を決定し、非アーチファクト分布2345を考慮して、フィーチャ2412を分析することによって、非アーチファクトスコア2460を決定する。
視覚的な例として、図23Hに示される例示的な分布を再び参照すると、エッジバリアント予測モデル2435は、フィーチャ2412がx軸沿いのどこにあるかに基づいて、確率を識別する。この例においては、識別された確率は、エッジバリアント予測モデル2435によって出力される、アーチファクトスコア2455または非アーチファクトスコア2460などの、スコアであることができる。
図24Bに示されるように、エッジフィルタ250は、アーチファクトスコア2455および非アーチファクトスコア2460を、(図24Aにおいて説明されるような)サンプル特異的な予測されるレート2420と組み合わせる。組み合わせは、コールされたバリアントが処理アーチファクトの結果である尤度を表す、エッジバリアント確率2470をもたらす。
一実施形態においては、エッジバリアント確率2470は、コールされたバリアントのシーケンスリード2410から抽出されたフィーチャ2412を考慮した、コールされたバリアントがエッジバリアントである事後確率として、表現されることができる。アーチファクトスコア2455と、非アーチファクトスコア2460と、サンプル特異的な予測されるレート2420との組み合わせは、
Figure 2023156402000065
と表現されることができる。
エッジフィルタ250は、エッジバリアント確率2470を閾値と比較し得る。エッジバリアント確率2470が閾値よりも大きいと決定したのに応答して、エッジフィルタ250は、コールされたバリアントがエッジバリアントであると決定する。エッジバリアント確率2470が閾値よりも小さいと決定したのに応答して、エッジフィルタ250は、コールされたバリアントが非エッジバリアントであると決定する。
IX.D.エッジバリアントを同定するための例示的なバリアント特異的な分析
図25は、一実施形態に従った、サンプルから検出されたエッジバリアントを同定および報告するフロープロセス2500を示している。プロセス2500の1つまたは複数のステップは、処理システム200のコンポーネント、例えば、エッジフィルタ250、またはモデル225のうちの1つによって、実行され得る。2505において、様々なシーケンシングリードからのコールされたバリアントが、サンプルから受け取られる。2510において、サンプルからのコールされたバリアントのシーケンシングリードに基づいて、サンプルについて、サンプル特異的な予測されるレートが、決定される。一例として、予測されるレートは、最尤推定を実行することによって、決定される。ここで、予測されるレートは、先に生成された分布を考慮した、コールされたバリアントのシーケンスリードのフィーチャ2412を観測する尤度を(例えば、ある条件を与えられた場合に)最大化する、パラメータ値である。
2515において、各コールされたバリアントについて、1つまたは複数のフィーチャ2412が、バリアントのシーケンスリードから抽出される。2520において、抽出されたフィーチャ2412は、アーチファクトスコア2455を獲得するために、トレーニングされたモデル225への入力として適用される。アーチファクトスコア2455は、コールされたバリアントがエッジバリアントである(例えば、処理アーチファクトの結果である)尤度を表す。トレーニングされたモデル225は、さらに、コールされたバリアントが非エッジバリアントである(例えば、処理アーチファクトの結果ではない)尤度を表す非アーチファクトスコア2460を出力する。
2525において、各コールされたバリアントについて、コールされたバリアントについてのアーチファクトスコア2455、コールされたバリアントについての非アーチファクトスコア2460、およびサンプル特異的な予測されるレート2420を組み合わせることによって、エッジバリアント確率2470が、生成される。2530において、エッジバリアント確率2470に基づいて、コールされたバリアントが、エッジバリアント(例えば、処理アーチファクトの結果としてコールされたバリアント)として、報告されることができる。
IX.E.エッジフィルタリングの例
以下の例は、開示される実施形態をいかに作成および使用するかについての完全な開示および説明を当業者に提供するために提示され、本発明と見なされるものの範囲を限定することは意図されていない。使用される数(例えば、量、温度、濃度など)に関する正確性を保証するように、努力がなされたが、いくらかの実験誤差および偏差は、許容されるべきである。本開示を踏まえて、本発明の意図される範囲から逸脱することなく、例示される特定の実施形態において、様々な変更および変化が行われることができることが、当業者によって理解されよう。
IX.E.I.アーチファクトとクリーンなトレーニングサンプルの区分け
図26A、図26B、および図26Cは、各々、様々な実施形態に従った、アーチファクト区分または非アーチファクト区分の一方に区分けされる、例示的なトレーニングバリアントのフィーチャを示している。図26A、図26B、および図26Cに示される例は、図23Aに示されるプロセス2300を使用して決定される、アーチファクト分布と、非アーチファクト分布とを含む。無細胞DNAサンプルは、乳がん、肺がん、または前立腺がんのうちの1つを有する被験者から、血液採取を通して獲得された。サンプルセットは、各タイプの癌(乳がん、肺がん、および前立腺がん)に対して、少なくとも50人の被験者を含む。すべての参加被験者について、血液は、生検(前または後)の6週以内に同時に採取された。
ステップ130の後、ふるい分けられたコールされたバリアントを獲得するために、図1Aおよび/または図3に示されるプロセスワークフローの1つまたは複数のステップに従って、cfDNAサンプルが、バリアントについて分析された。コールされたバリアントの各々について、コールされたバリアントの同定をもたらしたシーケンスリードが、分析される。例えば、エッジフィルタ250は、以下で説明されるように、ゲノム上の特定の部位について代替対立遺伝子を含むシーケンスリードを、アーチファクトグループおよび非アーチファクトグループに区分けする。加えて、ゲノム上の特定の部位について参照対立遺伝子を含むシーケンスリードが、シーケンスリードのフィーチャを決定するために後で使用される、参照対立遺伝子データとして含まれる。
エッジフィルタ250は、代替対立遺伝子を含むシーケンスリードを、2つの基準に基づいて、アーチファクト区分または非アーチファクト区分に区分けする。第1の基準は、ヌクレオチド塩基対25個の閾値距離を含む。したがって、アーチファクト区分に区分けされるシーケンスリードは、シーケンスリードのエッジからヌクレオチド塩基対25個以内にある代替対立遺伝子を含む。第2の基準は、ヌクレオチド塩基変異のタイプである。具体的には、アーチファクト区分に区分けされるシーケンスリードは、C>TまたはG>A変異の一方である代替対立遺伝子を含む。エッジフィルタ250は、これら2つの基準を満たさない代替対立遺伝子を含むシーケンスリードを、非アーチファクト区分に区分けする。
エッジフィルタ250は、代替対立遺伝子を含むシーケンスリードと、参照対立遺伝子を含むシーケンスリードとを含む、コールされたバリアントのシーケンスリードから、フィーチャを抽出する。ここでは、抽出されるフィーチャの3つのタイプは、1)シーケンスリードのエッジからの代替対立遺伝子の中央値距離、2)代替対立遺伝子の対立遺伝子フラクション、および3)有意性スコアを含む。3つのタイプの抽出されたフィーチャは、集められ、図26A~図26Cに示される、アーチファクト分布および非アーチファクト分布を生成するために、使用される。
図26A~図26Cは、各々、アーチファクト分布(左)、および非アーチファクト分布(右)を示している。各分布は、アーチファクトトレーニングデータまたは非アーチファクトトレーニングデータとして区分けされるシーケンシングリードから抽出された、2つのフィーチャの間の関係を示している。具体的には、図26Aは、有意性スコアとエッジからの中央値距離との間の関係を示している。図26Bは、対立遺伝子フラクションの分布とエッジからの中央値距離との間の関係を示している。図26Cは、対立遺伝子フラクションの分布と有意性スコアとの間の関係を示している。
図26A~図26Cに示されるアーチファクト分布および非アーチファクト分布にわたって、いくつかの傾向が、観測される。とりわけ、アーチファクト区分内のエッジバリアントは、高い有意性スコアを有する傾向があり(例えば、図26Aおよび図26Cに示されるような、100の有意性スコアにおけるエッジバリアントの高い集中)、一方、非アーチファクト区分内の非エッジバリアントは、はるかに低い有意性スコアを有する傾向がある。加えて、より低いエッジからの中央値距離は、エッジバリアントのより高い集中と相関がある。例えば、図26Aおよび図26Bは、ともに、エッジからヌクレオチド塩基25個の中央値距離とは対照的に、エッジからヌクレオチド塩基ゼロ個の中央値距離またはその付近に代替対立遺伝子を有するエッジバリアントのより高い集中を示している。注目すべきことに、多数の非エッジバリアントも、シーケンスリードのエッジからヌクレオチド塩基25個以内にある代替対立遺伝子を含む(図26Aおよび図26Bを参照)。これは、コールされたバリアントとして同定される、非C>Tおよび非G>Aヌクレオチド塩基置換の母集団が、存在することを示す。
IX.E.II.ヒトのMSK-VP-0058におけるエッジバリアントの検出
図27A、図27B、および図27Cは、各々、様々な実施形態に従った、被験者から獲得された例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示している。サンプル(MSK-VP-0058)は、図26A~図26Cに示される例に関連して、上で説明されたように処理された。簡潔に言うと、被験者からのcfDNAサンプルが、図1Aおよび/または図3に示されるプロセスワークフローの1つまたは複数のステップに従って、バリアントについて分析された。シーケンスリードは、cfDNAサンプルから獲得され、エッジフィルタ250によってグループに区分けされて、グループ内のシーケンスリードが、各々、ゲノム内の共通の位置を横断するようにされた。エッジフィルタ250は、シーケンスリードのグループからフィーチャを抽出した。
サンプルについての予測されるレートを決定するために、サンプル特異的な分析が、サンプルのシーケンスリードから抽出された観測されたフィーチャを使用して、行われた。具体的には、すべてのコールされたバリアント(例えば、サンプルにおいて検出された117個すべてのコールされたバリアント)にわたる、シーケンスリードのグループから抽出されたフィーチャが、図26A~図26Cに示されるアーチファクト分布および非アーチファクト分布を考慮して、分析された。最尤推定が、式(1)を使用して、実行され、それが、w=0.94の予測されるレートを識別した。ここでは、予測されるレートの値が高い(例えば、0から1までのスケール上において1に近い)ので、したがって、エッジフィルタ250は、エッジバリアントを除去するためにふるい分けられるこのサンプルを積極的にふるい分ける。
エッジバリアントを同定するために、各コールされたバリアントが、個別に分析された。エッジフィルタ250は、非C>Tおよび非G>Aヌクレオチド塩基変異であるコールされたバリアントを、非エッジバリアントとして自動的に区分けした。図27A~図27Cに示されるように、「偽」とラベル付けされた非エッジバリアント(例えば、「X」で示されるコールされたバリアント)が、存在する。C>TまたはG>Aヌクレオチド塩基変異のどちらかであるコールされたバリアントは、さらに分析された。各コールされたバリアントについて、エッジフィルタ250は、コールされたバリアントのシーケンスリードからフィーチャを抽出した。エッジフィルタ250は、抽出されたフィーチャを、アーチファクト分布および非アーチファクト分布を考慮して、フィーチャを分析する、エッジバリアント予測モデルへの入力として適用した。モデルは、コールされたバリアントがエッジバリアントである尤度、および非エッジバリアントである尤度をそれぞれ表す、アーチファクトスコアおよび非アーチファクトスコアを出力する。エッジフィルタ250は、アーチファクトスコア、非アーチファクトスコア、およびw=0.94のサンプル特異的な予測されるレートを使用する、式(3)に従って、コールされたバリアントのエッジバリアント確率を計算する。エッジフィルタ250は、各コールされたバリアントのエッジバリアント確率を、1%の閾値確率と比較する。
エッジフィルタ250は、1%よりも大きいエッジバリアント確率を有するコールされたバリアントを、エッジバリアントとして区分けした(例えば、図27A~図27Cに示される左パネル)。エッジフィルタ250は、1%よりも小さいエッジバリアント確率を有するコールされたバリアントを、非エッジバリアントとして区分けした(例えば、図27A~図27Cに示される右パネル)。一般に、エッジバリアントとして区分けされたコールされたバリアントは、高い有意性スコア(図27Aおよび図27Cを参照)、低いエッジからの中央値距離(図27Aおよび図27Bを参照)、および低い対立遺伝子頻度(図27Bおよび図27Cを参照)を示した。
IX.E.III.ヒトのMSK-VB-0023におけるエッジバリアントの検出
図28A、図28B、および図28Cは、各々、様々な実施形態に従った、被験者から獲得された別の例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示している。サンプル(MSK-VB-0023)は、図26A~図26Cおよび図27A~図27Cに示される例に関連して、上で説明されたように処理された。
この例においては、サンプルについての予測されるレートを決定するために、サンプル特異的な分析が、行われた。具体的には、サンプルからコールされたコールされたバリアント(例えば、サンプルにおいて検出された1611個すべてのコールされたバリアント)のシーケンスリードからエッジフィルタ250によって抽出されたフィーチャが、図26A~図26Cに示されるアーチファクト分布および非アーチファクト分布を考慮して、分析された。エッジフィルタ250は、式(1)を使用して、最尤推定を実行し、それが、w=0.012の予測されるレートをもたらした。ここでは、低い予測されるレート値は、サンプルにおいて検出されたコールされたバリアントの多数が、おそらく先に観測されたエッジバリアントではない尤度を示す。したがって、エッジバリアントのあまり積極的でないフィルタリングを実行するために、低い予測されるレートが、エッジフィルタ250によって使用される。
コールされたバリアントがエッジバリアントか、それとも非エッジバリアントかを決定するために、各コールされたバリアントが、分析された。エッジフィルタ250は、非C>Tおよび非G>Aヌクレオチド塩基変異であるコールされたバリアントを、非エッジバリアントとして自動的に区分けした。これらの非エッジバリアントは、図28A~図28Cに示されており、「偽」とラベル付けされている(例えば、「X」で示されるコールされたバリアント)。C>TまたはG>Aヌクレオチド塩基変異のどちらかであるコールされたバリアントは、さらに分析された。各コールされたバリアントについて、エッジフィルタ250は、コールされたバリアントのシーケンスリードからフィーチャを抽出した。エッジフィルタ250は、抽出されたフィーチャを、アーチファクト分布および非アーチファクト分布を考慮して、フィーチャを分析する、エッジバリアント予測モデルへの入力として適用した。モデルは、コールされたバリアントがエッジバリアントである尤度、および非エッジバリアントである尤度をそれぞれ表す、アーチファクトスコアおよび非アーチファクトスコアを出力する。エッジフィルタ250は、アーチファクトスコア、非アーチファクトスコア、およびw=0.012のサンプル特異的な予測されるレートを使用する、式(3)に従って計算される、コールされたバリアントのエッジバリアント確率を計算する。エッジフィルタ250は、各コールされたバリアントのエッジバリアント確率を、1%の閾値確率と比較する。
エッジフィルタ250は、1%よりも大きいエッジバリアント確率を有するコールされたバリアントを、エッジバリアントとして区分けした(例えば、図28A~図28Cに示される左パネル)。エッジフィルタ250は、1%よりも小さいエッジバリアント確率を有するコールされたバリアントを、非エッジバリアントとして区分けした(例えば、図28A~図28Cに示される右パネル)。
この例においては、エッジフィルタ250は、多数のコールされたバリアントが非エッジバリアントであると決定する。さらなる調査が、この被験者が、ハイパーミューテータ特性を示すことを明らかにした。具体的には、被験者は、多数のC>T変異として現れた、アポリポプロテインB mRNA編集触媒ポリペプチドファミリの酵素(APOBEC)変異シグネチャを示した。したがって、これらのコールされたバリアントがエッジバリアントでないと仮定すると、エッジフィルタ250は、これらのコールされたバリアントを非エッジバリアントとして区分けした。
この例は、特定のサンプルにおける観測されたバリアントの分布に基づいて、フィルタリングプロセスをフィッティングさせる、エッジフィルタ250の能力を示している。これらのバリアントの多数は、被験者がおそらくハイパーミューテータを含むという事実のせいで、おそらく生じているので、エッジバリアントを同定および除去する際に、エッジフィルタ250によって実行されるフィルタリングプロセスは、あまり積極的でないことができる。
IX.E.IV.エッジバリアントを検出するためのサンプル特異的なフィッティング
図29は、一実施形態に従った、様々な被験者サンプルにわたるエッジバリアントの同定を示している。図29は、図26A~図26Cおよび図27A~図27Cを参照して上で説明された被験者サンプルMSK-VP-0058およびMSK-VB-0023、ならびに多くの他の被験者サンプルからのデータを含む。図29に示される例示的な結果は、図1Aまたは図3に示されるワークフロープロセスの1つまたは複数のステップを使用して、決定され得る。例えば、プロセス300のステップ320において決定された、各サンプルのエッジバリアントおよび非エッジバリアントが、図29に示される結果を生成するために使用された。
具体的には、図29は、シーケンシングリードのエッジからの中央値距離(x軸)の関数として、被験者サンプルの同定されたエッジバリアントおよび非エッジバリアントの分布(y軸)を示している。
図29は、各被験者サンプルについて、エッジフィルタ250のフィルタリング方法が、エッジバリアントと非エッジバリアントを異なるように同定することができることを示している。例えば、MSK-VP-0082(例えば、上から5番目のサンプル)は、ヌクレオチド塩基対10個から25個の間のエッジからの中央値距離を示す、多数のエッジバリアントを含む。加えて、MSK-VP-VL-0081(例えば、上から6番目のサンプル)は、ヌクレオチド塩基対10個から25個の間のエッジからの中央値距離を示す、有意な数の非エッジバリアントを含む。このサンプル特異的なフィルタリングは、すべてのサンプルにわたって同じフィルタリング方法を利用するフィルタと比較して、エッジバリアントのより正確な同定および除去を可能にする。非サンプル特異的なフィルタの例は、代替対立遺伝子の対立遺伝子頻度が、固定された閾値量よりも大きい場合、代替対立遺伝子に対応するコールされたバリアントが、エッジバリアントとして区分けされるように、対立遺伝子頻度などのフィーチャに基づいた、固定されたカットオフを利用することができる。
IX.E.V.エッジバリアントフィルタリング方法の感度および特異度
図30は、一実施形態に従った、cfDNAにおいてコールされたバリアントのフラクションとして、異なるエッジフィルタを使用してエッジバリアントを除去した後に、固形腫瘍とcfDNAの両方においてコールされた一致バリアントを示している。図31は、一実施形態に従った、固形腫瘍においてコールされたバリアントのフラクションとして、異なるエッジフィルタを使用してエッジバリアントを除去した後に、固形腫瘍とcfDNAの両方においてコールされた一致バリアントを示している。特に、図30および図31は、ともに、適用されるエッジバリアントフィルタ(例えば、非エッジバリアントフィルタ、単純エッジバリアントフィルタ、またはサンプル特異的なエッジバリアントフィルタ)に応じて変化する、一致数を示している。
図30および図31に示されるデータセットについては、図3におけるステップ320の後、コールされたバリアントの初期セットを獲得するために、サンプルが、被験者から獲得され、図26A~図26Cの例を参照して上で説明された、アッセイプロセスを使用して処理された。初期セットに含まれるこれらのコールされたバリアントは、エッジバリアントを除去するためのさらなるフィルタリングを受けていない。
2つの別個のシナリオにおいて、初期セット内のこれらのコールされたバリアントは、エッジバリアントを同定および除去するために、エッジフィルタ250によってさらにふるい分けられた。第1のシナリオは、これ以降、単純エッジバリアントフィルタと呼ばれる、第1のフィルタの適用を含んだ。単純エッジバリアントフィルタは、閾値距離を下回る、シーケンスリードのエッジからの中央値距離を示す、コールされたバリアントを除去する。ここでは、閾値距離は、アーチファクトトレーニングデータ区分に区分けされるトレーニングシーケンスリードにおける、エッジバリアントのロケーションに基づいて、決定される。具体的には、閾値距離は、シーケンスリードのエッジからのエッジバリアントの中央値距離と、シーケンスリードのエッジからのエッジバリアントの中央値距離の中央値絶対偏差との総和として表現される。単純エッジバリアントフィルタは、この閾値距離基準を満たすすべてのバリアントを除去する、単純な無差別フィルタである。第2のフィルタとは、図26A~図26C、図27A~図27C、図28A~図28C、および図29の例を参照して説明され、図32を参照して以下でさらに説明される、エッジフィルタリングプロセスのことである。ここでは、サンプル特異的なエッジバリアントフィルタは、サンプルについて観測されたコールされたバリアントの分布を考慮しながら、エッジバリアントを同定する。
単純エッジバリアントフィルタまたはサンプル特異的なエッジバリアントフィルタのどちらかを使用して、エッジバリアントを除去した後に残る、非エッジバリアントは、従来の方法と比較しての分析のために保持される。これ以降で言及される場合、従来の方法とは、従来のプロセス、具体的には、メモリアルスローンケタリングのアクショナブル癌標的の統合型変異プロファイリング(MSK-IMPACT:Memorial Sloan Kettering Integrated Mutation Profiling of Actionable Cancer Targets)パイプライン(非特許文献3)を使用する、固形腫瘍サンプルからのゲノム変化の同定のことを指す。
ここでは、非エッジバリアントであるとともに、従来の方法によって検出されもした、コールされたバリアントが、一致バリアントと呼ばれる。
図30は、cfDNAにおいて検出された非エッジバリアントのフラクションとして、エッジフィルタの適用(またはエッジフィルタの非適用)の後にcfDNAサンプルにおいて検出された一致バリアントと、固形腫瘍組織において検出されたコールされたバリアントとを示している。この比率は、
Figure 2023156402000066
として表現されることができる。
図31は、固形腫瘍組織において検出されたコールされたバリアントのフラクションとして、エッジフィルタの適用(またはエッジフィルタの非適用)の後にcfDNAサンプルにおいて検出された一致バリアントと、固形腫瘍組織において検出されたコールされたバリアントとを示している。
この比率は、
Figure 2023156402000067
として表現されることができる。
図30および図31に示される一致バリアントのパーセンテージは、興味深いいくつかの傾向を示している。図30に示される一致バリアントのパーセンテージと比較して一致バリアントの著しくより大きいパーセンテージが、図31に示されている。例として、cfDNAにおいてだけ検出されたコールされたバリアントのフラクションとして、乳がんにおいて検出された、一致バリアントのパーセンテージは、9.8%であり、それは、固形腫瘍組織において検出されたコールされたバリアントのフラクションとして、乳がんにおいて検出された、一致バリアントの73%よりも著しく低い。これは、固形腫瘍組織においてバリアントをコールする、従来の方法と比較して、(癌のタイプにかかわらず)cfDNAサンプルにおける非エッジバリアントの同定が、より高い感度を達成することを示す。
図30における単純エッジバリアントフィルタを参照すると、単純エッジバリアントフィルタの適用は、コールされたバリアントの特異度を増加させる。例えば、非エッジバリアントフィルタと比較して、単純エッジバリアントフィルタの適用は、乳がん(例えば、9.5%から11%)、肺がん(例えば、45%から49%)、および前立腺がん(例えば、22%から27%)において検出されたコールされたバリアントの特異度を増加させる。しかしながら、特異度のこの増加は、図31に示されるように、感度を代償としてもたらされる。非エッジバリアントフィルタと比較して、単純エッジバリアントフィルタの適用は、乳がん(例えば、73%から69%)、肺がん(例えば、73%から70%)、および前立腺がん(例えば、76%から71%)において検出されたコールされたバリアントの感度を減少させる。
それと比べて、サンプル特異的なエッジバリアントフィルタの適用は、感度を犠牲にせずに、特異度を改善する。図30に示されるように、非エッジバリアントフィルタと比較して、サンプル特異的なエッジバリアントフィルタの適用は、乳がん(例えば、9.5%から9.8%)、肺がん(例えば、45%から47%)、および前立腺がん(例えば、22%から27%)において検出されたコールされたバリアントの特異度を増加させる。加えて、図31に示されるように、非エッジバリアントフィルタと比較して、サンプル特異的なエッジバリアントフィルタの適用は、乳がん(例えば、73%に維持)、肺がん(例えば、73%に維持)、および前立腺がん(例えば、76%に維持)において検出されたコールされたバリアントの感度を維持する。
X.例示的なバリアントコーラ
X.A.異なるフィルタと点数化の例示的な組み合わせ
図32は、一実施形態に従った、異なるタイプのフィルタおよびモデル225を使用して、候補バリアントを処理するための方法3200のフローチャートである。方法3200の1つまたは複数のステップは、本明細書において説明される他の方法と併せて、または別の方法と併せて、実行され得る。例えば、方法3200は、例えば、バリアントをコールする前に、いずれの偽陽性も識別および除去するために、図3に示される方法300の一部として、実行され得る。方法3200は、いくつかの実施形態においては、図32との関連で説明されるものとは異なるステップ、追加のステップ、もしくはより少ないステップを含み得、または図32との関連で説明される順序とは異なる順序で実行され得る。例えば、方法3200は、ジョイントモデルを使用して、しかし、エッジフィルタリングは用いずに、ふるい分けを行い得る。異なる例として、方法3200は、ジョイントモデルを使用してふるい分けを行う前に、エッジフィルタリングを実行し得る。いくつかの実施形態においては、1つまたは複数のステップは、組み合わされ得、例えば、方法3200は、同じステップにおいて、ジョイントモデルおよびエッジフィルタリングを使用する、ふるい分けを含む。
ステップ3210において、処理システム200は、少なくとも1つのモデル225を使用して、核酸サンプル、例えば、cfDNAサンプルのシーケンスリードのノイズをモデル化する。モデル225は、シーケンスリードの位置ごとの予想されるノイズ分布を近似する、図4~図9を参照して先に説明されたような、ベイズ階層モデルであり得る。ステップ3220において、処理システム200は、例えば、図10~図19を参照して先に説明されたように、ジョイントモデル225を使用して、シーケンスリードから候補バリアントをふるい分ける。いくつかの実施形態においては、処理システム200は、ジョイントモデル225を使用して、cfDNAサンプルにおいて観測された与えられた候補バリアントが、(例えば、白血球細胞からの)対応するgDNAサンプルのヌクレオチド変異とおそらく関連付けられるかどうかを決定する。
いくつかの実施形態においては、ステップ3230において、処理システム200は、エッジフィルタリングを使用して、候補バリアントをふるい分ける。特に、エッジフィルタ250は、例えば、図23A~図31を参照して先に説明されたように、どれだけ積極的にサンプルをふるい分けて、エッジバリアントを除去するかを決定するために、サンプル特異的なレート予測モデル2415(図24Aを参照)およびエッジバリアント予測モデル2435(図24Bを参照)を使用し得る。いくつかの実施形態においては、スコアエンジン235は、エッジフィルタリングについてのモデルを使用して、各候補バリアント(またはコールされたバリアント)を分析し、それに支持スコアを割り当て、ここで、支持スコアは、候補バリアントが非エッジバリアントである信頼性のレベルを表す。エッジフィルタ250は、閾値スコアよりも大きい支持スコアと関連付けられた候補バリアントを保ち、一方、エッジフィルタ250は、閾値スコアよりも小さい(またはそれに等しい)支持スコアと関連付けられた候補バリアントをふるい落とす。いくつかの実施形態においては、スコアエンジン235は、候補バリアントについての事前知識、および/または健康なサンプルのセットにおいて観測されたその染色体/位置についてのシステマティックエラーに基づいて、候補バリアントについての支持スコアを生成する。いくつかのシナリオにおいては、支持スコアは、候補バリアントを含む標的領域のシーケンシング深さに基づいて、決定され得、閾値スコアは、先にシーケンシングされたサンプルのセット(例えば、基準データ)における標的領域の平均シーケンシング深さに基づき得る。
エッジフィルタ250に関して上で説明されたように、サンプルから獲得されたシーケンスリードは、代替対立遺伝子を含むシーケンスリード、および参照対立遺伝子を含むシーケンスリードの両方を含み得る。具体的には、サンプルについての候補バリアントの集まりを与えられた場合、エッジフィルタ250は、サンプルにおけるエッジバリアントの予測されるレートを決定するために、尤度推定を実行し得る。サンプルのある条件を与えられた場合、予測されるレートは、2つの分布を考慮して、サンプルについての候補バリアントの観測された集まりを最も良く説明し得る。1つの分布は、知られたエッジバリアントのフィーチャを記述し、一方、別のトレーニングされた分布は、知られた非エッジバリアントのフィーチャを記述する。予測されるレートは、サンプルからエッジを同定し、ふるい分けるために、サンプルがどれだけ積極的に分析されるかをコントロールする、サンプル特異的なパラメータである。サンプルのエッジバリアントは、後続の検討のために(例えば、癌の存在/非存在、または癌もしくは他の疾病の尤度の決定のために)非エッジバリアントを残して、ふるい分けられ、除去される。
いくつかの実施形態においては、ステップ3240において、非同義フィルタ260は、任意選択で、非同義変異に基づいて、候補バリアントをふるい分け得る。同義変異とは対照的に、核酸配列の非同義変異は、核酸配列と関連付けられたタンパク質のアミノ酸配列の変化をもたらす。例えば、非同義変異は、個人の1つまたは複数の表現型を変更し得、または個人が癌、癌細胞、もしくは他のタイプの疾病を発症する原因となり得る(もしくはそれに対してより無防備にし得る)。いくつかの実施形態においては、非同義フィルタ260は、トリヌクレオチドの1つまたは複数の核酸塩基に対する変更は、変更されたトリヌクレオチドに基づいて、異なるアミノ酸が産生される原因となると決定することによって、候補バリアントは非同義変異をもたらすはずであると決定する。いくつかの実施形態においては、非同義フィルタ260は、非同義変異と関連付けられた候補バリアントを保ち、同義変異と関連付けられた他の候補バリアントをふるい落とすが、それは、候補バリアントの前者のグループが、個人に対して機能的影響を有する可能性がより高いからである。
X.B.組み合わせされたフィルタリングと点数化の例
以下の図34A~図34Hにおける例示的なデータは、無細胞ゲノム研究の個人のサンプルセットから獲得されたシーケンスリードを使用して生成され、本明細書において説明される方法(例えば、ノイズモデリング、ジョイントモデリング、エッジフィルタリング、非同義フィルタリングなど)のうちの1つまたは複数を使用して、処理された。サンプルセットは、血液サンプル(例えば、cfDNA)が獲得された、健康な個人を含む。加えて、サンプルセットは、血液サンプルおよび組織サンプル(例えば、腫瘍またはgDNA)が獲得された、少なくとも1つのタイプの癌を有することが知られた個人を含む。データは、アメリカ合衆国およびカナダにおける約140のセンタにわたって、個人から収集された。図33A~図33Cは、サンプルセットに関するさらなる詳細を示している。
図33Aは、一実施形態に従った、無細胞ゲノム研究のためのサンプルセットの個人を記述した表である。サンプルセットは、少なくとも乳がん、肺がん、前立腺がん、大腸がん、および他のタイプの癌を有することが知られたサンプルを含む。個人の人口動態データ(例えば、年齢、性別、および民族性)も、図33Aに示されている。図33Bは、一実施形態に従った、図33Aの無細胞ゲノム研究のためのサンプルセットと関連付けられた癌のタイプを示すチャートである。図33Cは、一実施形態に従った、図33Aの無細胞ゲノム研究のためのサンプルセットを記述した別の表である。特に、表は、癌の臨床病期に基づいて組織化された、癌を有することが知られたサンプルのカウントを示している。
図34Aは、一実施形態に従った、1つまたは複数のタイプのフィルタおよびモデルを使用して決定された、コールされたバリアントの例示的なカウントの図を示している。図の各々は、対応する個人の年齢を表すx軸、および処理システム200によって処理された後のコールされたバリアントの数を表すy軸上にプロットされた、サンプルセットのデータ点を含む。図3410は、ノイズモデリングを使用して、サンプルセットのシーケンスリードを処理した結果を含む。図3420は、ノイズモデリングに加えて、ジョイントモデリングおよびエッジフィルタリングを使用して、サンプルセットのシーケンスリードを処理した結果を含む。図3430は、ジョイントモデリング、エッジフィルタリング、およびノイズモデリングに加えて、非同義フィルタリングを使用して、サンプルセットのシーケンスリードを処理した結果を含む。さらに、図34B~図34Hに示される例示的な結果も、ジョイントモデリング、エッジフィルタリング、およびノイズモデリングに加えて、非同義フィルタリングを使用して生成された。
図の進展によって例示されているように、フィルタリングの範囲が増大するにつれて、コールされたバリアントの数は、一般に減少する。したがって、例は、処理システム200によるその非同義フィルタリング、ジョイントモデリング、エッジフィルタリング、およびノイズモデリングが、偽陽性のかなりの量をうまく識別および除去することができることを暗示する。したがって、処理システム200は、ノイズまたはアーチファクトの様々なソースからの影響を緩和する、より正確なバリアントコーラを提供する。開示される方法を使用する、血液サンプルからのcfDNAを分析するターゲットアッセイは、腫瘍関連のバイオロジを捕捉することができることがある。図において、コールされたバリアントのカウントと、個人の年齢との間に、僅かな比例相関が、観測され得る(例えば、図3410においてより明らか)。さらに、予想されるように、非癌サンプルよりも、癌サンプルについて、より多くのカウントのコールされたバリアントが、存在する。
図34Bは、一実施形態に従った、乳がんを有することが知られたサンプルの例示的な品質スコアの図である。図34Cは、一実施形態に従った、乳がんを有することが知られたサンプルの例示的な品質スコアの別の図である。図34Dは、一実施形態に従った、肺がんを有することが知られたサンプルの例示的な品質スコアの図である。品質スコアは、図3、図4、および図9を参照して先に説明されたように、ノイズモデル225を使用して、スコアエンジン235によって決定され得る。特に、図34B、図34C、および図34Dは、それぞれ、標準的なPIK3CA遺伝子、TP53機能喪失(LoF)遺伝子、および標準的な上皮成長因子受容体(EGFR)遺伝子からのシーケンスリードの候補バリアントについての品質スコアを示している。x軸は、与えられたグループ(例えば、癌のステージ)において、ある標準的な変異を有する、個人の比率を表す。図34B~図34Dは、癌のステージがグループIからグループIVに上昇するにつれて、品質スコアが増加する傾向にある傾向を示している。
図34Eは、一実施形態に従った、癌の異なるステージにある様々なタイプの癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの表である。図34B~図34Dと同様に、図34Eも、癌のステージがグループIからグループIVに上昇するにつれて、コールされたバリアントの数が増加する傾向にある傾向を示している。
図34Fは、一実施形態に従った、癌の異なるステージにある様々なタイプの癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの図である。乳がん、大腸がん、肺がん、または前立腺がんを有することが知られたサンプルについてのボックスプロットによって示されるように、癌のステージがグループIからグループIVに上昇するにつれて、コールされたバリアントの中央値数は、増加する傾向にあり、非癌サンプルについての数は、癌サンプルのそれらと比較して、相対的により低い。
図34Gは、一実施形態に従った、早期または末期癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの図である。図34Hは、一実施形態に従った、早期または末期癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの別の図である。特に、図34Gおよび図34Hは、それぞれ、乳がん(例えば、HER2+、HR+|HER2-、TNBC)、ならびに肺がん(例えば、腺がん、小細胞肺がん、および扁平上皮細胞がん)と関連付けられた、cdstg1lh_grouped遺伝子からのシーケンスリードのコールされたバリアントを示している。図34G~図34Hは、癌が早期から末期に進行するにつれて、コールされたバリアントの数が増加する傾向にある傾向を示している。例示的なデータは、処理システム200が、遺伝子内の配列の異なるサブタイプまたはバリアントを検出することができることを示す。加えて、非癌サンプルについての数は、癌サンプルのそれらと比較して、相対的により低い。
XI.癌モデルのための例示的なフィーチャ
XI.A.例示的な小バリアントフィーチャ
これ以降で使用される場合、小バリアントシーケンシングアッセイとは、一般に、小バリアントを決定するために使用することができる標的遺伝子シーケンシングパネルを通して、シーケンスリードを生成する物理的アッセイのことを指し、小バリアントの例は、単一ヌクレオチドバリアント(SNV)と、挿入または欠失とを含む。あるいは、当業者が理解するように、小バリアントの評価は、全ゲノムシーケンシング手法、または全エクソームシーケンシング手法を使用しても行われ得る。例示的な小バリアントシーケンシングアッセイは、図1Aを参照して先に説明されている。
いくつかの実施形態においては、小バリアントシーケンシングアッセイの適用から生成されたシーケンスリードは、1つまたは複数の小バリアントフィーチャを出力する、コンピュータ分析を使用して処理される。(小バリアントコンピュータアッセイとも呼ばれる)コンピュータ分析は、例えば、図1A、図3、図8~図10、図20、図25、または図32に示されるような、本明細書において説明される方法のいずれかからのステップを含み得る。例えば、小バリアントフィーチャは、図3の方法300のステップ324において出力された候補バリアントを使用して生成される。さらに、コンピュータ分析は、本明細書において説明される実施形態の、任意の数のトレーニングされたモデル(「ベイズ階層モデル」、「ジョイントモデル」など)またはフィルタを含み得る。例示的な小バリアントフィーチャは、体細胞バリアントの総数、非同義バリアントの総数、同義バリアントの総数、遺伝子ごとの体細胞バリアントの存在または非存在、少なくとも1つのタイプの癌と関連付けられることが知られた特定の遺伝子についての体細胞バリアントの存在または非存在、遺伝子ごとの体細胞バリアントの対立遺伝子頻度、体細胞バリアントのAFに従った順序統計量、少なくとも1つのタイプの癌と関連付けられることが知られた体細胞バリアントの、それらの対立遺伝子頻度に基づいた分類、遺伝子パネル内の遺伝子ごとの体細胞バリアントの対立遺伝子頻度(AF)、OncoKBなど公的に利用可能なデータベースによって指定されるような区分ごとの体細胞バリアントのAF、および体細胞バリアントのAFに従った体細胞バリアントの順位序列を含む。
(例えば、標的遺伝子パネル内の)遺伝子ごとの体細胞バリアントのAFを表すフィーチャとは、特定の遺伝子に関連するシーケンスリードにおける体細胞バリアントの頻度の尺度のことを指す。一般に、このフィーチャは、遺伝子パネルの遺伝子ごとに、またはゲノムにわたる遺伝子ごとに1つのフィーチャ値によって表される。このフィーチャの値は、遺伝子の体細胞バリアントのAFの統計値であることができる。フィーチャに値を規定するために使用される正確な測定は、実施形態によって変化することができる。一実施形態においては、このフィーチャの値は、(例えば、ゲノム内の)位置ごとの遺伝子におけるすべての体細胞バリアントの最大AFとして決定される。別の実施形態においては、このフィーチャの値は、位置ごとの遺伝子のすべての体細胞バリアントの平均AFとして決定される。したがって、500個の遺伝子からなる例示的な標的遺伝子パネルについては、遺伝子ごとの体細胞バリアントのAFを表す、500個のフィーチャ値が存在する。最大AFまたは平均AF以外の尺度も、使用され得る。
区分ごとの体細胞バリアントのAFを表すフィーチャは、非特許文献4のOncoKBなどの公的に利用可能なデータベースにアクセスすることによって、決定されることができる。例えば、OncoKBは、遺伝子の臨床情報を、FDA承認、標準ケア、新たな臨床的証拠、および生物学的証拠など、4つの異なる区分のうちの1つに区分けする。そのような各区分は、独自の対応する値を有する独自のフィーチャであり得る。フィーチャを決定するためにアクセスされ得る他の公的に利用可能なデータベースは、非特許文献5の、全米癌研究所のゲノムデータコモンズ(GDC:Genomic Data Commons)によって支援される、癌における体細胞変異のカタログ(COSMIC:Catalogue Of Somatic Mutations In Cancer)および癌ゲノムアトラス(TCGA:The Cancer Genome Atlas)を含む。一実施形態においては、区分フィーチャごとの体細胞バリアントのAFの値は、区分における遺伝子にわたる体細胞バリアントの最大AFとして決定される。別の実施形態においては、区分フィーチャごとの体細胞バリアントのAFの値は、区分における遺伝子にわたる体細胞バリアントにわたる平均AFとして決定される。区分ごとの最大AFおよび区分ごとの平均AF以外の尺度も、使用され得る。
一般に、小バリアントフィーチャについてのフィーチャ値は、個人における癌を示し得る体細胞バリアントの正確な同定において予測される。小バリアントコンピュータ分析は、候補バリアントを、また候補バリアントの中でもとりわけ、個人のゲノムにおそらく存在する体細胞バリアントと、個人における癌を予測する可能性が低い偽陽性バリアントとの間の差を同定する。より具体的には、小バリアントコンピュータ分析は、ノイズなどの干渉信号を考慮して、体細胞ソースに由来する可能性が高い、cfDNAにおいて存在する候補バリアント、および/または(例えば、gDNAもしくはWBC DNAからの)ゲノムソースに帰せられることができるバリアントを同定する。加えて、候補バリアントは、アーチファクトが原因で生じ得、したがって、個人における癌を示さない、偽陽性バリアントを除去するために、ふるい分けられることができる。例として、偽陽性バリアントは、自発的なシトシン脱アミノ化および末端修復エラーが原因で生じる、シーケンスリードのエッジまたはエッジ付近で検出されるバリアントであり得る。したがって、偽陽性バリアントのふるい落とし後に残る体細胞バリアント、およびそれのフィーチャは、小バリアントフィーチャを決定するために、使用されることができる。
体細胞バリアントの総数を示すフィーチャについては、小バリアントコンピュータ分析は、ゲノムまたは遺伝子パネルにわたって、同定された体細胞バリアントを合計する。したがって、個人から獲得されたcfDNAサンプルについては、体細胞バリアントの総数を示すフィーチャは、サンプルのcfDNAにおいて同定された体細胞バリアントの総数である単一の数値として表される。
非同義バリアントの総数を示すフィーチャについては、小バリアントコンピュータ分析は、非同義バリアントである体細胞バリアントを同定するために、同定された体細胞バリアントをさらにふるい分け得る。当技術分野においてよく知られているように、核酸配列の非同義バリアントは、核酸配列と関連付けられた、タンパク質のアミノ酸配列に変化をもたらす。例えば、非同義バリアントは、個人の1つまたは複数の表現型を変更し得、または個人が癌、癌細胞、もしくは他のタイプの疾病を発症する原因となり得る(もしくはそれに対してより無防備にし得る)。したがって、小バリアントコンピュータ分析は、トリヌクレオチドの1つまたは複数の核酸塩基に対する変更は、変更されたトリヌクレオチドに基づいて、異なるアミノ酸が産生される原因となると決定することによって、候補バリアントは非同義バリアントをもたらすと決定する。非同義バリアントの総数についてのフィーチャ値は、ゲノムにわたって同定された非同義バリアントを合計することによって、決定される。したがって、個人から獲得されたcfDNAサンプルについては、非同義バリアントの総数を示すフィーチャは、単一の数値として表される。
同義バリアントの総数を示すフィーチャについては、同義バリアントは、非同義バリアントとして区分けされない、他の体細胞バリアントを表す。言い換えると、小バリアントコンピュータ分析は、非同義バリアントに関連して説明されたように、同定された体細胞バリアントのふるい分けを実行し、ゲノムまたは遺伝子パネルにわたって、同義バリアントを同定する。したがって、個人から獲得されたcfDNAサンプルについては、同義バリアントの総数を示すフィーチャは、単一の数値として表される。
遺伝子ごとの体細胞バリアントの存在/非存在を示すフィーチャは、cfDNAサンプルについての複数のフィーチャ値を含むことができる。例えば、標的遺伝子パネルは、パネル内に500個の遺伝子を含み得、したがって、小バリアントコンピュータ分析は、500個のフィーチャ値を生成することができ、各フィーチャ値は、パネル内の遺伝子についての体細胞バリアントの存在または非存在のどちらかを表す。例として、体細胞バリアントが遺伝子において存在する場合、フィーチャの値は、1である。反対に、体細胞バリアントが遺伝子において存在しない場合、フィーチャの値は、0である。一般に、任意のサイズの遺伝子パネルが、使用され得る。例えば、遺伝子パネルは、ゲノムにわたって、100、200、500、1000、2000、10000、またはより多くの遺伝子標的を含み得る。他の実施形態においては、遺伝子パネルは、約50から約10000の遺伝子標的、約100から約2000の遺伝子標的、または約200から約1000の遺伝子標的を含み得る。
癌と関連付けられることが知られた特定の遺伝子についての体細胞バリアントの存在/非存在を示すフィーチャについては、癌と関連付けられることが知られた特定の遺伝子は、OncoKBなどの公的データベースから入手されることができる。癌と関連付けられることが知られた遺伝子の例は、p53、LRP1b、およびKRASを含む。癌と関連付けられることが知られた各遺伝子は、(遺伝子において体細胞バリアントが存在することを示す)1、または(遺伝子において体細胞バリアントが存在しないことを示す)0などの、フィーチャ値と関連付けられることができる。
(例えば、遺伝子パネルにおける)遺伝子ごとの体細胞バリアントのAFとは、シーケンスリードにおける1つまたは複数の体細胞バリアントの頻度のことを指す。一般に、このフィーチャは、遺伝子パネルの遺伝子ごとに、またはゲノムにわたる遺伝子ごとに1つのフィーチャ値によって表される。このフィーチャの値は、遺伝子の体細胞バリアントのAFの統計値であることができる。様々な実施形態においては、このフィーチャは、最大AFを有する、遺伝子における1つの体細胞バリアントのことである。いくつかの実施形態においては、このフィーチャは、遺伝子の体細胞バリアントの平均AFのことである。したがって、500個の遺伝子の標的遺伝子パネルについては、(例えば、遺伝子パネル内の)遺伝子ごとの体細胞バリアントのAFを表す、500個のフィーチャ値が存在する。
OncoKBなどの公的に利用可能なデータベースによって指定されるような、区分ごとの体細胞バリアントのAF。例えば、OncoKBは、遺伝子を、4つの異なる区分のうちの1つに区分けする。一実施形態においては、区分ごとの体細胞バリアントのAFは、区分における遺伝子にわたる体細胞バリアントの最大AFである。一実施形態においては、区分ごとの体細胞バリアントのAFは、区分における遺伝子にわたる体細胞バリアントにわたる平均AFである。
体細胞バリアントのAFに従った体細胞バリアントの順位序列とは、体細胞バリアントの上位N個の対立遺伝子頻度のことである。一般に、バリアント対立遺伝子頻度の値は、0から1の間であることができ、0のバリアント対立遺伝子頻度は、位置において代替対立遺伝子を所有するシーケンスリードがないことを示し、1のバリアント対立遺伝子頻度は、すべてのシーケンスリードが位置において代替対立遺伝子を所有することを示す。他の実施形態においては、バリアント対立遺伝子頻度の他の範囲および/または値が、使用されることができる。様々な実施形態においては、順位序列フィーチャは、体細胞バリアント自体から独立であり、代わりに、上位N個のバリアント対立遺伝子頻度の値によってだけ表される。上位5個の対立遺伝子頻度についての順位序列フィーチャの例は、[0.1,0.08,0.05,0.03,0.02]と表されることができ、それは、体細胞バリアントから独立の5つの最も高い対立遺伝子頻度が、0.02から最大0.1の範囲であることを示す。
XI.B.例示的な予測癌モデル
小バリアントフィーチャは、予測癌モデルなど、1つまたは複数のタイプのモデルへの入力として、使用され得る。予測癌モデルは、例えば、与えられた個人が、少なくとも1つの特定のタイプの癌または疾病を有する、または発症する可能性が高い尤度を予測する、癌と関連付けられた予測を生成し得る。予測癌モデルは、ステージI、ステージII、ステージIII、およびステージIVの癌のうちの1つまたは複数の検出を予測するために、使用され得る。癌の例示的なタイプは、乳がん、肺がん、大腸がん、卵巣がん、子宮がん、黒色腫、腎臓がん、膵臓がん、甲状腺がん、胃がん、肝胆道がん、食道がん、前立腺がん、リンパ腫、多発性骨髄腫、頭頸部がん、膀胱がん、子宮頸がん、またはそれらの任意の組み合わせを含む。いくつかの実施形態においては、予測癌モデルは、試験サンプルからのシーケンスリードの分析に基づいて、乳がんを、HR陽性、HER2過剰発現、HER2増幅、またはトリプルネガティブとして分類するために使用される。
いくつかの実施形態においては、予測癌モデルを使用する分析は、試験サンプルにおける1つまたは複数のウイルス由来の核酸の存在を検出することを含む。癌の検出は、部分的に、1つまたは複数のウイルス核酸の検出に基づき得る。いくつかの実施形態においては、1つまたは複数のウイルス由来の核酸は、ヒトパピローマウイルス、エプスタイン-バーウイルス、B型肝炎、C型肝炎、およびそれらの任意の組み合わせから成る群から選択される。
図35Aは、一実施形態に従った、個人から獲得されたcfDNAサンプルに由来するフィーチャに基づいて、癌予測を生成するための方法3500のフローチャートである。他の実施形態においては、方法3500は、1つまたは複数のタイプの疾病(例えば、遺伝病もしくは心疾患)、他の健康関連の状態(例えば、不定電位のクローン造血(ChIP))、他の分類、または他のメトリックの予測を生成するために、使用され得る。ステップ3502において、試験サンプルが、個人から獲得される。一般に、サンプルは、健康な被験者、癌を有することが知られた、もしくは疑われる被験者、または事前情報が知られていない被験者(例えば、無症状被験者)からのものであり得る。試験サンプルは、血液、血漿、血清、尿、糞便、および唾液サンプルから成る群から選択されるサンプルであり得る。あるいは、試験サンプルは、全血、血液フラクション、組織生検材料、胸膜液、心膜液、脳脊髄液、および腹水から成る群から選択されるサンプルを含み得る。試験サンプルは、cfDNAを含み得る。様々な実施形態においては、試験サンプルは、例えば、白血球細胞(WBC)DNAからの、ゲノムDNA(gDNA)を含み得る。
ステップ3504において、1つまたは複数の物理的プロセス分析が、実行され、少なくとも1つの物理的プロセス分析は、シーケンスリードを生成するための、cfDNAに対するシーケンシングベースのアッセイを含む。ステップ3506において、シーケンシングベースのアッセイを実行した結果として生成されたシーケンスリードが、フィーチャについての値を決定するために、処理される。フィーチャは、一般に、個人における癌を予測する際に使用され得る、物理的アッセイおよび/またはコンピュータ分析から獲得可能な情報のタイプである。一般に、個人における癌を同定するための任意の与えられた予測モデルは、モデルの構成成分として、1つまたは複数のフィーチャを含む。任意の与えられた患者またはサンプルについて、フィーチャは、物理的および/またはコンピュータ分析から決定される値を有する。これらの値は、モデルの出力を生成するために、予測モデルに入力される。
シーケンスリードは、コンピュータ分析を適用することによって、処理される。一般に、各コンピュータ分析は、これ以降、処理システムと呼ばれる、コンピュータのプロセッサによって実行可能なアルゴリズムを表す。したがって、各コンピュータ分析は、シーケンスリードを分析し、シーケンスリードに基づいて、値フィーチャを出力する。各コンピュータ分析は、与えられたシーケンシングベースのアッセイに固有であり、したがって、各コンピュータ分析は、シーケンシングベースのアッセイに固有の特定のタイプのフィーチャを出力する。小バリアントシーケンシングアッセイの適用から生成されるシーケンスリードは、別名で小バリアントコンピュータ分析とも呼ばれる、コンピュータ分析を使用して処理される。コンピュータ分析は、小バリアントフィーチャを出力する。
ステップ3508において、個人についての癌予測を生成するために、予測癌モデルが、フィーチャに適用される。癌予測の例は、癌の存在または非存在、癌の原発組織、重症度、ステージ、癌の悪性度、癌サブタイプ、治療法の決定、および治療に反応する見込みを含む。様々な実施形態においては、予測癌モデルによって出力される癌予測は、癌の存在または非存在、癌の原発組織、重症度、ステージ、癌の悪性度、癌サブタイプ、治療法の決定、および治療に反応する見込みのうちの1つまたは複数を示す尤度または確率などのスコアである。
一般に、いずれのそのようなスコアも、一般には癌の存在非存在、特定のタイプの癌の存在/非存在など、単数であり得る。あるいは、そのようなスコアは、予測癌モデルの出力が、例えば、多くのタイプの癌の各々の存在/非存在を表すスコア、多くのタイプの癌の各々の重症度/悪性度を表すスコア、および特定のcfDNAが多くのタイプの組織の各々を起源とする尤度を表すスコアなどであり得るように、複数であり得る。説明を明瞭にするために、予測癌モデルの出力は、一般に、スコアのセットと呼ばれ、セットは、予測癌モデルが何を決定するように構成されるかに応じて、1つまたは複数のスコアを含む。
様々な実施形態においては、予測癌モデルは、決定木、アンサンブル学習(例えば、バギング、ブースティング、ランダムフォレスト)、勾配ブースティングマシン、線形回帰、ナイーブベイズ、ニューラルネットワーク、またはロジスティック回帰のうちの1つであることができる。各予測癌モデルは、トレーニング中に調整される、フィーチャについての学習された重みを含む。重みという語は、一般に、ここでは、どの特定の機械学習技法が使用されるかにかかわらず、モデルの任意の与えられたフィーチャと関連付けられた、学習された量を表すために使用される。
トレーニング中、トレーニングデータは、予測癌モデルの重みをトレーニングするために使用される、フィーチャについての値を生成するために、処理される。例として、トレーニングデータは、トレーニングサンプルおよび出力ラベルから獲得された、cfDNAおよび/またはWBC DNAを含むことができる。例えば、出力ラベルは、個人が癌にかかっていると知られているか、それとも癌にかかっていない(例えば、健康である)と知られているかに関する表示、原発の癌組織の表示、または癌の重症度の表示であることができる。特定の実施形態に応じて、予測癌モデルは、トレーニングされるモデルに関連する、1つまたは複数の物理的アッセイおよびコンピュータ分析から獲得された、フィーチャの1つまたは複数についての値を受け取る。トレーニング中のモデルによって出力されたスコアと、トレーニングデータの出力ラベルとの間の差に応じて、予測癌モデルの重みが、予測癌モデルがより正確な予測を行うことを可能にするように、最適化される。様々な実施形態においては、予測癌モデルは、非パラメトリックモデル(例えば、k近傍法)であり得、したがって、予測癌モデルは、パラメータを最適化する必要なしに、より正確に予測を行うように、トレーニングされることができる。トレーニングされた予測癌モデルは、記憶され、その後、必要とされるときに、例えば、図35Aのステップ3508における展開中に、取り出されることができる。
XI.C.例示的なフィーチャ調整
様々な実施形態においては、小バリアントシーケンシングアッセイからのシーケンスリードの準備中に、またはコンピュータ分析中に、出力フィーチャを改善し、調整し、または最適化するために、1つまたは複数のステップが、実行され得る。例えば、調整されたフィーチャの結果として、予測癌モデルは、より大きい感度(例えば、真陽性検出レート)または特異度(例えば、偽陽性検出レート)で、予測を生成し得る。
処理システム200は、小バリアントが、潜在的に1つまたは複数の特定の生物学的区分に属すると決定し得る。生物学的区分は、例えば、適切な区分の中でもとりわけ、遺伝子、遺伝子のイントロンもしくはエクソン、5プライム非翻訳領域(5’UTR)、3プライム非翻訳領域(3’UTR)、もしくはエンハンサ領域などの遺伝子の特定の領域、またはタンパク質コーディング領域を示す。決定に応答して、処理システム200は、対応する生物学的区分の注釈を用いて、小バリアントをラベル付けし得る。いくつかの実施形態においては、処理システム200は、小バリアントが区分に属する尤度を決定し、尤度が閾値よりも大きいと決定したのに応答して、小バリアントに注釈を付ける。
処理システム200は、注釈のために、アンサンブルバリアント効果プレディクタ(VEP)ツールを使用して抽出された情報を使用し得る。小バリアントの(例えば、ゲノムにおける)入力位置、および対応するタイプの変異(例えば、SNVまたはインデル)に基づいて、VEPは、1つまたは複数の遺伝子(例えば、遺伝子の標準的表現もしくは構造)、または転写産物、タンパク質配列、および制御領域など、それから作り出される任意の下流産生物に対する、バリアントの効果を決定し得る。これらの効果を評価することによって、処理システム200は、特定の生物学的区分を小バリアントに割り当てるかどうかを決定し得る。どの生物学的区分(例えば、スプライシング部位、UTR、同義または非同義部位)を使用するかを決定するのに加えて、処理システム200は、フィーチャを決定するために使用する、遺伝子表現(例えば、標準的転写産物または他のアイソフォーム)を決定し得る。一実施形態においては、処理システム200は、注釈のための潜在的な生物学的区分として、遺伝子名の文字列表現にダッシュ(-)文字を有する、遺伝子を含む。例えば、処理システム200は、NKX2-1およびNKX3-1遺伝子における小バリアントを処理する。NKX2-1は、肺または甲状腺腫瘍のためのバイオマーカとして使用され得、NKX3-1は、前立腺腫瘍抑制遺伝子であることが知られている。
注釈は、標的遺伝子シーケンシングパネルによってカバーされる、コーディング遺伝子のセットに影響する、小バリアントにラベル付けすることが意図されている。非同義である(例えば、遺伝子の対応するアミノ酸に影響する)小バリアントにラベル付けするのに加えて、処理システム200は、他の方法で遺伝子転写または発現に影響し得る、小バリアントにもラベル付けすることができる。例えば、TERT(テロメラーゼ逆転写酵素)プロモータは、テロメア長または転写機構に影響し得る。TERTプロモータ変異は、腫瘍形成のバイオマーカであり得るので、処理システム200は、これらの領域における小バリアントにシステマティックに注釈を付けるように構成され得る。別の例として、スプライス部位変異は、必ずしもコーディング領域に見つけられ得るわけではないが、スプライス部位変異も、転写またはタンパク質翻訳に影響し得る。スプライス部位は、エクソンまたはイントロンの境界付近に見つけられるので、スプライス部位変異は、1つまたは複数のエクソンが、転写中に、脱落または付加される原因となり得る。したがって、スプライス部位変異は、中間ステップにおいてアミノ酸を変更することなしに、結果のタンパク質構造に影響し得る。
一実施形態においては、処理システム200は、癌予測のために予測癌モデルに入力される小バリアントフィーチャを決定するのを助けるために、注釈情報を使用する。同じまたは異なる実施形態においては、注釈自体が、フィーチャであり得、フィーチャの値は、(例えば、ゲノムにおける)位置ごとに各遺伝子に割り当てられる、特定の注釈である。例えば、注釈に基づいて、予測癌モデルは、特定のTERTプロモータまたはスプライス部位領域における、変異の存在または非存在を決定し得る。
処理システム200は、コンピュータ分析中に、より多くの生物学的区分にわたって追加のフィーチャを生成するためにも、注釈を使用し得る。例として、処理システム200は、特定のTERTプロモータまたはスプライス部位領域における最大AFを示すフィーチャを決定する。別の追加のフィーチャは、1つまたは複数のTERTプロモータまたはスプライス部位領域のセットにおける、小バリアントの総数であり得る。この概念は、他のゲノム状態に関連するバリアントの存在または非存在にフォーカスされた、同じまたは異なる尺度(例えば、最大AFまたは平均AF)を有する他のフィーチャに拡張可能である。
XI.D.小バリアントフィーチャを使用した例示的な予測
図35Bは、一実施形態に従った、小バリアントフィーチャの第1のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度の受信者動作特性(ROC)曲線を示している。具体的には、予測癌モデルは、癌の存在または非存在を示す、これ以降「A_score」と呼ばれる、スコアを出力する。ROC曲線の総曲線下面積(AUC)は、0.697である。目標が、設定された特異度(例えば、特異度95%または99%)を与えられた場合に、感度を達成することであると仮定すると、図35Bは、85%~100%の特異度範囲内にある、予測癌モデルの性能を示している。この例においては、予測癌モデルに提供される小バリアントフィーチャの第1のセットは、体細胞バリアントの総数と、非同義バリアントの総数とを含む。ROC曲線は、特異度95%において、感度35%を、特異度99%において、感度約19%を示す。特異度99%から特異度95%に進むとき、ROC曲線は、非線形に増加し、それによって、この感度/特異度トレードオフにおいて検出される真陽性が、おそらく存在することを示す。
一実施形態においては、特異度95%の小バリアント予測癌モデルは、フィーチャとして、非同義バリアントの総数を使用し、「A_score」を出力する。予測癌モデルは、25%よりも大きい5年死亡率を有するステージI/II/III癌を検出する、47%の平均感度を有する。予測癌モデルは、25%よりも大きい5年死亡率を有するステージIV癌を検出する、80%の平均感度を有する。予測癌モデルは、25%よりも小さい5年死亡率を有するステージI/II/III癌を検出する、8%の平均感度を有する。予測癌モデルは、25%よりも小さい5年死亡率を有するステージIV癌を検出する、50%の平均感度を有する。
図35Cは、一実施形態に従った、小バリアントフィーチャの第2のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度のROC曲線を示している。具体的には、予測癌モデルは、癌の存在または非存在を示す、これ以降バリアント遺伝子スコアと呼ばれる、スコアを出力する。ROC曲線の総AUCは、0.664である。図35Cは、85%~100%の特異度範囲内にある、予測癌モデルの性能を示している。この例においては、予測癌モデルに提供される小バリアントフィーチャの第2のセットは、遺伝子ごとの体細胞バリアントのAFを含む。ここでは、遺伝子ごとの体細胞バリアントのAFは、各遺伝子における体細胞バリアントの最大AFを表す。したがって、(500個の遺伝子に対応する)遺伝子ごとの体細胞バリアントの最大AFの全部で500個の値が、フィーチャ値として、予測癌モデルに提供された。ROC曲線は、特異度95%において、感度約38%を、特異度99%において、感度約31%を示す。これは、図35Bに示される予測癌モデルの結果と比較して、改善を表す。
図35Dは、一実施形態に従った、小バリアントフィーチャの第3のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度のROC曲線を示している。具体的には、予測癌モデルは、癌の存在または非存在を示す、これ以降Orderスコアと呼ばれる、スコアを出力する。ROC曲線の総AUCは、0.672である。図35Dは、85%~100%の特異度範囲内にある、予測癌モデルの性能を示している。この例においては、予測癌モデルの小バリアントフィーチャは、体細胞バリアントのAFに従って、上位6個の順位序列を含む。ROC曲線は、特異度95%において、感度約37%を、特異度99%において、感度約30%を示す。やはり、これは、図35Bに示される予測癌モデルの結果と比較して、改善を表す。
XII.追加の留意事項
本発明の実施形態についての上述の説明は、例示の目的で提示されたものであり、網羅的であること、または本発明を開示された通りの形態に限定することは、意図されていない。上述の開示を踏まえて、多くの変更および変形が可能であることを、当業者は理解することができる。
この説明のいくつかの部分は、情報に対する操作のアルゴリズムおよびシンボル表現の観点から、本発明の実施形態を説明した。これらのアルゴリズム的な説明および表現は、自分たちの仕事の本質を他の当業者に効果的に伝えるために、データ処理分野の当業者によって、普通に使用されている。これらの操作は、機能的に、計算的に、または論理的に説明されたが、コンピュータプログラムもしくは等価の電気回路、またはマイクロコードなどによって実施されることが、理解される。さらに、一般性を失うことなく、操作のこれらの配置をモジュールと呼ぶことが、便利なことがあることも分かっている。説明される操作、およびそれらに関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで具体化され得る。
本明細書において説明されるステップ、操作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールだけで、または他のデバイスと組み合わせて、実行または実施され得る。一実施形態においては、ソフトウェアモジュールは、説明されるステップ、操作、またはプロセスのいずれかまたはすべてを実行するために、コンピュータプロセッサによって実行されることができる、コンピュータプログラムコードを含む、コンピュータ可読非一時媒体を含む、コンピュータプログラム製品を用いて実施される。
本発明の実施形態は、本明細書において説明されるコンピューティングプロセスによって生産される製品にも関連し得る。そのような製品は、コンピューティングプロセスからもたらされる情報を含み得、情報は、非一時的な有形なコンピュータ可読記憶媒体上に記憶され、またそのような製品は、本明細書において説明されるコンピュータプログラム製品または他のデータ組み合わせの任意の実施形態を含み得る。
最後に、本明細書において使用される言葉は、主に、読みやすさ、および教示目的で選択されており、それは、本発明の主題を叙述または制限するために選択されていないことがある。したがって、本発明の範囲は、この詳細な説明によってではなく、むしろ、本明細書に基づいた出願において公表されるいずれかの請求項によって限定されることが、意図されている。したがって、本発明の実施形態の開示は、以下の特許請求の範囲において説明される、本発明の範囲を、限定することなく、例示することが、意図されている。

Claims (2)

  1. 被験者についての癌予測を決定するための方法であって、前記方法は、
    前記被験者から獲得された試験サンプルにおける無細胞核酸と関連付けられたデータセットを獲得するステップであって、前記データセットは前記無細胞核酸上のシーケンシングアッセイから生成されたシーケンスリードを備えるステップと、
    前記シーケンスリード上のコンピュータ分析を実行するまたは実行した、1つまたは複数のフィーチャの値を生成するステップであって、1つまたは複数の前記フィーチャは前記試験サンプルにおける前記無細胞核酸上の小バリアントシーケンシングアッセイから導出されるステップと
    1つまたは複数の前記フィーチャの前記値を予測癌モデルに入力し前記被験者についての癌予測を生成するステップであって、前記予測癌モデルは、学習された重みを備える関数を通して、1つまたは複数の前記フィーチャの前記値を前記被験者についての前記癌予測へ変換するステップと、
    前記被験者についての前記癌予測を提供するステップと、
    を備える、方法。
  2. 1つまたは複数の前記フィーチャは、体細胞バリアントの総数と、非同義バリアントの総数と、同義バリアントの総数と、遺伝子パネル内の遺伝子ごとの体細胞バリアントの存在または非存在と、癌に関連付けられたと知られている特定の遺伝子についての体細胞バリアントの存在または非存在と、遺伝子パネル内の遺伝子ごとの体細胞バリアントの対立遺伝子頻度と、体細胞バリアントのAFに従った順位序列と、区分ごとの体細胞バリアントの対立遺伝子頻度とのうちの1つまたは複数、を備える、請求項1に記載の方法。
JP2023127900A 2017-11-28 2023-08-04 ターゲットシーケンシングのためのモデル Pending JP2023156402A (ja)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US201762591637P 2017-11-28 2017-11-28
US62/591,637 2017-11-28
US201762610917P 2017-12-27 2017-12-27
US62/610,917 2017-12-27
US201862642301P 2018-03-13 2018-03-13
US62/642,301 2018-03-13
US201862679347P 2018-06-01 2018-06-01
US62/679,347 2018-06-01
PCT/US2018/062666 WO2019108555A1 (en) 2017-11-28 2018-11-27 Models for targeted sequencing
JP2020529278A JP2021503922A (ja) 2017-11-28 2018-11-27 ターゲットシーケンシングのためのモデル

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020529278A Division JP2021503922A (ja) 2017-11-28 2018-11-27 ターゲットシーケンシングのためのモデル

Publications (1)

Publication Number Publication Date
JP2023156402A true JP2023156402A (ja) 2023-10-24

Family

ID=64734136

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020529278A Pending JP2021503922A (ja) 2017-11-28 2018-11-27 ターゲットシーケンシングのためのモデル
JP2023127900A Pending JP2023156402A (ja) 2017-11-28 2023-08-04 ターゲットシーケンシングのためのモデル

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020529278A Pending JP2021503922A (ja) 2017-11-28 2018-11-27 ターゲットシーケンシングのためのモデル

Country Status (7)

Country Link
US (1) US11961589B2 (ja)
EP (1) EP3717662A1 (ja)
JP (2) JP2021503922A (ja)
AU (1) AU2018375302A1 (ja)
CA (1) CA3080170A1 (ja)
TW (1) TWI814753B (ja)
WO (1) WO2019108555A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11728007B2 (en) * 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
TW202410055A (zh) 2018-06-01 2024-03-01 美商格瑞爾有限責任公司 用於資料分類之卷積神經網路系統及方法
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
EP3899955A1 (en) 2018-12-19 2021-10-27 Grail, Inc. Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
WO2021016441A1 (en) 2019-07-23 2021-01-28 Grail, Inc. Systems and methods for determining tumor fraction
WO2021041968A1 (en) * 2019-08-28 2021-03-04 Grail, Inc. Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
GB201914064D0 (en) * 2019-09-30 2019-11-13 Longas Tech Pty Ltd Method for determining a measure correlated to the probability that two mutated sequence reads derive from the same sequence comprising mutations
CN112133277B (zh) * 2020-11-20 2021-02-26 北京猿力未来科技有限公司 样本生成方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127186A1 (en) 2009-04-30 2010-11-04 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
CN110016499B (zh) 2011-04-15 2023-11-14 约翰·霍普金斯大学 安全测序系统
EP4234713A3 (en) 2012-03-20 2024-02-14 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
EP2891099A4 (en) 2012-08-28 2016-04-20 Broad Inst Inc DETECTION OF VARIANTS IN SEQUENCING DATA AND CALIBRATION
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
EP4036247B1 (en) 2012-09-04 2024-04-10 Guardant Health, Inc. Methods to detect rare mutations and copy number variation
WO2015173222A1 (en) * 2014-05-12 2015-11-19 Roche Diagnostics Gmbh Rare variant calls in ultra-deep sequencing
ES2923602T3 (es) 2014-12-31 2022-09-28 Guardant Health Inc Detección y tratamiento de enfermedades que muestran heterogeneidad celular de enfermedad y sistemas y métodos para comunicar los resultados de las pruebas
US9984201B2 (en) 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
US20170058332A1 (en) 2015-09-02 2017-03-02 Guardant Health, Inc. Identification of somatic mutations versus germline variants for cell-free dna variant calling applications
US10982286B2 (en) * 2016-01-22 2021-04-20 Mayo Foundation For Medical Education And Research Algorithmic approach for determining the plasma genome abnormality PGA and the urine genome abnormality UGA scores based on cell free cfDNA copy number variations in plasma and urine
EP3443066A4 (en) 2016-04-14 2019-12-11 Guardant Health, Inc. EARLY DETECTION METHODS FOR CANCER
BR112019018272A2 (pt) 2017-03-02 2020-07-28 Youhealth Oncotech, Limited marcadores metilação para diagnosticar hepatocelular carcinoma e câncer
EP3682035A4 (en) * 2017-09-15 2021-09-29 The Regents of the University of California DETECTION OF SOMATIC MONONUCLEOTID VARIANTS FROM ACELLULAR NUCLEIC ACID WITH APPLICATION TO MINIMUM RESIDUAL DISEASE SURVEILLANCE
WO2019060640A1 (en) * 2017-09-20 2019-03-28 Guardant Health, Inc. METHODS AND SYSTEMS FOR DIFFERENTIATING SOMATIC VARIANTS AND GERMINAL LINE VARIANTS
US20200105375A1 (en) * 2018-09-28 2020-04-02 Grail, Inc. Models for targeted sequencing of rna

Also Published As

Publication number Publication date
WO2019108555A8 (en) 2019-08-08
CN111742059A (zh) 2020-10-02
US20190164627A1 (en) 2019-05-30
AU2018375302A1 (en) 2020-06-11
CA3080170A1 (en) 2019-06-06
TW201926095A (zh) 2019-07-01
US11961589B2 (en) 2024-04-16
JP2021503922A (ja) 2021-02-15
WO2019108555A1 (en) 2019-06-06
TWI814753B (zh) 2023-09-11
EP3717662A1 (en) 2020-10-07

Similar Documents

Publication Publication Date Title
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
JP2023156402A (ja) ターゲットシーケンシングのためのモデル
US20210310075A1 (en) Cancer Classification with Synthetic Training Samples
US20220090211A1 (en) Sample Validation for Cancer Classification
WO2020132151A1 (en) Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
TWI781230B (zh) 使用針對標靶定序的定點雜訊模型之方法、系統及電腦產品
US20230090925A1 (en) Methylation fragment probabilistic noise model with noisy region filtration
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
CN111742059B (en) Model for targeted sequencing
US20200105374A1 (en) Mixture model for targeted sequencing
US20240055073A1 (en) Sample contamination detection of contaminated fragments with cpg-snp contamination markers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230904