JP2021534803A - 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム - Google Patents

無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム Download PDF

Info

Publication number
JP2021534803A
JP2021534803A JP2021512247A JP2021512247A JP2021534803A JP 2021534803 A JP2021534803 A JP 2021534803A JP 2021512247 A JP2021512247 A JP 2021512247A JP 2021512247 A JP2021512247 A JP 2021512247A JP 2021534803 A JP2021534803 A JP 2021534803A
Authority
JP
Japan
Prior art keywords
sample
cnv
threshold
nucleic acid
germline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021512247A
Other languages
English (en)
Inventor
ジン ジャオ,
スティーブン フェアクロー,
トレイシー ナンス,
ジエ イン,
Original Assignee
ガーダント ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ガーダント ヘルス, インコーポレイテッド filed Critical ガーダント ヘルス, インコーポレイテッド
Publication of JP2021534803A publication Critical patent/JP2021534803A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Abstract

本明細書において、アレル不均衡試料と、コンタミネーションが生じた試料または第2のゲノムを含む試料との区別において直面する問題が認識される。コンタミネーションまたは第2のゲノムを含む試料からの無細胞核酸をアッセイする場合、そのような試料は、追加の人手による精査、または追加のシーケンシングランの実施を必要とすることがある。その結果、アレル不均衡試料と、コンタミネーションが生じた試料または第2ゲノム試料との識別に失敗すると、そのような試料を信頼性をもってアッセイするためのコストと所要時間が著しく増大しうる。

Description

相互参照
本出願は、2018年9月4日に出願された米国仮特許出願第62/726,922号、および2019年2月26日に出願された米国仮特許出願第62/810,625号に基づく利益を主張し、これらの出願は、それぞれ参照によりその全体が本明細書に援用される。
背景
がんの対象(例えば、患者)において、アレル不均衡は、ヘテロ接合性の喪失によって引き起こされることがあり、また、アレル不均衡がない試料と比較して、対象からの無細胞核酸試料のアッセイにおいて、異なった変異アレル割合(MAF)分布をもたらしうる。例えば、アレル不均衡がある試料は、MAFが非常に低い生殖系列バリアントを含みうる。例えばシーケンシングのための処置中などに、試料にコンタミネーションが生じた場合や、試料が、例えば移植片、輸血、または胎児から生じた(対象のゲノム以外の)第2のゲノムを含む場合にも、MAFが低い生殖系列バリアントが観察されることがある。
要旨
本明細書において、アレル不均衡試料と、コンタミネーションが生じた試料または第2のゲノムを含む試料との区別において直面する問題が認識される。コンタミネーションまたは第2のゲノムを含む試料からの無細胞核酸をアッセイする場合、そのような試料は、追加の人手による精査、または追加のシーケンシングランの実施を必要とすることがある。その結果、アレル不均衡試料と、コンタミネーションが生じた試料または第2ゲノム試料との識別に失敗すると、そのような試料を信頼性をもってアッセイするためのコストと所要時間が著しく増大しうる。本開示は、無細胞核酸試料におけるアレル不均衡またはコンタミネーションを識別する方法およびシステムを提供する。これらの方法およびシステムによれば、小さなバリアントおよびコピー数多型の定量的測定値を取得および解析することによって、アレル不均衡またはコンタミネーションを識別しうる。
一態様において、本開示は、対象からの試料におけるアレル不均衡の存在または非存在を検出するための方法であって、(a)前記試料からの複数の無細胞核酸分子をシーケンシングして、複数の配列リードを生成すること;(b)前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること;(c)前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合(MAF)で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること(ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAF値を有する);(d)(c)において識別された、MAF値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること;および(e)(c)において識別された前記生殖系列バリアントのセットを、少なくとも前記(d)の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を所定の基準に基づいて検出すること、を含む方法を提供する。
一態様において、本開示は、対象からの試料におけるアレル不均衡の存在または非存在を検出するための方法であって、(a)前記試料からの複数の無細胞デオキシリボ核酸(DNA)分子をシーケンシングして、複数の配列リードを生成すること;(b)前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること;(c)前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合(MAF)で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること(ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAF値を有する);(d)(c)において識別された、MAF値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること;および(e)(c)において識別された前記生殖系列バリアントのセットを、少なくとも前記(d)の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を所定の基準に基づいて検出すること、を含む方法を提供する。
いくつかの実施形態において、前記(e)における検出は、前記複数のアラインした配列リードから、コピー数多型(CNV)または二倍体遺伝子を示す1つまたはそれを超える定量的測定値を検出すること(ここで、前記所定の基準は、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値を含む)を含む。
いくつかの実施形態において、本方法は、前記試料において前記アレル不均衡の非存在が検出された場合に、前記試料におけるコンタミネーションまたは第2のゲノムの存在または非存在を検出することをさらに含む。
いくつかの実施形態において、前記生殖系列バリアントのセットは、少なくとも約50、少なくとも約100、少なくとも約200、少なくとも約500、少なくとも約1,000、少なくとも約2,000、少なくとも約5,000、少なくとも約10,000または約10,000を超える異なる生殖系列バリアントを含む。いくつかの実施形態において、前記遺伝子バリアントのセットは、一塩基バリアント(SNV)、挿入または欠失(挿入欠失)、および融合からなる群から選択される遺伝子バリアントを含む。いくつかの実施形態において、前記試料は、血液、血漿、血清、尿、唾液、粘膜分泌物、喀痰、便、および涙からなる群から選択される体液試料である。いくつかの実施形態において、前記対象は、疾患または障害を有する。いくつかの実施形態において、前記疾患は、がんである。
いくつかの実施形態において、前記方法は、シーケンシングの前に、無細胞DNA分子を増幅することをさらに含む。いくつかの実施形態において、前記方法は、シーケンシングの前に、遺伝子座のセットについて前記無細胞DNA分子を選択的に富化することをさらに含む。いくつかの実施形態において、前記方法は、シーケンシングの前に、バーコードを含む1つまたはそれを超えるアダプターを、前記無細胞DNA分子に結合させることをさらに含む。いくつかの実施形態において、前記1つまたはそれを超えるアダプターは、前記無細胞DNA分子の両方の末端にランダムに結合される。いくつかの実施形態において、前記無細胞DNA分子は、固有にバーコード化される。いくつかの実施形態において、前記無細胞DNA分子は、非固有にバーコード化される。いくつかの実施形態において、各バーコードは、選択された領域からシーケンシングされた分子の多様性と組み合わせて、固有の無細胞DNA分子の識別を可能にする、既定のまたはセミランダムなオリゴヌクレオチド配列を含む。いくつかの実施形態において、前記複数のゲノム領域は、COSMIC、TCGA(The Cancer Genome Atlas)、またはExAC(Exome Aggregation Consortium)中に見いだされる遺伝子バリアントを含む。いくつかのケースにおいて、遺伝子バリアントは、臨床的に利用可能なバリアントの既定のセットに属していてもよい。例えば、そのようなバリアントは、対象の試料におけるそのバリアント存在が、その対象における疾患もしくは障害(例えば、がん)と関連すること、またはその対象における疾患もしくは障害(例えば、がん)を表すことが示されているバリアントの種々のデータベース中に見いだされうる。そのようなバリアントのデータベースとしては、例えば、COSMIC(Catalogue of Somatic Mutations in Cancer)、TCGA(The Cancer Genome Atlas)、およびExAC(Exome Aggregation Consortium)が挙げられ得る。いくつかの実施形態において、前記複数のゲノム領域は、BRCA1遺伝子バリアント(例えば、BRCA1 P209L)を含む。そのようなカタログ化されたバリアントの既定のセットは、そのようなバリアントが医療判断(例えば、診断、予後、処置の選択、標的化処置、処置モニタリング、再発のモニタリングなど)と関連することから、さらなるバイオインフォマティクス解析用に選定されうる。そのような既定のセットは、パブリックデータベースおよび臨床文献からのアノテーション情報、ならびに、例えば、臨床試料(例えば、疾患または障害の存在または非存在が既知の患者コホートの臨床試料)の分析に基づいて決定されうる。
いくつかの実施形態において、前記複数の別々の範囲のMAF値は、約3%〜約40%の第1の範囲、および約60%〜約97%の第2の範囲を含む。いくつかの実施形態において、前記(d)の定量的測定値は、MAF値の前記複数の別々の範囲の間にある、前記遺伝子バリアントの多数のセットを含む。いくつかの実施形態において、前記所定の基準は、前記(d)の定量的測定値が所定の生殖系列バリアント閾値より大きいことを含む。いくつかの実施形態において、前記所定の生殖系列バリアント閾値は、約21である。いくつかの実施形態において、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値は、前記試料全体の最大CNVレベル、前記試料全体の最小CNVレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される。いくつかの実施形態において、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値は、前記試料全体の最大CNVレベル、前記試料全体の最小CNVレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、2つまたはそれを超える定量的測定値を含む。いくつかの実施形態において、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値は、前記試料全体の最大CNVレベル、前記試料全体の最小CNVレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、3つまたはそれを超える定量的測定値を含む。いくつかの実施形態において、前記所定の基準は、以下の基準、すなわち、前記試料全体の最大CNVレベルが所定の最大CNV閾値より大きい、前記試料全体の最小CNVレベルが所定の最小CNV閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのMAFは、約3%より小さい、からなる群から選択される1つまたはそれを超える基準を含む。いくつかの実施形態において、前記所定の基準は、以下の基準、すなわち、前記試料全体の最大CNVレベルが所定の最大CNV閾値より大きい、前記試料全体の最小CNVレベルが所定の最小CNV閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのMAFは、約3%より小さい、からなる群から選択される2つまたはそれを超える基準を含む。いくつかの実施形態において、前記所定の基準は、以下の基準、すなわち、前記試料全体の最大CNVレベルが所定の最大CNV閾値より大きい、前記試料全体の最小CNVレベルが所定の最小CNV閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのMAFは、約3%より小さい、からなる群から選択される3つまたはそれを超える基準を含む。いくつかの実施形態において、前記所定の基準は、前記試料全体の最大CNVレベルが所定の最大CNV閾値より大きい、前記試料全体の最小CNVレベルが所定の最小CNV閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのMAFは、約3%より小さい、、という基準を含む。いくつかの実施形態において、前記所定の基準は、以下の閾値、すなわち、最大CNV閾値が約0.22、最小CNV閾値が約−0.14、二倍体割合閾値が約0.7、およびコピー数平均閾値が約10、からなる群から選択される1つまたはそれを超える閾値を含む。いくつかの実施形態において、前記所定の基準は、以下の閾値、すなわち、最大CNV閾値が約0.20、約0.21、または0.22;最小CNV閾値が約−0.10、約−0.11、約−0.12、約−0.13、約−0.14、または約−0.15;二倍体割合閾値が約0.5、約0.6、約0.7、約0.8、約0.9、約0.10;およびコピー数平均閾値が約5、約6、約7、約8、約9、約10、または約15、からなる群から選択される2つまたはそれを超える閾値を含む。いくつかの実施形態において、前記所定の基準は、以下の閾値、すなわち、最大CNV閾値が約0.22、最小CNV閾値が約−0.14、二倍体割合閾値が約0.7、およびコピー数平均閾値が約10、からなる群から選択される3つまたはそれを超える閾値を含む。いくつかの実施形態において、前記所定の基準は、最大CNV閾値が約0.22、最小CNV閾値が約−0.14、二倍体割合閾値が約0.7、およびコピー数平均閾値が約10、という閾値を含む。
いくつかの実施形態において、前記方法は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の陽性的中率(PPV)で、前記試料中の前記コンタミネーションまたは前記第2のゲノムの存在を検出することをさらに含む。いくつかの実施形態において、前記方法は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の陰性的中率(NPV)で、前記試料中の前記コンタミネーションまたは前記第2のゲノムの非存在を検出することをさらに含む。いくつかの実施形態において、前記PPVおよび/またはNPVは、コンタミネーション/アレル不均衡の状態が既知である試料の訓練セット(例えば、約10個の試料、約20個の試料、約30個の試料、約40個の試料、約50個の試料、約100個の試料、約150個の試料、約200個の試料、または約250個の試料)からの試験データに基づいて決定される。
いくつかの実施形態において、前記方法は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の感度で、前記試料中の前記コンタミネーションまたは前記第2のゲノムの存在を検出することをさらに含む。
いくつかの実施形態において、前記方法は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の特異性で、前記試料中の前記コンタミネーションまたは前記第2のゲノムの非存在を検出することをさらに含む。
いくつかの実施形態において、前記方法は、前記生殖系列バリアントを、(i)前記cfDNA分子からの核酸バリアントについて、総アレル数および変異アレル数を決定すること;(ii)前記cfDNA分子からの前記核酸バリアントの関連変数を識別すること;(iii)前記核酸バリアントの前記関連変数についての定量値を決定すること;(iv)前記核酸バリアントのゲノム遺伝子座において予測される生殖系列変異アレル数についての統計モデルを生成すること;(v)予測される生殖系列変異アレル数についての前記統計モデル、前記核酸バリアントの前記関連変数についての前記定量値、および前記核酸バリアントについての前記総アレル数および前記変異アレル数の少なくとも1つ、に少なくとも部分的に基づいて、前記核酸バリアントについてのP値(probability value)を生成すること;および(vi)前記核酸バリアントを、(1)前記核酸バリアントについての前記p値が所定の閾値より小さい場合に体細胞起源であるとして、または(2)前記核酸バリアントについての前記p値が所定の閾値以上である場合に生殖系列起源であるとして分類すること、によって識別することをさらに含む。
いくつかの実施形態において、前記方法は、(c)において所与のMAFで存在するものとして識別された前記生殖系列バリアントのセットの少なくとも1つに基づいて、前記試料におけるアレル特異的喪失を検出することをさらに含む。いくつかの実施形態において、前記試料における前記アレル特異的喪失は、前記生殖系列バリアントのセットの前記少なくとも1つが、前記対象からの前記試料中に、50%を下回るMAFで存在することに基づいて検出される。いくつかの実施形態において、前記試料における前記アレル特異的喪失は、前記生殖系列バリアントのセットの前記少なくとも1つが、前記対象からの前記試料中、および追加の1つまたはそれを超える対象からの1つまたはそれを超える各試料中に、50%を下回るMAFで存在することに基づいて検出される。いくつかの実施形態において、前記生殖系列バリアントのセットの前記少なくとも1つは、COSMIC、(The Cancer Genome Atlas;TGCA)、またはExAC(Exome Aggregation Consortium)中に見いだされる。いくつかの実施形態において、前記生殖系列バリアントのセットの前記少なくとも1つは、BRCA1遺伝子バリアントである。いくつかの実施形態において、前記BRCA1遺伝子バリアントは、BRCA1 P209Lである。
別の態様において、本開示は、システムであって、少なくとも1つの電子プロセッサによって実行された場合に、少なくとも(a)対象の試料からの複数の無細胞デオキシリボ核酸(DNA)分子に対応する、複数の配列リードを得ること;(b)前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること;(c)前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合(MAF)で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること(ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAF値を有する);(d)(c)において識別された、MAF値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること;および(e)(c)において識別された前記生殖系列バリアントのセットを、少なくとも前記(d)の定量的測定値に基づいてフィルタリングすることによって、前記試料中のアレル不均衡の存在または非存在を所定の基準に基づいて検出すること、を実施する非一時的なコンピュータ実行可能命令を含むコンピュータ可読媒体を含むコントローラー、または前記コンピュータ可読媒体にアクセスすることができるコントローラーを含む、システムを提供する。
いくつかの実施形態において、前記(e)における検出は、前記複数のアラインした配列リードから、コピー数多型(CNV)または二倍体遺伝子を示す1つまたはそれを超える定量的測定値を検出すること(ここで、前記所定の基準は、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値を含む)をさらに含む。いくつかの実施形態において、前記システムは、前記コントローラーに作動可能に接続された核酸シーケンサー(ここで、前記核酸シーケンサーは、前記試料からの前記複数の無細胞DNA分子を処理して、前記複数の配列リードを生成するように構成されている)をさらに含む。
いくつかの実施形態において、前記非一時的なコンピュータ実行可能命令は、少なくとも1つの電子プロセッサによって実行された場合に、前記試料の前記アレル不均衡の存在または非存在についての情報および/または前記試料の前記コンタミネーションもしくは第2のゲノムの存在または非存在についての情報を必要に応じて含むレポートを生成すること、をさらに実施する。いくつかの実施形態において、前記非一時的なコンピュータ実行可能命令は、少なくとも1つの電子プロセッサによって実行された場合に、前記レポートを第三者(例えば、前記試料の起源である前記対象、または医療従事者など)に伝えること、をさらに実施する。
一態様において、本開示は、対象からの試料におけるアレル不均衡の存在または非存在を検出するための方法であって、(a)前記試料からの複数の無細胞デオキシリボ核酸(DNA)分子から生成された複数のシーケンシングリードに、コンピュータシステムによってアクセスすること;(b)前記複数の配列リードの少なくとも一部を、前記コンピュータシステムによって参照配列にアラインして、複数のアラインした配列リードを生成すること;(c)前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合(MAF)で存在する生殖系列バリアントを、前記コンピュータシステムによって識別することによって、前記試料中の生殖系列バリアントのセットを識別すること(ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAF値を有する);(d)(c)において識別された、MAF値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を、前記コンピュータシステムによって決定すること;および(e)(c)において識別された前記生殖系列バリアントのセットを、少なくとも前記(d)の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を、前記コンピュータシステムによって、所定の基準に基づいて検出すること、を含む方法を提供する。
いくつかの実施形態において、前記(e)における検出は、(f)前記複数のアラインした配列リードから、コピー数多型(CNV)または二倍体遺伝子を示す1つまたはそれを超える定量的測定値を、前記コンピュータシステムによって検出すること(ここで、前記所定の基準は、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値を含む)を含む。
いくつかの実施形態において、前記方法は、前記試料の前記アレル不均衡の前記存在または非存在についての情報および/または前記試料の前記コンタミネーションもしくは第2のゲノムの存在または非存在についての情報を必要に応じて含むレポートを生成すること、をさらに含む。いくつかの実施形態において、前記方法は、前記レポートを第三者(例えば、前記試料の起源である前記対象、または医療従事者など)に伝えること、をさらに含む。
本開示の別の態様は、非一時的なコンピュータ可読媒体であって、1つまたはそれを超えるコンピュータプロセッサによる実行の際に、上記方法または本明細書の他の場所に記載されている方法のいずれかを実行するマシン実行可能コードを含む、非一時的なコンピュータ可読媒体を提供する。
本開示の別の態様は、システムであって、1つまたはそれを超えるコンピュータプロセッサ、およびそれに接続されたコンピュータメモリー、を含むシステムを提供する。前記コンピュータメモリーは、前記1つまたはそれを超えるコンピュータプロセッサによる実行の際に、上記方法または本明細書の他の場所に記載されている方法のいずれかを実行する、マシン実行可能コードを含む。
本開示の追加の態様および利点は、以下の詳細な説明(ここで、前記詳細な説明には、本開示の例示的な実施形態だけが示され、かつ説明されている)から、当業者に容易に明らかとなるであろう。認識されるであろうように、本開示は、他の異なる実施形態が可能であり、そのいくつかの細部は種々の明白な点で変更することが可能であり、それらは全て本開示から逸脱するものではない。したがって、図面および説明は、本質的に例示とみなされるべきであり、限定とみなされるべきではない。
図1は、本明細書において提供される方法の例を示す。
図2は、無細胞DNA試料におけるアレル不均衡またはコンタミネーションを検出するワークフローの例を示す。
図3は、本明細書において提供される方法を実行するようにプログラムされた、または別のやり方で実行するように構成された、コンピュータシステムを示すダイアグラムである。
定義
本開示の種々の実施形態が本明細書において示されかつ説明されているが、当業者は、そのような実施形態は例として示されているにすぎないことを理解するであろう。多数の変形、変更、および置換が、本開示を逸脱することなく、当業者によって見いだされうる。本明細書に記載の本開示の実施形態に対する種々の代替が採用されうることを理解すべきである。
アダプター:用語「アダプター」は、試料核酸分子のいずれかの末端または両方の末端に結合させるための、通常少なくとも部分的に二本鎖である短い核酸(例えば、長さが500ヌクレオチド未満、100ヌクレオチド未満、または50ヌクレオチド未満)を意味する。アダプターは、両方の末端にアダプターが隣接配置された核酸分子の増幅を可能にするプライマー結合部位、および/またはシーケンシングプライマー結合部位(次世代シーケンシング(NGS)のためのプライマー結合部位が含まれる)を含みうる。アダプターは、フローセル支持体に結合したオリゴヌクレオチドなど、捕捉プローブのための結合部位も含みうる。アダプターは、上述のように、タグも含みうる。タグは、好ましくは、核酸分子のアンプリコンおよびシーケンシングリードにタグが含まれるように、プライマーおよびシーケンシングプライマー結合部位に対して配置される。核酸分子の各末端に、同一の、または異なるアダプターを連結することができる。場合により、前記各末端に、タグが異なることを除いて同一のアダプターが連結されることがある。好ましいアダプターは、核酸分子に結合するために、一方の末端が平滑末端または突出末端であるY字型アダプターである(前記核酸分子もまた、平滑末端であるか、1つまたはそれを超える相補的ヌクレオチドが突出している)。別の好ましいアダプターは、同様に、分析しようとする核酸に結合するための平滑または突出末端を有する、ベル型アダプターである。
アレル不均衡:用語「アレル不均衡」は、一般に、遺伝子における(例えば、ヘテロ接合性の喪失の結果としての)2つのアレル間のDNAレベルの相異を意味する。アレル不均衡は、遺伝子における2つのアレル間のDNAレベルの比が約1ではない場合に生じうる。例えば、アレル不均衡は、遺伝子インプリンティングの結果として生じうる(遺伝子インプリンティングにおいては、エピジェネティクスおよび環境因子が所与の遺伝子における一方または両方のアレルの発現に影響しうる)。別の例として、シス作用性変異は、遺伝子におけるアレルのペアのうちの1つのアレルの制御に(例えば、プロモーターまたはエンハンサー領域(例えば、転写因子結合部位)の変化または3’UTR領域への変化によって)影響しうる。
アレル不均衡候補:用語「アレル不均衡候補」は、一般に、アレル不均衡またはコンタミネーションの存在または非存在を検出するために(例えば、本開示の方法、システム、および媒体を用いて)分析されている試料を意味する。
無細胞核酸:語句「無細胞核酸」は、細胞に含まれていない、または別の方法で細胞に結合されていない核酸、言い換えれば、インタクトな細胞を除去した試料中に残存する核酸を意味しうる。無細胞核酸は、対象由来の体液(例えば、血液、尿、CSFなど)を起源とする全ての非封入核酸を指しうる。無細胞核酸としては、DNA(cfDNA)、RNA(cfRNA)、およびそれらのハイブリッドがあげられ、ゲノムDNA、ミトコンドリアDNA、循環DNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体RNA(snoRNA)、Piwi結合RNA(piRNA)、長い非コーディングRNA(長鎖ncRNA)、またはこれらのいずれかのフラグメントが含まれる。無細胞核酸は、二本鎖、一本鎖、またはそれらのハイブリッドでありうる。無細胞核酸は、分泌または細胞死プロセス(例えば、細胞のネクローシスおよびアポトーシス)を通じて体液中に放出されうる。無細胞核酸は、エクソソーム中に見いだされうる。いくつかの無細胞核酸は、がん細胞から体液中に放出されうる(例えば、循環腫瘍DNA(ctDNA))。その他の無細胞核酸は、健常細胞から放出される。ctDNAは、非封入腫瘍由来断片化DNAでありうる。無細胞胎児DNA(cffDNA)は、母体血流中を自由に循環している胎児DNAである。無細胞核酸は、1つまたはそれを超えるエピジェネティックな修飾を有しうる。例えば、無細胞核酸は、アセチル化、5−メチル化、ユビキチン化、リン酸化、SUMO化、リボシル化、および/またはシトルリン化されうる。
コンタミネーション:用語「コンタミネーション」は、1つの試料への、別の試料による、任意の化学的またはデジタルなコンタミネーションを意味する。コンタミネーションは、多様な発生源、例えば、それらに限定されないが、(1)アッセイレベルのコンタミネーション、例えば、試料間の液体の物理的なキャリーオーバー(例えば、ピペッティング、サンプル調製装置またはシーケンサーによる自動化された液体ハンドリング、増幅された材料の取扱い);デマルチプレクシングアーティファクト(例えば、ペアワイズハミング距離が乏しい試料インデックスを混同させるベースコールエラー;ペアワイズハミング距離が乏しい試料インデックスを混同させる挿入/欠失);試薬の不純物(例えば、同一バッチ中で合成されたオリゴがあるレベルで欠落している試料インデックスオリゴ;(合成エラーのキャリーオーバーのいずれかを通じて)別の試料インデックスを含むオリゴによるコンタミネーションが生じた試料インデックスオリゴ);または(2)第2のゲノムを含有する試料に起因しうる。
コピー数バリアント:本明細書で用いられる場合、「コピー数バリアント」、「CNV」、または「コピー数多型」は、ゲノムのセクションが繰り返されており、前記ゲノムにおける繰り返し数が、検討されている集団内の個体間で異なり、個体の2つの条件または状態間で異なる(例えば、CNVは、ある個体において、治療前後で異なりうる)現象を意味する。
デオキシリボ核酸およびリボ核酸:用語「DNA(デオキシリボ核酸)」は、糖部分の2’位に水素基を有する、天然または改変ヌクレオチドを意味する。DNAには、典型的には、4種類のヌクレオチド塩基、すなわちアデニン(A)、チミン(T)、シトシン(C)、およびグアニン(G)を含むヌクレオチド鎖が含まれる。本明細書で用いられる場合、「リボ核酸」または「RNA」は、糖部分の2’位に水酸基を有する、天然または改変ヌクレオチドを意味する。RNAには、典型的には、4種類のヌクレオチド、すなわちA、ウラシル(U)、G、およびCを含むヌクレオチドが含まれる。本明細書で用いられる場合、用語「ヌクレオチド」は、天然ヌクレオチドまたは改変ヌクレオチドを意味する。ある特定のヌクレオチドのペアは、相補的な様式で、互いに特異的に結合する(相補的塩基対合と呼ばれる)。DNAにおいて、アデニン(A)はチミン(T)とペアになり、シトシン(C)はグアニン(G)とペアになる。RNAにおいて、アデニン(A)はウラシル(U)とペアになり、シトシン(C)はグアニン(G)とペアになる。第1の核酸鎖が、前記第1の鎖に相補的なヌクレオチドからなる第2の核酸鎖に結合する場合、これらの2つの鎖が結合して二重鎖を形成する。
生殖系列バリアント:用語「生殖系列バリアント(単数または複数)」または「生殖系列変異(単数または複数)」は、互換的に用いられ、遺伝性の変異(すなわち、受胎後に生じる変異ではない)を意味する。生殖系列変異は、子孫に遺伝しうる唯一の変異であり得、子孫のあらゆる体細胞および生殖系列細胞に存在しうる。
ヘテロ接合性の喪失:用語「ヘテロ接合性の喪失」(LOH)は、一般に、ある遺伝子座におけるアレルペアの一方のアレルが完全に失われているアレル不均衡の形態を意味する。LOHは、多くの遺伝機構によって、例えば物理的欠失、染色体不分離、有糸分裂不分離に続いて、残った染色体の倍加、有糸分裂組換え、および遺伝子変換が起こることによって生じうる。LOHは、遺伝子座における変異アレル割合またはマイナーアレル頻度の測定値に基づいて検出できる。LOHは、例えば、腫瘍抑制遺伝子が、前記腫瘍抑制遺伝子におけるアレルペアの一方のアレルが変異し、他方のアレルが失われるように不活性化される場合に生じうる。
マイナーアレル頻度:本明細書で用いられる場合、「マイナーアレル頻度」は、核酸の所与の集団(たとえば、対象から得られた試料)において生じるマイナーアレル(例えば、最も一般的なアレルではない)の頻度を意味する。マイナーアレル頻度が低い遺伝子バリアントは、典型的には、試料における存在頻度が相対的に低い。
変異アレル数:用語「変異アレル数」は、(例えば、試料から得られた、または試料由来の)複数の核酸分子中の、変異アレルまたは特定のゲノム遺伝子座におけるアレル変更を有している核酸分子数を意味する。
変異アレル割合:語句「変異アレル割合」、「変異ドーズ」、または「MAF」は、所与の試料における、所与のゲノム位置にアレル変更または変異を有している核酸分子の割合を意味する。MAFは、一般に、割合またはパーセントで表される。例えば、MAFは、典型的には、所与の遺伝子座に存在する全体細胞バリアントまたはアレルの約0.5、0.1、0.05、または0.01未満(すなわち、約50%、10%、5%、または1%未満)である。
核酸シーケンシングデータ:本明細書で用いられる場合、「核酸シーケンシングデータ」、「核酸シーケンシング情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、「配列情報」、もしくは「断片配列」、または「核酸シーケンシングリード」は、DNAまたはRNAなどの核酸の分子(例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、またはフラグメント)におけるヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル)の順序を示す任意の情報またはデータを意味する。本教示は、利用可能なあらゆる種類の技術、プラットフォーム、またはテクノロジー(それらに限定されないが、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接的または間接的なヌクレオチド識別システム、パイロシーケンシング、イオンまたはpHに基づくシステム、および電子署名に基づくシステムが含まれる)を用いて得た配列情報を意図していることを理解すべきである。
核酸タグ:本明細書で用いられる場合、「核酸タグ」は、異なる試料に由来する核酸を識別するために用いられる(例えば、試料インデックスを示す)、または同じ試料中の種類の異なるもしくは異なるプロセシングを受けた異なる核酸分子を識別するために用いられる(例えば、分子バーコードを示す)、短い核酸(例えば、長さがnヌクレオチド未満(ここで、nは、長さが約500ヌクレオチド、約100ヌクレオチド、約50ヌクレオチド、または約10ヌクレオチドである))を意味する。核酸タグは、所定の、既定の、非ランダムな、ランダムな、またはセミランダムなオリゴヌクレオチド配列を含む。このような核酸タグは、異なる核酸分子、または異なる核酸試料もしくはサブ試料をラベリングするために用いられうる。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖でありうる。核酸タグは、必要に応じて、等しい長さを有していてもよく、異なる長さを有していてもよい。核酸タグは、また、1つまたはそれを超える平滑末端を有する二本鎖分子を含んでいてもよく、5’もしくは3’一本鎖領域(例えば、オーバーハング)を含んでいてもよく、および/または所与の分子内の他の部位に1つまたはそれを超える他の一本鎖領域を含んでいてもよい。核酸タグは、その他の核酸(例えば、増幅および/またはシーケンシングしようとする試料核酸)の一方の末端または両方の末端に結合することができる。核酸タグは、所与の核酸の起源である試料、形態、またはプロセシングなどの情報を明らかにするためにデコードされうる。例えば、核酸タグは、異なる分子バーコードおよび/または試料インデックスを有する核酸を含む多数の試料の貯蔵および/または並列処理を可能にするために使用することもでき、前記核酸は、次いで、前記核酸タグを検出することによって(例えば、読み取ることによって)解析されている。核酸タグは、識別子(例えば、分子識別子、試料識別子)とも呼ばれる。加えて、または代わりに、核酸タグは、(例えば、同じ試料またはサブ試料における、異なる親分子の異なる分子同士またはアンプリコン同士を識別するための)分子識別子としても使用されうる。これには、例えば、所与の試料における異なる核酸分子を固有にタグ付けすること、またはそのような分子を非固有にタグ付けすることが含まれる。非固有タグ付け増幅の場合において、限られた数のタグ(すなわち、分子バーコード)を、異なる分子が、少なくとも1つの分子バーコードと組み合わせて、それらの内在性配列情報(例えば、選択された参照ゲノムにマッピングされる場所である開始および/または終止位置、配列の一方または両方の末端のサブ配列、および/または配列の長さ)に基づいて識別されうるように、各核酸分子をタグ付けするために使用してもよい。典型的には、任意の2分子が、同じ内在性配列情報(例えば、開始および/または終止位置、配列の一方または両方の末端のサブ配列、および/または長さ)を有し、かつ同じ分子バーコードを有する確率が低くなるように(例えば、約10%未満、約5%未満、約1%未満、約0.1%未満、約0.01%未満、約0.001%未満、または0.0001%未満の確率になるように)、十分な数の異なる分子バーコードが使用される。
ポリヌクレオチド:「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間の結合によって連結された(デオキシリボヌクレオシド、リボヌクレオシド、またはその類似体を含む)ヌクレオシドの線状ポリマーを意味する。典型的には、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。オリゴヌクレオチドは、多くの場合、数個のモノマー単位(例えば、3〜4個)から数百個のモノマー単位の範囲の大きさである。ポリヌクレオチドが文字の配列によって表現される場合(例えば、「ATGCCTG」)は、別段の記載がない限り、そのヌクレオチドは常に、文字列の左から右に5’→3’の向きであり、「A」はデオキシアデノシンを指し、「C」はデオキシシチジンを指し、「G」はデオキシグアノシンを指し、「T」はチミジンを指すことを理解されたい。文字A、C、G、およびTは、当該技術分野において標準的であるように、塩基自体、またはそれらの塩基を含むヌクレオシドもしくはヌクレオチドを示すために使用されうる。
参照配列:語句「参照配列」は、実験的に決定された配列と比較する目的で用いられる、既知の配列を意味する。例えば、既知の配列は、全ゲノム、染色体、またはそれらの任意の断片でありうる。参照は、典型的には、少なくとも20、50、100、200、250、300、350、400、450、500、1000、10000、50000、100000、またはそれを超えるヌクレオチドを含む。参照配列は、ゲノムもしくは染色体の単一の連続配列とアラインしていてもよく、またはゲノムもしくは染色体の異なる領域とアラインする不連続セグメントを含んでいてもよい。参照ヒトゲノムは、例えば、hG19およびhG38を含む。
第2のゲノム:用語「第2のゲノム」は、対象内に存在するが、その対象のゲノムではないゲノムと関連する核酸配列を意味する。そのようなゲノムには、それらに限定されないが、移植片、ウイルス、治療に基づく核酸コンストラクト、輸血、胎児などに由来するゲノムが含まれる。
シーケンシング:本明細書で用いられる場合、用語「シーケンシング」または「シーケンサー」は、生体分子(例えば、DNAまたはRNAなどの核酸)の配列を決定するために用いられる多くの技法のいずれかを意味する。例示的なシーケンシング方法としては、それらに限定されないが、ターゲットシーケンシング、単一分子リアルタイムシーケンシング、エクソンシーケンシング、電子顕微鏡に基づくシーケンシング、パネルシーケンシング、トランジスター媒介型シーケンシング、直接シーケンシング、ランダムショットガンシーケンシング、サンガーのジデオキシ終止シーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシークエンシング、パイロシーケンシング、キャピラリー電気泳動、デュプレックスシーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、大規模並列シグネチャシーケンシング、エマルジョンPCR、低変性温度における共増幅PCR(COLD−PCR)、マルチプレックスPCR、可逆的色素ターミネーターによるシーケンシング、ペアエンドシーケンシング、near−termシーケンシング、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、1分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、リバースターミネーターシーケンシング、ナノポアシーケンシング、454シーケンシング、Solexa Genome Analyzerシーケンシング、SOLiD(商標)シーケンシング、MS−PETシーケンシング、およびそれらの組み合わせがあげられる。いくつかの実施形態において、シーケンシングは、例えば、IlluminaまたはApplied Biosystemsから商業的に入手できる遺伝子アナライザーなどによって実施しうる。語句「次世代シーケンシング」または「NGS」は、従来のサンガー法またはキャピラリー電気泳動に基づく手法と比較してスループットが向上した(例えば、一度に、数十万の比較的小さな配列リードを生成する能力を有する)シーケンシング技術を意味する。次世代シーケンシング技術のいくつかの例としては、それらに限定されないが、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシークエンシングがあげられる。
対象:用語「対象」は、動物、例えば哺乳動物の種(好ましくは、ヒト)または鳥類(例えば、トリ)の種、または他の生物(特に、二倍体の生物)を意味しうる。より具体的には、対象は、セキツイ動物、例えば、マウス、霊長類、サル、またはヒトなどの哺乳動物でありうる。動物には、家畜、競技動物、およびペットが含まれる。対象は、健康な個体、症状もしくは徴候を有するか、疾患もしくは疾患の傾向が疑われる個体、または治療が必要とするかもしくは治療を必要とすることが疑われる個体でありうる。
[発明を実施するための形態]
I.概要
がん患者において、アレル不均衡は、ヘテロ接合性の喪失によって引き起こされることがあり、また、アレル不均衡がない試料と比較して、対象からの無細胞核酸試料のアッセイにおいて、異なった変異アレル割合(MAF)分布をもたらしうる。例えば、アレル不均衡がある試料は、MAFが非常に低い生殖系列バリアントを含みうる。例えばシーケンシングのための処置中などに、試料にコンタミネーションが生じた場合や、試料が、例えば移植片、輸血、または胎児から生じた(対象のゲノム以外の)第2のゲノムを含む場合にも、MAFが低い生殖系列バリアントが観察されることがある。したがって、アレル不均衡試料と、コンタミネーションが生じた試料または第2のゲノムを含む試料とを識別する場合に、問題に直面することがありうる。
コンタミネーションまたは第2のゲノムを含む試料からの無細胞核酸をアッセイする場合、そのような試料は、追加の人手による精査、または追加のシーケンシングランの実施を必要とすることがある。その結果、アレル不均衡試料と、コンタミネーションが生じた試料または第2ゲノム試料との識別に失敗すると、そのような試料を信頼性をもってアッセイするためのコストと所要時間が著しく増大しうる。本開示は、無細胞核酸試料におけるアレル不均衡またはコンタミネーションを識別する方法およびシステムを提供する。これらの方法およびシステムによれば、小さなバリアントおよびコピー数多型の定量的測定値を取得および解析することによって、アレル不均衡またはコンタミネーションを識別しうる。
本開示は、対象からの試料におけるアレル不均衡を検出するための方法およびシステムを提供する。一態様において、本開示は、対象からの試料におけるアレル不均衡を検出するための方法であって、(a)前記試料からの複数の無細胞デオキシリボ核酸(DNA)分子をシーケンシングして、複数の配列リードを生成すること;(b)前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること;(c)前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合(MAF)で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること(ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAF値を有する);(d)(c)において識別された、MAF値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること;および(e)(c)において識別された前記生殖系列バリアントのセットを、少なくとも前記(d)の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡を所定の基準に基づいて検出すること、を含む方法を提供する。
いくつかの実施形態において、前記方法は、(f)前記複数のアラインした配列リードから、コピー数多型(CNV)または二倍体遺伝子を示す1つまたはそれを超える定量的測定値を検出すること(ここで、前記所定の基準は、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値を含む)、をさらに含む。
いくつかの実施形態において、前記方法は、前記試料においてアレル不均衡が検出されなかった場合に、前記試料におけるコンタミネーションを検出すること、をさらに含む。
図1は、本明細書において提供される方法100の例を示す。方法100は、(操作102におけるように)アレル不均衡またはコンタミネーションを検出しようとする試料からのDNA分子をシーケンシングして、配列リードを生成すること、含んでいてもよい。次に、方法100は、(操作104におけるように)前記配列リードの少なくとも一部を参照配列にアラインして、アラインした配列リードを生成すること、を含んでいてもよい。次に、方法100は、(操作106におけるように)前記アラインした配列リードの少なくとも一部について、前記試料中の生殖系列バリアントのセット、およびそれらの対応するMAF値を識別すること、を含んでいてもよく、または、ある特定の実施形態において、対応するマイナーアレル頻度値を識別すること、を含んでいてもよい。次に、方法100は、(操作108におけるように)MAF値の複数の別々の範囲の間にある、または、ある特定の実施形態において、マイナーアレル頻度値が別々の範囲内である、前記生殖系列バリアントの定量的測定値を決定すること、を含んでいてもよい。次に、方法100は、(操作110におけるように)前記生殖系列バリアントを少なくとも前記定量的測定値に基づいてフィルタリングすることによって、前記試料中のアレル不均衡を所定の基準に基づいて検出すること、を含んでいてもよい。
本明細書において提供される方法およびシステムは、無細胞核酸分子(例えば、DNAまたはRNA分子)の分析において特に有用でありうる。いくつかのケースにおいて、無細胞核酸分子は、対象からの生体試料から抽出および単離してもよく、容易に入手しうる。生物学的試料には、それらに限定されないが、血液、血漿、血清、尿、唾液、粘膜分泌物、喀痰、便、および涙を含む群から選択される体液試料が含まれうる。無細胞核酸分子は、それらに限定されないが、イソプロパノール沈殿および/またはシリカに基づく精製を含む種々の方法を用いて抽出することができる。
生物学的試料は、多くの対象(例えば、疾患のない対象、がんまたはウイルスなどの疾患のリスクがある、疾患の症状を示している、または疾患を有している対象、または遺伝障害のリスクがある、遺伝障害の症状を示している、または遺伝障害を有している対象)から収集しうる。いくつかの実施形態において、前記疾患または障害は、免疫不全障害、血友病、サラセミア、鎌状赤血球症、血液疾患、慢性肉芽腫性障害、先天性失明、リソソーム蓄積症、筋ジストロフィー、がん、神経変性疾患、ウイルス感染、細菌感染、表皮水泡症、心疾患、脂肪代謝障害、および糖尿病からなる群から選択されるか、これらの組み合わせである。
無細胞核酸分子を取得または用意した後、その無細胞核酸分子に対して、シーケンシングのための核酸分子を調製するための、多数の異なるライブラリ調製手順の任意のものを行ってもよい。無細胞核酸分子は、シーケンシングの前に1つまたはそれを超える試薬(例えば、酵素、アダプター、タグ(例えば、バーコード)、プローブなど)で処理してもよい。タグ付けされた分子は、次いで、下流の用途、例えば、個々の分子を追跡しうるシークエンシング反応に使用しうる。
いくつかの実施形態において、前記方法は、シーケンシングの前に富化工程をさらに含んでいてもよく、それによって、タグ付けされた分子の領域が、選択的または非選択的に富化される。
無細胞核酸分子のシーケンシングデータを収集したら、その配列データに対して1つまたはそれを超えるバイオインフォマティクスプロセスを適用して、その無細胞核酸試料のアレル不均衡またはコンタミネーションを検出してもよい。
いくつかのケースにおいて、シークエンシング反応から生成された配列リードは、バイオインフォマティクス解析を実施するために、参照配列にアラインされうる。バイオインフォマティクス解析の種々の態様において、品質を確保するために、1つまたはそれを超える閾値が設定されうる。例えば、アライメント閾値は、相同性が高い配列リード(例えば、参照配列と配列リードとの間のミスマッチが10以下)のみが参照配列にマッピングされるように設定されうる。いくつかのケースにおいて、例えば配列リードのクロマトグラムに基づいて、品質閾値に及ばない配列リードは取り除かれうる。いくつかのケースにおいて、所与の配列のコピー数または量は、その所与の配列にマッピングまたはアラインされる配列リードの数に基づいて定量されうる。いくつかのケースにおいて、配列の過剰出現は、全配列リード内で、異なる配列のコピー数または量を比較することによって決定しうる。
ある特定の実施形態において、試料は、同じ核酸のいずれか2つのコピーが、一方の末端または両方の末端に結合したアダプターに由来するアダプター分子バーコードまたはタグの同じの組み合わせを受け取る可能性を低く(例えば、約1%未満、約0.1%未満、約0.01%未満、約0.001%、または約0.0001%未満)する十分な数のアダプターと接触させてもよい。このようなやり方でアダプターを使用することによって、ある参照配列にアライン(またはマッピング)された同じ開始および終止点を有し、かつバーコードの同一の組み合わせに結合している配列リードを、同じ元の分子から生成したリードのファミリーにグループ分けすることが可能になる。このようなファミリーは、増幅前の試料中の核酸の増幅産物の配列を示しうる。
いくつかの実施形態において、平滑末端化およびアダプター結合によって改変された、ファミリーメンバーの配列をコンパイルして、元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を導出しうる。言い換えると、試料中の核酸の特定の位置を占めているヌクレオチドは、ファミリーメンバー配列中の対応する位置を占めているヌクレオチドのコンセンサスであると決定しうる。コンセンサスヌクレオチドは、2つの非限定的な例示的な方法をあげると、投票または信頼スコアなどの方法によって決定しうる。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含みうる。ファミリーのメンバーが二本鎖核酸由来の両方の鎖の配列を含む場合、一方の鎖の配列は、全配列をコンパイルしてコンセンサスヌクレオチドまたはコンセンサス配列を導出する目的で、その相補配列に変換される。いくつかのファミリーは、単一のメンバー配列のみを含みうる。この場合において、この配列は、増幅前の試料中の核酸の配列として解釈されうる。あるいは、単一のメンバー配列のみを有するファミリーは、後続の分析から排除してもよい。
参照配列は、1つまたはそれを超える既知の配列、例えば、ある対象由来の既知の全ゲノム配列または部分ゲノム配列、ヒト対象の全ゲノム配列であってもよい。参照配列は、hG19であってもよい。シーケンシングされた核酸は、試料中の核酸について直接決定した配列、または、上記のように、そのような核酸の増幅産物の配列のコンセンサスを表しうる。比較は、参照配列における目的の1つまたはそれを超える指定位置において行われうる。シーケンシングされた核酸のサブセットは、各配列が最大限にアラインされている場合、参照配列の指定位置に対応する位置を含めて識別されうる。そのようなサブセット内において、あるとすれば、どのシーケンシングされた核酸が指定位置におけるヌクレオチド変異を含むか、ならびに必要に応じて、あるとすれば、どのシーケンシングされた核酸が参照ヌクレオチド(すなわち、参照配列におけるものと同じもの)を含むか、を決定することができる。ヌクレオチドバリアントを含むサブセットにおけるシーケンシングされた核酸の数が閾値を超える場合、変異したヌクレオチドは、指定位置で呼ばれうる。閾値は、他の可能性もあるが、なかでも、単純な数字、例えば、少なくとも1、2、3、4、5、6、7、9、または10個の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよく、または、比、例えば、少なくとも0.5、1、2、3、4、5、10、15、または20の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよい。比較は、参照配列における目的とする任意の指定位置について繰り返してもよい。場合により、比較は、参照配列上の少なくとも20、100、200、または300個の連続した位置を占める指定位置、例えば、20〜500、または50〜300個の連続した位置について行われうる。
本開示は、本明細書において説明される方法を実行または実施するためのシステムも提供する。ある特定の態様において、システムは、(a)1つまたはそれを超える試料に由来するアダプターでタグ付けされたcfDNA分子から、信号として、シーケンシングリードを生成する核酸シーケンサー(ここで、前記アダプターは、前記cfDNA分子からの開始および終止情報と一緒に、同じ元のcfDNA分子に由来する冗長な配列リードを識別するバーコードを含む);および(b)通信ネットワークを通じて前記核酸シーケンサーと通信するコンピュータ(ここで、前記コンピュータは、前記信号をコンピュータメモリー内に受け入れ、ここで前記コンピュータは、コンピュータプロセッサおよびコンピュータ可読媒体(前記コンピュータ可読媒体は、前記コンピュータプロセッサによって実行された場合に下記の方法を実行するマシン実行可能コードを含む))を含み、かつ、以下のことを含む方法、すなわち、a)前記試料に由来する複数の無細胞デオキシリボ核酸(DNA)分子をシーケンシングして、複数の配列リードを生成すること;b)前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること;c)複数のゲノム領域のそれぞれについて、前記複数のアラインした配列リードから、前記試料の前記ゲノム領域の変異アレル割合(MAF)を決定すること;d)前記複数のゲノム領域のそれぞれについて、前記複数のアラインした配列リードから、前記ゲノム領域が生殖系列バリアントであるか否かを決定すること;e)MAF値の複数の別々の範囲の間にある前記複数のゲノム領域の、前記決定された生殖系列バリアントの定量的測定値を決定すること;およびf)前記決定された生殖系列バリアントの前記定量的測定値を含む所定の基準に基づいて、前記試料中のアレル不均衡を検出すること、を含む方法を実行する)、を含んでいてもよい。
いくつかの実施形態において、前記コンピュータプロセッサによって実行される前記方法は、前記配列リードをファミリー(各ファミリーは、同じバーコードを含み、かつ同じ開始および終止位置を有する、配列リードを含む)にグループ分けすることをさらに含み、それによって、各ファミリーは、同じ元のcfDNA分子に由来する、増幅された配列リードを含む。
いくつかの実施形態において、シーケンサーは、DNAシーケンサーである。いくつかの実施形態において、シーケンサーは、次世代シーケンシングなど、ハイスループットシーケンシングを行うように設計されている。いくつかの実施形態において、前記システムは、シーケンサー内に、アダプターでタグ付けされたcfDNA分子を含む。いくつかの実施形態において、前記アダプターでタグ付けされたcfDNA分子は、1つの対象または複数の対象に由来する。いくつかの実施形態において、前記試料に由来する前記cfDNA分子は、固有または非固有のバーコードを有する。
II.方法およびシステムの一般的な特徴
A.試料
試料は、対象から単離された任意の生物学的試料でありうる。試料としては、体組織、全血、血小板、血清、血漿、便、赤血球、白血球(white blood cell)もしくは白血球(leucocyte)、内皮細胞、組織生検(例えば、判明している固形腫瘍または疑わしい固形腫瘍からの生検材料)、脳脊髄液、滑液、リンパ液、腹水、間質液または細胞外液(例えば、細胞間隙液)、歯肉滲出液、歯肉溝滲出液、骨髄、胸水、脳脊髄液、唾液、粘液、喀痰、精液、汗、尿が挙げられ得る。試料は、好ましくは体液、特に血液およびその分画、ならびに尿である。そのような試料には、腫瘍から流出した核酸が含まれる。核酸としては、DNAおよびRNAをあげることができ、二本鎖形態および一本鎖形態でありうる。試料は、対象から単離されたままの形態であってもよく、細胞などの成分を除去もしくは添加するため、1つの成分を他の成分と比べて富化するため、または1つの形態の核酸を他の形態に(例えば、RNAをDNAに、または一本鎖核酸を二本鎖核酸に)変換するために、さらなる処理が施されていてもよい。よって、例えば、分析のための体液は、無細胞核酸、例えば無細胞DNA(cfDNA)を含有する、血漿または血清である。
いくつかの実施形態において、対象から採取される体液の試料体積は、シーケンシングされる領域の所望のリード深度に依存する。例示的な体積は、約0.4〜40ml、約5〜20ml、約10〜20mlである。例えば、体積は、約0.5ml、約1ml、約5ml、約10ml、約20ml、約30ml、約40ml、またはそれを超える体積(ミリリットル)でありうる。サンプリングされた血漿の体積は、典型的には、約5ml〜約20mlの間である。
試料は、種々の量の核酸を含みうる。典型的には、所与の試料中の核酸の量は、多様なゲノム等価物の量と等しい。例えば、約30ngのDNAの試料は、約10,000(10)のハプロイドヒトゲノム等価物を含みうるが、cfDNAの場合には、約2000億(2×1011)の個々のポリヌクレオチド分子を含みうる。同様に、約100ngのDNAの試料は、約30,000のハプロイドヒトゲノム等価物を含みうるが、cfDNAの場合には、約6000億の個々の分子を含みうる。
いくつかの実施形態において、試料は、異なる起源に由来する核酸、例えば、細胞に由来する核酸および無細胞起源(例えば、血液試料など)に由来する核酸を含みうる。典型的には、試料は、変異を有する核酸を含む。例えば、試料は、生殖系列変異および/または体細胞変異を有するDNAを含んでいてもよい。典型的には、試料は、がん関連変異(例えば、がん関連体細胞変異)を有するDNAを含む。
増幅前の試料中の無細胞核酸の例示的な量は、典型的には、約1フェムトグラム(fg)〜約1マイクログラム(μg)、例えば、約1ピコグラム(pg)〜約200ナノグラム(ng)、約1ng〜約100ng、約10ng〜約1000ngの範囲である。いくつかの実施形態において、試料は、最大約600ng、最大約500ng、最大約400ng、最大約300ng、最大約200ng、最大約100ng、最大約50ng、または最大約20ngの無細胞核酸分子を含む。必要に応じて、この量は、少なくとも約1fg、少なくとも約10fg、少なくとも約100fg、少なくとも約1pg、少なくとも約10pg、少なくとも約100pg、少なくとも約1ng、少なくとも約10ng、少なくとも約100ng、少なくとも約150ng、または少なくとも約200ngの無細胞核酸分子である。ある特定の実施形態において、この量は、最大約1fg、約10fg、約100fg、約1pg、約10pg、約100pg、約1ng、約10ng、約100ng、約150ng、または約200ngの無細胞核酸分子である。いくつかの実施形態において、方法には、試料から、約1fg〜約200ngの間の無細胞核酸分子を得ることが含まれる。
無細胞核酸は、典型的には、約100ヌクレオチドの長さ〜約500ヌクレオチドの長さの間のサイズ分布を有し、試料中の分子の約90%が約110ヌクレオチドの長さ〜約230ヌクレオチドの長さであり、最頻値が約168ヌクレオチドの長さであり、約240〜約440ヌクレオチドの長さの範囲内に第2のマイナーピークを有する。ある特定の実施形態において、無細胞核酸は、約160〜約180ヌクレオチドの長さ、約320〜約360ヌクレオチドの長さ、または約440〜約480ヌクレオチドの長さである。
いくつかの実施形態において、無細胞核酸は、溶液中に見られるような無細胞核酸をインタクトな細胞および体液のその他の不溶性成分から分離する分割ステップによって、体液から分離される。いくつかのこれらの実施形態において、分割には、遠心分離または濾過などの技術が含まれる。あるいは、体液中の細胞を溶解し、無細胞核酸と細胞核酸を一緒に処理する。一般に、バッファーの添加および洗浄ステップの後に、無細胞核酸を、例えば、アルコールで沈殿させる。ある特定の実施形態において、混入物または塩を除去するために、追加の精製ステップ、例えば、シリカベースカラムが用いられる。例示的な手順のある特定の側面、例えば収率を最適化するために、例えば、非特異的なバルクキャリアー核酸を、反応全体にわたり、必要に応じて添加してもよい。そのような処理の後、試料は、典型的には、二本鎖DNA、一本鎖DNA、および/または一本鎖RNAを含む、種々の形態の核酸を含んでいる。必要に応じて、一本鎖DNAおよび/または一本鎖RNAは、以後のプロセシングおよび分析ステップに含められるように、二本鎖形態に変換される。
B.核酸タグ
いくつかの実施形態において、(ポリヌクレオチドの試料からの)核酸分子は、試料インデックスおよび/または分子バーコード(一般に「タグ」と呼ばれる)でタグ付けされていてもよい。タグは、他の方法もあるが、なかでも、化学合成、ライゲーション(例えば、平滑末端ライゲーションまたは付着末端ライゲーション)、またはオーバーラップ伸長ポリメラーゼ連鎖反応(PCR)によって、アダプターに組み込まれるか、または別の方法で結合されうる。そのようなアダプターは、最終的に標的核酸分子に結合されてもよい。他の実施形態において、通常の核酸増幅方法を用いて試料インデックスを核酸分子に導入するために、一般に、増幅サイクル(例えば、PCR増幅)の1回またはそれを超える繰り返しが適用される。増幅は、1つまたはそれを超える反応混合物(例えば、アレイになった複数のマイクロウェル)において行ってもよい。分子バーコードおよび/または試料インデックスは、同時に導入してもよく、任意の連続的な順序で導入してもよい。いくつかの実施形態において、分子バーコードおよび/または試料インデックスは、配列捕捉ステップ実施の前および/または後に導入される。いくつかの実施形態において、分子バーコードのみが、プローブ捕捉前に導入され、試料インデックスは、配列捕捉ステップ実施後に導入される。いくつかの実施形態において、分子バーコードと試料インデックスの両方が、プローブに基づく捕捉ステップ実施前に導入される。いくつかの実施形態において、試料インデックスは、配列捕捉ステップ実施後に導入される。いくつかの実施形態において、分子バーコードは、試料中の核酸分子(例えば、cfDNA分子)に、アダプターを通じてライゲーション(例えば、平滑末端ライゲーションまたは付着末端ライゲーション)によって組み込まれる。いくつかの実施形態において、試料インデックスは、試料中の核酸分子(例えば、cfDNA分子)に、オーバーラップ伸長ポリメラーゼ連鎖反応(PCR)によって組み込まれる。典型的には、配列捕捉プロトコルには、標的核酸配列(例えば、ゲノム領域のコード配列)に相補的な一本鎖核酸分子を導入することが含まれ、そのような領域の変異はがんタイプに関連する。
いくつかの実施形態において、タグは、試料核酸分子の一方の末端または両方の末端に位置しうる。いくつかの実施形態において、タグは、所定の、ランダムな、またはセミランダムな配列オリゴヌクレオチドである。いくつかの実施形態において、タグは、長さが約500未満、200未満、100未満、50未満、20未満、10、9、8、7、6、5、4、3、2、または1ヌクレオチドである。タグは、試料核酸に、ランダムに、または非ランダムに結合されうる。
いくつかの実施形態において、各試料は、試料インデックスまたは試料インデックスの組み合わせで、固有にタグ付けされる。いくつかの実施形態において、試料またはサブ試料の各核酸分子は、分子バーコードまたは分子バーコードの組み合わせで、固有にタグ付けされる。他の実施形態において、複数の分子バーコードを、互いに必ずしも固有ではないように(例えば、非固有分子バーコード)使用してもよい。これらの実施形態において、分子バーコードは、一般に、個々の分子に、分子バーコードと配列の組み合わせが結合して、個別に追跡しうる固有配列を生成するように、(例えば、ライゲーションによって)結合される。非固有にタグ付けされた分子バーコードを、内在性配列情報(例えば、試料中の元の核酸分子の配列に対応する最初の(開始)および/または終わりの(終止)箇所、一方または両方の末端における配列リードのサブ配列、配列リードの長さ、および/または試料中の元の核酸分子の長さ)と組み合わせて検出することによって、典型的には、特定の分子に固有の識別情報を割り当てることが可能になる。個々の配列リードの長さ、または塩基対の数もまた、所与の分子に固有の識別情報を割り当てるために、必要に応じて使用される。本明細書において説明したように、固有の識別情報が割り当てられている核酸の一本鎖に由来するフラグメントは、これによって、親鎖および/または相補鎖由来のフラグメントのその後の識別を可能にしうる。
いくつかの実施形態において、分子バーコードは、識別子のセット(例えば、固有または非固有分子バーコードの組み合わせ)の予期された比率で、試料中の分子に導入される。1つの例示的な様式では、標的分子の両方の末端にライゲートされる、約2〜約1,000,000個の異なる分子バーコード、約5〜約150個の異なる分子バーコード、または約20〜約50個の異なる分子バーコードが用いられる。代わりに、約25〜約1,000,000個の異なる分子バーコードを用いてもよい。例えば、20〜50個の分子バーコードと、20〜50個の分子バーコードを、標的分子の両方の末端が、20〜50個の異なる分子バーコードの1つでタグ付けされるように用いてもよい。このような数の識別子は、典型的には、同じ開始および終止点を有する異なる分子に、異なる組み合わせの識別子が付けられる可能性を高く(例えば、少なくとも94%、99.5%、99.99%、または99.999%)するために十分である。いくつかの実施形態において、分子の約80%、約90%、約95%、または約99%が、同じ組み合わせの分子バーコードを有する。
いくつかの実施形態において、反応における固有または非固有分子バーコードの割り当ては、例えば、米国特許出願第20010053519号、米国特許出願第20030152490号、および米国特許出願第20110160078号ならびに米国特許第6,582,908号、米国特許第7,537,898号、米国特許第9,598,731号、および米国特許第9,902,992号(これらは、それぞれ参照によりその全体が本明細書に援用される)に記載された方法およびシステムを用いて実施される。あるいは、いくつかの実施形態において、試料の異なる核酸分子は、内在性配列情報(例えば、開始および/または終止位置、配列の一方または両方の末端のサブ配列、および/または長さ)のみを用いて識別されうる。
C.核酸増幅
アダプターが隣接する試料核酸は、典型的には、増幅しようとするDNA分子に隣接しているアダプター中のプライマー結合部位に結合する核酸プライマーを用いて、PCRおよび他の増幅方法によって増幅される。いくつかの実施形態において、増幅方法は、温度サイクルによる伸長、変性、およびアニーリングのサイクルを含むか、例えば転写増幅の場合のように、等温であってもよい。必要に応じて利用される他の例示的な増幅方法としては、他のアプローチもあるが、なかでも、リガーゼ連鎖反応、鎖置換増幅(strand displacement amplification)法、核酸配列に基づく増幅、および自己持続性配列に基づく複製があげられる。
分子バーコードおよび/または試料インデックスを、通常の核酸増幅方法を用いて核酸分子に導入するために、一般に、増幅サイクルの1回またはそれを超える繰り返しが適用される。増幅は、典型的には、1つまたはそれを超える反応混合物において行われる。分子バーコードおよび試料インデックスは、必要に応じて、同時に、または任意の連続的な順序で導入される。他の実施形態において、分子バーコードおよび試料インデックスは、配列捕捉ステップ実施の前および/または後に導入される。いくつかの実施形態において、分子バーコードのみが、プローブ捕捉前に導入され、試料インデックスは、配列捕捉ステップ実施後に導入される。ある特定の実施形態において、分子バーコードと試料インデックスの両方が、プローブに基づく捕捉ステップ実施前に導入される。いくつかの実施形態において、試料インデックスは、配列捕捉ステップ実施後に導入される。典型的には、配列捕捉プロトコルには、標的核酸配列(例えば、ゲノム領域のコード配列)に相補的な一本鎖核酸分子を導入することが含まれ、そのような領域の変異はがんタイプに関連する。典型的には、増幅反応によって、約200ヌクレオチド(nt)〜約700nt、250nt〜約350nt、または約320nt〜約550ntの範囲の大きさの、分子バーコードおよび試料インデックスを含む、複数の非固有または固有にタグ付けされた核酸アンプリコンが生成する。いくつかの実施形態において、アンプリコンの大きさは、約300ntである。いくつかの実施形態において、アンプリコンの大きさは、約500ntである。
D.核酸の富化
いくつかの実施形態において、配列は、核酸をシーケンシングする前に富化される。富化は、必要に応じて、特定の標的領域について、または非特異的に行われる(「標的配列」)。いくつかの実施形態において、目的の標的領域は、差別的タイリングおよび捕捉スキームを用いて、1つまたはそれを超えるベイトセットのパネルについて選択された核酸捕捉プローブ(「ベイト」)によって富化してもよい。差別的タイリングおよび捕捉スキームにおいて、一般に、異なる相対濃度のベイトセットを用いて、そのベイトに関連するゲノム領域全体にわたって(例えば、異なる「分解能」で)差別的にタイリングし、一連の拘束(例えば、シーケンシング負荷、各ベイトの利用などのシーケンサー拘束)を加え、下流シーケンシングの所望の段階において標的核酸を捕捉する。これらの目的の標的ゲノム領域は、必要に応じて、核酸構築物の天然または合成ヌクレオチド配列を含む。いくつかの実施形態において、目的の1つまたはそれを超える領域に対するプローブの付いたビオチン標識ビーズを、標的配列を捕捉するために使用することができ、続いて、必要に応じて、目的の領域について富化するために、これらの領域を増幅する。
配列捕捉は、典型的には、標的核酸配列にハイブリダイズするオリゴヌクレオチドプローブの使用を含む。ある特定の実施形態において、プローブセット戦略は、目的の領域全体にわたってプローブをタイリングすることを含む。そのようなプローブは、例えば、約60〜約120ヌクレオチドの長さでありうる。セットの深度は、約2倍(×)、3×、4×、5×、6×、8×、9×、10×、15×、20×、50×、または50×超でありうる。一般に、配列捕捉の有効性は、一部は、プローブの配列に相補的(または、ほぼ相補的)な標的分子中の配列の長さに依存する。
E.核酸シーケンシング
事前に増幅された、または増幅されていない(必要に応じてアダプターが隣接配置された)試料核酸は、一般に、シーケンシングにかけられる。シーケンシング方法、または必要に応じて利用される商業的に利用可能なシーケンシングフォーマットとしては、例えば、サンガーシーケンシング、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、1分子シーケンシング、ナノポアに基づくシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシークエンシング、RNA−Seq(Illumina)、Digital Gene Expression(Helicos)、次世代シーケンシング(NGS)、合成による単一分子シーケンシング(SMSS)(Helicos)、大規模並列シーケンシング、Clonal Single Molecule Array(Solexa)、ショットガンシーケンシング、Ion Torrent、Oxford Nanopore、Roche Genia、Maxim−Gilbertシーケンシング、プライマーウォーキング、PacBioを使用したシーケンシング、SOLiD、Ion Torrent、またはNanoporeプラットフォームがあげられる。シーケンシング反応は、種々の試料処理ユニット中で行うことができ、そのようなユニットとしては、マルチレーン、マルチチャンネル、マルチウェル、または実質的に同時に多数の試料セットを処理する他の手段が挙げられ得る。試料処理ユニットは、多数のランを同時に処理することを可能にするために、多数の試料チャンバーも含みうる。
シーケンシング反応は、がんまたは他の疾患のマーカーを含むことが知られている、1つまたはそれを超える核酸フラグメントタイプまたは領域に対して行ってもよい。シーケンシング反応は、また、試料中に存在する任意の核酸フラグメントに対して行ってもよい。シーケンシング反応は、ゲノムの少なくとも約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%に対して行ってもよい。他のケースにおいて、シーケンシング反応は、ゲノムの約5%未満、10%未満、15%未満、20%未満、25%未満、30%未満、40%未満、50%未満、60%未満、70%未満、80%未満、90%未満、95%未満、99%未満、99.9%未満、または100%未満に対して行ってもよい。
同時シーケンシング反応は、マルチプレックスシーケンシング技術を用いて行ってもよい。いくつかの実施形態において、無細胞ポリヌクレオチドは、少なくとも約1000回、2000回、3000回、4000回、5000回、6000回、7000回、8000回、9000回、10000回、50000回、または100,000回のシーケンシング反応でシーケンシングされる。他の実施形態において、無細胞ポリヌクレオチドは、約1000回未満、2000回未満、3000回未満、4000回未満、5000回未満、6000回未満、7000回未満、8000回未満、9000回未満、10000回未満、50000回未満、または100,000回未満のシーケンシング反応でシーケンシングされる。シーケンシング反応は、典型的には、連続的または同時に行われる。その後のデータ分析は、一般的には、シーケンシング反応の全てまたは一部について行われる。いくつかの実施形態において、データ分析は、少なくとも約1000回、2000回、3000回、4000回、5000回、6000回、7000回、8000回、9000回、10000回、50000回、または100,000回のシーケンシング反応について行われる。他の実施形態において、データ分析は、約1000回未満、2000回未満、3000回未満、4000回未満、5000回未満、6000回未満、7000回未満、8000回未満、9000回未満、10000回未満、50000回未満、または100,000回未満のシーケンシング反応について行われてもよい。例示的なリード深度は、遺伝子座(塩基位置)につき、約1000〜約50000リードである。
いくつかの実施形態において、シーケンシングのために、一方または両方の末端に一本鎖オーバーハングを有する二本鎖核酸に酵素的に平滑末端を形成することによって、核酸集団を調製する。これらの実施形態において、核酸集団は、典型的には、ヌクレオチド(例えば、A、C、G、およびTまたはU)(これらは、容易に組み込まれた形態、例えば複数のヌクレオシド三リン酸(dNTP)の形態で存在しうる)存在下で5’−3’DNAポリメラーゼ活性および3’−5’エキソヌクレアーゼ活性を有する酵素で処理される。例示的な酵素または、必要に応じて用いられる触媒フラグメントとしては、クレノウ大型断片およびT4ポリメラーゼがあげられる。5’オーバーハングにおいて、前記の酵素は、典型的には、反対側の鎖にある引っ込んだ3’末端を、5’末端と同じ長さになるまで伸長させ、平滑末端を生成する。3’オーバーハングにおいて、前記の酵素は、一般に、3’末端から、反対側の鎖の5’末端まで、または場合によりそれを超えて消化する。この消化が反対側の鎖の5’末端を超えて進行した場合、このギャップは、5’オーバーハングのために用いたものと同じポリメラーゼ活性を有する酵素によって埋められうる。二本鎖核酸における平滑末端の形成によって、例えば、アダプターの結合およびその後の増幅が促進される。
いくつかの実施形態において、核酸集団には、さらなる処理、例えば、一本鎖核酸の二本鎖への変換、および/またはRNAのDNAへの変換が行われる。これらの形態の核酸もまた、必要に応じてアダプターに結合され、増幅される。
事前に増幅し、または増幅せずに、上記の平滑末端形成プロセスにかけられた核酸、および、必要に応じて、試料中の他の核酸をシーケンシングして、シーケンシングされた核酸を生成させてもよい。シーケンシングされた核酸は、核酸の配列(すなわち、配列情報)、または配列が決定された核酸のいずれも意味しうる。シーケンシングは、試料中の個々の核酸分子の増幅産物のコンセンサス配列から、直接的または間接的に試料中の個々の核酸分子の配列データを生じさせるように実施しうる。
いくつかの実施形態において、試料中の一本鎖オーバーハングを有する二本鎖核酸は、平滑末端形成の後、分子バーコードを含むアダプターに両方の末端で結合され、シーケンシングによって核酸配列ならびにアダプターによって導入された分子バーコードを決定する。平滑末端DNA分子は、必要に応じて、少なくとも部分的に二本鎖であるアダプター(例えば、Y字型またはベル型アダプター)の平滑末端にライゲートされる。あるいは、試料核酸およびアダプターの平滑末端を(例えば、付着末端ライゲーションのために)相補的ヌクレオチドが突出して、ライゲーションを促進してもよい。
核酸試料は、典型的には、同じ核酸のいずれか2つのコピーが、両方の末端に結合したアダプターから、アダプターバーコード(すなわち、分子バーコード)の同じ組み合わせを受け取る可能性を低くする十分な数のアダプターと接触させる。このようなやり方でアダプターを使用することによって、参照核酸上の同じ開始および終止点を有し、分子バーコードの同じ組み合わせに連結された核酸配列のファミリーを識別することが可能になる。このようなファミリーは、増幅前の試料中の核酸の増幅産物の配列を示す。平滑末端形成およびアダプター結合によって改変された、ファミリーメンバーの配列をコンパイルして、元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を導出しうる。言い換えると、試料中の核酸の特定の位置を占めているヌクレオチドは、ファミリーメンバー配列中の対応する位置を占めているヌクレオチドのコンセンサスであると決定される。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含みうる。ファミリーのメンバーが二本鎖核酸由来の両方の鎖の配列を含む場合、一方の鎖の配列は、全配列をコンパイルしてコンセンサスヌクレオチドまたはコンセンサス配列を導出する目的で、その相補配列に変換される。いくつかのファミリーは、単一のメンバー配列のみを含む。この場合において、この配列は、増幅前の試料中の核酸の配列として解釈されうる。あるいは、単一のメンバー配列のみを有するファミリーは、後続の分析から排除してもよい。
シーケンシングされた核酸中のヌクレオチド変異は、シーケンシングされた核酸を参照配列と比較することによって決定しうる。参照配列は、多くの場合、既知の配列、例えば、対象由来の既知の全ゲノム配列または部分ゲノム配列(例えば、ヒト対象の全ゲノム配列)である。参照配列は、例えば、hG19またはhG38であってもよい。シーケンシングされた核酸は、試料中の核酸について直接決定した配列、または、上記のように、そのような核酸の増幅産物の配列のコンセンサスを表しうる。比較は、参照配列における目的の1つまたはそれを超える指定位置において行われうる。シーケンシングされた核酸のサブセットは、各配列が最大限にアラインされている場合、参照配列の指定位置に対応する位置を含めて識別されうる。そのようなサブセット内において、あるとすれば、どのシーケンシングされた核酸が指定位置におけるヌクレオチド変異を含むか、ならびに必要に応じて、あるとすれば、どのシーケンシングされた核酸が参照ヌクレオチド(すなわち、参照配列におけるものと同じもの)を含むか、を決定することができる。ヌクレオチドバリアントを含むサブセットにおけるシーケンシングされた核酸の数が選択された閾値を超える場合、変異したヌクレオチドは、指定位置で呼ばれうる。閾値は、他の可能性もあるが、なかでも、単純な数字、例えば、少なくとも1、2、3、4、5、6、7、9、または10個の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよく、または、比、例えば、少なくとも0.5、1、2、3、4、5、10、15、または20の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよい。比較は、参照配列における目的とする任意の指定位置について繰り返してもよい。場合により、比較は、参照配列上の少なくとも約20、100、200、または300個の連続した位置を占める指定位置、例えば、約20〜500、または約50〜300個の連続した位置について行われうる。
本明細書において説明されるフォーマットおよび適用を含む、核酸シーケンシングに関するさらなる詳細は、例えば、Levyら、Annual Review of Genomics and Human Genetics,17:95−115(2016)、Liuら、J.of Biomedicine and Biotechnology,Volume 2012,Article ID 251364:1−11(2012)、Voelkerdingら、Clinical Chem.,55:641−658(2009)、MacLeanら、Nature Rev.Microbiol.,7:287−296(2009)、Astierら、J Am Chem Soc.,128(5):1705−10(2006)、米国特許第6,210,891号、米国特許第6,258,568号、米国特許第6,833,246号、米国特許第7,115,400号、米国特許第6,969,488号、米国特許第5,912,148号、米国特許第6,130,073号、米国特許第7,169,560号、米国特許第7,282,337号、米国特許第7,482,120号、米国特許第7,501,245号、米国特許第6,818,395号、米国特許第6,911,345号、米国特許第7,501,245号、米国特許第7,329,492号、米国特許第7,170,050号、米国特許第7,302,146号、米国特許第7,313,308号、および米国特許第7,476,503号(これらは、それぞれ参照によりその全体が援用される)にも提示されている。
F.分析
本開示の実施形態に記載のシーケンシングは、複数のリードを生成する。本発明のリードは、一般に、約150塩基未満の長さ、または約90塩基未満の長さのヌクレオチドデータの配列を含む。ある特定の実施形態において、リードは、約80〜約90塩基、例えば約85塩基の長さである。いくつかの実施形態において、本発明の方法は、非常に短いリード、すなわち約50または約30塩基未満の長さのリードに適用される。配列リードデータは、配列データならびにメタ情報を含み得る。配列リードデータは、任意の適切なファイルフォーマット、例えばVCFファイル、FASTAファイル、またはFASTQファイルを含むファイルフォーマットで保存しうる。
FASTAは、元々は、配列データベースを検索するためのコンピュータプログラムであり、FASTAという名称は、標準ファイルフォーマットを意味するようになっている。PearsonおよびLipman、1988、Improved tools for biological sequence comparison,PNAS 85:2444−2448を参照のこと。FASTA形式の配列は、1行の説明で始まり、配列データの行が続く。説明行は、第1行目の、より大きい(「>」)の記号によって配列データと区別される。この「>」記号に続く語は配列の識別子であり、この行の残りは説明である(いずれも必要に応じて記載される)。記号「>」と識別子の最初の文字との間には、スペースを入れないことになっている。テキストの全ての行は、80文字未満とすることが推奨されている。「>」で始まる別の行が現れたらその配列は終了し、これは別な配列の始まりを示す。
FASTQ形式は、生物学的配列(通常はヌクレオチド配列)と、それに対応する品質スコアの両方を保存するための、テキストベースのフォーマットである。FASTQ形式はFASTA形式に似ているが、配列データに続いて品質スコアを含んでいる。配列文字と品質スコアの両方とも、簡潔にするために、1文字のASCII文字で記号化されている。FASTQ形式は、例えば、Cockら(「The Sanger FASTQ file format for sequences with quality scores,and the Solexa/Illumina FASTQ variants」、Nucleic acids Res 38(6):1767−1771,2009)(これは、参照によりその全体が本明細書に援用される)に記載されているように、Illumina Genome Analyzerなどのハイスループットシーケンシング装置の出力を保存するためのデファクトスタンダードである。
FASTAおよびFASTQファイルに関して、メタ情報には、説明行が含まれるが、配列データ行は含まれない。いくつかの実施形態において、FASTQファイルに関して、メタ情報には品質スコアが含まれる。FASTAおよびFASTQファイルに関して、配列データは、説明行の後に始まり、典型的には、必要に応じて「−」が付けられたIUPACアンビギュイティコード(ambiguity code)のいくつかのサブセットを用いて示される。好ましい実施形態において、配列データには、文字A、T、C、G、およびNが用いられ、(例えば、ギャップまたはウラシルを示すために)必要に応じて「−」または、必要に応じてUが含まれるであろう。
いくつかの実施形態において、少なくとも1つのマスター配列リードファイルおよび出力ファイルが、(例えば、ASCII;ISO/IEC646;EBCDIC;UTF−8;またはUTF−16などのエンコードを用いて)プレーンテキストファイルとして保存される。本発明で提供されるコンピュータシステムは、プレーンテキストファイルを開くことができるテキストエディタプログラムを含んでいてもよい。テキストエディタプログラムは、テキストファイル(例えば、プレーンテキストファイル)の内容をコンピュータスクリーンに表示することができ、人間がそのテキストを(例えば、モニター、キーボード、およびマウスを用いて)編集することを可能にするコンピュータプログラムを意味しうる。例示的なテキストエディタとしては、限定するものではないが、Microsoft Word、emacs、pico、vi、BBEdit、およびTextWranglerがあげられる。好ましくは、テキストエディタプログラムは、プレーンテキストファイルをコンピュータスクリーンに表示させ、メタ情報および配列リードを人間が読めるフォーマットで(例えば、バイナリコード化されているのではなく、人間が筆記に用いるような英数字文字を用いて)示すことができる。
FASTAまたはFASTQファイルを参照して方法を論じてきたが、本発明の方法およびシステムは、任意の適切な配列ファイルフォーマット(例えば、Variant Call Format(VCF)フォーマットのファイルが含まれる)を圧縮するために使用しうる。典型的なVCFファイルは、ヘッダーセクションおよびデータセクションを含むであろう。ヘッダーは、メタ情報行の任意の数字を含み、各行は、文字「##」で始まり、「#」一文字で始まるフィールド定義行がタブで区切られている。フィールド定義行は、8つの必須の列を指定し、ボディーセクションには、フィールド定義行で定義された列を構成するデータの行が含まれる。VCF形式は、Danecekら(「The variant call format and VCFtools」、Bioinformatics 27(15):2156−2158,2011)(これは、参照によりその全体が本明細書に援用される)によって説明されている。ヘッダーセクションは、圧縮ファイルに書き込まれるメタ情報として扱われてもよく、データセクションは、前記の行として取り扱われてもよく、各行は、ユニークである場合のみ、マスターファイル中に保存されるであろう。
本発明のある特定の実施形態は、配列リードのアセンブリを提供する。アライメントによるアセンブリにおいて、例えば、リードは、互いにアラインされるか、または参照にアラインされる。各リードにアラインし、次いで参照ゲノムにアラインすることによって、全てのリードは、互いの関係において位置づけされ、アセンブリを作り出す。加えて、配列リードの参照配列に対するアライメントまたはマッピングは、配列リード内のバリアント配列を識別するためにも使用しうる。バリアント配列の識別は、本明細書に記載されている方法およびシステムと組み合わせて、疾患もしくは状態の診断もしくは予後をさらに補助するために、または処置の判断のガイドのために使用しうる。
いくつかの実施形態において、これらのステップのいずれかまたは全てが自動化される。あるいは、本発明の方法は、全体的または部分的に、1つまたはそれを超える専用のプログラムに組み入れられ、例えば、それぞれが、必要に応じてC++などのコンパイル言語で記述され、次いでコンパイルされ、バイナリとして供給される。本発明の方法は、全体的または部分的に、既存の配列解析プラットフォーム内にモジュールとして実装されてもよく、または既存の配列解析プラットフォーム内で機能的に実行することで実装されてもよい。ある特定の実施形態において、本発明の方法は、1つの開始キュー(例えば、人間の動作、別のコンピュータプログラム、またはマシンに起因する、トリガーとなる1つまたは組み合わせのイベント)に応答して自動的に全てが実行される、多数のステップを含む。よって、本発明は、任意の前記ステップ、または前記ステップの任意の組み合わせが、キューに応答して自動的に起こる方法を提供する。「自動的に」とは、一般に、人間の入力、影響、または相互作用が介在しない(すなわち、最初の、または前の、キューとなる人間の動作のみに応答する)ことを意味する。
システムは、種々の出力形式も包含し、正確で敏感な対象核酸の解釈を含む。検索の出力は、コンピュータファイルのフォーマットで提供されうる。ある特定の実施形態において、出力は、FASTAファイル、FASTQファイル、またはVCFファイルである。出力は、参照ゲノムの配列にアラインした核酸の配列などの配列データを含むテキストファイルまたはXMLファイルを生成するために処理されてもよい。他の実施形態において、処理は、参照ゲノムと比較した、対象核酸における1つまたはそれを超える変異を説明する座標またはストリングを含む出力をもたらす。配列のアライメントとしては、Simple UnGapped Alignment Report(SUGAR)、Verbose Useful Labeled Gapped Alignment Report(VULGAR)、およびCompact Idiosyncratic Gapped Alignment Report(CIGAR)(Ningら、Genome Research 11(10):1725−9,2001(これらは、参照によりその全体が本明細書に援用される)が挙げられ得る。これらのストリングは、例えば、欧州バイオインフォマティクス研究所(European Bioinformatics Institute)(Hinxton、UK)によるExonerate配列アライメントソフトウェア中に実装される。
いくつかの実施形態において、CIGAR列を含む配列アライメント(例えば、配列アライメントマップ(SAM)またはバイナリアライメントマップ(BAM)ファイルなど)が生成される(SAM形式は、例えば、Liら、「The Sequence Alignment/Map format and SAMtools」、Bioinformatics,25(16):2078−9,2009(これは、参照によりその全体が本明細書に援用される)によって説明されている)。いくつかの実施形態において、CIGARは、1行ごとに1つ、ギャップトアライメント(gapped alignment)を表示する、または含む。CIGARは、CIGAR列として報告される、圧縮されペアワイズアライメントフォーマットである。CIGAR列は、長い(例えば、ゲノムの)ペアワイズアライメントを表示するために有用である。CIGAR列は、リードの参照ゲノム配列に対するアライメントを表示するために、SAM形式で用いられる。
CIGAR列は、確立されたモチーフのあとに続く。各文字の前に数字を付し、イベントの塩基数を示す。使用される文字としては、M、I、D、N、およびS(M=マッチ;I=挿入;D=欠失;N=ギャップ;S=置換)が挙げられ得る。CIGAR列は、マッチ/ミスマッチおよび欠失(またはギャップ)の配列を記述する。例えば、CIGAR列2MD3M2D2Mは、2マッチ、1欠失(数字の1は、スペースを節約するために省略される)、3マッチ、2欠失、および2マッチを含むアライメントを意味するであろう。
いくつかの実施形態において、本明細書に開示されているシステムおよび方法の結果は、レポートを生成するための入力として使用される。レポートは、紙または電子的フォーマットでありうる。例えば、本明細書に開示されている方法またはシステムによって決定された試料のアレル不均衡状態についての情報は、そのようなレポートに表示されうる。代わりに、または加えて、本明細書に開示されている方法またはシステムによって決定されるような、試料中のコンタミネーションの存在または非存在についての情報は、このようなレポートに表示されうる。本明細書に開示されている方法またはシステムは、そのようなレポートを第三者(例えば、前記試料の起源である対象、または医療従事者)に伝達するステップをさらに含んでいてもよい。
本明細書に開示されている方法の種々のステップ、または本明細書に開示されているシステムによって実行される種々のステップは、同じまたは異なる時間に、同じまたは異なる地理的位置(例えば、国)で、および/または同じまたは異なる人によって実行されうる。
本方法は、異なる時点における治療的核酸コンストラクトの相対量によって、処置の有効性を決定またはモニタリングするためにも使用しうる。
図3は、本明細書で提供される方法を実行するように、プログラムまたは他の方法で構成されたコンピュータシステム301を示す。
コンピュータシステム301は、生物学的配列、保存、および分子的な表現型を用いてニューラルネットワークを訓練するためのアーキテクチャを実行するように、プログラムまたは他の方法で構成されていてもよい。コンピュータシステム301は、例えば、(a)前記試料からの複数の無細胞デオキシリボ核酸(DNA)分子をシーケンシングして、複数の配列リードを生成すること;(b)前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること;(c)前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合(MAF)で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること(ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAF値を有する);(d)(c)において識別された、MAF値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること;および(e)(c)において識別された前記生殖系列バリアントのセットを、少なくとも前記(d)の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡を所定の基準に基づいて検出すること、などの、本開示の種々の態様を制御することができる。コンピュータシステム301は、ユーザーの電子デバイスであってもよく、または電子デバイスから離れて配置されたコンピュータシステムであってもよい。前記電子デバイスは、モバイル電子デバイスであってもよい。
コンピュータシステム301は、中央処理装置(CPU、または、本明細書において、「プロセッサ」および「コンピュータプロセッサ」)305を含み、これはシングルコアもしくはマルチコアプロセッサ、または並列処理のための複数のプロセッサであってもよい。コンピュータシステム301は、メモリーまたは記憶域310(例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリー)、電子記憶ユニット315(例えば、ハードディスク)、1つまたはそれを超える他のシステムと通信するための通信インターフェース320(例えば、ネットワークアダプター)、および周辺デバイス325(例えば、キャッシュ、他のメモリー、データ記憶および/または電子ディスプレイアダプターなど)も含む。メモリー310、記憶ユニット315、インターフェース320、および周辺デバイス325は、コミュニケーションバス(実線)(例えば、マザーボードなど)を通じて、CPU305と通信している。記憶ユニット315は、データを記憶するためのデータ記憶ユニット(またはデータリポジトリ)でありうる。コンピュータシステム301は、通信インターフェース320の助けによりコンピュータネットワーク(「ネットワーク」)330に動作できるように接続されていてもよい。ネットワーク330は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信しているイントラネットおよび/もしくはエクストラネットでありうる。ネットワーク330は、いくつかのケースにおいて、遠距離通信および/またはデータネットワークである。ネットワーク330は、1つまたはそれを超えるコンピュータサーバーを含んでいてもよく、それによってクラウドコンピューティングなどの分散型コンピューティングが可能になりうる。ネットワーク330は、いくつかのケースにおいて、コンピュータシステム301の助けにより、P2P(peer−to−peer)ネットワークを実現することができ、これによってコンピュータシステム301に接続されたデバイスを、クライアントまたはサーバーとして動作させることが可能になりうる。
CPU305は、マシン可読命令(これは、プログラムまたはソフトウェアに組み込まれうる)のシーケンスを実行することができる。命令は、記憶域、例えばメモリー310に記憶されうる。命令は、CPU305に向けられてもよく、これが、次に本開示の方法を実行するように、CPU305をプログラムまたは他の方法で構成してもよい。CPU305によって実行される動作の例としては、フェッチ、デコード、実行、およびライトバックがあげられる。
CPU305は、回路(例えば、集積回路)の一部でありうる。システム301の1つまたはそれを超える他の構成要素が、回路に含まれていてもよい。いくつかのケースにおいて、回路は、特定用途向け集積回路(ASIC)である。
記憶ユニット315は、ファイル(例えば、ドライバ、ライブラリ、および保存されたプログラム)を記憶することができる。記憶ユニット315は、ユーザーのデータ(例えば、ユーザーのプリファレンスおよびユーザーのプログラム)を記憶することができる。コンピュータシステム301は、いくつかのケースにおいて、コンピュータシステム301の外部の(例えば、イントラネットまたはインターネットを通じてコンピュータシステム301と通信しているリモートサーバーに置かれた)、1つまたはそれを超える追加のデータ記憶ユニットを含んでいてもよい。
コンピュータシステム301は、ネットワーク330を通じて1つまたはそれを超えるリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム301は、ユーザーのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ(例えば、ポータブルPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートホン(例えば、Apple(登録商標)iPhone(登録商標)、アンドロイド(登録商標)対応デバイス、Blackberry(登録商標))、またはPDA(パーソナルデジタルアシスタント)があげられる。ユーザーは、ネットワーク330を通じてコンピュータシステム301にアクセスすることができる。
本明細書で説明した方法は、コンピュータシステム301の電子的記憶域に(例えば、メモリー310または電子記憶ユニット315に)記憶されたマシン(例えば、コンピュータプロセッサ)実行可能コードによって実行されうる。マシン実行可能またはマシン可読コードは、ソフトウェアの形態で提供されうる。使用中、コードは、プロセッサ305によって実行されうる。いくつかのケースにおいて、コードは、記憶ユニット315から読み出され、プロセッサ305がすぐにアクセスできるように、メモリー310に格納される。いくつかの状況において、電子記憶ユニット315を排除し、マシン実行可能命令をメモリー310に格納してもよい。
コードは、事前にコンパイルして、コードの実行に適合されたプロセッサを有するマシンで使用するために構成してもよく、または実行時間中にコンパイルしてもよい。コードは、事前にコンパイルされる様式または実行中にコンパイルされる様式でコードを実行できるように選択されうる、プログラミング言語で供給してもよい。
本明細書において提供されるシステムおよび方法の態様、例えばコンピュータシステム301は、プログラミングに組み込まれうる。このテクノロジーの種々の態様は、典型的には、ある種のマシン可読媒体に保持される、または組み込まれる、マシン(またはプロセッサ)実行可能コードおよび/または関連するデータの形態の、「製品」または「製造物品」であると考えてもよい。マシン実行可能コードは、メモリー(例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリー)、またはハードディスクなどの電子的記憶ユニットに記憶されうる。「記憶」型の媒体は、コンピュータ、プロセッサなど、またはそれらの関連モジュールの、いずれかまたは全ての有体メモリー(例えば、種々の半導体メモリー、テープドライブ、ディスクドライブなど)を含んでもよく、これらは、ソフトウェアプログラミンの任意の時点において、非一時的な記憶を提供しうる。ソフトウェアの全てまたは一部は、時により、インターネットまたは他の種々の遠距離通信ネットワークを通じて通信してもよい。そのような通信は、例えば、ソフトウェアを、1つのコンピュータまたはプロセッサから別のものに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームに、ロードすることを可能にしうる。よって、ソフトウェア要素を保持しうる別の種類の媒体としては、光波、電波、または電磁波(例えば、有線および光地上線ネットワーク通して、ならびに種々の無線リンクによって、ローカルデバイス間の物理的インターフェース同士で用いられる)があげられる。このような波を運ぶ物理的要素(例えば、有線またはワイヤレスリンク、光学リンクなど)もまた、ソフトウェアを保持する媒体と考えられうる。本明細書で用いられる場合、非一時的な有形「記憶」媒体に特に限定されない限り、コンピュータまたはマシン「可読媒体」などの用語は、命令を実行のためのプロセッサに提供することに関わるあらゆる媒体を意味する。
よって、マシン可読媒体(例えばコンピュータ実行可能なコード)は、それらに限定されないが、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含む、多くの形態をとることができる。不揮発性記憶媒体は、例えば、光学または磁気ディスク(例えば、任意のコンピュータなどにおける記憶装置のいずれか)を含み、例えば、図面に示されるデータベースなどを構築するために使用しうる。揮発性記憶媒体としては、このようなコンピュータプラットフォームのメインメモリーなどのダイナミックメモリーがあげられる。有体通信媒体としては、同軸ケーブル;銅線および光ファイバー(コンピュータシステム内のバスを構成する線を含む)があげられる。搬送波伝送媒体は、電気もしくは電磁気シグナル、または音波もしくは光波の形態(例えば、無線周波数(RF)および赤外線(IR)データ通信の際に生成されるもの)であってもよい。よって、コンピュータ可読媒体の通常の形態としては、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体;CD−ROM、DVDもしくはDVD−ROM、任意の他の光学媒体;パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体;RAM、ROM、PROMおよびEPROM、FLASH(登録商標)−EPROM、任意の他のメモリーチップまたはカートリッジ;データまたは命令を運ぶ搬送波;そのような搬送波を運ぶケーブルまたはリンク;またはコンピュータがプログラムコードおよび/またはデータを読み出すことができる任意の他の媒体があげられる。このような形態のコンピュータ可読媒体の多くは、1つまたはそれを超える命令の1つまたはそれを超えるシーケンスを、実行のためのプロセッサに運ぶことに関係しうる。
コンピュータシステム301は、ユーザーインターフェース(UI)340を含む電子ディスプレイ335を含んでいてもよく、ユーザーインターフェース(UI)340を含む電子ディスプレイ335と通信していてもよい。UIの例としては、限定するものではないが、例えば、グラフィカルユーザーインターフェース(GUI)およびウェブベースユーザーインターフェースがあげられる。
本開示の方法およびシステムは、1つまたはそれを超えるアルゴリズムとして実施されうる。アルゴリズムは、中央処理装置305による実行の際に、ソフトウェアとして実施されてもよい。アルゴリズムによって、例えば、(a)シーケンサーからの複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成し;(b)前記複数のアラインした配列リードの少なくとも一部について、試料中に変異アレル割合(MAF)またはマイナーアレル頻度で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別し(ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAFまたはマイナーアレル頻度値を有する);(c)(b)において識別された、MAFまたはマイナーアレル頻度値が複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定し;および(d)少なくとも(c)の前記定量的測定値に基づいて(b)において識別された前記生殖系列バリアントのセットをフィルタリングすることによって、所定の基準に基づいて前記試料中の前記アレル不均衡を検出する、ことが可能である。
上記の説明は、特定の実施形態に関して説明してきたが、これらの特定の実施形態は例示にすぎず、限定的なものではない。実施例で例証される概念は、他の実施例および実施態様にもあてはまりうる。
実施例1:アレル不均衡がある試料とコンタミネーションがある試料の識別
通常の無細胞DNA分析方法を用いて試料をアッセイする場合、体細胞MAFの範囲内のMAF(約15%未満であろう)で存在する2つを超える生殖系列バリアントを有するどのような試料も、その試料が「コンタミネーションがありうる」状態であるか否かを評価するために、人手による精査を必要とする。このようなアプローチでは、このような生殖系列バリアントを複数含む種々の試料、例えば、(1)アッセイレベルのコンタミネーションを含む試料、(2)(例えば、移植片、輸血、または胎児由来の)第2のゲノムを含む試料、および(3)ヘテロ接合性の喪失(LoH)の結果アレル不均衡を示している試料、に印をつける。さらに、試料を通常のcfDNAアッセイ方法によって分析した場合、このようなケースの試料を識別することができない。例えば、第2のゲノムを含む試料と、LoHの結果アレル不均衡を示している試料は、どちらも、誤ってアッセイレベルのコンタミネーションを含む試料とみなされ、それにより、確認目的の試料アッセイを繰り返すことが必要になるであろう。したがって、このアプローチでは、コンタミネーション試料をオーバーコール(overcall)し、その結果、実際にはコンタミネーションではなくアレル不均衡を有する試料を再アッセイすることが必要となるために、アッセイ所要時間が増加し、コストも増大するおそれがある。
コピー数多型または変更がない試料のケースでは、体細胞バリアントは、腫瘍源から直接測定してもよい。しかしながら、コピー数多型または変更が試料中に存在する場合、そのような多型がLoHを引き起こす生殖系列バリアントを含んでいる場合には、MAF測定が歪められ(例えば、MAF測定はシフトし、50%ずれることがありうる)、それにより、偽陽性のコンタミネーション評価および試料の再アッセイ分析を誘発しうる。そのようなアレル不均衡は、LoH(これはコピー数に関係がある)またはCN−LoH(copy−neutral LoH)(例えば、染色体情報が一定に保たれるような、2つの染色体腕間の遺伝子交換に起因する)から生じた、CNVを有する患者で見られうる。例えば、そのようなLoH(これは、遺伝子がそのアレルを失うこと(例えば、遺伝子機能を失うこと)を示す)の検出は、処置の選択、モニタリング、および評価のために、重要な意味を有しうる。
本開示の方法およびシステムを用いて、無細胞DNA分子を含有する試料がアッセイされ、その結果が、アレル不均衡を有する試料とコンタミネーションを有する試料を識別するための決定木を用いて分析される。図2は、無細胞DNA試料におけるアレル不均衡またはコンタミネーションの存在または非存在を検出するためのワークフロー200の例を示す。ワークフロー200は、(操作202におけるように)MAF値の複数の別々の範囲の間にある、試料の無細胞DNA分子についての前記生殖系列バリアントの定量的測定値を決定することを含みうる。次に、ワークフロー200は、(操作204におけるように)その試料レベルにおける、max_CNV(前記試料全体で測定した全遺伝子の最大CNVレベル)、min_CNV(前記試料全体で測定した全遺伝子の最小CNVレベル)、またはfrac_diploid(二倍体遺伝子割合)の値を決定することを含みうる。次に、ワークフロー200は、(操作206におけるように)第1の基準が満たされているか否か、例えば生殖系列バリアントの測定値、およびmax_CNV、min_CNV、またはfrac_diploidの値が、ある特定の基準を満たすか否か、を決定することを含みうる。もし操作206における判断が「yes」(すなわち、第1の基準がポジティブ)であれば、ワークフローは操作208に進み、代わりに、もし操作206における判断が「no」(すなわち、第1の基準がネガティブ)であれば、ワークフローは操作212に進む。次に、ワークフロー200は、(操作208におけるように)第2の基準が満たされているか否か、例えば、アレル不均衡候補(例えば、アレル不均衡またはコンタミネーションの存在または非存在を検出するために分析されているcfDNA試料)が、低MAF基準を満たす生殖系列バリアントを有しているか否か、を決定することを含みうる。もし操作208における判断が「yes」(すなわち、第2の基準がポジティブ)であれば、ワークフローは操作210に進み、代わりに、もし操作208における判断が「no」(すなわち、第2の基準がネガティブ)であれば、ワークフローは操作212に進む。次に、ワークフロー200は、例えば、(操作210におけるように)試料がアレル不均衡を有するという出力または表示を生成することを含みうる。あるいは、ワークフロー200は、(操作212におけるように)試料がコンタミネーション(例えば、アッセイレベルのコンタミネーションまたは第2のゲノムによるコンタミネーション)を有するという出力または表示を生成することを含みうる。
いくつかの実施形態において、決定木における全ての基準が適用される。決定木における第1の基準は、コンタミネーションの可能性がある試料を識別するために適用される。決定木における第2の基準は、複数の別々の範囲(例えば、ウィンドウ)のMAF値(約3%〜約40%MAFおよび約60%〜約97%MAFが含まれる)のいずれかの範囲内にある生殖系列バリアントの数を評価するために適用される。もし前記の数が大きく、かつコピー数による裏づけもあれば、そのような試料は、アレル不均衡を有する可能性がある。決定木における第3の基準は、非常に多数のコピー数変更によって約3%より少ないMAFを有する生殖系列バリアントが生じうるという、極端なケースを検出するために適用される。
20,000個を超える臨床試料の第1のセットを、73遺伝子無細胞DNA(cfDNA)次世代シーケンシング(NGS)パネル(Guardant Health、レッドウッドシティー、CA)を用いて処理する。この第1のセットから、224個の試料(これらは、人手によって再アッセイし、アレル不均衡試料とコンタミネーション試料を識別済みである)の訓練セットを選ぶ。例えば、もし人手による再アッセイによって、所与の試料に、もはやコンタミネーションがありうるという印がないという結果が得られたら、第1のアッセイ(ラン)は、本当にコンタミネーションがあるらしいと識別されうる。加えて、何人かの患者にコンタクトして、第2のゲノムの状態(例えば、移植片、輸血、または胎児)が確認される。224個の試料の訓練セットのそれぞれについてのコンタミネーションの状態は、人手によって精査される。この第1のセットから、2,300個の試料の試験セットを選び、そのうち37個の試料には、もともと、コンタミネーションがありうるという印がつけられていた。
いくつかの実施形態において、無細胞DNAアッセイは、複数の遺伝子バリアント(生殖系列バリアントおよび体細胞バリアントが含まれる)を生じさせる。これらの複数の遺伝子バリアントのうち、所与の遺伝子バリアントの生殖系列または体細胞状態を、検討中の候補バリアントの近傍に位置するコモン生殖系列SNPsについてのMAF値の平均および分散を推定するベータ二項分布モデルを用いて決定(例えば、識別)してもよい。本明細書に開示されている方法および関連する態様の実行モデルに用いるために必要に応じて適合されるベータ二項分布に関するさらなる詳細は、例えば、2018年9月20日に出願された国際特許出願第PCT/US2018/052087号(これは、参照によりその全体が本明細書に援用される)にも記載されている。
まず、コンタミネーションがありうる試料を識別するために、第1の基準を適用して、所与の試料が、変異アレル割合(MAF)15%未満で、2つを超えるコモン生殖系列一塩基多型(SNPs)を有するか否かを評価する。もしこの第1の基準が満たされれば、第2の基準を適用して、試料が、(a)複数の別々の範囲(例えば、ウィンドウ)のMAF値(約3%〜約40%MAFおよび約60%〜約97%MAFが含まれる)のいずれかの範囲内に21個を超える生殖系列バリアントを有し、および(b)試料中のこれらの別々の範囲内の遺伝子が、0.22より大きい最大CNVレベル、−0.14より小さい最小CNVレベル、または0.7より小さい二倍体遺伝子割合(例えば、二倍体割合)を有するか否かを評価する。前述の閾値は、多数の試料(例えば、約50個の試料、約100個の試料、約150個の試料、約200個の試料、約250個の試料)(ここで、これらの試料のコンタミネーション/アレル不均衡状態は既知であり、および/またはこれらの範囲は最大の精度をもたらす)の訓練データセットを用いて決定してもよい。
第2の基準は、(例えば、アレル不均衡またはヘテロ接合性の喪失から生じた)コピー数を示す定量的測定値を含みうる。コピー数を示す定量的測定値は、ゲノム破壊の測定値の総計(例えば、コピー数変化の総計の推定値)(例えば、CNV、または二倍体割合で表されうる);染色体または染色体腕によるビニング(binning)によって得られる定量的測定値;またはゲノム全体にわたって破壊を観察すること、各破壊における歪みの相対量を測定すること、およびそのような測定値から、同じ染色体上の別の遺伝子が(例えば、CN−LoH(copy−neutral LoH)の結果として)同程度に変更されうる可能性を予測すること、によって得られる定量的測定値、を含みうる。第2の基準は、コピー数変更が、生殖系列バリアントを、より広いMAFウィンドウ(例えば、約3%〜約40%または約60%〜約97%)に移動させうる証拠があるか否かを評価する。
もしこの第2の基準が満たされれば、第3の基準を用いて、試料が、(a)約3%より小さいMAFを有する生殖系列バリアントを有さない、または(b)約3%より小さいMAFを有し、同じ生殖系列バリアントにおいてコピー数平均の絶対値が約10より大きい(例えば、コピー数平均が約10より大きい、または約−10より小さい)生殖系列バリアントを有する、のいずれであるかを評価する。第3の基準は、非常に多数のコピー数変更によって、約3%より小さいMAFを有する生殖系列バリアントが生じうるという極端なケースが起こるか否かを評価する。もし第3の基準が満たされれば、試料は、アレル不均衡を有するもの(例えば、アレル不均衡試料)と識別される。もし第3の基準が満たされなければ、試料は、コンタミネーションを有するもの(例えば、本当にコンタミネーションがある試料)と識別される。
コンタミネーションがある試料(例えば、アレル不均衡がない試料)を検出するための方法の性能を、(少なくとも20,000個の異なる試料のより大きいセットから選択した)224個の試料の訓練データセット(表1)、および少なくとも2,300個の異なる試料の試験データセット(表2)について、以下に示す。
表1
Figure 2021534803
表2
Figure 2021534803
アレル不均衡を有する試料とコンタミネーションを有する試料を識別するために本明細書に開示されている方法を適用することによって、真のコンタミネーションを有する試料の検出において、100%という完全な感度を維持しつつ、無細胞DNAアッセイのオーバーコール率が20%低下する。
リキッドバイオプシーアッセイが(例えば、シーケンシング深度およびコモンSNPsのパネルにおいて)変化した場合、(例えば、アレル不均衡を有する試料とコンタミネーションを有する試料を識別するための判断木の1つまたはそれを超える基準の適用のための)妥当な閾値のセットを得るために、本開示の方法およびシステムを、必要に応じて再訓練してもよい。
実施例2:無細胞DNA(cfDNA)におけるアレル特異的なヘテロ接合性の喪失(LoH)の検出
ヘテロ接合性の喪失(LoH)は、腫瘍生物学における一般的な特徴であり、相同組換え修復(Homologous Recombination Repair)(HRR)の欠陥によって頻繁に起こる可能性があり、結果としてLoHとして顕在化する片親性欠失をもたらす。推進力がなければ、アレル喪失の起こりやすさは等しく、したがって、集団において、所与のアレルの保持および喪失の割合は等しいであろうが、アレル特異的喪失(または保持)は起こりうる。
70,000個を超える全血試料のセットを、進行した固形腫瘍を有する患者から取得し、73遺伝子無細胞DNA(cfDNA)次世代シーケンシング(NGS)パネル(Guardant Health、レッドウッドシティー、CA)を用いてアッセイした。本明細書に開示されている方法を実施することによって、得られたctDNAデータ(観測アレル頻度およびコピー数多型を含む)を、腫瘍関連バリアントのデータベースを用いて分析し、アレル特異的喪失を識別した。
データベースの解析によって、LoHは、個別の試料中で、保持アレルの観測変異アレル割合(MAF)が観測アレル頻度の50%を上回り、喪失アレルの観測変異アレル割合(MAF)が50%を下回る、アレル不均衡として顕在化することが多いことが明らかになった。この不均衡は、アレル頻度が相対的な測定値であるために、1つのアレルが喪失することで残ったアレルが相対的に多数となり、残ったアレルの量が比例して増加するために起こる。ポピュレーション解析によって、大部分のアレルの喪失は無差別であるが、ある特定のアレルは、保持または喪失の傾向が強いことが明らかになった。
一例として、分析した90,000個を超える全血試料のセットのうち、このセットの1つまたはそれを超える個別の試料中でBRCA1遺伝子の56個のバリアントが観察されたが、各バリアントについて、所与のバリアントを有する個々の試料全てにおいて、所与のバリアントについて測定されたMAFは50%未満であり、これはアレル特異的喪失の可能性を示唆している。例えば、BRCA1 P209Lバリアントは、この90,000個を超える全血試料のセットの9個の個別の試料中で観察され、この9個の個別の試料のそれぞれについて測定されたBRCA1 P209LバリアントのMAFは、50%未満であった。ctDNAデータからのアレル特異的喪失の検出は、基礎となる腫瘍生物学、および処置過程の間の腫瘍進化もたらす選択圧への洞察を提供する。
本明細書において、本発明の好ましい態様を示し、説明してきたが、それらの実施形態は例として示されているにすぎないことが、当業者には明白であろう。本明細書中に示されている特定の例によって本発明が限定されることは意図されていない。前述の明細書を参照して本発明を説明してきたが、本明細書における実施形態の説明および例証は、限定する意味で解釈されることを意図していない。多数の変形、変更、および置換が、本発明を逸脱することなく、当業者によって直ちに見いだされるであろう。さらに、本発明の全ての態様は、本明細書に示されている特定の描写、構成、または相対的比率に限定されず、それらは様々な条件および変数に依存することが理解されるであろう。本発明の実施において、本明細書に記載されている本発明の実施形態に対する種々の代替が採用されうることを理解すべきである。よって、そのようなあらゆる代替物、変更物、変形物、または等価物もまた本発明に包含されることが意図されている。以下の特許請求の範囲が本発明の範囲を規定し、その特許請求の範囲内の方法および構造ならびにそれらの等価物が、特許請求の範囲に包含されることが意図されている。

Claims (53)

  1. 対象からの試料におけるアレル不均衡の存在または非存在を検出するための方法であって、
    (a)前記試料からの複数の無細胞デオキシリボ核酸(DNA)分子をシーケンシングして、複数の配列リードを生成すること;
    (b)前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること;
    (c)前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合(MAF)で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別することであって、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAF値を有すること;
    (d)(c)において識別された、MAF値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること;および
    (e)(c)において識別された前記生殖系列バリアントのセットを、少なくとも前記(d)の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を所定の基準に基づいて検出すること
    を含む、方法。
  2. (e)における検出が、前記複数のアラインした配列リードから、コピー数多型(CNV)または二倍体遺伝子を示す1つまたはそれを超える定量的測定値を検出することを含み、前記所定の基準が、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値を含む、請求項1に記載の方法。
  3. 前記試料において前記アレル不均衡の非存在が検出された場合に、前記試料におけるコンタミネーションまたは第2のゲノムの存在または非存在を検出することをさらに含む、請求項1または2に記載の方法。
  4. 前記生殖系列バリアントのセットが、少なくとも約1,000個の異なる生殖系列バリアントを含む、請求項1〜3のいずれか1項に記載の方法。
  5. 前記遺伝子バリアントのセットが、一塩基バリアント(SNV)、挿入または欠失(挿入欠失)、および融合からなる群から選択される遺伝子バリアントを含む、請求項1〜4のいずれか1項に記載の方法。
  6. 前記試料が、血液、血漿、血清、尿、唾液、粘膜分泌物、喀痰、便、および涙からなる群から選択される体液試料である、請求項1〜5のいずれか1項に記載の方法。
  7. 前記対象が、疾患または障害を有する、請求項1〜6のいずれか1項に記載の方法。
  8. 前記疾患が、がんである、請求項7に記載の方法。
  9. シーケンシングの前に、前記無細胞DNA分子を増幅することをさらに含む、請求項1〜8のいずれか1項に記載の方法。
  10. シーケンシングの前に、遺伝子座のセットについて、前記無細胞DNA分子、または前記増幅された無細胞DNA分子を選択的に富化することをさらに含む、請求項1〜9のいずれか1項に記載の方法。
  11. シーケンシングの前に、分子バーコードを含む1つまたはそれを超えるアダプターを、前記無細胞DNA分子に結合させることをさらに含む、請求項1〜10のいずれか1項に記載の方法。
  12. 前記1つまたはそれを超えるアダプターが、前記無細胞DNA分子の両方の末端にランダムに結合される、請求項11に記載の方法。
  13. 前記無細胞DNA分子が、分子バーコードで固有にバーコード化される、請求項11に記載の方法。
  14. 前記無細胞DNA分子が、分子バーコードで非固有にバーコード化される、請求項11に記載の方法。
  15. 各分子バーコードが、選択された領域からシーケンシングされた分子の多様性と組み合わせて、固有の無細胞DNA分子の識別を可能にする、既定のまたはセミランダムなオリゴヌクレオチド配列を含む、請求項11に記載の方法。
  16. 前記複数のゲノム領域が、COSMIC、TCGA(The Cancer Genome Atlas)、またはExAC(Exome Aggregation Consortium)中に見いだされる遺伝子バリアントを含む、請求項1〜15のいずれか1項に記載の方法。
  17. 前記複数の別々の範囲のMAF値が、約3%〜約40%の第1の範囲、および約60%〜約97%の第2の範囲を含む、請求項1〜16のいずれか1項に記載の方法。
  18. 前記(d)の定量的測定値が、MAF値の複数の別々の範囲の間にある、前記遺伝子バリアントの多数のセットを含む、請求項17に記載の方法。
  19. 前記所定の基準が、前記(d)の定量的測定値が所定の生殖系列バリアント閾値より大きいことを含む、請求項18に記載の方法。
  20. 前記所定の生殖系列バリアント閾値が、約21である、請求項19に記載の方法。
  21. 前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値が、前記試料全体の最大CNVレベル、前記試料全体の最小CNVレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、請求項2、または17〜20のいずれか1項に記載の方法。
  22. 前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値が、前記試料全体の最大CNVレベル、前記試料全体の最小CNVレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、2つまたはそれを超える定量的測定値を含む、請求項21に記載の方法。
  23. 前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値が、前記試料全体の最大CNVレベル、前記試料全体の最小CNVレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、3つまたはそれを超える定量的測定値を含む、請求項22に記載の方法。
  24. 前記所定の基準が、前記試料全体の最大CNVレベルが所定の最大CNV閾値より大きい、前記試料全体の最小CNVレベルが所定の最小CNV閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのMAFは、約3%より小さい、からなる群から選択される1つまたはそれを超える基準を含む、請求項21〜23のいずれか1項に記載の方法。
  25. 前記所定の基準が、前記試料全体の最大CNVレベルが所定の最大CNV閾値より大きい、前記試料全体の最小CNVレベルが所定の最小CNV閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのMAFは、約3%より小さい、からなる群から選択される2つまたはそれを超える基準を含む、請求項24に記載の方法。
  26. 前記所定の基準が、前記試料全体の最大CNVレベルが所定の最大CNV閾値より大きい、前記試料全体の最小CNVレベルが所定の最小CNV閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのMAFは、約3%より小さい、からなる群から選択される3つまたはそれを超える基準を含む、請求項25に記載の方法。
  27. 前記所定の基準が、前記試料全体の最大CNVレベルが所定の最大CNV閾値より大きい、前記試料全体の最小CNVレベルが所定の最小CNV閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのMAFは、約3%より小さい、という基準を含む、請求項26に記載の方法。
  28. 前記所定の基準が、最大CNV閾値が約0.22、最小CNV閾値が約−0.14、二倍体割合閾値が約0.7、およびコピー数平均閾値が約10、からなる群から選択される1つまたはそれを超える閾値を含む、請求項24〜27のいずれか1項に記載の方法。
  29. 前記所定の基準が、最大CNV閾値が約0.22、最小CNV閾値が約−0.14、二倍体割合閾値が約0.7、およびコピー数平均閾値が約10、からなる群から選択される2つまたはそれを超える閾値を含む、請求項28に記載の方法。
  30. 前記所定の基準が、最大CNV閾値が約0.22、最小CNV閾値が約−0.14、二倍体割合閾値が約0.7、およびコピー数平均閾値が約10、からなる群から選択される3つまたはそれを超える閾値を含む、請求項29に記載の方法。
  31. 前記所定の基準が、最大CNV閾値が約0.22、最小CNV閾値が約−0.14、二倍体割合閾値が約0.7、およびコピー数平均閾値が約10、という閾値を含む、請求項30に記載の方法。
  32. 少なくとも約60%の陽性的中率(PPV)で、前記試料中の前記コンタミネーションまたは前記第2のゲノムの存在を検出することをさらに含む、請求項3に記載の方法。
  33. 少なくとも約90%の陰性的中率(NPV)で、前記試料中の前記コンタミネーションまたは前記第2のゲノムの非存在を検出することさらに含む、請求項3に記載の方法。
  34. 少なくとも約90%の感度で、前記試料中の前記コンタミネーションまたは前記第2のゲノムの存在を検出することをさらに含む、請求項3に記載の方法。
  35. 少なくとも約99%の感度で、前記試料中の前記コンタミネーションまたは前記第2のゲノムの存在を検出することをさらに含む、請求項34に記載の方法。
  36. 少なくとも約35%の特異性で、前記試料中の前記コンタミネーションまたは前記第2のゲノムの非存在を検出することさらに含む、請求項3に記載の方法。
  37. 前記生殖系列バリアントを、
    (i)前記cfDNA分子から核酸バリアントについて、総アレル数および変異アレル数を決定すること;
    (ii)前記cfDNA分子からの前記核酸バリアントの関連変数を識別すること;
    (iii)前記核酸バリアントの前記関連変数についての定量値を決定すること;
    (iv)前記核酸バリアントのゲノム遺伝子座において予測される生殖系列変異アレル数についての統計モデルを生成すること;
    (v)予測される生殖系列変異アレル数についての前記統計モデル、前記核酸バリアントの前記関連変数についての前記定量値、および前記核酸バリアントについての前記総アレル数および前記変異アレル数の少なくとも1つ、に少なくとも部分的に基づいて、前記核酸バリアントについてのP値(probability value)を生成すること;および
    (vi)前記核酸バリアントを、(1)前記核酸バリアントについての前記p値が所定の閾値より小さい場合に体細胞起源であるとして、または(2)前記核酸バリアントについての前記p値が所定の閾値以上である場合に生殖系列起源であるとして分類すること
    によって識別することをさらに含む、請求項1〜36のいずれか1項に記載の方法。
  38. (c)において所与のMAFで存在するものとして識別された前記生殖系列バリアントのセットの少なくとも1つに基づいて、前記試料におけるアレル特異的喪失を検出することをさらに含む、請求項1〜37のいずれか1項に記載の方法。
  39. 前記生殖系列バリアントのセットの前記少なくとも1つが、前記対象からの前記試料中に、50%を下回るMAFで存在することに基づいて、前記試料における前記アレル特異的喪失が検出される、請求項38に記載の方法。
  40. 前記生殖系列バリアントのセットの前記少なくとも1つが、前記対象からの前記試料中、および追加の1つまたはそれを超える対象からの1つまたはそれを超える各試料中に、50%を下回るMAFで存在することに基づいて、前記試料における前記アレル特異的喪失が検出される、請求項39に記載の方法。
  41. 前記生殖系列バリアントのセットの前記少なくとも1つが、COSMIC、TCGA(The Cancer Genome Atlas)、またはExAC(Exome Aggregation Consortium)中に見いだされる、請求項38〜40のいずれか1項に記載の方法。
  42. 前記生殖系列バリアントのセットの前記少なくとも1つが、BRCA1遺伝子バリアントである、請求項41に記載の方法。
  43. 前記BRCA1遺伝子バリアントが、BRCA1 P209Lである、請求項42に記載の方法。
  44. 前記方法の少なくとも一部が、コンピュータシステムによって実行される、請求項1〜43のいずれか1項に記載の方法。
  45. システムであって、少なくとも1つの電子プロセッサによって実行された場合に、少なくとも
    (a)対象の試料からの複数の無細胞デオキシリボ核酸(DNA)分子に対応する、複数の配列リードを得ること;
    (b)前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること;
    (c)前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合(MAF)で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別し、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAF値を有すること;
    (d)(c)において識別された、MAF値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること;および(e)(c)において識別された前記生殖系列バリアントのセットを、少なくとも前記(d)の定量的測定値に基づいてフィルタリングすることによって、前記試料中のアレル不均衡の存在または非存在を所定の基準に基づいて検出すること
    を実施する非一時的なコンピュータ実行可能命令を含むコンピュータ可読媒体を含むコントローラー、または前記コンピュータ可読媒体にアクセスすることができるコントローラーを含む、システム。
  46. (e)における検出が、前記複数のアラインした配列リードから、コピー数多型(CNV)または二倍体遺伝子を示す1つまたはそれを超える定量的測定値を検出することを含み、前記所定の基準が、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値を含む、請求項45に記載のシステム。
  47. 前記コントローラーに作動可能に接続された核酸シーケンサーをさらに含み、前記核酸シーケンサーが、前記試料からの前記複数の無細胞DNA分子を処理して、前記複数の配列リードを生成するように構成されている、請求項45または46に記載のシステム。
  48. 前記非一時的なコンピュータ実行可能命令が、少なくとも1つの電子プロセッサによって実行された場合に、前記試料の前記アレル不均衡の存在または非存在についての情報および/または前記試料の前記コンタミネーションもしくは第2のゲノムの存在または非存在についての情報を必要に応じて含むレポートを生成すること、をさらに実施する、請求項45〜47のいずれか1項に記載のシステム。
  49. 前記非一時的なコンピュータ実行可能命令が、少なくとも1つの電子プロセッサによって実行された場合に、前記レポートを第三者(例えば、前記試料の起源である前記対象、または医療従事者など)に伝えること、をさらに実施する、請求項48に記載のシステム。
  50. 対象からの試料中のアレル不均衡の存在または非存在を検出するための方法であって、
    (a)前記試料からの複数の無細胞デオキシリボ核酸(DNA)分子から生成された複数のシーケンシングリードに、コンピュータシステムによってアクセスすること;
    (b)前記複数の配列リードの少なくとも一部を、前記コンピュータシステムによって参照配列にアラインして、複数のアラインした配列リードを生成すること;
    (c)前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合(MAF)で存在する生殖系列バリアントを、前記コンピュータシステムによって識別することによって、前記試料中の生殖系列バリアントのセットを識別し、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するMAF値を有すること;
    (d)(c)において識別された、MAF値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を、前記コンピュータシステムによって決定すること;および
    (e)(c)において識別された前記生殖系列バリアントのセットを、少なくとも前記(d)の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を、前記コンピュータシステムによって、所定の基準に基づいて検出すること
    を含む、方法。
  51. 前記(e)における検出が、前記複数のアラインした配列リードから、コピー数多型(CNV)または二倍体遺伝子を示す1つまたはそれを超える定量的測定値を、前記コンピュータシステムによって検出することであって、前記所定の基準は、前記CNVまたは前記二倍体遺伝子を示す前記1つまたはそれを超える定量的測定値を含むこと、を含む、請求項50に記載の方法。
  52. 前記試料の前記アレル不均衡の前記存在または非存在についての情報および/または前記試料の前記コンタミネーションもしくは第2のゲノムの存在または非存在についての情報を必要に応じて含むレポートを生成することをさらに含む、請求項1〜44または50〜51のいずれか1項に記載のシステム。
  53. 前記レポートを、前記試料の起源である前記対象、または医療従事者などのような第三者に伝えることをさらに含む、請求項52に記載の方法。
JP2021512247A 2018-09-04 2019-09-04 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム Pending JP2021534803A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862726922P 2018-09-04 2018-09-04
US62/726,922 2018-09-04
US201962810625P 2019-02-26 2019-02-26
US62/810,625 2019-02-26
PCT/US2019/049570 WO2020096691A2 (en) 2018-09-04 2019-09-04 Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples

Publications (1)

Publication Number Publication Date
JP2021534803A true JP2021534803A (ja) 2021-12-16

Family

ID=69641523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021512247A Pending JP2021534803A (ja) 2018-09-04 2019-09-04 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム

Country Status (4)

Country Link
US (1) US20200075124A1 (ja)
EP (1) EP3847276A2 (ja)
JP (1) JP2021534803A (ja)
WO (1) WO2020096691A2 (ja)

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
ATE226983T1 (de) 1994-08-19 2002-11-15 Pe Corp Ny Gekoppeltes ampflikation- und ligationverfahren
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
EP1975251A3 (en) 2000-07-07 2009-03-25 Visigen Biotechnologies, Inc. Real-time sequence determination
US7208271B2 (en) 2001-11-28 2007-04-24 Applera Corporation Compositions and methods of selective nucleic acid isolation
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
US7482120B2 (en) 2005-01-28 2009-01-27 Helicos Biosciences Corporation Methods and compositions for improving fidelity in a nucleic acid synthesis reaction
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
PT2557517T (pt) * 2007-07-23 2023-01-04 Univ Hong Kong Chinese Determinação de um desequilíbrio de sequências de ácido nucleico
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
KR101952965B1 (ko) * 2010-05-25 2019-02-27 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
EP2721181B1 (en) * 2011-06-17 2019-12-18 Myriad Genetics, Inc. Methods and materials for assessing allelic imbalance
KR102028375B1 (ko) 2012-09-04 2019-10-04 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2018144782A1 (en) * 2017-02-01 2018-08-09 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors

Also Published As

Publication number Publication date
EP3847276A2 (en) 2021-07-14
WO2020096691A3 (en) 2020-07-09
WO2020096691A2 (en) 2020-05-14
US20200075124A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
JP6824973B2 (ja) 無細胞dna分析における遺伝子融合検出の方法および応用
JP7242644B2 (ja) 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム
US20200232010A1 (en) Methods, compositions, and systems for improving recovery of nucleic acid molecules
JP2023060046A (ja) 脱アミノ化に誘導される配列エラーの補正
US20200071754A1 (en) Methods and systems for detecting contamination between samples
US20200131566A1 (en) Methods, compositions and systems for calibrating epigenetic partitioning assays
CN114746560A (zh) 改进甲基化多核苷酸结合的方法、组合物和系统
JP2021534803A (ja) 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム
KR20210132139A (ko) 대립유전자 빈도에 기초한 기능 손실의 컴퓨터 모델링
US20240141425A1 (en) Correcting for deamination-induced sequence errors
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
EP4205122A2 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230825

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240422