JP7242644B2 - 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム - Google Patents

体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム Download PDF

Info

Publication number
JP7242644B2
JP7242644B2 JP2020516385A JP2020516385A JP7242644B2 JP 7242644 B2 JP7242644 B2 JP 7242644B2 JP 2020516385 A JP2020516385 A JP 2020516385A JP 2020516385 A JP2020516385 A JP 2020516385A JP 7242644 B2 JP7242644 B2 JP 7242644B2
Authority
JP
Japan
Prior art keywords
nucleic acid
germline
acid variant
sample
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020516385A
Other languages
English (en)
Other versions
JP2020536509A5 (ja
JP2020536509A (ja
Inventor
トレイシー ナンス,
エレナ ヘルマン,
ダーリヤ チュドヴァ,
Original Assignee
ガーダント ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ガーダント ヘルス, インコーポレイテッド filed Critical ガーダント ヘルス, インコーポレイテッド
Publication of JP2020536509A publication Critical patent/JP2020536509A/ja
Publication of JP2020536509A5 publication Critical patent/JP2020536509A5/ja
Priority to JP2023006454A priority Critical patent/JP2023052512A/ja
Application granted granted Critical
Publication of JP7242644B2 publication Critical patent/JP7242644B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P19/00Preparation of compounds containing saccharide radicals
    • C12P19/26Preparation of nitrogen-containing carbohydrates
    • C12P19/28N-glycosides
    • C12P19/30Nucleotides
    • C12P19/34Polynucleotides, e.g. nucleic acids, oligoribonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Description

相互参照
本願は、参照することによってその全体として本明細書に組み込まれる、2017年9月20日に出願された米国仮出願第62/561,048号の利益を主張する。
背景
癌ゲノム科学の重要な側面は、患者の適切な処置のために、遺伝子改変の起源を精密に識別することである。最近の研究では、進行性癌の患者の2%を上回る者において、未確認の生殖細胞系統改変が、標的化可能体細胞改変に関する次世代シーケンシング(NGS)の間に付随的に見出されたことが発見された。しかしながら、組織ベースのNGSは、正常組織との比較を伴わずに、生殖細胞系統突然変異体と体細胞突然変異体を正確に区別することが不可能であり得る。血漿中では、体細胞バリアントは、典型的には、生殖細胞系統バリアントより1~2桁低い大きさであり得る、突然変異対立遺伝子割合(MAF)で生じ、故に、液体生検は、生殖細胞系統/体細胞起源を正確に割り当てることができる。しかしながら、コピー数多型(CNV)またはヘテロ接合性の消失(LOH)からの対立遺伝子不均衡等のある要因は、生殖細胞系統MAFを生殖細胞系統MAFに関する予期される範囲から歪ませ得る。したがって、バリアントの起源を判定する際、これらの要因を考慮し得る、方法の必要性が存在する。
要旨
本開示は、無細胞デオキシリボ核酸(cfDNA)等の核酸分子のサンプル中の体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステムを提供する。そのような方法は、共通一塩基多型(SNP)を使用して、局所生殖細胞系統対立遺伝子カウント挙動をモデル化し得、観察される生殖細胞系統MAFからのMAF逸脱に基づいて、体細胞バリアントを区別し得る。
一側面では、本開示は、核酸バリアントの体細胞または生殖細胞系統起源を核酸分子のサンプル(例えば、組織サンプル、無細胞DNAのサンプル、および/または同等物)から識別する方法を提供する。本方法は、(a)核酸バリアントに関する1つまたはそれを上回る定量測定値を核酸サンプルから判定するステップを含む。定量測定値は、核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む。本方法はまた、(b)核酸バリアントの少なくとも1つの関連付けられた変数を核酸サンプルから識別するステップと、(c)核酸バリアントの関連付けられた変数に関する定量値を判定するステップとを含む。本方法はさらに、(d)核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、(e)予期される生殖細胞系統対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する定量測定値のうちの少なくとも1つに基づいて、核酸バリアントに関する確率値(p値)を生成するステップとを含む。さらに、本方法はまた、(f)核酸バリアントを、(i)核酸バリアントに関するp値が閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントのp値が閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップを含む。
一側面では、本開示は、核酸バリアントの体細胞または生殖細胞系統起源を無細胞核酸分子(例えば、無細胞デオキシリボ核酸(cfDNA)分子)のサンプルから識別する方法であって、(a)核酸バリアントに関する複数の定量測定値を無細胞核酸分子のサンプルから判定するステップであって、複数の定量測定値は、核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、(b)核酸バリアントの関連付けられた変数を無細胞核酸分子のサンプルから識別するステップと、(c)核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、(e)少なくとも部分的に、予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、核酸バリアントに関する確率値(p値)を生成するステップと、(f)核酸バリアントを、(i)核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントに関するp値が所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、を含む、方法を提供する。
いくつかの実施形態では、本方法は、無細胞核酸分子のサンプルを対象から取得するステップをさらに含む。いくつかの実施形態では、本方法は、無細胞核酸分子のサンプルから生成されたシーケンシング情報を受信するステップをさらに含み、シーケンシング情報は、核酸バリアントおよび核酸バリアントの関連付けられた変数を含む、無細胞核酸シーケンシングリードを含み、関連付けられた変数は、核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型一塩基多型(het SNP)を含む。いくつかの実施形態では、本方法は、シーケンシング情報を生成するために、核酸を無細胞核酸分子のサンプルからシーケンシングするステップをさらに含み、核酸バリアントに関する複数の定量測定値および関連付けられた変数に関する定量値は、シーケンシング情報から判定される。
いくつかの実施形態では、本方法は、核酸バリアントに関する複数の定量測定値を判定するステップと、核酸バリアントの関連付けられた変数を識別するステップと、関連付けられた変数に関する定量値を無細胞核酸分子のサンプルから生成されたシーケンシング情報から判定するステップとをさらに含む。いくつかの実施形態では、本方法は、無細胞核酸分子のサンプルの核酸に関する予期される生殖細胞系統突然変異対立遺伝子カウントのベータ二項モデルを使用して、所定の閾値を生成するステップをさらに含む、請求項のいずれかに記載の方法。いくつかの実施形態では、本方法は、複数の核酸バリアントの体細胞または生殖細胞系統起源を無細胞核酸分子のサンプル内の複数のゲノム遺伝子座から分類するステップをさらに含む。
いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも1個のヘテロ接合型一塩基多型(het SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも2個のhet SNPを含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、核酸バリアントを含むゲノム遺伝子座に連鎖するゲノム遺伝子座を含む。
いくつかの実施形態では、本方法は、核酸バリアントの関連付けられた変数に関する1つまたはそれを上回る突然変異対立遺伝子カウントの平均値および/または分散値を判定するステップをさらに含む。いくつかの実施形態では、本方法は、核酸バリアントの関連付けられた変数に関する平均定量値を判定するステップをさらに含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、ヘテロ接合型一塩基多型(het SNP)、GC含量測定値、プローブ特有のバイアス測定値、断片長値、シーケンシング統計測定値、コピー数切断点、および対象に関する臨床データのうちの1つまたはそれを上回るものを含む。いくつかの実施形態では、本方法は、核酸バリアントの関連付けられた変数の平均値および/または分散値を判定するステップをさらに含む。
いくつかの実施形態では、本方法は、核酸バリアントに関する局所生殖細胞系統折畳突然変異対立遺伝子割合(MAF)、μbinを判定するステップをさらに含み、binは、核酸バリアントを含む、遺伝子または別の規定されたゲノム領域であって、折畳MAFは、min(MAF,1-MAF)である。いくつかの実施形態では、規定されたゲノム領域は、核酸バリアントの約10、10、10、10、10、10、10、10、10、または1010個の塩基対内の領域である。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、約0.001を上回る集団対立遺伝子頻度(AF)を含む、少なくとも1個の一塩基多型(SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも1個の非発癌性一塩基多型(SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、約0.9未満の突然変異対立遺伝子割合(MAF)を含む、少なくとも1個の一塩基多型(SNP)を含む。
いくつかの実施形態では、関連付けられた変数は、核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型一塩基多型(SNP)を含み、方法は、以下を使用して、ベータ二項分布パラメータを推定するステップを含み:(x,y)~ベータ二項(μbin,ρ) 式中、y=少なくとも1個の生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、x=min(少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、μbin=あるビン内のヘテロ接合型SNPの平均値突然変異対立遺伝子カウントの推定値であって、ビンは、核酸バリアントに対して規定されたゲノム領域であって、ρ=分散パラメータの推定値である。いくつかの実施形態では、本方法はさらに、p値に関する上界および下界を計算するステップを含む。いくつかの実施形態では、本方法はさらに:p値=2*min(Prbb(x’>A|μbin,ρ,B),Prbb(x’<A|μbin,ρ,B))を使用して、核酸バリアントに関する両側p値を計算するステップを含み、式中、Prbb=ベータ二項の確率であって、x’=ベータ二項を伴って分散される無作為変数であって、A=核酸バリアントの突然変異対立遺伝子カウントであって、B=核酸バリアントの総分子カウントである。いくつかの実施形態では、ρは、過去のサンプルセットからのρ値の少なくとも1つのセットの中央値を含む。いくつかの実施形態では、本方法はさらに、中央値ρパラメータを核酸バリアントのGC含量の関数と置換するステップを含む。いくつかの実施形態では、本方法はさらに、μbinの最大尤度推定値を判定するステップを含む。いくつかの実施形態では、本方法はさらに、μbinの平均値推定値を判定するステップを含む。いくつかの実施形態では、本方法はさらに、ρの最大尤度推定値を判定するステップを含む。いくつかの実施形態では、本方法はさらに、ρの分散推定値を判定するステップを含む。いくつかの実施形態では、本方法はさらに、体細胞または生殖細胞系統起源のいずれかである、核酸バリアントの分類のインジケーションを提供する、電子および/または紙フォーマットにおける報告を生成するステップを含む。
別の側面では、本開示は、少なくとも1つの電子プロセッサによって実行される場合に、(a)核酸バリアントに関する複数の定量測定値を無細胞核酸分子(例えば、無細胞デオキシリボ核酸(cfDNA)分子)のサンプルから生成されたシークエンシング情報から判定するステップであって、複数の定量測定値は、核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、(b)核酸バリアントの関連付けられた変数をシークエンシング情報から識別するステップと、(c)核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、(e)少なくとも部分的に、予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、核酸バリアントに関する確率値(p値)を生成するステップと、(f)核酸バリアントを、(i)核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントに関するp値が所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、を含む、方法を実施する、コンピュータ実行可能命令を含む非一過性コンピュータ可読媒体を提供する。
いくつかの実施形態では、所定の閾値は、無細胞核酸分子(例えば、cfDNA分子)のサンプルに関する予期される生殖細胞系統突然変異対立遺伝子カウントのベータ二項モデルを使用して生成される。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも1個のヘテロ接合型一塩基多型(het SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも2個のhet SNPを含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、核酸バリアントを含むゲノム遺伝子座に連鎖するゲノム遺伝子座を含む。いくつかの実施形態では、1つまたはそれを上回る突然変異対立遺伝子カウントの平均値および/または分散値が、核酸バリアントの関連付けられた変数に関して判定される。いくつかの実施形態では、複数の定量測定値のうちの少なくとも1つは、核酸バリアントを含む、無細胞核酸分子のサンプルの核酸分子の数を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、ヘテロ接合型一塩基多型(het SNP)、GC含量測定値、プローブ特有のバイアス測定値、断片長値、シーケンシング統計測定値、コピー数切断点、および対象に関する臨床データのうちの1つまたはそれを上回るものを含む。
いくつかの実施形態では、局所生殖細胞系統折畳突然変異対立遺伝子割合(MAF)、μbinが、核酸バリアントに関して判定され、binは、核酸バリアントを含む、遺伝子または別の規定されたゲノム領域であって、折畳MAFは、min(MAF,1-MAF)である。いくつかの実施形態では、規定されたゲノム領域は、核酸バリアントの約10、10、10、10、10、10、10、10、10、または1010個の塩基対内の領域である。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、約0.001を上回る集団対立遺伝子頻度(AF)を含む、少なくとも1個の一塩基多型(SNP)を含む。いくつかの実施形態では、関連付けられた変数は、少なくとも1個の非発癌性一塩基多型(SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、約0.9未満の突然変異対立遺伝子割合(MAF)を含む、少なくとも1個の一塩基多型(SNP)を含む。
いくつかの実施形態では、関連付けられた変数は、核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型一塩基多型(SNP)を含み、ベータ二項分布パラメータが、以下を使用して推定される:(x,y)~ベータ二項(μbin,ρ)、式中、y=少なくとも1個の生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、少なくとも1個の生殖細胞系統ヘテロ接合型SNPのそれぞれに1つのエントリを伴い、x=min(少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、少なくとも1個の生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、μbin=あるビン内のヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、ビンは、核酸バリアントに対して規定されたゲノム領域であって、ρ=分散パラメータの推定値である。いくつかの実施形態では、p値に関する上界および下界が、計算される。いくつかの実施形態では、核酸バリアントに関する両側p値が、p値=2*min(Prbb(x’>x|μbin,ρ,B),Prbb(x’<x|μbin,ρ,B))を使用して計算され、式中、Prbb=ベータ二項の確率であって、x’=ベータ二項を伴って分散される無作為変数であって、A=核酸バリアントの突然変異対立遺伝子カウントであって、B=核酸バリアントの総分子カウントである。
別の側面では、本開示は、少なくとも1つの電子プロセッサによって実行される場合に、(a)核酸バリアントに関する複数の定量測定値を核酸分子のサンプル(例えば、無細胞デオキシリボ核酸(cfDNA)分子のサンプル)から生成されたシークエンシング情報から判定するステップであって、複数の定量測定値は、核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、(b)核酸バリアントの関連付けられた変数をシークエンシング情報から識別するステップと、(c)核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、(e)少なくとも部分的に、予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、核酸バリアントに関する確率値(p値)を生成するステップと、(f)核酸バリアントを、(i)核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントに関するp値が所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、を含む、方法を実行する、コンピュータ実行可能命令を含む非一過性コンピュータ可読媒体を備えるか、またはこれにアクセス可能なコントローラを備えるシステムを提供する。
いくつかの実施形態では、本システムは、コントローラに動作可能に接続される、核酸シーケンシング装置を備え、核酸シーケンシング装置は、核酸分子(例えば、無細胞核酸分子)のサンプルの核酸からのシーケンシング情報を提供するように構成される。いくつかの実施形態では、コントローラに動作可能に接続される、サンプル調製構成要素を備え、サンプル調製構成要素は、核酸シーケンシング装置によってシーケンシングされるべきサンプルの核酸を調製するように構成される。いくつかの実施形態では、本システムは、コントローラに動作可能に接続される、核酸増幅構成要素を備え、核酸増幅構成要素は、サンプルの核酸を増幅させるように構成される。いくつかの実施形態では、本システムは、コントローラに動作可能に接続される、材料輸送構成要素を備え、材料輸送構成要素は、1つまたはそれを上回る材料を核酸シーケンシング装置とサンプル調製構成要素との間で輸送させるように構成される。
いくつかの実施形態では、所定の閾値は、サンプル(例えば、cfDNA分子)の核酸に関する予期される生殖細胞系統突然変異対立遺伝子カウントのベータ二項モデルを使用して生成される。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも1個のヘテロ接合型一塩基多型(het SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも2個のhet SNPを含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、核酸バリアントを含むゲノム遺伝子座に連鎖するゲノム遺伝子座を含む。
いくつかの実施形態では、1つまたはそれを上回る突然変異対立遺伝子カウントの平均値および/または分散値が、核酸バリアントの関連付けられた変数に関して判定される。いくつかの実施形態では、p値は、核酸バリアントを分類するために使用される。いくつかの実施形態では、複数の定量測定値のうちの少なくとも1つは、核酸バリアントを含む、無細胞核酸分子のサンプルの核酸分子の数を含む。いくつかの実施形態では、関連付けられた変数は、ヘテロ接合型一塩基多型(het SNP)、GC含量測定値、プローブ特有のバイアス測定値、断片長値、シーケンシング統計測定値、コピー数切断点、および対象に関する臨床データのうちの1つまたはそれを上回るものを含む。
いくつかの実施形態では、局所生殖細胞系統折畳突然変異対立遺伝子割合(MAF)、μbinが、核酸バリアントに関して判定され、binは、核酸バリアントを含む、遺伝子または別の規定されたゲノム領域であって、折畳MAFは、min(MAF,1-MAF)である。いくつかの実施形態では、規定されたゲノム領域は、核酸バリアントの約10、10、10、10、10、10、10、10、10、または1010個の塩基対内の領域である。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、約0.001を上回る集団対立遺伝子頻度(AF)を含む、少なくとも1個の一塩基多型(SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも1個の非発癌性一塩基多型(SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、約0.9未満の突然変異対立遺伝子割合(MAF)を含む、少なくとも1個の一塩基多型(SNP)を含む。
いくつかの実施形態では、関連付けられた変数は、核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型SNPを含み、ベータ二項分布パラメータが、以下を使用して推定され:(x,y)~ベータ二項(μbin,ρ)、式中、y=少なくとも1個の生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、x=min(少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、μbin=あるビン内のヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、ビンは、核酸バリアントに対して規定されたゲノム領域であって、ρ=分散パラメータの推定値である。いくつかの実施形態では、p値に関する上界および下界が、計算される。いくつかの実施形態では、核酸バリアントに関する両側p値が、p値=2*min(Prbb(x’>x|μbin,ρ,B),Prbb(x’<x|μbin,ρ,B))を使用して計算され、式中、Prbb=ベータ二項の確率であって、x’=ベータ二項を伴って分散される無作為変数であって、A=核酸バリアントの突然変異対立遺伝子カウントであって、B=核酸バリアントの総分子カウントである。
別の側面では、本開示は、核酸バリアントの体細胞または生殖細胞系統起源を無細胞デオキシリボ核酸(cfDNA)分子のサンプルから識別する方法であって、(a)核酸バリアントの突然変異対立遺伝子カウント(A)および総分子カウント(B)をcfDNA分子のサンプルから判定するステップと、(b)核酸バリアントに対して規定されたゲノム領域内の少なくとも1個の生殖細胞系統ヘテロ接合型一塩基多型(SNP)を識別するステップと、(c)少なくとも1個の生殖細胞系統ヘテロ接合型SNPの総分子カウント(y)および突然変異対立遺伝子カウントを判定するステップと、(d)(i)μbinおよびρの推定値をベータ二項分布から判定するステップであって、(x,y)~ベータ二項(μbin,ρ)、式中、y=少なくとも1個の生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、x=min(少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、μbin=あるビン内の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、ビンは、核酸バリアントに対して規定されたゲノム領域であって、ρ=分散パラメータの推定値である、ステップと、(ii)両側p値を下記の方程式から計算するステップであって、p値=2*min(Prbb(x’>A|μbin,ρ,B),Prbb(x’<A|μbin,ρ,B))、式中、Prbb=ベータ二項の確率であって、x’=ベータ二項分布を伴って分散される無作為変数であって、A=核酸バリアントの突然変異対立遺伝子カウントであって、B=核酸バリアントの総分子カウントである、ステップと、によって、核酸バリアントに関する確率値(p値)を計算するステップと、(e)核酸バリアントを、(i)p値が、所定の閾値を下回るとき、体細胞起源である、または(ii)p値が、所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、を含む、方法を提供する。
いくつかの実施形態では、ρは、過去のサンプルセットからのρ値の少なくとも1つのセットの中央値を含む。いくつかの実施形態では、方法は、μbinの最大尤度推定値を判定するステップを含む。いくつかの実施形態では、方法は、μbinの平均値推定値を判定するステップを含む。いくつかの実施形態では、方法は、ρの最大尤度推定値を判定するステップを含む。いくつかの実施形態では、方法は、ρの分散推定値を判定するステップを含む。いくつかの実施形態では、本方法はさらに、体細胞または生殖細胞系統起源のいずれかである、核酸バリアントの分類のインジケーションを提供する、電子および/または紙フォーマットにおける報告を生成するステップを含む。
別の側面では、本開示は、通信ネットワーク上で、核酸分子のサンプル(例えば、無細胞デオキシリボ核酸(cfDNA)分子のサンプル)の核酸から生成されたシークエンシング情報を得る通信インターフェース、および通信インターフェースと通信するコンピュータであって、コンピュータは、少なくとも1つのコンピュータプロセッサおよび機械実行可能コードを含む非一過性コンピュータ可読媒体を備える、コンピュータを備えるシステムであって、機械実行可能コードは、少なくとも1つのコンピュータプロセッサによって実行されると、(a)核酸バリアントに関する複数の定量測定値をシークエンシング情報から判定するステップであって、複数の定量測定値は、核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、(b)核酸バリアントの関連付けられた変数をシークエンシング情報から識別するステップと、(c)核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、(e)少なくとも部分的に、予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、核酸バリアントに関する確率値(p値)を生成するステップと、(f)核酸バリアントを、(i)核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントに関するp値が所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、を含む、方法を実装する、システムを提供する。
いくつかの実施形態では、シーケンシング情報は、核酸シーケンシング装置によって提供される。いくつかの実施形態では、核酸シーケンシング装置は、核酸のパイロシーケンシング、単分子シーケンシング、ナノ細孔シーケンシング、半導体シーケンシング、合成によるシーケンシング、ライゲーションによるシーケンシング、またはハイブリダイゼーションによるシーケンシングを実施し、シーケンシング情報を生成する。いくつかの実施形態では、核酸シーケンシング装置は、シーケンシングライブラリから導出されるクローン単分子アレイを使用して、シーケンシング情報を生成する。いくつかの実施形態では、核酸シーケンシング装置は、シーケンシングライブラリをシーケンシングし、シーケンシング情報を生成するためのマイクロウェルのアレイを有する、チップを備える。いくつかの実施形態では、非一過性コンピュータ可読媒体は、メモリ、ハードドライブ、またはコンピュータサーバのメモリもしくはハードドライブを備える。いくつかの実施形態では、通信ネットワークは、分散されるコンピューティングが可能な1つまたはそれを上回るコンピュータサーバを備える。いくつかの実施形態では、分散型コンピューティングは、クラウドコンピューティングである。いくつかの実施形態では、コンピュータは、核酸シーケンシング装置から遠隔の場所に位置する、コンピュータサーバの一部である。いくつかの実施形態では、本システムはさらに、ネットワークを経由してコンピュータと通信する電子ディスプレイを含み、電子ディスプレイは、(a)-(f)の少なくとも一部を実装することに応じた結果を表示するためのユーザインターフェースを含む。いくつかの実施形態では、ユーザインターフェースは、グラフィカルユーザインターフェース(GUI)またはウェブベースのユーザインターフェースである。いくつかの実施形態では、電子ディスプレイは、パーソナルコンピュータの部分である。いくつかの実施形態では、電子ディスプレイは、インターネット対応コンピュータの部分である。いくつかの実施形態では、インターネット対応コンピュータは、コンピュータから遠隔場所に位置する。いくつかの実施形態では、非一過性コンピュータ可読媒体は、メモリ、ハードドライブ、またはコンピュータサーバのメモリもしくはハードドライブを備える。いくつかの実施形態では、通信ネットワークは、電気通信ネットワーク、インターネット、エクストラネット、またはイントラネットを含む。
別の側面では、本開示は、対象における疾患を処置する方法であって、方法は、1つまたはそれを上回るカスタマイズされた療法を対象に投与し、それによって、対象における疾患を処置するステップを含み、カスタマイズされた療法は、(a)核酸バリアントに関する1つまたはそれを上回る定量測定値を核酸分子のサンプル(例えば、無細胞DNAのサンプル)から判定するステップであって、定量測定値は、核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、(b)核酸バリアントの少なくとも1つの関連付けられた変数を核酸分子のサンプルから識別するステップと、(c)核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)核酸バリアントのゲノム遺伝子座における予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、(e)予期される生殖細胞系統対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する定量測定値のうちの少なくとも1つに基づいて、核酸バリアントに関する確率値(p値)を生成するステップと、(f)核酸バリアントを、(i)核酸バリアントのp値が、閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントのp値が、閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、(g)分類された核酸バリアントと1つまたはそれを上回る療法で索引化された1つまたはそれを上回る比較器結果を比較するステップと、(h)実質的合致が、分類された核酸バリアントと比較器結果との間に存在するとき、対象における疾患を処置するための1つまたはそれを上回るカスタマイズされた療法を識別するステップと、によって識別されている、方法を提供する。
本開示の付加的側面および利点は、本開示の例証的実施形態のみが図示および説明される、以下の発明を実施するための形態から、当業者に容易に明白となる。認識されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、種々の明白な点で修正が可能である。故に、図面および説明は、制限としてではなく、本質的に例証と見なされるべきである。
本開示の付加的側面および利点は、本開示の例証的実施形態のみが示され、説明される、以下の発明を実施するための形態から、当業者に容易に明白となるであろう。認識されるであろうように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、種々の明白な点で修正が可能である。故に、図面および説明は、制限的ではなくて本質的に例証的と見なされるものである。
本発明の実施形態において、例えば以下の項目が提供される。
(項目1)
核酸バリアントの体細胞または生殖細胞系統起源を無細胞デオキシリボ核酸(cfDNA)分子のサンプルから識別する方法であって、
(a)前記核酸バリアントに関する複数の定量測定値を前記cfDNAサンプルから判定するステップであって、前記複数の定量測定値は、前記核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、
(b)前記核酸バリアントの関連付けられた変数を前記cfDNA分子のサンプルから識別するステップと、
(c)前記核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)前記核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、
(e)少なくとも部分的に、前記予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、前記核酸バリアントの関連付けられた変数に関する定量値、および前記核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、前記核酸バリアントに関する確率値(p値)を生成するステップと、
(f)前記核酸バリアントを、(i)前記核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)前記核酸バリアントに関するp値が前記所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、
を含む、方法。
(項目2)
前記cfDNA分子のサンプルを対象から取得するステップをさらに含む、項目1に記載の方法。
(項目3)
前記cfDNAサンプルから生成されたシーケンシング情報を受信するステップをさらに含み、前記シーケンシング情報は、前記核酸バリアントおよび前記核酸バリアントの関連付けられた変数を含む、cfDNAシーケンシングリードを含み、関連付けられた変数は、前記核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型一塩基多型(het SNP)を含む、項目1または2に記載の方法。
(項目4)
シーケンシング情報を生成するために、核酸を前記cfDNAサンプルからシーケンシングするステップをさらに含み、前記核酸バリアントに関する複数の定量測定値および前記関連付けられた変数に関する定量値は、前記シーケンシング情報から判定される、前記項目のいずれかに記載の方法。
(項目5)
前記核酸バリアントに関する複数の定量測定値を判定するステップと、前記核酸バリアントの関連付けられた変数を識別するステップと、前記関連付けられた変数に関する定量値を前記cfDNA分子のサンプルから生成されたシーケンシング情報から判定するステップとをさらに含む、前記項目のいずれかに記載の方法。
(項目6)
前記cfDNA分子のサンプルの核酸に関する予期される生殖細胞系統突然変異対立遺伝子カウントのベータ二項モデルを使用して、前記所定の閾値を生成するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目7)
前記複数の核酸バリアントの体細胞または生殖細胞系統起源を前記cfDNA分子のサンプル内の複数のゲノム遺伝子座から分類するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目8)
前記核酸バリアントの関連付けられた変数は、少なくとも1個のヘテロ接合型一塩基多型(het SNP)を含む、前記項目のいずれかに記載の方法。
(項目9)
前記核酸バリアントの関連付けられた変数は、少なくとも2個のhet SNPを含む、項目8に記載の方法。
(項目10)
前記核酸バリアントの関連付けられた変数は、前記核酸バリアントを含むゲノム遺伝子座に連鎖するゲノム遺伝子座を含む、前記項目のいずれかに記載の方法。
(項目11)
前記核酸バリアントの関連付けられた変数に関する1つまたはそれを上回る突然変異対立遺伝子カウントの平均値および/または分散値を判定するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目12)
前記核酸バリアントの関連付けられた変数に関する平均定量値を判定するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目13)
前記核酸バリアントの関連付けられた変数は、ヘテロ接合型一塩基多型(het SNP)、GC含量測定値、プローブ特有のバイアス測定値、断片長値、シーケンシング統計測定値、コピー数切断点、および対象に関する臨床データのうちの1つまたはそれを上回るものを含む、前記項目のいずれかに記載の方法。
(項目14)
前記核酸バリアントの関連付けられた変数の平均値および/または分散値を判定するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目15)
前記核酸バリアントに関する局所生殖細胞系統折畳突然変異対立遺伝子割合(MAF)、μbinを判定するステップをさらに含み、binは、前記核酸バリアントを含む、遺伝子または別の規定されたゲノム領域であって、折畳MAFは、min(MAF,1-MAF)である、前記項目のいずれかに記載の方法。
(項目16)
前記規定されたゲノム領域は、前記核酸バリアントの約10 、10 、10 、10 、10 、10 、10 、10 、10 、または10 10 個の塩基対内の領域である、項目15に記載の方法。
(項目17)
前記核酸バリアントの関連付けられた変数は、約0.001を上回る集団対立遺伝子頻度(AF)を含む、少なくとも1個の一塩基多型(SNP)を含む、前記項目のいずれかに記載の方法。
(項目18)
前記核酸バリアントの関連付けられた変数は、少なくとも1個の非発癌性一塩基多型(SNP)を含む、前記項目のいずれかに記載の方法。
(項目19)
前記核酸バリアントの関連付けられた変数は、約0.9未満の突然変異対立遺伝子割合(MAF)を含む、少なくとも1個の一塩基多型(SNP)を含む、前記項目のいずれかに記載の方法。
(項目20)
前記関連付けられた変数は、前記核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型一塩基多型(SNP)を含み、前記方法はさらに、以下を使用して、ベータ二項分布パラメータを推定するステップを含み、
(x,y)~ベータ二項(μ bin ,ρ)
式中、
y=前記生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、
x=min(前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、
μ bin =あるビン内のヘテロ接合型SNPの平均値突然変異対立遺伝子カウントの推定値であって、前記ビンは、前記核酸バリアントに対して規定されたゲノム領域であって、ρ=分散パラメータの推定値である、
前記項目のいずれかに記載の方法。
(項目21)
以下を使用して、前記核酸バリアントに関する両側p値を計算するステップをさらに含み、
p値=2*min(Pr bb (x’>A|μ bin ,ρ,B),Pr bb (x’<A|μ bin ,ρ,B))
式中、
Pr bb =ベータ二項の確率であって、
x’=前記ベータ二項を伴って分散される無作為変数であって、
A=前記核酸バリアントの突然変異対立遺伝子カウントであって、
B=前記核酸バリアントの総分子カウントである、
項目20に記載の方法。
(項目22)
ρは、過去のサンプルセットからのρ値の少なくとも1つのセットの中央値を含む、項目20に記載の方法。
(項目23)
前記中央値ρパラメータを核酸バリアントのGC含量の関数と置換するステップをさらに含む、項目22に記載の方法。
(項目24)
μ bin の最大尤度推定値を判定するステップをさらに含む、項目20に記載の方法。
(項目25)
μ bin の平均値推定値を判定するステップをさらに含む、項目20に記載の方法。
(項目26)
ρの最大尤度推定値を判定するステップをさらに含む、項目20に記載の方法。
(項目27)
ρの分散推定値を判定するステップをさらに含む、項目20に記載の方法。
(項目28)
前記p値に関する上界および下界を計算するステップをさらに含む、前記項目のいずれかに記載の方法。
(項目29)
少なくとも1つの電子プロセッサによって実行される場合に、
(a)核酸バリアントに関する複数の定量測定値を無細胞デオキシリボ核酸(cfDNA)サンプルから生成されたシークエンシング情報から判定するステップであって、前記複数の定量測定値は、前記核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、
(b)前記核酸バリアントの関連付けられた変数を前記シークエンシング情報から識別するステップと、
(c)前記核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)前記核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、
(e)少なくとも部分的に、前記予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、前記核酸バリアントの関連付けられた変数に関する定量値、および前記核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、前記核酸バリアントに関する確率値(p値)を生成するステップと、
(f)前記核酸バリアントを、(i)前記核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)前記核酸バリアントに関するp値が前記所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、
を含む、方法を実施する、コンピュータ実行可能命令を含む非一過性コンピュータ可読媒体。
(項目30)
前記所定の閾値は、前記cfDNAサンプルの核酸に関する予期される生殖細胞系統突然変異対立遺伝子カウントのベータ二項モデルを使用して生成される、項目29に記載の非一過性コンピュータ可読媒体。
(項目31)
前記核酸バリアントの関連付けられた変数は、少なくとも1個のヘテロ接合型一塩基多型(het SNP)を含む、項目29-30のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目32)
前記核酸バリアントの関連付けられた変数は、少なくとも2個のhet SNPを含む、項目31に記載の非一過性コンピュータ可読媒体。
(項目33)
前記核酸バリアントの関連付けられた変数は、前記核酸バリアントを含むゲノム遺伝子座に連鎖するゲノム遺伝子座を含む、項目29-32のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目34)
1つまたはそれを上回る突然変異対立遺伝子カウントの平均値および/または分散値が、前記核酸バリアントの関連付けられた変数に関して判定される、項目29-33のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目35)
前記複数の定量測定値のうちの少なくとも1つは、前記核酸バリアントを含む、前記cfDNAサンプルの核酸分子の数を含む、項目29-34のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目36)
前記核酸バリアントの関連付けられた変数は、ヘテロ接合型一塩基多型(het SNP)、GC含量測定値、プローブ特有のバイアス測定値、断片長値、シーケンシング統計測定値、コピー数切断点、および対象に関する臨床データのうちの1つまたはそれを上回るものを含む、項目29~35のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目37)
局所生殖細胞系統折畳突然変異対立遺伝子割合(MAF)、μbinが、前記核酸バリアントに関して判定され、binは、前記核酸バリアントを含む、遺伝子または別の規定されたゲノム領域であって、折畳MAFは、min(MAF,1-MAF)である、項目29~36のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目38)
前記規定されたゲノム領域は、前記核酸バリアントの約10 、10 、10 、10 、10 、10 、10 、10 、10 、または10 10 個の塩基対内の領域である、項目37に記載の非一過性コンピュータ可読媒体。
(項目39)
前記核酸バリアントの関連付けられた変数は、約0.001を上回る集団対立遺伝子頻度(AF)を含む、少なくとも1個の一塩基多型(SNP)を含む、項目29~38のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目40)
前記関連付けられた変数は、少なくとも1個の非発癌性一塩基多型(SNP)を含む、項目29~39のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目41)
前記核酸バリアントの関連付けられた変数は、約0.9未満の突然変異対立遺伝子割合(MAF)を含む、少なくとも1個の一塩基多型(SNP)を含む、項目29~40のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目42)
前記関連付けられた変数は、前記核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型一塩基多型(SNP)を含み、ベータ二項分布パラメータが、以下を使用して推定される、
(x,y)~ベータ二項(μ bin ,ρ)
式中、
y=前記生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNPに1つのエントリを伴い、
x=min(前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、
μ bin =あるビン内のヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、前記ビンは、前記核酸バリアントに対して規定されたゲノム領域であって、
ρ=分散パラメータの推定値である、
項目29~41のいずれか一項に記載の非一過性コンピュータ可読媒体。
(項目43)
前記p値に関する上界および下界が、計算される、項目29~42のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目44)
前記核酸バリアントに関する両側p値が、以下を使用して計算される、
p値=2*min(Pr bb (x’>x|μ bin ,ρ,B),Pr bb (x’<x|μ bin ,ρ,B))
式中、
Pr bb =ベータ二項の確率であって、
x’=前記ベータ二項を伴って分散される無作為変数であって、
A=前記核酸バリアントの突然変異対立遺伝子カウントであって、
B=前記核酸バリアントの総分子カウントである、
項目43に記載の非一過性コンピュータ可読媒体。
(項目45)
少なくとも1つの電子プロセッサによって実行される場合に、
(a)核酸バリアントに関する複数の定量測定値を無細胞デオキシリボ核酸(cfDNA)サンプルから生成されたシークエンシング情報から判定するステップであって、前記複数の定量測定値は、前記核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、
(b)前記核酸バリアントの関連付けられた変数を前記シークエンシング情報から識別するステップと、
(c)前記核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)前記核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、
(e)少なくとも部分的に、前記予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、前記核酸バリアントの関連付けられた変数に関する定量値、および前記核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、前記核酸バリアントに関する確率値(p値)を生成するステップと、
(f)前記核酸バリアントを、(i)前記核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)前記核酸バリアントに関するp値が前記所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、
を含む、方法を実行する、コンピュータ実行可能命令を含む非一過性コンピュータ可読媒体を備えるか、またはこれにアクセス可能なコントローラを備えるシステム。
(項目46)
前記コントローラに動作可能に接続される、核酸シーケンシング装置を備え、前記核酸シーケンシング装置は、前記cfDNAサンプルの核酸からのシーケンシング情報を提供するように構成される、項目45に記載のシステム。
(項目47)
前記コントローラに動作可能に接続される、サンプル調製構成要素を備え、前記サンプル調製構成要素は、核酸シーケンシング装置によってシーケンシングされるべき前記cfDNAサンプルの核酸を調製するように構成される、項目45または46に記載のシステム。
(項目48)
前記コントローラに動作可能に接続される、核酸増幅構成要素を備え、前記核酸増幅構成要素は、前記cfDNAサンプルの核酸を増幅させるように構成される、項目45~47のいずれか1項に記載のシステム。
(項目49)
前記コントローラに動作可能に接続される、材料輸送構成要素を備え、前記材料輸送構成要素は、1つまたはそれを上回る材料を核酸シーケンシング装置とサンプル調製構成要素との間で輸送させるように構成される、項目45~48のいずれか1項に記載のシステム。
(項目50)
前記所定の閾値は、前記cfDNAサンプルの核酸に関する予期される生殖細胞系統突然変異対立遺伝子カウントのベータ二項モデルを使用して生成される、項目45~49のいずれか1項に記載のシステム。
(項目51)
前記核酸バリアントの関連付けられた変数は、少なくとも1個のヘテロ接合型一塩基多型(het SNP)を含む、項目45-50のいずれか1項に記載のシステム。
(項目52)
前記核酸バリアントの関連付けられた変数は、少なくとも2個のhet SNPを含む、項目51に記載のシステム。
(項目53)
前記核酸バリアントの関連付けられた変数は、前記核酸バリアントを含むゲノム遺伝子座に連鎖するゲノム遺伝子座を含む、項目45~52のいずれか1項に記載のシステム。
(項目54)
1つまたはそれを上回る突然変異対立遺伝子カウントの平均値および/または分散値が、前記核酸バリアントの関連付けられた変数に関して判定される、項目45~53のいずれか1項に記載のシステム。
(項目55)
前記p値は、前記核酸バリアントを分類するために使用される、項目45~54のいずれか1項に記載のシステム。
(項目56)
前記複数の定量測定値のうちの少なくとも1つは、前記核酸バリアントを含む、前記cfDNAサンプルの核酸分子の数を含む、項目45~55のいずれか1項に記載のシステム。
(項目57)
前記関連付けられた変数は、ヘテロ接合型一塩基多型(het SNP)、GC含量測定値、プローブ特有のバイアス測定値、断片長値、シーケンシング統計測定値、コピー数切断点、および対象に関する臨床データのうちの1つまたはそれを上回るものを含む、項目45~56のいずれか1項に記載のシステム。
(項目58)
局所生殖細胞系統折畳突然変異対立遺伝子割合(MAF)、μbinが、前記核酸バリアントに関して判定され、binは、前記核酸バリアントを含む、遺伝子または別の規定されたゲノム領域であって、折畳MAFは、min(MAF,1-MAF)である、項目45~57のいずれか1項に記載のシステム。
(項目59)
前記規定されたゲノム領域は、前記核酸バリアントの約10 、10 、10 、10 、10 、10 、10 、10 、10 、または10 10 個の塩基対内の領域である、項目45~58のいずれか1項に記載のシステム。
(項目60)
前記核酸バリアントの関連付けられた変数は、約0.001を上回る集団対立遺伝子頻度(AF)を含む、少なくとも1個の一塩基多型(SNP)を含む、項目45~59のいずれか1項に記載のシステム。
(項目61)
前記核酸バリアントの関連付けられた変数は、少なくとも1個の非発癌性一塩基多型(SNP)を含む、項目45~60のいずれか1項に記載のシステム。
(項目62)
前記核酸バリアントの関連付けられた変数は、約0.9未満の突然変異対立遺伝子割合(MAF)を含む、少なくとも1個の一塩基多型(SNP)を含む、項目45~61のいずれか1項に記載のシステム。
(項目63)
前記関連付けられた変数は、前記核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型SNPを含み、ベータ二項分布パラメータが、以下を使用して推定され、
(x,y)~ベータ二項(μ bin ,ρ)
式中、
y=前記生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、
x=min(前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、
μ bin =あるビン内の前記ヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、前記ビンは、前記核酸バリアントに対して規定されたゲノム領域であって、
ρ=分散パラメータの推定値である、
項目45~62のいずれか一項に記載のシステム。
(項目64)
前記核酸バリアントに関する両側p値が、以下を使用して計算される、
p値=2*min(Pr bb (x’>A|μ bin ,ρ,B),Pr bb (x’<A|μ bin ,ρ,B))
式中、
Pr bb =ベータ二項の確率であって、
x’=前記ベータ二項を伴って分散される無作為変数であって、
A=前記核酸バリアントの突然変異対立遺伝子カウントであって、
B=前記核酸バリアントの総分子カウントである、
項目63に記載のシステム。
(項目65)
前記p値に関する上界および下界が、計算される、項目45~64のいずれか1項に記載のシステム。
(項目66)
核酸バリアントの体細胞または生殖細胞系統起源を無細胞デオキシリボ核酸(cfDNA)分子のサンプルから識別する方法であって、
(a)前記核酸バリアントの突然変異対立遺伝子カウント(A)および総分子カウント(B)を前記cfDNA分子のサンプルから判定するステップと、
(b)前記核酸バリアントに対して規定されたゲノム領域内の少なくとも1個の生殖細胞系統ヘテロ接合型一塩基多型(SNP)を識別するステップと、
(c)前記少なくとも1個の生殖細胞系統ヘテロ接合型SNPの総分子カウント(y)および突然変異対立遺伝子カウントを判定するステップと、
(d)
(i)μ bin およびρの推定値をベータ二項分布から判定するステップであって、
(x,y)~ベータ二項(μ bin ,ρ)
式中、
y=前記生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、
x=min(前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、
μ bin =あるビン内の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、前記ビンは、前記核酸バリアントに対して規定されたゲノム領域であって、
ρ=分散パラメータの推定値である、
ステップと、
(ii)両側p値を下記の方程式から計算するステップであって、
p値=2*min(Pr bb (x’>A|μ bin ,ρ,B),Pr bb (x’<A|μ bin ,ρ,B))
式中、
Pr bb =ベータ二項の確率であって、
x’=前記ベータ二項分布を伴って分散される無作為変数であって、
A=前記核酸バリアントの突然変異対立遺伝子カウントであって、
B=前記核酸バリアントの総分子カウントである、
ステップと、
によって、前記核酸バリアントに関する確率値(p値)を計算するステップと、
(e)前記核酸バリアントを、(i)前記p値が、所定の閾値を下回るとき、体細胞起源である、または(ii)前記p値が、前記所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、
を含む、方法。
(項目67)
ρは、過去のサンプルセットからのρ値の少なくとも1つのセットの中央値を含む、項目66に記載の方法。
(項目68)
μ bin の最大尤度推定値を判定するステップを含む、項目66または67に記載の方法。
(項目69)
μ bin の平均値推定値を判定するステップを含む、項目66~68のいずれか1項に記載の方法。
(項目70)
ρの最大尤度推定値を判定するステップを含む、項目66~69のいずれか1項に記載の方法。
(項目71)
ρの分散推定値を判定するステップを含む、項目66~70のいずれか1項に記載の方法。
(項目72)
通信ネットワーク上で、無細胞デオキシリボ核酸(cfDNA)サンプルの核酸から生成されたシークエンシング情報を得る通信インターフェース、および
前記通信インターフェースと通信するコンピュータであって、前記コンピュータは、少なくとも1つのコンピュータプロセッサおよび機械実行可能コードを含む非一過性コンピュータ可読媒体を備える、コンピュータ
を備えるシステムであって、
前記機械実行可能コードは、少なくとも1つのコンピュータプロセッサによって実行されると、
(a)核酸バリアントに関する複数の定量測定値を前記シークエンシング情報から判定するステップであって、前記複数の定量測定値は、前記核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、
(b)前記核酸バリアントの関連付けられた変数を前記シークエンシング情報から識別するステップと、
(c)前記核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)前記核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、
(e)少なくとも部分的に、前記予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、前記核酸バリアントの関連付けられた変数に関する定量値、および前記核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、前記核酸バリアントに関する確率値(p値)を生成するステップと、
(f)前記核酸バリアントを、(i)前記核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)前記核酸バリアントに関するp値が前記所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、
を含む、方法を実装する、システム。
(項目73)
前記シーケンシング情報は、核酸シーケンシング装置によって提供される、項目72に記載のシステム。
(項目74)
前記核酸シーケンシング装置は、前記核酸のパイロシーケンシング、単分子シーケンシング、ナノ細孔シーケンシング、半導体シーケンシング、合成によるシーケンシング、ライゲーションによるシーケンシング、またはハイブリダイゼーションによるシーケンシングを実施し、前記シーケンシング情報を生成する、項目73に記載のシステム。
(項目75)
前記核酸シーケンシング装置は、シーケンシングライブラリから導出されるクローン単分子アレイを使用して、前記シーケンシング情報を生成する、項目73に記載のシステム。
(項目76)
前記核酸シーケンシング装置は、シーケンシングライブラリをシーケンシングし、前記シーケンシング情報を生成するためのマイクロウェルのアレイを有する、チップを備える、項目73に記載のシステム。
(項目77)
前記非一過性コンピュータ可読媒体は、メモリ、ハードドライブ、またはコンピュータサーバのメモリもしくはハードドライブを備える、項目72~76のいずれか1項に記載のシステム。
(項目78)
前記通信ネットワークは、分散されるコンピューティングが可能な1つまたはそれを上回るコンピュータサーバを備える、項目72~76のいずれか1項に記載のシステム。
(項目79)
前記分散型コンピューティングは、クラウドコンピューティングである、項目78に記載のシステム。
(項目80)
前記コンピュータは、前記核酸シーケンシング装置から遠隔の場所に位置する、コンピュータサーバの一部である、項目72~79のいずれか1項に記載のシステム。
(項目81)
ネットワークを経由して前記コンピュータと通信する電子ディスプレイをさらに含み、前記電子ディスプレイは、(a)-(f)の少なくとも一部を実装することに応じた結果を表示するためのユーザインターフェースを含む、項目72~80のいずれか1項に記載のシステム。
(項目82)
前記ユーザインターフェースは、グラフィカルユーザインターフェース(GUI)またはウェブベースのユーザインターフェースである、項目81に記載のシステム。
(項目83)
前記電子ディスプレイは、パーソナルコンピュータの部分である、項目81に記載のシステム。
(項目84)
前記電子ディスプレイは、インターネット対応コンピュータの部分である、項目81に記載のシステム。
(項目85)
前記インターネット対応コンピュータは、前記コンピュータから遠隔場所に位置する、項目84に記載のシステム。
(項目86)
前記非一過性コンピュータ可読媒体は、メモリ、ハードドライブ、またはコンピュータサーバのメモリもしくはハードドライブを備える、項目72~85のいずれか1項に記載のシステム。
(項目87)
前記通信ネットワークは、電気通信ネットワーク、インターネット、エクストラネット、またはイントラネットを含む、項目72~86のいずれか1項に記載のシステム。
(項目88)
前記方法はさらに、体細胞または生殖細胞系統起源のいずれかである、前記核酸バリアントの分類のインジケーションを提供する、電子および/または紙フォーマットにおける報告を生成するステップを含む、項目1または項目66に記載の方法。
(項目89)
対象における疾患を処置する方法であって、前記方法は、1つまたはそれを上回るカスタマイズされた療法を前記対象に投与し、それによって、前記対象における前記疾患を処置するステップを含み、前記カスタマイズされた療法は、
(a)核酸バリアントに関する1つまたはそれを上回る定量測定値を無細胞デオキシリボ核酸(cfDNA)分子のサンプルから判定するステップであって、前記定量測定値は、前記核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、
(b)前記核酸バリアントの少なくとも1つの関連付けられた変数を前記cfDNA分子のサンプルから識別するステップと、
(c)前記核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)前記核酸バリアントのゲノム遺伝子座における予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、
(e)予期される生殖細胞系統対立遺伝子カウントに関する統計モデル、前記核酸バリアントの関連付けられた変数に関する定量値、および前記核酸バリアントに関する前記定量測定値のうちの少なくとも1つに基づいて、前記核酸バリアントに関する確率値(p値)を生成するステップと、
(f)前記核酸バリアントを、(i)前記核酸バリアントのp値が、閾値を下回るとき、体細胞起源である、または(ii)前記核酸バリアントのp値が、前記閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、
(g)前記分類された核酸バリアントと1つまたはそれを上回る療法で索引化された1つまたはそれを上回る比較器結果を比較するステップと、
(h)実質的合致が、前記分類された核酸バリアントと前記比較器結果との間に存在するとき、前記対象における疾患を処置するための1つまたはそれを上回るカスタマイズされた療法を識別するステップと、
によって識別されている、方法。
(項目90)
前記疾患は、癌である、項目89に記載の方法。
本明細書内に組み込まれ、その一部を構成する、付随の図面は、ある実施形態を図示し、記載の説明とともに、本明細書に開示される方法、コンピュータ可読媒体、およびシステムのある原理を説明する役割を果たす。本明細書に提供される説明は、限定ではなく一例として含まれる付随の図面と併せて熟読されるとき、より深く理解される。文脈によって別様に示されない限り、同様の参照番号は、図面全体を通して同様の構成要素を識別することを理解されたい。また、図の一部または全部は、例証目的のための略図であり得、必ずしも、示される要素の実際の相対的サイズまたは場所を描写するわけではないことを理解されたい。
図1は、本開示のある実施形態による、核酸分子のサンプル中の体細胞および生殖細胞系統バリアントを鑑別するための方法のフローチャート表現である。
図2は、本開示のある実施形態による、ベータ二項分布を使用して核酸分子のサンプル中の体細胞および生殖細胞系統バリアントを鑑別するための方法のフローチャート表現である。
図3は、ベータ二項分布を使用して生殖細胞系統/体細胞バリアントを鑑別するための決定境界のグラフ表現である。
図4は、本開示のいくつかの実施形態と併用するために好適な例示的システムの概略図である。
図5Aは、EGFR遺伝子中のT790Mバリアントおよび6個の共通生殖細胞系統ヘテロ接合型SNPに関する突然変異対立遺伝子割合(MAF)対ゲノム位置のグラフ表現である。
図5Bは、EGFR遺伝子中のT790Mバリアントおよび6個の共通生殖細胞系統ヘテロ接合型SNPに関するmin(MAF,1-MAF)対ゲノム位置のグラフ表現である。
定義
本開示がより容易に理解されるために、ある用語が、最初に、下記に定義される。以下の用語および他の用語に関する付加的定義は、明細書を通して記載され得る。下記に記載される用語の定義が、参照することによって組み込まれる出願または特許内の定義と矛盾する場合、本願に記載される定義が、用語の意味を理解するために使用されるべきである。
本明細書および添付の請求項において使用されるように、単数形「a」、「an」、および「the」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「方法」の言及は、本明細書に説明され、および/または本開示の熟読に応じて当業者に明白となるであろう、タイプの1つまたはそれを上回る方法ならびに/もしくはステップ等を含む。
また、本明細書で使用される専門用語は、特定の実施形態のみを説明する目的のためのものであって、限定することを意図するものではないことを理解されたい。さらに、別様に定義されない限り、本明細書で使用される全ての技術的および科学的用語は、本開示が関連する当業者によって一般に理解されるものと同一意味を有する。方法、コンピュータ可読媒体、およびシステムを説明および請求する際、以下の専門用語およびその文法的変形例が、下記に記載される定義に従って使用されるであろう。
約:本明細書で使用されるように、1つまたはそれを上回る着目値または要素に適用されるような「約」または「およそ」は、述べられた参照値または要素に類似する、値または要素を指す。ある実施形態では、用語「約」または「およそ」は、別様に記載されない限り、または文脈から別様に明白ではない限り、述べられた参照値または要素のいずれかの方向(それを上回るまたはそれ未満)において25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%以内またはそれ未満の値もしくは要素の範囲を指す(そのような数が、可能性として考えられる値または要素の100%を超えるであろう場合を除く)。
アダプタ:本明細書で使用されるように、「アダプタ」は、典型的には、少なくとも部分的に二本鎖にされ、所与のサンプル核酸分子の一端または両端に連結するために使用される、短核酸(例えば、約500個未満のヌクレオチド、約100個未満のヌクレオチド、または約50個未満のヌクレオチド長)を指す。アダプタは、両端をアダプタで挟まれる核酸分子の増幅を可能にするための核酸プライマー結合部位、および/または種々の次世代シーケンシング(NGS)用途等のシーケンシング用途のためのプライマー結合部位を含む、シーケンシングプライマー結合部位を含むことができる。アダプタはまた、流動細胞支持体または同等物に付着されるオリゴヌクレオチド等の捕捉プローブのための結合部位を含むことができる。アダプタはまた、本明細書に説明されるように、核酸タグを含むことができる。核酸タグは、典型的には、核酸タグが、所与の核酸分子のアンプリコンおよびシーケンシングリード内に含まれるように、増幅プライマーおよびシーケンシングプライマー結合部位に対して位置付けられる。同一または異なるアダプタが、核酸分子の個別の末端に連結されることができる。いくつかの実施形態では、同一アダプタが、核酸タグが異なることを除き、核酸分子の個別の末端に連結される。いくつかの実施形態では、アダプタは、一端が、本明細書に説明されるように、同様に1つまたはそれを上回る相補的ヌクレオチドを伴った平滑末端または終端である、核酸分子に接合するための平滑末端または終端である、Y形状のアダプタである。さらに他の例示的実施形態では、アダプタは、分析されるべき核酸分子に接合するための平滑または尾状末端を含む、ベル形状のアダプタである。アダプタの他の実施例は、T-終端およびC-終端アダプタを含む。
増幅:本明細書で使用されるように、核酸の文脈における「~を増幅させる」または「増幅」は、典型的には、少量のポリヌクレオチド(例えば、単一ポリヌクレオチド分子)から開始する、ポリヌクレオチドまたはポリヌクレオチドの一部の複数のコピーの生産を指し、増幅生成物またはアンプリコンは、概して、検出可能である。ポリヌクレオチドの増幅は、種々の化学および酵素プロセスを包含する。
関連付けられた変数:本明細書で使用されるように、用語「関連付けられた変数」は、核酸バリアントに関連し、予期される生殖細胞系統突然変異対立遺伝子カウントを推定する際に使用される、変数を指す。そのような変数は、限定ではないが、生殖細胞系統ヘテロ接合型SNP、GC含量測定値、プローブ特有のバイアス測定値、断片長値、シーケンシング統計測定値、コピー数切断点、対象からの臨床データ、またはそれらの任意の組み合わせを含むことができる。
癌型:本明細書で使用されるように、「癌型」は、例えば、組織病理学によって定義された癌の型または亜型を指す。癌型は、所与の組織内における発生(例えば、血液癌、中枢神経系(CNS)、脳癌、肺癌(小細胞および非小細胞)、皮膚癌、鼻癌、喉癌、肝臓癌、骨癌、リンパ腫、膵臓癌、腸癌、直腸癌、甲状腺癌、膀胱癌、腎臓癌、口癌、胃癌、乳癌、前立腺癌、卵巣癌、肺癌、腸癌、軟組織癌、神経内分泌癌、胃食道癌、頭頸部癌、婦人科系癌、結腸直腸癌、尿路上皮癌、固形癌、異種癌、同種癌)、未知の一次起源および同等物、および/または同一細胞系譜(例えば、癌腫、肉腫、リンパ腫、胆管細胞癌、白血病、中皮腫、黒色腫、または膠芽腫)、ならびに/もしくはHer2、CA15-3、CA19-9、CA-125、CEA、AFP、PSA、HCG、ホルモン受容体、およびNMP-22等の癌マーカを呈する、癌に基づいて等、任意の従来の基準によって定義されることができる。癌はまた、病期(例えば、病期1、2、3、または4)および一次または二次起源であるかどうかによって分類されることができる。
無細胞核酸:本明細書で使用されるように、「無細胞核酸」は、細胞内に含有されない、または別様にそこに結合されない核酸、もしくはいくつかの実施形態では、無傷細胞の除去後にサンプル中に残っている核酸を指す。無細胞核酸は、例えば、対象からの体液(例えば、血液、血漿、血清、尿、脳脊髄液(CSF)等)に由来する全ての非被包型核酸を含むことができる。無細胞核酸は、DNA(cfDNA)、RNA(cfRNA)、およびそのハイブリッドを含み、ゲノムDNA、ミトコンドリアDNA、循環DNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体RNA(snoRNA)、Piwi相互作用RNA(piRNA)、長鎖ノンコーディングRNA(長ncRNA)、および/またはこれらのいずれかの断片を含む。無細胞核酸は、二本鎖、一本鎖、またそのハイブリッドであることができる。無細胞核酸は、体液分泌物または細胞死プロセス、例えば、細胞壊死、アポトーシス、または同等物を通して、体液中に放出され得る。無細胞核酸は、エフェロソームまたはエキソソームが、他の細胞体液中に放出される、無細胞核酸を取り込んでいる場合、エフェロソームまたはエキソソーム内に見出されることができる。いくつかの無細胞核酸は、癌細胞、例えば、循環腫瘍DNA(ctDNA)から体液中に放出される。その他は、健康な細胞から放出される。CtDNAは、非被包型腫瘍由来断片化DNAであることができる。無細胞核酸の別の実施例は、無細胞胎児DNA(cffDNA)とも呼ばれる、母体血流中で自由に循環する胎児DNAである。無細胞核酸は、1つまたはそれを上回るエピジェネティクス修正を有することができ、例えば、無細胞核酸は、アセチル化、5-メチル化、ユビキチン化、リン酸化、SUMO化、リボシル化、および/またはシトルリン化されることができる。
細胞核酸:本明細書で使用されるように、「細胞核酸」は、それらの核酸が、続いて、所与の分析プロセスの一部として除去される(例えば、細胞溶解を介して)場合でも、少なくともサンプルが対象から採取または収集された時点で、核酸が生じた1つまたはそれを上回る細胞内に配置されている、核酸を意味する。
共通生殖細胞系統ヘテロ接合型SNP:本明細書で使用されるように、用語「共通生殖細胞系統ヘテロ接合型SNP」は、ヘテロ接合型SNPが、少なくとも特定の集団対立遺伝子頻度(AF)を有するように(特定の集団AFは、0~1の任意の値であることができる)、外部集団データベース(例えば、ExAC)および/または任意の過去のサンプルセットから取得される、生殖細胞系統ヘテロ接合型一塩基多型(SNP)を指す。
比較器結果:本明細書で使用されるように、「比較器結果」は、所与の試験サンプルまたは試験結果が、試験サンプルまたは結果の1つまたはそれを上回る可能性の高い性質および/または試験サンプルが採取または別様に導出された対象のための1つまたはそれを上回る可能性として考えられる予後転帰ならびに/もしくは1つまたはそれを上回るカスタマイズされた療法を識別するために比較され得る、結果または結果のセットを意味する。比較器結果は、典型的には、参照サンプルのセットから(例えば、試験対象と同一疾患または癌型を有する、対象から)取得される。
コピー数切断点:本明細書で使用されるように、用語「コピー数切断点」は、そのゲノム遺伝子座の両側における(同一染色体内の)2つの近隣ゲノム領域のコピー数(CN)が異なる、ゲノム遺伝子座を指す。
コピー数バリアント:本明細書で使用されるように、「コピー数バリアント」、「CNV」、または「コピー数多型」は、ゲノムの区分が反復され、ゲノム内の反復数が、検討中の集団内の個人間で変動し、個人の2つの条件または状態間で変動する(例えば、CNVは、療法を受けた前後において個人で変動し得る)、現象を指す。
カバレッジ:本明細書で使用されるように、用語「カバレッジ」、「総分子カウント」、または「総対立遺伝子カウント」は、同義的に使用される。それらは、所与のサンプル中の特定のゲノム位置におけるDNA分子の総数を指す。
カスタマイズされた療法:本明細書で使用されるように、「カスタマイズされた療法」は、所与の分類された核酸バリアントを有する対象または対象の集団のための所望の療法転帰と関連付けられる、療法を指す。
デオキシリボ核酸またはリボ核酸:本明細書で使用されるように、「デオキシリボ核酸」または「DNA」は、水素基を糖部の2’-位置に有する、天然または修飾ヌクレオチドを指す。DNAは、典型的には、4つのタイプのヌクレオチド、すなわち、アデニン(A)、チミン(T)、シトシン(C)、およびグアニン(G)を含む、ヌクレオチドの鎖を含む。本明細書で使用されるように、「リボ核酸」または「RNA」は、ヒドロキシル基を糖部の2’-位置に有する、天然または修飾ヌクレオチドを指す。RNAは、典型的には、4つのタイプのヌクレオチド、すなわち、A、ウラシル(U)、G、およびCを含む、ヌクレオチドの鎖を含む。本明細書で使用されるように、用語「ヌクレオチド」は、天然ヌクレオチドまたは修飾ヌクレオチドを指す。ある対のヌクレオチドは、相補的方式において相互に特異的に結合する(相補的塩基対合と呼ばれる)。DNAでは、アデニン(A)は、チミン(T)と対合し、シトシン(C)は、グアニン(G)と対合する。RNAでは、アデニン(A)は、ウラシル(U)と対合し、シトシン(C)は、グアニン(G)と対合する。第1の核酸鎖が、第1の鎖内のものと相補的であるヌクレオチドから成る、第2の核酸鎖に結合すると、2つの鎖は、結合し、二重鎖を形成する。本明細書で使用されるように、「核酸シーケンシングデータ」、「核酸シーケンシング情報」、「シーケンス情報」、「核酸シーケンス」、「ヌクレオチドシーケンス」、「ゲノムシーケンス」、「遺伝子シーケンス」、または「断片シーケンス」、もしくは「核酸シーケンシングリード」は、DNAまたはRNA等の核酸の分子(例えば、全体的ゲノム、全体的トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル)の順序および識別を示す、任意の情報またはデータを示す。本教示は、限定ではないが、キャピラリー電気泳動、マイクロアレイ、ライゲーションベースのシステム、ポリメラーゼベースのシステム、ハイブリダイゼーションベースのシステム、直接または間接ヌクレオチド識別システム、パイロシーケンシング、イオンまたはpHベースの検出システム、および電子署名ベースのシステムを含む、技法、プラットフォーム、または技術の全ての利用可能な変形例を使用して取得される、シーケンス情報を検討することを理解されたい。
予期される生殖細胞系統突然変異対立遺伝子カウント:本明細書で使用されるように、用語「予期される生殖細胞系統突然変異対立遺伝子カウント」は、核酸バリアントのゲノム遺伝子座における生殖細胞系統SNPの予期される突然変異対立遺伝子カウントを指す。例えば、予期される生殖細胞系統突然変異対立遺伝子カウントは、統計分布によって推定されることができる。統計分布は、限定ではないが、ベータ二項分布であることができる。分布は、その遺伝子座における生殖細胞系統ヘテロ接合型SNP内で予期される、突然変異対立遺伝子カウントを判定するために使用される。例えば、ベータ二項分布が、特定のゲノム遺伝子座における予期される生殖細胞系統突然変異対立遺伝子カウントを判定するために使用される場合、予期される突然変異対立遺伝子カウントの分布は、そのゲノム遺伝子座における平均値推定値(μ)、分散推定値(ρ)、およびカバレッジによってパラメータ化される。
生殖細胞系統突然変異体:本明細書で使用されるように、用語「生殖細胞系統突然変異体」または「生殖細胞系統変種」は、同義的に使用され、遺伝性突然変異体(すなわち、受胎後に生じるものではない)を指す。生殖細胞系統突然変異体は、子孫に遺伝され得、子孫における体細胞および生殖細胞系統細胞の全てに存在し得る、唯一の突然変異体であり得る。
過去のサンプルセット:本明細書で使用されるように、用語「過去のサンプルセット」は、正常対象(疾患/癌を有していない)、任意の疾患または癌を有する対象、特定の癌型を有する対象、および/または特定の療法を受けている、もしくは受けた対象から取得される、サンプルのセットを指す。
インデル:本明細書で使用されるように、「インデル」は、対象のゲノム内のヌクレオチドの挿入または欠失を伴う、突然変異体を指す。
突然変異対立遺伝子カウント:本明細書で使用されるように、用語「突然変異対立遺伝子カウント」は、特定のゲノム遺伝子座における突然変異対立遺伝子を持つ、DNA分子の数を指す。
マイナー対立遺伝子カウント:本明細書で使用されるように、「マイナー対立遺伝子カウント」は、対象から取得されるサンプル等の核酸の所与の集団中に生じる、マイナー対立遺伝子(例えば、最も一般的対立遺伝子ではない)の数を指す。低マイナー対立遺伝子カウントにおける遺伝子バリアントは、典型的には、比較的に少数でサンプル中に存在する。
突然変異対立遺伝子割合:本明細書で使用されるように、「突然変異対立遺伝子割合」、「突然変異体用量」、または「MAF」は、対立遺伝子改変または突然変異体を所与のサンプル中の所与のゲノム位置/遺伝子座に持つ、核酸分子の画分を指す。MAFは、概して、画分またはパーセンテージとして表される。例えば、体細胞バリアントのMAFは、0.15未満であり得る。
突然変異体:本明細書で使用されるように、「突然変異体」は、既知の参照シーケンスからの変種を指し、例えば、一塩基バリアント(SNV)および挿入または欠失(インデル)等の突然変異体を含む。突然変異体は、生殖細胞系統または体細胞突然変異体であることができる。いくつかの実施形態では、比較の目的のための参照シーケンスは、試験サンプルを提供する対象の種の野生型ゲノムシーケンス、典型的には、ヒトゲノムである。
突然変異体コーラー:本明細書で使用されるように、「突然変異体コーラー」は、試験サンプルデータ(例えば、対象から取得されるシーケンス情報)内の突然変異体を識別するために使用される、アルゴリズム(典型的には、ソフトウェア内に具現化される、または別様にコンピュータ実装される)を意味する。
新生物:本明細書で使用されるように、用語「新生物」および「腫瘍」は、同義的に使用される。それらは、対象内の細胞の異常成長を指す。新生物または腫瘍は、良性、潜在的に悪性、または悪性であることができる。悪性腫瘍は、癌または癌性腫瘍と称される。
次世代シーケンシング:本明細書で使用されるように、「次世代シーケンシング」または「NGS」は、従来のSangerおよびキャピラリー電気泳動ベースのアプローチと比較して増加されたスループットを有する、シーケンシング技術を指し、例えば、数十万個の比較的に小シーケンスリードを一度に生成する能力を伴う。次世代シーケンシング技法のいくつかの実施例は、限定ではないが、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシーケンシングを含む。
核酸タグ:本明細書で使用されるように、「核酸タグ」は、異なるサンプル(例えば、サンプルインデックスを表す)からの核酸、または同一サンプル(例えば、分子バーコードを表す)中の、異なるタイプの、もしくは異なる処理を受けた、異なる核酸分子を区別するために使用される、短核酸(例えば、約500個未満のヌクレオチド、約100個未満のヌクレオチド、約50個未満のヌクレオチド、または約10個未満のヌクレオチド長)を指す。そのような核酸タグは、異なる核酸分子または異なる核酸サンプルもしくはサブサンプルを標識するために使用されてもよい。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖であることができる。核酸タグは、随意に、同一長または可変長を有する。核酸タグはまた、1つまたはそれを上回る平滑末端を有する、二本鎖分子を含む、5´または3´一本鎖領域(例えば、オーバーハング)を含む、および/または1つまたはそれを上回る他の一本鎖領域を所与の分子内の他の場所に含むことができる。核酸タグは、他の核酸(例えば、増幅および/またはシーケンシングされるべきサンプル核酸)の一端または両端に付着されることができる。核酸タグは、デコードされ、所与の核酸の起源のサンプル、形態、または処理等の情報を明らかにすることができる。例えば、核酸タグはまた、核酸が、続いて、核酸タグを検出する(例えば、読み取る)ことによって逆畳み込みされる、異なる分子バーコードおよび/またはサンプルインデックスを持つ核酸を含む、複数のサンプルの貯留および/または並列処理を可能にするために使用されることができる。核酸タグは、識別子またはインデックスとも称され得る。そのような核酸タグ、識別子、またはインデックスは、1つまたはそれを上回るバーコードを含んでもよい。加えて、または代替として、核酸タグは、分子識別子またはインデックスとして使用されることができる(例えば、同一サンプルまたはサブサンプル中の異なる分子または異なる親分子のアンプリコン間で区別するため)。これは、例えば、所与のサンプル中の各異なる核酸分子を一意にタグ付けするステップ、またはそのような分子を非一意にタグ付けするステップを含む。非一意的にタグ付けする用途の場合、限定数のタグ(例えば、バーコード)が、異なる分子が、少なくとも1つのバーコードと組み合わせて、その内因性シーケンス情報(例えば、それらが選択された参照ゲノムにマップされる、開始および/または停止位置、シーケンスの一端または両端のサブシーケンス、および/またはシーケンスの長さ)に基づいて、区別され得るように、各核酸分子をタグ付けするために使用されてもよい。典型的には、十分な数の異なる核酸タグが、任意の2個の分子が、同一内因性シーケンス情報(例えば、開始および/または停止位置、シーケンスの一端または両端のサブシーケンス、および/または長さ)を有し、また、同一核酸タグ(例えば、バーコード)を有し得る、確率が低くなる(例えば、約10%未満、約5%未満、約1%未満、または約0.1%未満の機会)ように使用される。代替として、核酸タグは、内因性シーケンス情報(例えば、開始および/または停止位置、シーケンスの一端または両端のサブシーケンス、および/または長さ)のみを含んでもよい。いくつかの核酸タグは、複数の分子識別子を含み、サンプル、サンプル中の核酸分子の形態、および同一内因性シーケンス情報(例えば、開始および/または停止位置、シーケンスの一端または両端のサブシーケンス、および/または長さ)を有する形態内の核酸分子を標識する。そのような核酸タグは、例示的形態「A1i」を使用して参照され得、大文字は、サンプルタイプを示し、アラビア数字は、サンプル中の分子の形態を示し、小文字ローマ数字は、形態中の分子を示す。
ポリヌクレオチド:本明細書で使用されるように、「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間連結によって接合される、ヌクレオシドの線状重合体(デオキシリボヌクレオシド、リボヌクレオシド、またはその類似体を含む)を指す。典型的には、ポリヌクレオチドは、少なくとも3個のヌクレオシドを含む。オリゴヌクレオチドは、多くの場合、サイズが、例えば、3~4の数個の単量体単位から数百個の単量体単位に及ぶ。ポリヌクレオチドが、「ATGCCTG」等の文字のシーケンスによって表されるときは常に、ヌクレオチドは、左から右に5´→3´の順序であって、DNAの場合、別様に注記されない限り、「A」は、デオキシアデノシンを示し、「C」は、デオキシシチジンを示し、「G」は、デオキシグアノシンを示し、「T」は、デオキシチミジンを示すことを理解されたい。文字A、C、G、およびTは、当技術分野において標準的であるように、塩基自体、塩基を含む、ヌクレオシド、またはヌクレオチドを指すために使用され得る。
参照シーケンス:本明細書で使用されるように、「参照シーケンス」は、実験的に判定されたシーケンスとの比較の目的のために使用される、既知のシーケンスを指す。例えば、既知のシーケンスは、ゲノム全体、染色体、またはその任意の区画であることができる。参照は、典型的には、少なくとも約20、少なくとも約50、少なくとも約100、少なくとも約200、少なくとも約250、少なくとも約300、少なくとも約350、少なくとも約400、少なくとも約450、少なくとも約500、少なくとも約1,000、または1,000個を上回るヌクレオチドを含む。参照シーケンスは、ゲノムまたは染色体の単一連続シーケンスとアライメントすることができる、もしくはゲノムまたは染色体の異なる領域とアライメントする、非連続区画を含むことができる。参照シーケンスの実施例は、例えば、hG19およびhG38等のヒトゲノムを含む。
サンプル:本明細書で使用されるように、「サンプル」は、本明細書に開示される方法および/またはシステムによって分析されることが可能な任意のものを意味する。
シーケンシング:本明細書で使用されるように、「シーケンシング」は、生体分子、例えば、DNAまたはRNA等の核酸のシーケンス(例えば、単量体単位の識別および順序)を判定するために使用される、いくつかの技術のいずれかを指す。シーケンシング方法の実施例は、限定ではないが、標的化されたシーケンシング、単分子リアルタイムシーケンシング、エクソンまたはエキソームシーケンシング、イントロンシーケンシング、電子顕微鏡検査ベースのシーケンシング、パネルシーケンシング、トランジスタ媒介シーケンシング、直接シーケンシング、無作為ショットガンシーケンシング、Sangerジデオキシターミネーションシーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシーケンシング、パイロシーケンシング、キャピラリー電気泳動、ゲル電気泳動、デュプレックスシーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、高スループットシーケンシング、超並列シグネチャシーケンシング、エマルションPCR、低変性温度PCRでの共増幅(COLD-PCR)、マルチプレックスPCR、可逆的ダイターミネータによるシーケンシング、ペアエンドシーケンシング、短期的シーケンシング、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、単分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、リバースターミネータシーケンシング、ナノ細孔シーケンシング、454シーケンシング、Solexa Genome Analyzerシーケンシング、SOLiD(商標)シーケンシング、MS-PETシーケンシング、およびそれらの組み合わせを含む。いくつかの実施形態では、シーケンシングは、例えば、数ある中でもとりわけ、Illumina, Inc.、Pacific Biosciences, Inc.、またはApplied Biosystems/Thermo Fisher Scientificから市販の遺伝子分析器等の遺伝子分析器によって実施されることができる。
シーケンス情報:本明細書で使用されるように、核酸重合体の文脈における「シーケンス情報」は、その重合体内の単量体単位(例えば、ヌクレオチド等)の順序および識別を意味する。
一塩基多型:本明細書で使用されるように、用語「一塩基多型」または「SNP」は、同義的に使用される。それらは、ゲノム内の特異的位置において生じる、一塩基中の変種を指し、各変種は、集団内である感知できるほどの程度で存在する(例えば、約1%を上回る)
一塩基バリアント:本明細書で使用されるように、「一塩基バリアント」または「SNV」は、ゲノム内の特異的位置において生じる、一塩基中の突然変異体または変種を意味する。
体細胞突然変異体:本明細書で使用されるように、用語「体細胞突然変異体」または「体細胞変種」は、同義的に使用される。それらは、受胎後に生じる、ゲノム内の突然変異体を指す。体細胞突然変異体は、生殖細胞を除く、身体の任意の細胞内に生じ得、故に、子孫に遺伝されない。
対象:本明細書で使用されるように、「対象」は、哺乳類種(例えば、ヒト)または鳥類(例えば、トリ)種等の動物もしくは植物等の他の生物を指す。より具体的には、対象は、脊椎動物、例えば、マウス、霊長類、類人猿、またはヒト等の哺乳類であることができる。動物は、家畜(例えば、肉牛、乳牛、家禽、ウマ、ブタ、および同等物)、競技動物、および伴侶動物(例えば、ペットまたは支援動物)を含む。対象は、健康な個人、疾患または疾患にかかりやすい素因を有する、もしくは有すると疑われる個人、または療法を必要とする、もしくは療法を必要とすると疑われる個人であることができる。用語「個人」または「患者」は、「対象」と同義であるように意図される。
例えば、対象は、癌を患っていると診断されている、癌療法を受けることになっている、および/または少なくとも1つの癌療法を受けた個人であることができる。対象は、癌の寛解状態にあることができる。別の実施例として、対象は、自己免疫疾患を患っていると診断された個人であることができる。別の実施例として、対象は、妊娠している、または妊娠を計画中であって、疾患、例えば、癌、自己免疫疾患を患っていると診断された、または患っていると疑われ得る、女性の個人であることができる。
実質的マッチング:本明細書で使用されるように、「実質的マッチング」は、少なくとも第1の値または要素が、少なくとも第2の値または要素と少なくともおおよそ等しいことを意味する。ある実施形態では、例えば、カスタマイズされた療法は、分類された核酸バリアントと比較器結果との間に少なくとも実質的またはおおよその合致が認められるとき、識別される。
閾値:本明細書で使用されるように、「閾値」は、閾値とのその関係に応じて、異なるサンプルに関する同一パラメータの実験的に判定された値を特性評価するために使用される、所定の値を指す。例えば、p値に関する閾値は、0~1の任意の所定の値を指し得、核酸バリアントの起源を識別するために使用される。
バリアント:本明細書で使用されるように、「バリアント」は、対立遺伝子について称され得る。バリアントは、通常、対立遺伝子がヘテロ接合型またはホモ接合型であるかどうかに応じて、50%(0.5)または100%(1)の頻度で存在する。例えば、生殖細胞系統バリアントは、遺伝性であって、通常、0.5または1の頻度を有する。しかしながら、体細胞バリアントは、後天性バリアントであって、通常、約0.5未満の頻度を有する。遺伝子座の優性および劣性対立遺伝子は、それぞれ、遺伝子座が参照シーケンスのヌクレオチドによって占有される遺伝子座を持つ核酸と、参照シーケンスと異なるバリアントヌクレオチドとを指す。遺伝子座における測定は、対立遺伝子割合(AF)の形態をとることができ、これは、対立遺伝子がサンプル中で観察される、頻度の測定値である。
詳細な説明
I.概要
本開示は、核酸分子のサンプル中の核酸バリアントを体細胞または生殖細胞系統起源として分類または識別するために、ベータ二項モデル等の統計モデルを使用するための方法およびシステムを提供する。いくつかの実施形態では、本開示の方法およびシステムは、無細胞DNA(cfDNA)等の無細胞核酸を分析するために好適である。腫瘍組織からのシーケンシングデータを使用して体細胞バリアントおよび生殖細胞系統バリアントを区別するために利用可能な多くの解決策は、合致された対の腫瘍の可用性に依拠し得、正常組織は、したがって、無細胞核酸から取得されるデータに適用され得ない。cfDNAサンプルを分析するための解決策は、突然変異対立遺伝子割合(MAF)に関して閾値処理するステップ、またはPoisson統計モデルを適用し、生殖細胞系統もしくは体細胞ステータスを判定するステップを含み得る。しかしながら、そのようなアプローチは、cfDNA分子カウントに見られる分散を正確にモデル化し得ず、故に、これらのアプローチに基づく体細胞/生殖細胞系統区別は、最適に正確ではあり得ない。本明細書に開示される方法およびシステムは、(cfDNAにおけるような)核酸分子カウント内に見られる分散を正確にモデル化することができ、高正確度を伴って、体細胞および生殖細胞系統バリアントを鑑別することができる。本明細書に開示される方法およびシステムは、共通生殖細胞系統一塩基多型(SNP)等のパラメータを使用して、局所生殖細胞系統突然変異対立遺伝子カウント挙動(例えば、核酸バリアントに対するゲノム領域内の生殖細胞系統突然変異対立遺伝子カウント挙動)を統計的にモデル化し、観察される生殖細胞系統MAFからのMAF偏差に基づいて、体細胞バリアントを区別することができる。
一側面では、本開示は、核酸バリアントの体細胞または生殖細胞系統起源を無細胞デオキシリボ核酸(cfDNA)分子のサンプルから識別する方法であって、(a)核酸バリアントに関する複数の定量測定値をcfDNAサンプルから判定するステップであって、複数の定量測定値は、核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、(b)核酸バリアントの関連付けられた変数をcfDNAサンプルから識別するステップと、(c)核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、(e)少なくとも部分的に、予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、核酸バリアントに関する確率値(p値)を生成するステップと、(f)核酸バリアントを、(i)核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントに関するp値が所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、を含む、方法を提供する。
図1は、核酸分子のサンプル中の体細胞および生殖細胞系統バリアントを鑑別するための方法100の例示的実施形態を図示する。いったん核酸バリアントが、サンプル中の核酸分子から識別されると、核酸バリアントに関連する定量値および関連付けられた変数が、統計モデルを実装するための入力値を提供するために確立され得る。核酸バリアントは、限定ではないが、米国特許第9,598,731号、第9,834,822号、第9,840,743号、および第9,902,992号(それぞれ、参照することによってその全体として本明細書に組み込まれる)に説明される方法を含む、任意の公知の方法によって識別または検出されてもよい。
動作102では、核酸バリアントに関する定量値が、測定および判定され得る。これらの値は、限定ではないが、核酸バリアントの突然変異対立遺伝子カウントおよび/または総分子カウントを含んでもよい。
モデルのために要求される別の入力値は、関連付けられた変数に関する定量値であり得る。動作104では、少なくとも1つの関連付けられた変数が、識別され得る。関連付けられた変数は、核酸バリアントのゲノム遺伝子座における予期される生殖細胞系統突然変異対立遺伝子カウントを推定する際に使用されてもよい。そのような関連付けられた変数は、限定ではないが、生殖細胞系統ヘテロ接合型SNP、GC含量測定値、プローブ特有のバイアス測定値、断片長値、シーケンシング統計測定値、コピー数切断点、対象からの臨床データ、またはそれらの任意の組み合わせを含んでもよい。
いくつかの実施形態では、関連付けられた変数は、核酸バリアントに対して規定されたゲノム領域(「ビン」とも称される)内にあり得る。いくつかの実施形態では、ビンは、核酸バリアントを含む、遺伝子であってもよい。いくつかの実施形態では、ビンは、核酸バリアントに対して規定されたゲノム領域であることができる。いくつかの実施形態では、ビン(規定されたゲノム領域)は、核酸バリアントの約10、10、10、10、10、10、10、10、10、1010、または1010個を上回る塩基内にある。いくつかの実施形態では、ビンは、核酸バリアントの「N」個の塩基内にあって、Nは、約1、約5、約10、約25、約50、約100、約250、約500、約1,000、約5,000、約10,000、約50,000、約100,000、約500,000、約1,000,000、または約1,000,000個を上回る塩基である。いくつかの実施形態では、Nは、最大3,000,000個の塩基であることができる。例えば、ビンは、核酸バリアントの10個の塩基内にあることができる。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、核酸バリアントを含むゲノム遺伝子座に連鎖するゲノム遺伝子座を含む。いくつかの実施形態では、関連付けられた変数は、少なくとも1個、少なくとも2個、少なくとも5個、少なくとも10個、または10個を上回るヘテロ接合型SNPを含むことができる。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも0.00001、少なくとも0.0001、少なくとも0.001、少なくとも0.002、少なくとも0.005、少なくとも0.01、少なくとも0.02、少なくとも0.05、少なくとも0.1、少なくとも0.2、少なくとも0.5、少なくとも0.75、または少なくとも0.99の集団対立遺伝子頻度(AF)を含む、少なくとも1個のSNPを含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、0~1の集団対立遺伝子頻度(AF)値を含む、少なくとも1個のSNPを含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、0.9未満の突然変異対立遺伝子割合(MAF)を含む、少なくとも1個の一塩基多型(SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、0~約1の突然変異対立遺伝子割合(MAF)を含む、少なくとも1個の一塩基多型(SNP)を含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも1個のヘテロ接合型SNPを含み、ヘテロ接合型SNPは、共通生殖細胞系統ヘテロ接合型SNPであることができる。
いくつかの実施形態では、関連付けられた変数は、コピー数切断点内にある。固定幅ビンまたは遺伝子アノテーションによって定義されたビンを有する代わりに、関連付けられた変数は、各核酸バリアントのビンが、任意のコピー数切断点に重複せずに、可能な限り広くなるように、コピー数切断点によって境界されたビン内で識別されてもよい。いくつかの実施形態では、関連付けられた変数は、コピー数切断点内のヘテロ接合型SNPを含む。
動作106では、核酸バリアントの関連付けられた変数に関する定量値が、判定され得る。関連付けられた変数の定量値は、統計モデルを適用し、核酸バリアントのゲノム遺伝子座における予期される生殖細胞系統突然変異対立遺伝子カウントを推定する際の入力として使用されてもよい。いくつかの実施形態では、関連付けられた変数に関する定量値は、関連付けられた変数の突然変異対立遺伝子カウントおよび/または総分子カウントを含む。いくつかの実施形態では、本方法はさらに、MAFを判定するステップを含む。いくつかの実施形態では、MAFは、本明細書では、関連付けられた変数の本明細書では「折畳MAF」と称される、縮小スケールに調節され、折畳MAF=min(MAF,1-MAF)である。いくつかの実施形態では、本方法は、関連付けられた変数の折畳突然変異対立遺伝子カウントを判定するステップを含み、折畳突然変異対立遺伝子カウント=min(突然変異対立遺伝子カウント、総分子カウント-突然変異対立遺伝子カウント)である。いくつかの実施形態では、定量値は、核酸バリアントの関連付けられた変数において識別された1つまたはそれを上回る対立遺伝子カウントを含むことができる。いくつかの実施形態では、本方法は、核酸バリアントの関連付けられた変数において識別された1つまたはそれを上回る対立遺伝子カウントの平均値および/または分散値を判定するステップを含む。いくつかの実施形態では、本方法は、核酸バリアントの関連付けられた変数に関する平均定量値を判定するステップを含む。いくつかの実施形態では、本方法は、核酸バリアントの関連付けられた変数に関する平均値および/または分散値を判定するステップを含む。いくつかの実施形態では、核酸バリアントの関連付けられた変数は、少なくとも1個の非発癌性SNPを含む。
動作108では、判定された定量値は、ベータ二項モデル等の統計モデルを使用して処理され得る。統計モデルから生成された分布は、その遺伝子座における生殖細胞系統ヘテロ接合型SNP内で予期され得る、突然変異対立遺伝子カウントを判定するために使用されてもよい。例えば、ベータ二項分布が、特定のゲノム遺伝子座における予期される生殖細胞系統突然変異対立遺伝子カウントを判定するために使用される場合、予期される生殖細胞系統突然変異対立遺伝子カウントの分布は、そのゲノム遺伝子座におけるベータ二項分布、例えば、平均値推定値(μ)、分散推定値(ρ)、およびカバレッジに対応する統計パラメータのセットによってパラメータ化され得る。いくつかの実施形態では、本方法は、核酸バリアントに関するμbinを判定するステップを含み、μbinは、あるビン内のヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値である。
いくつかの実施形態では、関連付けられた変数は、核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型一塩基多型(SNP)を含み、本方法は、以下を使用して、ベータ二項分布パラメータを推定するステップを含み、
(x,y)~ベータ二項(μbin,ρ)
式中、y=生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、検討される生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、x=min(生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、検討される生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、μbin=あるビン内のヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、ビンは、核酸バリアントに対して規定されたゲノム領域であって、ρ=分散パラメータの推定値である。
ある実施形態では、xおよびyは、ベクトルとして表され得、生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴う。これは、2個またはそれを上回る生殖細胞系統ヘテロ接合型SNPがモデル内で検討される場合に当てはまる。例えば、2個の生殖細胞系統ヘテロ接合型SNPが、検討される場合、yは、y(SNPに関する総分子カウント)およびy(het SNPに関する総分子カウント)のベクトルとして表される。同様に、xは、x(het SNPに関する)およびx(het SNPに関する)のベクトルとして表される。いくつかの実施形態では、1個のみの生殖細胞系統ヘテロ接合型SNPが、検討され得る。これらの場合では、xおよびyに関する値は、1つのみのエントリを伴う、ベクトルとして、または代替として、y=ヘテロ接合型SNPの総分子カウントおよびx=min(ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-ヘテロ接合型SNPの突然変異対立遺伝子カウント)として表され得る。
いくつかの実施形態では、ρは、過去のサンプルセットからのρ値の少なくとも1つのセットの中央値を含む。いくつかの実施形態では、本方法は、中央値ρパラメータを核酸バリアントのGC含量の関数と置換するステップを含む。いくつかの実施形態では、本方法は、μbinの最大尤度推定値を判定するステップを含む。いくつかの実施形態では、本方法は、μbinの平均値推定値を判定するステップを含む。いくつかの実施形態では、本方法は、ρの最大尤度推定値を判定するステップを含む。いくつかの実施形態では、本方法は、ρの分散推定値を判定するステップを含む。
いくつかの実施形態では、固定数としてモデル化されるのではなく、分散パラメータ(ρ)は、局所ゲノムコンテキスト(例えば、あるビンのゲノムコンテキスト)のGC含量の関数としてモデル化されることができる。関数は、過去のサンプルセットから推定されることができ、上記の方程式内のρの中央値は、バリアントのGC含量レベルにおける本関数の値によって置換されることができる。
動作110では、核酸バリアントに関する確率値(p値)が、少なくとも部分的に、予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する定量測定値のうちの少なくとも1つに基づいて、判定され得る。いくつかの実施形態では、本方法は、以下を使用して、核酸バリアントに関する両側p値を計算するステップを含み、
p値=2*min(Prbb(x’>A|μbin,ρ,B),Prbb(x’<A|μbin,ρ,B))
式中、Prbb=ベータ二項の確率であって、x’=ベータ二項を伴って分散される無作為変数であって、A=核酸バリアントの突然変異対立遺伝子カウントであって、B=核酸バリアントの総分子カウントである。
動作112では、核酸バリアントは、(i)核酸バリアントのp値が、閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントのp値が、閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類され得る。閾値は、生殖細胞系統バリアントおよび体細胞バリアントを区別し得る、任意の値であることができる。閾値は、実験的データから判定されることができる。例えば、閾値は、0~1の任意の値であることができる。いくつかの実施形態では、閾値は、少なくとも10-50、少なくとも10-40、少なくとも10-30、少なくとも10-20、少なくとも10-10、少なくとも10-5、少なくとも0.01、少なくとも0.01、少なくとも0.1、少なくとも0.2、少なくとも0.5、少なくとも0.75、または少なくとも0.99であることができる。いくつかの実施形態では、本方法は、サンプル中の核酸に関する予期される生殖細胞系統突然変異対立遺伝子カウントのベータ二項モデルを使用して、閾値を生成するステップを含む。
いくつかの実施形態では、本方法は、複数の核酸バリアントの体細胞または生殖細胞系統起源を核酸サンプル中の複数のゲノム遺伝子座から分類するステップを含む。
本明細書に開示される方法およびシステムは、概して、シーケンス情報を対象から採取されたサンプル中の核酸から取得するステップを含む。いくつかの実施形態では、本方法は、核酸サンプルから生成されたシーケンシング情報を受信するステップをさらに含み、シーケンシング情報は、核酸バリアントおよび核酸バリアントの関連付けられた変数を含む核酸からのシーケンシングリードを含み、関連付けられた変数は、核酸バリアントに対して規定されたゲノム領域内の少なくとも1個のヘテロ接合型一塩基多型(SNP)を含む。いくつかの実施形態では、本方法はさらに、核酸をサンプルからシーケンシングし、シーケンシング情報を生成するステップを含み、定量測定値が、シーケンシング情報から判定される。いくつかの実施形態では、本方法は、核酸バリアントに関する定量測定値を判定するステップと、核酸バリアントの関連付けられた変数を識別するステップと、定量値をサンプルから生成されたシーケンシング情報から判定するステップとを含む。
別の側面では、本開示は、核酸バリアントの体細胞または生殖細胞系統起源を無細胞核酸(例えば、cfDNA)のサンプルから識別する方法であって、(a)核酸バリアントの突然変異対立遺伝子カウント(A)および総分子カウント(B)をcfDNAサンプルから判定するステップと、(b)核酸バリアントに対して規定されたゲノム領域内の少なくとも1個の生殖細胞系統ヘテロ接合型一塩基多型(SNP)を識別するステップと、(c)生殖細胞系統ヘテロ接合型SNPの総分子カウント(y)および突然変異対立遺伝子カウントを判定するステップと、(d)(i)以下で与えられるμbinおよびρの推定値をベータ二項分布から判定するステップであって、
(x,y)~ベータ二項(μbin,ρ)
式中、y=少なくとも1個の生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、x=min(少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、μbin=あるビン内の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、ビンは、核酸バリアントに対して規定されたゲノム領域であって、ρ=分散パラメータの推定値である、ステップと、(ii)両側p値を下記を使用して計算するステップであって、
p値=2*min(Prbb(x’>A|μbin,ρ,B),Prbb(x’<A|μbin,ρ,B))
式中、Prbb=ベータ二項の確率であって、x’=ベータ二項分布を伴って分散される無作為変数であって、B=核酸バリアントの総分子カウントであって、A=核酸バリアントの突然変異対立遺伝子カウントである、ステップと、を含む、確率値(p値)を計算するステップと、(e)核酸バリアントを、(i)p値が、所定の閾値を下回るとき、体細胞起源である、または(ii)p値が、所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、を含む、方法を提供する。
いくつかの実施形態では、ρは、過去のサンプルセットからのρ値の少なくとも1つのセットの中央値を含む。いくつかの実施形態では、本方法は、μbinの最大尤度推定値を判定するステップを含む。いくつかの実施形態では、本方法は、μbinの平均値推定値を判定するステップを含む。いくつかの実施形態では、本方法は、ρの最大尤度推定値を判定するステップを含む。いくつかの実施形態では、本方法は、ρの分散推定値を判定するステップを含む。
図2は、ベータ二項モデルを使用してcfDNAのサンプル中の体細胞および生殖細胞系統バリアントを鑑別するための方法の実施形態を図示する。動作202では、cfDNAサンプルから、核酸バリアントの突然変異対立遺伝子カウント(A)および総分子カウント(B)が、判定される。動作204では、核酸バリアントに対して規定されたゲノム領域内の少なくとも1個の生殖細胞系統ヘテロ接合型一塩基多型(SNP)が、識別され得る。動作206では、総分子カウント(y)および生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウントが、判定され得る。動作208では、ベータ二項分布から、μbinおよびρが、以下を使用して推定され得る。
(x,y)~ベータ二項(μbin,ρ)
式中、y=少なくとも1個の生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、検討される生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、x=min(少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-少なくとも1個の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、検討される生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、μbin=あるビン内の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、ビンは、核酸バリアントに対して規定されたゲノム領域であって、ρ=分散パラメータの推定値である。動作210では、両側p値が、以下を使用して計算され得る。
p値=2*min(Prbb(x’>A|μbin,ρ,B),Prbb(x’<A|μbin,ρ,B))
式中、Prbb=ベータ二項の確率であって、x’=ベータ二項分布を伴って分散される無作為変数であって、B=核酸バリアントの総分子カウントであって、A=核酸バリアントの突然変異対立遺伝子カウントである。
cfDNA中のバリアントの体細胞または生殖細胞系統起源を識別するための現在の解決策は、突然変異対立遺伝子割合(MAF)に関して閾値処理するステップ、またはPoisson統計モデルを適用し、生殖細胞系統もしくは体細胞ステータスを判定するステップを含み得る。しかしながら、そのようなアプローチは、cfDNAシーケンシング分子カウントに見られる分散を正確にモデル化する際に課題に直面し、したがって、不正確な生殖細胞系統/体細胞区別をもたらし得る。さらに、これらの方法は、核酸バリアントに対する近傍変量または他の共変量からの証拠に応答して、その体細胞閾値を調節し得ない。ベータ二項モデルは、核酸バリアントのゲノム遺伝子座における平均値および分散推定値ならびにカバレッジを使用して、予期される生殖細胞系統突然変異対立遺伝子カウントの分布をモデル化することによって、これらの問題を克服し得る。予期される生殖細胞系統ヘテロ接合型SNPの平均値推定値および分散推定値は、核酸バリアントのp値を計算する際に使用されてもよく、これは、ひいては、バリアントを体細胞または生殖細胞系統起源と分類するために使用されてもよい。
動作212では、核酸バリアントは、(i)p値が、所定の閾値を下回るとき、体細胞起源である、または(ii)p値が、所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類され得る。
図3は、ベータ二項分布を使用して生殖細胞系統/体細胞バリアントを鑑別するための決定境界の実施例を示す。核酸バリアントMAFに関するベータ二項決定境界は、生殖細胞系統ヘテロ接合型SNPのMAF、バリアント位置において観察される分子の総カウント、および調節可能p値閾値の関数であってもよい。実施例として、コピー数多型(CNV)またはヘテロ接合性の消失(LOH)に起因する対立遺伝子不均衡を伴う、遺伝子は、10~30%および70~90%範囲の両方における生殖細胞系統MAFを有し得る。図3に戻って参照すると、302(外側実線)、304(中央実線)、および306(内側実線)は、ベータ二項モデルを使用した生殖細胞系統/体細胞鑑別に関する決定境界を表し、p値に関する閾値は、10-16であって、バリアント総分子カウント(B)は、それぞれ、700、1,500、および3,000である。さらに、308(外側破線)、310(中央破線)および312(内側破線)は、ベータ二項モデルを使用した生殖細胞系統/体細胞鑑別に関する決定境界を表し、p値に関する閾値は、0.01であって、バリアント総分子カウント(B)は、それぞれ、700、1,500、および3,000である。
いくつかの実施形態では、シーケンス情報は、核酸の標的化された区画から取得される。本質的に、任意の数のゲノム領域が、随意に、標的化されてもよい。標的化された区画は、少なくとも10、少なくとも50、少なくとも100、少なくとも500、少なくとも1,000、少なくとも2,000、少なくとも5,000、少なくとも10,000、少なくとも20,000、少なくとも50,000、または少なくとも100,000(例えば、25、50、75、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、25,000、30,000、35,000、40,000、45,000、50,000、または100,000)個の異なるおよび/または重複ゲノム領域を含むことができる。
いくつかの実施形態では、識別された生殖細胞系統および/または体細胞バリアントは、電子および/または紙フォーマットにおける報告を生成するための入力として使用され、これは、体細胞または生殖細胞系統起源のいずれかとしてのポリヌクレオチド中のこれらの遺伝子バリアントの分類のインジケーションを提供する。
本方法の種々のステップは、同一または異なる時間において、同一または異なる地理的場所、例えば、国で、同一または異なる人々もしくはエンティティによって行われてもよい。
II.本方法の一般的特徴
A.サンプル
サンプルは、対象から単離される、任意の生物学的サンプルであることができる。サンプルは、身体組織、全血、血小板、血清、血漿、糞便、赤血球、白血球(whitecellsまたはleucocytes)、内皮細胞、組織生検(例えば、既知または疑われる固形腫瘍からの生検)、脳脊髄液、滑液、リンパ液、腹水液、間質または細胞外流体(例えば、細胞ギャップからの流体)、歯肉滲出液、歯肉溝滲出液、骨髄、胸膜滲出液、脳脊髄液、唾液、粘液、喀痰、精液、汗、および尿を含むことができる。サンプルは、血液およびその画分、ならびに尿等の体液であってもよい。そのようなサンプルは、腫瘍から流出された核酸を含む。核酸は、DNAと、RNAとを含むことができ、二本鎖および一本鎖形態であることができる。サンプルは、元々は対象から単離された形態であることができるか、またはさらなる処理を受け、細胞等の成分を除去または追加する、一方の成分を別の成分に対して富化するか、またはRNAからDNAもしくは一本鎖核酸から二本鎖核酸等、1つの形態の核酸から別の形態の核酸に変換することができる。したがって、例えば、分析のための体液は、無細胞核酸、例えば、無細胞DNA(cfDNA)を含有する、血漿または血清であり得る。
いくつかの実施形態では、対象から採取された体液のサンプル体積は、シーケンシングされる領域に関する所望のリード深度に依存する。体積の実施例は、約0.4~40ミリリットル(mL)、約5~20mL、約10~20mLである。例えば、体積は、約0.5mL、約1mL、約5mL、約10mL、約20mL、約30mL、約40mL、またはそれより多くのミリリットルであり得る。サンプリングされた血漿の体積は、代表的には、約5mL~約20mLである。
サンプルは、種々の量の核酸を含むことができる。典型的には、所与のサンプル中の核酸の量は、複数のゲノム均等物に匹敵する。例えば、約30ナノグラム(ng)のDNAのサンプルは、約10,000(10)個の半数体ヒトゲノム均等物、cfDNAの場合、約2千億(2×1011)個の個々のポリヌクレオチド分子を含有することができる。同様に、約100ngのDNAのサンプルは、約30,000個の半数体ヒトゲノム均等物、cfDNAの場合、約6千億個の個々の分子を含有することができる。
いくつかの実施形態では、サンプルは、異なる源から、例えば、細胞からおよび無細胞源(例えば、血液サンプル等)からの核酸を含む。典型的には、サンプルは、核酸保有突然変異体を含む。例えば、サンプルは、随意に、DNA保有生殖細胞系統突然変異体および/または体細胞突然変異体を含む。典型的には、サンプルは、DNA保有癌と関連突然変異体(例えば、癌関連体細胞突然変異体)を含む。
増幅前のサンプル中の無細胞核酸の例示的量は、典型的には、約1フェムトグラム(fg)~約1マイクログラム(μg)、例えば、約1ピコグラム(pg)~約200ナノグラム(ng)、約1ng~約100ng、約10ng~約1,000ngに及ぶ。いくつかの実施形態では、サンプルは、最大約600ng、最大約500ng、最大約400ng、最大約300ng、最大約200ng、最大約100ng、最大約50ng、または最大約20ngの無細胞核酸分子を含む。随意に、量は、少なくとも約1fg、少なくとも約10fg、少なくとも約100fg、少なくとも約1pg、少なくとも約10pg、少なくとも約100pg、少なくとも約1ng、少なくとも約10ng、少なくとも約100ng、少なくとも約150ng、または少なくとも約200ngの無細胞核酸分子である。いくつかの実施形態では、量は、最大約1fg、約10fg、約100fg、約1pg、約10pg、約100pg、約1ng、約10ng、約100ng、約150ng、または約200ngの無細胞核酸分子である。いくつかの実施形態では、本方法は、約1fg~約200ngの無細胞核酸分子をサンプルから取得するステップを含む。
無細胞核酸は、典型的には、約100個のヌクレオチド長~約500個のヌクレオチド長のサイズ分布を有し、約110ヌクレオチド長~約230ヌクレオチド長の分子は、サンプル中の分子の約90%を表し、(ヒト対象からのサンプル中の)約168ヌクレオチド長は、最頻値であって、第2の微小ピークは、約240ヌクレオチド~約440ヌクレオチド長の範囲内にある。いくつかの実施形態では、無細胞核酸は、約160ヌクレオチド~約180ヌクレオチド長、または約320ヌクレオチド~約360ヌクレオチド長、または約440ヌクレオチド~約480ヌクレオチド長である。
いくつかの実施形態では、無細胞核酸は、溶液中に見出されるような無細胞核酸が、無傷細胞および体液の他の非可溶性成分から分離される、パーティション化ステップを通して、体液から単離されることができる。いくつかの実施形態では、パーティション化は、遠心分離または濾過等の技法を含む。代替として、体液中の細胞は、溶解され得、無細胞および細胞核酸は、ともに処理され得る。概して、緩衝液の添加および洗浄ステップ後、無細胞核酸は、例えばアルコールで析出されることができる。いくつかの実施形態では、汚染物質または塩類を除去するためのシリカベースのカラム等のさらなる清浄ステップが、使用される。非特異的バルク担体核酸が、例えば、必要に応じて、反応全体を通して添加され、収率等の手技の例示的な側面を最適化する。そのような処理後、サンプルは、典型的には、二本鎖DNA、一本鎖DNA、および/または一本鎖RNAを含む、種々の形態の核酸を含む。随意に、一本鎖DNAおよび/または一本鎖RNAは、それらが後続処理および分析ステップ内に含まれるように、二本鎖形態に変換される。
B.タグ付け
いくつかの実施形態では、核酸分子は、サンプルインデックスおよび/または分子バーコード(概して、「タグ」と称される)でタグ付けされてもよい。タグは、他の方法の中でもとりわけ、化学合成、ライゲーション(例えば、平滑末端ライゲーションまたは粘着末端ライゲーション)、またはオーバーラップ伸長ポリメラーゼ連鎖反応(PCR)によって、アダプタの中に組み込まれる、または別様に接合されてもよい。そのようなアダプタは、最終的には、標的核酸分子に接合され得る。他の実施形態では、1回またはそれを上回る増幅サイクル(例えば、PCR増幅)が、概して、従来の核酸増幅方法を使用して、分子バーコードおよび/またはサンプルインデックスを核酸分子に導入するために適用される。増幅は、1つまたはそれを上回る反応混合物(例えば、アレイ内の複数のマイクロウェル)内で行われてもよい。分子バーコードおよび/またはサンプルインデックスは、同時に、または任意のシーケンシャル順序において、導入されてもよい。いくつかの実施形態では、分子バーコードおよび/またはサンプルインデックスは、シーケンス捕捉ステップが実施されることに先立って、および/またはその後に導入される。いくつかの実施形態では、分子バーコードのみが、プローブ捕捉に先立って導入され、サンプルインデックスは、シーケンス捕捉ステップが実施された後に導入される。いくつかの実施形態では、分子バーコードおよびサンプルインデックスは両方とも、プローブベースの捕捉ステップを実施することに先立って導入される。いくつかの実施形態では、サンプルインデックスは、シーケンス捕捉ステップが実施された後に導入される。典型的には、シーケンス捕捉プロトコルは、標的化された核酸シーケンス、例えば、ゲノム領域のコーディングシーケンスと相補的一本鎖核酸分子を導入するステップを伴い、そのような領域の突然変異体は、癌型と関連付けられる。
いくつかの実施形態では、タグは、サンプル核酸分子の一端または両端に位置してもよい。いくつかの実施形態では、タグは、所定のまたは無作為もしくは半無作為シーケンスオリゴヌクレオチドである。いくつかの実施形態では、タグは、約500、200、100、50、20、10、9、8、7、6、5、4、3、2、または1未満ヌクレオチド長であってもよい。タグは、無作為または非無作為に、サンプル核酸に連結されてもよい。
いくつかの実施形態では、サンプルまたはサブサンプルの各核酸分子は、分子バーコードまたは分子バーコードの組み合わせで一意にタグ付けされる。他の実施形態では、バーコードが、必ずしも複数のものの中で相互に一意ではない(例えば、非一意の分子バーコード)ように、複数のバーコードが、使用されてもよい。これらの実施形態では、バーコードは、概して、バーコードおよびシーケンスの組み合わせが、個々に追跡され得る一意のシーケンスを作成するように付着され得るように、個々の分子に付着される(例えば、ライゲーションまたはPCR増幅によって)。非一意にタグ付けされるバーコードの検出は、内因性シーケンス情報(例えば、サンプル中のオリジナル核酸分子のシーケンス、一端または両端におけるシーケンスリードのサブシーケンス、シーケンスリードの長さ、および/またはサンプル中のオリジナル核酸分子の長さに対応する、起始(開始)および/または末端(停止)部分)と組み合わせて、典型的には、特定の分子への一意の識別の割当を可能にする。個々のシーケンスリードの長さまたは塩基対の数もまた、随意に、一意の識別を所与の分子に割り当てるために使用される。本明細書に説明されるように、一意の識別を割り当てられている核酸の一本鎖からの断片は、それによって、親鎖および/または相補的鎖からの断片の後続識別を可能にし得る。
いくつかの実施形態では、分子バーコードは、識別子(例えば、一意または非一意のバーコードの組み合わせ)の予期される比率において、サンプル中の分子に導入される。一例示的フォーマットは、標的分子の両端にライゲーションされる、約2~約1,000,000個の異なる分子バーコード、または約5~約150個の異なる分子バーコード、または約20~約50個の異なる分子バーコードを使用する。代替として、約25~約1,000,000個の異なるバーコードが、使用されてもよい。例えば、20~50×20~50個のタグに関して、合計400~2,500個の識別子が、作成される。識別子のそのような数は、典型的には、同一開始および停止点を有する異なる分子が、識別子の異なる組み合わせを受容する高確率(例えば、少なくとも94%、99.5%、99.99%、または99.999%)を有するために十分である。いくつかの実施形態では、分子の約80%、約90%、約95%、または約99%は、分子バーコードの同一組み合わせを有する。
いくつかの実施形態では、反応における一意または非一意の分子バーコードの割当は、例えば、米国特許出願第20010053519号、第20030152490号、および第20110160078号、ならびに米国特許第6,582,908号、第7,537,898号、第9,598,731号、および第9,902,992号(それぞれ、参照することによってその全体として本明細書に組み込まれる)に説明される方法およびシステムを使用して実施される。
C.増幅
サンプル核酸は、アダプタで挟まれ、増幅されるべきDNA分子を挟むアダプタ内のプライマー結合部位への核酸プライマー結合を使用して、PCRおよび他の増幅方法によって増幅されてもよい。いくつかの実施形態では、増幅方法は、伸長、変性、および熱サイクリングから生じるアニーリングのサイクルを伴う、または、例えば、転写媒介増幅におけるように、等温であることができる。随意に利用され得る、増幅方法の他の実施例は、リガーゼ連鎖反応、鎖置換増幅、核酸シーケンスベースの増幅、および自己持続的シーケンスベースの複製を含む。
典型的には、増幅反応は、約150個のヌクレオチド(nt)~約700個のnt、250個のnt~約350個のnt、または約320個のnt~約550個のntに及ぶサイズを伴う、分子バーコードおよびサンプルインデックスで複数の非一意または一意にタグ付けされる、核酸アンプリコンを生成する。いくつかの実施形態では、アンプリコンは、約180個のntのサイズを有する。いくつかの実施形態では、アンプリコンは、約200個のntのサイズを有する。
D.富化
いくつかの実施形態では、シーケンスは、核酸をシーケンシングすることに先立って、富化される。富化は、随意に、特異的標的領域のためにまたは非特異的に(「標的シーケンス」)、実施される。いくつかの実施形態では、標的着目領域は、弁別タイリングおよび捕捉スキームを使用して、1つまたはそれを上回るベイトセットパネルに関して選択された核酸捕捉プローブ(「ベイト」)で富化されてもよい。弁別タイリングおよび捕捉スキームは、一般に、異なる相対的濃度のベイトセットを使用して、制約のセット(例えば、シーケンシング負荷等のシーケンシング装置制約、各ベイトの有用性等)に従って、ベイトと関連付けられたゲノム領域を横断して弁別的にタイリングし(例えば、異なる「分解能」で)、下流シーケンシングのために、標的化された核酸を所望のレベルで捕捉する。これらの標的化された着目ゲノム領域は、随意に、核酸構造体の天然または合成ヌクレオチドシーケンスを含む。いくつかの実施形態では、1つまたはそれを上回る着目領域へのプローブを伴う、ビオチン標識ビーズが、標的シーケンスを捕捉後、随意に、それらの領域の増幅が続き、着目領域を富化するために使用されることができる。
シーケンス捕捉は、典型的には、標的核酸シーケンスにハイブリダイズする、オリゴヌクレオチドプローブの使用を伴う。いくつかの実施形態では、プローブセット方略は、着目領域を横断してプローブをタイリングすることを伴う。そのようなプローブは、例えば、約60~約120個のヌクレオチド長であることができる。セットは、約2X、3X、4X、5X、6X、7X、8X、9X、10X、15X、20X、50X、または50Xを上回る深度(例えば、カバレッジの深度)を有することができる。シーケンス捕捉の有効性は、一般に、部分的に、プローブのシーケンスに相補的(またはほぼ相補的)標的分子内のシーケンスの長さに依存する。
E.シーケンシング
先行する増幅を伴ってまたは伴わずに、アダプターに随意に隣接する試料核酸を一般にシーケンシングに付す。シーケンシング方法または随意に使用される市販のフォーマットは、例えば、Sangerシーケンシング、高スループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単分子シーケンシング、ナノ細孔ベースのシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、デジタル遺伝子発現(Helicos)、次世代シーケンシング(NGS)、合成による単分子シーケンシング(SMSS)(Helicos)、超並列シーケンシング、クローン単分子アレイ(Solexa)、ショットガンシーケンシング、Ion Torrent、Oxford Nanopore、Roche Genia、Maxim-Gilbertシーケンシング、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはナノ細孔プラットフォームを使用したシーケンシングを含む。シーケンシング反応は、複数のレーン、複数のチャネル、複数のウェルまたは複数の試料セットを実質的に同時に処理するその他の手段を含み得る種々の試料処理ユニットで実施できる。試料処理ユニットはまた、複数の実施を同時に処理可能にする複数の試料チャンバーを含み得る。
シーケンシング反応は、がんまたは他の疾患のマーカーを含有することが分かっている1つまたは複数の核酸断片タイプまたは領域で実施することが可能である。シーケンシング反応はまた、試料中に存在する任意の核酸断片で実施できる。シーケンシング反応は、少なくとも約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%のゲノムに対して実施され得る。その他の場合には、シーケンシング反応は、約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%未満のゲノムに対して実施され得る。
同時シーケンシング反応は、マルチプレックスシーケンシング技術を使用して実施してもよい。いくつかの実施形態では、少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000のシーケンシング反応を用いて無細胞ポルヌクレオチドをシーケンシングする。その他の実施形態では、約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000未満のシーケンシング反応を用いて無細胞ポリヌクレオチドをシーケンシングする。シーケンシング反応は、代表的に、逐次実施しても、同時に実施する。その後のデータ解析は、一般に、シーケンシング反応のすべてで実施されるか、または一部で実施される。いくつかの実施形態では、データ解析は、少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000のシーケンシング反応で実施する。その他の実施形態では、データ解析を約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000未満のシーケンシング反応で実施する。リード深度の実施例は、遺伝子座(例えば、塩基位置)あたり約1000~約50000個のリードである。
F.分析
シーケンシングは、複数のシーケンシングリードまたはリードを生成し得る。シーケンシングリードまたはリードは、約150個未満の塩基長または約90個未満の塩基長のヌクレオチドデータのシーケンスを含んでもよい。いくつかの実施形態では、リードは、約80個の塩基~約90個の塩基、例えば、約85個の塩基長である。いくつかの実施形態では、本開示の方法は、非常に短リード、例えば、約50個未満の塩基または約30個未満の塩基長に適用される。シーケンシングリードデータは、シーケンスデータならびにメタ情報を含むことができる。シーケンスリードデータは、例えば、VCFファイル、FASTAファイル、またはFASTQファイルを含む、任意の好適なファイルフォーマットで記憶されることができる。
FASTAは、シーケンスデータベースを検索するためのコンピュータプログラムを指し得、名称FASTAはまた、標準的ファイルフォーマットを指し得る。例えば、FASTAは、例えば、Pearson & Lipman, 1988,Improved tools for biological sequence comparison, PNAS85:2444-2448(参照することによってその全体として本明細書に組み込まれる)によって説明されている。FASTAフォーマットにおけるシーケンスは、単一行の説明から開始し、シーケンスデータの行が続く。説明行は、第1の列内の大なり(「>」)記号によって、シーケンスデータから区別される。「>」記号に続く単語は、シーケンスの識別子であって、行の残りは、説明である(両方とも、随意である)。「>」と識別子の第1の文字との間には、空間が存在すべきではない。テキストの全ての行は、80文字より短いことが推奨される。シーケンスは、別のシーケンスの開始を示す、「>」から開始する別の行が現れる場合、終了する。
FASTQフォーマットは、生物学的シーケンス(通常、ヌクレオチドシーケンス)およびその対応する品質スコアの両方を記憶するためのテキストベースのフォーマットである。FASTAフォーマットに類似するが、品質スコアが、シーケンスデータに続く。シーケンス文字および品質スコアは両方とも、簡潔にするために、単一ASCII文字でエンコードされる。FASTQフォーマットは、例えば、Cock et al.(“The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants,”Nucleic Acids Res38(6):1767-1771,2009)(参照することによってその全体として本明細書に組み込まれる)によって説明されるようなIllumina Genome Analyzer等の高スループットシーケンシング器具の出力を記憶するための事実上の標準である。
FASTAおよびFASTQファイルに関して、メタ情報は、説明行を含み、シーケンスデータの行を含まない。いくつかの実施形態では、FASTQファイルに関して、メタ情報は、品質スコアを含む。FASTAおよびFASTQファイルに関して、シーケンスデータが、説明行の後に開始し、典型的には、随意に、「-」を伴う、IUPAC多義コードのあるサブセットを使用して存在する。ある実施形態では、シーケンスデータは、随意に、必要に応じて、「-」またはU(例えば、ギャップまたはウラシルを表すため)を含む、A、T、C、G、およびNの文字を使用してもよい。
いくつかの実施形態では、少なくとも1つのマスタシーケンスリードファイルおよび出力ファイルが、プレーンテキストファイルとして記憶される(例えば、ASCII;ISO/IEC646;EBCDIC;UTF-8、またはUTF-16等のエンコーディングを使用して)。本開示によって提供されるコンピュータシステムは、プレーンテキストファイルを開くことが可能なテキストエディタプログラムを含んでもよい。テキストエディタプログラムは、テキストファイル(プレーンテキストファイル等)のコンテンツをコンピュータ画面上に提示することが可能であって、人間が、テキストを編集することを可能にする(例えば、モニタ、キーボード、およびマウスを使用して)、コンピュータプログラムを指し得る。テキストエディタの実施例は、限定ではないが、Microsoft Word、emacs、pico、vi、BBEdit、およびTextWranglerを含む。テキストエディタプログラムは、プレーンテキストファイルをコンピュータ画面上に表示し、メタ情報およびシーケンスリードを人間可読フォーマット(例えば、バイナリエンコードされず、代わりに、印刷または手書きの際に使用され得るような英数字文字を使用する)で示すことが可能であり得る。
方法は、FASTAまたはFASTQファイルを参照して議論されたが、本開示の方法およびシステムは、例えば、バリアントコールフォーマット(VCF)フォーマットにおけるファイルを含む、任意の好適なシーケンスファイルフォーマットを圧縮するために使用されてもよい。典型的VCFファイルは、ヘッダ区分およびデータ区分を含んでもよい。ヘッダは、それぞれ、文字「##」から開始する、恣意的数のメタ情報行と、単一「#」文字から開始する、タブ境界フィールド定義行とを含有する。フィールド定義行は、8つの必須列を指定し、本文区分は、フィールド定義行によって定義された列を埋めるデータの行を含有する。VCFフォーマットは、例えば、Danecek et al.(“The variant call format and VCFtools,”Bioinformatics27(15):2156-2158,2011)(参照することによってその全体として本明細書に組み込まれる)によって説明されている。ヘッダ区分は、圧縮されたファイルに書き込むためのメタ情報として処理され得、データ区分は、行として処理され得、それぞれ、一意である場合のみ、マスタファイル内に記憶されるであろう。
いくつかの実施形態は、シーケンシングリードのアセンブリを提供する。アセンブリでは、アライメントによって、例えば、シーケンシングリードは、相互にアライメントされる、または参照シーケンスにアライメントされる。各リードを、順に、参照ゲノムにアライメントさせることによって、リードは全て、相互との関係において位置付けられ、アセンブリを作成する。加えて、シーケンシングリードを参照シーケンスにアライメントまたはマッピングすることはまた、シーケンシングリード内のバリアントシーケンスを識別するために使用されることができる。バリアントシーケンスを識別することは、疾患または病状の診断または予後をさらに補助する、もしくは処置決定を誘導するために、本明細書に説明される方法およびシステムと組み合わせて使用されることができる。
いくつかの実施形態では、ステップのいずれかまたは全ては、自動化される。代替として、本開示の方法は、全体的または部分的に、1つまたはそれを上回る専用プログラム内に具現化されてもよく、例えば、それぞれ、随意に、C++等のコンパイルされた言語で書き込まれ、次いで、バイナリとしてコンパイルおよび配布される。本開示の方法は、全体的または部分的に、既存のシーケンス分析プラットフォーム内に、またはその中の機能性を呼び出すことによって、モジュールとして実装されてもよい。いくつかの実施形態では、本開示の方法は、全て、単一開始待ち行列(例えば、人間のアクティビティ、別のコンピュータプログラム、または機械に由来する、1つのトリガ事象またはその組み合わせ)に応答して、自動的に呼び出される、いくつかのステップを含む。したがって、本開示は、任意のステップまたはステップの任意の組み合わせが待ち行列に応答して自動的に生じ得る、方法を提供する。「自動的に」は、概して、介在人間入力、影響、または相互作用を伴わない(例えば、オリジナルまたは待ち行列前の人間のアクティビティにのみ応答する)ことを意味する。
本開示の方法はまた、対象の核酸サンプルの正確かつ感度の高い解釈を含む、種々の形態の出力を包含し得る。読み出しの出力は、コンピュータファイルのフォーマットで提供されることができる。いくつかの実施形態では、出力は、FASTAファイル、FASTQファイル、またはVCFファイルである。出力は、参照ゲノムのシーケンスにアライメントされる核酸のシーケンス等のシーケンスデータを含有する、テキストファイルまたはXMLファイルを生産するように処理されてもよい。他の実施形態では、処理は、参照ゲノムに対して対象核酸中の1つまたはそれを上回る突然変異体を説明する、座標またはストリングを含有する、出力をもたらす。アライメントストリングは、Simple UnGapped Alignment Report(SUGAR)、Verbose Useful Labeled Gapped Alignment Report(VULGAR)、およびCompact Idiosyncratic Gapped Alignment Report(CIGAR)を含んでもよい(例えば、Ning et al.,Genome Research11(10):1725-9,2001(参照することによってその全体として本明細書に組み込まれる)によって説明されるように)。これらのストリングは、例えば、European Bioinformatics Institute(Hinxton, UK)からのExonerateシーケンスアライメントソフトウェア内で実装されてもよい。
いくつかの実施形態では、例えば、CIGARストリングを含む、シーケンスアライメントマップ(SAM)またはバイナリアライメントマップ(BAM)ファイル等のシーケンスアライメントが、生産される(SAMフォーマットは、例えば、Li et al.,“The Sequence Alignment/Map format and SAMtools,”Bioinformatics,25(16):2078-9,2009(参照することによってその全体として本明細書に組み込まれる)によって説明されている)。いくつかの実施形態では、CIGARは、行あたり1つずつ、ギャップ付きアライメントを表示する、または含む。CIGARは、CIGARストリングとして報告される圧縮ペアワイズアライメントフォーマットである。CIGARストリングは、長(例えば、ゲノム)ペアワイズアライメントを表すために有用であり得る。CIGARストリングは、参照ゲノムシーケンスへのリードのアライメントを表すために、SAMフォーマットにおいて使用されてもよい。
CIGARストリングは、確立されたモチーフに従ってもよい。各文字の前に、数が置かれ、事象の塩基カウントを与える。使用される文字は、M、I、D、N、およびS(M=マッチング、I=挿入、D=欠失、N=ギャップ、S=置換)を含むことができる。CIGARストリングは、マッチング/ミスマッチングおよび欠失(またはギャップ)のシーケンスを定義する。例えば、CIGARストリング2MD3M2D2Mは、アライメントが、2個のマッチング、1個の欠失(数1は、一部の空間を節約するために省略される)、3個のマッチング、2個の欠失、および2個のマッチングを含有することを示し得る。
いくつかの実施形態では、核酸集団が、一本鎖オーバーハングを一端または両端に伴う二本鎖核酸上に平滑末端を酵素的に形成することによって、シーケンシングのために調製される。これらの実施形態では、集団は、典型的には、ヌクレオチド(例えば、A、C、G、およびTまたはU)の存在下、5´-3´DNAポリメラーゼ活性および3´-5´エクソヌクレアーゼ活性を有する酵素で処理される。随意に使用され得る、酵素またはその触媒断片の実施例は、Klenow大断片およびT4ポリメラーゼを含む。5´オーバーハングでは、酵素は、典型的には、5´末端と同一平面となり、平滑末端を生産するまで、対向鎖上の陥凹3´末端を伸長させる。3´オーバーハングでは、酵素は、概して、対向鎖の5´末端まで、時として、それを越えて、3´末端から消化させる。本消化が、対向鎖の5´末端を越えて進む場合、ギャップが、5´オーバーハングのために使用される同一ポリメラーゼ活性を有する酵素によって充填され得る。二本鎖核酸上の平滑末端の形成は、例えば、アダプタの付着および後続増幅を促進する。
いくつかの実施形態では、核酸集団は、一本鎖核酸から二本鎖核酸への変換および/またはRNAからDNA(例えば、相補的DNAまたはcDNA)への変換等、付加的処理を受ける。これらの形態の核酸はまた、随意に、アダプタに連結され、増幅される。
以前の増幅の有無にかかわらず、核酸は、上記に説明される平滑末端を形成するプロセスを被り、随意に、サンプル中の他の核酸も、シーケンシングされ、シーケンシングされた核酸を生産することができる。シーケンシングされた核酸は、核酸のシーケンス(例えば、シーケンス情報)またはそのシーケンスが判定された核酸のいずれかを指し得る。シーケンシングは、サンプル中の個々の核酸分子の増幅生成物のコンセンサスシーケンスから、直接または間接的にのいずれかにおいて、サンプル中の個々の核酸分子のシーケンスデータを提供するように実施されることができる。
いくつかの実施形態では、平滑末端形成後のサンプル中の一本鎖オーバーハングを伴う二本鎖核酸は、両端において、バーコードを含む、アダプタに連結され、シーケンシングは、核酸シーケンスならびにアダプタによって導入されたインラインバーコードを判定する。平滑末端DNA分子は、随意に、少なくとも部分的に二本鎖のアダプタ(例えば、Y形状またはベル形状のアダプタ)の平滑末端にライゲーションされる。代替として、サンプル核酸の平滑末端およびアダプタは、相補的ヌクレオチドで終端され、ライゲーション(例えば、粘着末端ライゲーションのため)を促進することができる。
核酸サンプルは、典型的には、同一核酸の任意の2つのコピーが、アダプタバーコードの同一組み合わせを両端において連結されたアダプタから受け取る確率が低い(例えば、約1または0.1%未満)、十分な数のアダプタと接触される。アダプタの使用は、このように、参照核酸上に同一開始および停止点を伴い、バーコードの同一組み合わせに連結される、核酸シーケンスのファミリーの識別を可能にし得る。そのようなファミリーは、増幅前のサンプル中の核酸の増幅生成物のシーケンスを表し得る。ファミリーメンバーのシーケンスは、平滑末端形成およびアダプタ付着によって修飾されるようなオリジナルサンプル中の核酸分子に関するコンセンサスヌクレオチドまたは完全なコンセンサスシーケンスを導出するためにコンパイルされることができる。言い換えると、サンプル中の核酸の規定された位置を占有する、ヌクレオチドは、ファミリーメンバーシーケンス内のその対応する位置を占有する、ヌクレオチドのコンセンサスであると判定されることができる。ファミリーは、二本鎖核酸の一方または両方の鎖のシーケンスを含むことができる。ファミリーのメンバーが、二本鎖核酸からの両方の鎖のシーケンスを含む場合、1つの鎖のシーケンスは、シーケンスをコンパイルし、コンセンサスヌクレオチドまたはシーケンスを導出する目的のために、その補体に変換されてもよい。いくつかのファミリーは、単一メンバーシーケンスのみを含む。この場合、本シーケンスは、増幅前のサンプル中の核酸のシーケンスと見なされ得る。代替として、単一メンバーシーケンスのみを伴うファミリーは、後続分析から排除されることができる。
シーケンシングされる核酸中のヌクレオチド変種(例えば、SNVまたはインデル)は、シーケンシングされた核酸と参照シーケンスを比較することによって判定されることができる。参照シーケンスは、多くの場合、既知のシーケンス、例えば、対象からの既知の全体的または部分的ゲノムシーケンス(例えば、ヒト対象の全体的ゲノムシーケンス)である。参照シーケンスは、例えば、hG19またはhG38であることができる。シーケンシングされた核酸は、上記に説明されるように、サンプル中の核酸に関して直接判定されたシーケンスまたはそのような核酸の増幅生成物のシーケンスのコンセンサスを表すことができる。比較は、参照シーケンス上の1つまたはそれを上回る指定される位置において実施されることができる。個別のシーケンスが最大限にアライメントされるとき、参照シーケンスの指定される位置と対応する位置を含む、シーケンシングされた核酸のサブセットが、識別されることができる。そのようなサブセット内では、該当する場合、ヌクレオチド変種を指定される位置に含み、随意に、該当する場合、参照ヌクレオチド(例えば、参照シーケンス内のものと同一である)を含む、シーケンシングされた核酸が、判定されることができる。ヌクレオチドバリアントを含む、サブセット内のシーケンシングされた核酸の数が、選択された閾値を超える場合、バリアントヌクレオチドは、指定される位置にあると見なされ得る。閾値は、他の可能性の中でもとりわけ、ヌクレオチドバリアントを含む、サブセット内の少なくとも1、2、3、4、5、6、7、8、9、または10個のシーケンシングされた核酸等の単純数であることができる、またはヌクレオチドバリアントを含む、サブセット内のシーケンシングされた核酸の、少なくとも0.5、1、2、3、4、5、10、15、または20等の比率であることができる。比較は、参照シーケンス内の任意の指定される着目位置に関して繰り返されることができる。時として、比較は、参照シーケンス上の少なくとも約20、100、200、または300個の連続的位置、例えば、約20~500または約50~300個の連続的位置を占有する、指定される位置に関して実施されることができる。
本明細書に説明されるフォーマットおよび用途を含む、核酸シーケンシングに関する付加的詳細はまた、例えば、Levy et al.,Annual Review of Genomics and Human Genetics,17:95-115(2016)、Liu et al., J. of Biomedicine and Biotechnology, Volume 2012,Article ID 251364:1-11(2012)、Voelkerding et al., Clinical Chem., 55:641-658(2009),MacLean et al., Nature Rev. Microbiol., 7:287-296(2009)、Astier et al., J Am Chem Soc.,128(5):1705-10(2006)、米国特許第6,210,891号、米国特許第6,258,568号、米国特許第6,833,246号、米国特許第7,115,400号、米国特許第6,969,488号、米国特許第5,912,148号、米国特許第6,130,073号、米国特許第7,169,560号、米国特許第7,282,337号、米国特許第7,482,120号、米国特許第7,501,245号、米国特許第6,818,395号、米国特許第6,911,345号、米国特許第7,501,245号、米国特許第7,329,492号、米国特許第7,170,050号、米国特許第7,302,146号、米国特許第7,313,308号、および米国特許第7,476,503、(それぞれ、参照することによってその全体として本明細書に組み込まれる)に提供されている。
III.コンピュータシステム
本開示の方法は、コンピュータシステムを使用するかまたはこれの助けとともに実装され得る。例えば、そのような方法は、(a)核酸バリアントに関する複数の定量測定値を核酸分子のサンプル(例えば、cfDNAのサンプル)から判定するステップであって、複数の定量測定値は、核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、(b)核酸バリアントの関連付けられた変数をサンプルから識別するステップと、(c)核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、(e)少なくとも部分的に、予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、核酸バリアントに関する確率値(p値)を生成するステップと、(f)核酸バリアントを、(i)核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントに関するp値が所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、を含んでもよく、コンピュータプロセッサで実施され得る。
図4は、本開示の方法を実装するようにプログラムまたは別様に構成される、コンピュータシステム401を示す。コンピュータシステム401は、サンプル調製、シーケンシング、および/または分析の種々の側面を調整することができる。いくつかの実施例では、コンピュータシステム401は、核酸シーケンシングを含む、サンプル調製およびサンプル分析を実施するように構成される。
コンピュータシステム401は、単一コアまたはマルチコアプロセッサ、もしくは並列処理用の複数のプロセッサであり得る、中央処理装置(CPU、本明細書ではまた、「プロセッサ」および「コンピュータプロセッサ」)405を含む。コンピュータシステム401はまた、メモリまたはメモリ場所410(例えば、無作為アクセスメモリ、読取専用メモリ、フラッシュメモリ)、電子記憶ユニット415(例えば、ハードディスク)、1つまたはそれを上回る他のシステムと通信するための通信インターフェース420(例えば、ネットワークアダプタ)、ならびにキャッシュ、他のメモリ、データ記憶装置、および/または電子ディスプレイアダプタ等の周辺デバイス425も含む。メモリ410、記憶ユニット415、インターフェース420、および周辺デバイス425は、マザーボード等の通信ネットワークまたはバス(実線)を通してCPU405と通信する。記憶ユニット415は、データを記憶するためのデータ記憶ユニット(またはデータレポジトリ)であり得る。コンピュータシステム401は、通信インターフェース420の助けを借りて、コンピュータネットワーク430に動作可能に結合されることができる。コンピュータネットワーク430は、インターネット、インターネットおよび/またはエクストラネット、もしくはインターネットと通信しているイントラネットおよび/またはエクストラネットであり得る。コンピュータネットワーク430は、ある場合には、電気通信および/またはデータネットワークである。コンピュータネットワーク430は、クラウドコンピューティング等の分散コンピューティングを可能にし得る、1つまたはそれを上回るコンピュータサーバを含むことができる。ネットワーク430は、ある場合には、コンピュータシステム401の助けを借りて、コンピュータシステム401に結合されたデバイスがクライアントまたはサーバとして挙動することを可能にし得る、ピアツーピアネットワークを実装することができる。
CPU405は、プログラムまたはソフトウェアで具現化され得る、一連の機械可読命令を実行することができる。命令は、メモリ410等のメモリ場所に記憶されてもよい。CPU405によって行われる動作の実施例は、フェッチ、解読、実行、およびライトバックを含むことができる。
記憶ユニット415は、ドライバ、ライブラリ、および保存されたプログラム等のファイルを記憶することができる。記憶ユニット415は、ユーザによって生成されたプログラムおよび記録されたセッションならびにプログラムと関連づけられた出力を記憶することができる。記憶ユニット415は、ユーザデータ、例えば、ユーザ選好およびユーザプログラムを記憶することができる。コンピュータシステム401は、ある場合には、イントラネットまたはインターネットを通してコンピュータシステム401と通信している遠隔サーバ上に位置するもの等の、コンピュータシステム401の外部にある1つまたはそれを上回る付加的データ記憶ユニットを含むことができる。データは、例えば、通信ネットワークまたは物理的データ転送を使用して(例えば、ハードドライブ、サムドライブ、または他のデータ記憶機構を使用して)1つの場所から別の場所に転送されてもよい。
コンピュータシステム401は、ネットワーク430を通して1つまたはそれを上回る遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム401は、ユーザの遠隔コンピュータシステム(例えば、オペレータ)と通信することができる。遠隔コンピュータシステムの実施例は、パーソナルコンピュータ(例えば、ポータブルPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android対応デバイス、Blackberry(登録商標))、または携帯情報端末を含む。ユーザは、ネットワーク430を介してコンピュータシステム401にアクセスすることができる。
本明細書に説明されるような方法は、例えば、メモリ410または電子記憶ユニット415上等のコンピュータシステム401の電子記憶場所上に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードを介して実装されることができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供されることができる。使用中に、コードは、プロセッサ405によって実行されることができる。ある場合には、コードは、記憶ユニット415から読み出され、プロセッサ405による容易なアクセスのためにメモリ410上に記憶されることができる。ある状況では、電子記憶ユニット415は、排除されることができ、機械実行可能命令が、メモリ410上に記憶される。
ある側面では、本開示は、少なくとも1つの電子プロセッサによって実行される場合に、(a)核酸バリアントに関する複数の定量測定値をcfDNAサンプルから判定するステップであって、複数の定量測定値は、核酸バリアントに関する総対立遺伝子カウントおよびマイナー対立遺伝子カウントを含む、ステップと、(b)核酸バリアントの関連付けられた変数をcfDNAサンプルから識別するステップと、(c)核酸バリアントの関連付けられた変数に関する定量値を判定するステップと、(d)核酸バリアントのあるゲノム遺伝子座において予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデルを生成するステップと、(e)少なくとも部分的に、予期される生殖細胞系統突然変異対立遺伝子カウントに関する統計モデル、核酸バリアントの関連付けられた変数に関する定量値、および核酸バリアントに関する複数の定量測定値のうちの少なくとも1つに基づいて、核酸バリアントに関する確率値(p値)を生成するステップと、(f)核酸バリアントを、(i)核酸バリアントに関するp値が所定の閾値を下回るとき、体細胞起源である、または(ii)核酸バリアントに関するp値が所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、を含む、方法を実行するコンピュータ実行可能命令を含む非一過性コンピュータ可読媒体を提供する。
コードは、コードを実行するように適合されるプロセッサを有する機械と併用するために事前にコンパイルおよび構成されることができるか、または実行時間中にコンパイルされることができる。コードは、事前コンパイルされた、またはコンパイルされた時点の様式で、コードが実行されることを可能にするように選択され得る、プログラミング言語で供給されることができる。
コンピュータシステム401等の本明細書で提供されるシステムおよび方法の側面は、プログラミングで具現化されることができる。本技術の種々の側面は、典型的には、一種の機械可読媒体上で搬送されるか、またはその中で具現化される、機械(もしくはプロセッサ)実行可能コードおよび/または関連データの形態の「製品」もしくは「製造品」と考えられてもよい。機械実行可能コードは、メモリ(例えば、読取専用メモリ、無作為アクセスメモリ、フラッシュメモリ)またはハードディスク等の電子記憶ユニット上に記憶されることができる。「記憶」型媒体は、ソフトウェアプログラミングのためにいかなる時でも非一過性の記臆装置を提供し得る、コンピュータ、プロセッサ、もしくは同等物の有形メモリ、または種々の半導体メモリ、テープドライブ、ハードドライブ、および同等物等のそれらの関連モジュールのうちのいずれかもしくは全てを含むことができる。
ソフトウェアの全てまたは部分は、時として、インターネットまたは種々の他の電気通信ネットワークを通して通信されてもよい。そのような通信は、例えば、1つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへ、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を持ち得る別のタイプの媒体は、ローカルデバイス間の物理的インターフェースを横断し、有線および光学地上通信線ネットワークを通し、かつ種々のエアリンクを経由して使用されるものなどの光波、電波、および電磁波を含む。有線もしくは無線リンク、光学リンク、または同等物等のそのような波動を搬送する物理的要素もまた、ソフトウェアを持つ媒体と見なされてもよい。本明細書で使用されるように、非一過性の有形「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」等の用語は、実行のために命令をプロセッサに提供することに参加する任意の媒体を指す。
したがって、コンピュータ実行可能コード等の機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含むが、それらに限定されない、多くの形態を成してもよい。不揮発性記憶媒体は、例えば、図面に示されるデータベース等を実装するために使用されるような、任意のコンピュータまたは同等物の中の記憶デバイスのうちのいずれか等の光学または磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、同軸ケーブル、すなわち、コンピュータシステム内のバスを含むワイヤを含む、銅線および光ファイバを含む。搬送波伝送媒体は、電気もしくは電磁信号、または高周波(RF)および赤外線(IR)データ伝送中に生成されるもの等の音波もしくは光波の形態をとってもよい。コンピュータ可読媒体の一般的な形態は、したがって、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、孔のパターンを伴う任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップまたはカートリッジ、データもしくは命令を輸送する搬送波、そのような搬送波を輸送するケーブルまたはリンク、もしくはコンピュータがプログラミングコードおよび/またはデータを読み取り得る任意の他の媒体を含む。コンピュータ可読媒体のこれらの形態の多くは、実行するために1つまたはそれを上回る命令の1つまたはそれを上回るシーケンスをプロセッサに搬送することに関与し得る。
コンピュータシステム401は、例えば、サンプル分析の1つまたはそれを上回る結果を提供するためのユーザインターフェース(UI)を含む、電子ディスプレイを含む、またはそれと通信することができる。UIの実施例は、限定ではないが、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースを含む。
コンピュータシステムおよびネットワーク、データベース、およびコンピュータプログラム製品に関連する付加的詳細はまた、例えば、Peterson,Computer Networks:A Systems Approach, Morgan Kaufmann, 5th Ed.(2011)、Kurose, Computer Networking:A Top-Down Approach, Pearson, 7th Ed.(2016)、Elmasri, Fundamentals of Database Systems, Addison Wesley, 6th Ed.(2010)、Coronel, Database Systems:Design, Implementation, & Management, Cengage Learning, 11th Ed.(2014)、Tucker, Programming Languages, McGraw-Hill Science/Engineering/Math, 2nd Ed.(2006)、およびRhoton, Cloud Computing Architected:Solution Design Handbook, Recursive Press(2011)(それぞれ、参照することによってその全体として本明細書に組み込まれる)に提供されている。
IV.用途
A.癌および他の疾患
いくつかの実施形態では、本明細書に開示される方法およびシステムは、体細胞または生殖細胞系統起源としての核酸バリアントの分類に基づいて、カスタマイズまたは標的化された療法を識別し、患者内の所与の疾患または病状を処置するために使用されてもよい。典型的には、検討中の疾患は、ある型の癌である。そのような癌の非限定的実施例は、胆管癌、膀胱癌、移行上皮癌、尿路上皮癌、脳癌、神経膠腫、星状細胞腫、乳癌、化生癌、子宮頸癌、子宮頸部扁平上皮癌、直腸癌、結腸直腸癌、結腸癌、遺伝性非ポリポーシス大腸癌、結腸直腸腺癌、消化管間質腫瘍(GIST)、子宮内膜癌、子宮内膜間質肉腫、食道癌、食道扁平上皮癌、食道腺癌、眼内メラノーマ、ブドウ膜メラノーマ、胆嚢癌、胆嚢腺癌、腎細胞癌、明細胞腎細胞癌、移行上皮癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性白血病(CLL)、慢性骨髄性白血病(CML)、慢性骨髄単球性白血病(CMML)、肝臓癌、肝癌腫、ヘパトーマ、肝細胞癌、胆管細胞癌、肝芽腫、肺癌、非小細胞肺癌(NSCLC)、中皮腫、B細胞リンパ腫、非ホジキンリンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、T細胞リンパ腫、非ホジキンリンパ腫、前駆Tリンパ芽球性リンパ腫/白血病、末梢T細胞リンパ腫、多発性骨髄腫、鼻咽頭癌腫(NPC)、神経芽細胞腫、口腔咽頭癌、口腔扁平上皮癌、骨肉腫、卵巣癌、膵臓癌、膵管腺癌、偽乳頭状腫瘍、腺房細胞癌、前立腺癌、前立腺腺癌、皮膚癌、メラノーマ、悪性メラノーマ、皮膚メラノーマ、小腸癌、胃癌、胃癌腫、消化管間質腫瘍(GIST)、子宮癌、または子宮肉腫を含む。
本明細書に開示される方法およびシステムを使用して随意に評価される、他の遺伝子ベースの疾患、障害、または病状の非限定的実施例は、軟骨無形成症、アルファ-1アンチトリプシン欠損症、抗リン脂質抗体症候群、自閉症、常染色体優性多発性嚢胞腎、シャルコー・マリー・トゥース病(CMT)、猫鳴き症候群、クローン病、嚢胞性線維症、ダーカム病、ダウン症候群、デュアン症候群、デュシェンヌ型筋ジストロフィー、第V因子ライデン血栓性素因、家族性高コレステロール血症、家族性地中海熱、脆弱X症候群、Gaucher疾患、ヘモクロマトーシス、血友病、全前脳胞症、ハンチントン病、クラインフェルター症候群、マルファン症候群、筋強直性ジストロフィー、神経線維腫症、ヌーナン症候群、骨形成不全症、パーキンソン病、フェニルケトン尿症、ポーランド症候群、ポルフィリン症、早老症、網膜色素変性、重症複合免疫不全症候群(scid)、鎌状赤血球症、脊髄性筋萎縮症、テイ・サックス病、サラセミア、トリメチルアミン、ターナー症候群、口蓋心臓顔面症候群、WAGR症候群、ウィルソン病、または同等物を含む。
B.療法および関連投与
ある実施形態では、本明細書に開示される方法は、体細胞または生殖細胞系統起源としての核酸バリアントのステータスを前提として、カスタマイズされた療法を識別し、患者に投与することに関する。いくつかの実施形態では、本質的に、任意の癌療法(例えば、外科手術療法、放射線療法、化学療法、および/または同等物)が、これらの方法の一部として含まれてもよい。典型的には、カスタマイズされた療法は、少なくとも1つの免疫療法(または免疫療法作用物質)を含む。免疫療法は、概して、所与の癌型に対して免疫応答を向上させる方法を指す。ある実施形態では、免疫療法は、腫瘍または癌に対するT細胞応答を向上させる方法を指す。
ある実施形態では、体細胞または生殖細胞系統起源としての対象からのサンプルからの核酸バリアントのステータスは、参照集団からの比較器結果のデータベースと比較され、その対象のためのカスタマイズまたは標的化された療法を識別してもよい。典型的には、参照集団は、試験対象と同一癌または疾患型を患う患者、および/または試験対象と同一療法を受けている、もしくは受けた患者を含む。カスタマイズまたは標的化された療法(または療法)は、核バリアントおよび比較器結果がある分類基準を満たす(例えば、実質的または近似的にマッチングする)ときに識別され得る。
ある実施形態では、本明細書に説明されるカスタマイズされた療法は、典型的には、非経口的に(例えば、静脈内または皮下)投与される。免疫療法作用物質を含有する医薬品組成物が、典型的には、静脈内投与される。ある療法用作用物質は、経口投与される。しかしながら、カスタマイズされた療法(例えば、免疫療法作用物質等)はまた、例えば、口腔、舌下、経直腸、膣内、尿道内、局部、眼内、鼻腔内、および/または耳介内を含む、当技術分野において公知の任意の方法によって投与されてもよく、投与は、錠剤、カプセル剤、顆粒剤、水性懸濁剤、ゲル剤、スプレー剤、坐剤、塗剤、軟膏剤、または同等物を含んでもよい。
(実施例1)
ベータ二項モデル対閾値アプローチを使用して、EGFRT790M突然変異体が生殖細胞系統または体細胞起源であるかどうかを判定する
サンプルのセットが、Guardant Health, Inc.(Redwood City, CA)によって開発された血液ベースのDNAアッセイを使用して、処理および分析された。分析されたサンプルのうちの1つは、T790M突然変異体(一塩基バリアント)を染色体7上のゲノム位置55249071におけるEGFR遺伝子内に有していた。バリアントの突然変異対立遺伝子カウント(A)および総対立遺伝子カウント(B)が、バイオインフォマティクス分析を使用して、それぞれ、1,855および10,806であると推定された。バリアントの突然変異対立遺伝子割合(MAF)は、0.177(MAF=A/B)であると推定された。
バリアントの起源を判定するために、EGFR遺伝子が、ベータ二項モデル内のビンとして使用された。6個の共通生殖細胞系統ヘテロ接合型SNPが、(i)0.001を上回る集団対立遺伝子頻度を伴うExACデータベース内で列挙されたか、または(ii)0.9未満のMAFを伴う過去のサンプルセットのデータベース内の既知の生殖細胞系統ヘテロ接合型SNPとして列挙されたかのいずれかであった、EGFR遺伝子内に見出された。これらの6個の共通生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウントおよび総対立遺伝子カウントは、ベータ二項モデルにおいて使用され、μEGFRパラメータの最大尤度推定値(MLE)が、ベータ二項モデルを使用して、0.3971であると推定された。図5Aは、T790M(●)バリアントおよび6個の共通生殖細胞系統ヘテロ接合型SNP(▲)に関するMAF対ゲノム位置のプロットを示す。図5Bは、T790M(●)バリアントおよび6個の共通生殖細胞系統ヘテロ接合型SNP(▲)に関するmin(MAF,1-MAF)対ゲノム位置のプロットを示す。ベータ二項モデルによって推定された0.3971のμEGFRは、図5Aおよび図5Bの両方において実線として示される。ρパラメータが、過去のサンプルセット内の生殖細胞系統SNPに関するρ値の中央値として推定され、9.2×10-5であると計算された。μEGFRおよびρ値に関するこれらの値を使用して、T790Mバリアントに関する両側p値が、2.8×10-302であると計算された。p値に関する10-16の所定の閾値が、バリアントの起源(例えば、生殖細胞系統または体細胞)を識別するために使用された。T790Mバリアントに関するp値は、所定の閾値未満であるため、T790Mバリアントは、体細胞起源であると判定される。
ベータ二項モデルの使用と比較して、任意のバリアントの起源は、0.15のMAFを閾値として使用することによって等、MAF閾値方法に基づいて、判定されることができる(例えば、0.15未満のMAFを有するバリアントを体細胞バリアントとして、または0.15を上回るまたはそれと等しいMAFを有するバリアントを生殖細胞系統バリアントとして分類する)。本明細書に説明される、T790Mバリアントは、0.15のMAF閾値を上回る、0.177の測定されたMAFを有していた。したがって、T790Mバリアントは、MAF閾値方法を使用すると、生殖細胞系統起源であると誤って識別されることになるであろう。対照的に、ベータ二項モデルは、EGFR遺伝子内で観察される任意の対立遺伝子不均衡を考慮することによって、EGFR遺伝子の局所ゲノムコンテキストを正確にモデル化し、故に、バリアントを体細胞起源であると正しく識別した。
本発明の好ましい実施形態が、本明細書で示され、説明されているが、そのような実施形態は、一例のみとして提供されることが当業者に明白となるであろう。本発明が本明細書内で提供される具体的実施例によって限定されることは意図されない。本発明は、前述の明細書を参照して説明されているが、本明細書の実施形態の説明および例証は、限定的な意味で解釈されるように意図されていない。多数の変形例、変更、および代用が、ここで、本発明から逸脱することなく、当業者に想起されるであろう。さらに、本発明の全ての側面は、種々の条件および変数に依存する、本明細書に記載される具体的描写、構成、または相対的割合に限定されないことを理解されたい。本明細書に説明される本発明の実施形態の種々の代替物が、本発明を実践する際に採用され得ることを理解されたい。したがって、本発明はまた、任意のそのような代替物、修正、変形例、または均等物も網羅するものとすると考慮される。以下の請求項は、本発明の範囲を定義し、それにより、これらの請求項およびそれらの均等物の範囲内の方法および構造が対象となることが意図される。
前述の開示は、明確性および理解の目的のために、例証および実施例として、ある程度詳細に説明されたが、本開示の熟読から、形態および詳細における種々の変更が、本開示の真の範囲から逸脱することなく行われることができ、添付の請求項の範囲内で実践されてもよいことが、当業者に明白となる。例えば、全ての方法、システム、コンピュータ可読媒体、および/またはその構成要素特徴、ステップ、要素、もしくは他の側面は、種々の組み合わせにおいて使用されることができる。
本明細書で引用されるすべての特許、特許出願、ウェブサイト、他の出版物、または書類、および受託番号などは、あたかもそれぞれ個々の項目が参照によりそのように組み込まれることが明確におよび個別に示されている場合と同じ程度にあらゆる目的のためにその全体が参照により組み込まれる。配列の異なるバージョンが異なる時期の受託番号に関連している場合、本出願の有効出願日にその受託番号に関連しているバージョンを意味する。有効出願日とは、実際の出願日よりも早期、または該当する場合、受託番号に言及する優先権出願の出願日を意味する。同様に、出版物、またはウェブサイトなどの異なるバージョンが異なる時期に公表される場合、他の方法で示されていなければ、出願の有効出願日の直近に公表されたバージョンを意味する。

Claims (15)

  1. 核酸バリアントの体細胞または生殖細胞系統起源を無細胞デオキシリボ核酸(cfDNA)分子のサンプルから識別するコンピュータ実装方法であって、
    (a)前記核酸バリアントの突然変異対立遺伝子カウント(A)および総分子カウント(B)を前記cfDNA分子のサンプルから測定するステップと、
    (b)前記核酸バリアントに対して規定されたゲノム領域内の少なくとも1個の生殖細胞系統ヘテロ接合型一塩基多型(SNP)を識別するステップと、
    (c)前記少なくとも1個の生殖細胞系統ヘテロ接合型SNPの総分子カウント(y)および突然変異対立遺伝子カウントを測定するステップと、
    (d)
    (i)μbinおよびρの推定値をベータ二項分布から判定するステップであって、
    (x,y)~ベータ二項(μbin,ρ)
    式中、
    y=前記生殖細胞系統ヘテロ接合型SNPの総分子カウントのベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、
    x=min(前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント、y-前記生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウント)のベクトルであって、(b)において識別された生殖細胞系統ヘテロ接合型SNP毎に1つのエントリを伴い、
    μbin=あるビン内の生殖細胞系統ヘテロ接合型SNPの突然変異対立遺伝子カウントの推定値であって、前記ビンは、前記核酸バリアントに対して規定されたゲノム領域であって、
    ρ=分散パラメータの推定値である、
    ステップと、
    (ii)両側p値を下記の方程式から計算するステップであって、
    p値=2*min(Prbb(x’>A|μbin,ρ,B),Prbb(x’<A|μbin,ρ,B))
    式中、
    Prbb=ベータ二項の確率であって、
    x’=前記ベータ二項分布を伴って分散される無作為変数であって、
    A=前記核酸バリアントの突然変異対立遺伝子カウントであって、
    B=前記核酸バリアントの総分子カウントである、
    ステップと、
    によって、前記核酸バリアントに関する確率値(p値)を計算するステップと、
    (e)前記核酸バリアントを、(i)前記p値が、所定の閾値を下回るとき、体細胞起源である、または(ii)前記p値が、前記所定の閾値である、またはそれを上回るとき、生殖細胞系統起源であると分類するステップと、
    を含む、方法。
  2. ρは、過去のサンプルセットからのρ値の少なくとも1つのセットの中央値を含む、請求項1に記載の方法。
  3. ρは、局所ゲノムコンテキストのGC含量の関数としてモデル化され、必要に応じて、前記関数は、過去のサンプルセットから推定される、請求項1に記載の方法。
  4. μbinの最大尤度推定値を判定するステップを含む、請求項1~3のいずれか1項に記載の方法。
  5. μbinの平均値推定値を判定するステップを含む、請求項1~4のいずれか1項に記載の方法。
  6. ρの最大尤度推定値を判定するステップを含む、請求項1~5のいずれか1項に記載の方法。
  7. ρの分散推定値を判定するステップを含む、請求項1~6のいずれか1項に記載の方法。
  8. 前記方法は、前記サンプル中の核酸に関する予期される生殖細胞系統突然変異対立遺伝子カウントのベータ二項モデルを使用して、閾値を生成するステップを含む、請求項1~7のいずれか1項に記載の方法。
  9. 前記方法は、複数の核酸バリアントの各々についてステップ(a)~(c)を繰り返すことによって、前記複数の核酸バリアントの前記体細胞または生殖細胞系統起源を前記核酸サンプル中の複数のゲノム遺伝子座から分類するステップを含む、請求項1~8のいずれか1項に記載の方法。
  10. 前記方法は、シーケンス情報をシーケンシングによって対象由来の前記サンプル由来の前記cfDNA分子から取得するステップをさらに含む、請求項1~9のいずれか1項に記載の方法。
  11. シーケンシングに先立ってシーケンスが濃縮される、請求項10に記載の方法。
  12. 前記cfDNA分子がサンプルインデックスおよび/または分子バーコードでタグ付けされる、請求項10または11に記載の方法。
  13. 異なるcfDNA分子が少なくとも1つのバーコードと組み合わせてその内因性シーケンス情報に基づいて区別され得るように、前記cfDNA分子が限定数のバーコードで非一意的にタグ付けされる、請求項12に記載の方法。
  14. 前記サンプルは、血漿または血清である、請求項1~13のいずれか1項に記載の方法。
  15. 前記方法はさらに、体細胞または生殖細胞系統起源のいずれかである、前記核酸バリアントの分類のインジケーションを提供する、電子および/または紙フォーマットにおける報告を生成するステップを含む、請求項1~14のいずれか1項に記載の方法。
JP2020516385A 2017-09-20 2018-09-20 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム Active JP7242644B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023006454A JP2023052512A (ja) 2017-09-20 2023-01-19 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762561048P 2017-09-20 2017-09-20
US62/561,048 2017-09-20
PCT/US2018/052087 WO2019060640A1 (en) 2017-09-20 2018-09-20 METHODS AND SYSTEMS FOR DIFFERENTIATING SOMATIC VARIANTS AND GERMINAL LINE VARIANTS

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023006454A Division JP2023052512A (ja) 2017-09-20 2023-01-19 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム

Publications (3)

Publication Number Publication Date
JP2020536509A JP2020536509A (ja) 2020-12-17
JP2020536509A5 JP2020536509A5 (ja) 2021-10-28
JP7242644B2 true JP7242644B2 (ja) 2023-03-20

Family

ID=63858071

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020516385A Active JP7242644B2 (ja) 2017-09-20 2018-09-20 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム
JP2023006454A Pending JP2023052512A (ja) 2017-09-20 2023-01-19 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023006454A Pending JP2023052512A (ja) 2017-09-20 2023-01-19 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム

Country Status (9)

Country Link
US (1) US20200327954A1 (ja)
EP (1) EP3685386A1 (ja)
JP (2) JP7242644B2 (ja)
KR (1) KR20200057024A (ja)
CN (1) CN111357054A (ja)
AU (1) AU2018335405A1 (ja)
CA (1) CA3075932A1 (ja)
SG (1) SG11202002381TA (ja)
WO (1) WO2019060640A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111566225A (zh) 2017-11-03 2020-08-21 夸登特健康公司 归一化肿瘤突变负荷
US11961589B2 (en) * 2017-11-28 2024-04-16 Grail, Llc Models for targeted sequencing
CN112752854A (zh) 2018-07-23 2021-05-04 夸登特健康公司 用于通过肿瘤分数和覆盖率调整肿瘤突变负荷的方法和系统
US20220277808A1 (en) * 2021-02-19 2022-09-01 Twist Bioscience Corporation Libraries for identification of genomic variants
CN117594124A (zh) * 2021-06-15 2024-02-23 南京医科大学 一种基于单核细胞预测胶质瘤的试剂盒、系统和应用
CN115497556A (zh) * 2021-06-18 2022-12-20 广州燃石医学检验所有限公司 一种用于区分体细胞突变和种系突变的方法
CN113278706B (zh) * 2021-07-23 2021-11-12 广州燃石医学检验所有限公司 一种用于区分体细胞突变和种系突变的方法
KR102544002B1 (ko) * 2022-03-10 2023-06-16 주식회사 아이엠비디엑스 체세포 변이 및 생식세포 변이를 구별하는 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527057A (ja) 2012-06-21 2015-09-17 ザ チャイニーズ ユニバーシティー オブ ホンコン 癌検出のための血漿中dnaの突然変異解析
WO2016109452A1 (en) 2014-12-31 2016-07-07 Guardant Health , Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US20170058332A1 (en) 2015-09-02 2017-03-02 Guardant Health, Inc. Identification of somatic mutations versus germline variants for cell-free dna variant calling applications
WO2017139492A1 (en) 2016-02-09 2017-08-17 Toma Biosciences, Inc. Systems and methods for analyzing nucelic acids

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
DE69528706T2 (de) 1994-08-19 2003-06-12 Pe Corp Ny Foster City Gekoppeltes ampflikation- und ligationverfahren
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
WO2002004680A2 (en) 2000-07-07 2002-01-17 Visigen Biotechnologies, Inc. Real-time sequence determination
DE60234464D1 (de) 2001-11-28 2009-12-31 Applied Biosystems Llc Zusammensetzungen und Verfahren zur selektiven Nukleinsäureisolierung
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
US7482120B2 (en) 2005-01-28 2009-01-27 Helicos Biosciences Corporation Methods and compositions for improving fidelity in a nucleic acid synthesis reaction
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
IL269097B2 (en) 2012-09-04 2024-01-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
CA2934822A1 (en) * 2013-12-28 2015-07-02 Guardant Health, Inc. Methods and systems for detecting genetic variants
WO2018144782A1 (en) * 2017-02-01 2018-08-09 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527057A (ja) 2012-06-21 2015-09-17 ザ チャイニーズ ユニバーシティー オブ ホンコン 癌検出のための血漿中dnaの突然変異解析
WO2016109452A1 (en) 2014-12-31 2016-07-07 Guardant Health , Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US20170058332A1 (en) 2015-09-02 2017-03-02 Guardant Health, Inc. Identification of somatic mutations versus germline variants for cell-free dna variant calling applications
WO2017139492A1 (en) 2016-02-09 2017-08-17 Toma Biosciences, Inc. Systems and methods for analyzing nucelic acids

Also Published As

Publication number Publication date
WO2019060640A1 (en) 2019-03-28
AU2018335405A1 (en) 2020-04-09
CN111357054A (zh) 2020-06-30
EP3685386A1 (en) 2020-07-29
KR20200057024A (ko) 2020-05-25
JP2020536509A (ja) 2020-12-17
SG11202002381TA (en) 2020-04-29
US20200327954A1 (en) 2020-10-15
JP2023052512A (ja) 2023-04-11
CA3075932A1 (en) 2019-03-28

Similar Documents

Publication Publication Date Title
JP7242644B2 (ja) 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム
US20220025468A1 (en) Homologous recombination repair deficiency detection
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
US20200232010A1 (en) Methods, compositions, and systems for improving recovery of nucleic acid molecules
JP2023060046A (ja) 脱アミノ化に誘導される配列エラーの補正
US20210398610A1 (en) Significance modeling of clonal-level absence of target variants
US20200071754A1 (en) Methods and systems for detecting contamination between samples
WO2021108708A1 (en) Methods, compositions and systems for improving the binding of methylated polynucleotides
US20240062848A1 (en) Determining a dynamic quality metric of a biopsy sample
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220721

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221020

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230308

R150 Certificate of patent or registration of utility model

Ref document number: 7242644

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150