CN110770840A - 用于对来自已知或未知基因型的多个贡献者的dna混合物分解和定量的方法和系统 - Google Patents

用于对来自已知或未知基因型的多个贡献者的dna混合物分解和定量的方法和系统 Download PDF

Info

Publication number
CN110770840A
CN110770840A CN201880041577.3A CN201880041577A CN110770840A CN 110770840 A CN110770840 A CN 110770840A CN 201880041577 A CN201880041577 A CN 201880041577A CN 110770840 A CN110770840 A CN 110770840A
Authority
CN
China
Prior art keywords
nucleic acid
allele
locus
contributors
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880041577.3A
Other languages
English (en)
Inventor
李勇
J·布鲁恩
R·凯利
C·李
K·舍夫勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Irumina Co Ltd
Illumina Inc
Original Assignee
Irumina Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Irumina Co Ltd filed Critical Irumina Co Ltd
Publication of CN110770840A publication Critical patent/CN110770840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Abstract

提供了用于对核酸混合物样品进行定量和解卷积的方法和系统,该核酸混合物样品包括具有已知或未知基因组的一个或多个贡献者的核酸。在此提供的方法和系统实施使用贝叶斯概率建模技术确定嵌合样品中遗传上不同的贡献者的丰度和置信区间的过程,从而提高了特异性、准确性和敏感性,并极大扩展了优于常规方法的应用范围。

Description

用于对来自已知或未知基因型的多个贡献者的DNA混合物分 解和定量的方法和系统
相关申请的交叉引用
本申请根据35U.S.C.§119(e)要求2017年6月20日提交的标题为用于准确计算来自未知基因型的贡献者的DNA混合物的方法的美国临时专利申请号62/522,605,该专利的全部内容通过在此引用作为参考。
背景技术
在研究以及临床环境中经常发现来自紧密相关基因组的核酸(例如,DNA或RNA)混合物的测序数据,并且当原始基因组未知时,对混合贡献者进行定量一直是挑战。例如,在微生物学和宏基因组学的上下文中,研究人员和临床医生可能需要对环境样品中相同物种的密切相关的细菌菌株进行定量。在法医环境中,执法人员可能需要对从包含多个个体DNA的血液样品中对人类个体进行量化以及识别。在生物医学研究环境中,科学家可能需要确定细胞或DNA样品中污染的纯度或扩展范围。
另一个应用是下一代测序(NGS)偶联的液体活组织检查。NGS偶联的液体活组织检查是一种新兴的诊断策略,在各种临床环境中都有潜在的应用前景。在器官或组织移植的上下文中,NGS偶联的液体活组织检查提供了一种非侵入性方法,用于通过对接受者血液中同种异体DNA的量进行定量来监视同种异体移植物的健康状况。在一些应用中,供者和接受者基因组是未知的或部分未知的。
术语嵌合体已在现代医学中用于描述包括源自不同个体的细胞群的个体。嵌合状态可以通过继承自发发生,但更经常经由移植、输血或样品污染人工产生。
嵌合取决于移植类型以不同的DNA类型留下信息性信号。对于骨髓和造血干细胞移植,取决于移植的植入状态,移植后收集的血液基因组DNA(gDNA)将具有不同的嵌合水平。对于实体器官移植,可以在无血细胞的DNA(cfDNA)中看到嵌合信号。可以通过非侵入性液体活组织检查来提取此类信号,这与作为器官移植监视的当前护理标准的侵入性组织活组织检查过程相反。
可重复和准确地确定供者基因组对嵌合DNA样品的相对贡献将为移植监视提供信息工具,使研究人员和临床医生能够非侵入性和客观地测量供者和接受者细胞之间动力学的变化,从而反映供者细胞和器官的健康状况。本公开介绍了用于定量每个基因组对嵌合样品的相对贡献的新颖和改进的方法。
发明内容
在此提出的一些实施方式提供了用于对核酸混合物样品进行定量和解卷积的计算机实施的方法和系统,该核酸混合物样品包括未知基因型的两个或更多个贡献者的核酸。本公开的一个方面涉及用于对核酸样品中的核酸分数进行定量的方法,该核酸样品包括具有不同基因组的两个或更多个贡献者的核酸(例如,DNA或RNA)。在一些实施方式中,如下所述,核酸混合物样品包括生物组织、细胞、外周血、唾液、尿液和其它生物液体。在一些应用中,核酸样品仅包括单个贡献者的核酸,并且在此所述的实施方式可以确定单个贡献者的核酸占样品中核酸的100%。因此,尽管下文中的描述在一些实施方式中将核酸样品称为核酸混合物样品,但应理解,样品可以包括单个贡献者的核酸,贡献者的分数为100%或1。当然,该方法也可以用于对包含两个或更多个贡献者的核酸的样品进行定量。
因为在此提供的各种方法和系统实施使用概率混合物模型和贝叶斯推断技术的策略和过程,所以实施方案在核酸(例如,DNA或RNA)混合物样品的定量和解卷积方面提供了优于常规方法的技术改进。一些实施方式提供了改进的分析敏感性和特异性,提供了核酸混合物样品的更准确的解卷积和定量。
一些实施方式允许对核酸混合物样品进行精确定量,其核酸量对于常规方法无法精确定量而言太低。一些实施方式允许准确定量3-10ng的无细胞DNA(cfDNA)混合物样品,而常规方法无法对其准确定量。一些实施方式允许应用到具有3个或更多贡献者的混合样品中,这是常规方法无法处理的。一些实施方式允许将其应用于具有一个或多个未知基因组的混合物,这是常规方法无法处理的。在此描述的一些实施方式是指DNA样品,但是应当理解,这些实施方式也适用于分析RNA样品。
在一些实施方案中,该方法在包括一个或多个处理器和系统存储器的计算机系统上实施,该计算机系统被配置为对包含两个或更多个贡献者的核酸的核酸混合物样品进行解卷积和定量。
一些实施方案提供了用于对包括贡献者和至少一个其他贡献者的核酸的核酸混合物样品中的贡献者的核酸分数进行定量的方法。该方法包括:(a)从核酸样品中提取核酸分子;(b)扩增所提取的核酸分子;(c)使用核酸测序仪对所扩增的核酸分子进行测序以产生核酸序列读序;(d)由一个或多个处理器将核酸序列读序映射到参考序列上的一个或多个多态性基因座;(e)使用所映射的核酸序列读序并由一个或多个处理器确定在一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数;以及(f)使用概率混合物模型并由一个或多个处理器对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量,其中,使用概率混合物模型包括将概率混合物模型应用于核酸序列读序的等位基因计数,以及其中,概率混合物模型使用概率分布来对一个或多个多态性基因座处的核酸序列读序的等位基因计数进行建模,该概率分布考虑了核酸序列读序中的错误。
在一些实施方式中,(d)的映射包括使用计算机哈希或计算机动态编程的映射。在一些实施方式中,(f)的定量包括使用一种新颖的优化方法进行定量,该方法结合了多迭代网格搜索和Broyden-Fletcher-Goldfarb-Shanno(BFGS)-拟牛顿法。在一些实施方式中,(f)的定量包括使用迭代加权线性回归进行定量。这些特征需要计算机执行,并且植根于计算机技术中。
在一些实施方式中,该方法进一步包括,使用概率混合模型并由一个或多个处理器确定在一个或多个多态性基因座处的一个或多个贡献者的一种或多种基因型。
在一些实施方式中,该方法进一步包括,使用一个或多个贡献者的核酸的一个或多个分数,确定一个贡献者(受赠者)排斥自另一贡献者(供者)移植的组织或器官的风险。
在一些实施方式中,一个或多个贡献者包含两个或更多个贡献者。
在一些实施方式中,核酸分子包含DNA分子或RNA分子。
在一些实施方式中,核酸样品包含来自零个、一个或多个污染物基因组和一个目的基因组的核酸。
在一些实施方式中,一个或多个贡献者包含移植物的零个、一个或多个供者以及移植的受赠者,并且其中,核酸样品包含获自受赠者的样品。
在一些实施方式中,移植包括同种异体或异种移植物。
在一些实施方式中,核酸样品包含获自受赠者的生物样品。
在一些实施方式中,核酸样品包含获自细胞培养物的生物样品。
在一些实施方式中,提取的核酸分子包含无细胞核酸。
在一些实施方式中,提取的核酸分子包含细胞DNA。
在一些实施方式中,一个或多个多态性基因座包含一个或多个双等位基因多态性基因座。
在一些实施方式中,在一个或多个多态性基因座处的一个或多个等位基因包含一个或多个单核苷酸多态性(SNP)等位基因。
在一些实施方式中,概率混合物模型使用单基因座似然函数来对单个多态性基因座处的等位基因计数进行建模。单基因座似然函数包括:
M(n1i,n2i|p1i,θ)
n1i是基因座i处等位基因1的等位基因计数,n2i是基因座i处等位基因2的等位基因计数,p1i是基因座i处等位基因1的预期分数,以及θ包括一个或多个模型参数。
在一些实施方式中,将p1i建模为以下的函数:(i)基因座i处贡献者的基因型,或gi=(g11i,...,gD1i),其是贡献者1...D中基因座i处等位基因1的副本数的矢量;(ii)由(c)中的测序操作导致的读序计数错误,或λ;以及(iii)核酸样品中贡献者的核酸分数,或β=(β1,...,βD),其中D是贡献者的数量。在一些实施方式中,贡献者包含两个或更多个贡献者,并且p1i=p(gi,λ,β)←[(1-λ)gi+λ(2-gi)]/2·β,其中·是矢量点积算符。
在一些实施方式中,贡献者包括两个贡献者,并且使用表3中的p1′值获得p1i
在一些实施方式中,贡献者的零、一种或多种基因型是未知的。在一些实施方式中,(f)包括在基因型的多个可能组合上边缘化以列举概率参数p1i。在一些实施方式中,该方法进一步包括确定在一个或多个多态性基因座的每一个多态性基因座处的基因型构型,该基因型构型包含针对一个或多个贡献者中的每一个贡献者的两个等位基因。在一些实施方式中,单基因座似然函数包括第一二项式分布。在一些实施方式中,第一二项式分布表示如下:
n1i~BN(ni,p1i)
n1i是基因座i处等位基因1的核酸序列读序的等位基因计数;以及ni是在基因座i处的总读序计数,其等于总基因组副本数n″。在一些实施方式中,(f)包括最大化从多个单基因座似然函数计算出的多基因座似然函数。
在一些实施方式中,(f)包括:使用多个潜在分数值和(e)中确定的核酸序列读序的等位基因计数的多基因座似然函数,计算多个多基因座似然值;识别与最大多基因座似然值相关联的一个或多个潜在分数值;以及将核酸样品中一个或多个贡献者的核酸的一个或多个分数定量为所识别的潜在分数值。
在一些实施方式中,多基因座似然函数包括:
L(β,θ,λ,π;n1,n2)=Πi[∑giM(n1i,n2i|p(gi,λ,β),θ)·P(gi|π)]
L(β,θ,λ,π;n1,n2)是观察等位基因1和2的等位基因计数矢量n1和n2的似然度;p(gi,λ,β)是基于基因座i处贡献者基因型gi观察到基因座i处等位基因1的预期分数或概率;P(gi|π)是在给定群体等位基因频率(π)的情况下观察基因座i处基因型gi的先验概率;以及∑gi表示对贡献者基因型的多种可能组合进行求和。
在一些实施方式中,多基因座似然函数包括:
L(β,λ,π;n1,n2)=∏i[∑giBN(n1i|ni,·p(gi,λ,β))·P(gi|π)]
在一些实施方式中,贡献者包括两个贡献者,并且似然函数包括:
L(β,λ,π;n1,n2)=Пig1ig2i BN(n1i|ni,p1i(g1i,g2i,λ,β)·P(g1i,g2i|π)
L(β,λ,π;n1,n2)是在给定参数β和π的情况下,观察等位基因1和2的等位基因计数矢量n1至n2的似然度;p1i(g1i,g2i,λ,β)是概率参数,将其看作表3的p1′,指示基于两个贡献者基因型(g1i,g2i)的基因座i处等位基因1的概率;以及P(g1i,g2i|π)是在给定群体等位基因频率(π)的情况下观察两个贡献者基因型的先验联合概率。
在一些实施方式中,使用满足哈迪-温伯格平衡的边缘分布P(g1i|π)和P(g2i|π)来计算先验联合概率。
在一些实施方式中,使用两个贡献者之间的遗传关系来计算先验联合概率。
在一些实施方式中,概率混合物模型考虑了由(a)中执行的提取核酸分子而导致的核酸分子副本数错误,以及由(c)中的测序操作而导致的读序计数错误。在一些实施方式中,概率混合物模型使用第二二项式分布来针对一个或多个多态性基因座处的等位基因对所提取的核酸分子的等位基因计数进行建模。在一些实施方式中,第二二项式分布表示如下:
n1i″~BN(ni″,p1i)
n1i″是基因座i处等位基因1的提取核酸分子的等位基因计数;ni″是基因座i处的总核酸分子计数;以及piu是概率参数,指示基因座i处等位基因1的概率。
在一些实施方式中,第一二项式分布以等位基因分数n1i″/ni″为条件。在一些实施方式中,第一二项式分布被如下重新参数化:
n1i~BN(ni,n1i″/ni″)
n1i是基因座i处等位基因1的核酸序列读序的等位基因计数;ni″是基因座i处的总核酸分子数,其等于总基因组副本数n″;ni是基因座i处的总读序计数;以及n1i″是基因座i处等位基因1的提取的核酸分子数。
在一些实施方式中,概率混合模型使用第一贝塔分布来近似n1i″/n″的分布。在一些实施方式中,第一贝塔分布具有与第二二项式分布的均值和方差匹配的均值和方差。在一些实施方式中,将基因座i建模为双等位基因,并且第一贝塔分布表示如下:
ni1″/n″~Beta((n″-1)p1i,(n″-1)p2i)
p1i是概率参数,指示基因座i处第一等位基因的概率;以及p2i是概率参数,指示基因座i处第二等位基因的概率。
在一些实施方式中,(f)包括组合对测序读序计数进行建模的第一二项式分布以及对提取的核酸分子数量进行建模的第一贝塔分布,以获得遵循第一贝塔-二项式分布的单基因座似然函数。在一些实施方式中,第一贝塔-二项式分布具有以下形式:n1i~BB(ni,(n″-1)·p1i,(n″-1)·p2i),或替代近似:n1i~BB(ni,n″·p1i,n″·p2i)。在一些实施方式中,多基因座似然函数包括:
L(β,n″,λ,π;n1,n2)=Πi[∑gi BB(n1i|ni,(n″-1)·p1i,(n”-1)·p2i)·P(gi|π)]
L(β,n″,λ,π;n1,n2)是观察所有基因座处等位基因1和2的等位基因计数矢量n1和n2的似然度,并且p1i=p(gi,λ,β),p2i=1-p1i
在一些实施方式中,贡献者包括两个贡献者,并且多基因座似然函数包括:
L(β,n″,λ,π;n1,n2)=
ig1ig2iBB(n1i,n2i|ni,(n″-1)·p1i(g1i,g2i,λ,β),(n″-1)·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)。
L(β,n″,λ,π;n1,n2)是给定参数β,n″,λ和π的情况下,观察所有基因座的第一等位基因的等位基因计数矢量(n1)和所有基因座的第二等位基因的等位基因计数矢量(n2)的似然度;p1i(g1i,g2i,λ,β)是概率参数,将其看作表3的p1′,指示基于两个贡献者基因型(g1i,g2i)的基因座i处等位基因1的概率;p2i(g1i,g2i,λ,β)是概率参数,将其看作表3的p2′,指示基于两个贡献者基因型(g1i,g2i)的基因座i处等位基因2的概率;以及P(g1i,g2i|n)是在给定群体等位基因频率(π)的情况下,观察基因座i处第一等位基因的第一贡献者基因型(g1i)和第一等位基因的第二贡献者基因型(g2i)的先验联合概率。
在一些实施方式中,(f)包括从大量提取的核酸分子中估计提取的总基因组副本数n″。在一些实施方式中,根据所提取的核酸分子的片段大小来调节所估计的提取的总基因组副本数n″。
在一些实施方式中,概率混合物模型考虑了由(b)中执行的扩增核酸分子而导致的核酸分子数错误,以及由(c)中的测序操作而导致的读序计数错误。在一些实施方式中,对(b)的扩增过程进行如下建模:
xt+1=xt+yt+1
xt+1是扩增的循环t+1后给定等位基因的核酸副本;xt是扩增的循环t后给定等位基因的核酸副本;yt+1是在循环t+1生成的新副本,并且它遵循二项式分布yt+1~BN(xt,rt+1);以及rt+1是循环t+1的扩增率。
在一些实施方式中,概率混合物模型使用第二贝塔分布来针对一个或多个多态性基因座处的等位基因对所扩增的核酸分子的等位基因分数进行建模。
在一些实施方式中,基因座i是双等位基因,并且第二贝塔分布表示如下:
n1i′/(n1i′+n2i′)~Beta(n″·ρi·p1i,n″·ρi·p2i)
n1i′是基因座i处第一等位基因的扩增核酸分子的等位基因计数;n2i′是基因座i处第二等位基因的扩增核酸分子的等位基因计数;n″是任何基因座处的总核酸分子计数;ρi是与平均扩增率r相关的常数;p1i是基因座i处第一等位基因的概率;以及p2i是基因座i处第二等位基因的概率。在一些实施方式中,ρi为(1+r)/(1-r)/[1-(1+r)-t],并且r为每循环的平均扩增率。在一些实施方式中,ρi近似为(1+r)/(1-r)。
在一些实施方式中,(f)包括组合第一二项式分布和第二贝塔分布,以获得遵循第二贝塔-二项式分布的n1i的单基因座似然函数。在一些实施方式中,第二贝塔-二项式分布具有以下形式:
n1i~BB(ni,n″·ρi·p1i,n″·ρi·p2i)
n1i是基因座i处第一等位基因的核酸序列读序的等位基因计数;p1i是概率参数,指示基因座i处第一等位基因的概率;以及p2i是概率参数,指示基因座i处第二等位基因的概率。
在一些实施方式中,(f)包括,通过假设一个或多个多态性基因座具有相同的扩增率,将第二贝塔-二项式分布重新参数化为:n1i~BB(ni,n″·(1+r)/(1-r)·p1i,n″·(1+r)/(1-r)·p2i),其中r是扩增率。在一些实施方式中,多基因座似然函数包括:
L(β,n″,r,λ,π;n1,n2)=Πi[∑giBB(n1i|ni,n″·(1+r)/(1-r)·p1i,n″·(1+r)/(1-r)·p2i)·P(gi|π)]
在一些实施方式中,贡献者包括两个贡献者,并且多基因座似然函数包括:
L(β,n″,r,λ,π;n1,n2)=
Πig1ig2i[BB(n1i|ni,n″·(1+r)/(1-r)·p1i(g1i,g2i,λ,β),n″·(1+r)/(1-r)·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)]
L(β,n″,r,λ,π;n1,n2)是给定参数β,n″,r,λ和π的情况下,观察所有基因座的第一等位基因的等位基因计数矢量(n1)和所有基因座的第二等位基因的等位基因计数矢量(n2)的似然度。
在一些实施方式中,(f)包括通过将每个多态性基因座的相对扩增率定义为与基因座的总读序成比例,将第二贝塔-二项式分布重新参数化为:
n1i~BB(ni,c′·ni·p1i,c′·ni·p2i)
c′是要优化的参数;以及ni是基因座i处的总读序。
在一些实施方式中,多基因座似然函数包括:
L(β,n″,c′,λ,π;n1,n2)=Πi[∑giBB(n1i|ni,c′·ni·p1i,c′·ni·p2i)·P(gi|π)]
在一些实施方式中,概率混合物模型考虑了由(a)中执行的提取核酸分子和(b)中执行的扩增核酸分子而导致的核酸分子数错误,以及由(c)中测序操作导致的读序计数错误。在一些实施方式中,概率混合物模型使用第三贝塔分布来针对一个或多个多态性基因座处的等位基因,对所扩增的核酸分子的等位基因分数进行建模,考虑了由(a)中执行的提取核酸分子和(b)中执行的扩增核酸分子而导致的采样错误。在一些实施方式中,基因座i是双等位基因,并且第三贝塔分布具有以下形式:
n1i/(n1i′+n2i′)~Beta(n″·(1+ri)/2·p1i,n″·(1+ri)/2·p2i)
n1i′是基因座i处第一等位基因的扩增核酸分子的等位基因计数;n2i′是基因座i处第二等位基因的扩增核酸分子的等位基因计数;n″是总核酸分子计数;ri是基因座i的平均扩增率;p1i是基因座i处第一等位基因的概率;以及p2i是基因座i处第二等位基因的概率。在一些实施方式中,(f)包括组合第一二项式分布和第三贝塔分布,以获得遵循第三贝塔-二项式分布的n1i的单基因座似然函数。
在一些实施方式中,第三贝塔-二项式分布具有以下形式:
n1i~BB(ni,n″·(1+ri)/2·p1i,n″·(1+ri)/2·p2i)
ri是扩增率。
在一些实施方式中,多基因座似然函数包括:
L(β,n″,r,λ,π;n1,n2)=
Πi[Σgi BB(n1i|ni,n″·(1+r)/2·p1i,n″·(1+r)/2·p2i)·P(gi|π)]。
在一些实施方式中,贡献者包括两个贡献者,并且其中多基因座似然函数包括:
L(β,n″,r,λ,π;n1,n2)=Πig1ig2i BB(n1i|ni,n″·(1+r)/2·p1i(g1i,g2i,λ,β),n″·(1+r)/2·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)
L(n1,n2|β,n″,r,λ,π)是给定参数β,n″,r,λ和π的情况下,观察第一等位基因矢量的等位基因计数n1和第二等位基因矢量的等位基因计数n2
在一些实施方式中,该方法进一步包括:(g)使用应用数值微分的对数似然的海赛矩阵估计一个或多个贡献者的核酸的一个或多个分数的一个或多个置信区间。
在一些实施方式中,(d)的映射包括通过一个或多个处理器使用计算机哈希和计算机动态编程来识别与多个无偏倚目标序列的任何序列匹配的核酸序列读序中的读序,其中,多个无偏倚目标序列包括参考序列的子序列以及与子序列的区别在于单个核苷酸的序列。在一些实施方式中,多个无偏倚目标序列包括五类序列,其涵盖了多个多态性位点中的每个多态性位点:(i)作为参考序列的子序列的参考目标序列,该参考目标序列具有在多态性位点处有参考核苷酸的参考等位基因;(ii)各自具有在多态性位点处有替代核苷酸的替代等位基因的替代目标序列,该替代核苷酸不同于参考核苷酸;(iii)突变的参考目标序列,其包括所有可能的序列,每个可能的序列与参考目标序列的区别仅在于作为非多态性位点的位点处的一个核苷酸;(iv)突变的替代目标序列,其包括所有可能的序列,每个可能的序列与替代目标序列的区别仅在于作为非多态性位点的位点处的一个核苷酸;以及(v)意外的等位基因目标序列,每个序列具有与参考等位基因和替代等位基因不同的意外的等位基因,并且每个序列具有与先前的四个类别的序列不同的序列。
在一些实施方式中,该方法进一步包括基于观察(v)的意外等位基因目标序列的频率来估计变体位点处的测序错误率λ。在一些实施方式中,(e)包括使用所识别的读序及其匹配的无偏倚目标序列来确定在一个或多个多态性基因座处的等位基因的核酸序列读序的等位基因计数。在一些实施方式中,多个无偏倚目标序列包括被截短以具有与核酸序列读序的相同长度的序列。在一些实施方式中,多个无偏倚目标序列包括存储在一个或多个哈希表中的序列,并且使用哈希表来识别读序。
所公开的实施方案还提供一种计算机程序产品,该计算机程序产品包括非暂态计算机可读介质,在其上提供了用于执行在此所述的所叙述的操作和其它计算操作的程序指令。
一些实施方案提供了一种用于对核酸混合物样品中的贡献者的核酸分数进行定量的系统,该核酸混合物样品包括贡献者和至少一个其他贡献者的核酸。该系统包括:测序仪,用于从测试样品接收核酸,提供来自样品的核酸序列信息;处理器;以及一种或多种计算机可读存储介质,其上存储有用于在处理器上执行以使用在此所述方法对DNA混合物样品进行解卷积和定量的指令。
本公开的另一方面提供了一种对核酸样品进行定量的系统,该核酸样品包含一个或多个贡献者的核酸。该系统包括:(a)测序仪,其被配置为(i)接收从核酸样品提取的核酸分子,(ii)扩增所提取的核酸分子,以及(iii)在产生核酸序列读序的条件下对所扩增的核酸分子进行测序;以及(b)计算机,其包括一个或多个处理器,该处理器被配置为:将核酸序列读序映射到参考序列上的一个或多个多态性基因座;使用所映射的核酸序列读序,确定在一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数;以及使用概率混合模型,对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量。使用概率混合物模型包括将概率混合物模型应用于核酸序列读序的等位基因计数,以及概率混合物模型使用概率分布对一个或多个多态性基因座处的核酸序列读序的等位基因计数进行建模,该概率分布考虑了核酸序列读序中的错误。
在一些实施方式中,该系统包括用于从核酸样品提取核酸分子的工具。在一些实施方式中,概率分布包括如下的第一二项式分布:
n1i~BN(ni,p1i)
n1i是基因座i处等位基因1的核酸序列读序的等位基因计数;ni是基因座i处的总读序计数,其等于总基因组副本数n″;以及p1i是指示基因座i处等位基因1的概率的概率参数。
本公开的另一方面提供了一种计算机程序产品,其包括存储程序代码的非暂态机器可读介质,该程序代码在由计算机系统的一个或多个处理器执行时使计算机系统实现对包含一个或多个贡献者的核酸的核酸样品进行定量的方法,所述程序代码包括:用于将核酸序列读序映射到参考序列上的一个或多个多态性基因座的代码;用于使用所映射的核酸序列读序,确定在一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数的代码;以及用于使用概率混合模型,对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量的代码。使用概率混合物模型包括将概率混合物模型应用于核酸序列读序的等位基因计数,以及概率混合物模型使用概率分布对一个或多个多态性基因座处的核酸序列读序的等位基因计数进行建模,该概率分布考虑了核酸序列读序中的错误。
本公开的另一方面提供了一种在包括一个或多个处理器和系统存储器的计算机系统处实现的对包含一个或多个贡献者的核酸的核酸样品进行定量的方法。该方法包括:(a)由一个或多个处理器接收从核酸样品获得的核酸序列读序;(b)由一个或多个处理器使用计算机哈希和计算机动态编程,将核酸序列读序映射到参考序列上的一个或多个多态性基因座;(c)使用所映射的核酸序列读序并由一个或多个处理器确定在一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数;以及(d)使用概率混合物模型并由一个或多个处理器对核酸样品中一个或多个贡献者的核酸的一个或多个分数以及所述分数的置信度进行定量。使用概率混合物模型包括将概率混合物模型应用于核酸序列读序的等位基因计数。概率混合物模型使用概率分布来对一个或多个多态性基因座处的核酸序列读序的等位基因计数进行建模,该概率分布考虑了所映射的核酸序列读序中的错误。定量采用(i)结合多迭代网格搜索和BFGS-拟牛顿法或迭代加权线性回归的计算机优化方法,以及(ii)数值微分方法。
尽管在此的示例涉及人类,并且该语言主要针对人类,但是在此所述的概念适用于来自任何植物或动物的基因组。根据以下描述和所附权利要求书,本公开的这些和其它目的和特征将变得更加完全明显,或者可以通过以下所述的本公开的实践来获知。
通过引用并入本文
在此所引用的所有专利、专利申请和其它出版物,包括这些参考文献中公开的所有序列,均以引用的方式明确地并入在此,其程度就好像每个单独的出版物、专利或专利申请被具体地和单独地指明了一样以供参考。为了在此引用文献的上下文所指示的目的,所有引用的文献在相关部分均通过引用全部并入在此。然而,任何文献的引用均不应被解释为承认其是相对于本公开的现有技术。
附图简述
图1A-1C示出了设计用于贡献者DNA定量的方法和统计模型的概述。
图2A示出了框图,该框图示出了用于对核酸样品中一个或多个贡献者的核酸(例如,DNA或RNA)的一个或多个分数进行定量的过程。
图2B示出了说明概率混合物模型的各个组成部分的框图。
图2C示意性地说明了将一个等位基因转换为另一等位基因并将真正等位基因转换为意外等位基因的测序错误。
图3示出了说明用于评估包含一个或多个贡献者的核酸的核酸样品的过程的框图。
图4示出了根据某些实施方案的可以用作计算装置的典型计算机系统的框图。
图5示出了用于从测试样品产生呼叫(call)或诊断的分散系统的一种实施方式。
图6示出了用于在不同位置处执行一些实施方式的各种操作的选项。
图7示出了在cfDNA长度参数的不同选择下所公开的和基准方法各自的性能。
图8示出了另一种格式的一些实施方式的分析准确性。
图9示出了对于一些实施方式的用于确定定量限(LOQ)的16种条件的变异系数(CV)。
具体实施方式
定义
除非另有说明,否则在此公开的方法和系统的实践涉及本领域技术范围内分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序以及重组DNA领域常用的常规技术和装置。此类技术和装置是本领域技术人员已知的,并且在许多教科书和参考著作中进行了描述(参见,例如,Sambrook等人,“分子克隆:实验室手册”(“Molecular Cloning:ALaboratory Manual”),第三版(冷泉港),[2001年);以及Ausubel等人,“分子生物学的当前方案”(Current Protocols in Molecular Biology)[1987年])。
数字范围包括定义范围的数字。贯穿本说明书给出的每个最大数值限制旨在包括每个较低的数值限制,就像此类较低的数值限制在此明确写出一样。贯穿本说明书给出的每个最小数值限制将包括每个更高的数值限制,就像此类较高的数值限制在此明确写出一样。贯穿本说明书给出的每个数值范围将包括落入此类较宽数值范围内的每个较窄数值范围,就像此类较窄数值范围均在此明确写出一样。
在此本文提供的标题无意限制本公开。
除非在此另有定义,否则在此使用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同含义。包括在此包括的术语的各种科学词典是本领域技术人员众所周知的并且可得到的。尽管与在此描述的那些方法或材料相似或等同的任何方法和材料都可用于在此公开的实施方案的实践或测试中,但是描述了一些方法和材料。
通过参考整个说明书更全面地描述了下面立即定义的术语。应当理解,本公开不限于所描述的特定方法、方案和试剂,因为这些可以变化,这取决于本领域技术人员所使用的上下文。如在此所使用的,单数术语“一”、“一个”和“该”包括复数引用,除非上下文另外明确指出。
除非另有说明,否则分别以5′至3′的方向从左至右书写核酸,并以氨基至羧基的取向从左至右书写氨基酸序列。
术语“嵌合样品”在此用于指被认为包含两个或更多个基因组的DNA的样品。嵌合分析在此用于指嵌合样品的生物和化学处理和/或嵌合样品中两种或更多种生物的核酸的定量。在一些实施方式中,嵌合分析还确定了两种或更多种生物的基因组的一些或全部序列信息。
术语供者DNA(dDNA)是指源自移植供者细胞的DNA分子。在各种实施方式中,dDNA存在于从受赠者获得的样品中,该受赠者接受了来自供者的移植组织/器官。
循环的无细胞DNA或简单的无细胞DNA(cfDNA)是DNA片段,其不被限制在细胞内并且在血液或其它体液中自由循环。众所周知,cfDNA具有不同的来源,在一些情况下是来自在受赠者血液中循环的供者组织DNA,在一些情况下是来自肿瘤细胞或受肿瘤影响的细胞,在其它情况下是来自母体血液中循环的胎儿DNA。通常,cfDNA是片段化的,并且仅包括基因组的一小部分,其可能与从其获得cfDNA的个体的基因组不同。
术语非循环基因组DNA(gDNA)或细胞DNA用于指被限制在细胞中并且通常包括完整基因组的DNA分子。
术语“等位基因计数”是指特定等位基因的序列读序的计数或数量。在一些实施方式中,可以通过将读序映射到参考基因组中的位置,并对包括等位基因序列并被映射到参考基因组的读序进行计数来确定。
贝塔分布是在区间[0,1]上定义的连续概率分布家族,该区间由两个正的形状参数(例如,以α和β表示)参数化,它们以随机变量的指数形式出现并控制分布的形状。贝塔分布已被应用在各种学科中对限于有限长度区间的随机变量的行为进行建模。在贝叶斯推断中,贝塔分布是伯努利、二项式、负二项式和几何分布的共轭先验概率分布。例如,可以在贝叶斯分析中使用贝塔分布来描述有关成功概率的初始知识。如果随机变量X遵循贝塔分布,则将随机变量X写为X~贝塔(α,β)。
二项式分布是在n个独立实验的序列中成功次数的离散概率分布,每个实验都询问是非问答,并且每个实验都有自己的布尔值结果:包含单个信息位的随机变量:正(概率为p)或负(概率为q=1-p)。对于单项试验,即n=1,二项式分布是伯努利分布。二项式分布通常用于对从大小为N的群体中替换得出的大小为n的样品的成功次数进行建模。如果随机变量X遵循参数
Figure BDA0002328255050000172
和p∈[0,1]的二项式分布,则随机变量X写为X~B(n,p)。
泊松分布,在此表示为Pois(),是离散概率分布,其表示如果这些事件以已知的平均速率发生并且与自上次事件以来的时间无关,则在给定数量的事件在固定的时间和/或空间区间内发生的概率。泊松分布还可以用于其它指定区间(诸如距离、面积或体积)中的多个事件。根据泊松分布,在区间中观察到k个事件的概率由以下方程给出:
Figure BDA0002328255050000171
其中λ是区间中事件的平均数量或事件率,也称为率参数e为2.71828、欧拉数或自然对数的底数,k取值为0、1、2,...并且k!是k的阶乘。
伽马分布是连续概率分布的两参数家族。共有三种常用的不同参数设置:形状参数k和比例参数θ;形状参数α=k,并且逆比例参数β=1/θ,称为率参数;或形状参数k和均值参数μ=k/β。在这三种形式的每一种形式中,两个参数均为正实数。伽马分布是随机变量X的最大熵概率分布,对于该变量,E[X]=kθ=α/β是固定的并且大于零,并且E[ln(X)]=ψ(k)+In(θ)=ψ(α)-ln(β)是固定的(ψ是digamma函数)。
多态性和遗传多态性在此可互换使用,是指在一个基因组基因座处两个或更多个等位基因在同一群体中的出现,每个等位基因具有明显的频率。
多态性位点和多态位点在此可互换使用,是指基因组上两个或更多个等位基因所在的基因座。在一些实施方式中,其用于指具有不同碱基的两个等位基因的单个核苷酸变异。
等位基因频率或基因频率是相对于基因的其它等位基因的基因(或基因的变体)的等位基因的频率,其可以表示为小数或百分数。等位基因频率通常与特定的基因组基因座相关联,因为基因通常位于一个或多个基因座处。然而,如在此使用的等位基因频率也可以与DNA片段的基于大小的片段(size-based bin)相关联。在该意义上,将包含等位基因的DNA片段(诸如cfDNA)分配给不同的基于大小的片段。相对于其它等位基因的频率,基于大小的片段中等位基因的频率是等位基因频率。
术语“参数”在此是指表征诸如物理特征的系统的属性的数值,该物理特征的值或其它特性会影响诸如样品或DNA片段的相关条件。在一些情况下,术语“参数”参考影响数学关系或模型输出的变量使用,该变量可以是自变量(即模型的输入)或基于一个或多个自变量的中间变量。取决于模型的范围,一个模型的输出可能成为另一模型的输入,从而成为另一模型的参数。
术语“多个”是指多于一个的元素。
术语“配对末端的读序”是指来自配对末端测序的读序,其从核酸片段的每个末端获得一个读序。配对末端测序可涉及将多核苷酸链片段化为称为插入物的短序列。对于较短的多核苷酸,诸如无细胞的DNA分子,片段化是可选的或不必要的。
术语“多核苷酸”、“核酸”和“核酸分子”可互换使用,并且是指核苷酸的共价连接序列(即,RNA的核糖核苷酸和DNA的脱氧核糖核苷酸),其中一个核苷酸的戊糖的3′位置通过磷酸二酯基连接到另一个核苷酸的戊糖的5′位置。核苷酸包括任何形式的核酸的序列,包括但不限于RNA和DNA分子,诸如cfDNA或细胞DNA分子。术语“多核苷酸”包括但不限于单链和双链多核苷酸。
在此的术语“测试样品”是指通常衍生自生物液体、细胞、组织、器官或生物的样品,其包含核酸或核酸混合物。此类样品包括但不限于痰液/口腔液、羊水、血液、血液成分或细针穿刺活组织检查样品(例如,外科活组织检查、细针穿刺活组织检查等)、尿液、腹膜液、胸膜液等。尽管样品通常取自人类受试者(例如患者),但该测定法可用于任何哺乳动物的样品,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可以直接从生物来源获得,或也可以经过预处理以改变样品的特性。例如,此类预处理可以包括从血液中制备血浆,稀释粘性液体等。预处理方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、试剂添加、裂解等。如果对样品采用此类预处理方法,则此类预处理方法通常应使感兴趣的核酸保留在测试样品中,有时其浓度与未处理的测试样品(例如,即,没有经过任何此类预处理方法的样品)中的浓度成比例。关于在此所述的方法,此类“处理的”或“加工的”样品仍被认为是生物学的“测试”样品。
术语“下一代测序(NGS)”在此是指允许克隆扩增的分子和单个核酸分子的大规模并行测序的测序方法。NGS的非限制性示例包括使用可逆染料终止子的合成测序和连接测序。
术语“读序”是指从核酸样品的一部分获得的序列。通常,虽然不是必需的,但读序代表样品中连续碱基对的短序列。该读序可以由样品部分的碱基对序列(以A、T、C或G表示)象征性地表示。可以将其存储在存储器设备中,并进行适当的处理以确定它是否与参考序列匹配或满足其它标准。可以直接从测序装置获得读序,或从与样品有关的存储序列信息间接获得读序。在一些情况下,读序是具有足够长度(例如,至少约25bp)的DNA序列,该足够长度可用于识别例如可比对并特异性分配给染色体或基因组区域或基因的更大的序列或区域。
术语“基因组读序”用于指个体的整个基因组中任何片段的读序。
如在此所使用的,术语“比对的”、“比对”或“已比对”是指将读序或标签与参考序列进行比较并且从而确定参考序列是否包含读序序列的过程。如果参考序列包含读序,则该读序可以被映射到参考序列,或者在某些实施方案中,被映射到参考序列中的特定位置。在一些情况下,比对只是表明读序是否为特定参考序列的成员(即,读序在参考序列中存在还是不存在)。例如,读序与人类13号染色体参考序列的比对将表明该读序是否存在于13号染色体的参考序列中。提供该信息的工具可以称为集合成员资格测试器。在一些情况下,比对另外指示在读序或标签所映射的参考序列中的位置。例如,如果参考序列是全长人基因组序列,则比对可以指示读序存在于13号染色体上,并且可以进一步指示该读序在13号染色体的特定链和/或位点上。
比对的读序或标签是一个或多个序列,其根据它们的核酸分子与参考基因组中已知序列的顺序,被鉴定为匹配。尽管通常通过计算机程序来实现,但是可以手动进行比对,因为不可能在合理的时间段内对读序进行比对以实现在此公开的方法。来自比对序列的程序的一个示例是作为Illumina基因组学分析流水线的一部分分发的核苷酸数据的高效局部比对(ELAND)计算机程序。可替代地,可以使用布隆过滤器或类似的集合成员资格测试器来使读序与参考基因组比对。参见2011年10月27日提交的美国专利申请号61/552,374,其通过引用整体并入在此作为参考。比对中的序列读序的匹配可以是100%序列匹配或小于100%(非完美匹配)。
在此使用的术语“映射”是指使用比对或成员资格分配来将序列读序特异性地分配给较大序列,例如参考基因组,该较大序列的子序列。
如在此所使用的,术语“参考基因组”或“参考序列”是指可用于参考来自受试者的已识别序列的任何生物体或病毒的任何特定的已知基因组序列,无论是部分的还是完整的。例如,在国家生物技术信息中心(ncbi.nlm.nih.gov)上可以找到用于人类受试者以及许多其它生物体的参考基因组。“基因组”是指以核酸序列表达的生物或病毒的完整遗传信息。
在多个实施方案中,参考序列显著大于与之比对的读序。例如,它可以大至少约100倍,或大至少约1000倍,或大至少约10000倍,或大至少约105倍,或大至少约106倍,或大至少约107倍。
在一个示例中,参考序列是全长人类基因组的序列。此类序列可以被称为基因组参考序列。在另一个示例中,参考序列限于特定的人类染色体,诸如13号染色体。在一些实施方案中,参考Y染色体是来自人类基因组版本hg19的Y染色体序列。此类序列可以被称为染色体参考序列。参考序列的其它示例包括其它物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。
在多个实施方案中,参考序列是共有序列或衍生自多个个体的其它组合。但是,在某些应用中,参考序列可以取自特定个体。
当在核酸或核酸混合物的上下文中使用时,术语“衍生的”在此是指从其源自的来源获得核酸的方式。例如,在一个实施方案中,源自两个不同基因组的核酸的混合物是指核酸,例如cfDNA,其是由细胞通过天然存在的过程(诸如坏死或凋亡)而自然释放的。在另一个实施方案中,源自两个不同基因组的核酸的混合物是指核酸从受试者的两种不同类型的细胞中提取。例如,核酸混合物包括源自供者细胞和从器官移植对象获得的受赠者细胞的核酸。在一些实施方式中,核酸混合物包含两个或更多个贡献者个体的生物材料。例如,包括两个或更多个个体的生物材料的法医样品包括两个或更多个个体的DNA。
当在获得特定定量值的上下文中使用时,术语“基于”在此是指使用另一数量作为输入以计算特定定量值作为输出。
术语“生物液体”在此是指取自生物来源的液体,并且包括例如血液、血清、血浆、痰液、灌洗液、脑脊髓液、尿液、精液,汗液、泪液、唾液等。如在此所使用的,术语“血液”、“血浆”和“血清”明确涵盖其级分或处理部分。类似地,当从活组织检查、拭子、涂片等中获取样品时,“样品”明确涵盖了从活组织检查、拭子、涂片等中得到的处理过的级分或部分。
如在此所使用的,术语“对应于”有时是指存在于不同受试者的基因组中的核酸序列,例如基因或染色体,并且不一定在全部基因组中具有相同的序列,但是用于提供感兴趣序列(例如基因或染色体)的身份而非遗传信息。
在此的术语“贡献者”是指人类贡献者以及非人类贡献者,诸如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌和病毒。尽管在此的示例涉及人类,并且该语言主要针对人类,但是在此公开的概念适用于来自任何植物或动物的基因组,并且可用于兽医、动物科学、研究实验室等领域。
如在此所使用的,术语“敏感性”是指当存在目的疾病时测试结果为阳性的概率。可以将其计算为真阳性的数量除以真阳性和假阴性之和。
如在此所使用的,术语“特异性”是指当不存在目的疾病时测试结果为阴性的概率。可以将其计算为真阴性的数量除以真阴性和假阳性之和。
如在此所使用的,术语“引物”是指如下分离的寡核苷酸,当置于诱导延伸产物合成的条件(例如,条件包括核苷酸、诱导剂(诸如DNA聚合酶)以及合适的温度和pH)下时,该分离的寡核苷酸能够充当合成起始点。为了最大的扩增效率,引物优选是单链的,但是可以可替代地是双链的。如果是双链的,则在用于制备延伸产物之前,首先对引物进行处理以分离其链。优选地,引物是寡脱氧核糖核苷酸。引物必须足够长以在诱导剂存在下引发延伸产物的合成。引物的确切长度将取决于许多因素,包括温度、引物来源、方法的使用以及用于引物设计的参数。
介绍
本公开提供了用于对包括两种或多种未知基因型贡献者的核酸的核酸混合物样品进行定量和解卷积的方法和系统,从而提供了多种优点和技术改进。例如,一些实施方式应用概率混合物建模、贝叶斯推断技术和数值优化方法来对混合物中的贡献者DNA进行定量,而无需了解贡献者的基因型。
在研究以及临床环境中经常发现来自紧密相关基因组的核酸(例如,DNA或RNA)混合物的测序数据,并且当原始基因组未知时,对混合贡献者进行定量一直是挑战。
嵌合分析的常规方法(仅适用于骨髓和血液干细胞移植)利用短串联重复序列(STR)或小的插入和缺失(Indels)的毛细管电泳(CE)片段分析或定量聚合酶链反应(qPCR)分析)。这些方法倾向于具有定量、动态范围或重现性的较差限制。它们具有有限数量的目标,复杂的工作流程,以及耗时和不准确的用于分析的人工输入。常规方法倾向于包括这些不同的度量。CE方法具有范围为1%-5%的LOQ,并且遭受低再现性。这些限制在临床使用中可能很重要。例如,99%的实际嵌合结果将报告为100%。qPCR方法可以实现0.1%的低LOQ,但需要66ng或更多的嵌合DNA,而不考虑纯基准样品所需的DNA。对于实体器官移植,66ng和10ng是常规cfDNA分析不可能的。此外,基于qPCR的嵌合现象的动态范围会受到影响,并且当次要贡献者大于30%时,嵌合预测是不可靠的。
鉴于高输入DNA要求,CE和qPCR方法仅适用于骨髓或血液干细胞移植。两种方法都不能用于实体器官移植监视,因为来自通常的取血中的cfDNA量远少于10ng。另外,即使相同的量,cfDNA作为PCR模板也不如gDNA有效。
除了对DNA的高输入要求外,CE和qPCR方法二者都需要纯的移植前基准样品。它们还与复杂的测定法相关联,并且需要在定量之前选择合适的标记物进行人工干预。
除了这些之外,在嵌合定量中,我们的方法有系统地解决了两个基本挑战,而现有方法却行不通。
第一个挑战是定量具有两个以上贡献者的嵌合样品,其对应于用于多于一个的供者的移植。多供者移植在骨髓和血液干细胞移植中很常见。它也发生在实体器官移植中,例如,先前肾脏衰竭后的第二次肾脏移植,或当实体器官移植与其他供者的输血同时发生时。
第二个挑战是当贡献者之一未知时定量嵌合样品。这在临床环境中经常发生,例如1)当供者基因组不可获得时;2)在多供者病例中,当旧器官的供者基因组不可获得时;或3)当实体器官移植接受者也接受了来自未知供者的输血时。
尽管常规方法不能解决这些挑战,但是当存在未知的供者时,在此公开的方法可以准确地定量嵌合样品。当只有一个供者时,使用公开的方法既不需要供者基因也不需要接受者基因组。此外,所公开的方法可以在任意数量的供者时工作。一些经验研究已经验证了所公开方法对4个供者的性能,并且在10ng总gDNA输入时,达到小于0.35%的LOQ。
在一些实施方式中,所公开的方法在低至3ng cfDNA输入的情况下达到0.1%至0.2%的LOQ,并实现0.1%至99.9%的宽动态范围。尽管知道基准可以提高性能,但一些实施方式不需要知道基准基因组。所公开的方法可以在任意数量的供者的嵌合样品时工作,并且已经通过实验验证了具有0-4个供者的样品,其几乎涵盖了实体器官移植、骨髓移植和造血干细胞移植的所有临床相关病例。另外,所公开的方法在选择遗传标记时不需要任何人工干预,从而允许核酸定量的数字化和自动化。
一些实施方式提供了用于从血液cfDNA或gDNA样品的多标记靶向重测序数据中定量贡献者DNA的方法和系统。一些实施方式提供了使用新颖的概率模型和数值优化方法从血液cfDNA或gDNA样品的多标记靶向测序数据中定量贡献者DNA的方法和系统。一些实施方式提供了用于使用具有编码遗传关系的先验分布的贝叶斯模型来对未知基因型的遗传相关供者和接受者的贡献者DNA进行定量的方法和系统。通过使用遗传关系信息在贝叶斯框架中提供先验信息,与不使用遗传关系信息的方法相比,可以改善DNA混合物的定量。
一些实施方式提供了用于通过从对数似然函数的估计的海赛(Hessian)矩阵中数值计算Cramer-Rao界来估计DNA定量的置信区间的方法和系统。
短测序读序映射中的等位基因偏倚混淆了DNA定量。在一些实施方式中,我们通过跨变体位点的读序的无偏倚映射策略来减少混淆的影响。
即使完全不知道贡献的基因组的基因型,在此所述的实施方式也可以准确地估计贡献者DNA分数。PCR扩增后标志位点的等位基因分数可以用贝塔分布可靠地建模。
使用包含参考等位基因和替代等位基因(alternate allele)的无偏倚参考DNA序列数据库,可以去除对参考等位基因的读序映射偏倚,并可靠地估计变体位点处的等位基因计数和测序错误。
在此描述的实施方式可以用混合物DNA样品的单次测序运行来估计预测的贡献者DNA分数的置信区间。
形式上,贡献者DNA定量(CDQ)问题如下:给定包含一个或多个贡献者的DNA样品的测序数据,确定样品中每个贡献者的分数。当贡献者基因组的基因型未知时,CDQ问题被称为盲贡献者DNA定量(盲CDQ);相反的被称为非盲CDQ。关于一些实施方式的一些描述将两个贡献者称为供者和接受者,但是它们不将所述方法的应用限制于器官捐赠环境。在下面关于一些实施方式的一些描述中,贡献者等效于供者,而另一贡献者等效于受赠者。
与非盲CDQ相比,盲CDQ是一个更困难的问题,但是它可广泛应用于仅可对混合物样品进行单个测序实验而非盲CDQ需要事先进行测序实验才能确定贡献者(例如器官供者和接受者)的基因型的所有场景。
本文件中描述的计算方法解决了具有单个、两个或更多个贡献者的盲CDQ和非盲CDQ问题。
图1A-1C示出了设计用于贡献者DNA定量的方法和统计模型的概述。图1A示出了用于基于同种异体DNA检测进行测序的实验流水线。图1B示出了用于等位基因计数的无偏倚读序映射工作流程。图1C示出了每标志基因座的等位基因计数的分层概率混合物模型。
一些实施方式应用如图1A所示的实验流水线。该通用实验流水线具有以下步骤。
1)获得包含来自多个遗传起源的DNA的血液或其它类型的样品。
2)取决于应用,提取适当类型的DNA,例如细胞DNA(也称为gDNA)或无细胞DNA(cfDNA)。
3)通过诸如PCR扩增或杂交的方法靶向和富集基因组的特定变异位点或多态性位点。预先选择变体位点以在人类(或另一目的生物)的不同种群中是可变的。可替代地,可以进行非靶向的(全基因组)测序,并且将覆盖所有变异位点。
4)通过NGS或其它DNA测序计数(诸如下面所述的一些技术)对DNA样品进行测序,以获得测序读序。
CDQ的计算方法具有三个主要组成部分:
1)等位基因计数:一种基于哈希和动态编程的计算机程序,用于对来自每个目标标志位点的每个等位基因的测序读序进行无偏倚计数(图1B),以及
2)贡献者DNA定量:分层概率模型和多迭代网格搜索策略与BFGS-准牛顿法的新型组合,或者在一些实施方式中,迭代加权线性回归,用于对贡献者DNA分数进行定量(图1C)。
3)确定置信区间(不确定地):在定量的混合物分数附近,基于信息不等式,基于对数似然函数的海赛矩阵来确定方差。
用于嵌合定量的这些组成部分的总数不可能由人类专家手动执行或在其头脑中执行。它们需要计算机,并且是计算机实现的技术。这些计算组成部分使所公开的方法能够实现无与伦比的定量敏感性、动态范围和可再现性。它们还使所公开的方法能够可靠地定量各种嵌合样品,包括cfDNA或gDNA,3-10ng或更多的输入DNA,0到4个或更多的供者以及具有已知或未知基因组的遗传相关或不相关的供者。
尽管一些实施方式在此仅解决“相对定量”,这意味着这些实施方式估计源自贡献者来源的DNA样品的百分比或分数,而不是绝对量(就质量或副本数而言)。如果已测量或已知输入DNA的总量,则可以采取另外的步骤将相对丰度转换为绝对丰度。
用于对核酸样品中贡献者分数进行定量的过程概述
图2A示出了用于对核酸样品中一个或多个贡献者的核酸(例如,DNA或RNA)的一个或多个分数进行定量的过程200的框图。该方法在包括一个或多个处理器和系统存储器的计算机系统上实现,诸如下面所述的系统。在一些实施方式和应用中,在此的描述是指DNA,但是本领域技术人员理解,也可以使用在此所述的实施方式来分析其它形式的核酸。在此所述的各种实施方式可用于分析包含来自一个或多个贡献者的核酸的核酸样品。在一些实施方式中,提供了对一个或多个贡献者的核酸的一个或多个分数进行定量的方法和系统。在此的一些描述中,核酸样品被称为混合物样品,因为样品可以包括来自多于两个的贡献者的核酸。然而,应理解,术语“混合物”的使用指示样品包含两个或更多个贡献者核酸的可能性,并且不排除样品仅包括单个贡献者核酸的可能性。在后一种情况下,可以为一个贡献者确定1的数或100%的百分比(或误差裕度(margin of error)内的值)。
在一些实施方式中,核酸样品的一个或多个贡献者包含移植的供者和移植的受赠者。在一些实施方式中,移植包括同种异体或异种移植。在一些实施方式中,核酸样品是从受赠者获得的生物样品。在一些实施方式中,核酸样品包括无细胞核酸。在一些实施方式中,样品包括细胞DNA。在一些实施方式中,核酸样品包含来自零个、一个或多个污染物基因组和一个目的基因组的核酸。在一些实施方式中,核酸样品包含获自细胞培养物的生物样品,在一些实施方式中,其可以是具有不同遗传起源的多个细胞系的混合物。
过程200涉及使用诸如在此所述的技术从核酸样品中提取核酸分子。参见框202。
过程200进一步包括扩增或富集提取的核酸分子。参见框204。可以使用各种扩增或富集技术,诸如在此所述的那些技术。在一些实施方式中,PCR用于扩增提取的核酸分子。在一些实施方式中,扩增以特定的多态性为目标,其扩增也称为靶向富集。在其它实施方式中,可以执行全基因组扩增,并且可以通过测序获得特定多态性位点的等位基因数据。
过程200还涉及使用核酸测序仪对扩增或富集的核酸分子进行测序以产生核酸序列读序。参见框206。在下面进一步描述了各种测序技术和设备,其可以在操作206中应用。
过程200进一步涉及将核酸序列读序映射到参考序列上的一个或多个多态性基因座。在一些实施方式中,可以使用比对技术将核酸序列读序映射到一个或多个多态性基因座。在其它实施方式中,可以使用无偏倚映射技术将核酸序列读序与多态性基因座匹配。参见框208。在一些实施方式中,将核酸序列读序映射到多态性基因座处的特定等位基因。在下面将进一步描述无偏倚映射技术。在一些实施方式中,一个或多个多态性基因座(或多态性基因座)包括双等位基因座。在一些实施方式中,一个或多个多态性基因座处的等位基因包含单核苷酸多态性(SNP)等位基因。
在一些实施方式中,独特的分子索引(UMI)附着于提取的核酸分子,然后对其进行扩增、测序并映射到多态性基因座或等位基因。独特的分子索引提供了减少样品处理和分析步骤中可能发生的错误的机制。例如,可以将共享同一独特的分子索引(UMI)的不同读序组合或重叠,以确定衍生出该读序的序列,从而有效消除了在扩增和测序期间发生的错误。
过程200进一步涉及使用核酸序列读序的方法确定在一个或多个多态性基因座处的等位基因的核酸序列读序的等位基因计数。参见框210。
过程200还涉及将概率混合物模型应用于核酸序列读序的等位基因计数。概率混合物模型使用概率分布来对一个或多个多态性基因座处的核酸序列读序的等位基因计数进行建模。概率分布考虑了核酸序列读序中的错误和噪声。概率混合物模型将核酸序列读序的每个等位基因计数视为来自概率分布的随机样品。
在下面的等式中,使用以下符号。
d:供者的指标,d=1,2...,D,其中D是供者的总数。D可以是任何自然数。在一些实施方式中,D为5或更小。在一些实施方式中,D为9或更小。
a:等位基因的指标。在一些实施方式中,等位基因包含双等位基因SNP,并且a=1或2。
i:标志基因座的指标,i=1...I,其中I是标志物的总数,例如300。
gdai:标志物i的贡献者d等位基因类型a的基因型。它取值为0,1或2,代表该贡献者中该基因座的等位基因a的副本数。
nai,nai′,nai′:等位基因类型a和标志基因座i的扩增后的DNA分子和扩增前的DNA分子的读序副本。
ni,ni′,ni″:用于标志基因座i的扩增后的核酸分子和扩增前的DNA分子的总读序副本。
rai:等位基因a和标志基因座i的读序计数的分数。
pai:在给定的标志基因座i处看到等位基因类型a的读序的概率。
注意,对于gdai,nai,nai′,nai″,ni,ni′,ni″,rai,和pai,当实施方式集中于单个基因座时,有时省略下标i。
βd:来自贡献者d的贡献给混合物样品的核酸分数。
λ:测序错误率。
粗体字母表示矢量或矩阵:
g=[gd1i]i=1...I,d=1...D:在所有贡献者和所有基因座中具有参考等位基因计数的基因型矩阵。
gi=[gd1i]d=1...D:具有所有贡献者和给定基因座i的参考等位基因计数的基因型矢量。
r=[r1i]i=1...I:具有每个基因座的等位基因1读序的分数的等位基因分数矢量。
n=[ni]i=1...I:具有每个基因座的读序计数的读序计数矢量。
p=[p1i]i=1...I:对于每个基因座具有预期等位基因1分数的矢量。
β=[βd]d=1...D.:贡献者分数矢量,具有对核酸样品有贡献的每个贡献者的相对分数。
在一些实施方式中,概率混合模型使用单基因座似然函数来对单个多态性基因座处的等位基因计数建模,该单基因座似然函数可以表示为:
M(n1i,n2i|p1i,θ),其中n1i是基因座i处等位基因1的等位基因计数,n2i是基因座i处等位基因2的等位基因计数,p1i是基因座i处等位基因1的预期分数,并且θ包括一个或多个模型参数。
在一些实施方式中,将p1i建模为以下的函数p(gi,λ,β):(i)基因座i的贡献者的基因型,或者gi=(g11i,...,gD1i),这是贡献者1...D中基因座i处等位基因1的副本数矢量;(ii)测序导致的读序计数错误或λ;以及(iii)核酸样品中贡献者的核酸分数,或β=(β1,...,βD),其中D是贡献者的数量。
在一些实施方式中,将p1i计算为p1i=p(gi,λ,β)←[(1-λ)gi+λ(2-gi)]/2·β,其中·是矢量点积算符。
在一些实施方式中,贡献者包括两个贡献者,并且p1i是使用下面所述的表3中的p1值获得的。
在一些实施方式(方法S)中,单基因座似然函数是包括第一二项式分布的概率分布。在一些实施方式中,第一二项式分布包括指示基因座处的总等位基因计数的数量参数和指示基因座处的第一等位基因的概率的概率参数。在一些实施方式中,第一二项式分布表示如下:
n1i~BN(ni,p1i)
其中n1i是基因座i处等位基因1的核酸序列读序的等位基因计数;ni是在基因座i处的总读序计数;以及p1i是概率参数,指示基因座i处等位基因1的概率。
在一些实施方式中,概率参数p是贡献者的核酸分数或β的函数。概率参数也是一个或多个贡献者的基因型g的函数。概率参数也是由206的测序操作导致的误差或λ的函数。在一些实施方式中,贡献者的零个、一个或多个基因型是未知的。在一些实施方式中,概率混合物模型包括如图2B中所示的各种概率分布。
返回图2A,过程200涉及使用概率混合物模型对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量。参见框214。在一些实施方式中,定量包括在基因型的多个可能组合上边缘化以列举概率参数p。在一些实施方式中,定量包括使用在根据概率混合物模型的参数条件化的操作210中确定的核酸序列读序的等位基因计数的多基因座似然函数来确定β,即,贡献者的核酸分数。
在一些实施方式中,定量包括使用多个潜在分数值和核酸序列读序的等位基因计数的多基因座似然函数来计算多个似然值。定量还涉及识别与作为多个似然值中的最大值的似然值相关联的潜在分数值。在一些实施方式中,针对多维度网格中的多个参数及其值获得多个似然值。定量还涉及以识别出的具有最大似然度的潜在分数值对核酸样品中贡献者的核酸分数进行定量。在一些实施方式中,多基因座似然函数包括针对一个或多个多态性基因座的多个边缘分布。
在一些实施方式中,具有已知、未知或部分已知的基因型的一个或多个贡献者的多基因座似然函数如下计算:
L(β,θ,λ,π;n1,n2)=Πi[∑giM(n1i,n2i|p(gi,λ,β),θ)·P(gi|π)]
其中L(β,θ,λ,π;n1,n2)是观察等位基因1和2的等位基因计数矢量n1和n2的似然度;p(gi,λ,β)是基于基因座i处贡献者基因型gi观察到基因座i处等位基因1的预期分数或概率;P(gi|π)是在给定群体等位基因频率(π)的情况下观察基因座i处基因型gi的先验概率;以及∑gi表示对要服从对一些或所有贡献者的已知基因型的约束的贡献者基因型的多种可能组合进行求和。
在一些实施方式中,使用满足哈迪-温伯格平衡的边缘分布P(g1i|π)和P(g2i|π)来计算先验联合概率。
在一些实施方式中,所有基因型都是已知的,并且使用代表贡献者的已知基因型组合的基因型矢量gi计算多基因座似然函数:L(β,θ,λ,π;n1,n2)=∏i[M(n1i,n2i|p(gi,λ,β),θ)·P(gi|π)]。
在一些实施方式中,概率混合物模型考虑了由202中执行的提取核酸分子而导致的核酸分子副本数错误,以及由206中的测序操作而导致的读序计数错误。
在一些实施方式中,概率混合物模型使用第二二项式分布来针对一个或多个多态性基因座处的等位基因对所提取的核酸分子的等位基因计数进行建模。在一些实施方式中,第二二项式分布表示如下:
n1i″~BN(ni″,p1i)
其中n1i″是基因座i处等位基因1的提取核酸分子的等位基因计数;ni″是基因座i处的总核酸分子计数,其等于总基因组副本数n″;以及p1i是概率参数,指示基因座i处等位基因1的概率。
在一些实施方式中,第一二项式分布以等位基因分数n1i″/ni″为条件。在一些实施方式中,将第一二项式分布重新参数化如下:
n1i~BN(ni,n1i″/ni″)
其中n1i是基因座i处等位基因1的核酸序列读序的等位基因计数。
在一些实施方式中,概率混合模型使用第一贝塔分布来近似n1i′/n″的分布。在一些实施方式中,第一贝塔分布具有与第二二项式分布的均值和方差匹配的均值和方差。
在一些实施方式中,基因座i被建模为双等位基因,并且第一贝塔分布表示如下:
n1i″/n″~Beta((n″-1)p1i,(n″-1)p2i)
其中p1i是概率参数,指示基因座i处第一等位基因的概率;以及p2i是概率参数,指示基因座i处第二等位基因的概率。
在一些实施方式中,该过程包括组合对测序读序计数进行建模的第一二项式分布以及对提取的核酸分子数量进行建模的第一贝塔分布,以获得遵循第一贝塔-二项式分布的单基因座似然函数。
在一些实施方式中,第一贝塔-二项式分布具有以下形式:
n1i~BB(ni,(n″-1)·p1i,(n″-1)·p2i),
或替代近似(alternative approximation):
n1i~BB(ni,n″·p1i,n″·p2i)。
在一些实施方式中,多基因座似然函数可表示为:
L(β,n″,λ,π;n1,n2)=Πi[∑gi BB(n1i|ni,(n″-1)·p1i,(n”-1)·p2i)·P(gi|π)]
其中L(β,n″,λ,π;n1,n2)是观察所有基因座处等位基因1和2的等位基因计数矢量n1和n2的似然度,并且p1i=p(gi,λ,β),p2i=1-p1i
在一些实施方式中,贡献者包括两个贡献者,并且多基因座似然函数表示为:
L(β,n″,λ,π;n1,n2)=Πig1ig2iBB(n1i,n2i|ni,(n″-1)·p1i(g1i,g2i,λ,β),(n″-1)·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)
其中L(β,n″,λ,π;n1,n2)是给定参数β,n″,λ和π的情况下,观察所有基因座的第一等位基因的等位基因计数矢量(n1)和所有基因座的第二等位基因的等位基因计数矢量(n2)的似然度;p1i(g1i,g2i,λ,β)是概率参数,将其看作表3的p1′,指示基于两个贡献者基因型(g1i,g2i)的基因座i处等位基因1的概率;p2i(g1i,g2i,λ,β)是概率参数,将其看作表3的p2′,指示基于两个贡献者基因型(g1i,g2i)的基因座i处等位基因2的概率;以及P(g1i,g2i|π)是在给定群体等位基因频率(π)的情况下,观察基因座i处第一等位基因的第一贡献者基因型(g1i)和第一等位基因的第二贡献者基因型(g2i)的先验联合概率。
在一些实施方式中,操作214包括从大量提取的核酸分子中估计提取的总基因组副本数n″。在一些实施方式中,根据所提取的核酸分子的片段大小来调节所估计的提取的总基因组副本数n″,如下面进一步描述。
在一些实施方式中,概率混合物模型考虑了由204中执行的扩增核酸分子而导致的核酸分子数错误,以及由206中的测序操作而导致的读序计数错误。在一些实施方式中,核酸扩增过程如下建模:
xt+1=xt+yt+1
其中xt+1是扩增的循环t+1后给定等位基因的核酸副本;xt是扩增的循环t后给定等位基因的核酸副本;yt+1是在循环t+1生成的新副本,并且它遵循二项式分布yt+1~BN(xt,rt+1);以及rt+1是循环t+1的扩增率。
在一些实施方式中,概率混合物模型使用第二贝塔分布来针对一个或多个多态性基因座处的等位基因对所扩增的核酸分子的等位基因分数进行建模。在一些实施方式中,基因座i建模为双等位基因,并且第二贝塔分布表示如下:
n1i′/(n1i′+n2i′)~Beta(n″·ρi·p1i,n″·ρi·p2i)
其中n1i′是基因座i处第一等位基因的扩增核酸分子的等位基因计数;n2i′是基因座i处第二等位基因的扩增核酸分子的等位基因计数;n″是任何基因座处的总核酸分子计数;ρi是与所有扩增循环上平均扩增率ri相关的常数;p1i是基因座i处第一等位基因的概率;以及p2i是基因座i处第二等位基因的概率。在一些实施方式中,ρi为(1+ri)/(1-ri)/[1-(1+ri)-t]。在一些实施方式中,ρi近似为(1+ri)/(1-ri)。
在一些实施方式中,操作214包括组合第一二项式分布和第二贝塔分布,以获得遵循第二贝塔-二项式分布的n1i的单基因座似然函数。在一些实施方式中,第二贝塔-二项式分布具有以下形式:
n1i~BB(ni,n″·ρi·p1i,n″·ρi·p2i),其中n1i是基因座i处第一等位基因的核酸序列读序的等位基因计数;p1i是概率参数,指示基因座i处第一等位基因的概率;以及p2i是概率参数,指示基因座i处第二等位基因的概率。
在一些实施方式中,操作214包括,通过假设一个或多个多态性基因座具有相同的扩增率,将第二贝塔-二项式分布重新参数化为:
n1i~BB(ni,n″·(1+r)/(1-r)·p1i,n″·(1+r)/(1-r)·p2i),其中r是扩增率。
在一些实施方式中,操作214包括使用应用第二贝塔-二项式分布获得的多基因座似然函数来对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量,该多基因座似然函数如下:
L(β,n″,r,λ,π;n1,n2)=∏i[∑giBB(n1i|ni,n″·(1+r)/(1-r)·p1i,n″·(1+r)/(1-r)·p2i)·P(gi|π)]
在一些实施方式中,贡献者包括两个贡献者,并且多基因座似然函数包括:
L(β,n″,r,λ,π;n1,n2)=Πig1ig2i[BB(n1i|ni,n″·(1+r)/(1-r)·p1i(g1i,g2i,λ,β),n″·(1+r)/(1-r)·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)]
其中L(β,n″,r,λ,π;n1,n2)是给定参数β,n″,r,λ和π的情况下,观察所有基因座的第一等位基因的等位基因计数矢量(n1)和所有基因座的第二等位基因的等位基因计数矢量(n2)的似然度。
在一些实施方式中,操作214包括通过将每个多态性基因座的相对扩增率定义为与基因座的总读序成比例,将第二贝塔-二项式分布重新参数化为:
n1i~BB(ni,c′·ni·p1i,c′·ni·p2i),其中c′是要优化的参数。
在一些实施方式中,操作214包括使用应用第二贝塔-二项式分布获得的多基因座似然函数来对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量,该多基因座似然函数如下:
L(β,n″,c′,λ,π;n1,n2)=Πi[∑giBB(n1i|ni,c′·ni·p1i,c′·ni·p2i)·P(gi|π)]
在一些实施方式中,概率混合物模型考虑了由202中执行的提取核酸分子和扩增在204中执行的核酸分子而导致的核酸分子数错误,以及由206中测序操作导致的读序计数错误。
在一些实施方式中,概率混合物模型使用第三贝塔分布来针对一个或多个多态性基因座处的等位基因,对所扩增的核酸分子的等位基因分数进行建模,考虑了由202中执行的提取核酸分子和204中执行的扩增核酸分子而导致的采样错误。在一些实施方式中,基因座i被建模为双等位基因,并且第三贝塔分布具有以下形式:
n1i′/(n1i′+n2i′)~Beta(n″·(1+ri)/2·p1i,n″·(1+ri)/2·p2i)
其中n1i′是基因座i处第一等位基因的扩增核酸分子的等位基因计数;n2i′是基因座i处第二等位基因的扩增核酸分子的等位基因计数;n″是总核酸分子计数;ri是基因座i的平均扩增率;p1i是基因座i处第一等位基因的概率;以及p2i是基因座i处第二等位基因的概率。
在一些实施方式中,操作214包括组合第一二项式分布和第三贝塔分布以获得遵循第三贝塔-二项式分布的n1i的单基因座似然函数。在一些实施方式中,第三种贝塔-二项式分布具有以下形式:
n1i~BB(ni,n″·(1+ri)/2·p1i,n″·(1+ri)/2·p2i)
其中ri是扩增率。
在一些实施方式中,多基因座似然函数是:
L(β,n″,r,λ,π;n1,n2)=Πi[∑gi BB(n1i|ni,n″·(1+r)/2·p1i,n″·(1+r)/2·p2i)·P(gi|π)],
其中r是假定对于所有基因座均相等的扩增率。
在一些实施方式中,贡献者包括两个贡献者,并且多基因座似然函数是:
L(β,n″,r,λ,π;n1,n2)=∏ig1ig2i BB(n1i|ni,n″·(1+r)/2·p1i(g1i,g2i,λ,β),n″·(1+r)/2·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)
其中L(n1,n2|β,n″,r,λ,π)是给定参数β,n″,r,λ和π的情况下,观察第一等位基因矢量的等位基因计数n1和第二等位基因矢量的等位基因计数n2
在一些实施方式中,过程200进一步包括使用Cramer-Rao不等式估计一个或多个贡献者的核酸的一个或多个分数的一个或多个置信区间。
在一些实施方式中,208的映射操作包括识别与多个无偏倚目标序列的任何序列匹配的核酸序列读序中的读序,其中,多个无偏倚目标序列包括参考序列的子序列以及与子序列的区别在于单个核苷酸的序列。
在一些实施方式中,多个无偏倚目标序列包括五类序列,其涵盖了多个多态性位点中的每个多态性位点:(i)作为参考序列的子序列的参考目标序列,该参考目标序列具有在多态性位点处有参考核苷酸的参考等位基因;(ii)各自具有在多态性位点处有替代核苷酸(alternative nucleotide)的替代等位基因(alternative allele)的替代目标序列(alternative target sequences),该替代核苷酸不同于参考核苷酸;(iii)突变的参考目标序列,其包括所有可能的序列,每个可能的序列与参考目标序列的区别仅在于作为非多态性位点的位点处的一个核苷酸;(iv)突变的替代目标序列,其包括所有可能的序列,每个可能的序列与替代目标序列的区别仅在于作为非多态性位点的位点处的一个核苷酸;以及(v)意外的等位基因目标序列,每个序列具有与参考等位基因和替代等位基因不同的意外的等位基因,并且每个序列具有与先前的四个类别的序列不同的序列。在一些实施方式中,五类序列具有相同的长度,并且位于基因组的相同区域。
在一些实施方式中,操作208包括使用所识别的读序及其匹配的无偏倚目标序列来确定在一个或多个多态性基因座处的等位基因的核酸序列读序的等位基因计数。在一些实施方式中,多个无偏倚目标序列包括被截短以具有与核酸序列读序的相同长度的序列。在一些实施方式中,多个无偏倚目标序列包括存储在一个或多个哈希表中的序列,并且使用哈希表来识别读序。
在一些实施方式中,过程200进一步包括通过比较最大化的多基因座似然值的两个版本来确定已知基因型的贡献者是否为混合物样品的真正贡献者的过程,其中一个版本使用包含贡献者的已知基因型的基因型矩阵,另一个版本使用具有贡献者的未知基因型的基因分型矩阵。
在一些实施方式中,该过程进一步包括确定在一个或多个多态性基因座处的一个或多个贡献者的一种或多种基因型。在一些实施方式中,该过程包括使用一个或多个贡献者的核酸的一个或多个分数来确定一个贡献者(受赠者)排斥从另一贡献者(供者)移植的组织或器官的风险。在许多应用中,风险不是或不能仅基于估计的贡献者分数。相反,贡献者分数用作确定风险的中间参数或中间结果。在各种实施方式中,将从其它方法获得的其它参数与贡献者分数组合以确定风险。此类其它方法包括但不限于组织的活组织检查、血清肌酐测量、HLA-DSA(供者特异性抗体)分析。
图3示出了说明用于评估包含一个或多个贡献者的核酸的核酸样品的过程300的框图。过程300开始于在从核酸样品获得的一个或多个多态性基因座处接收一个或多个等位基因的核酸序列读序。参见框302。在一些实施方式中,通过使用在此所述的各种技术对核酸样品中的核酸进行测序来获得核酸序列读序。
在一些实施方式中,独特的分子索引(UMI)附着于提取的核酸分子,然后对其进行扩增、测序并映射到多态性基因座或等位基因。独特的分子索引提供了减少样品处理和分析步骤中可能发生的错误的机制。例如,可以将共享同一独特的分子索引(UMI)的不同读序组合或重叠,以确定衍生出该读序的序列,从而有效消除了在样品处理和测序期间发生的错误。2016年4月16日提交的美国专利申请号15/130,668和2018年1月5日提交的美国专利申请号15/863,737描述了使用独特的分子索引对核酸进行测序的各种方法和系统,出于所有目的,将其全部内容通过引用并入在此作为参考。
当在测定中使用UMI时,将模板核苷酸的PCR扩增产生的冗余DNA分子重叠成单个读序。对于此类实验过程,用于单基因座读序计数的优选模型是第一贝塔-二项式分布,其结合了对测序读序计数建模的第一二项式分布与对提取的核酸分子数量进行建模的第一贝塔分布。
当在测定中不使用UMI时,核酸的提取、扩增和测序都有助于读序计数的统计变异性。对于此类实验过程,单基因座读序计数的优选模型是第三贝塔-二项式分布,该模型结合了对测序读序计数进行建模的第一二项式分布、对扩增的核酸分子的等位基因分数进行建模的第三贝塔分布,以及对提取的核酸分子中的等位基因分数进行建模的第一贝塔分布。
过程300进一步涉及使用核酸序列读序,确定在一个或多个多态性基因座处的一个或多个等位基因的等位基因计数。
过程300还涉及将概率混合物模型应用于等位基因计数。概率模型使用概率分布来对一个或多个多态性基因座处的等位基因的等位基因计数建模。概率分布说明等位基因数据中的错误。该错误包括源自核酸提取、样品处理和测序操作的错误。
在一些实施方式中,概率分布包含第一二项式分布。在一些实施方式中,第一二项式分布包括指示在基因座处的总等位基因计数的参数和指示在基因座处的第一等位基因的概率的概率参数。在一些实施方式中,概率参数是核酸样品中一个或多个贡献者的核酸分数的函数。概率参数也是一个或多个贡献者的基因型或G的函数,以及核酸序列读序数据中的错误或0的函数。在一些实施方式中,读序数据中的错误包括源自核酸提取、样品处理和测序操作的错误。
过程300还涉及在给定模型参数和潜在核酸分数值的情况下获得观察等位基因数据的似然值。参见框308。
在一些实施方式中,过程300涉及使用似然值来对核酸样品中一个或多个贡献者的核酸分数进行定量。参见框310。
在一些实施方式中,过程300进一步涉及使用似然值来确定至少一个贡献者的至少一种基因型。参见框312。
在一些实施方式中,在过程300之前未知贡献者的基因型。
在一些实施方式中,概率混合物模型使用贝塔分布来对等位基因数据中的错误建模。在一些实施方式中,贝塔分布由均值参数和浓度参数定义。在一些实施方式中,浓度参数具有表示不同噪声状况的离散先验。浓度参数在基因座上变化。
在一些实施方式中,操作310的定量包括组合第一二项式分布和贝塔分布以获得遵循贝塔-二项式分布的边缘分布。
在一些实施方式中,310的定量包括使用等位基因数据的多基因座似然函数来对核酸样品中一个或多个贡献者的核酸分数进行定量。在一些实施方式中,定量涉及使用多个潜在分数值和等位基因计数的多基因座似然函数来计算多个似然值。定量还涉及识别与最大似然值相关联的潜在分数矢量,并使用识别出的潜在分数矢量对核酸样品中一个或多个贡献者的核酸分数进行定量。
在一些实施方式中,多基因座似然函数取决于P(G|π),该P(G|π)是给定群体等位基因频率(π)时一个或多个贡献者的基因型的先验概率。在一些实施方式中,考虑具有代表机制漏失的固定的先验概率的虚拟等位基因来计算先验概率。
在一些实施方式中,一个或多个贡献者包含两个或更多个贡献者。在一些实施方式中,过程300包括确定一个或多个贡献者中的贡献者总数的操作。在一些实施方式中,一个或多个贡献者的一种或多种基因型是未知的,并且过程300包括确定在一个或多个多态性基因座的每个基因座处的等位基因构型的操作,该等位基因构型包含一个或多个贡献者中每个贡献者的等位基因。在一些实施方式中,过程300包括确定等位基因构型的估计概率的操作。
在一些实施方式中,过程300进一步包括获得一个或多个贡献者中的特定贡献者具有特定基因型的后验概率。在一些实施方式中,过程300进一步包括基于后验概率,呼叫出核酸样品包括来自特定贡献者的核酸。在一些实施方式中,获得一个或多个贡献者中的特定贡献者具有特定基因型的后验概率包括:(i)将基因型构型的先验概率与基因型构型的似然度相乘;(ii)通过基因型空间上的总和对(i)的乘积进行归一化;以及(iii)对包含特定基因型的基因型构型求和,以获得后验概率。
在一些实施方式中,特定基因型包括多基因座基因型,并且该方法进一步包括:在所有贡献者中,对贡献者在所有基因座处具有特定基因型的后验概率求和;并且然后基于求和概率确定指定的多个基因座基因型出现在任何贡献者中。
在一些实施方式中,核酸样品是法医样品,并且多个基因座基因型的数据从感兴趣的人获得。该过程进一步包括确定感兴趣的人是核酸样品的贡献者。
在一些实施方式中,概率混合物模型使用第二二项式分布来对等位基因数据中的卡顿错误建模。在一些实施方式中,第二二项式分布表示如下:
sik~BN(ni(k+1),ri)
其中sik是卡顿等位基因的基因座i处的卡顿等位基因计数,该等位基因计数看似是等位基因k,但实际上由等位基因k+1的卡顿错误引起;ni(k+1)是基因座i处等位基因k+1的原始等位基因计数;并且ri是基因座i处的卡顿率。
在一些实施方式中,卡顿率r在基因座上变化并且具有表示不同噪声状况的先验,该先验在基因座上共享。
在一些实施方式中,操作310包括使用多基因座似然函数来对核酸样品中一个或多个贡献者的核酸分数进行定量,该多基因座似然函数包括非卡顿等位基因计数的似然度和卡顿等位基因计数的似然度的乘积。
在一些实施方式中,应用概率混合物模型包括当确定卡顿可能潜在地由分子源起的该分子的数量时,将固定数量的分子添加到分配给等位基因k+1的等位基因计数。
在一些实施方式中,概率混合物模型使用虚拟的样品外等位基因来对自然漏失建模。在一些实施方式中,虚拟样品外等位基因的先验与未观察到的等位基因数量成比例。在一些实施方式中,未观察到的等位基因的数量通过以下方式估计:在最短和最长的观察到的整数值等位基因之间插值所有整数,添加任何观察到的非整数值的等位基因,并返回结果值的最大值和标准值。
在一些实施方式中,应用概率混合物模型涉及从用于对核酸样品中一个或多个贡献者的核酸分数进行定量的数据中修剪基因型构型。在一些实施方式中,修剪基因型构型涉及:通过构建所需等位基因的列表并排除不具有足够的贡献者来解释所有所需等位基因的基因座,从而限制看似合理的基因型构型。在一些实施方式中,所需等位基因的列表基本上由如下等位基因组成,该等位基因具有高于阈值并且由于卡顿插入而太高而无法被接受的等位基因计数。在一些实施方式中,阈值是以下各项的总和:(i)最大非卡顿等位基因计数,以及(ii)与潜在的卡顿供者等位基因计数相乘的值。在一些实施方式中,修剪基因型构型涉及去除在等位基因数据与预期的等位基因计数之间具有较差匹配的基因型构型。在一些实施方式中,具有较差匹配的基因型构型具有大于一个或多个阈值的均方根误差(RMSE)值。
在一些实施方式中,一个或多个多态性基因座处的等位基因包含单核苷酸多态性(SNP)等位基因和/或短串联重复(STR)等位基因。
用于将读序无偏倚映射到标志位点的方法
用于将核酸(例如,DNA或RNA)测序读序映射到基因组的常规计算方法可以由所使用的参考基因组偏倚。由于在参考基因组中每个变异位点仅存在一个等位基因(参考等位基因),因此在现有的读序映射策略中,读序和参考之间的失配被视为测序错误。问题在于,当将包含非参考等位基因的读序视为包含测序错误时,比对置信度(得分)会降低,并且因此,在后续的过滤步骤中,它们不太可能被保留为可信映射的读序。该映射偏倚会使等位基因计数偏斜(图1B),并随后损害贡献者DNA分数的估计。
为了解决映射偏倚问题并实现最优CDQ,一些实施方式提供了用于将读序映射到变异位点的一种新颖的工作流程。新的读序映射方法可对等位基因进行无偏倚计数,并估计变异位点和非变异位点的测序错误。
读序映射工作流程如下。工作流程首先基于1)参考序列和2)变异位点的已知等位基因,生成五种类型的序列(参见表1)。如果每序列允许多于一个的单突变,则会生成更多类型的序列。这五种类型的序列分别称为ref、alt、ref.mut、alt.mut和snp.mut。例如,对于长度为L的目标序列覆盖的每个双等位基因SNP标志位点,存在一个ref、一个alt、[L-1]x3ref.mut、[L-1]x3 alt.mut和2个snp.mut序列。然后,所有五种类型的序列都包括在“无偏倚目标序列”数据库中(图1B)。然后,取决于从测序仪读序的长度,将无偏倚目标序列截短为两个版本。令r为读序长度。截短的目标序列的版本1包括所有无偏倚目标序列的r5’碱基,而截短的目标序列的版本2包括所有无偏倚目标序列的r3’碱基的反向互补。然后去除了截短的目标序列中的冗余序列。然后,将两个截短的序列数据库中的唯一序列记录到两个哈希表中。接下来,使用哈希表对序列读序进行计数。对于配对末端测序策略,分别使用第一哈希表和第二哈希表对R1读序和R2读序进行计数。对于非配对末端测序,所有读序均使用第一哈希表进行计数。最后,对于每个标志位点,取决于被截短的无偏倚目标序列对应于表1中的类型,将计数汇总为以上定义的五种类型。
当使用序列比对工具而不是使用哈希表进行映射时,可以实现类似的策略。对于每个标志位点,生成序列的ref和alt类型以形成无偏倚序列数据库。然后,每个测序读序都与该数据库比对,并具有多达预定义数量的测序错误。然后基于表1对映射的读序进行分类。对于SNP标志,这里只介绍了双等位基因场景,但是该方法扩展到了多等位基因座。
表1.从变异位点周围的参考序列生成的五种类型目标序列的定义。
Figure BDA0002328255050000421
所提出的读序映射工作流程解决了使用真实数据进行测试时的读序映射偏差问题。在工作流程中,所观察到的参考与替代错误和替代与参考错误的比率是相同的。在参考DNA副本上的非变异位点和在替代DNA副本上的非变异位点上的测序错误率也相同。
将贡献者DNA分数与等位基因分数联系
测序无错误场景
我们将n1表示为向样品提供DNA的贡献者1(例如器官接受者)细胞的数量,而n2表示为贡献者2(例如器官供者)细胞的数量。基于这些细胞,该实施方式将贡献者2分数定义为β2=n2/(n1+n2)。对于两贡献者的场景,我们将β2简称为β。取决于每个特定基因座处两个贡献者的基因型,两个等位基因具有不同的分数(关于细节,参见表2),并且用于计算它们的通用公式为p1=[g11(1-β)+g21·β]/2和p2=[g12(1-β)+g22·β]/2。请注意,g11和g12是贡献者1(接受者)基因型,即接受者基因组中等位基因1和2的副本;g21和g22是贡献者2(供者)基因型,即供者基因组中等位基因1和2的副本。
在矩阵表示法中,通常将多个贡献者情况的关系实现为p←g/2·β,其中p是所有基因座的预期等位基因1分数的矢量,g是所有贡献者中所有基因座的基因型的矩阵,并且β=[β1,β2,...,βD]是所有贡献者的核酸分数的矢量。该实施方式通常应用于单贡献者、双贡献者和多贡献者场景。
表2:对于给定的变异位点,贡献者1和贡献者2对之间的9种可能的基因型组合的二项式模型参数预期等位基因1和等位基因2分数p1和p2
g<sub>11</sub> g<sub>21</sub> p<sub>1</sub> p<sub>2</sub>
0 0 0 1
0 1 β/2 1-β/2
0 2 β 1-β
1 0 (1-β)/2 (1+β)/2
1 1 1/2 1/2
1 2 (1+β)/2 (1-β)/2
2 0 1-β β
2 1 1-β/2 β/2
2 2 1 0
具有排序错误的一般场景
当在变体位点处存在两个已知等位基因时,测序错误除了将两个已知等位基因转换为该基因座处的两个剩余核苷酸外,还将一个等位基因转换为另一个等位基因。结果是测序读序中的等位基因分数将与NGS输入样品中的等位基因分数不同。
图2C示意性地示出了将一个等位基因转换为另一等位基因并且将真等位基因转换为意外等位基因的测序错误。小图(A)示出了核苷酸依赖的测序错误,并且小图(B)示出了均匀的测序错误。
令N1、N2为等位基因1和等位基因2的核苷酸。令p1′、p2′分别是观察等位基因1和等位基因2读序的概率,无论它是真实的还是由于测序错误;并且p0′=1-p1′-p2′是观察到由于测序错误而导致的两个意外等位基因的概率。令λN1N2为从N1至N2的突变率(概率),其中N1和N2对于每个SNP位点都是独特的,并且
λN1#:从N1到3个核苷酸的非N1核苷酸中的任一个的突变概率。
图2C示出了SNP位点的4个核苷酸之间的过渡图。基于此,实施方式获得以下方程,用于从真实等位基因分数p1、p2转换为观察到的等位基因分数p1′、p2′和p0′:
p1′=p1-p1·λN1#+p2·λN2N1
p2′=p2-p2λN2#+p1·λN1N2
p0′=p1·(λN1#N1N2)+p2·(λN2#N2N1)。
当实施方式假设独立于核苷酸身份的均匀测序错误率时,实施方式具有p1′=p1·(1-3·λ)+p2·λ
p2′=p2·(1-3·λ)+pi·λ
p0′=2λ。
当实施方式忽略意外等位基因时
p1′=(p1·(1-3·λ)+p2·λ)/(1-2λ)
p2′=(p2·(1-3·λ)+p1·λ)/(1-2λ),
采用o2)近似误差,将这些重写为
p1′=p1·(1-λ)+p2·λ
p2′=p2·(1-λ)+pi·λ
或者对于基因座i并且用g和β代替p:
p1i′←∑d[(gd1i·(1-λ)+gd2i·λ]·βd)/2
P2i′←∑d[(gd2i·(1-λ)+gd1i·λ]·βd)/2
其被称为误差调节基因型加权混合系数。
表3列出了在两个贡献者场景中将贡献者2的分数β与观察到的等位基因分数p1′相联系的公式。
表3:观察到的等位基因1和2允许测序错误的预期概率,以在两贡献者环境中的每个供者/接受者基因型组合为条件。在此,对于所有核苷酸对N1和N2使用统一的测序错误率λN1N2=λ。由于突变率λ小,所以使用一阶近似。
g<sub>11</sub> g<sub>21</sub> p<sub>1</sub>′ p<sub>2</sub>′
0 0 λ 1-λ
0 1 β/2+λ-βλ 1-β/2-λ+βλ
0 2 β+λ-2βλ 1-β-λ+2βλ
1 0 (1-β)/2+βλ (1+β)/2-βλ
1 1 1/2 1/2
1 2 (1+β)/2-βλ (1-β)/2+βλ
2 0 1-β-λ+2βλ β+λ-2βλ
2 1 1-β/2-λ+βλ β/2+λ-βλ
2 2 1-λ λ
在矩阵格式中,考虑到测序误差λ的等位基因1的误差调节基因型被实施为:G←[(1-λ)g+λ(2-g)]/2
对于具有多于两个的贡献者的一般情况,等位基因1的预期混合物分数矢量计算为:p←G·β,其对于具有单个、两个或多个贡献者的核酸混合物实施。
当λ=0时,实施方式具有特殊情况:p←g/2·β
DNA提取、PCR(扩增)和测序模型概述
提供了三种概率模型(图1C)来模拟通用实验流水线(图1A)中的三个主要组成部分:1)DNA/RNA提取;2)DNA/RNA扩增(例如PCR),作为富集目标DNA/RNA的方法;3)测序(例如NGS测序)。然后将这些和其它建模组成部分集成在一起,以实施单基因座模型并计算单基因座似然函数M(n1i,n2i|p1i,θ)。
在表4和本节的其余部分详细描述的数学模型中使用以下符号。
B():Beta函数
Beta(),BN(),Pois(),Gamma():贝塔分布、二项式分布、泊松分布和伽马分布
NB()表示负二项式分布,它是在指定的(非随机)失败次数(表示为r)发生之前,一系列独立且相同分布的Bernoulli试验中成功次数的离散概率分布。
表4:通用实验流水线中三个主要组成部分的统计模型(图1)。每个组成部分的模型都以先前的组成部分为条件。模型根据每个基因座,并且省略了基因座索引i。
Figure BDA0002328255050000461
DNA提取模型:模型E
当从血液样品中提取cfDNA或细胞DNA时,获得的DNA是来自大DNA池的少量样品,并且因此,实施方式将每个基因座处的两个等位基因的计数建模为两个泊松分布。因此,在以总计数n”为条件的基因座处的等位基因1的DNA副本(n1”)遵循二项式分布:n1”~BN(n”,p1),均值μ0=n”·p1,并且方差δ0 2=n”·p1·p2
当从样品中提取gDNA时,由于提取损失,每个基因座的所得gDNA量可以再次可变。将p1视为输入样品中等位基因1的数,提取的DNA中等位基因1的量可以再次通过二项式分布建模:n1”~BN(n”,p1)。
PCR扩增模型:模型P
我们将PCR扩增过程建模为随机过程,以便获得PCR产物中等位基因1计数的概率分布。令xt为PCR扩增的循环t后给定等位基因的DNA副本,令rt为循环t的扩增率,并令yt为在循环t处生成的新拷贝。通过假设每条DNA都具有被扩增并添加到DNA池的概率rt,该实施方式具有以下扩增模型:
xt+1=xt+yt+1,其中yt+1~BN(xt,rt+1)遵循二项式分布,其中xt和rt+1为参数。
基于该模型,实施方式假设PCR产物中基因座的DNA副本数大致遵循伽马分布。以下是理由。
步骤1:使用Yule过程(连续时间随机过程)来近似PCR(离散时间随机过程)。
PCR过程xt+1=xt+yt+1,其中yt+1~BN(xt,rt+1)是离散时间纯诞生过程:在给定的时间t循环中,DNA的每个副本都以一定的速率rt独立地“诞生”。纯诞生过程的连续时间版本公知为Yule-Furry过程。对于连续的时间诞生过程,已知在给定时间t的基因座的最终副本数遵循负二项式分布。当PCR总循环数不接近1时,实施方式可以使用相同的分布来近似离散时间诞生过程。
步骤2:使用伽马分布(连续分布)近似负二项式分布(离散分布)。
负二项式随机变量可以写为独立且均等分布(i.i.d.)几何随机变量之和。已知指数分布是几何分布的连续形式。因此,遵循伽马分布的i.i.d.指数随机变量之和是作为负二项式的二项式随机变量之和的连续形式。
下面的实施方式估计了PCR产物中等位基因计数的伽马分布的参数。
基于总方差定律var(xt+1)=var(E(xt+1|xt)+E(var(xt+1|xt)),实施方式可以递归导出xt的均值和方差如下:
μt+1=μt·(1+rt+1)
6t+1 2=μt·rt+1·(1-rt+1)+δt 2·(1+rt+1)2
其中,μt=E(xt),δt 2=var(xt)。
假设每PCR循环的平均扩增率rt+1=r,则实施方式具有
μt=μ0·(1+r)t
δt 2=μ0·(1+r)t·[(1+r)t-1]·(1-r)/(i+r)+δ0 2·(1+r)2t
注意,μ0和δ0 2是PCR扩增输入中DNA等位基因计数的均值和方差,并且它们可以基于上述DNA提取模型(模型E)来计算。可替代地,如果实施方式未将cfDNA/细胞DNA等位基因计数视为随机变量,则实施方式具有μ0=n1”或n2”,且δ0 2=0。
与该均值和方差匹配的对应的伽马分布G(xt|k,θ)=xk-1e-x/θ/[θk·Γ(k)]具有参数:
θ=[(1+r)t-1]·(1-r)/(1+r)+δ0 20·(1+r)t
k=μ0·(1+r)t/[[(1+r)t-1]·(1-r)/(1+r)+δ0 20·(1+r)t]。
对于具有两个等位基因和两个初始副本(n1”,n2”)的给定基因座,假设对于每个基因座的两个等位基因,相同的扩增率r1=r2=r,则两个对应的伽马分布G(n1’|k1,θ1)和G(n2’|k2,θ2)具有以下参数:
θ1=[(1+r)t-1]·(1-r)/(1+r)+p2·(1+r)t
θ2=[(1+r)t-1]·(1-r)/(1+r)+Pi·(1+r)t
k1=n″p1/[[1-(1+r)-t]·(1-r)/(1+r)+p2]
k2=n″p2/[[1-(1+r)-t]·(1-r)/(1+r)+pi]。
当实施方式以DNA提取模型为条件对PCR模型进行调节时,s.t.μ0=n1″或n2″且δ0 2=0,则实施方式具有
θ1=[(1+r)t-1]·(1-r)/(1+r)
θ2=[(1+r)t-1]·(1-r)/(1+r)
k1=n1″·(1+r)/(1-r)/[1-(1+r)-t]
k2=n2″·(1+r)/(1-r)/[1-(1+r)-t]。
因此,PCR产物中的等位基因副本n1′和n2′遵循具有相同比例参数θ1和θ2的两个伽马分布,它们仅取决于PCR过程(循环数和扩增率)。因此,
n1′/(n1′+n2′)~Beta(n1″·ρ,n2″·ρ),
其中ρ是与扩增率r有关的常数,其仅取决于PCR过程:ρ=(1+r)/(1-r)/[1-(1+r)-t],或当循环数t大时约为ρ=(1+r)/(1-r)。对于特定基因座,它被写为n1i′/(n1i′+n2i′)~Beta(n1i″·ρi,n2i″·ρi),以捕获基因座特异性PCR扩增率。
如果实施方式忽略DNA采样并且假定所有基因座具有相同的总DNA副本数ni″=n″,则n1i″=n″·p1i并且n2i″=n″·p2i。PCR产物中基因座的等位基因分数如下:
n1i′/(n1i′+n2i′)~Beta(n″·ρi·p1i,n″·ρi·p2i)。
注意,在没有伽马分布近似的情况下,PCR产物的等位基因计数具有n1′~NB(r1,p)和n2′~NB(r2,p),并且比率n1′/(n1′+n2′)不具有封闭形式分布。对于伽马分布近似,n1′~Gamma(n1″·ρ,θ)和n2′~Gamma(n2″·ρ,θ),并且n1′/(n1′+n2′)遵循贝塔分布。
测序读序计数模型:模型S
NGS测序是从提供给测序仪的DNA分子池中采样并读出这些分子的序列的过程。PCR产物中基因座i的等位基因1的分数为n1i′/(n1i′+n2i′)。该分数确定了在测序结果中出现等位基因1读序的概率。以每基因座的读序的总数ni为条件,n1i的分布,基因座的等位基因1的读序计数,然后建模为二项式分布n1i~BN(ni,n1′/(n1′+n2′))。
将贡献者之间的遗传相关性建模为先验分布
如果贡献者基因型是完全已知的,则可以将它们直接纳入(使用表2或表3)作为上述组成部分模型的参数。然而,当基因型未知时,实施方式在两个贡献者环境中利用了供者和接受者之间的遗传关系信息来实现准确的混合物定量。遗传关系在诸如器官移植的临床应用中很常见。这里,我们介绍了两个贡献者场景的实施方式,但是该“遗传先验”方法可以推广到任何数量的贡献者。
我们将不同类型的供者-接受者关系表述为在供者(贡献者2)和接受者(贡献者1)的可能基因型组合的空间上不同的先验分布。假设哈迪-温伯格平衡,单个个体的给定基因座的基因型分布为P(g=[0,1,2])=[(1-π)2,2π(1-π),π2],其中π是等位基因1的群体频率,g是等位基因1的副本数。请注意,所有遗传关系都是父亲子女关系的结果。基于给定双等位基因标志位点的父母与子女之间的遗传关系(表5),实施方式可以计算两个或多个贡献者之间任何遗传关系的联合分布。
表5:在给定基因座下,给定父母基因型(父亲基因型g和母亲基因型g)的子女基因型的概率分布,以及假设父母不是亲戚的父母之间的联合分布。
g父 g母 分别用于以父母基因型为条件的基因型[0,1,2]的子女概率 P(g父,g母)
0 0 [1,0,0] (1-π)<sup>4</sup>
0 1 [1/2,1/2,0] 2π(1-π)<sup>3</sup>
0 2 [0,1,0] π<sup>2</sup>(1-π)<sup>2</sup>
1 0 [1/2,1/2,0] 2π(1-π)<sup>3</sup>
1 1 [1/4,1/2,1/4] 4π<sup>2</sup>(1-π)<sup>2</sup>
1 2 [0,1/2,1/2] 2π<sup>3</sup>(1-π)
2 0 [0,1,0] π<sup>2</sup>(1-π)<sup>2</sup>
2 1 [0,1/2,1/2] 2π<sup>3</sup>(1-π)
2 2 [0,0,1] π<sup>4</sup>
下面进一步提供两个贡献者之间各种类型的遗传关系的先验分布。
父亲和子女基因型之间的联合分布
作为示例,使用以下公式计算父亲-子女供者-接受者基因型(GT)联合分布:
P(接受者=我GT,供者=父亲GT)=∑母亲GT[P(我GT|父亲GT,母亲GT)·P(父亲GT,母亲GT)],
其中,P(我GT|父亲GT,母亲GT)和P(父亲GT,母亲GT)的值分别取自表5的第3列和第4列。
兄弟姐妹基因型之间的联合分布
作为示例,基于给定父母基因组的两个兄弟姐妹基因型的条件独立性,使用以下公式计算我-兄弟姐妹供者-接受者基因型联合分布:
P(接受者=我GT,供者=兄弟姐妹GT)=∑母亲GT父亲GT[P(我GT|父亲GT,母亲GT)·P(兄弟姐妹GT|父亲GT,母亲GT)·P(父亲GT,母亲GT)],
其中,P(我GT|父亲GT,母亲GT),P(兄弟姐妹GT|父亲GT,母亲GT)和P(父亲GT,母亲GT)的值分别取自表5第3列、第3列和第4列。
叔叔-侄子基因型之间的联合分布
作为示例,使用以下公式计算叔叔/姑母-侄子/侄女供者-接受者基因型联合分布:
P(接受者=我GT,供者=叔叔GT)
=∑祖母GT祖父GT母亲GT父亲GT[P(我GT|父亲GT,母亲GT)·P(母亲GT)·P(父亲GT|祖父GT,祖母GT)·P(叔叔GT|祖父,祖母GT)·P(祖父GT,祖母GT)]
=∑母亲GT父亲GT P(我GT|父亲GT,母亲GT)·P(母亲GT)·P(父亲GT,叔叔GT),
其中,P(我GT|父亲GT,母亲GT)的值取自表5的第3列,而P(父亲GT,叔叔GT)的值与P(接受者=我GT,供者=兄弟姐妹GT)相同。
在矩阵符号中,可以使用父母/子女先验矩阵、兄弟姐妹先验矩阵和单基因组先验矢量
=[P(我GT,GT父亲)]我,父亲·diag(1/[P(父亲GT)]父亲)·[P(父亲GT,叔叔GT)]父亲,叔叔来计算
堂亲基因型之间的联合分布
假设堂亲是由他们的父亲遗传联系的,他们的父亲是兄弟,而他们的母亲在遗传上是无关的,则,
P(接受者=我GT,供者=堂亲GT)
=∑姑母GT叔叔GT母亲GT∑父亲GT P(我GT|父亲GT,母亲GT)·P(母亲GT)·P(父亲GT,叔叔GT)·P(姑母GT)·P(堂亲GT|叔叔GT,姑母GT)
=∑姑母GT叔叔GT P(我GT,叔叔GT)·P(姑母GT)·P(堂亲GT|叔叔GT,姑母GT)
=∑叔叔GT P(我GT,叔叔GT)·P(堂亲GT,叔叔GT)/P(叔叔GT)
在矩阵表示法中,这可以使用叔叔/侄女先验矩阵,父母/子女先验矩阵和单基因组先验矢量
=[P(我GT,叔叔GT)]我,叔叔·diag(1/[P(叔叔GT)]叔叔)·[P(堂亲GT,叔叔GT)]叔叔,堂亲来计算
注意,P(堂亲GT,叔叔GT)与父母-子女关系相同。
半兄弟姐妹基因型之间的联合分布
假设半兄弟姐妹由单个母亲联系,而两个父亲则不相关:
P(接受者=我GT,供者=半兄弟姐妹GT)
=∑父亲GT母亲GT继父GT P(我GT|父亲GT,母亲GT)·P(半兄弟姐妹GT|继父GT,母亲GT)·P(母亲GT)·P(父亲GT)·P(继父GT)
=∑母亲GTP(我GT,母亲GT)·P(半兄弟姐妹GT,母亲GT)/P(母亲GT)
在矩阵符号中,可以使用两个父母子女先验矩阵和单个基因组先验矢量
=[P(我GT,母亲GT)]我,母亲·diag(1/[P(母亲GT]母亲)·[P(半兄弟姐妹GT,母亲GT)]半兄弟姐妹,母亲
注意,在哈代温伯格平衡下,半兄弟姐妹关系遵循与叔叔/姑母/侄子/侄女关系相同的分布。没有哈迪·温伯格平衡,这可能不是正确的。
总结
表6总结了上述推导的结果,并且表7中提供了给定群体SNP等位基因频率π=0.5的具体例子。其它关系(诸如祖父母与孙子女关系或多贡献者关系)可以基于相同的基本原理得出。
表6:相关或不相关基因组的先验分布P(g11,g21)。假设所有SNP都来自常染色体,则所有已婚夫妇在遗传上均不相关,并且处于哈迪·温伯格平衡。g11是接受者基因组,g21是供者基因组。
Figure BDA0002328255050000541
表7:给定SNP群体等位基因频率π=0.5,相关或不相关基因组的先验分布P(g11,g21)。
Figure BDA0002328255050000542
父母子女关系和兄弟姐妹关系的分布与不相关关系有很大不同,而叔叔/姑母-侄子/侄女几乎不相关。在供者基因型未知的情况下,实施方式可以通过评估上述每个遗传关系的拟合模型的似然函数来推断遗传关系。可替代地,实施方式可以允许遗传先验分布中的多个自由参数(具有边缘分布应遵循哈迪-温伯格平衡的附加约束),并与供者分数的估计一起估计这些参数。
基于DNA长度调节DNA副本数
对于涉及PCR DNA扩增的基于扩增子的测定,DNA长度影响DNA作为PCR模板的有效性。在极端情况下,当DNA片段短于预期的扩增子长度时,它们作为PCR模板的有效性为0%。为了纠正该影响,我们使用以下过程使用平均DNA长度来调节DNA副本数,该长度取决于输入DNA的类型而变化。一些实施方式基于输入DNA模板的平均长度来调节有效输入DNA分子数。在一些实施方式中,有效输入DNA分子数可根据以下方程进行调节:
n″=w/w0·(L-La+1)/L,
其中n″是有效输入DNA分子数(单倍体),w是输入DNA量,w0(3.59x103 ng/副本)是单倍体人类基因组的重量,L是输入DNA模板的平均长度,并且La是平均扩增子长度(对于我们的扩增子设计,为110bp)。
DNA模板效率定义为e=(L-La+1)/L,其定义为L>=La。表8示出了示例DNA类型及其作为PCR模板的效率。
表8.DNA类型及其作为PCR模板的效率
DNA类型 DNA长度参数(L) 模板效率(e)
基因组DNA(gDNA) 100,000 0.9989
无细胞DNA(cfDNA) 165 0.3394
模拟cfDNA(mcfDNA) 160 0.3188
建模组成部分的集成
概率混合模型的组成部分被集成以提供对贡献者DNA定量(CDQ)问题的解决方案。可以从诸如dbSNP的公共数据库中获得每个SNP位点的群体等位基因频率π。如果在实验设计中选择了最有信息的SNP标志,即π=0.5的SNP,则可以针对所有基因座设定π=0.5,并且令P(g11,g21)作为如前部分所述的遗传关系先验分布。
在示意性水平上,图2B示出了示出概率混合模型250的各个组成部分的框图。一些组成部分在一些实施方式中是可选的。概率混合物模型250包括用于对测序读序的等位基因计数进行建模的二项式分布258。在一些实施方式中,概率混合物模型还包括用于使用遗传关系先验分布252来建模供者-受赠者(或接受者)关系的组成部分。在一些实施方式中,概率混合物模型还包括用于对DNA提取等位基因计数进行建模的二项式分布254。在一些实施方式中,概率混合物模型250还包括用于对PCR产物或扩增产物等位基因分数进行建模的贝塔分布256。参见框256。
在一些实施方式中,混合物模型将二项式分布208与二项式分布254组合以对DNA提取错误和测序错误进行建模。在此类实施方式中,混合物模型使用贝塔-二项式分布260来对测序读序的等位基因计数进行建模,同时捕获由于DNA提取引起的等位基因计数的变异性。
在一些实施方式中,概率混合模型250组合贝塔分布256和二项式分布258,并使用贝塔二项式分布262来对PCR或扩增过程中的错误以及测序过程中的错误二者建模。
在一些实施方式中,概率混合物模型250组合了二项式分布254、贝塔分布256和二项式分布258,以分别解决由DNA提取、扩增过程和测序过程导致的差异。在此类实施方式中,概率混合模型200首先使用贝塔分布264来近似二项式分布254和贝塔分布256的影响。然后,概率混合物模型250使用贝塔-二项式分布256来组合贝塔分布264和二项式分布258。
测序模型:模型S
完整模型的基本版本忽略了DNA提取模型和PCR模型,并且仅考虑了测序模型。对于每个基因座,参考等位基因的测序读序计数由二项式分布(图1C)n1i~BN(n1i,p1i)建模,其中参数p1i(g1i,g2i,λ,β)的值是基因座的供体-接受者基因型组合的函数(表2和表3)。假设基因型未知,对于每个基因座,在P(g1i,g2i|π)作为先验分布(表6和表7)的情况下,该实施方式对9个可能的基因型组合进行了边缘化处理。所有基因座上的完全似然函数是所有基因座的边缘分布的乘积:
L(β,λ,π;n1,n2)=Πig1ig2i BN(n1i|ni,p1i(g1i,g2i,λ,β))·P(g1i,g2i|π),其中L(β,λ,π;n1,n2)是在给定参数β和π的情况下观察等位基因1和2的等位基因计数矢量n1到n2的似然度;p1i(g1i,g2i,λ,β)是概率参数,将其看作表3的p1′,指示基于两个贡献者基因型(g1i,g2i)的基因座i处等位基因1的概率;并且P(g1i,g2i|π)是在给定群体等位基因频率(π)的情况下观察两个贡献者基因型的先验联合概率。
将其扩展到多个贡献者,似然函数可以表示为:
L(β,λ,π;n1,n2)=Πi[∑gi BN(n1i|ni,·p(gi,λ,β))·P(gi|π)]
提取-Seq复合模型:模型ES
更高级的模型组合了DNA提取模型以及测序模型。该实施方式忽略了PCR步骤(即,假设对于每个基因座,PCR产物中的等位基因分数与DNA样品中的等位基因分数相同),并且仅对DNA采样和测序步骤进行建模。对于每个基因座,存在输入DNA样品中等位基因计数的二项式分布。这捕获了提供给NGS测序的输入DNA中等位基因分数的基因座至基因座变异性。
对于DNA提取模型,该实施方式具有n1i″~BN(n″,p1i),而以DNA提取模型为条件,测序模型为n1i|n1i″,ni″~BN(ni,n1i″/ni″),其中ni″=n″是输入DNA对应的单倍体基因组的副本。不幸的是,n1i的边缘分布没有封闭形式公式。该实施方式选择采用贝塔分布Beta(a,b)来近似n1i″/n″的分布,并通过将n1i″/n″的均值和方差与从二项式模型n1i″~BN(n″,p1i)得出的均值和方差进行匹配来选择最优贝塔分布:
p1i=a/(a+b)
p1i·(1-p1i)/n″=ab/(a+b)2/(a+b+1)。
求解方程给出贝塔分布Beta((n″-1)p1i,(n″-1)p2i)为最优近似。近似于DNA提取模型,然后n1i的边缘分布遵循以下形式的贝塔-二项式分布:
n1i~BB(ni,(n″-1)·p1i,(n″-1)·p2i)。
或在替代近似中:
n1i~BB(ni,n″·p1i,n″·p2i)。
然后考虑遗传关系先验的对应的全似然函数为:
L(β,n″,λ,π;n1,n2)=∏i[∑gi BB(n1i|ni,(n″-1)·p1i,(n”-1)·p2i)·P(gi|π)]
其中,L(β,n″,λ,π;n1,n2)是观察所有基因座处等位基因1和2的等位基因计数矢量n1和n2的似然度,并且p1i=p(gi,λ,β),p2i=1-p1i
请注意,n″和π=0.5均为已知参数,并且最终的全似然函数仅具有单个未知参数β,即供者DNA分数。
输入DNA(单倍体)的副本数n″可以从输入DNA质量中得出。当输入DNA量为8ng时,n″=8ng/[3.59x10-3ng/副本]=2228.412。
PCR-Seq复合模型:模型PS
忽略DNA提取模型,并假定给定基因座的已知基因型组合,则PCR模型:n1i′/(n1i′+n2i′)~Beta(n″·ρi·p1i,n″·ρi·p2i)和测序模型n1i~BN(ni,n1′/(n1′+n2′))可以组合成贝塔-二项式分布BB(ni,n″·ρi·p1i,n″·ρi·p2i)。注意,两个基本的基因座特异性PCR扩增率ρi都是未知的。如果实施方式假定所有基因座均具有相同的固有扩增率,则实施方式将具有BB(ni,c·p1i(g11,g21,β),c·p2i(g11,g21,β))。
然后,所有基因座上的全似然模型为:
L(β,n″,c,λ,π;n1,n2)=∏i[∑gi BB(n1i|ni,c·p1i,c·p2i)·P(gi|π)],其中c和β是要估计的两个参数。
可替代地,实施方式可以将每个基因座的相对扩增率定义为与每基因座的总读序成比例,并将贝塔-二项式重新参数化为n1i~BB(ni,c′·ni·p1i,c′·ni·p2i),其中c′是要优化的参数;并且ni是基因座i处的总读序。
然后,所有基因座上的全似然模型为:L(β,n″,c′,λ,π;n1,n2)=Πi[∑giBB(n1i|ni,c′·ni·p1i,c′·ni·p2i)·P(gi|π)],其中c和β是要估计的两个参数。
提取-PCR-Seq复合模型:模型EPS
如果实施方式将DNA提取和PCR模型组合成一个模型并通过单个贝塔分布对其进行近似,则可以通过贝塔-二项式一起对提取-PCR-测序通用实验流水线中的所有三个组成部分进行建模。直观上,尽管PCR产物中等位基因1分数的期望值(n1′/n′,参见表4)仍为p1,但n1′/n′的不确定性(方差)来自DNA提取和PCR步骤二者。为了获得贝塔分布beta(a,b)一起对DNA提取和PCR进行建模,该实施方式基于以下定律计算n1i′/n′的无条件均值和方差:E(n1i′/n′)=E(E(n1i′/ni′|n1i″/n″)和var(ni1′/n′)=var(E(n1i′/ni′|n1i″/n″))+E(var(n1i′/ni′|n1i″/n″))。这得到:E(n1i′/n′)=p1i,并且var(n1i′/n′)=p1ip2i/n″+P1ip2i/(n″·ρi+1)-p1p2/[n″·(n″·ρi+1)],其中ρi=(1+ri)/(1-ri)>1是与扩增率ri相关的常数。由于n″大,因此实施方式具有以下近似值var(n1i′/n′)=p1iP2i/[n″·(1+ri)/2]。然后,模拟DNA提取和PCR的最优贝塔分布为Beta([n″·(1+ri)/2-1]p1i,[n″·(1+ri)/2-1]p2i)。请注意,这与cfDNA/gDNA提取的Beta((n″-1)p1i,(n″-1)p2i)分布非常接近,但方差现在更大。对于ri=0.8至0.95的典型PCR反应,实施方式具有n″·(1+ri)/2=0.9·n″至0.975·n″。
cfDNA-PCR-Seq模型的全多基因座似然函数是:
L(β,n″,r,λ,π;n1,n2)=Πig1ig2i BB(n1i|ni,n″·(1+r)/2·p1i(g1i,g2i,λ,β),n″·(1+r)/2·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)。
基准方法:NaiveLM或KGT.NaiveLM
用于对贡献者的DNA分数进行定量的常规方法使用基本线性回归公式,其不使用上述相同的概率模型或成本函数。相反,其成本函数表示为:
E=[r-p]T·[r-p],其中r是等位基因分数矢量,p=g/2·β是预期的等位基因分数矢量,g是基因型矩阵,并且β是贡献者DNA分数矢量。
Figure BDA0002328255050000601
方法仅适用于所有基准已知的情况。
用于估计贡献者核酸分数及它们的置信区间的方法
用于估计贡献者DNA分数的数值优化
贡献者DNA分数β被估计为最大化全似然函数L(n1,n2|β)的值。如上所述,尽管在该示例和其它示例中指的是DNA,但是可以类似地处理和分析RNA和其它核酸分子。同样,尽管示例涉及核酸混合物样品,但样品可能仅包括单个贡献者的核酸,在这种情况下,贡献者分数将被估计为1或在从1起的误差裕度内。
在L(n1,n2|β)的计算期间,多个小概率值相乘。为了避免在乘以小概率时数值下溢,该实施方式在对数标度上执行所有求和和乘法。对数标度的小概率之和如下执行。1)获得对数概率的最大值作为xmax;2)将所有对数概率减去最大值;3)对结果值求幂,并且然后求和;4)对数转换所得之和;5)加回对数概率的最大值。log(exp(x1-xmax)+exp(x2-xmax)+...+exp(xn-xmax))+xmax
为了确保正贡献者分数在0到1之内,使用分对数变换β=1/(1+e)。
如下所述,实现了一种新颖的数值优化计算机策略,该策略将迭代网格搜索与Broyden-Fletcher-Goldfarb-Shanno(BFGS)拟牛顿方法无缝集成。
步骤1:网格初始化方法在N-1维空间中生成偶数网格,其中N是贡献者的数量。在只有两个贡献者的应用中,为确保全局优化并避免局部最优,将全似然函数初始化为β0=1/(1+e 0),其中η0是-10,-9.9,-9.8,....,-0.1,0,其使两个贡献者情况的L(n1,n20=1/(1+e 0))最大化。在具有多贡献者情况的应用中,使用softmax转换β,并且然后在高维网格上进行初始化。
步骤2:在网格上执行详尽的搜索,以识别使-log2(L)最小的混合物分数。
步骤3:使用识别的混合物分数进行初始化,然后使用最小化-log2(L)的Broyden-Fletcher-Goldfarb-Shanno(BFGS)拟牛顿法对η进行数值优化。记录优化的混合物分数以及收敛。
步骤4:使用对所识别的混合物分数的数值微分来计算-log 2(L)的海赛矩阵。
步骤5:基于海赛矩阵的逆来确定围绕计算的混合物分数的误差和置信区间。同时,确定海赛矩阵是否为正半定。
步骤6:如果BFGS优化未收敛或海赛矩阵不是正半定值,则将过程配置为优化的下一次迭代。否则优化完成。
步骤7:当要执行优化的下一次迭代时,构建更精细的N-1维网格,该网格覆盖围绕先前确定的η的2N-1个原始网格,这对应于估计的混合物分数。然后,该过程返回到步骤2,以进行网格搜索和BFGS优化的下一次迭代。
人类专家不能手动或在头脑中执行这些步骤的全部。而是,需要一台或多台计算机来执行这些步骤。
具有已知基因型的模型S的迭代策略(KGT.IterLM)
在一些实施方式中,单基因座似然函数包括二项式分布,并且多基因座似燃函数如下:L(β,λ,π;n1,n2)=Πi[∑gi BN(n1i|ni,·p(gi,λ,β))·P(gi|π)]
在一些实施方式中,贡献者包括两个贡献者,并且似然函数为:L(β,λ,π;n1,n2)=∏ig1i,g2i BN(n1i|ni,p1i(g1i,g2i,λ,β))·P(g1i,g2i|π)
其中,L(β,λ,π;n1,n2)是在给定参数β和π的情况下,观察等位基因1和2的等位基因计数矢量n1至n2的似然度;p1i(g1i,g2i,λ,β)是概率参数,将其看作表3的p1′,指示基于两个贡献者基因型(g1i,g2i)的基因座i处等位基因1的概率;并且P(g1i,g2i|π)是在给定群体等位基因频率(π)的情况下观察两个贡献者基因型的先验联合概率。
在一些实施方式中,所有贡献者的基因型是已知的,并且似然函数被表示为L(β,λ;n1,n2)=Пi ni!/(n1i!n2i!)p1i n1ip2i n2i,其中pai=∑d=0...D-1 gdai·βd/[∑d=0...D-1βd·(∑a=1,2gdai)]。如果所有标记都在体染色体上,则pai=1/2·∑d=0...D-1gdai·βd。在矩阵表示法中,这是p←g/2·β。
迭代加权线性回归方法是通过构建成本函数来开发的,该成本函数在β=β0时,在每次迭代中具有与log[L(β;n1,n2)]的梯度相同的梯度:
E=1/2·∑i ni/[p1i0)·(1-p1i0))]·(n1i/ni-p1i(β))2
在矩阵符号中,这是E=1/2·(r-p)T·W2·(r-p),其中W=diag([n/(p0·(1-p0))]1/2)是对角矩阵,并且p0=g/2·β0
给定输入:r,n,g和λ,通过执行以下步骤来执行迭代加权线性回归
步骤1.将β初始化为均匀长度D概率矢量β←[1/D]D
步骤2.对基因型矩阵g的计算误差校正:G←[(1-λ)g+λ(2-g)]/2
步骤3:重复步骤a-步骤e,直到收敛为止
步骤a:使用先前计算的贡献者分数更新预期等位基因1分数:p←G·β
步骤b.计算加权回归的权重W←diag([n/(p·(1-p))]1/2)
步骤c.求解加权线性回归:β←(W·G)-1·(W·r)
步骤d.确保非负性:对于每个贡献者i,βi←max(βi,0)
步骤e.对概率矢量的归一化:β←β/∑iβi-归一化
估计置信区间
基于Cramer-Rao不等式确定估计的置信区间的下界:var(θML)≥1/I(θML),其中θML是参数θ的最大似然估计,而I(θML)是θML处的费舍尔信息。基于此,可以估计上述似然函数中β和c的方差。在Cramér-Rao边界之后,标准误差估计为sqrt(1/H),其中H是可以近似并以BFGS-拟牛顿法估计的Hessian矩阵。
我们在数值优化期间使用以下重新参数化来估计β和c,
β=1/(1+e),
c=eκ
令I(η)和I(κ)为参数化η和κ下的费舍尔信息,则原始参数的费舍尔信息为
I(β)=I(η)(1/(β(1-β))2
I(c)=I(k)(1/c)2
因此,在用于估计标准偏差的数值优化方法的基础上,该实施方式具有以下变换,
std(β)=std(η)·β·(1-β)
std(β)=std(η)·c。
样品
在此使用的样品包含“无细胞”(例如,cfDNA)或细胞结合的(例如,细胞DNA)的核酸。可以通过本领域已知的各种方法从生物样品中获得无细胞核酸,包括无细胞DNA,该生物样品包括但不限于血浆、血清和尿液(参见例如Fan等人,Proc Natl Acad Sci 105:16266-16271[2008];Koide等人,产前诊断第25期:604-607[2005];Chen等人,自然医学第2期:1033-1035[1996];Lo等人,Lancet 350:485-487[1997];Botezatu等人,Clin Chem.46:1078-1084,2000;以及Su等人,J Mol.Diagn.6:101-107[2004])。为了从样品中的细胞中分离无细胞DNA,可以使用各种方法,包括但不限于分级分离、离心(例如密度梯度离心)、DNA特异的沉淀或高通量细胞分选和/或其它分离方法。可获得用于cfDNA手动和自动分离的市售试剂盒(Roche Diagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,DE)。包含cfDNA的生物样品已用于通过可检测染色体非整倍性和/或多种多态性的测序测定来确定是否存在染色体异常,例如21三体。
在各种实施方式中,可以在使用前(例如,在制备测序库之前)特异性或非特异性地富集样品中存在的DNA。样品DNA的非特异性富集是指样品基因组DNA片段的全基因组扩增,其可用于在制备DNA测序库之前增加样品DNA的水平。非特异性富集可以是包含多于一个的基因组的样品中存在的两个基因组之一的选择性富集。例如,非特异性富集可以是血浆样品中癌症基因组的选择性,其可以通过已知方法获得,以增加样品中癌症与正常DNA的相对比例。可替代地,非特异性富集可以是样品中存在的两个基因组的非选择性扩增。例如,非特异性扩增可以是样品中癌症和正常DNA的扩增,该样品包含来自癌症和正常基因组的DNA的混合物。全基因组扩增的方法是本领域已知的。简并寡核苷酸引发的PCR(DOP)、引物延伸PCR技术(PEP)和多置换扩增(MDA)是全基因组扩增方法的示例。在一些实施方案中,包含来自不同基因组的cfDNA混合物的样品未富集混合物中存在的基因组的cfDNA。在其它实施方案中,包含来自不同基因组的cfDNA的混合物的样品对于样品中存在的任何一个基因组非特异性地富集。
例如如上所述,包含在此所述方法所应用的核酸的样品通常包括生物样品(“测试样品”)。在一些实施方式中,通过许多熟知的方法中的任何一种纯化或分离待分析的核酸。
因此,在某些实施方案中,样品包含或由如下组成:纯化的或分离的多核苷酸,或者它可以包含样品,诸如组织样品、生物液体样品、细胞样品等。合适的生物液体样品包括但不限于血液、血浆、血清、汗液、泪液、痰液、尿液、痰、耳流、淋巴液、唾液、脑脊液、创口渗液(ravages)、骨髓悬浮液、阴道流、经宫颈灌洗液、脑液、腹水、奶、呼吸道、肠道和泌尿生殖道的分泌物、羊水、奶和白血球样品。在一些实施方案中,样品是易于通过非侵入性过程获得的样品,例如血液、血浆、血清、汗液、泪液、痰液、尿液、痰、耳流、唾液或粪便。在某些实施方案中,样品是外周血样品,或外周血样品的血浆和/或血清级分。在其它实施方案中,生物样品是拭子或涂片、活组织检查标本或细胞培养物。在另一个实施方案中,样品是两种或更多种生物样品的混合物,例如,生物样品可以包含两种或更多种生物液体样品、组织样品和细胞培养物样品。如在此所使用的,术语“血液”、“血浆”和“血清”明确涵盖其级分或处理部分。类似地,在从活组织检查、拭子、涂片等中获取样品的情况下,“样品”明确涵盖了从活组织检查、拭子、涂片等中得到的处理过的级分或部分。
在某些实施方案中,样品可以从来源获得,包括但不限于,来自不同个体的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体(例如,患有癌症或怀疑患有遗传疾病的个体)、正常个体的样品、在个体疾病的不同阶段获得的样品、从对疾病进行不同处理的个体获得的样品、受到不同环境因素影响的个体的样品、具有对病理易感的个体的样品、对暴露于传染病原体(例如HIV)的样品个体等。
在一个说明性但非限制性的实施方案中,样品是从器官移植的受赠者获得的受赠者样品,诸如来自受赠者的血浆样品,其包括源自该受赠者的cfDNA和源自从供者移植的组织或器官的cfDNA。在该情况下,可以使用在此所述的方法对样品进行分析,以对受赠者和供者DNA部分进行定量。受赠者样品可以是组织样品、生物液二体样品或细胞样品。作为非限制性示例,生物液体包括血液、血浆、血清、汗液、泪液、痰液、尿液、痰、耳流、淋巴液、唾液、脑脊液、创口渗液、骨髓悬浮液、阴道流、经宫颈灌洗液、脑液、腹水、奶、呼吸道、肠道和泌尿生殖道的分泌物以及白血球样品。
在另一个说明性但非限制性的实施方案中,受赠者样品是两种或更多种生物样品的混合物,例如,该生物样品可包含两种或更多种生物液体样品、组织样品和细胞培养物样品。在一些实施方案中,样品是易于通过非侵入性过程获得的样品,例如血液、血浆、血清、汗液、泪液、痰、尿液、奶、痰液、耳流、唾液和粪便。在一些实施方案中,生物样品是外周血样品,和/或其血浆和血清部分。在其它实施方案中,生物样品是拭子或涂片、活组织检查样品或细胞培养物样品。如上所述,术语“血液”、“血浆”和“血清”明确涵盖其级分或处理部分。类似地,在从活组织检查、拭子、涂片等中获取样品的情况下,“样品”明确涵盖了从活组织检查、拭子、涂片等中得到的处理过的级分或部分。
在某些实施方案中,样品也可以获自体外培养的组织、细胞或其它含多核苷酸的来源。培养的样品可以取自包括但不限于在不同培养基和条件(例如,pH、压力或温度)下维持的培养物(例如,组织或细胞)、不同长度的时间内维持的培养物(例如,组织或细胞)、用不同因子或试剂(例如候选药物或调节剂)处理的培养物(例如组织或细胞),或不同类型的组织和/或细胞的培养物。
从生物来源分离核酸的方法是众所周知的,并且将取决于来源的性质而不同。如在此所述的方法所需要,本领域技术人员可以容易地从来源分离核酸。在一些情况下,将核酸样品中的核酸分子片段化可能是有利的。片段化可以是随机的,也可以是特异性的,例如使用限制性核酸内切酶消化所实现的。随机片段化的方法是本领域众所周知的,并且包括例如有限的DNA酶消化、碱处理和物理剪切。在一个实施方案中,样品核酸以cfDNA的形式获得,其不进行片段化。
测序库制备
在一个实施方案中,在此描述的方法可以利用下一代测序技术(NGS),其允许在一次测序运行中将多个样品分别作为基因组分子(即单重测序)或包含索引基因组分子的合并样品(例如多重测序)进行测序。这些方法可生成多达数亿个DNA序列的读序。在多个实施方案中,可以使用例如在此所述的下一代测序技术(NGS)来确定基因组核酸和/或索引的基因组核酸的序列。在多个实施方案中,可以使用如在此所述的一个或多个处理器来执行对使用NGS获得的大量序列数据的分析。
在多个实施方案中,此类测序技术的使用不涉及测序库的制备。
然而,在某些实施方案中,在此考虑的测序方法涉及测序库的制备。在一种说明性方法中,测序库的制备涉及生产准备被测序的衔接子修饰的DNA片段(例如,多核苷酸)的随机集合。可以通过逆转录酶的作用从DNA或RNA,包括DNA或cDNA的等同物、类似物,例如从RNA模板产生的互补或拷贝的DNA的DNA或cDNA,制备多核苷酸的测序库。多核苷酸可以以双链形式(例如,dsDNA,诸如基因组DNA片段、cDNA、PCR扩增产物等)起源,或者在某些实施方案中,多核苷酸可以以单链形式(例如,ssDNA、RNA等)起源,并已转换为dsDNA形式。举例说明,在某些实施方案中,单链mRNA分子可被拷贝成适用于制备测序库的双链cDNA。一级多核苷酸分子的精确序列通常对库制备方法并不重要,并且可以是已知的或未知的。在一个实施方案中,多核苷酸分子是DNA分子。更特别地,在某些实施方案中,多核苷酸分子代表生物体的整个遗传互补物或生物体的基本上整个遗传互补物,并且是基因组DNA分子(例如,细胞DNA、无细胞DNA(cfDNA)等),通常包括内含子序列和外显子序列(编码序列),以及非编码调控序列,诸如启动子和增强子序列。在某些实施方案中,初级多核苷酸分子包含人基因组DNA分子,例如存在于怀孕受试者的外周血中的cfDNA分子。
通过使用包含特定范围的片段大小的多核苷酸,有助于一些NGS测序平台的测序库的制备。此类库的制备通常涉及大多核苷酸(例如细胞基因组DNA)的片段化,以获得所需大小范围的多核苷酸。
片段化可以通过本领域技术人员已知的多种方法中的任何一种方法来实现。例如,可以通过机械手段实现片段化,包括但不限于雾化、超声处理和水力剪切。然而,机械片段化通常会在C-O,P-O和C-C键处切割DNA骨架,导致钝端和3′-和5′-突出端与断裂的C-O、P-O和/C-C键的异质混合(例如,参见Alnemri和Liwack,J Biol.Chem 265:17323-17333[1990];Richards and Boyer,J Mol Biol 11:327-240[1965]),可能需要对其进行修复,因为它们可能缺少随后的酶促反应所需的5′-磷酸,例如,制备测序DNA所需的测序衔接子连接。
相反,cfDNA通常以少于约300个碱基对的片段存在,并且因此,对于使用cfDNA样品生成测序库而言,通常不需要片段化。
通常,无论多核苷酸被强制片段化(例如,体外片段化)还是天然作为片段存在,它们都被转换为具有5’-磷酸和3’-羟基的钝末端DNA。标准方案,例如,使用在此其它地方所述的Illumina平台进行测序的方案,指示用户末端修复样品DNA,以在加dA尾之前纯化末端修复的产物,以及在库制备的衔接子连接步骤之前纯化加dA尾的产物。
在此所述的序列库制备方法的多个实施方案消除了执行通常由标准方案强制执行的一个或多个步骤以获得可被NGS测序的修饰的DNA产物的需要。缩略方法(ABB法)、1步法和2步法是用于制备测序库的方法的示例,其可以在2012年7月20日提交的专利申请13/555,037中找到,其通过引用整体并入。
测序方法
如上所示,将制备的样品(例如,测序库)测序,作为对DNA混合物样品进行定量和解卷积的过程的一部分。可以使用多种测序技术中的任何一种。
一些测序技术是可商购的,如下所述,诸如来自Affymetrix公司(加利福尼亚州Sunnyvale)的杂交测序平台和来自454Life Sciences(康涅狄格州Bradford)的合成测序平台,Illumina/Solexa(来自加利福尼亚州Hayward)和Helicos Biosciences(马萨诸塞州Cambridge),以及来自应用生物系统公司(加利福尼亚州Foster City)的连接测序平台。除了使用Helicos Biosciences的合成测序执行单分子测序外,其它单分子测序技术还包括但不限于Pacific Biosciences的SMRTTM技术、ION TORRENTTM技术以及例如由牛津纳米孔技术公司开发的纳米孔测序。
虽然自动Sanger方法被认为是“第一代”技术,但包括Sanger自动测序的Sanger测序也可以用于在此所述的方法中。其它合适的测序方法包括但不限于核酸成像技术,例如原子力显微术(AFM)或透射电子显微术(TEM)。说明性测序技术在下面更详细地描述。
在一个说明性但非限制性的实施方案中,在此所述的方法包括使用Illumina的合成测序和基于可逆终止子的测序化学(例如,如Bentley等人,自然第6期:53-59页[2009]中所述),获得测试样品中的核酸的序列信息,例如受赠者样品中的cfDNA,包括筛查癌症的受试者的供者DNA和受赠者DNA、cfDNA或细胞DNA等。模板DNA可以是基因组DNA,例如细胞DNA或cfDNA。在一些实施方案中,将来自分离的细胞的基因组DNA用作模板,并将其片段化为几百个碱基对的长度。在其它实施方案中,将cfDNA用作模板,并且不需要片段化,因为cfDNA作为短片段存在。例如,胎儿cfDNA以约170个碱基对(bp)的长度的片段在血流中循环(Fan等人,临床化学第56期:1279-1286页[2010]),并且在测序之前不需要DNA的片段化。循环肿瘤DNA也以短片段存在,其大小分布在约150-170bp处达到峰值。Illumina的测序技术依赖于将片段化的基因组DNA附着到平面的光学透明的表面,在该表面上结合了寡核苷酸锚。对模板DNA进行末端修复,以生成5′-磷酸化的钝末端,且Klenow片段的聚合酶活性用于在钝的磷酸化DNA片段的3′末端添加单个A碱基。该添加为连接至寡核苷酸衔接子的DNA片段做好了准备,该寡核苷酸衔接子的3′末端具有单个T碱基的突出端,以提高连接效率。衔接子寡核苷酸与流通池锚定寡核苷酸互补(在重复扩增分析中不要与锚/锚定读序混淆)。在有限稀释条件下,将衔接子修饰的单链模板DNA添加到流通池中,并通过与锚定寡核苷酸的杂交来固定。延伸附着的DNA片段并进行桥扩增,以创建具有数亿个簇的超高密度测序流通池,每个簇包含约1000个相同模板的副本。在一个实施方案中,在将随机片段化的基因组DNA进行簇扩增之前,使用PCR对其进行扩增。可替代地,使用无扩增(例如,无PCR)的基因组库制备,并且仅使用簇扩增来富集随机片段化的基因组DNA(Kozarewa等人,自然方法第6期:291-295页[2009])。使用强大的四色DNA合成测序技术对模板进行测序,该技术采用可逆的终止子和可移除的荧光染料。使用激光激发和全内反射光学器件可以实现高敏感性的荧光检测。将约数十至几百个碱基对的短序列读序与参考基因组比对,并使用专门开发的数据分析流水线软件来识别短序列读序至参考基因组的唯一映射。第一读序完成后,可以在原位再生模板,以从片段的另一端进行第二读序。因此,可以使用DNA片段的单端或双端测序。
本公开的多个实施方案可以使用允许配对末端测序的合成测序。在一些实施方案中,Illumina的合成平台的测序涉及将片段聚类。聚类是每个片段分子被等温扩增的过程。在一些实施方案中,如这里所述的示例,片段具有附着至片段两端的两个不同的衔接子,该衔接子允许片段与流通池泳道表面上的两个不同的寡核苷酸杂交。该片段进一步在片段的两端包括或连接到两个索引序列,该索引序列提供标记以识别多重测序中的不同样品。在一些测序平台中,待测序的片段也称为插入物。
在一些实施方式中,用于在Illumina平台中聚类的流通池是带有泳道的载玻片。每个泳道是涂覆有两种类型的寡核苷酸的玻璃通道。表面上的两种类型的寡核苷酸中的第一种使杂交成为可能。该寡核苷酸与片段一端上的第一衔接子互补。聚合酶产生杂交片段的互补链。双链分子被变性,并且原始模板链被洗掉。剩余的链与许多其它剩余的链平行,通过桥接应用克隆扩增。
在桥扩增中,链重叠,并且在链的第二端上的第二衔接子区域与流通池表面上的第二类型的寡核苷酸杂交。聚合酶生成互补链,形成双链桥分子。该双链分子被变性,从而导致两个单链分子通过两个不同的寡核苷酸束缚到流通池。然后,该过程一遍又一遍地重复,并且对于数百万个簇同时发生,从而导致所有片段的克隆扩增。桥扩增后,将反向链切割并洗掉,仅留下正链。封闭3′端以防止出现不希望的引发。
聚类后,测序开始于延伸第一测序引物以生成第一读序。在每个循环中,荧光标记的核苷酸竞争添加到生长链中。基于模板的序列仅掺入一个。添加每个核苷酸后,簇被光源激发,并发射出特征性的荧光信号。循环数确定了读序的长度。发射波长和信号强度确定了碱基呼叫出。对于给定的簇,同时对所有相同的链进行读序。数亿的簇以大规模并行的方式测序。第一读序完成后,将读序的产物洗掉。
在涉及两个索引引物的方案的下一步骤中,引入索引1引物并与模板上的索引1区域杂交。索引区域提供了片段的识别,这用于在多重测序过程中对样品进行解复用。索引1读序类似于第一读序来生成。在完成索引1读序后,将读序的产物洗掉,并将链的3′末端去保护。然后,模板链重叠并与流通池上的第二寡核苷酸结合。以与索引1相同的方式对索引2序列进行读序。然后在该步骤完成时洗出索引2读序产物。
在对两个索引读序后,通过使用聚合酶延伸第二流通池寡核苷酸来启动读序2,形成双链桥。该双链DNA变性,并且封闭3′末端。最初的正链被切割并洗掉,留下了反向链。读序2开始于读序2测序引物的引入。与读序1一样,重复测序步骤,直到达到所需的长度。读序2产物被洗掉。该整个过程会生成表示所有片段的数百万个读序。来自合并样品库的序列基于样品制备期间引入的唯一索引进行分离。对于每个样品,将对碱基呼叫出的相似片段读序进行本地聚类。将正向和反向读序配对以创建连续序列。将这些连续序列与参考基因组比对,以进行变体识别。
上面描述的合成测序示例涉及配对末端读序,其在公开的方法的许多实施方案中使用。配对末端测序涉及片段两端的两次读序。当一对读序被映射到参考序列时,可以确定两个读序之间的碱基对距离,然后可以使用该距离来确定从中获得读序的片段的长度。在一些情况下,跨过两个条带的片段的一对末端读序之一将与一个条带对齐,而另一个将其与相邻条带对齐。随着条带变长或读序变短,这种情况变得越来越少。可以使用各种方法来解释这些片段的条带成员身份。例如,可以在确定条带的片段大小频率时将它们省略;可以针对两个相邻条带计数它们;可以将它们分配给包含两个条带中较大碱基对数的条带;或者可以将它们分配给两个条带,其权重与每个条带中碱基对的一部分有关。
配对末端读序可以使用不同长度的插入物(即,要测序的不同片段大小)。作为本公开中的默认含义,成对的末端读序用于指从各种插入长度获得的读序。在一些情况下,用于区分短插入配对末端读序和长插入配对末端读序,后者也称为伴侣配对读序。在涉及伴侣对读序的一些实施方案中,首先将两个生物素连接衔接子附着到相对长的插入物(例如,几kb)的两端。然后,生物素连接衔接子将插入物的两个末端连接,形成环状分子。然后可以通过进一步将环状分子片段化来获得包含生物素连接衔接子的子片段。然后可以通过与上述短插入配对末端测序相同的方法,对包括原始片段两端相反顺序的子片段进行测序。使用Illumina平台进行伴侣配对测序的更多详细信息显示在以下URL的在线出版物中,该URL全文通过引用并入:res|·|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing。关于配对末端测序的附加信息可以在美国专利号7601499和美国专利公开号2012/0,053,063中找到,关于配对末端测序方法和装置的材料,其通过引用并入。
在对DNA片段测序之后,将预定长度例如100bp的序列读序映射到已知的参考基因组或与其比对。映射或比对的读序及其在参考序列上的对应位置也称为标签。在一个实施方案中,参考基因组序列是NCBI36/hg18序列,其可在万维网上以genome dot ucsc dotedu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)获得。可替代地,参考基因组序列是GRCh37/hg19,其可在万维网上以genome dot ucsc dot edu/cgi-bin/hgGateway获得。其它公共序列信息来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)和DDBJ(日本DNA数据库)。有许多计算机算法可用于比对序列,包括但不限于BLAST(Altschul等,1990)、BLITZ(MPsrch)(Sturrock&Collins,1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead等人,Genome Biology 10:R25.1-R25.10[2009])或ELAND(Illumina公司,圣地亚哥,加利福尼亚州,美国)。在一个实施方案中,对血浆cfDNA分子的克隆扩展副本的一端进行测序,并通过Illumina基因组分析仪的生物信息学比对分析进行处理,该分析仪使用核苷酸数据库的高效大规模比对(ELAND)软件。
在一个说明性但非限制性的实施方案中,在此所述的方法包括使用Helicos TrueTrue Molecule Sequencing(tSMS)技术的单分子测序技术(例如,如Harris TD等人,科学第320期:106-109页[2008]中所述),获得测试样品中的核酸的序列信息,例如受赠者样品中的cfDNA,包括筛查癌症的受试者中的受赠者和供者DAN、cfDNA或细胞DNA等。在tSMS技术中,将DNA样品切割成约100至200个核苷酸的链,并且然后将polyA序列添加到每条DNA链的3′末端。每条链通过添加荧光标记的腺苷核苷酸进行标记。然后将DNA链杂交到流通池,该流通池包含数百万个固定在流通池表面的寡T捕获位点。在某些实施方案中,模板的密度可以为约1亿个模板/cm2。然后将流通池加载到仪器(例如HeliScopeTM测序仪)中,并且激光照射流通池的表面,以显示每个模板的位置。CCD相机可以在流通池表面上映射模板的位置。然后切割模板荧光标记并洗掉。测序反应通过引入DNA聚合酶和荧光标记的核苷酸开始。寡T核酸用作引物。聚合酶以模板引导的方式将标记的核苷酸掺入引物。去除聚合酶和未掺入的核苷酸。通过对流通池表面进行成像,可以识别出已定向掺入荧光标记核苷酸的模板。成像之后,切割步骤将去除荧光标记,并且然后采用其它荧光标记的核苷酸重复该过程,直到实现所需的读序长度。在每个核苷酸添加步骤中收集序列信息。通过单分子测序技术进行的全基因组测序在测序库的制备中排除或通常避免了基于PCR的扩增,并且该方法允许直接测量样品,而不是测量该样品的副本。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用454测序(Roche)(例如,如Margulies,M.等人,自然第437期:376-380页[2005]中所述)获得测试样品中的核酸的序列信息,例如受赠者测试样品中的cfDNA,包括筛查癌症的受试者中的受赠者和供者DNA、cfDNA或细胞DNA等。454测序通常涉及两个步骤。在第一步骤中,将DNA剪切成约300-800个碱基对的片段,并且然后将片段钝端化。然后将寡核苷酸衔接子连接至片段的末端。衔接子用作片段的扩增和测序的引物。可以使用例如含有5′-生物素标签的衔接子B,将片段附着到DNA捕获珠子,例如链霉亲和素包被的珠子。在油水乳状液的液滴内PCR扩增附着到珠子的片段。结果是每个珠子上克隆扩增的DNA片段有多个副本。在第二步骤中,将珠子捕获在孔(例如皮升大小的孔)中。对每个DNA片段并行进行焦磷酸测序。一个或多个核苷酸的添加生成光信号,该光信号由CCD相机在测序仪中记录。信号强度与掺入的核苷酸数成比例。焦磷酸测序利用焦磷酸(PPi),其在添加核苷酸后释放。在存在5′磷硫酸腺苷(adenosine5’phosphosulfate)的情况下,PPi通过ATP硫化酶转换为ATP。萤光素酶使用ATP将萤光素转换为氧化萤光素,并且该反应生成可以进行测量和分析的光。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用SOLiDTM技术(Applied Biosystems),获得测试样品中的核酸的序列信息,例如受赠者测试样品中的cfDNA、筛选癌症的受试者中的cfDNA或细胞DNA等。在SOLiDTM连接测序中,将基因组DNA剪切成片段,并将衔接子附着到片段的5′和3′末端以生成片段库。可替代地,可以通过将衔接子连接至片段的5′和3′末端,环化片段,消化环化片段以生成内部衔接子并将衔接子附着至所得片段的5′和3′末端以生成伴侣配对库,来引入内部衔接子。接下来,在含有珠子、引物、模板和PCR成分的微反应器中制备克隆珠子群体。PCR之后,使模板变性,并富集珠子以分离具有扩展模板的珠子。所选珠子上的模板经过3′修饰,其允许与载玻片结合。可以通过将部分随机的寡核苷酸与由特定荧光团识别的中心确定的碱基(或碱基对)进行顺序杂交和连接来确定序列。记录颜色后,将连接的寡核苷酸切割并去除,并且然后重复该过程。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用PacificBiosciences的单分子实时(SMRTTM)测序技术,获得测试样品中的核酸的序列信息,例如受赠者测试样品中的cfDNA、筛查癌症的受试者中的cfDNA或细胞DNA等。在SMRT测序中,在DNA合成期间对染料标记核苷酸的连续掺入成像。单个DNA聚合酶分子附着到各个零模式波长检测器(ZMW检测器)的底表面,该检测器在将磷酸化的核苷酸掺入正在生长的引物链中时获得序列信息。ZMW检测器包括限制结构,该限制结构使得能够针对迅速扩散入出ZMW(例如,以微秒为单位)的荧光核苷酸的背景观察通过DNA聚合酶掺入单个核苷酸。通常需要几毫秒的时间才能将核苷酸掺入正在生长的链中。在此期间,荧光标记被激发并产生荧光信号,并且荧光标签被切割掉。染料的对应荧光的测量表明掺入了哪种碱基。重复该过程以提供序列。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用纳米孔测序(例如,如在Soni GV和Meller A.临床化学第53期:1996-2001[2007]中所述),获得测试样品中的核酸的序列信息,例如母体或受赠者测试样品中的cfDNA、筛查癌症的受试者中的cfDNA或细胞DNA等。纳米孔测序DNA分析技术是由许多公司开发的,包括,例如,牛津纳米孔技术公司(英国牛津)、Sequenom、NABsys等。纳米孔测序是一种单分子测序技术,通过该技术,单分子DNA在通过纳米孔时即可直接测序。纳米孔是小孔,通常直径约为1纳米。纳米孔浸入导电流体中并在其上施加电势(电压)导致由于离子通过纳米孔的传导而产生少量电流。流过的电流量对纳米孔的大小和形状敏感。当DNA分子穿过纳米孔时,DNA分子上的每个核苷酸都会以不同程度阻塞纳米孔,从而以不同程度改变通过纳米孔的电流大小。因此,当DNA分子穿过纳米孔时电流中的该变化提供了DNA序列的读序。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用化学敏感的场效应晶体管(chemFET)阵列(例如,如美国专利申请公开号2009/0026082中所述),获得测试样品中的核酸的序列信息,例如受赠者测试样品中的cfDNA、筛查癌症的受试者中的cfDNA或细胞DNA等。在该技术的一个示例中,可以将DNA分子放入反应室中,并且可以将模板分子与结合到聚合酶上的测序引物杂交。将一种或多种三磷酸酯掺入测序引物3′端的新核酸链中可以由chemFET识别为电流变化。阵列可以具有多个chemFET传感器。在另一个示例中,可以将单个核酸附着到珠子,并且可以在珠子上扩增核酸,并且可以将各个珠子转移到chemFET阵列上的各个反应室,每个室都具有chemFET传感器,并且可以测序核酸。
在另一个实施方案中,本方法包括使用透射电子显微术(TEM)获得测试样品中的核酸,例如受赠者测试样品中的cfDNA的序列信息。被称为个体分子放置快速纳米转移(IMPRNT)的该方法,包括利用选择性地用重原子标记物标记的高分子量(150kb或更大)DNA的单原子分辨率透射电子显微术成像,以及将这些分子排列在具有一致的碱基间距的超密集(3nm链对链)平行阵列中的超薄膜上。电子显微镜用于对胶片上的分子成像,以确定重原子标记的位置,并从DNA中提取碱基序列信息。该方法在PCT专利公开WO 2009/046445中进一步描述。该方法允许在不到十分钟的时间内对完整的人类基因组进行测序。
在另一个实施方案中,DNA测序技术是离子激流单分子测序,其将半导体技术与简单的测序化学结合以将化学编码的信息(A,C,G,T)直接翻译成半导体芯片上的数字信息(0、1)。实际上,当核苷酸通过聚合酶掺入DNA链时,氢离子作为副产物释放出来。离子激流使用高密度的微型加工孔阵列以大规模并行方式执行该生化过程。每个孔中都有不同的DNA分子。孔下面是离子敏感层,并且在离子敏感层下方是离子传感器。当将核苷酸(例如C)添加到DNA模板中,并且然后掺入DNA链中时,氢离子将被释放。该离子的电荷会改变溶液的pH值,这可通过离子激流的离子传感器检测到。测序仪本质上是世界上最小的固态pH计-检出碱基,直接从化学信息转变为数字信息。然后,离子个人基因组机(PGMTM)测序仪依次用一个核苷酸接另一个核苷酸来淹没芯片。如果淹没芯片的下一个核苷酸不匹配。则不会记录任何电压变化,也不会检出任何碱基。如果DNA链上有两个相同的碱基,则电压将加倍,并且芯片将记录检出的两个相同的碱基。直接检测允许以秒钟记录核苷酸掺入。
在另一个实施方案中,本方法包括通过杂交测序获得测试样品中的核酸,例如受赠者测试样品中的cfDNA的序列信息。杂交测序包括使多个多核苷酸序列与多个多核苷酸探针接触,其中多个多核苷酸探针中的每一个多核苷酸探针可以可选地束缚至底物。底物可能是包含已知核苷酸序列阵列的平坦表面。阵列的杂交模式可用于确定样品中存在的多核苷酸序列。在其它实施方案中,每个探针被束缚到珠子,例如磁珠等。可以确定与珠子的杂交,并用于识别样品内的多个多核苷酸序列。
在此描述的方法的一些实施方案中,映射的序列标签包含约20bp,约25bp,约30bp,约35bp,约40bp,约45bp,约50bp,约55bp,约60bp,约65bp,约70bp,约75bp,约80bp,约85bp,约90bp,约95bp,约100bp,约110bp,约120bp,约130,约140bp,约150bp,约200bp,约250bp,约300bp,约350bp,约400bp,约450bp,或约500bp的测序读序。预期技术上的进步将使大于500bp的单端读序成为可能,从而在生成配对末端读序时允许大于约1000bp的读序。在一个实施方案中,所映射的序列标签包含36bp的序列读序。通过将标签的序列与参考序列进行比较以确定测序的核酸(例如cfDNA)分子的染色体来源,实现序列标签的映射,并且不需要特定的遗传序列信息。可以允许很小程度的失配(每序列标签0-2个失配),以说明参考基因组和混合样品中的基因组之间可能存在的微小多态性。
通常每样品获得多个序列标签。在一些实施方案中,通过将读序映射到每样品的参考基因组,可获得包含75bp读序的至少约1×105个序列标签。
正确定量DNA混合物样品所需的准确度取决于测序运行中样品之间映射至参考基因组的序列标签数量的变化(运行间变异性)以及在不同测序运行中映射到参考基因组的序列标签数量的变化(运行间变异性)。使用不同的方案提取和纯化核酸,制备测序库以及使用不同的测序平台可能会导致其它变化。
对多种来源的核酸混合物进行解卷积和定量的装置和系统
通常使用各种计算机程序来执行测序数据的分析和从中导出的诊断。因此,某些实施方案采用涉及存储在一个或多个计算机系统或其它处理系统中或通过其传输的数据的处理。在此公开的实施方案还涉及用于执行这些操作的装置。该装置可以被特殊构造用于所需目的,或者它可以是由计算机中存储的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或一组计算机)。在一些实施方案中,一组处理器协作地(例如,经由网络或云计算)和/或并行地执行所列举的分析操作中的一些或全部。用于执行在此描述的方法的一个处理器或一组处理器可以是各种类型的,包括微控制器和微处理器,诸如可编程设备(例如,CPLD和FPGA)以及非可编程设备,诸如门阵列ASIC或通用微处理器。
另外,某些实施方案涉及有形和/或非暂态计算机可读介质或计算机程序产品,其包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的示例包括但不限于半导体存储器设备,诸如磁盘驱动器、磁带的磁性介质,诸如CD的光学介质、磁光介质以及专门配置用于存储和执行程序指令的硬件设备,诸如只读存储器设备(ROM)和随机存取存储器(RAM)。计算机可读介质可以由终端用户直接控制,或者介质可以由终端用户间接控制。直接控制的介质的示例包括位于用户设施处的介质和/或未与其它实体共享的介质。间接控制介质的示例包括用户可以经由外部网络和/或经由提供共享资源(诸如“云”)的服务间接访问的介质。程序指令的示例包括机器代码,诸如由编译器生成的机器代码,以及包含更高级别代码的文件,该代码可以由计算机使用解释器执行。
在多个实施方案中,以电子格式提供在所公开的方法和装置中采用的数据或信息。此类数据或信息可以包括衍生自核酸样品的读序和标签,与参考序列的特定区域比对(例如,与染色体或染色体片段比对)的此类标签的计数或密度,参考序列(包括仅提供或主要提供多态性的参考序列),诸如SNV或非整倍性检出的检出,咨询建议,诊断等。如在此所使用的,以电子格式提供的数据或其它信息可用于存储在机器上以及机器之间的传输。通常地,以数字形式提供电子格式的数据,并且可以将其作为位和/或字节存储在各种数据结构、列表、数据库等中。该数据可以以电子、光学等方式体现。
一个实施方案提供了一种计算机程序产品,用于在测试样品中生成指示与癌症相关联的SNV或非整倍性的存在或不存在的输出。该计算机产品可以包含用于执行上述任何一种或多种确定染色体异常的方法的指令。如所解释的,计算机产品可以包括具有记录在其上的计算机可执行或可编译逻辑(例如,指令)的非暂态和/或有形计算机可读介质,以使处理器能够对DNA混合物样品进行定量。在一个示例中,计算机产品包括计算机可读介质,该计算机可读介质包括具有记录在其上的计算机可执行或可编译逻辑(例如,指令),以使处理器能够对DNA混合物样品进行定量。
来自所考虑的样品的序列信息可以被映射到染色体参考序列,以识别用于任何一个或多个感兴趣的染色体中的每一个染色体的多个序列标签。在多个实施方案中,参考序列被存储在例如关系数据库或对象数据库的数据库中。
应该理解,对于一个没有帮助的人来说,执行在此所公开的方法的计算操作是不切实际的,或甚至在大多数情况下是不可能的。例如,在不借助计算装置的情况下,将样本中的单个30bp读序映射到任何人类染色体上可能需要花费多年的努力。
在此公开的方法可以使用用于对DNA混合物样品进行定量的系统来执行。该系统包括:(a)测序仪,用于从测试样品中接收核酸,提供来自样品的核酸序列信息;(b)处理器;以及(c)一种或多种计算机可读存储介质,其上存储有用于在所述处理器上执行以执行使DNA混合物样品进行定量的方法的指令。
在一些实施方案中,该方法由其上存储有用于执行对DNA混合物样品进行定量的方法的计算机可读指令的计算机可读介质指示。因此,一个实施方案提供了一种计算机程序产品,该计算机程序产品包括其上存储有计算机可执行指令的一个或多个计算机可读非暂态存储介质,该计算机可执行指令在由计算机系统的一个或多个处理器执行时使该计算机系统实现用于对DNA混合物样品进行定量的方法。该方法包括:(a)从核酸样品中提取核酸分子;(b)扩增提取的核酸分子;(c)使用核酸测序仪对扩增的核酸分子进行测序以产生核酸序列读序;(d)由一个或多个处理器将核酸序列读序映射到参考序列上的一个或多个多态性基因座;(e)使用映射的核酸序列读序并由一个或多个处理器确定在一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数;以及(f)使用概率混合物模型并由一个或多个处理器对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量,其中使用概率混合物模型包括将概率混合物模型应用于核酸序列读序的等位基因计数,以及其中概率混合物模型使用概率分布对一个或多个多态性基因座处的核酸序列读序的等位基因计数进行建模,该概率分布考虑了核酸序列读序序列和计数中的错误。
在一些实施方案中,指令可以进一步包括在针对提供受赠者测试样品的人类受试者的患者病历中自动记录与该方法有关的信息。患者病历可以由例如实验室、医师办公室、医院、健康维护组织、保险公司或个人病历网站维护。此外,基于处理器实施的分析的结果,该方法可以进一步包括对从其获取了受赠者测试样品的人类受试者进行处方、开始和/或改变治疗。这可涉及对从受试者采集的其它样品进行一项或多项其它测试或分析。
所公开的方法也可以使用计算机处理系统来执行,该计算机处理系统适于或配置为执行用于对DNA混合物样品进行定量的方法。一个实施方案提供了一种计算机处理系统,该计算机处理系统适于或配置为执行在此所述的方法。在一个实施方案中,该装置包括测序设备,该测序设备适于或配置用于对样品中核酸分子的至少一部分进行测序以获得在此其它各处所述的序列信息的类型。该装置还可包括用于处理样品的组件。此类组件在此其它地方描述。
序列或其它数据可以直接或间接输入计算机或存储在计算机可读介质上。在一个实施方案中,计算机系统直接偶联至测序设备,该测序设备读序和/或分析来自样品的核酸序列。来自此类工具的序列或其它信息经由计算机系统中的界面提供。可替代地,从序列存储源(诸如数据库或其它存储库)提供系统处理的序列。一旦可用于处理装置,存储器设备或大容量存储设备至少临时地缓冲或存储核酸序列。另外,存储器设备可以存储各种染色体或基因组等的标签计数。存储器还可以存储各种例程和/或程序,用于分析呈现序列或映射数据。此类程序/例程可以包括用于执行统计分析的程序等。
在一个示例中,用户将样品提供到测序装置中。数据由连接到计算机的测序装置收集和/或分析。计算机上的软件允许数据收集和/或分析。数据可以存储、显示(经由监视器或其它类似设备)和/或发送到另一位置。该计算机可以连接到互联网,该互联网用于将数据传输到远程用户(例如,医师、科学家或分析人员)使用的手持设备。应当理解,可以在传输之前存储和/或分析数据。在一些实施方案中,原始数据被收集并发送到将分析和/或存储数据的远程用户或装置。传输可以经由互联网进行,也可以经由卫星或其它连接进行。可替代地,可以将数据存储在计算机可读介质上,并且可以将该介质运送给最终用户(例如,经由邮件)。远程用户可以在相同或不同的地理位置,包括但不限于建筑物、城市、州、国家或大洲。
在一些实施方案中,该方法还包括收集关于多个多核苷酸序列(例如,读序、标签和/或参考染色体序列)的数据,并将该数据发送到计算机或其它计算系统。例如,计算机可以连接到实验室设备,例如样品收集装置、核苷酸扩增装置、核苷酸测序装置或杂交装置。然后,计算机可以收集实验室设备收集的适用数据。可以在任何步骤将数据存储在计算机上,例如,在发送之前、发送期间或结合发送期间或发送之后实时收集实时信息。数据可以存储在可以从计算机提取的计算机可读介质上。所收集或存储的数据可以例如经由局域网或诸如互联网的广域网从计算机传输到远程位置。如下所述,在远程位置可以对传输的数据执行各种操作。
在此公开的系统、装置和方法中可以存储、传输、分析和/或操纵的电子格式化数据的类型如下:
通过对测试样品中的核酸进行测序获得的读序
通过将读序与参考基因组或一个其它参考序列或多个其它参考序列进行比对获得的标签
参考基因组或序列
等位基因计数-参考基因组或其它参考序列的每个等位基因和区域的标签计数或数量
确定的贡献者核酸分数和相关联的置信区间
诊断(与检出相关的临床状况)
从检出和/或诊断得出的进一步测试建议
从检出和/或诊断得出的治疗和/或监视计划
可以使用不同的装置在一个或多个位置处获得、存储、传输、分析和/或操纵这些各种类型的数据。处理选项跨越宽的频谱。在频谱的一端,所有或许多该信息都存储在处理测试样品的位置,例如医生办公室或其它临床场所,并在其中使用。在另一种极端情况下,样品在一个位置获得,可以在不同的位置进行处理和任选地测序,在一个或多个不同的位置进行读序比对和检出,并在另外一个位置处(可能是获得样本的位置)准备诊断、建议和/或计划。
在多个实施方案中,用测序装置生成读序,并且然后将其传输至远程位点,在该位点处对其进行处理以产生检出。例如,在该远程位置处,将读序与参考序列进行比对以产生标签,将其计数并分配给感兴趣的染色体或片段。同样在远程位置处,剂量被用于生成检出。
在不同位置处可以采用的处理操作如下:
样品收集
在测序之前的样品处理
测序
分析序列数据并对DNA混合物样品进行定量
诊断
向患者或医疗护理提供者报告诊断和/或检出
制定进一步治疗、测试和/或监视的计划
执行计划
咨询
这些操作中的任何一个或多个操作可以如在此其它地方所述自动进行。通常,序列数据的测序和分析以及DNA混合物样品的定量将通过计算进行。其它操作可以手动或自动执行。
可以执行样品收集的位置的示例包括医疗从业人员的办公室、诊所、患者的家(提供样品收集工具或试剂盒的地方)以及移动式医疗车。可以在测序之前进行样品处理的位置的示例包括医疗从业人员的办公室、诊所、患者的家(提供样品处理装置或试剂盒的位置)、移动式医疗车以及DNA分析提供者的设施。可以执行测序的位置的示例包括医疗从业人员的办公室、诊所、医疗从业人员的办公室、诊所、患者的家(提供样品测序装置和/或试剂盒的地方)、移动医疗车和DNA分析提供者的设施。可以在进行测序的位置提供专用的网络连接,用于以电子格式传输序列数据(通常为读序)。此类连接可以是有线的或无线的,并且具有并且可以被配置为将数据发送到可以在传输到处理站点之前处理和/或聚合数据的站点。数据聚合器可以由健康组织(诸如健康维护组织(HMO))维护。
分析和/或推导操作可以在前述位置中的任何一个位置处执行,或者可替代地在专用于计算和/或分析核酸序列数据的服务的另一远程站点处执行。此类位置包括,例如,诸如通用服务器场的集群、DNA分析服务业务的设施等。在一些实施方案中,用于执行分析的计算设备是和赁的或出租的。计算资源可以是处理器的互联网可访问集合的一部分,该处理器诸如俗称云的处理资源。在一些情况下,计算由一组相互关联或不关联的处理器并行或大规模并行执行。可以使用诸如集群计算、网格计算等的分布式处理来完成该处理。在此类实施方案中,计算资源的集群或网格共同形成由多个处理器或计算机共同组成的超级虚拟计算机,该多个处理器或计算机共同作用以执行在此所述的分析和/或推导。如在此所述,这些技术以及更常规的超级计算机可以用于处理序列数据。每种都是依赖处理器或计算机的并行计算形式。在网格计算的情况下,这些处理器(通常是整个计算机)通过网络(专用、公用或互联网)通过常规网络协议(诸如以太网)连接。相比之下,超级计算机具有许多通过本地高速计算机总线连接的处理器。
在某些实施方案中,在与分析操作相同的位置处生成诊断。在其它实施方案中,它在不同的位置处执行。在某些示例中,报告诊断在取样的位置处执行,尽管并非必须如此。可以生成或报告诊断和/或执行计划的位置的示例包括医疗从业人员的办公室、诊所、计算机可访问的互联网站点以及手持设备,诸如具有网络的有线或无线连接的手机、平板计算机、智能电话等。执行咨询的位置的示例包括健康从业人员的办公室、诊所、可通过计算机访问的互联网站点、手持设备等。
在一些实施方案中,样品收集、样品处理和测序操作在第一位置处执行,并且分析和推导操作在第二位置处执行。然而,在一些情况下,样品收集在一个位置处(例如,健康从业人员的办公室或诊所)收集,并且样品处理和测序在不同的位置处执行,该位置可选地是进行分析和导出的相同位置。
在多个实施方案中,可以由用户或实体启动样品收集、样品处理和/或测序来触发上面列出的操作的顺序。在一个或多个这些操作开始执行之后,其它操作自然会随之而来。例如,测序操作可导致读序被自动收集并发送到处理装置,然后该处理装置通常自动地并且可能在没有进一步用户干预的情况下进行序列分析并对DNA混合物样品进行定量。在一些实施方式中,然后将该处理操作的结果可能以重新格式化作为诊断自动地传递给向健康专业人员和/或患者报告信息的系统组件或实体。如所解释的,此类信息还可以被自动处理以产生治疗、测试和/或监视计划,可能连同咨询信息。因此,启动早期操作可以触发端到端的顺序,在该顺序中,向健康专业人员、患者或其它有关方面提供对身体状况有用的诊断、计划、咨询和/或其它信息。即使整个系统的各部分在物理上是分开的,并且可能远离例如样品和测序装置的位置,也可以实现这一点。
图4以简单的框格式示出了根据某些实施方案的典型的计算机系统,当适当地配置或设计该计算机系统时,该计算机系统可以用作计算装置。计算机系统2000包括偶联到存储设备的任何数量的处理器2002(也称为中央处理单元或CPU),该存储设备包括主存储装置2006(通常是随机存取存储器或RAM)、主存储装置2004(通常是只读存储器或ROM)。CPU2002可以是各种类型,包括诸如可编程设备(例如,CPLD和FPGA)的微控制器和微处理器,以及诸如门阵列ASIC或通用微处理器的非可编程设备。在所描绘的实施方案中,主存储装置2004用于向CPU单向传送数据和指令,并且主存储装置2006通常用于以双向方式传送数据和指令。这两个主存储设备都可以包括任何合适的计算机可读介质,诸如上述介质。大容量存储设备2008还双向偶联到主存储装置2006,并且提供附加的数据存储容量,并且可以包括上述任何计算机可读介质。大容量存储设备2008可以用于存储程序、数据等,并且通常是诸如硬盘的辅助存储介质。通常,此类程序、数据等被临时复制到主存储器2006以在CPU2002上执行。将理解的是,保留在大容量存储设备2008中的信息在适当的情况下可以以标准方式被结合为主存储装置2004一部分。诸如CD-ROM 2014的特定大容量存储设备还可以单向地将数据传递给CPU或主存储装置。
CPU 2002还偶联至接口2010,该接口2010连接至一个或多个输λ/输出设备,诸如核酸测序仪(2020)、视频监视器、跟踪球、鼠标、键盘、麦克风、触敏显示器、换能器卡读卡器、磁带或纸带读卡器、平板计算机、手写笔、语音或手写识别外围设备、USB端口或其它众所周知的输入设备,诸如其它计算机。最后,CPU 2002可以可选地使用外部连接(如2012处总体所示)连接到外部设备,诸如数据库、计算机或电信网络。通过此类连接,可以预期CPU可能从网络接收信息,或可能会在执行在此所述方法步骤的过程中向网络输出信息。在一些实施方式中,代替或除了经由接口2010之外,核酸测序仪(2020)还可以经由网络连接2012通信地链接至CPU 2002。
在一个实施方案中,诸如计算机系统2000的系统用作能够执行在此所述的一些或全部任务的数据导入、数据关联和查询系统。可以经由网络连接2012提供包括数据文件的信息和程序,以供研究者访问或下载。可替代地,可以在存储设备上将此类信息、程序和文件提供给研究人员。
在一个具体实施方案中,计算机系统2000直接偶联到数据获取系统,诸如微阵列、高通量筛选系统或从样品捕获数据的核酸测序仪(2020)。来自此类系统的数据经由接口2010提供,以供系统2000分析。可替代地,由系统2000处理的数据从诸如数据库或相关数据的其它存储库的数据存储源提供。一旦进入装置2000,诸如主存储装置2006或大容量存储装置2008的存储器设备至少临时地缓冲或存储相关数据。存储器还可存储用于导入、分析和呈现数据的各种例程和/或程序,包括序列读序、UMI、用于确定序列读序、重叠序列读序和纠正读序中的错误的代码等。
在某些实施方案中,在此使用的计算机可以包括用户终端,该用户终端可以是任何类型的计算机(例如,台式计算机、膝上型计算机、平板计算机等)、媒体计算平台(例如,电缆、卫星机顶盒、数字录像机等)、手持计算设备(例如PDA、电子邮件客户端等)、手机或任何其它类型的计算或通信平台。
在某些实施方案中,在此使用的计算机还可以包括与用户终端通信的服务器系统,该服务器系统可以包括服务器设备或分散式服务器设备,并且可以包括大型计算机、小型计算机、超级计算机、个人计算机,或其组合。在不脱离本发明的范围的情况下,也可以使用多个服务器系统。用户终端和服务器系统可以通过网络彼此通信。该网络可以包括例如有线网络,诸如LAN(局域网)、WAN(广域网)、MAN(城域网)、ISDN(集成服务数字网络)等,以及无线网络,诸如无线LAN、CDMA、蓝牙和卫星通信网络等,而不限制本发明的范围。
图5示出了用于从测试样品产生检出或诊断的分散系统的一种实施方式。样本收集位置01用于从诸如孕妇或推定的癌症患者的患者获得测试样品。然后将样品提供给处理和测序位置03,在该位置可以如上所述对测试样品进行处理和测序。位置03包括用于处理样品的装置以及用于对处理的样品进行测序的装置。如在此其它地方所述,测序的结果是读序的集合,其通常以电子格式提供并提供给诸如互联网的网络,该网络在图5中由附图标记05指示。
序列数据被提供给远程位置07,在该位置执行分析和检出生成。该位置可能包括一个或多个功能强大的计算设备,诸如计算机或处理器。在位置07处的计算资源完成分析并根据接收到的序列信息生成检出后,该检出将中继回网络05。在一些实施方式中,不仅在位置07处生成检出,而且还生成了关联诊断。检出和/或诊断然后通过网络传输并返回到样品收集位置01,如图5中所示。如所解释的,这只是与在各个位置之间如何划分与生成检出或诊断相关的各种操作的多种变体之一。一种常见的变体涉及在单个位置中提供样品收集、处理和测序。另一个变体涉及在与分析和检出生成相同的位置处提供处理和测序。
图6详细说明了在不同位置处执行各种操作的选项。在图6中所示的最细粒度的意义上,以下每个操作均在单独的位置处执行:样品收集、样品处理、测序、读序比对、检出、诊断和报告和/或计划制定。
在汇总这些操作中的一些操作的一个实施方案中,在一个位置中执行样品处理和测序,并且在单独的位置处执行读序比对、检出和诊断。参见图6中由参考字符A识别的部分。在图6中由字符B识别的另一种实施方式中,样品收集、样品处理和测序均在同一位置处执行。在该实施方式中,读序比对和检出在第二位置处执行。最后,在第三位置处执行诊断和报告和/或计划制定。在图6中用字符C描绘的实施方式中,样品收集在第一位置处执行,样品处理、测序、读序比对、检出和诊断都在第二位置处一起执行,并且报告和/或计划制定在第三位置处执行。最终,在图6中标记为D的实施方式中,样品收集在第一位置处执行,样品处理、测序、读序比对和检出都在第二位置处执行,并且诊断和报告和/或计划管理在第三位置处执行。
一个实施方案提供了一种用于分析无细胞DNA(cfDNA)中与肿瘤相关的简单核苷酸变体的系统,该系统包括用于接收核酸样品并提供来自核酸样品的核酸序列信息的测序仪;处理器;以及机器可读存储介质,包括用于在所述处理器上执行的指令,该指令包括:用于将核酸序列读序映射到参考序列上的一个或多个多态性基因座的代码;用于使用所映射的核酸序列读序,确定在一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数的代码;以及用于使用概率混合模型,对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量的代码,其中使用概率混合物模型包括将概率混合物模型应用于核酸序列读序的等位基因计数,以及概率混合物模型使用概率分布对一个或多个多态性基因座处的核酸序列读序的等位基因计数进行建模,该概率分布考虑了核酸序列读序中的错误。
在此提供的任何系统的一些实施方案中,测序仪被配置为执行下一代测序(NGS)。在一些实施方案中,测序仪被配置为使用通过可逆染料终止子的合成测序进行大规模并行测序。在其它实施方案中,测序仪被配置为执行连接测序。在其它实施方案中,测序仪被配置为执行单分子测序。
实验性
实例1
该实例使用从实际DNA混合物样品获得的数据来说明,与不使用在此公开的概率方法的常规技术相比,一些实施方式在定量DNA混合物样品时可以提供更高的准确性和可靠性,以及更低的经验偏差。
DNA混合物样品包括来自基因组(贡献者)的两个DNA,并且在不同样品中的次要分数是0.1%、0.2%、0.4%和2%。一些样品包含3ng输入的DNA,并且其它样品包含10ng。样品以标记为Nack或Nack2的两种实验过程进行处理,以指示两种引物设计,其中两种设计的目标基因座数量不同。一些样品使用MiSeq测序平台处理,并且另一些样品使用MiniSeq平台处理。
使用三种不同方法分析样品数据。表8示出了使用各种样品和实验过程的三种不同方法的多个混合物分数的变异系数(CV,定义为standard_deviation_of_predictions/true_fraction)值的平均值以及多个混合物分数的变异系数+偏差值的平均值(CVB,通常表示为CV(RMSD)并定义为RMSD/true_fraction)。第一方法应用概率模型,该概率模型包括用于对测序错误进行建模的二项式分布。第一方法对应于上面描述为Seq模型的一些实施方式。第一方法(Seq)的数据示出在表8的第三行中。第二方法应用概率混合物模型,包括解释DNA提取错误、PCR扩增错误和测序错误的概率分布。第二方法对应于上面描述为“提取-PCR-Seq模型”的一些实施方式。表8的第四行示出了第二方法(EPS)的数据。
第三方法对应于如上所述的基准方法NaiveLM或也称为KGT.NaiveLM。它使用基本的线性回归公式确定贡献者的DNA分数。表8的第五行示出了第三方法(NaiveLM)的数据。
值得注意的是,在Seq或EPS方法中,并未使用贡献者的基因型信息来对贡献者分数进行定量,但在NaiveLM方法中却使用了它。尽管Seq方法和EPS方法不需要使用贡献者的基因型信息,但如与NaiveLM方法相比较小的变异系数值所指示的,它们产生的结果更为可靠。此外,如与NaiveLM方法相比较小的CVB值所指示的,Seq方法和EPS方法具有较低的偏差。表8中用粗体标出了这三种方法中的最优结果。简而言之,与线性回归方法相比,使用概率混合物模型的两种方法产生的结果更加可靠,准确且偏差较小。
表8.在四个不同数据集上与基准方法(NaiveLM)相比,两种公开方法(Seq和EPS)的CV和CVB性能指标。
Figure BDA0002328255050000891
实例2
有多个自由参数,诸如DNA模板的平均长度、扩增子的平均长度、人类基因组分子量,它们与输入DNA量一起使用以估计有效的输入DNA量和读序计数。合理调节这些参数可以确保更少的偏差和稳健的预测性能。本实例研究了DNA模板的平均长度如何影响上述定量DNA混合物的各种方法的性能。
该实例使用模拟cfDNA(mcfDNA)来模拟真实的cfDNA。为了获得正确的真实cfDNA校正因子,我们需要1)使用从两个个体提取的真实cfDNA生成相似的标准混合物;2)在实际cfDNA混合物的实验中执行gDNA掺入。
源基因组
mcfDNA:来自一种测试细胞系的mcfDNA,对于该细胞系,Nack4目标位点对该细胞系没有CNV。
cfDNA:来自健康人的cfDNA,而非来自母体cfDNA
gDNA:来自测试的细胞系或正常细胞系之一的gDNA
混合物组成设计
混合物1:75%cfDNA或mcfDNA,25%gDNA
混合物2:50%cfDNA或mcfDNA,50%gDNA
混合物3:25%cfDNA或mcfDNA,75%gDNA
混合物4:10%cfDNA或mcfDNA,90%gDNA
每个混合物具有3个重复。
混合策略
1.对cfDNA和gDNA模板进行定量;
2.将cfDNA和gDNA模板以3∶1、1∶1、1∶3、1∶9的比例混合;
3.在混合模板上进行PCR。
所得混合物及其组成示于表9。
表9.模拟和真实的DNA混合物以及估计的混合物分数,反映出cfDNA/mcfDNA长度对它们作为PCR模板的相对有效性的影响。每种类型的混合物都有三个重复。
混合物分数 mcfDNA+gDNA cfDNA+gDNA
混合物1(75%) 82.9%,84.0%,84.9% 68.6%,68.8%,69.1%
混合物3(25%) 14.2%,14.5%,14.4% 20.5%,20.2%,20.0%
混合物4(10%) 5.37%,5.51%,5.40% 8.94%,8.86%,9.09%
图7示出了各自在cfDNA长度参数的不同选择下的各种方法的CVB性能。评估以下长度:120bp,130bp,140bp,150bp,160bp,216bp,300bp,409bp和100k bp。条形的不同阴影指示不同的mcfDNA长度。
不同的方法标记如下。
S:概率模型,其考虑了由于测序导致的错误。不使用基准基因组作为输入(不知道D和R基因组)。
EPS:概率模型,其考虑了由于DNA提取、PCR和测序引起的错误。不使用基准基因组作为输入。
PUGT.EPS00:EPS模型的通用实施方式,其允许已知、未知和部分已知的基准。不使用基准基因组作为输入。
PUGT.EPS:EPS模型的通用实施方式,其允许已知、未知和部分已知的基准。使用基准基因组作为输入。
KGT.IterLM:迭代线性模型。使用基准基因组作为输入。
KGT.Seq:概率模型,其考虑了由于测序导致的错误。使用基准基因组作为输入。
KGT.NaiveLM:基准方法,具有已知基因型的朴素线性模型。使用基准基因组作为输入。
在基准基因组可获得和不可获得时,在160bp的默认DNA长度参数时,EPS模型具有最优性能(如箭头所示)。
此外,即使从业者在160bp至120bp或至216bp扰动DNA长度参数,EPS方法的定量性能仍保持出色。这指示该方法对cfDNA长度参数的稳健性。该范围比上述实施方式中使用的参数宽得多,上述实施方式中使用的参数:mcfDNA为160bp,cfDNA为165bp。
不同方法之间的性能排名是:
PUGT.EPS(使用基准基因组)>KGT.seq或KGT.IterLM(使用基准基因组)>PUGT.EPS或EPS(不使用基准基因组)>S(不使用基准基因组)>KGT.Naive(使用基准基因组)。
值得注意的是,三种EPS方法具有明显低于具有已知基因型的朴素线性模型的CVB,这指示EPS方法具有优于常规线性模型方法的改进的准确性和减少的偏差。注意,常规方法仅适用于具有已知基准基因组的混合物样品。
此外,在默认的DNA长度参数下,与使用常规线性模型的方法相比,本公开中描述的方法具有较低的空白限(LOB)和较高的分析敏感性。如表10中所示,所公开的四种方法的空白限(LOB)低于0.1%,但是常规的朴素线性模型方法的LOB为0.42%。
表10.不同方法的LOB
方法 S PUGT.EPS00 PUGT.EPS KGT.seq KGT.NaiveLM
LOB 0.05% 0.08% 0.06% 0.03% 0.42%
实例3
该实例使用从模拟cfDNA(mcfDNA)和实际基因组DNA(gDNA)获得的数据来研究一些公开方法的敏感性,并将它们与使用qPCR技术的已知方法KIMERDx进行比较。
表11示出了如下标记的两个概率模型的LOQ。
EPS:概率模型,其考虑了由于DNA提取、PCR和测序而引起的错误。不使用基准基因组作为输入。
PUGT.EPS:EPS模型的通用实施方式,其允许已知、未知和部分已知的基准。使用基准基因组作为输入。
LOQ或定量限是定量敏感性的量度。它定义为可以以不大于20%的变异系数(CV)确定的最小供者分数。
在模拟来自实体器官移植患者的cfDNA样品的mcfDNA条件下(表11的前两行数据),生成了两个贡献者的DNA混合物样品。每个样品包括3ng DNA。将概率方法PUGT.EPS(使用基准基因型)和EPS(不使用移植前接受者和供者的基准基因型)应用于5个样品x3个重复样品。当仅使用3ng的输入DNA时,两种概率方法实现≤0.2%的LOQ,指示这两种公开的方法均具有很高的敏感性。
在模拟来自骨髓移植患者的血液gDNA样品的gDNA条件下(表11中的第三行数据),生成了两个贡献者的DNA混合物样品。每个样品包括10ng DNA。PUGT.EPS方法用于分析5个样品x3个重复样品。当使用10ng输入DNA时,PUGT.EPS方法实现≤0.1%的LOQ,如所预期的,低于使用3ng输入DNA的mefDNA条件下的LOQ。
在另一gDNA条件下(表11中的四行数据),生成了五个贡献者的DNA混合物样品。每个样品都包括10ng的DNA总量。PUGT.EPS方法用于分析5个样品x3个重复样品。PUGT.EPS方法实现≤0.35%的LOQ。即使在如此困难的情况下(有五个贡献者),该方法也获得了显著低于1%的LOQ。
表11.所公开方法的敏感性
样品类型 LOQ 样品大小 方法
mcfDNA 3ng,2贡献者 0.2% 5样品x3 PUGT.EPS
mcfDNA 3ng,2贡献者 0.2% 5样品x3 EPS(没有基准)
gDNA 10ng,2贡献者 0.1% 5样品x3 PUGT.EPS
gDNA 10ng,5贡献者 0.35% 4样品x3 PUGT.EPS
表12示出了仅对两个贡献者的混合物样品使用qPCR技术的KIMERDx方法的敏感性(LOQ)值。KIMERDx方法用于分析不同数量的输入gDNA。为达到LOQ的0.1%,需要66ng输入gDNA。相比之下,PUGT.EPS方法仅需要<=10ng的输入DNA来达到相同水平的敏感性。采用10ng输入gDNA,与PUGT.EPS的<0.1%相比,KIMERDx将达到0.7%的LOQ。
表12.qPCR KIMERDx方法的敏感性
LOQ 细胞数量 输入DNA(ng)
0.05% 20000 132
0.1% 10000 66
1% 1000 7
2% 500 3
5% 200 1
因此,该实例说明了与现有技术方法相比,所公开的概率方法需要显著更少的输入DNA来达到相同水平的敏感性。相反,公开的方法在低输入DNA量下实现了明显更高的敏感性。由于它们的敏感性提高,这些方法可允许更快的样品处理,需要更少的试剂并提高DNA混合物定量的准确性。
现有的嵌合测定法不适用于实体器官移植监视,我们的方法设计用于实体器官移植监视。所公开的方法提高了DNA混合物定量的敏感性,这在输入DNA量有限的应用中特别有益,该应用涵盖了所有实体器官移植的情况。使用cfDNA进行实体器官移植监视具有挑战性,因为从典型血液样品中提取的cfDNA量通常<10ng,远低于可提取gDNA的量。同时,与等量的gDNA相比,cfDNA作为PCR模板的有效性要差得多。
现有方法也不适用于多于一个的供者的移植,对此我们公开的方法仍然实现了高敏感性。具有多于一个的供者的移植经常发生在骨髓移植中,并且也常见于有输血的器官移植和先前有器官移植的患者中。
实例4
嵌合分析的常规方法利用短串联重复序列(STR)或小的插入和缺失(Indels)的毛细管电泳(CE)片段分析或定量聚合酶链反应(qPCR)分析。这些方法有许多与方法相关的缺点,包括定量限、动态范围、目标数量、工作流程、分析和可重复性。这些常规方法的替代方法是利用针对数百个SNP的下一代测序(NGS),以低定量限、宽动态范围、简单的工作流程、自动化分析和强大的可重复性定量评估嵌合。
使用CE的常规嵌合分析
目标:STR
STR是在整个基因组中发现的基因座。它们由短序列组成,通常在2至8个核苷酸之间,最常见的是4个,它们是串联重复的(例如gata串联重复作为gatagatagatagatagata)。重复数在4至40个重复之间变化,使典型STR的长度少于400个总核苷酸。重复数在人群中变化很大。STR的这两个特征,即相对较短的总长度和较高的变异性,使其成为法医学中人类识别的有吸引力的目标。较短的长度对于质量较差的法医样品很重要,因为这些类型的样品很难扩增较大的区域。群体中的高变异性是吸引人的特征,因为需要相对较少的数量来进行阳性识别。尽管在人类基因组中已对100多个STR进行了充分表征,但大多数应用使用的STR少于30个。
测定设计
PCR引物被设计在STR周围的保守侧翼区域中。引物可以与四个含不同长度的4至7个STR的荧光团复用。这意味着多路复用支持10到21个唯一的STR。CE系统测量相对荧光单位和经过时间以进行检测,以生成每个STR的电泳图。大多数实验室利用完整的多重序列为受体和供者生成移植前的基准基因型。将移植前的基因型相互比较以选择信息性标志物,受体和供者具有独特等位基因的标志物。嵌合样品可以用于信息性STR的整个多重分析或单个单重分析。单重测定通常提供最高水平的敏感性,但是许多实验室更喜欢进行多重测定。
工作流程
·用磁珠或流式细胞术从外周血、骨髓或细胞谱系中提取DNA。
·进行目标STR的PCR扩增,包括荧光标签化。
·STR-PCR扩增子的分离和检测是通过电泳(最常见的是CE仪器)执行的。CE系统测量相对荧光单位和经过时间,以检测出样品中存在的每个等位基因的电泳图。
·执行分析的人员检查每个信息性标志物的电泳图,以确定供者相对于接受者的相对频率。在具有多个信息性标志物的情况下,在考虑到不同标记的可变性能后,通常将平均频率作为嵌合的最终量度。
从提取的DNA到数据分析大约需要7个小时,而实际操作时间约为2个小时。数据的分析是高度可变的,取决于信息性标志物的数量、标志物之间的变异性和卡顿峰扣减的复杂性,分析单个嵌合样品需要15分钟到两个小时。
局限性
对用于嵌合分析的STR区域的CE分析存在三个主要限制。
首先,单独的电泳峰通常难以分析,并且来自同一样品内多个峰的嵌合百分比通常在10-15%变化。由于该变异性,结果单个样品的分析通常要花费数小时,并且结果仍是半定量的。
其次,该方法的定量限(LOQ)(通常称为检测限(LOD)或敏感性)范围为1%至5%。之所以存在如此广泛的范围,是因为每个STR都将具有自己的LOQ,这取决于PCR酶在STR上的卡顿或“滑移”以及荧光团的可变性能。
第三,尽管在基因组中很好地表征了100个以上的STR目标,但在测定中包括21个以上的STRs并不可靠。这是因为将许多特定的引物库多路复用到单个测定中非常难于使其坚固可靠。因此,来自密切相关个体的嵌合混合物可能难以识别信息性标志物,并且许多捐赠者的情况可能很难分析。
这些限制在临床使用中可能是显著的。例如,99%的实际嵌合结果将报告为100%。
使用qPCR进行常规嵌合分析
目标:插入缺失
插入缺失是1至10,000个核苷酸碱基的插入或漏失。在人类基因组中发现了数百万个插入缺失,使其成为仅次于SNP的第二大人类基因组变异贡献者。与STR相似,许多插入缺失很短,并且即使从高度降解的DNA和少量DNA中也可以轻松扩增。另外,存在不同长度、不同等位基因频率中可用的大量插入缺失,并且它们广泛分布于整个基因组中。插入缺失的这些特征使其成为用于人类识别和嵌合分析的有吸引力的目标。
测定设计
PCR引物被设计为扩增插入缺失,并被设计为单重、小多重(约3个目标)或大多重(30-40个目标)。已经示出,需要30-40个适当选择的插入缺失来将个体彼此区分。采用可商购的试剂盒,以3插入缺失多重复或放置在96孔板上的单个插入缺失运行30到40个插入缺失目标的移植前供者和接受者基准样品。该步骤识别了信息目标,其中供者和接受者具有不同的等位基因。然后,为每个供者-接受者对选择至少两个信息性目标,以用于嵌合分析。
每个插入缺失被一组杂交目标DNA的荧光标记的引物靶向。随着扩增子进行PCR循环,增加的荧光与存在的扩增子的数量成正比。通过达到阈值循环(Ct)值所需的PCR循环数确定定量。通常选择信息性标志物以扩增次要贡献者的基因组,在干细胞移植的情况下,所述次要贡献者通常是接受者。然后通过比较移植后样品、匹配的移植前基准和参考对照样品的Ct值来确定数量。
工作流程
·用磁珠或流式细胞术从外周血、骨髓或细胞谱系中提取DNA。
·对纯化的DNA进行定量和稀释以达到目标浓度。
·通过测试系统中每个目标插入缺失的供者和接受者移植前样品执行基准基因分型。在小型多路复用系统中,这包括10个独立的反应,每个反应中有2-3个插入缺失目标。在单重系统中,这需要46个独立的反应,每个反应中都有单个插入缺失目标。每个基准样品运行还必须包括阳性对照和无模板对照。这意味着小型多路复用系统可在96孔板上容纳8个基准样品,而单重系统每板可容纳2个。
·将10ng基准DNA添加到每个反应孔中(对于小型多重反应,总计100ng;对于单重反应,则为460ng)
·制备PCR Master Mix,并将其添加到每个反应孔中。
·将扩增引物添加到适当的孔中(小型多路复用为8x10,单重为2x46)
·将板密封、涡旋、离心,并且然后装载到qPCR仪器上。
·结果被加载到专用软件中。
·在软件中比较接受者和供者的基准,并选择信息性标志物进行嵌合分析。通常,为每个移植接受者/供者对选择两个信息性目标。
·对于每个要扩增的目标,次要贡献者的移植前基准样品必须一式三份运行,每个移植后嵌合样品必须一式三份运行,每两个反应孔的阳性对照,以及每个目标的无模板对照。换句话说,为执行单个移植后嵌合分析,必须运行60ng(6孔)参考DNA,必须运行60ng(6孔)移植前基准DNA,并且必须运行60ng(6孔)移植后嵌合DNA。这总共有21个孔,以从2个目标生成数据。
·制备PCR Master Mix,并将其添加到每个反应孔中。
·将扩增引物添加到适当的孔中(每样品7孔-移植前3孔,移植后3孔,以及没有模板对照的1个孔)
·将板密封、涡旋、离心,并且然后装载到qPCR仪器上。
·结果被加载到专用软件中。
从提取的DNA到用于信息性标志物选择的基因分型数据,总共需要大约3个小时的时间,其中需要动手一个半小时。在选择信息性标志物并从嵌合样品中提取DNA后,需要附加的3小时以及一个半小时的动手时间来生成嵌合数据。
局限性
基于qPCR的插入缺失目标的嵌合分析存在三个主要限制。
首先,每个嵌合分析需要60ng的移植前接受者基准样品。除了100-500ng基准DNA外,这对于起始基因分型也是需要的。对于经常执行嵌合分析的程序,可能会耗尽移植前的基准样品,从而限制了长时段运行该测定的能力。
第二,将嵌合分析作为单重反应进行的要求使整个系统复杂化,需要将数十种独特的测定法保持在库存中。另外,每个反应的成本通常将分析限制为每个供者-接受者对只有两个目标,并且每个供者-接受者对的这些目标可能不同,从而使设置容易出错。
第三,尽管用于qPCR的LOQ非常低,但是基于qPCR的嵌合现象的动态范围受到损害,并且当次要贡献者大于30%时,嵌合预测是不可靠的。
NGS的新颖嵌合分析
目标:SNP
SNP是单核苷酸位置,其中在人类群体内或特定群体内以可测量的程度存在变异。dbSNP是由国家生物技术信息中心(NCBI)管理的SNP数据库,并且目前包括超过1.7亿人类SNP,其中近2500万已通过验证。这意味着SNP负责人类群体中的绝大多数变异,平均每1000个核苷酸碱基一个SNP。SNP可以是双等位基因(两个观察到的等位基因)、三等位基因(三个观察到的等位基因)或四等位基因(四个观察到的等位基因)。当次要等位基因在群体的一组随机个体中具有至少为1%的频率时,可以将单个碱基变异视为SNP。由于SNP的低突变率、小的扩增子大小以及与高通量测序技术的兼容性,因此它们是嵌合分析的理想目标。
测定设计
在世界各地的各种人群中,选择SNP为具有大约50/50等位基因频率的双等位基因。另外,选择具有低突变率并且与SNP库没有连锁不平衡的SNP。最后,从最小化引物-引物相互作用以及PCR扩增和测序覆盖度的均匀性两方面评估了SNP的设计能力。SNP的总数是基于区分世界上所有群体的一级亲属的能力确定的。
单个PCR步骤扩增DNA,分离感兴趣的扩增子,并掺入流通池衔接子(与Illumina流通池上的寡核苷酸序列反向的寡核苷酸序列,使样品扩增子与流通池结合)、测序引物(用作通过合成(SBS)过程进行Illumina测序的起始位点的寡核苷酸序列)和索引条形码序列(允许多个样品同时运行的寡核苷酸序列)。
NGS系统将每个扩增子测序数百至数千次。在移植前的基准样品中,该信息用于对每个贡献者进行基因分型。在移植后的嵌合样品中,可以在具有或不具有基准基因型的情况下,使用SNP位置处每个核苷酸的读序计数来准确估计每个贡献者的嵌合百分比,至多有五个总贡献者。
工作流程
·用磁珠或流式细胞术从外周血、骨髓或细胞谱系中提取DNA。
·对纯化的DNA进行定量和稀释以达到目标浓度。
·将唯一的索引条形码添加到每个样品DNA。
·将预混液添加到每个样品中,进行混合、密封和离心。
·执行PCR扩增。
·将所有样品汇集到单个孔中,并且然后执行PCR净化。
·定量、稀释和变性净化后的池。
·最终池(也称为库)被加载到测序仪中,并开始测序。
·将测序数据导入特定于嵌合的分析软件中,以进行自动质量控制和嵌合分析。
从提取的DNA到加载测序仪所需的时间少于3小时,其中动手时间少于2小时。测序运行需要9到13个小时,具体取决于同时运行的样品数量。收集测序数据后,无需手动干预即可进行数据分析,从而实现了自动化分析并减少了人为错误。
局限性
使用SNP进行基于NGS的嵌合分析存在一个主要限制:与基于CE和qPCR的嵌合分析相比,基于NGS的样品处理和测序需要更长的时间,但是动手时间相当。基于NGS的库制备可在下午完成,测序可在一夜之间完成。这可以为早晨接收到的样品进行24小时内周转。然而,由于测序可以多重进行,因此该方法可以组合多个样品进行测序,从而提高了样品处理的整体效率。
总结
使用SNP目标的基于NGS的嵌合分析是一种有效、准确和可靠的方法,可以克服与常规嵌合分析方法相关的许多限制。结果是真正定量的,并且可以自动生成,而无需费力的人工检查电泳图和卡顿扣减。基于NGS的嵌合分析具有广泛的动态范围,低LOQ,并且在高水平的混合嵌合下不会降低性能。NGS系统使用了多于200个SNP目标,并将它们多路复用成单个反应。这允许具有多于一个的供者和非常紧密相关的供者-接受者对的使用。NGS系统的索引功能和通量允许同时运行基准和嵌合样品,库存中仅存储一种测定法和配套物,并且工作流程中人为错误的可能性很小。
实例5
该实例示出,由于NGS测序仪的通量,具有难以置信的高均一性的测定设计以及使用SNP作为目标,因此一些实施方式优于常规方法。所公开的方法可以分析比常规方法多得多的目标,其中常规方法限于<30个目标。该过程允许对许多样品进行多路复用以提高效率。这些方法是定量的,并且都可以经济高效地完成。
一个实验将具有已知或未知的基准基因组的一些实施方式中的方法性能进行比较。表12示出了在三个基准条件(基准已知、基准未知,以及接受者已知但供者未知)中具有不同接受者部分的四个样品的DNA定量。结果示出,该方法可以在具有或不具有基准的情况下在不同的接受者部分处执行,性能相似。当基准已知时,该方法倾向于以较小的置信区间(和较高的可靠性)产生结果。
表12.已知基准和未知基准的DNA定量
Figure BDA0002328255050001021
图8比较了由一些实施方式确定的DNA部分(Y轴)和实际DNA部分(X轴)。水平线指示实际部分的值。嵌合样品包括由Horizon Discovery提供的模拟cfDNA(目录号12498714289)的cfDNA混合物。如图所示,预测的次要贡献者分数与实际次要贡献者分数在0.1%、0.2%、0.4%和2%相当接近。
图9示出了一些实施方式中用于确定定量限(LOQ)的16种条件的变异系数(CV)。LOQ定义为可以可靠地检测到分析物的最低浓度,其中不精确度(CV)小于20%。该测量考虑了分析敏感性(即,检测限)和再现性(即,精度)。四个不同的条形组代表0.1%、0.2%、0.4%和2%的不同次要贡献者分数。组中的四个条形从左至右代表四个输入DNA条件:10nggDNA、3ng gDNA、10ng cf DNA和3ng cfDNA。在每个次要贡献者分数,都有与预期一致的模式-数量较少的样品会导致较高的CV,而cfDNA会导致较高的CV。
除了一种条件(0.1%的次要贡献者分数,3ng的cfDNA)以外的所有条件都可以检测到不精确度(CV)小于20%的分析物。换句话说,一个条件(3ng cfDNA)具有0.2%的LOQ,其余条件具有0.1%的LOQ。
表13总结了以上数据。它清楚地示出,所有四个输入DNA条件具有小于0.2%的LOQ值,除最具挑战性的输入条件(3ng cfDNA)外,所有条件具有0.1%的LOQ。
表13.采用不同DNA输入的一些实施方式的定量限
输入DNA 定量限
10ng cfDNA <0.1%
3ng cfDNA <0.2%
10ng gDNA <0.1%
3ng gDNA <0.1%
讨论
使用qPCR或CE技术的常规嵌合方法牺牲了易用性、目标数量、敏感性或动态范围。
所实施的方法在单个测定中复用样品。这使移植前的基准样品和移植后的嵌合样品可以使用相同的测定方法并在同一测序运行中并排运行。该方法可以在具有或不具有基准的情况下以几乎相同的性能执行。
qPCR和CE嵌合方法可以为移植前基准样品提供一定水平的复用,但是当复用目标时,这些方法对于移植后嵌合定量具有性能下降。这意味着基准样品和嵌合样品必须分别运行,并且整个系统可能至少需要进行十几种独特的测定。
虽然qPCR对微嵌合检测敏感,但是它缺乏对于混合嵌合可靠的动态范围。基于CE的嵌合分析为混合嵌合检测提供了广阔的动态范围,但缺乏对微嵌合的敏感性。所公开的方法既提供了可靠的定量下限(LOQ),又提供了宽广的动态范围,从而使一种解决方案能够涵盖所有不同类型的嵌合。

Claims (76)

1.一种在包括一个或多个处理器和系统存储器的计算机系统上实现的对包含一个或多个贡献者的核酸的核酸样品进行定量的方法,所述方法包括:
(a)从所述核酸样品中提取核酸分子;
(b)扩增所提取的核酸分子;
(c)使用核酸测序仪对所扩增的核酸分子进行测序以产生核酸序列读序;
(d)由所述一个或多个处理器将所述核酸序列读序映射到参考序列上的一个或多个多态性基因座;
(e)使用所映射的核酸序列读序并由所述一个或多个处理器确定在所述一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数;以及
(f)使用概率混合物模型并由所述一个或多个处理器对所述核酸样品中所述一个或多个贡献者的核酸的一个或多个分数进行定量,其中,使用所述概率混合物模型包括将概率混合物模型应用于核酸序列读序的所述等位基因计数,以及其中,所述概率混合物模型使用概率分布来对所述一个或多个多态性基因座处的核酸序列读序的所述等位基因计数进行建模,所述概率分布考虑了所述核酸序列读序中的错误。
2.根据权利要求1所述的方法,进一步包括使用所述概率混合模型并由所述一个或多个处理器确定在所述一个或多个多态性基因座处的所述一个或多个贡献者的一种或多种基因型。
3.根据权利要求1所述的方法,进一步包括,使用所述一个或多个贡献者的核酸的所述一个或多个分数,确定一个贡献者(受赠者)排斥自另一贡献者(供者)移植的组织或器官的风险。
4.根据权利要求1所述的方法,其中,所述一个或多个贡献者包含两个或更多个贡献者。
5.根据权利要求1所述的方法,其中,所述核酸分子包含DNA分子或RNA分子。
6.根据权利要求1的方法,其中,所述核酸样品包含来自零个、一个或多个污染物基因组和感兴趣的一个基因组的核酸。
7.根据权利要求1所述的方法,其中,所述一个或多个贡献者包含移植物的零个、一个或多个供者和所述移植物的受赠者,以及其中,所述核酸样品包含获自所述受赠者的样品。
8.根据权利要求1所述的方法,其中,所述移植包括同种异体或异种移植物。
9.根据权利要求1所述的方法,其中,所述核酸样品包含获自所述受赠者的生物样品。
10.根据权利要求1的方法,其中,所述核酸样品包含获自细胞培养物的生物样品。
11.根据权利要求1的方法,其中,所提取的核酸分子包含无细胞核酸。
12.根据权利要求1的方法,其中,所提取的核酸分子包含细胞DNA。
13.根据权利要求1所述的方法,其中,所述一个或多个多态性基因座包含一个或多个双等位基因多态性基因座。
14.根据权利要求1的方法,其中,在所述一个或多个多态性基因座处的所述一个或多个等位基因包含一个或多个单核苷酸多态性(SNP)等位基因。
15.根据权利要求1所述的方法,其中,所述概率混合模型使用单基因座似然函数来对单个多态性基因座处的等位基因计数进行建模,所述单基因座似然函数包括
M(n1i,n2i|p1i,θ)
其中
n1i是基因座i处等位基因1的所述等位基因计数,
n2i是基因座i处等位基因2的所述等位基因计数,
p1i是基因座i处等位基因1的预期分数,以及
θ包括一个或多个模型参数。
16.根据权利要求15所述的方法,其中,将p1i建模为以下的函数:
(i)基因座i处所述贡献者的基因型,或gi=(g11i,...,gD1i),其是贡献者1...D中基因座i处等位基因1的副本数的矢量;
(ii)由(c)中的所述测序操作导致的读序计数错误,或λ;以及
(iii)所述核酸样品中贡献者的所述核酸分数,或β=(β1,...,βD),其中D是贡献者的数量。
17.根据权利要求16所述的方法,其中,所述贡献者包含两个或更多介贡献着,并且p1i=p(gi,λ,β)←[(1-λ)gi+λ(2-gi)]/2·β,其中·是矢量点积算符。
18.根据权利要求17所述的方法,其中,所述贡献者包含两个贡献者,并且使用表3中的p1′值获得p1i
19.根据权利要求16所述的方法,其中,所述贡献者的零、一种或多种基因型是未知的。
20.根据权利要求19所述的方法,其中,(f)包括在基因型的多个可能组合上边缘化以列举所述概率参数p1i
21.根据权利要求19所述的方法,进一步包括确定在所述一个或多个多态性基因座的每一个多态性基因座处的基因型构型,所述基因型构型包含针对所述一个或多个贡献者中的每一个贡献者的两个等位基因。
22.根据权利要求16所述的方法,其中,所述单基因座似然函数包括第一二项式分布。
23.根据权利要求22所述的方法,其中,所述第一二项式分布表示如下:
n1i~BN(ni,p1i)
其中
n1i是基因座i处等位基因1的核酸序列读序的等位基因计数;以及
ni是在基因座i处的总读序计数,其等于总基因组副本数n″。
24.根据权利要求23所述的方法,其中,(f)包括最大化从多个单基因座似然函数计算出的多基因座似然函数。
25.根据权利要求24所述的方法,其中,(f)包括:
使用多个潜在分数值和(e)中确定的核酸序列读序的所述等位基因计数的多基因座似然函数,计算多个多基因座似然值;
识别与最大多基因座似然值相关联的一个或多个潜在分数值;以及
将所述核酸样品中所述一个或多个贡献者的核酸的一个或多个分数定量为所识别的潜在分数值。
26.根据权利要求24所述的方法,其中,所述多基因座似然函数包括:
L(β,θ,λ,π;n1,n2)=Πi[∑giM(n1i,n2i|p(gi,λ,β),θ)·P(gi|π)]
其中
L(β,θ,λ,π;n1,n2)是观察等位基因1和2的等位基因计数矢量n1和n2的所述似然度;
p(gi,λ,β)是基于基因座i处所述贡献者基因型gi观察到基因座i处等位基因1的预期分数或概率;
P(gi|π)是在给定群体等位基因频率(π)的情况下观察基因座i处所述基因型gi的先验概率;以及
∑gi表示对所述贡献者基因型的多种可能组合进行求和。
27.根据权利要求26所述的方法,其中,所述多基因座似然函数包括:
L(β,λ,π;n1,n2)=Πi[∑giBN(n1i|ni,·p(gi,λ,β))·P(gi|π)]。
28.根据权利要求27所述的方法,其中,所述贡献者包含两个贡献者,并且所述似然函数包括:
L(β,λ,π;n1,n2)=Πig1ig2iBN(n1i|ni,p1i(g1i,g2i,λ,β)·P(g1i,g2i|π)
其中
L(β,λ,π;n1,n2)是在给定参数β和π的情况下,观察等位基因1和2的等位基因计数矢量n1至n2的似然度;
p1i(g1i,g2i,λ,β)是概率参数,将其看作表3的p1′,指示基于所述两个贡献者基因型(g1i,g2i)的基因座i处等位基因1的概率;以及
P(g1i,g2i|π)是在给定群体等位基因频率(π)的情况下观察所述两个贡献者基因型的先验联合概率。
29.根据权利要求28所述的方法,其中,使用满足哈迪-温伯格平衡的边缘分布P(g1i|π)和P(g2i|π)来计算所述先验联合概率。
30.根据权利要求29所述的方法,其中,使用所述两个贡献者之间的遗传关系来计算所述先验联合概率。
31.根据权利要求26所述的方法,其中,所述概率混合物模型考虑了由(a)中执行的提取所述核酸分子而导致的核酸分子副本数错误,以及由(c)中的所述测序操作而导致的所述读序计数错误。
32.根据权利要求31所述的方法,其中,所述概率混合物模型使用第二二项式分布来针对所述一个或多个多态性基因座处的等位基因对所提取的核酸分子的等位基因计数进行建模。
33.根据权利要求32所述的方法,其中,所述第二二项式分布表示如下:
n1i″~BN(ni″,p1i)
其中
n1i″是基因座i处等位基因1的提取核酸分子的等位基因计数;
ni″是基因座i处的总核酸分子计数;以及
piu是概率参数,指示基因座i处等位基因1的概率。
34.根据权利要求33所述的方法,其中,所述第一二项式分布以等位基因分数n1i″/ni″为条件。
35.根据权利要求34所述的方法,其中,所述第一二项式分布被如下重新参数化:
n1i~BN(ni,n1i″/ni″)
其中
n1i是基因座i处等位基因1的核酸序列读序的等位基因计数;
ni″是基因座i处的总核酸分子数,其等于总基因组副本数n″;
ni是基因座i处的总读序计数;以及
n1i″是基因座i处等位基因1的提取的核酸分子数。
36.根据权利要求35所述的方法,其中,所述概率混合模型使用第一贝塔分布来近似n1i″/n″的分布。
37.根据权利要求36所述的方法,其中,所述第一贝塔分布具有与所述第二二项式分布的均值和方差匹配的均值和方差。
38.根据权利要求36所述的方法,其中,将基因座i建模为双等位基因,并且所述第一贝塔分布表示如下:
ni1″/n″~Beta((n″-1)p1i,(n″-1)p2i)
其中
p1i是概率参数,指示基因座i处第一等位基因的所述概率;以及
p2i是概率参数,指示基因座i处第二等位基因的所述概率。
39.根据权利要求36所述的方法,其中,(f)包括组合对测序读序计数进行建模的所述第一二项式分布以及对提取的核酸分子数量进行建模的所述第一贝塔分布,以获得遵循第一贝塔-二项式分布的所述单基因座似然函数。
40.根据权利要求39所述的方法,其中,所述第一贝塔-二项式分布具有以下形式:
n1i~BB(ni,(n″-1)·p1i,(n″-1)·p2i),
或替代近似:
n1i~BB(ni,n″·p1i,n″·p2i)。
41.根据权利要求40所述的方法,其中,所述多基因座似然函数包括:
L(β,n″,λ,π;n1,n2)=Πi[∑gi BB(n1i|ni,(n″-1)·p1i,(n”-1)·p2i)·P(gi|π)]
其中L(β,n″,λ,π;n1,n2)是观察所有基因座处等位基因1和2的等位基因计数矢量n1和n2的似然度,并且p1i=p(gi,λ,β),p2i=1-p1i
42.根据权利要求41所述的方法,其中,所述贡献者包含两个贡献者,并且所述多基因座似然函数包括:
L(β,n″,λ,π;n1,n2)=
ΠiΣg1ig2iBB(n1i,n2i|ni,(n″-1)·p1i(g1i,g2i,λ,β),(n″-1)·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)
其中L(β,n″,λ,π;n1,n2)是给定参数β,n″,λ和π的情况下,观察所有基因座的所述第一等位基因的等位基因计数矢量(n1)和所有基因座的所述第二等位基因的等位基因计数矢量(n2)的所述似然度;
p1i(g1i,g2i,λ,β)是概率参数,将其看作表3的p1′,指示基于所述两个贡献者基因型(g1i,g2i)的基因座i处等位基因1的概率;
p2i(g1i,g2i,λ,β)是概率参数,将其看作表3的p2′,指示基于所述两个贡献者基因型(g1i,g2i)的基因座i处等位基因2的概率;以及
P(g1i,g2i|π)是在给定群体等位基因频率(π)的情况下,观察基因座i处所述第一等位基因的所述第一贡献者基因型(g1i)和所述第一等位基因的所述第二贡献者基因型(g2i)的先验联合概率。
43.根据权利要求35所述的方法,其中,(f)包括从大量提取的核酸分子中估计提取的所述总基因组副本数n″。
44.根据权利要求43所述的方法,其中,根据所提取的核酸分子的片段大小来调节所估计的提取的总基因组副本数n″。
45.根据权利要求26所述的方法,其中,所述概率混合物模型考虑了由(b)中执行的扩增所述核酸分子而导致的核酸分子数错误,以及由(c)中的所述测序操作而导致的所述读序计数错误。
46.根据权利要求45所述的方法,对(b)的所述扩增过程进行如下建模:
xt+1=xt+yt+1
其中
xt+1是扩增的循环t+1后给定等位基因的所述核酸副本;
xt是扩增的循环t后给定等位基因的所述核酸副本;
yt+1是在循环t+1生成的新副本,并且它遵循二项式分布yt+1~BN(xt,rt+1);以及
rt+1是循环t+1的扩增率。
47.根据权利要求45所述的方法,其中,所述概率混合物模型使用第二贝塔分布来针对所述一个或多个多态性基因座处的等位基因对所扩增的核酸分子的等位基因分数进行建模。
48.根据权利要求47所述的方法,其中,基因座i是双等位基因,并且所述第二贝塔分布表示如下:
n1i′/(n1i′+n2i′)~Beta(n″·ρi·p1i,n″·ρi·p2i)
其中
n1i′是基因座i处第一等位基因的扩增核酸分子的等位基因计数;
n2i′是基因座i处第二等位基因的扩增核酸分子的等位基因计数;
n″是任何基因座处的总核酸分子计数;
ρi是与平均扩增率r相关的常数;
p1i是基因座i处所述第一等位基因的所述概率;以及
p2i是基因座i处所述第二等位基因的所述概率。
49.根据权利要求48所述的方法,其中,ρi为(1+r)/(1-r)/[1-(1+r)-t],并且r为每个循环的平均扩增率。
50.根据权利要求48所述的方法,其中,ρi近似为(1+r)/(1-r)。
51.根据权利要求48所述的方法,其中,(f)包括组合所述第一二项式分布和所述第二贝塔分布,以获得遵循第二贝塔-二项式分布的n1i的所述单基因座似然函数。
52.根据权利要求51所述的方法,其中,所述第二贝塔-二项式分布具有以下形式:
n1i~BB(ni,n″·ρi·p1i,n″·ρi·p2i)
其中
n1i是基因座i处所述第一等位基因的核酸序列读序的等位基因计数;
p1i是概率参数,指示基因座i处第一等位基因的所述概率;以及
p2i是概率参数,指示基因座i处第二等位基因的所述概率。
53.根据权利要求52所述的方法,其中,(f)包括,通过假设所述一个或多个多态性基因座具有相同的扩增率,将所述第二贝塔-二项式分布重新参数化为:
n1i~BB(ni,n″·(1+r)/(1-r)·p1i,n″·(1+r)/(1-r)·p2i)
其中r是扩增率。
54.根据权利要求53所述的方法,其中,所述多基因座似然函数包括:
L(β,n″,r,λ,π;n1,n2)=Πi[∑giBB(n1i|ni,n″·(1+r)/(1-r)·p1i,n″·(1+r)/(1-r)·p2i)·P(gi|π)]。
55.根据权利要求53所述的方法,其中,所述贡献者包含两个贡献者,并且所述多基因座似然函数包括:
L(β,n″,r,λ,π;n1,n2)=Πig1ig2i[BB(n1i|ni,n″·(1+r)/(1-r)·p1i(g1i,g2i,λ,β),n″·(1+r)/(1-r)·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)]
其中L(β,n″,r,λ,π;n1,n2)是给定参数β,n″,r,λ和π的情况下,观察所有基因座的所述第一等位基因的等位基因计数矢量(n1)和所有基因座的所述第二等位基因的等位基因计数矢量(n2)的所述似然度。
56.根据权利要求52所述的方法,其中,(f)包括通过将每个多态性基因座的相对扩增率定义为与所述基因座的总读序成比例,将所述第二贝塔-二项式分布重新参数化为:
n1i~BB(ni,c′·ni·p1i,c′·ni·p2i)
其中
c′是要优化的参数;以及
ni是基因座i处的所述总读序。
57.根据权利要求56所述的方法,其中,所述多基因座似然函数包括:
L(β,n″,c′,λ,π;n1,n2)=Πi[ΣgiBB(n1i|ni,c′·ni·p1i,c′·ni·p2i)·P(gi|π)]。
58.根据权利要求26所述的方法,其中,所述概率混合物模型考虑了由(a)中执行的提取所述核酸分子和(b)中执行的扩增所述核酸分子而导致的核酸分子数错误,以及由(c)中所述测序操作导致的所述读序计数错误。
59.根据权利要求58所述的方法,其中,所述概率混合物模型使用第三贝塔分布来针对所述一个或多个多态性基因座处的等位基因,对所扩增的核酸分子的等位基因分数进行建模,考虑了由(a)中执行的提取所述核酸分子和(b)中执行的扩增所述核酸分子而导致的所述采样错误。
60.根据权利要求59所述的方法,其中基因座i是双等位基因,并且所述第三贝塔分布具有以下形式:
n1i′/(n1i′+n2i′)~Beta(n″·(1+ri)/2·p1i,n″·(1+ri)/2·p2i)
其中
n1i′是基因座i处第一等位基因的扩增核酸分子的等位基因计数;
n2i′是基因座i处第二等位基因的扩增核酸分子的等位基因计数;
n″是总核酸分子计数;
ri是基因座i的所述平均扩增率;
p1i是基因座i处所述第一等位基因的所述概率;以及
p2i是基因座i处所述第二等位基因的概率。
61.根据权利要求60所述的方法,其中,(f)包括组合所述第一二项式分布和所述第三贝塔分布,以获得遵循第三贝塔-二项式分布的n1i的所述单基因座似然函数。
62.根据权利要求61所述的方法,其中,所述第三贝塔-二项式分布具有以下形式:
n1i~BB(ni,n″·(1+ri)/2·p1i,n″·(1+ri)/2·p2i)
其中ri是扩增率。
63.根据权利要求62所述的方法,其中,所述多基因座似然函数包括:
L(β,n″,r,λ,π;n1,n2)=Πi[∑giBB(n1i|ni,n″·(1+r)/2·p1i,n″·(1+r)/2·p2i)·P(gi|π)],
其中r是假定对于所有基因座均相等的扩增率。
64.根据权利要求62所述的方法,其中,所述贡献者包含两个贡献者,以及其中,所述多基因座似然函数包括:
L(β,n″,r,λ,π;n1,n2)=Πig1ig2iBB(n1i|ni,n″·(1+r)/2·p1i(g1i,g2i,λ,β),n″·(1+r)/2·p2i(g1i,g2i,λ,β))·P(g1i,g2i|π)
其中L(n1,n2|β,n″,r,λ,π)是给定参数β,n″,r,λ和π的情况下,观察所述第一等位基因矢量的等位基因计数n1和所述第二等位基因矢量的等位基因计数n2
65.根据权利要求1所述的方法,进一步包括:(g)使用应用数值微分的对数似然的所述海赛矩阵估计所述一个或多个贡献者的核酸的一个或多个分数的一个或多个置信区间。
66.根据权利要求1所述的方法,其中,(d)的所述映射包括通过所述一个或多个处理器使用计算机哈希和计算机动态编程来识别与多个无偏倚目标序列的任何序列匹配的所述核酸序列读序中的读序,其中,所述多个无偏倚目标序列包含所述参考序列的子序列以及与所述子序列的区别在于单个核苷酸的序列。
67.根据权利要求66所述的方法,其中,所述多个无偏倚目标序列包括五类序列,其涵盖了多个多态性位点中的每个多态性位点:
(i)作为所述参考序列的子序列的参考目标序列,所述参考目标序列具有在多态性位点处有参考核苷酸的参考等位基因;
(ii)各自具有在所述多态性位点处有替代核苷酸的替代等位基因的替代目标序列,所述替代核苷酸不同于所述参考核苷酸;
(iii)突变的参考目标序列,其包括所有可能的序列,每个可能的序列与所述参考目标序列的区别仅为在不是非多态性位点的位点处的一个核苷酸;
(iv)突变的替代目标序列,其包括所有可能的序列,每个可能的序列与替代目标序列的区别仅为在不是非多态性位点的位点处的一个核苷酸;以及
(v)意外的等位基因目标序列,每个序列具有与所述参考等位基因和所述替代等位基因不同的意外的等位基因,并且每个序列具有与先前的四个类别的序列不同的序列。
68.根据权利要求67所述的方法,进一步包括基于观察(v)的所述意外等位基因目标序列的频率来估计所述变体位点处的测序错误率λ。
69.根据权利要求67所述的方法,其中,(e)包括使用所识别的读序及其匹配的无偏倚目标序列来确定在所述一个或多个多态性基因座处的所述等位基因的所述核酸序列读序的等位基因计数。
70.根据权利要求67所述的方法,其中,所述多个无偏倚目标序列包括被截短以具有与所述核酸序列读序的相同长度的序列。
71.根据权利要求67所述的方法,其中,所述多个无偏倚目标序列包括存储在一个或多个哈希表中的序列,并且使用所述哈希表来识别所述读序。
72.一种对包含一个或多个贡献者的核酸的核酸样品进行定量的系统,所述系统包括:
(a)测序仪,其被配置为(i)接收从所述核酸样品提取的核酸分子,(ii)扩增所提取的核酸分子,以及(iii)在产生核酸序列读序的条件下对所扩增的核酸分子进行测序;以及
(b)计算机,其包括一个或多个处理器,所述处理器被配置为:
将所述核酸序列读序映射到参考序列上的一个或多个多态性基因座;
使用所映射的核酸序列读序,确定在所述一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数;以及
使用概率混合模型,对所述核酸样品中所述一个或多个贡献者的核酸的一个或多个分数进行定量,
其中
使用所述概率混合物模型包括将概率混合物模型应用于核酸序列读序的所述等位基因计数,以及
所述概率混合物模型使用概率分布对所述一个或多个多态性基因座处的核酸序列读序的所述等位基因计数进行建模,所述概率分布考虑了所述核酸序列读序中的错误。
73.根据权利要求72所述的系统,进一步包括用于从所述核酸样品提取核酸分子的工具。
74.根据权利要求72所述的系统,其中,所述概率分布包括如下的第一二项式分布:
n1i~BN(ni,p1i)
其中
n1i是基因座i处等位基因1的核酸序列读序的等位基因计数;
ni是基因座i处的总读序计数,其等于总基因组副本数n″;以及
p1i是指示基因座i处等位基因1的所述概率的概率参数。
75.一种计算机程序产品,包括存储程序代码的非暂态机器可读介质,所述程序代码在由计算机系统的一个或多个处理器执行时使所述计算机系统实现对包含一个或多个贡献者的核酸的核酸样品进行定量的方法,所述程序代码包括:
用于将所述核酸序列读序映射到参考序列上的一个或多个多态性基因座的代码;
用于使用所映射的核酸序列读序,确定在所述一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数的代码;以及
用于使用概率混合模型,对所述核酸样品中所述一个或多个贡献者的核酸的一个或多个分数进行定量的代码,
其中
使用所述概率混合物模型包括将概率混合物模型应用于核酸序列读序的所述等位基因计数,以及
所述概率混合物模型使用概率分布对所述一个或多个多态性基因座处的核酸序列读序的所述等位基因计数进行建模,所述概率分布考虑了所述核酸序列读序中的错误。
76.一种在包括一个或多个处理器和系统存储器的计算机系统处实现的对包含一个或多个贡献者的核酸的核酸样品进行定量的方法,所述方法包括:
(a)由所述一个或多个处理器接收从所述核酸样品获得的核酸序列读序;
(b)由所述一个或多个处理器使用计算机哈希和计算机动态编程,将所述核酸序列读序映射到参考序列上的一个或多个多态性基因座;
(c)使用所映射的核酸序列读序并由所述一个或多个处理器确定在所述一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的等位基因计数;以及
(d)使用概率混合物模型并由所述一个或多个处理器对所述核酸样品中所述一个或多个贡献者的核酸的一个或多个分数以及所述级分的置信度进行定量,
其中,使用所述概率混合物模型包括将概率混合物模型应用于核酸序列读序的所述等位基因计数,
其中,所述概率混合物模型使用概率分布来对所述一个或多个多态性基因座处的核酸序列读序的所述等位基因计数进行建模,所述概率分布考虑了所映射的核酸序列读序中的错误,
以及其中,所述定量采用(i)结合多迭代网格搜索和BFGS-拟牛顿法或迭代加权线性回归的计算机优化方法,以及(ii)数值微分方法。
CN201880041577.3A 2017-06-20 2018-06-19 用于对来自已知或未知基因型的多个贡献者的dna混合物分解和定量的方法和系统 Pending CN110770840A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762522605P 2017-06-20 2017-06-20
US62/522,605 2017-06-20
PCT/US2018/038342 WO2018236911A1 (en) 2017-06-20 2018-06-19 METHODS AND SYSTEMS FOR DECOMPOSING AND QUANTIFYING DNA MIXTURES FROM MULTIPLE CONTRIBUTORS HAVING KNOWN OR UNKNOWN GENOTYPES

Publications (1)

Publication Number Publication Date
CN110770840A true CN110770840A (zh) 2020-02-07

Family

ID=62875324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880041577.3A Pending CN110770840A (zh) 2017-06-20 2018-06-19 用于对来自已知或未知基因型的多个贡献者的dna混合物分解和定量的方法和系统

Country Status (10)

Country Link
US (1) US20210151125A1 (zh)
EP (1) EP3642747A1 (zh)
JP (1) JP7009518B2 (zh)
KR (1) KR102487135B1 (zh)
CN (1) CN110770840A (zh)
AU (1) AU2018288772B2 (zh)
CA (1) CA3067419A1 (zh)
IL (1) IL271155A (zh)
SG (1) SG11201911538YA (zh)
WO (1) WO2018236911A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112458162A (zh) * 2020-11-16 2021-03-09 北京迈基诺基因科技股份有限公司 器官移植ddcfDNA检测试剂和方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113528645A (zh) 2014-03-14 2021-10-22 凯尔迪克斯公司 用于在移植受体中监测免疫抑制疗法的方法
CN109714364A (zh) * 2019-02-20 2019-05-03 湖南大学 一种基于贝叶斯改进模型的网络安全防御方法
CA3140066A1 (en) * 2019-05-20 2020-11-26 Foundation Medicine, Inc. Systems and methods for evaluating tumor fraction
JP7121440B1 (ja) 2020-12-16 2022-08-18 株式会社seeDNA 多型座位の信号の信頼性値の算出方法
US20220277808A1 (en) * 2021-02-19 2022-09-01 Twist Bioscience Corporation Libraries for identification of genomic variants
US20240117445A1 (en) * 2021-03-16 2024-04-11 University Of North Texas Health Science Center At Fort Worth Macrohaplotypes for Forensic DNA Mixture Deconvolution

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013130848A1 (en) * 2012-02-29 2013-09-06 Natera, Inc. Informatics enhanced analysis of fetal samples subject to maternal contamination
US20150024378A1 (en) * 2013-07-18 2015-01-22 The Johns Hopkins University Analysis of DNA-Containing Samples and Resolution of Mixed Contributor DNA Samples
CN104781421A (zh) * 2012-09-04 2015-07-15 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
WO2016104688A1 (ja) * 2014-12-26 2016-06-30 国立大学法人東北大学 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム
CN106319047A (zh) * 2011-04-12 2017-01-11 维里纳塔健康公司 使用多态计数来解析基因组分数
TW201718871A (zh) * 2015-07-20 2017-06-01 香港中文大學 Dna混合物中組織之單倍型甲基化模式分析

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2505472A1 (en) * 2002-11-11 2004-05-27 Affymetrix, Inc. Methods for identifying dna copy number changes
WO2007145612A1 (en) 2005-06-06 2007-12-21 454 Life Sciences Corporation Paired end sequencing
EP3599609A1 (en) * 2005-11-26 2020-01-29 Natera, Inc. System and method for cleaning noisy genetic data and using data to make predictions
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
AU2008308457A1 (en) 2007-10-04 2009-04-09 Halcyon Molecular Sequencing nucleic acid polymers with electron microscopy
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
CN107435070A (zh) * 2012-04-12 2017-12-05 维里纳塔健康公司 拷贝数变异的检测和分类
AU2013204615A1 (en) * 2012-07-20 2014-02-06 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
KR101850437B1 (ko) * 2015-04-14 2018-04-20 이원다이애그노믹스(주) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106319047A (zh) * 2011-04-12 2017-01-11 维里纳塔健康公司 使用多态计数来解析基因组分数
WO2013130848A1 (en) * 2012-02-29 2013-09-06 Natera, Inc. Informatics enhanced analysis of fetal samples subject to maternal contamination
CN104781421A (zh) * 2012-09-04 2015-07-15 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
US20150024378A1 (en) * 2013-07-18 2015-01-22 The Johns Hopkins University Analysis of DNA-Containing Samples and Resolution of Mixed Contributor DNA Samples
WO2016104688A1 (ja) * 2014-12-26 2016-06-30 国立大学法人東北大学 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム
TW201718871A (zh) * 2015-07-20 2017-06-01 香港中文大學 Dna混合物中組織之單倍型甲基化模式分析

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PEIYONG JIANG ETC.: "FetalQuant: deducing fractional fetal DNA concentration from massively parallel sequencing of DNA in maternal plasma", BIOINFORMATICS, 30 December 2012 (2012-12-30) *
SU YEON KIM ETC.: "Estimation of allele frequency and association mapping using next-generation sequencing data", BMC BIOINFORMATICS, 30 December 2011 (2011-12-30), pages 2 - 3 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112458162A (zh) * 2020-11-16 2021-03-09 北京迈基诺基因科技股份有限公司 器官移植ddcfDNA检测试剂和方法
CN112458162B (zh) * 2020-11-16 2023-04-18 北京迈基诺基因科技股份有限公司 器官移植ddcfDNA检测试剂和方法

Also Published As

Publication number Publication date
WO2018236911A1 (en) 2018-12-27
US20210151125A1 (en) 2021-05-20
NZ759485A (en) 2021-10-29
CA3067419A1 (en) 2018-12-27
SG11201911538YA (en) 2020-01-30
EP3642747A1 (en) 2020-04-29
KR102487135B1 (ko) 2023-01-10
AU2018288772B2 (en) 2022-02-24
IL271155A (en) 2020-01-30
JP2020529648A (ja) 2020-10-08
JP7009518B2 (ja) 2022-01-25
AU2018288772A1 (en) 2019-12-12
KR20200010464A (ko) 2020-01-30

Similar Documents

Publication Publication Date Title
US20200251180A1 (en) Resolving genome fractions using polymorphism counts
CN106795558B (zh) 检测胎儿亚染色体非整倍性和拷贝数变异
US9670530B2 (en) Haplotype resolved genome sequencing
JP7009518B2 (ja) 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム
US20190172582A1 (en) Methods and systems for determining somatic mutation clonality
WO2014204991A1 (en) Method for determining copy number variations in sex chromosomes
KR102543270B1 (ko) 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법
NZ759848B2 (en) Liquid sample loading
NZ759848A (en) Method and apparatuses for screening
NZ759784A (en) Liquid sample loading
NZ759784B2 (en) Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes
EP4256565A1 (en) System and method for detection of genetic alterations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination