CN110770839A - 来自未知基因型贡献者的dna混合物的精确计算分解的方法 - Google Patents

来自未知基因型贡献者的dna混合物的精确计算分解的方法 Download PDF

Info

Publication number
CN110770839A
CN110770839A CN201880041562.7A CN201880041562A CN110770839A CN 110770839 A CN110770839 A CN 110770839A CN 201880041562 A CN201880041562 A CN 201880041562A CN 110770839 A CN110770839 A CN 110770839A
Authority
CN
China
Prior art keywords
nucleic acid
allele
contributors
sample
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880041562.7A
Other languages
English (en)
Inventor
K·舍夫勒
J·F·施莱辛格
R·凯利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Irumina Co Ltd
Illumina Inc
Original Assignee
Irumina Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Irumina Co Ltd filed Critical Irumina Co Ltd
Publication of CN110770839A publication Critical patent/CN110770839A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Finishing Walls (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

用于对包含一个或多个贡献者的核酸的核酸样品进行定量的计算机方法和系统,旨在:接收从核酸样品获得并映射到多态性基因座处的等位基因的核酸序列读序;使用核酸序列读序,确定多态性基因座处每个等位基因的等位基因计数;使用概率混合物模型,其将概率混合物模型应用于等位基因计数;并且使用概率分布对多态性基因座处的等位基因计数进行建模;使用概率混合物模型,对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量;确定一个或多个贡献者中特定贡献者具有特定基因型的概率;以及基于后验概率,呼叫出核酸样品包括来自特定贡献者的核酸。

Description

来自未知基因型贡献者的DNA混合物的精确计算分解的方法
相关申请的交叉引用
本申请要求于2017年6月20日提交的美国临时专利申请号62/522,618的优先权,其全部内容通过在此引用作为参考。
背景技术
在研究以及临床环境中经常发现来自紧密相关基因组的核酸(例如,DNA或RNA)混合物的测序数据,并且当原始基因组未知时,对混合贡献者进行定量一直是挑战。例如,在微生物学和宏基因组学的上下文中,研究人员和临床医生可能需要对环境样品中相同物种的密切相关的细菌菌株进行定量。在法医环境中,执法人员可能需要对从包含多个个体DNA的血液样品中对人类个体进行量化以及识别。
另一个应用是下一代测序(NGS)偶联的液体活组织检查。NGS偶联的液体活组织检查是一种新兴的诊断策略,在各种临床环境中都有潜在的应用前景。在器官或组织移植的上下文中,NGS偶联的液体活组织检查提供了一种非侵入性方法,用于通过对接受者血液中同种异体DNA的量进行定量来监视同种异体移植物的健康状况。在一些应用中,供者和接受者基因组是未知的或部分未知的。
发明概述
在此提出的一些实施方式提供了用于对核酸混合物样品进行解卷积的计算机实施的方法和系统,该核酸混合物样品包括未知基因型的两个或更多个贡献者的核酸。本公开的一个方面涉及用于对核酸样品中的核酸分数进行定量的方法,该核酸样品包括具有不同基因组的两个或更多个贡献者的核酸(例如,DNA或RNA)。在一些实施方式中,如下所述,核酸混合物样品包括生物组织、细胞、外周血、唾液、尿液和其它生物液体(biologicalfluid)。在一些应用中,核酸样品仅包括单个贡献者的核酸,并且在此所述的实施方式可以确定单个贡献者的核酸占样品中核酸的100%。因此,尽管下文中的描述在一些实施方式中将核酸样品称为核酸混合物样品,但应理解,样品可以包括单个贡献者的核酸,贡献者的分数为100%或1。当然,该方法也可以用于对包含两个或更多个贡献者的核酸的样品进行定量。
因为在此提供的各种方法和系统实施使用概率混合物模型和贝叶斯推断技术的算法和过程,所以实施方案在对核酸(例如,DNA或RNA)混合物样品进行解卷积方面提供了优于常规方法的技术改进。在此描述的一些实施方式是指DNA样品,但是应当理解,该实施方式也适用于分析RNA样品。一些实施方式提供了改进的分析敏感性和特异性,提供了核酸混合物样品的更准确的解卷积和定量。一些实施方式允许对具有太低而无法精确定量贡献者分数或确定贡献者基因型的核酸量的核酸混合物样品的精确分析。
在一些实施方案中,该方法在包括一个或多个处理器和系统存储器的计算机系统上实现,该计算机系统被配置为对包括两个或多个贡献者的核酸的核酸混合物样品进行解卷积。
一些实施方案提供了一种用于对核酸混合物样品中的贡献者的核酸分数进行定量的方法,该核酸混合物样品包含贡献者和至少一个其他贡献者的核酸。该方法涉及:(a)由计算机系统接收从核酸样品获得并被映射到一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序;(b)使用核酸序列读序并由一个或多个处理器确定在一个或多个多态性基因座处的一个或多个等位基因的每一个等位基因的等位基因计数;(c)使用概率混合物模型,其将概率混合物模型应用于等位基因计数,并使用概率分布来对一个或多个多态性基因座处的等位基因计数进行建模,该概率分布考虑了核酸序列读序中的错误;(d)使用概率混合物模型并由一个或多个处理器对核酸样品中的一个或多个贡献者的核酸的一个或多个分数进行定量;(e)确定一个或多个贡献者中特定贡献者具有特定基因型的概率;以及(f)基于该后验概率,呼叫出(calling)核酸样品包括来自特定贡献者的核酸。
在一些实施方式中,一个或多个贡献者包含两个或更多个贡献者。
在一些实施方式中,该方法进一步包括确定一个或多个贡献者中的贡献者的总数。
在一些实施方式中,一个或多个贡献者的一种或多种基因型是未知的。在一些实施方式中,该方法进一步包括在一个或多个多态性基因座的每一个多态性基因座处确定一个或多个等位基因构型,每个等位基因构型包括针对一个或多个贡献者中的每一个贡献者的两个或更多个等位基因的等位基因状态。在一些实施方式中,该方法进一步包括确定一个或多个等位基因构型的估计概率。
在一些实施方式中,获得一个或多个贡献者中的特定贡献者具有特定基因型的后验概率包括:(i)将基因型构型的先验概率与基因型构型的似然度相乘;(ii)通过基因型空间上的总和对(i)的乘积进行归一化;以及(iii)对包含特定基因型的基因型构型求和以获得后验概率。
在一些实施方式中,特定基因型包括多基因座基因型,该方法进一步包括:在所有贡献者中,对贡献者在所有基因座处都具有特定基因型的后验概率进行求和;以及基于所求和的概率确定所指定的多个基因座基因型出现在任何贡献者中。在一些实施方式中,核酸样品是法医样品,并且多个基因座基因型的数据从感兴趣的入获得,该方法进一步包括确定感兴趣的人是核酸样品的贡献者。
在一些实施方式中,核酸样品包含DNA分子和/或RNA分子。在一些实施方式中,其中通过使用独特的分子索引(unique molecular indices)对DNA分子和/或RNA分子测序来获得核酸序列读序。
在一些实施方式中,概率分布包含第一二项式分布。在一些实施方式中,第一二项式分布表示如下:
nij~BN(ni,pij)
nij是基因座i处等位基因j的等位基因计数;ni是基因座i处的总等位基因计数;以及pij是概率参数,指示基因座i处等位基因j的概率。
在一些实施方式中,概率参数pij是以下函数:(i)核酸样品中一个或多个贡献者之一的核酸分数,或β;(ii)一个或多个贡献者的基因型,或G;和/或(iii)核酸序列读序中的错误,或θ。
在一些实施方式中,概率混合物模型使用贝塔分布来对核酸序列读序中的错误建模。在一些实施方式中,贝塔分布由均值参数μ和浓度参数k定义。在一些实施方式中,浓度参数具有表示不同噪声状况的先验,并且浓度参数在基因座上变化。
在一些实施方式中,(c)包括组合第一二项式分布和贝塔分布以获得遵循贝塔-二项式分布的nii的边缘分布。在一些实施方式中,贝塔-二项式分布具有以下形式:
BB(nij|ni,μ,k)。
在一些实施方式中,(c)包括通过使核酸序列读序的似然函数最大化来对核酸样品中的一个或多个贡献者的核酸的一个或多个分数进行定量。在一些实施方式中,(c)包括:使用多个潜在分数值和在(b)中确定的等位基因计数的似然函数来计算多个似然值;识别与最大似然值相关联的潜在分数矢量;以及使用所识别的潜在分数矢量,来对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量。
在一些实施方式中,似然函数取决于P(G|π),该P(G|π)是给定群体等位基因频率(π)时一个或多个贡献者的基因型的先验概率。在一些实施方式中,使用满足哈迪-温伯格平衡的边缘分布来计算先验概率P(G|π)。在一些实施方式中,先验概率是考虑具有代表机制漏失(drop-out)的固定的先验概率的虚拟等位基因(dummy allele)而计算的。在一些实施方式中,概率混合物模型使用第二二项式分布来对等位基因数据中的卡顿错误(stuttererrors)建模。在一些实施方式中,第二二项式分布表示如下:
sik~BN(ni(k+1),ri)
sik是卡顿等位基因的基因座i处的卡顿等位基因计数,该等位基因计数看似是等位基因k,但实际上由等位基因k+1的卡顿错误引起;ni(k+1)是基因座i处等位基因k+1的原始等位基因计数;以及ri是基因座i的卡顿率。
在一些实施方式中,卡顿率r在基因座上变化并且具有表示不同噪声状况的先验,该先验在基因座上被共享。在一些实施方式中,(d)包括使用似然函数来对核酸样品中一个或多个贡献者的核酸分数进行定量,该似然函数包括非卡顿等位基因计数的似然度和卡顿等位基因计数的似然度的乘积。在一些实施方式中,(c)包括当确定可潜在地引起卡顿的分子数量时,将固定数量的分子添加到分配给等位基因k+1的等位基因计数。
在一些实施方式中,概率混合物模型使用虚拟样品外等位基因(dummy out-of-sample allele)来对自然漏失进行建模。在一些实施方式中,虚拟样品外等位基因的先验与未观察到的等位基因的数量成比例。在一些实施方式中,未观察到的等位基因的数量通过以下方式估计:在观察到的最短和最长的整数值等位基因之间插入所有整数,添加任何观察到的非整数值等位基因,以及返回最大结果值和阈值。
在一些实施方式中,(c)包括从用于对核酸样品中一个或多个贡献者的核酸分数进行定量的数据中修剪基因型构型。在一些实施方式中,修剪基因型构型包含:通过构建所需等位基因列表并排除不具有足够的贡献者来解释所有所需等位基因的基因座,从而限制看似合理的基因型构型。在一些实施方式中,所需等位基因的列表基本上由如下等位基因组成,该等位基因具有高于阈值和由于卡顿插入而太高以致非看似合理的等位基因计数。在一些实施方式中,阈值是以下各项的总和:(i)最大非卡顿等位基因计数,以及(ii)与潜在的卡顿供者等位基因计数相乘的值。在一些实施方式中,修剪基因型构型包含:去除在等位基因数据与预期的等位基因计数之间具有较差匹配的基因型构型。在一些实施方式中,具有较差匹配的基因型构型具有大于一个或多个阈值的均方根误差(RMSE)值。
在一些实施方式中,一个或多个多态性基因座处的等位基因包含单核苷酸多态性(SNP)等位基因和/或短串联重复(STR)等位基因。
公开的实施方案还提供一种计算机程序产品,该计算机程序产品包括非暂态计算机可读介质,在该介质上提供了用于执行在此所述的所叙述的操作和其它计算操作的程序指令。
一些实施方案提供了一种用于对核酸混合物样品中的贡献者的核酸分数进行定量的系统,该核酸混合物样品包含贡献者和至少一个其他贡献者的核酸。该系统包括:测序仪,用于从测试样品接收核酸,提供来自样品的核酸序列信息;处理器;以及一种或多种计算机可读存储介质,其上存储有用于使用在此所述方法在处理器上执行的指令。
本公开的一方面提供了一种包括系统存储器和一个或多个处理器的计算机系统。该处理器被配置为:(a)接收从核酸样品获得并被映射到一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序;(b)使用核酸序列读序,确定在一个或多个多态性基因座处的一个或多个等位基因的每一个等位基因的等位基因计数;以及(c)使用概率混合物模型,其将概率混合物模型应用于等位基因计数,并使用概率分布来对一个或多个多态性基因座处的等位基因计数进行建模,该概率分布考虑了核酸序列读序中的错误;(d)使用概率混合物模型对核酸样品中的一个或多个贡献者的核酸的一个或多个分数进行定量;(e)确定一个或多个贡献者中特定贡献者具有特定基因型的后验概率;以及(f)基于后验概率,呼叫出核酸样品包括来自特定贡献者的核酸。
在一些实施方式中,该系统进一步包括用于从核酸样品提取核酸的工具。
在一些实施方式中,一个或多个处理器进一步被配置为确定一个或多个贡献者中的贡献者的总数。
在一些实施方式中,一个或多个处理器进一步被配置为确定在一个或多个多态性基因座的每一个多态性基因座处的等位基因构型,该等位基因构型包括针对一个或多个贡献者中的每一个贡献者的两个或更多个等位基因的等位基因状态。
本公开内容的另一方面提供了一种存储程序代码的非暂态计算机可读介质,该程序代码在由计算机系统的一个或多个处理器执行时使计算机系统实施一种对包含一个或多个贡献者的核酸的核酸样品进行定量的方法,所述程序代码包括:(a)用于接收从核酸样品获得并被映射到一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的代码;(b)用于使用核酸序列读序,确定在一个或多个多态性基因座处的一个或多个等位基因的每一个等位基因的等位基因计数的代码;(c)用于使用概率混合物模型的代码,其将概率混合物模型应用于等位基因计数,并使用概率分布来对一个或多个多态性基因座处的等位基因计数进行建模,该概率分布考虑了核酸序列读序中的错误;(d)用于使用概率混合物模型对核酸样品中的一个或多个贡献者的核酸的一个或多个分数进行定量的代码;(e)用于确定一个或多个贡献者中特定贡献者具有特定基因型的后验概率的代码;以及(f)用于基于后验概率,呼叫出核酸样品包括来自特定贡献者的核酸的代码。
尽管在此的实例涉及人类,并且该语言主要针对人类,但是在此所述的概念适用于来自任何植物或动物的基因组。根据以下描述和所附权利要求书,本公开的这些和其它目的和特征将变得更加完全明显,或者可以通过以下所述的本公开的实践来获知。
通过引用并入本文
在此所引用的所有专利、专利申请和其它出版物,包括这些参考文献中公开的所有序列,均以引用的方式明确地并入在此,其程度就好像每个单独的出版物、专利或专利申请被具体地和单独地指明了一样以供参考。为了在此引用文献的上下文所指示的目的,所有引用的文献在相关部分均通过引用全部并入在此。然而,任何文献的引用均不应被解释为承认其是相对于本公开的现有技术。
附图简述
图1A-1C示出了设计用于贡献者DNA定量的生物信息学算法和统计模型的概述。
图2A示出了框图,该框图示出了用于对核酸样品中一个或多个贡献者的核酸(例如,DNA或RNA)的一个或多个分数进行定量的过程。
图2B示出了说明概率混合物模型的各个组成部分的框图。
图2C示意性地说明了将一个等位基因转换为另一等位基因并将真正等位基因转换为意外等位基因的测序错误。
图3示出了说明用于评估包含一个或多个贡献者的核酸的核酸样品的过程的框图。
图4示出了根据某些实施方案的可以用作计算装置的典型计算机系统的框图。
图5示出了用于从测试样品产生呼叫(call)或诊断的分散系统的一种实施方式。
图6示出了用于在不同位置处执行一些实施方式的各种操作的选项。
图7A-7F示出了使用从实际DNA混合物样品获得的数据来说明可以有效地对DNA混合物样品进行定量和解卷积的一些实施方式的实例的结果。
图8A-8D示出了使用模拟数据来说明可以有效地对DNA混合物样品进行定量和解卷积的一些实施方式的实例的结果。
具体实施方式
定义
除非另有说明,否则在此公开的方法和系统的实践涉及本领域技术范围内分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序以及重组DNA领域常用的常规技术和装置。此类技术和装置是本领域技术人员已知的,并且在许多教科书和参考著作中进行了描述(参见,例如,Sambrook等人,“分子克隆:实验室手册”(“Molecular Cloning:ALaboratory Manual”),第三版(冷泉港),[2001年);以及Ausubel等人,“分子生物学的当前方案”(Current Protocols in Molecular Biology)[1987年])。
数字范围包括定义范围的数字。贯穿本说明书给出的每个最大数值限制旨在包括每个较低的数值限制,就像此类较低的数值限制在此明确写出一样。贯穿本说明书给出的每个最小数值限制将包括每个更高的数值限制,就像此类较高的数值限制在此明确写出一样。贯穿本说明书给出的每个数值范围将包括落入此类较宽数值范围内的每个较窄数值范围,就像此类较窄数值范围均在此明确写出一样。
在此本文提供的标题无意限制本公开。
除非在此另有定义,否则在此使用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同含义。包括在此包括的术语的各种科学词典是本领域技术人员众所周知的并且可得到的。尽管与在此描述的那些方法或材料相似或等同的任何方法和材料都可用于在此公开的实施方案的实践或测试中,但是描述了一些方法和材料。
通过参考整个说明书更全面地描述了下面立即定义的术语。应当理解,本公开不限于所描述的特定方法、方案和试剂,因为这些可以变化,这取决于本领域技术人员所使用的上下文。如在此所使用的,单数术语“一”、“一个”和“该”包括复数引用,除非上下文另外明确指出。
除非另有说明,否则分别以5′至3′的方向从左至右书写核酸,并以氨基至羧基的取向从左至右书写氨基酸序列。
术语供者DNA(dDNA)是指源自移植供者细胞的DNA分子。在各个实施方式中,dDNA存在于从受赠者获得的样品中,该受赠者接受了来自供者的移植组织/器官。在一些实施方式中,dDNA包括以下。
循环的无细胞DNA或简单地无细胞DNA(cfDNA)是不限于细胞内并且在血流或其它体液中自由循环的DNA片段。已知cfDNA具有不同的来源,因此在一些情况下起源于肿瘤细胞或受肿瘤影响的细胞,在其它情况下起源于由怀孕母亲携带并在母体血液中循环的胎儿的胎儿细胞。通常,cfDNA是片段化的并且仅包括基因组的一小部分,该基因组可能不同于从其获得cfDNA的生物的基因组。
术语非循环基因组DNA(gDNA)或细胞DNA用于指被限制在细胞中并且通常包括完整基因组的DNA分子。
贝塔分布是在区间[0,1]上定义的连续概率分布家族,该区间由两个正的形状参数(例如,以α和β表示)参数化,它们以随机变量的指数形式出现并控制分布的形状。贝塔分布已被应用在各种学科中对限于有限长度区间的随机变量的行为进行建模。在贝叶斯推断中,贝塔分布是伯努利、二项式、负二项式和几何分布的共轭先验概率分布。例如,可以在贝叶斯分析中使用贝塔分布来描述有关成功概率的初始知识。如果随机变量X遵循贝塔分布,则将随机变量X写为X~贝塔(α,β)。
二项式分布是在n个独立实验的序列中成功次数的离散概率分布,每个实验都询问是非问答,并且每个实验都有自己的布尔值结果:包含单个信息位的随机变量:正(概率为p)或负(概率为q=1-p)。对于单项试验,即n=1,二项式分布是伯努利分布。二项式分布通常用于对从大小为N的群体中替换得出的大小为n的样品的成功次数进行建模。如果随机变量X遵循参数
Figure BDA0002328220940000102
和p∈[0,1]的二项式分布,则随机变量X写为X~B(n,p)。
泊松分布,在此表示为Pois(),是离散概率分布,其表示如果这些事件以已知的平均速率发生并且与自上次事件以来的时间无关,则在给定数量的事件在固定的时间和/或空间区间内发生的概率。泊松分布还可以用于其它指定区间(诸如距离、面积或体积)中的多个事件。根据泊松分布,在区间中观察到k个事件的概率由以下方程给出:
Figure BDA0002328220940000101
其中λ是区间中事件的平均数量或事件率,也称为率参数e为2.71828、欧拉数或自然对数的底数,k取值为0、1、2,…并且k!是k的阶乘。
伽马分布是连续概率分布的两参数家族。共有三种常用的不同参数设置:形状参数k和比例参数θ;形状参数α=k,并且逆比例参数β=1/θ,称为率参数;或形状参数k和均值参数μ=k/β。在这三种形式的每一种形式中,两个参数均为正实数。伽马分布是随机变量X的最大熵概率分布,对于该变量,E[X]=kθ=α/β是固定的并且大于零,并且E[ln(X)]=ψ(k)+ln(θ)=ψ(α)-ln(β)是固定的(ψ是digamma函数)。
多态性和遗传多态性在此可互换使用,是指在一个基因组基因座处两个或更多个等位基因在同一群体中的出现,每个等位基因具有明显的频率。
多态性位点和多态位点在此可互换使用,是指基因组上两个或更多个等位基因所在的基因座。
等位基因频率或基因频率是相对于基因的其它等位基因的基因(或基因的变体)的等位基因的频率,其可以表示为小数或百分数。等位基因频率通常与特定的基因组基因座相关联,因为基因通常位于一个或多个基因座处。然而,如在此使用的等位基因频率也可以与DNA片段的基于大小的片段(size-based bin)相关联。在该意义上,将包含等位基因的DNA片段(诸如cfDNA)分配给不同的基于大小的片段。相对于其它等位基因的频率,基于大小的片段中等位基因的频率是等位基因频率。
术语“参数”在此是指表征诸如物理特征的系统的属性的数值,该物理特征的值或其它特性会影响诸如样品或DNA分子的相关条件。在一些情况下,术语“参数”参考影响数学关系或模型输出的变量使用,该变量可以是自变量(即模型的输入)或基于一个或多个自变量的中间变量。取决于模型的范围,一个模型的输出可能成为另一模型的输入,从而成为另一模型的参数。
术语“多个”是指多于一个的元素。
术语“配对末端的读序”是指来自配对末端测序的读序,其从核酸片段的每个末端获得一个读序。配对末端测序可涉及将多核苷酸链片段化为称为插入物的短序列。对于较短的多核苷酸,诸如无细胞的DNA分子,片段化是可选的或不必要的。
术语“多核苷酸”、“核酸”和“核酸分子”可互换使用,并且是指核苷酸的共价连接序列(即,RNA的核糖核苷酸和DNA的脱氧核糖核苷酸),其中一个核苷酸的戊糖的3′位置通过磷酸二酯基连接到另一个核苷酸的戊糖的5′位置。核苷酸包括任何形式的核酸的序列,包括但不限于RNA和DNA分子,诸如cfDNA或细胞DNA分子。术语“多核苷酸”包括但不限于单链和双链多核苷酸。
在此的术语“测试样品”是指通常衍生自生物液体、细胞、组织、器官或生物的样品,其包含核酸或核酸混合物。此类样品包括但不限于痰液/口腔液、羊水、血液、血液成分或细针穿刺活组织检查样品(例如,外科活组织检查、细针穿刺活组织检查等)、尿液、腹膜液、胸膜液等。尽管样品通常取自人类受试者(例如患者),但该测定法可用于任何哺乳动物的样品,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可以直接从生物来源获得,或也可以经过预处理以改变样品的特性。例如,此类预处理可以包括从血液中制备血浆,稀释粘性液体等。预处理方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、试剂添加、裂解等。如果对样品采用此类预处理方法,则此类预处理方法通常应使感兴趣的核酸保留在测试样品中,有时其浓度与未处理的测试样品(例如,即,没有经过任何此类预处理方法的样品)中的浓度成比例。关于在此所述的方法,此类“处理的”或“加工的”样品仍被认为是生物学的“测试”样品。
术语“下一代测序(NGS)”在此是指允许克隆扩增的分子和单个核酸分子的大规模并行测序的测序方法。NGS的非限制性实例包括使用可逆染料终止子的合成测序和连接测序。
术语“读序”是指从核酸样品的一部分获得的序列。通常,虽然不是必需的,但读序代表样品中连续碱基对的短序列。该读序可以由样品部分的碱基对序列(以A、T、C或G表示)象征性地表示。可以将其存储在存储器设备中,并进行适当的处理以确定它是否与参考序列匹配或满足其它标准。可以直接从测序装置获得读序,或从与样品有关的存储序列信息间接获得读序。在一些情况下,读序是具有足够长度(例如,至少约25bp)的DNA序列,该足够长度可用于识别例如可比对并特异性分配给染色体或基因组区域或基因的更大的序列或区域。
术语“基因组读序”用于指个体的整个基因组中任何片段的读序。
如在此所使用的,术语“比对的”、“比对”或“已比对”是指将读序或标签与参考序列进行比较并且从而确定参考序列是否包含读序序列的过程。如果参考序列包含读序,则该读序可以被映射到参考序列,或者在某些实施方案中,被映射到参考序列中的特定位置。在一些情况下,比对只是表明读序是否为特定参考序列的成员(即,读序在参考序列中存在还是不存在)。例如,读序与人类13号染色体参考序列的比对将表明该读序是否存在于13号染色体的参考序列中。提供该信息的工具可以称为集合成员资格测试器。在一些情况下,比对另外指示在读序或标签所映射的参考序列中的位置。例如,如果参考序列是全长人基因组序列,则比对可以指示读序存在于13号染色体上,并且可以进一步指示该读序在13号染色体的特定链和/或位点上。
比对的读序或标签是一个或多个序列,其根据它们的核酸分子与参考基因组中已知序列的顺序,被鉴定为匹配。尽管通常通过计算机算法来实现,但是可以手动进行比对,因为不可能在合理的时间段内对读序进行比对以实现在此公开的方法。来自比对序列的算法的一个实例是作为Illumina基因组学分析流水线的一部分分发的核苷酸数据的高效局部比对(ELAND)计算机程序。可替代地,可以使用布隆过滤器或类似的集合成员资格测试器来使读序与参考基因组比对。参见2011年10月27日提交的美国专利申请号61/552,374,其通过引用整体并入在此作为参考。比对中的序列读序的匹配可以是100%序列匹配或小于100%(非完美匹配)。
在此使用的术语“映射”是指使用比对或成员资格分配来将序列读序特异性地分配给较大序列,例如参考基因组,该较大序列的子序列。
如在此所使用的,术语“参考基因组”或“参考序列”是指可用于参考来自受试者的已识别序列的任何生物体或病毒的任何特定的已知基因组序列,无论是部分的还是完整的。例如,在国家生物技术信息中心(ncbi.nlm.nih.gov)上可以找到用于人类受试者以及许多其它生物体的参考基因组。“基因组”是指以核酸序列表达的生物或病毒的完整遗传信息。
在多个实施方案中,参考序列显著大于与之比对的读序。例如,它可以大至少约100倍,或大至少约1000倍,或大至少约10000倍,或大至少约105倍,或大至少约106倍,或大至少约107倍。
在一个实例中,参考序列是全长人类基因组的序列。此类序列可以被称为基因组参考序列。在另一个实例中,参考序列限于特定的人类染色体,诸如13号染色体。在一些实施方案中,参考Y染色体是来自人类基因组版本hgl9的Y染色体序列。此类序列可以被称为染色体参考序列。参考序列的其它实例包括其它物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。
在多个实施方案中,参考序列是共有序列或衍生自多个个体的其它组合。但是,在某些应用中,参考序列可以取自特定个体。
当在核酸或核酸混合物的上下文中使用时,术语“衍生的”在此是指从其源自的来源获得核酸的方式。例如,在一个实施方案中,源自两个不同基因组的核酸的混合物是指核酸,例如cfDNA,其是由细胞通过天然存在的过程(诸如坏死或凋亡)而自然释放的。在另一个实施方案中,源自两个不同基因组的核酸的混合物是指核酸从受试者的两种不同类型的细胞中提取。例如,核酸混合物包括源自供者细胞和从器官移植对象获得的受赠者细胞的核酸。在一些实施方式中,核酸混合物包含两个或更多个贡献者个体的生物材料。例如,包括两个或更多个个体的生物材料的法医样品包括两个或更多个个体的DNA。
当在获得特定定量值的上下文中使用时,术语“基于”在此是指使用另一数量作为输入以计算特定定量值作为输出。
术语“生物液体”在此是指取自生物来源的液体,并且包括例如血液、血清、血浆、痰液、灌洗液、脑脊髓液、尿液、精液,汗液、泪液、唾液等。如在此所使用的,术语“血液”、“血浆”和“血清”明确涵盖其级分或处理部分。类似地,当从活组织检查、拭子、涂片等中获取样品时,“样品”明确涵盖了从活组织检查、拭子、涂片等中得到的处理过的级分或部分。
如在此所使用的,术语“对应于”有时是指存在于不同受试者的基因组中的核酸序列,例如基因或染色体,并且不一定在全部基因组中具有相同的序列,但是用于提供感兴趣序列(例如基因或染色体)的身份而非遗传信息。
在此的术语“贡献者”是指人类贡献者以及非人类贡献者,诸如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌和病毒。尽管在此的实例涉及人类,并且该语言主要针对人类,但是在此公开的概念适用于来自任何植物或动物的基因组,并且可用于兽医、动物科学、研究实验室等领域。
如在此所使用的,术语“敏感性”是指当存在目的疾病时测试结果为阳性的概率。可以将其计算为真阳性的数量除以真阳性和假阴性之和。
如在此所使用的,术语“特异性”是指当不存在目的疾病时测试结果为阴性的概率。可以将其计算为真阴性的数量除以真阴性和假阳性之和。
如在此所使用的,术语“引物”是指如下分离的寡核苷酸,当置于诱导延伸产物合成的条件(例如,条件包括核苷酸、诱导剂(诸如DNA聚合酶)以及合适的温度和pH)下时,该分离的寡核苷酸能够充当合成起始点。为了最大的扩增效率,引物优选是单链的,但是可以可替代地是双链的。如果是双链的,则在用于制备延伸产物之前,首先对引物进行处理以分离其链。优选地,引物是寡脱氧核糖核苷酸。引物必须足够长以在诱导剂存在下引发延伸产物的合成。引物的确切长度将取决于许多因素,包括温度、引物来源、方法的使用以及用于引物设计的参数。
介绍
本公开提供了用于对包括两种或多种未知基因型贡献者的核酸的核酸混合物样品进行解卷积的方法和系统,从而提供了多种优点和技术改进。例如,一些实施方式应用概率混合物建模、贝叶斯推断技术和数值优化算法来对混合物中的贡献者DNA进行定量,而无需了解贡献者的基因型。
在研究以及临床环境中经常发现来自紧密相关基因组的核酸(例如,DNA或RNA)混合物的测序数据,并且当原始基因组未知时,对混合贡献者进行定量一直是挑战。在本领域中已经进行了使DNA混合物解卷积的尝试,取得了有限的成功。使用毛细管电泳(CE)等位基因数据进行了此类尝试,该数据未提供在临床环境中可能有用的等位基因序列信息。此外,基于毛细管电泳的分析通常限于数据库中已知的相对较少的等位基因数,并且无法捕获那些等位基因之外的信息。期望使用下一代测序技术来分析DNA混合物样品。然而,用于解卷积DNA样品的常规方法尚未实施来分析NGS数据。即使人们想修改用于NGS数据分析的常规方法,该修改也不是不关紧要的,并且此类修改的成功性值得怀疑。例如,等位基因的CE数据是连续的,而基于测序数据的等位基因计数是离散的。本领域的技术人员将理解,用于连续数据的模型对于离散数据根本不起作用,或者将次优地执行。因此,期望开发用于对DNA混合物样品的测序数据(例如,NGS数据)进行解卷积的新方法。
一些实施方式提供了用于从血液cfDNA或gDNA样品的多标记靶向重测序数据中对贡献者DNA进行定量的方法和系统。一些实施方式提供了使用新颖的概率模型和数值优化算法从血液cfDNA或gDNA样品的多标记靶向重测序数据中对贡献者DNA进行定量的方法和系统。一些实施方式提供了方法和系统,用于使用具有编码遗传关系的先验分布的贝叶斯建模来对未知基因型的遗传相关供者和接受者的贡献者DNA进行定量。通过使用遗传关系信息在贝叶斯框架中提供先验信息,与不使用遗传关系信息的方法相比,可以改善DNA混合物的定量。
一些实施方式提供了用于通过使用对数似然函数的估计的黑森矩阵上的Cramer-Rao界来估计DNA定量的置信区间的方法和系统。
短测序读序映射中的等位基因偏倚混淆了DNA定量。在一些实施方式中,通过使用跨越变体位点的读序的无偏倚映射来降低混淆效果。
即使完全不知道贡献基因组的基因型,在此描述的实施方式也可以准确地估计贡献者DNA分数。PCR扩增后标志位点的等位基因分数可以用贝塔分布可靠地建模。
使用无偏倚参考DNA序列数据库,可以消除对参考等位基因的偏倚,并可靠地估计在变体位点处的等位基因计数和测序错误。
在此描述的实施方式可以采用混合物DNA样品的单次测序运行来估计预测的贡献者DNA分数的置信区间。
实验流水线
图1A-1C示出了设计用于贡献者DNA定量的生物信息学算法和统计模型的概述。图1A示出了用于基于同种异体DNA检测进行测序的实验流水线。图1B示出了用于等位基因计数的无偏倚读序映射工作流程。图1C示出了每标志基因座的等位基因计数的分层概率混合物模型。
一些实施方式应用如图1A所示的实验流水线。该通用实验流水线具有以下步骤。
1)获得包含来自两个个体的DNA的血液样品。
2)取决于应用,提取适当类型的DNA,例如细胞DNA或无细胞DNA(cfDNA)。
3)通过诸如PCR扩增和杂交的方法靶向和富集基因组的特定变异位点或多态性位点。预先选择变体位点以在人类或细菌的不同种群中是可变的。可替代地,可以进行非靶向的全基因组测序,并且将覆盖所有变异位点。
4)通过NGS技术(诸如下面所述的一些技术)对富集的DNA进行测序,以获得针对目标基因组区域富集的测序读序。
形式问题陈述
形式上,贡献者DNA定量(CDQ)问题如下所述:给定包含两个贡献者的DNA样品的测序数据,确定样品中每个贡献者的分数。当贡献者基因组的基因型未知时,CDQ问题被称为盲贡献者DNA定量(盲CDQ);相反的被称为非盲CDQ。关于一些实施方式的一些描述将两个贡献者称为供者和接受者,但是它们不将该方法的应用限制于器官捐赠环境。在下面关于一些实施方式的一些描述中,一个或多个贡献者等效于供者,而另一个贡献者等效于受赠者。
与非盲CDQ相比,盲CDQ是一个更困难的问题,但是它可广泛应用于仅可对混合物样品进行单个测序实验而非盲CDQ需要事先进行测序实验才能确定贡献者(例如器官供者和接受者)的基因型的所有场景。
本文件中描述的计算方法解决了盲CDQ问题,并且该方法的组成部分可以容易地简化或适用于非盲CDQ问题。
计算方法概述
盲CDQ的计算方法具有两个主要步骤:
1)等位基因计数:用于对每个目标标志位点的每个等位基因的测序读序进行无偏倚计数的生物信息学工作流程(图1B),以及
2)贡献者DNA定量:使用分层概率模型和相关联的数值优化算法来对贡献者DNA分数进行定量(图1C)。
尽管一些实施方式在此仅解决“相对定量”,这意味着该实施方式估计源自贡献者来源的DNA样品的百分比或分数,而不是绝对量(就质量或副本数而言)。如果已知输入DNA的总量,则可以采取附加步骤将相对丰度转换为绝对丰度。
用于对核酸样品中的贡献者分数进行定量或对核酸混合物样品进行解卷积的过程概述
图2A示出了用于对核酸样品中一个或多个贡献者的核酸(例如DNA或RNA)的一个或多个分数进行定量的过程200的框图。核酸样品包括贡献者和至少一个其他贡献者的核酸(例如DNA或RNA)。该方法在包括一个或多个处理器和系统存储器的计算机系统(诸如下面所述的系统)上实施。在一些实施方式和应用中,在此的描述涉及DNA,但是本领域技术人员应理解,也可以使用在此所述的实施方式来分析RNA和其它形式的核酸。在此描述的各种实施方式可以用于分析来自一个或多个贡献者的核酸的核酸样品。在一些实施方式中,提供了对一个或多个贡献者的核酸的一个或多个分数进行定量的方法和系统。在此的一些描述中,核酸样品被称为混合物样品,因为样品可以包括来自两个以上贡献者的核酸。然而,应理解,术语“混合物”的使用指示样品包含两个或更多个贡献者核酸的可能性,并且不排除样品仅包括单个贡献者核酸的可能性。在后一种情况下,可以为一个贡献者确定1的数或100%的百分比(或误差裕度(margin of error)内的值)。
在一些实施方式中,核酸样品的一个或多个贡献者包含在移植的受赠者中的移植的供者。在一些实施方式中,移植物包括同种异体或异种移植。在一些实施方式中,核酸样品是从受赠者获得的生物样品。在一些实施方式中,核酸样品包括无细胞核酸。在一些实施方式中,样品包括细胞DNA。
过程200涉及使用诸如在此所述的技术从核酸样品中提取核酸分子。参见框202。
过程200进一步包括扩增提取的核酸分子。参见框204。可以使用各种扩增技术,诸如在此所述的那些技术。在一些实施方式中,PCR用于扩增提取的核酸分子。在一些实施方式中,扩增以特定的多态性为目标。在其它实施方式中,可以执行全基因组扩增,并且可以通过测序获得特定多态性位点的等位基因数据。
过程200还涉及使用核酸测序仪对扩增的核酸分子进行测序以产生核酸序列读序。参见框206。在下面进一步描述了各种测序技术和设备,其可以在操作206中应用。
过程200进一步涉及将核酸序列读序映射到参考序列上的一个或多个多态性基因座。在一些实施方式中,可以使用比对技术将核酸序列读序映射到一个或多个多态性基因座。在其它实施方式中,可以使用无偏倚映射技术将核酸序列读序与多态性基因座匹配。参见框208。在一些实施方式中,将核酸序列读序映射到多态性基因座处的特定等位基因。在下面将进一步描述元偏倚映射技术。在一些实施方式中,一个或多个多态性基因座(或多态性基因座)包括双等位基因座。在一些实施方式中,一个或多个多态性基因座处的等位基因包含单核苷酸多态性(SNP)等位基因。
在一些实施方式中,独特的分子索引(UMI)附着于提取的核酸分子,然后对其进行扩增、测序并映射到多态性基因座或等位基因。独特的分子索引提供了减少样品处理和分析步骤中可发生的错误的机制。例如,可以将共享同一独特的分子索引(UMI)的不同读序组合或重叠,以确定衍生出该读序的序列,从而有效消除了在样品处理和测序期间发生的错误。
过程200进一步涉及使用核酸序列读序的方法确定在一个或多个多态性基因座处的等位基因的核酸序列读序的等位基因计数。参见框210。
过程200还涉及将概率混合物模型应用于核酸序列读序的等位基因计数。概率混合物模型使用概率分布来对一个或多个多态性基因座处的核酸序列读序的等位基因计数进行建模。概率分布考虑了核酸序列读序中的错误。概率混合物模型将核酸序列读序的每个等位基因计数视为来自概率分布的随机样品。
在一些实施方式中,概率分布包含第一二项式分布。在一些实施方式中,第一二项式分布包括指示基因座处的总等位基因计数的数量参数和指示基因座处的第一等位基因的概率的可能参数。在一些实施方式中,第一二项式分布表示如下:
nij~BN(ni,pij)
其中nij是基因座i处等位基因j的核酸序列读序的等位基因计数;ni是基因座i处的总读序计数;以及pij是概率参数,指示基因座i处等位基因j的概率。该基因座处所有可能等位基因的等位基因概率加起来为1。
在一些实施方式中,概率参数是贡献者的核酸分数或β的函数。可能的参数也是一个或多个贡献者的基因型的函数。概率参数也是由206的测序操作导致的误差或λ的函数。在一些实施方式中,概率参数使用下面所述的表3中的p1’值获得。在一些实施方式中,一个或多个贡献者的基因型是未知的。在一些实施方式中,概率混合物模型包括如图2B中所示的各种概率分布。
返回图2A,过程200总结了使用概率混舍物模型对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量。参见框214。在一些实施方式中,定量包括在基因型的多个可能组合上边缘化以获得概率参数。在一些实施方式中,定量包括使用在根据概率混合物模型的参数条件化的操作210中确定的核酸序列读序的等位基因计数的似然函数来对贡献者的核酸分数进行定量。
在一些实施方式中,定量包括使用多个潜在分数值和核酸序列读序的等位基因计数的似然函数来计算多个似然值。定量还涉及识别与作为多个似然值中的最大值的似然值相关联的潜在分数值。在一些实施方式中,针对网格中的多个参数及其值获得多个似然值。定量还涉及以识别出的具有最大似然度的潜在分数值对核酸样品中贡献者的核酸分数进行定量。在一些实施方式中,似然函数包括针对一个或多个多态性基因座的多个边缘分布。
在一些实施方式中,将一个或多个贡献者建模为两个贡献者,并且似然函数如下:
L(n1,…nj|β,π)=Пig1jg2j BN(nij,pij(g1j,g2j,λ,β))·P(g1j,g2j|π)
其中,L(n1,…nj|β,π)是在给定参数β(贡献者之一的核酸分数)和π(群体等位基因频率)的情况下,观察等位基因1至j的等位基因计数n1至nj的似然度;pij(g1j,g2j,λ,β)是概率参数,指示基于等位基因j的两个贡献者基因型(g1j,g2j)在基因座i处等位基因j的概率;以及P(g1j,g2j|π)是在给定群体等位基因频率(π)的情况下观察两个贡献者等位基因j的基因型的先验联合概率。
在一些实施方式中,概率混合物模型考虑了202中执行的提取核酸分子所导致的错误以及在206中测序操作所导致的错误。
在一些实施方式中,概率混合物模型使用第二二项式分布来为一个或多个多态性基因座处的等位基因建模提取的核酸分子的等位基因计数。在一些实施方式中,第二二项式分布表示如下:
nij”~BN(ni”,pij)
其中nij”是在基因座i处的等位基因j的提取核酸分子的等位基因计数;ni”是在基因座i处的提取的核酸分子总计数;以及pij是概率参数,指示在基因座i处等位基因j的概率。
在一些实施方式中,第一二项式分布以等位基因分数nij”/ni”为条件。在一些实施方式中,将第一二项式分布重新参数化如下:
nij|nij”,ni”~BN(ni,nij”/ni”)
其中nij是在基因座i处等位基因j的核酸序列读序的等位基因计数;ni”是在基因座i处提取的核酸分子的总数,其等于总基因组副本数n”;ni是基因座i处的总读序计数;以及nij”是在基因座i处的等位基因j的提取的核酸分子的数量。
在一些实施方式中,概率混合物模型使用第一贝塔分布来近似nij”/n”的分布。在一些实施方式中,第一贝塔分布具有与第二二项式分布的均值和方差匹配的均值和方差。
在一些实施方式中,基因座i被建模为双等位基因,并且第一贝塔分布表示如下:
ni1”/n”~Beta((n”-1)pi1,(n”-1)pi2)
其中pi1是概率参数,指示在基因座i处第一等位基因的概率;并且pi2是概率参数,指示在基因座i处第二等位基因的概率。
在一些实施方式中,该过程包括组合第一二项式分布和第一贝塔分布以获得遵循第一贝塔二项式分布的ni1的边缘分布。
在一些实施方式中,一个或多个贡献者被建模为两个贡献者,并且第一贝塔二项式分布具有以下形式:
BB(ni1,ni2|ni,(n”-1)·p1(g11,g21,λ,β),(n”-1)·p2(g11,g21,λ,β))
其中ni2是在基因座i处的第二等位基因的核酸序列读序的等位基因计数;p1(g11,g21,λ,β)是概率参数,指示基于第一等位基因的第一贡献者基因型(g11)和第一等位基因的第二贡献者基因型(g21)以及测序误差λ和贡献者因子β的第一等位基因的概率;并且p2(g11,g21,λ,β)是概率参数,指示基于第一等位基因的第一贡献者基因型(g11)和第一等位基因的第二贡献者基因型(g21)以及测序误差λ和贡献者因子β的第二等位基因的概率。
在一些实施方式中,操作214包括使用似然函数来对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量,所述似然函数是使用第一贝塔-二项式分布获得的。
L(n1,n2|β,n”,λ,π)=Πig11g21 BB(ni1,ni2|ni,(n”-1)·p1(g11,g21,λ,β),(n”-1)·p2(g11,g21,λ,β))·P(g11,g21|π)
其中L(n1,n2|β,n”,λ,π)是在给定参数β、n”、λ和π的情况下观察第一等位基因的等位基因计数(n1)和第二等位基因的等位基因计数(n2)的似然度;而P(g11,g21|π)是在给定群体等位基因频率(π)的情况下观察第一等位基因的第一贡献者基因型(g11)和第一等位基因的第二贡献者基因型(g21)的先验联合概率。
在一些实施方式中,操作214包括从大量提取的核酸分子中估计提取的总基因组副本数n”。
在一些实施方式中,概率混合物模型考虑了扩增在204中执行的核酸分子所导致的错误以及在206中测序操作所导致的错误。在一些实施方式中,对扩增过程进行如下建模:
xt+1=xt+yt+1
其中xt+1是扩增的循环t+1后给定等位基因的核酸副本;xt是扩增循环t后给定等位基因的核酸副本;yt+1是在循环t+1生成的新副本,并且它遵循二项式分布yt+1~BN(xt,rt+1);并且rt+1是循环t+1的扩增率。
在一些实施方式中,概率混合物模型使用第二贝塔分布来针对一个或多个多态性基因座处的等位基因对扩增的核酸分子的等位基因分数建模。在一些实施方式中,基因座i被建模为双等位基因,并且第二贝塔分布表示如下:
ni1’/(ni1’+ni2’)~Beta(n”·ρi·pi1,n”·ρi·Pi2)
其中ni1’是基因座i处第一等位基因的扩增核酸分子的等位基因计数;ni2’是在基因座i处第二等位基因的扩增核酸分子的等位基因计数;n”是在任何基因座处的总提取核酸分子计数;ρi是与平均扩增率r相关的常数;pi1是基因座i处第一等位基因的概率;并且pi2是基因座i处第二等位基因的概率。在一些实施方式中,ρi是(1+r)/(1-r)/[1-(1+r)-t]。在一些实施方式中,ρi近似为(1+r)/(1-r)。
在一些实施方式中,操作214包括组合第一二项式分布和第二贝塔分布以获得遵循第二贝塔-二项式分布的ni1的边缘分布。在一些实施方式中,第二贝塔-二项式分布具有以下形式:
BB(ni1,ni2|ni,n”·ρi·pi1,n”·ρi·pi2)
其中ni2是在基因座i处的第二等位基因的核酸序列读序的等位基因计数;pi1是概率参数,指示基因座i处第一等位基因的概率;并且pi2是概率参数,指示基因座i处第二等位基因的概率。
在一些实施方式中,操作214包括通过假设一个或多个多态性基因座具有相同的扩增率,将第二贝塔-二项式分布重新参数化为:
BB(ni1,ni2|ni,(1+r)/(1-r)·pi1(g11,g21,λ,β),(1+r)/(1-r)·pi2(g11,g21,λ,β))
其中r是扩增率;并且pi2是概率参数,指示在基因座i处第二等位基因的概率。
在一些实施方式中,操作214包括使用似然函数来对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量,所述似然函数是使用第二贝塔-二项式分布获得的,似然函数如下:
L(n1,n2|β,r,λ,π)=
Πig11g21[BB(ni1,ni2|ni,(1+r)/(1-r)·p1(g11,g21,λ,β),(1+r)/(1-r)·p2(g11,g21,λ,β))·P(g11,g21|π)]
其中L(n1,n2|β,r,λ,π)是在给定参数β、r、λ和π的情况下观察第一等位基因的等位基因计数(n1)和第二等位基因的等位基因计数(n2)的似然度。
在一些实施方式中,操作214包括通过将每个多态性基因座的相对扩增率定义为与每基因座的总读序成比例,将第二贝塔-二项式分布重新参数化为:
BB(ni1,ni2|ni,c’·ni·pi1(g11,g21,λ,β),c’·ni·pi2(g11,g21,λ,β))
其中c’是要优化的参数;并且pi2是概率参数,指示在基因座i处第二等位基因的概率。
在一些实施方式中,操作214包括使用似然函数来对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量,所述似然函数是使用第二贝塔-二项式分布获得的,似然函数如下:
L(n1,n2|β,c’,λ,π)=
Πig11g21[BB(ni1,ni2|ni,c’·ni·p1(g11,g21,λ,β),c’·ni·p2(g11,g21,λ,β))·P(g11,g21|π)]。
在一些实施方式中,概率混合物模型考虑了202中执行的提取核酸分子和扩增在204中执行的核酸分子而导致的错误,以及在206中测序操作而导致的错误。在一些实施方式中,概率混合物模型使用第三β分布对一个或多个多态性基因座的等位基因的扩增核酸分子的等位基因部分进行建模,从而说明了202中执行的提取核酸分子并扩增204中执行的核酸分子而导致的错误,以及在206中测序操作导致的取样错误。
在一些实施方式中,基因座i被建模为双等位基因,并且第三贝塔分布具有以下形式:
ni1’/(ni1’+ni2’)~Beta([n”·(1+ri)/2-1]pi1,[n”·(1+ri)/2-1]pi2)
其中ni1’是基因座i处第一等位基因的扩增核酸分子的等位基因计数;ni2’是在基因座i处的第二等位基因的扩增核酸分子的等位基因计数;n”是提取的总核酸分子计数;ri是基因座i处的扩增率;pi1是基因座i处第一等位基因的概率;并且pi2是基因座i处第二等位基因的概率。
在一些实施方式中,操作214包括组合第一二项式分布和第三贝塔分布以获得遵循第三贝塔-二项式分布的ni1的边缘分布。在一些实施方式中,第三贝塔-二项式分布具有以下形式:
BB(ni1,ni2|ni,(n”·(1+ri)/2-1)·p1(g11,g21,λ,β),(n”·(1+ri)/2-1)·p2(g11,g21,λ,β))。
在一些实施方式中,操作214包括使用似然函数来对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量,所述似然函数是使用第三贝塔-二项式分布获得的,该似然函数包括:
L(n1,n2|β,n”,λ,π)=Πig11g21 BB(ni1,ni2|ni,(n”·(1+ri)/2-1)·p1(g11,g21,λ,β),(n”·(1+ri)/2-1)·p2(g11,g21,λ,β))·P(g11,g21|π)。
其中L(n1,n2|β,n”,λ,π)是在给定参数β、n”、λ和π的情况下观察第一等位基因的等位基因计数n1和第二等位基因的等位基因计数n2的似然度;
在一些实施方式中,过程200进一步包括使用Cramer-Rao不等式估计一个或多个贡献者的核酸的一个或多个分数的一个或多个置信区间。
在一些实施方式中,208的映射操作包括在核酸序列读序中识别与多个无偏倚目标序列的任何序列匹配的读序,其中多个无偏倚目标序列包括参考序列的子序列以及与子序列的区别在于单个核苷酸的序列。
在一些实施方式中,多个无偏倚目标序列包括五类序列:(i)作为参考序列的子序列的参考目标序列,每个参考目标序列包含多态性基因座并且具有在参考序列上发现的参考等位基因;(ii)与参考目标序列相对应的替代目标序列,每个替代目标序列具有与在对应参考目标序列上发现的参考等位基因不同的替代等位基因(alternate allele),其中对应序列在参考序列上具有相同的长度和相同的位置;(iii)突变的参考目标序列,其包含所有可能的序列,每个序列与参考目标序列的区别在于除了定义参考等位基因与替代等位基因之间差异的核苷酸以外的一个核苷酸;(iv)突变的替代目标序列(alternative targetsequences),其包含所有可能的序列,每个序列与替代目标序列的区别仅在于除了定义参考等位基因与替代等位基因之间差异的核苷酸以外的一个核苷酸;以及(v)与参考目标序列相对应的意外等位基因目标序列,每个意外等位基因目标序列具有与在对应参考目标序列上发现的参考等位基因不同的意外等位基因和在对应替代目标序列上发现的替代等位基因,其中对应的序列在参考序列上具有相同的长度和相同的位置。
在一些实施方式中,操作208包括使用识别的读序及它们匹配的无偏倚目标序列来确定一个或多个多态性基因座处的等位基因的核酸序列读序的等位基因计数。在一些实施方式中,多个无偏倚目标序列包括被截短以具有与核酸序列读序相同的长度的序列。在一些实施方式中,多个无偏倚目标序列包括存储在一个或多个哈希表中的序列,并且使用哈希表来识别读序。
在一些实施方式中,过程200进一步包括确定一个或多个多态性基因座的每一个多态性基因座处的等位基因构型,每个等位基因构型包含针对一个或多个贡献者中的每个贡献者的两个或更多个等位基因的等位基因状态。
图3示出了说明用于评估包含一个或多个贡献者的核酸的核酸样品的过程300的框图。过程300开始于在从核酸样品获得的一个或多个多态性基因座处接收一个或多个等位基因的核酸序列读序。参见框302。在一些实施方式中,通过使用在此所述的各种技术对核酸样品中的核酸进行测序来获得核酸序列读序。
在一些实施方式中,独特的分子索引(UMI)附着于提取的核酸分子,然后对其进行扩增、测序并映射到多态性基因座或等位基因。独特的分子索引提供了减少样品处理和分析步骤中可发生的错误的机制。例如,可以将共享同一独特的分子索引(UMI)的不同读序组合或重叠,以确定衍生出该读序的序列,从而有效消除了在样品处理和测序期间发生的错误。2016年4月16日提交的美国专利申请号15/130,668和2017年1月18日提交的美国临时专利申请号62/447,851描述了使用独特的分子索引对核酸进行测序的各种方法和系统,出于所有目的,将其全部内容通过引用并入在此作为参考。
过程300进一步涉及使用核酸序列读序,确定在一个或多个多态性基因座处的一个或多个等位基因的等位基因计数。
过程300还涉及将概率混合物模型应用于等位基因计数。概率模型使用概率分布来对一个或多个多态性基因座处的等位基因的等位基因计数建模。概率分布说明等位基因数据中的错误。该错误包括源自核酸提取、样品处理和测序操作的错误。
在一些实施方式中,概率分布包含第一二项式分布。在一些实施方式中,第一二项式分布包括指示在基因座处的总等位基因计数的参数和指示在基因座处的第一等位基因的概率的概率参数。在一些实施方式中,概率参数是核酸样品中一个或多个贡献者的核酸分数的函数。概率参数也是一个或多个贡献者的基因型或G的函数,以及核酸序列读序数据中的错误或θ的函数。在一些实施方式中,读序数据中的错误包括源自核酸提取、样品处理和测序操作的错误。
过程300还涉及在给定模型参数和潜在核酸分数值的情况下获得观察等位基因数据的似然值。参见框308。
在一些实施方式中,过程300涉及使用似然值来对核酸样品中一个或多个贡献者的核酸分数进行定量。参见框310。
在一些实施方式中,过程300进一步涉及使用似然值来确定至少一个贡献者的至少一个基因型。参见框312。
在一些实施方式中,在过程300之前未知贡献者的基因型。
在一些实施方式中,概率混合物模型使用贝塔分布来对等位基因数据中的错误建模。在一些实施方式中,贝塔分布由均值参数和浓度参数定义。在一些实施方式中,浓度参数具有表示不同噪声状况的离散先验。浓度参数在基因座上变化。
在一些实施方式中,操作310的定量包括组合第一二项式分布和贝塔分布以获得遵循贝塔-二项式分布的边缘分布。
在一些实施方式中,310的定量包括使用等位基因数据的似然函数来对核酸样品中一个或多个贡献者的核酸分数进行定量。在一些实施方式中,定量涉及使用多个潜在分数值和等位基因计数的似然函数来计算多个似然值。定量还涉及识别与最大似然值相关联的潜在分数矢量,并使用识别出的潜在分数矢量对核酸样品中一个或多个贡献者的核酸分数进行定量。
在一些实施方式中,似然函数取决于P(G|π),该P(G|π)是给定群体等位基因频率(π)时一个或多个贡献者的基因型的先验概率。在一些实施方式中,考虑具有代表机制漏失的固定的先验概率的虚拟等位基因(dummy allele)来计算先验概率。
在一些实施方式中,一个或多个贡献者包含两个或更多个贡献者。在一些实施方式中,过程300包括确定一个或多个贡献者中的贡献者总数的操作。在一些实施方式中,一个或多个贡献者的一种或多种基因型是未知的,并且过程300包括确定在一个或多个多态性基因座的每个基因座处的等位基因构型的操作,该等位基因构型包括贡献者中每个贡献者的两个或更多个等位基因的等位基因状态。在一些实施方式中,过程300包括确定等位基因构型的估计概率的操作。
在一些实施方式中,过程300进一步包括获得一个或多个贡献者中的特定贡献者具有特定基因型的后验概率。在一些实施方式中,过程300进一步包括基于后验概率,呼叫出核酸样品包括来自特定贡献者的核酸。在一些实施方式中,获得一个或多个贡献者中的特定贡献者具有特定基因型的后验概率包括:(i)将基因型构型的先验概率与基因型构型的似然度相乘;(ii)通过基因型空间上的总和对(i)的乘积进行归一化;以及(iii)对包含特定基因型的基因型构型求和,以获得后验概率。
在一些实施方式中,特定基因型包括多基因座基因型,并且该方法进一步包括:在所有贡献者中,对贡献者在所有基因座处具有特定基因型的后验概率求和;并且基于求和概率确定特定的多个基因座基因型出现在任何贡献者中。
在一些实施方式中,核酸样品是法医样品,并且多个基因座基因型的数据从感兴趣的人获得。该过程进一步包括确定感兴趣的人是核酸样品的贡献者。
在一些实施方式中,概率混合物模型使用第二二项式分布来对等位基因数据中的卡顿错误建模。在一些实施方式中,第二二项式分布表示如下:
sik~BN(ni(k+1),ri)
其中sik是卡顿等位基因的基因座i处的卡顿等位基因计数,该等位基因计数看似是等位基因k,但实际上由等位基因k+1的卡顿错误引起;ni(k+1)是基因座i处等位基因k+1的原始等位基因计数;并且ri是基因座i处的卡顿率(stutter rate)。
在一些实施方式中,卡顿率r在基因座上变化并且具有表示不同噪声状况的先验,该先验在基因座上共享。
在一些实施方式中,操作310包括使用似然函数来对核酸样品中一个或多个贡献者的核酸分数进行定量,其包括非卡顿等位基因计数的似然度和卡顿等位基因计数的似然度的乘积。
在一些实施方式中,应用概率混合物模型包括当确定可潜在地由其来源的分子的数量时,将固定数量的分子添加到分配给等位基因k+1的等位基因计数。
在一些实施方式中,概率混合物模型使用虚拟的样品外等位基因来对自然漏失建模。在一些实施方式中,虚拟样品外等位基因的先验与未观察到的等位基因数量成比例。在一些实施方式中,未观察到的等位基因的数量通过以下方式估计:在最短和最长的观察到的整数值等位基因之间插值所有整数,添加任何观察到的非整数值的等位基因,并返回结果值的最大值和标准值。
在一些实施方式中,应用概率混合物模型涉及从用于对核酸样品中一个或多个贡献者的核酸分数进行定量的数据中修剪基因型构型。在一些实施方式中,修剪基因型构型涉及:通过构建所需等位基因的列表并排除不具有足够的贡献者来解释所有所需等位基因的基因座,从而限制看似合理的基因型构型。在一些实施方式中,所需等位基因的列表基本上由如下等位基因组成,该等位基因具有高于阈值和由于卡顿插入而太高以致非看似合理的等位基因计数。在一些实施方式中,阈值是以下各项的总和:(i)最大非卡顿等位基因(stutter allele)计数,以及(ii)与潜在的卡顿供者等位基因计数相乘的值。在一些实施方式中,修剪基因型构型涉及去除在等位基因数据与预期的等位基因计数之间具有较差匹配的基因型构型。在一些实施方式中,具有较差匹配的基因型构型具有大于一个或多个阈值的均方根误差(RMSE)值。
在一些实施方式中,一个或多个多态性基因座处的等位基因包含单核苷酸多态性(SNP)等位基因和/或短串联重复(STR)等位基因。
用于将读序无偏倚映射到标志位点的方法
用于将核酸(例如,DNA或RNA)测序读序映射到基因组的常规计算方法可以由所使用的参考基因组偏倚。由于在参考基因组中每个变异位点仅存在一个等位基因(参考等位基因),因此在现有的读序映射算法中,读序和参考之间的失配被视为测序错误。问题在于,当将包含非参考等位基因的读序视为包含测序错误时,比对置信度(得分)会降低,并且因此,在后续的过滤步骤中,它们不太可能被保留为可信映射的读序。该映射偏倚会使等位基因计数偏斜(图1B),并随后损害贡献者DNA分数的估计。
为了解决映射偏倚问题并实现最优CDQ,一些实施方式提供了用于将读序映射到变异位点的一种新颖的工作流程。新的读序映射方法可对等位基因进行无偏倚计数,并估计变异位点和非变异位点的测序错误。
读序映射工作流程如下。工作流程首先基于1)参考序列和2)变异位点的已知等位基因,生成五种类型的序列(参见表1)。如果每序列允许多于一个的单突变,则会生成更多类型的序列。这五种类型的序列分别称为ref、alt、ref.mut、alt.mut和snp.mut。例如,对于长度为L的目标序列覆盖的每个双等位基因SNP标志位点,存在一个ref、一个alt、[L-1]x3ref.mut、[L-1]x3 alt.mut和2个snp.mut序列。然后,所有五种类型的序列都包括在“无偏倚目标序列”数据库中(图1B)。然后,取决于从测序仪读序的长度,将无偏倚目标序列截短为两个版本。令r为读序长度。截短的目标序列的版本1包括所有无偏倚目标序列的r 5’碱基,而截短的目标序列的版本2包括所有无偏倚目标序列的r 3’碱基的反向互补。然后去除了截短的目标序列中的冗余序列。然后,将两个截短的序列数据库中的唯一序列记录到两个哈希表中。接下来,使用哈希表对序列读序进行计数。对于配对末端测序策略,分别使用第一哈希表和第二哈希表对R1读序和R2读序进行计数。对于非配对末端测序,所有读序均使用第一哈希表进行计数。最后,对于每个标志位点,取决于被截短的无偏倚目标序列对应于表1中的类型,将计数汇总为以上定义的五种类型。
当使用序列比对工具而不是使用哈希表进行映射时,可以实现类似的策略。对于每个标志位点,生成序列的ref和alt类型以形成无偏倚序列数据库。然后,每个测序读序都与该数据库比对,并具有多达预定义数量的测序错误。然后基于表1对映射的读序进行分类。对于SNP标志,这里仅考虑双等位基因SNP。
表1.从变异位点周围的参考序列生成的五种类型序列的定义。
类型 定义
ref 采用参考等位基因的SNP位点
alt 采用替代等位基因的SNP位点
ref.mut 当SNP位点为ref时在非SNP位点上的单突变
alt.mut 当SNP位点为alt时在非SNP位点上的单突变
snp.mut 既不采用参考等位基因也不采用替代等位基因的SNP位点
所提出的读序映射工作流程解决了使用真实数据进行测试时的读序映射偏差问题。在工作流程中,所观察到的参考与替代错误和替代与参考错误的比率是相同的。在参考DNA副本上的非变异位点和在替代DNA副本上的非变异位点上的测序错误率也相同。
将贡献者DNA分数与等位基因分数联系
假设没有测序错误
我们假设存在将DNA提供给样品的nd供者细胞和nr接受者细胞。基于这些细胞,实施方式将次要贡献者分数定义为β=nd/(nd+nr)。取决于每个特定基因座处的供者和接受者的基因型,两个等位基因具有不同的分数(关于细节,参见表2),并且计算它们的通用公式为p1=[g11(1-β)+c·g21·β]/2,以及p2=[g12(1-β)+g22·β]/2。注意g11和g12是接受者基因型,即接受者基因组中等位基因1和2的副本;g21和g22是供者基因型,即供者基因组中等位基因1和2的副本。
表2:给定变异位点的供者和接受者对之间9种可能基因型组合的二项式模型参数p1和p2
g<sub>11</sub> g<sub>21</sub> p<sub>1</sub> p<sub>2</sub>
0 0 0 1
0 1 β/2 1-β/2
0 2 β 1-β
1 0 (1-β)/2 (1+β)/2
1 1 1/2 1/2
1 2 (1+β)/2 (1-β)/2
2 0 1-β β
2 1 1-β/2 β/2
2 2 1 0
对测序错误建模
当在变体位点处存在两个已知等位基因时,测序错误除了将两个已知等位基因转换为该基因座处的两个剩余核苷酸外,还将一个等位基因转换为另一个等位基因。结果是测序读序中的等位基因分数将与NGS输入DNA样品中的等位基因分数不同。
图2C示意性地示出了将一个等位基因转换为另一等位基因并且将真等位基因转换为意外等位基因的测序错误。小图(A)示出了核苷酸依赖的测序错误,并且小图(B)示出了均匀的测序错误。
令N1、N2为等位基因1和等位基因2的核苷酸。令p1′、p2′分别是观察等位基因1和等位基因2读序的概率,无论它是真实的还是由于测序错误;并且p0′=1-p1′-p2′是观察到由于测序错误而导致的两个意外等位基因的概率。令λN1N2为从N1至N2的突变率(概率),其中N1和N2对于每个SNP位点都是独特的,并且
λN1#:从N1到3个核苷酸的非N1核苷酸中的任一个的突变概率。
图2C示出了SNP位点的4个核苷酸之间的过渡图。基于此,实施方式获得以下方程,用于从真实等位基因分数p1、p2转换为观察到的等位基因分数p1′、p2′和p0′:
p1′=p1-p1·λN1#+p2·λN2N1
p2′=p2-p2λN2#+p1·λN1N2
p0′=p1·(λN1#-λN1N2)+p2·(λN2#-λN2N1)。
当实施方式假设独立于核苷酸身份的均匀测序错误率时,实施方式具有
p1′=p1·(1-3·λ)+p2·λ
p2′=p2·(1-3·λ)+p1·λ
p0′=2λ。
当实施方式忽略意外等位基因时
p1′=(p1·(1-3·λ)+p2·λ)/(1-2λ)
p2′=(p2·(1-3·λ)+p1·λ)/(1-2λ),
采用o(λ2)近似误差,将其重写为
p1′=p1·(1-λ)+p2·λ
p2′=p2·(1-λ)+p1·λ
取决于贡献者的基因型,表3列出了将贡献者分数β与观察到的等位基因分数p1′相联系的公式。
表3:在考虑了测序错误后,观察等位基因1和2的预期概率pi1(g11,g21,λ,β)和pi2(g11,g21,λ,β),以每个供者/接受者基因型组合为条件。这里,假设对于所有的N1和N2,λN1N2=λ。由于突变率λ小,所以使用一阶近似。
g<sub>11</sub> g<sub>21</sub> p<sub>1</sub>′ p<sub>2</sub>′
0 0 λ 1-λ
0 1 β/2+λ-βλ 1-β/2-λ+βλ
0 2 β+λ-2βλ 1-β-入+2βλ
1 0 (1-β)/2+βλ (1+β)/2-βλ
1 1 1/2 1/2
1 2 (1+β)/2-βλ (1-β)/2+βλ
2 0 1-β-λ+2βλ β+λ-2βλ
2 1 1-β/2-λ+βλ β/2+λ-βλ
2 2 1-λ λ
DNA提取、PCR(扩增)和测序模型的概述
提供了三种概率模型(图1C)来模拟通用实验流水线(图1A)中的三个主要组成部分:1)DNA提取;2)DNA扩增(例如PCR),作为富集目标DNA的方法;3)测序(例如NGS测序)。
在表4中详述的数学模型中使用以下符号。
p1,p1i:基因座i的等位基因1的概率。请注意,当实施方式重点放在单个基因座上时,将省略下标i。
p1,p2i:基因座i的等位基因2的概率
n1,n1i,n2,n2i:基因座i的等位基因1和等位基因2读序计数
n,ni=n1i+n2i:基因座i的两个已知等位基因的总读序计数
g11,g12,g11i,g12i:接受者基因型,即接受者基因组中等位基因1和2的副本
g21,g22,g21i,g22i:供者基因型,即供者基因组中等位基因1和2的副本
B():贝塔函数
Beta(),BN(),Pois(),Gamma():贝塔分布、二项式分布和泊松分布以及伽马分布
N:提供样品中DNA的细胞的数量
β:供者DNA分数,其定义为样品中供者来源的DNA的百分比。
nr=N·(1-β),nd=N·β:提供样品中DNA的接受者细胞和供者细胞的数量
表4:通用实验流水线中三个主要组成部分的统计模型。每个组成部分的模型都以先前的组成部分为条件。模型根据每个基因座。
Figure BDA0002328220940000361
DNA提取模型
当从血液样品中提取cfDNA或细胞DNA时,获得的DNA是来自大DNA池的少量样品,并且因此,实施方式将每个基因座处的两个等位基因的计数建模为两个泊松分布。因此,在以总计数n”为条件的基因座处的等位基因1的DNA副本(n1”)遵循二项式分布:n1”~BN(n”,p1),均值μ0=n”·p1,并且方差δ0 2=n”·p1·p2。当供者分数β<0.2时,δ0 2≈μ0
当从样品中提取gDNA时,由于提取损失,每个基因座的所得gDNA量可以再次可变。将p1视为输入样品中等位基因1的数,提取的DNA中等位基因1的量可以再次通过二项式分布建模:n1”~BN(n”,p1)。
PCR扩增模型
我们将PCR扩增过程建模为随机过程,以使获得PCR产物中等位基因1计数的概率分布。令xt为PCR扩增的循环t后给定等位基因的DNA副本,令rt为循环t的扩增率,并令yt为在循环t处生成的新拷贝。通过假设每条DNA都具有被扩增并添加到DNA池的概率rt,该实施方式具有以下扩增模型:
xt+1=xt+yt+1,其中yt+1~BN(xt,rt+1)遵循二项式分布,其中xt和rt+1为参数。
基于该模型,实施方式要求PCR产物中基因座的DNA副本数大致遵循伽马分布。以下提供理由。
步骤1:使用Yule过程(连续时间随机过程)来近似PCR(离散时间随机过程)。
PCR过程xt+1=xt+yt+1,其中yt+1~BN(xt,rt+1)是离散时间纯诞生过程:在给定的时间t循环中,DNA的每个副本都以一定的速率rt独立地“诞生”。纯诞生过程的连续时间版本公知为Yule-Furry过程。对于连续的时间诞生过程,已知在给定时间t的基因座的最终副本数遵循负二项式分布。当PCR循环数不接近1时,实施方式可以使用相同的分布来近似离散时间诞生过程。
步骤2:使用伽马分布(连续分布)近似负二项式分布(离散分布)。
负二项式随机变量(r.v.)可以写为i.i.d.几何r.v.s.之和。已知指数分布是几何分布的连续形式。因此,遵循伽马分布的i.i.d.指数r.v.s之和是作为负二项式的二项式r.v.s之和的连续形式。
下面的实施方式估计了PCR产物中等位基因计数的伽马分布的参数。
基于总方差定律var(xt+1)=var(E(xt+1|xt)+E(var(xt+1|xt)),实施方式可以导出xt的均值和方差如下:
μt+1=μt·(1+rt+1)
δt+1 2=μt·rt+1·(1-rt+1)+δt 2·(1+rt+1)2
其中,μt=E(xt),δt 2=var(xt)。
假设每PCR循环的平均扩增率rt+1=r,则实施方式具有
μt=μ0·(1+r)t
δt 2=μ0·(1+r)t·[(1+r)t-1]·(1-r)/(1+r)+δ0 2·(1+r)2t
注意,μ0和δ0 2是PCR扩增输入中DNA等位基因计数的均值和方差,并且它们可以基于上述DNA提取模型来计算。可替代地,如果实施方式未将cfDNA/细胞DNA等位基因计数视为随机变量,则实施方式具有μ0=n1”或n2”,且δ0 2=0。
与该均值和方差匹配的对应的伽马分布G(xt|k,θ)=xk-1e-x/θ/[θk·Γ(k)]具有参数:
θ=[(1+r)t-1]·(1-r)/(1+r)+δ0 20·(1+r)t
k=μ0·(1+r)t/[[(1+r)t-1]·(1-r)/(1+r)+δ0 20·(1+r)t]。
对于具有两个等位基因和两个初始副本(n1”,n2”)的给定基因座,假设对于每个基因座的两个等位基因,相同的扩增率r1=r2=r,则两个对应的伽马分布G(n1’|k1,θ1)和G(n2’|k2,θ2)具有以下参数:
θ1=[(1+r)t-1]·(1-r)/(1+r)+P2·(1+r)t
θ2=[(1+r)t-1]·(1-r)/(1+r)+p1·(1+r)t
k1=n″p1/[[1-(1+r)-t]·(1-r)/(1+r)+p2]
k2=n″p2/[[1-(1+r)-t]·(1-r)/(1+r)+p1]。
当实施方式以DNA提取模型为条件对PCR模型进行调节时,s.t.μ0=n1″或n2″且δ0 2=0,则实施方式具有
θ1=[(1+r)t-1]·(1-r)/(1+r)
θ2=[(1+r)t-1]·(1-r)/(1+r)
k1=nl″·(1+r)/(1-r)/[1-(1+r)-t]
k2=n2″·(1+r)/(1-r)/[1-(1+r)-t]。
因此,PCR产物中的等位基因副本n1′和n2′遵循具有相同比例参数θ1和θ2的两个伽马分布,它们仅取决于PCR过程(循环数和扩增率)。因此,
n1′/(n1′+n2′)~Beta(n1″·ρ,n2″·ρ),
其中,ρ=(1+r)/(1-r)/[1-(1+r)-t],或当循环数t大时约为ρ=(1+r)/(1-r),是与扩增率r相关的常数,其仅取决于PCR过程。对于特定基因座,它被写为ni1′/(ni1′+ni2′)~Beta(ni1″·ρi,ni2″·ρi),以捕获基因座特异性PCR扩增率。
如果实施方式忽略DNA采样并且假定所有基因座具有相同的总DNA副本数ni″=n″,则ni1″=n″·ρi·pi1并且ni2″=n″·ρi·pi2。PCR产物中基因座的等位基因分数如下:
ni1′/(ni1′+ni2′)~Beta(n″·ρi·pi1,n″·ρi·pi2)。
注意,在没有伽马分布近似的情况下,实施方式具有n1′~NB(r1,p)和n2′~NB(r2,p),并且比率n1′/(n1′+n2′)不具有封闭形式分布。对于伽马分布近似,n1′~Gamma(n1″·ρ,θ)和n2′~Gamma(n2″·ρ,θ),并且n1′/(n1′+n2′)遵循贝塔分布。
读序计数的测序模型
NGS测序是从提供给测序仪的DNA分子池中采样并读出这些分子的序列的过程。PCR产物中基因座i的等位基因1的分数为ni1′/(ni1′+ni2′)。该分数确定了在测序结果中出现等位基因1读序的概率。以每基因座的读序的总数ni为条件,ni1的分布,基因座的等位基因1的读序计数,然后建模为二项式分布ni1~BN(ni,n1′/(n1′+n2′))。
将贡献者之间的遗传相关性建模为先验分布
如果贡献者(供者/接受者)基因型是完全已知的,则可以将它们直接纳入(使用表2或表3)作为上述组成部分模型的参数。然而,当基因型未知时,实施方式可以利用供者和接受者之间的遗传关系信息,这在临床应用中通常是可用的。
我们将不同类型的供者-接受者关系表述为在供者和接受者的可能基因型组合的空间上不同的先验分布。假设哈迪-温伯格平衡,单个个体的基因型分布为P(g=[0,1,2])=[(1-π)2,2π(1-π),π2],假设等位基因2的群体频率为π。请注意,所有遗传相关性都是亲子关系的结果。基于给定双等位基因标志位点的父母与子女之间的遗传关系(表5),实施方式可以计算任何遗传关系的联合分布。
表5:在给定基因座下,给定父母的基因型的子女基因型的概率分布,以及假设父母不是亲戚的父母之间的联合分布。
g<sub>父</sub> G<sub>母</sub> 分别用于基因型[0,1,2]的子女概率 P(g<sub>父</sub>,g<sub>母</sub>)
0 0 [1,0,0] (1-π)<sup>4</sup>
0 1 [1/2,1/2,0] 2π(1-π)<sup>3</sup>
0 2 [0,1,0] π<sup>2</sup>(1-π)<sup>2</sup>
1 0 [1/2,1/2,0] 2π(1-π)<sup>3</sup>
1 1 [1/4,1/2,1/4] 4π<sup>2</sup>(1-π)<sup>2</sup>
1 2 [0,1/2,1/2] 2π<sup>3</sup>(1-π)
2 0 [0,1,0] π<sup>2</sup>(1-π)<sup>2</sup>
2 1 [0,1/2,1/2] 2π<sup>3</sup>(1-π)
2 2 [0,0,1] π<sup>4</sup>
以下是以下类型的遗传关系的先验分布:父母-子女、子女-父母、兄弟姐妹、叔叔/姑母侄子、侄子叔叔/姑母,以及不相关的。
父亲和子女基因型之间的联合分布
作为示例,使用以下公式计算父亲-子女供者-接受者基因型(GT)联合分布:
P(接受者=我GT,供者=父亲GT)=∑母亲GT[P(我GT|父亲GT,母亲GT)·P(父亲GT,母亲GT)],
其中,P(我GT|父亲GT,母亲GT)和P(父亲GT,母亲GT)的值分别取自表5的第3列和第4列。
兄弟姐妹基因型之间的联合分布
作为示例,基于给定父母基因组的两个兄弟姐妹基因型的条件独立性,使用以下公式计算我-兄弟姐妹供者-接受者基因型联合分布:
P(接受者=我GT,供者=兄弟姐妹GT)=∑母亲GT父亲GT[P(我GT|父亲GT,母亲GT)·P(兄弟姐妹GT|父亲GT,母亲GT)·P(父亲GT,母亲GT)],
其中,P(我GT|父亲GT,母亲GT),P(兄弟姐妹GT|父亲GT,母亲GT)和P(父亲GT,母亲GT)的值分别取自表5第3列、第3列和第4列。
叔叔-侄子基因型之间的联合分布
作为示例,使用以下公式计算叔叔/姑母-侄子/侄女供者-接受者基因型联合分布:
P(接受者=我GT,供者=叔叔GT)
=∑祖母GT祖父GT母亲GT父亲GT[P(我GT|父亲GT,母亲GT)·P(母亲GT)·P(父亲GT|祖父GT,祖母GT)·P(叔叔GT|祖父,祖母GT)·P(祖父GT,和母GT)]
=∑母亲GT父亲GTP(我GT|父亲GT,母亲GT)·P(母亲GT)·P(父亲GT,叔叔GT),
其中,P(我GT|父亲GT,母亲GT)的值取自表5的第3列,而P(父亲GT,叔叔GT)的值与P(接受者=我GT,供者=兄弟姐妹GT)相同。
表6总结了上述推导的结果,并且表7中提供了给定群体SNP等位基因频率值π=0.5的特定实例。附加关系,诸如祖父母-孙子/孙女、孙子/孙女-祖父母、半兄弟姐妹和表兄弟,可以基于相同的基本原理导出。
表6:相关或不相关基因组的先验分布P(g11,g21)。假设1)所有SNP都来自常染色体,2)所有已婚夫妇在遗传上均无关。g11是接受者基因组,g21是供者基因组。
Figure BDA0002328220940000421
表7:当π=0.5之前的SNP群体时,相关或不相关基因组的分布P(g11,g21)。假设1)所有SNP都来自常染色体,2)所有夫妻在遗传上均无关。
Figure BDA0002328220940000422
请注意,父母/子女、兄弟姐妹的分布与无关的差异很大,而叔叔/姑母/侄子/侄女的分布则几乎无关。在供者基因型未知的情况下,实施方式可以通过评估上述每个遗传关系的拟合模型的似然函数来推断遗传关系。可替代地,实施方式可以允许遗传先验分布中的多个自由参数(具有边缘分布应遵循哈迪-温伯格平衡的附加约束),并与供者分数的估计一起估计这些参数。
建模组成部分的集成
概率混合物模型的组成部分被集成以提供对贡献者DNA定量(CDQ)问题的解决方案。可以从诸如dbSNP的公共数据库中获得每个SNP位点的群体等位基因频率π。如果选择的是信息最丰富的SNP,即π=0.5的SNP,则可以针对所有基因座设定π=0.5,并且如前一节所述,令P(g11,g21)是遗传相关的先验分布。
在示意性水平上,图2B示出了说明概率混合物模型200的各个组成部分的框图。一些组成部分在一些实施方式中是可选的。概率混合物模型200包括用于对测序读序的等位基因计数进行建模的二项式分布208。在一些实施方式中,概率混合物模型还包括用于使用遗传相关性先验分布202来建模供者-受赠者(或接受者)关系的组成部分。在一些实施方式中,概率混合物模型还包括用于对DNA提取等位基因计数进行建模的二项式分布204。在一些实施方式中,概率混合物模型200还包括用于对PCR产物或扩增产物等位基因分数进行建模的贝塔分布206。参见框206。
在一些实施方式中,混合物模型将二项式分布208与二项式分布204相结合,以对DNA提取误差和测序误差二者进行建模。在此类实施方式中,混合物模型使用二项式分布210来对测序读序的等位基因计数建模,该测序读序的等位基因计数取决于DNA提取的等位基因计数。
在一些实施方式中,概率混合物模型200组合贝塔分布206和二项式分布208,并使用贝塔-二项式分布212来对PCR或扩增过程中的误差以及测序过程中的误差二者建模。
在一些实施方式中,概率混合物模型200组合了二项式分布204、贝塔分布206和二项式分布208,以分别考虑由DNA提取、扩增过程和测序过程导致的方差。在此类实施方式中,概率混合物模型200首先使用贝塔分布214来近似二项式分布204和贝塔分布206的影响。然后,概率混合物模型200使用贝塔-二项式分布216组合贝塔分布214和二项式分布208。
序列模型
完整模型的基本版本忽略了DNA提取模型和PCR模型,并且仅考虑了测序模型。对于每个基因座,参考等位基因的测序读序计数由二项式分布(图1C)ni1~BN(ni1,pi1)建模,其中参数pi1(g11,g21,λ,β)的值是基因座的供体-接受者基因型组合的函数(表2和表3)。假设基因型未知,对于每个基因座,在P(g11,g21|π)作为先验分布(表6和表7)的情况下,该实施方式对9个可能的基因型组合进行了边缘化处理。所有基因座上的完全似然函数是所有基因座的边缘分布的乘积:
L(n1,n2|β,π)=Πig11g21 BN(ni1,pi1(g11,g21,λ,β))·P(g11,g21|π),其中π是已知参数,并且β是供者DNA分数。
提取-Seq复合模型
更高级的模型组合了DNA提取模型以及测序模型。该实施方式忽略了PCR步骤(即,假设对于每个基因座,PCR产物中的等位基因分数与DNA样品中的等位基因分数相同),并且仅对DNA采样和测序步骤进行建模。对于每个基因座,存在输入DNA样品中等位基因计数的二项式分布。这捕获了提供给NGS测序的输入DNA中等位基因分数的基因座至基因座变异性。
对于DNA提取模型,该实施方式具有ni1″~BN(n″,pi1),而以DNA提取模型为条件,测序模型为ni1|ni1″,ni″~BN(ni,ni1″/ni″),其中ni″=n″是输入DNA对应的单倍体基因组的副本。不幸的是,ni1的边缘分布没有封闭形式公式。该实施方式选择采用贝塔分布Beta(a,b)来近似ni1″/n″的分布,并通过将ni1″/n″的均值和方差与从二项式模型ni1″~BN(n″,pi1)得出的均值和方差进行匹配来选择最优贝塔分布:
pi1=a/(a+b)
pi1·(1-pi1)/n″=ab/(a+b)2/(a+b+1)。
求解方程给出贝塔分布Beta((n″-1)pi1,(n″-1)pi2)为最优近似。近似于DNA提取模型,然后ni1的边缘分布遵循以下形式的贝塔-二项式分布:
BB(ni1,ni2|ni,(n″-1)·p1(g11,g21,λ,β),(n″-1)·p2(g11,g21,λ,β)。
然后考虑遗传相关性先验的对应的全似然函数为:
L(n1,n2|β,n″,λ,π)=ΠiΣg11g21 BB(ni1,ni2|ni,(n″-1)·p1(g11,g21,λ,β),(n″-1)·p2(g11,g21,λ,β))·P(g11,g21|π)。
注意,n″和π=0.5都是已知参数,并且最终的全似然函数仅具有单个未知参数β,即供者DNA分数。
输入DNA(单倍体)的副本数n″可以从输入DNA质量中得出。当输入DNA量为8ng时,n″=8ng/[3.59x 10-3ng/副本]=2228.412。
PCR-Seq复合模型
忽略DNA提取模型,并假定给定基因座的已知基因型组合,则PCR模型:ni1′/(ni1′+ni2′)~Beta(n″·ρi·pi1,n″·ρi·pi2)和测序模型ni1~BN(ni,n1′/(n1′+n2′))可以组合成贝塔-二项式分布BB:(ni1,ni2|ni,n″·ρi·pi1,n″·ρi·pi2)。注意,两个基本的基因座特异性PCR扩增率ρi都是未知的。如果实施方式假定所有基因座均具有相同的固有扩增率,则实施方式将具有BB(ni1,ni2|ni,c·pi1(g11,g21,β),c·pi2(g11,g21,β))。
然后,所有基因座上的完整似然模型为:
L(n1,n2|β,c,π)=ΠiΣg11g21[BB(ni1,ni2|ni,c·p1(g11,g21,λ,β),c·p2(g11,g21,λ,β))·P(g11,g21|π)],其中c和β是要估计的两个参数。
可替代地,实施方式可以将每个基因座的相对扩增率定义为与每基因座的总读序成比例,并将贝塔-二项式重新参数化为BB(ni1,ni2|ni,c′·ni·pi1(g11,g21,β),c′·ni·pi2(g11,g21,β))。
然后,所有基因座上的完整似然模型为:
L(n1,n2|β,c′,π)=Πig11g21[BB(ni1,ni2|ni,c′·ni·p1(g11,g21,λ,β),c′·ni·p2(g11,g21,λ,β))·P(g11,g21|π)],其中c和β是要估计的两个参数。
提取-PCR-Seq复合模型
如果实施方式将DNA提取和PCR模型组合成一个模型并通过单个贝塔分布对其进行近似,则可以通过贝塔-二项式一起对提取-PCR-测序通用实验流水线中的所有三个组成部分进行建模。直观上,尽管PCR产物中等位基因1分数的期望值(n1′/n′,参见表4)仍为p1,但n1′/n′的不确定性(方差)来自DNA提取和PCR步骤二者。为了获得贝塔分布beta(a,b)一起对DNA提取和PCR进行建模,该实施方式基于以下定律计算ni1′/n′的无条件均值和方差:E(ni1′/n′)=E(E(ni1′/ni′|ni1′/n″)和var(ni1′/n′)=var(E(ni1′/ni′|ni1″/n″))+E(var(ni1′/ni′|ni1″/n″))。这得到:E(ni1′/n′)=pi1,而var(ni1′/n′)=pi1pi2/n″+pi1pi2/(n″·ρi+1)-p1p2/[n″·(n″·ρi+1)],其中ρi=(1+ri)/(1-ri)>1是与扩增率ri相关的常数。由于n″很大,因此实施方式具有以下近似值var(ni1′/n′)=pi1pi2/[n″·(1+ri)/2]。然后,模拟DNA提取和PCR的最优贝塔分布为Beta([n″·(1+ri)/2-1]pi1,[n″·(1+ri)/2-1]pi2)。请注意,这与cfDNA/gDNA提取的Beta((n″-1)pi1,(n″-1)pi2)分布非常接近,但方差现在更大。对于ri=0.8至0.95的典型PCR反应,实施方式具有n″·(1+ri)/2=0.9·n″至0.975·n″。
cfDNA-PCR-Seq模型的完全似然函数是:
L(n1,n2|β,n″,π)=Пig11g21 BB(ni1,ni2|ni,(n″·(1+ri)/2-1)·p1(g11,g21,λ,β),(n″·(1+ri)/2-1)·p2(g11,g21,λ,β))·P(g11,g21|π)。
用于估计贡献者核酸分数及其置信区间的算法
用于估计贡献者DNA分数的数值优化
贡献者DNA分数β被估计为最大化全似然函数L(n1,n2|β)的值。如上所述,尽管在该示例和其它示例中指的是DNA,但是可以类似地处理和分析RNA和其它核酸分子。同样,尽管示例涉及核酸混合物样品,但样品可能仅包括单个贡献者的核酸,在这种情况下,贡献者分数将被估计为1或在从1起的误差裕度内。在L(n1,n2|β)的计算期间,多个小概率值相乘。为了避免在乘以小概率时数值下溢,该实施方式在对数标度上执行所有求和和乘法。对数标度的小概率之和如下执行。1)获得对数概率的最大值作为xmax;2)将所有对数概率减去最大值;3)对结果值求幂,并且然后求和;4)对数转换所得之和;5)加回对数概率的最大值。log(exp(x1-xmax)+exp(x2-xmax)+…+exp(xn-xmax))+xmax
为了避免负值,使用变换β=1/(1+e),并且为了避免局部最小值,用β0=1/(1+e 0)初始化全似然函数,其中η0是-10,-9.9,-9.8,....,-0.1,0之间的值,该值使L(n1,n2|1/(1+e 0))最大化。进一步的η数值优化是使用用于最小化-log2(L)的BFGS拟牛顿法执行的优化。
估计置信区间
基于Cramer-Rao不等式确定估计的置信区间的下界:var(θML)≥1/I(θML),其中θML是参数θ的最大似然估计,而I(θML)是θML处的费舍尔信息。基于此,可以估计上述似然函数中β和c的方差。在Cramér-Rao边界之后,标准误差估计为sqrt(1/H),其中H是可以近似并以BFGS-拟牛顿法估计的Hessian矩阵。
我们在数值优化期间使用以下重新参数化来估计β和c,
β=1/(1+e),
c=eκ
令I(η)和I(κ)为参数化η和κ下的费舍尔信息,则原始参数的费舍尔信息为
I(β)=I(η)(1/(β(1-β))2
I(c)=I(k)(1/c)2
因此,该实施方式对估计的标准偏差进行了以下变换,
std(β)=std(η)·β·(1-β)
std(β)=std(η)·c。
解卷积核酸样品的法医应用
混合物解卷积:给定观察到的计数D,推断出贡献者频率f和每基因座基因型构型G
以下实施方式适用于法医应用。在此描述的过程首先获得f的最大似然估计,同时将theta和G在它们的先验条件下边缘化(如下所述),然后以这些估计为条件,计算每种基因型配置的后验概率。该过程报告f的MLE以及合理基因型构型和相关联概率的前N个列表。报告了每基因座(所有贡献者上)以及每基因座的每个贡献者的基因型构型。在该部分下的贡献者频率f对应于上述贡献者分数β。G表示贡献者的基因型,并且对应于上述g11、g21。数据D对应于上面的等位基因计数n。
样品包含查询:给定观察到的计数D、f的推断点估计以及查询基因型,推断样品中是否存在查询基因型。
方法:该过程涉及计算(使用已知群体等位基因频率)从一般群体中抽取的N贡献者样本中的查询基因型的先验概率P(GQ)和(与从群体中随机抽取的其他贡献者一起)在观察到的样品中的查询基因型的后验概率P(GQ|D),然后报告这两个概率之间的对数比作为证据的度量。注意,P(GQ|D)=P(D|GQ)P(GQ)/P(D),使得报告的证据也可以(等效地)描述为似然比P(D|GQ)/P(D|Grandom),因为数据P(D)的边缘概率与从群体P(D|Grandom)中随机抽取的贡献者为条件的数据的概率相同。
推论方法
核心计算是一种函数,该函数以f和theta的值作为输入,并通过执行基因型特定概率之和(按先验基因型加权),针对每个基因座计算以f和theta为条件的数据的边缘对数概率(即,在G上边缘化的对数似然比)。然后将它们在theta的(离散等权重)分布上求和,以获得在G和theta上边缘化的对数似然率。该实施方式也保留G的各个值的总和(在theta上),使得(归一化后)该实施方式在每个基因座处的每个基因型都具有后验概率,条件是f,但在theta上边缘化。每基因座的边缘对数似然性被累积并作为整个数据集的单个对数似然性返回,仍然以f为条件。该实施方式在频率矢量f可能值的网格中的每个点处执行该计算,并通过选择似然性最大的网格点来获得f的MLE。频率网格以2.5%的等距区间设置,并在所有相等的频率处加上额外点(如果尚未表示),并具有以下约束条件:频率以非递增顺序列出且它们的总和为1。这产生2个贡献者的21点网格或3个贡献者的155点网格(尚未实施4个贡献者的情况,可能需要较粗的网格;也可以通过首先使用较粗的网格来加速3个贡献者的情况,并且然后在放大网格的感兴趣部分后作为第二步骤细化)。
以f的MLE为条件的基因型构型的每个基因座后验概率用于混合解卷积查询和样品查询。
边缘似然计算:
总体对数似然度是特定于基因座的对数似然度之和:log P(D|theta,f)=\sumllog P(Dl|theta,f)。
通过对一大组看似合理的基因型构型求和来计算基因座特异性边缘似然度:P(Dl|theta,f)=\sumG1 P(Dl|theta,f,Gl)P(Gl)。为了便于计算,采用以下操作。
设置计数小于等于1的等位基因的阈值。在原型1中,由于历史原因,该实施方式构建了基因型构型的未修剪列表和修剪列表二者。只有未修剪的列表包含具有低于阈值等位基因的构型。一些实施方式仅使用修剪的列表以及以下所述的更短版本(更积极地修剪)。
通过构建“所需”等位基因列表并仅列举至少一次包含每个所需等位基因的那些基因型构型,来限制被认为是合理的基因型构型。如果经由通用的“插入式”N-1卡顿断定其UMI计数太高而无法接受,则将等位基因置于所需等位基因列表中。使用以下硬阈值。
绝对阈值(count_threshold;设定为10)。这是实施方式愿意在任何贡献者中不存在的等位基因上解释的非卡顿UMI的最大数量。
相对阈值(stutter_threshold;设定为0.1)。该值乘以潜在的卡顿供者的计数(请参见下面的“处理卡顿”)是实施方式愿意将其解释为N-1个卡顿的UMI的最大数量。
如果观察到的计数高于上述两个阈值之和,则认为其是真实的,并且必须存在于所有基因型构型中。如果不是,则可以省略(留出更多数量的基因型构型来考虑)。
构建积极修剪的列表,以供计算要求更高的部分使用(即,在推断贡献者频率但不用于最后的解卷积步骤时):
对于每种构型:
·对于每个贡献者频率矢量,实施方式将每等位基因的预期读序数与观察到的数量进行比较,并计算等位基因上的RMSE
·该计算考虑了卡顿,但比全似然计算便宜
·在频率矢量上使用最小的RMSE(是否存在构型合理的频率矢量?)。对于“最优RMSE”(请参见下文),实施方式使用频率矢量的平均值(如果使用最优拟合频率矢量,则会中断,对于整个数据集而言,这可能是完全不现实的)。
·根据以下两个标准,如果观察结果与预期足够接近,则保留构型:
·绝对阈值(0.2):修剪RMSE大于最大读序计数的该分数的构型
·相对阈值(5):从“最优RMSE”中修剪RMSE大于该因子的构型(参见上文)
看似合理的基因型构型的集合,以及它们的先验P(Gl)(参见下文),在预处理期间构建,并且每次呼叫识别似然计算时都可以重新使用。
基因型特异性似然度
生成模型规定了“原始”样品中每基因座的固定数量的潜在可检测分子(可能对应于从犯罪现场或在处理期间的后期收集的物理样品)。实施方式假定这些分子与等位基因在基因型构型中已分配给贡献者的贡献者频率成比例地按每等位基因进行划分。然后检测或不检测这些分子中的每一个分子,使得针对给定等位基因检测到的分子数量由二项式过程控制。检测概率(即二项式参数)可能在等位基因之间变化(并且在基因座之间变化),并且在每个基因座处,实施方式都分配由两个参数控制的贝塔先验:
均值(平均检测概率)
覆盖度(检测到的UMI总数)在基因座之间变化。原则上,这意味着贝塔分布的均值应在基因座之间变化。一些实施方式使均值在基因座上固定,而是允许样品中分子的数量在基因座之间变化。这应该是同一回事(因为预期这两个参数是高度相关的,将它们视为单独的参数会使它们几乎无法识别)。均值参数被硬编码为0.1的值;考虑到该均值参数以及卡顿率,可以通过从观察到的覆盖度外推来设定分子总数。
浓度参数(检测概率在等位基因之间的变化有多大:这与如实验室中测量的等位基因平衡密切相关但不相同)
该参数在基因座之间变化,并被分配3组成部分离散先验(在基因座上共享),表示低、中、高噪声状况。
其它噪声参数为:
stutter_prob:对于每一上述外推的分子总数(等位基因N),生成模型规定它将生成概率为stutter_prob的UMI(等位基因N-1)。
该参数在相同基因座的等位基因之间共享,但在基因座之间变化。分配给它3组成部分离散先验(在基因座上共享),表示低、中和高噪声状况。
expected_dropin:这是在等位基因处观察到的乱真UMI的预期数量(不是由该等位基因或卡顿供者的分子生成)。该参数是硬编码的(不可推断),并在等位基因和基因座上共享。
给定上述噪声参数(包含thetal),然后将基因型特异性似然度P(Dl|thetal,f,Gl)计算为等位基因特定的似然度的乘积。
在针对基因座的似然计算期间,一些实施方式尝试了许多基因型构型,其中的一些仅在一些等位基因处彼此不同。结果,对于以前使用的完全相同的计数,经常需要等位基因特定的似然度。该实施方式将每个等位基因特定的似然计算的结果存储在查找表中,并且仅计算似然度不在表中的似然度。
我们支持两种等位基因特定的似然计算:简单(更快)的无卡顿计算和考虑了卡顿的完整计算。
等位基因特定的似然度:无卡顿的版本:
如果卡顿率是零,并且当“真实”(非卡顿)检测的预期数量不为零(由于k是在至少一个贡献者的基因型中)且卡顿检测的预期数量(由卡顿率和分配给“卡顿邻居”的分子数计算得出等位基因k+1)低于阈值时,也用作计算捷径,则等位基因k的似然性计算的无卡顿版本适用。
最终,经由建模为二项式的过程将分配给等位基因k的每个分子检测为或不检测为UMI,即单个分子的检测独立发生。具有贝塔分布的频率参数和等位基因特定数量的潜在可检测分子的二项式过程意味着针对每个等位基因处观察到的UMI计数的贝塔二项式分布。因此,使用贝塔-二项式分布的公式计算等位基因特定的似然度。
我们仅计算观察到的等位基因的概率;由观察到的具有非零概率的未观察到的等位基因引起的惩罚将被忽略。
处理卡顿和其它插入(drop-in):
第二似然计算用于被确定为与卡顿相关的少数情况中(见上文)。在UMI计数为M的等位基因k处,一些实施方式将从0到M的所有值m视为源自所讨论等位基因的UMI数量的可能值,其余(M-m)个UMI源自等位基因k+1。这些情况之一的似然度是真实计数的似然度与卡顿计数的似然度的乘积(在二项式模型下,N等于等位基因k+l处原始UMI的数量,并且二项式频率等于卡顿率)。总似然度是所有这些情况的(线性域)总和。
实际上,一些实施方式不需要计算上述总和中的所有项。这是因为卡顿率小,使得卡顿观察数的分布很快达到零(大量卡顿观察基本上是不可能的,总和中的对应项实际上为零)。一些实施方式跟踪卡顿观察数的累积分布,并在剩余概率权重低于阈值时终止求和。
当确定潜在引起卡顿的分子数量时,通过将固定数量的分子添加到分配给等位基因k+1的UMI数量来处理一般的插入。该数量被设定为Expected_dropin/stutter_prob,使得插入式UMI的预期数量等于Expected_dropin。
处理漏失:
我们区分两种类型的漏失:
自然漏失:这是当二项式过程导致贡献者基因型中存在的等位基因计数为零时。一些实施方式不是显式表示每个潜在等位基因(不可能缺乏潜在等位基因的详尽列表,或者否则也很昂贵),而是使用特殊的“虚拟”样品外等位基因。该等位基因可以任何基因型构型存在,具有为零的UMI计数,并且被视为普通等位基因。低频贡献者的等位基因可能会自然漏失,但高频贡献者的等位基因则极不可能。
为了给样品外等位基因分配合理的先验概率,一些实施方式对潜在等位基因的总数进行猜测,并在这些潜在等位基因上设定统一的先验。因此,样品外先验与未观察到的等位基因数量成比例。当前,通过在最短和最长观察到的整数值等位基因之间插值所有整数,加上任何观察到的非整数值的等位基因,并返回结果值和5的最大值,可以获得潜在等位基因数量的猜测。
机制漏失:一些实施方式将特殊机制结合到模型中,由此等位基因可能对测序仪是“不可见的”(例如由于引物区域的突变),在这种情况下,一些实施方式没有观察到任何UMI,无论其总分子数如何(也就是说,对于高频贡献者而言,机制漏失的可能性与低频贡献者一样)。所有不可见等位基因的集合由第二虚拟等位基因表示。
由于无法观察到该等位基因,因此无论数据如何,其似然度均为1;它对联合概率的唯一直接贡献是经由其先验(因此必须将其设定为较低)。为了计算上的方便,一些实施方式使用硬编码参数dropout_prob作为不可见等位基因的先验概率,将可见等位基因的先验定标为总和为1-dropout_prob。这允许在预处理期间计算基因型先验概率(见下文),其中漏失概率充当额外的群体等位基因频率值。
对于单源样品,纯合的等位基因的推断后验概率很大程度上取决于dropout_prob的值,因为它确定了模型必须考虑的主要替代假设(具有1个等位基因的杂合子)的概率。基于直觉得出的单源纯合子等位基因(0.999左右)的后验概率是合理的,一些实施方式将dropout_prob校准为le-4。
该等位基因可以以任何基因型构型存在。在计算配置的先验时,将对其进行特殊处理,并在似然计算期间将其忽略。
在基因型构型的积极修剪期间(参见上文;基于读序计数),使用从其似然度惩罚(取决于dropout_prob)到“计数”值的特殊转换来惩罚该等位基因的出现,该“计数”值旨在可与常规等位基因估计的不匹配计数相比较。转换基于对二项式的正态近似,通过计算距离峰顶多远才能承受-log(dropout_prob)的似然度惩罚。转换为1.2876*sqrt(max(read_numbers)/avg_det_prob),其中常数为sqrt(-2p(1-p)ln(D)),其中p为avg_det_prob=0.1,并且D为dropout-prob=1e-4。注意对覆盖度的依赖;一些实施方式使用了最丰富的等位基因的覆盖度。
在预处理期间生成的基因型构型列表包括其中一个或多个等位基因是漏失等位基因的基因型。观察到的漏失等位基因的计数始终为0,并且其似然度始终为1。尽管具有高似然度,但该模型并不经常使用漏失机制来解释数据,因为低的漏失概率会导致低的先验。
先验和后验计算:
根据在哈迪-温伯格模型下的群体等位基因频率计算个体贡献者基因型的先验概率:对于等位基因频率为p的纯合基因型,P(G)=p^2;对于等位基因频率为p和q的杂合基因型,P(G)=2pq。多贡献者基因型构型的先验概率是每个贡献者先验的乘积。这是在构建基因型构型并在每次边缘似然计算中重新使用时的预处理过程中计算的。为了说明漏失问题,一些实施方式添加具有基于实验测量设定的固定的先验概率的虚拟漏失等位基因;群体等位基因频率相应地打折。
基因型构型的后验概率是先验乘以似然度,并通过基因型空间上的总和归一化(明确地计算,因为一些实施方式无论如何都为每种基因型构型计算各项)。通过求和包含该基因型的基因型构型,获得特定贡献者(例如主要贡献者)具有特定基因型的后验概率。
对于样品包含查询,从业者对指定的多个基因座基因型出现在任何贡献者中的后验概率感兴趣,条件是在所有基因座处它都是相同的贡献者。这通过在所有贡献者i上对贡献者i在所有基因座处具有指定基因型的概率求和而得出(即,环是嵌套事件的顺序)。
在此使用的样品包含“无细胞”(例如cfDNA)或细胞结合的(例如细胞DNA)的核酸。可以通过本领域已知的各种方法从生物样品中获得无细胞核酸,包括无细胞DNA,所述生物样品包括但不限于血浆、血清和尿液(参见例如Fan等人,Proc Natl Acad Sci 105:16266-16271[2008];Koide等人,产前诊断第25期:604-607[2005];Chen等人,自然医学第2期:1033-1035[1996];Lo等人,Lancet 350:485-487[1997];Botezatu等人,Clin Chem.46:1078-1084,2000;以及Su等人,J Mol.Diagn.6:101-107[2004])。为了从样品中的细胞中分离无细胞DNA,可以使用各种方法,包括但不限于分级分离、离心(例如密度梯度离心)、DNA特异的沉淀或高通量细胞分选和/或其它分离方法。可获得用于cfDNA手动和自动分离的市售试剂盒(Roche Diagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,DE)。包含cfDNA的生物样品已用于通过可检测染色体非整倍性和/或多种多态性的测序测定来确定是否存在染色体异常,例如21三体。
样品
在此使用的样品包含“无细胞”(例如,cfDNA)或细胞结合的(例如,细胞DNA)的核酸。可以通过本领域已知的各种方法从生物样品中获得无细胞核酸,包括无细胞DNA,该生物样品包括但不限于血浆、血清和尿液(参见例如Fan等人,Proc Natl Acad Sci 105:16266-16271[2008];Koide等人,产前诊断第25期:604-607[2005];Chen等人,自然医学第2期:1033-1035[1996];Lo等人,Lancet 350:485-487[1997];Botezatu等人,Clin Chem.46:1078-1084,2000;以及Su等人,J Mol.Diagn.6:101-107[2004])。为了从样品中的细胞中分离无细胞DNA,可以使用各种方法,包括但不限于分级分离、离心(例如密度梯度离心)、DNA特异的沉淀或高通量细胞分选和/或其它分离方法。可获得用于cfDNA手动和自动分离的市售试剂盒(Roche Diagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,DE)。包含cfDNA的生物样品已用于通过可检测染色体非整倍性和/或多种多态性的测序测定来确定是否存在染色体异常,例如21三体。
在各种实施方式中,可以在使用前(例如,在制备测序库之前)特异性或非特异性地富集样品中存在的DNA。样品DNA的非特异性富集是指样品基因组DNA片段的全基因组扩增,其可用于在制备DNA测序库之前增加样品DNA的水平。非特异性富集可以是包含多于一个的基因组的样品中存在的两个基因组之一的选择性富集。例如,非特异性富集可以是血浆样品中癌症基因组的选择性,其可以通过已知方法获得,以增加样品中癌症与正常DNA的相对比例。可替代地,非特异性富集可以是样品中存在的两个基因组的非选择性扩增。例如,非特异性扩增可以是样品中癌症和正常DNA的扩增,该样品包含来自癌症和正常基因组的DNA的混合物。全基因组扩增的方法是本领域已知的。简并寡核苷酸引发的PCR(DOP)、引物延伸PCR技术(PEP)和多置换扩增(MDA)是全基因组扩增方法的示例。在一些实施方案中,包含来自不同基因组的cfDNA混合物的样品未富集混合物中存在的基因组的cfDNA。在其它实施方案中,包含来自不同基因组的cfDNA的混合物的样品对于样品中存在的任何一个基因组非特异性地富集。
例如如上所述,包含在此所述方法所应用的核酸的样品通常包括生物样品(“测试样品”)。
因此,在某些实施方案中,样品包含或由如下组成:纯化的或分离的多核苷酸,或者它可以包含样品,诸如组织样品、生物液体样品、细胞样品等。合适的生物液体样品包括但不限于血液、血浆、血清、汗液、泪液、痰液、尿液、痰、耳流、淋巴液、唾液、脑脊液、创口渗液(ravages)、骨髓悬浮液、阴道流、经宫颈灌洗液、脑液、腹水、奶、呼吸道、肠道和泌尿生殖道的分泌物、羊水、奶和白血球样品(leukophoresis)。在一些实施方案中,样品是易于通过非侵入性过程获得的样品,例如血液、血浆、血清、汗液、泪液、痰液、尿液、痰、耳流、唾液或粪便。在某些实施方案中,样品是外周血样品,或外周血样品的血浆和/或血清级分。在其它实施方案中,生物样品是拭子或涂片、活组织检查标本或细胞培养物。在另一个实施方案中,样品是两种或更多种生物样品的混合物,例如,生物样品可以包含两种或更多种生物液体样品、组织样品和细胞培养物样品。如在此所使用的,术语“血液”、“血浆”和“血清”明确涵盖其级分或处理部分。类似地,在从活组织检查、拭子、涂片等中获取样品的情况下,“样品”明确涵盖了从活组织检查、拭子、涂片等中得到的处理过的级分或部分。
在某些实施方案中,样品可以从来源获得,包括但不限于,来自不同个体的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体(例如,患有癌症或怀疑患有遗传疾病的个体)、正常个体的样品、在个体疾病的不同阶段获得的样品、从对疾病进行不同处理的个体获得的样品、受到不同环境因素影响的个体的样品、具有对病理易感的个体的样品、对暴露于传染病原体(例如HIV)的样品个体等。
在一个示例性但非限制性的实施方案中,样品是获自怀孕女性例如孕妇的母体样品。在该情况下,可以使用在此所述的方法分析样品,以提供胎儿潜在染色体异常的产前诊断。母体样品可以是组织样品、生物液体样品或细胞样品。作为非限制性实例,生物液体包括血液、血浆、血清、汗液、泪液、痰液、尿液、痰、耳流、淋巴液、唾液、脑脊液、创口渗液、骨髓悬浮液、阴道流、经宫颈灌洗液、脑液、腹水、奶、呼吸道、肠道和泌尿生殖道的分泌物以及白血球样品。
在另一个说明性但非限制性的实施方案中,母体样品是两种或更多种生物样品的混合物,例如,该生物样品可包含两种或更多种生物液体样品、组织样品和细胞培养物样品。在一些实施方案中,样品是易于通过非侵入性过程获得的样品,例如血液、血浆、血清、汗液、泪液、痰、尿液、奶、痰液、耳流、唾液和粪便。在一些实施方案中,生物样品是外周血样品,和/或其血浆和血清部分。在其它实施方案中,生物样品是拭子或涂片、活组织检查样品或细胞培养物样品。如上所述,术语“血液”、“血浆”和“血清”明确涵盖其级分或处理部分。类似地,在从活组织检查、拭子、涂片等中获取样品的情况下,“样品”明确涵盖了从活组织检查、拭子、涂片等中得到的处理过的级分或部分。
在某些实施方案中,样品也可以获自体外培养的组织、细胞或其它含多核苷酸的来源。培养的样品可以取自包括但不限于在不同培养基和条件(例如,pH、压力或温度)下维持的培养物(例如,组织或细胞)、不同长度的时间内维持的培养物(例如,组织或细胞)、用不同因子或试剂(例如候选药物或调节剂)处理的培养物(例如组织或细胞),或不同类型的组织和/或细胞的培养物。
从生物来源分离核酸的方法是众所周知的,并且将取决于来源的性质而不同。如在此所述的方法所需要,本领域技术人员可以容易地从来源分离核酸。在一些情况下,将核酸样品中的核酸分子片段化可能是有利的。片段化可以是随机的,也可以是特异性的,例如使用限制性核酸内切酶消化所实现的。随机片段化的方法是本领域众所周知的,并且包括例如有限的DNA酶消化、碱处理和物理剪切。在一个实施方案中,样品核酸以cfDNA的形式获得,其不进行片段化。
测序库制备
在一个实施方案中,在此描述的方法可以利用下一代测序技术(NGS),其允许在一次测序运行中将多个样品分别作为基因组分子(即单重测序)或包含索引基因组分子的合并样品(例如多重测序)进行测序。这些方法可生成多达数亿个DNA序列的读序。在多个实施方案中,可以使用例如在此所述的下一代测序技术(NGS)来确定基因组核酸和/或索引的基因组核酸的序列。在多个实施方案中,可以使用如在此所述的一个或多个处理器来执行对使用NGS获得的大量序列数据的分析。
在多个实施方案中,此类测序技术的使用不涉及测序库的制备。
然而,在某些实施方案中,在此考虑的测序方法涉及测序库的制备。在一种说明性方法中,测序库的制备涉及生产准备被测序的衔接子修饰的DNA片段(例如,多核苷酸)的随机集合。可以通过逆转录酶的作用从DNA或RNA,包括DNA或cDNA的等同物、类似物,例如从RNA模板产生的互补或拷贝的DNA的DNA或cDNA,制备多核苷酸的测序库。多核苷酸可以以双链形式(例如,dsDNA,诸如基因组DNA片段、cDNA、PCR扩增产物等)起源,或者在某些实施方案中,多核苷酸可以以单链形式(例如,ssDNA、RNA等)起源,并已转换为dsDNA形式。举例说明,在某些实施方案中,单链mRNA分子可被拷贝成适用于制备测序库的双链cDNA。一级多核苷酸分子的精确序列通常对库制备方法并不重要,并且可以是已知的或未知的。在一个实施方案中,多核苷酸分子是DNA分子。更特别地,在某些实施方案中,多核苷酸分子代表生物体的整个遗传互补物或生物体的基本上整个遗传互补物,并且是基因组DNA分子(例如,细胞DNA、无细胞DNA(cfDNA)等),通常包括内含子序列和外显子序列(编码序列),以及非编码调控序列,诸如启动子和增强子序列。在某些实施方案中,初级多核苷酸分子包含人基因组DNA分子,例如存在于怀孕受试者的外周血中的cfDNA分子。
通过使用包含特定范围的片段大小的多核苷酸,有助于一些NGS测序平台的测序库的制备。此类库的制备通常涉及大多核苷酸(例如细胞基因组DNA)的片段化,以获得所需大小范围的多核苷酸。
片段化可以通过本领域技术人员已知的多种方法中的任何一种方法来实现。例如,可以通过机械手段实现片段化,包括但不限于雾化、超声处理和水力剪切。然而,机械片段化通常会在C-O,P-O和C-C键处切割DNA骨架,导致钝端和3′-和5′-突出端与断裂的C-O、P-O和/C-C键的异质混合(例如,参见Alnemri和Liwack,J Biol.Chem 265:17323-17333[1990];Richards and Boyer,J Mol Biol 11:327-240[1965]),可能需要对其进行修复,因为它们可能缺少随后的酶促反应所需的5′-磷酸,例如,制备测序DNA所需的测序衔接子连接。
相反,cfDNA通常以少于约300个碱基对的片段存在,并且因此,对于使用cfDNA样品生成测序库而言,通常不需要片段化。
通常,无论多核苷酸被强制片段化(例如,体外片段化)还是天然作为片段存在,它们都被转换为具有5’-磷酸和3’-羟基的钝末端DNA。标准方案,例如,使用在此其它地方所述的Illumina平台进行测序的方案,指示用户末端修复样品DNA,以在加dA尾之前纯化末端修复的产物,以及在库制备的衔接子连接步骤之前纯化加dA尾的产物。
在此所述的序列库制备方法的多个实施方案消除了执行通常由标准方案强制执行的一个或多个步骤以获得可被NGS测序的修饰的DNA产物的需要。缩略方法(ABB法)、1步法和2步法是用于制备测序库的方法的示例,其可以在2012年7月20日提交的专利申请13/555,037中找到,其通过引用整体并入。
测序方法
在一些实施方式中,将制备的样品(例如,测序库)测序,作为使核酸混合物解卷积的过程的一部分。可以使用多种测序技术中的任何一种。
一些测序技术是可商购的,如下所述,诸如来自Affymetrix公司(加利福尼亚州Sunnyvale)的杂交测序平台和来自454Life Sciences(康涅狄格州Bradford)的合成测序平台,Illumina/Solexa(来自加利福尼亚州Hayward)和Helicos Biosciences(马萨诸塞州Cambridge),以及来自应用生物系统公司(加利福尼亚州Foster City)的连接测序平台。除了使用Helicos Biosciences的合成测序执行单分子测序外,其它单分子测序技术还包括但不限于Pacific Biosciences的SMRTTM技术、ION TORRENTTM技术以及例如由牛津纳米孔技术公司开发的纳米孔测序。
虽然自动Sanger方法被认为是“第一代”技术,但包括Sanger自动测序的Sanger测序也可以用于在此所述的方法中。其它合适的测序方法包括但不限于核酸成像技术,例如原子力显微术(AFM)或透射电子显微术(TEM)。说明性测序技术在下面更详细地描述。
在一个示例性但非限制性的实施方案中,在此所述的方法包括使用Illumina的合成测序和基于可逆终止子的测序化学(例如,如Bentley等人,自然第6期:53-59页[2009]中所述),获得测试样品中的核酸的序列信息,例如母体样品中的cfDNA、筛查癌症的受试者的cfDNA或细胞DNA等。模板DNA可以是基因组DNA,例如细胞DNA或cfDNA。在一些实施方案中,将来自分离的细胞的基因组DNA用作模板,并将其片段化为几百个碱基对的长度。在其它实施方案中,将cfDNA用作模板,并且不需要片段化,因为cfDNA作为短片段存在。例如,胎儿cfDNA以约170个碱基对(bp)的长度的片段在血流中循环(Fan等人,临床化学第56期:1279-1286页[2010]),并且在测序之前不需要DNA的片段化。循环肿瘤DNA以短片段存在,其大小分布在约150-170bp处达到峰值。Illumina的测序技术依赖于将片段化的基因组DNA附着到平面的光学透明的表面,在该表面上结合了寡核苷酸锚。对模板DNA进行末端修复,以生成5′-磷酸化的钝末端,且Klenow片段的聚合酶活性用于在钝的磷酸化DNA片段的3′末端添加单个A碱基。该添加为连接至寡核苷酸衔接子的DNA片段做好了准备,该寡核苷酸衔接子的3′末端具有单个T碱基的突出端,以提高连接效率。衔接子寡核苷酸与流通池锚定寡核苷酸互补(在重复扩增分析中不要与锚/锚定读序混淆)。在有限稀释条件下,将衔接子修饰的单链模板DNA添加到流通池中,并通过与锚定寡核苷酸的杂交来固定。延伸附着的DNA片段并进行桥扩增,以创建具有数亿个簇的超高密度测序流通池,每个簇包含约1000个相同模板的副本。在一个实施方案中,在将随机片段化的基因组DNA进行簇扩增之前,使用PCR对其进行扩增。可替代地,使用无扩增(例如,无PCR)的基因组库制备,并且仅使用簇扩增来富集随机片段化的基因组DNA(Kozarewa等人,自然方法第6期:291-295页[2009])。使用强大的四色DNA合成测序技术对模板进行测序,该技术采用可逆的终止子和可移除的荧光染料。使用激光激发和全内反射光学器件可以实现高敏感性的荧光检测。将约数十至几百个碱基对的短序列读序与参考基因组比对,并使用专门开发的数据分析流水线软件来识别短序列读序至参考基因组的唯一映射。第一读序完成后,可以在原位再生模板,以从片段的另一端进行第二读序。因此,可以使用DNA片段的单端或双端测序。
本公开的多个实施方案可以使用允许配对末端测序的合成测序。在一些实施方案中,Illumina的合成平台的测序涉及将片段聚类。聚类是每个片段分子被等温扩增的过程。在一些实施方案中,如这里所述的示例,片段具有附着至片段两端的两个不同的衔接子,该衔接子允许片段与流通池泳道表面上的两个不同的寡核苷酸杂交。该片段进一步在片段的两端包括或连接到两个索引序列,该索引序列提供标记以识别多重测序中的不同样品。在一些测序平台中,待测序的片段也称为插入物。
在一些实施方式中,用于在Illumina平台中聚类的流通池是带有泳道的载玻片。每个泳道是涂覆有两种类型的寡核苷酸的玻璃通道。表面上的两种类型的寡核苷酸中的第一种使杂交成为可能。该寡核苷酸与片段一端上的第一衔接子互补。聚合酶产生杂交片段的互补链。双链分子被变性,并且原始模板链被洗掉。剩余的链与许多其它剩余的链平行,通过桥接应用克隆扩增。
在桥扩增中,链重叠,并且在链的第二端上的第二衔接子区域与流通池表面上的第二类型的寡核苷酸杂交。聚合酶生成互补链,形成双链桥分子。该双链分子被变性,从而导致两个单链分子通过两个不同的寡核苷酸束缚到流通池。然后,该过程一遍又一遍地重复,并且对于数百万个簇同时发生,从而导致所有片段的克隆扩增。桥扩增后,将反向链切割并洗掉,仅留下正链。封闭3′端以防止出现不希望的引发。
聚类后,测序开始于延伸第一测序引物以生成第一读序。在每个循环中,荧光标记的核苷酸竞争添加到生长链中。基于模板的序列仅掺入一个。添加每个核苷酸后,簇被光源激发,并发射出特征性的荧光信号。循环数确定了读序的长度。发射波长和信号强度确定了碱基呼叫出。对于给定的簇,同时对所有相同的链进行读序。数亿的簇以大规模并行的方式测序。第一读序完成后,将读序的产物洗掉。
在涉及两个索引引物的方案的下一步骤中,引入索引1引物并与模板上的索引1区域杂交。索引区域提供了片段的识别,这用于在多重测序过程中对样品进行解复用。索引1读序类似于第一读序来生成。在完成索引1读序后,将读序的产物洗掉,并将链的3′末端去保护。然后,模板链重叠并与流通池上的第二寡核苷酸结合。以与索引1相同的方式对索引2序列进行读序。然后在该步骤完成时洗出索引2读序产物。
在对两个索引读序后,通过使用聚合酶延伸第二流通池寡核苷酸来启动读序2,形成双链桥。该双链DNA变性,并且封闭3′末端。最初的正链被切割并洗掉,留下了反向链。读序2开始于读序2测序引物的引入。与读序1一样,重复测序步骤,直到达到所需的长度。读序2产物被洗掉。该整个过程会生成表示所有片段的数百万个读序。来自合并样品库的序列基于样品制备期间引入的唯一索引进行分离。对于每个样品,将对碱基呼叫出的相似片段读序进行本地聚类。将正向和反向读序配对以创建连续序列。将这些连续序列与参考基因组比对,以进行变体识别。
上面描述的合成测序示例涉及配对末端读序,其在公开的方法的许多实施方案中使用。配对末端测序涉及片段两端的两次读序。当一对读序被映射到参考序列时,可以确定两个读序之间的碱基对距离,然后可以使用该距离来确定从中获得读序的片段的长度。在一些情况下,跨过两个条带的片段的一对末端读序之一将与一个条带对齐,而另一个将其与相邻条带对齐。随着条带变长或读序变短,这种情况变得越来越少。可以使用各种方法来解释这些片段的条带成员身份。例如,可以在确定条带的片段大小频率时将它们省略;可以针对两个相邻条带计数它们;可以将它们分配给包含两个条带中较大碱基对数的条带;或者可以将它们分配给两个条带,其权重与每个条带中碱基对的一部分有关。
配对末端读序可以使用不同长度的插入物(即,要测序的不同片段大小)。作为本公开中的默认含义,成对的末端读序用于指从各种插入长度获得的读序。在一些情况下,用于区分短插入配对末端读序和长插入配对末端读序,后者也称为伴侣配对读序。在涉及伴侣配对读序的一些实施方案中,首先将两个生物素连接衔接子附着到相对长的插入物(例如,几kb)的两端。然后,生物素连接衔接子将插入物的两个末端连接,形成环状分子。然后可以通过进一步将环状分子片段化来获得包含生物素连接衔接子的子片段。然后可以通过与上述短插入配对末端测序相同的方法,对包括原始片段两端相反顺序的子片段进行测序。使用Illumina平台进行伴侣配对测序的更多详细信息显示在以下URL的在线出版物中,该URL全文通过引用并入:res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing。关于配对末端测序的附加信息可以在美国专利号7601499和美国专利公开号2012/0,053,063中找到,关于配对末端测序方法和装置的材料,其通过引用并入。
在对DNA片段测序之后,将预定长度例如100bp的序列读序映射到已知的参考基因组或与其比对。映射或比对的读序及其在参考序列上的对应位置也称为标签。在一个实施方案中,参考基因组序列是NCBl36/hg18序列,其可在万维网上以genome|.|ucsc|.|edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)获得。可替代地,参考基因组序列是GRCh37/hg19,其可在万维网上以genetic.ucsc.edu/cgi-bin/hgGateway获得。其它公共序列信息来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)和DDBJ(日本DNA数据库)。有许多计算机算法可用于比对序列,包括但不限于BLAST(Altschul等,1990)、BLITZ(MPsrch)(Sturrock&Collins,1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead等人,Genome Biology 10:R25.1-R25.10[2009])或ELAND(Illumina公司,圣地亚哥,加利福尼亚州,美国)。在一个实施方案中,对血浆cfDNA分子的克隆扩展副本的一端进行测序,并通过Illumina基因组分析仪的生物信息学比对分析进行处理,该分析仪使用核苷酸数据库的高效大规模比对(ELAND)软件。
在一个说明性但非限制性的实施方案中,在此所述的方法包括使用Helicos TrueTrue Molecule Sequencing(tSMS)技术的单分子测序技术(例如,如Harris TD 等人,科学第320期:106-109页[2008]中所述),获得测试样品中的核酸的序列信息,例如母体样品中的cfDNA、筛查癌症的受试者中的cfDNA或细胞DNA等。在tSMS技术中,将DNA样品切割成约100至200个核苷酸的链,并且然后将polyA序列添加到每条DNA链的3′末端。每条链通过添加荧光标记的腺苷核苷酸进行标记。然后将DNA链杂交到流通池,该流通池包含数百万个固定在流通池表面的寡T捕获位点。在某些实施方案中,模板的密度可以为约1亿个模板/cm2。然后将流通池加载到仪器(例如HeliScopeTM测序仪)中,并且激光照射流通池的表面,以显示每个模板的位置。CCD相机可以在流通池表面上映射模板的位置。然后切割模板荧光标记并洗掉。测序反应通过引入DNA聚合酶和荧光标记的核苷酸开始。寡T核酸用作引物。聚合酶以模板引导的方式将标记的核苷酸掺入引物。去除聚合酶和未掺入的核苷酸。通过对流通池表面进行成像,可以识别出已定向掺入荧光标记核苷酸的模板。成像之后,切割步骤将去除荧光标记,并且然后采用其它荧光标记的核苷酸重复该过程,直到实现所需的读序长度。在每个核苷酸添加步骤中收集序列信息。通过单分子测序技术进行的全基因组测序在测序库的制备中排除或通常避免了基于PCR的扩增,并且该方法允许直接测量样品,而不是测量该样品的副本。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用454测序(Roche)(例如,如Margulies,M.等人,自然第437期:376-380页[2005]中所述)获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、筛查癌症的受试者中的cfDNA或细胞DNA等。454测序通常涉及两个步骤。在第一步骤中,将DNA剪切成约300-800个碱基对的片段,并且然后将片段钝端化。然后将寡核苷酸衔接子连接至片段的末端。衔接子用作片段的扩增和测序的引物。可以使用例如含有5′-生物素标签的衔接子B,将片段附着到DNA捕获珠子,例如链霉亲和素包被的珠子。在油水乳状液的液滴内PCR扩增附着到珠子的片段。结果是每个珠子上克隆扩增的DNA片段有多个副本。在第二步骤中,将珠子捕获在孔(例如皮升大小的孔)中。对每个DNA片段并行进行焦磷酸测序。一个或多个核苷酸的添加生成光信号,该光信号由CCD相机在测序仪中记录。信号强度与掺入的核苷酸数成比例。焦磷酸测序利用焦磷酸(PPi),其在添加核苷酸后释放。在存在5′磷硫酸腺苷(adenosine 5’phosphosulfate)的情况下,PPi通过ATP硫化酶转换为ATP。萤光素酶使用ATP将萤光素转换为氧化萤光素,并且该反应生成可以进行测量和分析的光。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用SOLiDTM技术(Applied Biosystems),获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、筛选癌症的受试者中的cfDNA或细胞DNA等。在SOLiDTM连接测序中,将基因组DNA剪切成片段,并将衔接子附着到片段的5′和3′末端以生成片段库。可替代地,可以通过将衔接子连接至片段的5′和3′末端,环化片段,消化环化片段以生成内部衔接子并将衔接子附着至所得片段的5′和3′末端以生成伴侣配对库,来引入内部衔接子。接下来,在含有珠子、引物、模板和PCR成分的微反应器中制备克隆珠子群体。PCR之后,使模板变性,并富集珠子以分离具有扩展模板的珠子。所选珠子上的模板经过3′修饰,其允许与载玻片结合。可以通过将部分随机的寡核苷酸与由特定荧光团识别的中心确定的碱基(或碱基对)进行顺序杂交和连接来确定序列。记录颜色后,将连接的寡核苷酸切割并去除,并且然后重复该过程。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用PacificBiosciences的单分子实时(SMRTTM)测序技术,获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、筛查癌症的受试者中的cfDNA或细胞DNA等。在SMRT测序中,在DNA合成期间对染料标记核苷酸的连续掺入成像。单个DNA聚合酶分子附着到各个零模式波长检测器(ZMW检测器)的底表面,该检测器在将磷酸化的核苷酸掺入正在生长的引物链中时获得序列信息。ZMW检测器包括限制结构,该限制结构使得能够针对迅速扩散入出ZMW(例如,以微秒为单位)的荧光核苷酸的背景观察通过DNA聚合酶掺入单个核苷酸。通常需要几毫秒的时间才能将核苷酸掺入正在生长的链中。在此期间,荧光标记被激发并产生荧光信号,并且荧光标签被切割掉。染料的对应荧光的测量表明掺入了哪种碱基。重复该过程以提供序列。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用纳米孔测序(例如,如在Soni GV和Meller A.临床化学第53期:1996-2001[2007]中所述),获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、筛查癌症的受试者中的cfDNA或细胞DNA等。纳米孔测序DNA分析技术是由许多公司开发的,包括,例如,牛津纳米孔技术公司(英国牛津)、Sequenom、NABsys等。纳米孔测序是一种单分子测序技术,通过该技术,单分子DNA在通过纳米孔时即可直接测序。纳米孔是小孔,通常直径约为1纳米。纳米孔浸入导电流体中并在其上施加电势(电压)导致由于离子通过纳米孔的传导而产生少量电流。流过的电流量对纳米孔的大小和形状敏感。当DNA分子穿过纳米孔时,DNA分子上的每个核苷酸都会以不同程度阻塞纳米孔,从而以不同程度改变通过纳米孔的电流大小。因此,当DNA分子穿过纳米孔时电流中的该变化提供了DNA序列的读序。
在另一个说明性但非限制性的实施方案中,在此所述的方法包括使用化学敏感的场效应晶体管(chemFET)阵列(例如,如美国专利申请公开号2009/0026082中所述),获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、筛查癌症的受试者中的cfDNA或细胞DNA等。在该技术的一个示例中,可以将DNA分子放入反应室中,并且可以将模板分子与结合到聚合酶上的测序引物杂交。将一种或多种三磷酸酯掺入测序引物3′端的新核酸链中可以由chemFET识别为电流变化。阵列可以具有多个chemFET传感器。在另一个示例中,可以将单个核酸附着到珠子,并且可以在珠子上扩增核酸,并且可以将各个珠子转移到chemFET阵列上的各个反应室,每个室都具有chemFET传感器,并且可以测序核酸。
在另一个实施方案中,本方法包括使用透射电子显微术(TEM)获得测试样品中的核酸,例如母体测试样品中的cfDNA的序列信息。被称为个体分子放置快速纳米转移(IMPRNT)的该方法,包括利用选择性地用重原子标记物标记的高分子量(150kb或更大)DNA的单原子分辨率透射电子显微术成像,以及将这些分子排列在具有一致的碱基间距的超密集(3nm链对链)平行阵列中的超薄膜上。电子显微镜用于对胶片上的分子成像,以确定重原子标记的位置,并从DNA中提取碱基序列信息。该方法在PCT专利公开WO 2009/046445中进一步描述。该方法允许在不到十分钟的时间内对完整的人类基因组进行测序。
在另一个实施方案中,DNA测序技术是离子激流单分子测序,其将半导体技术与简单的测序化学结合以将化学编码的信息(A,C,G,T)直接翻译成半导体芯片上的数字信息(0、1)。实际上,当核苷酸通过聚合酶掺入DNA链时,氢离子作为副产物释放出来。离子激流使用高密度的微型加工孔阵列以大规模并行方式执行该生化过程。每个孔中都有不同的DNA分子。孔下面是离子敏感层,并且在离子敏感层下方是离子传感器。当将核苷酸(例如C)添加到DNA模板中,并且然后掺入DNA链中时,氢离子将被释放。该离子的电荷会改变溶液的pH值,这可通过离子激流的离子传感器检测到。测序仪本质上是世界上最小的固态pH计-检出碱基,直接从化学信息转变为数字信息。然后,离子个人基因组机(PGMTM)测序仪依次用一个核苷酸接另一个核苷酸来淹没芯片。如果淹没芯片的下一个核苷酸不匹配。则不会记录任何电压变化,也不会检出任何碱基。如果DNA链上有两个相同的碱基,则电压将加倍,并且芯片将记录检出的两个相同的碱基。直接检测允许以秒钟记录核苷酸掺入。
在另一个实施方案中,本方法包括通过杂交测序获得测试样品中的核酸,例如母体测试样品中的cfDNA的序列信息。杂交测序包括使多个多核苷酸序列与多个多核苷酸探针接触,其中多个多核苷酸探针中的每一个多核苷酸探针可以可选地束缚至底物。底物可能是包含已知核苷酸序列阵列的平坦表面。阵列的杂交模式可用于确定样品中存在的多核苷酸序列。在其它实施方案中,每个探针被束缚到珠子,例如磁珠等。可以确定与珠子的杂交,并用于识别样品内的多个多核苷酸序列。
在此描述的方法的一些实施方案中,映射的序列标签包含约20bp,约25bp,约30bp,约35bp,约40bp,约45bp,约50bp,约55bp,约60bp,约65bp,约70bp,约75bp,约80bp,约85bp,约90bp,约95bp,约100bp,约110bp,约120bp,约130,约140bp,约150bp,约200bp,约250bp,约300bp,约350bp,约400bp,约450bp,或约500bp的测序读序。预期技术上的进步将使大于500bp的单端读序成为可能,从而在生成配对末端读序时允许大于约1000bp的读序。在一个实施方案中,所映射的序列标签包含36bp的序列读序。通过将标签的序列与参考序列进行比较以确定测序的核酸(例如cfDNA)分子的染色体来源,实现序列标签的映射,并且不需要特定的遗传序列信息。可以允许很小程度的失配(每序列标签0-2个失配),以说明参考基因组和混合样品中的基因组之间可能存在的微小多态性。
通常每样品获得多个序列标签。在一些实施方案中,在20至40bp读序之间(例如36bp)包括的至少约3×106个序列标签,至少约5×106个序列标签,至少约8×106个序列标签,至少约10×106个序列标签,至少约15×106个序列标签,至少约20×106个序列标签,至少约30×106个序列标签,至少约40×106个序列标签或至少约50×106个序列标签,获自读序到每样品的参考基因组的映射。在一个实施方案中,所有序列读序均映射到参考基因组的所有区域。在一个实施方案中,分析了已经映射到参考基因组的所有区域(例如所有染色体)的标签。
用于从多个来源对核酸混合物进行解卷积的装置和系统
通常使用各种计算机执行的算法和程序来执行测序数据的分析和从中导出的诊断。因此,某些实施方案采用涉及存储在一个或多个计算机系统或其它处理系统中或通过其传输的数据的处理。在此公开的实施方案还涉及用于执行这些操作的装置。该装置可以被特殊构造用于所需目的,或者它可以是由计算机中存储的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或一组计算机)。在一些实施方案中,一组处理器协作地(例如,经由网络或云计算)和/或并行地执行所列举的分析操作中的一些或全部。用于执行在此描述的方法的一个处理器或一组处理器可以是各种类型的,包括微控制器和微处理器,诸如可编程设备(例如,CPLD和FPGA)以及非可编程设备,诸如门阵列ASIC或通用微处理器。
另外,某些实施方案涉及有形和/或非暂态计算机可读介质或计算机程序产品,其包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的示例包括但不限于半导体存储器设备,诸如磁盘驱动器、磁带的磁性介质,诸如CD的光学介质、磁光介质以及专门配置用于存储和执行程序指令的硬件设备,诸如只读存储器设备(ROM)和随机存取存储器(RAM)。计算机可读介质可以由终端用户直接控制,或者介质可以由终端用户间接控制。直接控制的介质的示例包括位于用户设施处的介质和/或未与其它实体共享的介质。间接控制介质的示例包括用户可以经由外部网络和/或经由提供共享资源(诸如“云”)的服务间接访问的介质。程序指令的示例包括机器代码,诸如由编译器生成的机器代码,以及包含更高级别代码的文件,该代码可以由计算机使用解释器执行。
在多个实施方案中,以电子格式提供在所公开的方法和装置中采用的数据或信息。此类数据或信息可以包括衍生自核酸样品的读序和标签,与参考序列的特定区域比对(例如,与染色体或染色体片段比对)的此类标签的计数或密度,参考序列(包括仅提供或主要提供多态性的参考序列),染色体和区段剂量,诸如SNV或非整倍性检出的检出,归一化的染色体和区段值,成对的染色体或区段以及对应的归一化的染色体或区段,咨询建议,诊断等。如在此所使用的,以电子格式提供的数据或其它信息可用于存储在机器上以及机器之间的传输。通常地,以数字形式提供电子格式的数据,并且可以将其作为位和/或字节存储在各种数据结构、列表、数据库等中。该数据可以以电子、光学等方式体现。
一个实施方案提供了一种计算机程序产品,用于在测试样品中生成指示与癌症相关联的SNV或非整倍性的存在或不存在的输出。该计算机产品可以包含用于执行上述任何一种或多种确定染色体异常的方法的指令。如所解释的,计算机产品可以包括具有记录在其上的计算机可执行或可编译逻辑(例如,指令)的非暂态和/或有形计算机可读介质,以使处理器能够解卷积核酸混合物。在一个示例中,计算机产品包括计算机可读介质,该计算机可读介质具有记录在其上的计算机可执行或可编译逻辑(例如,指令),以使处理器能够对核酸混合物进行解卷积。
来自所考虑的样品的序列信息可以被映射到染色体参考序列,以识别用于任何一个或多个目的染色体中的每个染色体的多个序列标签,并识别用于归一化所述任何一个或多个目的染色体中的每个染色体的区段序列的多个序列标签。在多个实施方案中,参考序列被存储在诸如关系数据库或对象数据库的数据库中。
应该理解,对于一个没有帮助的人来说,执行在此所公开的方法的计算操作是不切实际的,或甚至在大多数情况下是不可能的。例如,在不借助计算装置的情况下,将样本中的单个30bp读序映射到任何人类染色体上可能需要花费多年的努力。
在此公开的方法可以使用用于对包含一个或多个贡献者的核酸的核酸样品进行定量的系统来执行。该系统包括:(a)测序仪,用于从测试样品中接收核酸,提供来自样品的核酸序列信息;(b)处理器;以及(c)一种或多种计算机可读存储介质,其上存储有用于在所述处理器上执行以执行使核酸混合物解卷积的方法的指令。
在一些实施方案中,该方法由其上存储有用于执行解卷积核酸混合物的方法的计算机可读指令的计算机可读介质指示。因此,一个实施方案提供了一种计算机程序产品,该计算机程序产品包括其上存储有计算机可执行指令的一个或多个计算机可读非暂态存储介质,该计算机可执行指令在由计算机系统的一个或多个处理器执行时使该计算机系统实现用于以下目的的方法:对包含一个或多个贡献者核酸的核酸样品进行定量。该方法包括:(a)由计算机系统接收从核酸样品获得并被映射到一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序;(b)使用核酸序列读序并由一个或多个处理器确定在一个或多个多态性基因座处的一个或多个等位基因的每一个等位基因的等位基因计数;以及(c)使用概率混合物模型并由一个或多个处理器对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量,其中使用概率混合物模型包括将概率混合物模型应用于等位基因计数,并且概率混合物模型使用概率分布对一个或多个多态性基因座处的等位基因计数建模,该概率分布考虑了核酸序列读序中的错误。
在一些实施方案中,指令可以进一步包括在针对提供母体测试样品的人类受试者的患者病历中自动记录与该方法有关的信息。患者病历可以由例如实验室、医师办公室、医院、健康维护组织、保险公司或个人病历网站维护。此外,基于处理器实施的分析的结果,该方法可以进一步包括对从其获取了母体测试样品的人类受试者进行处方、开始和/或改变治疗。这可涉及对从受试者采集的其它样品进行一项或多项其它测试或分析。
所公开的方法也可以使用计算机处理系统来执行,该计算机处理系统适于或配置为执行用于对包含一个或多个贡献者的核酸的核酸样品进行定量的方法。一个实施方案提供了一种计算机处理系统,该计算机处理系统适于或配置为执行在此所述的方法。在一个实施方案中,该装置包括测序设备,该测序设备适于或配置用于对样品中核酸分子的至少一部分进行测序以获得在此其它各处所述的序列信息的类型。该装置还可包括用于处理样品的组件。此类组件在此其它地方描述。
序列或其它数据可以直接或间接输入计算机或存储在计算机可读介质上。在一个实施方案中,计算机系统直接偶联至测序设备,该测序设备读序和/或分析来自样品的核酸序列。来自此类工具的序列或其它信息经由计算机系统中的界面提供。可替代地,从序列存储源(诸如数据库或其它存储库)提供系统处理的序列。一旦可用于处理装置,存储器设备或大容量存储设备至少临时地缓冲或存储核酸序列。另外,存储器设备可以存储各种染色体或基因组等的标签计数。存储器还可以存储各种例程和/或程序,用于分析呈现序列或映射数据。此类程序/例程可以包括用于执行统计分析的程序等。
在一个示例中,用户将样品提供到测序装置中。数据由连接到计算机的测序装置收集和/或分析。计算机上的软件允许数据收集和/或分析。数据可以存储、显示(经由监视器或其它类似设备)和/或发送到另一位置。该计算机可以连接到互联网,该互联网用于将数据传输到远程用户(例如,医师、科学家或分析人员)使用的手持设备。应当理解,可以在传输之前存储和/或分析数据。在一些实施方案中,原始数据被收集并发送到将分析和/或存储数据的远程用户或装置。传输可以经由互联网进行,也可以经由卫星或其它连接进行。可替代地,可以将数据存储在计算机可读介质上,并且可以将该介质运送给最终用户(例如,经由邮件)。远程用户可以在相同或不同的地理位置,包括但不限于建筑物、城市、州、国家或大洲。
在一些实施方案中,该方法还包括收集关于多个多核苷酸序列(例如,读序、标签和/或参考染色体序列)的数据,并将该数据发送到计算机或其它计算系统。例如,计算机可以连接到实验室设备,例如样品收集装置、核苷酸扩增装置、核苷酸测序装置或杂交装置。然后,计算机可以收集实验室设备收集的适用数据。可以在任何步骤将数据存储在计算机上,例如,在发送之前、发送期间或结合发送期间或发送之后实时收集实时信息。数据可以存储在可以从计算机提取的计算机可读介质上。所收集或存储的数据可以例如经由局域网或诸如互联网的广域网从计算机传输到远程位置。如下所述,在远程位置可以对传输的数据执行各种操作。
在此公开的系统、装置和方法中可以存储、传输、分析和/或操纵的电子格式化数据的类型如下:
通过对测试样品中的核酸进行测序获得的读序
通过将读序与参考基因组或一个其它参考序列或多个其它参考序列进行比对获得的标签
参考基因组或序列
序列标签密度-参考基因组或其它参考序列的两个或更多个区域(通常是染色体或染色体片段)中每个区域的标签计数或数量
对目的特定染色体或染色体片段进行归一化的染色体或染色体片段的身份
从目的染色体或片段以及对应的归一化染色体或片段获得的染色体或染色体片段(或其它区域)的剂量
将染色体剂量检出为受影响、不受影响或无检出的阈值
染色体剂量的实际检出
诊断(与检出相关的临床状况)
从检出和/或诊断得出的进一步测试建议
从检出和/或诊断得出的治疗和/或监视计划
可以使用不同的装置在一个或多个位置处获得、存储、传输、分析和/或操纵这些各种类型的数据。处理选项跨越宽的频谱。在频谱的一端,所有或许多该信息都存储在处理测试样品的位置,例如医生办公室或其它临床场所,并在其中使用。在另一种极端情况下,样品在一个位置获得,可以在不同的位置进行处理和任选地测序,在一个或多个不同的位置进行读序比对和检出,并在另外一个位置处(可能是获得样本的位置)准备诊断、建议和/或计划。
在多个实施方案中,用测序装置生成读序,并且然后将其传输至远程位点,在该位点处对其进行处理以产生检出。例如,在该远程位置处,将读序与参考序列进行比对以产生标签,将其计数并分配给目的染色体或片段。同样在远程位置处,使用关联的归一化染色体或片段将计数转换为剂量。更进一步,在远程位置处,剂量被用于生成检出。
在不同位置处可以采用的处理操作如下:
样品收集
在测序之前的样品处理
测序
分析序列数据并对包含一个或多个贡献者核酸的核酸样品进行定量
诊断
向患者或医疗护理提供者报告诊断和/或检出
制定进一步治疗、测试和/或监视的计划
执行计划
咨询
这些操作中的任何一个或多个操作可以如在此其它地方所述自动进行。通常,通过计算执行序列数据和解卷积的DNA混合物样品的测序和分析。其它操作可以手动或自动执行。
可以执行样品收集的位置的示例包括医疗从业人员的办公室、诊所、患者的家(提供样品收集工具或试剂盒的地方)以及移动式医疗车。可以在测序之前进行样品处理的位置的示例包括医疗从业人员的办公室、诊所、患者的家(提供样品处理装置或试剂盒的位置)、移动式医疗车以及DNA分析提供者的设施。可以执行测序的位置的示例包括医疗从业人员的办公室、诊所、医疗从业人员的办公室、诊所、患者的家(提供样品测序装置和/或试剂盒的地方)、移动医疗车和DNA分析提供者的设施。可以在进行测序的位置提供专用的网络连接,用于以电子格式传输序列数据(通常为读序)。此类连接可以是有线的或无线的,并且具有并且可以被配置为将数据发送到可以在传输到处理站点之前处理和/或聚合数据的站点。数据聚合器可以由健康组织(诸如健康维护组织(HMO))维护。
分析和/或推导操作可以在前述位置中的任何一个位置处执行,或者可替代地在专用于计算和/或分析核酸序列数据的服务的另一远程站点处执行。此类位置包括,例如,诸如通用服务器场的集群、DNA分析服务业务的设施等。在一些实施方案中,用于执行分析的计算设备是租赁的或出租的。计算资源可以是处理器的互联网可访问集合的一部分,该处理器诸如俗称云的处理资源。在一些情况下,计算由一组相互关联或不关联的处理器并行或大规模并行执行。可以使用诸如集群计算、网格计算等的分布式处理来完成该处理。在此类实施方案中,计算资源的集群或网格共同形成由多个处理器或计算机共同组成的超级虚拟计算机,该多个处理器或计算机共同作用以执行在此所述的分析和/或推导。如在此所述,这些技术以及更常规的超级计算机可以用于处理序列数据。每种都是依赖处理器或计算机的并行计算形式。在网格计算的情况下,这些处理器(通常是整个计算机)通过网络(专用、公用或互联网)通过常规网络协议(诸如以太网)连接。相比之下,超级计算机具有许多通过本地高速计算机总线连接的处理器。
在某些实施方案中,在与分析操作相同的位置处生成诊断。在其它实施方案中,它在不同的位置处执行。在某些示例中,报告诊断在取样的位置处执行,尽管并非必须如此。可以生成或报告诊断和/或执行计划的位置的示例包括医疗从业人员的办公室、诊所、计算机可访问的互联网站点以及手持设备,诸如具有网络的有线或无线连接的手机、平板计算机、智能电话等。执行咨询的位置的示例包括健康从业人员的办公室、诊所、可通过计算机访问的互联网站点、手持设备等。
在一些实施方案中,样品收集、样品处理和测序操作在第一位置处执行,并且分析和推导操作在第二位置处执行。然而,在一些情况下,样品收集在一个位置处(例如,健康从业人员的办公室或诊所)收集,并且样品处理和测序在不同的位置处执行,该位置可选地是进行分析和导出的相同位置。
在多个实施方案中,可以由用户或实体启动样品收集、样品处理和/或测序来触发上面列出的操作的顺序。在一个或多个这些操作开始执行之后,其它操作自然会随之而来。例如,测序操作可导致读序被自动收集并发送到处理装置,然后该处理装置通常自动地并且可能在没有进一步用户干预的情况下进行序列分析。在一些实施方式中,然后将该处理操作的结果可能以重新格式化作为诊断自动地传递给向健康专业人员和/或患者报告信息的系统组件或实体。如所解释的,此类信息还可以被自动处理以产生治疗、测试和/或监视计划,可能连同咨询信息。因此,启动早期操作可以触发端到端的顺序,在该顺序中,向健康专业人员、患者或其它有关方面提供对身体状况有用的诊断、计划、咨询和/或其它信息。即使整个系统的各部分在物理上是分开的,并且可能远离例如样品和测序装置的位置,也可以实现这一点。
图4以简单的框格式示出了根据某些实施方案的典型的计算机系统,当适当地配置或设计该计算机系统时,该计算机系统可以用作计算装置。计算机系统2000包括偶联到存储设备的任何数量的处理器2002(也称为中央处理单元或CPU),该存储设备包括主存储装置2006(通常是随机存取存储器或RAM)、主存储装置2004(通常是只读存储器或ROM)。CPU2002可以是各种类型,包括诸如可编程设备(例如,CPLD和FPGA)的微控制器和微处理器,以及诸如门阵列ASIC或通用微处理器的非可编程设备。在所描绘的实施方案中,主存储装置2004用于向CPU单向传送数据和指令,并且主存储装置2006通常用于以双向方式传送数据和指令。这两个主存储设备都可以包括任何合适的计算机可读介质,诸如上述介质。大容量存储设备2008还双向偶联到主存储装置2006,并且提供附加的数据存储容量,并且可以包括上述任何计算机可读介质。大容量存储设备2008可以用于存储程序、数据等,并且通常是诸如硬盘的辅助存储介质。通常,此类程序、数据等被临时复制到主存储器2006以在CPU2002上执行。将理解的是,保留在大容量存储设备2008中的信息在适当的情况下可以以标准方式被结合为主存储装置2004一部分。诸如CD-ROM 2014的特定大容量存储设备还可以单向地将数据传递给CPU或主存储装置。
CPU 2002还偶联至接口2010,该接口2010连接至一个或多个输入/输出设备,诸如核酸测序仪(2020)、视频监视器、跟踪球、鼠标、键盘、麦克风、触敏显示器、换能器卡读卡器、磁带或纸带读卡器、平板计算机、手写笔、语音或手写识别外围设备、USB端口或其它众所周知的输入设备,诸如其它计算机。最后,CPU 2002可以可选地使用外部连接(如2012处总体所示)连接到外部设备,诸如数据库、计算机或电信网络。通过此类连接,可以预期CPU可能从网络接收信息,或可能会在执行在此所述方法步骤的过程中向网络输出信息。在一些实施方式中,代替或除了经由接口2010之外,核酸测序仪(2020)还可以经由网络连接2012通信地链接至CPU 2002。
在一个实施方案中,诸如计算机系统2000的系统用作能够执行在此所述的一些或全部任务的数据导入、数据关联和查询系统。可以经由网络连接2012提供包括数据文件的信息和程序,以供研究者访问或下载。可替代地,可以在存储设备上将此类信息、程序和文件提供给研究人员。
在一个具体实施方案中,计算机系统2000直接偶联到数据获取系统,诸如微阵列、高通量筛选系统或从样品捕获数据的核酸测序仪(2020)。来自此类系统的数据经由接口2010提供,以供系统2000分析。可替代地,由系统2000处理的数据从诸如数据库或相关数据的其它存储库的数据存储源提供。一旦进入装置2000,诸如主存储装置2006或大容量存储装置2008的存储器设备至少临时地缓冲或存储相关数据。存储器还可存储用于导入、分析和呈现数据的各种例程和/或程序,包括序列读序、UMI、用于确定序列读序、重叠序列读序和纠正读序中的错误的代码等。
在某些实施方案中,在此使用的计算机可以包括用户终端,该用户终端可以是任何类型的计算机(例如,台式计算机、膝上型计算机、平板计算机等)、媒体计算平台(例如,电缆、卫星机顶盒、数字录像机等)、手持计算设备(例如PDA、电子邮件客户端等)、手机或任何其它类型的计算或通信平台。
在某些实施方案中,在此使用的计算机还可以包括与用户终端通信的服务器系统,该服务器系统可以包括服务器设备或分散式服务器设备,并且可以包括大型计算机、小型计算机、超级计算机、个人计算机,或其组合。在不脱离本发明的范围的情况下,也可以使用多个服务器系统。用户终端和服务器系统可以通过网络彼此通信。该网络可以包括例如有线网络,诸如LAN(局域网)、WAN(广域网)、MAN(城域网)、ISDN(集成服务数字网络)等,以及无线网络,诸如无线LAN、CDMA、蓝牙和卫星通信网络等,而不限制本发明的范围。
图5示出了用于从测试样品产生检出或诊断的分散系统的一种实施方式。样品收集位置01用于获得测试样品。然后将样品提供给处理和测序位置03,在该位置可以如上所述对测试样品进行处理和测序。位置03包括用于处理样品的装置以及用于对处理的样品进行测序的装置。如在此其它地方所述,测序的结果是读序的集合,其通常以电子格式提供并提供给诸如互联网的网络,该网络在图5中由附图标记05指示。
序列数据被提供给远程位置07,在该位置执行分析和检出生成。该位置可能包括一个或多个功能强大的计算设备,诸如计算机或处理器。在位置07处的计算资源完成分析并根据接收到的序列信息生成检出后,该检出将中继回网络05。在一些实施方式中,不仅在位置07处生成检出,而且还生成了关联诊断。检出和/或诊断然后通过网络传输并返回到样品收集位置01,如图5中所示。如所解释的,这只是与在各个位置之间如何划分与生成检出或诊断相关的各种操作的多种变体之一。一种常见的变体涉及在单个位置中提供样品收集、处理和测序。另一个变体涉及在与分析和检出生成相同的位置处提供处理和测序。
图6详细说明了在不同位置处执行各种操作的选项。在图6中所示的最细粒度的意义上,以下每个操作均在单独的位置处执行:样品收集、样品处理、测序、读序比对、检出、诊断和报告和/或计划制定。
在汇总这些操作中的一些操作的一个实施方案中,在一个位置中执行样品处理和测序,并且在单独的位置处执行读序比对、检出和诊断。参见图6中由参考字符A识别的部分。在图6中由字符B识别的另一种实施方式中,样品收集、样品处理和测序均在同一位置处执行。在该实施方式中,读序比对和检出在第二位置处执行。最后,在第三位置处执行诊断和报告和/或计划制定。在图6中用字符C描绘的实施方式中,样品收集在第一位置处执行,样品处理、测序、读序比对、检出和诊断都在第二位置处一起执行,并且报告和/或计划制定在第三位置处执行。最终,在图6中标记为D的实施方式中,样品收集在第一位置处执行,样品处理、测序、读序比对和检出都在第二位置处执行,并且诊断和报告和/或计划管理在第三位置处执行。
一个实施方案提供了一种用于分析无细胞DNA(cfDNA)中与肿瘤相关的简单核苷酸变体的系统,该系统包括用于接收核酸样品并提供来自核酸样品的核酸序列信息的测序仪;处理器;以及机器可读存储介质,包括用于在所述处理器上执行的指令,该指令包括:(a)用于接收从核酸样品获得并映射到一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的代码;(b)使用核酸序列读序确定一个或多个多态性基因座处的一个或多个等位基因的每个等位基因的等位基因计数的代码;以及(c)使用概率混合物模型编码以对核酸样品中一个或多个贡献者的核酸的一个或多个分数进行定量。在一些实施方式中,使用概率混合物模型包括将概率混合物模型应用于等位基因计数。概率混合物模型使用概率分布对一个或多个多态性基因座处的等位基因计数进行建模,该概率分布考虑了核酸序列读序中的错误。
在此提供的任何系统的一些实施方案中,测序仪被配置为执行下一代测序(NGS)。在一些实施方案中,测序仪被配置为使用通过可逆染料终止子的合成测序进行大规模并行测序。在其它实施方案中,测序仪被配置为执行连接测序。在其它实施方案中,测序仪被配置为执行单分子测序。
实验性
实例1
该实例使用从实际DNA混合物样品获得的数据来说明,与不使用在此公开的概率方法的常规技术相比,一些实施方式在定量DNA混合物样品时可以提供更高的准确性和可靠性,以及更低的经验偏差。
DNA混合物样品包括来自基因组(贡献者)的两个DNA,并且在不同样品中的次要分数是0.1%、0.2%、0.4%和2%。一些样品包含3ng输入的DNA,并且其它样品包含10ng。样品以标记为Nack或Nack2的两种实验过程进行处理,以指示两种引物设计,其中两种设计的目标基因座数量不同。一些样品使用MiSeq测序平台处理,并且另一些样品使用MiniSeq平台处理。
使用三种不同方法分析样品数据。表2示出了使用各种样品和实验过程的三种不同方法的多个混合物分数的变异系数(CV,定义为standard_deviation_of_predictions/true_fraction)值的平均值以及多个混合物分数的变异系数+偏差值的平均值(CVB,通常表示为CV(RMSD)并定义为RMSD/true_fraction)。第一方法应用概率模型,该概率模型包括用于对序列错误进行建模的二项式分布。第一方法对应于上面描述为Seq模型的一些实施方式。第一方法(Seq)的数据示出在表8的第三行中。第二方法应用概率混合物模型,包括说明DNA提取错误、PCR扩增错误和测序错误的概率分布。第二方法对应于上面描述为“提取-PCR-Seq模型”的一些实施方式。表8的第四行示出了第二方法(EPS)的数据。
第三方法应用确定性线性回归模型来描述等位基因说明数据。估计数据的平方误差总和如下。
E=[ri-pi(β)]T·[ri-pi(β)]
其中r是观察到的等位基因分数,pi=G·β是基因座i的预期等位基因分数,它是β的线性函数,其中G是n个基因座和d个供者的基因型矩阵,并且β是未知贡献者分数的长度d的矢量。表8的第五行示出了第三方法(NaiveLM)的数据。
值得注意的是,在Seq或EPS方法中,并未使用贡献者的基因型信息来对贡献者分数进行定量,但在NaiveLM方法中却使用了它。尽管Seq方法和EPS方法不需要使用贡献者的基因型信息,但与NaiveLM方法相比较小的变异系数值所指示的,它们产生的结果更为可靠。此外,与NaiveLM方法相比较小的CVB值所指示的,Seq方法和EPS方法具有较低的偏差。表8中用粗体标出了这三种方法中的最优结果。简而言之,与线性回归方法相比,使用概率混合物模型的两种方法产生的结果更加可靠,准确且偏差较小。
表8。
实例2
图7A-7F示出了实例的结果,该实例使用了从实际DNA混合物样品获得的数据来说明一些实施方式可以有效地对DNA混合物样品进行定量和解卷积。该实例示出,一些实施方式可以为DNA混合物解卷积提供改善的信号水平。在该实例中,使用窄先验分析数据。
样品包括来自两个贡献者的DNA,各种样品具有这两个贡献者的60%-40%、75%-25%、90%-10%和95%-5%分数。样品分别对受试者NA12878和NA18507进行3次重复。
图7A示出了通过一些实施方式定量的主要贡献者分数(或在图中称为“主要频率”)。横轴示出主要贡献者的实际贡献者频率。纵轴示出通过概率混合物模型推断的主要贡献者分数(至最接近的2.5%)。数据表明,概率混合物模型提供的预测非常接近真实分数,如位于标识线附近的数据点所示。
图7B示出了如由概率混合物模型针对四个子图中的四个不同等位基因所预测的主要贡献者和次要贡献者的基因型。左侧的两个子图示出了从75-25贡献者分数的样品中获得的结果。右侧的两个子图示出了从60-40分数混合物样品中获得的结果。横轴指示基因座处不同等位基因的标志物。纵轴示出基因座的等位基因计数。该模型预测的所有基因型都是正确的,例外之处在于左上子图中示出的基因座D4S2408处次要贡献者的一个等位基因。在该基因座处,真正的次要贡献者的基因型是(10,10),但是模型预测它是(8,10)。有趣的是,对于次要贡献者,该基因座预测的置信度处于相对较低的水平68.6%。在该实例中,可以通过将检出标准设定为高于70%来消除错误预测。
图7C示出了贡献者基因型正确和不正确检出的数量。横轴示出了主要贡献者的实际贡献者分数(在图中标记为“主要频率”)。纵轴示出正确和不正确检出的数量。“x”符号示出主要贡献者的数据,并且圆圈符号示出次要贡献者的数据。黑色符号示出正确的检出,而灰色符号表示不正确的检出的数据。28处的水平线指示理论上最大的正确检出。图7C示出了以90%置信度的阈值进行的检出的数据。图7C的数据示出,不同贡献者分数之间正确的检出数量相对较高,而错误的检出相对较低,并且始终低于5。图7C还示出,随着贡献者分数从60%上升到95%,对主要贡献者的正确要求增加,并接近理论最大值。
图7D示出了使用相同数据但是99%的较高检出标准的正确和不正确的检出。同样,在不同的主要贡献者分数中,正确的检出数量始终很高,而错误的检出数量则相对较低并且始终低于5。因为图7D中的检出标准高于图7C中的标准,所以正确的检出和不正确的检出都具有较低的数量。但是,90%和95%分数的主要贡献者的正确检出仍然很高,并且接近理论最大值。
图7E示出了与图7C和7D相似的数据,例外之处在于检出标准增加到99.9%。由于更高的检出阈值,正确和错误检出的数量略低于图7D的结果。重要的是,在该置信度水平上没有错误的检出,例外之处在于已知原因而偏离模型假设的三个基因座。在分析中可以避免这些基因座。除这些情况外,模型从未将高置信度归因于错误的检出。因此,它正在适当地对基因型检出中的不确定性进行定量。
图7C-7E的结果示出,概率混合物模型可以准确地确定贡献者的基因型。基于不同应用中的不同需求,可以采用不同的检出标准值来实现所需的敏感性和选择性。
图7F示出关于DNA混合物样品中是否包含已知贡献者的DNA的正确和不正确的检出数量。横轴示出了主要贡献者的实际贡献者分数(标记为“真实主要频率”)。纵轴示出了样品包括基因型的每基因座的证据值。“x”符号示出主要贡献者的数据,并且圆圈符号示出次要贡献者的数据。图7F的数据示出,存在样品包括两个贡献者的相对高水平的证据。毫不奇怪,当主要贡献者的分数为90%和95%时,次要贡献者的证据水平相对较低。
实例3
图8A-8D示出了使用模拟数据来说明一些实施方式可以有效地对DNA混合物样品进行定量和解卷积的一个实例的结果。该实例示出,一些实施方式可以为DNA混合物解卷积提供改善的信号水平。
模拟具有四种不同的设计:简单2-贡献者(80-20);困难-2贡献者(55-45);简单3-贡献者(60-30-10);以及困难3-贡献者(50-30-20)。简单设计具有比困难设计要大的贡献者分数。
模拟包括50个基因座和6个等位基因的数据。等位基因平衡取决于:原始样品中的分子数量(固定:6000)、平均分子检出率(固定为10%;即平均检测到600个分子的基因座)、分子检出率的等位基因对等位基因变化(超过范围变化)以及采样噪声。卡顿率模拟为1%或2%,并且漏失率为1%。假设获得广泛的先验结果。
对于简单3-贡献者(60-30-10)混合物样品,所有贡献者频率均被推断为真实值的2.5%以内。对于困难3-贡献者(50-30-20)混合物样品,所有贡献者频率均推断为真实值的7.5%以内。
图8A-8D示出了简单3-贡献者(60-30-10)混合物样品的数据。图8A示出了贡献者基因型正确和错误检出的数量。横轴示出主要贡献者的等位基因平衡。纵轴示出正确和不正确检出的数量。黑色符号示出为1%的卡顿率数据,并且灰色符号示出为2%的卡顿率数据。实线示出正确的检出,而虚线示出不正确的检出的数据。图8A示出了以90%置信度的阈值进行的检出的数据。图8A的数据示出,在不同等位基因平衡值上正确的检出的数量相对较高,而错误的检出始终接近零。
图8B示出使用与图8A相同的数据但是更高检出标准为99%的正确和不正确的检出。正确检出的数量显著低于图8A中的数量,而错误检出的数量已降至最低,这指示该应用中99%的阈值可能太严格。图8C示出了与图8A和8B类似的数据,例外之处在于检出标准增加到99.9%。由于更高的检出阈值,正确检出的数量会进一步减少。图3A-3C的结果示出,概率混合物模型可以准确地确定贡献者的基因型,并且在该实例中,合适的阈值可以设定为接近90%或小于99%。
图8D示出了有关DNA混合物样品中是否包括三个贡献者之一的正确和不正确的检出的数量。横轴示出主要贡献者的等位基因平衡。纵轴示出样品包含基因型的每个基因座的证据值。实线示出了1%的卡顿错误数据,虚线示出了2%的卡顿错误数据。三种不同的灰色阴影示出了三个不同贡献者的数据。图8D的数据示出,存在包括样品包括两种卡顿错误条件的三个贡献者的相对高水平的证据。

Claims (44)

1.一种在包括一个或多个处理器和系统存储器的计算机系统处实现的对包含一个或多个贡献者的核酸的核酸样品进行定量的方法,所述方法包括:
(a)由所述计算机系统接收从所述核酸样品获得并被映射到一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序;
(b)使用所述核酸序列读序并由所述一个或多个处理器确定在所述一个或多个多态性基因座处的所述一个或多个等位基因中的每一个等位基因的等位基因计数;
(c)使用概率混合物模型,其将概率混合物模型应用于所述等位基因计数,并使用概率分布来对所述一个或多个多态性基因座处的等位基因计数进行建模,所述概率分布考虑了所述核酸序列读序中的错误;
(d)使用所述概率混合物模型并由所述一个或多个处理器对所述核酸样品中的所述一个或多个贡献者的核酸的一个或多个分数进行定量;
(e)确定所述一个或多个贡献者中特定贡献者具有特定基因型的后验概率;以及
(f)基于所述后验概率,呼叫出所述核酸样品包括来自所述特定贡献者的核酸。
2.根据权利要求1所述的方法,其中,所述一个或多个贡献者包含两个或更多个贡献者。
3.根据权利要求1所述的方法,进一步包括确定所述一个或多个贡献者中的贡献者的总数。
4.根据权利要求1所述的方法,其中,所述一个或多个贡献者的一种或多种基因型是未知的。
5.根据权利要求4所述的方法,进一步包括在所述一个或多个多态性基因座的每一个多态性基因座处确定一个或多个等位基因构型,每个等位基因构型包含针对所述一个或多个贡献者中的每一个贡献者的两个或更多个等位基因的等位基因状态。
6.根据权利要求5所述的方法,进一步包括确定所述一个或多个等位基因构型的估计概率。
7.根据权利要求1所述的方法,其中,获得所述一个或多个贡献者中的特定贡献者具有特定基因型的所述后验概率包括:
(i)将基因型构型的先验概率与所述基因型构型的似然度相乘;
(ii)通过基因型空间上的总和对(i)的乘积进行归一化;以及
(iii)对包含所述特定基因型的基因型构型求和以获得所述后验概率。
8.根据权利要求1所述的方法,其中,所述特定基因型包含多个基因座基因型,所述方法进一步包括:
在所有贡献者中,对贡献者在所有基因座处都具有所述特定基因型的后验概率进行求和;以及
基于所求和的概率确定所指定的多个基因座基因型出现在任何贡献者中。
9.根据权利要求8所述的方法,其中,所述核酸样品是法医样品,并且所述多个基因座基因型的所述数据从感兴趣的人获得,所述方法进一步包括确定所述感兴趣的人是所述核酸样品的贡献者。
10.根据权利要求1所述的方法,其中,所述核酸样品包含DNA分子和/或RNA分子。
11.根据权利要求10所述的方法,其中,通过使用独特的分子索引对所述DNA分子和/或RNA分子测序来获得所述核酸序列读序。
12.根据权利要求1所述的方法,其中,所述概率分布包含第一二项式分布。
13.根据权利要求12所述的方法,其中,所述第一二项式分布表示如下:
nij~BN(ni,pij)
其中
nij是基因座i处等位基因j的等位基因计数;
ni是基因座i处的总等位基因计数;以及
pij是概率参数,指示基因座i处等位基因j的所述概率。
14.根据权利要求13所述的方法,其中,所述概率参数pij是以下函数:
(i)所述核酸样品中所述一个或多个贡献者之一的核酸分数,或β;
(ii)所述一个或多个贡献者的基因型,或G;和/或
(iii)所述核酸序列读序中的错误,或θ。
15.根据权利要求14所述的方法,其中,所述概率混合物模型使用贝塔分布来对所述核酸序列读序中的所述错误进行建模。
16.根据权利要求15所述的方法,其中,所述贝塔分布由均值参数μ和浓度参数k定义。
17.根据权利要求16所述的方法,其中,所述浓度参数具有表示不同噪声状况的先验,并且所述浓度参数在基因座上变化。
18.根据权利要求15所述的方法,其中,(c)包括组合所述第一二项式分布和所述贝塔分布以获得遵循贝塔-二项式分布的nij的边缘分布。
19.根据权利要求18所述的方法,其中,所述贝塔-二项式分布具有以下形式:
BB(nij|ni,μ,k)。
20.根据权利要求1所述的方法,其中,(c)包括通过使所述核酸序列读序的似然函数最大化来对所述核酸样品中的所述一个或多个贡献者的核酸的一个或多个分数进行定量。
21.根据权利要求20所述的方法,其中,(c)包括:
使用多个潜在分数值和在(b)中确定的所述等位基因计数的似然函数来计算多个似然值;
识别与最大似然值相关联的潜在分数矢量;以及
使用所识别的潜在分数矢量,来对所述核酸样品中所述一个或多个贡献者的核酸的所述一个或多个分数进行定量。
22.根据权利要求20所述的方法,其中,所述似然函数取决于P(G|π),所述P(G|π)是给定群体等位基因频率(π)时所述一个或多个贡献者的所述基因型的先验概率。
23.根据权利要求22所述的方法,其中,使用满足哈迪-温伯格平衡的边缘分布来计算所述先验概率P(G|π)。
24.根据权利要求22所述的方法,其中,所述先验概率是考虑具有代表机制漏失的固定的先验概率的虚拟等位基因而计算的。
25.根据权利要求12所述的方法,其中,所述概率混合物模型使用第二二项式分布来对所述等位基因数据中的卡顿错误建模。
26.根据权利要求25所述的方法,其中,所述第二二项式分布表示如下:
sik~BN(ni(k+1),ri)
其中
sik是卡顿等位基因的基因座i处的卡顿等位基因计数,所述等位基因计数看似是等位基因k,但实际上由等位基因k+1的卡顿错误引起;
ni(k+1)是基因座i处等位基因k+1的原始等位基因计数;以及
ri是基因座i的卡顿率。
27.根据权利要求26所述的方法,其中,所述卡顿率r在基因座上变化并且具有表示不同噪声状况的先验,所述先验在基因座上被共享。
28.根据权利要求26所述的方法,其中(c)包括使用似然函数来对所述核酸样品中所述一个或多个贡献者的核酸分数进行定量,所述似然函数包括非卡顿等位基因计数的似然度和卡顿等位基因计数的似然度的乘积。
29.根据权利要求26所述的方法,其中,(c)包括当确定可能潜在地引起卡顿的分子数量时,将固定数量的分子添加到分配给等位基因k+1的等位基因计数。
30.根据权利要求1所述的方法,其中,所述概率混合物模型使用虚拟样品外等位基因来对自然漏失进行建模。
31.根据权利要求30所述的方法,其中,所述虚拟样品外等位基因的所述先验与未观察到的等位基因的数量成比例。
32.根据权利要求31所述的方法,其中,未观察到的等位基因的数量通过以下方式估计:
在观察到的最短和最长的整数值等位基因之问插入所有整数,
添加任何观察到的非整数值等位基因,以及
返回最大结果值和阈值。
33.根据权利要求1所述的方法,其中(c)包括从用于对所述核酸样品中所述一个或多个贡献者的核酸的所述分数进行定量的数据中修剪基因型构型。
34.根据权利要求33所述的方法,其中,修剪基因型构型包含:通过构建所需等位基因列表并排除不具有足够的贡献者来解释所有所需等位基因的基因座,从而限制看似合理的基因型构型。
35.根据权利要求34所述的方法,其中,所需等位基因的所述列表基本上由如下等位基因组成,所述等位基因具有高于阈值和由于卡顿插入而太高以致非看似合理的等位基因计数。
36.根据权利要求35所述的方法,其中,所述阈值是以下各项的总和:(i)最大非卡顿等位基因计数,以及(ii)与潜在的卡顿供者等位基因计数相乘的值。
37.根据权利要求33所述的方法,其中,修剪基因型构型包含:去除在所述等位基因数据与预期的等位基因计数之间具有较差匹配的基因型构型。
38.根据权利要求37所述的方法,其中,具有较差匹配的所述基因型构型具有大于一个或多个阈值的均方根误差(RMSE)值。
39.根据权利要求1所述的方法,其中,在所述一个或多个多态性基因座处的所述等位基因包含单核苷酸多态性(SNP)等位基因和/或短串联重复(STR)等位基因。
40.一种计算机系统,包含系统存储器和一个或多个处理器,其被配置为:
(a)接收从核酸样品获得并被映射到一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序;
(b)使用所述核酸序列读序,确定在所述一个或多个多态性基因座处的所述一个或多个等位基因的每一个等位基因的等位基因计数;
(c)使用概率混合物模型,其将概率混舍物模型应用于所述等位基因计数,并使用概率分布来对所述一个或多个多态性基因座处的所述等位基因计数进行建模,所述概率分布考虑了所述核酸序列读序中的错误;
(d)使用所述概率混合物模型对所述核酸样品中的所述一个或多个贡献者的核酸的一个或多个分数进行定量;
(e)确定所述一个或多个贡献者中特定贡献者具有特定基因型的后验概率;以及
(f)基于所述后验概率,呼叫出所述核酸样品包括来自所述特定贡献者的核酸。
41.根据权利要求40所述的系统,进一步包括用于从所述核酸样品中提取核酸的工具。
42.根据权利要求40所述的系统,所述一个或多个处理器进一步被配置为确定所述一个或多个贡献者中的贡献者的总数。
43.根据权利要求40所述的系统,所述一个或多个处理器进一步被配置为确定在所述一个或多个多态性基因座的每一个多态性基因座处的等位基因构型,所述等位基因构型包含针对所述一个或多个贡献者中的每一个贡献者的两个或更多个等位基因的等位基因状态。
44.一种存储程序代码的非暂态计算机可读介质,所述程序代码在由计算机系统的一个或多个处理器执行时,使所述计算机系统实施一种对包含一个或多个贡献者的核酸的核酸样品进行定量的方法,所述程序代码包含:
(a)用于接收从核酸样品获得并被映射到一个或多个多态性基因座处的一个或多个等位基因的核酸序列读序的代码;
(b)用于使用所述核酸序列读序,确定在所述一个或多个多态性基因座处的所述一个或多个等位基因的每一个等位基因的等位基因计数的代码;
(c)用于使用概率混合物模型的代码,其将概率混合物模型应用于所述等位基因计数,并使用概率分布来对所述一个或多个多态性基因座处的所述等位基因计数进行建模,所述概率分布考虑了所述核酸序列读序中的错误;
(d)用于使用所述概率混合物模型对所述核酸样品中的所述一个或多个贡献者的核酸的一个或多个分数进行定量的代码;
(e)用于确定所述一个或多个贡献者中特定贡献者具有特定基因型的概率的代码;以及
(f)用于基于所述后验概率,呼叫出所述核酸样品包括来自所述特定贡献者的核酸的代码。
CN201880041562.7A 2017-06-20 2018-06-19 来自未知基因型贡献者的dna混合物的精确计算分解的方法 Pending CN110770839A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762522618P 2017-06-20 2017-06-20
US62/522,618 2017-06-20
PCT/US2018/038222 WO2018236827A1 (en) 2017-06-20 2018-06-19 METHODS FOR ACCURATE COMPUTATIONAL DECOMPOSITION OF DNA MIXTURES FROM UNKNOWN GENOTYPIC CONTRIBUTORS

Publications (1)

Publication Number Publication Date
CN110770839A true CN110770839A (zh) 2020-02-07

Family

ID=62875309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880041562.7A Pending CN110770839A (zh) 2017-06-20 2018-06-19 来自未知基因型贡献者的dna混合物的精确计算分解的方法

Country Status (10)

Country Link
US (1) US11990208B2 (zh)
EP (1) EP3642744A1 (zh)
JP (1) JP7009516B2 (zh)
KR (1) KR102543270B1 (zh)
CN (1) CN110770839A (zh)
AU (1) AU2018289385B2 (zh)
CA (1) CA3067418C (zh)
IL (1) IL271147A (zh)
SG (1) SG11201911530RA (zh)
WO (1) WO2018236827A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112342303A (zh) * 2020-12-04 2021-02-09 郑州高新生物技术有限公司 一种基于ngs的人类y染色体str和snp遗传标记联合检测体系及检测方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015229083B2 (en) 2014-03-14 2021-06-17 Caredx, Inc. Methods of monitoring immunosuppressive therapies in a transplant recipient
KR102543270B1 (ko) 2017-06-20 2023-06-13 일루미나, 인코포레이티드 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법
EP4162071A2 (en) * 2020-06-05 2023-04-12 Sirona Genomics, Inc. Methods of identifying markers of graft rejection
WO2022076574A1 (en) * 2020-10-08 2022-04-14 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid
WO2022197591A1 (en) * 2021-03-16 2022-09-22 University Of North Texas Health Science Center At Fort Worth Forensic dna mixture interpretation with single-cell profiling

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120264121A1 (en) * 2011-04-12 2012-10-18 Verinata Health, Inc. Resolving genome fractions using polymorphism counts
US20130196862A1 (en) * 2009-07-17 2013-08-01 Natera, Inc. Informatics Enhanced Analysis of Fetal Samples Subject to Maternal Contamination
US20150051087A1 (en) * 2010-05-18 2015-02-19 Natera, Inc. Methods for non-invasive prenatal ploidy calling

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1578994A2 (en) 2002-11-11 2005-09-28 Affymetrix, Inc. Methods for identifying dna copy number changes
WO2007145612A1 (en) 2005-06-06 2007-12-21 454 Life Sciences Corporation Paired end sequencing
EP3012760A1 (en) 2005-11-26 2016-04-27 Natera, Inc. System and method for cleaning noisy genetic data and using data to make predictions
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
CN101889074A (zh) 2007-10-04 2010-11-17 哈尔西恩莫尔丘勒公司 采用电子显微镜对核酸聚合物测序
CN102171697A (zh) * 2008-08-08 2011-08-31 纳维哲尼克斯公司 用于个性化行动计划的方法和系统
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
EP2678451B1 (en) 2011-02-24 2017-04-26 The Chinese University Of Hong Kong Molecular testing of multiple pregnancies
WO2014014498A1 (en) 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
WO2013130848A1 (en) 2012-02-29 2013-09-06 Natera, Inc. Informatics enhanced analysis of fetal samples subject to maternal contamination
CN204440396U (zh) 2012-04-12 2015-07-01 维里纳塔健康公司 用于确定胎儿分数的试剂盒
KR101850437B1 (ko) 2015-04-14 2018-04-20 이원다이애그노믹스(주) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
KR102487135B1 (ko) 2017-06-20 2023-01-10 일루미나, 인코포레이티드 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
KR102543270B1 (ko) 2017-06-20 2023-06-13 일루미나, 인코포레이티드 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130196862A1 (en) * 2009-07-17 2013-08-01 Natera, Inc. Informatics Enhanced Analysis of Fetal Samples Subject to Maternal Contamination
US20150051087A1 (en) * 2010-05-18 2015-02-19 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US20120264121A1 (en) * 2011-04-12 2012-10-18 Verinata Health, Inc. Resolving genome fractions using polymorphism counts

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
R. G. COWELL, ET AL: "Analysis of forensic DNA mixtures with artefacts", APPL. STATIST. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112342303A (zh) * 2020-12-04 2021-02-09 郑州高新生物技术有限公司 一种基于ngs的人类y染色体str和snp遗传标记联合检测体系及检测方法

Also Published As

Publication number Publication date
US20220262460A1 (en) 2022-08-18
WO2018236827A1 (en) 2018-12-27
KR102543270B1 (ko) 2023-06-13
KR20200010463A (ko) 2020-01-30
JP7009516B2 (ja) 2022-01-25
NZ759473A (en) 2021-10-29
CA3067418A1 (en) 2018-12-27
JP2020530261A (ja) 2020-10-22
SG11201911530RA (en) 2020-01-30
CA3067418C (en) 2022-08-16
IL271147A (en) 2020-01-30
AU2018289385A1 (en) 2019-12-12
AU2018289385B2 (en) 2022-01-20
EP3642744A1 (en) 2020-04-29
US11990208B2 (en) 2024-05-21

Similar Documents

Publication Publication Date Title
US20200251180A1 (en) Resolving genome fractions using polymorphism counts
CN106795558B (zh) 检测胎儿亚染色体非整倍性和拷贝数变异
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
KR102487135B1 (ko) 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
KR102543270B1 (ko) 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법
US20190172582A1 (en) Methods and systems for determining somatic mutation clonality
NZ759784A (en) Liquid sample loading
NZ759784B2 (en) Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes
NZ759848B2 (en) Liquid sample loading
NZ759848A (en) Method and apparatuses for screening

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination