CN107111692A

CN107111692A - 用于计算经校正扩增子覆盖度的方法、系统及计算机可读媒体

Info

Publication number: CN107111692A
Application number: CN201580054718.1A
Authority: CN
Inventors: J·维奇; 展逸屏
Original assignee: Life Technologies Corp
Current assignee: Life Technologies Corp
Priority date: 2014-10-10
Filing date: 2015-10-09
Publication date: 2017-08-29
Anticipated expiration: 2035-10-09
Also published as: WO2016057902A1; EP3204882A1; EP3204882A4; US20160103957A1; CN107111692B; US20210358572A1; US11094398B2

Abstract

本发明公开用于计算经校正扩增子覆盖度的方法、系统及计算机可读媒体。一种方法包含：将基于疑具有一或多个遗传畸变的样品的经扩增靶区域的多个扩增子的多个读段映射到包含对应于所述经扩增靶区域的一或多个核酸序列的参考序列；计算扩增子覆盖度及总读段，其中扩增子覆盖度为映射到扩增子的多个读段，且总读段为多个经映射读段；及经由应用分批效果校正基于所述计算出的扩增子覆盖度及所计算出的总读段计算经校正扩增子覆盖度。

Description

用于计算经校正扩增子覆盖度的方法、系统及计算机可读媒体

相关申请案的交叉参考

本申请案主张于2014年10月10日申请的题为“用于识别拷贝数变异的系统和方法”的美国临时申请案第62/062,312号的35U.S.C.§119(e)下的优先权，前述申请案的内容在此以全文引用的方式并入本文中。

技术领域

本发明大体上涉及核酸测序的领域，其包含用于计算经校正扩增子覆盖度，并且更具体地说，基于经校正扩增子覆盖度识别拷贝数变异的系统、方法和计算机可读媒体。

背景技术

完成人类基因组计划之后，测序行业的一个焦点已经转换以发现更高的通量及/或降低核酸测序技术(有时称作“下一代”测序(“NGS”)技术)的成本。在增大测序的通量及/或减小测序的成本上，制定更易获得所述技术的目标。可以通过使用向具有相当大复杂度的样品提供样品制备、同时对较大数目的样品进行测序(例如通过使用条码和多重分析)和/或有效地处理大量信息且以及时方式完成分析的测序平台和方法而达到此目标及其它。进化形成各种方法，例如合成测序、杂交测序以及连接测序来满足这些挑战。

并入NGS技术的超高通量核酸测序系统通常产生大量短序列读段。序列处理方法应合意地快速且有效地汇编和/或映射大量读段，以使计算资源的使用降到最低。举例来说，由对哺乳动物基因组测序产生的数据可以产生数千万或数亿读段，所述读段在其可以进一步进行分析以确定其生物、诊断和/或治疗相关性之前通常需要加以汇编。

NGS技术的示范性应用包括(但不限于)：基因组变异体检测(例如，插入/缺失、拷贝数变异、单核苷酸多态性等)；基因组重测序；基因表达分析；以及基因组剖析。

拷贝数变异(“CNV”)可以指示大规模染色体重排(例如，大型插入或缺失)，其可以通常发现于癌组织中。在一些情况下，可丢失及/或复制(整个染色体非整倍体)，这是遗传病(例如，唐氏综合症(21三体综合症)、猫眼综合症(22三体综合症)、威廉斯综合症(7单染色体症)以及各种其它遗传病)的常见原因。识别拷贝数变异可以帮助理解和判断癌症和非整倍体遗传病。

从前述内容可理解，需要可识别且确定拷贝数变异的系统和方法。

发明内容

实施例公开用于经校正扩增子覆盖度的设备、方法、系统和计算机可读媒体。在多个实施方案中例示下列方法、系统、计算机可读媒体和装置，所述多个实施方案中的一些在下文及整个说明书中加以概述。

在本发明的一个方面中，公开用于计算经校正扩增子覆盖度的计算机实施的方法。一个方法包括：将基于疑具有一或多个遗传畸变的样品的经扩增靶区域的多个扩增子的多个读段映射到参考序列，所述参考序列包含对应于所述经扩增靶区域的一或多个核酸序列；计算扩增子覆盖度及总读段，其中扩增子覆盖度为映射到扩增子的多个读段，且总读段为多个经映射读段；及经由应用分批效果校正基于所计算出的扩增子覆盖度及所计算出的总读段计算经校正扩增子覆盖度。

在本发明的一个方面中，公开用于计算经校正扩增子覆盖度的系统。一个系统包含：存储用于计算经校正扩增子覆盖度的指令系统的数据存储装置；及经配置以执行所述指令以执行包含以下各者的方法的处理器：将基于疑具有一或多个遗传畸变的样品的经扩增靶区域的多个扩增子的多个读段映射到参考序列，所述参考序列包含对应于所述经扩增靶区域的一或多个核酸序列；计算扩增子覆盖度及总读段，其中扩增子覆盖度为映射到扩增子的多个读段，且总读段为多个经映射读段；及经由应用分批效果校正基于所计算出的扩增子覆盖度及所计算出的总读段而计算经校正扩增子覆盖度。

在本发明的一个方面中，公开存储当由计算机执行时使得计算机执行用于计算经校正扩增子覆盖度的方法的指令的非暂时性计算机可读媒体。非暂时性计算机可读媒体的方法包含：将基于疑具有一或多个遗传畸变的样品的经扩增靶区域的多个扩增子的多个读段映射到参考序列，所述参考序列包含对应于经扩增靶区域的一或多个核酸序列；计算扩增子覆盖度及总读段，其中扩增子覆盖度为映射到扩增子的多个读段，且总读段为多个经映射读段；及经由应用分批效果校正基于所计算出的扩增子覆盖度及所计算出的总读段计算经校正扩增子覆盖度。

所公开的实施例的额外目的和优点将在以下描述中部分阐述，且部分将从所述描述显而易见，或可通过实践所公开的实施例习得。所公开的实施例的目的和优点将借助于所附权利要求书中特别指出的元件和组合来实现和获得。

应理解，前文总体描述以及以下详细描述都仅仅是示范性以及说明性的，并且不限制所公开的实施例的范围，如权利要求书所阐述。

附图说明

并入到说明书中并且形成说明书的一部分的随附图式说明一个或多个示范性实施例并且用以解释各个示范性实施例的原理。图式仅是示范性及说明性的，并且不应理解为以任何方式限制或约束。

图1描绘根据本发明的各种实施例的说明示范性计算机系统的框图；

图2描绘根据本发明的各种实施例的用于确定核酸序列的示范性系统的示意图；

图3描绘根据本发明的各种实施例的示范性基因分析系统的示意图；

图4描绘说明根据本发明的各种实施例的确定分批效果值的示范性方法的流程图；

图5描绘根据本发明的各种实施例的说明识别拷贝数变异的示范性方法的流程图；

图6描绘根据本发明的各种实施例的说明基因组座标的成对差长度的曲线；

图7A至7E描绘根据本发明的各种实施例的具有各种MAPD值的基因组数据的实例；

图8A描绘根据本发明的各种实施例的说明GC含量的已知技术效果的影响的曲线；

图8B描绘根据本发明的各种实施例的说明扩增子长度的已知技术效果对扩增子读段计数的影响的曲线；

图9描绘根据本发明的各种实施例的说明分多批进行的对实验的技术效果及分批效果的校正的应用的MAPD曲线；

图10描绘根据本发明的各种实施例的说明分多批进行的对实验的技术效果及分批效果的校正的应用的MAPD曲线；

图11描绘根据本发明的各种实施例的说明来自应用技术效果及分批效果的校正的改善的曲线；

图12描绘根据本发明的各种实施例的说明来自应用技术效果及分批效果的校正的改善的曲线；

图13A至13E描绘根据本发明的各种实施例的说明具有或不具有分批效果校正的实例样品的比较的曲线；

图14A至14E描绘根据本发明的各种实施例的说明具有及不具有分批效果校正的实例样品的比较的曲线；

图15A至15E描绘根据本发明的各种实施例的说明具有及不具有分批效果校正的实例样品的比较的曲线；

图16A至16E描绘根据本发明的各种实施例的说明具有及不具有分批效果校正的实例样品的比较的曲线；

图17描绘根据本发明的各种实施例的说明以来自基因组区域集特指的阳离子过氧化酶过度表达子3(“OCP3”)的多批进行的对实验应用技术效果及分批效果的校正的MAPD曲线；

图18描绘根据本发明的各种实施例的说明从对来自基因组区域集合特指的OCP3应用技术效果及分批效果的校正的改善的曲线；

图19A及19B描绘根据本发明的各种实施例的说明经及不经预预处理的实例样品的比较的曲线；

图20A及20B描绘根据本发明的各种实施例的说明经及不经预预处理的实例样品的比较的曲线；

图21A及21B描绘根据本发明的各种实施例的说明经及不经预预处理的实例样品的比较的曲线；

图22A及22B描绘根据本发明的各种实施例的说明经及不经预预处理的实例样品的比较的曲线；

图23A及23B描绘根据本发明的各种实施例的说明具有及不具有分批效果校正的实例样品的比较的曲线；及

图24A及24B描绘根据本发明的各种实施例的说明具有及不具有分批效果校正的实例样品的比较的曲线。

应理解，图式不一定按比例绘制，图式中的对象也不一定相对于彼此按比例绘制。图式是意图为本文所公开的设备、系统和方法的各种实施例带来清晰性和理解的描绘。在可能的情况下，将在整个图式中使用相同参考编号来指代相同或相似部分。此外，应了解，附图并不打算以任何方式限制本教示内容的范围。

具体实施方式

以下描述及本文所描述的各种实施例仅为示范性及解释性的，且不经解释为以任何方式限制或限定性。本发明教示的其它实施例、特征、目的及优点将从实施方式及随附图式，及从权利要求显而易见。在实施例章节的此具体描述中，出于解释的目的，阐述许多特定细节以提供所公开的实施例的透彻理解。然而，所属领域的技术人员将了解，这些各种实施例可以在具有或不具有这些特定细节的情况下实践。在其它情况下，结构和装置以框图形式显示。此外，所属领域的技术人员可以容易地了解，用以呈现和执行方法的具体顺序为说明性的，且预期所述顺序可以改变且仍保持在本文中所公开的各种实施例的精神和范围内。

用于检测拷贝数变异的系统和方法的实施例描述于本文中。

本文所用的章节标题仅用于组织目的并且不应理解为以任何方式限制所描述的主题。

本申请中引用的所有文献和类似材料(包括但不限于专利、专利申请、文章、书籍、论文和因特网网页)明确以全文引用的方式并入用于任何目的。除非另外描述，否则本文所用的所有技术和科学术语具有与本文所描述的各种实施例所属的领域的一般技术人员通常所了解相同的含义。

应了解，在本发明中论述的温度、浓度、倍数、碱基数目、覆盖度等之前存在隐含的“约”，使得略微和非实质偏差在本发明的范围内。在本发明中，除非另外具体陈述，否则单数的使用包含复数。此外，“包括(comprise/comprises/comprising)”、“含有(contain/contains/containing)”和“包含(include/includes/including)”的使用并不打算是限制性的。应理解，前文大体描述以及以下详细描述仅是示范性及说明性的且未必限制本发明。

如本文所使用，“一(a或an)”也可指代“至少一个”或“一或多个”。另外，使用的“或(or)”为包含性的，使得当“A”真实、“B”真实，或“A”和“B”两者真实时，短语“A或B”真实。

此外，除非上下文另外需要，否则单数术语应包含复数并且复数术语应包含单数。一般来说，本文所描述的与细胞和组织培养、分子生物学以及蛋白质和寡核苷酸或聚核苷酸化学和杂交结合使用的命名法和技术为所属领域中众所周知并且常用的命名法和技术。标准技术用于例如核酸纯化和制备、化学分析、重组核酸和寡核苷酸合成。酶促反应和纯化技术根据制造商的说明书或如所属领域中通常所实现或如本文所描述来执行。本文中所述的技术和程序通常可根据所属领域中众所周知以及如本发明的说明书通篇中所引用和论述的各种一般性和较特定的参考文献中所述的常规方法来执行。参看例如Sambrook等人，《分子克隆：实验指南(Molecular Cloning:A Laboratory Manual)》(第三版,Cold SpringHarbor Laboratory Press,Cold Spring Harbor,N.Y.2000)。本文所描述的实验程序及技术及与其相连利用的命名法为在此项技术中熟知及常用的那些程序、技术及命名法。

在不同实施例中，扩增效率的现未知系统性差异(还被称作“分批效果”)可导致不同批次的样品之间的DNA的同一序列的扩增效率的变异。这些变异可为样品制备条件的差异(例如条件的差异，如在样品制备期间所使用的各种解决方案中的浓度及/或pH的变化，及/或温度的差异)的结果。这些变异也可起因于样品处置条件(如允许样品搁置隔夜对立即操作样品)的差异。

可检测分批效果且可使用主成分分析(“PCA”)移除分批效果。PCA为使用也可应用于靶向NGS分析的微阵列的拷贝数(“CN”)确定的技术。主成分分析可取决于三个假设。首先，对于PCA，可需要有具有已知拷贝数(例如，非肿瘤正常样品集)的较大或较小程度呈现这些分批效果的多个样品。其次，每一样品中的大多数基因组位置具有已知的拷贝数(例如，常染色体中2个，及性染色体中1个或2个)。最后，所述样品中的相邻位置很可能共享相同的拷贝数。正常样品集可用于探索分批效果，在此之后可经由估计分批效果的大小及校正及/或调整所述大小来校正及/或调整每一样品。在另一实施例中，非正常样品集可用于探索分批效果。

对于任何给定基因组位置，拷贝数的确定可取决于由那个位置处的DNA的底层拷贝数所确定的测得值。如果分析保留给定基因组位置处的输入样品中的DNA的相对拷贝数且读出为定量的，那么可在输入样品中确定拷贝数。

举例来说，对于单核苷酸多态性(“SNP”)微阵列，可存在输入DNA的片段，接着为线性扩增及定量荧光杂交读出，其中每一寡核苷酸探针具有到特定基因组位置中的DNA的特定结合。对于多重扩增分析，可存在输入DNA的特定扩增子的PCR扩增及使用下一代测序仪(例如，Ion Torrent个人基因组机器(“Personal Genome Machine；PGM”))的最终产物的计数。每一基因组位置的扩增效率可由操作具有已知拷贝数(即，正常值)的样品集及由于已知共变量(例如，鸟嘌呤-胞嘧啶含量(“GC含量”))的每样品调节而凭经验计算，及/或可估计且考虑片段长度。

但是，可存在具有未知原因的其它分批效果。使用对样品集的主成分分析可用于探索此类分批效果。随后，可在每样品基础上经由估计每样品量值并将每样品量值减出而移除分批效果。此技术可对其大部分基因组位置经预期具有已知拷贝数的样品起作用。

在各种实施例中，扩增效率的变异可增大所确定拷贝数的批次间变率，导致较不可信的确定。针对分批效果应用校正可减小批次间变率且可改善拷贝数确定的可靠度。在各种实施例中，可通过对样品制备解决方案及条件施加严格的控制而避免一些分批效果，所述样品制备解决方案及条件可需要验证每一批样品制备试剂。对于分批效果的计算上校正可降低严格控制及试剂批次的验证的要求，借此减小与精确拷贝数确定相关联的时间及成本。此外，即使当除批次间试剂变率外的因素不是原因，计算上的技术可确保拷贝数确定的批次间一致性。

“系统”阐述组件集，其包括每一组件相互作用的整个组件集或涉及整个组件集内的至少一个其它组件。

“生物分子”可指通过生物有机体产生的任何分子，包括大聚合分子，如蛋白质、多糖、脂质和核酸(DNA和RNA)以及小分子，如初级代谢物、次级代谢物和其它天然产物。

短语“下一代测序”或NGS是指相比于传统的基于桑格(Sanger)和毛细电泳法的方法具有增加的通量，例如具有一次产生数十万相对较小序列读段的能力的测序技术。下一代测序技术的一些实例包括(但不限于)合成测序、连接测序以及杂交测序。更确切地说，生命技术公司(Life Technologies Corp.)的个人基因组机器(“PGM”)提供具有增强的精确性的大规模平行测序。PGM系统和相关工作流、协议、化学反应等更详细地描述于美国专利申请公开案第2009/0127589号和第2009/0026082号中，这些申请中的每一个的全部内容以引用的方式并入本文中。

短语“测序操作”是指经进行以确定与至少一个生物分子(例如核酸分子)相关的一些信息的测序实验的任何步骤或部分。

短语“碱基空间”是指核苷酸序列的表示。短语“流动空间”是指特定核苷酸流动的并入事件或非并入事件的表示。举例来说，流动空间可以是表示特定核苷酸流动的核苷酸并入事件(如一，“1”)或非并入事件(如零，“0”)的一系列值。具有非并入事件的核苷酸流可以称为空流，并且具有核苷酸并入事件的核苷酸流可以称为正流。应理解，零及一为非并入事件及核苷酸并入事件的方便表示。但是，可替代地使用任何其它符号或指示来表示及/或识别这些事件及非事件。确切地说，当多个核苷酸在给定位置并入时，如对于均聚物拉伸，值可以与核苷酸并入事件数目且因此与均聚物拉伸长度成比例。

脱氧核糖核酸(“DNA”)为由4种类型的核苷酸组成的核苷酸链；A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)，且核糖核酸(“RNA”)包括4种类型的核苷酸；A、U(尿嘧啶)、G和C。某些对的核苷酸以互补方式特定地彼此结合(还称作互补碱基配对)。也就是说，腺嘌呤(A)与胸腺嘧啶(T)配对(但是，在RNA的情况下，腺嘌呤(A)与尿嘧啶(U)配对)，并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链结合到由与第一链中的核苷酸互补的核苷酸组成的第二核酸链时，两个链结合以形成双链。如本文所用，“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读段”表示指示核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶以及胸腺嘧啶/尿嘧啶)在DNA或RNA分子(例如全基因组、全转录组、外显子组、寡核苷酸、聚核苷酸、片段等)中的排序的任何信息或数据。应理解，本发明教示涵盖使用包括(但不限于)以下各者的所有可用种类的技术、平台或技艺获得的序列信息：毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸识别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。

“聚核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键接合的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常，聚核苷酸包含至少三个核苷。通常，寡核苷酸的大小在几个单体单元(例如3-4个)到几百个单体单元范围内。每当聚核苷酸(如寡核苷酸)由一连串字母，如“ATGCCTG”表示时，应了解，除非另外指出，否则核苷酸按从左到右的5'->3'顺序并且“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，并且“T”表示胸苷。如在所属领域中标准的，字母A、C、G以及T可用于指碱基本身、核苷或包含碱基的核苷酸。

如本文所使用，“体细胞变异”或“体细胞突变”可指代基因序列的变异，包含由非生殖细胞中发生的突变产生的拷贝数变化的变异。变异可以通过有丝分裂传递到子细胞。这可以产生与有机体的其余细胞具有基因差异的一组细胞。另外，由于变异不出现于生殖细胞中，突变可能不被后代有机体继承。

如本文中所定义，“多重扩增”是指样品内的两种或多于两种靶序列使用至少一种靶特异性引物的选择性并且非随机的扩增。在一些实施例中，多重扩增可经执行，使得靶序列中的一些或全部在单一反应容器内扩增。给定多重扩增的“重数”或“重”通常是指在所述单一多重扩增期间扩增的不同靶特异性序列的数目。在一些实施例中，重数可以是约12重、24重、48重、96重、192重、384重、768重、1536重、3072重、6144重或更多重。

多重扩增方法：

在各种实施例中，可以对由扩增来自核酸分子群体的多个靶特异性序列产生的靶核酸测序。在一些实施例中，扩增可包含将一个或多个靶特异性引物对杂交到靶序列，延伸引物对的第一引物，使来自核酸分子群体的经延伸第一引物产物变性，将引物对的第二引物杂交到经延伸第一引物产物，延伸第二引物以形成双链产物，及远离双链产物消化靶特异性引物对来产生多个经扩增靶序列。

在一些实施例中，经扩增靶序列可以连接到一个或多个衔接子。在一些实施例中，衔接子可包含一个或多个DNA条形码或标记序列。在一些实施例中，经扩增靶序列一旦连接到接附子，可以经历切口平移反应和/或进一步扩增来产生衔接子连接的扩增靶序列库。多重扩增的示范性方法经描述于2012年11月22日公开的美国专利申请公开案第2012/0295819A1号(于2012年4月27日申请的美国申请第13/458,739号)且标题为“用于多重PCR的方法和组合物”中。

在各种实施例中，执行多重PCR扩增的方法可包含将具有正向及反向引物的多个靶特异性引物对与靶序列的群体相接触以形成多个模板/引物双螺旋体；将DNA聚合酶及dNTP的混合物添加到多个模板/引物双螺旋体，以用于在充足的时间及充足的温度下经由模板依赖性合成延伸每一靶特异性引物对中的正向或反向引物(或两者)借此产生多个经延伸引物产物/模板双螺旋体；将经延伸引物产物/模板双螺旋体变性；将来自靶特异性引物对的互补引物退火结合到经延伸引物产物；及在DNA聚合酶及dNTP的存在下延伸经退火结合的引物以形成多个靶特异性双链核酸分子。

接附子接合方法：

在本发明的一些实施例中，用于制备聚核苷酸构建体的库的方法可包含衔接子接合步骤。在一些实施例中，多个聚核苷酸片段可包含由杂交(例如，具有或不具有引物延伸反应)或酶接合(例如，接合酶反应)接合到一个或多个核酸衔接子以产生衔接子片断构建体的至少两个聚核苷酸片段。在一些实施例中，聚核苷酸片段的一端或两端可以接合到至少一种类型的核酸衔接子。聚核苷酸片段的一端或两端可以接合到至少一个核酸衔接子，包含带条形码的衔接子、测序引物衔接子、扩增引物衔接子、通用衔接子、阻断寡核苷酸衔接子和/或其它衔接子。

在一些实施例中，核酸衔接子可包含与测序引物(例如，P1、P2及/或A)、扩增引物、通用序列及/或条形码序列互补的核苷酸序列。举例来说，经释放配对构建体可在每一末端处接合到不同测序衔接子以制备用于具有SOLiD^TM测序反应(如PCT公开案第WO 2006/084131号中所公开)的测序或具有离子敏感测序反应(例如，来自生命技术公司的IonTorrentPGM^TM及Proton^TM测序仪，例如见美国专利申请公开案第2010/0301398号、第2010/0300895号、第2010/0300559号、第2010/0197507号、第2010/0137143号、第2009/0127589号；及第2009/0026082号，所述公开案以全文引用的方式并入)的核酸库。

带条形码的衔接子序列：

在本发明的一些实施例中，用于制备聚核苷酸构建体库的方法可包含将多个聚核苷酸片段的至少一端接合到具有条形码序列的核酸衔接子。条形码序列可以是用以识别聚核苷酸链和/或将其与其它聚核苷酸链(例如含有不同相关靶序列的聚核苷酸链)区分开的聚核苷酸链中的核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、肌苷或其类似物)的选择序列。在一些实施例中，条形码衔接子可包含独特识别序列(例如条形码序列)。条形码序列可以用于各种目的，如追踪、分选和/或识别样品。

由于不同条形码序列可以与不同聚核苷酸链相关，这些条码序列可以适用于不同样品的多重测序。在一些实施例中，条形码衔接子可以用于构建多重核酸库。在一些实施例中，一或多个条形码序列可以允许在具有不同条形码序列的不同衔接子的混合物之中识别特定衔接子。举例来说，混合物可包含2、3、4、5、6、7-10、10-50、50-100、100-200、200-500、500-1000或更多个具有唯一条形码序列的不同衔接子。具有条形码序列的各种衔接子的实例可发现于PCT公开案第WO 2012/044847号(PCT申请案第PCT/US2011/054053号)中，所述申请案以全文引用的方式并入。

在各种高通量DNA测序技术(如合成测序)中，可需要准许对汇集在一起用于同步分析的不同样品测序(有时称为多重测序)。

当进行多重测序时，一般需要识别每一样品的来源，且这可能需要测序数据对于每一样品去卷积。确切地说，可能需要单一地识别衍生自多重样品的序列数据的来源(例如以识别与不同样品群体相关的特定核酸种类)。促进样品识别的一个方法可为使用嵌入样品构建体内的唯一核酸识别符序列(条形码衔接子)以使得可恰当地识别测序数据或将测序数据与其来源样品相关联。

计算机执行系统：

图1描绘说明计算机系统100的框图，本发明教示的实施例可以在所述系统上实施。在各种实施例中，计算机系统100可包含总线102及/或其它传达信息的通信机构，及与总线102耦合用于处理信息的处理器104。在各种实施例中，计算机系统100还可包含可为耦合至总线102用于确定基站呼叫的随机存取存储器(“RAM”)及/或其它动态存储装置的存储器106，及待由处理器104执行的指令。存储器106也可用于在执行待通过处理器104执行的指令期间存储临时变量或其它中间信息。在各种实施例中，计算机系统100可进一步包含只读存储器(“ROM”)108及/或耦合至总线102用于存储用于处理器104的静态信息及指令的其它静态存储装置。存储装置110(例如，磁盘或光盘)可经提供且耦合到总线102以用于存储信息及指令。

在各种实施例中，处理器104可包含多个逻辑门。逻辑门可以包括“与”门(ANDgate)、“或”门(OR gate)、“非”门(NOT gate)、“与非”门(NAND gate)、“或非”门(NORgate)、“异或”门(EXOR gate)、“异非”门(EXNOR gate)或其任何组合。“与”门仅当所有输入较高时才产生高输出。如果输入中的一个或多个高，那么“或”门产生高输出。“非”门可以产生输入与输出的倒版，如当输入低时输出高值。“与非”门(NAND/NOT-AND)可以产生逆“与”输出，使得输出将在任何输入低时高。“或非”门(NOR/NOT-OR)可产生逆“或”输出，使得或非门输出在任何输入高时低。“异或”(EXOR/Exclusive-OR)门可以在任一输入，但并非两个输入高时产生高输出。“异非”(EXNOR/Exclusive-NOR)门可以产生逆“异或”输出，使得输出在任一输入，但并非两个输入高时低。

表1：逻辑门真值表

所属领域的技术人员将了解，逻辑门可以各种组合使用以进行比较、运算操作等。另外，所属领域的技术人员将了解如何对使用逻辑门的各种组合排序以进行复杂过程，如本文所描述的过程。

在一个实例中，可以使用“同或”门(XNOR gate)进行1位二进制比较，因为结果仅在两个输入相同时高。可通过使用多个“同或”门比较每个位对，及使用“与”门合并“同或”门的输出而执行两个多位值的比较，使得结果仅当每个位对具有相同值时可为真。如果任何位对不具有相同值，那么对应“同或”门的结果可能低，且接收低输入的“与”门的输出可能低。

在另一实例中，1位加法器可以使用“与”门和“异或”门的组合实施。确切地说，1位加法器可以接收三个输入，两个待相加的位(A和B)和进位位(Cin)，和两个输出，总和(S)和进位输出位(Cout)。Cin位可以对于两个一位值的相加设定为0，或可用于将多个1位加法器耦合在一起以通过从较低阶加法器接收Cout将两个多位值相加。在示范性实施例中，S可以通过将A和B输入应用到“异或”门，并且随后将结果和Cin应用到另一“异或”门而实施。Cout可以通过将A和B输入应用到“与”门，将来自总和的A-B“异或”的结果和Cin应用到另一“与”，且将“与”门的输入应用到“异或”门。

表2：1位加法器真值表

在各种实施例中，计算机系统100可经由总线102耦合到显示器112，例如，阴极射线管(“CRT”)或液晶显示器(“LCD”)，以用于向计算机用户显示信息。包括字母数字键和其它键的输入装置114可以耦合到总线102以用于传达信息和命令选择到处理器104。另一类型的用户输入装置为光标控制器116，如鼠标、轨迹球或光标方向键，其用于传达方向信息和命令选择到处理器104和控制显示器112上的光标移动。此输入装置可具有两个轴(第一轴(即，x)及第二轴(即，y))中的二自由度，所述自由度允许装置指定平面中的位置。

计算机系统100可以执行本发明教示。与本教示内容的某些实施方案一致，结果可以由计算机系统100响应于处理器104执行包含于存储器106中的一个或多个指令的一个或多个序列来提供。此类指令可以从另一计算机可读媒体(例如存储装置110)读取至存储器106中。执行包含于存储器106中的指令序列可使处理器104进行本文所描述的过程。在各种实施例中，存储器中的指令可以对处理器内可用的逻辑门的各种组合的使用排序以执行本文描述的过程。或者，可以使用硬连线电路代替或结合软件指令以实施本发明教示。在各种实施例中，硬连线电路可包含所需逻辑门，其以所需顺序操作以执行本文所描述的过程。因此，本发明的实施方案不限于硬件电路和软件的任何特定组合。

如本文所用的术语“计算机可读媒体”是指参与将指令提供到处理器104以供执行的任何媒体。此媒体可以呈许多形式，包括但不限于非易失性媒体、易失性媒体和传输媒体。非易失性媒体的实例可包含(但不限于)闪存、光盘及/或磁盘，例如存储装置110。易失性媒体的实例可以包含(但不限于)动态存储器，如存储器106。传输媒体的实例可以包含(但不限于)同轴电缆、铜线和光纤，包含包括总线102的电线。

非暂时性计算机可读媒体的常见形式包含(例如)软盘、软磁盘、硬盘、磁带、或任何其它磁性媒体、CD-ROM、任何其他光学媒体、穿孔卡片、纸带、具有孔洞图案的任何其它物理媒体、RAM、PROM和EPROM、闪存EEPROM、任何其它存储器芯片或盒带、如下文所描述的载波、或计算机可以从中进行读取的任何其它有形媒体。

根据各种实施例，经配置以由处理器执行以执行方法的指令可存储于计算机可读媒体上。计算机可读媒体可以是存储数字信息的装置。举例来说，计算机可读媒体可包含用于存储软件的如所属领域中已知的压缩光盘只读存储器(CD-ROM)。计算机可读媒体可由适用于执行经配置以经执行的指令的处理器存取。

核酸测序平台：

可使用各种技术、平台及/或技艺产生核酸序列数据，包含(但不限于)：毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸识别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。

核酸测序平台的各种实施例，如核酸测序仪可包含如图2的框图中显示的组件。根据各种实施例，测序仪器200可包含流体递送和控制单元202、样品处理单元204、信号检测单元206以及数据采集、分析和控制单元208。用于下一代测序的仪器、试剂、库及方法的各种实施例描述于美国专利申请公开案第2009/0127589号及第2009/0026082号中，所述申请案以引用之方式并入本文中。仪器200的各种实施例可以提供可用于并行地，如实质上同时从多个序列收集序列信息的自动化测序。

在各种实施例中，流体递送和控制单元202可包含试剂递送系统。试剂递送系统可包含用于存储各种试剂的试剂储集器。试剂可以包括基于RNA的引物、正向/反向DNA引物、用于连接测序的寡核苷酸混合物、用于合成测序的核苷酸混合物、任选的ECC寡核苷酸混合物、缓冲剂、洗涤试剂、阻断试剂、汽提试剂及类似物。此外，试剂递送系统可包含移液系统或连续流动系统，其连接样品处理单元与试剂储集器。

在各种实施例中，样品处理单元204可包含样品室，例如，流动池、衬底、微阵列、多孔托盘或类似物。样品处理单元204可包含多个通道、多个槽道、多个孔或其它大体上同时处理多个样品集的装置。另外，样品处理单元可包含多个样品室以使得能够同时处理多个运行。在特定实施例中，系统可以对一个样品室进行信号检测，并实质上同时处理另一个样品室。另外，样品处理单元可包含用于移动或操纵样品室的自动化系统。

在各种实施例中，信号检测单元206可包含成像或检测传感器。举例来说，成像及/或检测传感器可包含电荷耦合装置(“CCD”)、互补型金属氧化物半导体(“CMOS”)、离子或化学传感器，例如覆盖CMOS的离子敏感层，及/或场效应晶体管(“FET”)电流及/或电压检测器或类似物。信号检测单元206可包含励磁系统以引起探针(如荧光染料)发射信号。励磁系统可包含照明源，例如弧光灯、激光器、发光二极管(“LED”)或类似物。在特定实施例中，信号检测单元206可包含用于将光从照明源发射到样品或从样品发射到成像或检测传感器的光学系统。或者，信号检测单元206可以提供基于电子及/或非光子的检测方法并且因此不包含照明源。在各种实施例中，基于电子的信号检测可以在测序反应期间产生可检测信号及/或物质时进行。举例来说，信号可以通过与离子或化学敏感层相互作用的释放副产物或部分，如释放离子(如氢离子)的相互作用产生。在其它实施例中，可检测信号可以由于如用于焦磷酸测序(参见例如美国专利申请公开案第2009/0325145号，其全部内容以引用的方式并入本文中)中的酶促级联产生，其中焦磷酸酯通过聚合酶的碱基并入产生，所述聚合酶另外与ATP硫酸化酶在腺苷5′磷酰硫酸存在下反应来产生ATP，其中产生的ATP可以在荧光素酶介导的反应中耗尽来产生化学发光信号。在另一实例中，电流的变化可以在核酸穿过纳米孔时在不需要照明源的情况下检测。

在各种实施例中，数据获取、分析和控制单元208可以监视各种系统参数。系统参数可包含仪器200的各部分(如样品处理单元及/或试剂储集器)的温度；各种试剂的体积；各种系统子组件(如操纵器、步进式电机、泵等)的状态；或其任何组合。

所属领域的技术人员应了解，仪器200的各种实施例可用于实践多种测序方法，包含基于连接的方法、合成测序、单分子方法、纳米孔测序和其它测序技术。

在各种实施例中，测序仪器200可确定核酸(例如，聚核苷酸及/或寡核苷酸)的序列。核酸可包含DNA及/或RNA，并且可以是单链，如ssDNA及/或RNA；或双链，如dsDNA及/或RNA/cDNA对。在各种实施例中，核酸可包含及/或衍生自片断库、配对库、染色质免疫沉淀(“ChIP”)片断或类似物。在特定实施例中，测序仪器200可以从单一核酸分子或从大体上相同的核酸分子的群组获得序列信息。

在各种实施例中，测序仪器200可以包含(但不限于)以下各者的多种不同输出数据文件类型/格式输出核酸测序读取数据：*.bam、*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

用于识别序列变异的方法、系统及计算机可读媒体：

图3描绘根据各种实施例的用于识别变异体的系统的示意图。如本文中所描绘，变异体分析系统300可包含核酸序列分析装置304(例如，核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等)、序列分析计算机服务器/节点/装置302及显示器310。变异体分析系统300还可包含客户端装置终端机308。

在各种实施例中，序列分析计算机服务器/节点/装置302可以通信方式连接到核酸序列分析装置304，且客户端装置终端机308可经由可为“硬接线”物理网络连接(例如，因特网、局域网(“LAN”)、广域网(“WAN”)、虚拟专用网络(“VPN”)等)及/或无线网络连接(例如，Wi-Fi、无线局域网(“WLAN”)等)中德任一者的网络连接324以通信方式连接到序列分析计算机服务器/节点/装置302。

在各种实施例中，序列分析计算机服务器/节点/装置302可为工作站、主机计算机、分布式计算节点(例如“云端计算”及/或分布式网络系统的一部分)、个人计算机、移动装置等。在各种实施例中，核酸序列分析装置304可为核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等。但是，应理解，核酸序列分析装置304基本上可以是任何类型的可以从获自个体的样品产生核酸序列数据的仪器。

序列分析计算服务器/节点/装置302可经配置以主控任选的预处理模块312、映射模块314及拷贝数分析模块316。

预处理模块312可经配置以从核酸序列分析装置304接收且执行处理步骤，例如，从颜色空间转换到碱基空间或从流动空间转换到碱基空间，确定通话质量值，制备读取数据以供映射模块314使用，及类似者。

映射模块314可经配置以将核酸序列读段比对(即，映射)到参考序列。一般来说，序列读段的长度大体上可小于参考序列的长度。在参考序列映射/比对中，序列读段可相对于现有骨干序列(例如参考序列等)装配以建立与骨干序列类似但不一定相同的序列。一旦对于有机体发现骨干序列，比较测序或再测序可用于表征有机体物种内或紧密相关物种之间的基因多样性。在各种实施例中，参考序列可为全/部分基因组、全/部分外显子组等。

在各种实施例中，序列读数和参考序列可表示为碱基空间中的一连串核苷酸碱基符号。在各种实施例中，序列读段和参考序列可表示为颜色空间中的一种或多种颜色。在各种实施例中，序列读数和参考序列可表示为在流动空间中具有信号及/或数值定量分量的核苷酸碱基符号。

在各种实施例中，序列片段和参考序列的比对可包含包含序列片段的碱基与包含参考序列的碱基之间有限数目的失配。一般来说，序列片段可比对到一部分参考序列以使序列片段与参考序列之间的失配数目最小化。

拷贝数分析模块316可包含处理引擎318、拷贝数变异体主叫320和任选的后处理引擎322。在各种实施例中，拷贝数分析模块316可与映射模块314通信，且可从映射模块314请求并且接收数据及信息(经由(例如)数据流、数据文件、文本文件等)。

处理引擎318可经配置以从映射模块314接收经映射读段，确定基因组的靶区域的覆盖度(图块、可具有重叠靶的ampliseq面板，所述重叠靶可映射到每一扩增子靶)，及/或基于跨越图块及GC含量的覆盖度的平均值及/或模式将图块覆盖度归一化。此外，处理引擎318可经配置以校正分批效果。在各种实施例中，处理引擎318可对于样品及/或对照物两者确定归一化覆盖度。

拷贝数变异(“CNV”)主叫320可经配置以从处理引擎318接收归一化的覆盖度，确定待以各种倍性状态存在的扩增子的分数，例如似然性，经由扩增子的倍性状态确定最大分数路径及计算最大分数路径与所预期倍性状态及最接近计分相邻倍性状态的分数比率，例如对数似然比。此外，CNV主叫320可基于可克服预设定倍性过渡罚值的最大分数倍性状态而识别拷贝数变异体。过渡罚值可经调整以实现算法的所需灵敏度或特异性。

后处理引擎322可经配置以接收通过CNV主叫320确定的拷贝数变异体和对数似然比以及进行额外处理步骤，如过滤拷贝数变异体，和格式化读取数据以在显示器310上显示及/或被客户端装置终端机308使用。

客户端装置终端机308可为瘦客户端或厚客户端计算装置。在各种实施例中，客户端装置终端机308可具有网页浏览器(例如Chrome、Internet Explorer、Firefox、Safari等)，其可用于传达信息到使用浏览器的预处理模块312、映射模块314、处理引擎318、CNV主叫320及后处理引擎322和/或控制所述组件的操作以控制其功能。举例来说，取决于特定应用的要求，客户端装置终端机308可用于配置操作参数(例如，匹配计分参数、标注参数、过滤参数、数据安全及保持参数等)。类似地，客户端装置终端机308还可经配置以显示由拷贝数分析模块316及核酸序列分析装置304执行的分析的结果。

应理解，公开为变异体分析系统300的一部分的各种数据存储器可表示为基于硬件的存储装置(例如，硬碟机、闪存、RAM、ROM、网络附接存储器等)及/或存储于独立及/或联网计算装置上的数据库的示例。

还应了解，取决于特定应用或系统架构，显示为变异体分析系统300的一部分的各种数据存储器和模块/引擎可组合或折叠为单一模块/引擎/数据存储器。此外，在各种实施例中，变异体分析系统300可包括特定应用或系统架构需要的额外模块、引擎、组件或数据存储器。

在各种实施例中，变异体分析系统300可经配置以处理颜色空间中的核酸读段。在各种实施例中，变异体分析系统300可经配置以处理碱基空间中的核酸读段。在各种实施例中，变异体分析系统300可经配置以处理流动空间中的核酸序列读段。但是，应理解，本文中所公开的变异体分析系统300可处理或分析任何模式或格式的核酸序列数据，只要所述模式或格式可传达核酸序列的碱基标识及位置。

分批效果检测及校正：

如上文所论述，可使用主成分分析(“PCA”)来检测及校正分批效果。在分析面板中，n个扩增子的集合可以基因组顺序配置，且n个扩增子的集合可表示正常样品中的二倍体的基因组位置。随后，不考虑样品特定效果，例如鸟嘌呤-胞嘧啶偏倚(“GC偏倚”)及/或长度偏倚，聚合酶链反应(“PCR”)中的每扩增子效率可将面板中的n个不同扩增子标记为指数i＝1,2,…,n。扩增子“I”特性可以由A＝(a₁,a₂,…,a_n),∑a_i＝1表示。样品可具有用于这些扩增子的等摩尔的DNA输入。因此，扩增子j的最终扩增的预期读段数可与a_j成比例。可通过组合K样品集而估计a_j，其中所有扩增子具有已知的及相同的每扩增子CN。用于估计a_j的组合可为函数，例如，平均值、中值、截尾平均值等。举例来说，针对a_j使用平均值为组合函数，a_j将等于样品k中的扩增子j的读段总和除以样品k中的总读取的总和。因此，使用平均值的共混函数的公式可以由表示，其中r_j,k表示样品k中的扩增子j的读段，及R_k为样品k中的总读段。

样品可不为均匀的具有每扩增子读段的二倍体，且可表达为(r₁,r₂,…,r_n)，其中r为每扩增子的读段及n为整数。每扩增子的读段总和可为R，且表达为∑r_i＝R。每扩增子的拷贝数值可表达为向量C，所述向量C为(c₁,c₂,…,c_n)，其中c为扩增子“i”的拷贝数值。

可为阵列的面板的平均倍性。对于具有常染色体上的扩增子的生殖性样品，可为近似2。在肿瘤样品中，可不为近似2。倍增偏倚2/可针对肿瘤样品中的所有扩增子为常数。

平均值可满足其中ε为可对较大r_i及较大R预期具有近似0的平均值的误差。在忽略误差的情况下重写以上式允许确定估计的c_i，其经显示于下式中：

将上文公式(1)重写为对数可得到下式：

在公式(2)中，每扩增子的拷贝数可由读段与每扩增子效率及样品倍性的总调整读段的比率来估计。可假定干扰扩增子效率的倍增分批效果。倍增分批效果可表示为向量B，其中B＝(b₁,b₂,…,b_n)，及n为整数。考虑到可能化学性质，可假定干扰扩增子效率的倍增分批效果倍增。

一些样品可具有带较少读段的扩增子，例如，拷贝数近似0或未能扩增。此类样品中的扩增子可分开处理，因为倍增效果模型可能不适合。

假定存在k＝1,2,…，K样品可包含此效果的一些分量。样品k可具有表示为向量(log A+α_k log B)的对数扩增效率。这些样品不必均匀地为二倍体。考虑k，公式(2)可重写为：

在不失一般性的情况下，B可由B/b₁'中的B替代。C_k可为由给定的样品特定常数。因此，公式(3)可重写为：

log c_i,k＝log r_i,k/R+C_k-log a_i-α_k log b_i (4)

可如下重排公式(4)：

log r_i,k/R-log a_i＝log c_i,k-C_k+α_k log b_i (5)

公式(5)的左边可从观测及估计知道，及公式(5)的右侧可需要估计。重新制定公式(5)可为K提供n维度观测，如下式中所示：

Y_k＝log(C)+α_k log B-C_k (6)

其中，对于样品k，Y_i,k＝log r_i,k/R-log a_i，向量1/k＝[Y_1,k,Y_2,k,…,Y_n,k]，向量log(C)＝[log c_1,k,log c_2,k,…,log c_n,k]，i＝1,…,n，且其中n为整数。

对于每基因存在多个扩增子的面板，相邻基因组位置处的拷贝数值可能相同，且因此可使用相邻基因组位置处的拷贝数值。

使log B₁＝(log b₁,…,log b_n-1)且log B₂＝(log b₂,…,log b_n)，其中n为整数，且针对Y_1,k、Y_2,k、C_1,k、C_2,k等使用类似符号，则

log C_2,k-log C_1,k≈0 (7)

可得出：

Y2,k-Y1,k≈αk(log B2,k-log B1,k) (8)

为针对每一样品估计k-log B1,k及可使用主成分分析(“PCA”)。PCA可允许同时估计独立操作但联合影响样品的多个此类分批效果。每一主成分表示一个此类分批效果B。为了恢复最初log B，可使用以下线性等式：

0＝log b₁ (9)

β_i＝log b_i+1-log b_i,i＝2,…,n (10)

其可由β的部分总和解决：

可针对按需要尽可能多的主成分应用最终校正以移除分批效果，如下所展示：

可使用未知拷贝数改变且在进行中基础上应用于新样品的第二训练样品集来计算此类分批效果，或可事后针对未知拷贝数改变且用于移除此集合内的分批效果的样品集来计算。

图4描绘根据各种实施例的展示用于确定分批效果的方法400的示范性流程图。在步骤402处，获得来自多个训练样品的读段。训练样品可包含具有已知倍性的正常样品集。在各种实施例中，训练样品可进一步包含具有未知倍性的非正常样品集。在各种实施例中，从训练样品获得的核酸材料可经历多个扩增以选择性地扩增多个基因组区域。此外，在各种实施例中，可将带条形码的衔接子加入训练样品的至少一个子集的扩增子。扩增子可经测序以针对正常样品中的每一个产生多个读段。

在各种实施例中，可以不同批次制备所述样品的至少一部分，使得样品的样品制备涉及不同试剂批次、不同制备者、不同样品制备设备及类似者中的至少一者。此外，可在不同时间、不同芯片上、不同仪器上或类似物上分析样品的至少一部分。理想地，可以基本上相同的方式制备样品，例如，使用类似的套具及协议，且以基本上相同的方式分析，例如，使用类似的仪器及芯片。

在404步骤处，读段可映射到核酸序列以识别对应的核酸区域，例如将读段映射到扩增子。在步骤406处，可每样品计算扩增子覆盖度(例如，映射到扩增子的多个读段)及总读段(例如，多个经映射读段)。在各种实施例中，读段的子集可映射到离开靶扩增产物。可舍弃映射到离开靶扩增产物的读段且总读段中不包含所述读段。在各种实施例中，可使用相邻区域或扩增子之间的读段计数上的差，而不是个别区域或扩增子的读段计数上的差。以此方式，可从主成分分析排除由于拷贝数的差的读段计数的变率。

在步骤408处，主成分分析(“PCA”)可用于使用如上文所描述的公式8估计β及倍率(α_k)。PCA可用于确定一或多个分批效果。在步骤410处，可基于β计算分批效果(log B)。通过使用上式11，计算log B可由β的部分总和解决，其中

图5描绘根据各种实施例的展示用于识别疑含有染色体异常、基因复制及/或基因缺失的测试样本中的拷贝数变异的方法500的示范性流程图。在各种实施例中，测试样本可为疑含有基因组的至少一部分中的拷贝数变异的样品，所述变异例如，由于染色体异常(染色体的增多及/或缺失，或其部分)。在各种实施例中，测试样本可包含癌细胞，其中已发生基因复制及/或基因缺失，这可导致一或多种基因的拷贝数的改变。

在步骤502处，可获得来自测试样本的读段。测试样本可为具有未知倍性的样品。在各种实施例中，测试样本可经历正常样品所经历的样品制备及分析程序。举例来说，从测试样本获得的核酸材料可经历类似的多个扩增以选择性地扩增所述多个基因组区域。扩增子可经测序以针对测试样本产生多个读段。在各种实施例中，可将带条形码的衔接子加入到能够使多个样品基本上同时经测序的扩增子，且来自带条形码的衔接子的序列可用于识别哪个读段对应于哪个样品。

在步骤504处，可将所述读段映射到核酸序列以识别对应的核酸区域，例如，将所述读段映射到含有对应于扩增子的核酸序列的参考序列。在步骤506处，可针对测试样本计算扩增子覆盖度(例如，映射到扩增子的多个读段)及总读段(例如，多个经映射读段)。在各种实施例中，读段的子集可映射到离开靶扩增产物。可舍弃映射到离开靶扩增产物的读段且总读段中不包含所述读段。

在步骤508处，PCA可用于使用如上文所描述的公式8估计倍率(α_k)。在各种实施例中，可先前基于已知的样品集计算β，如先前所描述。在步骤510处，可校正测试样本的扩增子覆盖度以基于在步骤508中确定的α_k及基于已知样品所计算的log b_i考虑分批效果。在各种实施例中，可基于经校正扩增子覆盖度重新计算总读段。在步骤510中，可应用校正以基于如上述公式12及如下文所显示针对根据需要尽可能多的主成分移除分批效果：所计算出的经校正扩增子覆盖度可用于确定相对拷贝数。

在一个实施例中，可基于所计算出的经校正扩增子覆盖度计算基因水平拷贝数置信度分数，例如，如下文步骤512及514中所示。在步骤512处，可计算各种倍性状态中的扩增子的似然性(概率)。似然性可为分数，其可为在真实倍性状态与其它倍性状态之间区分的函数及/或特设规则。在各种实施例中，在计算似然性(概率)之前，可(例如)基于总读段归一化经校正扩增子覆盖度。在各种实施例中，可针对倍性状态的范围(例如，1到10的倍性范围内)计算似然性(分数)。在示范性实施例中，倍性状态的似然性(分数)可使用等式L＝N(S-C,0,Sd)计算为似然性，其中S为经校正扩增子覆盖度，C为所研究倍性状态中的扩增子的按比例调整基线扩增子覆盖度，及Sd为扩增子覆盖度的标准差。可根据样本及对照扩增子覆盖度得到标准差(Sd)，且可使用训练样品复制的测序来预定标准差(Sd)。在各种实施例中，可以通过将归一化基线按比例缩放至研究倍性状态而确定按比例缩放基线覆盖度。举例来说，二倍体区域的归一化基线覆盖度可约为2，且当研究3的倍性状态(三倍体)时，归一化基线覆盖度可乘以3/2，使得按比例调整基线覆盖度可约为3。因此，对于在所述样品中的三倍体区域中的图块或扩增子，归一化样品覆盖度与按比例调整基线覆盖度之间的差可在计分2及/或5的倍性状态时比计分三的倍性状态时更大。

在各种实施例中，如当针对来自癌性肿瘤的样品确定拷贝数变异时，细胞的多个亚群可能存在于样品中。举例来说，来自癌症活检的样品可包含正常细胞以及癌细胞且所述样品可具有表示正常细胞和癌细胞的倍性状态的加权平均值的有效倍性状态。为了针对此类样品中的特定基因识别拷贝数变化，可以对于非整数倍性状态计算分数。举例来说，可以经步长为十分之一的一系列值，如2.0、2.1、2.2、2.3等计算分数。

在步骤514处，可以确定每一图块贯通倍性状态的最大分数路径。在各种实施例中，路径的计分可包含每一倍性状态沿路径的分数与倍性状态改变的每一相邻图块对的过渡罚值的求和。在各种实施例中，路径的计分可包含每一倍性状态沿路径的分数与倍性状态改变的每一相邻图块对的过渡罚值的求和。在示范性实施例中，最大分数路径可以是通过对沿路径的倍性状态和过渡罚值的对数似然性求和计算的最大似然路径。

过渡罚值可以是改变小片段的拷贝数状态的制止物，除非存在可比过渡罚值更重要的来自片段中的图块的状态似然性的压倒一切的支持。在各种实施例中，过渡罚值可以是任何给定随机图块的拷贝数状态改变的几率的对数的函数。使转移概率较小可产生称为较大拷贝数变异(“CNV”)的片段，或具有对于所改变状态的较大支持(即，拷贝数的较大差异)的片段。因此，过渡罚值可以经调整以实现所需灵敏度及/或特异性。

过渡概率可以针对图块之间的较大间隙增加。图块之间的间隙可源自可在算法中省略的基因组的非扩增(非测序)部分。在图块之间的足够大间隙之后，在间隙之前的图块的拷贝数状态可能不具有关于在间隙之后的图块的拷贝数状态的信息。因此，过渡概率可以在间隙之后变得对于所有拷贝数状态相同。此全等概率的增加可以是指数的并且因此可以通过对数空间中的线性增加估计。

在各种实施例中，可通过将样品的归一化覆盖度与基因组的一部分上的基线的比率平均化而确定拷贝数，而不是确定贯穿多个倍性状态的最大似然路径。举例来说，为了检测基因复制及/或基因缺失，可从基因内的每一图块或扩增子平均化所述比率。在步骤516处，可对所述样品提供拷贝数变异(“CNV”)呼叫。

对阳离子过氧化酶的过度表达子的示范性拷贝数分析(“OCP”)：

在示范性实施例中，获得面板中总计2530个扩增子包含2个聚合酶链反应(“PCR”)池。在各种实施例中，多个技术效果可有助于扩增子读段计数中的实验对实验变异，包含PCR池、扩增子GC含量及扩增子长度。可通过将池特定扩增子读段数中值归一化而实现PCR池的校正。对扩增子GC含量及扩增子长度的校正可涉及针对GC含量及/或扩增子长度中的范围获得中间扩增子读段数，将样条曲线与中间读段数拟合，及将所有读段数按比例调整成同一值。

在示范性实施例中，拷贝数分析将各种基因作为目标，包含出于拷贝数增加目的的45个基因，及出于拷贝数损失目的的26个基因。拷贝数分析的目标是针对每一基因确定拷贝数估计值(包含关于信赖区间的信息)。

基于扩增子的拷贝数分析包含如上文关于各种方法所描述的步骤。步骤可包含(例如)汇总扩增子读段数，数据预处理，将经处理数据与参考相比较，及使用统计/机器学习方法呼叫拷贝数及/或变化点。

在数据预处理期间，可取决于所接收到的数据与参考相比较的方式来确定不同类型的数据。图6描绘根据本发明的实施例的说明基因组座标的成对差长度的曲线图。如图6中所示，成对差长度的跳变可较小，且较大的跳变可为罕见的。可基于基因组座标的成对差长度确定中间绝对成对差(“MAPD”)。

图7A至7E描绘根据本发明的实施例的具有各种MAPD值的基因组数据的实例。如图7A至7E中所示，随着MAPD值增大，基因组数据的质量减小。在各种实施例中，弱MAPD值可为明显分批效果的结果，其可反映经检查数据与参考数据之间的系统性差异。这些系统性差异可不利地影响拷贝数分析结果。为了减小对拷贝数分析的影响，可执行样本数据的预处理。

图8A描绘说明根据本发明的实施例的GC含量的已知技术效果的影响的曲线，且图8B描绘说明扩增子长度的已知技术效果对扩增子读段数的影响的曲线。对于图8A及8B，y轴表示池校正之后的扩增子读段数。对于图8A，x轴表示扩增子GC分率，且对于图8B，x轴表示扩增子长度。如图8A至8B中所示，浅灰色数据点对应于扩增子，深色圆形数据点对应于读段数中值，且线表示用于技术校正的样条曲线。

图9及10描绘根据本发明的实施例的说明分多批进行的对实验的技术效果及分批效果的校正的应用的MAPD曲线。如图9至10中所示，经由基于池校正、扩增子GC校正及插入长度校正的校正来改善归一化之后的MAPD。图10也描绘根据本发明的实施例的说明在使用不同参考集对技术效果应用校正以归一化图块、池及/或长度效果之后剩余的分批效果的MAPD曲线。

如可从图10中显而易见，分批效果可在校正之后保持，且实验显示连续分批效果的多维空间。在应用池校正、扩增子GC校正及插入长度校正之后，可不表征一些分批效果。分批效果可保持，因为可能不存在用于针对每一填充分批效果(空间袋)建构“局部”参考的具有正常拷贝数的样品。因此，可需要更多预处理以考虑额外分批效果。

基于示范性主成分的数据校正：

每一实验可表示扩增子读段数(在可应用一些校正之后)的向量。因此，每一实验可停留于多维空间中的特定位置中。多维空间中的所有实验中具有最大变动的方向可获得最显著的分批效果。可与具有最大变动的方向正交的最大变动的下一方向可获得下一水平的显著分批效果。可重复此过程以获得多个显著的分批效果。通过主成分分析，每一实验对第一方向的投射可为对应于分批效果的本征向量。可将本征向量计算且调整为零，且因此，可校正最显著的分批效果。

本征向量可不反映用于不同实验的样品之间的真实拷贝数变异。举例来说，如果分批效果足够显著，那么分批效果可主导前几个主成分以使得基于前主成分的数据校正可不影响真实拷贝数变化的信号。此外通过执行相邻扩增子之间具有读段数差异的主成分分析(“PCA”)而不是使用其自身扩增子读段数可能有可能减小前主成分的真实拷贝数变化影响。

图11及12描绘根据本发明的各种实施例的说明来自应用技术效果及分批效果的校正的改善的曲线。图11及12描绘由基因组区域特指的阳离子过氧化酶的过度表达子2(“OCP2”)的各种集合所产生主成分分析。

如图11中所示，随着应用基于主成分的校正，应用分批效果校正改善中间绝对成对差(“MAPD”)。图12描绘基于不同参考集合使用标准参考将主成分校正之后的MAPD与不具有主成分校正的MAPD的比较。

图13A至13E提供根据本发明的实施例的具有及不具有分批效果校正的实例样品的比较。图13A至13E展示使用多重扩增以从基因组区域集合特指的89gm20022产生多个扩增子而制备的样品。如图13A至13D中所示，在没有主成分校正的情况下，中间绝对成对差(“MAPD”)分别为0.11、0.73、0.32及0.63。应用分批效果校正将MAPD改善为0.11，如图13E中所示。

图14A至14E提供根据本发明的实施例的具有及不具有分批效果校正的实例样品的比较。图14A至14E展示使用多重扩增以从基因组区域集合特指的342ocpv1i2μmpr_038r产生多个扩增子而制备的样品。如图14A至14D中所示，在没有主成分校正的情况下，MAPD分别为0.83、0.23、0.64及0.94。应用分批效果校正将MAPD改善为0.20，如图14E中所示。

图15A至15E提供根据本发明的实施例的具有及不具有分批效果校正的实例样品的比较。图15A至15E展示使用多重扩增以从基因组区域集合特指的342ocpv1i2μmpr_025产生多个扩增子而制备的样品。如图15A至15D中所示，在没有主成分校正的情况下，MAPD分别为0.24、0.56、0.16及0.59。应用分批效果校正将MAPD改善为0.16，如图15E中所示。

图16A至16E提供根据本发明的实施例的具有及不具有分批效果校正的实例样品的比较。图16A至16E展示使用多重扩增以从基因组区域集合特指的2drst产生多个扩增子而制备的样品。如图16A至16D中所示，在没有主成分校正的情况下，MAPD分别为0.70、0.89、0.60及0.29。应用分批效果校正将MAPD改善为0.26，如图16E中所示。

图17描绘根据本发明的实施例的说明分多批进行的对实验的技术效果及分批效果的校正的应用的MAPD曲线。如图17中所示，经由基于池校正、扩增子GC校正及插入长度校正的校正来改善归一化之后的MAPD。

图18描绘根据本发明的各种实施例的说明从对来自基因组区域集合特指的OCP3应用技术效果及分批效果的校正的改善的曲线。图18描绘由各种基因组区域集合特指的OCP3产生的主成分分析。如图18中所示，随着应用基于主成分的校正，应用分批效果校正改进中间绝对成对差(“MAPD”)。

图19A及19B提供根据本发明的各种实施例的具有及不具有预预处理的实例样品的比较。图19A及19B展示使用多重扩增以从基因组区域集合特指的ocpv1i2_um_66产生多个扩增子而制备的样品。如图19A至19B中所示，在整体归一化之后应用预处理将MAPD从0.835改善到0.393。

图20A及20B提供根据本发明的各种实施例的具有及不具有预预处理的实例样品的比较。图20A及20B展示使用多重扩增以从基因组区域集合特指的ocpv1i2_um_66产生多个扩增子而制备的另一样品。如图20A至20B中所示，在整体归一化之后应用预处理将MAPD从0.179改善到0.168。

图21A及21B提供根据本发明的各种实施例的具有及不具有预预处理的实例样品的比较。图21A及21B展示使用多重扩增以从基因组区域集合特指的ocpv1i2_um_28产生多个扩增子而制备的样品。如图21A至21B中所示，在整体归一化之后应用预处理将MAPD从0.781改善到0.377。

图22A及22B提供根据本发明的各种实施例的具有及不具有预预处理的实例样品的比较。图22A及22B展示使用多重扩增以从基因组区域集合特指的ocpv1i2_um_28产生多个扩增子而制备的另一样品。如图22A至22B中所示，在整体归一化之后应用预处理将MAPD从0.172改善到0.168。

图23A、23B、24A及24B提供根据本发明的各种实施例的具有及不具有分批效果校正的实例样品的比较。图23A及23B展示使用多重扩增以从基因组区域集合特指的OCP2产生多个扩增子而制备的样品。应用分批效果校正将中间绝对成对差(MAPD)从0.761改善到0.179。图24A及24B展示使用多重扩增以从另一基因组区域集合特指的OCP3产生多个扩增子而制备的样品。应用分批效果校正将MAPD从0.318改善到0.119。

在各种实施例中，本发明的方法可以在以如C、C++等的常规编程语言编写的软件程序和应用中实施。

虽然结合各种实施例来描述本发明，但并不打算将本教示内容限制于此类实施例。相反地，如所属领域的技术人员将了解，本发明涵盖各种替代方案、修改和等效物。

此外，在描述各种实施例中，本说明书可能将方法和/或过程呈现为特定顺序的步骤。然而，在方法或过程不依赖于本文中阐述的步骤的特定次序的程度上，所述方法或过程不应限于所描述的步骤的特定顺序。如所属领域的一般技术人员将了解，步骤的其它顺序可以是可能的。因此，在说明书中阐述的步骤的特定次序不应理解为对权利要求书的限制。另外，针对方法和/或过程的权利要求不应限于以书写的次序进行其步骤，并且所属领域的技术人员可以易于了解的是顺序可以变化并且仍保持在各种实施例的精神和范围内。

本文所描述的实施例可以用包括以下的其它计算机系统配置实践：手持式装置、微处理器系统、基于微处理器或可编程消费型电子装置、微型计算机、大型主机计算机及类似者。实施例也可以在其中任务通过经网络连接的远程处理装置执行的分布式计算环境中实践。

还应了解，本文所描述的实施例可以采用涉及存储在计算机系统中的数据的各种计算机实施操作。这些操作是需要物理量的物理操控的那些操作。通常，尽管不一定，但此些量可采用能够被存储、传送、组合、比较或以其它方式操控的电或磁性信号的形式。另外，进行的操控通常可以如产生、识别、确定或比较的术语提及。

形成本文所描述的实施例的一部分的操作中的任一个可为有用的机器操作。本文中所描述的实施例也涉及执行这些操作的装置或设备。本文所描述的系统和方法可以出于所需目的专门构建或其可以是通过存储在计算机中的计算机程序选择性地激活或配置的通用计算机。具体而言，各种通用机器可以与根据本文中的教示编写的计算机程序一起使用，或可能更方便的是构造更专门装置以执行所需操作。

某些实施例还可以实施为计算机可读媒体上的计算机可读代码。计算机可读媒体可为可存储其后可以由计算机系统读取的数据的任何数据存储装置。计算机可读媒体的实例可包含硬盘驱动器、固态驱动器、网络连接存储器(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带及其它光学及非光学数据存储装置。计算机可读媒体也可以分布在网络耦合的计算机系统上，以使得计算机可读代码以分布方式存储和执行。

除非本文中以其它方式特别指出，本文所使用的术语、技术及生物化学、细胞生物学、遗传学、分子生物学、核酸化学性质、核酸测序及有机化学性质的标志可遵守相关领域中的标准论文及文本的那些标准。

虽然本说明书详细地描述某些实施例，但其它实施例也是可能的且在本发明的范围内。举例来说，所属领域的技术人员可从本说明书中理解本发明教示可以多种形式实施，且各种实施例可单独或组合地实施。所属领域的技术人员将从本说明书的考虑及说明书及图式，及图式及权利要求书中所描述的教示的实践对变化及修改显而易见。

Claims

1.一种用于计算经校正扩增子覆盖度的计算机实施的方法，所述方法包括：

将基于疑具有一或多个遗传畸变的样品的经扩增靶区域的多个扩增子的多个读段映射到参考序列，所述参考序列包含对应于所述经扩增靶区域的一或多个核酸序列；

计算扩增子覆盖度及总读段，其中扩增子覆盖度为经映射到扩增子的多个读段，且总读段为多个经映射读段；及

经由应用分批效果校正基于所述计算出的扩增子覆盖度及所计算出的总读段计算经校正扩增子覆盖度。

2.根据权利要求1所述的方法，其进一步包括：

将与疑具有一或多个遗传畸变的所述样品隔离的核酸的所述靶区域扩增；

基于所述经扩增靶区域产生所述多个扩增子；及

测序所述多个扩增子以获得所述多个读段。

3.根据权利要求2所述的方法，其中将与疑具有一或多个遗传畸变的所述样品隔离的核酸的所述靶区域扩增包含多重扩增。

4.根据权利要求1所述的方法，其进一步包括：

基于倍性状态范围的所述经校正扩增子覆盖度确定所述多个扩增子的最大分数路径；及

基于所述最大分数路径识别拷贝数变异。

5.根据权利要求4所述的方法，其进一步包括：

基于所述总读段在计算所述最大分数路径之前将所述经校正扩增子覆盖度归一化。

6.根据权利要求1所述的方法，其中所述分批效果校正包含倍率及分批效果值。

7.根据权利要求6所述的方法，其进一步包括：

使用主成分分析针对所述样品估计所述倍率及所述分批效果值。

8.一种用于计算经校正扩增子覆盖度的系统，所述系统包含：

数据存储装置，其存储用于计算经校正扩增子覆盖度的指令系统；及

处理器，其经配置以执行所述指令以执行方法，所述方法包含：

9.根据权利要求8所述的系统，其中所述处理器进一步经配置以执行所述指令以执行所述方法，所述方法包含：

基于所述经扩增靶区域产生所述多个扩增子；及

测序所述多个扩增子以获得所述多个读段。

10.根据权利要求9所述的系统，其中将与疑具有一或多个遗传畸变的所述样品隔离的核酸的所述靶区域扩增包含多重扩增。

11.根据权利要求8所述的系统，其中所述处理器进一步经配置以执行所述指令以执行所述方法，所述方法包含：

基于所述最大分数路径识别拷贝数变异。

12.根据权利要求11所述的系统，其中所述处理器进一步经配置以执行所述指令以执行所述方法，所述方法包含：

13.根据权利要求8所述的系统，其中所述分批效果校正包含倍率及分批效果值。

14.根据权利要求13所述的系统，其中所述处理器进一步经配置以执行所述指令以执行所述方法，所述方法包含：

15.一种非暂时性计算机可读媒体，其存储当由计算机执行时使得所述计算机执行用于计算经校正扩增子覆盖度的方法的指令，所述方法包含：

计算扩增子覆盖度及总读段，其中扩增子覆盖度为经映射到扩增子的多个读段，且总读段为多个经映射读段；

经由应用分批效果校正基于所述计算出的扩增子覆盖度及所计算出的总读段计算经校正扩增子覆盖度；

基于所述最大分数路径识别拷贝数变异。

16.根据权利要求15所述的计算机可读媒体，其进一步包括：

基于所述经扩增靶区域产生所述多个扩增子；及

测序所述多个扩增子以获得所述多个读段。

17.根据权利要求16所述的计算机可读媒体，其中将与疑具有一或多个遗传畸变的所述样品隔离的核酸的所述靶区域扩增包含多重扩增。

18.根据权利要求15所述的计算机可读媒体，其进一步包括：

基于所述最大分数路径识别拷贝数变异。

19.根据权利要求18所述的计算机可读媒体，其进一步包括：

20.根据权利要求15所述的计算机可读媒体，其中所述分批效果校正包含倍率及分批效果值。