CN111534580A

CN111534580A - 用于检测遗传变异的方法和系统

Info

Publication number: CN111534580A
Application number: CN202010408264.6A
Authority: CN
Inventors: 埃尔米·埃尔图凯; 阿米尔阿里·塔拉萨兹
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2013-12-28
Filing date: 2014-12-24
Publication date: 2020-08-14
Anticipated expiration: 2034-12-24
Also published as: AU2014369841A1; EP3087204B1; US20240018582A1; US11434531B2; AU2019202216A1; US11149306B2; US20200362405A1; US11667967B2; EP3771745A1; US20160046986A1; JP2017506875A; US20230272468A1; US11639525B2; US20240209431A1; SG11201604923XA; US11639526B2; US20210164037A1; CN106062214A; WO2015100427A1; JP2022031905A

Abstract

本文公开了用于确定多核苷酸样品中的遗传变异(例如，拷贝数变异)的方法和系统。用于确定拷贝数变异的方法包括用双链体标记物标记双链多核苷酸，对来自样品的多核苷酸进行测序，以及估算定位至选定遗传基因座的多核苷酸的总数。多核苷酸总数的估算可以包括估算原始样品中没有生成序列阅读值的双链多核苷酸的数目。该数目可以采用两条互补链的阅读值都被检测到和两条互补链中仅一条的阅读值被检测到的多核苷酸的数目来生成。

Description

用于检测遗传变异的方法和系统

本申请是申请日为2014年12月24日、申请号为201480076496.9、发明名称为“用于检测遗传变异的方法和系统”的中国专利申请(PCT申请号为PCT/US2014/072383)的分案申请。

交叉引用

本申请根据35U.S.C.§119(e)要求2013年12月28日提交的美国临时申请号61/921,456和2014年3月5日提交的美国临时申请号61/948,509的权益，每一个临时申请均通过引用全文并入本文。

技术领域

多核苷酸的检测和定量对于分子生物学和医学应用如诊断学是重要的。遗传检测特别可用于许多诊断方法。例如，由稀有遗传改变(例如，序列变异体)或外遗传标记物的改变引起的病症，如癌症和部分或完全的非整倍性，可以用DNA序列信息进行检测或更准确地表征。

遗传性疾病如癌症的早期检测和监测在疾病的成功治疗或管理中通常是有用的或需要的。一种方法可以包括监测来源于无细胞的核酸的样品，即可在不同类型的体液中发现的多核苷酸群体。在一些情况下，可以基于检测遗传异常，如一个或多个核酸序列的拷贝数变异和/或序列变异，或其他某些稀有遗传改变的发展，来表征或检测疾病。无细胞的DNA(cfDNA)可以包含与特定疾病相关的遗传异常。随着测序和操纵核酸的技术的改进，本领域中存在对使用无细胞的DNA来检测和监测疾病的改进方法和系统的需求。

具体而言，已开发了许多方法用于精确的拷贝数变异估算，尤其针对异质基因组样品如肿瘤衍生的gDNA或cfDNA，以用于许多应用(例如，产前、移植、免疫、宏基因组学或癌症诊断学)。这些方法中的大多数包括样品制备，由此将原始核酸转化为可测序文库，然后进行大规模平行测序，并最终用生物信息学来估算在一个或多个基因座处的拷贝数变异。

发明内容

尽管这些方法中的许多对于经转化并测序的所有分子能够减少或阻止由样品制备和测序过程引入的错误，但这些方法不能推断出经转化但未测序的分子的计数。因为转化但未测序的分子的这种计数可能在基因组区之间高度可变，所以这些计数可显著且不利地影响能达到的灵敏度。

为了解决这一问题，可通过标记(在一些情况下差异性地标记)单个双链分子的两条链的过程转化输入双链脱氧核糖核酸(DNA)。这可以使用多种技术来进行，包括连接发夹、气泡或叉状衔接子或具有双链和单链区段的其他衔接子(气泡、叉状或发夹衔接子的未杂交的部分在此被认为是单链的)。如果正确地标记，则输入双链DNA分子的每个原始的Watson和Crick(即，链)侧可被差异性地标记并通过测序仪和后续的生物信息学来鉴定。对于特定区域中的所有分子，可以记录其中与仅找回(recover)一半的那些分子(“单态(Singlet))”)相比Watson和Crick侧均找回的分子(“对态(Pair)”)的计数。可以根据检测到的对态和单态的数目来估算未发现的分子的数目。

本公开内容的一个方面提供了一种用于检测和/或定量原始DNA片段的异质群体中的稀有脱氧核糖核酸(DNA)的方法，其包括使用多个不同标记物的文库在单一反应中标记原始DNA片段，使得超过30％的片段在两端被标记，其中每个标记物包含分子条形码。所述单一反应可以在单个反应器皿中。超过50％的片段可以在两端被标记。所述多个不同的标记物可以不超过100、500、1000、10,000或100,000个中的任意个不同的标记物。

另一个方面提供了可用于标记感兴趣的分子(例如，通过连接、杂交等)的一组文库衔接子。这组文库衔接子可包含具有分子条形码的多个多核苷酸分子，其中所述多个多核苷酸分子为小于或等于80个核苷酸碱基的长度，其中所述分子条形码为至少4个核苷酸碱基的长度，并且其中(a)所述分子条形码彼此不同，并且彼此之间具有至少为1的编辑距离；(b)所述分子条形码位于距离其各自的多核苷酸分子的末端至少一个核苷酸碱基处；(c)任选地，在所有多核苷酸分子中至少一个末端碱基是相同的；并且(d)所述多核苷酸分子均不含有完整的测序仪基序(sequencer motif)。

在一些实施方案中，除了分子条形码之外，所述文库衔接子(或衔接体)彼此相同。在一些实施方案中，所述多个文库衔接子中的每一个均包含至少一个双链部分和至少一个单链部分(例如，非互补部分或突出端)。在一些实施方案中，所述双链部分具有选自不同分子条形码的集合的分子条形码。在一些实施方案中，给定的分子条形码是随机寡核苷酸(randomer)。在一些实施方案中，每个文库衔接子进一步在至少一个单链部分上包含链标识条形码。在一些实施方案中，所述链标识条形码包含至少4个核苷酸碱基。在一些实施方案中，所述单链部分具有部分测序仪基序。在一些实施方案中，所述文库衔接子不包含完整的测序仪基序。

在一些实施方案中，所述文库衔接子均不含有用于与流动池杂交或形成发夹以供测序的序列。

在一些实施方案中，所有文库衔接子均具有含有相同核苷酸的末端。在一些实施方案中，所述相同的末端核苷酸为超过两个或更多个核苷酸碱基的长度。

在一些实施方案中，每个文库衔接子均为Y形、气泡形或发夹形。在一些实施方案中，该文库衔接子均不含有样品标识基序。在一些实施方案中，每个文库衔接子均包含可与通用引物选择性杂交的序列。在一些实施方案中，每个文库衔接子均包含至少5、6、7、8、9和10个核苷酸碱基长度的分子条形码。在一些实施方案中，每个文库衔接子均为10个至80个核苷酸碱基的长度，或30至70个核苷酸碱基的长度，或40至60个核苷酸碱基的长度。在一些实施方案中，在所有的文库衔接子中至少1、2、3或4个末端碱基是相同的。在一些实施方案中，在所有的文库衔接子中至少4个末端碱基是相同的。

在一些实施方案中，所述文库衔接子的分子条形码的编辑距离为汉明距离(Hamming distance)。在一些实施方案中，该编辑距离为至少1、2、3、4或5。在一些实施方案中，该编辑距离是就所述多个多核苷酸分子的单个碱基而言的。在一些实施方案中，该分子条形码位于距离衔接子的末端至少10个核苷酸碱基处。在一些实施方案中，所述多个文库衔接子包含至少2、4、6、8、10、20、30、40或50个不同的分子条形码，或2-100、4-80、6-60或8-40个不同的分子条形码。在本文的任何实施方案中，待标记的多核苷酸(例如，cfDNA片段)多于不同的分子条形码，使得所述标记不是独特的。

在一些实施方案中，衔接子的末端被配置用于连接(例如，与靶核酸分子连接)。在一些实施方案中，衔接子的末端是平端。

在一些实施方案中，对衔接子进行纯化并分离。在一些实施方案中，所述文库包含一个或多个非天然存在的碱基。

在一些实施方案中，所述多核苷酸分子包含相对于分子条形码位于5’的引物序列。

在一些实施方案中，该组文库衔接子基本上由所述多个多核苷酸分子组成。

在另一个方面，一种方法包括(a)用来自衔接子的文库的多个多核苷酸分子标记多核苷酸的集合以创建标记的多核苷酸的集合；以及(b)在测序衔接子的存在下扩增标记的多核苷酸的集合，其中该测序衔接子具有引物，该引物具有可与所述多个多核苷酸分子中的互补序列选择性地杂交的核苷酸序列。该衔接子的文库可以如上文或本文别处所述。在一些实施方案中，每个测序仪衔接子进一步包含索引标记物(index tag)，该索引标记物可以是样品标识基序。

另一个方面提供了一种用于检测和/或定量原始DNA片段的异质群体中的稀有DNA的方法，其中该稀有DNA具有小于1％的浓度，该方法包括(a)在单一反应中标记原始DNA片段，使得超过30％的原始DNA片段在两端被包含分子条形码的文库衔接子标记，从而提供标记的DNA片段；(b)对标记的DNA片段进行高保真度扩增；(c)任选地，选择性地富集标记的DNA片段的亚组；(d)对所述标记、扩增并任选地选择性富集的DNA片段中的一条或两条链进行测序，以获得包含分子条形码的核苷酸序列和原始DNA片段的至少一部分的序列阅读值(read)；(e)从所述序列阅读值确定代表原始DNA片段的单链的共有阅读值；以及(f)定量所述共有阅读值以便以大于99.9％的特异性检测和/或定量稀有DNA。

在一些实施方案中，(e)包括比较具有相同或相似的分子条形码以及片段序列的相同或相似末端的序列阅读值。在一些实施方案中，所述比较进一步包括对具有相同或相似的分子条形码的序列阅读值进行系统发育分析。在一些实施方案中，所述分子条形码包括具有最高为3的编辑距离的条形码。在一些实施方案中，片段序列的末端包括具有最高为3的编辑距离的片段序列。

在一些实施方案中，所述方法进一步包括将序列阅读值分类为配对阅读值和非配对阅读值，并对定位到一个或多个遗传基因座中的每一个的配对阅读值和非配对阅读值的数目进行定量。

在一些实施方案中，所述标记通过具有与原始DNA片段相比过量的文库衔接子而发生。在一些实施方案中，所述过量为至少5倍过量。在一些实施方案中，所述标记包括使用连接酶。在一些实施方案中，所述标记包括附接至平端。

在一些实施方案中，所述方法进一步包括根据分子条形码和来自每个原始DNA片段的至少一个末端的序列信息对序列阅读值进行分箱(binning)，以创建单链阅读值的箱元(bin)。在一些实施方案中，所述方法进一步包括，在每个箱元中，通过分析序列阅读值确定在原始DNA片段中给定原始DNA片段的序列。在一些实施方案中，该方法进一步包括通过比较在由标记、扩增并任选富集的DNA片段代表的基因组的每个位置处每个碱基出现的次数来检测和/或定量稀有DNA。

在一些实施方案中，所述文库衔接子不含有完整的测序仪基序。在一些实施方案中，所述方法进一步包括选择性富集标记的DNA片段的亚组。在一些实施方案中，所述方法进一步包括在富集之后在包含引物的测序衔接子的存在下扩增富集的标记的DNA片段。在一些实施方案中，(a)提供具有分子条形码的2至1000个不同组合的标记的DNA片段。

在一些实施方案中，用来自如上文或本文别处所述的衔接子文库的多核苷酸分子标记DNA片段。

在另一个方面，用于处理和/或分析受试者的核酸样品的方法包括(a)将来自该核酸样品的多核苷酸片段暴露于一组文库衔接子以生成标记的多核苷酸片段；以及(b)在产生扩增的多核苷酸片段作为标记的多核苷酸片段的扩增产物的条件下，使标记的多核苷酸片段经历核酸扩增反应。该组文库衔接子包含具有分子条形码的多个多核苷酸分子，其中所述多个多核苷酸分子为小于或等于80个核苷酸碱基的长度，其中所述分子条形码为至少4个核苷酸碱基的长度，并且其中(1)所述分子条形码彼此不同，并且彼此之间具有至少为1的编辑距离；(2)所述分子条形码位于距离其各自的多核苷酸分子的末端至少一个核苷酸碱基处；(3)任选地，在所有多核苷酸分子中至少一个末端碱基是相同的；并且(4)所述多核苷酸分子均不含有完整的测序仪基序。

在一些实施方案中，所述方法进一步包括确定扩增的标记的多核苷酸片段的核苷酸序列。在一些实施方案中，在不进行聚合酶链反应(PCR)的情况下确定扩增的标记的多核苷酸片段的核苷酸序列。在一些实施方案中，所述方法进一步包括采用编程的计算机处理器分析所述核苷酸序列，以鉴定受试者的核苷酸样品中的一个或多个遗传变异。在一些实施方案中，所述一个或多个遗传变异选自碱基变化、插入、重复、缺失、拷贝数变异和颠换。在一些实施方案中，所述一个或多个遗传变异包括一个或多个肿瘤相关遗传改变。

在一些实施方案中，所述受试者患有或疑似患有疾病。在一些实施方案中，该疾病是癌症。在一些实施方案中，所述方法进一步包括从受试者中采集核酸样品。在一些实施方案中，从选自受试者的血液、血浆、血清、尿液、唾液、粘膜分泌物、痰液、粪便、脑脊液和泪液的位置采集核酸样品。在一些实施方案中，该核酸样品是无细胞核酸样品。在一些实施方案中，从受试者的不超过100纳克(ng)的双链多核苷酸分子中采集核酸样品。

在一些实施方案中，所述多核苷酸片段包含双链多核苷酸分子。在一些实施方案中，在(a)中，通过平端连接、粘端连接、分子倒置探针、PCR、基于连接的PCR、多重PCR、单链连接和单链环化，将所述多个多核苷酸分子与所述多核苷酸片段偶联。在一些实施方案中，将所述核酸样品的多核苷酸片段暴露于所述多个多核苷酸分子以至少10％的转化效率产生标记的多核苷酸片段。在一些实施方案中，至少5％、6％、7％、8％、9％、10％、20％或25％中任一比例的标记的多核苷酸片段共享共同的多核苷酸分子或序列。在一些实施方案中，所述方法进一步包括由所述核酸样品生成多核苷酸片段。

在一些实施方案中，所述经历包括从对应于选自下组的基因的序列扩增标记的多核苷酸片段：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。

在另一个方面，一种方法包括(a)由多个多核苷酸分子生成多个序列阅读值，其中所述多个多核苷酸分子覆盖靶基因组的基因组基因座，其中所述基因组基因座对应于选自下组的多个基因：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1；(b)采用计算机处理器将所述多个序列阅读值分组成家族，其中每个家族包含来自一种模板多核苷酸的序列阅读值；(c)对于每个家族，合并序列阅读值以生成共有序列；(d)判定在所述基因组基因座之中的给定基因组基因座处的共有序列；以及(e)在所述给定基因组基因座处检测以下任意项：所述判定之中的遗传变异，所述判定之中的遗传改变的频率，判定的总数，以及所述判定之中的改变的总数。

在一些实施方案中，每个家族包含来自仅一种模板多核苷酸的序列阅读值。在一些实施方案中，所述给定基因组基因座包含至少一个核酸碱基。在一些实施方案中，所述给定基因组基因座包含多个核酸碱基。在一些实施方案中，所述判定包括判定在所述给定基因组基因座处的至少一个核酸碱基。在一些实施方案中，所述判定包括判定在所述给定基因组基因座处的多个核酸碱基。在一些实施方案中，所述判定包括以下任意一项：系统发育分析，投票(voting)，加权(weighing)，为家族中的基因座处的每个阅读值指定概率，以及判定具有最高概率的碱基。

在一些实施方案中，所述方法进一步包括在所述基因组基因座之中的额外基因组基因座处进行(d)-(e)。在一些实施方案中，所述方法进一步包括基于在给定基因组基因座和额外基因组基因座处的计数，确定在给定基因组基因座和额外基因组基因座中的一个基因组基因座处的拷贝数变异。

在一些实施方案中，所述分组包括通过鉴定(i)与所述多个多核苷酸分子偶联的不同的分子条形码和(ii)所述多个序列阅读值之间的相似性，将所述多个序列阅读值分类成家族，其中每个家族包含与分子条形码的不同组合相关的多个核酸序列以及相似或相同的序列阅读值。不同的分子条形码具有不同的序列。

在一些实施方案中，通过评估每个序列阅读值的定量量度或统计显著性水平来生成共有序列。在一些实施方案中，所述定量量度包括使用二项分布、指数分布、β分布或经验分布。在一些实施方案中，所述方法进一步包括将共有序列定位到靶基因组。在一些实施方案中，所述多个基因包括选自所述组的所述多个基因中的至少2、3、4、5、6、7、8、9、10、20、30、40、50个或全部。

本公开内容的另一个方面提供了一种方法，其包括(a)在单个反应器皿中提供模板多核苷酸分子和一组文库衔接子，其中所述文库衔接子是具有不同分子条形码(例如，2至1,000个不同的分子条形码)的多核苷酸分子，并且其中所述文库衔接子均不含有完整的测序仪基序；(b)在所述单个反应器皿中，使所述文库衔接子与模板多核苷酸分子以至少10％的效率偶联，从而用在多个不同的标记组合(例如，4至1,000,000个不同的标记组合)中的标记组合标记每个模板多核苷酸，以产生标记的多核苷酸分子；(c)在产生扩增的多核苷酸分子作为标记的多核苷酸分子的扩增产物的条件下，使所述标记的多核苷酸分子经历扩增反应；以及(d)对扩增的多核苷酸分子进行测序。

在一些实施方案中，所述模板多核苷酸分子是平端或粘端的。在一些实施方案中，除了分子条形码之外，所述文库衔接子相同。在一些实施方案中，每个文库衔接子具有双链部分和至少一个单链部分。在一些实施方案中，所述双链部分具有在所述分子条形码之中的分子条形码。在一些实施方案中，每个文库衔接子进一步在至少一个单链部分上包含链标识条形码。在一些实施方案中，所述单链部分具有部分测序仪基序。在一些实施方案中，所述文库衔接子具有相同末端核苷酸的序列。在一些实施方案中，所述模板多核苷酸分子是双链的。在一些实施方案中，所述文库衔接子与模板多核苷酸分子的两端偶联。

在一些实施方案中，使标记的多核苷酸分子经历扩增反应包括非特异性地扩增标记的多核苷酸分子。

在一些实施方案中，所述扩增反应包括使用引发位点扩增每个标记的多核苷酸分子。在一些实施方案中，该引发位点是引物。在一些实施方案中，该引物是通用引物。在一些实施方案中，该引发位点是切口。

在一些实施方案中，所述方法进一步包括，在(e)之前，(i)从扩增的多核苷酸分子中分离出包含一个或多个给定序列的多核苷酸分子，以产生富集的多核苷酸分子；以及(ii)采用测序衔接子扩增富集的多核苷酸分子。

在一些实施方案中，所述效率为至少30％、40％或50％。在一些实施方案中，所述方法进一步包括在对扩增的多核苷酸分子进行测序后鉴定遗传变异。在一些实施方案中，所述测序包括(i)在产生额外的扩增的多核苷酸分子作为扩增的多核苷酸分子的扩增产物的条件下，使扩增的多核苷酸分子经历额外的扩增反应；以及(ii)对额外的扩增的多核苷酸分子进行测序。在一些实施方案中，在测序衔接子的存在下进行所述额外的扩增。

在一些实施方案中，在不等分标记的多核苷酸分子的情况下进行(b)和(c)。在一些实施方案中，所述标记是非独特的标记。

另一个方面提供了一种用于分析受试者的靶核酸分子的系统，其包括：通信接口，其接收覆盖靶基因组的基因组基因座的多个多核苷酸分子的核酸序列阅读值；计算机存储器，其存储由所述通信接口接收的多个多核苷酸分子的核酸序列阅读值；以及计算机处理器，其可操作地耦合至通信接口和存储器，并且被编程为(i)将所述多个序列阅读值分组成家族，其中每个家族包含来自一种模板多核苷酸的序列阅读值，(ii)对于每个所述家族，合并序列阅读值以生成共有序列，(iii)判定在所述基因组基因座之中给定基因组基因座处的共有序列，以及(iv)在所述给定基因组基因座处检测以下任意项：所述判定之中的遗传变异，所述判定之中的遗传改变的频率，判定的总数，以及所述判定之中的改变的总数，其中所述基因组基因座对应于选自下组的多个基因：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。

在另一个方面为一组寡核苷酸分子，该寡核苷酸分子与选自下组的至少5个基因选择性地杂交：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。

在一些实施方案中，所述寡核苷酸分子为10-200个碱基的长度。在一些实施方案中，所述寡核苷酸分子与所述至少5个基因的外显子区选择性地杂交。在一些实施方案中，所述寡核苷酸分子与所述至少5个基因中的至少30个外显子选择性地杂交。在一些实施方案中，多个寡核苷酸分子与所述至少30个外显子中的每一个选择性地杂交。在一些实施方案中，与每个外显子杂交的寡核苷酸分子具有与至少1个其他寡核苷酸分子重叠的序列。

在另一个方面，一种试剂盒包含含有多个文库衔接子的第一容器，每一个文库衔接子均具有不同的分子条形码；以及含有多个测序衔接子的第二容器，每一个测序衔接子均包含测序仪基序的至少一部分以及任选的样品条形码。所述文库衔接子可以如上文或本文别处所述。

在一些实施方案中，所述测序衔接子包含样品条形码。在一些实施方案中，所述文库衔接子是平端和Y形，并且为小于或等于80个核酸碱基的长度。在一些实施方案中，所述测序衔接子从一端到另一端最多为70个碱基。

在另一个方面，用于检测无细胞DNA样品中的序列变异的方法包括以大于99.9％的特异性检测浓度小于1％的稀有DNA。

在另一个方面，一种方法包括以至少1％的检测极限和大于99.9％的特异性检测包含DNA的样品中的遗传变异。在一些实施方案中，所述方法进一步包括以至少30％、40％或50％的转化效率将cDNA(例如，cfDNA)转化为衔接子标记的DNA，并且通过消除假阳性序列阅读值减少测序噪音(或失真)。

另一个方面提供了一种方法，其包括(a)提供包含一组双链多核苷酸分子的样品，每个双链多核苷酸分子包含第一和第二互补链；(b)用一组双链体标记物标记所述双链多核苷酸分子，其中每个双链体标记物差异性地标记所述组中的双链多核苷酸分子的第一和第二互补链；(c)对标记的链中的至少一些进行测序以产生一组序列阅读值；(d)减少和/或追踪该组序列阅读值中的冗余(redundancy)；(e)将序列阅读值分类为配对阅读值和非配对阅读值，其中(i)每个配对阅读值对应于由来源于所述组中双链多核苷酸分子的第一标记链和第二差异标记互补链生成的序列阅读值，并且(ii)每个非配对阅读值表示第一标记链，并且来源于双链多核苷酸分子的第二差异标记互补链在该组序列阅读值中的序列阅读值之中没有被表示；(f)确定定位到一个或多个遗传基因座中的每一个的(i)配对阅读值和(ii)非配对阅读值的定量量度；以及(g)基于定位到每个基因座的配对阅读值和非配对阅读值的定量量度，用编程的计算机处理器估算定位到所述一个或多个遗传基因座中的每一个的所述组中全部双链多核苷酸分子的定量量度。

在一些实施方案中，所述方法进一步包括(h)通过确定在步骤(g)中确定的在所述一个或多个遗传基因座中的每一个处的归一化总定量量度并基于该归一化量度确定拷贝数变异，来检测样品中的拷贝数变异。在一些实施方案中，所述样品包含基本上来源于无细胞核酸的双链多核苷酸分子。在一些实施方案中，所述双链体标记物不是测序衔接子。

在一些实施方案中，减少该组序列阅读值中的冗余包括将由样品中的原始多核苷酸分子的扩增产物产生的序列阅读值分解(collapsing)回到该原始多核苷酸分子。在一些实施方案中，所述方法进一步包括确定原始多核苷酸分子的共有序列。在一些实施方案中，所述方法进一步包括鉴定在一个或多个包含序列变异的遗传基因座处的多核苷酸分子。在一些实施方案中，所述方法进一步包括确定定位到基因座的配对阅读值的定量量度，其中所述对的两条链均包含序列变异。在一些实施方案中，所述方法进一步包括确定配对分子的定量量度，其中所述对中仅一个成员具有序列变异；和/或确定具有序列变异的非配对分子的定量量度。在一些实施方案中，该序列变异选自单核苷酸变异、插入缺失、颠换、易位、倒位、缺失、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因重复和染色体损伤。

另一个方面提供了一种系统，其包含含有机器可执行代码的计算机可读介质，该机器可执行代码在被计算机处理器执行时实施一种方法，该方法包括：(a)接收用双链体标记物标记的多核苷酸的一组序列阅读值至存储器中；(b)减少和/或追踪这组序列阅读值中的冗余；(c)将序列阅读值分类为配对阅读值和非配对阅读值，其中(i)每个配对阅读值对应于该组中由来源于双链多核苷酸分子的第一标记链和第二差异标记互补链生成的序列阅读值，并且(ii)每个非配对阅读值表示第一标记链，并且来源于双链多核苷酸分子的第二差异标记互补链在该组序列阅读值中的序列阅读值之中没有被表示；(d)确定定位到一个或多个遗传基因座中的每一个的(i)配对阅读值和(ii)非配对阅读值的定量量度；以及(e)基于定位到每个基因座的配对阅读值和非配对阅读值的定量量度，估算定位到一个或多个遗传基因座中的每一个的该组中全部双链多核苷酸分子的定量量度。

另一个方面提供了一种方法，其包括(a)提供包含一组双链多核苷酸分子的样品，每个双链多核苷酸分子包含第一和第二互补链；(b)用一组双链体标记物标记所述双链多核苷酸分子，其中每个双链体标记物差异性地标记该组中的双链多核苷酸分子的第一和第二互补链；(c)对标记的链中的至少一些进行测序以产生一组序列阅读值；(d)减少和/或追踪这组序列阅读值中的冗余；(e)将序列阅读值分类为配对阅读值和非配对阅读值，其中(i)每个配对阅读值对应于由来源于该组中双链多核苷酸分子的第一标记链和第二差异标记互补链生成的序列阅读值，并且(ii)每个非配对阅读值表示第一标记链，并且来源于双链多核苷酸分子的第二差异标记互补链在该组序列阅读值中的序列阅读值之中没有被表示；以及(f)确定以下至少两个的定量量度：定位到一个或多个遗传基因座中的每一个的(i)配对阅读值，(ii)非配对阅读值，(iii)配对阅读值的读深和(iv)非配对阅读值的读深。

在一些实施方案中，(f)包括确定(i)-(iv)中的至少三个的定量量度。在一些实施方案中，(f)包括确定(i)-(iv)中全部的定量量度。在一些实施方案中，所述方法进一步包括(g)基于定位到每个基因座的配对阅读值和非配对阅读值的定量量度以及它们的读深，用编程的计算机处理器估算定位到所述一个或多个遗传基因座中的每一个的所述组中全部双链多核苷酸分子的定量量度。

在另一个方面，一种方法包括(a)用第一标记物组标记对照亲本多核苷酸以产生标记的对照亲本多核苷酸，其中所述第一标记物组包含多个标记物，其中所述第一标记物组中的每个标记物包含标识标记物和相同的对照标记物，并且其中所述标记物组包含多个不同的标识标记物；(b)用第二标记物组标记测试亲本多核苷酸以产生标记的测试亲本多核苷酸，其中所述第二标记物组包含多个标记物，其中所述第二标记物组中的每个标记物包含标识标记物和相同的可与所述对照标记物相区别的测试标记物，并且其中所述第二标记物组包含多个不同的标识标记物；(c)使标记的对照亲本多核苷酸与标记的测试亲本多核苷酸混合以形成集合库(pool)；(d)扩增所述集合库中的标记的亲本多核苷酸以形成扩增、标记的多核苷酸的集合库；(e)对所述扩增的集合库中的扩增、标记的多核苷酸进行测序以产生多个序列阅读值；(f)将序列阅读值分组成家族，每个家族包含由相同的亲本多核苷酸生成的序列阅读值，该分组任选地基于来自标识标记物和来自亲本多核苷酸的起始/末端序列的信息，并且任选地由组中的所述多个序列阅读值确定多个亲本多核苷酸中的每一个的共有序列；(g)基于具有测试标记物或对照标记物，将每个家族或共有序列分类为对照亲本多核苷酸或测试亲本多核苷酸；(h)确定定位到至少两个遗传基因座中的每一个的对照亲本多核苷酸和对照测试多核苷酸的定量量度；以及(i)基于定位到至少一个基因座的测试亲本多核苷酸和对照亲本多核苷酸的相对量，确定至少一个基因座处的测试亲本多核苷酸的拷贝数变异。

在另一个方面，一种方法包括(a)由多个模板多核苷酸生成多个序列阅读值，每个多核苷酸定位到基因组基因座；(b)将所述序列阅读值分组成家族，每个家族包含由一种模板多核苷酸生成的序列阅读值；(c)对每个家族判定所述基因组基因座处的碱基(或序列)；(d)在所述基因组基因座处检测以下任意项：所述判定之中的基因组改变，所述判定之中的遗传改变的频率，判定的总数，以及所述判定之中的改变的总数。

在一些实施方案中，判定包括以下任意项：系统发育分析，投票，加权，为家族的基因座处的每个阅读值指定概率，以及判定具有最高概率的碱基。在一些实施方案中，所述方法在两个基因座处进行，包括基于每一个基因座处的计数确定一个基因座处的CNV。

另一个方面提供了一种用于确定指示样品中单独双链DNA片段数目的定量量度的方法，其包括(a)确定两条链均被检测到的单独DNA分子的定量量度；(b)确定仅一条DNA链被检测到的单独DNA分子的定量量度；(c)从以上(a)和(b)推断两条链均未被检测到的单独DNA分子的定量量度；以及(d)使用(a)-(c)确定指示样品中单独双链DNA片段数目的定量量度。

在一些实施方案中，所述方法进一步包括通过确定在步骤(d)中确定的在一个或多个遗传基因座中的每一个处的归一化定量量度并基于该归一化量度确定拷贝数变异，来检测样品中的拷贝数变异。在一些实施方案中，所述样品包括基本上来源于无细胞核酸的双链多核苷酸分子。

在一些实施方案中，确定单独DNA分子的定量量度包括用一组双链体标记物标记DNA分子，其中每个双链体标记物差异性地标记样品中的双链DNA分子的互补链以提供标记链。在一些实施方案中，所述方法进一步包括对所述标记链中的至少一些进行测序以产生一组序列阅读值。在一些实施方案中，所述方法进一步包括将序列阅读值分类为配对阅读值和非配对阅读值，其中(i)每个配对阅读值对应于所述组中由来源于双链多核苷酸分子的第一标记链和第二差异标记互补链生成的序列阅读值，并且(ii)每个非配对阅读值表示第一标记链，并且来源于双链多核苷酸分子的第二差异标记互补链在该组序列阅读值中的序列阅读值之中没有被表示。在一些实施方案中，所述方法进一步包括确定定位到一个或多个遗传基因座中的每一个的(i)配对阅读值和(ii)非配对阅读值的定量量度，以基于定位到每个基因座的配对阅读值和非配对阅读值的定量量度确定样品中定位到所述一个或多个遗传基因座中的每一个的全部双链DNA分子的定量量度。

在另一个方面，用于减少测序分析中的失真的方法包括(a)用第一标记物组标记对照亲本多核苷酸以产生标记的对照亲本多核苷酸；(b)用第二标记物组标记测试亲本多核苷酸以产生标记的测试亲本多核苷酸；(c)使标记的对照亲本多核苷酸与标记的测试亲本多核苷酸混合以形成集合库；(d)确定标记的对照亲本多核苷酸和标记的测试亲本多核苷酸的量；以及(e)使用标记的对照亲本多核苷酸的量减少标记的测试亲本多核苷酸的量的失真。

在一些实施方案中，所述第一标记物组包含多个标记物，其中所述第一标记物组中的每个标记物包含相同的对照标记物和标识标记物，并且其中所述第一标记物组包含多个不同的标识标记物。在一些实施方案中，所述第二标记物组包含多个标记物，其中所述第二标记物组中的每个标记物包含标识标记物和相同的测试标记物，其中所述测试标记物可与所述对照标记物相区别，并且其中所述第二标记物组包含多个不同的标识标记物。在一些实施方案中，(d)包括扩增所述集合库中的标记的亲本多核苷酸以形成扩增、标记的多核苷酸的集合库，并对所述扩增的集合库中的扩增、标记的多核苷酸进行测序以产生多个序列阅读值。在一些实施方案中，所述方法进一步包括将序列阅读值分组成家族，每个家族包含由相同的亲本多核苷酸生成的序列阅读值，该分组任选地基于来自标识标记物和来自亲本多核苷酸的起始/末端序列的信息，并且任选地由组中的多个序列阅读值确定多个亲本多核苷酸中的每一个的共有序列。

在一些实施方案中，(d)包括基于定位到基因座的测试亲本多核苷酸和对照亲本多核苷酸的相对量，确定大于或等于一个基因座处的测试亲本多核苷酸的拷贝数变异。

另一个方面提供了一种方法，其包括(a)使衔接子与双链DNA多核苷酸连接，其中连接在单个反应器皿中进行，并且其中所述衔接子包含分子条形码，以产生包含来自所述双链DNA多核苷酸的插入物并且具有4至一百万个不同标记物的标记文库；(b)针对所述标记文库中的每一个双链DNA多核苷酸生成多个序列阅读值；(c)基于标记物中的信息和所述插入物的末端处的信息，将序列阅读值分组成家族，每个家族包含由所述双链DNA多核苷酸之中的单个DNA多核苷酸生成的序列阅读值；以及(d)基于家族的成员中该位置处的碱基，判定双链DNA分子中每个位置处的碱基。在一些实施方案中，(b)包括扩增所述标记文库中的每一个双链DNA多核苷酸分子以生成扩增产物，并对该扩增产物进行测序。在一些实施方案中，所述方法进一步包括对所述双链DNA多核苷酸分子多次测序。在一些实施方案中，(b)包括对整个插入物进行测序。在一些实施方案中，(c)进一步包括分解每个家族中的序列阅读值以生成共有序列。在一些实施方案中，(d)包括判定来自所述序列阅读值的至少一个亚组的多个连续碱基以鉴定所述双链DNA分子中的单核苷酸变异(SNV)。

另一个方面提供了一种检测来自包含来自体细胞和病变细胞的多核苷酸的样品的病变细胞异质性的方法。该方法包括定量样品中在多个遗传基因座中的每一个处具有核苷酸序列变异的多核苷酸；确定所述多个遗传基因座中的每一个处的拷贝数变异(CNV)，其中该CNV指示在病变细胞多核苷酸中基因座的遗传剂量；用编程的计算机处理器针对多个基因座中的每一个，根据基因座处的遗传剂量，确定在该基因座处具有序列变异的多核苷酸的量的相对量度；以及比较在所述多个基因座中的每一个处的相对量度，其中不同的相对量度指示肿瘤异质性。

在另一个方面，一种方法包括使受试者经历一个或多个脉冲治疗周期，每个脉冲治疗周期包括(a)第一阶段，在该阶段以第一量施用药物；以及(b)第二阶段，在该阶段以减少的第二量施用所述药物，其中(i)第一阶段的特征在于检测的肿瘤负荷大于第一临床水平；并且(ii)第二阶段的特征在于检测的肿瘤负荷低于第二临床水平。

通过下列详细描述，本公开内容的其他方面和优点对本领域技术人员而言将会变得显而易见，详细描述中仅示出和描述了本发明的说明性实施方案。如将会意识到的，本公开内容能够具有其他和不同的实施方案，并且其若干细节能够在各种明显的方面进行修改，所有这些都不脱离本公开内容。因此，附图和说明书本质上将被视为说明性的而不是限制性的。

援引并入

本说明书中提及的所有出版物、专利和专利申请均通过引用以相同的程度并入本文，犹如特别地和单独地指出每个单独的出版物、专利或专利申请均通过引用而并入。

附图说明

本发明的新颖特征在所附权利要求中具体阐述。通过参考以下对其中利用了本发明的原理的说明性实施方案加以阐述的发明详述及其附图(在本文也称为“图”)，将会获得对本发明的特征和优势的更好的理解，在附图中：

图1为本公开内容的一种用于确定拷贝数变异(CNV)的方法的流程图示；

图2示出了对态和单态定位至基因组中的基因座A和基因座B；

图3显示了编码遗传基因座A的参考序列；

图4A-C显示了互补分子的扩增、测序、冗余减少和配对；

图5显示了在通过使来自Watson和Crick链的阅读值配对来检测序列变异中置信度的增加；

图6显示了被编程或以其他方式被配置为实施本公开内容的各种方法的计算机系统；

图7为用于分析来自用户的包含核酸的样品的系统的示意性图示，该系统包括测序仪、生物信息学软件和用于通过例如手持式设备或台式计算机报告分析的因特网连接；

图8为本发明的一种使用合并的测试和对照集合库确定CNV的方法的流程图示；以及

图9A-9C示意性地示出了一种用文库衔接子并随后用测序衔接子标记多核苷酸分子的方法。

具体实施方式

尽管本文中已经示出并描述了本发明的各个实施方案，但对于本领域技术人员显而易见的是，这些实施方案仅以示例的方式提供。本领域技术人员在不脱离本发明的情况下可想到多种变化、改变和替代。应当理解，可以采用本文中所述的本发明实施方案的各种替代方案。

如本文所用的术语“遗传变异”通常是指受试者的核酸样品或基因组中的改变、变异或多态性。这样的改变、变异或多态性可能是相对于参考基因组的，该参考基因组可以是所述受试者或其他个体的参考基因组。单核苷酸多态性(SNP)是多态性的一种形式。在一些实例中，一个或多个多态性包括一个或多个单核苷酸变异(SNV)、插入、缺失、重复、小的插入、小缺失、小重复、结构变体接合、可变长度串联重复和/或侧翼序列。拷贝数变异(CNV)、颠换和其他重排也是遗传变异的形式。基因组改变可以是碱基变化、插入、缺失、重复、拷贝数变异或颠换。

如本文所用的术语“多核苷酸”通常是指包含一个或多个核酸亚单位的分子。多核苷酸可以包含选自腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其变体的一个或多个亚单位。核苷酸可以包含A、C、G、T或U或其变体。核苷酸可以包含可掺入至增长的核酸链中的任何亚单位。这样的亚单位可以是A、C、G、T或U，或对一个或多个互补A、C、G、T或U具有特异性的或与嘌呤(即，A或G或其变体)或嘧啶(即，C、T或U或其变体)互补的任何其他亚单位。亚单位能够使得单个核酸碱基或成组碱基(例如，AA、TA、AT、GC、CG、CT、TC、GT、TG、AC、CA或其尿嘧啶对应物)得以解析。在一些实例中，多核苷酸是脱氧核糖核酸(DNA)或核糖核酸(RNA)或其衍生物。多核苷酸可以是单链或双链的。

如本文所用的术语“受试者”通常是指动物如哺乳动物物种(例如，人)，或禽类(例如，鸟)物种，或其他生物体如植物。更具体地，所述受试者可以是脊椎动物、哺乳动物、小鼠、灵长类动物、猿或人。动物包括但不限于家畜、运动动物和宠物。受试者可以是健康的个体，患有或疑似患有疾病或有患病倾向的个体，或需要治疗或疑似需要治疗的个体。受试者可以是患者。

术语“基因组”通常是指生物体的遗传信息的全部。基因组可以在DNA或在RNA中编码。基因组可以包含编码蛋白质的编码区和非编码区。在生物体中，基因组可以将所有染色体的序列包含在一起。例如，人类基因组具有总计46条染色体。所有这些的序列共同构成人类基因组。

术语“衔接子(adaptor)”、“衔接子(adapter)”和“标记物”在本说明书全文中作为同义词使用。可以通过任何方法，包括连接、杂交或其他方法，使衔接子或标记物与待“标记”的多核苷酸序列偶联。

如本文所用的术语“文库衔接子(adaptor)”或“文库衔接子(adapter)”通常是指其身份(例如，序列)可用来区分生物样品(在本文中也称为“样品”)中的多核苷酸的分子(例如，多核苷酸)。

如本文所用的术语“测序衔接子”通常是指适合于允许测序仪器对靶多核苷酸进行测序(例如通过与靶多核苷酸相互作用以实现测序)的分子(例如，多核苷酸)。测序衔接子允许测序仪器对靶多核苷酸进行测序。在一个实例中，测序衔接子包含与附接至测序系统的固体支持物如流动池的捕获多核苷酸杂交或结合的核苷酸序列。在另一个实例中，测序衔接子包含与多核苷酸杂交或结合以生成发夹环的核苷酸序列，该发夹环允许测序系统对靶多核苷酸进行测序。测序衔接子可以包含测序仪基序，该测序仪基序可以是与其他分子(例如，多核苷酸)的流动池序列互补并可被测序系统使用以对靶多核苷酸进行测序的核苷酸序列。该测序仪基序还可以包括用于在测序如合成测序中使用的引物序列。该测序仪基序可以包括使文库衔接子与测序系统偶联和对靶多核苷酸进行测序所需的序列。

除非另外确定，当如本文所用的术语“至少”、“至多”或“约”在系列之前时是指所述系列的每一个成员。

与参考数值相关的术语“约”及其语法上的等同表述可以包括从该值加上或减去10％的值的范围。例如，“约10”的量可以包括9至11的量。在其他实施方案中，与参考数值相关的术语“约”可以包括从该值加上或减去10％、9％、8％、7％、6％、5％、4％、3％、2％或1％的值的范围。

与参考数值相关的术语“至少”及其语法上的等同表述可以包括该参考数值和大于该值的值。例如，“至少10”的量可以包括值10和大于10的任何数值如11、100和1,000。

与参考数值相关的术语“至多”及其语法上的等同表述可以包括该参考数值和小于该值的值。例如，“至多10”的量可以包括值10和10以下的任何数值如9、8、5、1、0.5和0.1。

1.用于处理和/或分析核酸样品的方法

本公开内容的一个方面提供了用于确定受试者的核酸样品中的基因组改变的方法。图1显示了一种确定拷贝数变异(CNV)的方法。可以实施该方法以确定其他基因组改变如SNV。

A.多核苷酸分离

本文公开的方法可以包括分离一种或多种多核苷酸。多核苷酸可以包含任何类型的核酸，例如，基因组核酸的序列或人工序列(例如，在基因组核酸中未发现的序列)。例如，人工序列可以含有非天然核苷酸。而且，多核苷酸可以在任何部分包含基因组核酸和人工序列两者。例如，多核苷酸可以包含1％至99％的基因组核酸和99％至1％的人工序列，其中总数加起来为100％。因此，还考虑到百分比的分数。例如，考虑到99.1％至0.9％的比例。

多核苷酸可以包含任何类型的核酸，如DNA和/或RNA。例如，如果多核苷酸是DNA，则它可以是基因组DNA、互补DNA(cDNA)或任何其他脱氧核糖核酸。多核苷酸还可以是无细胞DNA(cfDNA)。例如，所述多核苷酸可以是循环DNA。该循环DNA可以包括循环肿瘤DNA(ctDNA)。多核苷酸可以是双链或单链的。或者，多核苷酸可以包含双链部分和单链部分的组合。

多核苷酸不必是无细胞的。在一些情况下，可以从样品中分离多核苷酸。例如，在步骤(102)(图1)中，从样品中分离出双链多核苷酸。样品可以是从受试者中分离的任何生物样品。例如，样品可以包括但不限于体液、全血、血小板、血清、血浆、粪便、红细胞、白血细胞或白细胞、内皮细胞、组织活检物、滑液、淋巴液、腹水、间质液或细胞外液、细胞之间的空间中的流体(包括龈沟液)、骨髓、脑脊液、唾液、粘液、痰液、精液、汗液、尿液或任何其他体液。体液可以包括唾液、血液或血清。例如，多核苷酸可以是从体液例如血液或血清中分离出的无细胞DNA。样品还可以是肿瘤样品，其可以通过各种方法从受试者获得，该方法包括但不限于静脉穿刺、排泄、射精、按摩、活检、针吸、灌洗、刮擦、手术切口或干预或其他方法。

样品可以包含不同量的含有基因组等同物的核酸。例如，约30ng DNA的样品可以含有约10,000(10⁴)个单倍体人类基因组等同物，而在cfDNA的情况下，可以含有约2000亿(2x10¹¹)个单独的多核苷酸分子。类似地，约100ng DNA的样品可以含有约30,000个单倍体人类基因组等同物，而在cfDNA的情况下，可以含有约6000亿个单独的分子。

样品可以包含来自不同来源的核酸。例如，样品可以包含种系DNA或体细胞DNA。样品可以包含携带突变的核酸。例如，样品可以包含携带种系突变和/或体细胞突变的DNA。样品还可以包含携带癌症相关突变(例如，癌症相关体细胞突变)的DNA。

B.标记

可以对本文公开的多核苷酸进行标记。例如，在步骤(104)(图1)中，用双链体标记物标记双链多核苷酸，该标记物差异性地标记双链分子的互补链(即，“Watson”和“Crick”链)。在一个实施方案中，所述双链体标记物是具有互补和非互补部分的多核苷酸。

标记物可以是附接至多核苷酸的任何类型的分子，包括但不限于核酸、化学化合物、荧光探针或放射性探针。标记物还可以是寡核苷酸(例如，DNA或RNA)。标记物可以包含已知序列、未知序列或两者。标记物可以包含随机序列、预先确定的序列或两者。标记物可以是双链或单链的。双链标记物可以是双链体标记物。双链标记物可以包含两条互补链。或者，双链标记物可以包含杂交部分和非杂交部分。双链标记物可以是Y形的，例如，所述杂交部分在该标记物的一个末端而非杂交部分在该标记物的相对末端。一个这样的实例是在Illumina测序中使用的“Y衔接子”。其他实例包括发夹形衔接子或气泡形衔接子。气泡形衔接子具有其两侧的侧翼为互补序列的非互补序列。

可以使用任何方法进行本文公开的标记。可以用衔接子通过杂交标记多核苷酸。例如，衔接子可以具有与多核苷酸的序列的至少一部分互补的核苷酸序列。作为替代方案，可以用衔接子通过连接标记多核苷酸。

例如，标记可以包括使用一种或多种酶。该酶可以是连接酶。该连接酶可以是DNA连接酶。例如，该DNA连接酶可以是T4DNA连接酶、大肠杆菌DNA连接酶和/或哺乳动物连接酶。该哺乳动物连接酶可以是DNA连接酶I、DNA连接酶III或DNA连接酶IV。该连接酶还可以是热稳定的连接酶。标记物可以与多核苷酸的平端连接(平端连接)。或者，标记物可以与多核苷酸的粘端连接(粘端连接)。可通过优化各种条件提高连接的效率。可通过优化连接的反应时间提高连接的效率。例如，连接的反应时间可以少于12小时，例如，少于1、少于2、少于3、少于4、少于5、少于6、少于7、少于8、少于9、少于10、少于11、少于12、少于13、少于14、少于15、少于16、少于17、少于18、少于19或少于20小时。在特定实例中，连接的反应时间少于20小时。可通过优化反应中的连接酶浓度提高连接的效率。例如，连接酶浓度可以为至少10、至少50、至少100、至少150、至少200、至少250、至少300、至少400、至少500或至少600单位/微升。还可以通过增加或改变适合于连接的酶、酶辅因子或其他添加剂的浓度和/或优化具有该酶的溶液的温度来优化效率。还可以通过改变反应的各种组分的添加顺序来优化效率。标记物序列的末端可以包含二核苷酸以提高连接效率。当标记物包含非互补部分(例如，Y形衔接子)时，该标记物衔接子的互补部分上的序列可包含促进连接效率的一个或多个选定序列。这样的序列优选位于所述标记物的末端。这样的序列可以包含1、2、3、4、5或6个末端碱基。还可以使用具有高粘度(例如，低雷诺数)的反应溶液来提高连接效率。例如，溶液可以具有小于3000、小于2000、小于1000、小于900、小于800、小于700、小于600、小于500、小于400、小于300、小于200、小于100、小于50、小于25或小于10的雷诺数。还想到可以使用大致统一的片段分布(例如，严格的标准差)来提高连接效率。例如，片段大小的变化可以改变小于20％、小于15％、小于10％、小于5％或小于1％。标记还可以包括引物延伸，例如通过聚合酶链反应(PCR)。标记还可以包括基于连接的PCR、多重PCR、单链连接或单链环化中的任何一种。

在一些情况下，本文的标记物包括分子条形码。这样的分子条形码可以用来区分样品中的多核苷酸。分子条形码优选彼此不同。例如，分子条形码之间可以具有差异，其特征可为预先确定的编辑距离或汉明距离。在一些情况下，本文的分子条形码具有1、2、3、4、5、6、7、8、9或10的最小编辑距离。为了进一步提高将未标记的分子转化(例如，标记)为标记的分子的效率，优选使用短的标记物。例如，在一些实施方案中，文库衔接子标记物可以为最多65、60、55、50、45、40或35个核苷酸碱基的长度。这样的短文库条形码的集合优选包含多个不同的分子条形码，例如，至少2、4、6、8、10、12、14、16、18或20个具有1、2、3或更大的最小编辑距离的不同条形码。

因此，分子的集合可包含一个或多个标记物。在一些情况下，集合中的一些分子可以包含标识标记物(“标识符”)，如不被该集合中的任何其他分子共享的分子条形码。例如，在分子的集合的一些情况下，该集合中至少50％、至少51％、至少52％、至少53％、至少54％、至少55％、至少56％、至少57％、至少58％、至少59％、至少60％、至少61％、至少62％、至少63％、至少64％、至少65％、至少66％、至少67％、至少68％、至少69％、至少70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的分子可以包含不被该集合中的任何其他分子共享的标识符或分子条形码。如本文所用的，如果所述集合中至少95％的分子中的每一个具有不被该集合中的任何其他分子共享的标识符(“独特标记物”或“独特标识符”)，则认为该分子的集合是“独特标记的”。如果所述集合中至少1％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％或至少50％或约50％的分子中的每一个具有被该集合中的至少一个其他分子共享的标识标记物或分子条形码(“非独特标记物”或“非独特标识符”)，则认为该分子的集合是“非独特标记的”。因此，在非独特标记的群体中，不超过1％的分子是独特标记的。例如，在非独特标记的群体中，不超过1％、5％、10％、15％、20％、25％、30％、35％、40％、45％或50％的分子可以是独特标记的。

可以基于样品中估算的分子数目使用多个不同的标记物。在一些标记方法中，不同标记物的数目可以至少与样品中估算的分子数目相同。在其他标记方法中，不同标记物的数目可以是样品中估算的分子数目的至少二、三、四、五、六、七、八、九、十、一百或一千倍。在独特标记中，可以使用样品中估算的分子数目的至少两倍(或更多倍)的多个不同的标记物。

样品中的分子可以是非独特标记的。在这样的情况下，使用与样品中待标记的分子的数目相比更少数目的标记物或分子条形码。例如，使用不多于100、50、40、30、20或10个独特标记物或分子条形码来标记复杂的样品，如具有更多个不同片段的无细胞DNA样品。

待标记的多核苷酸可以例如天然地或使用其他方法例如剪切进行片段化。多核苷酸可以通过某些方法进行片段化，该方法包括但不限于机械剪切、使样品通过注射器、声处理、热处理(例如，90℃下30分钟)和/或核酸酶处理(例如，使用DNA酶、RNA酶、内切核酸酶、外切核酸酶和/或限制酶)。

多核苷酸片段(在标记之前)可以包含任何长度的序列。例如，多核苷酸片段(在标记之前)在长度上可以包含至少50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000个或更多个核苷酸。多核苷酸片段优选为无细胞DNA的大致平均长度。例如，多核苷酸片段在长度上可以包含约160个碱基。还可以将多核苷酸片段从较大的片段片段化为约160个碱基长度的较小的片段。

标记的多核苷酸可以包含与癌症相关的序列。该癌症相关的序列可以包含单核苷酸变异(SNV)、拷贝数变异(CNV)、插入、缺失和/或重排。

所述多核苷酸可以包含与癌症相关的序列，该癌症如急性成淋巴细胞白血病(ALL)、急性髓样白血病(AML)、肾上腺皮质癌、卡波西肉瘤、肛门癌、基底细胞癌、胆管癌、膀胱癌、骨癌、骨肉瘤、恶性纤维组织细胞瘤、脑干胶质瘤、脑癌、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、髓母细胞瘤、髓上皮瘤(medulloeptithelioma)、松果体实质瘤(pinealparenchymal tumor)、乳腺癌、支气管肿瘤、伯基特淋巴瘤、非霍奇金淋巴瘤、类癌瘤、宫颈癌、脊索瘤、慢性淋巴细胞白血病(CLL)、慢性髓性白血病(CML)、结肠癌、结直肠癌、皮肤T细胞淋巴瘤、原位导管癌、子宫内膜癌、食管癌、尤因肉瘤、眼癌、眼内黑素瘤、视网膜母细胞瘤、纤维组织细胞瘤、胆囊癌、胃癌、胶质瘤、毛细胞白血病、头颈癌、心脏癌、肝细胞(肝)癌、霍奇金淋巴瘤、下咽癌、肾癌、喉癌、唇癌、口腔癌、肺癌、非小细胞癌、小细胞癌、黑素瘤、口癌、骨髓增生异常综合征、多发性骨髓瘤、髓母细胞瘤、鼻腔癌、鼻窦癌、成神经细胞瘤、鼻咽癌、口癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、乳头瘤病、副神经节瘤、甲状旁腺癌、阴茎癌、咽癌、垂体瘤、浆细胞肿瘤、前列腺癌、直肠癌、肾细胞癌、横纹肌肉瘤、唾液腺癌、塞扎里综合征、皮肤癌、非黑素瘤、小肠癌、软组织肉瘤、鳞状细胞癌、睾丸癌、喉癌、胸腺瘤、甲状腺癌、尿道癌、子宫癌、子宫肉瘤、阴道癌、外阴癌、瓦尔登斯特伦巨球蛋白血症和/或肾母细胞瘤。

一个单倍体人类基因组等同物具有约3皮克的DNA。约1微克DNA的样品含有约300,000个单倍体人类基因组等同物。只要复制或同源多核苷酸中的至少一些具有相对于彼此的独特标识符，即具有不同的标记物，则可以实现测序的改进。然而，在某些实施方案中，选择所用标记物的数目，使得在任一位置开始的所有复制分子有至少95％的几率具有独特标识符。例如，在包含片段化基因组DNA例如cfDNA的约10,000个单倍体人类基因组等同物的样品中，z预期为2至8。可以用约10至100个不同标识符，例如，约2个标识符、约4个标识符、约9个标识符、约16个标识符、约25个标识符、约36个不同标识符、约49个不同标识符、约64个不同标识符、约81个不同标识符或约100个不同标识符来标记这样的群体。

包括分子条形码的具有可识别序列的核酸条形码可用于标记。例如，多个DNA条形码可以包含不同数目的核苷酸序列。可以使用具有2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或更多个可识别的核苷酸序列的多个DNA条形码。当仅附接至多核苷酸的一端时，所述多个DNA条形码可以产生2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或更多个不同的标识符。或者，当附接至多核苷酸的两端时，所述多个DNA条形码可以产生4、9、16、25、36、49、64、81、100、121、144、169、196、225、256、289、324、361、400个或更多个不同的标识符(它是当该DNA条形码仅附接至多核苷酸的一端时的^2)。在一个实例中，可以使用具有6、7、8、9或10个可识别的核苷酸序列的多个DNA条形码。当附接至多核苷酸的两端时，它们分别产生36、49、64、81或100个可能的不同标识符。在特定的实例中，所述多个DNA条形码可以包含8个可识别的核苷酸序列。当仅附接至多核苷酸的一端时，所述多个DNA条形码可以产生8个不同的标识符。或者，当附接至多核苷酸的两端时，所述多个DNA条形码可以产生64个不同的标识符。以这样的方式标记的样品可以是具有约10ng至约100ng、约1μg、约10μg中任意一个的范围内的片段化多核苷酸例如基因组DNA如cfDNA的那些样品。

可以以各种方式独特地鉴定多核苷酸。可以通过独特的DNA条形码独特地鉴定多核苷酸。例如，样品中的任意两个多核苷酸附接两个不同的DNA条形码。或者，可通过DNA条形码与多核苷酸的一个或多个内源序列的组合独特地鉴定多核苷酸。例如，样品中的任意两个多核苷酸可以附接相同的DNA条形码，但是仍然可以通过不同的内源序列鉴定所述两个多核苷酸。该内源序列可以在多核苷酸的末端上。例如，该内源序列可以邻近(例如，在中间有碱基)附接的DNA条形码。在一些情况下，该内源序列可以为至少2、4、6、8、10、20、30、40、50、60、70、80、90或100个碱基的长度。优选地，该内源序列是待分析的片段/多核苷酸的末端序列。该内源序列可以是序列的长度。例如，包含8个不同DNA条形码的多个DNA条形码可以附接至样品中每个多核苷酸的两端。可以通过DNA条形码与多核苷酸末端上的约10个碱基对的内源序列的组合鉴定样品中的每个多核苷酸。不受理论束缚，多核苷酸的内源序列还可以是整个多核苷酸序列。

本文还公开了标记的多核苷酸的组合物。标记的多核苷酸可以是单链的。或者，标记的多核苷酸可以是双链的(例如，双链体标记的多核苷酸)。因此，本发明还提供了双链体标记的多核苷酸的组合物。所述多核苷酸可以包含任何类型的核酸(DNA和/或RNA)。所述多核苷酸包含本文公开的任何类型的DNA。例如，所述多核苷酸可以包含DNA，例如，片段化的DNA或cfDNA。该组合物中定位到基因组中的可定位碱基位置的一组多核苷酸可以是非独特标记的，即，不同标识符的数目可以为至少2个并且少于定位到可定位碱基位置的多核苷酸的数目。不同标识符的数目还可以为至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个并且少于定位到可定位碱基位置的多核苷酸的数目。

在一些情况下，随着组合物从约1ng变为约10μg或更高，可以使用更大的一组不同分子条形码。例如，可以使用5至100个不同的文库衔接子来标记cfDNA样品中的多核苷酸。

本文公开的系统和方法可以在涉及分子条形码的指定的应用中使用。可以将分子条形码指定给本发明公开的任何类型的多核苷酸。例如，可将分子条形码指定给无细胞多核苷酸(例如，cfDNA)。通常，本文公开的标识符可以是用来标记多核苷酸的条形码寡核苷酸。所述条形码标识符可以是核酸寡核苷酸(例如，DNA寡核苷酸)。所述条形码标识符可以是单链的。或者，所述条形码标识符可以是双链的。可以使用本文公开的任何方法将所述条形码标识符附接至多核苷酸。例如，可以使用酶通过连接将所述条形码标识符附接至多核苷酸。还可以通过PCR将所述条形码标识符并入多核苷酸中。在其他情况下，反应可以包括将金属同位素直接添加或通过用同位素标记的探针添加至分析物中。通常，在本公开内容的反应中独特或非独特的标识符或分子条形码的指定可以遵循例如美国专利申请2001/0053519、2003/0152490、2011/0160078和美国专利号6,582,908所述的方法和系统，上述每一篇文献均通过引用全文并入本文。

本文所用的标识符或分子条形码可以是完全内源性的，由此单独片段的环形连接可以在随机剪切或靶向扩增之前进行。在这种情况下，分子的新起点和终点与原始的分子内连接点的组合可以形成特异性标识符。

本文所用的标识符或分子条形码可以包括任何类型的寡核苷酸。在一些情况下，标识符可以是预先确定的、随机或半随机的序列寡核苷酸。标识符可以是条形码。例如，可以使用多个条形码，使得条形码在所述多个条形码中相对于彼此不一定是独特的。或者，可以使用多个条形码，使得每一个条形码对于所述多个条形码中的任何其他条形码是独特的。该条形码可以包含能够单独追踪的特定序列(例如预先确定的序列)。此外，条形码可以附接(例如，通过连接)至单独的分子，使得该条形码和其可以连接的序列的组合产生可以单独追踪的特定序列。如本文所述，条形码的检测与测序阅读值的开始(起始)和/或结束(终止)部分的序列数据相组合能够允许将独特身份指定给特定分子。单个序列阅读值的长度或碱基对数目还可以用来将独特身份指定给这样的分子。如本文所述，来自已经指定了独特身份的核酸的单链的片段可以由此允许随后鉴定来自亲本链的片段。以此方式，样品中的多核苷酸可以独特地或基本独特地得到标记。双链体标记物可以包括简并或半简并的核苷酸序列，例如，随机简并序列。该核苷酸序列可以包含任何数目的核苷酸。例如，该核苷酸序列可以包含1(如果使用非天然核苷酸)、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个核苷酸。在特定的实例中，该序列可以包含7个核苷酸。在另一个实例中，该序列可以包含8个核苷酸。该序列还可以包含9个核苷酸。该序列可以包含10个核苷酸。

条形码可以包含连续或非连续序列。包含至少1、2、3、4、5个或更多个核苷酸的条形码是连续序列或非连续序列。如果4个核苷酸未被任何其他核苷酸打断，例如，如果条形码包含序列TTGC，则当条形码是TTGC时该条形码是连续的。另一方面，如果条形码是TTXGC，其中X是核酸碱基，则该条形码是非连续的。

标识符或分子条形码可以具有n-聚体(n-mer)序列，其可以为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个核苷酸的长度。本文的标记物可以包含任何范围的核苷酸长度。例如，该序列可以为2至100、10至90、20至80、30至70、40至60或约50个核苷酸的长度。

所述标记物可以包含在标识符或分子条形码下游的双链固定的参考序列。或者，所述标记物可以包含在标识符或分子条形码上游或下游的双链固定的参考序列。双链固定的参考序列的每一条链可以为例如3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个核苷酸的长度。

C.衔接子

可以合成多核苷酸分子的文库以供在测序中使用。例如，可以制备包含多个多核苷酸分子的多核苷酸文库，所述多个多核苷酸分子各自小于或等于100、90、80、70、60、50、45、40或35个核酸(或核苷酸)碱基长度。多个多核苷酸分子可以各自小于或等于35个核酸碱基长度。多个多核苷酸分子可以各自小于或等于30个核酸碱基长度。多个多核苷酸分子还可以小于或等于250、200、150、100或50个核酸碱基。此外，所述多个多核苷酸分子还可以小于或等于100、99、98、97、96、95、94、93、92、91、90、89、88、87、86、85、84、83、82、81、80、79、78、77、76、75、74、73、72、71、70、69、68、67、66、65、64、63、62、61、60、59、58、57、56、55、54、53、52、51、50、49、48、47、46、45、44、43、42、41、40、39、38、37、36、35、34、33、32、31、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11或10个核酸碱基。

包含多个多核苷酸分子的多核苷酸文库还可以具有就至少4个核酸碱基而言不同(相对于彼此)的分子条形码序列(或分子条形码)。分子条形码(在本文中还称为“条形码”或“标识符”)序列是使一个多核苷酸区别于另一个多核苷酸的核苷酸序列。在其他实施方案中，所述多核苷酸分子还可以具有就2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个核酸碱基而言不同的条形码序列。

包含多个多核苷酸分子的多核苷酸文库还可以具有多个不同的条形码序列。例如，多个多核苷酸分子可以具有至少4个不同的分子条形码序列。在一些情况下，所述多个多核苷酸分子具有2-100、4-50、4-30、4-20或4-10个不同的分子条形码序列。所述多个多核苷酸分子还可以具有其他范围的不同条形码序列，如1-4、2-5、3-6、4-7、5-8、6-9、7-10、8-11、9-12、10-13、11-14、12-15、13-16、14-17、15-18、16-19、17-20、18-21、19-22、20-23、21-24或22-25个不同的条形码序列。在其他情况下，多个多核苷酸分子可以具有至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个更多的不同的条形码序列。在特定的实例中，所述多个文库衔接子包含至少8个不同的序列。

所述不同的条形码序列的位置可以在所述多个多核苷酸内变化。例如，所述不同的条形码序列可以在距所述多个多核苷酸分子中相应多核苷酸分子的末端20、15、10、9、8、7、6、5、4、3或2个核酸碱基内。在一个实例中，多个多核苷酸分子具有在距所述末端10个核酸碱基内的不同条形码序列。在另一个实例中，多个多核苷酸分子具有在距所述末端5或1个核酸碱基内的不同条形码序列。在其他情况下，所述不同条形码序列可以在所述多个多核苷酸分子中相应多个多核苷酸分子的末端处。其他变化包括，所述不同分子条形码序列可以在距所述多个多核苷酸分子中相应多核苷酸分子的末端2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200个或更多个核酸碱基内。

所述多个多核苷酸分子的末端可以适合于与靶核酸分子连接。例如，该末端可以是平端。在一些其他情况下，该末端适合于与靶核酸分子的互补序列杂交。

包含多个多核苷酸分子的多核苷酸文库还可以具有至少为1的编辑距离。在一些情况下，该编辑距离是就所述多个多核苷酸分子的单独碱基而言的。在其他情况下，所述多个多核苷酸分子可以具有至少为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更大的编辑距离。该编辑距离可以是汉明距离。

在一些情况下，所述多个多核苷酸不含有测序衔接子。测序衔接子可以是包含与一个或多个测序衔接子或引物杂交的序列的多核苷酸。测序衔接子可以进一步包含与固体支持物杂交的序列，例如流动池序列。如本文所用的术语“流动池序列”及其语法上的等同表述是指允许例如经由附接至基底的引物而与该基底杂交的序列。该基底可以是珠子或平坦的表面。在一些实施方案中，流动池序列可以使多核苷酸附接至流动池或表面(例如，珠子的表面，例如，Illumina流动池)。

当多个多核苷酸分子不含有测序衔接子或引物时，所述多个多核苷酸分子中的每一个多核苷酸分子均不含有适合于允许采用给定的测序方法对靶核酸分子进行测序的核酸序列或其他部分，该测序方法如Illumina、SOLiD、Pacific Biosciences、GeneReader、Oxford Nanopore、Complete Genomics、Gnu-Bio、Ion Torrent、Oxford Nanopore或Genia。在一些实例中，当多个多核苷酸分子不含有测序衔接子或引物时，所述多个多核苷酸分子不含有流动池序列。例如，所述多个多核苷酸分子不能与如在Illumina流动池测序仪中所用的流动池结合。然而，如果需要，可通过诸如PCR扩增或连接等方法将这些流动池序列添加至所述多个多核苷酸分子中。此时，可以使用Illumina流动池测序仪。或者，当所述多个多核苷酸分子不含有测序衔接子或引物时，所述多个多核苷酸分子不含有发夹形衔接子或用于在靶核酸分子中生成发夹环的衔接子如Pacific Bioscience SMRTbell^TM衔接子。然而，如果需要，可通过诸如PCR扩增或连接等方法将这些发夹形衔接子添加至所述多个多核苷酸分子中。所述多个多核苷酸分子可以是环形或线性的。

多个多核苷酸分子可以是双链的。在一些情况下，所述多个多核苷酸分子可以是单链的，或者可以包含杂交区和非杂交区。多个多核苷酸分子可以是非天然存在的多核苷酸分子。

衔接子可以是多核苷酸分子。所述多核苷酸分子可以是Y形、气泡形或发夹形。发夹衔接子可以含有限制位点或含尿嘧啶的碱基。衔接子可以包含互补部分和非互补部分。该非互补部分可以具有编辑距离(例如，汉明距离)。例如，该编辑距离可以为至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24、至少25、至少26、至少27、至少28、至少29或至少30。该衔接子的互补部分可以包含被选择以实现和/或促进与多核苷酸连接的序列，例如，实现和/或促进以高产率与多核苷酸连接的序列。

可以纯化如本文所公开的多个多核苷酸分子。在一些情况下，如本文所公开的多个多核苷酸分子可以是分离的多核苷酸分子。在其他情况下，如本文所公开的多个多核苷酸分子可以是纯化且分离的多核苷酸分子。

在某些方面，所述多个多核苷酸分子中的每一个均为Y形或发夹形。所述多个多核苷酸分子中的每一个可以包含不同的条形码。所述不同的条形码可以是Y形或发夹形衔接子的互补部分(例如，双链部分)中的随机寡核苷酸。或者，所述不同的条形码可以在非互补部分的一条链(例如，Y形臂之一)中。如上所述，所述不同的条形码可以为至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个或更多个(或者如全文所述的任何长度)核酸碱基，例如，7个碱基。如上所述，所述条形码可以是连续或非连续序列。所述多个多核苷酸分子的长度为10个核酸碱基至35个核酸碱基(或如上所述的任何长度)。另外，所述多个多核苷酸分子可以包含编辑距离(如上所述)，即汉明距离。多个多核苷酸分子可以具有在距所述末端10个核酸碱基内的不同条形码序列。

在另一个方面，多个多核苷酸分子可以是测序衔接子。测序衔接子可以包含与一个或多个测序引物杂交的序列。测序衔接子可以进一步包含与固体支持物杂交的序列，例如流动池序列。例如，测序衔接子可以是流动池衔接子。该测序衔接子可以附接至多核苷酸片段的一端或两端。在另一个实例中，测序衔接子可以是发夹形。例如，发夹形衔接子可以包含互补双链部分和环部分，其中该双链部分可以附接(例如，连接)至双链多核苷酸。发夹形测序衔接子可以附接至多核苷酸片段的两端以生成环形分子，可对该环形分子多次测序。测序衔接子从一端到另一端可以为最多10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100个或更多个碱基。例如，测序衔接子从一端到另一端可以为最多70个碱基。测序衔接子从一端到另一端可以包含20-30、20-40、30-50、30-60、40-60、40-70、50-60、50-70个碱基。在特定的实例中，测序衔接子从一端到另一端可以包含20-30个碱基。在另一个实例中，测序衔接子从一端到另一端可以包含50-60个碱基。测序衔接子可以包含一个或多个条形码。例如，测序衔接子可以包含样品条形码。该样品条形码可以包含预先确定的序列。可以使用该样品条形码来鉴定多核苷酸的来源。该样品条形码可以为至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个或更多个(或如全文所述的任何长度)核酸碱基，例如，至少8个碱基。如上所述，该条形码可以是连续或非连续序列。

如本文所述的多个多核苷酸分子可以用作衔接子。衔接子可以包含一个或多个标识符。衔接子可以包含具有随机序列的标识符。或者，衔接子可以包含具有预先确定的序列的标识符。一些衔接子可以包含具有随机序列的标识符和具有预先确定的序列的另一标识符。包含标识符的衔接子可以是双链或单链衔接子。包含标识符的衔接子可以是Y形衔接子。Y形衔接子可以包含具有随机序列的一个或多个标识符。所述一个或多个标识符可以在该Y形衔接子的杂交部分和/或非杂交部分上。Y形衔接子可以包含具有预先确定的序列的一个或多个标识符。具有预先确定的序列的一个或多个标识符可以在该Y形衔接子的杂交部分和/或非杂交部分上。Y形衔接子可以包含具有随机序列的一个或多个标识符和具有预先确定的序列的一个或多个标识符。例如，具有随机序列的一个或多个标识符可以在Y形衔接子的杂交部分和/或Y形衔接子的非杂交部分上。具有预先确定的序列的一个或多个标识符可以在Y形衔接子的杂交部分和/或Y形衔接子的非杂交部分上。在特定的实例中，Y形衔接子可以包含在其杂交部分上的具有随机序列的标识符和在其非杂交部分上的具有预先确定的序列的标识符。所述标识符可以是本文公开的任何长度。例如，Y形衔接子可以包含在其杂交部分上的具有7个核苷酸的随机序列的标识符以及在其非杂交部分上的具有8个核苷酸的预先确定的序列的标识符。

衔接子可以包含具有分子条形码的双链部分和至少一个或两个单链部分。例如，该衔接子可以是Y形并且包含双链部分和两个单链部分。所述单链部分可以包含彼此不互补的序列。

所述衔接子可以包含具有被选择以允许该衔接子与多核苷酸有效(例如，效率为至少约20％、30％、40％、50％)连接或以其他方式偶联的序列的末端。在一些实例中，从嘌呤和嘧啶的组合中选择衔接子的双链部分中的末端核苷酸以提供有效连接。

在一些实例中，一组文库衔接子包含具有分子条形码的多个多核苷酸分子(文库衔接子)。所述文库衔接子为小于或等于80、70、60、50、45或40个核苷酸碱基的长度。所述分子条形码可以为至少4个核苷酸碱基的长度，但可以为4至20个核苷酸碱基的长度。所述分子条形码可以彼此不同，并且彼此之间具有至少为1、2、3、4或5的编辑距离。所述分子条形码位于距离其各自的文库衔接子的末端至少1、2、3、4、5、10或20个核苷酸碱基处。在一些情况下，在所有文库衔接子中至少一个末端碱基是相同的。

除了分子条形码之外，所述文库衔接子可以是相同的。例如，所述文库衔接子可以具有相同的序列，而仅在分子条形码的核苷酸序列上是不同的。

每个文库衔接子可以具有双链部分和至少一个单链部分。所谓“单链部分”意指非互补性的区域或突出端。在一些情况下，每个文库衔接子具有双链部分和两个单链部分。该双链部分可以具有分子条形码。在一些情况下，该分子条形码是随机寡核苷酸。每个文库衔接子可以进一步在单链部分上包含链标识条形码。该链标识条形码可以包含至少4个核苷酸碱基，在一些情况下包含4至20个核苷酸碱基。

在一些实例中，每个文库衔接子具有具分子条形码的双链部分和两个单链部分。所述单链部分可以彼此不杂交。所述单链部分可以彼此不完全互补。

所述文库衔接子可以在双链部分中具有相同的末端核苷酸的序列。末端核苷酸的序列可以为至少2、3、4、5或6个核苷酸碱基的长度。例如，所述文库衔接子的双链部分的一条链可以在末端具有序列ACTT、TCGC或TACC，而另一条链可以具有互补序列。在一些情况下，选择这样的序列以优化所述文库衔接子与靶多核苷酸连接的效率。可以选择这样的序列以优化文库衔接子的末端与靶多核苷酸之间的结合相互作用。

在一些情况下，所述文库衔接子均不含有样品标识基序(或样品分子条形码)。可经由测序衔接子提供这样的样品标识基序。样品标识基序可以包含至少4、5、6、7、8、9、10、20、30或40个核苷酸碱基的测序仪序列，该测序仪序列允许从来自其他样品的多核苷酸分子中鉴定来自给定样品的多核苷酸分子。例如，这可以允许在相同集合库中对来自两个受试者的多核苷酸分子进行测序并随后鉴定所述受试者的序列阅读值。

测序仪基序包括使文库衔接子与测序系统偶联并对与该文库衔接子偶联的靶多核苷酸进行测序所需的核苷酸序列。该测序仪基序可以包括与流动池序列互补的序列和可与用于在测序中使用的引物(或引发序列)选择性地杂交的序列(测序起始序列)。例如，这样的测序起始序列可以与在合成测序(例如，Illumina)中使用的引物互补。这样的引物可以包含在测序衔接子中。测序起始序列可以是引物杂交位点。

在一些情况下，所述文库衔接子均不含有完整的测序仪基序。所述文库衔接子可以不含有或含有部分测序仪基序。在一些情况下，所述文库衔接子包含测序起始序列。所述文库衔接子可以包含测序起始序列但不包含流动池序列。该测序起始序列可以与用于测序的引物互补。该引物可以是序列特异性引物或通用引物。这样的测序起始序列可以位于所述文库衔接子的单链部分上。作为替代方案，这样的测序起始序列可以是引发位点(例如，扭结(kink)或切口)以允许聚合酶在测序过程中与文库衔接子偶联。

在一些情况下，由测序衔接子提供部分或完整的测序仪基序。测序衔接子可以包含样品分子条形码和测序仪基序。可以以与文库衔接子隔开的组的形式提供测序衔接子。在给定组中的测序衔接子可以是相同的，即，它们含有相同的样品条形码和测序仪基序。

测序衔接子可以包含样品标识基序和测序仪基序。测序仪基序可以包含与测序起始序列互补的引物。在一些情况下，测序仪基序还包含流动池序列或允许多核苷酸以允许通过测序仪对该多核苷酸进行测序的方式进行配置或布置的其他序列。

文库衔接子和测序衔接子可以各自为部分衔接子，即，含有能够通过测序平台进行测序所需的部分而非全部序列。它们共同提供完整的衔接子。例如，文库衔接子可以不包含或包含部分测序仪基序，而这样的测序仪基序由测序衔接子提供。

图9A-9C示意性地示出了一种用文库衔接子标记靶多核苷酸分子的方法。图9A显示了作为在一条链上含有引物杂交位点且含有朝向另一端的分子条形码的部分衔接子的文库衔接子。该引物杂交位点可以是用于后续测序的测序起始序列。该文库衔接子为小于或等于80个核苷酸碱基的长度。在图9B中，该文库衔接子在靶多核苷酸分子的两端处连接以提供标记的靶多核苷酸分子。标记的靶多核苷酸分子可以经历核酸扩增以生成靶标的拷贝。接着，在图9C中，提供含有测序仪基序的测序衔接子，并使之与标记的靶多核苷酸分子杂交。所述测序衔接子含有样品标识基序。所述测序衔接子可以含有允许用给定测序仪对标记的靶标进行测序的序列。

D.测序

可以对标记的多核苷酸进行测序以生成序列阅读值(例如，如图1的步骤(106)中所示)。例如，可以对标记的双链体多核苷酸进行测序。可以仅由标记的双链体多核苷酸的一条链生成序列阅读值。或者，标记的双链体多核苷酸的两条链均可以生成序列阅读值。标记的双链体多核苷酸的两条链可以包含相同的标记物。或者，标记的双链体多核苷酸的两条链可以包含不同的标记物。当标记的双链体多核苷酸的两条链被差异性地标记时，由一条链(例如，Watson链)生成的序列阅读值可区别于由另一条链(例如，Crick链)生成的序列阅读值。测序可以包括针对每个分子生成多个序列阅读值。例如，这作为在测序过程中单独多核苷酸链的扩增的结果而发生(例如通过PCR)。

本文公开的方法可以包括多核苷酸的扩增。多核苷酸扩增可以导致核苷酸掺入核酸分子或引物中，从而形成与模板核酸互补的新的核酸分子。新形成的多核苷酸分子和它的模板可以用作合成另外的多核苷酸的模板。正在扩增的多核苷酸可以是任何核酸，例如，脱氧核糖核酸，包括基因组DNA、cDNA(互补DNA)、cfDNA和循环肿瘤DNA(ctDNA)。正在扩增的多核苷酸还可以是RNA。如本文所用的，一个扩增反应可以包括多轮DNA复制。DNA扩增反应可以包括例如聚合酶链反应(PCR)。一个PCR反应可以包括DNA分子的变性、退火和合成的2-100个“循环”。例如，在扩增步骤中可以进行2-7、5-10、6-11、7-12、8-13、9-14、10-15、11-16、12-17、13-18、14-19或15-20个循环。可以基于包括引物在内的序列的GC含量来优化PCR的条件。

核酸扩增技术可以与本文所述的分析一起使用。一些扩增技术是PCR方法，其可以包括但不限于溶液PCR和原位PCR。例如，扩增可以包括基于PCR的扩增。或者，扩增可以包括非基于PCR的扩增。模板核酸的扩增可以包括使用一种或多种聚合酶。例如，该聚合酶可以是DNA聚合酶或RNA聚合酶。在一些情况下，例如使用高保真度聚合酶(例如，

高保真度DNA聚合酶)或PCR方案进行高保真度扩增。在一些情况下，该聚合酶可以是高保真度聚合酶。例如，该聚合酶可以是KAPA HiFi DNA聚合酶。该聚合酶还可以是Phusion DNA聚合酶。可以在减小或最小化例如由片段长度、GC含量等引起的扩增偏差的反应条件下使用聚合酶。

通过PCR对多核苷酸的单条链的扩增将生成该链及其互补链两者的拷贝。在测序过程中，该链及其互补链均会生成序列阅读值。然而，由例如Watson链的互补链生成的序列阅读值可以原样鉴定，因为它们具有标记原始Watson链的双链体标记物部分的互补序列。相反，由Crick链或其扩增产物生成的序列阅读值将具有标记原始Crick链的双链体标记物部分。以这种方式，由Watson链的互补链的扩增产物生成的序列阅读值可区别于由原始分子的Crick链的扩增产物生成的互补序列阅读值。

可将所有扩增的多核苷酸提交给测序装置以供测序。或者，将所有扩增的多核苷酸的取样或亚组提交给测序装置以供测序。关于任何原始的双链多核苷酸，关于测序可具有三种结果。首先，可以由原始分子的两条互补链(即，由Watson链和由Crick链)生成序列阅读值。第二，可以仅由两条互补链之一生成序列阅读值(即，由Watson链或由Crick链，而非两者)。第三，不能由两条互补链中的任意一条生成序列阅读值。因此，对定位到遗传基因座的独特序列阅读值进行计数将低估定位到该基因座的原始样品中的双链多核苷酸的数目。本文描述了估算未发现的和未计数的多核苷酸的方法。

所述测序方法可以是大规模平行测序，即，对至少100、1000、10,000、100,000、100万、1000万、1亿或10亿个中任何数目的多核苷酸分子进行同时(或快速接续)测序。测序方法可以包括但不限于：高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Digital GeneExpression)(Helicos)、新一代测序、单分子合成测序(SMSS)(Helicos)、大规模平行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Maxam-Gilbert或Sanger测序、引物步移法，使用PacBio、SOLiD、Ion Torrent或纳米孔(Nanopore)平台的测序，和本领域中已知的任何其他测序方法。

例如，可以通过例如PCR来扩增双链体标记的多核苷酸(参见例如图4A，双链体标记的多核苷酸被称为mm’和nn’)。在图4A中，包含序列m的双链体多核苷酸的链具有序列标记物w和y，而包含序列m'的双链体多核苷酸的链具有序列标记物x和z。类似地，包含序列n的双链体多核苷酸的链具有序列标记物a和c，而包含序列n’的双链体多核苷酸的链具有序列标记物b和d。在扩增过程中，每一条链产生其自身和其互补序列。然而，例如，包含互补序列m'的原始链m的扩增子代可区别于原始链m'的扩增子代，因为原始链m的子代将具有序列5’-y’m’w’-3’，而原始m'链一条链的子代将具有序列5’-zm’x-3’。图4B更详细地显示了扩增。在扩增过程中，错误可能被引入扩增子代中，其由点表示。对扩增子代进行采样以供测序，使得并非所有链都产生序列阅读值，这导致了所示的序列阅读值。因为序列阅读值可来自于链或其互补链中的任何一个，因此序列和互补序列都将被包含在这组序列阅读值中。应当注意，多核苷酸将可能在每个末端具有相同的标记物。因此，对于标记物“a”和多核苷酸“m”，第一链可被标记为a-m-a’，而互补链可被标记为a-m’-a。

E.确定共有序列阅读值

本文公开的方法可以包括例如通过减少或追踪冗余来确定序列阅读值中的共有序列阅读值(例如，如图1的步骤(108)中所示)。对扩增的多核苷酸测序可以由相同的原始多核苷酸产生若干扩增产物的阅读值，被称为“冗余阅读值”。通过鉴定冗余阅读值，可以确定原始样品中的独特分子。如果样品中的分子是独特标记的，则可以基于它们的不同的条形码鉴定由单个独特的原始分子的扩增产生的阅读值。忽略条形码，可以基于阅读值的开始和结束处的序列，任选地结合该阅读值的长度，来确定来自独特的原始分子的阅读值。然而，在某些情况下，预期样品可能具有具相同起始终止序列并具相同长度的多个原始分子。在不进行条形码化的情况下，这些分子难以彼此区分。然而，如果多核苷酸的集合是非独特标记的(即，原始分子与至少一个其他原始分子共享相同的标识符)，则将来自具有起始/终止序列的条形码的信息和/或多核苷酸长度相结合显著增加了任意序列阅读值可被追溯到原始多核苷酸的概率。这在某种程度上是因为，即使没有进行独特标记，具有相同的起始/终止序列和长度的任何两个原始多核苷酸不太可能也被相同的标识符标记。

F.分解(Collapsing)

分解允许减少在该过程的每个步骤中产生的噪音(即，背景)。本文公开的方法可包括通过比较多个序列阅读值来分解，例如，生成共有序列。例如，从单个原始多核苷酸生成的序列阅读值可用来生成该原始多核苷酸的共有序列。反复轮次的扩增可能将错误引入子代多核苷酸中。而且，测序通常可能没有以完美的保真度进行，因此在该阶段还引入了测序错误。然而，可以对来源于单个原始分子的分子(包括具有序列变异的那些分子)的序列阅读值的比较进行分析，以便确定原始或“共有”序列。这可以系统发育地(phylogenetically)完成。可通过多种方法中的任一种从序列阅读值的家族生成共有序列。这样的方法包括，例如，来源于数字通信理论、信息论或生物信息学的构建共有序列的线性或非线性方法(诸如投票(例如，偏向投票(biased voting))、平均、统计、最大后验或最大似然检测、动态规划、贝叶斯(Bayesian)、隐马尔可夫(hidden Markov)或支持向量机方法等)。例如，如果大多数或全部序列阅读值都追溯到具有相同序列变异的原始分子，则该变异可能存在于该原始分子中。另一方面，如果序列变异存在于冗余序列阅读值的亚组中，则该变异可能已在扩增/测序期间被引入，并且代表不存在于原始分子中的矫作物(artifact)。而且，如果只有来源于原始多核苷酸的Watson或Crick链的序列阅读值含有该变异，则该变异可能已通过单侧DNA损伤、第一循环PCR错误或通过污染从不同样品扩增的多核苷酸而引入。

在对片段进行扩增并且读取和比对扩增片段的序列后，对该片段进行碱基判定(base calling)，例如，确定每个基因座最可能的核苷酸。然而，扩增片段和未发现的扩增片段的数目的变异(例如，未读取其序列的那些；可能的原因非常多，如扩增错误、测序读取错误、过长、过短、被切碎等)可能在碱基判定中引入错误。如果相对于发现的扩增片段(实际上被读取的扩增片段)，存在过多未发现的扩增片段，则碱基判定的可靠性可能降低。

因此，本文公开了一种校正碱基判定中未发现的片段的数目的方法。例如，在对基因座A(任意基因座)进行碱基判定时，首先假设存在N个扩增片段。序列读出值可能来自两种类型的片段：双链片段和单链片段。因此，我们将N1、N2和N3分别指定为双链、单链和未发现的片段的数目。因此，N＝N1+N2+N3(N1和N2从序列读出值中已知，而N和N3是未知的)。如果该式解出了N(或N3)，则将推断出N3(或N)。

使用概率估算N。例如，我们将“p”指定为在单链的序列读出值中已检测到(或已读取到)基因座A的核苷酸的概率。

对于来自双链的序列读出值，来自双链扩增片段的核苷酸判定具有p*p＝p^2的概率，发现所有N1双链具有以下等式：N1＝N*(p^2)。

对于来自单链的序列读出值。假设发现了2条链中的一条而另一条未发现，则发现一条链的概率为“p”，而漏掉另一条链的概率为(1-p)。此外，通过不区分源自5-引物和源自3-引物的单链，存在为2的因子。因此，来自单链扩增片段的核苷酸判定具有2×p×(1-p)的概率。因此，发现所有的N2单链具有以下等式：N2＝N×2×p(1-p)。

“p”也是未知的。为了解出p，使用N1与N2之比解出“p”：

一旦得到“p”，就可以得到N。在得到N后，可以得到N3＝N－N1－N2。

除了配对链与非配对链之比(其为分解后的量度)外，在每个基因座处的分解前读深中还存在有用的信息。该信息可用来进一步改善总分子计数的判定和/或提高判定变异的置信度。

例如，图4C示出了针对互补序列校正的序列阅读值。从原始Watson链或原始Crick链生成的序列可以基于其双链体标记物进行区分。可以对从相同原始链生成的序列进行分组。序列的检查可以允许我们推断出原始链的序列(“共有序列”)。在这种情况下，例如，因为nn’分子中的序列变异被包含在每个序列阅读值中而其他变异被视为离群错误(strayerror)，所以nn’分子中的序列变异被包含在共有序列中。在分解序列后，原始多核苷酸对可以根据其互补序列和双链体标记物进行鉴定。

图5示出了在通过使来自Watson和Crick链的阅读值配对来检测序列变异中置信度的增加。序列nn’可包含由点表示的序列变异。在一些情况下，序列pp’不包含序列变异。扩增、测序、减少冗余和配对可导致包含序列变异的相同原始分子的Watson和Crick链。相反，由于在测序过程中的扩增和采样期间引入的错误，使得Watson链p的共有序列可能含有序列变异，而Crick链p’的共有序列不含有序列变异。与向一条链(pp’序列)上引入相比，扩增和测序向双链体的两条链(nn’序列)中引入相同变异的可能性较低。因此，pp’序列中的变异更可能是矫作物，而nn’序列中的变异更可能存在于原始分子中。

本文公开的方法可用来校正由实验例如PCR、扩增和/或测序导致的错误。例如，这样的方法可包括将一个或多个双链衔接子附接至双链多核苷酸的两端，由此提供标记的双链多核苷酸；扩增该双链标记的多核苷酸；对该标记的多核苷酸的两条链进行测序；将一条链的序列与其互补序列进行比较，以确定测序过程中引入的任何错误；以及根据(d)校正序列中的错误。该方法中使用的衔接子可以是本文公开的任何衔接子，例如，Y形衔接子。该衔接子可包含本文公开的任何条形码(例如，不同的条形码)。

G.定位

可将序列阅读值或共有序列定位至一个或多个选定的遗传基因座(例如，如图1的步骤(110)所示)。遗传基因座可以是，例如，基因组中的特定核苷酸位置、核苷酸的序列(例如，开放阅读框)、染色体的片段、全染色体或整个基因组。遗传基因座可以是多态性基因座。多态性基因座可以是这样的基因座，在该基因座处，序列变异存在于群体中和/或存在于受试者和/或样品中。多态性基因座可以由共存于基因组的相同位置的两个或更多个不同的序列生成。所述不同的序列彼此之间的差异可能在于一个或多个核苷酸置换、缺失/插入和/或任意数目的核苷酸的复制，该任意数目的核苷酸通常是相对较小数目的核苷酸，如少于50、45、40、35、30、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个核苷酸等。可以通过在群体内变化的单核苷酸位置，例如，单核苷酸变异(SNV)或单核苷酸多态性(SNP)，来创建多态性基因座。

用于定位的参考基因组可以包括感兴趣的任意物种的基因组。可用作参考物的人类基因组序列可以包括hg19组装体(assembly)或任何先前的或可获得的hg组装体。可以使用可在genome.ucsc.edu/index.html获得的基因组浏览器来探询这样的序列。其他物种基因组包括例如PanTro2(黑猩猩)和mm9(小鼠)。

在本文公开的方法中，可以在定位之前或之后进行分解。在一些方面，可以在定位之前进行分解。例如，可以将序列阅读值根据其标记物和一个或多个内源序列分组成家族，而不必考虑该阅读值定位在基因组中的何处。然后，可以将家族的成员分解成共有序列。该共有序列可以采用本文公开的任何分解方法生成。然后，可以将该共有序列定位至基因组中的位置。可以对定位至基因座的阅读值进行定量(例如，计数)。还可以确定在基因座处携带突变的阅读值的百分比。或者，可以在定位之后进行分解。例如，首先可将所有阅读值定位至基因组。然后可将阅读值根据其标记物和一个或多个内源序列分组成家族。由于阅读值已被定位至基因组，因此可以确定每个基因座处每个家族的共有碱基。在其他方面，可以生成DNA分子的一条链(例如，Watson链或Crick链)的共有序列。可以在确定DNA分子的一条链的共有序列之前或之后进行定位。可以确定双态(Doublet)和单态(Singlet)的数目。可以使用这些数目计算未发现的分子。例如，可以采用以下等式计算未发现的分子：N＝D+S+U；D＝Np(2)，S＝N2pq，其中p＝1-q；其中p是发现的概率；q是漏掉链的概率。

H.分组

本文公开的方法还可包括对序列阅读值进行分组。可以根据序列的不同类型，例如，寡核苷酸标记物(例如，条形码)的序列、多核苷酸片段的序列或任意组合，对序列阅读值进行分组。例如，如步骤(112)(图1)所示，可以将序列阅读值如下分组：从样品中的双链多核苷酸的“Watson”链生成的序列阅读值和从“Crick”链生成的序列阅读值可根据它们所具有的双链体标记物进行鉴定。以这种方式，来自双链体多核苷酸的Watson链的序列阅读值或共有序列可以与来自其互补Crick链的序列阅读值或共有序列配对。配对的序列阅读值可以被称为“对态”。

其中在序列阅读值中无法找到与互补链相对应的序列阅读值的序列阅读值被称为“单态”。

两条互补链均没有生成序列阅读值的双链多核苷酸被称为“未发现的”分子。

I.定量

本文公开的方法还包括对序列阅读值进行定量。例如，如步骤(114)(图1)所示，将定位至选定遗传基因座或定位至多个选定遗传基因座中的每一个的对态和单态进行定量，例如，计数。

所述定量可包括估算样品中多核苷酸(例如，对态多核苷酸、单态多核苷酸或未发现的多核苷酸)的数目。例如，如步骤(116)(图1)所示，估算样品中没有生成序列阅读值的双链多核苷酸(“未发现的”多核苷酸)的数目。可以根据在任意基因座处对态与单态的相对数目来确定双链多核苷酸不生成序列阅读值的概率。采用该概率，可以估算未发现的多核苷酸的数目。

在步骤(118)中，样品中定位至选定基因座的双链多核苷酸的总数的估算值为定位至该基因座的对态的数目、单态的数目以及未发现的分子的数目之和。

可以根据对态与单态的相对数目来估算样品中未发现的原始分子的数目(图2)。参考图2，作为一个示例，记录了特定基因组基因座—基因座A的计数，其中1000个分子配对而1000个分子未配对。对于单个Watson或Crick链，假设其通过转化后的过程具有统一的概率p，我们可以如下计算未能使其通过该过程的(未发现的)分子的比例：使R＝配对与未配对分子之比＝1，则R＝1＝p²/(2p(1-p))。这意味着p＝2/3，并且丢失的分子的量等于(1-p)²＝1/9。因此，在该实例中，大约11％的转化分子丢失并且从未被检测到。考虑同一样品中的另一个基因组基因座—基因组B，其中1440个分子配对而720个未配对。采用相同的方法，我们可以推断出丢失的分子的数目仅为4％。比较这两个区域，可以假设与基因座B中的2160个分子相比，基因座A具有2000个独特的分子——几乎8％的差异。然而，通过在每个区域中正确地加入丢失的分子，我们推断基因座A中有2000/(8/9)＝2250个分子而基因座B中有2160/.96＝2250个分子。因此，两个区域中的计数实际上是相等的。这一校正以及因此导致的更高的灵敏度可以通过转化原始双链核酸分子并在生物信息学上追踪在过程结束时配对和未配对的所有分子来实现。类似地，可以采用相同的程序来推断似乎具有相似计数的观察到的独特分子的区域中的真实拷贝数变异。通过在两个或更多个区域中将未发现的分子的数目考虑在内，拷贝数变异变得明显。

除了采用二项分布外，估算未发现的分子的数目的其他方法还包括基于观察到的序列阅读值的冗余的指数、β、γ或经验分布。在后一种情况下，配对和未配对分子的读出计数的分布可以来源于这样的冗余，从而推断特定基因座处原始多核苷酸分子的潜在分布。这通常可以导致更好地估算未发现的分子的数目。

J.CNV检测

本文公开的方法还包括检测CNV。例如，如步骤(120)(图1)所示，一旦确定了定位至基因座的多核苷酸的总数，则可以在确定该基因座处的CNV的标准方法中使用该数目。可以将定量量度相对于标准进行归一化。该标准可以是任意多核苷酸的量。在一种方法中，可以将测试基因座处的定量量度相对于定位至基因组(如已知拷贝数的基因)中对照基因座的多核苷酸的定量量度进行标准化。可以将定量量度与本文公开的任何样品中的核酸的量进行比较。例如，在另一种方法中，可将该定量量度与原始样品中核酸的量进行比较。例如，如果该原始样品含有10,000个单倍体基因等同物，则可将该定量量度与二倍体的预期量度进行比较。在另一种方法中，可将该定量量度相对于来自对照样品的量度进行归一化，并且可以比较不同基因座处的归一化量度。

在其中需要拷贝数变异分析的一些情况下，序列数据可以：1)与参考基因组进行比对；2)过滤并定位；3)分割成序列窗口或箱元(bin)；4)对各个窗口的覆盖阅读值进行计数；5)然后可以使用随机或统计建模算法对覆盖阅读值进行归一化；6)以及可以生成输出文件，其反映在基因组中的各位置处的离散的拷贝数状态。在其中需要稀有突变分析的其他情况下，可以对序列数据进行1)与参考基因组的比对；2)过滤并定位；3)基于该特定碱基的覆盖阅读值来计算变异碱基的频率；4)使用随机、统计或概率建模算法来对变异碱基频率的归一化；5)以及可以生成输出文件，其反映在基因组中的各位置处的突变状态。

在已经确定序列阅读值覆盖度比值之后，可以任选地应用随机建模算法将各个窗口区域的归一化比值转换成离散的拷贝数状态。在一些情况下，这种算法可包括隐马尔可夫模型。在其他情况下，该随机模型可包括动态编程、支持向量机、贝叶斯建模、概率建模、网格解码、维特比解码、期望最大化、卡尔曼过滤方法或神经网络。

本文公开的方法可包括检测基因组中特定区域处的SNV、CNV、插入、缺失和/或重排。该特定基因组区域可以包含基因中的序列，如ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA或NTRK1。

在一些情况下，所述方法采用包含一个或多个基因的外显子的套组(panel)。该套组也可以包含一个或多个基因的内含子。该套组还可以包含一个或多个基因的外显子和内含子。该一个或多个基因可以是上文公开的那些基因。该套组可以包含覆盖一组基因的约80,000个碱基。该套组可包含约1000、2000、3000、4000、5000、10000、15000、20000、25000、30000、35000、40000、45000、50000、55000、60000、65000、70000、75000、80000、85000、90000、95000、100000、105000、110000、115000、120000、125000个或更多个碱基。

在一些方面，基因的拷贝数可以反映在样品中基因的遗传形式的频率中。例如，在健康的个体中，拷贝数变异均没有反映在样品中约50％的检测到的分子中所检测的一个染色体(例如，杂合性)的基因的变异中。此外，在健康的个体中，具有变异的基因的复制可以反映在样品中约66％的检测到的分子中所检测的变异中。相应地，如果DNA样品中的肿瘤负荷为10％，则在没有CNV的情况下，癌细胞的一个染色体中的基因中的体细胞突变频率可以为约5％。在非整倍体的情况下，反过来可以是正确的。

本文公开的方法可用来确定序列变异是否更可能以种系水平存在或由例如癌细胞中的体细胞突变导致。例如，如果在基因中还检测到CNV，则以与种系中的杂合性可能一致的水平检测到的该基因中的序列变异更可能是体细胞突变的产物。在一些情况下，鉴于我们预期，种系中的基因复制具有与遗传剂量(例如，对于基因座处的三体性为66％)一致的变异，以显著偏离该预期量的序列变异剂量检测到基因扩增表明，CNV更可能是由于体细胞突变而存在。

本文公开的方法还可以用来在两个基因中的序列变异以不同的频率检测到的情况下，推断肿瘤异质性。例如，当两个基因以不同的频率检测到但其拷贝数相对等同时，可以推断出肿瘤异质性。或者，当两个序列变异之间的频率差异与这两个基因的拷贝数差异一致时，可以推断出肿瘤同质性。因此，例如，如果EGFR变异以11％检测到而KRAS变异以5％检测到，并且在这些基因中没有检测到CNV，则频率的差异可能反映肿瘤异质性(例如，所有肿瘤细胞都携带EGFR突变体，并且一半的肿瘤细胞还携带KRAS突变体)。或者，如果携带突变体的EGFR基因以2倍于正常的拷贝数检测到，一种解释是肿瘤细胞的同源群体，每个细胞均在EGFR和KRAS基因中携带突变体，但在其中KRAS基因是复制的。

响应于化疗，主要的肿瘤形式可以最终通过达尔文选择改变为携带使癌症对治疗方案不响应的突变体的癌细胞。可以通过本发明的方法延缓这些抗性突变体的出现。在该方法的一个实施方案中，使受试者经历一个或多个脉冲治疗循环，每个脉冲治疗循环包含期间以第一量施用药物的第一阶段以及期间以减少的第二量施用药物的第二循环。第一阶段的特征可以在于检测到的肿瘤负荷高于第一临床水平。第二阶段的特征可以在于检测到的肿瘤负荷低于第二临床水平。在不同的脉冲治疗循环中，第一和第二临床水平可以是不同的。例如，第一临床水平可以在随后的循环中较低。多个循环可包括至少2、3、4、5、6、7、8个或更多个循环。例如，BRAF突变体V600E可以在病变细胞的多核苷酸中以指示cfDNA中肿瘤负荷为5％的量检测到。化疗可以从达拉非尼(dabrafenib)开始。后续测试可以显示，cfDNA中BRAF突变体的量降低至低于0.5％或检测不到的水平。此时，可以停止或显著缩减达拉非尼治疗。进一步的后续测试可以发现，具有BRAF突变的DNA已上升至cfDNA中的多核苷酸的2.5％。此时，可以以例如与初始治疗相同的水平重新开始达拉非尼治疗。后续测试可以发现，具有BRAF突变的DNA已减少至cfDNA中的多核苷酸的0.5％。可以再次停止或减少达拉非尼治疗。可以多次重复该循环。

还可以在检测到对原始药物具有抗性的突变体形式增加时改变治疗干预。例如，具有EGFR突变L858R的癌症对埃罗替尼(erlotinib)治疗具有响应。然而，具有EGFR突变T790M的癌症对埃罗替尼具有抗性。然而，它们对鲁索替尼(ruxolitinib)是响应性的。本发明的方法包括监测肿瘤谱的变化，以及在与抗药性有关的遗传变异上升至预定的临床水平时改变治疗干预。

本发明公开的方法可以包括从包含来自体细胞和病变细胞的多核苷酸的样品检测病变细胞异质性的方法，该方法包括：a)对样品中在多个遗传基因座中的每一个处具有序列变异的多核苷酸进行定量；b)确定所述多个遗传基因座中的每一个处的CNV；基因座处病变分子的不同的相对量，其中该CNV指示病变细胞多核苷酸中的基因座的遗传剂量；c)针对多个基因座中的每一个，根据基因座处的遗传剂量，确定在该基因座处具有序列变异的多核苷酸的量的相对量度；以及d)比较所述多个基因座中的每一个处的相对量度，其中不同的相对量度指示肿瘤异质性。在本文公开的方法中，可以在总分子的基础上确定遗传剂量。例如，如果在第一基因座处有1X总分子，并且1.2X分子定位至第二基因座，则遗传剂量为1.2。可以将在该基因座处的变异除以1.2。在一些方面，本文公开的方法可用来检测任何病变细胞异质性，例如，肿瘤细胞异质性。可使用该方法从包含任意类型的多核苷酸例如cfDNA、基因组DNA、cDNA或ctDNA的样品检测病变细胞异质性。在该方法中，所述定量可包括例如确定多核苷酸的数目或相对量。确定CNV可包括将不同相对量的总分子定位至基因座并归一化。

在另一个方面，响应于化疗，主要的肿瘤形式可以最终通过达尔文选择改变为携带使癌症对治疗方案不响应的突变体的癌细胞。可以通过公开的所有方法延缓这些抗性突变体的出现。本文公开的方法可以包括这样的方法，其包括：a)使受试者经历一个或多个脉冲治疗循环，每个脉冲治疗循环包括(i)期间以第一量施用药物的第一阶段，和(ii)期间以减少的第二量施用药物的第二阶段；其中(A)第一阶段的特征在于检测到的肿瘤负荷高于第一临床水平；并且(B)第二阶段的特征在于检测到的肿瘤负荷低于第二临床水平。

K.序列变异检测

本文公开的系统和方法可用来检测序列变异，例如，SNV。例如，可以从来自多个序列阅读值的共有序列检测序列变异，例如，该共有序列来自至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24、至少25、至少26、至少27、至少28、至少29、至少30、至少31、至少32、至少33、至少34、至少35、至少36、至少37、至少38、至少39、至少40、至少41、至少42、至少43、至少44、至少45、至少46、至少47、至少48、至少49、至少50、至少51、至少52、至少53、至少54、至少55、至少56、至少57、至少58、至少59、至少60、至少61、至少62、至少63、至少64、至少65、至少66、至少67、至少68、至少69、至少70、至少71、至少72、至少73、至少74、至少75、至少76、至少77、至少78、至少79、至少80、至少81、至少82、至少83、至少84、至少85、至少86、至少87、至少88、至少89、至少90、至少91、至少92、至少93、至少94、至少95、至少96、至少97、至少98、至少99、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000、至少8000、至少9000、至少10000个或更多个序列阅读值。共有序列可以来自单链多核苷酸的序列阅读值。共有序列还可以来自双链多核苷酸的一条链的序列阅读值(例如，配对阅读值)。在示例性的方法中，配对阅读值允许以增加的置信度鉴定分子中序列变异的存在。例如，如果对态的两条链包含相同的变异，则可以合理地确定该变异存在于原始分子中，因为相同变异在扩增/测序期间被引入到两条链中的几率极小。相反，如果对态中仅一条链包含序列变异，则这更可能是矫作物。类似地，具有序列变异的单链体存在于原始分子中的置信度低于该变异存在于双链体中的置信度，因为该变异可能在扩增/测序期间被引入一次的概率高于被引入两次的概率。

拷贝数变异检测和序列变异检测的其他方法在PCT/US2013/058061中进行了描述，该文献通过引用全文并入本文。

可以分解序列阅读值以生成共有序列，可将该共有序列定位至参考序列以鉴定遗传变异，如CNV或SNV。作为替代方案，在定位之前或者甚至在不进行定位的情况下定位序列阅读值。在这样的情况下，可以将序列阅读值单独地定位至参考序列以鉴定CNV或SNV。

图3示出了编码遗传基因座A的参考序列。图3中的多核苷酸可以是Y形或具有其他形状，如发夹。

在一些情况下，可以通过比对对应于给定基因座的序列阅读值在给定基因座(例如，核苷酸碱基)处的多个序列阅读值中确定SNV或多个核苷酸变异(MNV)。接下来，将来自序列阅读值的至少一个亚组的多个连续核苷酸碱基定位至对应于该阅读值的多核苷酸分子或其一部分中的SNV或MNV的参考物。所述多个连续核苷酸碱基可以跨越实际的、推断的或者怀疑的SNV或MNV位置。所述多个连续核苷酸碱基可以跨越至少3、4、5、6、7、8、9或10个核苷酸碱基。

L.检测/定量核酸

可以使用全文中描述的方法以极高的效率标记核酸片段，如脱氧核糖核酸(DNA)。该有效标记允许人们有效且准确地检测在原始DNA片段的异质群体中(如在cfDNA中)的稀有DNA。稀有多核苷酸(例如，稀有DNA)可以是包含以低于10％、5％、4％、3％、2％、1％或0.1％的频率存在于多核苷酸群体中的遗传变异的多核苷酸。稀有DNA可以是在低于50％、25％、10％、5％、1％或0.1％的浓度下具有可检测的性质的多核苷酸。

标记可以在单个反应中发生。在一些情况下，可以进行两个或更多个反应并将其合并在一起。在单个反应中标记每个原始DNA片段可以导致这样的标记，其使得超过50％(例如，60％、70％、80％、90％、95％或99％)的原始DNA片段在两端被包含分子条形码的标记物标记，由此提供标记的DNA片段。标记还可以导致超过30％、35％、40％、45％、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的原始DNA片段在两端被包含分子条形码的标记物标记。标记还可以导致100％的原始DNA片段在两端被包含分子条形码的标记物标记。标记还可以导致单端标记。

还可以通过使用相比于原始DNA片段过量的标记物来进行标记。例如，该过量可以是至少5倍过量。在其他情况下，该过量可以是至少1.25、1.5、1.75、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100倍或更多倍过量。标记可以包括与平端或粘端附接。标记还可以通过杂交PCR进行。标记还可以在低反应体积中进行，如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100皮升和/或微升。

所述方法还可以包括对标记的DNA片段进行高保真度扩增。可以使用任何高保真度DNA聚合酶。例如，该聚合酶可以是KAPA HiFi DNA聚合酶或Phusion DNA聚合酶。

此外，所述方法可包括选择性富集标记的DNA片段的亚组。例如，选择性富集可以通过杂交或扩增技术进行。该选择性富集可以采用固体支持物(例如，珠子)进行。该固体支持物(例如，珠子)可以包含与某些序列特异性杂交的探针(例如，寡核苷酸)。例如，该探针可以与某些基因组区域例如基因杂交。在一些情况下，该基因组区域，例如基因，可以是与疾病例如癌症有关的区域。在富集后，选择的片段可以附接本发明中公开的任何测序衔接子。例如，测序衔接子可以包含流动池序列、样品条形码或二者。在另一个实例中，测序衔接子可以是发夹形衔接子并且/或者包含样品条形码。此外，可以对所得的片段进行扩增并测序。在一些情况下，该衔接子不包含测序引物区。

所述方法可以包括对DNA片段的一条或两条链进行测序。在一种情况下，对该DNA片段的两条链独立地测序。对标记、扩增和/或选择性富集的DNA片段进行测序，以获得包含分子条形码的序列信息以及原始DNA片段的至少一部分的序列阅读值。

所述方法可以包括减少或追踪序列阅读值中的冗余(如上所述)，以确定代表原始DNA片段的单链的共有阅读值。例如，为了减少或追踪冗余，该方法可以包括将具有相同或相似分子条形码以及相同或相似的片段序列末端的序列阅读值进行比较。该方法可以包括对具有相同或相似分子条形码的序列阅读值进行系统发育分析。该分子条形码可以具有拥有变化的编辑距离(包括如全文描述的任意编辑距离)，例如，最多为3的编辑距离的条形码。片段序列的末端可以包括具有拥有变化的距离的编辑距离(包括如全文描述的任意编辑距离)，例如，最多为3的编辑距离的片段序列。

所述方法可以包括根据分子条形码和序列信息对序列阅读值进行分箱。例如，根据分子条形码和序列信息对序列阅读值进行分箱可以从每个原始DNA片段的至少一个末端进行，从而创建单链阅读值的箱元。该方法可进一步包括，在每个箱元中，通过分析序列阅读值来确定原始DNA片段中给定原始DNA片段的序列。

在一些情况下，可以将每个箱元中的序列阅读值分解成共有序列并随后定位至基因组。作为替代方案，可以在分箱前将序列阅读值定位至基因组并随后分解成共有序列。

所述方法还可以包括将序列阅读值分类成配对阅读值和非配对阅读值。在分类后，可以对定位至一个或多个遗传基因座中的每一个的配对阅读值和非配对阅读值的数目进行定量。

所述方法可以包括对共有阅读值进行定量，以检测和/或定量全文中描述的稀有DNA。该方法可以包括通过比较每个碱基在由标记、扩增和/或富集的DNA片段代表的基因组的每个位置处出现的次数，来检测和/或定量该稀有DNA。

所述方法可以包括在单个反应中采用标记物的文库标记原始DNA片段。该文库可包含至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少50、至少100、至少500、至少1000、至少5000、至少10000个或任意数目的如全文公开的标记物。例如，该标记物文库可包含至少8个标记物。该标记物文库可包含8个标记物(其可以生成64种不同的可能组合)。可以进行该方法，以使得高百分比的片段(例如，超过50％(或如全文所述的任何百分比))在两端被标记，其中每个标记物均包含分子条形码。

M.处理和/或分析核酸

全文描述的方法可用于处理和/或分析受试者的核酸样品。该方法可以包括将核酸样品的多核苷酸片段暴露于多个多核苷酸分子，以产生标记的多核苷酸片段。可以使用的多个多核苷酸分子在整个申请中进行了描述。

例如，所述多个多核苷酸分子可以各自为小于或等于40个核酸碱基的长度，并具有就至少4个核酸碱基而言不同的条形码序列以及至少为1的编辑距离，其中所述不同的条形码序列中的每一个均在距所述多个多核苷酸分子中的相应多核苷酸分子的末端20个核酸碱基内，并且其中所述多个多核苷酸分子不是测序衔接子。

可以在产生扩增的多核苷酸片段作为标记的多核苷酸片段的扩增产物的条件下，使标记的多核苷酸片段经历核酸扩增反应。扩增后，确定扩增的标记的多核苷酸片段的核苷酸序列。在一些情况下，在不使用聚合酶链反应(PCR)的情况下确定扩增的标记的多核苷酸片段的核苷酸序列。

所述方法可以包括用编程的计算机处理器分析核苷酸序列，以鉴定受试者的核苷酸样品中的一个或多个遗传变异。可以鉴定任何遗传改变，包括但不限于碱基变化、插入、重复、缺失、拷贝数变异、表观遗传修饰、核小体结合位点、由于复制起点引起的拷贝数变化、以及颠换。其他遗传改变可包括但不限于一个或多个肿瘤相关遗传改变。

所述方法的受试者可以疑似患有疾病。例如，该受试者可以疑似患有癌症。该方法可以包括从受试者收集核酸样品。该核酸样品可以从血液、血浆、血清、尿液、唾液、粘膜分泌物、痰液、粪便、脑脊液、皮肤、毛发、汗液和/或泪液中收集。该核酸样品可以是无细胞核酸样品。在一些情况下，该核酸样品从受试者的不超过100纳克(ng)的双链多核苷酸分子中收集。

所述多核苷酸片段可包含双链多核苷酸分子。在一些情况下，所述多个多核苷酸分子经由平端连接、粘端连接、分子倒置探针、聚合酶链反应(PCR)、基于连接的PCR、多重PCR、单链连接或单链环化与多核苷酸片段偶联。

如本文所述的方法导致核酸的高效标记。例如，核酸样品的多核苷酸片段暴露于所述多个多核苷酸分子以至少30％例如至少50％(例如，60％、70％、80％、90％、95％或99％)的转化效率产生了标记的多核苷酸片段。可以实现至少30％、35％、40％、45％、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的转化效率。

所述方法可以导致共享共同的多核苷酸分子的标记的多核苷酸片段。例如，至少5％、6％、7％、8％、9％、10％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％中任意比例的标记的多核苷酸片段共享共同的多核苷酸分子。该方法可以包括从核酸样品生成多核苷酸片段。

在一些情况下，所述方法中的经历包括在与选自下组的多个基因相对应的引物的存在下对标记的多核苷酸片段进行扩增：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。另外，可对这些基因的任意组合进行扩增。例如，可扩增这些基因中的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53个或全部54个。

本文所述的方法可以包括从多个多核苷酸分子生成多个序列阅读值。所述多个多核苷酸分子可以覆盖靶基因组的基因组基因座。例如，该基因组基因座可对应于如上文列出的多个基因。此外，该基因组基因座可以是这些基因的任意组合。任何给定的基因组基因座可包含至少两个核酸碱基。任何给定的基因组基因座还可包含多个核酸碱基，例如，2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个核酸碱基。

所述方法可以包括用计算机处理器将所述多个序列阅读值分组成家族。每个家族可以包含来自一种模板多核苷酸的序列阅读值。每个家族可以包含来自仅一种模板多核苷酸的序列阅读值。对于每个家族，可将序列阅读值合并，以生成共有序列。该分组可以包括通过鉴定(i)与所述多个多核苷酸分子偶联的不同的分子条形码和(ii)所述多个序列阅读值之间的相似性，来将所述多个序列阅读值分类成家族，其中每个家族包含与分子条形码的不同组合相关的多个核酸序列以及相似或相同的序列阅读值。

一旦合并，则可以在基因组基因座中的给定基因组基因座处判定共有序列。在任意给定基因组基因座处，可确定以下任意项：i)所述判定中的遗传变异；ii)所述判定中的遗传改变的频率；iii)判定的总数；以及iv)所述判定中的改变的总数。该判定可以包括判定给定基因组基因座处的至少一个核酸碱基。该判定还可以包括判定给定基因组基因座处的多个核酸碱基。在一些情况下，该判定可以包括系统发育分析、投票(例如，偏向投票)、加权、为家族中的基因座处的每个阅读值指定概率，或判定具有最高概率的碱基。可以通过评价每个序列阅读值的定量量度或统计显著性水平来生成共有序列。如果进行定量测量，则该方法可包括二项分布、指数分布、β分布或经验分布的使用。然而，还可将特定位置处碱基的频率用于判定，例如，如果该位置处51％或更多的阅读值为“A”，则在该特定位置处该碱基可以被判定为“A”。该方法可进一步包括将共有序列定位至靶基因组。

所述方法可进一步包括在基因组基因座中的额外基因组基因座处进行共有判定。该方法可以包括根据在给定基因组基因座和额外基因组基因座处的计数来确定给定基因组基因座和额外基因组基因座中的一个处的拷贝数变异。

本文所述的方法可以包括在反应器皿中提供模板多核苷酸分子和衔接子多核苷酸分子文库。该衔接子多核苷酸分子可以具有2至1,000个不同的条形码序列，并且在一些情况下其不是测序衔接子。衔接子多核苷酸分子的其他变化在全文中描述，也可在所述方法中使用。

衔接子的多核苷酸分子可以具有相同的样品标记物。衔接子多核苷酸分子可以与模板多核苷酸分子的两端偶联。该方法可以包括以至少30％例如至少50％(例如，60％、70％、80％、90％、95％或99％)的效率将该衔接子多核苷酸分子与模板多核苷酸分子偶联，由此用在4至1,000,000种不同标记组合中的标记组合标记每个模板多核苷酸，以产生标记的多核苷酸分子。在一些情况下，该反应可以在单个反应器皿中发生。偶联效率还可以为至少30％、35％、40％、45％、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％。标记可以是非独特的标记。

然后可以在将产生扩增的多核苷酸分子作为标记的多核苷酸分子的扩增产物的条件下，使标记的多核苷酸分子经历扩增反应。模板多核苷酸分子可以是双链的。此外，模板多核苷酸分子可以是平端的。在一些情况下，该扩增反应包括非特异性地扩增该标记的多核苷酸分子。该扩增反应还可以包括使用引发位点扩增每个标记的多核苷酸分子。该引发位点可以是引物，例如，通用引物。该引发位点也可以是切口。

所述方法还可以包括对扩增的多核苷酸分子进行测序。该测序可以包括(i)在产生额外的扩增的多核苷酸分子作为扩增的多核苷酸分子的扩增产物的条件下，使扩增的多核苷酸分子经历额外的扩增反应，和/或(ii)对该额外的扩增的多核苷酸分子进行测序。该额外的扩增可以在包含流动池序列的引物的存在下进行，其将产生能够与流动池结合的多核苷酸分子。该额外的扩增还可以在包含针对发夹形衔接子的序列的引物的存在下进行。该发夹形衔接子可以附接至多核苷酸片段的两端，以生成可以被多次测序的环状分子。该方法可进一步包括在对扩增的多核苷酸分子进行测序后鉴定遗传变异。

所述方法可进一步包括将包含一个或多个给定序列的多核苷酸分子与扩增的多核苷酸分子分离，以产生富集的多核苷酸分子。该方法还可以包括采用包含流动池序列的引物扩增所富集的多核苷酸分子。采用包含流动池序列的引物的这种扩增将产生能够与流动池结合的多核苷酸分子。该扩增还可以在包含针对发夹形衔接子的序列的引物的存在下进行。该发夹形衔接子可以附接至多核苷酸片段的两端，以生成可以被多次测序的环状分子。

流动池序列或发夹形衔接子可以通过非扩增方法如通过这类序列的连接来添加。可以使用其他技术，如杂交法，例如，核苷酸突出端。

所述方法可以在不等分标记的多核苷酸分子的情况下进行。例如，一旦制备了标记的多核苷酸分子，则扩增和测序可以在没有任何进一步的准备的情况下在相同的管中发生。

本文所述的方法可以用于检测单核苷酸变异(SNV)、拷贝数变异(CNV)、插入、缺失和/或重排。在一些情况下，SNV、CNV、插入、缺失和/或重排可能与疾病例如癌症相关。

N.监测患者的状态

本文公开的方法还可用来监测患者的疾病状态。可以随时间监测受试者的疾病，以确定该疾病的进展(例如，消退)。可以监测在受试者的生物样品如无细胞DNA样品中的指示疾病的标志物。

例如，监测受试者的癌症状态可以包括(a)确定多个基因(例如，外显子中)的拷贝数或一个或多个SNV的量；(b)适时地在不同的时间点重复这样的确定，以及(c)确定SNV数目、SNV水平、基因组重排的数目或水平或(a)与(b)之间的拷贝数是否存在差异。该基因可选自下组：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。该基因可选自该组中基因的任意5、10、15、20、30、40、50个或全部。

O.灵敏度和特异性

本文公开的方法可以用来以较高的一致性量度(measure of agreement)，例如，高灵敏度和/或高特异性，检测样品中的癌症多核苷酸，以及受试者的癌症。例如，这样的方法可以以至少99％、99.9％、99.99％、99.999％、99.9999％或99.99999％的特异性，检测样品中浓度低于5％、1％、0.5％、0.1％、0.05％或0.01％的癌症多核苷酸(例如，稀有DNA)。这样的多核苷酸可以指示癌症或其他疾病。此外，这样的方法可以以至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.9％、99.99％、99.999％或99.9999％的阳性预测值检测样品中的癌症多核苷酸。

在试验中被鉴定为阳性、实际为阳性的受试者被称为真阳性(TP)。在试验中被鉴定为阳性、实际为阴性的受试者被称为假阳性(FP)。在试验中被鉴定为阴性、实际为阴性的受试者被称为真阴性(TN)。在试验中被鉴定为阴性、实际为阳性的受试者被称为假阴性(FN)。灵敏度为在试验中被鉴定为阳性的真阳性的百分比。这包括，例如，应该发现癌症遗传变异并且确实发现了的情况。(灵敏度＝TP/(TP+FN))。特异性为在试验中被鉴定为阴性的真阴性的百分比。这包括，例如，应该没有发现癌症遗传变异并且确实没有发现的情况。可采用以下等式计算特异性：特异性＝TN/(TN+FP)。可以根据试验阳性的受试者为真阳性的百分比来测量阳性预测值(PPV)。可采用以下等式计算PPV：PPV＝TP/(TP+FP)。可以通过提高灵敏度(例如，检测到真阳性的几率)和/或特异性(例如，未将真阴性当作阳性的几率)来提高阳性预测值。

多核苷酸向衔接子标记的多核苷酸的低转化率可能损害灵敏度，因为其降低了转化稀有多核苷酸靶标的几率，并因此降低了检测到稀有多核苷酸靶标的几率。试验中的噪音可能损害特异性，因为其增加了试验中检测到的假阳性的数目。低转化率和噪音均损害阳性预测值，因为它们降低真阳性的百分比并增加假阳性的百分比。

本文公开的方法可以实现高水平的一致性，例如，灵敏度和特异性，导致高阳性预测值。提高灵敏度的方法包括样品中的多核苷酸向衔接子标记的多核苷酸的高效率转化。提高特异性的方法包括通过例如分子追踪减少测序错误。

本公开内容的方法可用来以至少99％、99.9％、99.99％、99.999％、99.9999％或99.99999％的特异性检测浓度低于5％、1％、0.5％、0.1％、0.05％或0.01％的非独特标记的初始起始遗传物质(例如，稀有DNA)中的遗传变异。在一些方面，该方法可进一步包括以至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％或至少90％的效率转化初始起始物质中的多核苷酸。可以随后追踪标记的多核苷酸的序列阅读值，从而以不超过2％、1％、0.1％或0.01％的错误率生成多核苷酸的共有序列。

2.合并方法

本文公开了检测测试样品中一个或多个遗传基因座处的拷贝数变异和/或序列变异的方法。一个实施方案在图8中示出。通常，检测拷贝数变异包括确定定位至测试样品的基因组中的感兴趣遗传基因座的多核苷酸的定量量度(例如，绝对或相对数目)，并将该数目与定位至对照样品中的该基因座的多核苷酸的定量量度进行比较。在某些方法中，通过将测试样品中定位至感兴趣的基因座的分子的数目与测试样品中定位至参考序列(例如，预期以野生型倍性数目存在的序列)的分子的数目进行比较来确定该定量量度。在一些实例中，该参考序列为HG19、形式(build)37或形式38。该比较可以包括例如确定比例。然后，将该量度与在对照样品中测定的相似量度进行比较。因此，例如，如果测试样品具有1.5:1的感兴趣基因座与参考基因座之比，并且对于相同基因座，对照样品具有1:1的比例，则可以得出以下结论：该测试样品在感兴趣的基因座处表现出多倍性。

在分别分析测试样品与对照样品时，该工作流程可以在对照样品与测试样品的最终数目之间引入失真。

在本文公开的一种方法(例如，流程图800)中，提供来自测试样品和对照样品的多核苷酸(802)。用标记物(来源标记物)标记测试样品和对照样品中的多核苷酸，该标记物将该多核苷酸标识为来源于测试样品或对照样品(804)。该标记物可以是例如明确标识该来源的多核苷酸序列或条形码。

还可以用标识符标记物标记每个对照和测试样品中的多核苷酸，该标识符标记物将由多核苷酸的全部扩增子代携带。来自多核苷酸的起始和末端序列以及标识符标记物的信息可以鉴定来自从原始母体分子扩增的多核苷酸的序列阅读值。每个分子可以相对于样品中的其他分子被独特地标记。或者，每个分子不必相对于样品中的其他分子被独特地标记。即，不同标识符序列的数目可以少于样品中分子的数目。通过结合标识符信息与起始/终止序列信息，显著降低了混淆具有相同起始/终止序列的两个分子的概率。

用来标记核酸(例如，cfDNA)的不同标识符的数目可取决于不同单倍体基因组等同物的数目。不同的标识符可用来标记至少2、至少10、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1,000、至少2,000、至少3,000、至少4,000、至少5,000、至少6,000、至少7,000、至少8,000、至少9,000、至少10,000个或更多个不同的单倍体基因组等同物。因此，用来标记核酸样品(例如，来自500至10,000个不同的单倍体基因组等同物的无细胞DNA)的不同标识符的数目在1、2、3、4和5中的任意一个与不超过100、90、80、70、60、50、40或30的数值之间。例如，用来标记来自500至10,000个不同单倍体基因组等同物的核酸样品的不同标识符的数目可以为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100个或更少。

可以通过在扩增前连接包含标记物或标识符的衔接子来标记多核苷酸。可以使用酶例如连接酶进行连接。例如，可以使用DNA连接酶进行标记。该DNA连接酶可以是T4DNA连接酶、大肠杆菌DNA连接酶和/或哺乳动物连接酶。该哺乳动物连接酶可以是DNA连接酶I、DNA连接酶III或DNA连接酶IV。该连接酶还可以是热稳定的连接酶。标记物可以与多核苷酸的平端连接(平端连接)。或者，标记物可以与多核苷酸的粘端连接(粘端连接)。可以使用衔接子(例如，具有叉状末端的衔接子)通过平端连接标记多核苷酸。可以使用高过量的衔接子(例如，超过1.5X、超过2X、超过3X、超过4X、超过5X、超过6X、超过7X、超过8X、超过9X、超过10X、超过11X、超过12X、超过13X、超过14X、超过15X、超过20X、超过25X、超过30X、超过35X、超过40X、超过45X、超过50X、超过55X、超过60X、超过65X、超过70X、超过75X、超过80X、超过85X、超过90X、超过95X或超过100X)来实现高效连接。

一旦用标识多核苷酸来源的标记物标记，则可以合并来自不同来源(例如，不同样品)的多核苷酸。合并后，可以通过采用该标记物的任何测量(包括定量测量的任意过程)来区分来自不同来源(例如，不同样品)的多核苷酸。例如，如(806)(图8)所示，可以合并来自对照样品和测试样品的多核苷酸。可以使合并的分子经历测序(808)和生物信息学工作流程。两者都将经受该过程的相同变化，并因此降低任何差分偏差。因为来源于对照和测试样品的分子被差异性地标记，所以它们可以在定量测量的任意过程中被区分开。

合并的对照和测试样品的相对量可以改变。对照样品的量可以与测试样品的量相同。对照样品的量也可以大于测试样品的量。或者，对照样品的量可以小于测试样品的量。一个样品占总体的相对量越小，原始标记过程中需要的标识标记物越少。可以选择数目，以使具有相同起始/末端序列的两个母体分子将具有相同标识标记物的概率降低至可接受的水平。该概率可以小于10％、小于1％、小于0.1％或小于0.01％。该概率可以小于25％、24％、23％、22％、21％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％。

本文公开的方法还可以包括将序列阅读值分组。例如，如(810)(图8)所示，生物信息学工作流程可以包括对从单个母体分子的子代产生的序列阅读值进行分组。这可以包括本文所述的任何冗余减少方法。可以将来源于测试和对照样品的分子根据它们携带的来源标记物进行区分(812)。对测试来源和对照来源的分子定量定位至靶基因座的分子(812)。这可以包括本文讨论的归一化方法，例如，其中将靶基因座处的数目相对于参考基因座处的数目进行归一化。

比较来自测试和对照样品的靶基因座处的归一化的(或原始)量，以确定拷贝数变异的存在(814)。

3.计算机控制系统

本发明提供了被编程为实现本发明方法的计算机控制系统。本发明的方法可使用计算机系统或在其帮助下来实现。图6示出了被编程或以其他方式配置成实现本发明方法的计算机系统1501。计算机系统1501可以调节样品制备、测序和/或分析等各个方面。在一些实例中，计算机系统1501配置成执行样品制备和样品分析，包括核酸测序。计算机系统1501可以是用户的电子设备或相对于该电子设备位于远程位置的计算机系统。该电子设备可以是移动电子设备。

计算机系统1501包括中央处理单元(CPU，本文也称为“处理器”和“计算机处理器”)1505，其可以是单核或多核处理器，或用于并行处理的多个处理器。计算机系统1501还包括存储器或存储器位置1510(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元1515(例如，硬盘)、用于与一个或多个其他系统通信的通信接口1520(例如，网络适配器)和外围装置1525，如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器1510、存储单元1515、接口1520和外围装置1525通过通信总线(实线)如主板来与CPU1505通信。存储单元1515可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统1501可以在通信接口1520的辅助下可操作地耦合至计算机网络(“网络”)1530。网络1530可以是因特网、互联网和/或外联网、或与因特网通信的内联网和/或外联网。在一些情况下，网络1530是电信和/或数据网络。网络1530可以包括一个或多个计算机服务器，这可以支持分布式计算，例如云计算。在一些情况下，在计算机系统1501的辅助下，网络1530可以实现对等网络，其可以使耦合至计算机系统1501的装置能够作为客户端或服务器运行。

CPU 1505可以执行一系列的机器可读指令，该机器可读指令可以体现在程序或软件中。该指令可存储于存储器位置，如存储器1510中。该指令可被导向CPU 1505，其可以随后编程或以其他方式配置CPU1505，从而实现本发明的方法。由CPU 1505执行的操作的实例可包括读取、解码、执行和写回。

CPU 1505可以是电路如集成电路的一部分。系统1501的一个或多个其他组件可包含在该电路中。在一些情况下，该电路是专用集成电路(ASIC)。

存储单元1515可存储文件，如驱动程序、库和保存的程序。存储单元1515可存储用户数据，例如用户偏好和用户程序。在一些情况下，计算机系统1501可以包括一个或多个附加的数据存储单元，该数据存储单元在计算机系统1501的外部，诸如位于通过内联网或因特网而与计算机系统1501通信的远程服务器上。

计算机系统1501可通过网络1530与一个或多个远程计算机系统进行通信。例如，计算机系统1501可以与用户(例如，操作者)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(如便携式PC)、板型或平板PC(例如

iPad、

Galaxy Tab)、电话、智能电话(例如

iPhone、Android支持的装置、

)或个人数字助理。用户可以通过网络1530访问计算机系统1501。

如本文所述的方法可通过机器(例如，计算机处理器)可执行代码来实现，该机器可执行代码存储于计算机系统1501的电子存储位置，诸如存储器1510或电子存储单元1515上。该机器可执行代码或机器可读代码可以以软件的形式提供。在使用过程中，该代码可以由处理器1505执行。在一些情况下，代码可以从存储单元1515检索并存储到存储器1510中，以备由处理器1505访问。在一些情况下，可排除电子存储单元1515，而将机器可执行指令存储于存储器1510中。

代码可以被预编译并配置成用于与具有适用于执行该代码的处理器的机器一起使用，或者可以在运行时间过程中编译。代码可提供于编程语言中，可选择该编程语言以使代码能够以预编译或按编译原样的方式来执行。

本文所提供的系统和方法的各方面，如计算机系统1501，可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制造物品”，通常为在机器可读介质类型中执行或体现的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可存储于电子存储单元，例如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器，或其相关模块，如各种半导体存储器、磁带驱动器、磁盘驱动器等，其可以在任何时间为软件编程提供非暂时性存储。该软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如，此类通信可使软件能够从一台计算机或处理器加载到另一台中，例如，从管理服务器或主计算机加载至应用程序服务器的计算机平台。因此，能够承载软件元件的另一种类型的介质包括光波、电波和电磁波，如跨本地设备之间的物理接口、通过有线和光纤陆线网络以及在各种空中链路上使用的光波、电波和电磁波。携载此类波的物理元件，诸如有线或无线链路、光链路等，也可以被认为是承载软件的介质。如本文所用，除非限制于非暂时性的、有形“存储”介质，诸如计算机或机器“可读介质”等术语是指参与将指令提供给处理器以供执行的任何介质。

因此，机器可读介质，诸如计算机可执行代码，可以采取多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括，例如光盘或磁盘，诸如在任何计算机等中的任何存储设备，例如可用于实现如附图所示的数据库等。易失性存储介质包括动态存储器，诸如这样的计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤，包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式，如在射频(RF)和红外(IR)数据通信期间生成的电信号或电磁信号或者声波或光波。因此，计算机可读介质的常见形式包括，例如：软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、其他任何具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、载波传输数据或指令、传送此类载波的缆线或链路，或者任何可让计算机从中阅读值编程代码和/或数据的其他介质。这些计算机可读介质的形式中的许多形式可参与向处理器传送一个或多个序列的一个或多个指令以供执行。

计算机系统1501可包括电子显示器1535或与之通信，该电子显示器1535包括用户界面(UI)1540。该UI可以允许用户为本文所述的方法设置各种条件，例如，PCR或测序条件。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

本公开内容的方法和系统可以通过一种或多种算法来实现。可以在由中央处理器1505执行时，通过软件执行算法。例如，该算法可以处理阅读值以生成结果序列。

图7示意性地示出了用于分析来自受试者的包含核酸的样品的另一种系统。该系统包括测序仪、生物信息学软件以及用于通过例如手持式装置或台式计算机报告分析的因特网连接。

本文公开了一种用于分析受试者的靶核酸分子的系统，其包含：通信接口，其接收覆盖靶基因组的基因组基因座的多个多核苷酸分子的核酸序列阅读值；计算机存储器，其存储由所述通信接口接收的所述多个多核苷酸分子的核酸序列阅读值；以及计算机处理器，其可操作地耦合至所述通信接口和所述存储器，并被编程为(i)将所述多个序列阅读值分组成家族，其中每个家族包含来自一种模板多核苷酸的序列阅读值，(ii)对于每个家族，合并序列阅读值以生成共有序列，(iii)判定所述基因组基因座中的给定基因组基因座处的共有序列；并且(iv)在所述给定的基因组基因座处检测以下任意项：所述判定之中的任何遗传变异，所述判定之中的遗传改变的频率，判定的总数；以及所述判定之中的改变的总数，其中所述基因组基因座对应于选自下组的多个基因：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。所述系统的每个组件的不同变化在所述方法和组合物内的整个公开内容中描述。这些单独的组件及其变化也可适用于此系统。

4.试剂盒

试剂盒包含如本文所述的组合物。该试剂盒对进行如本文所述的方法可能是有用的。本文公开了包含多个寡核苷酸探针的试剂盒，该寡核苷酸探针与选自下组的至少5、6、7、8、9、10、20、30、40个或所有基因选择性地杂交：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。可与该寡核苷酸探针选择性地杂交的基因的数目可以变化。例如，该基因数目可包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53或54个。该试剂盒可包含含有所述多个寡核苷酸探针的容器和关于实施任何本文所述方法的说明。

所述寡核苷酸探针可与所述基因例如至少5个基因的外显子区选择性地杂交。在一些情况下，该寡核苷酸探针可与所述基因例如至少5个基因的至少30个外显子选择性地杂交。在一些情况下，所述多个探针可与至少30个外显子中的每一个选择性地杂交。与每个外显子杂交的探针可具有与至少1个其他探针重叠的序列。在一些实施方案中，该寡核苷酸探针可与本文公开的基因的非编码区(例如，基因的内含子区)选择性地杂交。该寡核苷酸探针还可以与同时包含本文公开的基因的外显子区和内含子区的基因区域选择性地杂交。

所述寡核苷酸探针可以靶向任意数目的外显子。例如，可以靶向至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、400、500、600、700、800、900、1,000个或更多个外显子。

所述试剂盒可包含具有独特的分子条形码和相同的样品条形码的至少4、5、6、7或8种不同的文库衔接子。该文库衔接子可以不是测序衔接子。例如，该文库衔接子不包含流动池序列或允许形成用于测序的发夹环的序列。分子条形码与样品条形码的不同变化和组合在全文中描述，并且可适用于该试剂盒。此外，在一些情况下，该衔接子不是测序衔接子。此外，随试剂盒提供的衔接子还可以包括测序衔接子。测序衔接子可以包含与一个或多个测序引物杂交的序列。测序衔接子可进一步包含与固体支持物杂交的序列，例如流动池序列。例如，测序衔接子可以是流动池衔接子。该测序衔接子可以附接至多核苷酸片段的一端或两端。在一些情况下，该试剂盒可包含具有独特的分子条形码和相同的样品条形码的至少8种不同的文库衔接子。该文库衔接子可以不是测序衔接子。该试剂盒可进一步包含具有与文库衔接子选择性杂交的第一序列和与流动池序列选择性杂交的第二序列的测序衔接子。在另一个实例中，测序衔接子可以是发夹形的。例如，该发夹形的衔接子可包含互补双链部分和环部分，其中该双链部分可以与双链多核苷酸附接(例如，连接)。发夹形的测序衔接子可以附接至多核苷酸片段的两端，以生成可以被多次测序的环状分子。测序衔接子从一端到另一端可以为多至10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100个或更多个碱基。该测序衔接子从一端到另一端可包含20-30、20-40、30-50、30-60、40-60、40-70、50-60、50-70个碱基。在特定的实例中，该测序衔接子从一端到另一端可包含20-30个碱基。在另一个实例中，该测序衔接子从一端到另一端可包含50-60个碱基。测序衔接子可包含一个或多个条形码。例如，测序衔接子可包含样品条形码。该样品条形码可包含预先确定的序列。该样品条形码可用于鉴定多核苷酸的来源。该样品条形码可以为至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个或更多个(或如全文中描述的任何长度)核酸碱基，例如，至少8个碱基。该条形码可以是如上所述的连续或非连续的序列。

该文库衔接子可以是平端和Y形的，并且其长度可以小于或等于40个核酸碱基。文库衔接子的其他变化可在全文中找到，并且可适用于该试剂盒。

本发明提供了包括但不限于以下实施方案：

1.一种用于确定指示样品中单独双链脱氧核糖核酸(DNA)分子数目的定量量度的方法，其包括：

(a)确定两条链均被检测到的单独DNA分子的定量量度；

(b)确定仅一条DNA链被检测到的单独DNA分子的定量量度；

(c)从以上(a)和(b)推断两条链均未被检测到的单独DNA分子的定量量度；以及

(d)使用(a)-(c)确定指示所述样品中单独双链DNA分子数目的定量量度。

2.根据实施方案1所述的方法，其进一步包括通过确定在步骤(d)中确定的在一个或多个遗传基因座中的每一个处的归一化定量量度并基于所述归一化量度确定拷贝数变异，来检测所述样品中的拷贝数变异。

3.根据实施方案1所述的方法，其中所述样品包含基本上来源于无细胞核酸的双链多核苷酸分子。

4.根据实施方案1所述的方法，其中确定单独DNA分子的所述定量量度包括用一组双链体标记物标记所述DNA分子，其中每个双链体标记物差异性地标记所述样品中的双链DNA分子的互补链，以提供标记链。

5.根据实施方案4所述的方法，其进一步包括对所述标记链中的至少一些进行测序以产生一组序列阅读值。

6.根据实施方案5所述的方法，其进一步包括将序列阅读值分类为配对阅读值和非配对阅读值，其中(i)每个配对阅读值对应于所述组中由来源于双链多核苷酸分子的第一标记链和第二差异标记互补链生成的序列阅读值，并且(ii)每个非配对阅读值表示第一标记链，并且来源于双链多核苷酸分子的第二差异标记互补链在该组序列阅读值中的所述序列阅读值之中没有被表示。

7.根据实施方案6所述的方法，其进一步包括确定定位到一个或多个遗传基因座中的每一个的(i)所述配对阅读值和(ii)所述非配对阅读值的定量量度，以基于定位到每个基因座的配对阅读值和非配对阅读值的所述定量量度确定所述样品中定位到所述一个或多个遗传基因座中的每一个的全部双链DNA分子的定量量度。

8.一种用于减少测序分析中的失真的方法，其包括：

(a)用第一标记物组标记对照亲本多核苷酸以产生标记的对照亲本多核苷酸；

(b)用第二标记物组标记测试亲本多核苷酸以产生标记的测试亲本多核苷酸；

(c)使标记的对照亲本多核苷酸与标记的测试亲本多核苷酸混合以形成集合库；

(d)确定标记的对照亲本多核苷酸和标记的测试亲本多核苷酸的量；以及

(e)使用标记的对照亲本多核苷酸的量减少标记的测试亲本多核苷酸的量的失真。

9.根据实施方案8所述的方法，其中所述第一标记物组包含多个标记物，其中所述第一标记物组中的每个标记物包含相同的对照标记物和标识标记物，并且其中所述第一标记物组包含多个不同的标识标记物。

10.根据实施方案9所述的方法，其中所述第二标记物组包含多个标记物，其中所述第二标记物组中的每个标记物包含相同的测试标记物和标识标记物，其中所述测试标记物能与所述对照标记物相区别，并且其中所述第二标记物组包含多个不同的标识标记物。

11.根据实施方案9所述的方法，其中(d)包括扩增所述集合库中的标记的亲本多核苷酸以形成扩增、标记的多核苷酸的集合库，并对所述扩增的集合库中的扩增、标记的多核苷酸进行测序以产生多个序列阅读值。

12.根据实施方案11所述的方法，其进一步包括将序列阅读值分组成家族，每个家族包含由相同的亲本多核苷酸生成的序列阅读值，该分组任选地基于来自标识标记物和来自所述亲本多核苷酸的起始/末端序列的信息，并且任选地由分组中的所述多个序列阅读值确定多个亲本多核苷酸中的每一个的共有序列。

13.根据实施方案8所述的方法，其中(d)包括基于定位到大于或等于一个基因座的测试亲本多核苷酸和对照亲本多核苷酸的相对量，确定在所述大于或等于一个基因座处的所述测试亲本多核苷酸的拷贝数变异。

14.一组文库衔接子，其包含具有分子条形码的多个多核苷酸分子，其中所述多个多核苷酸分子为小于或等于80个核苷酸碱基的长度，其中所述分子条形码为至少4个核苷酸碱基的长度，并且其中：

(a)所述分子条形码彼此不同，并且彼此之间具有至少为1的编辑距离；

(b)所述分子条形码位于距离其各自的多核苷酸分子的末端至少一个核苷酸碱基处；

(c)任选地，在所有所述多核苷酸分子中至少一个末端碱基是相同的；并且

(d)所述多核苷酸分子均不含有完整的测序仪基序。

15.根据实施方案14所述的文库衔接子组，其中除了所述分子条形码之外，所述多核苷酸分子是相同的。

16.根据实施方案14所述的文库衔接子组，其中所述多个多核苷酸分子中的每一个均具有双链部分和至少一个单链部分。

17.根据实施方案16所述的文库衔接子组，其中所述双链部分具有在所述分子条形码之中的分子条形码。

18.根据实施方案17所述的文库衔接子组，其中所述给定的分子条形码是随机寡核苷酸。

19.根据实施方案16所述的文库衔接子组，其中所述多个多核苷酸分子中的每一个进一步在所述至少一个单链部分上包含链标识条形码。

20.根据实施方案19所述的文库衔接子组，其中所述链标识条形码包含至少4个核苷酸碱基。

21.根据实施方案16所述的文库衔接子组，其中所述单链部分具有部分测序仪基序。

22.根据实施方案14所述的文库衔接子组，其中所述多核苷酸分子具有相同的末端核苷酸的序列。

23.根据实施方案14所述的文库衔接子组，其中所述多个多核苷酸分子中的每一个均为Y形、气泡形或发夹形。

24.根据实施方案14所述的文库衔接子组，其中所述多核苷酸分子均不含有样品标识基序。

25.根据实施方案14所述的文库衔接子组，其中所述分子条形码为至少10个核苷酸碱基的长度。

26.根据实施方案14所述的文库衔接子组，其中所述多个多核苷酸分子中的每一个均为10个核苷酸碱基至60个核苷酸碱基的长度。

27.根据实施方案14所述的文库衔接子组，其中在所有所述多核苷酸分子中所述至少一个末端碱基是相同的。

28.根据实施方案14所述的文库衔接子组，其中所述分子条形码位于距离其各自的多核苷酸分子的末端至少10个核苷酸碱基处。

29.根据实施方案14所述的文库衔接子组，其基本由所述多个多核苷酸分子组成。

30.一种方法，其包括：

(a)用来自如实施方案14中的衔接子文库的多个多核苷酸分子标记多核苷酸的集合，以创建标记的多核苷酸的集合；以及

(b)在测序衔接子的存在下扩增所述标记的多核苷酸的集合，其中所述测序衔接子具有引物，该引物具有能与所述多个多核苷酸分子中的互补序列选择性杂交的核苷酸序列。

31.一种用于检测或定量原始DNA片段的异质群体中的稀有脱氧核糖核酸(DNA)的方法，其中所述稀有DNA具有小于1％的浓度，该方法包括：

(a)在单一反应中标记所述原始DNA片段，使得超过30％的所述原始DNA片段在两端被包含分子条形码的文库衔接子标记，从而提供标记的DNA片段；

(b)对所述标记的DNA片段进行高保真度扩增；

(c)任选地，选择性地富集所述标记的DNA片段的亚组；

(d)对所述标记、扩增并任选地选择性富集的DNA片段中的一条或两条链进行测序，以获得包含所述分子条形码的核苷酸序列和所述原始DNA片段的至少一部分的序列阅读值；

(e)从所述序列阅读值确定代表所述原始DNA片段的单链的共有阅读值；以及

(f)定量所述共有阅读值以便以大于99.9％的特异性检测或定量所述稀有DNA。

32.根据实施方案31所述的方法，其中步骤(e)包括比较具有相同或相似的分子条形码以及片段序列的相同或相似末端的序列阅读值。

33.根据实施方案32所述的方法，其中所述比较进一步包括对所述具有相同或相似的分子条形码的序列阅读值进行系统发育分析。

34.根据实施方案32所述的方法，其中所述分子条形码包括具有最高为3的编辑距离的条形码。

35.根据实施方案31所述的方法，其中所述片段序列的末端包括具有最高为3的编辑距离的片段序列。

36.根据实施方案31所述的方法，其进一步包括将序列阅读值分类为配对阅读值和非配对阅读值，并对定位到一个或多个遗传基因座中的每一个的配对阅读值和非配对阅读值的数目进行定量。

37.根据实施方案31所述的方法，其中所述标记通过具有与原始DNA片段相比过量的文库衔接子而发生。

38.根据实施方案31所述的方法，其进一步包括根据所述分子条形码和来自每个所述原始DNA片段的至少一个末端的序列信息对所述序列阅读值进行分箱，以创建单链阅读值的箱元。

39.根据实施方案38所述的方法，其进一步包括，在每个箱元中，通过分析序列阅读值确定在所述原始DNA片段中给定的原始DNA片段的序列。

40.根据实施方案39所述的方法，其进一步包括通过比较在由所述标记、扩增并任选富集的DNA片段代表的基因组的每个位置处每个碱基出现的次数来检测或定量所述稀有DNA。

41.根据实施方案31所述的方法，其进一步包括选择性富集所述标记的DNA片段的亚组。

42.根据实施方案41所述的方法，其进一步包括在富集之后在包含引物的测序衔接子的存在下扩增所富集的标记的DNA片段。

43.根据实施方案31所述的方法，其中用来自如实施方案1中的衔接子文库的多核苷酸分子标记所述DNA片段。

44.一种用于处理和/或分析受试者的核酸样品的方法，其包括：

(a)将来自所述核酸样品的多核苷酸片段暴露于一组文库衔接子，以生成标记的多核苷酸片段；以及

(b)在产生扩增的多核苷酸片段作为所述标记的多核苷酸片段的扩增产物的条件下，使所述标记的多核苷酸片段经历核酸扩增反应，

其中该组文库衔接子包含具有分子条形码的多个多核苷酸分子，其中所述多个多核苷酸分子为小于或等于80个核苷酸碱基的长度，其中所述分子条形码为至少4个核苷酸碱基的长度，并且其中：

(1)所述分子条形码彼此不同，并且彼此之间具有至少为1的编辑距离；

(2)所述分子条形码位于距离其各自的多核苷酸分子的末端至少一个核苷酸碱基处；

(3)任选地，在所有所述多核苷酸分子中至少一个末端碱基是相同的；并且

(4)所述多核苷酸分子均不含有完整的测序仪基序。

45.根据实施方案44所述的方法，其进一步包括确定所述扩增的标记的多核苷酸片段的核苷酸序列。

46.根据实施方案45所述的方法，其中在不进行聚合酶链反应(PCR)的情况下确定所述扩增的标记的多核苷酸片段的所述核苷酸序列。

47.根据实施方案45所述的方法，其进一步包括采用编程的计算机处理器分析所述核苷酸序列，以鉴定所述受试者的所述核苷酸样品中的一个或多个遗传变异。

48.根据实施方案44所述的方法，其中所述核酸样品是无细胞核酸样品。

49.根据实施方案44所述的方法，其中将所述核酸样品的所述多核苷酸片段暴露于所述多个多核苷酸分子以至少10％的转化效率产生了所述标记的多核苷酸片段。

50.根据实施方案44所述的方法，其中所述经历包括从对应于选自下组的基因的序列扩增所述标记的多核苷酸片段：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。

51.一种方法，其包括：

(a)由多个多核苷酸分子生成多个序列阅读值，其中所述多个多核苷酸分子覆盖靶基因组的基因组基因座，其中所述基因组基因座对应于选自下组的多个基因：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1；

(b)采用计算机处理器将所述多个序列阅读值分组成家族，其中每个家族包含来自一种所述模板多核苷酸的序列阅读值；

(c)对于每个所述家族，合并序列阅读值以生成共有序列；

(d)判定在所述基因组基因座之中的给定基因组基因座处的所述共有序列；

(e)在所述给定基因组基因座处检测以下任意项：

i.所述判定之中的遗传变异；

ii.所述判定之中的遗传改变的频率；

iii.判定的总数；以及

iv.所述判定之中的改变的总数。

52.根据实施方案51所述的方法，其中每个家族包含来自仅一种所述模板多核苷酸的序列阅读值。

53.根据实施方案51所述的方法，其进一步包括在所述基因组基因座之中的额外基因组基因座处进行(d)-(e)。

54.根据实施方案53所述的方法，其进一步包括基于在所述给定基因组基因座和额外基因组基因座处的计数，确定在所述给定基因组基因座和额外基因组基因座中的一个基因组基因座处的拷贝数变异。

55.根据实施方案51所述的方法，其中所述分组包括通过鉴定(i)与所述多个多核苷酸分子偶联的不同的分子条形码和(ii)所述多个序列阅读值之间的相似性，将所述多个序列阅读值分类成家族，其中每个家族包含与分子条形码的不同组合相关的多个核酸序列以及相似或相同的序列阅读值。

56.根据实施方案51所述的方法，其中通过评估每个所述序列阅读值的定量量度或统计显著性水平来生成所述共有序列。

57.根据实施方案51所述的系统，其中所述多个基因包括选自所述组的所述多个基因中的至少10个。

58.一种方法，其包括：

(a)在单个反应器皿中提供模板多核苷酸分子和一组文库衔接子，其中所述文库衔接子是具有不同分子条形码的多核苷酸分子，并且其中所述文库衔接子均不含有完整的测序仪基序；

(b)在所述单个反应器皿中，使所述文库衔接子与所述模板多核苷酸分子以至少10％的效率偶联，从而用在多个不同的标记组合中的标记组合标记每个模板多核苷酸，以产生标记的多核苷酸分子；

(c)在产生扩增的多核苷酸分子作为所述标记的多核苷酸分子的扩增产物的条件下，使所述标记的多核苷酸分子经历扩增反应；以及

(d)对所述扩增的多核苷酸分子进行测序。

59.根据实施方案58所述的方法，其中除了所述分子条形码之外，所述文库衔接子是相同的。

60.根据实施方案58所述的方法，其中每一个所述文库衔接子具有双链部分和至少一个单链部分，并且其中所述单链部分具有部分测序仪基序。

61.根据实施方案58所述的方法，其中所述文库衔接子与所述模板多核苷酸分子的两端偶联。

62.根据实施方案58所述的方法，其中所述效率为至少30％。

63.根据实施方案58所述的方法，其进一步包括在对所述扩增的多核苷酸分子进行测序后鉴定遗传变异。

64.根据实施方案58所述的方法，其中所述测序包括(i)在产生额外的扩增的多核苷酸分子作为所述扩增的多核苷酸分子的扩增产物的条件下，使所述扩增的多核苷酸分子经历额外的扩增反应；以及(ii)对所述额外的扩增的多核苷酸分子进行测序。

65.根据实施方案64所述的方法，其中在测序衔接子的存在下进行所述额外的扩增。

66.根据实施方案58所述的方法，其中在不等分所述标记的多核苷酸分子的情况下进行(b)和(c)。

67.一种用于分析受试者的靶核酸分子的系统，其包括：

通信接口，其接收覆盖靶基因组的基因组基因座的多个多核苷酸分子的核酸序列阅读值；

计算机存储器，其存储由所述通信接口接收的所述多个多核苷酸分子的所述核酸序列阅读值；以及

计算机处理器，其可操作地耦合至所述通信接口和所述存储器，并且被编程为(i)将所述多个序列阅读值分组成家族，其中每个家族包含来自一种所述模板多核苷酸的序列阅读值，(ii)对于每个所述家族，合并序列阅读值以生成共有序列，(iii)判定在所述基因组基因座之中的给定基因组基因座处的所述共有序列，以及(iv)在所述给定基因组基因座处检测以下任意项：所述判定之中的遗传变异，所述判定之中的遗传改变的频率，判定的总数，以及所述判定之中的改变的总数，

其中所述基因组基因座对应于选自下组的多个基因：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。

68.一组寡核苷酸分子，该寡核苷酸分子与选自下组的至少5个基因选择性地杂交：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。

69.根据实施方案68所述的组，其中所述寡核苷酸分子为10-200个碱基的长度。

70.根据实施方案68所述的试剂盒，其中所述寡核苷酸分子与所述至少5个基因的外显子区选择性地杂交。

71.根据实施方案70所述的试剂盒，其中所述寡核苷酸分子与所述至少5个基因中的至少30个外显子选择性地杂交。

72.根据实施方案71所述的试剂盒，其中多个寡核苷酸分子与所述至少30个外显子中的每一个选择性地杂交。

73.根据实施方案72所述的试剂盒，其中与每个外显子杂交的所述寡核苷酸分子具有与至少1个其他寡核苷酸分子重叠的序列。

74.一种试剂盒，其包含：

含有多个文库衔接子的第一容器，每个文库衔接子均具有不同的分子条形码；以及

含有多个测序衔接子的第二容器，每个测序衔接子包含测序仪基序的至少一部分以及任选的样品条形码。

75.根据实施方案74所述的试剂盒，其中所述测序衔接子包含所述样品条形码。

76.一种用于检测无细胞DNA样品中的序列变异的方法，其包括以大于99.9％的特异性检测浓度小于1％的稀有DNA。

77.一种方法，其包括：

(a)提供包含一组双链多核苷酸分子的样品，每个双链多核苷酸分子包含第一和第二互补链；

(b)用一组双链体标记物标记所述双链多核苷酸分子，其中每个双链体标记物差异性地标记所述组中的双链多核苷酸分子的所述第一和第二互补链；

(c)对所述标记的链中的至少一些进行测序以产生一组序列阅读值；

(d)减少和/或追踪该组序列阅读值中的冗余；

(e)将序列阅读值分类为配对阅读值和非配对阅读值，其中(i)每个配对阅读值对应于由来源于所述组中双链多核苷酸分子的第一标记链和第二差异标记互补链生成的序列阅读值，并且(ii)每个非配对阅读值表示第一标记链，并且来源于双链多核苷酸分子的第二差异标记互补链在该组序列阅读值中的所述序列阅读值之中没有被表示；

(f)确定定位到一个或多个遗传基因座中的每一个的(i)所述配对阅读值和(ii)所述非配对阅读值的定量量度；以及

(g)基于定位到每个基因座的配对阅读值和非配对阅读值的所述定量量度，用编程的计算机处理器估算定位到所述一个或多个遗传基因座中的每一个的所述组中全部双链多核苷酸分子的定量量度。

78.根据实施方案77所述的方法，其进一步包括(h)通过确定在步骤(g)中确定的在所述一个或多个遗传基因座中的每一个处的归一化总定量量度并基于所述归一化量度确定拷贝数变异，来检测所述样品中的拷贝数变异。

79.根据实施方案77所述的方法，其中所述样品包含基本上来源于无细胞核酸的双链多核苷酸分子。

80.根据实施方案77所述的方法，其中所述双链体标记物不是测序衔接子。

81.根据实施方案77所述的方法，其中减少所述组序列阅读值中的冗余包括将由所述样品中的原始多核苷酸分子的扩增产物产生的序列阅读值分解回到所述原始多核苷酸分子。

82.根据实施方案81所述的方法，其进一步包括确定所述原始多核苷酸分子的共有序列。

83.根据实施方案82所述的方法，其进一步包括鉴定在一个或多个遗传基因座处的包含序列变异的多核苷酸分子。

84.根据实施方案82所述的方法，其进一步包括确定定位到基因座的配对阅读值的定量量度，其中所述对的两条链均包含序列变异。

85.根据实施方案84所述的方法，其进一步包括确定配对分子的定量量度，其中所述对中仅一个成员具有序列变异；和/或确定具有序列变异的非配对分子的定量量度。

86.一种方法，其包括：

(a)从测序仪接收用双链体标记物标记的多核苷酸的一组序列阅读值至存储器中；

(b)减少和/或追踪该组序列阅读值中的冗余；

(c)将序列阅读值分类为配对阅读值和非配对阅读值，其中(i)每个配对阅读值对应于所述组中由来源于双链多核苷酸分子的第一标记链和第二差异标记互补链生成的序列阅读值，并且(ii)每个非配对阅读值表示第一标记链，并且来源于双链多核苷酸分子的第二差异标记互补链在该组序列阅读值中的所述序列阅读值之中没有被表示；

(d)确定定位到一个或多个遗传基因座中的每一个的(i)所述配对阅读值和(ii)所述非配对阅读值的定量量度；以及

(e)基于定位到每个基因座的配对阅读值和非配对阅读值的所述定量量度，估算定位到所述一个或多个遗传基因座中的每一个的所述组中全部双链多核苷酸分子的定量量度。

87.一种方法，其包括：

(d)减少和/或追踪该组序列阅读值中的冗余；

(e)将序列阅读值分类为配对阅读值和非配对阅读值，其中(i)每个配对阅读值对应于由来源于所述组中双链多核苷酸分子的第一标记链和第二差异标记互补链生成的序列阅读值，并且(ii)每个非配对阅读值表示第一标记链，并且来源于双链多核苷酸分子的第二差异标记互补链在该组序列阅读值中的所述序列阅读值之中没有被表示；以及

(f)确定以下至少两个的定量量度：定位到一个或多个遗传基因座中的每一个的(i)所述配对阅读值，(ii)所述非配对阅读值，(iii)所述配对阅读值的读深，和(iv)非配对阅读值的读深。

88.一种方法，其包括：

(a)用第一标记物组标记对照亲本多核苷酸以产生标记的对照亲本多核苷酸，其中所述第一标记物组包含多个标记物，其中所述第一标记物组中的每个标记物包含相同的对照标记物和标识标记物，并且其中所述标记物组包含多个不同的标识标记物；

(b)用第二标记物组标记测试亲本多核苷酸以产生标记的测试亲本多核苷酸，其中所述第二标记物组包含多个标记物，其中所述第二标记物组中的每个标记物包含相同的能与所述对照标记物相区别的测试标记物，以及标识标记物，并且其中所述第二标记物组包含多个不同的标识标记物；

(c)将标记的对照亲本多核苷酸与标记的测试亲本多核苷酸混合以形成集合库；

(d)扩增所述集合库中的标记的亲本多核苷酸以形成扩增、标记的多核苷酸的集合库；

(e)对所述扩增的集合库中的扩增、标记的多核苷酸进行测序以产生多个序列阅读值；

(f)将序列阅读值分组成家族，每个家族包含由相同的亲本多核苷酸生成的序列阅读值，该分组任选地基于来自标识标记物和来自所述亲本多核苷酸的起始/末端序列的信息，并且任选地由分组中的所述多个序列阅读值确定多个亲本多核苷酸中的每一个的共有序列；

(g)基于具有测试标记物或对照标记物，将每个家族或共有序列分类为对照亲本多核苷酸或测试亲本多核苷酸；

(h)确定定位到至少两个遗传基因座中的每一个的对照亲本多核苷酸和对照测试多核苷酸的定量量度；以及

(i)基于定位到至少一个基因座的测试亲本多核苷酸和对照亲本多核苷酸的相对量，确定所述至少一个基因座处的所述测试亲本多核苷酸的拷贝数变异。

89.一种方法，其包括：

(a)由多个模板多核苷酸生成多个序列阅读值，每个多核苷酸定位到基因组基因座；

(b)将所述序列阅读值分组成家族，每个家族包含由一种模板多核苷酸生成的序列阅读值；

(c)对每个家族判定所述基因组基因座处的核苷酸碱基或序列；

(d)在所述基因组基因座处检测以下任意项：

i.所述判定之中的基因组改变；

ii.所述判定之中的遗传改变的频率；

iii.判定的总数；

iv.所述判定之中的改变的总数。

90.根据实施方案89所述的方法，其中判定包括以下任意项：系统发育分析，投票，加权，为家族中的基因座处的每个阅读值指定概率，以及判定具有最高概率的核苷酸碱基。

91.根据实施方案89所述的方法，其在两个基因座处进行，包括基于每个基因座处的计数确定一个基因座处的CNV。

92.一种方法，其包括：

(a)使衔接子与双链脱氧核糖核酸(DNA)多核苷酸连接，其中连接在单个反应器皿中进行，并且其中所述衔接子包含分子条形码，以产生包含来自所述双链DNA多核苷酸的插入物并具有4至一百万个不同标记物的标记文库；

(b)针对所述标记文库中的每一个所述双链DNA多核苷酸生成多个序列阅读值；

(c)基于标记物中的信息和所述插入物的末端处的信息，将序列阅读值分组成家族，每个家族包含由所述双链DNA多核苷酸之中的单个DNA多核苷酸生成的序列阅读值；以及

(d)基于家族的成员中该位置处的核苷酸碱基，判定双链DNA分子中每个位置处的核苷酸碱基。

93.根据实施方案92所述的方法，其中(d)包括判定来自所述序列阅读值的至少一个亚组的多个连续碱基，以鉴定所述双链DNA分子中的单核苷酸变异(SNV)。

实施例

实施例1.拷贝数变异检测方法

血液收集

在室温下收集10-30mL血样样品。将样品离心以去除细胞。在离心后收集血浆。

cfDNA提取

对样品进行蛋白酶K消化。用异丙醇沉淀DNA。在DNA纯化柱(例如，QIAamp DNABlood Mini Kit)上捕获DNA，并在100μl溶液中洗脱。通过Ampure SPRI磁珠捕获(PEG/盐)选择低于500bp的DNA。使所得的产物悬浮在30μl H₂O中。检查大小分布(主峰＝166个核苷酸；次峰＝330个核苷酸)并定量。5ng提取的DNA含有约1700个单倍体基因组等同物(“HGE”)。DNA与HGE的量之间的一般关系如下：3pg DNA＝1HGE；3ng DNA＝1K HGE；3μg DNA＝1M HGE；10pg DNA＝3HE；10ng DNA＝3K HGE；10μg DNA＝3M HGE。

“单分子”文库制备

通过平端修复以及与具有过载的发夹衔接子的8种不同八聚体连接(即，64种组合)来进行高效DNA标记(>80％)。使用2.5ng DNA(即，约800个HGE)作为起始材料。每个发夹衔接子在其非互补部分上均包含随机序列。每个DNA片段的两端均与发夹衔接子附接。可通过该发夹衔接子上的随机序列和该片段上的10p内源序列鉴定每个标记的片段。

将标记的DNA通过10个循环的PCR扩增，以产生约1-7μg DNA，其含有起始材料中800个HGE的每一个的约500个拷贝。

可以进行缓冲液优化、聚合酶优化和循环减少来优化PCR反应。还通过优化降低扩增偏差，例如，非特异性偏差、GC偏差和/或大小偏差。通过采用高保真度聚合酶降低噪音(例如，聚合酶引入的错误)。

可以使用Verniata或Sequenom法制备文库。

可以如下富集序列：使用具有针对ROI的探针的生物素标记的珠子捕获具有感兴趣区域(ROI)的DNA。通过12个循环的PCR扩增ROI，以产生2000倍扩增。然后使所得的DNA变性、稀释至8pM并加载至Illumina测序仪中。

大规模平行测序

使用0.1％至1％的样品(约100pg)进行测序。

数字生物信息学

将序列阅读值分组成家族，每个家族具有约10个序列阅读值。通过对家族中的每个位置进行投票(例如，偏向投票)，将家族分解成共有序列。如果8或9个成员一致，则碱基被判定为共有序列。如果一致的成员不超过60％，则碱基不被判定为共有序列。

将所得的共有序列定位至参考基因组。共有序列中的每个碱基被约3000个不同家族覆盖。计算每个序列的质量得分，并根据其质量得分过滤序列。

通过对每个基因座处碱基的分布进行计数来检测序列变异。如果98％的阅读值具有相同的碱基(纯合的)而2％具有不同的碱基，则该基因座可能具有推测来自癌症DNA的序列变异。

通过对定位至基因座的序列(碱基)的总数进行计数并与对照基因座进行比较来检测CNV。为了增加CNV检测，对特定区域进行CNV分析，该特定区域包括ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA或NTRK1基因上的区域。

实施例2.通过确定样品中未发现的分子的总数校正碱基判定的方法

对片段进行扩增并且读取和比对扩增片段的序列后，对该片段进行碱基判定。扩增片段和未发现的扩增片段的数目的变异可以在碱基判定中引入错误。通过计算未发现的扩增片段的数目校正这些变异。

在对基因座A(任意基因座)进行碱基判定时，首先假设存在N个扩增片段。序列读出值可能来自两种类型的片段：双链片段和单链片段。以下是计算样品中未发现的分子的总数的理论实例。

N为样品中分子的总数。

假设检测到的双链体的数目为1000。

假设检测到的单链分子的数目为500。

P为发现链的概率。

Q为未检测到链的概率。

由于Q＝1-P。

1000＝NP(2)。

500＝N2PQ。

1000/P(2)＝N。

500÷2PQ＝N。

1000/P(2)＝500÷2PQ。

1000*2PQ＝500P(2)。

2000PQ＝500P(2)。

2000Q＝500P。

2000(1-P)＝500P

2000-2000P＝500P。

2000＝500P+2000P。

2000＝2500P。

2000÷2500＝P。

0.8＝P。

1000/P(2)＝N。

1000÷0.64＝N。

1562＝N。

未发现的片段的数目＝62。

实施例3.患者中癌症相关的体细胞变异中的遗传变异的鉴定

使用测定法来分析一组基因，从而以高灵敏性鉴定癌症相关的体细胞变异中的遗传变异。

从患者的血浆中提取无细胞DNA并通过PCR扩增。通过扩增的靶基因的大规模平行测序来分析遗传变异。对于一组基因，对全部外显子进行测序，因为这样的测序覆盖已显示出具有临床实用性(表1)。对于另一组基因，测序覆盖包括具有先前报道的体细胞突变的那些外显子(表2)。最小可检测的突变等位基因(检测极限)取决于患者的样品无细胞DNA浓度，该浓度从每mL外周血少于10个至超过1,000个基因组等同物不等。在具有较低量的无细胞DNA和/或低水平基因拷贝扩增的样品中，可能检测不到扩增。某些样品或变异特性导致降低的分析灵敏度，如低样品质量或不恰当的采集。

在血液中循环的无细胞DNA中发现的遗传变异的百分比与此患者的独特的肿瘤生物学有关。影响在血液中循环的无细胞DNA中检测到的遗传变异的量/百分比的因素包括肿瘤生长、转变(turn-over)、大小、异质性、血管化、疾病进展或治疗。表3注释了在此患者中检测到的改变的循环无细胞DNA的百分比(％cfDNA)或等位基因频率。一些检测到的遗传变异按％cfDNA以降序列出。

在从该患者的血液样本中分离的循环无细胞DNA中检测到遗传变异。这些遗传变异是癌症相关的体细胞变异，其中一些与对特定治疗的临床应答的增加或降低有关。“次要改变”被定义为以小于“主要改变”的等位基因频率的10％检测到的那些改变。注释了检测到的这些改变的等位基因频率(表3)和对此患者的相关治疗。

表1和表2中列出的所有基因均作为Guardant360^TM试验的一部分得到分析。在从该患者的血液样本分离的循环无细胞DNA中没有检测到ERBB2、EGFR或MET的扩增。

包括遗传变异的患者测试结果在表4中列出。

表1.所有外显子都得到测序的基因

LOD：检测极限。检测到80％的体细胞变异的该样本的最小可检测突变等位基因频率。

表2.具有先前报道的体细胞突变的外显子得到测序的基因

表3.该患者中检测到的改变的循环无细胞DNA的等位基因频率

表4.在选定基因中检测到的基因组改变

实施例4.确定通过Guardant360^TM测定分析的基因的患者特异性检测极限

使用实施例3的方法，检测患者的无细胞DNA中的遗传改变。这些基因的序列阅读值包括外显子和/或内含子序列。

该测试的检测极限在表5中示出。该检测极限值取决于无细胞DNA浓度和每个基因的测序覆盖。

表5.使用Guardant，患者中选定基因的检测极限

LOD：检测极限。检测到80％的体细胞变异的该样本的最小可检测突变等位基因频率。*表示CNV基因。

实施例5.通过比较Watson和Crick序列校正序列错误

从患者的血浆中分离双链无细胞DNA。使用16种不同的含气泡的衔接子标记无细胞DNA片段，每一个衔接子均包含独特的条形码。通过连接将含气泡的衔接子附接至每个无细胞DNA片段的两端。连接后，每个无细胞DNA片段可以被独特条形码的序列以及在该无细胞DNA片段两端处的两个20bp内源序列清楚地标识。

通过PCR扩增该标记的无细胞DNA片段。使用包含与一组癌症相关基因特异性结合的寡核苷酸探针的珠子富集该扩增的片段。因此，来自这组癌症相关基因的无细胞DNA片段被选择性富集。

将测序衔接子附接至富集的DNA分子，其中每一个测序衔接子均包含测序引物结合位点、样品条形码和流动池序列。通过PCR扩增所得到的分子。

对扩增的片段的两条链进行测序。因为每个含气泡的衔接子均包含非互补部分(例如，气泡)，所以含气泡的衔接子的一条链的序列与另一条链(互补链)的序列不同。因此，可以根据附接的含气泡的衔接子序列将来源于原始无细胞DNA的Watson链的扩增子的序列阅读值与来自该原始无细胞DNA的Crick链的扩增子区分开。

将来自原始无细胞DNA片段的一条链的序列阅读值与来自该原始无细胞DNA片段的另一条链的序列阅读值进行比较。如果变异仅出现于来自原始无细胞DNA片段的一条链的序列阅读值中，而不存在于另一条链中，则该变异将被鉴定为错误(例如，由PCR和/或扩增导致的)，而不是真正的遗传变异。

将序列阅读值分组成家族。校正序列阅读值中的错误。通过分解生成每个家族的共有序列。

虽然本发明的优选实施方案已在本文中示出和描述，但对于本领域技术人员显而易见的是，这样的实施方案仅通过示例的方式提供。并非旨在以本说明书中提供的具体实例限制本发明。虽然已参考上述说明书描述了本发明，但本文实施方案的说明和例示并不意味着以限制性的意义来解释。在不偏离本发明的情况下，本领域技术人员现将想到多种变化、改变和替换。此外，应当理解，本发明的所有方面并不限于本文阐述的取决于多种条件和变量的具体描写、配置或相对比例。应当理解，本文所述的本发明实施方案的各种替代方案可用于实施本发明。因此可以预期，本发明还应涵盖任何这样的替代、修改、变化或等同项。旨在用以下权利要求限定本发明的范围，并由此涵盖在这些权利要求范围内的方法和结构及其等同项。

Claims

(a)确定两条链均被检测到的单独DNA分子的定量量度；

(b)确定仅一条DNA链被检测到的单独DNA分子的定量量度；

2.一种用于减少测序分析中的失真的方法，其包括：

3.一组文库衔接子，其包含具有分子条形码的多个多核苷酸分子，其中所述多个多核苷酸分子为小于或等于80个核苷酸碱基的长度，其中所述分子条形码为至少4个核苷酸碱基的长度，并且其中：

(d)所述多核苷酸分子均不含有完整的测序仪基序。

4.一种方法，其包括：

(a)用来自如权利要求14中的衔接子文库的多个多核苷酸分子标记多核苷酸的集合，以创建标记的多核苷酸的集合；以及

5.一种用于检测或定量原始DNA片段的异质群体中的稀有脱氧核糖核酸(DNA)的方法，其中所述稀有DNA具有小于1％的浓度，该方法包括：

(b)对所述标记的DNA片段进行高保真度扩增；

(c)任选地，选择性地富集所述标记的DNA片段的亚组；

6.一种用于处理和/或分析受试者的核酸样品的方法，其包括：

(4)所述多核苷酸分子均不含有完整的测序仪基序。

7.一种方法，其包括：

(c)对于每个所述家族，合并序列阅读值以生成共有序列；

(e)在所述给定基因组基因座处检测以下任意项：

i.所述判定之中的遗传变异；

ii.所述判定之中的遗传改变的频率；

iii.判定的总数；以及

iv.所述判定之中的改变的总数。

8.一种方法，其包括：

(d)对所述扩增的多核苷酸分子进行测序。

9.一种用于分析受试者的靶核酸分子的系统，其包括：

10.一组寡核苷酸分子，该寡核苷酸分子与选自下组的至少5个基因选择性地杂交：ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RB1、TP53、MET、AR、ABL1、AKT1、ATM、CDH1、CSF1R、CTNNB1、ERBB4、EZH2、FGFR1、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID1A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA和NTRK1。