CN107075581B

CN107075581B - 由靶向测序进行数字测量

Info

Publication number: CN107075581B
Application number: CN201580050570.4A
Authority: CN
Inventors: 乔纳森·斯科尔尼克; 道格拉斯·阿莫雷塞; 斯特凡妮·C·韦尔加; 本杰明·施罗德
Original assignee: Nugen Technologies Inc
Current assignee: Tecan Genomics Inc
Priority date: 2014-08-06
Filing date: 2015-08-06
Publication date: 2022-03-18
Anticipated expiration: 2035-08-06
Also published as: JP2017526353A; CA2957633A1; US20160203259A1; EP3177740B1; WO2016022833A1; SG11201700891SA; EP3177740A1; JP6803327B2; US20190005193A1; US10102337B2; EP3177740A4; CN107075581A

Abstract

本文公开用于将多个核酸内的一或多个特定核酸定量的方法、组合物和试剂盒。在一些实施例中，自对所述特定核酸具有特异性的富集探针延伸产物构筑测序库并且测序。在一些实施例中，所得读段用于去除重复读段。在一些实施例中，经验证探针的计数用于定量或确定初始核酸样品中的特定核酸分子的数目。

Description

由靶向测序进行数字测量

技术领域

本发明教示涉及使用引起数字测量的靶向核酸测序用于基因表达和拷贝数变异。

相关申请的交叉引用

本申请要求2014年8月6日递交的美国临时申请第62/034,043号的权益，所述申请出于所有目的以全文引用的方式并入本文中。

背景技术

提供特定核酸的数字计数的分子方法为研究和临床团体所关注。这些方法可用于离散地测量基因表达(数字基因表达或DGE)或拷贝数变异(CNV)。可通过数字读出获得的精确测量与微阵列技术相比提供数据的较高置信度并且允许研究人员鉴定样品之间的较小差异或类似地，细胞子组内的差异(如在肿瘤活检以及测定细胞到细胞变异中)。

然而，仍需要用于选择性标靶定量的允许在无专门仪器的情况下进行所关注转录组和基因组区的高通量分析的不同方法。本文中所公开的方法、组合物和试剂盒满足这些需要并且提供相关优势。

发明内容

在一个方面中，公开一种将多个核酸内的多个特定核酸定量的方法，其包含：a.产生多个探针延伸产物的测序库，其中各探针延伸产物可由延伸与特定核酸序列内的探针标靶区互补和杂交的探针获得；b.将包含多个探针延伸产物的库测序以产生多个探针延伸产物的序列数据；及c.将比对序列中的每一者计数，其中比对数目指示多个核酸内对应特定核酸分子中的每一者的数量。

在一个方面中，公开一种将组合物中的多个特定核酸分子定量的方法，其包含：a.产生多个探针延伸产物，其中各探针延伸产物包含与特定核酸分子内的探针标靶区互补的探针序列；b.将多个探针延伸产物测序以产生多个探针延伸产物中的每一者的序列；c.将多个探针延伸产物中的每一者的序列与参考序列数据库比对，其中参考序列数据库包含探针序列；及d.测定各探针延伸产物的序列与参考序列数据库中的序列的比对的数目，其中比对数目指示与探针延伸产物的探针互补的特定核酸分子中的每一者的数量。

在一个方面中，公开一种将多个核酸内的多个特定核酸定量的方法，其包含：a.产生多个探针延伸产物的测序库，其中各探针延伸产物包含与各探针延伸产物的5'端连接的第一衔接子，其中各探针延伸产物可由延伸与特定核酸序列内的探针标靶区互补和杂交的探针获得；b.将库测序以产生多个探针延伸产物的序列数据；及c.鉴测序列数据内探针序列的存在并且将多个探针延伸产物内的各探针序列计数，其中计数的探针的数目指示多个核酸内的多个特定核酸分子中的每一者的数量。

在一个方面中，公开一种将多个特定核酸分子定量的方法，其包含：a.产生多个探针延伸产物，其中各探针延伸产物包含(i)第一衔接子，和(ii)与特定核酸分子内的探针标靶区互补的探针序列；b.将多个探针延伸产物测序以产生包含多个探针延伸产物中的每一者的序列的序列数据；c.鉴测序列数据内各探针延伸产物的探针序列的存在；及d.测定多个探针延伸产物内的探针序列中的每一者的数目，其中探针序列中的每一者的数目指示与探针序列中的每一者互补的多个特定核酸分子中的每一者的数量。

在一个方面中，公开一种将多个核酸内的多个特定核酸定量的方法，其包含：a.将第一衔接序列附接到多个核酸的5'端；b.将多个探针杂交，其中各探针与多个特定核酸内的特定核酸内的探针标靶区互补；c.将各探针延伸到附接的第一衔接序列中以产生多个具有第一衔接序列和第二衔接序列的探针延伸产物；d.产生包含多个探针延伸产物的测序库；e.将库测序，其中获得多个探针延伸产物中的每一者的序列数据；f.将多个探针延伸产物中的每一者的序列数据与探针数据库的参考拷贝内的预测序列比对，其中所述预测序列对各探针具有特异性；及g.将与其预测序列比对的各探针序列计数，其中对其特定核酸具有特异性的各探针的计数数目指示多个核酸内的多个特定核酸内的特定核酸分子中的每一者的数量。

在一个方面中，公开一种将多个核酸分子内的多个特定核酸分子定量的方法，其包含：a.将第一衔接序列附接到多个核酸分子中的每一者的5'端；b.将多个探针与多个特定核酸分子杂交，其中各探针与特定核酸分子内的探针标靶区互补；c.将各探针延伸到附接的第一衔接序列中以产生多个具有第一衔接序列和第二衔接序列的探针延伸产物以产生多个探针延伸产物；d.将多个探针延伸产物测序以产生多个探针延伸产物中的每一者的序列数据；e.将多个探针延伸产物中的每一者的序列与探针数据库的参考拷贝内的预测序列比对，其中所述预测序列对各探针具有特异性；及f.测定与其预测序列比对的各探针序列的数目，其中所述数目指示与探针互补的特定核酸分子的数量。

在一个方面中，公开一种将多个核酸内的多个特定核酸定量的方法，其包含：a.延伸多个杂交探针，其中各探针与多个特定核酸内的特定核酸内的探针标靶区互补并且各探针具有5'第一衔接子；b.将第二衔接序列附接到多个探针延伸产物的双链端以产生测序库；c.将库测序，其中可获得多个探针延伸产物中的每一者的序列数据；及d.将与各探针标靶区对应的各探针序列计数，其中对其特定核酸具有特异性的各探针的计数数目指示多个核酸内的多个特定核酸内的特定核酸分子中的每一者的数量。

在一个方面中，公开一种将多个特定核酸分子定量的方法，其包含：a.延伸多个探针，其中各探针与多个特定核酸分子内的特定核酸分子内的探针标靶区杂交并且各探针在其5'端具有第一衔接子，以产生多个延伸产物；b.将第二衔接子附接到多个探针延伸产物的双链端；c.将多个探针延伸产物测序以产生探针延伸产物中的每一者的序列数据；及d.测定与探针标靶区杂交的各探针的数目，其中所述数目指示包含探针标靶区的特定核酸分子中的每一者的数量。

在一个方面中，公开一种将多个核酸内的多个特定核酸定量的方法，其包含：a.将多个探针杂交，其中各探针与多个特定核酸内的特定核酸内的探针标靶区互补并且各探针具有5'第一衔接子；b.延伸各探针以产生多个具有第一衔接序列的探针延伸产物；c.将第二衔接序列附接到多个探针延伸产物的双链端；d.产生包含多个探针延伸产物的测序库；e.将库测序，其中可获得多个探针延伸产物中的每一者的序列数据；f.将多个探针延伸产物中的每一者的序列数据与探针数据库内的预测序列比对，其中所述预测序列对各探针具有特异性；及g.将与探针标靶区比对的各探针序列计数，其中对其特定核酸具有特异性的各探针的计数数目指示多个核酸内的多个特定核酸内的特定核酸分子中的每一者的数量。

在一个方面中，公开一种将组合物中的多个特定核酸分子定量的方法，其包含：a.将多个探针与特定核酸分子内的探针标靶区杂交，其中各探针在其5'端具有第一衔接子；b.延伸各探针以产生多个包含第一衔接序列的探针延伸产物；c.将第二衔接序列附接到多个探针延伸产物的双链端；d.将多个探针延伸产物测序以产生多个探针延伸产物中的每一者的序列；e.将多个探针延伸产物中的每一者的序列与探针数据库内的预测序列比对，其中所述探针数据库包含多个预测序列，其中各预测序列对探针具有特异性；及f.测定各探针延伸产物的序列与测序数据库内的预测序列的比对的数目，其中比对数目指示与探针杂交的特定核酸分子中的每一者的数量。

在一些实施例中，序列数据或测序的多个探针延伸产物包含正向读段、索引读段和反向读段中的至少一者。在一些实施例中，反向读段包含探针标靶区。在一些实施例中，可验证各探针退火到其相应特定核酸内的其相应探针标靶区序列的特异性。在一些实施例中，序列数据或测序的多个探针延伸产物可映射到基因组或转录组数据库的坐标和/或序列数据或测序的多个探针延伸产物可与探针数据库的参考拷贝比对以验证预期探针退火和延伸。在一些实施例中，序列数据或测序的多个探针延伸产物可映射到基因组或转录组数据库的坐标。在一些实施例中，反向读段或正向读段包含探针标靶区。在一些实施例中，用于正向和反向读段的序列数据或测序的多个探针延伸产物可针对多个特定核酸映射并且用于索引读段的序列数据或测序的多个探针延伸产物可鉴定条形码序列及n-随机序列中的至少一者。在一些实施例中，正向读段图坐标与索引读段n-随机碱基的组合确定各探针延伸产物的PCR重复并且具有相同正向读段坐标和相同n-随机碱基序列的序列可鉴定为重复，合并并且以单个特定核酸分子形式计数；并且其中具有相同正向读段坐标但不同n-随机碱基序列的序列可各以相异的特定核酸分子形式计数。

在一些实施例中，正向读段和对应反向读段可进行双末端比对。在一些实施例中，在重复合并之后，针对各探针序列计数的反向读段或正向读段的数目产生代表多个特定核酸内的各初始特定核酸分子的分子数目的值。在一些实施例中，基因组选自由哺乳动物、细菌、病毒、立克次体(rickettsial)或植物基因组或转录组组成的群组。在一些实施例中，多个特定核酸在附接第一衔接子之前已经历末端修复。在一些实施例中，末端修复为钝端修复。在一些实施例中，探针可通过选自由DNA聚合酶、RNA聚合酶或逆转录酶组成的群组的聚合酶延伸。

在一些实施例中，在产生测序库之前，多个探针延伸产物可经扩增或任选地经扩增。在一些实施例中，探针延伸产物可用限制性核酸内切酶处理或经历钝端/末端修复，随后添加第二衔接子。在一些实施例中，其中探针延伸产物的延伸进一步包含添加第一衔接子。在一些实施例中，扩增探针延伸产物进一步包含将流动细胞序列与扩增产物的各端连接。在一些实施例中，限制性核酸内切酶处理的探针延伸产物产生具有共用端的正向读段。在一些实施例中，序列数据或测序的多个探针延伸产物可映射到基因组或转录组的坐标以验证预期探针退火和延伸。在一些实施例中，序列数据或测序的多个探针延伸产物可与探针数据库的参考拷贝比对以验证预期探针退火。在一些实施例中，反向读段序列或正向读段序列可根据其代表哪个探针序列来分组和计数，其中代表各探针的次数可为初始特定核酸分子存在于最初样品中的次数的量度。在一些实施例中，正向读段包含特定核酸序列的至少一部分，其可包括特定核酸序列的至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20或至少25个碱基。

在一些实施例中，第一衔接序列或第二衔接序列包含索引序列引发位点、索引核苷酸序列、n-随机核苷酸序列、正向读段引发位点和反向读段引发位点中的至少一者及其组合。在一些实施例中，第二衔接序列或第一衔接序列包含正向读段引发位点、反向读段引发位点和连接序列中的至少一者，及其组合。在一些实施例中，5'第一衔接子可为各探针延伸产物共用。在一些实施例中，5'尾序列可包括第二衔接序列。在一些实施例中，探针延伸产物的扩增产生流动细胞序列与扩增产物的各端的连接。

在一些实施例中，索引读段包含索引核苷酸序列和n-随机碱基序列的至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14或至少15个碱基。在一些实施例中，索引读段包含n-随机碱基和索引核苷酸序列的至少4、至少5、至少6、至少7、至少8、至少9或至少10个碱基。在一些实施例中，索引读段包含n-随机碱基和任选地，索引核苷酸序列的至少4、至少5、至少6、至少7、至少8、至少9或至少10个碱基。在一些实施例中，n-随机碱基核苷酸序列包含至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9或至少10个核苷酸。在一些实施例中，索引核苷酸序列进一步包含条形码序列。

在一些实施例中，反向读段包含探针序列和一部分特定核酸序列中的至少一者及其组合。在一些实施例中，反向读段包含探针序列的至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55或至少60个碱基。在一些实施例中，反向读段包含在探针序列的3'处的特定核酸序列的至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15或至少20个碱基。

在另一方面，公开一种通过所公开方法产生和/或扩增的探针延伸产物的组合物。

在又另一个方面，多个核酸可来源于选自由以下组成的群组的样品：组织、器官、单个细胞、肿瘤、自患者获取的有机流体样本、自由循环核酸、真菌、原核生物体和病毒。在一些实施例中，可已知或怀疑患者患有肿瘤。在一些实施例中，有机流体含有至少一个循环肿瘤细胞(CTC)或播散性肿瘤细胞(CTD)。在一些实施例中，可已知或怀疑患者患有病毒感染，所述病毒感染可为传染性感染或传染性疾病。

在一些实施例中，本发明的组合物包含多个核酸分子。在一些实施例中，各探针延伸产物为与特定核酸分子内的探针标靶区互补的探针的延伸产物。

在又另一个方面，公开一种用于核酸分子的数字测量的试剂盒，其包含以下中的至少一或多个：寡核苷酸衔接子；与一部分探针标靶区序列互补的探针；与所述衔接序列互补的引物；与一部分探针序列互补的引物；连接酶；聚合酶；及试剂盒的使用说明书。在又另一个方面，公开一种用于核酸分子的数字测量的包含本发明的一或多个方面的试剂盒。

在一些实施例中，本发明的方法、组合物和试剂盒包含以下中公开的一或多个方面：李(Li)等人2012.生物信息学(Bioinformatics).28(10):1307-1313；贝约斯(Bellos)等人2014.核酸研究(Nucleic Acids Res.)42(20):e158；江(Jiang)等人2015.核酸研究43(6):e39；习(Xi)等人2011.美国国家科学院院刊(Proc.Natl.Acad.Sci.)108(46):1128-1136；弗罗默(Fromer)和珀塞尔(Purcell).2014.人类遗传学实验指南(Curr.Protoc.Hum.Genet.)81:7.21.1-7.23.21；萨斯拉(Sathirapongsasuti)等人2011.生物信息学31(15):1-8；克拉姆(Krumm)等人2012.基因组研究(Genome Res.)22(8):1525-1532；普拉格诺尔(Plagnol)等人2012.生物信息学28(21):2747-2754。

以引用的方式并入

本说明书中提及的所有公开、专利和专利申请都以引用的方式并入本文中，其引用的程度如每个单独的公开、专利或专利申请经特定并且单独地指示以引用的方式并入一般。

申请中的申请USSN 13/750,768、USSN 14/030,761、USSN 61/903,826和USSN 61/989,113以全文引用的方式并入本文中。

附图说明

可参考阐述其中利用本发明原理的说明性实施例的以下描述和其附图来获得对本发明的新颖特征和优势的更佳理解：

图1为流程图，其说明本文中所公开的使用gDNA的库产生的实施例。

图2为流程图，其说明本文中所公开的使用cDNA的库产生的实施例。

图3为流程图，其说明本文中所公开的使用双链gDNA的库产生的实施例。

图4为流程图，其说明本文中所公开的使用双链gDNA的库产生的实施例。

图5说明本文中所公开的用于构筑测序库和测序读段的区的实施例。

图6说明本文中所公开的用于自测序数据去除重复读段的实施例。图6A-正向读段，图6B-索引读段，图6C-反向读段。

图7说明本文中所公开的用于鉴定经测序以获得序列数据的区的实施例：图7A-正向读段，图7B-索引读段，图7C-反向读段。

图8说明本文中所公开的用于鉴定经测序以获得序列数据的区的实施例：图8A-含有序列读段的探针，图8B-特定核酸测序读段，图8C-包含索引碱基读段和n-随机碱基读段中的至少一者或其组合的索引测序读段。

图9以图形方式说明本文中所公开的用于产生测序库和随后数字定量的实施例。

图10以图形方式说明本文中所公开的使用测序库用于NGS测序和分析序列数据用于数字定量的实施例。

图11以图形方式说明在一组按染色体顺序的95个基因中在RNA水平下的基因丰度的图。涂红色的基因显著下调，并且涂绿色的基因显著上调。误差条反映DNA和RNA数据中的标准差。

图12以图形方式说明在以染色体顺序分选的509个基因的组中所有基因的测量水平的图。将具有拷贝数变化的基因涂成绿色。误差条反映样品和对照数据集的探针计数中的组合变化。

具体实施方式

本发明描述用于靶向核酸测序，引起数字测量的方法。这些数字测量适用的情况的实例为在数字基因表达和拷贝数变异中。起始物质可为核酸、DNA、RNA、cDNA或双链cDNA。公开的方法、组合物和试剂盒描述利用与其探针标靶区杂交的互补探针产生来源于探针标靶区的探针延伸产物。探针延伸产物用于进行高通量测序的标靶富集和库产生。测序数据的分析提供转录组基因表达或基因组DNA拷贝数变异的数字测量。

靶向探针与特定核酸杂交并且用聚合酶使用NuGEN Ovation标靶富集试剂盒延伸。可对所得富集库进行双末端测序。将读段映射到基因组或转录组并且鉴定PCR重复读段(描述于专利申请USSN 61/903,826)中。随后将探针序列出现在去重复测序数据集中的次数计数作为存在于初始样品中的最初核酸的拷贝数的量度。使用探针序列计数代替随机序列简化拷贝数分析，因为对于各数字测量跨越不同样品评估精确地相同的序列。此可用以使如基因长度的因素标准化，基因长度可由于替代外显子使用而在样品之间改变；以及减少测序读段映射到基因组或转录组的已知问题。

本发明的方法可与用于遗传样品分析的各种应用一起使用，包括(但不限于)RNA序列分析、数字基因表达、基因分型、拷贝数变异确定和全基因组扩增。

除非另外说明，否则生物化学、核酸化学、分子生物学和分子遗传学的术语和符号遵循所属领域中标准条约和文本的那些，例如萨布鲁克(Sambrook)等人,分子克隆实验指南(Molecular Cloning:A Laboratory Manual),第2增刊版(冷泉港实验室(Cold SpringHarbor Laboratory),1989)；科恩伯格(Kornberg)和贝克(Baker),DNA复制(DNAReplication),第二版(W.H.弗里曼(Freeman),纽约(New York),1992)；盖茨(Gaits),编,寡核苷酸合成：一种实际方法(Oligonucleotide Synthesis:A Practical Approach)(IRL出版社,牛津(Oxford),1984)；勒宁格尔(Lehninger),生物化学(Biochemistry),第二版(沃斯出版社(Worth Publishers),纽约,1975)；埃克斯坦(Eckstein),编,寡核苷酸和类似物：一种实际方法(Oligonucleotides and Analogs:A Practical Approach)(牛津大学出版社(Oxford University Press),纽约,1991)；等。

除非上下文另外明确规定，否则如本文和所附权利要求书中所用，单数形式“一(a/an)”和“所述(the)”包括多个指示物。因此，举例来说，提及“一种聚合酶”可指一种试剂或此类试剂的混合物，并且提及“所述方法”包括提及所属领域的技术人员已知的等效步骤和/或方法等等。

此外，为了促进理解，公开许多如本文所定义的术语。

如本文所用，术语“衔接子”可指已知序列的寡核苷酸，其与所关注的特定核酸序列或标靶多核苷酸链的连接允许产生所关注的特定核酸或标靶多核苷酸链的易于扩增的产物。在添加至少一个衔接子之前，特定核酸样品可经片段化或不经片段化。

预想各种衔接子设计，其适用于产生所关注的特定序列区/链的易于扩增的产物。举例来说，当使用双链衔接子时，衔接子的两个链可自互补、非互补或部分互补。衔接子可含有至少部分正向序列引发位点和随机序列。

在一些实施例中，衔接子包含另一标识序列，例如条形码序列。如本文所用，术语“条形码”可指允许鉴定与条形码结合的多核苷酸的一些特征的已知核酸序列。在一些实施例中，待鉴定的多核苷酸的特征可为衍生多核苷酸的样品。条形码可例如包含当接合到标靶多核苷酸时，可充当衍生标靶多核苷酸的样品的标识的核酸序列。在一些实施例中，条形码长度为至少3、4、5、6、7、8、9、10、11、12、13、14、15或更多个核苷酸。在一些实施例中，条形码长度短于10、9、8、7、6、5或4个核苷酸。在一些实施例中，多个条形码中的各条形码在至少三个核苷酸位置，如至少3、4、5、6、7、8、9、10或更多个位置不同于所述多个条形码中的各其它条形码。在一些实施例中，与一些多核苷酸结合的条形码的长度不同于与其它多核苷酸结合的条形码。条形码可具有足够的长度并且包含充分不同以允许基于与样品结合的条形码鉴定样品的序列。在一些实施例中，正向和反向衔接子可包含多个条形码序列中的至少一者。在一些实施例中，第一和第二衔接子包含多个条形码序列中的至少一者。在一些实施例中，各反向衔接子包含多个条形码序列中的至少一者，其中多个条形码序列中的各条形码序列不同于多个条形码序列中的各其它条形码序列。在一些实施例中，第一衔接子和第二衔接子均包含多个条形码序列中的至少一者。在一些实施例中，第二衔接寡核苷酸的条形码独立地选自第一衔接寡核苷酸的条形码。在一些实施例中，将具有条形码的第一衔接寡核苷酸和第二衔接寡核苷酸配对，使得配对的衔接子包含一或多个相同或不同的条形码。在一些实施例中，本发明的方法进一步包含基于与标靶多核苷酸接合的条形码序列鉴定可衍生标靶多核苷酸的样品。条形码可例如包含当接合到标靶多核苷酸时，充当衍生标靶多核苷酸的样品的标识的核酸序列。

利用接合在所关注序列区的所需末端附接衔接子可适用于进行所公开的方法。取决于核酸、核酸修饰酶和核酸的所得可接合末端的选择设想多种接合模态。举例来说，当可产生包含所关注的标靶区/序列的钝端产物时，钝端接合可能适合。或者，当可使用已知序列特异性的限制酶进行裂解，导致产生具有已知序列悬垂物的裂解位点时，衔接子的适合末端可以设计成使衔接子能够杂交到所关注序列区的裂解位点并且随后接合。接合还可指产生单个核酸序列的两个核酸分子的任何接合，所述核酸序列可进一步修饰获得所讨论的核酸的序列。高效和快速接合衔接子的试剂和方法市场有售，并且为所属领域中已知的。

如本文所用，术语“扩增着”、“扩增”和以“扩增”如本文所用的特定核酸可指例如以DNA拷贝形式产生所关注的核酸样品的多个拷贝的程序。所属领域中已知许多用于扩增核酸的方法和方案，如PCR和qPCR。

如本文所用，术语“cDNA”如本文所用可指互补DNA。DNA可在由酶逆转录酶和DNA聚合酶催化的反应中自信使核糖核酸(mRNA)模板合成。

如本文所用，术语“互补”如本文所用可指与所有或仅一部分序列互补。特定寡核苷酸引物或探针的可杂交序列中的核苷酸的数目可为使得用于杂交寡核苷酸引物或探针的严格条件可防止过度随机非特异性杂交。寡核苷酸引物或探针的杂交部分中的核苷酸的数目可为至少与寡核苷酸引物或探针所杂交的标靶多核苷酸上的已确定序列一样大，即至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少约20个，并且可为约6到约10或6到约12，或12到约200个核苷酸，通常约20到约50个核苷酸。标靶多核苷酸/寡核苷酸可大于一或多个寡核苷酸引物或探针。

如本文所用，术语“变性”如本文所用可指双链核酸分成单链。变性可以使用所属领域中已知的任何方法实现，包括(但不限于)物理变性、热变性和/或化学变性。

如本文所用，缩略语“FFPE”如本文所用表示福马林固定，嵌入石蜡。FFPE为在保存组织样品中使用的方法，其中样品可固定在福马林溶液中，伴随着施用称为石蜡的蜡。

如本文所用，短语“基因组DNA”如本文所用可指染色体DNA，对于基因组脱氧核糖核酸缩写为gDNA。gDNA包括生物体的遗传物质。

如本文所用，术语“基因组”如本文所用可指来源于患者、组织、器官、单个细胞、肿瘤、自患者获取的有机流体样本、自由循环核酸、真菌、原核生物体和病毒的序列，为DNA、RNA或cDNA。如本文所用，“转录组”可为可反映生物体的部分或整个表达基因组的所有RNA序列。

如本文所用，术语“试剂盒”可指任何用于递送材料的系统。在反应分析的情况下，此类递送系统可包括允许在合适容器中将反应组分(如寡核苷酸、缓冲组分、添加剂、反应增强剂、酶等)自一个位置储存、输送或递送到另一位置，通常提供有用于进行分析的书面说明的元件。试剂盒可包括一或多个含有相关反应试剂和支撑材料的封装或盒。试剂盒可包含两个或多于两个单独容器，其中那些容器中的每一者包括总试剂盒组分的一部分。可一起或分开地将所述容器递送给预期的接受者。

如本文所用，短语“核酸(NA)-修饰酶”如本文所用，可指DNA特异性修饰酶。NA修饰酶可根据对双链DNA的特异性选择。酶可为双螺旋特异性核酸内切酶、钝端常见切割限制酶或其它限制酶。钝端切割酶的实例可包括DraI或SmaI。NA修饰酶可为新英格兰生物实验室(New England Biolabs)提供的酶。NA修饰酶可为归巢核酸内切酶(归巢核酸内切酶可为不具有严格定义的识别序列的核酸内切酶)。NA修饰酶可为切口核酸内切酶(切口核酸内切酶可为可仅裂解双链DNA底物中的一个DNA链的核酸内切酶)。NA修饰酶可为高保真度核酸内切酶(高保真度核酸内切酶可为与野生型形式的核酸内切酶相比具有更少“星号活性(staractivity)”的经工程改造核酸内切酶)。在一些实施例中，NA修饰酶可为序列和双螺旋特异性DNA修饰酶。

如本文所用，短语“核酸片段”和“特定核酸”互换使用并且如本文所用，可指核酸样品的一部分。输入样品中的核酸可片段化成一群片段化核酸分子或一或多个特定大小范围的多核苷酸。片段可具有长度为约10到约10,000个核苷酸、约50到约2,000个核苷酸、约100-2,500、10-1,000、10-800、10-500、50-500、50-250或50-150个核苷酸的平均长度。片段可具有小于10,000个核苷酸、小于5,000个核苷酸、小于2,500个核苷酸、小于2,000个核苷酸、小于1,000个核苷酸、小于500个核苷酸，如小于400个核苷酸、小于300个核苷酸、小于200个核苷酸或小于150个核苷酸的平均长度。

如本文所用，短语“特定核酸序列”或“特定序列”如本文所用，可为所关注的多核苷酸序列，数字测量和/或定量为其所需，包括(但不限于)核酸片段。特定序列在其实际序列方面可已知或不已知。如本文所用，“模板”可为含有特定核酸序列的多核苷酸。术语“特定序列”、“特定核酸序列”、“特定核苷酸序列”、“关注区”或“所关注的序列”和其变化形式互换使用。

如本文所用，短语“限定核酸”和“限定标靶核酸片段”如本文所用，可指gDNA或RNA序列的片段，其为：i.)DNA聚合酶的可接受模板，即模板可不含交联，或DNA聚合酶的抑制剂，或ii.)模板具有修饰，包括(但不限于)，在5'和/或3'端将条形码、衔接子、与引物互补的序列等中的至少一者连接到多核苷酸序列使得可出于定量、扩增、检测或gDNA和cDNA序列分析所属领域的技术人员已知的其它方法的目的修饰片段。抑制剂的存在可为使用自在FFPE准备中经历固定的组织样品获得的gDNA的结果。

如本文所用，术语“寡核苷酸”可指长度小于200个残基，例如长度在15与100个核苷酸之间的多核苷酸链，但亦可包涵较长多核苷酸链。寡核苷酸可为单链或双链。如本发明中所使用，术语“寡核苷酸”可与术语“引物”、“探针”和“衔接子”互换使用。

“PCR”为术语“聚合酶链反应”的缩写，其为在本发明的所有方法中使用的核酸扩增技术，并且其最初由穆利斯(Mullis)K.B.等人，美国专利第4,683,195号和穆利斯K.B.，美国专利第4,683,202号发现和描述。在一些实施例中，PCR采用经设计的两种寡核苷酸引物用于各链，如一种引物的延伸在随后PCR循环中为另一引物提供模板。出于区分所论述的寡核苷酸引物的目的，一对寡核苷酸引物中的任一者可在本文中命名为“正向”或“反向”引物。PCR可由以下的重复(或循环)组成：(i)变性步骤，其分离双链核酸的链，接着(ii)退火步骤，其允许引物退火到侧接所关注序列的位置；及随后(iii)延伸步骤，其在5'到3'方向上延伸引物，进而形成与标靶序列互补的核酸片段。以上步骤中的每一者可在不同温度下使用自动化热循环仪进行。可根据需要重复PCR循环，引起末端通常由所用引物的5'端定义的标靶DNA片段的指数积聚。此规则的某些例外可适用，包括本文中描述的那些。特定温度、各步骤的培育时间及步骤之间的改变速率取决于所属领域的技术人员熟知的许多因素并且实例可见于许多公开方案中，例如麦克弗森M.J.等人(1991和1995)等。尽管PCR的条件可在广泛范围内变化，双链标靶核酸可在>90℃的温度下变性，引物可在50-75℃范围内的温度下退火，并且延伸可在72-78℃范围内进行。

短语“定量PCR”或“qPCR”如本文所用，可指经设计以测量样品中的一或多个特定标靶序列的丰度的PCR。可使用一或多个可单独地或连同标靶核酸一起分析的参考核酸序列进行定量测量。用于定量PCR的技术在所属领域中是众所周知的并且其在以下以引用的方式并入本文中的手稿中例示：谷(Gu)Z.等人(2003)临床微生物学杂志(J.Clin.Microbiol.),41:4636-4641；贝克尔-安德烈(Becker-Andre)M.和哈布罗克(Hahlbrock)K.(1989)核酸研究(Nucleic Acids Res.),17:9437-9446；弗里曼W.M.等人(1999)生物技术(Biotechniques),26:112-122,124-125；路法拉(Lutfalla)G.和Uze G.(2006)酶学方法(Methods Enzymol.),410:386-400；克莱门蒂(Clementi)M.等人(1993)PCR方法应用(PCR Methods Appl.)2:191-196；帝维亚克(Diviacco)S.等人(1992)基因(Gene),122:313-320。

术语“部分”如本文所用，可指小于核酸序列、核酸序列片段、特定核酸序列、特定核酸片段、探针、引物等的总长度。部分的长度可小于约50到约2,000个核苷酸，约100-2,500、10-1,000、10-800、10-500、20-250或20-150个核苷酸。

术语“引物”如本文所用，可指可能够用模板(如特定多核苷酸、标靶DNA、标靶RNA、引物延伸产物或探针延伸产物)杂交或退火并且可还能够促进与模板互补的多核苷酸的聚合的寡核苷酸，一般具有自由3'羟基。引物可含有构成引物的尾部的非杂交序列。即使引物的序列不完全与标靶互补，其可仍与标靶杂交。

本文中利用的引物可为在通过聚合酶沿着多核苷酸模板的延伸反应中，如PCR、qPCR、延伸反应等中采用的寡核苷酸。寡核苷酸引物可以是合成多核苷酸，其可为单链，在其3'端含有可能够与标靶多核苷酸的序列杂交的序列。

与特定核酸杂交的引物的3'区可包含与序列或引物结合位点的至少80％，优选地90％，更优选地95％，最优选地100％互补性。

术语“尾序列”可指邻近于引物或探针序列的5'的非杂交序列。术语“探针延伸产物”可指由探针杂交和自探针引发的模板导向合成(例如在特定核酸序列内)产生的DNA片段。探针可通过聚合酶延伸到衔接序列(如果存在)中并且附接到特定核酸。所得探针延伸产物可具有第一衔接子(例如附接到特定核酸序列的衔接子)，和第二衔接子(例如在引物或探针的尾序列内发现)两者。

如本文所用，“随机引物”可为包含可不一定基于样品中的具体或特定序列，而是可基于随机引物的序列可与样品中的一或多个序列杂交(在一组给定条件下)的统计预期(或经验观测)设计的序列的引物。随机引物可为寡核苷酸或一群寡核苷酸，所述寡核苷酸包含在寡核苷酸上的给定位置的核苷酸可为四个核苷酸中的任一个或四个核苷酸的所选群组中的任一个(例如四个核苷酸中的仅三个，或四个核苷酸中的仅两个)的随机序列。如本文所用，表示法“n-随机寡核苷酸”可指衔接子或引发位点内的至少零个、至少一个、至少两个、至少三个、至少四个、至少六个、至少八个、至少九个、至少10个等碱基。

“随机核苷酸”和“n-随机核苷酸序列”如本文所用，可为可包含衔接子或引物内的可不一定基于样品中的具体或特定序列，而是可基于具有随机核苷酸的衔接子或引物可与引物、衔接子或样品中的一或多个序列杂交(在一组给定条件下)的统计预期(或经验观测)设计的序列的核苷酸。随机寡核苷酸可为寡核苷酸或一群寡核苷酸，所述寡核苷酸包含在寡核苷酸上的给定位置的核苷酸可为四个核苷酸中的任一个或四个核苷酸的所选群组中的任一个(例如四个核苷酸中的仅三个或四个核苷酸中的仅两个或核苷酸中的仅一个)的随机序列。如本文所用，表示法“n-随机寡核苷酸”可指衔接子或引物内的至少零个、至少一个、至少两个、至少三个、至少四个、至少六个、至少八个、至少九个、至少10个等碱基。

术语“样品”如本文所用，可指任何含有或推测含有所关注核酸的物质，并且因此包括核酸、细胞、生物体、组织、流体(例如脊髓液或淋巴液)、自患者获取的有机流体的样品，和包括(但不限于)以下的样品：血液、血浆、血清、尿液、泪液、粪便、呼吸道和泌尿生殖道、唾液、不同器官的片段、组织、血球、循环肿瘤细胞(CTC)或播散性肿瘤细胞(CTD)、骨骼、已怀疑含有核酸分子的活体外细胞培养物或样本的样品。

短语“传染性感染”和“传染性疾病”可指可由个体间、动物间、动物到人类或人类到动物直接接触或借助接近的偶然接触传输的感染和疾病。

术语“PCR重复”如本文所用，可指来源于相同最初核酸分子并且因此相同引物/探针延伸产物序列，作为另一测序读段并且因此不代表独特核酸分子的任何测序读段。

术语“探针”如本文所用，可指寡核苷酸序列。探针可与探针标靶区互补。与探针标靶区互补的探针序列的长度可为小于约200个残基、长度在约15与100个核苷酸之间，但亦可意欲包涵较长多核苷酸链。探针标靶区可为单链或双链。探针标靶区为使用聚合酶经历延伸的互补探针提供杂交位点。

术语“探针标靶区”如本文所用，可指基因组或转录组数据库内或基因组或转录组序列内的已针对其设计探针的区。区可延伸到特定互补区外并且包括基因组或转录组的侧接区。与其探针标靶区比对的探针序列可提供探针退火的特异性的验证并且因此还提供探针延伸产物并且因此计数的特定核酸分子。

探针标靶区在特定核酸序列内。探针标靶区的长度可为约500个残基并且亦可在约80与1000个残基之间。如本文所用，术语“探针标靶区”可与术语“探针杂交位点”和“探针退火位点”互换使用。

术语“验证探针”或“验证探针序列”如本文所用，可指已经验证为存在和与来自所得测序数据的预期特定标靶核酸杂交的探针的序列。

现在将详细参考本发明的例示性实施例。虽然将结合例示性实施例描述所公开的方法和组合物，但应理解，这些例示性实施例并不打算限制本发明。相反，本发明意图涵盖替代方案、修改和等效物，所述替代方案、修改和等效物可以包括在本发明的精神和范围内。

在一些实施例中，本文公开将来自包含多个核酸的样品的所关注特定核酸序列定量的方法和组合物。本文所描述的方法可使用常规衔接子、序列特异性探针标靶区探针、聚合酶和接合酶和接合扩增特定核酸序列。方法可进一步允许对来源于转录组或基因组DNA的至少第一特定核酸序列进行数字测量。

数字基因表达已以多种方式进行，各具有显著缺点，因此使新颖方法对于进行核酸分子的适当数字计数为重要的。目前用于数字核酸计数的方法可包括数字PCR、高通量测序和基于计数的如由Nanostring n-计数系统进行的杂交。

数字PCR可通过在培养盘的孔或乳滴中稀释初始核酸物质到获得每个PCR容器一个拷贝的点来进行。可进行一组给定标靶引物的终点PCR并且可将对于扩增事件呈正性的孔或液滴的数目计数。此方法的主要缺点为基于泊松分布(Poisson distribution)获得每个容器，标靶核酸的准确一个拷贝的问题，并且每个可查询的核酸样品反应还可极限于少数标靶(低复用能力)。

Nanostring的n-计数系统利用具有单分子分辨率的探针杂交流程以通过测量荧光信号将输入核酸计数。此技术的主要缺点为归因于必须使用的荧光标签的低复用，和不能靶向同一分子上的不同区。举例来说，归因于使用的荧光标签的大小，n-计数系统可能不能够查询同一RNA转录物内两个外显子的存在。

高通量测序可视为用于核酸分子的数字计数的极好方法，但其也忍受主要缺点。对于基因组DNA以及RNA计数两者，核酸可在测序之前随机剪切。此随机剪切可将偏差引入标靶的碱基组成中，引起所关注的给定标靶的不均匀扩增或测序。在将核酸片段计数中不明确性的主要来源可基于目前用于计数的方法。即，对于所关注的给定基因(或基因组标靶区)，获得的测序读段的数目必须根据标靶区的大小标准化以使得将因此必定产生不同数目的测序读段的不同大小的标靶可彼此相比较。不明确性出现是因为标靶区的大小在样品之间不一定固定，因为同一基因的不同长度同功异型物以不同丰度存在。在RNA测序的情况下此最容易地可见，但同等适用于基因组DNA。

在RNA测序中，取决于产生的数据类型，基因计数可表示为RPKM或FPKM(每十亿的读段/片段或每十亿的片段)。测序数据计数可由读段(或在双末端测序的情况下片段)数目、标靶RNA的大小(千碱基)和总测序读段的数目(百万)确定。问题在于测量标靶RNA的大小；假设所有样品为一个大小。然而，众所周知，经由使用替代的外显子，RNA的大小可在不同样品之间相差多达许多kb的序列，因此潜在地改变在两个样品之间的RPKM/FPKM测量中可变的大小。一个基因的大小测量中的变化另外影响样品中的所有基因的RPKM/FPKM测量，因为对于固定数目的测序读段，经由使用替代的外显子改变一个基因的大小将改变其它基因的读段的数目。正如关于RNA测序所描述，当考虑改变样品之间的所关注标靶区的大小的部分重复和缺失时，基因组DNA计数可忍受类似问题。

在一些实施例中，本文公开对来自具有多个核酸的样品的特定核酸序列进行数字测量的方法和组合物。核酸可为DNA或RNA。核酸可为单链或双链。DNA可为基因组DNA、cDNA、DNA/RNA杂交体或其任何组合。在一些实施例中，输入样品中的核酸可为双链DNA。在一些实施例中，所述方法包括将输入样品中的核酸片段化以产生核酸片段。在一些实施例中，不将样品片段化。在一些实施例中，核酸的片段化可经由所属领域中已知或本文中关于将核酸片段化描述的方法实现，所述方法可包括(但不限于)物理(即超声处理)和/或酶(即限制酶处理)片段化反应。

物理片段化方法可包括雾化、超声处理和/或流体动力学剪切。在一些实施例中，可以用机械化方式实现片段化，包含对输入样品中的核酸进行超声处理。在一些实施例中，片段化包含在适于一或多种酶的条件下用一或多种酶处理输入样品中的核酸产生双链核酸断裂。适用于产生核酸或多核苷酸片段的酶的实例可包括序列特异性和非序列特异性核酸酶。核酸酶的非限制性实例可包括DNA酶I、片段酶、限制核酸内切酶、其变体以及其组合。进行酶片段化反应的试剂市场有售(例如来自新英格兰生物实验室)。举例来说，用DNA酶I消化可在无Mg⁺⁺存在下和在Mn⁺⁺存在下诱发DNA中的随机双链断裂。在一些实施例中，片段化包含用一或多种限制核酸内切酶处理输入样品中的核酸。片段化可以制造具有5'悬垂物、3'悬垂物、钝端或其组合的片段。在一些实施例中，例如当片段化包含使用一或多种限制核酸内切酶时，样品多核苷酸的裂解留下具有可预测序列的悬垂物。

在一些实施例中，输入样品中的核酸可片段化成一群片段化核酸分子或一或多个特定大小范围的多核苷酸。在一些实施例中，片段的平均长度可为约10到约10,000个核苷酸。在一些实施例中，片段的平均长度可为约50到约2,000个核苷酸。在一些实施例中，片段的平均长度可为约100-2,500、10-1,000、10-800、10-500、50-500、50-250或50-150个核苷酸。在一些实施例中，片段的平均长度可为小于10,000个核苷酸，如小于5,000个核苷酸、小于2,500个核苷酸、小于2,500个核苷酸、小于1,000个核苷酸、小于500个核苷酸，如小于400个核苷酸、小于300个核苷酸、小于200个核苷酸或小于150个核苷酸。

在一些实施例中，核酸的片段化之后可为核酸片段的末端修复。在一些实施例中，未片段化样品可经历末端修复。末端修复可包括产生钝端、非钝端(即发粘或内聚端)，或单碱基悬垂物，例如通过缺乏3'-核酸外切酶活性的聚合酶向核酸片段的3'-端添加单个dA核苷酸。末端修复可使用任何数量的所属领域中已知的酶和/或方法进行，包括(但不限于)市场有售的试剂盒，如Ovation^TM Ultralow NGS Library System(NuGEN)。在一些实施例中，可以对双链DNA片段进行末端修复产生钝端，其中双链DNA片段含有5'磷酸基和3'羟基。在一些实施例中，在接合到衔接子之前，双链DNA片段可以经钝端抛光(或“末端修复”)产生具有钝端的DNA片段。可以通过使用单链特异性DNA核酸外切酶(例如核酸外切酶1、核酸外切酶7或其组合)降解双链产物的悬垂单链末端，在双链片段上产生钝端。或者，双链DNA片段可以通过使用单链特异性DNA核酸内切酶(例如(但不限于)绿豆核酸内切酶或S1核酸内切酶)产生钝端。或者，双链产物可以通过使用包含单链核酸外切酶活性的聚合酶(例如T4DNA聚合酶)或包含单链核酸外切酶活性的任何其它聚合酶或其组合降解双链产物的悬垂单链末端产生钝端。在一些情况下，包含单链核酸外切酶活性的聚合酶可以在包含或不包含一或多种dNTP的反应混合物中培育。在其它情况下，单链核酸特异性核酸外切酶和一或多种聚合酶的组合可用于使通过将包含核酸的样品片段化产生的双链片段产生钝端。在其它情况中，核酸片段可以通过在双链片段的悬垂单链端填充产生钝端。举例来说，可在一或多种dNTP存在下用如T4DNA聚合酶或克列诺聚合酶(Klenow polymerase)或其组合的聚合酶培育片段来填充双链片段的单链部分。或者，双链DNA片段可以通过使用核酸外切酶和/或聚合酶的单链悬垂物降解反应与在一或多种dNTP存在下使用一或多种聚合酶的填充反应的组合产生钝端。市场有售的用于钝端修复或末端抛光的试剂盒还包括NEB QuickBlunting^TM试剂盒或

末端修复试剂盒(新英格兰生物实验室)。

在一些实施例中，片段化特定核酸可变性成单链核酸片段。在一些实施例中，未片段化样品可变性成单链核酸链。将双链核酸变性成单链核酸的方法为所属领域的技术人员众所周知。方法包括(但不限于)热变性、化学变性等。

本文所描述的用于将特定核酸片段序列或未片段化核酸样品序列定量的方法可进一步包括将至少第一衔接子附接到通过本文所描述的方法产生的核酸片段或未片段化核酸样品序列。在一些实施例中，至少第一衔接子可为正向衔接子。可使用接合反应或引发反应实现将至少第一衔接子附接到通过本文中描述的方法产生的核酸片段或未片段化核酸样品序列。在一些实施例中，至少第一衔接子与核酸片段或未片段化核酸样品序列的附接包含接合。在一些实施例中，至少第一衔接子与核酸片段或未片段化核酸样品序列的接合可在核酸片段或未片段化核酸样品序列的末端修复之后。在一些实施例中，至少第一衔接子与核酸片段或未片段化核酸样品序列的接合可在无核酸片段或未片段化核酸样品序列的末端修复的情况下在产生核酸片段或未片段化核酸样品序列之后。

至少第一衔接子可以是所属领域中已知的任何类型的衔接子，包括(但不限于)常规双螺旋或双链衔接子，其中衔接子包含两条互补链。在一些实施例中，第一衔接子可为双链DNA衔接子。在一些实施例中，第一衔接子可为已知序列的寡核苷酸，并且因此允许产生和/或使用序列特异性引物将任何可附接或连接至少第一衔接子的多核苷酸扩增和/或测序。在一些实施例中，第一衔接子可为常规双螺旋衔接子，其中第一衔接子包含所属领域中众所周知的序列。在一些实施例中，本文所描述的方法可涉及使用包含具有已知序列的双链DNA的第一双螺旋衔接子，所述已知序列可为钝端并且可在一个方向中结合到通过本文所描述的方法产生的双链核酸片段。在一些实施例中，第一衔接子可附接或接合到通过本文所描述的方法产生的核酸片段库使得核酸片段库中的各核酸片段或未片段化核酸库中的未片段化核酸样品包含接合到一端的第一衔接子。在一些实施例中，至少第一衔接子可附接或接合到单链核酸片段或未片段化核酸样品序列并且可并入到探针延伸产物中。

至少第一衔接子与核酸片段或未片段化核酸样品序列的接合产生第一衔接子特异性核酸片段复合物或第一衔接子未片段化核酸样品序列，其为接合产物。在一些实施例中，第一衔接子特异性核酸片段复合物可经变性。在一些实施例中，第一衔接子未片段化核酸样品序列可经变性。变性可以使用所属领域中已知的任何方法实现，包括(但不限于)物理变性、热变性和/或化学变性。在一些实施例中，可以使用热变性(thermal/heatdenaturation)实现变性。在一些实施例中，将至少第一衔接子特异性核酸片段复合物或至少第一衔接子未片段化核酸样品序列变性产生如例如图1中所描绘的仅在核酸片段或未片段化核酸样品序列的5'端包含至少第一衔接子序列的单链核酸片段或未片段化核酸样品序列。

在一些实施例中，包含附接到5'端或5'和3'端两者的第一衔接序列的核酸片段或未片段化核酸样品序列可变性以产生包含附接到5'端或5'和3'端两者的第一衔接序列的单链核酸片段或未片段化核酸样品序列。在一些实施例中，本文中描述的本发明方法可用于产生多个包含附接到5'端或5'和3'端两者的第一衔接序列的单链核酸片段或未片段化核酸样品序列。在一些实施例中，可将寡核苷酸探针退火到单链特定核酸片段或未片段化核酸样品序列，所述寡核苷酸探针在第一端包含与存在于单链特定核酸中的所关注探针标靶区序列互补的序列并且在第二端包含来自第二衔接子的序列，其中第二衔接序列不与探针标靶区互补。在一些实施例中，第二衔接序列可为来自反向衔接子的序列。

在一些实施例中，所关注的探针标靶区序列可存在于单链特定核酸片段或未片段化核酸样品序列中的一或多个中。在一些实施例中，不同或相异的所关注探针标靶区序列可存在于单链核酸片段或未片段化核酸样品序列中的一或多个中。在一些实施例中，一或多个寡核苷酸可包含与存在于一或多个单链核酸片段或未片段化核酸样品序列中的相同所关注序列互补的序列。在此实施例中，一或多个寡核苷酸可包含可与不同部分或相同所关注序列的区互补的序列。在一些实施例中，不同区可彼此相邻。在一些实施例中，不同区可彼此不相邻。在一些实施例中，一或多个包含与相同所关注标靶核酸序列互补的序列的寡核苷酸可进一步包含相同第二衔接序列。在一些实施例中，一或多个探针寡核苷酸可包含与可存在于一或多个单链核酸片段或未片段化核酸样品序列中的不同或相异的所关注序列互补的序列。在一些实施例中，一或多个寡核苷酸探针包含与不同或相异的所关注标靶核酸序列互补的序列并且可进一步包含相同第二衔接序列。在一些实施例中，与所关注的标靶序列互补的序列可在寡核苷酸探针的3'端并且第二衔接序列可在寡核苷酸的5'端。在一些实施例中，第二衔接序列可不与所关注的标靶核酸序列互补。以此方式，第二衔接序列充当尾部。第二衔接序列可为常规衔接序列。在一些实施例中，第二衔接序列可为可与附接到如上文所描述的单链核酸片段或未片段化核酸样品序列的第一衔接子的序列不同或相异的常规衔接序列。在一些实施例中，第二衔接序列可具有已知序列并且因此允许产生和/或使用序列特异性引物用于将任何可附接或连接第二衔接序列的多核苷酸扩增和/或测序。在一个单独实施例中，寡核苷酸探针可退火到无预先变性的包含附接到5'端或5'和3'端两者的第一衔接序列的特定核酸片段或未片段化核酸样品序列。在此实施例中，寡核苷酸的退火可经由在寡核苷酸与包含附接到双链核酸片段或未片段化核酸样品序列的5'端或5'和3'端两者的第一衔接序列的所述双链核酸片段或未片段化核酸样品序列之间形成三螺旋或三链。在此实施例中，双链核酸片段或未片段化核酸样品序列包含所关注的序列并且可存在于多个包含附接到5'端或5'和3'端两者的第一衔接序列的双链核酸片段或未片段化核酸样品序列当中。另外对于此实施例，寡核苷酸探针包含与双链特定核酸片段或未片段化核酸样品序列中的探针标靶区互补的序列。总的来说，使用包含与一或多个或多个特定核酸片段或未片段化核酸样品序列当中的核酸片段或未片段化核酸样品序列中所存在的所关注探针标靶区序列互补的序列的寡核苷酸探针允许使用本文所描述的方法选择性结合并且随后富集所述核片段或未片段化核酸样品序列。

在寡核苷酸探针如上文所描述退火之后，聚合酶可用于延伸寡核苷酸探针。在一些实施例中，聚合酶可为DNA依赖性DNA聚合酶。在一些实施例中，DNA依赖性DNA聚合酶可为如本文所描述的DNA依赖性DNA聚合酶中的任一个并且寡核苷酸的延伸可通过所属领域中已知的方法中的任一种。在一些实施例中，包含第二衔接序列(其中第二衔接序列不与探针标靶区核酸互补)和与所关注的存在于包含附接到一端和/或两端的第一衔接子的特定核酸片段中的探针标靶区序列互补的序列的寡核苷酸探针可退火到核酸片段并且用聚合酶延伸以产生在第一端包含第一衔接序列并且在第二端包含第二衔接序列的探针延伸产物。在一些实施例中，特定核酸片段可存在于多个包含附接到一端和/或两端的第一衔接子的核酸片段当中。在此实施例中，可仅产生针对含有所关注探针标靶区序列的核酸片段的探针延伸产物。

在一些实施例中，通过本文所描述的方法产生的探针延伸产物可经历扩增反应。在一些实施例中，扩增反应可为指数，并且可在各种温度周期下进行。扩增反应可为等温反应。在一些实施例中，扩增可为定量聚合酶链反应(qPCR)。在一些实施例中，扩增反应可为等温。在一些实施例中，探针延伸产物包含如通过本文所描述的方法产生的在一端的至少第一衔接序列和在另一端的第二衔接序列。在一些实施例中，探针延伸产物可在与特定核酸链内的探针标靶区互补的链中使用包含与第一衔接子互补的序列的第一引物和具有与5'尾序列互补的序列的第二引物扩增。以此方式包含第一衔接序列和探针标靶区两者的探针延伸产物可扩增并且因此富集。将具有至少第一衔接序列和探针标靶区序列两者的探针延伸产物扩增，其中由所述接合的特定核酸片段或未片段化核酸样品序列产生的扩增探针延伸产物可定量。在一些实施例中，至少第一衔接序列和/或第二衔接序列可包含标识序列。在一些实施例中，标识序列可为条形码序列。在一些实施例中，条形码序列可为至少第一衔接子特有的。在一些实施例中，至少第一衔接序列和/或第二衔接序列可包含可用于下游应用(例如(但不限于)测序和测序反应之后的特定核酸鉴定)的序列。在一些实施例中，至少第一衔接序列和/或第二衔接序列可包含可用于用由伊路米那(Illumina)研发和在本文中描述的测序方法进行测序的流动细胞序列33和35(图5)。

本文所描述的用于定量所关注的特定核酸序列片段的方法的公开实施例的示意图说明在图1和图2中。在图式中使用的编号方案仅为说明性。在多于一个图中出现的相同数字不意欲完全或部分指示相同寡核苷酸序列，而是指示用于实践所公开方法的参考组分、位点或区。

图1和图2的方法说明核酸片段、未片段化核酸样品或插入物的接合库的产生，其中接合库的各核酸序列包含在衔接子内的共有正向读段引发位点和特定探针标靶区序列使得使用在包含探针标靶区的探针延伸产物内的与正向读段引发位点互补的引物和与反向读段引发位点互补的引物的PCR扩增提供测序覆盖度以允许定量具有特定探针标靶区序列的特定核酸分子。

图1说明剪切gDNA的使用。剪切DNA 8具有接合到具有特定核酸片段10的gDNA的5'端的衔接子11。片段10包括探针标靶区50。衔接子可包含以下中的至少一者：测序读段1正向寡核苷酸引发位点12，n-随机寡核苷酸碱基，如6N寡核苷酸序列14、索引碱基寡核苷酸序列16，以及取决于使用的高通量测序方法，索引引发位点18。在接合衔接子11后，特定核酸片段10可具有独特标识序列标记，即索引读段加n-随机寡核苷酸。索引序列16用于鉴定特定核酸样品并且6N寡核苷酸序列14用于标记重复测序读段。具有5'尾部寡核苷酸序列20的探针寡核苷酸序列19可与探针标靶区50互补和杂交并且可在单引物延伸反应中在dNTP和DNA聚合酶存在下经由衔接子11延伸。所得探针延伸产物22可使用可与索引引发位点18部分互补的正向引物24和可与5'尾序列20的反向互补序列部分互补的反向引物26扩增。扩增反应富集具有探针标靶区50的特定核酸10的存在以产生特定核酸序列库。

如图2中所说明，类似单引物延伸反应可适用于cDNA。cDNA 7具有接合到特定核酸片段9的5'端的衔接子11。片段9包括探针标靶区60。衔接子可包含以下中的至少一者：正向测序读段寡核苷酸引发位点12，已知随机寡核苷酸碱基，如6N寡核苷酸序列14、索引碱基寡核苷酸序列16，以及取决于使用的高通量测序方法，索引测序读段引发位点18。索引序列16用于鉴定特定核酸样品并且6N寡核苷酸序列14用于鉴定重复测序读段。具有5'尾部寡核苷酸序列20的探针寡核苷酸序列19可与探针标靶区序列60互补和杂交并且可在单引物延伸反应中在dNTP和DNA聚合酶存在下经由衔接子15延伸。所得探针延伸产物21可使用可与18部分互补的正向引物24和可与5'尾序列20的反向互补序列部分互补的反向引物26扩增。扩增反应增加具有探针标靶区60的特定核酸9的存在以产生特定核酸序列库。

本文所描述的用于定量所关注的特定核酸序列片段的方法的公开实施例的示意图在针对双链gDNA的图3和图4中所说明。在图式中使用的编号方案仅为说明性。在多于一个图中出现的相同数字不意欲完全或部分指示相同寡核苷酸序列，而是指示用于实践所公开方法的参考组分、位点或区。

图3和图4的方法说明核酸片段、未片段化核酸样品或插入物的测序库的产生，其中测序库的各核酸序列包含在一个衔接子内的共有正向引发位点和特定探针标靶区序列使得可存在测序覆盖度以允许定量具有特定探针标靶区序列的特定核酸分子。测序可使用由接合探针延伸产物制成的测序库在有或无使用特定核酸序列内的与共有正向引发位点互补的引物和与特定探针标靶区序列互补的引物的PCR扩增下进行。

图3说明剪切gDNA的使用。具有特定核酸10的剪切gDNA包括探针标靶区50。具有5'尾部寡核苷酸序列20的探针寡核苷酸序列19可与探针标靶区序列50互补和杂交并且可在单一探针延伸反应中在dNTP和DNA聚合酶存在下经由特定核酸10的末端延伸，产生双链DNA。所得探针延伸产物可具有接合到特定核酸片段10的3'端的衔接子。衔接子可包含以下中的至少一者：正向测序读段1寡核苷酸引发位点12，n-随机寡核苷酸碱基，如6N寡核苷酸序列14、索引碱基寡核苷酸序列16，以及取决于使用的高通量测序方法，索引引发位点18。索引序列16用于鉴定特定核酸样品并且6N寡核苷酸序列14用于标记重复测序读段。接合产物22可使用可与索引引发位点18部分互补的正向引物24和可与5'尾序列21的反向互补序列部分互补的反向引物26扩增。扩增反应可富集具有探针标靶区50的特定核酸10的存在以产生特定核酸序列库。

图4说明剪切gDNA的使用。具有特定核酸10的剪切gDNA包括探针标靶区50。具有5'尾部寡核苷酸序列20的探针寡核苷酸序列19可与探针标靶区序列50互补和杂交并且可在单一探针延伸反应中在dNTP和DNA聚合酶存在下经由gDNA 10的末端延伸，产生双链DNA。所得探针延伸产物可经限制酶70消化。例示性限制酶包括(但不限于)XbaI、EcoRI、EcoRV和BamHI。在限制酶消化之后，衔接子可接合到具有特定核酸片段10的双链gDNA的末端。衔接子可包含以下中的至少一者：读段1正向寡核苷酸引发位点12，n-随机寡核苷酸碱基，如6N寡核苷酸序列14、索引碱基寡核苷酸序列16，以及取决于使用的高通量测序方法，索引引发位点18。索引序列16用于鉴定特定核酸样品并且6N寡核苷酸序列14用于标记重复测序读段。接合产物22可使用如图3中所说明的可与索引引发位点18部分互补的正向引物24和可与5'尾序列21部分互补的反向引物26扩增。扩增反应可富集具有探针标靶区50的特定核酸10的存在以产生特定核酸序列库。

如图5(编号指图1或图2中使用的编号)中所说明，类似单引物延伸反应可适用于gDNA或cDNA以产生用于多个测序平台的测序库。gDNA或cDNA(剪切或未剪切)10或9具有接合到特定核酸片段10或9的5'端的衔接子11。片段10或9分别包括探针标靶区50或60。衔接子可包含以下中的至少一者：正向寡核苷酸引发位点12，已知随机寡核苷酸碱基，如6N寡核苷酸序列14、索引碱基寡核苷酸序列16，以及取决于使用的高通量测序方法，索引引发位点18。具有5'尾部寡核苷酸序列20的探针寡核苷酸序列19可与探针标靶区序列50或60互补和杂交并且可在单引物延伸反应中在dNTP和DNA聚合酶存在下经由衔接子11延伸。所得探针延伸产物21或22可使用可与18部分互补的正向引物24和可与5'尾序列20部分互补的反向引物26扩增。扩增反应富集具有探针标靶区50或60的特定核酸10或9的存在以产生特定核酸序列库。

可使用NuGEN

标靶富集系统(NuGEN)通过经由PCR选择性扩增那些具有所选所关注探针标靶区序列的探针延伸产物序列来制备库。图5说明当使用伊路米那高通量测序平台时在高通量测序中使用的核酸库的实例。可分析各序列库的特定序列读段区用于数字测量例如基因表达或拷贝数变异定量。

在一些实施例中，特定核酸可标记有指示分子，包括(但不限于)生物素。标记的特定核酸分子可辨明为随后源自最初样品分子。在一些实施例中，指示分子的连接可经由接合或聚合酶添加标记核苷酸(例如经生物素标记的核苷酸)来实现。可与探针标靶区互补的探针可随后在有或无通过聚合酶进行的探针延伸下与标记核酸杂交。在一些实施例中，例如通过经由生物素/抗生蛋白链菌素相互作用捕获标记核酸来去除未杂交探针。在一些实施例中，与标靶杂交的探针连同标靶一起捕获。在去除未杂交探针之后，使捕获探针洗提掉标靶核酸并且计数。在一些实施例中，计数可通过经由伊路米那平台测序并且将那些标签计数来进行。在一些实施例中，探针可标记有如所属领域的技术人员已知的纳米孔或荧光标签。

输入核酸

输入物可为人类核酸。在一些实施例中，输入物可为DNA。在一些实施例中，输入人类核酸可为复杂DNA，如双链DNA、基因组DNA或来自多于一种生物体的混合DNA。在一些实施例中，输入物可为RNA。在一些实施例中，RNA可使用所属领域中的标准技术获得和纯化并且可包括呈纯化或未纯化形式的RNA，其可包括(但不限于)mRNA、tRNA、snRNA、rRNA、较小非编码RNA、微RNA、多聚核糖体RNA、前mRNA、内含子RNA、无细胞RNA以及其片段。非编码RNA或ncRNA可包括snoRNA、微RNA、siRNA、piRNA以及长ncRNA。在一些实施例中，DNA片段可来源于已经由第一链合成反应使用所属领域中众所周知的由RNA模板产生cDNA的方法中的任一种转化成cDNA的RNA，所述方法可包含(但不限于)组合RNA与引物(即随机引物)，并且用RNA依赖性DNA聚合酶逆转录RNA模板。在一些实施例中，DNA片段可来源于已经由第一和第二链合成反应使用所属领域中众所周知的方法中的任一种转化成双链cDNA的RNA。

在一些实施例中，输入DNA可为由不同物种的基因组的混合物制成的cDNA。输入复合物还可来自不同人类的基因组的混合物。输入DNA可为由不同人类的基因组的混合物制成的cDNA。输入DNA可为特定物种，例如，人类、大鼠、小鼠、其它动物、特定植物、细菌、藻类、病毒等。输入复合物还可来自不同物种(如宿主-病原体、细菌群体等)的基因组的混合物。或者，输入核酸可来自合成来源。输入DNA可为线粒体DNA。输入DNA可为无细胞DNA。无细胞DNA可获自例如血清或血浆样品。输入DNA可包含一或多个染色体。举例来说，在其中输入DNA可来自人类的情况下，DNA可包含染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y中的一或多个。DNA可来自线性或环状基因组。DNA可为质粒DNA、粘粒DNA、细菌人工染色体(BAC)或酵母人工染色体(YAC)。输入DNA可来自多于一个个体人类。输入DNA可为双链或单链。输入DNA可为染色质的一部分。输入DNA可与组蛋白相关。

在一些实施例中，探针寡核苷酸可针对于所关注的特定核酸序列并且可经设计以与具有特定核酸内的探针标靶区的单链特定核酸标靶杂交。在一些实施例中，靶向所选所关注序列区的探针可经设计以与单链DNA或cDNA探针标靶区杂交。在输入核酸样品包含基因组DNA或其它双链DNA的情况下，输入核酸样品可首先变性以使得标靶为单链并且允许寡核苷酸探针杂交到所需所关注的探针标靶区序列区。在一些实施例中，另一双链DNA可以是通过一或多个标靶RNA的第一和第二链合成产生的双链cDNA。在这些实施例中，本文中描述的方法和组合物可允许含有多个探针标靶区的多个所关注的特定核酸序列区的区域特异性富集和扩增。在一些实施例中，本文中描述的方法和组合物允许多重扩增、富集和定量至少两个或更多个相异的特定核酸序列片段或未片段化核酸样品序列，各具有含有对应相异探针标靶区的相异关注区。

在其它实施例中，靶向所关注的所选序列区的探针可经设计以在不将双链核酸片段或未片段化核酸样品序列变性的情况下与双链核酸标靶片段或未片段化核酸样品序列杂交。在其它实施例中，靶向所关注的所选序列区的探针可经设计以在不将dsDNA变性的情况下与双链DNA标靶杂交。在这些实施例中，靶向所关注的所选序列区的探针可经设计以在所关注的所选序列区处形成三螺旋(三链)。可以在不将双链核酸样品事先变性的情况下进行探针与所关注双链DNA序列区的杂交。在此类实施例中，本文中描述的方法和组合物可允许所关注序列区的区域特异性定量以及链特异性扩增和定量。此方法可以适用于无需使dsDNA输入DNA变性即可从复杂核酸产生所关注的链特异性序列区的拷贝，因此允许定量和分析天然复杂核酸样品中所关注序列区的多重性。所述方法可用于现场进行的研究和分析，使能够进行单个细胞或极小轮廓分明的细胞群的集合中复杂基因组DNA的研究和分析，以及允许分析复杂基因组DNA而不破坏染色质结构。

在一些实施例中，本文中公开包含另一标识序列(例如条形码序列)的衔接子。在一些实施例中，至少第一衔接子包含多个条形码序列中的至少一者。在一些实施例中，各反向衔接子包含多个条形码序列中的至少一者，其中多个条形码序列中的各条形码序列不同于多个条形码序列中的各其它条形码序列。在一些实施例中，第二衔接寡核苷酸的条形码可独立地选自至少第一衔接寡核苷酸的条形码。在一些实施例中，具有条形码的第一衔接寡核苷酸和第二衔接寡核苷酸可配对，使得配对的衔接子包含一或多个相同或不同的条形码。在一些实施例中，本发明的方法可进一步包含基于与标靶多核苷酸接合的条形码序列鉴定衍生标靶多核苷酸的样品。条形码可例如包含当接合到标靶多核苷酸时，充当衍生标靶多核苷酸的样品的标识的核酸序列。

可预想可适用于产生所关注的探针标靶区序列区/链的易于扩增的产物的各种衔接子设计。在一些实施例中，至少第一衔接子可为单链或双链。举例来说，当为双链时，衔接子的两个链可自互补、非互补或部分互补。最近，已在减少衔接子二聚体的出现的衔接子设计中作出许多改进。这些改进可包括使用核苷酸类似物和结构化寡核苷酸，并且允许在接合反应中使用较高浓度的寡核苷酸。在接合反应中衔接子的较高浓度允许研究人员由少到基因组的150个拷贝产生高质量库。衔接子与DNA片段(尤其含有关注区的那些片段)的末端的接合可适用于进行本发明的方法。取决于核酸修饰酶和所得双链DNA裂解的选择，可预想各种接合模态。举例来说，当产生包含所关注的标靶区/序列的钝端产物时，钝端接合可适合。或者，当可使用已知序列特异性的限制酶进行裂解，导致产生具有已知序列悬垂物的裂解位点时，衔接子的适合末端可以设计成使衔接子能够杂交到所关注序列区的裂解位点并且随后接合。高效和快速接合衔接子的试剂和方法市场有售，并且为所属领域中已知的。

核酸修饰酶

核酸(NA)修饰酶可为DNA特异性修饰酶。NA修饰酶可根据对双链DNA的特异性选择。酶可为双螺旋特异性核酸内切酶、钝端常见切割限制酶或其它限制酶。钝端切割酶的实例可包括DraI或SmaI。NA修饰酶可为新英格兰生物实验室提供的酶。NA修饰酶可为归巢核酸内切酶(归巢核酸内切酶可为不具有严格定义的识别序列的核酸内切酶)。NA修饰酶可为切口核酸内切酶(切口核酸内切酶可为可仅裂解双链DNA底物中的一个DNA链的核酸内切酶)。NA修饰酶可为高保真度核酸内切酶(高保真度核酸内切酶可为与野生型形式的核酸内切酶相比具有更少“星号活性”的经工程改造核酸内切酶)。

依赖DNA的DNA聚合酶

用于本发明的方法和组合物中的依赖DNA的DNA聚合酶可能够根据本发明的方法实现探针标靶区或引物的延伸。在一些实施例中，依赖DNA的DNA聚合酶可为能够在DNA和/或cDNA模板存在下延伸探针标靶区、核酸引物等的聚合酶。适用于本发明的方法的例示性依赖DNA的DNA聚合酶包括(但不限于)克列诺聚合酶(有或无3'-核酸外切酶)、Bst DNA聚合酶、Bsu聚合酶、phi29DNA聚合酶、温特(Vent)聚合酶、迪普温特(Deep Vent)聚合酶、Taq聚合酶、T4聚合酶以及大肠杆菌(E.coli)DNA聚合酶1、其衍生物，或聚合酶的混合物。在一些情况下，聚合酶不包含5'-核酸外切酶活性。在其它情况下，聚合酶包含5'核酸外切酶活性。在一些情况下，本发明的引物或寡核苷酸延伸产物可使用包含强链置换活性的聚合酶(如Bst聚合酶)进行。在其它情况下，本发明的引物延伸可使用包含弱链置换活性或不包含链置换活性的聚合酶进行。所属领域的技术人员可认识到在引物延伸步骤期间使用链置换活性的优点和缺点，和可预期哪种聚合酶提供链置换活性(参见例如新英格兰生物实验室：聚合酶)。

扩增方法

本文中描述的方法、组合物和试剂盒可适用于产生用于下游应用(如大规模平行测序(即下一代测序方法))的易于扩增的产物，产生具有所关注序列区的富集群的库或杂交平台。扩增方法在所属领域中是众所周知的。适合的扩增反应可以是指数或等温的并且可包括任何DNA扩增反应，包括(但不限于)聚合酶链反应(PCR)、链置换扩增(SDA)、线性扩增、多重置换扩增(MDA)、滚环扩增(RCA)、单引物等温扩增(SPIA，参看例如美国专利第6,251,639号)、Ribo-SPIA或其组合。在一些情况下，用于提供模板核酸的扩增方法可在限制条件下进行使得仅进行几个回合的扩增(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30等)，如可关于cDNA产生所通常进行的一样。扩增回合数可以是约1-30、1-20、1-15、1-10、5-30、10-30、15-30、20-30、10-30、15-30、20-30或25-30。

PCR为基于变性、寡核苷酸引物退火和通过嗜热性模板依赖性多核苷酸聚合酶进行的引物延伸的重复循环的活体外扩增程序，导致由引物侧接的多核苷酸分析物的所需序列的拷贝以指数方式增加。退火到DNA相对链的两个不同PCR引物可定位成使得一个引物的聚合酶催化的延伸产物可充当另一引物的模板链，导致离散双链片段的积聚，所述片段的长度可由寡核苷酸引物的5'端之间的距离限定。其它扩增方法进一步描述在2013年1月25日递交的以全文引用的方式并入本文中的USSN 13/750768中。

在一些实施例中，扩增可为指数扩增，例如在通过聚合酶链反应(PCR)酶扩增特异性DNA双链序列中。在其它实施例中，扩增方法可为线性的。在其它实施例中，扩增方法可为等温的。

下游应用

本发明的一个方面为本文中所公开的方法和组合物可高效地和成本有效地用于下游分析，如下一代测序或杂交平台，使所关注的生物材料的损失最小。本文中所公开的方法还可用于分析所关注的选择性基因组区的遗传信息(例如分析SNP、拷贝数变异或其它疾病标记)以及由转录组分析和可与所关注的选择性区相互作用的基因组区进行数字基因表达。

测序

举例来说，本发明的方法可适用于通过由伊路米那商业化的方法测序，如美国专利第5,750,341号、第6,306,597号以及第5,969,119号所描述。一般来说，双链片段多核苷酸可通过本发明的方法制备，产生在一端(例如(A)/(A'))或两端(例如(A)/(A')和(C)/(C'))标记的经扩增核酸序列。在一些情况下，在一端或两端标记的单链核酸可通过本发明的方法(例如通过SPIA或线性PCR)扩增。所得核酸可随后变性并且单链扩增多核苷酸可随机连接到流动细胞通道的内表面。可添加未标记核苷酸以开始固相桥扩增，产生双链DNA的密集簇。为了开始第一碱基测序循环，可添加四个标记的可逆终止子、引物和DNA聚合酶。激光激发后，来自流动细胞的各簇的荧光可成像。可随后记录各簇的第一碱基的身份。可进行测序循环从而一次一个碱基的测定片段序列。

在一些实施例中，本发明的方法可适用于制备标靶多核苷酸，所述标靶多核苷酸用于通过由应用生物系统公司(Applied Biosystems)商业化的连接测序方法(例如SOLiD测序)来测序。在其它实施例中，所述方法可适用于制备用于使用454/罗奇生命科学(RocheLife Sciences)商业化的方法进行合成测序的标靶多核苷酸，商业化方法包括(但不限于)马古利斯(Margulies)等人,自然(Nature)(2005)437:376-380(2005)；以及美国专利第7,244,559号；第7,335,762号；第7,211,390号；第7,244,567号；第7,264,929号以及第7,323,305号中所描述的方法和设备。在其它实施例中，所述方法可适用于制备用于通过赫利克斯生物科学公司(Helicos BioSciences Corporation)(剑桥(Cambridge)，马萨诸塞州(Mass.))商业化的方法进行测序的标靶多核苷酸，所述商业化方法如美国申请第11/167,046号和美国专利第7,501,245号；第7,491,498号；第7,276,720号；以及美国专利申请公开案第US20090061439号；第US20080087826号；第US20060286566号；第US20060024711号；第US20060024678号；第US20080213770号；以及第US20080103058号中所描述。在其它实施例中，所述方法可适用于制备用于通过太平洋生物科学(Pacific Biosciences)商业化的方法进行测序的标靶多核苷酸，所述商业化方法如美国专利第7,462,452号；第7,476,504号；第7,405,281号；第7,170,050号；第7,462,468号；第7,476,503号；第7,315,019号；第7,302,146号；第7,313,308号；以及美国申请公开案第US20090029385号；第US20090068655号；第US20090024331号；以及第US20080206764号中所描述。

可用于提供的本发明方法中的测序技术的另一个实例为离子激流(Ion Torrent)提供的半导体测序(例如使用离子个人基因组机(Ion Personal Genome Machine，PGM))。离子激流技术可使用具有多个层的半导体芯片，例如具有微加工孔的层、离子敏感层以及离子传感器层。核酸可以引入到孔中，例如单核的克隆群可以连接到单一珠粒，并且珠粒可以引入到孔中。为了开始珠粒上核酸的测序，一种脱氧核糖核苷酸(例如dATP、dCTP、dGTP或dTTP)可以引入到孔中。当DNA聚合酶并入有一或多个核苷酸时，可在孔中释放质子(氢离子)，其可通过离子传感器检测。半导体芯片接着可洗涤并且可使用不同脱氧核糖核苷酸重复所述方法。可以在半导体芯片的孔中将多个核酸测序。半导体芯片可包含化学敏感场效应晶体管(chemFET)阵列以将DNA测序(例如，如美国专利申请公开案第20090026082号中所描述)。通过chemFET改变电流可检测到一或多个三磷酸酯并入到测序引物的3'端处的新核酸链中。阵列可以具有多个chemFET传感器。

可用于提供的本发明方法中的测序技术的另一个实例为纳米孔测序(参见例如索尼G V(Soni G V)和梅勒A.(Meller A.)(2007)临床化学(Clin Chem)53:1996-2001)。纳米孔可以是直径为约1纳米的小孔。将纳米孔浸没于导电流体中并且跨越其施加电势可由于离子传导穿过纳米孔而产生微弱电流。流动的电流量对纳米孔的大小敏感。随着DNA分子穿过纳米孔，DNA分子上的每个核苷酸不同程度地阻碍纳米孔。因此，随着DNA分子通过纳米孔时通过纳米孔的电流变化可表示DNA序列的读段。

遗传分析

本发明的方法可用于分析所关注的选择性基因组区以及可与所关注的选择性区相互作用的基因组区的遗传信息。如本文中所公开的扩增方法可用于遗传学分析领域中已知的装置、试剂盒和方法中，例如(但不限于)美国专利第6,449,562号、第6,287,766号、第7,361,468号、第7,414,117号、第6,225,109号以及第6,110,709号中发现的那些。在一些情况下，本发明的扩增方法可用于扩增所关注的标靶核酸用于DNA杂交研究以确定多形性存在或不存在。多形性或等位基因可与如遗传疾病的疾病或病状相关。在其它情况下，多形性可与对疾病或病状的易感性相关，例如，与成瘾、退化和年龄相关病状、癌症等相关的多形性。在其它情况下，多形性可与有利特性相关，如增加的冠状动脉健康或对如HIV或疟疾的疾病的耐性，或对如骨质疏松、阿兹海默氏症(Alzheimer's)或痴呆的退化疾病的耐性。

数字测量

本发明的方法可用于数字分析基因表达、与疾病相关的基因表达谱(包括诊断、预后和检测)以及鉴定遗传病症(例如染色体或基因易位、缺失、重复和缺陷)以及研究所关注的选择性基因组区和可与所关注的选择性区相互作用的基因组区。在一些实施例中，测定数字基因表达(DGE)或拷贝数变异(CNV)数字测量值可通过将读段总数内的基因读段数目定量来实现。在一些实施例中，可进行双末端测序。可经由高通量测序在如所属领域的技术人员已知的多种平台上进行测序。在一些实施例中，将测序数据/读段映射到基因组/转录组(对于cDNA)。在一些实施例中，可评估序列数据以去除重复读段，如美国专利申请公开案第61/989,113号中所描述。在一些实施例中，将探针序列出现在去重复序列数据集中的次数计数作为存在于初始样品中的最初核酸分子的拷贝数的量度。

在一些实施例中，可评估正确地退火到特定核酸内的其互补探针标靶区的探针的验证。在一个实施例中，适当地退火的探针的评估可通过双末端比对进行，如果两端，正向读段和反向读段如所预期比对，那么将探针计数。在一些实施例中，适当地退火的探针的评估可通过检查探针序列+探针序列的特定核酸3'的20个测序碱基并且仅使用正向读段用于重复分析来进行。如果探针+20对准，那么探针是在所需位置中。

使用探针序列计数而非随机序列的优势为简化拷贝数分析，因为在不同样品中使用相同序列用于各测量。探针计数允许经由多重测序获得高样品处理量(例如每次测序操作至少96个样品)。靶向RNA-测序可提供用于RNA-测序分析的高聚集程度，因为大于90％的读段来源于靶向基因，同时延伸靶向编码或非编码基因、特异性外显子、UTR、RNA同功异型物和基因融合体的能力。探针计数还可减少外显子使用、转录物大小和序列依赖性扩增/测序的偏差并且允许去除PCR重复。

数字分析可通过在定量之前测定PCR重复来进行。使用伊路米那测序技术的此类分析在图6A-6C中并且参看图1说明。简单来说，如图6A中所示的针对gDNA(图1)说明的正向读段包括正向引发位点12，其由将延伸到特定核酸10序列并且可用于将正向读段序列32映射到基因组(或对于cDNA为转录组)区的正向序列32的至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少15、至少20、至少25、至少30、至少35个等碱基序列测序的正向引物30利用。索引读段如图6B中所示可指示样品来源(例如库通用的库条形码)。索引读段在索引引发位点18以索引引物34开始并且包括索引碱基(例如条形码序列)16和n-随机碱基14的至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10个等经测序碱基，产生索引读段36。在一些实施例中，正向读段序列32与索引读段碱基序列和N-随机碱基36的组合对于各特定核酸序列的接合事件是独特的。在一些实施例中，正向读段序列32起始位点基因组(对于cDNA为转录组)坐标加索引读段序列36N-随机碱基14的组合可用于确定各探针延伸产物21或22并且因此具有探针标靶区50或60的对应特定核酸序列10或9的PCR重复。反向读段44如图6C中所说明验证退火到正确基因组/转录组位置并且因此到其互补探针标靶区的探针。流动细胞序列33和35在富集期间在探针延伸产物的末端附接。

数字分析可通过在定量之前测定PCR重复来进行。此类分析在图8A-8C中并且参看图1和图5所说明。如图8A中所说明的具有探针序列44(图5)的读段验证退火到正确基因组/转录组位置并且因此到其互补探针标靶区的探针。具有探针序列的读段包含15个碱基的连接子38、40个碱基的寡核苷酸基因特异性序列50或60(探针标靶区)和如在基因组(或转录组)数据库中表示的距40个碱基的寡核苷酸基因特异性序列50或60的3'约10个碱基的区10的X个碱基(例如10个碱基)。如图8B中所示的针对gDNA(图1)说明的具有特定核酸序列10的读段包括引发位点12，其经将延伸到特定核酸9或10序列中并且可用于将具有特定核酸序列32的读段映射到基因组(或对于cDNA为转录组)区的序列32(图5)的至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少15、至少20、至少25、至少30、至少35个等碱基序列测序的引物30利用。如图8C中所示包含索引序列和N6序列的序列读段可指示样品来源(例如库通用的库条形码)。索引读段引物34退火到索引引发位点18，产生包含索引碱基(例如条形码序列)16和n-随机碱基14的至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10个等经测序碱基中的至少一者的读段序列36，产生测序读段36。在一些实施例中，具有特定核酸序列(图8A)的读段将验证退火到探针标靶区的探针的特异性。在一些实施例中，具有特定核酸序列的读段分组到探针标靶序列数据库中并且例如特定核酸序列9或10的10个碱基将需要在独特探针组内比对并且在如此匹配中验证退火到其探针标靶区的探针的特异性。在一些实施例中，具有特定核酸序列的读段将与确定序列在分组内是否独特的约10个碱基的寡核苷酸匹配比较。通用读段将随后与对应N6比较，其中相同N6读段一起收缩为单个项并且仅计数一次。在一些实施例中，具有索引读段和N6读段中的至少一者的读段的长度可为约14个碱基。在一些实施例中，具有特定核酸序列的读段可为约10个碱基。在一些实施例中，具有探针序列的读段可为约65个碱基(对于连接序列为约15个碱基，对于探针标靶区(如基因组/转录组中表示的基因特异性序列)为约40个碱基)，并且距探针标靶区的3'约10个碱基。在一些实施例中，可使用查找表。在一些实施例中，将探针序列计数。在一些实施例中，N6序列标示用于消除的重复。

在一些实施例中，读段序列32与读段序列36的组合对于各特定核酸序列的接合事件是独特的。在一些实施例中，读段序列32起始位点基因组(对于cDNA为转录组)坐标加读段序列36N-随机碱基14的组合可用于确定各探针延伸产物22或21和具有探针标靶区50或60的对应特定核酸序列10或9的PCR重复。在一些实施例中，如图6C中所说明的读段序列44验证退火到正确基因组/转录组位置并且还退火到其互补探针标靶区50或60的探针。

在一些实施例中，在如上文公开的DGE或CNV定量之前去除重复读段。随后将在基因组/转录组中正确映射的探针序列计数。在一些实施例中，DGE或CNV可由各探针序列的计数确定。在一些实施例中，可通过例如在基因的长度内在探针中对计数求平均值来合并探针计数。在一些实施例中，读段计数可在样品之间标准化，例如，标准化为总读段的百分比的读段计数。在一些实施例中，读段计数可通过例如在将各探针序列计数之前将总读段计数标准化来标准化。在一些实施例中，读段计数可由与基因组或来源于探针标靶区的读段比对的读段数目标准化。

如图5中所说明，测序库的结构和测序读段的鉴定提供使用高通量测序方法的多重定量。如在图7A中参看图6所说明，正向引物30可与正向读段1引发位点12互补并且读段可充分延伸32到特定核酸10(gDNA)或13(cDNA)中以将读段映射到基因组或转录组。此外，图7B中所说明的索引读段序列可从“索引引发位点”18使用互补引物34和读段36读取到“索引碱基”16和“n-随机碱基”14中。此外，可确定“反向读段序列”(图5、图6和图7C)。反向序列引物42与“反向读段引发位点”38和读段44经由探针50或60(分别gDNA或cDNA，图1、图2，在图6中所说明)(探针标靶区位点)和至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10个等相邻碱基10(gDNA)或13(cDNA)杂交以验证探针延伸产物22或21(分别gDNA或cDNA，图1、图2)是否为探针与正确基因组或转录组杂交的产物。将在基因组或转录组中正确映射的探针序列计数。DGE或CNV可由各探针序列的计数确定和/或探针计数可合并，包括(但不限于)通过在与特定核酸序列对应的基因的长度内在探针中对计数求平均值。读段计数可在样品之间标准化。在一些实施例中，读段计数可在样品之间标准化，例如，标准化为总读段的百分比的读段计数。在一些实施例中，读段计数可通过例如在将各探针序列计数之前将总读段计数标准化来标准化。在一些实施例中，读段计数可由与基因组或来源于探针标靶区的读段比对的读段数目标准化。其它标准化方法为NGS序列分析所属领域的技术人员众所周知。

图9提供构筑为了数字分析而产生的测序库的图解说明。

图10提供对由如图9中所说明来构筑的测序库产生的测序数据进行分析的图解说明。

在一些实施例中，本发明的方法可用于数字测量以分析例如(但不限于)组织、肿瘤、循环细胞的基因表达特征和特性以及比较患病患者与未患病患者和患者的正常组织与患病组织。在一些实施例中，本发明的方法可用于拷贝数变异(CNV)数字定量。CNV可指示基因组内产生具有DNA区段的拷贝数中的异常或正常变化的细胞的DNA变化。CNV可鉴定基因组的较大区的引起少于正常数目的缺失或基因组的较大区的具有多于染色体内常见数目的重复。在CNV和对疾病的易感性或耐性之间存在关联。此类测量可适用于诊断、疾病分期、预后、确定疾病进程、病毒负荷以及基因表达或CNV对治疗剂的功效或有效性的影响等，如所属领域的技术人员将已知。

在另一个方面中，公开一种包含通过所公开的方法扩增的第一核酸片段序列的组合物。在一些实施例中，第一核酸片段或未片段化核酸样品可来自选自同一人类的人类样品：单个细胞、未患病组织、患病组织、FFPE样品或新鲜冷冻样品、组织、器官、肿瘤、自患者获取的有机流体的样本、自由循环核酸、真菌、原核生物体和病毒。在一些实施例中，第二核酸片段或未片段化核酸样品可来自选自具有可为患病组织或未患病组织的组织的同一人类的样品，可在同一天收集，可在不同日期收集，可自不同样品收集，可自通过不同方法制备的样品收集或可通过不同纯化方法自样品收集及其组合。在一些实施例中，可进一步富集和制备包含第一衔接序列的第一核酸片段或未片段化核酸样品以用于大规模平行测序。在一些实施例中，第一核酸片段或未片段化核酸样品可为双链。在一些实施例中，第一衔接序列可附接到所述第一核酸片段或未片段化核酸样品的5'端。在一些实施例中，第一衔接序列包含用于核酸修饰酶的限制和/或裂解位点。

在另一个方面中，所公开的方法可具有具衔接子的第二人类核酸片段或第二未片段化核酸样品。在一些实施例中，第二人类样品可来源于与第一核酸样品来源的人类不同的人类。在一些实施例中，第二核酸片段或第二未片段化核酸样品可为选自具有可为患病组织或未患病组织的组织的同一人类的样品，可在同一天收集，可在不同日期收集，可自不同样品收集，可自通过不同方法制备的样品收集或可通过不同纯化方法自样品收集及其组合。在一些实施例中，第二核酸片段或第二未片段化核酸样品可为选自具有可为患病组织或未患病组织的组织的不同人类的样品，可在同一天收集，可在不同日期收集，可自不同样品收集，可自通过不同方法制备的样品收集或可通过不同纯化方法自样品收集及其组合。

在另一方面，公开一种将根据先前公开的方法的第二人类核酸定量的方法。

试剂盒

本文中描述的组合物中的任一者可包括于试剂盒中。在非限制性实例中，试剂盒在适合的容器构件中包含：一个具有已知序列的衔接子、一个具有序列特异性部分和具已知序列的通用部分的探针、一个具有针对至少衔接子或探针通用部分的直接部分补体的正向引物和一个具有针对衔接子或探针通用部分的直接部分补体的反向引物。试剂盒可进一步含有其它适用于接合、标靶富集和库制备的衔接子、引物和/或试剂。试剂盒可进一步任选地含有DNA-聚合酶。试剂盒可进一步任选地含有用于扩增的试剂，例如适用于PCR扩增方法的试剂。试剂盒可进一步任选地含有用于测序的试剂，例如适用于下一代大规模平行测序方法的试剂。

试剂盒的容器可包括至少一个小瓶、试管、烧瓶、瓶子、针筒或其它容器，组分可放置到其中，并且优选地，适合地等分。在多于一种组分存在于试剂盒中的情况下，试剂盒还可含有第二、第三或其它额外的可单独地放置其它组分的容器。然而，组分的各种组合可包括于容器中。

当试剂盒的组分可提供于一或多种液体溶液中时，液体溶液可以是水溶液。然而，试剂盒的组分可以干粉形式提供。当试剂和/或组分以干粉形式提供时，可通过添加适合的溶剂使粉末复原。

试剂盒可包括使用试剂盒组分以及使用试剂盒中未包括的任何其它试剂的说明书。说明书可包括可执行的变化。

实例

实例I：两个样品之间的特定转录物的差异表达量

使用

标靶富集cDNA模块(NuGEN目录号9301-32)根据制造商的建议以100ng总RNA双链cDNA为起始物质。根据制造商的说明将cDNA样品直接添加到NuGEN

标靶富集试剂盒(NuGEN目录号0400-32)中。在杂交中使用的探针为靶向270个基因的探针池(NuGEN

标靶富集系统，关于定购信息联系NuGEN)。

将所得库稀释到2nM并且在

DNA测序仪上对富集库进行双末端测序。在75个碱基的正向读段(R1)、75个碱基的反向读段(R2)、14个碱基的索引读段(I1)下操作之后的双末端系列。

数据分析

对正向和反向测序读段进行双末端比对并且使用具有默认设置的TopHat比对软件(v.2.0.10)将各者映射到人类基因组版本hg19。消除不映射到靶向区的读段对。随后针对索引序列的N6序列(n-随机序列)评估具有相同起始坐标的正向读段。在N6序列相同的情况下，那么将读段标记为重复并且仅将群组的一个读段保留为来源于单个相异核酸分子。标记所鉴定的重复读段并且随后去除，如专利申请USSN 61/989,113中所描述(重复标记)。在对标靶和去除重复的读段对过滤之后，使用特里姆格劳(Trimgalore)(v.0.3.1)微调过滤的反向读段序列以去除衔接和连接序列并且使用法斯特(FASTX)微调软件缩短到前35个碱基。随后使用具有默认参数和‘—norc’的鲍泰伊(Bowtie)比对软件(v.1.0.0)将微调的反向读段序列映射到含有靶向寡核苷酸的序列的探针序列文件(提供有所用探针)以防止反向互补序列匹配。比对的反向读段与其起始引物相关并且计数。检测到各探针的次数为特定转录物存在于最初样品中的次数的量度。表1说明DGE数据，其中读段计数在样品之间标准化。

表1：两个癌细胞株之间三个基因的基因表达的表示

基因	标准化探针读段UHR	标准化探针读段H2228	比率UHR/H2228
				CCND3	499	494	1.01
TAF15	541	1074	0.52
				PBX1	118	23	5.13

如表1中所描述，与H2228细胞(腺癌；非小细胞肺癌)相比，混合癌细胞株RNA样品(UHR，通用人类参考RNA)具有相对低的基因TAF15表达量。两种细胞类型均具有极类似的CCND3表达量。相反，与H2228相比，UHR具有较高PBX1表达。

实例II：在无基因组比对的情况下两个样品之间特定转录物的差异表达量

使用

标靶富集系统，关于定购信息，联系NuGEN)。

将所得库稀释到2nM并且在

数据分析

在15bp连接序列的5'端和差异序列的0-3个碱基处通过模式匹配微调反向读段序列。在连接子微调之后，将前40bp的反向读段构筑到巴罗斯-惠勒变换(Burrows-Wheelertransform；BWT)以使用BEETL软件(版本1.1.0，https://github.com/BEETL/BEETL)匹配各读段中的平铺探针12聚体。各读段对随后标记为来源于具有与反向读段的最多12聚体匹配的探针。随后通过分析索引序列的N6序列(n-随机序列)以及正向读段的前10个碱基将每个探针的标记读段对去除重复。在读段来源于同一探针、N6序列相同并且正向读段的前10个碱基相同的情况下，那么读段被标记为重复并且仅将群组的一个读段保留为来源于单个相异核酸分子。在过滤去除重复的读段对之后，获得各探针的去除重复的总读段计数。检测到各探针的次数为特定探针存在于最初样品中的次数的量度。随后将每个探针的计数取平均值以基于探针注释文件获得每个基因的计数，作为具体样品中所述基因的相对丰度的量度。

实例III：映射正向读段的特定转录物的差异表达

使用

标靶富集cDNA模块(NuGEN目录号9301-32)根据制造商的建议以来自通用人类参考样品(UHR)双链cDNA的100ng总RNA输入物为起始物质。根据制造商的说明将cDNA样品直接添加到NuGEN

标靶富集试剂盒(NuGEN目录号0400-32)中。还使用

标靶富集试剂盒(NuGEN目录号0400-32)根据制造商的建议处理以来自普洛麦格(Promega)雄性参考样品的100ng DNA输入物为起始物质的对照库。在杂交中使用的探针为靶向95个基因的探针池。

将所得库稀释到2nM并且在

DNA测序仪上对富集库进行双末端测序。在70个碱基的正向读段(R1)、88个碱基的反向读段(R2)、14个碱基的索引读段(I1)下操作之后的双末端系列。

数据分析

对于源于RNA和DNA两者的数据，对正向读段进行质量微调并且微调连接和衔接序列。对于源于DNA的数据，使用具有-m 2参数的鲍泰伊比对软件将正向读段映射到人类基因组版本hg19。对于源于RNA的数据，首先使用斯塔尔(STAR)比对软件将正向读段映射到核糖体核糖核酸参考物，随后也使用斯塔尔比对软件将未映射到核糖体核糖核酸的读段映射到人类版本hg19。在比对之后，随后针对索引序列的N6序列(n-随机序列)评估具有相同起始坐标的RNA和DNA数据的正向读段。在N6序列相同的情况下，那么将读段标记为重复并且仅将群组的一个读段保留为来源于单个相异核酸分子。标记所鉴定的重复读段并且随后去除，如专利申请USSN 61/989,113中所描述(重复标记)。随后使用具有默认设置的卡沃维奇贝得(CoverageBed)软件将重叠各数据集的各标靶区(外显子)的任何部分的去除重复的正向读段计数。针对数据集的所有标靶区中的总读段，将各标靶区的计数标准化并且随后针对DNA和RNA数据的标准化基因计数，将与基因内的各外显子对应的标靶区取平均值。DNA计数预期非常均等，因为表达量不影响探针产生读段的能力。RNA计数预期由于表达量变化而具有变化。基于所述想法，随后计算标准化计数RNA/DNA的log2比率作为RNA中的基因丰度的量度。随后使用史都登氏T测试(students T-test)计算各基因测量的p值。p值<0.05并且对数比率>0的基因标注为上调基因并且p值<0.05并且对数比率<0的基因标注为下调基因。

表2描述五个显著上调的基因和五个显著下调的基因，其来自图在按染色体顺序的95个基因的组中在RNA水平下的所有基因丰度(图11)。

表2：显著变化的基因的相对丰度.

方向	基因	染色体	丰度	P值
					上	GUSB	7	6.291068	3.18E-04
上	ANXA1	9	8.132735	3.37E-07
					上	ITGB7	12	13.091	5.98E-05
上	GAS6	13	5.678613	2.64E-04
					上	TSC2	16	3.440623	3.22E-04
下	AMPD1	1	0.011096	2.95E-06
					下	CR2	1	0.133867	3.35E-04
下	ITGAX	16	0.194365	2.39E-06
					下	NOS2	17	0.037126	9.74E-07
下	ITGA2B	17	0.15729	2.31E-13

实例IV：使用正向读段的特定转录物的相对表达量

使用

标靶富集cDNA模块(NuGEN目录号9301-32)根据制造商的建议以100ng总RNA双链cDNA为起始物质。将与ILMN反向流动细胞序列对应的衔接子接合到各cDNA片段的5'端上。将含有序列特异性区接着15个碱基的连接子以及与ILMN正向流动细胞序列对应的XX碱基序列的探针退火到标靶并且用DNA聚合酶延伸。通过PCR在NuGEN建议和提供的条件下并且用NuGEN建议和提供的试剂扩增含有正向和反向流动细胞序列的DNA片段。

将所得库稀释到2nM并且在

DNA测序仪上对富集库进行双末端测序。在70个碱基的正向读段(R1)和14个碱基的索引读段(I1)下操作之后的双末端系列。

数据分析

使用特里姆格劳软件(v.0.3.1)微调正向读段序列以去除连接序列，并且使用法斯特微调软件缩短到后55个碱基。使用具有-m 2参数的鲍泰伊比对软件将微调的正向读段映射到人类基因组版本hg19。消除不映射到靶向区的读段。鉴定基因组中映射到相同起始坐标的读段。随后针对索引序列的N6序列(n-随机序列)评估具有相同起始坐标的读段。在N6序列相同的情况下，那么读段对被标记为重复并且仅计数为来源于单个相异核酸分子。标记所鉴定的重复读段并且随后去除，如专利申请USSN 61/989,113中所描述(重复标记)。使用具有默认参数和‘--norc’的鲍泰伊比对软件(v.1.0.0)将其余读段映射到含有靶向寡核苷酸的序列的探针序列文件(提供有所用探针)以防止反向互补序列匹配。检测到各探针的次数为特定转录物存在于最初样品中的次数的量度。将重叠标靶区(外显子)的任何部分的读段计数。将与基因内的各外显子对应的计数取平均值。如果任何外显子具有低于平均值的2个标准差的计数，那么丢弃所述外显子并且重新计算平均值。

实例V：通过DNA测序测定拷贝数变异(CNV)

两个人类gDNA样品，一个来源于三体性染色体13男性并且另一个来源于二体性染色体13女性，通过用科瓦里斯(Covaris)系统超声处理而片段化到大约500bp长度。根据制造商的说明将来自各样品的gDNA的100ng 500bp片段添加到NuGEN

标靶富集试剂盒(NuGEN，目录号0400-32)中。在杂交中使用的探针为靶向344个基因的探针池(NuGEN

癌症组标靶富集系统)。

将所得库稀释到2nM并且在

DNA测序仪上对富集库进行双末端测序。在75个碱基的正向读段(R1)、88个碱基的反向读段(R2)、14个碱基的索引读段(I1)下操作之后的双末端系列。

数据分析

通过两种独立方法分析数据；去除重复和不去除重复。简单来说，使用具有默认设置的鲍泰伊比对软件(v.1.0.0)将正向读段与人类基因组版本hg19比对。如果任何正向读段确定为与相同基因组起始坐标比对，那么检查对应索引读段。在与具有相同基因组起始坐标的那些正向读段对应的索引读段序列相同的情况下，将读段标记为重复并且仅计数为单个相异核酸分子(如专利申请USSN61/989,113中所描述)。使用鲍泰伊将与其余相异正向读段对应的反向读段与探针数据库中的序列比对。将比对的反向读段根据其表示哪个探针序列分组并且计数。代表各探针的次数为初始特定核酸分子存在于最初样品中的次数的量度。

或者，通过根据探针数据库中存在的序列将40个碱基的反向读段分类在不去除重复读段的情况下确立表示法。测定与探针参考数据库中的各代表比对的读段的数目。忽略不匹配数据库中的序列的读段。检测到各探针的次数为特定序列存在于最初样品中的次数的量度。表3描述使用上文所描述的任一方法的CNV数据，其中根据总测序读段数目将读段计数标准化并且自分析去除任何低于10的计数。对于给定染色体上的所有探针，将三体性男性样品中的给定探针的探针计数与野生型女性样品中的相同探针的计数的比率取平均值。

表3：读段计数根据总测序读段数目标准化的来自三体性13男性的拷贝数变异数据

染色体	不去除重复的平均探针计数比率	去除重复的平均探针计数比率
			chr 1	1.002485	0.990606365
chr 2	1.025382	1.010290049
			chr 3	1.028736	1.016439439
chr 4	1.045166	1.032544903
			chr 5	1.002378	0.998957554
chr 6	1.015266	0.997262904
			chr 7	1.022412	1.021639631
chr 8	1.046251	1.028980962
			chr 9	1.009415	0.991277289
chr 10	1.035216	0.993768193
			chr 11	1.01177	1.00377304
chr 12	1.027063	1.004790487
			chr 13	1.485411	1.471641235
chr 14	0.996186	0.986919321
			chr 15	0.986867	0.981480187
chr 16	0.967682	0.964463441
			chr 17	0.999821	0.992014077
chr 18	1.035764	1.016860381
			chr 19	0.967125	0.958202381
chr 20	1.012836	1.010031227
			chr 21	1.00104	1.013150115
chr 22	0.975676	0.972111601
			chrX	0.548004	0.54329808

如表3中所描述，对比具有两条X-染色体的正常(野生型，WT)二倍体女性，二倍体男性具有单一X-染色体，其通过X染色体上探针计数的0.54比率(或当不去除重复时0.55)鉴定。同样地，对于除染色体13之外的所有其它染色体，男性和女性均可具有类似的标准化计数。三体性13男性具有如由1.47探针计数比率(或当不去除重复时1.49)解释的额外染色体13，确定相较于与WT女性的比较的染色体13拷贝数变异。

实例VI：通过DNA测序测定癌细胞株中的拷贝数变异(CNV)

两个人类gDNA样品，一个来源于正常男性池(普洛麦格)，并且另一个来源于具有添加的EGFR和KIT基因的两个额外拷贝(各总共4个拷贝)(先前通过qPCR验证)的正常男性的所述同一池，通过用科瓦里斯系统超声处理而片段化到大约500bp长度。根据制造商的说明将来自各样品的gDNA的100ng 500bp片段添加到NuGEN

标靶富集试剂盒(NuGEN，目录号0400-32)中。在杂交中使用的探针为靶向509个基因的探针池(NuGEN

癌症组2.0标靶富集系统)。

将所得库稀释到2nM并且在

数据分析

对于两个数据集，用特里姆格劳软件对fastq格式的正向读段进行连接序列和低质量碱基微调。使用允许读段映射到多达2个位置并且仅挑选单个最佳比对(-m 2--最佳)的鲍泰伊比对软件(v 1.0.0)将读段与人类基因组参考版本hg19比对。随后使用NuGEN的自定义NuDup去除重复软件(https://github.com/nugentechnologies/nudup)将比对读段去除重复。对于去除重复，如果任何读段确定为与相同基因组起始坐标比对，那么检查对应索引读段。在与具有相同基因组起始位置的那些正向读段对应的索引读段序列相同的情况下，读段被标记为重复并且仅维持来自所述集的具有最佳质量的单个读段。

在富集实验中使用的探针预期产生在探针的初始坐标内着陆到探针下游大约300bp的读段。对于富集中的所有探针，探针着陆区在bed文件中定义为“probePlus300”。使用BEDtools coverageBed将各probePlus300区内的去除重复的读段的数目计数。对于各probePlus300区，通过属于所有probePlus300区内的去除重复的总读段(所有probePlus300区计数的总和)将绝对计数标准化以便在实验之间比较计数。随后，对于各基因或基因组区，将probePlus300计数取平均值。将来自细胞株样品的各基因的标准化平均probePlus300计数与正常掺合男性样品计数以比率形式相比较。此外，可使用史都登氏t测试计算基因或基因组区，其中两个样品之间给定基因的平均probePlus300计数显著不同，多重假设校正p值<0.005。

表4描述在样品中添加中的显著拷贝数变化和p值。确切地说，仅在EGFR和KIT基因-以大约4个拷贝添加的两个基因的拷贝数中存在显著增加。

表4：在样品中添加中的显著拷贝数变化和p值.

CNV	基因	染色体	拷贝	P值
					GAIN	KIT	4	3.790214	5.05E-13
GAIN	EGFR	7	4.059194	1.62E-16

实例VII：快速产生库以便通过DNA测序来测定拷贝数变异

两个人类gDNA样品，一个来源于三体性染色体13男性并且另一个来源于二体性染色体13女性，可通过用科瓦里斯系统超声处理而片段化到大约500bp长度。来自各样品的gDNA的1ug 500bp片段可在95℃下在探针和探针退火溶液(NuGEN

标靶富集试剂盒，目录号0400-32)存在下热变性5分钟并且以每分钟0.1℃的速率冷却到60℃并且保持在所述温度下至少30分钟。在退火步骤之后，可向溶液中添加DNA聚合酶和脱氧核苷酸以延伸特异性退火到其模板核酸的探针。根据制造商的建议，此溶液可冷却到室温并且通过不同珠粒结合和自SPRI珠粒洗提去除未并入的探针。回收的双链DNA可经历末端修复和用NuGEN

标靶富集试剂盒中提供的溶液接合。

可将所得库稀释到2nM并且在

DNA测序仪上对富集库进行双末端测序。可操作以下双末端系列；75个碱基的正向读段(读段1)、75个碱基的反向读段(读段2)、14个碱基的索引读段(读段3)。

数据分析

可通过根据探针数据库中存在的序列将75个碱基的反向读段分类来分析数据。可测定与探针参考数据库中的各代表比对的读段的数目。可忽略不与数据库中的序列比对的读段。检测到各探针的次数可为特定序列存在于最初样品中的次数的量度。可根据总测序读段数目将读段计数标准化并且任何低于10的计数可自分析去除。对于给定染色体上的所有探针，可将三体性男性样品中的给定探针的探针计数与野生型女性样品中的相同探针的计数的比率取平均值。

来自此测试的数据将揭露男性样品为对比具有两个X-染色体的二倍体正常(野生型，WT)女性，具有单个X-染色体并且因此X染色体上的探针计数的大约0.5比率。同样地，对于除染色体13之外的所有其它染色体，男性和女性将均具有类似的标准化计数。三体性13男性具有额外染色体13，此将引起相对于WT女性，大约1.5探针计数比率的探针计数比率。

所属领域的技术人员将了解，多种修改、替代方案和等效物是可能的。所有此类修改、替代方案和等效物都打算涵盖在本文中。

虽然已经结合特定实施例描述了本发明的原理，但可明确了解，这些描述仅仅是为了举例并且并不打算限制本发明的范围。已经出于说明和描述的目的提供了本文中已经公开的内容。这并不打算是穷尽性的或将本发明限制为所述的精确形式。许多修改以及变化对于所属领域的技术人员来说将是显而易见的。选择并描述所公开的内容以便最佳地解释所述领域所公开的实施例的原理和实际应用，由此使得所属领域的其它技术人员能够了解适合于所涵盖的特定用途的各个实施例和各种修改。公开内容的范围打算由以下权利要求书和其等效物限定。

Claims

1.一种将多个特定核酸分子定量的方法，其包含：

a.将多个探针与多个特定核酸分子杂交，其中各探针与所述多个特定核酸分子中的特定核酸分子内的已知序列的各探针标靶区杂交并且各探针在其5'端具有第一衔接子，其中所述第一衔接子包含已知序列并用于扩增和/或测序；

b.延伸与特定核酸分子杂交的所述多个探针中的每一者，以产生多个延伸产物；

c.将第二衔接子附接到所述多个探针延伸产物的双链端，其中所述第二衔接子包含已知序列并用于扩增和/或测序；

d.将所述多个探针延伸产物测序以产生测序读段并合并重复测序读段以产生所述探针延伸产物中的每一者的序列；及

e.测定与所述探针标靶区杂交的各探针的数目，其中所述数目指示包含所述探针标靶区的所述特定核酸分子中的每一者的数量。

2.一种将多个特定核酸分子定量的方法，其包含：

a.将多个探针与多个特定核酸分子杂交，其中每个探针与所述多个特定核酸分子中的特定核酸分子内的已知序列的各探针标靶区杂交，其中各探针在其5'端具有第一衔接子，其中所述第一衔接子包含已知序列并用于扩增和/或测序；

c.将第二衔接序列附接到所述多个探针延伸产物的双链端，其中所述第二衔接序列包含已知序列并用于扩增和/或测序；

d.将所述多个探针延伸产物测序以产生测序读段并合并重复测序读段以产生所述多个探针延伸产物中的每一者的序列；

e.将所述多个探针延伸产物中的每一者的所述序列与探针数据库内的预定序列比对，其中所述探针数据库包含多个预定序列，其中各预定序列对探针具有特异性；及

f.测定各探针延伸产物的所述序列与测序数据库内的预定序列的比对数目，其中所述比对数目指示与所述探针杂交的所述特定核酸分子中的每一者的数量。

3.根据权利要求1或2所述的方法，其中所述多个探针延伸产物的所述序列包含正向读段、索引读段和反向读段中的至少一者。

4.根据权利要求3所述的方法，其中所述第一衔接序列包含以下中的至少一者：索引序列引发位点、索引核苷酸序列、n-随机碱基序列、正向读段引发位点、反向读段引发位点，及其任何组合。

5.根据权利要求4所述的方法，其中各探针退火到其相应特定核酸内的其相应探针标靶区序列的特异性被验证。

6.根据权利要求4所述的方法，其中所述多个探针延伸产物的所述序列映射到基因组或转录组的坐标以验证预期探针退火和延伸。

7.根据权利要求5所述的方法，其中所述多个探针延伸产物的所述序列与探针数据库的参考拷贝比对以验证预期探针退火和延伸。

8.根据权利要求4所述的方法，其中所述反向读段包含所述探针标靶区。

9.根据权利要求4所述的方法，其中所述正向读段包含所述探针标靶区。

10.根据权利要求6所述的方法，其中正向读段映射坐标与所述n-随机碱基序列的组合确定各探针延伸产物的PCR重复。

11.根据权利要求10所述的方法，其中具有相同正向读段坐标和相同n-随机碱基序列的序列鉴定为重复，合并并且以单个特定核酸分子形式计数。

12.根据权利要求10所述的方法，其中具有相同正向读段坐标但不同n-随机碱基序列的序列各以相异的特定核酸分子形式计数。

13.根据权利要求4所述的方法，其中正向读段映射坐标与所述n-随机碱基序列的组合鉴定特定核酸分子。

14.根据权利要求13所述的方法，其中具有相同正向读段坐标和相同n-随机碱基序列的序列鉴定为重复，合并并且以单个特定核酸分子形式计数。

15.根据权利要求13所述的方法，其中具有相同正向读段坐标但不同n-随机碱基序列的序列各以相异的特定核酸分子形式计数。

16.根据权利要求13所述的方法，其中对所述正向读段与对应反向读段进行双末端比对。

17.根据权利要求11所述的方法，其中在重复合并之后，针对各探针序列计数的反向读段的数目产生代表所述多个特定核酸内的各初始特定核酸分子的分子数目的值。

18.根据权利要求14所述的方法，其中在重复合并之后，针对各探针序列计数的反向读段的数目产生代表所述多个特定核酸内的各初始特定核酸分子的分子数目的值。

19.根据权利要求11所述的方法，其中在重复合并之后，针对各探针序列计数的正向读段的数目产生代表所述多个特定核酸内的各初始特定核酸分子的分子数目的值。

20.根据权利要求14所述的方法，其中在重复合并之后，针对各探针序列计数的正向读段的数目产生代表所述多个特定核酸内的各初始特定核酸分子的分子数目的值。

21.根据权利要求12所述的方法，其中针对各探针序列计数的反向读段的数目产生代表所述多个特定核酸内的各初始特定核酸分子的分子数目的值。

22.根据权利要求14所述的方法，其中针对各探针序列计数的反向读段的数目产生代表所述多个特定核酸内的各初始特定核酸分子的分子数目的值。

23.根据权利要求1或2所述的方法，其中所述探针通过聚合酶延伸。

24.根据权利要求23所述的方法，其中所述聚合酶选自由以下组成的群组：DNA聚合酶、RNA聚合酶或逆转录酶。

25.根据权利要求4所述的方法，其中在附接所述第二衔接子之后扩增所述探针延伸产物。

26.根据权利要求4所述的方法，其中在添加所述第二衔接子之前所述探针延伸产物用限制性核酸内切酶处理或经历末端修复。

27.根据权利要求26所述的方法，其中所述末端修复为钝端修复。

28.根据权利要求25所述的方法，其中扩增所述探针延伸产物进一步包含将流动细胞序列连接到所述扩增产物的各端，其中所述流动细胞序列是可被用于测序所述探针延伸产物的序列。

29.根据权利要求27所述的方法，其中所述经限制性核酸内切酶处理的探针延伸产物产生具有共用端的正向读段。

30.根据权利要求29所述的方法，其中所述多个探针延伸产物的所述序列映射到基因组或转录组的坐标以验证预期探针退火和延伸。

31.根据权利要求30所述的方法，其中所述多个探针延伸产物的所述序列与探针数据库的参考拷贝比对以验证预期探针退火。

32.根据权利要求31所述的方法，其中所述正向读段映射坐标与所述n-随机碱基序列的组合确定各探针延伸产物的PCR重复。

33.根据权利要求32所述的方法，其中具有相同正向读段坐标和相同n-随机碱基序列的序列鉴定为重复，合并并且以单个特定核酸分子形式计数。

34.根据权利要求29所述的方法，其中所述多个探针延伸产物的所述序列与探针数据库的参考拷贝比对以验证预期探针退火。

35.根据权利要求30所述的方法，其中将反向读段序列根据其代表的探针序列来分组和计数，其中代表各探针的次数为所述特定核酸分子存在于最初样品中的次数的量度。

36.根据权利要求31所述的方法，其中将正向读段序列根据其代表的探针序列来分组和计数，其中代表各探针的次数为所述特定核酸分子存在于最初样品中的次数的量度。

37.根据权利要求4所述的方法，其中所述正向读段包含所述特定核酸序列的至少一部分。

38.根据权利要求4所述的方法，其中所述正向读段包含所述特定核酸序列的至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、或至少25个碱基。

39.根据权利要求4所述的方法，其中所述第二衔接序列包含以下中的至少一者：正向读段引发位点、反向读段引发位点和连接序列，及其任何组合。

40.根据权利要求1或2所述的方法，其中所述第二衔接序列包含以下中的至少一者：索引序列引发位点、索引核苷酸序列、n-随机碱基序列、正向读段引发位点、反向读段引发位点，及其任何组合。

41.根据权利要求1或2所述的方法，其中所述第一衔接序列包含以下中的至少一者：正向读段引发位点、反向读段引发位点和连接序列，及其任何组合。

42.根据权利要求1或2所述的方法，其中5'第一衔接子为各探针延伸产物所共用。

43.根据权利要求4所述的方法，其中所述索引读段包含索引核苷酸序列和所述n-随机碱基序列的至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、或至少15个碱基。

44.根据权利要求4所述的方法，其中所述索引读段包含所述n-随机碱基序列和所述索引核苷酸序列的至少4、至少5、至少6、至少7、至少8、至少9、或至少10个碱基。

45.根据权利要求4所述的方法，其中所述索引读段包含所述n-随机碱基序列的至少4、至少5、至少6、至少7、至少8、至少9或至少10个碱基。

46.根据权利要求4所述的方法，其中所述索引读段包含所述n-随机碱基序列和所述索引核苷酸序列的至少4、至少5、至少6、至少7、至少8、至少9或至少10个碱基。

47.根据权利要求4所述的方法，其中所述n-随机碱基序列包含至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9或至少10个核苷酸。

48.根据权利要求40所述的方法，其中所述n-随机碱基序列包含至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9或至少10个核苷酸。

49.根据权利要求4所述的方法，其中所述索引核苷酸序列进一步包含条形码序列。

50.根据权利要求40所述的方法，其中所述索引核苷酸序列进一步包含条形码序列。

51.根据权利要求4所述的方法，其中所述反向读段包含探针标靶区序列和一部分所述特定核酸序列中的至少一者。

52.根据权利要求51所述的方法，其中所述反向读段包含探针序列的至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55或至少60个碱基。

53.根据权利要求51所述的方法，其中所述反向读段包含在所述探针序列的3'处的特定核酸序列的至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15或至少20个碱基。