CN111032882A - 解决扩增反应中低效的方法和组合物 - Google Patents

解决扩增反应中低效的方法和组合物 Download PDF

Info

Publication number
CN111032882A
CN111032882A CN201880053783.6A CN201880053783A CN111032882A CN 111032882 A CN111032882 A CN 111032882A CN 201880053783 A CN201880053783 A CN 201880053783A CN 111032882 A CN111032882 A CN 111032882A
Authority
CN
China
Prior art keywords
primers
primer
qcs
sequence
nucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880053783.6A
Other languages
English (en)
Inventor
J-M·贝尔顿
J·F·施莱辛格
S·马纳科
A·G·杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Publication of CN111032882A publication Critical patent/CN111032882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6848Nucleic acid amplification reactions characterised by the means for preventing contamination or increasing the specificity or sensitivity of an amplification reaction
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof

Abstract

减少扩增反应中扩增偏倚和引物二聚体形成和在单个反应中从样品扩增多个靶多核苷酸并对靶多核苷酸测序的方法和系统,其中样品可以包括法医样品并且其中靶多核苷酸可以包括身份信息告知性或祖先信息告知性标记、短串联重复序列(STR)和单核苷酸多态性(SNP)。确定核苷酸间隔区序列以破坏引物二聚体形成的方法可以包括:接收引物序列集合;确定引物序列的接头序列和基因特异性部分之间的多个候选间隔区,确定的多个候选间隔区包含破坏引物序列集合的序列之间稳定相互作用的序列;对延伸序列中符合稳定相互作用预定阈值的候选间隔区排序;和输出符合预定阈值的定序间隔区集合。

Description

解决扩增反应中低效的方法和组合物
相关申请的交叉引用
本申请要求2017年6月20日提交的美国临时专利申请号62/522,543的优先权,所述文献的内容内容通过引用方式完整并入本文。
序列表
本申请含有已经通过电子方式以ASCII格式提交并因而通过引用方式完整并入的序列表。2018年6月7日创建的所述ASCII拷贝命名为IP-1448-PCT_SL.txt并且大小为121,820比特。
背景技术
在扩增反应例如聚合酶链反应或PCR反应期间,可向反应中引入偏倚。例如,某些扩增引物可能彼此相互作用,导致引物二聚体形成。引物二聚体因为彼此杂交而非与其靶序列杂交的引物共有的互补碱基而形成。引物二聚体也将在扩增反应期间扩增,因而竞争扩增试剂,并在最差情况场景下,抑制靶的扩增。定量PCR或qPCR期间引物二聚体形成时,这将大大影响运行这些类型的扩增反应时尽力寻求的准确度。
一些引物可能与它们靶向的序列并非100%同源,例如在引物和它在核酸序列上结合的位置之间存在一个或多个序列错配。由于扩增效率依赖序列,错配可能造成偏倚扩增并且在靶扩增中导致移向甚至不以可检测方式扩增的靶点。从而,扩增偏倚可能大大影响扩增反应的准确度。
通常在分析犯罪现场采集的样品时或为确定个体群体的DNA图谱进行DNA剖析。传统的DNA剖析方法涉及大小分离技术,如在电泳系统上区分并比较含有STR或ITR的基因组片段。最近,已经引入涉及从样品PCR扩增DNA,随后进行下一代测序的DNA剖析方法,如存在于PCT专利公开号WO2015/126766中。当处理多重扩增产物,每种产物代表一种靶时,生成可测序的文库可能非常复杂。例如,如果需要探查200个靶,则发生200个靶的扩增,每个扩增需要一个引物集合,从而总计有400个不同的扩增引物。这种复杂系统可能导致不良反应,所述不良反应可能降低扩增反应的效率并因此降低所得文库用于测序的效率。另外,不良反应可能导致所需的靶最低限度存在或根本不扩增,因此对探查至关重要的靶可能丢失或降低到结果不可信的程度。当扩增反应(如上文描述用于DNA剖析的那种扩增反应)中存在巨大数目引物时可能发生的不良反应之一是形成引物二聚体。
以下公开描述了纠正或最小化可能导致扩增反应(例如复杂的多重扩增反应)的引物二聚体不良反应的方法和组合物。纠正或最小化引物二聚体的结果提供了更高效和稳健的靶特异性扩增系统,例如DNA法医鉴定、指纹分析需求、qPCR和其中需要高程度扩增准确性的其他扩增反应。
发明简述
在附图和下文描述中叙述一个或多个实施方案的详细内容。其他特征、目的和优点将从说明书、附图和权利要求显而易见。
本公开涉及减少扩增反应中扩增偏倚和引物二聚体形成的方法、组合物和试剂盒。本文还提供在单个反应中从样品扩增多个靶多核苷酸并对靶多核苷酸测序的方法。
本公开提供一种寡核苷酸组合物,其包含多个引物,每个引物包含靶核酸特异性序列(TS)并且其中多个引物包含两个或更多个选自以下的质量控制序列(QCS):第一QCS(QCS1),其中每个核酸位置完全随机化;第二QCS(QCS2),其中一个或多个核酸位置被部分随机化;第三QCS(QCS3),其中一个或多个核酸位置是固定的;第四QCS(QCS4),其中全部核酸位置均是固定的;第五QCS(QCS5),其中一个或多个核酸位置完全随机化并且一个或多个核酸位置被部分随机化;第六QCS(QCS6),其中一个或多个核酸位置完全随机化并且一个或多个核酸位置是固定的;第七QCS(QCS7),其中一个或多个核酸位置被部分随机化并且一个或多个核酸位置是固定的;和第八QCS(QCS8),其中一个或多个核酸位置完全随机化,一个或多个核酸位置被部分随机化,并且一个或多个核酸位置是固定的。
本公开还提供一种寡核苷酸组合物,其中多个引物包含多个引物包含3、4、5、6、7或8个选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS,其中一个或多个引物的QCS侧翼是有一个或两个延伸序列(ES)。
在一些实施方案中,该组合物还在QCS的5'末端上包含接头序列(AS)。本公开的组合物还包含延伸序列(ES)在AS和QCS之间或在QCS和靶序列(TS)之间的一个或多个引物。
本公开还提供一种寡核苷酸组合物,其中ES是固定的序列,所述固定的序列包含1至10个碱基之间的序列。在一个优选的实施方案中,ES包含2至5个碱基之间的序列。
本公开还提供一种寡核苷酸组合物,其中多个引物包含约4个至约5000个之间的引物。在一个优选的实施方案中,多个引物包含约4个至约550个之间的引物。
本公开还提供一种寡核苷酸组合物,其中多个引物中对的至少一个正向引物包含选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS,并且其中多个引物中对的至少一个反向引物包含选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS。
本公开还提供一种装配寡核苷酸组合物的方法,所述方法包括:
a)提供包含多个引物的初始引物汇集物,其中每个引物包括靶序列;
b)使用初始引物汇集物从样品扩增靶多核苷酸;
c)鉴定初始引物汇集物中的引物亚组,其中扩增产物导致不精确的等位比率或引物二聚体形成增加;
d)修饰引物亚组中的一个或多个引物,其中修饰包括修饰一个或多个引物以包含质量控制序列(QCS)和修饰一个或多个QCS以包含一个或多个延伸序列(ES);
e)用修饰的引物重复步骤b-d直至扩增产物导致准确的等位比率或引物二聚体形成减少,因而产生优化的引物汇集物。
本公开还提供分析基因组DNA样品的试剂盒,所述试剂盒包含优化的寡核苷酸引物汇集物。在一个优选的实施方案中,DNA样品是法医样品。
一种确定核苷酸间隔区序列以破坏引物二聚体形成的计算机实施方法可以包括:接收引物序列集合;使用至少一个微处理器,确定引物序列的接头序列和基因特异性部分之间的多个候选间隔区,确定的多个候选间隔区包含破坏引物序列集合的各序列之间稳定相互作用的序列;使用至少一个微处理器,计算延伸序列中符合稳定相互作用预定阈值的候选间隔区集合;和输出符合预定阈值的定序间隔区集合。
附图简述
图1显示QCS标记的引物在多重PCR反应中的用途,尽管有PCR偏倚,所述多重PCR反应产生了更有正常等位基因比率特征的扩增子。
图2显示QCS介导的含有QCS的引物发生引物二聚化的示例性实例。图2按出现顺序分别公开了SEQ ID NOS 449-456。
图3显示为减少QCS介导的引物二聚化对并入QCS序列的引物的示例性修饰。A)因随机QCS序列并入扩增子产生的未修饰的引物二聚体(SEQ ID NOS 457-458),B)减少QCS介导的引物二聚体形成的一个修饰实例(SEQ ID NOS 459-460),C)减少QCS介导的引物二聚体形成第二修饰实例(SEQ ID NOS 461-462),和D)组合第一和第二修饰以减少基于QCS的引物二聚体形成的实例(SEQ ID NOS 463-464)。“N”可以是任何核苷酸碱基(例如,A、C、T、G或U),“H”可以是A、C或T,“B”可以是C、T或G,“D”可以是A、G或T。
图4显示了说明装配本文提供的寡核苷酸组合物的示例性迭代过程的流程图。
图5显示了说明装配本文提供的寡核苷酸组合物的示例性并行过程的流程图。
图6例示A)当釉原蛋白正向引物已经纳入随机QCS并且与rs1805009反向引物(SEQID NOS 465-466)形成引物二聚体时引物之间的相互作用和B)当修饰的QCS序列和ES序列纳入到釉原蛋白正向引物(SEQ ID NOS 467-468)时对引物二聚体的破坏。
图7显示文库制备物的相对百分数(Y轴),所述文库制备物是因A)一个或多个含有QCS的随机引物(左栏)和具有QCS序列和延伸序列的引物(右栏)所致的引物二聚体,和B)相对于除延伸序列之外的QCS序列(右栏),仅使用QCS序列来破坏引物二聚体时(左栏)导致比对的序列读段(Y轴)的文库的百分数。
图8显示使用低输入量DNA制备的文库的毛细管电泳法迹线。
图9显示使用低引物浓度制备的文库的毛细管电泳法迹线。
图10展示关于如何确定何时应当在任何引物序列中引物的基因组序列侧上纳入延伸序列或ES(gES)的示例性决策树。
图11展示关于如何确定何时应当在任何引物序列中引物的接头序列侧上纳入延伸序列或ES(aES)的示例性决策树。
图12显示根据本发明的实施方案确定延伸序列的示例性流程图。
阐述了本发明的附加特征、优点和实施方案或它们从考虑以下发明详述、附图和权利要求中显而易见。另外,应当理解,以上发明概述和以下发明详述均是实例并且意在提供进一步解释,而不限制要求保护的本发明范围。
发明详述
下文详细讨论本发明的一些实施方案。在描述实施方案时,出于清晰目的,使用下位术语。但是,本发明不意在限于如此选择的下位术语。相关领域的技术人员会认识到,在不脱离本发明的广泛构思情况下,可以使用其他等同组分,并且可以开发其他方法。本说明书中任何地方(包括发明背景和发明详述部分)援引的全部参考文献均通过引用的方式并入,如同每份参考文献已经单独并入那样。
几种生物学应用涉及扩增群体内部的核酸分子。对于这类应用,可能有用的是,增加在单个扩增反应中可以从群体选择性扩增的靶的总数。一般通过使用一个或多个可以与特定靶核酸分子杂交或促进其扩增的引物实现这种扩增。这种扩增可能因形成扩增人造物如引物二聚体等而复杂化。形成这类扩增人造物(本文也称作非特异性扩增产物)可以消耗关键的扩增试剂,例如,核苷酸、聚合酶、引物等。另外,这类人造物可能往往相对于预期产物具有较短长度并且可能比预期产物更高效扩增并主导反应输出物。扩增反应中这类人造物的形成,甚至当仅使用单对引物时的形成,可能使下游应用复杂化,如qPCR、克隆、基因表达分析和用于下一代测序的样品制备。在一些下游应用中,包括几种下一代测序方法,这个问题可以因要求实施第二扩增步骤加剧,因为人造物可以在第二扩增期间进一步扩增。
多重PCR反应中扩增的核酸分子可以在实施或不实施进一步纯化或操作的情况下用于许多下游分析或测定法。例如,以足够产率获得时,多重PCR反应的产物(扩增子)可以用于单核苷酸多态性(SNP)分析、基因分型、拷贝数变异分析、表观遗传分析、基因表达分析、杂交阵列、基因突变分析,包括但不限于疾病状态检测、预后和/或诊断、检测和分析罕见或低频等位基因突变;核酸测序,包括但不限于从头测序或定向再测序等。多重靶扩增用于许多分子生物学应用中,包括但不限于检测遗传性疾病、先天性病症、与癌症相关的突变检测、新生儿病症、病原体鉴定、单个细胞基因组学、法医科学和人身份识别。
对DNA指纹法利用下一代测序法(NGS)技术的优点和强度之一是可以同时探查许多靶。标准DNA指纹凝胶电泳系统在其使用不同荧光标签解析大小不同的多个法医DNA靶的能力方面有限,它还不能区分单核苷酸变化。下一代测序方法不如此受限并且无论扩增子靶大小是什么,均可以获得序列并鉴定靶,无需荧光标签,这包括单核苷酸变化。从而,NGS法医DNA指纹技术可以同时探查数百个靶,明显不同或超越凝胶电泳系统,所述凝胶电泳系统在目前可以仅区分少许靶,这些靶全部是STR靶或ITR靶。下一代测序DNA法医技术可以鉴定可能与DNA指纹的族裔、祖先和表型类型有关的单核苷酸多态性或SNP。例如,不仅NGSDNA法医方法可以鉴定人与人或动物与动物间不同的STR和ITR,SNP鉴定还可以提供对某人的祖先和族裔遗传性、其眼睛颜色、毛发颜色等的深入了解。这种类型的强有力解析无法用当前的凝胶电泳系统进行。
但是,巨大的技术进展非常罕见地干净整洁。例如,为了对数百个DNA法医靶测序,经常不得不产生DNA片段文库并且正是对靶文库才测序。一种文库制备方法是扩增靶,例如通过聚合酶链反应或PCR。聚合酶链反应导致靶拷贝指数式扩增,因而提供许多拷贝用于测序。某个相同区域的多重序列提供了稳健、可重复的测序输出,所述测序输出可以在DNA数据建库、刑事案件等中可信地使用。
PCR方法有其自身难题,尤其可能同时扩增数十或数百个靶时。例如,对于产生参差长度扩增子的多重扩增反应,可能发生扩增偏倚,其中长扩增子对短扩增子的正常比率可能如此偏斜,从而可以有利于更长扩增子或更短扩增子,因而使预期的扩增子比率偏斜。从而,偏倚可能影响下游测序,因为它将提供偏斜的等位靶扩增子比率。
另一个难题是称作引物二聚性的引物与引物结合的相互作用,其中甚至在正常扩增条件下,例如一个扩增反应中仅存在一个引物集合或一些引物集合时,所述相互作用可以发生。当成对引物因为互补序列而彼此退火或来自不同引物对的引物彼此退火时,引物二聚体出现,因而使这些引物都一起脱离扩增反应或它们被延伸并且自身变成不想要的模板。这些不良的引物二聚体反应可以显著影响PCR反应和用于测序的所得下游文库靶汇集物。不想要的引物二聚体可能变成不想要的模板,引物二聚体可能导致所需的靶不扩增或最小限度地扩增等。
当宝贵的试剂资源们用来对脱靶DNA片段测序时,所有这些不想要的事件均消耗这些资源、消耗宝贵时间并且可以导致完全遗失或掉落的特定靶或靶序列的少量测序用读段的数目低。
提供本公开中描述的方法和组合物,以最小化或消除引物二聚性,因而提高效率和样品测序的读段可信度,因为任何脱靶测序读段浪费试剂、浪费时间,并且更重要地可能导致未足够深地对靶测序或完全对其未测序。
本文提供从样品扩增多个靶多核苷酸并对其测序的寡核苷酸组合物和方法。还提供装配本文提供的寡核苷酸组合物的方法。
本文提供的组合物和方法可用于许多分子生物学应用中,包括但不限于检测遗传性疾病、先天性病症、与癌症相关的突变检测、新生儿病症、病原体鉴定、单个细胞基因组学、法医科学和人身份识别。在一些实施方案中,本文提供的组合物和方法用于执行DNA剖析分析,例如,目的是确定某人的身份或例如在亲子鉴定或祖先相关研究的背景下确定家族关系。在一些实施方案中,本文提供的组合物和方法例如可以作为法医方法用来分析来自犯罪现场的DNA样品。组合物和方法不限于人类DNA剖析,还可以同等地适用于鉴定非人类动物,例如马、犬、牛、猪、猫和其他动物的谱系和祖先,其中谱系和亲缘关系确定可能有用。另外,这些组合物和方法可以同等地适用于鉴定作物或植物物种的谱系、祖先等。本文的组合物和方法因此可能适用于其中可能需要确定谱系和祖先的人类、非人类动物、植物等。另外,本文所述的组合物和方法可以用于引物二聚体反应带来问题的任何场合,如用于扩增癌相关或疾病相关靶或扩增任何种类的靶中。
定义
除非内容另外清楚地说明,否则如本说明书及所附权利要求书中所用,单数形式“一个(a)”、“一种(an)”和“该(the)”包括复数指称。因而,例如,对“生物标记物”的称谓包括两个或多个等生物标记物的混合物。
术语“约”,特别地提到给定量时,意在涵盖加或减百分之五的偏差。
如本文所用,术语“包括”、“包含”、“纳入了”、“纳入”、“含有”、“含有”及其任何变型,意在覆盖非排斥性包含,从而包括或含有要素或要素系列的过程、方法、方法表征产品或物质组合物并非仅包含这些要素,还可以包含在这种过程、方法、方法表征产品或物质组合物中并未明确列示或前者固有的其他要素。
如本文所用,“扩增了”、“扩增”或“扩增反应”及其衍生物,一般指籍此将核酸分子(称作模板核酸分子)的至少一部分复制或拷贝成至少一个额外核酸分子的任何作用或过程。额外核酸分子任选地包含与模板核酸分子的至少某部分基本上相同或基本上互补的序列。模板核酸分子可以是单链或双链的并且额外的核酸分子可以独立地是单链或双链的。扩增任选地包括核酸分子的线性或指数复制。在一些实施方案中,可以使用等温条件进行这类扩增;在其他实施方案中,这类扩增可以包括热循环。在一些实施方案中,扩增是多重扩增,所述多重扩增包括在单个扩增反应中同时扩增多个靶序列。在一些实施方案中,“扩增”包括基于单独或组合的核酸,扩增DNA和RNA的至少某部分。扩增反应可以包括本领域普通技术人员已知的任何扩增过程。
在一些实施方案中,扩增反应包括聚合酶链反应(PCR)。如本文所用,术语“聚合酶链反应”(“PCR”)指美国专利号.4,683,195和4,683,202中描述的方法,所述文献因而通过引用的方式并入,所述专利描述一种无克隆或纯化情况下,增加基因组DNA混合物中目的多核苷酸的区段的浓度的方法。
如本文所用,“多重PCR”或“多重扩增”指使用至少一种靶特异性引物,选择性和非随机扩增样品内部的两个或更多个靶序列。在一些实施方案中,如此进行多重扩增,从而在单个反应容器内扩增一些或全部靶序列。给定多重扩增的“重度”或“重性”通常指在单个多重扩增期间扩增的不同靶特异性序列的数目。在一些实施方案中,重度可以是约12重、24重、48重、96重、192重、384重、768重、1536重、3072重、6144重或更高重。
如本文所用,“扩增条件”及其衍生物,通常指适于扩增一个或多个核酸序列的条件。这种扩增可以是线性的或指数式的。在一些实施方案中,扩增条件可以包括等温条件或备选地可以包括热循环条件,或等温条件和热循环条件的组合。通常,扩增条件包括用于扩增或核酸合成的催化剂,例如聚合酶;与待扩增核酸拥有某种程度互补性的引物;和一旦与核酸杂交则促进引物延伸的核苷酸,如脱氧核糖核苷酸三磷酸(dNTP)。扩增条件可以需要引物与核酸杂交或退火、引物延伸和其中延伸的引物与发生扩增的核酸序列分离的变性步骤。一般,但不必然地,扩增条件可以包括热循环;在一些实施方案中,扩增条件包括其中重复退火、延伸和分离步骤的多个循环。一般,扩增条件包括阳离子如Mg++或Mn++并且还可以包括多种离子强度调节物。
如本文所用,“聚合酶”及其衍生物,通常指可以催化核苷酸(包括其类似物)聚合成核酸链的任何酶。一般但不必然地,这类核苷酸聚合可以按模板依赖性方式出现。这类聚合酶可以包括而不限于天然存在的聚合物酶及其任何亚基和截短体、突变体聚合酶、变体聚合酶、重组体和融合物或否则工程化的聚合酶、化学修饰的聚合酶、合成性分子或组合体,及其保留催化这类聚合的能力的任何类似物、衍生物或其片段。任选地,聚合酶可以是包含一个或多个突变的突变体聚合酶,所述突变涵盖将一个或多个氨基酸用其他氨基酸替换、插入或从聚合酶缺失一个或多个氨基酸或连接两种或更多种聚合酶的部分。一般,聚合酶包含核苷酸结合和/或核苷酸聚合的催化可以在此发生的一个或多个活性部位。一些示例性聚合酶包括而不限于DNA聚合酶和RNA聚合酶。如本文所用,术语“聚合酶”及其变体还指包含彼此连接的至少两个部分的融合蛋白,其中第一部分包含可以催化核苷酸聚合入核酸链的肽并且与包含第二多肽的第二部分连接。在一些实施方案中,可以任选地再激活聚合酶,例如通过使用热、化学品或向反应混合物再加入新数量的聚合酶。在一些实施方案中,聚合酶可以包括热启动聚合酶或可以任选地再激活的基于适配体的聚合酶。
如本文所用,术语“引物”及其衍生物通常指可以与靶目的序列杂交的任何多核苷酸。一般,引物作为可以由聚合酶在其上聚合的核苷酸的底物发挥作用;然而,在一些实施方案中,引物可以并入合成的核酸链中并提供这样的位点,其中另一个引物与所述位点杂交以引发与合成的核酸分子互补的新链合成。引物可以由核苷酸或其类似物的任何组合组成。在一些实施方案中,引物是单链寡核苷酸或多核苷酸。术语“多核苷酸”和“寡核苷酸”在本文中可互换地用来指聚合物形式的任何长度的核苷酸,并且可以包含核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。
如本文所用,术语“质量控制序列”或“QCS”指这样的核酸序列,其在引物中插入并且允许来自(例如,在多重PCR中)靶目的多核苷酸的扩增产物的丰度增加。向一个或多个引物汇集物的引物引入QCS可以用于确定样品中靶多核苷酸的准确等位基因比率,甚至在其中扩增反应(例如,多重PCR)偏倚以过度扩增某些等位基因子集的情况下也是如此。引入QCS还可以例如在引物汇集物溶液中或多重PCR反应过程中减少或消除引物二聚体形成。另外,“质量控制序列”指插入引物中的核酸序列,因而使该序列并入扩增产物中,旨在改进从测序PCR产物定量原始模板分子丰度的准确度。
如本文所用,术语“QCS引物”指包含QCS序列的引物。在一些实施方案中,QCS引物能够扩增靶目的多核苷酸至可检出水平,而缺少QCS、而其它基本上与QCS引物相同的引物不能够扩增靶目的多核苷酸至可检出水平,或仅能够扩增靶目的多核苷酸至很低水平,例如,扩增至与分析靶多核苷酸的测定法(例如,qPCR)的检测限接近的水平。并入引物中的QCS可以例如包括完全随机化、部分随机化或固定的序列,或QCS可以在其序列中具有完全随机化、部分随机化或固定的核酸位置的组合。在一些实施方案中,在其序列中包含一个或多个部分随机化或固定位置的QCS引物或其组合能够扩增靶目的多核苷酸至可检出水平,而包含完全随机化QCS的其它基本上相同的引物不能够扩增靶目的多核苷酸至可检出水平,或仅能够扩增靶目的多核苷酸至很低水平,例如,扩增至与分析靶多核苷酸的测定法的检测限接近的水平。
QCS通常不包含这样的序列,所述序列是接头序列、通用测序引物(例如,
Figure BDA0002386931700000091
的P5或P7引物)或引物的靶多核苷酸的序列的部分或与之互补。在一些实施方案中,QCS引物的QCS或引物对中两个QCS的组合可以包括如此多的可能序列,从而例如,在使用QCS引物扩增靶多核苷酸期间,样品中相同靶多核苷酸的不同拷贝不太可能被相同的QCS序列标记。例如,样品可以包含某基因组或靶目的多核苷酸的约100个拷贝并且QCS引物对中每个引物的QCS序列具有五个完全随机化的位置和一个固定的位置。在这个实例中,QCS引物对可以包含45*2=1,048,575个可能的QCS序列,并且例如,在2个PCR循环后,样品内100个靶目的多核苷酸中任意两者共有相同QCS序列的概率是>1:10,000。
如本文所用,术语“延伸序列”或“ES”指向QCS引物的QCS添加以进一步改善引物扩增(例如,在多重PCR中)靶目的多核苷酸的能力的序列。例如,在一些实验结果中,引物中的QCS还促成引物二聚体形成。向QCS引物添加ES例如可以减少例如引物汇集物溶液中或多重PCR反应过程中的引物二聚体形成。在一些实施方案中,QCS-ES引物能够扩增靶目的多核苷酸至可检出水平,而缺少ES、而其它基本上与QCS-ES引物相同的QCS引物不能够扩增靶目的多核苷酸至可检出水平,或仅能够扩增靶目的多核苷酸至很低水平,例如,扩增至与分析靶多核苷酸的测定法(例如,qPCR)的检测限接近的水平。QCS-ES引物中的ES通常是固定的序列。在一些实施方案中,ES短于QCS-ES引物中的QCS。ES通常不包含这样的序列,所述序列是接头序列、通用测序引物(例如,
Figure BDA0002386931700000092
的P5或P7引物)或引物的靶多核苷酸的序列的部分或与之互补。
如本文所用,术语“多个”指具有两个或更多个、如两个或更多个引物或其他所提及分子的群体。在一些实施方案中,多个分子的两个或更多个分子是相同的分子。例如,多个引物可以包含两个或更多个具有相同核酸序列的引物。在一些实施方案中,多个分子的两者或更多者是不同的分子。例如,多个引物可以包含两个或更多个具有不同核酸序列的引物。多个包括2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90或100个或更多个不同成员。多个还可以包括200、300、400、500、1000、5000、10000、50000、1x105、2x105、3x105、4x105、5x105、6x105、7x105、8x105、9x105、1x106、2x106、3x106、4x106、5x106、6x106、7x106、8x106、9x106或1x107个或更多个不同分子。多个包括以上示例性多个数字之间的全部整数。
如本文所用,术语“靶多核苷酸”意指作为分析或动作的对象的多核苷酸。分析或动作包括使多核苷酸经历复制、扩增、测序和/或其他的核酸探查程序。
如本文所用,当提到引物或其他寡核苷酸使用时,术语“靶特异性”或“靶核酸特异性”或“TS”意指这样的引物或其他寡核苷酸,其包含对靶多核苷酸序列特异的核苷酸序列,即,能够与靶多核苷酸的鉴定用区域选择性退火的核苷酸序列。
如本文所用,术语“接头”或“接头序列”及其衍生物指附着于另一个核酸序列的核酸序列。例如,在本公开中,正向引物和反向引物用于靶序列的扩增中。这些引物包含靶特异性序列(TS)、任选地具有或没有一个或多个毗邻延伸序列(ES)的质量控制序列(QCS)和接头序列。接头序列不做要求,但是在本文实施例中接头序列存在。接头基本上与样品中存在的任何靶序列的3’末端或5'末端不互补。合适的长度处于约10-100个核苷酸、优选地约15-50个核苷酸范围内。接头可以包含任何的核苷酸或核酸组合。在一些方面,接头可以包含一个或多个切割基团。接头可以包含这样的序列,其与用于扩增核酸的引物(如通用引物)的至少一部分基本上相同或基本上互补。接头可以包含一个或多个辅助下游捕获、计数、差错更正、样品鉴定的条形码或标签或对特定测序平台特异的序列。本文所述的多个引物的一个或多个引物包含接头序列(AS)。在一些实施方案中,AS位于质量控制序列的5'末端上。可以在Illumina的FORENSEQ DNA特征标识制备参考指南中找到示例性接头序列。本公开不限于可以并入寡核苷酸的接头的类型。
如本文所用,“质量控制序列1”或“QCS1”指其中每个核酸位置完全随机化的核酸序列。完全随机化的核酸位置可以例如包含四个天然存在的核酸碱基腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)或胸腺嘧啶(T)中的任一个。与包含A、G、C和T的5聚QCS1连接的TS可以例如与45=1,024个可能的QCS1序列的任一者连接。在一些实施方案中,完全随机化的核酸位置可以包含这样的核酸,其包含天然存在的或合成的附加核酸碱基,如idenosine、尿嘧啶等。在一些实施方案中,完全随机化的核酸位置中的不同核酸可以按大致等摩尔比率(例如,对于A、G、C和T,1:1:1:1比率)存在。在一些实施方案中,完全随机化的核酸位置中不同核酸的比率可以与等摩尔比率不同。例如,在一些实施方案中,完全随机化的核酸位置中的一个或多个核酸可以比完全随机化的核酸位置中的一个或多个其他核酸更丰富(例如,对于A、G、C和T,2:1:1:1比率)。
如本文所用,“质量控制序列2”或“QCS2”指其中一个或多个核酸位置被部分随机化的核酸序列。部分随机化的核酸位置可以包含在完全随机化的位置(如QCS1中完全随机化的位置)中存在的核酸的子集。在一些实施方案中,部分随机化的位置包含这样的核酸,其包含核酸碱基A、G、C、T中两者或三者。例如,与其中一个位置被部分随机化并且包含例如A或G并且其中剩余四个位置对2*4^4=512个可能的QCS2序列中任一者完全随机化的5聚QCS2连接的TS。当一个位置仅部分随机化时,其中部分随机碱基占据两个(而非四个)可能性之一:2*4^4=2*4*4*4*4=512。
在一些实施方案中,部分随机化的位置可以是A或G、A或C、A或T、G或C、G或T、或C或T。在一些实施方案中,部分随机化的位置可以是A、G或C;A、G或T;A、C或T;或G、C或T。在一些实施方案中,QCS2中的两个或更多个(但并不全部)核酸位置被部分随机化。QCS2中两个或更多个部分随机化的核酸位置可以包含相同的核酸组合或不同的核酸组合。在一些实施方案中,部分随机化的核酸位置中的不同核酸可以按大致等摩尔比率(例如,对于A、G和C,1:1:1比率)存在。在一些实施方案中,部分随机化的核酸位置中不同核酸的比率可以与等摩尔比率不同。例如,在一些实施方案中,部分随机化的核酸位置中的一个或多个核酸可以比部分随机化的核酸位置中的一个或多个其他核酸更丰富(例如,对于A、G和C,2:1:1比率)。
如本文所用,“质量控制序列3”或“QCS3”指其中一个或多个但并非全部核酸位置固定的核酸序列。固定的核酸位置可以包含A、C、T和G之一。例如,与其中一个位置固定并且其中剩余四个位置完全随机化的5聚QCS3连接的TS,可以与1*4^4=256个可能的QCS3序列的任一者连接。即,此时一个位置彻底固定,其中非随机碱基占据单一预定的可能性:1*4^4=1*4*4*4*4=256。
如本文所用,“质量控制序列4”或“QCS4”指其中全部核酸位置均固定(例如,作为A、G、C或T)的核酸序列。例如,与QCS4连接的TS与仅一个可能的序列连接。
如本文所用,“质量控制序列5”或“QCS5”指其中一个或多个核酸位置完全随机化并且一个或多个核酸位置被部分随机化的核酸序列。QCS5中不同的完全随机化位置可以包含相同的核酸集合(例如,全部位置均包含A、G、C或T)或不同的核酸集合(例如,一个位置包含A、G、C或T,并且另一个位置包含A、G、C或U)。QCS5中不同的部分随机化位置可以包含相同的核酸集合(例如,全部位置均包含A、G或C)或不同的核酸集合(例如,一个位置包含A、G和C,并且另一个位置包含A、C或T)。
如本文所用,“质量控制序列6”或“QCS6”指其中一个或多个核酸位置完全随机化并且一个或多个核酸位置固定的核酸序列。QCS6中不同的完全随机化位置可以包含相同的核酸集合(例如,全部位置均包含A、G、C或T)或不同的核酸集合(例如,一个位置包含A、G、C或T,并且另一个位置包含A、G、C或U)。QCS6中不同的固定核酸位置可以包含相同的核酸(例如,全部位置均是“A”)或不同的核酸(例如,一个位置是“A”并且另一个位置是“G”)。
如本文所用,“质量控制序列7”或“QCS7”指其中一个或多个核酸位置被部分随机化并且一个或多个核酸位置固定的核酸序列。QCS7中不同的部分随机化位置可以包含相同的核酸集合(例如,全部位置均包含A、G或C)或不同的核酸集合(例如,一个位置包含A、G或C,并且另一个位置包含A、G或T)。QCS7中不同的固定核酸位置可以包含相同的核酸(例如,全部位置均是“A”)或不同的核酸(例如,一个位置是“A”并且另一个位置是“G”)。
如本文所用,“质量控制序列8”或“QCS8”指其中一个或多个核酸位置完全随机化、一个或多个核酸位置被部分随机化和一个或多个核酸位置固定的核酸序列。QCS8中不同的完全随机化位置可以包含相同的核酸集合(例如,全部位置均包含A、G、C或T)或不同的核酸集合(例如,一个位置包含A、G、C或T,并且另一个位置包含A、G、C或U)。QCS8中不同的部分随机化位置可以包含相同的核酸集合(例如,全部位置均包含A、G或C)或不同的核酸集合(例如,一个位置包含A、G或C,并且另一个位置包含A、G或T)。QCS7中不同的固定核酸位置可以包含相同的核酸(例如,全部位置均是“A”)或不同的核酸(例如,一个位置是“A”并且另一个位置是“G”)。
下表1比较了QCS的不同可能序列。
表1-质量控制序列
Figure BDA0002386931700000121
如本文所用,“可检出的扩增”指通过本领域已知的核酸检测方法之一如(定量)PCR、凝胶电泳、LC-MS、HPLC、微阵列等可检出的靶多核苷酸扩增水平。在一些实施方案中,可检出的表达包括这样的表达水平,其产生高于测定法背景或阴性对照信号(例如,在核酸不存在时观察到的测定信号)至少两个标准差(2σ)或至少三个标准差(3σ)的测定信号强度(例如,在qPCR测定法中)。
如本文所用,“无可检出扩增”指通过本领域已知的核酸检测方法如(定量)PCR、凝胶电泳、LC-MS、HPLC、微阵列等不可检出的靶多核苷酸扩增水平。在一些实施方案中,“低水平扩增”指这样的表达水平,其产生处于某测定法的背景噪声范围内或与之接近的测定信号强度,例如,比该测定法的平均、中位或平均值背景或阴性对照信号(例如,在核酸不存在时观察的到测定信号)小两个标准差(2σ)的测定信号强度(例如,在qPCR测定法中)。
在一些实施方案中,本公开一般地涉及使用本文公开的一个或多个靶特异性引物或使用本文概述的引物设计标准设计的一个或多个靶特异性引物的人身份识别方法。在一个实施方案中,可以使用本文公开的靶特异性引物中任一者或多者或使用本文概述的引物标准,扩增含有至少一个靶序列的法医样品或人身份识别样品。
靶多核苷酸
在另一个方面,本文提供用于扩增或测序样品中多个靶多核苷酸的方法,所述方法包括使用本文提供的寡核苷酸组合物。
在一些实施方案中,该方法包括提供样品。如本文定义,“样品”及其衍生物按其最广意义使用并且包含疑似包含靶核酸的任何标本、培养物等。样品可以包括含有一种或多种核酸的任何生物学、临床、外科、农业、大气或基于水的标本。该术语还包括任何分离的核酸样品,如基因组DNA(gDNA)、无细胞DNA(cfDNA)、循环肿瘤DNA(ctDNA)、互补性DNA(cDNA)、线粒体DNA(mtDNA)或来自单个细胞的DNA、福尔马林固定石蜡包埋的DNA(FFPE DNA)、互补性DNA(cDNA)、线粒体DNA(mtDNA)或来自单个细胞的DNA。在一些实施方案中,样品包括细胞碎片。在一些实施方案中,样品包括细胞裂解物。
在另一个实施方案中,低分子量核酸包含酶促或机械片段化的DNA。还构思,样品可以来自单一个体、来自遗传相关成员的核酸样品集合、来自遗传不相关成员的核酸样品、来自单一个体如肿瘤样品和正常组织样品的核酸样品(匹配),或来自单一来源的样品,所述单一来源含有两种迥异形式遗传物质,如从母体受试者获得的母源DNA和胎儿DNA,或在含有植物DNA或动物DNA的样品中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可以包括从新生儿获得的核酸,例如,如一般用于新生儿筛查的核酸。
在一些实施方案中,样品可以包含从活检样品、肿瘤、刮擦物、拭子、血液、黏液、尿、血浆、精液、毛发、激光捕获显微切割物、外科切除物和其他临床样品或实验室获得样品的核酸分子。在一些实施方案中,样品可以是流行病学、农业、法医或病理学样品。
在一些实施方案中,样品是哺乳动物样品。在一些实施方案中,样品是人类或猿(例如,黑猩猩、大猩猩、猩猩、长臂猿等)样品。在一些实施方案中,样品来自家畜(例如,猪、羊、牛、马、鸡、火鸡、鱼类等)、宠物(例如,猫、犬、仓鼠、小鼠、大鼠等)或动物模型(例如,转基因小鼠或敲除小鼠)。在另一个实施方案中,样品可以包含从非哺乳动物来源如植物、细菌、病毒或真菌获得的核酸分子。在一些实施方案中,核酸分子的来源可以归档样品或灭绝样品或物种。
在一些实施方案中,样品是体液。在一些实施方案中、体液例如包括而不限于羊水、房水和玻璃体液、胆汁、血清、母乳、脑脊液、耵聍(耳垢)、乳糜、食糜、内淋巴液和外淋巴液、渗出物、粪便、女性射液、胃酸、胃液、淋巴液、黏液(包括鼻引流物和痰)、心包液、腹膜液、胸膜液、脓、炎性分泌物(rheum)、唾液、皮脂(皮肤油)、浆性流体、精液、阴蒂垢、痰、滑液、汗、泪、尿、阴道分泌物和呕吐物。
在一些实施方案中,样品是法医样品。在一些实施方案中,法医样品包含毛发、指甲、刮擦物、拭子(例如,摩擦拭子、pillbox拭子)、绳、污物、织物或纤维等。在一些实施方案中,法医样品于犯罪现场采集。在一些实施方案中,法医样品采集自证人、受害者或嫌疑人。在一个实施方案中,法医样品可以包含从法医研究相关的实验室获得的核酸或包括由执法机构、一种或多种军方服务机构或任何这类人员获得的法医样品。
在一些实施方案中,样品是植物样品。在一些实施方案中,植物样品衍生自植物。在一些实施方案中,植物样品衍生自果实。
在一些实施方案中,该方法包括使样品与本文提供的寡核苷酸组合物接触。
在一些实施方案中,该方法包括使用本文提供的寡核苷酸组合物,例如,通过PCR,从样品扩增一个或多个靶目的多核苷酸。在一些实施方案中,一种或多种靶多核苷酸包含常染色体STR、Y染色体STR或X-染色体STR。在一些实施方案中,一种或多种靶多核苷酸包含身份信息告知性SNP。在一些实施方案中,一种或多种靶多核苷酸包含祖先信息告知性或表型信息告知性SNP。在一些实施方案中,一个或多个靶多核苷酸包含常染色体STR、Y染色体STR或X-染色体STR、身份信息告知性SNP、祖先信息告知性SNP或表型信息告知性SNP。
扩增偏倚
不希望受理论约束,本申请部分地基于以下观察结果:在进行多重PCR以在单个反应中(例如,从基因组DNA样品)扩增多个靶目的多核苷酸时,至少一些靶多核苷酸的扩增可能偏倚,从而PCR产物中靶多核苷酸的比率相对于原始样品中的比率扭曲。例如,在多重PCR中观察到含有某些STR等位基因的靶多核苷酸频繁地过度扩增。样品中一些STR等位基因过度扩增可能产生“不准确的等位基因比率”估计。例如,在多重PCR期间,包含了含有重复序列的其中该重复序列仅重复少数次的区域(短STR)的等位基因扩增多于包含了含有重复序列的其中该重复序列重复大量次数的区域(长STR)的等位基因扩增。相对于未扩增的正常基因组DNA样品中存在的“准确STR等位基因比率”(例如,66.7%短STR等位基因对33.3%长STR等位基因),这种偏倚的PCR扩增导致扩增产物中不准确的STR等位基因比率(例如,90%短STR对10%长STR,如通过计数测序用读段所确定)。
本申请还部分地基于这样的观察结果:随机(未预定)核苷酸序列并入多重PCR反应引物可能能够实现正确的等位基因比率评估,甚至在PCR反应偏倚的情况下也是如此。这类并入PCR引物中的随机核苷酸序列提供了本文提供的“质量控制序列”(QCS)的一个实例。图1显示一个实例,其中随机5聚核苷酸序列(QCS)并入PCR引物对的每个引物中。在多重PCR反应的早期循环期间,QCS标记的引物并入靶核苷酸扩增产物中,从而样品中的每个靶核苷酸可以依据其特定QCS组合来鉴定。可以通过计数PCR产物中的QCS标记物,而非计数测序用读段,确定原始样品中靶目的多核苷酸的准确STR等位基因比率。即便PCR反应中具有短STR序列的靶多核苷酸过度扩增,可以通过计数QCS序列凡例,确定准确的STR等位基因比率。
如果QCS足够长,它可以独特地标记个体引物分子。在实施中,QCS可以设计成具有这样的长度,从而遇到两个具有相同QCS的引物分子的概率小。在实施中,用于PCR的DNA输入物往往仅由基因组样品的数百个拷贝组成。因此,标记具有相同QCS的相同靶多核苷酸的拷贝的概率小于1/约1,000。每原始靶分子QCS序列数目(nQCS)取决于实验方案,然而,通常若正向引物和反向引物各自包含一个5nt随机QCS,则可以生成大约1,048,576个不同的可能QCS并且任何两个随机分子具有相同QCS的概率大约为1/1,000,000。如果我们假设存在300个靶分子,则可以期望(1-1/nQCSn-1)=99.97%的靶分子应当具有独特的QCS。
引物二聚体事件
本申请还部分地基于以下观察结果:PCR引物中的QCS可以促进引物二聚化。图2显示了确实具有QCS的引物中的引物二聚体形成实例。如本领域已知,在PCR引物中不存在QCS的情况下,例如,如果一个引物的序列和另一个引物中的序列部分互补,则引物二聚体可形成。在包含QCS的引物中,QCS本身可以形成核苷酸序列中与另一个引物的序列互补的部分(“互补序列段”),并且因而以QCS介导的方式促进引物二聚化。
可以延伸多重PCR期间形成的引物二聚体,以形成可测序产物。这可以降低从PCR目的产物获得的测序数据的质量和数量。例如,可测序引物二聚体的丰度可以在下一代测序系统中耗尽流通池上的宝贵表面区域并且因而降低可用于对样品中靶目的多核苷酸测序的能力。此外,具有大百分数脱靶读段或质量和数量较低的读段的流动池表面可能降低测序反应中汇集性多份样品的可用性,因为预期某个百分数的测序数据无意义,因而增加总体测序成本。在某些PCR条件下,引物二聚体可能变得如此丰富,或甚至在PCR反应占优势,尤其在后期PCR循环中如此,从而不利地影响DNA聚合酶扩增靶目的多核苷酸的能力。PCR反应效率降低可能降低靶多核苷酸的正确中靶读段的产率。
本申请还基于以下观察结果:可以通过在QCS中引入某些修饰以破坏引物二聚体中的互补段并防止或减少引物二聚体形成,减少包含随机化QCS的PCR引物二聚化。图3A中显示了完全随机化的未修饰QCS序列的实例。为了破坏引物二聚体中的互补段,而不是将随机化QCS并入如图3A中所示的PCR引物,可以修饰QCS序列以便其仅部分地随机化或以便在序列的一个或多个位置具有限定的核酸(图3B)。也可以修饰QCS,以例如在QCS的5'末端(图3C上也称作aSpacer)、3’末端(图3C上也称作gSpacer)或两个末端上添加延伸序列(ES),并且延伸序列可以破坏互补段(图3C)。在另一个实施方案中,可以既修饰QCS序列以便仅部分地随机化或以便在其序列中一个或多个位置具有限定的核酸,又例如在QCS的5'末端、3’末端或两个末端上包含ES,以破坏互补段(图3D)。
本申请还基于以下观察结果:包含具有或没有QCS的引物或包含具有不同类型QCS(如完全随机化的QCS、部分随机化的QCS、充分限定的QCS、延伸的QCS(QCS-ES)或其组合)的引物的引物汇集物可以用来从样品扩增靶目的多核苷酸(例如,在多重PCR中扩增)并对其测序(例如,通过下一代测序法测序)。相对于例如用不包含QCS或仅包含一个类型QCS(例如,完全随机化的QCS)的引物获得的数据,使用本文提供的寡核苷酸组合物进行靶多核苷酸扩增和测序可以产生改进的测序数据(例如,就对齐的读段%而言)。
可以使用本领域已知的任何方法,如HPLC或LC-MS,确定本文提供的寡核苷酸组合物中的引物二聚体形成。在一些实施方案中,通过大小排阻色谱、毛细管电泳法、凝胶电泳、生物分析仪、HPLC、LC-MS或测序法确定引物二聚体产率。
质量控制序列
在一个方面,本文提供一种寡核苷酸组合物,其包含多个引物,每个引物包含靶核酸特异性序列(TS)和质量控制序列(QCS),其中多个引物包含两个或更多个选自以下的QCS:第一QCS(QCS1),其中每个核酸位置完全随机化;第二QCS(QCS2),其中一个或多个核酸位置被部分随机化;第三QCS(QCS3),其中一个或多个核酸位置是固定的;第四QCS(QCS4),其中全部核酸位置均是固定的;第五QCS(QCS5),其中一个或多个核酸位置完全随机化并且一个或多个核酸位置被部分随机化;第六QCS(QCS6),其中一个或多个核酸位置完全随机化并且一个或多个核酸位置是固定的;第七QCS(QCS7),其中一个或多个核酸位置被部分随机化并且一个或多个核酸位置是固定的;和第八QCS(QCS8),其中一个或多个核酸位置完全随机化,一个或多个核酸位置被部分随机化,并且一个或多个核酸位置是固定的,其中两个或更多个QCS每个位于多个引物的不同引物上。
在一些实施方案中,寡核苷酸组合物包含一个或多个包含TS且不包含QCS的引物。在一些实施方案中,多个引物包含一个或多个包含TS且不包含QCS或ES的引物。最终确定哪些引物需要QCS和/或和ES序列取决于引物二聚体相互作用的程度和那些引物参与引物二聚化。
在一些实施方案中,包含相同的TS的多个引物的引物,还包含相同的QCS。例如,含第一TS(TS1)的多个引物中的每个引物可以包含相同的QCS2(QCS2(1))。
在一些实施方案中,不同的多个引物的引物包含不同的QCS。在一些实施方案中,不同QCS可以具有不同QCS类别(例如,QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7或QCS8)。例如,第一多个引物的引物可以包含QCS2,并且第二多个引物的引物可以包含QSC3。在一些实施方案中,不同的QCS可以具有相同的QCS类别。例如,第一多个引物的引物包含其中一个核酸位置被部分随机化的QCS2(1)并且第二多个引物的引物包含其中两个核酸位置被部分随机化的QCS2(2)。
在一些实施方案中,不同的多个引物的引物包含不同的TS和相同的QCS。例如,第一多个引物的引物可以包含TS1和QCS2(1),并且第二多个引物的引物可以包含TS2和相同的QCS2(1)。
延伸序列
在一些情况下,引物中纳入QCS可能导致QCS参与引物二聚体形成。在这个情况中,可以额外地在引物中纳入延伸序列或ES,以最小化或消除产生的引物二聚体(图2)。在本文提供的组合物的一些实施方案中,多个引物中一个或多个引物的QCS还在QCS的一侧或两侧侧翼有延伸序列(ES)。在一些实施方案中,侧翼有延伸序列的QCS是QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7或QCS8。在一些实施方案中,QCS侧翼有一个ES。在一些实施方案中,QCS在QCS的5'末端上侧翼有ES,也称作“aSpacer”。在一些实施方案中,QCS在QCS的3'末端上侧翼有ES,也称作“gSpacer”。在一些实施方案中,QCS在5'末端和3'末端处侧翼有ES,因而具有布局“aSpacer-QCS-gSpacer”。
在一些实施方案中,QCS的5'末端上的ES与QCS的3’末端上的ES相同。在一些实施方案中,QCS的5'末端上的ES与QCS的3’末端上的ES不同。在一些实施方案中,与多个引物中不同QCS连接的两个或更多个ES具有不同的核酸序列。在一些实施方案中,与多个引物中不同QCS连接的两个或更多个ES具有相同的核酸序列。
在一些实施方案中,多个引物中一个或多个引物的QCS侧翼没有ES,并且一个或多个不同引物的QCS侧翼有ES。在一些实施方案中,QCS在QCS的5'末端上侧翼有ES。在一些实施方案中,QCS在QCS的3’末端上侧翼有ES。在一些实施方案中,QCS在QCS的5'末端上并在QCS的3’末端上侧翼有ES。
在一些实施方案中,多个引物中一个或多个引物的QCS侧翼没有ES,一个或多个引物的QCS侧翼有一个ES(例如,在QCS的5'末端或3’末端上),并且一个或多个引物的QCS侧翼有两个ES(例如,在QCS的5'末端和3’末端上)。
在一些实施方案中,一个或多个引物的QCS侧翼有一个ES(例如,在QCS的5'末端或3’末端上),并且一个或多个引物的QCS侧翼有两个ES(例如,在QCS的5'末端和3’末端上)。
在一些实施方案中,多个引物的一个或多个引物包含位于AS和QCS之间的ES(AES)。在一些实施方案中,多个引物的一个或多个引物包含位于QCS和TS之间的ES(TES)。在一些实施方案中,多个引物的一个或多个引物包含AES和TES。在一些实施方案中,多个引物的一个或多个引物包含AES或TES,并且多个引物的一个或多个引物包含AES和TES。
在一些实施方案中,ES是固定的序列。在一些实施方案中,ES包含2至10个之间的核苷酸。在一个优选的实施方案中,ES序列长3至5个核苷酸。
在一些实施方案中,如果有的话,本文提供的寡核苷酸组合物仅包括降低量的引物二聚体,例如,在水性缓冲液(例如,PCR反应缓冲液)中溶解组合物时。在一些实施方案中,与包含缺少QCS引物或QCS-ES引物的QCS或QCS-ES的引物但其它具有相同核苷酸序列(例如,相同AD、相同TS)的寡核苷酸组合物相比,包含一个或多个QCS引物或一个或多个QCS-ES引物的寡核苷酸组合物(其中QCS或QCS-ES引物包含QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7或QCS8中的两个或更多个QCS),包含少于50%、少于40%、少于30%、少于20%、少于10%、少于5%、少于3%、少于1%或少于0.1%的引物二聚体。
在一些实施方案中,如果有的话,本文提供的寡核苷酸组合物仅包括降低量的引物二聚体,例如,在水性缓冲液(例如,PCR反应缓冲液)中溶解组合物时。在一些实施方案中,与包含了含有仅一个类型QCS(例如,QCS1)的QCS引物或QCS-ES引物但其它具有相同核苷酸序列(例如,相同AD、相同TS)的寡核苷酸组合物相比,包含一个或多个QCS引物或一个或多个QCS-ES引物的寡核苷酸组合物(其中QCS或QCS-ES引物包含QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7或QCS8中的两个或更多个QCS),包含少于50%、少于40%、少于30%、少于20%、少于10%、少于5%、少于3%、少于1%或少于0.1%的引物二聚体。
靶序列
本文提供的寡核苷酸组合物中的多个引物可以包含多个不同的TS。在一些实施方案中,多个不同的TS包含约20个和约1000个之间的TS。在一些实施方案中,多个不同的TS包含100个和400个之间的TS。在一些实施方案中,多个不同的TS包含200-300个之间的TS。在一些实施方案中,不同的TS对基因组中的不同STR特异。在一些实施方案中,不同TS对基因组中不同的单核苷酸多态性(SNP)特异。在一些实施方案中,不同的T S对基因组中的一个或多个STR和一个或多个SNP特异。
在一些实施方案中,一个或多个引物的TS与侧翼有STR区域的区域互补。在一些实施方案中,多个引物包含这样的引物,所述引物包含一个或多个引物的核苷酸序列,(图5)其包含用于扩增以下STR的引物:D16S359、D61043、DYS570、D19S433、PentaD、DYS576、AmelPP、DXS10135、D13S317、DYS389、D20S482、DXS10074和SNPs rs1805009、rs10776839、rs2831700、rs1042602和rs1058083。在一些实施方案中,多个引物包含这样的引物,所述引物包含一个或多个引物的核苷酸序列,(图5)其包含用于扩增以下STR的引物:DYS392、D22S1045、DYS19、DYS456、DYS439和DYS635。
在一些实施方案中,多个引物包含这样的引物,所述引物包含下文并入的WO2015/126766的一个或多个靶向STR或ITR的引物的核苷酸序列。
表2-无标签的靶向STR的引物序列及相应的扩增子大小
Figure BDA0002386931700000191
Figure BDA0002386931700000201
Figure BDA0002386931700000211
Figure BDA0002386931700000221
Figure BDA0002386931700000231
Figure BDA0002386931700000241
在一些实施方案中,多个引物包含这样的引物,所述引物包含下文并入的WO2015/126766的一个或多个靶向SNP的引物的核苷酸序列。
表3-靶向SNP的引物序列
Figure BDA0002386931700000242
Figure BDA0002386931700000251
Figure BDA0002386931700000261
Figure BDA0002386931700000271
Figure BDA0002386931700000281
Figure BDA0002386931700000291
Figure BDA0002386931700000301
Figure BDA0002386931700000311
Figure BDA0002386931700000321
Figure BDA0002386931700000331
Figure BDA0002386931700000341
Figure BDA0002386931700000351
Figure BDA0002386931700000361
在一些实施方案中,多个引物包含一个或多个这样的引物,所述引物包含下文并入的WO 2015/126766的一个或多个身份信息告知性SNP和STR的核苷酸序列。
表4-身份信息告知性SNP和STR
Figure BDA0002386931700000362
Figure BDA0002386931700000371
常染色体STR
Figure BDA0002386931700000372
在一些实施方案中,多个引物包含一个或多个这样的引物,所述引物包含如下文并入的WO 2015/126766中列示的用于多重反应的一个或多个附加STR和SNP的核苷酸序列。
表5-用于多重反应的附加STR和SNP的实例
Figure BDA0002386931700000381
在一些实施方案中,多个引物包含一个或多个这样的引物,所述引物包含下文并入的WO 2015/126766中列示的STR和SNP的核苷酸序列。
表6-用于数据建库及案例作业的STR和SNP
Figure BDA0002386931700000382
Figure BDA0002386931700000391
Figure BDA0002386931700000401
Figure BDA0002386931700000411
在一些实施方案中,可以经历并入QCS及进一步并入ES序列的多个引物包含一个或多个这样的引物,所述引物包含ILLUMINA’s FORENSEQ DNA特征标识制备试剂盒的身份信息告知性SNP的核苷酸序列。身份信息告知性SNP可以是群组中的一个或多个,所述群组包含rs10495407、rs1294331、rs1413212、rs1490413、rs560681、rs891700、rs1109037、rs12997453、rs876724、rs907100、rs993934、rs1355366、rs1357617、rs2399332、rs4364205、rs6444724、rs1979255、rs2046361、rs279844、rs6811238、rs13182883、rs159606、rs251934、rs338882、rs717302、rs13218440、rs1336071、rs214955、rs727811、rs321198、rs6955448、rs737681、rs917118、rs10092491、rs2056277、rs4606077、rs763869、rs1015250、rs10776839、rs1360288、rs1463729、rs7041158、rs3780962、rs735155、rs740598、rs826472、rs964681、rs10488710、rs1498553、rs2076848、rs901398、rs10773760、rs2107612、rs2111980、rs2269355、rs2920816、rs1058083、rs1335873、rs1886510、rs354439、rs1454361、rs4530059、rs722290、rs873196、rs1528460、rs1821380、rs8037429、rs1382387、rs2342747、rs430046、rs729172、rs740910、rs8078417、rs938283、rs9905977、rs1024116、rs1493232、rs1736442、9951171、rs576261、rs719366、rs1005533、rs1031825、rs1523537、rs445251、rs221956、rs2830795、rs2831700、rs722098、rs914165、rs1028528、rs2040411、rs733164、rs987640。
在一些实施方案中,可以经历并入QCS及进一步并入ES序列的多个引物包含一个或多个这样的引物,所述引物包含ILLUMINA’s FORENSEQ DNA特征标识制备试剂盒的常染色体STR或ITR的核苷酸序列。常染色体STR可以是以下群组中的一者或多者,所述群组包含D1S1656、TPOX、D2S441、D2S1338、D3S1358、D4S2408、FGA、D5S818、CSF1PO、D6S1043、D7S820、D8S1179、D9S1122、D10S1248、TH01、vWA、D12S391、D13S317、Penta D、Penta E、D16S539、D17S1301、D18S51、D19S433、D20S482、D21S11、D221045。
在一些实施方案中,可以经历并入QCS及进一步并入ES序列的多个引物包含一个或多个这样的引物,所述引物包含ILLUMINA’s FORENSEQ DNA特征标识制备试剂盒的Y单倍型标记的核苷酸序列。Y单倍型标记可以是以下群组中的一者或多者,所述群组包含DYF387S1、DYS19、DYS385a-b、DYS389I、DYS389II、DYS390、DYS391、DYS392、DYS437、DYS438、DYS439、DYS448、DYS460、DYS481、DYS505、DYS522、DYS533、DYS549、DYS570、DYS576、DYS612、DYS635、DYS643、Y-GATA-H4。
在一些实施方案中,可以经历并入QCS及进一步并入ES序列的多个引物包含一个或多个这样的引物,所述引物包含ILLUMINA’s FORENSEQ DNA特征标识制备试剂盒的X单倍型标记的核苷酸序列。X单倍型标记可以是包含DXS10074、DXS10103、DXS10135、DXS7132、DXS7423、DXS8378、HPRTB的群组中的一者或多者。
在一些实施方案中,可以经历并入QCS及进一步并入ES序列的多个引物包含一个或多个这样的引物,所述引物包含ILLUMINA’s FORENSEQ DNA特征标识制备试剂盒的表型信息告知性SNP的核苷酸序列。表型信息告知性SNP可以是以下群组中的一个或多个,所述群组包含rs28777、rs12203592、rs4959270、rs683、rs1042602、rs1393350、rs12821256、rs12896399、rs2402130、rs1800407、N29insA、rs1110400、rs11547464、rs1805005、rs1805006、rs1805007、rs1805008、rs1805009、rs201326893_Y152OCH、rs2228479、rs885479、rs2378249、rs2814778、rs3737576、rs7554936、rs10497191、rs1834619、rs1876482、rs260690、rs3827760、rs6754311、rs798443、rs12498138、rs1919550、rs1229984、rs3811801、rs4833103、rs7722456、rs870347、rs16891982、rs192655、rs3823159、rs917115、rs1462906、rs1871534、rs2196051、rs6990312、rs3814134、rs4918664、rs1079597、rs174570、rs2238151、rs671、rs1572018、rs2166624、rs7326934、rs7997709、rs9522149、rs200354、rs12439433、rs1426654、rs1800414、rs735480、rs12913832、rs459920、rs11652805、rs17642714、rs2593595、rs4411548、rs4471745、rs2042762、rs3916235、rs4891825、rs7226659、rs7251928、rs310644、rs2024566。
在一些实施方案中,可以经历并入QCS及进一步并入ES序列的多个引物包含一个或多个这样的引物,所述引物包含ILLUMINA’s FORENSEQ DNA特征标识制备试剂盒的祖先信息告知性SNP的核苷酸序列。
祖先信息告知性SNP可以是以下群组中的一个或多个,所述群组包含rs2814778、rs3737576、rs7554936、rs10497191、rs1834619、rs1876482、rs260690、rs3827760、rs6754311、rs798443、rs12498138、rs1919550、rs1229984、rs3811801、rs4833103、rs7657799、rs7722456、rs870347、rs16891982、rs192655、rs3823159、rs917115、rs1462906、rs1871534、rs2196051、rs6990312、rs3814134、rs4918664、rs1079597、rs174570、rs2238151、rs671、rs1572018、rs2166624、rs7326934、rs7997709、rs9522149、rs200354、rs12439433、rs1426654、rs1800414、rs735480、rs12913832、rs459920、rs11652805、rs17642714、rs2593595、rs4411548、rs4471745、rs2042762、rs3916235、rs4891825、rs7226659、rs7251928、rs310644、rs2024566。
纠正扩增偏倚
在一些实施方案中,指向特定靶的多个引物对中每一对包含了含有选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS的正向引物或反向引物或这两种引物之一和含有选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS的另一个引物(正向引物或反向引物)。在其他实施方案中,对于多个引物对的某个引物对,正向引物可能没有QCS,而反向引物可能包含八个QCS之一,或反向引物可能没有QCS,而正向引物可能具有八个QCS之一。QCS序列可以相同或不同。表6列示可能的QCS选项,而正向引物可能包含八个不同QCS选项之一并且反向引物可能包含八个不同QCS选项之一,这取决于应当实施什么来减少扩增偏倚并纠正相对于本身重复大量次的STR,扩增重复一些次的STR时可能出现的扭曲的多核苷酸比率。例如,CSF1PO具有观察到AGAT重复5至16次的等位基因。在用于扩增CSF1PO的引物对的一个或两个引物上实施QCS可能有助于纠正例如设法同时扩增更小等位基因(5次重复)和更大等位基因(13次重复)时观察到的偏倚。对于反应间引物也可以同样如此,例如,可能作为一个STR靶和不同STR靶的STR重复序列结果的偏倚扩增,其中一个靶具有较少数的STR重复序列并且另一个靶具有较大数的特定STR重复序列(图1)。
表7-引物对的QCS序列选项
正向引物 反向引物
无QCS 无QCS
QCS1 QCS1
QCS2 QCS2
QCS3 QCS3
QCS4 QCS4
QCS5 QCS5
QCS6 QCS6
QCS7 QCS7
QCS8 QCS8
最小化或消除引物二聚体
在一些实施方案中,来自多个引物的一个或多个引物包含一个或多个QCS。在一些实施方案中,来自多个引物的一个或多个引物包含选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS序列,来自多个引物的第二或更多不同引物也包含选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS序列。表7列示了来自多个引物的示例性第一和第二引物的QCS组合的不同选项。实质上,一个引物可能具有八个不同QCS选择之一,第二引物可能具有一至八个不同QCS选择的选项,多个引物的第三、第四、第五等引物也可能包含八个QCS序列的任一者。从而,如果观察到引物二聚体,促成引物二聚体的一个或两个引物可能包含从一至八个不同的QCS,旨在减少或消除观察到的引物二聚体。
表8-多个引物中两个引物的QCS序列选项
引物1 引物2
无QCS序列 无QCS序列
QCS1 QCS1
QCS2 QCS2
QCS3 QCS3
QCS4 QCS4
QCS5 QCS5
QCS6 QCS6
QCS7 QCS7
QCS8 QCS8
试剂盒和系统
在另一个方面,本文提供一种试剂盒,其包含本文提供的寡核苷酸组合物。在一些实施方案中,该试剂盒用于DNA剖析方法,如法医DNA剖析方法、亲子关系检验方法或祖先分析方法。
在一些实施方案中,该试剂盒包含一种寡核苷酸组合物,其包含多个引物,每个引物包含TS并且其中多个引物包含两个或更多个选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS。在一些实施方案中,多个引物中的一个或多个包含ES。
在一些实施方案中,多个引物的两个或更多个引物作为引物汇集物储存,例如,储存在单试管或多孔板的单孔中。在一些实施方案中,多个引物的全部引物均储存在单一引物汇集物中。在其他实施方案中,引物储存在多于一个引物汇集物中,例如,储存在二、三个或四个引物汇集物中。
在一些实施方案中,多个引物的两者或更多者分别储存,例如,引物储存在分开的管或多孔板的分开的孔中。
在一些实施方案中,该试剂盒包含了使用试剂盒组分的说明。在一些实施方案中,该说明描述本文提供的方法,例如,法医DNA剖析方法。
测序方法
在一些实施方案中,该方法包括使用从样品扩增的靶多核苷酸,制备DNA测序文库。
在一些实施方案中,该方法包括对DNA测序文库测序,例如,通过下一代测序法测序。
在一些实施方案中,使用本文提供的寡核苷酸组合物扩增本文提供的靶目的多核苷酸或对其测序的方法,与使用其他寡核苷酸组合物(如其中全部引物均缺少QCS序列或ES序列的寡核苷酸组合物或其中全部引物均共有相同QCS(例如完全随机化的QCS)的包含不同多个引物(例如,每一多个引物具有不同TS)的寡核苷酸组合物的方法相比,为一个或多个靶目的多核苷酸产生更高质量的测序数据。
在一些实施方案中,在本文提供的测序方法中使用本文提供的寡核苷酸组合物,相对于使用另一个寡核苷酸组合物(如其中全部引物均缺少QCS序列或ES序列的寡核苷酸组合物或其中全部引物均共有相同QCS(例如完全随机化的QCS)的包含不同多个引物(例如,每一多个引物具有不同TS)的寡核苷酸组合物的可比方法,增加对一个或多个靶目的多核苷酸获得的测序信息(例如,按靶多核苷酸的对齐读段%、检测限和定量准确度计)1.5倍、2.0倍、2.5倍、3.0倍、3.5倍、4.0倍、4.5倍或5.0倍。
在一些实施方案中,在本文提供的测序方法中使用本文提供的寡核苷酸组合物可以增加对一种或多种靶目的多核苷酸获得的测序信息至50%或更多、60%或更多、70%或更多、80%或更多、90%或更多、95%或更多、或99%或更多%的对齐读段,而使用其中全部引物均缺少QCS或ES序列或其中不同多个引物(例如,具有不同TS)均共有相同QCS(例如,完全随机化的QCS)的另一个寡核苷酸组合物对一个或多个靶目的多核苷酸产生少于50%、少于40%、少于30%、少于20%、少于10%或少于5%的对齐读段。
在一些实施方案中,在本文提供的测序方法中使用本文提供的寡核苷酸组合物可以增加对一种或多种靶目的多核苷酸获得的测序信息至80%或更多(例如,来自测序文库的对齐读段的%),而使用其中不同多个引物(例如,具有不同TS)均具有完全随机化QCS的另一个寡核苷酸组合物对一个或多个靶目的多核苷酸产生少于50%(例如,约40%)的对齐读段。
在另一个方面,本文提供用于扩增或测序样品中多个靶多核苷酸的方法,所述方法包括装配本文提供的寡核苷酸组合物。在一些实施方案中,该方法包括对多个扩增的靶多核苷酸测序。在一些实施方案中,寡核苷酸组合物包含多个引物,其中每个引物包含靶核酸特异性序列(TS)和质量控制序列(QCS),其中多个引物包含QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8中的两个或更多个QCS。在一些实施方案中,寡核苷酸组合物包含一个或多个包含TS、QCS和ES的引物。在一些实施方案中,寡核苷酸组合物包含一个或多个包含TS且不包含QCS或ES的引物。在一些实施方案中,寡核苷酸组合物包含含有TS和QCS的多个引物,其中每个引物包含靶核酸特异性序列(TS)和质量控制序列(QCS),其中多个引物包含QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8中的两个或更多个QCS,并且该组合物包含一个或多个包含TS、QCS和ES的引物。在一些实施方案中,寡核苷酸组合物包含含有TS和QCS的多个引物,其中每个引物包含靶核酸特异性序列(TS)和质量控制序列(QCS),其中多个引物包含QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8中的两个或更多个QCS,并且该组合物包含一个或多个包含TS、QCS和ES的引物,并且该组合物包含一个或多个包含TS且不包含QCS和ES的引物。
在一些实施方案中,对包含通过使用优化的引物汇集物或本文提供的寡核苷酸组合物扩增靶多核苷酸所产生的多个靶目的多核苷酸的文库测序,为靶多核苷酸产生了多于50%、多于60%、多于70%、多于80%、多于90%、多于95%或多于99%的对齐读段(文库输出%),而对包含通过使用初始引物汇集物扩增靶多核苷酸所产生的多个靶目的多核苷酸的文库测序(例如,单独P-TS-QCS1引物的引物汇集物),为靶多核苷酸产生了少于50%、少于40%、少于30%、少于20%、少于10%、少于5%、少于3%、少于1%或少于0.1%的对齐读段(文库输出%)。
在一些实施方案中,对包含通过使用优化的引物汇集物或本文提供的寡核苷酸组合物扩增靶多核苷酸所产生的多个靶目的多核苷酸的文库测序,为靶多核苷酸产生了多于80%的对齐读段(文库输出%),而对包含通过使用初始引物汇集物扩增靶多核苷酸所产生的多个靶目的多核苷酸的文库测序(例如,单独P-TS-QCS1引物的引物汇集物),为靶多核苷酸产生了少于0.1%的对齐读段(文库输出%)。
本发明的方法不限于任何具体测序平台并且在此就SBS或通过合成产生的序列、并行测序的类型方面例举。特别适用的技术是这些技术,其中核酸在阵列中固定的位置如此连接,从而其相对位置不变化并且其中对阵列反复成像。下述实例特别适用,其中在例如与用来区分一个核苷酸碱基类型与另一个核苷酸碱基类型的不同标记物一致的不同颜色通道获得图像。
SBS技术通常指通过针对模板链迭代添加核苷酸,酶促延伸新生核酸链。在传统的SBS方法中,可以在每次递送时,在聚合酶存在下向靶多核苷酸提供单核苷酸单体。但是,在本文所述的方法中,可以在递送时,在聚合酶存在下向靶核酸提供多于一个类型的核苷酸单体。
SBS技术可以利用具有标记物部分的核苷酸单体或缺少标记物部分的那些核苷酸单体。因此,可以基于标记物的特征,如荧光标记物;核苷酸单体的特征如分子量或电荷;并入核苷酸的副产物,如释放焦磷酸盐等,检测并入事件。在测序试剂内存在两个或更多个不同核苷酸的一些实例中,不同核苷酸可以彼此可区分,或备选地,在正在使用的检测技术下,两个或更多个不同的标记物可不可区分。例如,测序试剂中存在的不同核苷酸可以具有不同的标记物并且它们可以使用适宜的光学区分开,如用Solexa(现为Illumina,Inc.)开发的测序方法例举。
一些实例包括焦磷酸测序技术。焦磷酸测序法检测当特定核苷酸并入新生链时无机焦磷酸盐(PPi)的释放(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.和Nyren,P.(1996)"Real-time DNA sequencing using detection of pyrophosphaterelease."Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)"Pyrosequencingsheds light on DNA sequencing."Genome Res.11(1),3-11;Ronaghi,M,Uhlen,M.和Nyren,P.(1998)"A sequencing method based on real-time pyrophosphate."Science281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,所述文献的公开内容通过引用方式完整地并入本文)。在焦磷酸测序法中,释放的PPi可以因立即被ATP硫酸化酶转化成三磷酸腺苷(ATP)而检出,并且借助萤光素酶产生的光子检测生成的ATP的水平。待测序的核酸可以与阵列中的feature连接并且可以对阵列成像以捕获因核苷酸在阵列的feature处并入而产生的化学发光信号。在用具体核苷酸类型(例如A、T、C或G)处理阵列后,可以获得图像。在添加每个核苷酸类型后获得的图像将依据阵列中检出哪些feature而不同。图像的这些差异反映阵列上各feature的不同序列含量。但是,每个feature的相对位置将在图像中保持不变。可以使用本文所述方法,存储、处理并分析图像。例如,用每个不同的核苷酸类型处理阵列后获得的图像可以按照这样的方式操作,所述方式与本文中对基于可逆终止物的测序方法从不同检测通道获得的图像所例举的方式相同。
在SBS的另一个实例中,通过逐步添加例如含有可切割或可光漂白染料标记物的可逆终止物核苷酸实现循环测序,例如,如WO 04/018497和美国专利号7,057,026中所述那样,所述文献的公开内容通过引用方式并入本文。这种方法正在由Solexa(现为IlluminaInc.)商业化并且还在WO 91/06678和W 07/123,744中描述,所述文献各自通过引用方式并入本文。其中终止可以逆转且可以切除荧光标记物的荧光标记终止物的可用性促进高效的循环可逆性终止(CRT)测序。也可以共工程化聚合酶,以高效并入这些修饰的核苷酸并从其延伸。以下文献中描述了可以配合本文所述方法和系统利用的额外示例性SBS系统和方法:美国专利申请公开号2007/0166705、美国专利申请公开号2006/0188901、美国专利号7,057,026、美国专利申请公开号2006/0240439、美国专利申请公开号2006/0281109、PCT公开号WO 05/065814、美国专利申请公开号2005/0100900、PCT公开号WO 06/064199、PCT公开号WO 07/010,251、美国专利申请公开号2012/0270305和美国专利申请公开号2013/0260372,所述文献的公开内容通过引用方式完整并入本文。
一些实例可以利用少于四个不同标记物检测四种不同的核苷酸。例如,可以利用在美国专利申请公开号2013/0079232的已并入资料中描述的方法和系统,进行SBS。作为第一实例,可以按相同波长检出一对核苷酸类型,但基于以下情况区分,即,基于该对的一个成员相比另一个成员在强度上的差异或基于相比针对该对的另一个成员检出的信号,该对的一个成员的造成明显信号出现或消失的变化(例如通过化学修饰、光化学修饰或物理修饰)。作为第二实例,可以在特定条件下检出四个不同核苷酸类型中的三者,同时第四核苷酸类型缺少在那些条件下可检出或在那些条件下最低限度检出(例如,因背景荧光所致的最低少检测等)的标记物。可以基于存在前三个核苷酸类型的相应信号确定它们并入核酸,并且可以基于不存在任何信号或最低限度检出任何信号确定第四核苷酸类型并入核酸。作为第三实例,一个核苷酸类型可以包含在两个不同通道中检出的标记物,而在不多于所述通道之一中检出其他核苷酸类型。前述三个示例性布局不视为互斥并且可以按多种组合使用。组合全部三个实例的示例性实施方案是基于荧光的SBS方法,所述方法使用在第一通道中检出的第一核苷酸类型(例如,具有被第一激发波长激发时在第一通道中检出的标记物的dATP)、在第二通道中检出的第二核苷酸类型(例如,具有被第二激发波长激发时在第二通道中检出的标记物的dCTP)、在第一和第二通道中均检出的第三核苷酸类型(例如,具有被第一和/或第二激发波长激发时在两个通道中均检出的至少一个标记物的dTTP)和缺少在任一个通道中不能检出或最低限度检出的标记物的第四核苷酸类型(例如,没有标记物的dGTP)。
另外,如美国专利申请公开号2013/0079232的已并入资料中所述,可以使用单通道,获得测序数据。在这类所谓的单染料测序方案中,标记第一核苷酸类型,但是在第一幅图像生成后移除标记物,并且仅在第一幅图像生成后才标记第二核苷酸类型。第三核苷酸类型在第一幅和第二幅图像中均保留其标记物,并且第四核苷酸类型在两幅图像中保持未标记。
一些实例可以利用通过连接技术测序。这类技术利用DNA连接酶并入寡核苷酸并鉴定这类寡核苷酸并入。寡核苷酸一般具有与杂交至寡核苷酸的序列中特定核苷酸的身份相关的不同标记物。与其他SBS方法一样,可以在采用标记的测序试剂处理核酸feature阵列后获得图像。每幅图像将显示具有特定类型已并入标记物的核酸feature。不同feature将在不同图像中因每个feature的不同序列含量而存在或不存在,但是图像中各feature的相对位置保持不变。可以如本文中所述那样储存、处理并分析从基于连接的测序方法获得的图像。以下文献中描述了可以配合本文所述方法和系统利用的示例性SBS系统和方法:美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597,所述文献的公开内容通过引用方式完整并入本文。
一些实例可以利用纳米孔测序(Deamer,D.W.和Akeson,M."Nanopores andnucleic acids:prospects for ultrarapid sequencing."Trends Biotechnol.18,147-151(2000);Deamer,D.和D.Branton,"Characterization of nucleic acids by nanoporeanalysis".Acc.Chem.Res.35:817-825(2002);Li,J.,M.Gershow,D.Stein,E.Brandin和J.A.Golovchenko,"DNA molecules and configurations in a solid-state nanoporemicroscope"Nat.Mater.2:61 1-615(2003),所述文献的公开内容通过引用方式完整地并入本文)。在这类实施方案中,靶核酸穿过纳米孔。纳米孔可以是合成孔或生物膜蛋白,如α-溶血素。随着靶核酸穿过纳米孔,可以通过测量孔的电导率的波动,鉴定每个碱基对。(美国专利号7,001,792;Soni,G.V.&Meller,"A.Progress toward ultrafast DNA sequencingusing solid-state nanopores."Clin.Chem.53,1996-2001(2007);Healy,K."Nanopore-based single-molecule DNA analysis."Nanomed.2,459-481(2007);Cockroft,S.L.,Chu,J.,Amorin,M.和Ghadiri,M.R."A single-molecule nanopore device detects DNApolymerase activity with single-nueleotide resolution."J.Am.Chem.Soc.130,818-820(2008),所述文献的公开内容通过引用方式完整地并入本文)。可以如本文中所述那样储存、处理并分析从纳米孔测序法获得的数据。特别地,可以根据本文所述的光学图像和其他图像的示例性处理,将数据作为图像处理。
一些实例可以利用涉及实时监测DNA聚合酶活性的方法。可以通过如在例如美国专利号7,329,492和美国专利号7,211,414(所述文献各自通过引用方式并入本文)中所述的携带荧光团的聚合酶和γ-磷酸酯标记的核苷酸之间的荧光共振能量转移(FRET)相互作用,检出核苷酸并入,或可以用如在例如美国专利号7,315,019(所述文献通过引用方式并入本文)中所述的零模波导和使用如在例如美国专利号7,405,281和美国专利申请公开号2008/0108082(所述文献各自通过引用方式并入本文)中所述的荧光核苷酸类似物和工程化聚合酶检出核苷酸并入。照明可以限于表面系留的聚合酶周围的zeptoliter-规模体积,从而可以观察低背景下的荧光标记的核苷酸并入(Levene,M.j.等人"Zero-modewaveguides for single-molecule analysis at high concentrations."Science 299,682-686(2003);Lundquist,P.M.等人"Parallel confocal detection of singlemolecules in real time."Opt.Lett.33,1026-1028(2008);Korlach,J.等人"Selectivealuminum passivation for targeted immobilization of single DNA polymerasemolecules in zero-mode waveguide nanostructures."Proc.Natl.Acad.Sci.USA 105,1176-1181(2008),所述文献的公开内容通过引用方式完整地并入本文)。可以如本文中所述那样储存、处理并分析从基于连接的测序方法获得的图像。可以储存、处理并分析从此类方法获得的图像。
一些SBS实施方案包括检测核苷酸并入延伸产物时的质子释放。例如,基于检测释放的质子的测序可以使用电检测器和从Ion Torrent(Guilford,CT,Life Technologies子公司)可商业获得的相关技术或在US 2009/0026082 A1;US 2009/0127589 A1;US 2010/0137143 A1;或US 2010/0282617 A1中描述的测序方法和系统,所述文献的每一篇通过引用方式并入本文。使用动力学排除法扩增靶核酸的本文所述方法可以轻易地应用于用来检测质子的底物。更具体的,本文所述的方法可以用来产生用来检测质子的克隆性扩增子群体。
以上SBS方法可以有利地按多重样式实施,从而同时操作多个不同靶核酸。在具体的实施方案中,可以在共同的反应容器中或在具体基材的表面上处理不同的靶核酸。这允许按多重方式便利输送测序试剂、移除未反应的试剂并检测并入事件。在使用表面结合的靶核酸的实施方案中,靶核酸可以在阵列样式中。在阵列样式中,靶核酸一般可以按空间可区分的方式与表面结合。可以通过直接共价接合、与珠或其他颗粒接合或与接合于表面的聚合酶或其他分子结合,结合靶核酸。阵列可以在每个位点(也称作feature)包含单拷贝靶核酸,或具有相同序列的多个拷贝可以存在于每个位点或feature处。可以通过如下文进一步详述的扩增方法如“桥式”扩增或乳液PGR(emulsion PGR)产生多个拷贝。
引物装配和优化
可以例如在迭代过程中或在并行过程中装配本文提供的寡核苷酸组合物。
在一些实施方案中,在迭代过程中装配本文提供的寡核苷酸组合物。通常,在迭代过程中,设计初始引物汇集物,例如,以计算方式设计,以扩增多个靶目的多核苷酸。初始汇集物中引物可以例如各自包含TS和QCS。对于初始汇集物中的每个引物,初始汇集物的引物中的QCS可以是相同类型的(例如,QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7或QCS8),或初始汇集物中的不同引物可以具有不同的QCS。在一些实施方案中,初始汇集物的全部引物均包含QCS1,其为完全随机化的序列。可以使用本文提供的迭代过程,将本文提供的寡核苷酸组合物装配为例如优化的引物汇集物,例如,通过a)对初始引物汇集物检验每个引物(或引物对)从样品扩增靶目的多核苷酸的能力;b)鉴定能够或不能够扩增靶多核苷酸的分开的引物亚组;c)独立地修饰不能够扩增靶多核苷酸的每个引物;d)例如单独或在具有先前鉴定为能够扩增靶多核苷酸的其他引物的汇集物中复检修饰的引物;和e)鉴定能够或不能够扩增靶多核苷酸的修饰的引物的分开的亚组。可以例如通过组合被鉴定为能够扩增靶多核苷酸的未修饰的引物和修饰的引物,产生优化的引物汇集物。
可以任选地进一步修饰并且在一个或多个额外的引物优化轮次中复验任何仍不能够扩增靶多核苷酸的修饰的引物。也可以将能够扩增靶多核苷酸的任何进一步修饰的引物添加到优化的引物汇集物中。
可以继续独立的引物优化,例如,直至优化的引物汇集物包含能够扩增每个靶目的多核苷酸的引物为止。在迭代过程的每个步骤处的引物修饰可以例如包括修饰引物的QCS、添加ES或修饰引物的TS。每个引物可以独立于任何其他引物被修饰。例如,可以通过修饰引物的QCS,修饰多个引物或引物亚组中的一个引物,并且可以通过添加ES,修饰多个引物或引物亚组中的另一个引物。在一些实施方案中,在迭代过程的给定步骤中,通过修饰引物的QCS,修饰为修饰所选定的全部引物。在一些实施方案中在迭代过程的给定步骤中,通过修饰引物的ES,修饰为修饰所选定的全部引物。本文提供的迭代过程可以任选地包括对扩增的靶多核苷酸测序。
在另一个方面,本文提供的是一种用于装配本文提供的寡核苷酸组合物的方法,包含a)提供包含多个引物的初始引物汇集物(P),其中每个引物包含TS和QCS(P-TS-QCS引物);b)使用初始引物汇集物从样品扩增靶多核苷酸;c)在初始引物汇集物中鉴定能够可检出性扩增靶多核苷酸的引物亚组(例如,第一亚组)或在初始引物汇集物中鉴定不能够可检出性扩增靶多核苷酸或仅能够低水平扩增靶多核苷酸的引物亚组(例如,第二亚组);d)独立地修饰引物亚组(例如,第二亚组)中不能够扩增或仅能够低水平扩增靶多核苷酸的一个或多个引物,因而修饰包括i)将引物的TS修饰成TS’(P-TS’-QCS);ii)将引物的QCS修饰成QCS’(P-TS-QCS’)或iii)添加ES至引物(P-TS-QCS-ES);e)任选地鉴定能够可检出性扩增靶多核苷酸的修饰的引物亚组(例如,第三亚组)或鉴定不能够扩增或仅能够低水平扩增靶多核苷酸的修饰的引物亚组(例如,第四亚组);和f)任选地组合能够可检出性扩增靶多核苷酸的引物和修饰的引物,以产生优化的引物汇集物。
在一些实施方案中,在初始引物汇集物的每个引物中的QCS是QCS1(QCS1中的每个位置完全随机化)。
在一些实施方案中,第一引物亚组的引物是能够扩增引物的靶多核苷酸至可检出水平的P-TS-QCS引物。
在一些实施方案中,第二引物亚组的引物是不能够扩增引物的靶多核苷酸至可检出水平或仅能够扩增引物的靶多核苷酸至低水平的P-TS-QCS引物。
在一些实施方案中,第三引物亚组的引物是能够扩增引物的靶多核苷酸至可检出水平的修饰的P-TS-QCS引物(例如,第二引物亚组的修饰的引物)。可以修饰第三亚组的引物,例如,以包含修饰的TS(TS’)、修饰的QCS(QCS’)或ES。
在一些实施方案中,第四引物亚组的引物是不能够扩增引物的靶多核苷酸至可检出水平或仅能够扩增引物的靶多核苷酸至低水平的修饰的P-TS-QCS引物(例如,第二引物亚组的修饰的引物)。可以修饰第四亚组的引物,例如,以包含修饰的TS(TS’)、修饰的QCS(QCS’)或ES。
在一些实施方案中,第五引物亚组的引物是能够扩增引物的靶多核苷酸至可检出水平的修饰的P-TS-QCS引物或修饰的P-TS-QCS-ES引物(例如,第四引物亚组的进一步修饰的引物)。可以进一步修饰第四亚组的引物,例如,以包含修饰的TS(例如,TS’)、进一步修饰的TS(例如,TS”)、修饰的QCS(例如,QCS’)、进一步修饰的QCS(例如,QCS”)、ES或修饰的ES(例如,ES’)或其组合。
在一些实施方案中,第六引物亚组的引物是不能够扩增引物的靶多核苷酸至可检出水平或仅能够扩增引物的靶多核苷酸至低水平的修饰的P-TS-QCS引物或修饰的P-TS-QCS-ES引物(例如,第四引物亚组的进一步修饰的引物)。可以进一步修饰第四亚组的引物,例如,以包含修饰的TS(例如,TS’)、进一步修饰的TS(例如,TS”)、修饰的QCS(例如,QCS’)、进一步修饰的QCS(例如,QCS”)、ES或修饰的ES(例如,ES’)或其组合。
在一些实施方案中,重复步骤d)和e)两次或更多次(例如,2、3、4、5、6、7、8、9、10次或更多次),以进一步修饰引物亚组的引物,例如,不能够从样品扩增引物的靶多核苷酸或仅能够扩增引物的靶多核苷酸至低水平的亚组的引物。可以例如对引物的TS(例如,以产生TS’、TS”、TS”’等)、引物的QCS(例如,以产生QCS’、QCS”、QCS”’等)或引物的ES(例如,以产生ES’、ES”、ES”’等)进一步修饰。进一步修饰的引物可以随后用来扩增靶多核苷酸,以就其从样品扩增引物的靶多核苷酸的能力而言表征额外的引物亚组。
在一些实施方案中,独立地修饰d)中的一个或多个引物包括以相同方式修饰一个或多个引物。
在一些实施方案中,独立地修饰d)中的一个或多个引物包括向一个或多个引物引入第一修饰并且向一个或多个不同引物引入第二修饰。在一些实施方案中,第一和第二修饰相同。在一些实施方案中,第一和第二修饰不同。
在一些实施方案中,独立地修饰d)中的一个或多个引物包括通过以下方式修饰一个或多个引物的每一者:i)将引物的TS修饰成TS’(P-TS’-QCS);ii)将引物的QCS修饰成QCS’(P-TS-QCS’)或iii)添加ES至引物(P-TS-QCS-ES)。
在一些实施方案中,独立地修饰d)中的一个或多个引物包括通过将引物的TS修饰成TS’(P-TS’-QCS),修饰一个或多个引物并且通过将引物的QCS修饰成QCS’(P-TS-QCS’)或添加ES至引物(P-TS-QCS-ES),修饰一个或多个其它引物。
在一些实施方案中,独立地修饰d)中的一个或多个引物包括通过将引物的QCS修饰成QCS’(P-TS-QCS’),修饰一个或多个引物并且通过将引物的TS修饰成TS’(P-TS’-QCS)或通过添加ES至引物(P-TS-QCS-ES),修饰一个或多个其它引物。
在一些实施方案中,独立地修饰d)中的一个或多个引物包括通过添加ES至引物(P-TS-QCS-ES),修饰一个或多个引物和通过将引物的TS修饰成TS’(P-TS’-QCS)或通过将引物的QCS修饰成QCS’(P-TS-QCS’),修饰一个或多个其它引物。
在一些实施方案中,将引物的QCS修饰成QCS’包括将引物的QCS替换为不同类型的QCS,例如,将QCS1替换为QCS2。在一些实施方案中,修饰引物的QCS包括将引物的QCS替换为相同类型的不同QCS,例如,将QCS2(例如,包含一个部分随机化位置的QCS2(1))替换不同的QCS2(例如,包含两个部分随机化位置的QCS2(2))。
在一些实施方案中,添加ES至引物包括添加ES至QCS的5'末端或3’末端。在一些实施方案中,添加ES至引物包括添加ES至QCS的5'末端和3’末端。在一些实施方案中,在QCS的5'末端和3’末端上添加的ES是相同的ES。在一些实施方案中,在QCS的5'末端和3’末端上添加的ES是不同的ES。
在一些实施方案中,该方法包括e)使用d)的修饰的引物从样品扩增已修饰引物的靶目的多核苷酸并且鉴定导致引物的靶多核苷酸可检出性扩增的引物亚组(例如,第三亚组)或鉴定不导致引物的靶多核苷酸从样品可检出性扩增或仅导致其低水平扩增的引物亚组(例如,第四亚组)。
在一些实施方案中,该方法包括使用e)的引物亚组(例如,第四亚组),重复d)和e)一次或多次,所述引物亚组不导致引物的靶多核苷酸可检出性扩增或仅导致其低水平扩增,以进一步获得这样的引物亚组(例如,第五亚组、第六亚组),所述引物亚组包含例如在引物的TS或QCS序列中或就存在或不存在ES而言的一个或多个额外修饰。
在一些实施方案中,该方法包括产生优化的引物汇集物。在一些实施方案中,优化的引物汇集物包含来自第一引物亚组(P-TS-QCS)的一个或多个引物。在一些实施方案中,优化的引物汇集物包含来自第三引物亚组(例如,P-TS-QCS’、P-TS’-QCS、P-TS-QCS-ES)的一个或多个引物。在一些实施方案中,优化的引物汇集物包含来自第五引物亚组(例如,P-TS’-QCS’、P-TS’-QCS-ES、P-TS-QCS’-ES)的一个或多个引物。在一些实施方案中,优化的引物汇集物包含来自第一引物亚组的一个或多个引物和来自第三引物亚组的一个或多个引物。在一些实施方案中,优化的引物汇集物包含来自第一引物亚组的一个或多个引物和来自第五引物亚组的一个或多个引物。在一些实施方案中,优化的引物汇集物包含来自第三引物亚组的一个或多个引物和来自第五引物亚组的一个或多个引物。在一些实施方案中,优化的引物汇集物包含来自第一引物亚组的一个或多个引物、来自第三引物亚组的一个或多个引物和来自第五引物亚组的一个或多个引物。
在一些实施方案中,本文提供的方法包括在使用优化的引物汇集物或本文提供的寡核苷酸组合物,扩增靶多核苷酸以产生DNA测序文库后,对多个靶目的多核苷酸测序。
图4中显示一个装配本文提供的寡核苷酸组合物的示例性迭代方法。在图4的方法中,设计初始引物汇集物,例如,以计算方式设计,以从样品扩增预先选择的靶目的多核苷酸集合。Primer3软件用来为每个靶设计匹配测定法PCR条件的候选引物。基于多重PCR中其预测的彼此相互作用(例如二聚体形成和脱靶扩增),评定和过滤这些候选物。初始汇集物中的每个引物(P)包含TS和QCS(例如,每个引物包含完全随机化的QCS,QCS1)。然后测试初始引物汇集物单个引物扩增来自样品的靶目的多核苷酸的能力。可以从样品扩增靶目的多核苷酸的引物归属于第一引物亚组(P-TS-QCS)。不导致从样品扩增靶多核苷酸或仅导致低水平扩增的P-TS-QCS引物归属于第二引物亚组。随后对第二引物亚组的引物修饰其QCS(P-TS-QCS’)。例如,可以修饰亚组二的包含QCS1的P-TS-QCS引物,以将QCS1替换为QCS2。随后对第二亚组的修饰的引物(P-TS-QCS’)测试单个引物从样品扩增靶目的多核苷酸的能力。可以例如在第一亚组的P-TS-QCS引物存在下,在引物汇集物中测试P-TS-QCS’引物。可以从样品扩增靶目的多核苷酸的P-TS-QCS’引物归属于第三引物亚组。不导致从样品扩增靶目的多核苷酸或仅导致低水平扩增的P-TS-QCS’引物归属于第四引物亚组。随后修饰第四引物亚组的引物以并入ES(例如,在QCS的5'末端或3’末端上或在两个末端上)。随后对第四亚组的修饰的引物(P-TS-QCS’-ES)测试单个引物从样品扩增靶目的多核苷酸的能力。
可以例如在第一亚组的P-TS-QCS’引物或第三亚组的P-TS-QCS引物或这两者存在下,在引物汇集物中测试P-TS-QCS’-ES引物。可以从样品扩增靶目的多核苷酸的P-TS-QCS’-ES引物归属于第五引物亚组。不导致从样品扩增靶目的多核苷酸或仅导致低水平扩增的P-TS-QCS’-ES引物归属于第六引物亚组。第六引物亚组的引物可以任选地经历其它优化步骤,所述优化步骤例如可以涉及针对修饰的TS序列(TS’)重新设计TS-序列引物。TS’-引物(例如,P-TS’-QCS)可以经历图1中所示的引物汇集物优化方法的另一次迭代。备选地,可以将第六亚组的引物添加至优化的引物汇集物。示例性优化引物汇集物,例如,如图1中所示,可以包含第一引物亚组(P-TS)、第三引物亚组(P-TS-QCS)和第五引物亚组(P-TS-QCS-ES)中一些或全部的引物。
在一些实施方案中,本文提供的是一种扩增样品中多个靶多核苷酸的方法,所述方法包括a)选择多个靶目的多核苷酸;b)设计包含多个引物的初始引物汇集物以扩增多个多核苷酸,其中每个引物包含靶核酸特异性序列(TS)和第一质量控制序列(QCS1),其中QCS1中的每个核酸位置完全随机化;c)在第一扩增反应中分析多个引物,以鉴定到导致样品中靶核酸可检出性扩增的第一引物亚组并且鉴定到导致样品中靶核酸不可检出性扩增或最低限度可检出扩增的第二引物亚组;d)修饰第二引物亚组,以将QCS1替换为选自的QCS:QCS2,其中一个或多个核酸位置被部分随机化,QCS3,其中一个或多个核酸位置是固定的;QCS4,其中全部核酸位置均是固定的;QCS5,其中一个或多个核酸位置完全随机化并且一个或多个核酸位置被部分随机化;QCS6,其中一个或多个核酸位置完全随机化并且一个或多个核酸位置是固定的;QCS7,其中一个或多个核酸位置被部分随机化并且一个或多个核酸位置是固定的,和QCS8,其中一个或多个核酸位置完全随机化,一个或多个核酸位置被部分随机化,并且一个或多个核酸位置是固定的;e)在第二扩增反应中分析修饰的第二引物亚组,以鉴定到导致样品中靶核酸可检出性扩增的第三引物亚组并且鉴定到导致样品中靶核酸不可检出性扩增或最低限度可检出扩增的第四引物亚组;f)任选地修饰来自第四引物亚组的引物,以在引物中引入侧翼是QCS的5'末端(5’ES)或3’末端(3’ES)的延伸序列(ES);g)任选地在扩增反应分析修饰的第四引物亚组,以鉴定到导致样品中靶核酸可检出性扩增的第五引物亚组,和h)使用优化的引物汇集物,扩增样品中的多个靶核酸,所述优化的引物汇集物包含来自第一、第三或第五引物亚组的引物的组合。
在一些实施方案中,该方法包括迭代性修饰来自第一、第二、第三、或第四引物亚组的引物,直至已经鉴定可以可检出地扩增多个靶目的核酸的每一者的引物。
在一些实施方案中,该方法包括修饰来自第一、第二或第三引物亚组的引物,以在引物中添加侧翼有QCS的5'末端(5’ES)或3’末端(3’ES)的延伸序列(ES)。在包含接头序列(AS)的引物中,5’ES位于引物5'末端上的AS和QCS之间。3’ES一般位于QCS和TS之间。
在一些实施方案中,向(例如,第一、第二或第三亚组)的多个引物中的引物添加5’ES包括选择5’ES。在一些实施方案中,设计5’ES包括:鉴定多个引物中包含与测序用文库接头(例如,Illumina接头)互补的3’末端的全部引物并且选择不与已鉴定引物中的核酸序列互补的最短核酸序列作为向多个引物中引物待添加的ES。
在一些实施方案中,向(例如,第一、第二或第三亚组的)多个引物中的引物添加3’ES任选地包括选择ES的长度(例如,4个核酸);抛弃可能的3’ES,所述可能的3’ES至少部分地与靶多核苷酸序列上游由多个引物中的引物的TS识别的核酸序列互补;鉴定多个引物中的引物,其3’末端至少部分地互补多个引物中另一个引物的5'末端;选择多个引物中互补于最低数目潜在二聚体配偶的ES作为3’ES并且向鉴定的引物中添加该3’ES。
在一些实施方案中,该方法包括对扩增的多个靶核酸测序。
在一些实施方案中,使用优化的引物汇集物对多个靶核酸测序产生了多于50%、多于60%、多于70%、多于80%、多于90%、多于95%或多于99%的对齐的序列读段,并且使用初始引物汇集物对多个靶核酸测序产生了少于50%、少于40%、少于30%、少于20%、少于10%、少于5%、少于3%、少于1%或少于0.1%的对齐的序列读段。
在一些实施方案中,优化的引物汇集物包含一个或多个选自D16S359、D61043、DYS570、D19S433、PentaD、DYS576、AmelPP、DXS10135、D13S317、DYS389、D20S482、DXS10074、rs1805009、rs10776839、rs2831700、rs1042602和rs1058083、DYS392、D22S1045、DYS19、DYS456、DYS439和DYS635的引物。
表9的SEQ ID NO:403-415中提供含有QCS的修饰的引物序列的实例。标记为SEQID NO:403-415的序列包含接头序列(以小写体小显示)、QCS(作为NNNNN显示)和基因特异性序列(以大写斜体体显示)。
表9:用QCS修饰的引物序列的实例
Figure BDA0002386931700000561
表10的SEQ ID NO:416-428中提供含有QCS-ES的修饰的引物序列的实例。标记为SEQ ID NO:416-428的序列包含接头序列(以小写显示)、aSpacer-ES(以粗体显示)、QCS(作为随机核苷酸N或非随机核苷酸B、D或H显示)、gSpacer-ES(以粗加下划线体显示)和基因特异性序列(以大写斜体显示)。QCS中的非随机核苷酸服从IUPAC编码(B指C或G或T;D指A或G或T;H指A或C或T)。
表10:用QCS-ES修饰的引物序列的实例
Figure BDA0002386931700000562
简而言之,优化引物汇集物可以是例如在图4的流程图中所示的迭代过程。市售引物设计软件如Primer3可以用来针对PCR多重反应中的每个靶设计候选引物。可以由软件基于扩增反应中可能出现的预测的相互作用(例如,引物二聚体形成、脱靶扩增等),评定并过滤设计的引物。引物可以分成子汇集物用于实验测试和确定引物二聚体形成的发生,例如通过对齐测序用读段、在用于引物二聚体可视化的凝胶上运行扩增产物,或本领域已知的任何其他定性或定量方法体系。可以将表现不佳(例如形成引物二聚体)的引物替换为其他候选引物或可以将它们用可能减少引物二聚体形成的附加序列修饰;例如通过并入本文所述的QCS和/或ES序列来修饰。可以对新设计复验、测定引物二聚体形成、重新设计(如需要)、重新测定等,直至完成一组具有优化特征的引物。
在一些实施方案中,在并行过程中装配本文提供的寡核苷酸组合物。在并行过程中,可以对不同引物汇集物并行测试每个汇集物中每个引物从样品扩增靶目的多核苷酸的能力。不同汇集物中的引物可以设计成扩增相同的多个靶目的多核苷酸或重叠的多个靶目的多核苷酸。对于任何给定靶多核苷酸,设计成扩增靶多核苷酸的引物可以在不同汇集物中不同,例如,就其TS、QCS或存在或不存在ES方面不同。例如,针对靶多核苷酸A的引物(P(A))可以在第一汇集物中包含QCS1(P(A)-TS-QCS1)、在第二汇集物中包含QCS2(P(A)-TS-QCS2)并且在第三汇集物中包含ES(P(A)-TS-QCS1-ES)。每个引物汇集物可以包含针对一些或全部靶目的多核苷酸的多个引物,其中每个引物包含TS、QCS、任选地ES,其中多个引物包含QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8中的两个或更多个QCS。可以例如从并行测试的不同引物汇集物当中选择优化的引物汇集物,例如,作为扩增最大比例靶目的多核苷酸的引物汇集物。备选地,在初始轮次的测试后,一些或全部并行受测的引物汇集物可以进一步优化,例如,使用本文所述的迭代过程优化。在一些实施方案中,可以通过组合来自能够从样品扩增靶多核苷酸的不同汇集物的引物,产生优化的引物汇集物。
图5中显示装配本文提供的组合物的示例性并行过程。
在一些实施方案中,本文提供的方法可以包括从靶多核苷酸产生测序文库,其中使用优化的引物汇集物或本文提供的寡核苷酸组合物,从样品扩增所述靶多核苷酸。
本文所述的示例性实施方案出于说明目的提供细节并且经历多种结构和设计变动。然而,应当强调,本发明不限于显示或描述的具体公开的实施方案。可以理解,因为环境可能建议或使得可取,而构思等同物的多种省略和替换,但是这些省略和替换意在涵盖不脱离本发明权利要求的精神或范围的申请或实施。另外,应当理解本文中所用的措辞和术语意在描述并且不应当视为限制性。本文中术语“a(一)”、“an(一个)”和“the(该)”不指对量的限制,而是指存在至少一个所提及的对象。还将理解,在本说明书中使用时,术语“包含”和/或“包含着”说明存在所述特征、整数、步骤、操作、要素和/或组分,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、要素、组分和/或其组。
另外,如本领域技术人员将领会,本公开的各方面可以体现为系统、方法或计算机程序产品。因此,本发明的多个方面可以采取完全硬件实施方案或组合在本文中可以全部统称为“电路”、“模块”或“系统”的软件与硬件方面的实施方案的形式。此外,本公开的各方面可以采取一个或多个计算机可读取介质中体现的计算机程序产品形式,所述计算机可读取介质具有其上体现的计算机可读取程序代码。
可以利用一种或多种计算机可读取介质的任何组合。计算机可读取介质可以是计算机可读取存储介质。计算机可读取存储介质可以例如是,但不限于电子、磁、光学、电磁、红外或半导体系统、设备或装置或前述者的任何合适组合。计算机可读取存储介质的更具体实例(非排他性清单)将包括以下者:具有一根或多根金属线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)或类似的DVD-ROM和BD-ROM、光存储装置、磁存储装置或前述者的任何合适组合。在本文件的语境下,计算机可读取存储介质可以是任何有形介质,其可以含有或存储由指令执行系统、设备或装置使用或与之相连的程序。
可以使用任何适宜的介质,传输体现在计算机可读取介质上的程序代码,所述介质包括但不限于无线、有线、光纤电缆、RF等或前述者的任何合适组合。对本发明多个方面实施操作的计算机程序代码可以按一种或多种编程语言的任何组合书写,所述编程语言包括面向对象的编程语言如Java、Smalltalk、C++等和常规程序编程语言,如“C”编程语言或相似的编程语言。程序代码可以完全在用户的计算机上,部分地在用户的计算机上执行,作为单独软件包,部分地在用户的计算机上和部分地在远程计算机上执行,或完全在远程计算机或服务器上。在后面的场景下,远程计算机可以通过任何类型的网络与用户的计算机连接,所述网络包括局域网络(LAN)或广域网络(WAN),或可以制作面向外部计算机的接口(例如,使用互联网服务提供商通过互联网)。
下文参考本发明实施方案的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本公开的至少一些内容。应当理解流程图说明和/或框图的每个块和流程图说明和/或框图中的块组合可以由计算机程序指令实施。可以向通用目的计算机、专用目的计算机或其他可编程数据处理设备的处理器提供这些计算机程序指令,以产生这样的机器,从而通过计算机或其他可编程数据处理设备的处理器执行的指令创建用于实施一个或多个流程图和/或框图块中指定的功能/动作的手段。
这些计算机程序指令也可以存储在计算机可读取介质中,所述计算机可读取介质可以指导计算机、其他可编程数据处理设备或其他装置按特定方式发挥作用,从而存储在计算机可读取介质中的指令产生制造品,所述制造品包含用于实施一个或多个流程图和/或框图块中指定的功能/动作的指令。
计算机程序指令也可以加载于计算机、其他可编程数据处理设备或其他装置上,以引起一系列可运行步骤,待在计算机、其他可编程设备或其他装置上执行,旨在产生计算机实施的进程,从而在计算机或其他可编程装置上执行的指令提供用于实施一个或多个流程图和/或框图块中指定的功能/动作的进程。
从前述说明中,将显而易见,可以对本文所述的发明作出变更和修改以使其适应于各种用途和状况。这类实施方案也处于以下权利要求的范围内。
在变量的任何定义中对要素清单的引用在本文中包括将所述变量定义为任何单个要素或所列要素的组合(或次组合)。对本文中实施方案的描述包括作为任何单个实施方案或与任何其他实施方案或其部分组合的实施方案。
本说明书中提及的全部专利及出版物通过引用方式以相同的程度结合在此,如同专门且个别地指出通过引用的方式结合每份单独的专利和出版物。
通过说明方式而非限制方式提供以下实施例。
实施例
实施例1:QCS-ES修饰的引物减少二聚体
仅并入QCS序列时形成引物二聚体的多个引物还经历ES序列并入。使用ES序列,重新设计如下形成一组7个引物二聚体的引物。
Figure BDA0002386931700000591
Figure BDA0002386931700000601
图6A显示当PCR反应中使用QCS标记的釉原蛋白正向引物和rs1805009反向引物时的引物二聚体形成。图6B显示对釉原蛋白正向引物实施ES序列防止在PCR反应中使用时与rs1805009反向引物形成二聚体。
产生三个引物混合物:1)核心引物混合物(不受二聚化影响)、2)核心引物混合物加处于其QCS形式的受二聚化影响的引物和3)核心引物集合加处于其QCS+ES形式的受二聚化影响的引物。每个引物混合物中的引物终浓度由4nM每种STR引物和1nM每种SNP引物组成。
1ng对照DNA 2800M用于15μl PCR反应中,所述反应含有来自FORENSEQ DNA特征标识制备试剂盒(Illumina)的PCR1缓冲液和FEM酶混合物的以及适宜的引物混合物。如下进行PCR扩增:98℃3分钟,3个循环:98℃2分钟、54℃12分钟(0.2℃/秒递降)、72℃4分钟,并最终保持在10℃。一旦完成热循环,向15μl PCR反应添加6μl引物移除试剂(5μl单链结合蛋白(SSB,2μg/μl,Epicenter,E0160-2)、0.67μl RecJ(30U/μl,NEB,M0264L)和0.33μl保存液(50mM Tris-HCl(pH 7.5,100mM NaCl、50%甘油和水)。通过抽吸彻底混合后,将样品按以下方式温育:在37℃60分钟,95℃10分钟,10℃5分钟并最终保持在10℃。
通过添加26μl PCR2反应混合物,随后向PCR反应管添加2μl每种索引引物(FORENSEQ DNA特征标识制备试剂盒,Illumina),制备第二轮PCR反应。如下进行PCR扩增:95℃3分钟,34个循环:95℃30秒、66℃30秒和72℃1分钟,随后72℃5分钟,并最终保持在10℃。按照生产商在FORENSEQ DNA特征标识制备指导中的说明纯化测序用文库,例外是第一次温育在室温进行8分钟(而非5分钟)。
按照生产商的建议,使用高灵敏度NGS片段分析试剂盒,通过在FRAGMENTANALYZER自动化CE系统(Advanced Analytical)上运行文库,评估每种文库的质量和产率。基于5和1000bp之间的smear分析所获得的产率,将文库各自归一化至1.33nM。将文库汇集并根据生产商的推荐方案,使用351x 51bp运行,在MiSeq仪器(Illumina)上测序。
图7A显示对于6个已知的引物二聚体复合物,如与使用QCS+ES引物相比(右栏),使用QCS引物(左栏)时显示引物二聚体的测序用文库百分数。通过归属于该二聚体的读段数对文库中总数读段,计算引物二聚体(以y-轴上的%表述)。解析的引物二聚体形成针对以下引物而言:DYS392-fwd:rs2831700-rev、DYS576-fwd:D19S433-rev、任何引物:DXS10074-rev、釉原蛋白-fwd:rs1805009-rev、rs10776839-fwd:任何引物、rs1042602-fwd:D13S317-rev和任何:rs1058083-rev。添加ES序列导致引物二聚化减少。
图7B显示如与使用QCS+ES引物相比(右栏),使用QCS引物(左栏)时对齐读段的百分数。将读段对齐计算为与参比对齐的读段数对文库中的读段总数。随着引物二聚体数目因使用ES而减少,读段对齐增加。
实施例2:QCS-ES修饰的引物在低浓度输入模板时减少引物二聚体
甚至在相对低的引物浓度,引物二聚体形成可以是个问题。为了显示甚至在低输入模板浓度,QSC+ES引物减少引物二聚体,使用100pg对照DNA 2800M重复实施例1的实验。
图8显示使用对实施例1描述的三个引物混合物和100pg输入的DNA所制备的文库的FRAGMENT ANALYZER自动化CE系统(Advanced Analytical)迹线。图8A显示核心引物混合物的示例性片段分析仪迹线,未见已知的引物二聚体,如黑框中无明显的峰佐证。图8B显示核心引物混合物加处于其QCS形式的受二聚化影响的引物的FRAGMENT ANALYZER自动化CE系统(Advanced Analytical)迹线,所述迹线显示明显的二聚体,如黑框中众多的峰所佐证。图8C显示核心引物混合物加处于其QCS+ES形式的受二聚化影响的引物的FRAGMENTANALYZER自动化CE系统(Advanced Analytical)迹线。当QCS+ES引物混合物与核心引物一起使用时,黑框中几乎没有或没有可见的引物二聚体峰,与图8B中所见之相反。
实施例3:QCS-ES修饰的引物在降低的引物浓度时减少二聚体
当引物浓度受限时,引物二聚体形成可能更明显。为了显示甚至在低引物浓度,QSC+ES引物减少引物二聚体,使用减少的引物和1ng对照DNA 2800M重复实施例1的实验。每个引物混合物中的引物终浓度由2nM每种STR引物和0.5nM每种SNP引物组成。
图9显示使用对实施例1描述的三个引物混合物制备的文库的示例性FRAGMENTANALYZER自动化CE系统(Advanced Analytical)迹线,例外是每个引物混合物由2nM每种STR引物和0.5nM每种SNP引物和1ng输入的DNA组成。图9A显示核心引物混合物FRAGMENTANALYZER自动化CE系统(Advanced Analytical)迹线,黑框中无明显的引物二聚体。图9B显示核心引物混合物加处于其QCS形式的受二聚化影响的引物的FRAGMENT ANALYZER自动化CE系统(Advanced Analytical)迹线,所述迹线在黑框中显示明显量的二聚体。图9C显示核心引物混合物加处于其QCS+ES形式的受二聚化影响的引物的FRAGMENT ANALYZER自动化CE系统(Advanced Analytical)迹线。如与图9B相比,当QSC+ES引物混合物与核心引物一起使用时,黑框中存在少许或不存在引物二聚体峰,
实施例4:gSpacer和aSpacer的设计
图10显示设计gSpacer(ES在QCS的TS侧上)的示例性流程图。为了针对引物汇集物中目的引物(图10中称作引物X)设计有效gSpacer,预测在引物X的TS序列、其QCS和汇集物中有助于形成引物二聚体的其他引物的序列之间可能的稳定相互作用。gSpacer应当破坏引物X、其QCS和汇集物中其他引物之间的全部这类稳定相互作用。gSpacer不应当扩展引物X的TS序列的互补性至其预期退火位点且不应当改变引物X的退火温度。此外,gSpacer本身不应当提供与引物X的QCS一起导致与汇集物中其他引物发生新的稳定相互作用的序列。
首先,检查引物中据预测与引物X的TS序列及其QCS形成稳定相互作用的序列,并且排除不破坏这类相互作用的那些k聚物(长度k的全部可能寡聚体,其中k是gSpacer的预期长度,例如,4个核苷酸)。接下来,检查引物X退火位点的基因组侧翼上游的序列并且排除扩展引物X的互补性至其退火位点的任何k聚物。根据以下对通过该程序的前两步骤选择合格的gSpacers定序;(A)它们与汇集物中下述引物的序列的相似性,所述序列能够与引物X形成稳定相互作用;和(B)汇集物中互补(complement)所讨论的gSpacer并形成新二聚体的引物的数目。在一些实施方案中,降低引物X的QCS随机性以破坏有助于新引物二聚体形成的相互作用。
图12中的流程图显示本发明实施方案的步骤。在步骤S110中,可以接收引物序列。在步骤S120中,从引物序列确定禁忌种子(taboo seed)。这包括确定推定性二聚体配偶物的步骤130。在这个步骤,我们寻找与主引物方向相反并且还具有下述序列的引物,所述序列可能潜在地允许用我们的主引物形成可测序的二聚体。在一些实施方案中,主引物是按不可接受性高水平形成UMI介导的二聚体的引物,从而需要通过添加间隔区修饰引物以降低二聚体的丰度。目前为鉴定配偶物,主引物的前三个碱基(即,与主引物UMI毗邻的碱基)称作锚序列。寻找方向相反的具有完美锚匹配的引物。通常在二聚体形成期间,在锚匹配(称作锚突出端序列)后与碱基的互补性由主引物UMI提供(参见下文说明)。如果锚匹配和锚突出端形成5个或更长碱基的互补性区域(但不延长超出UMI),则这类引物对可以视为推定性二聚体配偶物。例如,这些是DXS10074-rev主引物的一些推定性配偶物(下文按出现顺序分别公开的SEQ ID NOS 429-436):
Figure BDA0002386931700000631
在另一方面,这些引物目前不视为DXS10074-rev的推定性配偶物(下文按出现顺序分别公开的SEQ ID NOS 437-440):
Figure BDA0002386931700000632
这里,与DYS505-fwd退火形成了少于5个碱基的互补段,从而我们不认为这种相互作用危险和/或用gSpacer方案可解决(还参见禁忌种子最小长度限制)。尽管与RS1800414-fwd的互补性长于5个碱基,但它实际上并不在3'末端完成,从而我们也不认为这种互补性危险和/或用gSpacer可解决。(注意,如果锚突出端的3'末端将实际上互补DXS10074-rev引物的接头部分,则将会通过aSpacer解决这种相互作用,参见下文)。
步骤S120可以包括步骤S140:从推定性二聚体配偶体确定过程来确定禁忌种子。预测推定性二聚体配偶物允许我们编纂禁忌种子(使k聚物不适宜作为间隔区的子序列)列表。例如,考虑DYS448-fwd:DXS10074-rev推定性二聚体(参见上文说明),我们可以看到,DXS10074-rev的gSpacer不应当以CC结尾,因为这类间隔区将不阻止与DYS448-fwd(以AAAGG结尾)形成5核苷酸完美互补区域。因此,CC子序列是一个禁忌种子,并且以CC结尾的k聚物是应当从gSpacer空间排除的禁忌序列。作为另一个实例,考虑rs12821256-fwd:DYS10074-rev推定性二聚体,我们可以看到,gSpacers不应当以TAA结尾,因为这种间隔区与DXS10074-rev接合将与rs12821256-fwd(以AAATTA结尾)产生一个6核苷酸互补段。因此还将TAA添加至禁忌种子列表。禁忌种子最小长度限制:原则上,我们可能已经具有1核苷酸禁忌种子,因为用gSpacer结尾破坏互补性可能足够减少二聚体形成。从上文的两个实施例(DYS448-fwd:DXS10074-rev和rs12821256-fwd:DXS10074-rev)中可见,'C'和'A'可以是1核苷酸禁忌种子。然而,这种将排除全部可能的gSpacer的半数,因为任何以'C'或'A'结尾的k聚物将视为禁忌序列。从而采用1核苷酸禁忌种子,我们非常迅速放松gSpacer空间并且以完全无间隔区为结束。这是为何实际上用gSpacer方案不可解决DYS505-fwd:DXS10074-rev类型相互作用的部分原因。
接下来,步骤S120可以包括步骤S150:基于主引物的基因组侧翼,向禁忌种子列表添加序列。例如,可以向禁忌种子添加来自基因组外侧翼的2个毗邻碱基对。我们不想要gSpacer将引物的基因特异性部分的互补性扩展至基因组DNA。因此,间隔区不应当包含、理想地甚至不部分地包含主引物的基因组侧翼序列。当前方案要考虑与引物紧邻的基因组侧翼的双核苷酸序列是禁忌种子。因此目前,从gSpacer空间排除以基因组侧翼的2核苷酸结尾的全部k聚物。
步骤S160包括产生候选gSpacer列表。这可以包括步骤S170:将禁忌种子填入禁忌序列中。禁忌种子可以短至2个碱基并且gSpacer长度可以如所需那样长。为了促进从gSpacer空间滤除含有k聚物的禁忌种子的程序(下一个步骤),我们首先将种子填入长度与我们想要设计的gSpacer相同的序列。例如,如果我们想要设计一个四个核苷酸长的gSpacer,则将3核苷酸禁忌种子GGG填入AGGG、TGGG、CGGG和GGGG禁忌序列。
该禁忌种子还可以具有短至1个碱基的长度,不过在实践中,采用法医引物汇集物时,如果基于与1核苷酸禁忌种子匹配来过滤k聚物,则k聚物空间可能迅速耗尽。对相对庞大的多重PCR引物汇集物而言,设定禁忌种子长度至2个核苷酸是实用决策,但是如果处理具有少数个引物的很小引物汇集物,则可以考虑设定禁忌种子最小长度至1个碱基。
步骤S160可以包括步骤S180:从gSpacer空间确定候选gSpacer。例如,在一些实施方案中,在获得含有禁忌种子的k聚物列表后,可以生成gSpacer空间(即4核苷酸长度的全部可能k聚物)并且可以通过移除含有种子的k聚物,将其缩减至候选gSpacers。
在上文描述的步骤中,可以确保候选gSpacer既不匹配推定性二聚体配偶物,也不匹配主配偶体的基因组侧翼。添加Spacer可以创造与那些碰巧匹配gSpacer序列本身的引物形成二聚体的机会。因此,步骤S190包括筛选最小化这类相互作用发生的可能性的候选gSpacer。
在步骤S192中,用候选gSpacers和引物汇集物中的引物计数新的相互作用。同时,步骤S194有益于通过不同机制选择最佳候选间隔区。至此,可以核实候选gSpacer无一匹配禁忌序列中任一者(可以在步骤S180期间做到这点)的事实,从而步骤S194可以包括选择这样的间隔区,所述间隔区不仅不精确地匹配禁忌序列,还尽可能远离禁忌序列(使用编辑距离作为度量标准)。
在步骤S192中,引物匹配计数器可以用来计数有多少相反取向的引物匹配我们的候选间隔区。额外或可选地,候选gSpacer可以依据匹配其序列的相反取向的引物的数目来定序(匹配的引物的数目越少–定序越好)。这种计算可以包括计数方向与主引物相反的引物数,其中所述引物在这些引物的8个最后核苷酸内部(即,在其3’末端,与右末端相同)与gSpacer的5'末端(即,gSpacer的左末端,其可以与“gSpacer的前三个碱基”相同)具有3核苷酸匹配。用户可以从定序间隔区列表选择这样的间隔区,其允许这类新gSpacer介导的二聚体的最小数目(它将打印在列表顶部),并且随后手工调节UMI中的随机性,以允许这些预测的二聚体。现在,对于待考虑与gSpacer匹配的引物,要求间隔区的前三个碱基的互补性。该范围可以是[1,5],其可以针对候选间隔区和汇集物中具有相反取向的引物之间可能的新的产生二聚体的相互作用来核查。在闭式范围的情况下(如本文中,数字封闭在[]中),它可以指其中范围的起点和终点为包含性的范围,即它们处于0基计数。在这个实例中,[1,5]可以意味着,我们正在寻找这样的gSpacer锚匹配(gSpacer锚长3个核苷酸),其始于从可能的二聚体配偶体序列的第2最后核苷酸(last nucleotide)起的任何地方直至始于第6最后核苷酸处(即,始于第6核苷酸处的匹配意指,引物二聚体配偶体的第6、第7和第8最后核苷酸互补gSpacer锚)。
步骤S192可以包括核查间隔区的[0,2]是否匹配始于位置[1,5]相反取向的反向互补引物。gSpacer的添加充当了gSpacer锚序列,这可以意指某gSpacer的毗邻于UMI序列的前三个核苷酸,即范围[0,2]内的核苷酸。即,对于gSpacer锚,范围[0,2]可以意指,gSpacer锚包含主引物的第1、第2和第3最前核苷酸(即,其5’或左末端)。检查锚匹配的指示跨度的范围可以意指检查匹配的开端。因此,检查[2,5]范围中的匹配意指该匹配可以始于第3核苷酸,并且在这种情况下,二聚体配偶体引物的第3、第4和第5最后核苷酸(即其3’或右末端)互补gSpacer锚序列。并且该匹配可以远达第6核苷酸开始,并且在这种情况下,二聚体配偶体的第6、第7和第8最后核苷酸将互补锚序列。
可以在步骤S194中依据其序列和禁忌序列之间距离(编辑距离)的总和(距离越大–越好)计算gSpacers。这种距离可以是测量两个序列之间差异的对齐度量标准,如Levenshtein距离。步骤S192和步骤S194可以计算在本文描述的随后步骤期间允许间隔区后续排序的度量标准。步骤S190可以包括步骤S196:输出候选gSpacer的结果。在一个实施方案中,可以将前20个候选gSpacer(使用任一个度量标准)打印成标准输出,连同这类度量标准一起,作为已匹配引物的数目(即潜在的新二聚体配偶物)和gSpacer长度和禁忌序列之间距离的总和。该输出的最末行可以含有最佳候选gSpacer(如依据匹配的引物的数目最少和距禁忌序列的距离最大判定)。
图11显示设计aSpacer的示例性流程图(ES在QCS的接头侧上)。在插图窗格上显示被aSpacer破坏的引物二聚体的类型。对于这种类型的引物二聚体,引物Y在其3′末端与引物X的接头序列具有互补性。由于引物X含有QCS,引物Y和接头的互补性可以由QCS扩展。在一些情况下,TS引物设计可以在其3′末端具有互补引物X的接头的短子串(例如1-3个核苷酸)。在这种情况下,引物X的完全随机化QCS可以扩展这种互补性并且在引物Y和X之间导致稳定相互作用,从而在PCR期间可能产生引物二聚体。为了针对引物X设计aSpacer,选择这样的序列,其并不完全互补汇集物中在其3′末端与引物X的接头序列具有互补性的任何引物。在其他实施方案中,可以选择破坏引物X的接头、其QCS和来自汇集物引物的单一选定引物或几个选定引物之间相互作用的aSpacer。
一些基因特异性引物序列具有一种或多种碱基互补性以终结接头序列,例如Illumina接头序列。UMI序列可以扩展这种互补性,因为UMI毗邻于UMI引物中的接头序列。aSpacer意在破坏UMI介导的接头互补性扩展(下文按出现顺序分别公开的SEQ ID NOS441-444)。
具有UMI的任何fwd引物
Figure BDA0002386931700000661
以上简图显示并入ACG aSpacer怎样破坏与DXS10074-rev形成二聚体。正向引物和反向引物的接头分别以紫色和黄色突出显示。UMI序列用黄色高亮显示并且aSpacer序列用'+'字符标记。
向SUMI的UMI并入并非特别随机性(not-so-randomness)
间隔区序列以如此方式选择,从而它们匹配多重中尽可能少的引物。但是,或许不可能找到不互补混合物中任何引物的间隔区。例如,CGCG序列在基因组中非常罕见并且可以是良好间隔区。然而,这类gSpacer锚的前三个碱基将互补PentaE-rev引物序列,并且从而PentaE-rev引物理论上可以与携带CGCG gSpacer的引物形成二聚体。为了能够使用CGCG间隔区并与此同时阻止PentaE-rev引物形成二聚体,我们可以减少SUMI中UMI的随机性。在PentaE-rev相互作用的实例中,将要把UMI中的最后核苷酸从N变成D(其是'A'、"G'或'T',但不是'C),以减少与SUMI引物的PentaE-rev二聚体(下文按出现顺序分别公开的SEQ IDNOS 445-448)。
具有CGCG间隔区的任何fwd引物
Figure BDA0002386931700000671
因此,在一些实施方案中,除选择在主引物和推定性引物二聚体配偶物之间的相互作用中引入不稳定性水平的最佳定序的间隔区之外,向主引物的分子标签施加并非特别随机性水平还增加主引物和其他引物之间相互作用的不稳定性。如果发现引物在始于引物的[1,5]最后核苷酸(即,其3’或右末端)的任何地方互补(complement)候选间隔区的前三个核苷酸,则根据一些实施方案,可以调节UMI的随机性以允许使用这类间隔区。从而阈值是针对在引物的最后八个核苷酸范围内间隔区的[0,2]个核苷酸完美匹配的要求(在这个步骤中,始于正好最后核苷酸的匹配更不相关,但是作为保守检查,可以对[0.5]范围检查可能的相互作用,并且反过来,作为约束更少和更收窄的检查,可以仅检查[2,5]范围。因此,不是分子标签在五位置的每个位置具有每种核苷酸的四种可能性,而是分子标签可以设计成具有一个或多个具有少于四种可能核苷酸的位置。
因此,本发明的实施方案可以包括一种确定核苷酸间隔区序列以破坏引物二聚体形成的计算机实施方法。这种方法可以包括接收引物序列集合。该方法还可以包括使用至少一个微处理器,确定引物序列的接头序列和基因特异性部分之间的多个候选间隔区。确定的多个候选间隔区可以包含破坏引物序列集合的各序列之间稳定相互作用的序列。该方法可以包括使用至少一个微处理器,排序延伸序列中符合稳定相互作用预定阈值的候选间隔区。该方法可以包括输出符合预定阈值的定序间隔区集合。
在该方法中,多个间隔区可以在分子标签部分和引物序列的接头序列与基因特异性部分中一者之间。
在该方法中,确定间隔区序列的步骤可以包括确定侧翼有分子标签第一侧的基因特异侧序列。
确定间隔区序列的步骤还可以包括确定侧翼有分子标签第二侧的接头侧序列。
确定候选间隔区的步骤可以包括使用至少一个微处理器,基于互补引物的序列,确定禁忌种子;和从候选间隔区移除包含禁忌种子的序列。确定候选间隔区的步骤可以包括更新侧翼有来自基因组外侧翼的毗邻碱基对序列的禁忌种子。
候选间隔区列表排序步骤可以基于候选间隔区和禁忌序列之间的对齐编辑距离。
引物列表排序步骤可以包括核查间隔区序列的一部分是否匹配反向逆转的互补性引物。排序步骤还可以包括根据定序间隔区集合的排序,将分子标签设计成为并非完全随机。
Figure IDA0002386931770000011
Figure IDA0002386931770000021
Figure IDA0002386931770000031
Figure IDA0002386931770000041
Figure IDA0002386931770000051
Figure IDA0002386931770000061
Figure IDA0002386931770000071
Figure IDA0002386931770000081
Figure IDA0002386931770000091
Figure IDA0002386931770000101
Figure IDA0002386931770000111
Figure IDA0002386931770000121
Figure IDA0002386931770000131
Figure IDA0002386931770000141
Figure IDA0002386931770000151
Figure IDA0002386931770000161
Figure IDA0002386931770000171
Figure IDA0002386931770000181
Figure IDA0002386931770000191
Figure IDA0002386931770000201
Figure IDA0002386931770000211
Figure IDA0002386931770000221
Figure IDA0002386931770000231
Figure IDA0002386931770000241
Figure IDA0002386931770000251
Figure IDA0002386931770000261
Figure IDA0002386931770000271
Figure IDA0002386931770000281
Figure IDA0002386931770000291
Figure IDA0002386931770000301
Figure IDA0002386931770000311
Figure IDA0002386931770000321
Figure IDA0002386931770000331
Figure IDA0002386931770000341
Figure IDA0002386931770000351
Figure IDA0002386931770000361
Figure IDA0002386931770000371
Figure IDA0002386931770000381
Figure IDA0002386931770000391
Figure IDA0002386931770000401
Figure IDA0002386931770000411
Figure IDA0002386931770000421
Figure IDA0002386931770000431
Figure IDA0002386931770000441
Figure IDA0002386931770000451
Figure IDA0002386931770000461
Figure IDA0002386931770000471
Figure IDA0002386931770000481
Figure IDA0002386931770000491
Figure IDA0002386931770000501
Figure IDA0002386931770000511
Figure IDA0002386931770000521
Figure IDA0002386931770000531
Figure IDA0002386931770000541
Figure IDA0002386931770000551
Figure IDA0002386931770000561
Figure IDA0002386931770000571
Figure IDA0002386931770000581
Figure IDA0002386931770000591
Figure IDA0002386931770000601
Figure IDA0002386931770000611
Figure IDA0002386931770000621
Figure IDA0002386931770000631
Figure IDA0002386931770000641
Figure IDA0002386931770000651
Figure IDA0002386931770000661
Figure IDA0002386931770000671
Figure IDA0002386931770000681
Figure IDA0002386931770000691
Figure IDA0002386931770000701
Figure IDA0002386931770000711
Figure IDA0002386931770000721
Figure IDA0002386931770000731
Figure IDA0002386931770000741
Figure IDA0002386931770000751
Figure IDA0002386931770000761
Figure IDA0002386931770000771
Figure IDA0002386931770000781

Claims (26)

1.一种寡核苷酸组合物,包含多个引物,每个引物包含靶核酸特异性序列(TS)并且其中多个引物包含两个或更多个质量控制序列(QCS),所述质量控制序列选自
第一QCS(QCS1),其中每个核酸位置完全随机化,
第二QCS(QCS2),其中一个或多个核位置部分地随机化,
第三QCS(QCS3),其中一个或多个核酸位置是固定的,
第四QCS(QCS4),其中全部核酸位置均是固定的,
第五QCS(QCS5),其中一个或多个核酸位置完全随机化并且一个或多个核酸位置被部分随机化,
第六QCS(QCS6),其中一个或多个核酸位置完全随机化并且一个或多个核酸位置是固定的,
第七QCS(QCS7),其中一个或多个核酸位置被部分随机化并且一个或多个核酸位置是固定的,和
第八QCS(QCS8),其中一个或多个核酸位置完全随机化,一个或多个核酸位置被部分随机化,并且一个或多个核酸位置是固定的。
2.根据权利要求1所述的寡核苷酸组合物,其中多个引物包含3、4、5、6、7或8个选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS。
3.根据权利要求2所述的寡核苷酸组合物,其中一个或多个引物的QCS侧翼有一个或两个延伸序列(ES)。
4.根据权利要求3所述的寡核苷酸组合物,其中一个或多个引物在QCS的5'末端上包含接头序列(AS)。
5.根据权利要求4所述的寡核苷酸组合物,其中一个或多个引物包含在AS和QCS之间之间的ES(AES)或在QCS和TS之间的ES(TES)。
6.根据权利要求3所述的寡核苷酸组合物,其中ES是固定的序列。
7.根据权利要求3所述的寡核苷酸组合物,其中ES包含具有1和10个碱基之间的序列。
8.根据权利要求7所述的寡核苷酸组合物,其中ES包含具有2和5个碱基之间的序列。
9.根据权利要求3所述的寡核苷酸组合物,其中侧翼有ES的QCS是QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7或QCS8。
10.根据权利要求1所述的寡核苷酸组合物,其中QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7、或QCS8包含3-12个碱基的序列。
11.根据权利要求1所述的寡核苷酸组合物,其中多个引物包含约4个引物至约5000个引物之间。
12.根据权利要求11所述的寡核苷酸组合物,其中多个引物包含约4个引物至约550个引物之间。
13.根据权利要求11所述的寡核苷酸组合物,其中多个引物中对的至少一个正向引物包含选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8的QCS,并且其中多个引物对中的至少一个反向引物包含选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS 8的QCS。
14.根据权利要求1所述的寡核苷酸组合物,其中一个或多个引物的TS与侧翼有短串联重复序列(STR)区域的区域互补。
15.根据权利要求1所述的寡核苷酸组合物,其中多个引物包含一个或多个选自D16S359、D61043、DYS570、D19S433、PentaD、DYS576、AmelPP、DXS10135、D13S317、DYS389、D20S482、DXS10074、rs1805009、rs10776839、rs2831700、rs1042602、rs1058083、DYS392、D22S1045、DYS19、DYS456、DYS439和DYS635的引物。
16.用于装配本文提供的寡核苷酸组合物的方法,包括:
a)提供包含多个引物的初始引物汇集物,其中每个引物包含靶序列;
b)使用初始引物汇集物从样品扩增靶多核苷酸;
c)鉴定初始引物汇集物中的引物亚组,其中扩增产物导致不精确的等位比率或引物二聚体形成增加;
d)修饰引物亚组中的一个或多个引物
其中修饰包括:
i)修饰一个或多个引物以包括质量控制序列(QCS);
ii)修饰一个或多个QCS以包括一个或多个延伸序列(ES);
e)用修饰的引物重复步骤b-d直至扩增产物导致准确的等位比率或引物二聚体形成减少;
因而产生优化的引物汇集物。
17.根据权利要求16所述的方法,其中用来修饰初始引物汇集物中的引物的QCS选自QCS1、QCS2、QCS3、QCS4、QCS5、QCS6、QCS7和QCS8。
18.确定核苷酸间隔区序列以破坏引物二聚体形成的计算机实施方法,包括:
接收引物序列集合;
使用至少一个微处理器,确定引物序列的接头序列和基因特异性部分之间的多个候选间隔区,确定的多个候选间隔区包含破坏引物序列集合的序列之间稳定相互作用的序列;
使用至少一个微处理器,计算延伸序列中符合稳定相互作用预定阈值的候选间隔区集合;以及
输出符合预定阈值的定序间隔区集合。
19.根据权利要求18所述的方法,其中多个间隔区在分子标签和引物序列的接头序列与基因特异性部分中一者之间。
20.根据权利要求19所述的方法,其中确定间隔区序列包括确定侧翼有分子标签第一侧的基因特异侧序列。
21.根据权利要求20所述的方法,其中确定间隔区序列包括确定侧翼有分子标签第二侧的接头侧序列。
22.根据权利要求21所述的方法,其中确定候选间隔区包括:
使用至少一个微处理器,基于互补引物的序列,确定禁忌种子;和
从候选间隔区移除包含禁忌种子的序列。
23.根据权利要求22所述的方法,其中计算候选间隔区集合包括更新侧翼有来自基因组外侧翼的毗邻碱基对序列的禁忌种子。
24.根据权利要求23所述的方法,其中基于候选间隔区和禁忌序列之间的对齐编辑距离,计算候选间隔区集合。
25.根据权利要求18所述的方法,其中计算候选间隔区集合包括核查间隔区序列的一部分是否匹配反向逆转的互补性引物。
26.根据权利要求25所述的方法,还包括根据计算的间隔区集合的输出,将分子标签设计成不完全随机。
CN201880053783.6A 2017-06-20 2018-06-13 解决扩增反应中低效的方法和组合物 Pending CN111032882A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762522543P 2017-06-20 2017-06-20
US62/522,543 2017-06-20
PCT/US2018/037203 WO2018236631A1 (en) 2017-06-20 2018-06-13 METHODS AND COMPOSITIONS FOR RESOLVING INEFFICIENCY IN AMPLIFICATION REACTIONS

Publications (1)

Publication Number Publication Date
CN111032882A true CN111032882A (zh) 2020-04-17

Family

ID=62779150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880053783.6A Pending CN111032882A (zh) 2017-06-20 2018-06-13 解决扩增反应中低效的方法和组合物

Country Status (4)

Country Link
US (2) US11702654B2 (zh)
EP (1) EP3642362A1 (zh)
CN (1) CN111032882A (zh)
WO (1) WO2018236631A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786107A (zh) * 2021-01-20 2021-05-11 深圳百人科技有限公司 一种针对复合扩增str数据的分析方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11702654B2 (en) 2017-06-20 2023-07-18 Illumina, Inc. Methods and compositions for addressing inefficiencies in amplification reactions

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090099040A1 (en) * 2007-10-15 2009-04-16 Sigma Aldrich Company Degenerate oligonucleotides and their uses
WO2014028778A1 (en) * 2012-08-15 2014-02-20 Natera, Inc. Methods and compositions for reducing genetic library contamination
US20160319345A1 (en) * 2015-04-28 2016-11-03 Illumina, Inc. Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
CN106164298A (zh) * 2014-02-18 2016-11-23 伊鲁米那股份有限公司 用于dna谱系分析的方法及组合物
US20160355879A1 (en) * 2003-03-07 2016-12-08 Rubicon Genomics, Inc. Amplification and analysis of whole genome and whole transcriptome libraries generated by a dna polymerization process
US20160362748A1 (en) * 2015-06-09 2016-12-15 Life Technologies Corporation Methods, systems, compositions, kits, apparatus and computer-readable media for molecular tagging

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP1975251A3 (en) 2000-07-07 2009-03-25 Visigen Biotechnologies, Inc. Real-time sequence determination
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
ES2407681T3 (es) 2002-08-23 2013-06-13 Illumina Cambridge Limited Nucleótidos modificados para la secuenciación de polinucleótidos.
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3373174A1 (en) 2006-03-31 2018-09-12 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
EP4134667A1 (en) 2006-12-14 2023-02-15 Life Technologies Corporation Apparatus for measuring analytes using fet arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
SI3623481T1 (sl) 2011-09-23 2022-01-31 Illumina, Inc. Sestavki za sekvenciranje nukleinske kisline
CA2867665C (en) 2012-04-03 2022-01-04 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
WO2017117541A1 (en) 2015-12-31 2017-07-06 Northeastern University Sequencing methods
CN106282353B (zh) 2016-08-26 2019-12-10 上海翼和应用生物技术有限公司 一种利用发夹引物进行多重pcr的方法
US11702654B2 (en) 2017-06-20 2023-07-18 Illumina, Inc. Methods and compositions for addressing inefficiencies in amplification reactions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160355879A1 (en) * 2003-03-07 2016-12-08 Rubicon Genomics, Inc. Amplification and analysis of whole genome and whole transcriptome libraries generated by a dna polymerization process
US20090099040A1 (en) * 2007-10-15 2009-04-16 Sigma Aldrich Company Degenerate oligonucleotides and their uses
WO2014028778A1 (en) * 2012-08-15 2014-02-20 Natera, Inc. Methods and compositions for reducing genetic library contamination
CN106164298A (zh) * 2014-02-18 2016-11-23 伊鲁米那股份有限公司 用于dna谱系分析的方法及组合物
US20160319345A1 (en) * 2015-04-28 2016-11-03 Illumina, Inc. Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
US20160362748A1 (en) * 2015-06-09 2016-12-15 Life Technologies Corporation Methods, systems, compositions, kits, apparatus and computer-readable media for molecular tagging

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786107A (zh) * 2021-01-20 2021-05-11 深圳百人科技有限公司 一种针对复合扩增str数据的分析方法

Also Published As

Publication number Publication date
EP3642362A1 (en) 2020-04-29
WO2018236631A1 (en) 2018-12-27
US11702654B2 (en) 2023-07-18
US20200190510A1 (en) 2020-06-18
US20230416730A1 (en) 2023-12-28

Similar Documents

Publication Publication Date Title
US11530446B2 (en) Methods and compositions for DNA profiling
US11214798B2 (en) Methods and compositions for rapid nucleic acid library preparation
KR102210852B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
EP2619327B1 (en) Increasing confidence of allele calls with molecular counting
AU2018240559A1 (en) Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing
CN110777195A (zh) 采用一组snp的人身份识别
US20230416730A1 (en) Methods and compositions for addressing inefficiencies in amplification reactions
JP2022505050A (ja) プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬
CN111357054A (zh) 用于区分体细胞变异和种系变异的方法和系统
CN110869515A (zh) 用于基因组重排检测的测序方法
JP2022516307A (ja) 多重コピー数変異検出および対立遺伝子比定量化のための定量的アンプリコン配列決定
US11718873B2 (en) Correcting for deamination-induced sequence errors
CN110894531A (zh) 用于猪的str基因座集及用途
JP2023516299A (ja) 父子判定のための組成物、方法、およびシステム
US20200071754A1 (en) Methods and systems for detecting contamination between samples
US20240141425A1 (en) Correcting for deamination-induced sequence errors
WO2024054517A1 (en) Methods and compositions for analyzing nucleic acid
WO2023158739A2 (en) Methods and compositions for analyzing nucleic acid
Wu Investigating stutter characteristics via isoalleles in massively parallel sequencing of a family pedigree
Anekpuritanang et al. Introduction to Next-Generation Sequencing
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
WO2022192189A1 (en) Methods and compositions for analyzing nucleic acid
CN116490621A (zh) 鉴定移植物排斥的标志物的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination