CN111683958A

CN111683958A - 使用多重抑制探针置换扩增进行等位基因富集的系统和方法

Info

Publication number: CN111683958A
Application number: CN201980012183.XA
Authority: CN
Inventors: D·Y·张; 宋萍; 陈曦
Original assignee: William Marsh Rice University
Current assignee: William Marsh Rice University
Priority date: 2018-02-20
Filing date: 2019-02-20
Publication date: 2020-09-18
Also published as: WO2019164885A1; US20210024989A1; EP3759118A4; EP3759118A1

Abstract

本文提供用于同时富集在不同遗传基因座处的许多潜在罕见遗传变体的试剂和方法。富集的所述罕见变体可包括单核苷酸多态性(SNP)、单核苷酸变体或小的插入和缺失。本发明的实施方案包括用于与下游下一代测序(NGS)分析整合的程序。本发明的实施方案包括使用qPCR或NGS分析非致病性SNP以用于确定细胞身份和检测细胞污染。

Description

使用多重抑制探针置换扩增进行等位基因富集的系统和方法

相关申请的引用

本申请要求2018年2月20日提交的美国临时申请号62/632,712和2018年3月28日提交的美国临时申请号62/649,138的优先权，其全部内容以引用的方式并入本文。

关于联邦政府赞助研究的声明

本发明是根据国家卫生研究所授予的授权号R01 CA203964在政府支持下进行的。政府对本发明具有一定的权利。

序列表的参考

本申请含有序列表，所述序列表以ASCII格式通过EFS-Web提交并且由此以引用的方式整体并入。所述ASCII副本(创建于2019年2月15日)被命名为RICEP0042WO_ST25.txt并且大小为88千字节。

发明背景

1.技术领域

本发明大体上涉及分子生物学的领域。更具体地，本发明涉及用于多重富集具有低VAF的许多不同序列变异的组合物和方法。

2.背景技术

基因组DNA中的序列变异包括可共同地将个体彼此区分开的非致病性单核苷酸多态性(SNP)、可造成遗疾病或增加其可能性的致病性种系突变以及造成癌症的致病性体细胞突变。难以区分这些序列变异的技术强烈取决于含有变异的DNA的分数(变体等位基因分数；VAF)和需要同时剖析的变异的数目。

对于剖析在相对高的VAF(例如，5％)下的少量序列变异(<5)，定量PCR为用于许多FDA批准的或明确的诊断测试的标准方法。对于剖析在相对高的VAF下的许多(1000+)序列变异，微阵列或低深度下一代测序(NGS)为商业上优选的方法。对于剖析在非常低的VAF(例如，<0.1％)下的少量序列变异，正在开发用独特分子条形码的数字微滴PCR和超深度NGS。但是，同时剖析各自在可能低的VAF下的许多序列变异仍然为重大挑战，因为微阵列缺乏对低VAF的灵敏度，数字PCR不可通过非常小的数目进行多路复用，并且当应用于许多可能的突变时，超深度NGS非常慢且成本高昂。

发明内容

本文提供了同时将具有低VAF的许多不同序列变异富集100倍或更多倍的试剂和方法。例如，初始在0.1％VAF下的序列变异可被富集至10％VAF或更高，从而实现通过低深度NGS或微阵列在高度多重环境中进行剖析。这些方法的应用包括在液体活检环境中检测细胞系污染并分析罕见癌症突变。

在一个实施方案中，本文提供了用于同时扩增在至少10个遗传基因座处的等位基因变体的方法，所述方法包括：(a)将包含DNA的样品与DNA聚合酶和针对每个遗传基因座的抑制探针置换扩增(blocker displacement amplification；BDA)寡核苷酸集(oligo set)混合，每个BDA寡核苷酸集包含(i)BDA正向引物、(ii)BDA抑制探针和(iii)BDA反向引物，其中在每个BDA正向引物序列的3’末端处的至少四个核苷酸还存在于其相应的BDA抑制探针序列的5’末端处或附近，其中每个BDA抑制探针含有防止通过DNA聚合酶而延伸的3’序列或修饰，并且其中每个BDA抑制探针的浓度为其相应的BDA正向引物的浓度的至少两倍；以及(b)对混合物进行至少四次扩增循环，从而产生扩增子。在一些方面中，所述方法同时扩增在10个与1,000,000个之间的遗传基因座处的等位基因变体。在一些方面中，DNA包括在所述遗传基因座中的至少一个处的等位基因变体。

在一些方面中，混合物中的所有BDA正向引物的最终浓度的总和多于50纳摩尔且小于50微摩尔。在一些方面中，步骤(b)中的每个扩增循环包括：(i)在75℃与105℃之间的温度下持续1秒与300秒之间的变性步骤；以及(ii)在45℃与75℃之间的温度下持续15秒与3小时之间的退火步骤。在一些方面中，DNA聚合酶为高保真DNA聚合酶，诸如像Phusion、NEBQ5或Kapa HiFi。在某些方面中，DNA聚合酶具有3’至5’外切核酸酶活性。在某些方面中，每个BDA抑制探针具有防止3’至5’外切核酸酶活性的3’修饰。在某些方面中，防止3’至5’外切核酸酶活性的3’修饰包括倒置(inverted)DNA核苷酸、硫代磷酸酯主链、一个或多个碳间隔区或一个或多个聚乙二醇(PEG)间隔区。在一些方面中，步骤(a)还包括混合当与双链DNA结合时选择性发荧光的嵌入染料，诸如像SybrGreen、EvaGreen或Syto染料。

在一些方面中，所述方法还包括(c)按大小选择通过步骤(b)所产生的扩增子。在某些方面中，选择是使用亲和珠、亲和柱、凝胶电泳或毛细管电泳进行的。

在一些方面中，所述方法还包括(d1)使用具有下一代测序(NGS)衔接子和/或样品索引序列的引物通过聚合酶链反应来扩增大小选择的扩增子，从而产生衔接子和/或样品索引修饰的扩增子。在一些方面中，所述方法还包括(d2)将具有下一代测序(NGS)衔接子和/或样品索引序列的寡核苷酸连接到大小选择的扩增子的两个末端，从而产生衔接子和/或样品索引修饰的扩增子。

在一些方面中，所述方法还包括(e)对衔接子和/或样品索引修饰的扩增子进行下一代测序。

在一些方面中，每个BDA反向引物的浓度是基于先前校准NGS实验的读段分析来确定的，其中每个BDA反向引物的浓度相对于用于先前校准NGS实验的浓度而增加。在某些方面中，每个BDA反向引物的浓度均遵循式：[rP]新＝[rP]旧*(读段_中位数/读段_扩增子)^X，其中[rP]旧为反向引物的先前浓度，读段_中位数为映射至每个扩增子的中位数读段，读段_扩增子为映射至对应于所述反向引物的扩增子的读段，并且X为在0.25与1之间的调整因子。

在一些方面中，每个BDA正向引物的浓度是基于先前校准NGS实验的读段分析来确定的，其中每个BDA正向引物的浓度相对于用于先前校准NGS实验的浓度而增加。在某些方面中，每个BDA正向引物的浓度均遵循式：[fP]新＝[fP]旧*(读段_中位数/读段_扩增子)^X，其中[fP]旧为先前正向引物的浓度，读段_中位数为映射至每个扩增子的中位数读段，读段_扩增子为映射至对应于所述正向引物的扩增子的读段，并且X为在0.25与1之间的调整因子。

在一个实施方案中，本文提供了用于设计针对感兴趣的基因座组的BDA寡核苷酸集的序列的方法，每个寡核苷酸集包含BDA正向引物、BDA抑制探针和BDA反向引物，所述方法包括：(1)选择用作感兴趣的基因座组的BDA模板的(+)或(-)DNA链；(2)去除需要不相容富集区的基因座；(3)创建每个剩余基因座的候选BDA正向引物、BDA抑制探针和BDA反向引物的列表；(4)从每个基因座的候选列表选择随机BDA正向引物、BDA抑制探针和BDA反向引物；(5)针对所有选择的BDA正向引物、BDA抑制探针和BDA反向引物的集合评估引物二聚体形成的可能性；(6)用(3)的其他候选序列替换步骤(5)中鉴别为形成引物二聚体的一些BDA正向引物、BDA抑制探针或BDA反向引物；以及(7)重复步骤(5)和(6)持续固定数目的循环或直到步骤(6)中的评估返回可接受的结果为止。

在一些方面中，BDA寡核苷酸集用于同时扩增在多个基因组基因座处的等位基因变体。在一些方面中，步骤(5)中的评估包括评估所有可能的BDA正向引物、BDA抑制探针和BDA反向引物对的3’-最末端4-8个核苷酸之间的潜在反向互补性。在一些方面中，步骤(5)中的评估包括评估所有可能的BDA正向引物、BDA抑制探针和BDA反向引物对的长度为6-10个核苷酸的任何连续子序列之间的潜在反向互补性。

在一个实施方案中，本文提供了用于分析通过本发明实施方案的方法所生成的NGS读段的方法，所述方法包括：(a)去除质量低于集合质量阈值的读段序列；(b)将剩余的读段序列与预期的野生型扩增子序列进行比对；(c)鉴别读段序列中与富集区中的对应野生型扩增子序列不同的每个变异；(d)计算与对应于每个变异的每个扩增子对齐的读段序列的分数；以及(e)丢弃对应于计算分数低于集合阈值的变异的读段。

在一些方面中，步骤(e)中的阈值为0.1％与10％之间。在一些方面中，所述方法还包括通过使用式VAF＝RF/(E*(1-RF)+RF)来计算步骤(e)中未丢弃的每个变异的变体等位基因分数(VAF)，其中E为变异的预期倍数富集并且RF为变异的观察读段分数。在某些方面中，基于校准实验使用在已知VAF下带有所述变体的参考样品确定一些变体的E值。在某些方面中，基于野生型序列、变体序列和位于变体序列上游50nt和下游50nt的序列的核苷酸同一性(例如，基于类似序列的E值的统计或机器学习)来确定一些变体的E值。在某些方面中，所述方法还包括通过取得3种或更多种不同变体的推测VAF值的中位数来计算异质细胞样品的少数细胞型的分数的定量估计值。在一些方面中，所述方法还包括通过取得3种或更多种不同变体的推测VAF值的平均值来计算异质细胞样品的少数细胞型的分数的定量估计值。

在一个实施方案中，本文提供了寡核苷酸分子水溶液，所述溶液包含至少10个BDA寡核苷酸集，每个BDA寡核苷酸集包含：(i)BDA正向引物、(ii)BDA抑制探针和(iii)BDA反向引物，其中在每个BDA正向引物序列的3’末端处的至少四个核苷酸还存在于其对应的BDA抑制探针序列的5’末端处或附近，其中每个BDA抑制探针含有防止通过DNA聚合酶而延伸的3’序列或修饰，并且其中每个BDA抑制探针的浓度为其对应的BDA正向引物的浓度的至少两倍，其中每个BDA抑制探针与带有替代等位基因的群体频率为10％与90％之间的单核苷酸多态性(SNP)的基因组区互补，并且其中每个对应的BDA正向引物不与SNP基因座互补。在一些方面中，所述溶液包含10个与1,000,000个之间的BDA寡核苷酸集。在一些方面中，没有BDA正向引物并且没有BDA反向引物与替代等位基因的群体频率高于1％的任何SNP互补。在一些方面中，每个BDA反向引物结合的基因组位置均位于远离其对应的BDA正向引物结合的基因组位置100nt与500nt之间。在一些方面中，在60℃下，在0.18M Na+中，每个BDA正向引物与其对应的补体结合的计算ΔG°’全部在彼此的2kcal/mol内。在一些方面中，在60℃下，在0.18M Na+中，每个BDA抑制探针与其对应的补体结合的计算ΔG°为0.5kcal/mol与3.5kcal/mol之间，比对应的BDA正向引物与其补体之间的结合的ΔG°有利。

在一个实施方案中，本文提供了用于检测基础细胞系的污染的方法，所述方法包括：(a)从细胞样品中提取出基因组DNA；(b)将基因组DNA与DNA聚合酶、dNTP和本发明实施方案中任一项的水溶液混合；(c)对混合物进行至少四次扩增循环，从而产生扩增子；以及(d)分析扩增反应或扩增子混合物。在一些方面中，SNP为非致病性的。在一些方面中，BDA抑制探针与基础细胞系的SNP等位基因选择性杂交。在一些方面中，BDA抑制探针不与基础细胞系的SNP等位基因选择性杂交。

在一些方面中，步骤(c)中的每个扩增循环包括：(i)在75℃与105℃之间的温度下持续1秒与300秒之间的变性步骤；以及(ii)在45℃与75℃之间的温度下持续15秒与3小时之间的退火步骤。在一些方面中，步骤(b)还包括将基因组DNA与当与双链DNA结合时选择性发荧光的嵌入染料混合。在一些方面中，在步骤(c)中进行10次与80次之间的扩增循环。在一些方面中，步骤(d)包括将扩增循环阈值(Ct)与参考值相比较。

在一些方面中，步骤(b)还包括将基因组DNA与内部对照引物集和内部对照的Taqman探针混合，并且其中参考值为内部对照的Taqman探针得出的Ct值。在某些方面中，进行至少3次基因组DNA样品的等分试样，并且其中步骤(d)中的分析是基于中位数嵌入染料Ct值与中位数Taqman探针Ct值之间的差进行的。在某些方面中，进行至少3次基因组DNA样品的等分试样，并且其中分析是基于平均嵌入染料Ct值与平均Taqman探针Ct值之间的差进行的。

在一些方面，步骤(d)包括：(i)使用步骤(c)中产生的扩增子制备基础的NGS文库；(ii)对NGS文库进行高通量测序以获得NGS读段；以及(iii)解释NGS读段。在某些方面中，BDA抑制探针与基础细胞系的SNP等位基因选择性杂交，并且其中如果NGS读段的分析指示与基础细胞样品SNP等位基因不同的任何SNP等位基因的存在高于阈值读段分数，则获得污染的阳性结果。在某些方面中，阈值读段分数为0.1％与10％之间。在某些方面中，所述方法还包括基于检测的SNP等位基因与基础细胞系的SNP等位基因不同的模式来鉴别污染物。在某些方面中，BDA抑制探针不与基础细胞系的SNP等位基因选择性杂交，并且其中如果NGS读段的分析指示污染物SNP等位基因的存在高于阈值读段分数，则获得污染的阳性结果。在某些方面中，阈值读段分数为0.1％与10％之间。

在一个实施方案中，本文提供了包含至少30个非致病性SNP的非致病性SNP组套(panel)，其中每个SNP具有群体频率为10％与90％之间的替代等位基因，其中每个SNP对在不同的染色体上或具有至少2,000个核苷酸的基因组距离，其中SNP上游50个核苷酸和下游50个核苷酸的序列在生物体基因组内是独特的。在一些方面中，所述组套用于验证个体或生物体的基因组身份。在一些方面中，如果生物体基因组中没有其他区与SNP上游50个核苷酸和下游50个核苷酸的序列具有大于90％的同源性，那么所述序列在生物体基因组内是独特的。在一些方面中，每个SNP具有群体频率为20％与80％之间的替代等位基因。在一些方面中，生物体为智人。在一些方面中，所述组套包含人基因组中22对常染色体中的每一个的SNP。

在一个实施方案中，本文提供了制备本发明实施方案中任一项的组套的方法，所述方法包括：(a)获得具有确切基因组位置和群体频率估计值的候选SNP的列表；(b)去除具有群体频率低于10％或高于90％的替代等位基因的候选SNP；(c)从剩余列表中随机选择所需SNP的数目的大约两倍，其中随机选择的SNP与位于同一染色体上的任何其他随机选择的SNP间隔至少2,000个核苷酸；(d)当SNP上游50个核苷酸和下游50个核苷酸的序列一式两份地或在与基因组的其他区有高同源性的情况下存在时，去除SNP；以及(e)从剩余候选SNP中选择组套的最终SNP列表。在一些方面中，所述方法还包括制备针对每个剩余候选SNP的BDA寡核苷酸集。

如本文所用，关于指定组分的“基本上不含”在本文中用于意指没有指定组分被有目的地配制到组合物中和/或仅作为污染物或以痕量存在。由组合物的任何非预期污染所致的指定组分的总量因此低于0.05％，优选地低于0.01％。最优选的是用标准分析方法不可检测到指定组分的量的组合物。

如本文说明书中所用，“一个/种”可以意指一个/种或多个/种。如本文权利要求中所用，当与词语“包含(括)”结合使用时，词语“一个/种”可以意指一个/种或多于一个/种。

除非明确指示仅是指替代物或替代物互斥，否则权利要求中术语“或”的使用用于意指“和/或”，但是本公开支持仅是指替代物和“和/或”的定义。如本文所用，“另一”可意指至少第二或更多。

在本申请通篇，术语“约”用于指示值包括用于确定所述值所采用的装置、方法的固有误差变化或研究对象之间存在的变化。

本发明的其他目的、特征和优点将根据以下详细描述而变得显而易见。然而应理解，尽管指示了本发明的优选实施方案，但是详细描述和特定实施例仅通过说明的方式给出，因为从此详细描述中，本发明的精神和范围内的各种改变和修改对于本领域技术人员来说将变得显而易见。

附图说明

以下附图构成本说明书的一部分，并且被包括以进一步展现本发明的某些方面。通过参考这些附图中的一个或多个并且结合本文给出的具体实施方案的详细描述，可以更好地理解本发明。

图1：单重抑制探针置换扩增(BDA)的示意图和机制。fP的序列提供于SEQ ID NO:20中。B的序列提供于SEQ ID NO:100中。WT(NA18537)的序列提供于SEQ ID NO:251中。变体(NA18562)的序列提供于SEQ ID NO:252中。

图2：同时富集在许多组遗传基因座处的潜在序列变体的多重BDA(mBDA)。

图3：通过PCR将NGS序列衔接子附接至mBDA扩增子。

图4：NGS实验结果汇总。

图5A至图5B：mBDA的fP、B和rP序列设计的考虑。(图5A)可引起引物二聚体形成的fP、B和/或rP之间的潜在非选择性结合相互作用的实例。(图5B)mBDA的子分组变体/基因座。

图6A至图6D：从mBDA后NGS读段推测初始VAF。(图6A)基于映射至每个基因座处的变体等位基因的读段的分数，从未富集多重PCR文库推测VAF。(图6B)初始VAF与映射至变体等位基因的mBDA后NGS读段分数之间的关系。(图6C)不同SNP类型的倍数富集E的汇总。(图6D)从读段分数(来自mBDA后NGS)和拟合E值推测的VAF。

图7：用于将衔接子序列附接至mBDA扩增子的替代性基于连接的方法。

图8：使用SNP模式检测细胞系污染。

图9：23个个体(休斯敦地区的志愿者)的85个SNP基因座上的SNP模式。

图10：使用80重mBDA和qPCR读出的细胞系污染检测。

图11A至图11E：使用多重抑制探针置换扩增(mBDA)检测细微的细胞系污染。(图11A)主要细胞系为纯合(对于人参考等位基因，或次等位基因)的SNP列表。(图11B)将抑制探针设计成与带有主要SNP等位基因的DNA模板完美互补并且与变体SNP等位基因错配。(图11C)针对选择的所有21个SNP位置的主要等位基因设计的21重mBDA集。(图11D)在高度多重反应中，mBDA维持主要等位基因与变体等位基因之间的大Ct差。(图11E)使用qPCR通过mBDA检测NA18537中HeLa污染的不同频率。

图12A至图12D：检测任意人细胞系污染物的mBDA方法的概括。(图12A)21种不同污染物样品的SNP基因型。(图12B)针对NA18537观察的21个SNP中独特污染物等位基因的数目的模拟分布，其基于报告的SNP群体等位基因频率以及SNP之间的假设独立性。(图12C)任意细胞系的80个SNP钟纯合SNP数目的穆尼分布，其基于报告的SNP群体等位基因频率以及SNP之间的假设独立性。(图12D)检测具有37种不同人DNA污染物的NA18537中的5％污染物的qPCR结果的汇总。

图13A至图13E：使用mBDA来使用低深度下一代测序(NGS)检测具有低等位基因频率(VAF)的变体DNA序列。(图13A)mBDA NGS文库制备工作流的汇总。(图13B)在不使用mBDA的情况下扩增子文库的NGS结果的汇总。(图13C)样品0.1％VAF样品的mBDA NGS文库的NGS结果的汇总。(图13D)各图(图13B)和(图13C)中所述的文库中每个SNP基因座的变体读段分数(VRF)的汇总。(图13E)使用0.1％VAF样品在两个重复的mBDA NGS文库中VRF的再现性。

图14A至图14E：基于mBDA NGS VRF定量变体VAF。(图14A)不同等位基因富集倍数(EF)的VRF与VAF之间的理论关系。(图14B)(1-VRF)/VRF与(1-VAF)/VAF之间的关系。(图14C)使用NA18537作为主要等位基因的80个变体SNP等位基因中的每一个的推测EF的汇总。(图14D)不同VAF输入的相对EF值。(图14E)标准扩增子NGS相对于mBDA NGS的VAF检测限(LoD)。

图15A至图15D：使用mBDA NGS检测和定量DNA污染。(图15A)单一MiSeq芯片上的22个mBDA文库的结果。(图15B)对用S9(HeLa)污染的样品使用标准扩增子NGS的比较文库。(图15C)使用图14E中所述的0.019％VAF LoD阈值的变体调用准确性的汇总。(图15D)使用图(图15C)中的数据的变体调用的受试者工作特征(Receiver operator characteristic；ROC)曲线。

图16A至图16D：基于mBDA NGS数据确定污染物同一性。(图16A)基于mBDA变体调用的污染物可能性的计算。(图16B)基于图15A，所有22个测试样品的所有成对组合(污染分数为0.07％与0.22％之间)相对于35种数据库基因型的log10(L)值的热图曲线。(图16C)4种不同样品的log10(L)的代表性分布。(图16D)针对污染分数的最高和第二高log10(L)值的曲线。

具体实施方式

典型的抑制探针置换扩增(BDA)系统使用三种不同的寡核苷酸：正向引物(fP)、抑制探针(B)和反向引物(rP)。正向引物和反向引物被设计成起标准PCR引物的作用。在一些实施方案中，在合适于PCR的缓冲液中，在100nM与5μM之间的引物浓度下，正向引物和反向引物与其相应的反向补体序列的结合的计算解链温度为大约50℃、大约55℃、大约60℃、大约65℃或大约70℃。在一些实施方案中，在大约50℃、大约55℃、大约60℃、大约65℃或大约70℃下，在合适于PCR的缓冲液中，正向引物和反向引物与其反向补体序列的结合的计算标准结合自由能(分别为ΔG°_fP和ΔG°_rP)为大约-11kcal/mol。

正向引物(fP)和抑制探针(B)被设计成具有一定程度的序列重叠，其中fP的若干3’最末端核苷酸与B上5’末端附近的若干核苷酸相同。这迫使fP与模板DNA分子上的重叠区的结合和B与模板DNA分子上的重叠区的结合互斥(图1)。包含通过DNA杂交相互作用来共定位的模板、fP和B的三链分子大概率迅速解离，将单链fP或单链B释放到溶液中。在一些实施方案中，正向引物与抑制探针之间的重叠的核苷酸的数目为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20。在一些实施方案中，在大约50℃、大约55℃、大约60℃、大约65℃或大约70℃下，在合适于PCR的缓冲液中，重叠核苷酸与其反向补体序列的结合的标准自由能(ΔG°)为-4kcal/mol。

在一些实施方案中，在合适于PCR的缓冲液中，在100nM与5μM之间的抑制探针浓度下，抑制探针与其反向补体序列的结合的计算解链温度为大约55℃、大约60℃、大约65℃、大约70℃、大约75℃或大约80℃。在一些实施方案中，在大约50℃、大约55℃、大约60℃、大约65℃或大约70℃下，在合适于PCR的缓冲液中，抑制探针与其反向补体序列的结合的计算标准结合自由能(ΔG°_B)为大约-14kcal/mol。

抑制探针(B)被设计成与野生型序列完美互补，所以当B与模板结合时，在富集区中具有变体等位基因的任何模板均产生去稳定错配泡。因此，与野生型模板相比，fP将更有利地置换变体模板上的B，并且这导致每次循环扩增产率的差异。在多次PCR循环中产率差异是复杂的。富集区通常包括重叠区的3’的所有碱基，除了B上的4个3’-最末端核苷酸。富集区中任何位置处的所有变体都将被富集。

在一些实施方案中，在大约50℃、大约55℃、大约60℃、大约65℃或大约70℃下，在合适于PCR的缓冲液中，抑制探针与其反向补体结合的标准自由能(ΔG°_B)比正向引物与其反向补体结合的标准自由能(ΔG°_fP)强-1kcal/mol与-4kcal/mol之间。在一些实施方案中，抑制探针包含在3’末端处或附近不与模板杂交并且防止DNA聚合酶延伸的序列。在一些实施方案中，抑制探针包含在3’末端处或附近防止DNA聚合酶延伸的化学修饰。在一些实施方案中，抑制探针包含在3’末端处或附近防止通过纠错DNA聚合酶的3’->5’外切核酸酶活性的化学修饰。在一些实施方案中，所述化学修饰包括倒置DNA核苷酸。在一些实施方案中，所述化学修饰包括3-碳间隔区(C3间隔区)。

在本发明探针系统的设计中，术语ΔG°表示两条互补链之间的杂交的标准自由能。在一种情况下，可基于碱基对堆积方法来近似地计算本发明探针系统的区之间的杂交的标准自由能。在这种方法中，两个相邻碱基对构成一个堆叠，其具有确定的焓(ΔH°)和熵(ΔS°)值。可以根据等式ΔG°＝ΔH°-τΔS°计算在具体温度τ(以开尔文为单位)下每个堆叠的标准自由能(ΔG°)。可以对若干堆叠的标准自由能求和以评估结合区的标准自由能。DNA-DNA堆叠的ΔH°和ΔS°值可见于SantaLucia和Hicks(2004)中。因为目前文献提供的标准自由能值不完全并且准确度有限，所以需要进行实验测试以确定任两条互补链的ΔG°的真值，但是文献指导的值提供了ΔG°的粗略(通常在3kcal/mol或15％内)估计值。

对于同时富集在许多组遗传基因座处的潜在序列变体的多重BDA(mBDA)，针对每个BDA系统采用不同的fP、B和rP。将这些全部同时与样品、DNA聚合酶、dNTP和适合于PCR的缓冲液合并在溶液中(图2)。为了防止基于DNA的PCR抑制，所有寡核苷酸种类的总浓度应保持在50微摩尔以下。PCR反应的退火/延伸步骤的长度与正向引物种类中最低的浓度成反比。为了防止方案过长，建议所有fP和rP浓度为至少100皮摩尔。每个B种类的浓度应为其对应的fP种类的浓度的至少2倍。可以对每个rP种类的浓度进行调整以实现所有BDA扩增子的相对均匀的扩增。在一些实施方案中，基于来自用已知rP浓度进行的先前NGS实验的每个BDA扩增子的观察读段确定每个rP种类的浓度。

I.针对多重BDA的寡核苷酸设计

除上文所述的单重BDA的标准设计原理之外，针对多重BDA(mBDA)的寡核苷酸设计需要防止由两个反向引物在相反方向上形成非预期扩增子以及形成非所需“引物二聚体”种类的进一步考虑。如果所有BDA系统都靶向模板DNA的同一(+)或(-)链，或替代地如果模板很短(例如，来自血浆的无细胞DNA或者通过超声波作用或片段化酶所剪切的基因组DNA)，那么可以在很大程度上避免第一个问题。

引物二聚体问题更为复杂，因为引物二聚体形成的可能性随着溶液中不同引物和抑制探针种类的数目而非线性增加。例如，在10重mBDA系统中，有20种引物和10种抑制探针，总计组合(30,2)＝435种成对相互作用；对于20多重mBDA系统，有40种引物和20种抑制探针，总计组合(60,2)＝1,770种成对相互作用。问题的复杂性变差，因为一些引物“二聚体”种类由涉及三种或更多种不同寡核苷酸种类的更复杂机制产生(图5A)。显示了可引起引物二聚体形成的fP、B和/或rP之间的潜在非选择性结合相互作用的实例。当针对mBDA序列设计的算法被预测为表现出任何列出的相互作用时，所述算法应对候选序列集进行惩罚。

下面描述了设计在很大程度上避免引物二聚体的mBDA引物和抑制探针的算法的一个实施方案。这种算法的许多潜在变化对于非凸优化软件领域中的普通技术人员应为明显的。

1.关于与生物DNA的(+)或(-)链结合的抑制探针，确定每个mBDA系统的优选方向。方向偏好可通过以下方式来告知：(1)抑制探针与特定变体的结合相对于与野生型结合的预测ΔΔG°；(2)与其他感兴趣的基因座的其他相容性的考虑，如图5B中所简述；以及(3)待分析的DNA的平均预期长度。

2.基于变体基因座之间的距离，将潜在变体的基因座分成一个或多个组，如图5B中所示。当距离小于约20个核苷酸时，单一抑制探针B可覆盖其富集区内的两个变体基因座(情况1)。当距离大于约40个核苷酸时，可以设计两个单独的BDA系统以在同一反应中起作用而没有预期的不良影响(情况3)。但是，当距离为约20个与约40个之间的核苷酸时，没有足够的空间来放置第二BDA系统，所以需要在两个单独反应中的两个单独BDA系统(情况2)。用于富集同一组内不同基因座的BDA寡核苷酸意指在同一溶液中使用。每组≤20nt基因座与所有其他基因座间隔超过100nt的不相交潜在变异全部彼此相容并且可放置在同一组中。在另一极端处，当潜在变异可存在于很长的DNA段中的任何位置时，诸如在肿瘤抑制基因如TP53中，可能需要将基因座分成3个至5个不同的组。对单一组内的fP、B和rP种类进行mBDA序列设计方案的剩余部分。

3.创建组内每个BDA系统的候选fP、B和rP序列的列表。在一些实施方案中，fP和B候选序列满足以下约束：(1)在PCR的退火循环的温度和盐度条件下，fP和rP各自以-10kcal/mol与-15kcal/mol之间的计算ΔG°与模板结合；(2)在PCR的退火循环的温度和盐度条件下，B以-12kcal/mol与-18kcal/mol之间的计算ΔG°与模板结合；(3)在PCR的退火循环的温度和盐度条件下，fP不与B重叠的部分以-5.5kcal/mol与-8.5kcal/mol之间的计算ΔG°与模板结合；(4)扩增子长度为60nt与300nt之间长；以及(5)B的富集区应覆盖带有潜在序列变异的基因座。根据待富集的连续基因座的数目，每个BDA系统中fP和B中的每一个可能有1个与25个之间的不同候选序列。根据扩增子长度的严格性，每个rP可能有10个与200个之间的候选序列。例如，对于20重BDA，将有20个不同的fP候选物集、20个不同的B候选物集和20个不同的rP候选物集。

4.选择随机的初始序列集，所述序列集包含针对每个BDA系统的一个随机选择的fP序列、针对每个BDA系统的一个随机选择的B序列和针对每个BDA系统的一个随机选择的rP序列。例如，对于针对每个fP、B和rP种类具有15个候选物的20重BDA，将有15⁶⁰≈3.7*10⁷⁰个可能的初始随机序列集。

5.通过计算定量“Badness”或“Loss”分数对随机选择的序列集的引物二聚体可能性进行启发式评估，所述分数初始化为0，然后基于个别寡核苷酸性质和/或成对寡核苷酸相互作用的评估而递增。在一些实施方案中，如果第一寡核苷酸的5个3’-最末端核苷酸为第二寡核苷酸的5个3’-最末端核苷酸的反向补体，那么集合中的一对寡核苷酸对Badness/Loss有贡献。在一些实施方案中，在3’-最末端处针对与其他3’-最末端核苷酸的潜在反向互补所评估的核苷酸的数目为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20。在一些实施方案中，基于相互作用的计算标准自由能ΔG°_i，一对寡核苷酸对Badness/Loss有贡献；在一些实施方案中，Badness/Loss贡献可在ΔG°_i中为线性、二次或指数的。在一些实施方案中，基于第一链的与第二链上一定数目的连续核苷酸反向互补的连续核苷酸的数目，一对寡核苷酸对Badness/Loss有贡献。在一些实施方案中，基于预测二级结构的计算自由能，单一寡核苷酸对Badness/Loss有贡献。

6.基于现存的BDA寡核苷酸集创建新的mBDA寡核苷酸集，除了一个随机选择的fP、B或rP种类被相同类型的另一候选物替换。评估了新的mBDA寡核苷酸集的Badness/Loss。

7.基于新集合的Badness/Loss，与旧序列集的Badness/Loss相比，决定是否接受潜在序列变化。在一些实施方案中，仅当Badness/Loss与旧集合相比而改善时，接受新mBDA寡核苷酸集。在计算机优化领域中，这种策略被称为梯度下降法或随机梯度下降法。替代地，在一些概率与Badness/Loss变化的量成反比的情况下，同样接受Badness/Loss略差的mBDA寡核苷酸集。在一些实施方案中，此概率随时间推移而减小。在计算机优化领域中，这种策略被称为模拟退火。还可以应用非凸优化的其他方法，诸如遗传算法。

8.重复步骤(6)和(7)持续固定数目的循环，或直到BDA寡核苷酸集的Badness/Loss低于可接受的阈值。

在一些实施方案中，应用上文算法，变化为fP和B候选序列以一对的形式而不是以个别寡核苷酸的形式进行评估。在步骤6中，将针对一对fP/B或针对个别rP寡核苷酸进行尝试替换。例如，对于每个fP/B对具有15个候选物并且每个rP具有30个候选物的20重BDA，将有15²⁰*30²⁰＝1.2*10⁵³个可能的寡核苷酸集。

II.mBDA在定量PCR(qPCR)分析中的操作

可以通过qPCR，使用嵌入染料(例如，SybrGreen、EvaGreen、Syto)或用扩增子特异性Taqman探针来读出mBDA扩增子。针对qPCR的Taqman探针设计为分子探针设计领域中的普通技术人员已知的。因此，观察的溶液荧光可对应于扩增的DNA的总量或者Taqman探针靶向的特定扩增子的量。

为了适应mBDA系统中寡核苷酸种类(fP、B和rP)的数目增加，从标准单重PCR和BDA反应减小引物和抑制探针浓度。使用较低寡核苷酸浓度有两个原因：(1)寡核苷酸浓度减小二次地降低引物二聚体形成的可能性，并且(2)已知高浓度的ssDNA和dsDNA抑制PCR。在一些实施方案中，最终PCR溶液中所有fP、B和rP种类的总浓度保持在50nM与50μM之间。

不同mBDA寡核苷酸中总浓度的最直接的划分为具有相同的fP和rP浓度，并且B浓度为fP浓度的固定倍数。例如，针对2μM总寡核苷酸浓度的20重mBDA系统具有各自为20nM的全部fP和rP种类以及各自为60nM的全部B种类。可使用qPCR扩增的循环阈值(Ct)来检测或定量mBDA的富集基因座中的序列变异。根据读出的确切性质(嵌入染料相对于Taqman探针)，Ct值反映了特定序列变异、一个基因座或一组相邻基因座的任何变异或者通过mBDA富集的所有基因座中的任何变异。

III.mBDA在下一代测序(NGS)分析中的操作

通过下游NGS可以更精确地分析mBDA扩增子。商业NGS系统(例如，Illumina、IonTorrent)需要特殊衔接子序列侧接感兴趣的序列(又名，插入序列(insert))。这些可以通过PCR或连接来附接到mBDA扩增子，如图3和图7中所示。

对于通过PCR来附接mBDA扩增子(图3)，将带有通用NGS衔接子序列和基因特异性序列的衔接子引物引入到mBDA扩增子混合物，并且2次或更多次PCR循环得到测序衔接子附接到每个mBDA扩增子任一侧的扩增子混合物。在一些实施方案中，在附接衔接子序列之前，通过大小选择来纯化mBDA扩增子混合物以去除引物二聚体。在一些实施方案中，对衔接子附接的扩增子进行另一轮PCR以附接样品索引或其他衔接子序列。在一些实施方案中，在下一代测序(NGS)之前，对衔接子附接的扩增子进行进一步纯化或质量控制。

对于通过连接来附接mBDA扩增子(图7)，可以通过使用具有5’磷酸酯修饰的引物或通过在mBDA之后的激酶将连接所需的5’磷酸酯引入到mBDA扩增子。与用于引入衔接子的PCR方法不同，仅需要一对通用衔接子序列。但是，这种连接方法需要去除过量衔接子和未连接的扩增子的纯化步骤。

与从样品的直接多重PCR扩增构建的文库的NGS分析以及从连接和杂交捕获构建的文库的NGS分析相比，mBDA扩增子的NGS分析提供了两个重要优势。首先，mBDA将罕见突变富集了100至10,000倍，实现了罕见序列变体的灵敏检测。所有NGS平台均受在大约0.1％(Illumina)与8％(Oxford Nanopore)之间变化的固有测序错误率困扰。在没有复杂的独特分子标识符条形码或其他抑制测序错误率的技术的情况下，NGS固有错误率限制了NGS对罕见突变的分析灵敏度。例如，如果NGS错误率为1％，那么在基因座的1,000个读段中，如果987个映射至A，7个映射至T，2个映射至C，并且4个映射至G，那么将不清楚T变体是否实际存在，或者映射至T的7个读段是否简单地由测序错误所致。当BDA富集0.2％VAF至40％VAF的T变体时，则可针对序列错误背景清楚地区分T等位基因读段。

最近已证明了独特分子标识符(UMI)条形码抑制NGS测序错误，并且被诸如RocheAvenio和Guardant 360的商业产品使用。但是，UMI将所需的测序读段(并且从而NGS成本)增加了大约10倍，并且此外难以在实验上实施以及在生物信息上解释。

测序mBDA扩增子的第二个优势为，与标准NGS和具有UMI的NGS相比，所需NGS读段的数目显著减少。例如，具有在1％VAF下的具体突变的样品可能对于标准NGS来说需要500个读段(500个中有5个读段)并且对于具有UMI的NGS来说需要5000个读段，但是在mBDA富集至>80％VAF之后，仅10个读段就可能足以满足所述突变的阳性检测。

mBDA扩增子的NGS分析还可用于告知引物浓度的调整，以实现所有mBDA扩增子的更均匀扩增。不同的引物序列以可变化多于3个数量级的动力学与其相应的靶标结合，并且目前即使是最好的生物物理模型和机器学习算法也不能以优于约90％准确度预测引物结合率常数。因此，对于所有fP和rP种类使用相同浓度的初始mBDA寡核苷酸设计将可能导致读段的显著偏差，其中一些扩增子被测序至可能深度比其他高10倍。

在初始NGS运行中映射至每个mBDA扩增子的读段可用于告知fP和rP浓度的调整。因为fP和B的浓度比应维持为常数以实现序列变体的可再现倍数富集，所以优选基于观察的读段调整rP浓度。在实验上，使用[rP]_新＝[rP]_旧*(读段_中位数/读段_扩增子)^X工作良好，其中[rP]_旧为反向引物的先前浓度，读段_中位数为映射至每个扩增子的中位数读段，读段_扩增子为映射至对应于所述反向引物的扩增子的读段，并且X为恒定的调整因子。对于不同的NGS文库制备方案，X的最佳值可为0.33、0.5或在0.25与1之间的某个其他值。

IV.利用mBDA富集的NGS结果的解释

下面描述了分析来自FASTQ文件的NGS读段的算法的一个实施方案。生物信息处理NGS读段领域中的普通技术人员可类似地从FASTQ或SAM文件构建类似的算法。

1.从所有读段中修剪掉衔接子序列或衔接子序列的部分(如果存在的话)。

2.去除质量分数低(例如，中位数Q<30)的读段。

3.将修剪的序列与参考扩增子序列列表进行比对，获得sam/bam文件。比对可为与两侧具有衔接子序列的扩增子序列的端到端比对，或者与原始mBDA扩增子序列的局部比对。

4.使用堆积柱或通过附近的保守序列，将读段序列剪辑到相关mBDA抑制探针的富集区。

5.检查在富集基因座处读段的之量，当在感兴趣的基因座处Q分数<30时，丢弃所述读段。替代地，如果允许配对末端测序，那么当配对读段在感兴趣的基因座处彼此不一致，丢弃所述读段。

6.将映射至野生型扩增子序列、和任何预期变体序列、和其他变体序列的读段的数目列成表。

根据上文算法，计算每个mBDA扩增子的读段分数(RF)。给定RF和通过针对那个基因座/变体的mBDA所实现的倍数富集的估计值(E)，初始样品中变体的VAF可通过VAF＝RF/(E*(1-RF)+RF)进行评估。因为先前讨论的NGS固有错误问题，所以用户可能希望放弃考虑RF低于阈值(例如，1％)的变体。

V.通过血浆中的无细胞DNA的非浸润性癌症剖析的应用考虑

血浆中的无细胞DNA(cfDNA)来源于濒死细胞(由于凋亡、坏死或免疫系统攻击)。因为cfDNA是通过肾脏从血流中清除的，据报道半衰期在10与60分钟之间，所以cfDNA提供了人体的瞬时快照(snapshot in time)。许多研究现实，在患者中检测到的肿瘤源性cfDNA始终提供与活检样品类似的突变特征。因为cfDNA仅需要微创抽血，而不是有感染风险的有创活检，所以cfDNA分析也被称为液体活检。

但是，与来源于肿瘤样品的DNA不同，cfDNA短得多，平均长度在160与180nt之间。因为cfDNA的断裂点或多或少是均匀分布的，所以使用较长的扩增子有失去灵敏度的风险。例如，如果cfDNA的平均长度为160nt，并且mBDA扩增子的长度为120nt，那么4个带有感兴趣的富集基因座的cfDNA分子中仅有约1个将在扩增子外具有断裂点并且为可扩增的。因此，应设计mBDA fP和rP序列，使得所有扩增子均短于120nt，并且优选短于90nt。

另一方面，cfDNA的短长度意指着非预期较长扩增产物(例如，来自不同BDA系统的rP种类)的风险基本上不存在。这意指对于设计用于cfDNA的mBDA寡核苷酸集，使彼此接近的所有BDA系统靶向同一(+)或(-)模板链的设计约束不适用，从而允许B序列选择的更多选项。

VI.细胞系污染分析的应用考虑

学术和工业研究实验室以及细胞疗法提供者(例如，干细胞疗法或自体CAR-T疗法)都使用人细胞系样品。潜在的细胞污染为这些工业的重要考虑，因为它可能导致研究和免疫反应的科学结论不正确，从而导致不良的患者治疗结果。

细胞污染检测问题可分为两种主要情况：(1)已知基础(所需细胞)基因型但未知污染物的问题，或(2)已知污染物基因型但未知基础基因型的问题。在两类问题中，mBDA可用于富集非致病性单核苷酸多态性(SNP)。

传统上，刑事取证和其他领域使用短串联重复序列(STR)剖析以用于确定基因组同一性，但是STR剖析需要电泳并且不便于以高通量方式进行，并且此外灵敏度有限。大约80个SNP(每个都经过选择以使得变体等位基因的群体频率为5％与95％之间)的组套大概率能够区分任两个不相同的基因组。图9显示了23个个体(来自休斯敦地区的志愿者)的SNP基因型谱。对于任何一对个体，在表征的85个中，平均有多于25个SNP等位基因差异，并且对于分析的所有对，总是多于15个。数学表明，当今世界上活着的任何两个人在剖析的85个SNP中至少有6个仍然可能会有所不同。因此，非致病性SNP可以用作基因组同一性的可靠标记物。

对于与细胞疗法设施更相关的第一类问题(已知基础基因型，情况1)，可以设计mBDA寡核苷酸以选择性地阻断对基础基因型具有特异性的所有纯合SNP等位基因的扩增(图8)。换句话说，mBDA抑制探针被设计成抑制基础细胞系的纯合SNP等位基因。任何mBDA系统中的任何替代等位基因的扩增和检测都表明污染。重要的是，这种方法不需要事先了解污染物基因型并且一般而言应适用于在遗传上与基础细胞系不相同的所有污染物。假设污染物细胞系与剖析的SNP组套中的基础细胞系不相同，那么将存在至少1个不被抑制探针抑制并且将非常有效地扩增的SNP基因座。这导致NGS数据中有替代等位基因以及qPCR中的Ct值降低；两者均可用于细胞系污染检测。观察的组套内污染物具有相同SNP等位基因的概率很小，但是这个概率随着表征的SNP位点的数目而以指数方式降低，并且预期对于80个SNP的组套来说非常小。

第二类问题(已知污染物基因型，情况1)与学术研究实验室更相关，此时已知HeLa细胞为主要污染物。尽管当然有可能对基础细胞系进行基因组剖析，但对于仅将有限的用途用作大量实验的一部分的细胞系而言，这样做可能是不方便或太昂贵的。可以仅基于污染物的SNP等位基因谱检测细胞污染，而无需了解基础SNP基因型(图8)。可以设计mBDA寡核苷酸来抑制除污染物基因组中存在的之外的SNP等位基因。因此，污染物的存在将意指所有mBDA扩增子都将显示污染物特异性SNP。在污染物为杂合的基因座处，任一等位基因均可被阻断。假设基础细胞系与剖析的SNP组套中的污染物不相同，则缺少污染物意指一些抑制探针将抑制扩增。相比之下，如果存在污染，那么所有替代等位基因都将被有效扩增，并且qPCR反应的Ct值将是低的。

还存在第三种细胞污染检测的情况，在这种情况中基础和污染物的SNP基因型都是已知的。这是可以通过单重BDA来解决的相对简单的问题(参见美国专利申请公开号2017/0067090，其出于所有目的以引用的方式整体并入本文)。

在mBDA的细胞污染检测应用的一些实施方案中，将qPCR用作读出。图10显示了NA18537人细胞系gDNA充当基础的结果。设计了80重BDA系统以阻断NA18537的纯合SNP等位基因。两种不同的污染物NA18562和HeLa分别在5％和3％下进行测试。在两种情况下，与纯NA18537样品相比，qPCR显示污染样品中Ct明显降低。在mBDA的细胞污染检测应用的其他实施方案中，NGS可用作读出。这样做应还在小于0.1％VAF检测限下提供可靠的细胞污染检测。

VII.实施例

包括以下实施例以示范本发明的优选实施方案。本领域技术人员应理解以下实施例中公开的技术代表了由本发明人发现在本发明实践中发挥良好作用的技术，并且因此可以被认为构成本发明实践的优选模式。然而，根据本公开，本领域技术人员应理解，可以在不脱离本发明的精神和范围的情况下对所公开的具体实施方案进行许多改变并且仍然获得相似或类似的结果。

实施例1–NGS实验结果

通过混合99.9％NA18537和0.1％NA18562(总计50ng)来构建细胞系基因组DNA样品。图4的左图显示了在标准80重扩增子测序之后，针对80个基因座中的每一个映射至野生型(NA18537)和变体(NA18562)等位基因的读段的数目。针对所有基因座，映射至变体等位基因的读段的数目比野生型等位基因低约1000倍，符合预期。图4的中图显示了在80重mBDA之后，针对80个基因座中的每一个，映射至野生型和变体等位基因的读段的数目。现在，映射至变体等位基因的读段的数目与映射至野生型等位基因的读段的数目相当。重要的是，所有变体等位基因都在与未富集文库相当或比其高的深度下进行测序，但是使用的NGS读段的总数低40倍。这表示在复杂DNA样品的NGS分析中可能节省了40倍。图4的右图显示在有和没有mBDA富集的情况下映射至变体等位基因的读段的分数。

实施例2–从mBDA后NGS读段推测初始VAF

图6A显示了基于映射至每个基因座处的变体等位基因的读段的分数，从未富集多重PCR文库推测VAF。水平虚线显示预期0.1％VAF；推测VAF由于NGS测序偏差而自预期稍有变化。图6B显示了初始VAF与映射至变体等位基因的mBDA后NGS读段分数之间的关系。在不同基因座处的不同变体具有不同的倍数富集E，但是读段分数与VAF之间的关系符合预期(S形线显示基于理论和最佳拟合倍数富集E的预期)。在此，所有输入样品均为50ng基因组DNA，并且进行23个mBDA循环。图6C提供了不同SNP类型的倍数富集E的汇总。在E上似乎没有显著的序列偏差。图6D显示了从读段分数(来自mBDA后NGS)和拟合E值的推断VAF。推断VAF值显示与基于多重PCR NGS的直接分析类似的分布。

实施例3–使用mBDA来使用低深度下一代测序(NGS)检测具有低等位基因频率(VAF)的变体DNA序列

mBDA NGS文库制备工作流的汇总显示于图13A。并且在不使用mBDA的情况下扩增子文库的NGS结果的汇总显示于图13B中。在此，样品为50ng的NA18537和NA18562的99.9％:0.1％混合物。选择80个SNP，使得NA18537和NA18562对于不同等位基因来说是纯合的。将860万个NGS读段用于此文库，以确保在变体等位基因上有至少5倍测序深度。注意，由于NGS固有错误的存在，所以这种标准扩增子测序不能可靠地调用在0.1％VAF下的变体(参见图14E)。样品0.1％VAF样品的mBDA NGS文库的NGS结果的汇总提供于图13C中。与图(图13B)中的文库相比，使用少13倍的NGS读段，但是对所有变体等位基因测序至至少10倍深度。因此，mBDA使罕见变体剖析所需的NGS减少至少25倍。图(图13B)和(图13C)中所述的文库中每个SNP基因座的变体读段分数(VRF)的汇总提供于图13D中。如所预期的，标准扩增子NGS文库粗略地显示0.1％中位数VRF。mBDA NGS文库粗略地表现出30％中位数VRF，指示变体SNP等位基因通常富集了300倍。使用0.1％VAF样品在两个重复的mBDA NGS文库中VRF的再现性显示在图13E中。

实施例4–基于mBDA NGS VRF定量变体VAF

不同等位基因富集倍数(EF)的VRF与VAF之间的理论关系显示于图14A中。预期不同SNP的EF值有所不同，但是在相同SNP等位基因的不同实验和VAF中为恒定的。预期(1-VRF)/VRF与(1-VAF)/VAF之间的关系为线性的，斜率为1并且截距为log10(EF)(图14B)。这种关系实现了基于校准mBDA NGS文库，使用已知VAF输入，简单并且无偏差地推测EF。使用NA18537作为主要等位基因的80个变体SNP等位基因中的每一个的推测EF的汇总显示于图14C中。基于使用0.03％、0.05％、0.1％、0.2％、0.5％、1％、2％和3％VAF样品的7个校准mBDA NGS文库，点显示平均值并且误差棒显示1标准偏差。不同VAF输入的相对EF值显示于图14D中。EF/(中位数EF)比率也可以解释为具有已知VAF的校准样品的定量误差；例如，比率2指示低估了VAF 2倍。对于校准样品，所有7个VAF中的大多数SNP均被准确定量至2倍内。理想地，所有VAF的EF值应为相同分布的；但是，在低于0.1％的非常低的VAF下，观察到EF的略向上的偏差。标准扩增子NGS相对于mBDA NGS的VAF检测限(LoD)显示于图14E中。在此，将LoD定义为纯野生型(0％VAF)样品的最大推测VAF；红点显示80个SNP中每一个的推测VAF。对于mBDA NGS，VAF是基于图(图14C)和(图14D)中所概述的7个EF值的中位数EF来计算的。对于标准扩增子NGS，将VAF简单地计算为VRF。与标准扩增子NGS相比，BDA将VAF LoD改良了多于8倍。

实施例5–使用80重mBDA和qPCR读出检测细胞系污染

这些实验假设已知基础SNP基因型(NA18537)。使用的引物和抑制探针的序列和浓度显示于表1中。qPCR温度循环由以下组成：在95℃下2分钟，然后在60℃下5分钟。图10的左图显示了纯NA18537样品相对于具有5％NA18545污染物的NA18537样品的三条qPCR迹线。图10的右图显示了针对纯NA18537和用3％HeLa gDNA污染的NA18537的24次重复试验观察到的Ct值的汇总。重要的是，没有一组实验利用任何关于NA18545或HeLa的基因组/基因型信息。

实施例6–使用多重抑制探针置换扩增(mBDA)检测细微的细胞系污染。

给定已知人细胞系(在此为NA18537，称为主要细胞系)，试图检测任何其他人细胞系的潜在污染。为此，创建了主要细胞系为纯合(对于人参考等位基因，或次等位基因)的SNP列表。当SNP列表足够大时，未知污染物(在此，HeLa)极有可能在至少一个SNP中的基因型与主要细胞系不同。这些独特污染物SNP等位基因的检测实现没有污染物的基因型信息的情况下检测并且近似定量污染(图11A)。BDA采用合理设计的抑制探针寡核苷酸，其与正向引物竞争与DNA模板结合。在此，抑制探针被设计成与带有主要SNP等位基因的DNA模板完美互补并且与变体SNP等位基因错配(图11B)。这导致变体SNP等位基因在PCR期间被优先扩增。针对选择的所有21个SNP位置的主要等位基因设计21重mBDA集(图11C)。存在的任何污染物都将使其独特污染物SNP等位基因被优先扩增，导致当使用诸如SybrGreen I的双链DNA嵌入染料时，循环阈值(Ct)较低。mBDA在高度多重反应中维持主要等位基因与变体等位基因之间的大Ct差(图11D)。在此，测试的变体DNA模板为NA18562，其在所有选择的SNP中均为纯合变体。可以使用qPCR通过mBDA检测NA18537中HeLa污染的不同频率(图11E)。蜂群图显示了每个样品的12个独立反应的观察Ct值。即使0.1％HeLa污染物也可与纯NA18537gDNA样品可靠地区分开。在此概述的所有实验的输入量为20ng。

实施例7–检测任意人细胞系污染物的mBDA方法的应用

分析了21种不同污染物样品的SNP基因型(图12A)。S1至S12为商购的细胞系，而S13至S21为志愿者的去标识DNA样品。注意，S9对应于HeLa。针对NA18537观察的21个SNP中独特污染物等位基因的数目的模拟分布是基于报告的SNP群体等位基因频率以及SNP之间的假设独立性(图12B)。在所有100,000个模拟情况中，有至少9个独特污染物等位基因，指示任意污染物的检测是极有可能的。基于报告的SNP群体等位基因频率以及SNP之间的假设独立性，设计了80重mBDA集并用于模拟任意细胞系的纯合SNP数目的分布(图12C)。在所有100,000个模拟情况中，在80个SNP中有至少31个为纯合的，指示选择80重mBDA集中的21重子集以用于开发检测细胞系中的污染的qPCR试剂盒是极有可能的。图12D提供了检测具有37种不同人DNA污染物的NA18537中的5％污染物的qPCR结果的汇总。因为不同污染物具有不同数目和组的独特污染物等位基因，所以污染与纯NA18537之间的Ct差(ΔCt)有一些差异。使用20ng输入DNA对每个样品进行6次重复qPCR反应。

实施例8–使用mBDA NGS检测和定量DNA污染

单一MiSeq芯片上的22个mBDA文库的结果提供于图15A中。每个文库对应于用大约0.1％与0.2％之间的不同人DNA污染的NA18537。每个子图显示了所有80个SNP的推测VAF，所述SNP按污染物基因型然后按推测VAF进行分类。黑色水平线显示纯合变体和杂合变体的中位数推测VAF。对于所有22个文库，纯合主要等位基因的中位数推测VAF均低于0.01％。对用S9(HeLa)污染的样品使用标准扩增子NGS的比较文库显示于图15B中。注意，纯合主要等位基因的推测VAF显著较高。使用图14E中所述的0.019％VAF LoD阈值的变体调用准确性的汇总显示于图15C中。图(图15A)的所有推测VAF均展示在此蜂群图中。分别地，根据独特污染物等位基因为纯合还是杂合的，假阳性变体调用率为1.58％并且假阴性率为4.88％或4.96％。使用图(图15C)中的数据的变体调用的受试者工作特征(ROC)曲线显示于图15D中。将变体调用阈值设定在0.04％VAF可将特异性增加至100％，代价为灵敏度降低至大约85％。ROC曲线下面积非常高，为0.9968。

实施例9–基于mBDA NGS数据确定污染物同一性

基于mBDA变体调用的污染物可能性的计算显示于图16A中。对于每个SNP，基于推测VAF(点)是否大于或等于阈值0.019％来进行阳性或阴性变体等位基因调用。对于每种潜在污染物，要考虑是否为每个SNP(灰色框)均存在变体等位基因，并且因此确定，相对于潜在污染物，mBDA推测变体为真阳性(TP)、真阴性(TN)、假阳性(FP)还是假阴性(FN)。潜在污染物的总体可能性L计算为所有SNP的可能性的乘积，其中基于图15C，TP、TN、FP和FN的可能性分别被分配为95.08％、98.42％、1.58％和4.92％。预期正确污染物的L值比错误污染物高得多。基于图15A，所有22个测试样品的所有成对组合(污染分数为0.07％与0.22％之间)相对于35种数据库基因型的log10(L)值的热图曲线显示于图16B中。4种不同样品的log10(L)的代表性分布显示于图16C中。S2显示污染物基因型存在于数据库内的典型样品。S10显示了基因型存在于数据库中的具有最弱最大log10(L)值的样品。S50显示了基因型不包括在35种基因型的数据库中的样品。无污染显示纯NA18537的样品。针对污染分数的最高和第二高log10(L)值的曲线显示于图16D中。较低污染分数的log10(L)值减小，符合预期。但是，即使是具有0.07％污染的S10样品也被可靠地鉴别出，标准偏差比平均第二高log10(L)值高超过6。S50样品(其不在数据库中)也可以基于其最高log10(L)值被可靠地确定为未知污染物。

实施例10–23个个体的85个SNP基因座上的SNP模式

分析了23个个体(休斯敦地区的志愿者)的85个SNP基因座上的SNP模式。在图9的左图中，每个柱对应于一个个体。图9的右上图显示了假设已知基础基因型，给定左图的每一可能的基因型对(23*22)，用于检测污染的有效SNP等位基因的数目。图9的右下图显示了假设已知污染物基因型(随机选择针对杂合基因座的抑制探针)，给定左图的每一可能的基因型对，用于检测污染的有效SNP等位基因的数目。在两种情况下，都有大量的用于检测可能污染的有效SNP基因座。

表1.用于多重BDA实验的正向引物(fP)、抑制探针(B)和反向引物(rP)的序列和浓度，结果显示于图4、图6和图10中。注意，图4的左图未使用抑制探针。

表2.用于分析图9中所示的23个个体的SNP等位基因的正向引物(fp)和反向引物(rp)。此实验未使用引物探针。

***

本文公开的并且要求保护的所有方法可以根据本公开在无需过度实验的情况下进行和实施。尽管本发明的组合物和方法已经根据优选实施方案加以描述，但对本领域技术人员显而易见的是，可以使本文所述的方法和本文所述方法的步骤或步骤的顺序发生变化，而不偏离本发明的概念、精神和范围。更确切地说，显而易见的是，化学和生理学相关的某些剂可以替代本文所述的剂，同时将实现相同或类似的结果。对于本领域技术人员显而易见的所有这样类似的替代和修改都被认为是在由所附权利要求所限定的本发明的精神、范围和概念内。

参考文献

以下参考文献以引用的方式特别并入本文，在一定程度上，它们提供示例性程序上的细节或对本文所阐述的那些进行补充的其他细节。

U.S.Patent Appln.Publn.No.2017/0067090

SantaLucia&Hicks，“The thermodynamics of DNA structural motifs，”Annu.Rev.Biophys.Biomol.Struct.，33：415-440(2004).

序列表

<110> 威廉马歇莱思大学(William Marsh Rice University)

<120> 使用多重抑制探针置换扩增进行等位基因富集的系统和方法

<130> RICE.P0042WO

<140> 尚未指派

<141> 2019-02-20

<150> US 62/632,712

<151> 2018-02-20

<150> US 62/649,138

<151> 2018-03-28

<160> 252

<170> PatentIn version 3.5

<210> 1

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 1

accaatggga gtcactgctg 20

<210> 2

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 2

gaggggtatt agaagaatga ctatgtga 28

<210> 3

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 3

gctcttcctc tcacatcttt atttaacc 28

<210> 4

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 4

cagagtaaaa tttactgctc cgtcataa 28

<210> 5

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 5

ggattcccta agctcttcaa tattgc 26

<210> 6

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 6

cctcatctgt aaagcaggga gaga 24

<210> 7

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 7

acttctgcca acattcaaat tcagg 25

<210> 8

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 8

ggatgggact ccaatgcaaa act 23

<210> 9

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 9

catcttgctc ttcatagata gcttcaga 28

<210> 10

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 10

cctgaatgtc agttttgtta gagcaac 27

<210> 11

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 11

cagacttaat caaagccctt gaaaaga 27

<210> 12

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 12

cctcccatag tgattcttat gaagtca 27

<210> 13

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 13

aatgctttgc ttgctgagaa ctt 23

<210> 14

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 14

aatgggaaaa cacattttaa gggca 25

<210> 15

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 15

ccacactctg cctctcatgg tat 23

<210> 16

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 16

acttaagagg tcaacacaga tgaaaattat c 31

<210> 17

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 17

tccgcaaaac ctacaatctc tgaa 24

<210> 18

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 18

tcagatgctt taggctcatg agtta 25

<210> 19

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 19

ctccttggaa tcaccaacaa acat 24

<210> 20

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 20

cttgtatata gacggtaaaa taaacaccaa ga 32

<210> 21

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 21

tgaagcagat gttgaacaac aagg 24

<210> 22

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 22

ttcctgcttc cagacatgaa tca 23

<210> 23

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 23

acccaggtga gttttgtttc acat 24

<210> 24

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 24

ctctctgcct gcaggatgtg 20

<210> 25

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 25

cacttcctcc agaaggtcca aag 23

<210> 26

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 26

actaagagtg cagagcctgg aa 22

<210> 27

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 27

gcgttgtgct gtccattgg 19

<210> 28

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 28

gggttaaaat cttttgcttt catattgagc 30

<210> 29

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 29

cccgttatat aagaggacat aattgcat 28

<210> 30

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 30

cactttatca gacacagtta tgtgct 26

<210> 31

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 31

gccctatagg ttttcctcct actgt 25

<210> 32

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 32

ctatctgcag gattgtgttc aatgta 26

<210> 33

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 33

ctctctagag tgcagattgg tagaa 25

<210> 34

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 34

caaagttgat aaattaaagg actaaggcac 30

<210> 35

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 35

ctgacctaag gcatgggact t 21

<210> 36

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 36

cattctgtct gggatgaggt gat 23

<210> 37

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 37

tggaatcaaa catactatgt gtcaaaca 28

<210> 38

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 38

gcgaagtcat ttcggtcctc tttaa 25

<210> 39

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 39

cctctgattc ccagacataa tgct 24

<210> 40

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 40

tgaaagacgt cacagcaagg t 21

<210> 41

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 41

tgtaggagag attgggctag agag 24

<210> 42

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 42

acagaaacca attacctatg aggagtaa 28

<210> 43

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 43

gaaagtggca cagaaactca gac 23

<210> 44

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 44

gcattagatc atttaacaca caaaacccta t 31

<210> 45

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 45

tgctcctaaa agcacccagc 20

<210> 46

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 46

ctaacttcct aactaaaact ttacagtgga 30

<210> 47

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 47

ggatttcaca cccattagaa taactactat 30

<210> 48

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 48

cctctagaaa aaatggagat ttgggaat 28

<210> 49

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 49

ggactttttt gctttttgac acctttac 28

<210> 50

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 50

acgtatttct aactatagtg agtgcattat g 31

<210> 51

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 51

acatgtccaa agagagaagt cgtag 25

<210> 52

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 52

gcacgtagat gaaattgccc cata 24

<210> 53

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 53

gccccaaagg ttaccccatg 20

<210> 54

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 54

gtagccgctt ctctgtgagt t 21

<210> 55

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 55

ggaaaatatg tctaaaaagg ctctggag 28

<210> 56

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 56

gtttgttcta aggttcatct ggtgat 26

<210> 57

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 57

gtgggcttac atgattggat taactt 26

<210> 58

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 58

tgtcccactt tttacctccc ttc 23

<210> 59

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 59

gggcttcgga atcggacttg 20

<210> 60

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 60

tgtgctacga cagagctaag tac 23

<210> 61

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 61

ccccggatgt cagggaatg 19

<210> 62

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 62

ccaggcacca ctgctttgt 19

<210> 63

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 63

gcagaaaaaa atgatatctg aattctggat 30

<210> 64

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 64

cctttttcac tgttatgaaa tgtactttct t 31

<210> 65

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 65

aggatgctgg ggcttgc 17

<210> 66

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 66

gtaaagtgca tggggtcaag tc 22

<210> 67

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 67

tgagaagtct aacaagttaa attcaggac 29

<210> 68

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 68

ggtagaatgt tagtgactat gtacaatttc a 31

<210> 69

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 69

accttgtcaa gaacctaaat agtgagaa 28

<210> 70

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 70

cgtgggctag tcaagaatat aaaatgttag 30

<210> 71

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 71

cctatataga ctaatttact taaacattta aacccca 37

<210> 72

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 72

ggttcaactc tcagttttat tagttgtgt 29

<210> 73

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 73

agcatcgtga ggttctgaaa aga 23

<210> 74

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 74

cctaacacca gttcttcctc cac 23

<210> 75

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 75

tgtgtggctc agtataccac ttag 24

<210> 76

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 76

gaaaaaaaag ggtctcatta ggaatcatta c 31

<210> 77

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 77

gtttttatat gttagtgtcc ccatggtata 30

<210> 78

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 78

agtgatcaga aggctttgat ttga 24

<210> 79

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 79

gcacatcata cattatttct gttgctat 28

<210> 80

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 80

gaaatattgc tggggtcagc g 21

<210> 81

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (20)..(21)

<223> n = C3间隔区

<400> 81

actgctgcag gcgccctgtn ntc 23

<210> 82

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (39)..(40)

<223> n = C3间隔区

<400> 82

gactatgtga caaaatagct aaggatacag gaaatatgnn ga 42

<210> 83

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (39)..(40)

<223> n = C3间隔区

<400> 83

catctttatt taacccatta gaaaatccta tcagctctnn cg 42

<210> 84

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (35)..(36)

<223> n = C3间隔区

<400> 84

ccgtcataac aaaaacatat ttactttctc tggcnncc 38

<210> 85

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (30)..(31)

<223> n = C3间隔区

<400> 85

cttcaatatt gcagaagtgt tgcaagcctn ngt 33

<210> 86

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (27)..(38)

<223> n = C3间隔区

<400> 86

agggagagaa cctcctccct cacaganntc 30

<210> 87

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (33)..(34)

<223> n = C3间隔区

<400> 87

tcaaattcag gtaccttaga gggacagcta aannct 36

<210> 88

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (34)..(35)

<223> n = C3间隔区

<400> 88

aatgcaaaac tcaatgtatc agtgtgagga tgtnnat 37

<210> 89

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (32)..(33)

<223> n = C3间隔区

<400> 89

tagcttcaga aacattccag tgtatgtgca gnnga 35

<210> 90

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (33)..(34)

<223> n = C3间隔区

<400> 90

gttagagcaa ctttccttga ttcccagagt agnnct 36

<210> 91

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (31)..(32)

<223> n = C3间隔区

<400> 91

ccttgaaaag agggcttagg ttttctttgc nnta 34

<210> 92

<211> 41

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (38)..(39)

<223> n = C3间隔区

<400> 92

cttatgaagt catggaacaa tgcctacttc tatatttnna g 41

<210> 93

<211> 42

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (39)..(40)

<223> n = C3间隔区

<400> 93

ctgagaactt agcattaatt accttttttc atgagaatnn ta 42

<210> 94

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (35)..(36)

<223> n = C3间隔区

<400> 94

agggcatttt ttacagtgtt gaatattgaa actgnntg 38

<210> 95

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (31)..(32)

<223> n = C3间隔区

<400> 95

ctctcatggt atggtgtttt tctgtgctcc nncg 34

<210> 96

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (42)..(43)

<223> n = C3间隔区

<400> 96

cagatgaaaa ttatctgtgc ttttttgtaa gctgatatat tnntc 45

<210> 97

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (37)..(38)

<223> n = C3间隔区

<400> 97

caatctctga atctcagaat agtagcctag aaaacgnngc 40

<210> 98

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (36)..(37)

<223> n = C3间隔区

<400> 98

ctcatgagtt aacaaggaga tgatgtagtg taaagnngc 39

<210> 99

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (29)..(30)

<223> n = C3间隔区

<400> 99

caacaaacat gccttctcct tctcctgann aa 32

<210> 100

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (34)..(35)

<223> n = C3间隔区

<400> 100

taaacaccaa gacgtggtaa atatttacct ggtnncg 37

<210> 101

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (31)..(32)

<223> n = C3间隔区

<400> 101

caacaaggtc agtattgata agtggttgct nnag 34

<210> 102

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (32)..(33)

<223> n = C3间隔区

<400> 102

acatgaatca tgtcactatt caatgggatg cnntt 35

<210> 103

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (36)..(37)

<223> n = C3间隔区

<400> 103

ttttgtttca catgataacc atatcactgg acacanncc 39

<210> 104

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (22)..(23)

<223> n = C3间隔区

<400> 104

aggatgtgcg acgtgtgcct gnngg 25

<210> 105

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (25)..(26)

<223> n = C3间隔区

<400> 105

ggtccaaagc cggaagggcc taaannaa 28

<210> 106

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (23)..(24)

<223> n = C3间隔区

<400> 106

gcctggaacc gagacgcctc agnntg 26

<210> 107

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (25)..(26)

<223> n = C3间隔区

<400> 107

tccattggct actcagtctc ggctnnat 28

<210> 108

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (35)..(36)

<223> n = C3间隔区

<400> 108

tcatattgag cttaagagtt cagaacactg atggnnat 38

<210> 109

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (34)..(35)

<223> n = C3间隔区

<400> 109

cataattgca tataacctac acacattctc ccanntt 37

<210> 110

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (34)..(35)

<223> n = C3间隔区

<400> 110

gttatgtgct ggaaagagca taaattttgg aatnnaa 37

<210> 111

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (44)..(45)

<223> n = C3间隔区

<400> 111

ctcctactgt acatacatat tatcttaagg aaaaaatcca aatnnat 47

<210> 112

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (44)..(45)

<223> n = C3间隔区

<400> 112

tgttcaatgt attaaataat catcagcata tttttgtatt cacnnaa 47

<210> 113

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (32)..(33)

<223> n = C3间隔区

<400> 113

gattggtaga agacactgat tgcatcttca anngt 35

<210> 114

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (28)..(29)

<223> n = C3间隔区

<400> 114

aaggcacaga acaatcatgc aacttgcnna t 31

<210> 115

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (26)..(27)

<223> n = C3间隔区

<400> 115

gggactttct tgagggatgg catccnnct 29

<210> 116

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (33)..(34)

<223> n = C3间隔区

<400> 116

gaggtgatat ctcattttgg cttctatttg cannta 36

<210> 117

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (25)..(26)

<223> n = C3间隔区

<400> 117

tgtcaaacac ccatgctcac ccttnnca 28

<210> 118

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (34)..(35)

<223> n = C3间隔区

<400> 118

ggtcctcttt aaggtctcta caataaattg ccannaa 37

<210> 119

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (34)..(35)

<223> n = C3间隔区

<400> 119

gacataatgc ttttggttgg actttcaaaa aggnngt 37

<210> 120

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (33)..(34)

<223> n = C3间隔区

<400> 120

gcaaggttca aatcattctc tcctatctca tcnntt 36

<210> 121

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (36)..(37)

<223> n = C3间隔区

<400> 121

gctagagaga taattgagtg tcatcagaac tagatnntt 39

<210> 122

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (37)..(38)

<223> n = C3间隔区

<400> 122

atgaggagta attgaaatca ttaataccca caaacanntt 40

<210> 123

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (33)..(34)

<223> n = C3间隔区

<400> 123

aactcagacc aatttggcca tagattatta gcnntt 36

<210> 124

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (40)..(41)

<223> n = C3间隔区

<400> 124

acaaaaccct ataaggaaga tgtcattacc catattttan ntt 43

<210> 125

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (35)..(36)

<223> n = C3间隔区

<400> 125

acccagcttt atacattcac aaagatatgg tttgnnaa 38

<210> 126

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (30)..(31)

<223> n = C3间隔区

<400> 126

acagtggaac agctctctcc ttcttttttn nca 33

<210> 127

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (44)..(45)

<223> n = C3间隔区

<400> 127

attagaataa ctactattaa aaaaacccca caaaataact cttnnct 47

<210> 128

<211> 41

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (38)..(39)

<223> n = C3间隔区

<400> 128

tttgggaatt aaaagccaat agattagctg aaaattcnna t 41

<210> 129

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (33)..(34)

<223> n = C3间隔区

<400> 129

acacctttac atgaaggctt tgaagtactc ttnnat 36

<210> 130

<211> 46

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (43)..(44)

<223> n = C3间隔区

<400> 130

gtgcattatg ggtaagaatg ttcatttatt atttcactta tannga 46

<210> 131

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (30)..(31)

<223> n = C3间隔区

<400> 131

gaagtcgtag ctattcggca aaggaaatgn ntt 33

<210> 132

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (27)..(28)

<223> n = C3间隔区

<400> 132

tgccccatag gcagtgtttg gtgaagnngt 30

<210> 133

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (30)..(31)

<223> n = C3间隔区

<400> 133

taccccatgt gtatcaaatg gtcagcaagn ntt 33

<210> 134

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (25)..(26)

<223> n = C3间隔区

<400> 134

ctgtgagttg ggagcaaagg agcannat 28

<210> 135

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (28)..(29)

<223> n = C3间隔区

<400> 135

ctctggagac gggggatgtt aagttganna a 31

<210> 136

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (27)..(28)

<223> n = C3间隔区

<400> 136

tctggtgatt gagaaagcgt tccagannga 30

<210> 137

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (33)..(34)

<223> n = C3间隔区

<400> 137

attggattaa ctttggtgga acctacttcg atnnat 36

<210> 138

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (30)..(31)

<223> n = C3间隔区

<400> 138

ctcccttctt tcatccctac atcatgtccn naa 33

<210> 139

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (24)..(25)

<223> n = C3间隔区

<400> 139

cggacttggc tggggtagag cttnnaa 27

<210> 140

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (28)..(29)

<223> n = C3间隔区

<400> 140

gagctaagta ccaggtatga tgctcgcnna t 31

<210> 141

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (30)..(31)

<223> n = C3间隔区

<400> 141

agggaatgct ctagacaaaa cactgttccn nta 33

<210> 142

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (29)..(30)

<223> n = C3间隔区

<400> 142

tgctttgtgc tagctcaaag actcacatnn tt 32

<210> 143

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (35)..(36)

<223> n = C3间隔区

<400> 143

aattctggat caaattaaat atgtcgcatt ctccnngt 38

<210> 144

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (36)..(37)

<223> n = C3间隔区

<400> 144

tgtactttct ttttagccat aagatgattt cccatnnat 39

<210> 145

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (25)..(26)

<223> n = C3间隔区

<400> 145

gcttgctttc ccacaccact acctnnta 28

<210> 146

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (27)..(28)

<223> n = C3间隔区

<400> 146

ggtcaagtct gaggctgttg agcttannga 30

<210> 147

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (26)..(27)

<223> n = C3间隔区

<400> 147

ttcaggacgt gaaagcacga gaacgnnat 29

<210> 148

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (32)..(33)

<223> n = C3间隔区

<400> 148

atgtacaatt tcaactggag tttccattgc anngt 35

<210> 149

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (27)..(28)

<223> n = C3间隔区

<400> 149

aaatagtgag aacgagcagc tgcaggnnct 30

<210> 150

<211> 41

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (38)..(39)

<223> n = C3间隔区

<400> 150

aagaatataa aatgttagag aaccacatac aacgagcnnc t 41

<210> 151

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (27)..(28)

<223> n = C3间隔区

<400> 151

aaccccagaa cactagcagc taagggnnta 30

<210> 152

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (42)..(43)

<223> n = C3间隔区

<400> 152

ttttattagt tgtgtaatcc agttacttaa ctttaaaagc cnnat 45

<210> 153

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (27)..(28)

<223> n = C3间隔区

<400> 153

gttctgaaaa gagcctccac tcctgtnntt 30

<210> 154

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (27)..(28)

<223> n = C3间隔区

<400> 154

cctccactcc accatggcac ctattannaa 30

<210> 155

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (42)..(43)

<223> n = C3间隔区

<400> 155

gtataccact taggctatag ttattctaaa ctttgataaa cnngt 45

<210> 156

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (36)..(37)

<223> n = C3间隔区

<400> 156

aggaatcatt acaggaaaac atcgtttaaa ttggannaa 39

<210> 157

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (34)..(35)

<223> n = C3间隔区

<400> 157

ccatggtata ttgtaagttg taggtacata cccnnaa 37

<210> 158

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (34)..(35)

<223> n = C3间隔区

<400> 158

tttgatttga ataaaccaga gaactcttct gagnntt 37

<210> 159

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (31)..(32)

<223> n = C3间隔区

<400> 159

tgttgctatc ttgcttttag catttagtgc nnaa 34

<210> 160

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<220>

<221> misc_feature

<222> (26)..(27)

<223> n = C3间隔区

<400> 160

tcagcgttga gtaataccgt ctgccnnca 29

<210> 161

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 161

taagtggaaa gaactggggt gtc 23

<210> 162

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 162

acatggttag atattagcct gacctatg 28

<210> 163

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 163

gcagccaagt gtgaaagtat tga 23

<210> 164

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 164

tgatgttgag ttgagacagg ttaca 25

<210> 165

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 165

aaatgtagtt ctattatggt cagcacac 28

<210> 166

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 166

agtatcccca aaaggttgca gat 23

<210> 167

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 167

gtgcaagctg gaggcact 18

<210> 168

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 168

acaggaaaag aaactaaaat tgtaccctt 29

<210> 169

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 169

gaagccagat ctcaaagtgt cct 23

<210> 170

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 170

gttattggga atgctatgaa agagaca 27

<210> 171

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 171

agaactcatt tccttatagc tgaagaact 29

<210> 172

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 172

gcagacactt aggatgtttc cagt 24

<210> 173

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 173

gagccttagt tcctccatca gtaaa 25

<210> 174

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 174

aaatttacgt tggtaattgg gtcttgt 27

<210> 175

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 175

cacagaggtg acagaacaca gt 22

<210> 176

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 176

tagttattca tggtgggaag gcaa 24

<210> 177

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 177

aaaagataat gttcttgttt atatgccctt g 31

<210> 178

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 178

tacagcaact cacaaactaa tgactct 27

<210> 179

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 179

ggctgcgatg agacaggaa 19

<210> 180

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 180

aggcaccaga agtcatcaga atg 23

<210> 181

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 181

gaccaagctt ttatgcacca ca 22

<210> 182

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 182

tgaaagatag caatagatac ataaaacacc a 31

<210> 183

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 183

tgaaaccaca tacacacaaa ttcact 26

<210> 184

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 184

cttcctgctg tgcatctgta agt 23

<210> 185

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 185

aaaaagaaga aacggaaggc agag 24

<210> 186

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 186

tgctgcccca ccctttatta ac 22

<210> 187

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 187

cctattggaa gaacctgcca gaa 23

<210> 188

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 188

tgcaaaatga agcacagccc 20

<210> 189

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 189

gcagatggaa aatacttggg aaaaaaat 28

<210> 190

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 190

gcaaaaatta ctataccgac tttaataacg aaa 33

<210> 191

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 191

actcattgta ggctgaacct tgg 23

<210> 192

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 192

tgtattgagc atttagcaca tgcc 24

<210> 193

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 193

caatttccaa gacagaagca ctcc 24

<210> 194

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 194

acttactgag cacatggcct g 21

<210> 195

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 195

ggagagggtg agaagttgca c 21

<210> 196

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 196

ggcaaagaca tttttccaag gaagatat 28

<210> 197

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 197

cactgccagc ttgtgcct 18

<210> 198

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 198

gccctaaatc ctaaatgaaa ttggca 26

<210> 199

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 199

agaggagaaa tagatgtagc tgcc 24

<210> 200

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 200

aatccagtga cattctttaa actgtctt 28

<210> 201

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 201

gctgagctgt cacatcactt ca 22

<210> 202

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 202

gctgtgtagc ttggcaaatt aacta 25

<210> 203

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 203

gcactcttgg gtaacaggct tt 22

<210> 204

<211> 16

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 204

ccatgcccag cctggc 16

<210> 205

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 205

tggctcctca taagttatgc agattt 26

<210> 206

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 206

cagtaggatt ggctttatca aagagatc 28

<210> 207

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 207

accataatgt tttccataga agatgcac 28

<210> 208

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 208

ggttctgtac tgaagtaaaa atctcatact at 32

<210> 209

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 209

ggcaaagaaa catggcagaa atatcata 28

<210> 210

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 210

cctttggcat tttggtcaag attgt 25

<210> 211

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 211

gggggaaaat ggtttcttag gatga 25

<210> 212

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 212

ctcccatttt tctaagacat ttttttttct c 31

<210> 213

<211> 16

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 213

agcatgccgc ccttgg 16

<210> 214

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 214

tcacaggtca aaattatgag ttcttcg 27

<210> 215

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 215

tgagagtgtg caagtcactt gt 22

<210> 216

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 216

gcaggcagca tgtatcccag 20

<210> 217

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 217

gtttaatgga cagtagatgc taaattctag a 31

<210> 218

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 218

cgccatagtt agccgcttcc 20

<210> 219

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 219

tgagcctcgg tctctacctg 20

<210> 220

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 220

cctttaaggc ccagcaactg 20

<210> 221

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 221

gggtgacctt tcccttttga tga 23

<210> 222

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 222

tgtgtgtgaa agcactttat aaacca 26

<210> 223

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 223

ctatcctcag aattttccat tgatactaga aata 34

<210> 224

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 224

gagtgtctcc caaacaagga tca 23

<210> 225

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 225

acagccatca gatatccagc ag 22

<210> 226

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 226

acttcgagaa ttgactctaa gtggt 25

<210> 227

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 227

aatttagctt ccttgaggat agaagtaac 29

<210> 228

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 228

cccggccacc catacag 17

<210> 229

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 229

gaaaactacc ttaaactatg tgagaaagaa c 31

<210> 230

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 230

accctcacta atctttttct gtttgttt 28

<210> 231

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 231

gtttttctcc cagctgtaaa agca 24

<210> 232

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 232

gctttagttt ctttgcatat tttctgcaat a 31

<210> 233

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 233

agctgatctg caaggtctat ttga 24

<210> 234

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 234

tgggctcaag tgatccacct a 21

<210> 235

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 235

gtaaagagaa gggctaccag gatta 25

<210> 236

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 236

ccctatgcct gggatacttc ctt 23

<210> 237

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 237

acaaatcttt catttgtcta aggtatcaac t 31

<210> 238

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 238

agtgtcttgc attttcaagt attcct 26

<210> 239

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 239

cctaggttat ttgctgttct ctttcatta 29

<210> 240

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 240

gcttgcatat agacctacaa ataccact 28

<210> 241

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 241

ggcaccatgc atccagcc 18

<210> 242

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 242

gtccaagagt ggaggattgg g 21

<210> 243

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 243

ggaaatcgta cagttccaaa gtacaa 26

<210> 244

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 244

acagcaacag aaactaccca aaag 24

<210> 245

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 245

caagcatctt ctccttcctc tct 23

<210> 246

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 246

cctagtcctt aaccactcct tacag 25

<210> 247

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 247

tccaaactgg aaatggctgt atct 24

<210> 248

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 248

gctttctatt tatttaaaag aaagtgaagt ccc 33

<210> 249

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 249

tttcccccct tctctcttct tttt 24

<210> 250

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 250

cagcagtaca ctgaacagaa tcc 23

<210> 251

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 251

agggaccagg taaatattta ccacgtcttg gtctttattt taccgtctat atacaag 57

<210> 252

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成多核苷酸

<400> 252

agggaccagg taaatattta ccacctcttg gtgtttattt taccgtctat atacaag 57

Claims

1.一种用于同时扩增在至少10个遗传基因座处的等位基因变体的方法，所述方法包括：

(a)将包含DNA的样品与DNA聚合酶和针对每个遗传基因座的抑制探针置换扩增(BDA)寡核苷酸集混合，每个BDA寡核苷酸集包含(i)BDA正向引物、(ii)BDA抑制探针和(iii)BDA反向引物，其中在每个BDA正向引物序列的3’末端处的至少四个核苷酸还存在于其相应的BDA抑制探针序列的5’末端处或附近，其中每个BDA抑制探针含有防止通过DNA聚合酶而延伸的3’序列或修饰，并且其中每个BDA抑制探针的浓度为其相应的BDA正向引物的浓度的至少两倍；以及

(b)对混合物进行至少四次扩增循环，从而产生扩增子。

2.如权利要求1所述的方法，其中所述方法同时扩增在10个与1,000,000个之间的遗传基因座处的等位基因变体。

3.如权利要求1所述的方法，其中所述混合物中的所有BDA正向引物的最终浓度的总和多于50纳摩尔且小于50微摩尔。

4.如权利要求1所述的方法，其中步骤(b)中的每次扩增循环包括：

(i)在75℃与105℃之间的温度下持续1秒与300秒之间的变性步骤；以及

(ii)在45℃与75℃之间的温度下持续15秒与3小时之间的退火步骤。

5.如权利要求1所述的方法，其中所述DNA包括在所述遗传基因座中的至少一个处的等位基因变体。

6.如权利要求1所述的方法，其中所述DNA聚合酶为高保真DNA聚合酶。

7.如权利要求6所述的方法，其中所述DNA聚合酶具有3’至5’外切核酸酶活性。

8.如权利要求7所述的方法，其中每个BDA抑制探针具有防止3’至5’外切核酸酶活性的3’修饰。

9.如权利要求8所述的方法，其中防止3’至5’外切核酸酶活性的所述3’修饰包括倒置DNA核苷酸、硫代磷酸酯主链、一个或多个碳间隔区或一个或多个聚乙二醇(PEG)间隔区。

10.如权利要求1-9中任一项所述的方法，其中步骤(a)还包括混合当与双链DNA结合时选择性发荧光的嵌入染料。

11.如权利要求1-9中任一项所述的方法，其还包括(c)按大小选择通过步骤(b)所产生的所述扩增子。

12.如权利要求11所述的方法，其中所述选择是使用亲和珠、亲和柱、凝胶电泳或毛细管电泳进行的。

13.如权利要求11或12所述的方法，其还包括(d1)使用具有下一代测序(NGS)衔接子和/或样品索引序列的引物通过聚合酶链反应来扩增所述大小选择的扩增子，从而产生衔接子和/或样品索引修饰的扩增子。

14.如权利要求11或12所述的方法，其还包括(d2)将具有下一代测序(NGS)衔接子和/或样品索引序列的寡核苷酸连接到所述大小选择的扩增子的两个末端，从而产生衔接子和/或样品索引修饰的扩增子。

15.如权利要求13或14所述的方法，其还包括(e)对所述衔接子和/或样品索引修饰的扩增子进行下一代测序。

16.如权利要求1-15中任一项所述的方法，其中每个BDA反向引物的浓度是基于先前校准NGS实验的读段分析来确定的，其中每个BDA反向引物的浓度相对于用于所述先前校准NGS实验的浓度而增加。

17.如权利要求16所述的方法，其中每个BDA反向引物的浓度均遵循式：[rP]新＝[rP]旧*(读段_中位数/读段_扩增子)^X，其中[rP]旧为所述反向引物的先前浓度，读段_中位数为映射至每个扩增子的中位数读段，读段_扩增子为映射至对应于所述反向引物的扩增子的读段，并且X为在0.25与1之间的调整因子。

18.如权利要求1-15中任一项所述的方法，其中每个BDA正向引物的浓度是基于先前校准NGS实验的读段分析来确定的，其中每个BDA正向引物的浓度相对于用于所述先前校准NGS实验的浓度而增加。

19.如权利要求18所述的方法，其中每个BDA正向引物的浓度均遵循式：[fP]新＝[fP]旧*(读段_中位数/读段_扩增子)^X，其中[fP]旧为所述正向引物的先前浓度，读段_中位数为映射至每个扩增子的中位数读段，读段_扩增子为映射至对应于所述正向引物的扩增子的读段，并且X为在0.25与1之间的调整因子。

20.一种用于设计针对感兴趣的基因座组的BDA寡核苷酸集的序列的方法，每个BDA寡核苷酸集包含BDA正向引物、BDA抑制探针和BDA反向引物，所述方法包括：

(1)选择(+)或(-)DNA链用作所述感兴趣的基因座组的BDA模板；

(2)去除需要不相容富集区的基因座；

(3)创建每个剩余基因座的候选BDA正向引物、BDA抑制探针和BDA反向引物的列表；

(4)从每个基因座的所述候选列表选择随机BDA正向引物、BDA抑制探针和BDA反向引物；

(5)针对所有选择的BDA正向引物、BDA抑制探针和BDA反向引物的集合评估引物二聚体形成的可能性；

(6)用(3)的其他候选序列替换步骤(5)中鉴别为形成引物二聚体的一些BDA正向引物、BDA抑制探针或BDA反向引物；以及

(7)将步骤(5)和(6)重复固定的循环数，或者直到步骤(6)中的评估返回可接受的结果为止。

21.如权利要求20所述的方法，其中所述BDA寡核苷酸集用于同时扩增在多个基因组基因座处的等位基因变体。

22.如权利要求20或21所述的方法，其中步骤(5)中的评估包括评估所有可能的BDA正向引物、BDA抑制探针和BDA反向引物对的3’-最末端4-8个核苷酸之间的潜在反向互补性。

23.如权利要求20或21所述的方法，其中步骤(5)中的评估包括评估所有可能的BDA正向引物、BDA抑制探针和BDA反向引物对的长度为6-10个核苷酸的任何连续子序列之间的潜在反向互补性。

24.一种用于分析通过权利要求15所述的方法所生成的NGS读段的方法，所述方法包括：

(a)去除质量低于集合质量阈值的读段序列；

(b)将剩余的读段序列与预期的野生型扩增子序列进行比对；

(c)鉴别读段序列中与富集区中的对应野生型扩增子序列不同的每个变异；

(d)计算与对应于每个变异的每个扩增子对齐的读段序列的分数；以及

(e)丢弃对应于计算分数低于集合阈值的变异的读段。

25.如权利要求24所述的方法，其中步骤(e)中的所述阈值为0.1％与10％之间。

26.如权利要求24或25所述的方法，其还包括通过使用式VAF＝RF/(E*(1-RF)+RF)来计算步骤(e)中未丢弃的每个变异的变体等位基因分数(VAF)，其中E为所述变异的预期倍数富集并且RF为所述变异的观察读段分数。

27.如权利要求26所述的方法，其中基于校准实验使用在已知VAF下带有所述变体的参考样品确定一些变体的E值。

28.如权利要求26所述的方法，其中基于所述野生型序列、所述变体序列和位于所述变体序列上游50nt和下游50nt的序列的核苷酸同一性来确定一些变体的E值。

29.如权利要求26-28中任一项所述的方法，其还包括通过取得3种或更多种不同变体的推测VAF值的中位数来计算异质细胞样品的少数细胞型的分数的定量估计值。

30.如权利要求26-28中任一项所述的方法，其还包括通过取得3种或更多种不同变体的推测VAF值的平均值来计算异质细胞样品的少数细胞型的分数的定量估计值。

31.一种寡核苷酸分子水溶液，所述溶液包含至少10个BDA寡核苷酸集，每个BDA寡核苷酸集包含：(i)BDA正向引物、(ii)BDA抑制探针和(iii)BDA反向引物，其中在每个BDA正向引物序列的3’末端处的至少四个核苷酸还存在于其对应的BDA抑制探针序列的5’末端处或附近，其中每个BDA抑制探针含有防止通过DNA聚合酶而延伸的3’序列或修饰，并且其中每个BDA抑制探针的浓度为其对应的BDA正向引物的浓度的至少两倍，其中每个BDA抑制探针与带有替代等位基因的群体频率为10％与90％之间的单核苷酸多态性(SNP)的基因组区互补，并且其中每个对应的BDA正向引物不与SNP基因座互补。

32.如权利要求31所述的溶液，其中所述溶液包含10个与1,000,000个之间的BDA寡核苷酸集。

33.如权利要求31或32所述的溶液，其中没有BDA正向引物并且没有BDA反向引物与替代等位基因的群体频率高于1％的任何SNP互补。

34.如权利要求31-33中任一项所述的溶液，其中每个BDA反向引物结合的基因组位置均位于远离其对应的BDA正向引物结合的基因组位置100nt与500nt之间。

35.如权利要求31-34中任一项所述的溶液，其中在60℃下，在0.18M Na+中，每个BDA正向引物与其对应的补体结合的计算ΔG°’全部在彼此的2kcal/mol内。

36.如权利要求31-35中任一项所述的溶液，其中在60℃下，在0.18M Na+中，每个BDA抑制探针与其对应的补体结合的计算ΔG°为0.5kcal/mol与3.5kcal/mol之间，比所述对应的BDA正向引物与其补体之间的结合的ΔG°有利。

37.一种用于检测基础细胞系的污染的方法，所述方法包括：

(a)从细胞样品中提取出基因组DNA；

(b)将所述基因组DNA与DNA聚合酶、dNTP和如权利要求31-36中任一项所述的溶液混合；

(c)对混合物进行至少四次扩增循环，从而产生扩增子；以及

(d)分析扩增反应或扩增子混合物。

38.如权利要求37所述的方法，其中所述SNP为非致病性的。

39.如权利要求37或38所述的方法，其中所述BDA抑制探针与所述基础细胞系的SNP等位基因选择性杂交。

40.如权利要求37或38所述的方法，其中所述BDA抑制探针不与所述基础细胞系的SNP等位基因选择性杂交。

41.如权利要求37-40中任一项所述的方法，其中步骤(c)中的每次扩增循环包括：

42.如权利要求37-41中任一项所述的方法，其中步骤(b)还包括将所述基因组DNA与当与双链DNA结合时选择性发荧光的嵌入染料混合。

43.如权利要求37-42中任一项所述的方法，其中在步骤(c)中进行10次与80次之间的扩增循环。

44.如权利要求37-43中任一项所述的方法，其中步骤(d)包括将扩增循环阈值(Ct)与参考值相比较。

45.如权利要求44所述的方法，其中步骤(b)还包括将所述基因组DNA与内部对照引物集和所述内部对照的Taqman探针混合，并且其中所述参考值为所述内部对照的Taqman探针得出的Ct值。

46.如权利要求45所述的方法，其中进行至少3次所述基因组DNA样品的等分试样，并且其中步骤(d)中的分析是基于中位数嵌入染料Ct值与中位数Taqman探针Ct值之间的差进行的。

47.如权利要求45所述的方法，其中进行至少3次所述基因组DNA样品的等分试样，并且其中所述分析是基于平均嵌入染料Ct值与平均Taqman探针Ct值之间的差进行的。

48.如权利要求37-42中任一项所述的方法，其中步骤(d)包括：

(i)使用步骤(c)中产生的所述扩增子制备基础的NGS文库；

(ii)对所述NGS文库进行高通量测序以获得NGS读段；以及

(iii)解释所述NGS读段。

49.如权利要求48所述的方法，其中所述BDA抑制探针与所述基础细胞系的所述SNP等位基因选择性杂交，并且其中如果所述NGS读段的分析指示与所述基础细胞样品SNP等位基因不同的任何SNP等位基因的存在高于阈值读段分数，则获得污染的阳性结果。

50.如权利要求49所述的方法，其中所述阈值读段分数为0.1％与10％之间。

51.如权利要求49所述的方法，其还包括基于检测的SNP等位基因与所述基础细胞系的所述SNP等位基因不同的模式来鉴别污染物。

52.如权利要求48所述的方法，其中所述BDA抑制探针不与所述基础细胞系的所述SNP等位基因选择性杂交，并且其中如果所述NGS读段的分析指示污染物SNP等位基因的存在高于阈值读段分数，则获得污染的阳性结果。

53.如权利要求52所述的方法，其中所述阈值读段分数为0.1％与10％之间。

54.一种包含至少30个非致病性SNP的非致病性SNP组套，其中每个SNP具有群体频率为10％与90％之间的替代等位基因，其中每个SNP对在不同的染色体上或具有至少2,000个核苷酸的基因组距离，其中所述SNP上游50个核苷酸和下游50个核苷酸的序列在生物体基因组内是独特的。

55.如权利要求54所述的组套，其中所述组套用于验证个体或生物体的基因组身份。

56.如权利要求54或55所述的组套，其中如果所述生物体基因组中没有其他区与所述SNP上游50个核苷酸和下游50个核苷酸的序列具有大于90％的同源性，那么所述序列在所述生物体基因组内是独特的。

57.如权利要求54-56中任一项所述的组套，其中每个SNP具有群体频率为20％与80％之间的替代等位基因。

58.如权利要求55-57中任一项所述的组套，其中所述生物体为智人。

59.如权利要求58所述的组套，其中所述组套包含人基因组中22对常染色体中的每一个的SNP。

60.一种制备如权利要求54-59中任一项所述的组套的方法，所述方法包括：

(a)获得具有确切基因组位置和群体频率估计值的候选SNP的列表；

(b)去除具有群体频率低于10％或高于90％的替代等位基因的候选SNP；

(c)从剩余列表中随机选择所需SNP的数目的大约两倍，其中随机选择的SNP与位于同一染色体上的任何其他随机选择的SNP间隔至少2,000个核苷酸；

(d)当所述SNP上游50个核苷酸序列和下游50个核苷酸的序列一式两份地或在与所述基因组的其他区有高同源性的情况下存在时，去除SNP；以及

(e)从剩余候选SNP中选择所述组套的最终SNP列表。