CN110021353A

CN110021353A - 一种用于捕获富集基因组的特定区域的分子反向探针的筛选方法

Info

Publication number: CN110021353A
Application number: CN201710918641.9A
Authority: CN
Inventors: 李旭超; 张昭; 金保雷; 张林华; 葛会娟; 陈宁; 阮力; 郑立谋
Original assignee: Amoy Diagnostics Co Ltd
Current assignee: Amoy Diagnostics Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2019-07-16
Anticipated expiration: 2037-09-30
Also published as: CN110021353B

Abstract

本发明公开了一种用于捕获富集基因组的特定区域的分子反向探针的筛选方法。首先设计分子反向探针结构；从目标区域的5’端开始，挑选至少50％的扫描区域落在5’端的探针作为候选起始集合；对相邻每条探针的两两组合的打分，将满足条件的探针，依次与前一个已挑选探针组合，组成所有可能探针组合的集合，并对每个候选组合进行打分，对所有可能的组合进行分值的计算，得到其中得分最高或罚分最低的组合即可。适用于不同测序平台的linker结构，所得分子反向探针技术在准确度、便利性、检测灵敏度等方面获得显著提升，同时有效减少了覆盖目标区域，特别是大片段外显子区域所需的探针数量，方便快捷，节约成本。

Description

一种用于捕获富集基因组的特定区域的分子反向探针的筛选方法

技术领域

本发明涉及基因工程探针领域，尤其涉及一种用于捕获富集基因组的特定区域的分子反向探针的筛选方法。

背景技术

稀有突变和新生突变(de novo mutations)是复杂疾病的遗传基础，从一个样本细胞群中检测其中的基因多样性对于人类癌症遗传学研究具有重要意义。然而，尽管大规模平行测序的成本不断降低，通量不断提高，但稳定检测出一个特定DNA样本中低相对丰度的突变仍然十分具有挑战性。

目前已有许多方法用于鉴别基因突变，包括qPCR、质谱、微阵列芯片等。然而这些方法对于低频突变识别的灵敏度不高，因此急需一种方法能处理大量的DNA分子，能够较为灵敏地识别低相对丰度的突变，而同时又不会带来过多假阳性的结果。

大规模平行测序能有效解决以上的问题，但同时也存在两个技术上的挑战：一是大规模平行测序仪器通常会存在一定的碱基错误率，从而为低频突变的检测特异性带来一定的影响；而为了能消除假阳性的影响，超高深度测序是一种选择的方向，但由于人类基因组的大小的限制，使得全基因组范围的超高深度测序并不现实。

分子反向探针(MIP)是一项可用于在大量人群中低成本地进行靶向重测序的方法。它通过两端引物反向锚定的方式实现对目标区域的特异性富集，具有操作简便、成本低廉、特异性高、准确度高等优点。然而，在实验设计当中，MIP探针的设计仍然是决定这一技术实际运用效果的决定性因素。捕获的均一性和特异性是最重要的两个判断指标。传统的设计方法主要考虑两端引物的特异性来进行挑选，对于探针的可选范围和实验特性考虑较少。

发明内容

本发明的目的在于提供一种高效、快捷的用于捕获富集基因组的特定区域的分子反向探针，能够满足实验的条件要求和检测能力。

为实现上述目的，本发明提供一种用于捕获富集基因组的特定区域的分子反向探针的筛选方法，其特征在于，

设计分子反向探针结构；分子反向探针的结构为，从5’开始，依次为15-30bp的连接臂，Linker区和15-30bp的延伸臂；Linker区包括公共引物1和公共引物2，其中公共引物1一端与连接臂连接，公共引物2一端与延伸臂连接；

从目标区域的5’端开始，挑选至少50％的扫描区域落在5’端的探针作为候选起始集合；

对相邻每条探针的两两组合的打分：将满足以下条件的探针，依次与前一个已挑选探针组合，组成所有可能探针组合的集合，并对每个候选组合进行打分：

a)探针所处链与前一个探针相反；

b)探针的扩增区域与前一个探针的扩增区域在去除连接臂或延伸臂位置后仍有交叉，即延伸片段可对目标区域完全覆盖；同时，对两条探针交叉区域的长度进行打分，打分公式为：两者的交叉区域长度/两者扩增区域的总跨度；

c)计算探针的连接臂和延伸臂的熔解温度，进而进行筛选，并对偏离程度进行打分；打分公式为：(熔解温度-理想熔解温度)/理想熔解温度；使用动态规划的算法计算得到最优探针组合路径：

对上述所有可能的组合进行分值的计算，使用动态规划的算法计算得到其中得分最高或罚分最低的组合即可；所述使用动态规划的算法即通过计算并保留局部最优解的方式计算全局最优解。

进一步，所述分子反向探针结构中的连接臂和延伸臂的序列为与目标区域两侧序列反向互补的序列；所述公共引物1和公共引物2为适用高通量测序平台所使用的测序起始引物结合序列。

进一步，所述连接臂与公共引物1之间有分子标签1序列；

任选的，所述公共引物2与延伸臂之间有分子标签2序列。

进一步，所述公共引物1和公共引物2之间有打断点。

进一步，所述连接臂和延伸臂的长度均为18-28bp；优选的，所述连接臂和延伸臂的长度之和为38-50bp；更优选的，所述连接臂和延伸臂的长度之和为40-45bp；

任选的，所述连接臂和延伸臂扩增片段长度为100-500bp；优选的，为150-350bp；更优选的，为200-300bp；

任选的，所述连接臂和延伸臂不存在长范围重复序列，且连接臂和延伸臂自身序列不存在长范围互补序列，连接臂和延伸臂之间不存在长范围互补序列，连接臂和延伸臂与linker序列之间不存在长范围互补序列；

任选的，所述连接臂和延伸臂的GC含量在20-80％之间；优选的，所述连接臂和延伸臂的GC含量在40-60％之间；

任选的，所述连接臂与延伸臂的理论熔解温度为40-72度；优选的，所述连接臂与延伸臂的理论熔解温度为45-65度；

任选的，所述连接臂的理论熔解温度高于延伸臂的理论熔解温度；优选的，连接臂与延伸臂的理论熔解温度差值范围为3-10度。

进一步，所述公共引物1和2为无互补配对序列的片段来源；优选的，所述公共引物1和2均为15-40bp。

进一步，所述分子标签1和2的总长为5-20bp；

优选的，所述分子标签1和2序列为完全随机序列；

更优选的，分子标签1和2序列采用BDHV的随机方式，其中B为非A碱基，D为非C碱基，H为非G碱基，V为非T碱基。

进一步，所述打断点为采用物理或化学方法打断碱基序列的碱基；

优选的，打断点为酶切识别位点序列或dSpacer或dU的碱基修饰序列。

理想溶解温度是设计的输入值，例如根据实验设计，认为序列实际TM在60度会比较合适，则理想熔解温度为60度。

使用动态规划的算法是公共算法，见

https://baike.baidu.com/item/％E5％8A％A8％E6％80％81％E8％A7％84％E5％88％92/529408？fr＝aladdin。还可以见文献《Dynamic Programming》，ISBN:3540370137。

本发明所述用于捕获富集基因组的特定区域的分子反向探针，能有效捕获目标基因序列中存在的稀有突变，在肿瘤组织靶向测序或液体活检领域有重要的应用价值。对分子反向探针的改进方法，包含探针结构、设计原理、挑选规则：

1、分子反向探针的结构设计

分子反向探针是一种环化分子捕获技术，可用于捕获富集基因组的特定区域。通常是一种单链分子，包含与目标区域两侧序列反向互补的序列(分别称为连接臂和延伸臂)，并且这两段序列被中间连接区域分隔开。当分子反向探针的连接臂和延伸臂与目标区域两侧序列退火杂交以后，由DNA聚合酶和DNA连接酶完成延伸臂的延伸，并最终与连接臂连接成环状分子。随后在核酸外切酶的作用下，将未能成功成环的探针以及模板序列消化，并通过磁珠或其它方法将环状分子纯化出来。随后在通用引物的作用下，对环状分子进行PCR扩增，将信号放大，并随后用于高通量测序，从而实现对多个基因组目标区域同时进行靶向捕获测序。

因此，分子反向探针的一般形式为，一个通用的连接区域(linker区，包含2段公共引物，即公共引物1和2)，左右两侧各存在一个15-30bp的延伸臂和连接臂。为了能够适用于下一步的高通量测序，linker区应为下一步PCR的结合序列。

在此基础上，为了提高实验效率，本发明对探针结构进行了以下可选改进：

1.linker区两段pcr公共引物1和公共引物2可设计为适用高通量测序平台所使用的测序起始引物结合序列，如采用此方案，在测序时将不需要额外添加测序起始序列，简化实验过程。

2.同时，为了防止两段公共序列自身形成二级结构，可选择两段无互补配对序列的片段来源，如一段采用Truseq系列的序列，一段采用Nextera系列的序列。

3.在linker区的两段PCR公共引物之间，可选择加入用于序列打断的碱基修饰结构，在后续的PCR反应前将环形DNA打断为线性，从而提高扩增效率。在碱基修饰的方式上，可选择设计酶切识别位点，使用时加入相应双链配对序列进行相应的酶切反应；也可直接采用如dSpacer或dU的碱基修饰，进而使用DNA糖基化酶-裂解酶Endo VIII或其与尿嘧啶-DNA糖基化酶的混合物(USER酶)进行水解的方式进行单链打断。

4.在linker区与两端的引物序列之间，可选择加入5-20个碱基的唯一分子识别标签即分子标签(Unique Identifier，UID)用于测序完成后的碱基校正，进而显著降低PCR及测序过程中引入的碱基错误。

5.在UID的设计方式上，可选择在一端引物与linker序列间加入，也可选择在两端引物与linker序列间均加入。综合考虑序列标签的丰富性及连续随机序列可能对体系稳定性的影响，优选将UID序列分配在两端引物与linker序列之间。

6.在UID的序列设计上，可选择随机合成4种碱基的方式进行合成，即NNNNN的形式。但考虑到UID序列与两端特异性引物相邻，随机碱基的加入可能会引入与引物延伸方向上参考序列相同的碱基，此现象可能导致以下弊端：导致探针结合的偏向性，降低UID的丰富性；改变两端引物与模板结合的最佳溶解温度，使反应的最佳条件偏离设计值。因此，本发明在UID设计中，优选使用BDHV(简并碱基，B为非A碱基，D为非C碱基，H为非G碱基，V为非T碱基)的随机方式，将延伸臂5’端和连接臂3’端的1-3个碱基进行参考基因型的屏蔽，即当参考序列对应的参考基因型为A时，选择B的简并碱基类型，使此位置的随机碱基不含有A的组合，从而再引入随机序列之后不会导致不同探针与模板结合的Tm值存在较大不同；之后延伸位的碱基设计规则与此相同。

综上所述，本发明的探针结构如图1所示，其中linker区中的公共引物1和公共引物2可根据不同的实验环境进行修改，公共引物1和公共引物2间的打断点为可选结构；探针两端的连接臂和延伸臂序列为与目标区域结合的特异性序列；linker区与两端特异引物之间，可选择性的加入1或2个分子标签，且分子标签靠近两特异引物的区域可选择加入屏蔽碱基即分子标签1序列和分子标签2序列，以消除随机序列对引物结合的影响。

2、候选探针集合的挑选

分子反向探针捕获的效率在很大程度上是由两端的连接臂和延伸臂设计的好坏决定的。本发明所述的探针，在筛选最佳探针组合之前，将根据目标区域序列的特征，及预设的条件参数，预先设计出一个可供挑选的探针集合。

在探针集合的设计过程中，除了遵循普通的引物设计挑选规则外，还将加入以下优化策略：

1.连接臂和延伸臂的长度均在15-30bp之间，优选18-28bp之间，且连接臂和延伸臂的长度之和在38-50bp之间，优选40-45bp之间。连接臂和延伸臂扩增片段长度在100-500之间，优选150-350之间，再优选200-300之间。

2.连接臂和延伸臂不存在长范围重复序列，且连接臂和延伸臂自身序列不存在长范围互补序列，连接臂和延伸臂之间不存在长范围互补序列，连接臂和延伸臂与linker序列之间不存在长范围互补序列。

3.连接臂和延伸臂的GC含量在20-80％之间，优选40-60％之间。连接臂和延伸臂的理论熔解温度在预设的范围之内，且连接臂的理论熔解温度高于延伸臂的理论熔解温度，优选的差值范围为3-10度。在理论熔解温度的选择上，可根据实验需要进行设定，可选范围为40-72度，优选范围为45-65度。理论熔解温度的计算方式可采用主流的计算方法，如基于序列组成的计算方法、基于盐离子浓度校正的计算方法、基于最近邻法的热力学计算方法等。

4.在连接臂和延伸臂设计过程中，应尽量避免序列范围内包含多态性位点，可使用dbSNP中的多态性数据对引物进行过滤和筛选。

5.连接臂和延伸臂应在模板序列上具有唯一性，保证实验过程中不产生非特异性扩增。在此处的特异性筛选上，由于连接臂和延伸臂位于同一探针序列上，物理空间距离成为一个重要的限定因素。即连接臂和延伸臂的特异性可一起考虑，当其中的连接臂或延伸臂具有唯一性时，另一端在此目标区域附件具有唯一性即可，在全部模板范围的唯一性要求可降低；如连接臂和延伸臂在全部模板范围内均不唯一，但两者的组合在一定范围内为唯一，也可作为探针挑选的次优组合。

6.在探针设计过程中，由于存在连接臂与延伸臂的非对称性要求，为了对目标区域进行更好的覆盖，可以选择在正、负链同时进行探针筛选的方式进行设计。

3、最优探针组合的挑选

当获取所有探针候选集合之后，由于探针相互组合的高可变性，其排列组合的方式和可能性极其巨大，从其中挑选出可用于实验的最优组合将是十分耗费时间和资源的工作。在本发明中，通过对各项筛选条件和引物间关系进行打分的方式，并运用动态规划的算法，可以快速的挑选出候选集中的最优探针组合。

其具体算法如下：

1.对每条探针进行打分判定：

主要对连接臂和延伸臂的Tm值进行打分((实际值-理论值)/理论值)，判定标准为与设定阈值的偏离度；与其他所有候选探针Tm值分布的偏离度。

2.对相邻每条探针的两两组合的打分：

主要考虑两条相邻探针的重叠区域大小，在选择时，两条相邻探针在不包含连接臂和延伸臂部分的插入片段长度必须有交集，优选有3bp以上交集。之后，对两条序列交集的大小进行打分(两个探针扩增区域的交叉区域长度/两者扩增区域的总跨度)，重叠区域越小越好(主要是考虑相邻两条探针所扩增的目标区域需要重叠以覆盖所有目标区域，但是为了减少探针条数，又需要重叠区域尽量的小)。

3.使用动态规划的算法计算得到最优探针组合路径：

对所有可能的组合进行计算，加权得到每种组合的打分值，取其中效果最好(也就是得分最高，或者罚分最低)的组合作为探针的最佳组合。其中，计算过程中使用动态规划的编程思想，即通过计算并保留局部最优解的方式计算全局最优解，从而极大地节省计算资源，加快计算速度。

在整个计算过程中，需要注意的是：打分方式可以选择使用正向打分而选取最高值的方式，也可以选择使用罚分的方式而选取罚分最小值作为最优方案。例如，在计算相邻探针组合的得分时，如选择罚分的方式，可以使用：相邻探针之间重叠区域的长度除以相邻探针跨越区域的总长度。这时，罚分越高表示重叠区域越长，则实验过程中发生交叉反应的概率越高，且相同的区域需要更多条的探针覆盖，与罚分所表示的含义相关。

在挑选过程中，可以针对重叠区域分别从正、负链交叉选择。在此设计方式中，对于连续区域仍可以达到在同一个扩增体系中进行实验，而无需进行分管操作，使实验过程更加便利和节约成本。

与目前常用的MIP探针设计方法相比，本发明的有益效果主要有：

1.重新设计了探针结构，可选单侧或双侧分子标签(UID)，可选适用于不同测序平台的linker结构，可选dU或dSpacer等单链打断修饰提高后续PCR效率，最终可使分子反向探针技术在准确度、便利性、检测灵敏度等方面获得显著提升。

2.更容易获取高质量探针。本发明同时考虑了探针的多项指标，采用综合打分搜索算法，找到最优探针组合。

3.有效减少了覆盖目标区域，特别是大片段外显子区域所需的探针数量。本发明通过综合考量探针自身分值和相邻探针重叠区域加入计分系统，可以在提高探针捕获效率的同时，减少所需的探针数量。同时，针对连续区域，通过交叉从正/负链进行设计的方式，可将所有扩增反应置于一管反应液当中，具有极大的操作便利性和成本节约性。

4.方便快捷。按照传统方法设计，通常需要大量的迭代优化时间，通过引入动态规划算法，实现各特征区域迭代优化的快速搜索，在最短的时间内达到最佳效果。

附图说明

图1是本发明分子反向探针的其中一种结构示意图。

图2是本发明分子反向探针的其中一种结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

以下结合图1和图2中的探针结构来理解和说明实施例中的探针结构。

实施例1：检测人类基因BRCA1/2外显子区域的MIP探针设计

运用本发明方法，对人类基因组中的BRCA1和BRCA2基因的编码区及剪切区域进行单分子标签标记的分子反向探针设计。统计此探针设计进行靶向捕获的覆盖度，并对其中部分探针进行实验验证，对测序数据的均一性和特异性进行系统评估。

具体的设计过程如下：

1.探针结构的选择：

在本次实验设计中，预期的检测目标为1％的Somatic突变，因此在探针结构中引入UID，并采用将UID分布在linker区的两侧。每一次使用6bp的随机碱基，其中靠近连接臂或延伸臂的2bp设计为与参考基因型互斥的随机碱基。

在linker区的设计上，分别使用了TruSeq系列测序引物P5端16bp的序列和Nextera系列测序引物P7端20bp的序列；在两端序列间加入dU碱基，用于实验过程中的打断操作使用。

2.候选探针集挑选：

在候选探针集的设计上，参数范围设定如下：

连接臂碱基长度为18-34，延伸臂碱基长度16-32。

连接臂的熔解温度优选为60度，延伸臂的熔解温度优选为55度。

扩增片段的长度为180-300bp。

在全基因组区域，连接臂的序列具有唯一性，即无重复序列；延伸臂的序列出现此处不高于10次。

在此条件下，对BRCA1及BRCA2的全部编码区及剪切区的17kb区域进行探针挑选，挑选的方式为从包含目标区域序列的最前端开始依次扫描，分别对正负链进行探针设计，将所有满足以上条件的探针放入候选探针集合当中。

3.探针组合挑选：

针对目标区域，通过以下条件从探针集合中筛选最佳探针组合。

(1)从目标区域的5’端开始，挑选至少50％的扫描区域落在5’端的探针作为候选起始集合。

(2)将满足以下条件的探针，依次与前一个已挑选探针组合，组成所有可能探针组合的集合，并对每个候选组合进行打分。

a)探针所处链与前一个探针相反；

b)探针的扩增区域与前一个引物的扩增区域在去除引物(连接臂或延伸臂)位置后仍有交叉，即延伸片段可对目标区域完全覆盖；同时，对两条探针交叉区域的长度进行打分，打分公式为：两者的交叉区域长度/两者扩增区域的总跨度；

c)对探针的连接臂和延伸臂的熔解温度使用OligoTM的默认参数进行计算，进而进行筛选，优选59-61度和54-55度，并对偏离程度进行打分。打分公式为：(熔解温度-理想熔解温度)/理想熔解温度。

4.在最优组合的计算过程中，使用动态规划的算法，即计算和保留局部最优探针组合的尾部，在下一次最优选择时以此为起点进行后续筛选，最终得到全局最优解。设计探针的验证：

经过以上设计过程，对BRCA1及BRCA2基因的编码区及剪切区共挑选得到145条探针，可对此目标区域进行完全覆盖，其统计信息如表1所示。其中，最终得到的设计探针，扩增片段范围在230-260之间，连接臂的熔解温度在60度左右，上下波动1度，延伸臂的熔解温度在55度左右，上下波动1度。

表1.BRCA1、BRCA2探针设计结果统计表

后续，对设计得到的探针序列进行合成，在探针的5’末端使用磷酸修饰，3’末端使用硫代修饰，并通过实际的实验操作及后续测序进行探针效果的评估和验证。实验中选取了3例无阳性突变的阴性DNA用于碱基错误率的评估，具体实验方案如下：

(1)使用5U Ampligase DNA ligase连接酶(Epicentre)与相应buffer、50ng阴性样品基因组DNA、1000倍的探针、High-Fidelity DNA Polymerase(NEB)聚合酶、纯化水混合得到15uL体系，95℃变性5min，60℃孵育12h。

(2)加入Exonuclease Ⅰ(NEB)、ExonucleaseⅢ(NEB)、ExonucleaseⅦ(NEB)进行37℃孵育40min，95℃孵育5min。

(3)加入USER酶(NEB)37℃孵育15min。

(4)使用NEB的Q5预混PCR反应体系及其推荐程序进行PCR扩增，循环数为25cycle。

(5)得到的扩增文库进行纯化、质控及高通量测序，测序平台选择illuminaNextSeq500测序机型，数据量为1GB。

通过对得到的测序数据进行引物识别、序列比对、统计分析，其统计结果如表2所示。

表2 3例阴性样品实验结果统计表

实验组	文库产量(ng)	比对率	覆盖度	错误率
					样本1	59	96.69％	100％	0.02％
样本2	69.5	97.40％	100％	0.03％
					样本3	74	96.72％	100％	0.02％

由此可见，此探针设计方法，可以实现对目标基因区域的快速筛选。通过对熔解温度的优化选择，及以正负链交错的方式进行区域覆盖，可以得到在单管反应中对目标区域进行均匀扩增的有效探针组合。搭配探针设计中引入的特殊结构分子标签，可以对基因突变和测序错误进行有效区分。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于捕获富集基因组的特定区域的分子反向探针的筛选方法，其特征在于，

a)探针所处链与前一个探针相反；

2.如权利要求1所述用于捕获富集基因组的特定区域的分子反向探针的筛选方法，其特征在于，所述分子反向探针结构中的连接臂和延伸臂的序列为与目标区域两侧序列反向互补的序列；所述公共引物1和公共引物2为适用高通量测序平台所使用的测序起始引物结合序列。

3.如权利要求1所述用于捕获富集基因组的特定区域的分子反向探针的筛选方法，其特征在于，所述连接臂与公共引物1之间有分子标签1序列；

任选的，所述公共引物2与延伸臂之间有分子标签2序列。

4.如权利要求1所述用于捕获富集基因组的特定区域的分子反向探针的筛选方法，其特征在于，所述公共引物1和公共引物2之间有打断点。

5.如权利要求1所述用于捕获富集基因组的特定区域的分子反向探针的筛选方法，其特征在于，所述连接臂和延伸臂的长度均为18-28bp；优选的，所述连接臂和延伸臂的长度之和为38-50bp；更优选的，所述连接臂和延伸臂的长度之和为40-45bp；

6.如权利要求1所述用于捕获富集基因组的特定区域的分子反向探针的筛选方法，其特征在于，所述公共引物1和2为无互补配对序列的片段来源；优选的，所述公共引物1和2均为15-40bp。

7.如权利要求3所述用于捕获富集基因组的特定区域的分子反向探针的筛选方法，其特征在于，所述分子标签1和2的总长为5-20bp；

优选的，所述分子标签1和2序列为完全随机序列；

8.如权利要求1所述用于捕获富集基因组的特定区域的分子反向探针的筛选方法，其特征在于，所述打断点为采用物理或化学方法打断碱基序列的碱基；