CN106282352A

CN106282352A - 目标区域捕获探针及其设计方法

Info

Publication number: CN106282352A
Application number: CN201610728937.XA
Authority: CN
Inventors: 高连菊; 梁永; 蒋智; 陈詹妮; 石宇鹏; 臧晚春
Original assignee: Beijing Polytron Technologies Inc
Current assignee: Beijing Polytron Technologies Inc
Priority date: 2016-08-25
Filing date: 2016-08-25
Publication date: 2017-01-04
Anticipated expiration: 2036-08-25
Also published as: CN106282352B

Abstract

本发明公开了一种目标区域捕获探针及其设计方法。其中，该设计方法包括以下步骤：S1，根据目标序列在基因组上的位置范围确定基因组待测区域；S2，选用标记程度不同的重复序列标记软件对基因组待测区域内的重复区域的进行标记；以及S3，探针设计。应用本发明的技术方案，一方面，能够保证捕获效率和覆盖度之间的平衡，相比于现有技术，内含子区域覆盖度较高，有利于DNA水平上基因融合的检出；另一方面，现有提供探针服务的公司，既提供探针设计服务，又提供合成服务，但价格昂贵，且不提供给客户探针序列，利用该技术能够实现探针的自主设计，一定程度上实现了流程地自主控制，节约了成本。

Description

目标区域捕获探针及其设计方法

技术领域

本发明涉及生物技术领域，具体而言，涉及一种目标区域捕获探针及其设计方法。

背景技术

目标序列捕获测序是将感兴趣的基因组区域定制成特异性探针与基因组DNA在序列捕获芯片(或溶液)进行杂交，将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序的研究策略。目标序列捕获测序是目前基因组学研究中的一个热点技术，主要原因是该技术消耗少量的成本和时间。在相同成本下，研究者可以研究到更多的样本数量和测到更深的深度。作为一个强大、有效的技术，它在新一代高通量测序中发挥独特之处，应用领域越来越广泛。

根据杂交时状态不同，目标序列捕获可以分为固相杂交法和液相杂交法。液相杂交和固相杂交最大的差异在于杂交反应的环境不同。其中，液相杂交是通过在溶液中，目标DNA片段和已带有生物素标记探针直接杂交，然后通过生物素亲和素的反应使目标DNA片段锚定在带有亲和素的微珠上。洗去非目标DNA，洗脱后，富集的DNA用于测序。液相杂交与固相杂交相比有两大优势：1)杂交效率更高；2)易于操作，时间短，便于自动化操作。安捷伦(Agilent)公司推出的SureSelect目标序列捕获系统是液相杂交的典型产品。在杂交过程中，探针的设计是完成杂交捕获的首要任务。

为某个靶标所设计的探针，其必须尽可能多的和样本中的靶标相结合，而与样本中的非靶标尽可能少的结合，即探针的灵敏性(sensitivity)和特异性(specificity)要求。影响探针灵敏性的主要因素包括探针的Tm、探针长度、GC含量和探针的二级结构，交叉杂交、复杂度、探针方向和探针数量是影响探针特异性的四大要素。在进行探针设计过程中，为保证探针的捕获效率和均一性等要求，需综合考虑上述因素。

目前，以人类为例，涉及捕获探针主要采用以下方法：查找目的序列在人类基因组上的位置，然后对人类基因组进行重复序列的标记，根据标记程度不同，选择合适区域进行探针设计，每个区域的探针之间的步长为40bp。采用这种方法，能够满足捕获效率的要求，但部分内含子覆盖度无法达到要求，进而会影响DNA测序中基因融合的检测。

发明内容

本发明旨在提供一种目标区域捕获探针及其设计方法，以解决现有技术中捕获探针覆盖度无法达到要求的技术问题。

为了实现上述目的，根据本发明的一个方面，提供了一种目标区域捕获探针的设计方法。该设计方法包括以下步骤：S1，根据目标序列在基因组上的位置范围确定基因组待测区域；S2，选用标记程度不同的重复序列标记软件对基因组待测区域内的重复区域的进行标记，具体包括：S21，选用第一重复序列标记软件对基因组待测区域内的重复区域的进行标记，得到最严格标记文件A；以及S22，选用第一重复序列标记软件和其它两种重复序列标记软件共同对基因组待测区域内的重复区域的进行标记，得到最不严格标记文件B，其中，只对第一重复序列标记软件和其它两种重复序列标记软件均有重复序列标记的区域进行标记；以及S3，探针设计，具体包括：S31，以最严格标记文件A为基准，获得未被标记的区域位置并在该区域位置上设计探针；S32，以最不严格标记文件B为基准，获得S31中探针未覆盖的长度大于等于100bp的未被标记的区域位置并在该区域位置上设计探针。

进一步地，当目标序列为蛋白质编码基因时，编码序列即为目标区域；当目标序列为非编码蛋白质的序列时，但其存在外显子时，外显子即为目标区域。

进一步地，S1通过整合Ensembl、CCDS、RefSeq、Gencode和VEGA 5个数据库的数据确定目标序列在基因组上的位置范围。

进一步地，S2包括：S21，选用RepeatMasker软件对基因组待测区域内的重复区域的进行标记，得到最严格标记文件A；以及S22，选用RepeatMasker软件、WindowMasker软件和Uniqueness 35track软件共同对基因组待测区域内的重复区域的进行标记，得到最不严格标记文件B。

进一步地，S2具体包括：S21，选用RepeatMasker软件配合Tandem Repeat Finder软件对基因组待测区域内的重复区域的进行标记，重复区域以小写字母表示，非重复区域序列以大写字母表示，得到最严格标记文件A；以及S22，选用RepeatMasker软件、WindowMasker软件和Uniqueness 35track软件对基因组待测区域内的重复区域的进行标记，上述三种软件均有重复序列标记的区域以小写字母表示，其他区域序列以大写字母表示，得到最不严格标记文件B。

进一步地，最严格标记文件A为从UCSC网站下载的被标记的基因组文件。

进一步地，S3具体包括：S31，基于最严格标记文件A，获得基因组待测区域中的非重复区域，该区域+/-10bp，得到第一新区域，然后基于该第一新区域进行探针集合的寻找，从第一新区域的上游依次以1bp的步长作为第一条探针的起始位置，探针长度为120bp，探针与探针之间的步长为40bp，最后一条探针的末端在第一新区域的右端，同时保证探针集合中探针数量最少原则，得到第一新区域的所有探针集合，计算每个探针集合的得分，选择其中得分最高的集合作为第一新区域的探针，将上述探针所覆盖的区域合并，利用基因组待测区域和上述探针覆盖区域，取得已设计探针未覆盖的位点；S32，基于最不严格标记文件B，获得已设计探针未覆盖区域中长度≥100bp的非重复区域，该区域+/-10bp，得到第二新区域，然后基于第二新区域进行探针集合的寻找，从第二新区域的上游依次以1bp的步长作为第一条探针的起始位置，探针长度为120bp，探针与探针之间的步长为40bp，最后一条探针的末端在第二新区域的右端，同时保证探针集合中探针数量最少原则，得到第二新区域的所有探针集合，计算每个探针集合的得分，选择其中得分最高的集合作为第二新区域的探针；将S31和S32中获得的探针集合合并，即为最终的探针序列。

进一步地，每个探针集合的得分为每条探针得分的总和，每条探针按照公式3计算得分数值，公式3为：分数＝0.4×Tm+0.3×特异度+0.2×GC+0.1×复杂度。

进一步地，特异度为探针与基因组比对之后，统计其中比对长度大于20bp的非目的区域的数量，该数量的数值取负值，即为是特异度。

根据本发明的另一个方面，提供了一种目标区域捕获探针。该目标区域捕获探针由上述任一种设计方法设计后合成得到。应用本发明的技术方案，一方面，能够保证捕获效率和覆盖度之间的平衡，相比于现有技术，内含子区域覆盖度较高，有利于DNA水平上基因融合的检出；另一方面，现有提供探针服务的公司，既提供探针设计服务，又提供合成服务，但价格昂贵，且不提供给客户探针序列，利用该技术能够实现探针的自主设计，一定程度上实现了流程地自主控制，节约了成本。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明实施例1的捕获探针的设计流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。在本发明中没有详细写明的技术手段可以采用本领域的常规技术手段实现。下面将参考附图并结合实施例来详细说明本发明。

根据本发明一种典型的实施方式，提供一种目标区域捕获探针的设计方法。该设计方法包括以下步骤：S1，根据目标序列在基因组上的位置范围确定基因组待测区域；S2，选用标记程度不同的重复序列标记软件对基因组待测区域内的重复区域的进行标记，具体包括：S21，选用第一重复序列标记软件对基因组待测区域内的重复区域的进行标记，得到最严格标记文件A；以及S22，选用第一重复序列标记软件和其它两种重复序列标记软件共同对基因组待测区域内的重复区域的进行标记，得到最不严格标记文件B，其中，只对第一重复序列标记软件和其它两种重复序列标记软件均有重复序列标记的区域进行标记；以及S3，探针设计，具体包括：S31，以最严格标记文件A为基准，获得未被标记的区域位置并在该区域位置上设计探针；S32，以最不严格标记文件B为基准，获得S31中探针未覆盖的长度大于等于100bp的未被标记的区域位置并在该区域位置上设计探针。

应用本发明的技术方案，一方面，选用标记程度不同的重复序列标记软件对基因组待测区域内的重复区域的进行标记，能够保证捕获效率和覆盖度之间的平衡，相比于现有技术，内含子区域覆盖度较高，有利于DNA水平上基因融合的检出；另一方面，现有提供探针服务的公司，既提供探针设计服务，又提供合成服务，但价格昂贵，且不提供给客户探针序列，利用该技术能够实现探针的自主设计，一定程度上实现了流程地自主控制，节约了成本。

当目标序列为蛋白质编码基因时，编码序列即为目标区域；当目标序列为非编码蛋白质的序列时，但其存在外显子时，外显子即为目标区域。

优选的，S1通过整合Ensembl、CCDS、RefSeq、Gencode和VEGA 5个数据库的数据确定目标序列在基因组上的位置范围。单一数据库的转录本数量有限，因而需整合上述5个数据库，达到转录本信息覆盖的全面性，从而获得的待测区域更加有效。

根据本发明一种典型的实施方式，S2包括：S21，选用RepeatMasker软件对基因组待测区域内的重复区域的进行标记，得到最严格标记文件A；以及S22，选用RepeatMasker软件、WindowMasker软件和Uniqueness 35track软件共同对基因组待测区域内的重复区域的进行标记，得到最不严格标记文件B。

优选的，S2具体包括：S21，选用RepeatMasker软件配合Tandem Repeat Finder软件对基因组待测区域内的重复区域的进行标记，重复区域以小写字母表示，非重复区域序列以大写字母表示，得到最严格标记文件A；以及S22，选用RepeatMasker软件、WindowMasker软件和Uniqueness 35track软件对基因组待测区域内的重复区域的进行标记，上述三种软件均有重复序列标记的区域以小写字母表示，其他区域序列以大写字母表示，得到最不严格标记文件B。

优选的，最严格标记文件A为从UCSC网站下载的被标记的基因组文件，该基因组中重复区域由RepeatMasker和Tandem Repeat Finder两个软件获得，且以小写字母表示，非重复区域序列以大写字母表示，获取方便。

根据本发明一种典型的实施方式，S3具体包括：S31，基于最严格标记文件A，获得基因组待测区域中的非重复区域，该区域+/-10bp，得到第一新区域，然后基于该第一新区域进行探针集合的寻找，从第一新区域的上游依次以1bp的步长作为第一条探针的起始位置，探针长度为120bp，探针与探针之间的步长为40bp，最后一条探针的末端在第一新区域的右端，同时保证探针集合中探针数量最少原则，得到第一新区域的所有探针集合，计算每个探针集合的得分，选择其中得分最高的集合作为第一新区域的探针，将上述探针所覆盖的区域合并，利用基因组待测区域和上述探针覆盖区域，取得已设计探针未覆盖的位点；S32，基于最不严格标记文件B，获得已设计探针未覆盖的长度≥100bp的非重复区域，该区域+/-10bp，得到第二新区域，然后基于第二新区域进行探针集合的寻找，从第二新区域的上游依次以1bp的步长作为第一条探针的起始位置，探针长度为120bp，探针与探针之间的步长为40bp，最后一条探针的末端在第二新区域的右端，同时保证探针集合中探针数量最少原则，得到第二新区域的所有探针集合，计算每个探针集合的得分，选择其中得分最高的集合作为第二新区域的探针；将S31和S32中获得的探针集合合并，即为最终的探针序列。

优选的，每个探针集合的得分为每条探针得分的总和，每条探针按照公式3计算得分数值，公式3为：分数＝0.4×Tm+0.3×特异度+0.2×GC+0.1×复杂度。也可参考文章Jourdren,L.et al.Teolenn:an efficient and customizable workflow to designhigh-quality probes for microarray experiments.Nucleic acids research,gkq110(2010).

根据本发明一种典型的实施方式，特异度为探针与基因组比对之后，统计其中比对长度大于20bp的非目的区域的数量，该数量的数值取负值，即为是特异度。当序列之间存在20bp以上的互补配对时，即能很好的结合。该值的界定能尽可能避免探针同非目的区域的结合，保证特异性。

根据本发明一种典型的实施方式，提供一种目标区域捕获探针。该目标区域捕获探针由上述任一种的设计方法设计后合成得到。

下面将结合实施例进一步说明本发明的有益效果。

实施例1

在本实施例中，待设计探针目标序列为人chr16:11348700-11349335。当对某一个基因感兴趣时，就编码蛋白基因而言，编码序列为目标区域，对于非编码蛋白基因，目标区域为外显子区域。捕获探针的设计流程参见图1。

1)目标序列对应的基因组待测区域的确定。

当目标序列为编码蛋白质的基因时，与生物体异常有关的突变一般发生在编码蛋白质的DNA编码序列中，因而对此类基因，编码序列CDS(coding sequence)即成为目标区域；当基因为非编码蛋白质的基因时，但其存在外显子时，发生在外显子上的突变可能会导致生物体异常，此时，目标区域即为该基因的外显子对应的位置。在此，通过整合Ensembl、CCDS、RefSeq、Gencode和VEGA 5个数据库确定目标区域在基因组上的位置范围。例如，EGFR基因所对应的目标区域有31个，对这31个区域分别进行探针设计。

2)基因组待测区域中重复区域的标记。

该步基于3款可利用的标记工具明确基因组中重复区域，同时根据不同的标记程度选择不同的软件组合。3款标记软件如下：

A)RepeatMasker，UCSC网站下载被标记的基因组。该基因组中重复区域由RepeatMasker和Tandem Repeat Finder两个软件获得，且以小写字母表示，非重复区域序列以大写字母表示；

B)WindowMasker，首先下载未被标记的基因组，然后利用该软件进行重复区域标记，选择的参数为默认值，被标记的基因组中小写字母代表重复区域，大写字母代表非重复区域；

C)Uniqueness 35track，从UCSC网站下载35mer的uniqueness文件，该文件格式为bigWig格式，首先利用bigWigToBedGraph程序，将其转化为bed文件。该文件包含4列，分别为染色体号、起始位置、终止位置和分值，分值在0-1之间，1代表其对应的序列在基因组上是唯一的，0表示该片段在基因组上存在4次以上，在此，选择分值为0的作为重复区域。

为保持捕获效率和目标区域覆盖度之间的平衡，标记程度提供了两种方式：最严格标记(文件A)和最不严格标记(文件B)。最严格标记：利用RepeatMasker软件得出的基因组为被标记基因组，此时不考虑WindowMasker和Uniqueness 35track对于重复区域的定义；最不严格标记：由上述3款软件同时确定为重复序列的区域即为重复区域，此时，基因组中重复区域的总长度最短，因为被称为最不严格。

3)在目标区域设计探针。

探针设计过程中，涉及到Tm(DNA熔解温度)、GC含量、复杂度(complexity)和特异度(uniqueness)4个参数的计算。

Tm计算公式表示为：

Tm＝deltaH/(deltaS+R×ln((C/4)-273.15 (公式1)

其中deltaH(kcal/mol)是杂交时最近邻碱基的焓变和(小于0)；deltaS(cal/k×mol)是杂交时最近邻碱基的熵变和(小于0)；R为摩尔气体常数，等于1.987cal/k×cal；C表示核酸链的总摩尔浓度，等于5×10^(-8)。用于计算焓变和熵变的热力学表参考John发表于1998年的文章。

GC含量影响探针的捕获效率，当某条探针的GC含量≥65％且在区域中不止一条探针时，在合成过程中，该探针的浓度加倍。当某一区域仅有一条探针时，该探针的浓度为基准浓度的3倍，而不考虑GC含量。

复杂度的计算基于被标记的基因组。通过计算每条探针中被标记的碱基数量得到复杂度的值。公式为：

复杂度＝1﹣被标记的碱基数量(小写字母的数量)/120 (公式2)

特异度的计算基于blast软件。利用blast可获得探针与基因组的同源性信息，鉴于20bp的引物即能同核酸链结合完成PCR过程，因而两个片段具有20bp的同源性就可能结合为双链。探针与基因组blast之后，统计其中比对长度大于20bp的非目的区域的数量。该数值取负值，即认为是特异度。

给予每条探针一个分值(score)，具体计算公式如下：

score＝0.4×Tm+0.3×uniqueness+0.2×GC+0.1×complexity (公式3)

因而每个探针集合的得分，即为每条探针得分的总和，其中得分最高的探针集合即为最优探针集合，作为对应区域杂交捕获的探针。

具体的设计步骤详见下：

基于文件A，获得目标区域中的非重复区域，该区域+/-10bp，得到新的区域，然后基于新区域进行探针集合的寻找。从新区域的上游依次以1bp的步长作为第一条探针的起始位置，探针长度为120bp，探针与探针之间的步长为40bp，最后一条探针的末端在上述区域的右端，同时保证探针集合中探针数量最少原则，得到区域的所有探针集合。计算每个探针集合的得分，选择其中得分最高的集合作为区域的探针(Probe 1)。将上述探针所覆盖的区域合并，利用最初目的区域和上述探针覆盖区域，取得已设计探针未覆盖的位点；然后基于文件B，获得已设计探针未覆盖的长度≥100bp的非重复区域，该区域+/-10bp，得到新的区域，然后基于新区域进行探针集合的寻找。从新区域的上游依次以1bp的步长作为第一条探针的起始位置，探针长度为120bp，探针与探针之间的步长为40bp，最后一条探针的末端在上述区域的右端，同时保证探针集合中探针数量最少原则，得到区域的所有探针集合，计算每个探针集合的得分，选择其中得分最高的集合作为区域的探针(Probe 2)。上述两部分探针集合合并，即为最终的探针序列。chr16:11348700-11349335区域的最终探针集合见表1。

表1

其中，第一列是染色体号，第二列是设计探针目的区域的起始位置，第三列是设计探针目的区域的终止位置，第四列是探针序列，第五列是探针序列对应的在基因组上的起始位置，第六列是探针序列对应的在基因组上的终止位置，第七列是探针对应的浓度倍数。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：

1)采用本发明的技术方案，能够保证捕获效率和覆盖度之间的平衡，相比于现有技术而言，内含子区域覆盖度较高，有利于DNA水平上基因融合的检出。

2)现有提供探针服务的公司，既提供探针设计服务，又提供合成服务，但价格昂贵，且不提供给客户探针序列。利用该技术能够实现探针的自主设计，一定程度上实现了流程地自主控制，节约了成本。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标区域捕获探针的设计方法，其特征在于，包括以下步骤：

S1，根据目标序列在基因组上的位置范围确定基因组待测区域；

S2，选用标记程度不同的重复序列标记软件对所述基因组待测区域内的重复区域的进行标记，具体包括：

S21，选用第一重复序列标记软件对所述基因组待测区域内的重复区域的进行标记，得到最严格标记文件A；以及

S22，选用所述第一重复序列标记软件和其它两种重复序列标记软件共同对所述基因组待测区域内的重复区域的进行标记，得到最不严格标记文件B，其中，只对所述第一重复序列标记软件和其它两种重复序列标记软件均有重复序列标记的区域进行标记；以及

S3，探针设计，具体包括：

S31，以所述最严格标记文件A为基准，获得未被标记的区域位置并在该区域位置上设计探针；

S32，以所述最不严格标记文件B为基准，获得所述S31中探针未覆盖的长度大于等于100bp的未被标记的区域位置并在该区域位置上设计探针。

2.根据权利要求1所述的设计方法，其特征在于，当所述目标序列为蛋白质编码基因时，编码序列即为所述目标区域；当所述目标序列为非编码蛋白质的序列时，但其存在外显子时，所述外显子即为所述目标区域。

3.根据权利要求1所述的设计方法，其特征在于，所述S1通过整合Ensembl、CCDS、RefSeq、Gencode和VEGA 5个数据库的数据确定所述目标序列在基因组上的位置范围。

4.根据权利要求1所述的设计方法，其特征在于，所述S2包括：

S21，选用RepeatMasker软件对所述基因组待测区域内的重复区域的进行标记，得到所述最严格标记文件A；以及

S22，选用RepeatMasker软件、WindowMasker软件和Uniqueness 35track软件共同对所述基因组待测区域内的重复区域的进行标记，得到所述最不严格标记文件B。

5.根据权利要求4所述的设计方法，其特征在于，所述S2具体包括：

S21，选用RepeatMasker软件配合Tandem Repeat Finder软件对所述基因组待测区域内的重复区域的进行标记，重复区域以小写字母表示，非重复区域序列以大写字母表示，得到所述最严格标记文件A；以及

S22，选用RepeatMasker软件、WindowMasker软件和Uniqueness 35track软件对所述基因组待测区域内的重复区域的进行标记，上述三种软件均有重复序列标记的区域以小写字母表示，其他区域序列以大写字母表示，得到所述最不严格标记文件B。

6.根据权利要求5所述的设计方法，其特征在于，所述最严格标记文件A为从UCSC网站下载的被标记的基因组文件。

7.根据权利要求1所述的设计方法，其特征在于，所述S3具体包括：

S31，基于所述最严格标记文件A，获得所述基因组待测区域中的非重复区域，该区域+/-10bp，得到第一新区域，然后基于该第一新区域进行探针集合的寻找，从所述第一新区域的上游依次以1bp的步长作为第一条探针的起始位置，探针长度为120bp，探针与探针之间的步长为40bp，最后一条探针的末端在所述第一新区域的右端，同时保证探针集合中探针数量最少原则，得到所述第一新区域的所有探针集合，计算每个探针集合的得分，选择其中得分最高的集合作为所述第一新区域的探针，将上述探针所覆盖的区域合并，利用基因组待测区域和上述探针覆盖区域，取得已设计探针未覆盖的位点；

S32，基于所述最不严格标记文件B，获得已设计探针未覆盖区域中长度≥100bp的非重复区域，该区域+/-10bp，得到第二新区域，然后基于所述第二新区域进行探针集合的寻找，从所述第二新区域的上游依次以1bp的步长作为第一条探针的起始位置，探针长度为120bp，探针与探针之间的步长为40bp，最后一条探针的末端在所述第二新区域的右端，同时保证探针集合中探针数量最少原则，得到所述第二新区域的所有探针集合，计算每个探针集合的得分，选择其中得分最高的集合作为所述第二新区域的探针；

将所述S31和所述S32中获得的探针集合合并，即为最终的探针序列。

8.根据权利要求7所述的设计方法，其特征在于，所述每个探针集合的得分为每条探针得分的总和，每条探针按照公式3计算得分数值，公式3为：分数＝0.4×Tm+0.3×特异度+0.2×GC+0.1×复杂度。

9.根据权利要求8所述的设计方法，其特征在于，所述特异度为探针与基因组比对之后，统计其中比对长度大于20bp的非目的区域的数量，该数量的数值取负值，即为是特异度。

10.一种目标区域捕获探针，其特征在于，由权利要求1至9中任一项所述的设计方法设计后合成得到。