CN116230086A

CN116230086A - 一种通过修改模体提升探针安全性的方法及装置

Info

Publication number: CN116230086A
Application number: CN202211673064.9A
Authority: CN
Inventors: 蒋才; 尹书剑; 程陶然; 朱文鑫
Original assignee: Naonda Nanjing Biological Technology Co ltd
Current assignee: Naonda Nanjing Biological Technology Co ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-06-06
Anticipated expiration: 2042-12-26
Also published as: CN116230086B

Abstract

本发明公开了一种通过修改模体提升探针安全性的方法及其装置。本发明的方法及其装置可在评估基因组重复区探针捕获安全性之后，将被评估为高危探针的探针修改其碱基，以此提高高危探针捕获安全性，得到可用的安全探针。

Description

一种通过修改模体提升探针安全性的方法及装置

技术领域

本发明涉及生物信息技术领域，具体而言，涉及一种通过修改模体提升探针安全性的方法及装置。

背景技术

随着靶向测序(Target region sequencing)的蓬勃发展，越来越多的捕获探针被研究人员所需求，随着探针设计量的增多，可能导致脱靶的风险探针的数量也日益增多。当风险探针存在于杂交捕获体系中时，由于其核酸序列与基因组其他区域序列具有相似性，在实验过程中会捕获非目标区域的核酸序列，将非目标序列引入到下游序列扩增和测序环节之中，进而产生大量无用数据，造成数据浪费并对后续数据分析产生干扰。因此，风险探针的存在成为了靶向测序产品设计的一大掣肘。

现有技术规避风险探针的方法大多是将探针序列与全基因组进行相似度比较，将具有较多比对结果的探针认定为风险探针，并将之弃用。弃用风险探针是市场上绝大多数公司处理风险探针的方法，虽然提高了中靶率，但也同时放弃了对某些关键区域的研究机会。随着对基因组研究的推进，风险探针所涉及的区域愈发不可回避，因此，推出一种提高风险探针的捕获特异性，降低风险探针或高危探针的弃用率的方法显得尤为重要

发明内容

本发明旨在提供一种通过修改模体提升探针安全性的方法及装置，以提升高危探针的捕获特异性，并降低高危探针的弃用率。

为实现上述目的，本发明提供如下技术方案：

在一实施方式中，提供一种通过修改模体提升探针安全性的方法，包括以下步骤：

(1)评估待提升探针集的探针的安全性，得到重复区探针，并生成重复区高危模体集；

(2)将上述待提升探针集中的非重复区探针和参考基因组进行比对，得到每条上述非重复区探针的比对评分，依据评分阈值划分出高风险探针与低风险探针，记录每条上述高风险探针比对到的基因组，得到非重复区高风险探针序列集；

(3)针对每一个上述非重复区高风险探针序列集进行模体分析，得到对应的非重复区高危模体集；

(4)使用上述重复区高危模体集对上述待提升探针集中的上述重复区探针进行鉴定，统计每一个上述重复区探针包含的重复区模体种类及重复区模体在探针上的位置；将上述非重复区高危模体集对上述待提升探针集中对应的上述非重复区探针进行鉴定，统计每一个非重复区探针包含的非重复区模体种类及非重复区模体在探针上的位置；

(5)依据每条上述重复区探针对应的上述重复区模体种类和上述重复区模体位置，以及每条上述非重复区探针对应的上述非重复区模体种类和上述非重复区模体位置，对上述待提升探针集的探针进行碱基修改；

(6)依次对上述待提升探针集中的每一条探针进行修改，得到安全探针集。

进一步地，上述待提升探针集中的探针由下列组合组成：a.由基因组重复区探针组成；或b.由基因组非重复区探针组成；或c.由基因组重复区探针和基因组非重复区探针的混合组成。

进一步地，上述模体分析的方法可以用于基因组重复区探针。

进一步地，上述判断探针是否为风险探针的比对评分阈值为非固定的，可以结合实际生产经验灵活划定。

进一步地，上述模体分析的特异性分值，用于挑选和过滤每条上述非重复区探针对应的上述非重复区模体种类和上述非重复区模体位置，以及每条上述重复区探针对应的上述重复区模体种类和上述重复区模体位置。

更进一步地，保留上述特异性分值小于0.05的上述非重复区模体种类和上述重复区模体种类。

进一步地，上述碱基修改，方法如下：

a.只修改模体中的保守碱基；

b.每一轮修改应保证该探针包含的每一个模体至少有一个碱基被修改；

c.先修改模体间共有部分的保守碱基；

d.先修改G或C碱基，其次修改A或T碱基；以及

e.当模体位于基因组正向链时，先修改靠近基因组5’端的碱基；当模体位于基因组反向链时，先修改靠近基因组3’端的碱基。

更进一步地，修改的碱基内容为：

a.G碱基改变为A碱基、C碱基改变为T碱基，A碱基改变为G碱基、T碱基改变为C碱基；或

b.G碱基改变为T碱基、C碱基改变为A碱基，A碱基改变为C碱基、T碱基改变为G碱基；或

c.G碱基改变为C碱基、C碱基改变为G碱基，A碱基改变为T碱基、T碱基改变为A碱基。

进一步地，每轮修改完成后可对修改后的探针序列再次进行上述(4)步骤，若依然存在模体，则对修改后的探针序列进行新一轮模体鉴定及碱基修改，直至修改后的探针序列不包含模体集中的任何模体。

在另一实施方式中，本发明还提供一种通过修改模体提升探针安全性的装置，包括：

一重复区探针模体鉴定单元，设置为待提升探针集的探针的安全性，鉴定出上述待提升探针集的重复区探针，并生成重复区高危模体集；

一非重复区探针比对单元，设置将待上述提升探针集中的非重复区探针和参考基因组进行比对，得到每条探针的比对评分，依据评分阈值划分出高风险探针与低风险探针，记录每条上述高风险探针比对到的基因组，得到非重复区高风险探针序列集；

一非重复区探针模体鉴定单元，设置为对每一个上述非重复区高风险探针序列集进行模体分析，得到对应的非重复区高危模体集；

一模体定位单元，设置为使用上述重复区高危模体集对上述待提升探针集中的上述重复区探针进行鉴定，记录每一个上述重复区探针包含的重复区模体种类及重复区模体位置；使用上述非重复区高危模体集对上述待提升探针集中对应的非重复区探针进行鉴定，记录每一个上述非重复区探针包含的非重复区模体种类及非重复区模体位置；

一探针修改单元，设置为依据上述模体定位单元中记录的每条上述非重复区探针包含的上述非重复区模体种类和上述非重复区模体位置，以及上述重复区探针包含的上述重复区模体种类和上述重复区模体位置，对上述待提升探针集的探针进行碱基修改。

进一步地，上述非重复区探针比对单元中，判断探针是否为风险探针的比对评分阈值是非固定的，可以结合实际生产经验灵活划定。

进一步地，可以依据上述重复区探针模体鉴定单元和上述非重复区探针模体鉴定单元中模体分析的特异性分值，对模体定位单元中每条探针的模体种类进行挑选和过滤。

更进一步地，保留特异性分值小于0.05的模体。

进一步地，上述探针修改单元的碱基修改策略，方法如下：

a.只修改模体中的保守碱基；

c.先修改模体间共有部分的保守碱基；

d.先修改G或C碱基，其次修改A或T碱基；以及

更进一步地，修改的碱基内容为：

进一步地，每轮修改完成后可对修改后的探针序列再次进行进入上述模体定位单元，若依然存在模体，则对修改后的探针序列进行新一轮模体鉴定及碱基修改，直至修改后的探针序列不包含模体集中的任何模体。

与现有技术相比，本发明的修改模体提升探针安全性的方法及其装置，有益效果在于，可通过修改模体提升风险探针的安全性，且被修改后的探针可以用于后续捕获实验。依标准进行修改的风险探针在后续应用过程中有着良好的表现，捕获特性大大上升，脱靶率明显的下降，可以满足后续生产实验及分析需求。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成本发明的不当限定。在附图中：

图1为本发明评估基因组重复风险探针集安全性后，并修改高危探针碱基的流程图。

图2为本发明高危探针修改碱基前后的探针集的中靶率。Panel_11为未修改碱基的高危探针集；Panel_11_change为修改碱基后的原高危探针集。

图3为本发明的对每条探针进行碱基修改的位置示意图。箭头指向处为修改的位置。其中，经SS1～SS4分析比对后，probe_9不含高危模体，可以直接用于后续分析。

具体实施方式

以下结合附图与具体实施例对本发明做进一步的描述，本发明的保护内容不局限于以下实施例。还应该理解，本发明提供的实施例仅是对本发明方法的说明，而非以任何方式限制本发明揭示的其余内容。本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围，并不是唯一性限定。

在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求及其任何等同物为本发明的保护范围。

本文中使用的所有技术和科学术语具有被本发明所属领域技术人员普遍理解的相同含义。在其他情况下，本文使用的某些术语会在说明书中阐明其含义。下列实施例中未注明具体条件的实验方法，均为本领域技术人员的普遍知识和公知常识。在不冲突的情形下，本发明的实施例及实施例中的特征可以相互组合。

在本文中，“捕获(capture)”为常用检测目标基因多位点的方法/步骤之一，即探针针对目标区域序列的核酸互补并以氢键结合，进而使探针附着于目标区域序列，而该探针即为“捕获探针”。

在本文中，“捕获安全性”，即评估捕获探针在目标序列(单链和/或双链核酸)的附着/结合能力，若是容易脱离目标序列(即脱靶)，则为风险探针；反之，不易脱靶的探针为安全探针。

在本文中，“模体(motif)”，为构成任何一种特征序列的基本结构，即在DNA、RNA或蛋白质序列上一段具有典型或特殊结构的核苷酸或氨基酸序列。

在本文中，“读段(read)”，即测序平台产生的短序列或测序所得到的碱基序列；而“读段数”或“Read数”，其单位为“条”。

在本文中，“影响力”并非单指探针“对该探针本身或其他探针造成影响”，而是还包含“对整个探针集的捕获重复区域的影响”以及“对同类型探针集的影响”。

在本文中，“风险探针”为可能会带来脱靶的探针，根据可能脱靶的概率分为高风险探针、低风险探针等；而“高危探针”为经过安全性评估后，含有高危模体、确定会脱靶的探针。

在本文中，集合或组合名称后所加的符号“’”，如“RAR’”、“RAT’”、“HA’”、“MA’”、“LA’”，是指并列的集合或组合，例如：RAR1、RAR2、RAR3等，或LA1、LA2、LA3等，以此类推。

针对现有技术中，高危探针或风险探针捕获核酸时易发生严重脱靶的情况，并降低风险探针的弃用率，本发明提出下列技术方案。

本发明的发明构思在于：

1.提供一种通过修改模体提升探针安全性的方法，该方法包括对风险探针进行是否属于基因组重复区的鉴定；

2.对基因组重复区风险探针进行模体鉴定及定位；

3.对基因组非重复区风险探针进行模体鉴定及定位；

4.最后利用模体鉴定及定位信息按照一定的规则对相应的风险探针核酸序列进行碱基修改，达到提高风险探针安全性的效果，得到可用的安全探针。

请见图1，本发明提供一种实施方式，为一种通过修改模体提升探针安全性的方法。

首先，先评估探针集中探针的安全性，详细方法如下：

(1)S1，构建基因组重复区探针集R，利用探针集R的坐标信息，使用全基因组重复区域类型注释文件对探针集R中每一条探针进行重复区域类型注释。根据注释结果文件统计每一种重复区域类型涉及的探针数RPN。其中，S1中探针集R为根据重复区序列设计的探针集，其探针数量应大于50条。当以人类为参考基因组时，全基因组重复区域类型注释文件来自于UCSC数据库。

其中，S1中基因组重复区探针集R中探针涉及的重复区域类型在本领域技术人员在本发明思想的教导下，能够根据实际情况进行选择，其选择结果影响高危模体数据库的鉴定范围。可以理解的是，高危模体数据库会随着S1步骤中基因组重复区探针集R中探针涉及的重复区域类型增多而增大。

(2)S2，准备中靶标率较高或中靶率在85％以上的探针集A，使用探针集A对实验样本进行捕获测序，注释每一条发生脱靶的探针应属的重复区域类型，统计每一种重复区域类型的总脱靶读段(read)数AR’N。根据注释结果文件统计每一种重复区域类型脱靶读段(read)涉及的区域数AT’N。其中，探针集A内探针条数建议范围＝2000±1500，中靶率建议范围85％～95％；S2中探针脱靶读段数计算原理为：将脱靶读段的序列与探针序列进行比对，当成功比对(意即高度相似或相同)时，该脱靶读段属于该探针的脱靶读段。

(3)S3，将探针集A与探针集R混合形成新的探针集RA，使用探针集RA对实验样本进行捕获测序，注释每一条发生脱靶的探针应属的重复区域类型,统计每一种重复区域类型的总脱靶读段数RAR’N。根据注释结果文件统计每一种重复区域类型脱靶读段涉及的区域数RAT’N。其中，S3实验样本必须与S2中的实验样本相同。

(4)S4，结合S2与S3的统计数据，计算每一种重复类型单探针的脱靶影响力，计算公式为：

重复类型集划分方式具有一定的弹性，按影响力大小对重复类型进行降序排序后，以数列中数值变化率较大的拐点作为划分的边界。拐点可以为1个以上，优选为两个。接着，依据划分边界将所有重复类型划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集。分别将高影响力重复类型集、中影响力重复类型集、低影响力重复类型集中的探针与探针集A混合，对应地得到探针集HA、MA、LA。

(5)S5，将高影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集A混合，得到多个高影响力混合探针集组HA’。将中影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集组A混合，得到多个中影响力混合探针集组MA’。将低影响力重复类型集中的探针依据探针所属重复类型进行划分,划分多次后将若干重复类型里的探针与探针集A混合，得到多个低影响力混合探针集组LA’。其中，应保证HA’、MA’、LA’探针集的数量均大于2，优选地每个探针集数量大于3。

(6)S6，使用S4中得到的探针集HA、MA、LA分别对实验样本进行捕获测序。使用S5中得到的探针集组HA’、MA’、LA’中的探针集分别对实验样本进行捕获测序。计算上述测序结果中每条探针的脱靶读段数并以此将探针集R中的探针划分为高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针。

其中，S6中高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针划分方法为：

a.当某探针的脱靶读段数其条数高于其所在探针集总脱靶读段数其条数的1％时，将该探针判定为高脱靶探针(例如：

总脱靶1000条读段，那么脱靶数高于10条的探针为高脱靶探针)；

b.当某探针在各探针集中均无脱靶读段时，将该探针判定为无脱靶探针；

c.当某探针在某探针集中无脱靶读段但在另外探针集中有脱靶读段时，将该探针判定为低脱靶探针；

d.除高脱靶探针、无脱靶探针、低脱靶探针外的探针均为较高脱靶探针。

(7)S7，选取高脱靶探针、较高脱靶探针中同种重复区域类型T的探针序列组成高风险序列集H，选取无脱靶探针中相同的重复区域类型的探针组成低风险序列集L。以低风险序列集L作为对照，使用吉布斯采样(Gibbs sampling)算法对高风险序列集H和低风险序列集L进行差异模体分析，得到重复区域类型T的高危模体集。其中，高风险序列集H和低风险序列集L中的序列条数均应大于20条。

(8)S8，重复S7步骤，依次完成探针集R中所有重复区类型的分析，即每一个重复区域类型都生成对应的高风险序列集H和低风险序列集L，接着高风险序列集H和低风险序列集L进行差异分析，得到该重复区域类型的高危模体集，最后合并得到的所有高危模体集，得到高危模体数据库。

(9)S9，使用高危模体数据库对探针集R或新基因组重复区探针集R’中每一条探针进行分类，若某探针含有高危模体数据库中任意一种模体，则此探针为高危探针，否则则为安全探针。

其次，被评估为高危探针的探针，将进一步地进行碱基修改，提高其探针安全性，并得到可用的安全探针以用于后续实验，详细方法如下：

(1)SS1，利用上述探针安全性的评估方法鉴定出待提升探针集W中的重复区探针WP’并生成重复区高危模体集WM’(相当于上述步骤(8)的高危模体集)。其中，待提升探针集W为包含基因组重复区探针和基因组非重复区探针的探针集。

(2)SS2，使用比对软件将待提升探针集W中的非重复区探针和参考基因组进行比对，得到每条探针的比对评分，依据评分阈值划分出高风险探针与低风险探针，记录每条高风险探针比对到的基因组上的序列集WS’。

(3)SS3，利用吉布斯采样算法针对每一个非重复区高风险探针序列集WS’，进行模体分析，得到对应的非重复区高危模体集SM’。

(4)SS4，使用重复区高危模体集WM’对W中重复区探针进行鉴定，统计每一个重复区探针包含的模体种类及模体在探针上的位置。使用非重复区高危模体集SM’对W中对应的非重复区探针进行鉴定，统计每一个非重复区探针包含的模体种类及模体在探针上的位置。

(5)SS5，依据SS4中每条探针对应的模体种类及模体位置，按一定的策略对该探针进行碱基修改。

其中，碱基修改策略遵循以下规则：

①.只修改模体中的保守碱基。

②.每一轮修改应保证该探针包含的每一个模体至少有一个碱基被修改。

③.优先修改模体间共有部分的保守碱基。

④.优先修改G或C碱基，其次修改A或T碱基。

⑤.当模体位于参考基因组正向链时，优先修改靠近参考基因组5’端的碱基；当模体位于参考基因组反向链时，优先修改靠近参考基因组3’端的碱基。

⑥.碱基改变内容为：

方案一：G碱基改变为A碱基、C碱基改变为T碱基，A碱基改变为G碱基、T碱基改变为C碱基；

方案二：G碱基改变为T碱基、C碱基改变为A碱基，A碱基改变为C碱基、T碱基改变为G碱基；

方案三：G碱基改变为C碱基、C碱基改变为G碱基，A碱基改变为T碱基、T碱基改变为A碱基；三种方案任选其一，优选方案一。

⑦.每轮修改完成后可对修改后的探针序列再次进行SS4步骤，若依然存在模体，则对修改后的探针序列进行新一轮模体鉴定及碱基修改，直至修改后的探针序列不包含模体集中的任何模体。

(6)SS6，依据SS5中的方法，依次对待提升探针集W中的每一条探针进行修改，得到安全探针集S。

本发明的技术方案可提升高危探针的安全性，被修改为安全探针的高危探针可用于后续捕获实验，而无法被修改的高危探针则不建议直接用于后续实验。经验证，依标准进行修改的探针在后续应用过程中有着良好的表现，被修改为安全探针的探针即使属于重复区也不会在实际捕获过程中造成严重脱靶。

下面将结合实施例进一步说明本发明的有益效果。

实施例1：评估基因组重复区探针捕获安全性

假设需对包含基因组重复区中AluY、L1等类型的探针进行安全性评估。本实施例以经典基因组重复区AluY为例，但并不代表本发明的方法仅局限于评估经典基因组重复区，而是可以应用于任何基因组重复区。

对此类型的探针进行安全性评估包含以下步骤：

(1)S1，构建基因组重复区探针集R，共含有465条重复区域探针。利用探针集R的坐标信息，使用全基因组重复区域类型注释文件对探针集R中每一条探针进行重复区域类型注释，例如重复区属于AluY类型的探针标记为AluY类；根据注释结果文件统计每一种重复区域类型涉及的探针数RPN，例如AluY类探针共有46条，则AluY的RPN＝46。

(2)S2，准备中靶率在85％以上的探针集A，使用探针集A对实验样本进行捕获测序，注释每一条发生脱靶的探针应属的重复区域类型，统计每一种重复区域类型的总脱靶读段数AR’N。例如AluY的脱靶读段数总共为24,643，则AluY的AR’N＝24,643。根据注释结果文件统计每一种重复区域类型涉及的区域数AT’N，例如AluY类型探针脱靶涉及区域数为3,902，则AluY的AT’N＝3,902。

(3)S3，将探针集A与探针集R混合形成新的探针集RA，使用探针集RA对实验样本进行捕获测序，注释每一条发生脱靶的探针应属的重复区域类型,统计每一种重复区域类型的总脱靶读段数RAR’N。例如AluY脱靶总共读段数为1,953,952，则AluY的RAR’N＝1,953,952。根据注释结果文件统计每一种重复区域类型涉及的区域数RAT’N。例如AluY类型探针脱靶涉及区域数为96,854，则AluY的RAT’N＝96,854。

(4)S4，结合S2与S3的统计数据，计算每一种重复类型单探针的脱靶影响力，例如：

依据公式计算AluY类型，

其影响力＝(1,953,952-24,643)*(96,854-3,902)/46²＝49,713,324；

按影响力数值大小对重复类型进行降序排序，并依据排序结果将所有重复类型划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集。例如AluY在影响力排名中位列第5，在第一个拐点之前，则AluY属于高影响力重复类型集，第二个拐点之前是中影响力重复类型集，第二个拐点之后是低影响力重复类型集。分别将高影响力重复类型集、中影响力重复类型集、低影响力重复类型集中的探针与探针集A混合，对应地得到探针集HA、MA、LA。

(5)S5，将高影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集A混合，得到多个高影响力混合探针集组HA’。例如AluY可被混合于探针集组HA’中多个探针集中。将中影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集组A混合，得到多个中影响力混合探针集组MA’。将低影响力重复类型集中的探针依据探针所属重复类型进行划分,划分多次后将若干重复类型里的探针与探针集A混合，得到多个低影响力混合探针集组LA’。

(6)S6，使用S4中得到的探针集HA、MA、LA分别对实验样本进行捕获测序。使用S5中得到的探针集组HA’、MA’、LA’中的探针集分别对实验样本进行捕获测序。计算上述测序结果中每条探针的脱靶读段数并以此将探针集R中的探针划分为高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针。基因组重复区探针集R总探针数465条，结果评估对AluY重复区域的高脱靶探针80条，较高脱靶探针129条，低脱靶探针168条，无脱靶探针88条。

(7)S7，选取高脱靶探针、较高脱靶探针中同种重复区域类型为AluY的探针序列组成高风险序列集H，选取无脱靶探针中相同的重复区域类型的探针组成低风险序列集L。以低风险序列集L作为对照，使用吉布斯采样算法对高风险序列集H和低风险序列集L进行差异模体分析，得到重复区域类型AluY的高危模体集。

(8)S8，重复S7步骤，依次完成探针集R中所有重复区类型的分析，每一个重复区域类型都生成对应的高风险序列集H和低风险序列集L，接着高风险序列集H和低风险序列集L进行差异分析，得到该重复区域类型的高危模体集，最后合并得到的所有高危模体集，以得到高危模体数据库。

依据上述步骤，最终高危模体数据库中含有31个高危模体序列；以此数据库对探针集R进行重新分类，可以得到119条不含高危模体的探针，可用于后续实验。其余含有高危模体的346条探针则为高危探针，可以进行碱基修改，提高其探针安全性，并得到可用的安全探针以用于后续实验。

下述实施例2为将高危探针的碱基修改方法。

实施例2：提升基因组重复区高危探针的安全性

将实施例1的高危探针选出11条为例，组成包含11条探针的待提升探针集W，其序列为：

表1

对该待提升探针集W中的高危探针进行修改包含以下步骤：

(1)SS1，由实施例1的方法鉴定待提升探针集W中的探针，发现此探针集中有10条风险探针均属于基因组重复区，保留特异性分值小于0.05的模体，筛选后生成包含31个高危模体序列组成的模体集WM。

(2)SS2，使用比对软件将非重复区的1条探针(probe11)与参考基因组(人类的hg19)进行比较，发现有44个相似序列，将此44个序列形成序列集WS_probe11。

(3)SS3，使用吉布斯采样算法对SS2中非重复区探针的相似序列集WS_probe11进行模体分析，得到含1个高危模体的高危模体集SM_probe11。

(4)SS4，使用高危模体集WM对W中10条重复区探针进行鉴定，统计每一个重复区探针包含的模体种类及模体在探针上的位置；使用SM_probe11对R中对应的非重复区探针probe11进行鉴定统计其包含的模体种类及模体在探针上的位置。

例如：Probe 1包含4种高危模体。将模体的位置信息和种类下表记录里，如下表：(在基因组上的碱基位置_在基因组上的碱基位置_正向/负向：模体集里的编号)

probe

54_63_+:模体01

10_16_-:模体12

99_106_+:模体13

57_65_-:模体24

(5)SS5，依据SS4中每条探针对应的模体种类及模体位置，按一定的策略对该探针进行碱基修改，修改位置见图3。

(6)SS6,依据SS5中的方法，依次对待提升探针集W中的每一条探针进行修改，得到安全探针集：

表2

修改前后的各高危探针在非靶区、靶区的读段数差异，结果如下：

表3

由表3可知，高危探针修改后，其降低了非靶区读段数，提高了靶区度读段数。

为了验证修改碱基对安全性的提升效果，将修改前后的探针集W分别与一原始中靶率达90％的安全探针集混合，并进行测序实验，再进行中靶率比较，得到图2结果。由结果可知，11条高危探针在未修改时使整体探针集的中靶率降低到63％，而在修改后其中靶率回升到90％。11条高危探针的捕获特异性大大增强，均可用于实际分析。

由此证明本高危探针修改方法切实有效。

上述实施例1～2的方法可以通过实施例3中的系统或装置执行。

实施例3

一种评估基因组重复区探针捕获安全性，并提升探针捕获安全性的装置。该装置包括：

(1)重复区探针模体鉴定单元，设置为评估待提升探针集W的探针安全性的方法，鉴定出待提升探针集W中的重复区探针WP’并生成重复区高危模体集WM’。

(2)非重复区探针比对单元，设置将待提升探针集W中的非重复区探针和参考基因组进行比对，得到每条探针的比对评分，依据评分阈值划分出高风险探针与低风险探针，记录每条高风险探针比对到的基因组上的序列集WS’。

(3)非重复区探针模体鉴定单元，设置为利用吉布斯采样算法针对每一个非重复区高风险探针序列集WS’，进行模体分析，得到对应的非重复区高危模体集SM’。

(4)模体定位单元，设置为使用重复区高危模体集WM’对W中重复区探针进行鉴定，记录每一个重复区探针包含的模体种类及模体在探针上的位置。使用非重复区高危模体集SM’对W中对应的非重复区探针进行鉴定，记录每一个非重复区探针包含的模体种类及模体在探针上的位置。

(5)探针修改单元，设置为依据模体定位单元中记录的每条探针对应的模体种类及模体位置，按一定的策略对该探针进行碱基修改。修改完成后自动利用该探针对应的模体集进行检查，如修改后探针依然包含模体，则继续依照策略进行修改。

从上述实施例1～3可以看出，本发明实现了如下技术效果：对高危探针进行分类并鉴定出其中包含的模体信息；利用对模体的修改达到提升高危探针安全性的效果。

以上所述仅为本发明的优选实施例，并不用于限制本发明。此外应理解，在阅读了本发明的上述讲授内容之后，凡在本发明的精神和原则之内，本领域技术人员可以对本发明作各种改动或修改，这些等价形式的修改同样落于本申请权利要求书所限定的范围。

Claims

1.一种通过修改模体提升高危探针安全性的方法，其特征在于，包括以下步骤：

(2)将所述待提升探针集中的非重复区探针和参考基因组进行比对，得到每条所述非重复区探针的比对评分，依据评分阈值划分出高风险探针与低风险探针，记录每条所述高风险探针比对到的所述参考基因组序列，得到非重复区高风险探针序列集；

(3)针对每一个所述非重复区高风险探针序列集进行模体分析，得到对应的非重复区高危模体集；

(4)使用所述重复区高危模体集对所述待提升探针集中的所述重复区探针进行鉴定，统计每一个所述重复区探针包含的重复区模体种类及重复区模体在探针上的位置；将所述非重复区高危模体集对所述待提升探针集中对应的所述非重复区探针进行鉴定，统计每一个非重复区探针包含的非重复区模体种类及非重复区模体在探针上的位置；

(5)依据每条所述重复区探针对应的所述重复区模体种类和所述重复区模体位置，以及每条所述非重复区探针对应的所述非重复区模体种类和所述非重复区模体位置，对所述待提升探针集的探针进行碱基修改；

(6)依次对所述待提升探针集中的每一条探针进行修改，得到安全探针集。

2.根据权利1中所述的方法，其特征在于，所述待提升探针集中的探针由下列组合组成：a.由基因组重复区探针组成；或b.由基因组非重复区探针组成；或c.由基因组重复区探针和基因组非重复区探针的混合组成。

3.根据权利1中所述的方法，其特征在于，所述模体分析的方法可以用于基因组重复区探针。

4.根据权利1中所述的方法，其特征在于，所述评分阈值为非固定值。

5.根据权利1中所述的方法，其特征在于，所述模体分析的特异性分值，用于挑选和过滤每条所述非重复区探针对应的所述非重复区模体种类和所述非重复区模体位置，以及每条所述重复区探针对应的所述重复区模体种类和所述重复区模体位置。

6.根据权利4中所述的方法，其特征在于，保留所述特异性分值小于0.05的所述非重复区模体种类和所述重复区模体种类。

7.根据权利1中所述的方法，其特征在于，所述碱基修改，方法如下：

a.只修改模体中的保守碱基；

c.先修改模体间共有部分的保守碱基；

d.先修改G或C碱基，其次修改A或T碱基；以及

e.当模体位于所述参考基因组正向链时，先修改靠近所述参考基因组5’端的碱基；当模体位于所述参考基因组反向链时，先修改靠近参考基因组3’端的碱基。

8.根据权利5中所述的方法，其特征在于，修改的碱基内容为：

9.一种通过修改模体提升探针安全性的装置，其特征在于，包括：

一重复区探针模体鉴定单元，设置为待提升探针集的探针的安全性，鉴定出所述待提升探针集的重复区探针，并生成重复区高危模体集；

一非重复区探针比对单元，设置将待所述提升探针集中的非重复区探针和参考基因组进行比对，得到每条探针的比对评分，依据评分阈值划分出高风险探针与低风险探针，记录每条所述高风险探针比对到的基因组，得到非重复区高风险探针序列集；

一非重复区探针模体鉴定单元，设置为对每一个所述非重复区高风险探针序列集进行模体分析，得到对应的非重复区高危模体集；

一模体定位单元，设置为使用所述重复区高危模体集对所述待提升探针集中的所述重复区探针进行鉴定，记录每一个所述重复区探针包含的重复区模体种类及重复区模体位置；使用所述非重复区高危模体集对所述待提升探针集中对应的非重复区探针进行鉴定，记录每一个所述非重复区探针包含的非重复区模体种类及非重复区模体位置；

一探针修改单元，设置为依据所述模体定位单元中记录的每条所述非重复区探针包含的所述非重复区模体种类和所述非重复区模体位置，以及所述重复区探针包含的所述重复区模体种类和所述重复区模体位置，对所述待提升探针集的探针进行碱基修改。

10.根据权利要求9所述的装置，其特征在于，所述待提升探针集中的探针由下列组合组成：a.由基因组重复区探针组成；或b.由基因组非重复区探针组成；或c.由基因组重复区探针和基因组非重复区探针的混合组成。