CN116206684B

CN116206684B - 一种评估基因组重复区探针捕获安全性的方法及其装置

Info

Publication number: CN116206684B
Application number: CN202211686367.4A
Authority: CN
Inventors: 蒋才; 尹书剑; 程陶然; 朱文鑫
Original assignee: Naonda Nanjing Biological Technology Co ltd
Current assignee: Naonda Nanjing Biological Technology Co ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2024-01-30
Anticipated expiration: 2042-12-26
Also published as: CN116206684A

Abstract

本发明公开了一种评估基因组重复区风险探针的方法及其装置。该方法包括下述步骤：构建重复区探针集R、中靶率高探针集A及混合探针集R+A，藉由探针集A和R+A对实验样本测序数据的差异构建风险探针影响力表格，分析高脱靶和低脱靶探针的序列差异并得到高危模体，最后利用高危模体集去筛选重复区探针集R或同重复类型的探针集R’，不含有高危模体即判定为安全探针，反之则为高危探针。本发明的方法及其装置可评估基因组重复区探针捕获安全性，被评估为安全探针的探针可用于后续捕获实验，安全探针即使属于重复区也不会在实际捕获过程中造成严重脱靶，有利于后续实验与分析，并降低实验成本。

Description

一种评估基因组重复区探针捕获安全性的方法及其装置

技术领域

本发明涉及生物信息技术领域，具体而言，涉及一种评估基因组重复区探针捕获安全性的方法及其装置。

背景技术

随着NGS(Next Generation Sequencing，NGS)的蓬勃发展，科研及医疗人员对人类基因组研究愈发深入，靶向测序技术可以将感兴趣的基因组区域富集出来进行测序，可以大规模应用于科研、临床诊断、健康筛查等领域。人类基因组大约31.6亿个碱基，其中约50％属于基因组重复区，约110万个重复区域，共1395种重复区域类型，同种重复区域间序列相似度很高。当靶向测序技术设计的探针涉及重复区域时，该探针可能会在全基因组捕获与之相似的核酸片段，从而造成“脱靶”，由此带来的数据浪费和数据分析难题一直困扰着从业人员。

考虑到基因组重复区探针带来的弊端，市场上绝大多数公司均尽量避免在此区域设计探针，即使设计后投入使用也无法判断其是否会造成脱靶以及是否会严重降低捕获效率，然而随科研及医学的发展，在基因组重复区域设计探针的情况在所难免，但重复区探针风险程度仍未得到有效评估，使后续实验与分析充满不确定性。因此，推出一种评估基因组重复区探针捕获安全性的方法显得尤为重要。

发明内容

本发明旨在提供一种评价基因组重复区探针捕获安全性的方法及装置，以区分涉及基因组重复区的探针中的高风险探针和低风险探针，以此来解决现有技术的探针在基因组重复区域容易脱靶、低捕获效率等问题。

为实现上述目的，本发明提供如下技术方案：

在一实施方式中，提供一种评估探针捕获安全性的方法，包括以下步骤：

(1)注释待评估探针集中的每一条探针；

(2)对添加了上述待评估探针的探针集和另一未添加上述待评估探针的探针集进行测序和实际捕获情况进行统计；

(3)依据统计结果研究构建探针的脱靶影响力模型；

(4)利用上述脱靶影响力模型和实际脱靶数据对基因组不同重复区的探针进行脱靶等级划分；

(5)对经过等级划分的探针进行差异模体分析，得到高危模体库；

(6)利用高危模体库对所有待评估探针进行捕获安全性评估。

在一实施方式中，提供一种评估基因组重复区探针捕获安全性的方法，包括以下步骤：

(1)构建基因组重复区探针集，注释每种重复区域类型的探针并统计其探针数。

(2)构建中靶率在85％以上的高中靶探针集，对实验样本测序并注释在每种重复区域类型的脱靶探针，统计每种重复区域类型的第一总脱靶读段数和第一脱靶读段涉及的区域数。

(3)将上述高中靶探针集与上述基因组重复区探针集混合形成混和探针集，对上述实验样本测序并注释每种重复区域类型的脱靶探针，统计每种重复区域类型的第二总脱靶读段数和第二脱靶读段涉及的区域数。

(4)计算每种重复区域类型中的探针的脱靶影响力并排序；

依据排序结果对在重复区域类型中的探针，划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集不同脱靶影响力，前述高影响力重复类型集、前述中影响力重复类型集、前述低影响力重复类型集分别与上述高中靶探针集混合，得到高中靶-高影响力重复类型集、高中靶-中影响力重复类型集、高中靶-低影响力重复类型集。

(5)上述高影响力重复类型集、上述中影响力重复类型集、上述低影响力重复类型集的探针依据所属的重复区域类型进行一次以上的划分，得到多个高影响力重复类型集组、多个中影响力重复类型集组、多个低影响力重复类型集组；前述多个高影响力重复类型集组、前述多个中影响力重复类型集组、前述多个低影响力重复类型集组分别与上述高中靶探针集混合得到第一探针集组、第二探针集组、以及第三探针集组。

(6)上述高中靶-高影响力重复类型集、上述高中靶-中影响力重复类型集、上述高中靶-低影响力重复类型集探针集分别对上述实验样本进行捕获测序，计算每条探针的脱靶读段数并进行划分，得到高脱靶探针、较高脱靶探针、

低脱靶探针、无脱靶探针。

(7)上述高脱靶探针、上述较高脱靶探针组成高风险序列集，上述无脱靶探针组成低风险序列集。以上述低风险序列集作为对照，使用吉布斯采样(Gibbs sampling)算法对上述高风险序列集和上述低风险序列集进行差异模体

(motif)分析，得到重复区域类型的高危模体集。

(8)依次分析上述基因组重复区探针集的所有重复区域类型，每个重复区域类型分析得到对应的基因组高风险序列集和基因组低风险序列集，上述基因组高风险序列集对照上述基因组低风险序列集，得到基因组重复区高危模体集；合并多个前述基因组重复区高危模体集，并合并上

述重复区域类型的高危模体集，以得到高危模体数据库。

(9)使用上述高危模体数据库对上述基因组重复区探针集或另一基因组重复区探针集中的每一条探针进行分类。若某探针含有高危模体数据库中任意一种模体，则此探针为高危探针，否则则为安全探针。

进一步地，上述基因组重复区中探针数量应大于50条。当以人类为参考基因组时，全基因组重复区域类型注释文件来自于加州大学圣克鲁兹分校UCSC数据库(UCSC GenomeDatabase)。

进一步地，上述高中靶探针集内探针条数建议范围＝2000±1500，中靶率建议范围85％～95％。

更进一步地，上述脱靶读段数计算原理为：将脱靶读段的序列与探针序列进行比对，当成功比对时，该脱靶读段属于该探针的脱靶读段。

进一步地，上述高风险序列集与上述低风险序列集具有相同的重复区域类型。

更进一步地，上述高影响力重复类型集、上述中影响力重复类型集、上述低影响力重复类型集中的探针可以出现在多个重复类型集组。进一步地，每种重复区域类型中的探针的上述脱靶影响力计算方法为：

；其中重复类型集划分方式具有一定的弹性，优选排序后数列中数值变化率较大的拐点作为划分的边界。

进一步地，上述第一探针集组、第二探针集组、以及第三探针集组的数量应均大于2，优选地每个探针集组数量大于3。

进一步地，上述高脱靶探针、上述较高脱靶探针、上述低脱靶探针、上述无脱靶探针划分方法为：

a.当一探针的脱靶读段数的条数高于其所在探针集总脱靶读段数的条数的1％时，将该探针判定为前述高脱靶探针；

b.当一探针在各探针集中均无脱靶读段时或均为零，将该探针判定为前述无脱靶探针；

c.当一探针在一探针集中无脱靶读段但在另外探针集中有脱靶读段时，将该探针判定为前述低脱靶探针；

d.除高脱靶探针、无脱靶探针、低脱靶探针外的探针均为前述较高脱靶探针。

进一步地，上述高风险序列集和上述低风险序列集中的序列条数均应大于20条。

进一步地，上述高危模体数据库构建完成后可以针对上述基因组重复区探针集中的探针，但不局限于该基因组重复区探针集中的探针进行评估分类，前提是待评估的重复区探针所属的重复区域类型包含在高危模体数据库中。

在另一实施方式中，本发明提供了一种评估基因组重复区探针捕获安全性的装置，该装置包括：

(1)待估探针集注释单元，设置为对待评估探针集中每一条探针进行重复区域类型注释，根据注释结果统计每种重复区域类型涉及的探针数；

(2)基础探针集分析单元，设置为分析基础探针集对实验样本的测序并注释在每种重复区域类型的脱靶探针，统计每种重复区域类型的第一总脱靶读段数和第一脱靶读段涉及的区域数；

(3)待估探针集分析单元，设置为分析上述基础探针集与上述待估探针集混合形成的混合探针集，对上述实验样本测序并注释每种重复区域类型的脱靶探针，统计每种重复区域类型的第二总脱靶读段数和第二脱靶读段涉及的区域数；

(4)脱靶影响力计算单元，设置为计算每种重复区域类型中的探针的脱靶影响力并对上述探针的脱靶影响力排序，依据排序结果划分为多个重复类型集，并分别与上述基础探针集混合，得到多个对应的第二重复类型集；

(5)重复类型划分及重组单元，设置为将上述多个重复类型集中的探针依据所属的重复区域类型进行一次以上的划分，得到多个重复类型集组；前述多个重复类型集组分别与上述基础探针集混合得到多个对应的重复类型-基础探针集组；

(6)待估探针集划分单元，设置为将上述多个第二重复类型集分别对上述实验样本进行捕获测序，以及将上述多个重复类型-基础探针集组分别对上述实验样本进行捕获测序，计算每条探针的脱靶读段数并进行划分，得到多个不同程度的脱靶探针；

(7)高危模体计算单元，设置为将多个不同程度的脱靶探针依据特定阈值划分为高风险序列集和低风险序列集；将前述高风险序列集对照前述低风险序列集，分析差异模体，得到重复区域类型的高危模体集；

(8)高危模体数据库生成单元，设置为依次分析上述待估探针集的所有重复区域类型，每个重复区域类型分析得到对应的待估-高风险序列集和待估-低风险序列集，上述待估-高风险序列集对照上述待估-低风险序列集，得到待估-重复区高危模体集；合并多个上述待估-重复区高危模体集，并合并上述重复区域类型的高危模体集，以得到高危模体数据库；

(9)探针风险评估单元，设置为使用上述高危模体数据库对上述待估探针集或另一待估探针集中的每一条探针进行分类。

进一步地，上述待估探针集注释单元中，上待估探针集中探针数量应大于50条。当以人类为参考基因组时，全基因组重复区域类型注释文件来自于UCSC数据库。

进一步地，上述基础探针集分析单元中，上述基础探针集内探针条数＝2000±1500；

进一步地，上述待估探针集分析单元中，上述实验样本必须与上述基础探针集分析单元中的实验样本相同。

进一步地，上述脱靶影响力计算单元中，每一种重复类型单探针的上述脱靶影响力计算方法为：

更进一步地，上述脱靶影响力计算单元中重复类型集划分方式具有一定的弹性，优选排序后数列中数值变化率较大的拐点作为划分的边界。

进一步地，上述重复类型划分及重组单元中，上述第一探针集组、上述第二探针集组、上述第三探针集组的数量均须大于2，优选地每个探针集数量大于3。

进一步地，上述待估探针集划分单元中，上述中高脱靶探针、较高脱靶探针、上述低脱靶探针、上述无脱靶探针划分方法为：

a.当一探针的脱靶读段数其条数高于其所在探针集总脱靶读段数其条数的1％时，将该探针判定为高脱靶探针；

b.当一探针在各探针集中均未无脱靶读段时，将该探针判定为无脱靶探针；

c.当一探针在某探针集中无脱靶读段，但在另一探针集中有脱靶读段时，将该探针判定为低脱靶探针；

d.除高脱靶探针、无脱靶探针、低脱靶探针外的探针均为较高脱靶探针。

进一步地，上述待估探针集划分单元中中的实验样本必须与上述基础探针集分析单元中的实验样本相同。

进一步地，上述高危模体计算单元中，上述高风险序列集与上述低风险序列集中的序列条数均应大于20条。

进一步地，上述探针风险评估单元中，上述高危模体数据库构建完成后可以针对上述待估探针集中的探针，但不局限于前述待估探针集中的探针进行评估分类，前提是待评估的基因组重复区探针其所属的重复区域类型包含在高危模体数据库中。

与现有技术相比，本发明的评估方法和其装置，有益效果在于：

(1)应用本发明的技术方案，可评估在基因组重复区的探针捕获安全性，被评估为安全探针的探针可用于后续捕获实验，而被评估为风险探针的探针不建议直接用于后续实验。

(2)依本发明的标准进行评估的探针在后续应用过程中有着良好的表现，被评估为安全探针的探针即使属于重复区也不会在实际捕获过程中造成严重脱靶。

(3)本发明的技术方案可以降低在重复区设计探针而脱靶的风险，利于后续实验与分析，降低实验成本。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成本发明的不当限定。在附图中：

图1为本发明评估基因组重复区探针捕获安全性的方法流程示意图。

图2为本发明评估基因组重复区探针捕获安全性的方法步骤S5混合探针集组结果示意图。其中，探针H46、H11、AluY_s27、AluY_m19都是属于高影响力混合探针集组HA’；探针M125、M94、M70、M36都是属于中影响力混合探针集组MA’；探针L328、Lh94、Lh71、Lh38、Ll95、Ll83、Ll42都是属于低影响力混合探针集组LA’；而HM42既可以属于HA’也可以属于MA’，其并非本发明会选择使用的探针，但可以作为混合取样，作为测试用途。

图3左侧圆饼图为实施例1探针集R的探针重复区域类型占比，右侧圆饼图为局部重复区域类型占比的放大图。

图4实施例1多个重复区域其单探针的影响力结果。Y轴为计算后的影响力，X轴为影响力排名(序号)，影响力越大序号越小。

图5为本发明评估基因组重复区探针捕获安全性的系统或装置示意图。

具体实施方式

以下结合附图与具体实施例对本发明做进一步的描述，本发明的保护内容不局限于以下实施例。还应该理解，本发明提供的实施例仅是对本发明方法的说明，而非以任何方式限制本发明揭示的其余内容。本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围，并不是唯一性限定。

在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求及其任何等同物为本发明的保护范围。

本文中使用的所有技术和科学术语具有被本发明所属领域技术人员普遍理解的相同含义。在其他情况下，本文使用的某些术语会在说明书中阐明其含义。下列实施例中未注明具体条件的实验方法，均为本领域技术人员的普遍知识和公知常识。在不冲突的情形下，本发明的实施例及实施例中的特征可以相互组合。

在本文中，“捕获(capture)”为常用检测目标基因多位点的方法/步骤之一，即探针针对目标区域序列的核酸互补并以氢键结合，进而使探针附着于目标区域序列，而该探针即为“捕获探针”。

在本文中，“捕获安全性”，即评估捕获探针在目标序列(单链和/或双链核酸)的附着/结合能力，若是容易脱离目标序列(即脱靶)，则为风险探针；反之，不易脱靶的探针为安全探针。

在本文中，“模体(motif)”，为构成任何一种特征序列的基本结构，即在DNA、RNA或蛋白质序列上一段具有典型或特殊结构的核苷酸或氨基酸序列。

在本文中，“读段(read)”，即测序平台产生的短序列或测序所得到的碱基序列；而“读段数”或“Read数”，其单位为“条”。

在本文中，“影响力”并非单指探针“对该探针本身或其他探针造成影响”，而是还包含“对整个探针集的捕获重复区域的影响”以及“对同类型探针集的影响”。

在本文中，集合或组合名称后所加的符号“’”，如“RAR’”、“RAT’”、“HA’”、“MA’”、“LA’”，是指并列的集合或组合，例如：RAR1、RAR2、RAR3等，或LA1、LA2、LA3等，以此类推。

针对现有技术中，基因组重复区探针捕获易脱靶且无法预测实际捕获效果的情况，本发明提出下列技术方案。

本发明的发明构思在于，提供一种评估基因组重复区探针捕获安全性的方法，该方法包括对待评估探针集中每一条探针进行重复区域类型注释，再对添加了待评估探针和未添加待评估探针的探针集进行测序和重复区域实际捕获情况进行统计；依据统计结果研究构建基因组重复区探针的脱靶影响力模型；再利用脱靶影响力模型和实际脱靶数据对基因组不同重复区的探针进行脱靶等级划分；再结合对经过等级划分的探针进行差异模体(motif)分析，得到会引起探针脱靶的高危模体库；最后利用高危模体库对所有待评估探针进行捕获安全性评估。

请参考图1，根据本发明一种典型的实施方式，一种评估基因组重复区风险探针的方法。该方法包括以下步骤：

(1)S1，构建基因组重复区探针集R，利用探针集R的坐标信息，使用全基因组重复区域类型注释文件对探针集R中每一条探针进行重复区域类型注释。根据注释结果文件统计每一种重复区域类型涉及的探针数RPN。

其中，S1中探针集R为根据重复区序列设计的探针集，其探针数量应大于50条。当以人类为参考基因组时，全基因组重复区域类型注释文件来自于UCSC数据库。

(2)S2，准备中靶标率较高或中靶率在85％以上的探针集A，使用探针集A对实验样本进行捕获测序，注释每一条发生脱靶的探针应属的重复区域类型，统计每一种重复区域类型的总脱靶读段(read)数AR’N。根据注释结果文件统计每一种重复区域类型脱靶读段(read)涉及的区域数AT’N。

其中，探针集A内探针条数建议范围＝2000±1500，中靶率建议范围85％～95％；S2中探针脱靶读段数计算原理为：将脱靶读段的序列与探针序列进行比对，当成功比对(意即高度相似或相同)时，该脱靶读段属于该探针的脱靶读段。

(3)S3，将探针集A与探针集R混合形成新的探针集RA，使用探针集RA对实验样本进行捕获测序，注释每一条发生脱靶的探针应属的重复区域类型,统计每一种重复区域类型的总脱靶读段数RAR’N。根据注释结果文件统计每一种重复区域类型脱靶读段涉及的区域数RAT’N。其中，S3实验样本必须与S2中的实验样本相同。

(4)S4，结合S2与S3的统计数据，计算每一种重复类型单探针的脱靶影响力，计算公式为：

重复类型集划分方式具有一定的弹性，按影响力大小对重复类型进行降序排序后，以数列中数值变化率较大的拐点作为划分的边界。拐点可以为1个以上，优选为两个。接着，依据划分边界将所有重复类型划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集。分别将高影响力重复类型集、中影响力重复类型集、低影响力重复类型集中的探针与探针集A混合，对应地得到探针集HA、MA、LA。

(5)S5，将高影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集A混合，得到多个高影响力混合探针集组HA’。将中影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集组A混合，得到多个中影响力混合探针集组MA’。将低影响力重复类型集中的探针依据探针所属重复类型进行划分,划分多次后将若干重复类型里的探针与探针集A混合，得到多个低影响力混合探针集组LA’。其中，应保证HA’、MA’、LA’探针集的数量均大于2，优选地每个探针集数量大于3。

(6)S6，使用S4中得到的探针集HA、MA、LA分别对实验样本进行捕获测序。使用S5中得到的探针集组HA’、MA’、LA’中的探针集分别对实验样本进行捕获测序。计算上述测序结果中每条探针的脱靶读段数并以此将探针集R中的探针划分为高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针。

其中，S6中高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针划分方法为：

a.当某探针的脱靶读段数其条数高于其所在探针集总脱靶读段数其条数的1％时，将该探针判定为高脱靶探针(例如：

总脱靶1000条读段，那么脱靶数高于10条的探针为高脱靶探针)；

b.当某探针在各探针集中均无脱靶读段时，将该探针判定为无脱靶探针；

c.当某探针在某探针集中无脱靶读段但在另外探针集中有脱靶读段时，将该探针判定为低脱靶探针；

(7)S7，选取高脱靶探针、较高脱靶探针中同种重复区域类型T的探针序列组成高风险序列集H，选取无脱靶探针中相同的重复区域类型的探针组成低风险序列集L。以低风险序列集L作为对照，使用吉布斯采样算法对高风险序列集H和低风险序列集L进行差异模体分析，得到重复区域类型T的高危模体集。其中，高风险序列集H和低风险序列集L中的序列条数均应大于20条。

(8)S8，重复S7步骤，依次完成探针集R中所有重复区类型的分析，即每一个重复区域类型都生成对应的高风险序列集H和低风险序列集L，接着高风险序列集H和低风险序列集L进行差异分析，得到该重复区域类型的高危模体集，最后合并得到的所有高危模体集，得到高危模体数据库。

(9)S9，使用高危模体数据库对探针集R或新基因组重复区探针集R’中每一条探针进行分类，若某探针含有高危模体数据库中任意一种模体，则此探针为高危探针，否则则为安全探针。

应用本发明的技术方案，可评估基因组重复区探针捕获安全性，被评估为安全探针的探针可用于后续捕获实验，而被评估为风险探针的探针则不建议直接用于后续实验。经验证，依标准进行评估的探针在后续应用过程中有着良好的表现，被评估为安全探针的探针即使属于重复区也不会在实际捕获过程中造成严重脱靶。

根据本发明一种典型的实施方式，S1中重复区探针集R中探针涉及的重复区域类型在本领域技术人员在本发明思想的教导下，能够根据实际情况进行选择，其选择结果影响高危模体数据库的鉴定范围。可以理解的是，高危模体数据库会随着S1步骤中重复区探针集R中探针涉及的重复区域类型增多而增大。

请参考图2，根据本发明一种典型的实施方式，提供一种评估基因组重复区探针捕获安全性的装置。该装置包括：

(1)待估探针集注释单元，设置为使用全基因组重复区域类型注释文件对待评估探针集R中每一条探针进行重复区域类型注释。根据注释结果文件统计每一种重复区域类型涉及的探针数RPN。

(2)基础探针集分析单元，设置为分析基础探针集A对实验样本的测序结果，注释每一条发生脱靶的探针应属的重复区域类型，统计每一种重复区域类型的总脱靶读段数AR’N。

根据注释结果文件统计每一种重复区域类型脱靶读段涉及的区域数AT’N。

(3)待估探针集分析单元，设置为分析基础探针集A与待估探针集R混合形成新的探针集RA的测序结果，注释每一条发生脱靶的探针应属的重复区域类型,统计每一种重复区域类型的总脱靶读段数RAR’N。根据注释结果文件统计每一种重复区域类型脱靶读段涉及的区域数RAT’N。

(4)脱靶影响力计算单元，设置为对计算基础探针集与待估探针集中每一种重复类型单探针的脱靶影响力，并按影响力大小对重复类型进行降序排序，并依据排序结果将所有重复类型划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集。分别将高影响力重复类型集、中影响力重复类型集、低影响力重复类型集中的探针与探针集A混合，对应地得到探针集HA、MA、LA。

(5)重复类型划分及重组单元，设置为将高影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集A混合，得到多个高影响力混合探针集组HA’。将中影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集组A混合，得到多个中影响力混合探针集组MA’。将低影响力重复类型集中的探针依据探针所属重复类型进行划分,划分多次后将若干重复类型里的探针与探针集A混合，得到多个低影响力混合探针集组LA’。

(6)待估探针集划分单元，设置为对探针集HA、MA、LA捕获测序数据和对探针集组HA’、MA’、LA’捕获测序数据进行分析。计算上述测序结果中每条探针的脱靶读段数并以此将探针集R中的探针划分为高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针。

(7)高危模体计算单元，设置为选取高脱靶探针、较高脱靶探针中同种重复区域类型T的探针序列组成高风险序列集H，选取无脱靶探针中相同的重复区域类型的探针组成低风险序列集L。以低风险序列集L作为对照，使用吉布斯采样算法对高风险序列集H和低风险序列集L进行差异模体分析，得到重复区域类型T的高危模体集。

(8)高危模体数据库生成单元，设置为利用高危模体计算单元依次完成探针集R中所有重复区类型的分析，并合并所得到的所有高危模体集，以得到高危模体数据库。

(9)探针风险评估单元，设置为使用高危模体数据库对探针集R或新基因组重复区探针集R’中每一条探针进行分类，若某探针含有高危模体数据库中任意一种模体，则此探针为高危探针，否则则为安全探针。

根据本发明一种典型的实施方式，待估探针集注释单元中重复区探针集R中探针涉及的重复区域类型，本领域技术人员可以在本发明思想的教导下，能够根据实际情况进行选择，其选择结果影响高危模体数据库的鉴定范围。可以理解的是，高危模体数据库会随着重复区探针集R中探针涉及的重复区域类型增多而增大。

下面将结合实施例进一步说明本发明的有益效果。

实施例1：评估基因组重复区探针捕获安全性

假设需对包含基因组重复区中AluY、L1等类型的探针进行安全性评估。本实施例以经典基因组重复区AluY为例，但并不代表本发明的方法仅局限于评估经典基因组重复区，而是可以应用于任何基因组重复区。

对此类型的探针进行安全性评估包含以下步骤：

(1)S1，构建基因组重复区探针集R，共含有465条重复区域探针，重复区域类型占比见图3。利用探针集R的坐标信息，使用全基因组重复区域类型注释文件对探针集R中每一条探针进行重复区域类型注释，例如重复区属于AluY类型的探针标记为AluY类；根据注释结果文件统计每一种重复区域类型涉及的探针数RPN，例如AluY类探针共有46条，则AluY的RPN＝46，结果请见表1。

表1.AluY探针序列

(2)S2，准备中靶率在85％以上的探针集A，使用探针集A对实验样本进行捕获测序，注释每一条发生脱靶的探针应属的重复区域类型，统计每一种重复区域类型的总脱靶读段数AR’N。例如AluY的脱靶读段数总共为24,643，则AluY的AR’N＝24,643。根据注释结果文件统计每一种重复区域类型涉及的区域数AT’N，例如AluY类型探针脱靶涉及区域数为3,902，则AluY的AT’N＝3,902。

(3)S3，将探针集A与探针集R混合形成新的探针集RA，使用探针集RA对实验样本进行捕获测序，注释每一条发生脱靶的探针应属的重复区域类型,统计每一种重复区域类型的总脱靶读段数RAR’N。例如AluY脱靶总共读段数为1,953,952，则AluY的RAR’N＝1,953,952。根据注释结果文件统计每一种重复区域类型涉及的区域数RAT’N。例如AluY类型探针脱靶涉及区域数为96,854，则AluY的RAT’N＝96,854。

(4)S4，结合S2与S3的统计数据，计算每一种重复类型单探针的脱靶影响力，例如：

依据公式计算AluY类型，

影响力公式：

其影响力＝(1,953,952-24,643)*(96,854-3,902)/46²＝49,713,324；

按影响力数值大小对重复类型进行降序排序，并依据排序结果将所有重复类型划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集。例如AluY在影响力排名中位列第5，在第一个拐点之前，则AluY属于高影响力重复类型集(见图4)，第二个拐点之前是中影响力重复类型集，第二个拐点之后是低影响力重复类型集。分别将高影响力重复类型集、中影响力重复类型集、低影响力重复类型集中的探针与探针集A混合，对应地得到探针集HA、MA、LA。

(5)S5，将高影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集A混合，得到多个高影响力混合探针集组HA’。例如AluY可被混合于探针集组HA’中多个探针集中。将中影响力重复类型集中的探针依据探针所属重复类型进行划分,划分后多次将若干重复类型里的探针与探针集组A混合，得到多个中影响力混合探针集组MA’。将低影响力重复类型集中的探针依据探针所属重复类型进行划分,划分多次后将若干重复类型里的探针与探针集A混合，得到多个低影响力混合探针集组LA’。

(6)S6，使用S4中得到的探针集HA、MA、LA分别对实验样本进行捕获测序。使用S5中得到的探针集组HA’、MA’、LA’中的探针集分别对实验样本进行捕获测序。计算上述测序结果中每条探针的脱靶读段数并以此将探针集R中的探针划分为高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针。基因组重复区探针集R总探针数465条，结果评估对AluY重复区域的高脱靶探针80条，较高脱靶探针129条，低脱靶探针168条，无脱靶探针88条。

(7)S7，选取高脱靶探针、较高脱靶探针中同种重复区域类型为AluY的探针序列组成高风险序列集H，选取无脱靶探针中相同的重复区域类型的探针组成低风险序列集L。以低风险序列集L作为对照，使用吉布斯采样算法对高风险序列集H和低风险序列集L进行差异模体分析，得到重复区域类型AluY的高危模体集。

(8)S8，重复S7步骤，依次完成探针集R中所有重复区类型的分析，每一个重复区域类型都生成对应的高风险序列集H和低风险序列集L，接着高风险序列集H和低风险序列集L进行差异分析，得到该重复区域类型的高危模体集，最后合并得到的所有高危模体集，以得到高危模体数据库。

依据上述步骤，最终高危模体数据库中含有31个高危模体序列；以此数据库对探针集R进行重新分类，可以得到119条不含高危模体的探针，可用于后续实验。其余含有高危模体的346条探针则为高风险探针，不应用于后续实验。

实施例2：评估基因组重复区探针捕获安全性的系统或装置

请见图5，本发明还提供一种评估基因组重复区探针捕获安全性的装置，该装置包括：

根据注释结果文件统计每一种重复区域类型脱靶读段涉及的区域数AT’N。其中，基础探针集A的探针，探针条数建议范围＝2000±1500，中靶率建议范围为85％～95％。

上述实施例1的方法可以通过实施例2中的系统或装置执行。

从上述实施例可以看出，本发明实现了如下技术效果：对基因组重复区探针捕获安全性进行了评估，区分出了重复区高危探针和重复区安全探针。

以上所述仅为本发明的优选实施例，并不用于限制本发明。此外应理解，在阅读了本发明的上述讲授内容之后，凡在本发明的精神和原则之内，本领域技术人员可以对本发明作各种改动或修改，这些等价形式的修改同样落于本申请权利要求书所限定的范围。

Claims

1.一种评估基因组重复区探针捕获安全性的方法，其特征在于，包括以下步骤：

构建基因组重复区探针集，注释每种重复区域类型的探针并统计其探针数；

构建中靶率在85％以上的高中靶探针集，对实验样本测序并注释在每种重复区域类型的脱靶探针，统计每种重复区域类型的第一总脱靶读段数和第一脱靶读段涉及的区域数；

将所述高中靶探针集与所述基因组重复区探针集混合形成混和探针集，对所述实验样本测序并注释每种重复区域类型的脱靶探针，统计每种重复区域类型的第二总脱靶读段数和第二脱靶读段涉及的区域数；

计算每种重复区域类型中的探针的脱靶影响力并排序；

依据排序结果对在重复区域类型中的探针，划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集，所述高影响力重复类型集、所述中影响力重复类型集、所述低影响力重复类型集分别与所述高中靶探针集混合，得到高中靶-高影响力重复类型集、高中靶-中影响力重复类型集、高中靶-低影响力重复类型集；

所述高中靶-高影响力重复类型集、所述高中靶-中影响力重复类型集、所述高中靶-低影响力重复类型集分别对所述实验样本进行捕获测序，计算每条探针的脱靶读段数并进行划分，得到高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针；

所述高脱靶探针、所述较高脱靶探针组成高风险序列集，所述无脱靶探针组成低风险序列集；

将所述高风险序列集对照所述低风险序列集，分析差异模体，得到重复区域类型的高危模体集；

依次分析所述基因组重复区探针集的所有重复区域类型，每个重复区域类型分析得到对应的基因组高风险序列集和基因组低风险序列集，所述基因组高风险序列集对照所述基因组低风险序列集，得到基因组重复区高危模体集；合并多个所述基因组重复区高危模体集，并合并所述重复区域类型的高危模体集，以得到高危模体数据库；

使用所述高危模体数据库对所述基因组重复区探针集或另一基因组重复区探针集中的每一条探针进行分类。

2.根据权利要求1所述的方法，其特征在于，所述高风险序列集与所述低风险序列集具有相同的重复区域类型。

3.根据权利要求1所述的方法，其特征在于，所述基因组重复区探针集的探针数量大于50条。

4.根据权利要求1所述的方法，其特征在于，所述高中靶探针集的探针条数为2000±1500。

5.根据权利要求1所述的方法，其特征在于，所述高中靶探针集的中靶率为85％～95％。

6.根据权利要求1所述的方法，其特征在于，每种重复区域类型中的探针的所述脱靶影响力计算方法为：

7.根据权利要求1所述的方法，其特征在于，所述方法还包含将所述高影响力重复类型集、所述中影响力重复类型集、所述低影响力重复类型集中的探针依据所属的重复区域类型进行一次以上的划分，得到多个高影响力重复类型集组、多个中影响力重复类型集组、多个低影响力重复类型集组；所述多个高影响力重复类型集组、所述多个中影响力重复类型集组、所述多个低影响力重复类型集组分别与所述高中靶探针集混合得到第一探针集组、第二探针集组、以及第三探针集组。

8.根据权利要求7所述的方法，其特征在于，所述高影响力重复类型集、所述中影响力重复类型集、所述低影响力重复类型集中的探针可以出现在多个重复类型集组。

9.根据权利要求7所述的方法，其特征在于，所述第一探针集组、第二探针集组、第三探针集组的数量均须大于2。

10.根据权利要求9所述的方法，其特征在于，所述第一、第二、第三探针集组的数量均须大于3。

11.根据权利要求1所述的方法，其特征在于，划分所述高脱靶探针的方法为：当一探针的所述脱靶读段数其条数高于其所在探针集的总脱靶读段数其条数1％时，将该探针判定为所述高脱靶探针。

12.根据权利要求1所述的方法，其特征在于，划分所述无脱靶探针的方法为：当一探针的所述脱靶读段数在各探针集中均为零，将该探针判定为无脱靶探针。

13.根据权利要求1所述的方法，其特征在于，划分所述低脱靶探针的方法为：当一探针在探针集中无脱靶读段，但在另一探针集中有脱靶读段时，则将该探针判定为所述低脱靶探针。

14.根据权利要求1所述的方法，其特征在于，所述高风险序列集与所述低风险序列集的序列条数均须大于20条。

15.根据权利要求1所述的方法，其特征在于，所述高危模体数据库包含待评估的探针所属的重复区域类型。

16.一种评估基因组重复区探针捕获安全性的装置，其特征在于，所述装置包括：

一待估探针集注释单元，设置为对待评估探针集中每一条探针进行重复区域类型注释，统计每种重复区域类型涉及的探针数；

一基础探针集分析单元，设置为分析基础探针集对实验样本的测序并注释在每种重复区域类型的脱靶探针，统计每种重复区域类型的第一总脱靶读段数和第一脱靶读段涉及的区域数；

一待估探针集分析单元，设置为分析所述基础探针集与所述待估探针集混合形成的混合探针集，对所述实验样本测序并注释每种重复区域类型的脱靶探针，统计每种重复区域类型的第二总脱靶读段数和第二脱靶读段涉及的区域数；

一脱靶影响力计算单元，设置为计算每种重复区域类型中的探针的脱靶影响力并对所述探针的脱靶影响力排序，依据排序结果划分为多个重复类型集，并分别与所述基础探针集混合，得到多个对应的第二重复类型集；

一重复类型划分及重组单元，设置为将所述多个重复类型集中的探针依据所属的重复区域类型进行一次以上的划分，得到多个重复类型集组；所述多个重复类型集组分别与所述基础探针集混合得到多个对应的重复类型-基础探针集组；

一待估探针集划分单元，设置为将所述多个第二重复类型集分别对所述实验样本进行捕获测序，以及将所述多个重复类型-基础探针集组分别对所述实验样本进行捕获测序，计算每条探针的脱靶读段数并进行划分，得到多个不同程度的脱靶探针；

一高危模体计算单元，设置为将多个不同程度的脱靶探针依据阈值划分为高风险序列集和低风险序列集；将所述高风险序列集对照所述低风险序列集，分析差异模体，得到重复区域类型的高危模体集；

一高危模体数据库生成单元，设置为依次分析所述待估探针集的所有重复区域类型，每个重复区域类型分析得到对应的待估-高风险序列集和待估-低风险序列集，所述待估-高风险序列集对照所述待估-低风险序列集，得到待估-重复区高危模体集；合并多个所述待估-重复区高危模体集，并合并所述重复区域类型的高危模体集，以得到高危模体数据库；以及一探针风险评估单元，设置为使用所述高危模体数据库对所述待估探针集或另一待估探针集中的每一条探针进行分类。

17.根据权利要求16所述的装置，其特征在于，所述阈值为可调整的。