CN104951673B

CN104951673B - 一种基因组酶切图谱拼接方法及系统

Info

Publication number: CN104951673B
Application number: CN201510346396.XA
Authority: CN
Inventors: 卜东波; 许情; 陈挺; 孙世伟; 李帅成; 刘兴武; 张仁玉; 王超
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2015-06-19
Filing date: 2015-06-19
Publication date: 2018-03-30
Anticipated expiration: 2035-06-19
Also published as: CN104951673A

Abstract

本发明涉及分子生物学领域的基因组序列拼接领域，本发明提出一种基因组酶切图谱拼接方法及系统，该方法包括对所述基因组酶切图谱中基因序列分子进行预处理操作，获取新基因序列分子，将所述新基因序列分子切成FLES片段，其中所述FLES片段为片段总长固定且无需具有相同酶切位点数目的基因片段；对所述FLES片段进行聚类，生成代表FLES集合，根据所述代表FLES集合对所述基因序列分子进行纠错；根据所述代表FLES集合与纠错后的所述基因序列分子，构建FLES图，对所述FLES图进行路径搜索，获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点序列，以完成基因组酶切图谱拼接。本发明能够快速、准确地构建基因组的酶切位点图谱。

Description

一种基因组酶切图谱拼接方法及系统

技术领域

本发明涉及分子生物学领域的基因组序列拼接领域，尤其涉及一种基因组酶切图谱拼接方法及系统。

背景技术

基因组包含生物体最基本的遗传信息，这些信息决定物种生物学特征、指导生命机能运作以及发育过程；并指导细胞内的重要化合物的合成(如蛋白质、 RNA等)。

基因组序列是由脱氧核糖核苷酸(腺嘌呤A、鸟嘌呤G、胸腺嘧啶T、胞嘧啶C)按一定顺序彼此用3’-5’-磷酸二酯键相连而成的双螺旋结构。所谓基因组测序，即是指获得基因组的脱氧核糖核苷酸的序列信息。随着基因组测序技术的发展，越来越多物种的基因组已经完成测定。

基因组测序技术的发展经历了Sanger测序、第二代测序技术和第三代测序技术。第二代测序技术以其高通量、低成本的特点，逐渐成为主流的测序技术，然而，无论是Sanger测序，还是第二代测序技术，其测序长度均比较有限，难以跨过基因组中存在的一些较长的repeat(重复序列)，此处的“repeat”指的是在基因组上出现次数大于一次的序列，repeat的存在导致通过二代测序数据拼接很难直接恢复出完整的基因组，然而诸如结构体变异检测等方面的研究，依赖于基因组的完整序列信息，因此对测序技术提出了更高的要求。

基因组酶切图谱技术能够获得很好的弥补二代测序数据较短的问题，酶切图谱技术得到序列中的酶切位点之间的距离信息，其测序序列大跨度的特点有助于解决二代测序数据中长repeat的影响。

基因组酶切图谱技术能够反映基因组上较大范围内的酶切位点位置信息，以基因组图谱为指导，不仅可以提高二代拼接结果的连续性和准确度，同时对后续研究提供更加准确的序列结构信息。

迄今为止，已经发展了多种酶切图谱测序技术，比如基于光学映像 (opticalmap)的图谱技术，该技术的主要步骤是将大量DNA片段拉伸并固定在玻璃板上，然后利用限制性内切酶进行原位酶切，从而得到酶切位点信息；基于微流体溶液的酶切图谱技术，该技术的主要步骤是将带荧光标记的分子短暂地通过一个微米隧道并利用传感器检测荧光团，从而得到酶切位点的位置。由于测序通量较低或者测序过程中的成像分辨率较低，上述两种技术并没有得到广泛的应用，目前，纳米单分子测序是一种高通量、高准确度的基因组图谱技术(图1为BioNano公司开发的Irys测序平台)，相较于前两种图谱技术，纳米单分子测序的准确度以及成像分辨率均有所提高，其测序的基本过程为：首先将DNA分子解螺旋形成单链，切断为单链DNA片段，片段的长度范围高达几百Kbp，接着使单链分子线性地通过纳米孔道，与带荧光标记的探针杂交(探针被设计成只与酶切位点做特异性杂交)；最后根据荧光成像即可识别出酶切位点，从而得到分子的酶切位点的位置信息。

目前针对酶切图谱技术的应用主要体现在两个方面：(1)直接利用酶切图谱分子指导二代数据的拼接。Nagarajan,N.,T.D.Read,and M.Pop, Scaffolding andvalidation of bacterial genome assemblies using optical restrictionmaps.Bioinformatics,2008.24(10):p.1229-35.一文利用酶切图谱分子指导二代测序数据拼接中的scaffolding步骤；(2)酶切图谱分子的拼接。Anantharaman,T.S.,B.Mishra,and D.C.Schwartz,Genomics via optical mapping.II:Ordered restriction maps.JComput Biol,1997. 4(2):p.91-118.一文中采用贝叶斯方法预测位点出现的概率模型，进行图谱分子的拼接，该方法存在的不足主要包括如何设置Bayes模型的先验和计算复杂度高。Anantharaman,T.,B.Mishra,and D.Schwartz,Genomics via optical mapping.III:Contiging genomic DNA.Proc Int Conf Intell Syst Mol Biol,1999:p.18-27.采用序列联配的思想构建酶切位点图谱，该算法存在的不足：(1)寻找最优的序列联配非常耗时，(2)通过引入了一些启发式的策略以降低时间复杂度，但损失了精度。

发明内容

针对现有技术的不足，本发明提出一种基因组酶切图谱拼接方法及系统。

本发明提出一种基因组酶切图谱拼接方法，包括：

步骤1，对所述基因组酶切图谱中基因序列分子进行预处理操作，获取新基因序列分子，将所述新基因序列分子切成FLES片段，其中所述FLES片段为片段总长固定且无需具有相同酶切位点数目的基因片段；

步骤2，对所述FLES片段进行聚类，生成代表FLES集合，根据所述代表 FLES集合对所述基因序列分子进行纠错；

步骤3，根据所述代表FLES集合与纠错后的所述基因序列分子，构建FLES 图，对所述FLES图进行路径搜索，获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点序列，以完成基因组酶切图谱拼接。

所述的基因组酶切图谱拼接方法，所述步骤1中所述预处理操作包括：删除所述基因序列分子两端的酶切位点；

近似处理酶切位点位置，其中将所述基因序列分子的酶切位点位置以 1Kbp为单位近似处理；

标记所述基因序列分子相邻酶切位点的间距，获得酶切位点模式；

对所述基因序列分子进行逆置操作。

所述的基因组酶切图谱拼接方法，所述步骤2还包括FLES片段的联配规则：

获取测序深度Depth，其中根据所述酶切位点的基因序列分子的数目进行估计：

其中，L为相邻酶切位点的平均距离；

获取遗失率Miss Rate；

获取编辑距离(Distance)，公式为：

Match＝0，Insertion＝-1，Deletion＝-1.Mismatch＝+∞

其中Match表示位点的距离不超过1Kbp，否则视为Mismatch，编辑距离 Distance的阈值为：

聚类的标准为：

其中，T₁与T₂为两个FLES片段长度比值的阈值，当两个FLES片段长度比值介于T1和T2之间，其相似度distance小于预设参数T时，S(FLES_1，FLES₂)取值为1。

所述的基因组酶切图谱拼接方法，所述步骤2中聚类的步骤包括：

将所有所述FLES片段按照所述联配规则进行联配；

根据BIC准则选择每一类的最优聚类方式，根据所述Depth值确定类别数；

生成所有类的代表FLES集合；

根据所述代表FLES的集合，对基因序列分子进行纠错。

所述的基因组酶切图谱拼接方法，生成所述代表FLES集合的方法包括：选择类中连接数最多的点作为所述代表FLES集合；根据类中的所述FLES片段相互校正来恢复遗失酶切位点，得到未遗失酶切位点的所述FLES片段作为所述代表FELS集合。

所述的基因组酶切图谱拼接方法，所述步骤3中构建FLES图包括：所述 FLES图中，每个节点代表一个FLES片段，每一条边表示两个FLES片段中其中一个的前缀与另一个后缀具有相同的位点模式或两FLES片段位于同一基因序列分子上。

所述的基因组酶切图谱拼接方法，所述步骤3中通过公式对所述FLES图进行路径搜索：

s.t.x_i-x_j-d_ij≤ε_ij；

x_i-y_k-d_ik≤γ_ik；

其中，E表示FLES图的边的集合，M为基因序列分子集合，x，y分别表示 FLES片段与基因序列分子在基因组上的真实位置，其中FLES_i片段，FLES_j片段之间的距离为d_ij，d_ik表示FLES_i片段在基因序列分子m_k上的偏移距离；γ_ik表示第i个FLES片段与第k个基因序列分子之间真实距离与估计值之间的误差；ε_ij表示第i个FLES片段与第j个FLES片段之间真实距离与估计值之间的误差；

本发明还提出一种基因组酶切图谱拼接系统，包括：

预处理模块，用于对所述基因组酶切图谱中基因序列分子进行预处理操作，获取新基因序列分子，将所述新基因序列分子切成FLES片段，其中所述FLES 片段为片段总长固定且无需具有相同酶切位点数目的基因片段；

聚类模块，用于对所述FLES片段进行聚类，生成代表FLES集合，根据所述代表FLES集合对所述基因序列分子进行纠错；

拼接模块，用于根据所述代表FLES集合与纠错后的所述基因序列分子，构建FLES图，对所述FLES图进行路径搜索，获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点序列，以完成基因组酶切图谱拼接。

所述的基因组酶切图谱拼接系统，所述预处理模块还包括：删除所述基因序列分子两端的酶切位点；

对所述基因序列分子进行逆置操作。

所述的基因组酶切图谱拼接系统，所述聚类模块还包括通过联配规则对所述FLES片段进行联配：获取测序深度Depth，其中根据所述酶切位点的基因序列分子的数目进行估计：

其中，L为相邻酶切位点的平均距离；

获取遗失率Miss Rate；

获取编辑距离(Distance)，公式为：

Match＝0，Insertion＝-1，Deletion＝-1.Mismatch＝+∞

聚类的标准为：

其中，T₁与T₂为两个FLES片段长度比值的阈值，当两个FLES片段长度比值介于T1和T2之间，其相似度distance小于预设参数T时，S(FLES_1，FLES₂)取值为1。由以上发明可知，本发明的优点在于：

(1)本发明针对酶切图谱数据特点提出了新型数据结构FLES图，克服了传统deBruijn图中k-mer无法表示酶切位点丢失的缺陷；

(2)本发明采用全局优化策略，能够快速、准确地构建基因组的酶切位点图谱。

附图说明

图1为Bionano公司的Irys酶切图谱测序平台；

图2为nanoARCS算法流程示意图；

图3为分子测序过程中遗失酶切位点的示意图；

图4为分子预处理的示意图；

图5为de Bruijn图的构建方式与FLES图的对比示意图；

图6为FLES图定义以及不同K值的酶切位点的分布图；

图7为分子纠错的示意图；

图8为FLES图的构建示意图；

图9为测试数据集E.coli的分子长度分布图。

具体实施方式

酶切图谱拼接算法nanoARCS主要由两大部分组成：分子纠错以及分子拼接，算法流程图见图2。下面结合附图对本发明做进一步地描述，其中本发明出现的“分子”皆代表“基因序列分子”。

步骤1：分子纠错的主要步骤分为数据预处理、聚类和纠错；

步骤11：数据预处理；

酶切图谱数据特点主要有：1)Irys系统如图1所示生成的酶切图谱的分辨率大约是Kbp量级。也就是说，如果两个酶切位点距离较近，那么很有可能会遗失其中一个位点。如图3中所示，其中相隔较近的位点，在酶切图谱中只被识别出一个荧光信号；2)识别的酶切位点的位置本身存在一定的误差，近似服从高斯分布。

基于上述数据特点，图4示出了预处理的示意图：

(1)去掉两端位点。分子两端位点仅表示起始标记(见图4中的A)；

(2)近似处理位点位置。由于测序的分辨度有限，将分子位置以1Kbp 为单位近似处理(见图4中的A)；

(3)得到酶切位点模式(motif)。通过标记分子相邻位点的间距得到(见图4中的B)；

(4)分子逆置。因为不确定分子来自正链还是反链(见图4中的C)。

步骤12：聚类；

聚类步骤负责将步骤1中的分子切成FLES(Fixed LEngth Segment)，并对FLES进行聚类。

首先，将分子切成FLES。值得注意的是，这里的FLES和de Bruijn图中的kmer类似，都是表示一个片段；然而传统的de Bruijn图中的kmer并不适用于处理酶切图谱数据。由于酶切图谱中位点的高遗失率，以致于相同位点个数并不一定代表相同的位点模式(见图5)，因此我们设计了新的数据结构FLES。 FLES只要求片段的总长固定、而并不需要片段具有相同的位点数目(见图6中的A)。比如L＝100K，意味着FLES的长度之和为100K，其位点数目不确定。同一L 值对应片段的位点个数的分布(见图6中的B)。

接着，对FLES进行聚类。聚类主要基于以下的几个参数：

(1)测序深度(Depth)：此处根据测序得到的酶切位点分子数进行简单估计：

其中，L指的是相邻位点的平均距离。当L为100Kbp时，位点个数大约为12个，则(见图6中的B)。

(2)遗失率(Miss Rate)：据经验值，分子中酶切位点的遗失率大致为 15％。即当L为100Kbp时，遗失位点数目约为15*0.15＝2.25个。

(3)编辑距离(Distance)：这里使用的打分方式为：

Match＝0，Insertion＝-1，Deletion＝-1.Mismatch＝+∞

这里Match表示位点的距离不超过1Kbp，否则视为Mismatch。另外，编辑距离Distance的阈值为：

综合上述规则，聚类的标准为：

其中，T₁与T₂表示两个FLES长度比值的阈值，实际值的设定可由用户指定，当两个FLES片段长度比值介于T1和T2之间，其相似度distance小于预设参数T时，S(FLES_1，FLES₂)取值为1。

聚类的步骤为：

(1)首先，将所有FLES按照上述规则联配；

(2)接着，根据BIC准则选择每一类的最优聚类方式，根据Depth值确定可能的类别数，从而完成FLES聚类；

(3)然后，生成所有类的代表FLES集合。可以有两种选择代表元素的策略：一种是直接选择类中连接数最多的点作为代表元素，这样可以排除异常点的干扰；另一种是根据类中的FLES相互校正来恢复遗失位点，最大程度地得到没有遗失位点的FLES作为代表元素(见图7)；

(4)最后，根据(3)中的代表FLES的集合，对分子进行纠错(见图7)。

至此，分子纠错步骤完成，得到纠错后的分子序列以及所有类的代表FLES 集合。

步骤2：拼接；

构建FLES图并识别酶切分子路径，从而完成拼接。具体步骤如下：

步骤21：构建FLES图：在构建的FLES图中，每个节点代表一个FLES，每一条边表示两个FLES中其中一个的前缀与另一个后缀具有相同的位点模式或两FLES位于同一分子上。(见图8)。

步骤22：路径搜索：本步骤将路径搜索问题转化为线性规划问题，从而得到全局优化的拼接结果。在理想情况下，真实基因组的酶切位点序列为FLES 图的汉密尔顿路径。本步骤采用的主要步骤为：(1)估计距离。根据FLES之间overlap信息估计FLES之间的距离。(2)分子回贴。连接来自同一个分子的FLES。在FLES图中的路径搜索问题可被形式化为下述线性规划问题：

s.t.x_i-x_j-d_ij≤ε_ij；

x_i-y_k-d_ik≤γ_ik；

其中，E表示FLES图边的集合，M为分子集合。x，y分别表示FLES和分子在基因组上的真实位置。其中FLES_i，FLES_j之间的距离为d_ij，d_ik表示FLES_i在分子m_k上的偏移距离，γ_ik表示第i个FLES片段与第k个基因序列分子之间真实距离与估计值之间的误差；ε_ij表示第i个FLES片段与第j个FLES片段之间真实距离与估计值之间的误差；。

通过求解上述线性规划问题，可以得到分子和FLES在基因组上的真实位置，进而得到基因组的位点序列。

本发明还提出一种基因组酶切图谱拼接系统，包括：

所述预处理模块还包括：删除所述基因序列分子两端的酶切位点；

对所述基因序列分子进行逆置操作。

所述聚类模块还包括通过联配规则对所述FLES片段进行联配：获取测序深度Depth，其中根据所述酶切位点的基因序列分子的数目进行估计：

其中，L为相邻酶切位点的平均距离；获取遗失率Miss Rate；

获取编辑距离(Distance)，公式为：

Match＝0，Insertion＝-1，Deletion＝-1.Mismatch＝+∞

聚类的标准为：

以下为本发明的一实施例，如下所示：

实验数据集是Irys酶切图谱测序系统下的大肠杆菌K12菌株 Escherichia colistr.K-12 substr.MG1655的酶切图谱数据，共有7322 条分子，其采用的酶切位点序列为“GCTCTTC”，其长度分布如图9。

实验结果：

通过对上述E.coli使用本发明中的方法进行拼接，得到了酶切位点结果序列。如表1所示。

通常情况下，酶切图谱拼接的结果主要是从聚类的准确度和拼接结果的长度两个方面来衡量。在本发明中，聚类的准确度主要是由聚类之后的代表FLES 覆盖整个基因组的位点序列的百分比来表征；拼接结果的长度由得到的酶切位点序列的N50来表征。

如表1所示，本发明在聚类之后的代表FLES仅仅遗漏了基因组上的大约 10个位点，FLES的计算规模缩小了近10倍，使用多线程并行计算平台(24 个线程)计算时间约为1000s。另一方面，得到的酶切位点序列的N50为592Kbp。

表1

注：表中的before，after分别表示聚类前后的FLES集合。

真实的E.coli基因组序列共有683个酶切位点。

#moleule输入分子的数目

N50表示长度大于N50的所有分子的和至少占整个基因组的50％。

以下为结果分析，如下所示：

本发明提出的新型数据结构FLES图适用于酶切图谱数据，采用的全局优化策略可以对酶切图谱数据进行有效的拼接。

通过上述表格中的FLES聚类前后的遗失位点数目可知，本发明在不损失准确度的前提下大大降低了计算时间。

表2示出了目前的几种常见的二代测序数据的拼接软件对E.coli的拼接结果。由表可知，仅利用二代数据的拼接结果最长为313Kbp。表1中的nanoARCS 的拼接长度确实远远大于二代数据的拼接结果，因此酶切位点图谱的拼接可以用于延伸二代数据的拼接结果，从而提高序列的连续性。

表2

注：表中contig表示连续碱基序列。

Scaffold表示中间存在缺失序列的连续碱基序列。

N50表示长度大于N50的所有分子的和至少占整个基因组的50％。N90 类似。

Claims

1.一种基因组酶切图谱拼接方法，其特征在于，包括：

步骤2，对所述FLES片段进行聚类，生成代表FLES集合，根据所述代表FLES集合对所述基因序列分子进行纠错；

步骤3，根据所述代表FLES集合与纠错后的所述基因序列分子，构建FLES图，对所述FLES图进行路径搜索，获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点序列，以完成基因组酶切图谱拼接。

2.如权利要求1所述的基因组酶切图谱拼接方法，其特征在于，所述步骤1中所述预处理操作包括：删除所述基因序列分子两端的酶切位点；

近似处理酶切位点位置，其中将所述基因序列分子的酶切位点位置以1Kbp为单位近似处理；

对所述基因序列分子进行逆置操作。

3.如权利要求1所述的基因组酶切图谱拼接方法，其特征在于，所述步骤2还包括FLES片段的联配规则：

其中，L为相邻酶切位点的平均距离；

获取遗失率Miss Rate；

聚类的标准为：

其中，T₁与T₂为两个FLES片段长度比值的阈值，当两个FLES片段长度比值介于T1和T2之间，其编辑距离小于预设参数T时，S(FLES₁，FLES₂)取值为1。

4.如权利要求3所述的基因组酶切图谱拼接方法，其特征在于，所述步骤2中聚类的步骤包括：

将所有所述FLES片段按照所述联配规则进行联配；

生成所有类的代表FLES集合；

根据所述代表FLES的集合，对基因序列分子进行纠错。

5.如权利要求4所述的基因组酶切图谱拼接方法，其特征在于，生成所述代表FLES集合的方法包括：选择类中连接数最多的点作为所述代表FLES集合；根据类中的所述FLES片段相互校正来恢复遗失酶切位点，得到未遗失酶切位点的所述FLES片段作为所述代表FELS集合。

6.如权利要求1所述的基因组酶切图谱拼接方法，其特征在于，所述步骤3中构建FLES图包括：所述FLES图中，每个节点代表一个FLES片段，每一条边表示两个FLES片段中其中一个的前缀与另一个后缀具有相同的位点模式或两FLES片段位于同一基因序列分子上。

7.如权利要求1所述的基因组酶切图谱拼接方法，其特征在于，所述步骤3中通过公式对所述FLES图进行路径搜索：

<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mi>E</mi> </mrow> </munder> <mo>|</mo> <msub> <mi>&epsiv;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>&Element;</mo> <mi>M</mi> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <msub> <mi>m</mi> <mi>k</mi> </msub> </mrow> </munder> <mo>|</mo> <msub> <mi>&gamma;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>|</mo> </mrow>

s.t. x_i-x_j-d_ij≤ε_ij；

x_i-y_k-d_ik≤γ_ik；

其中，E表示FLES图的边的集合，M为基因序列分子集合，x，y分别表示FLES片段与基因序列分子在基因组上的真实位置，其中FLES_i片段，FLES_i片断之间的距离为d_ij，d_ik表示FLES_i片段在基因序列分子m_k上的偏移距离；γ_ik表示第i个FLES片段与第k个基因序列分子之间真实距离与估计值之间的误差；ε_ij表示第i个FLES片段与第j个FLES片段之间真实距离与估计值之间的误差。

8.一种基因组酶切图谱拼接系统，其特征在于，包括：

预处理模块，用于对所述基因组酶切图谱中基因序列分子进行预处理操作，获取新基因序列分子，将所述新基因序列分子切成FLES片段，其中所述FLES片段为片段总长固定且无需具有相同酶切位点数目的基因片段；

9.如权利要求8所述的基因组酶切图谱拼接系统，其特征在于，所述预处理模块还包括：删除所述基因序列分子两端的酶切位点；

对所述基因序列分子进行逆置操作。

10.如权利要求8所述的基因组酶切图谱拼接系统，其特征在于，所述聚类模块还包括通过联配规则对所述FLES片段进行联配：获取测序深度Depth，其中根据所述酶切位点的基因序列分子的数目进行估计：

其中，L为相邻酶切位点的平均距离；获取遗失率Miss Rate；

聚类的标准为：