CN104965999B - 一种中短基因片段测序的分析拼接方法及设备 - Google Patents
一种中短基因片段测序的分析拼接方法及设备 Download PDFInfo
- Publication number
- CN104965999B CN104965999B CN201510306051.1A CN201510306051A CN104965999B CN 104965999 B CN104965999 B CN 104965999B CN 201510306051 A CN201510306051 A CN 201510306051A CN 104965999 B CN104965999 B CN 104965999B
- Authority
- CN
- China
- Prior art keywords
- mer
- read
- splicing
- information
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种中短基因片段测序的分析拼接方法及设备,方法包括:校验read序列,去除包含错误和不可靠信息的基因序列;读取处理后的read数据,分析数据并构建k‑mer结构和四叉树结构;构建拼接存储表,记录拼接过程的进展情况和当前参与拼接的read信息;选取初始k‑mer开始拼接后,根据拼接打分公式不断选取后继k‑mer并实时更新拼接存储表结构中的信息,得到contig序列;利用read‑pair信息,基于最长公共子序列的方法合并contig序列,生成并输出super‑contig;针对以上拼接方法对性能的特殊要求,本发明设备为嵌入式手持结构;利用本发明中的方法及设备,可以快速、准确的实现中短基因片段测序的分析与拼接。
Description
技术领域
本发明涉及生物基因测序技术领域,特别涉及一种中短基因片段测序的分析拼接方法及设备。
背景技术
近年来,生物基因测序技术迅猛发展,虽然基因测序的精度提高,时间缩短,成本降低,但是基因测序过程中需要处理的数据量增大。因此借助计算机技术分析、处理海量数据并高效的完成基因片段拼接是基因测序的一个关键环节。
早期的Sanger第一代测序技术得到的测序片段(简称read)的主要特征是:read较长(500~1000bp),read数量相对的较少,read之间的相互重叠关系易于发现,因此可以采用基于重叠图的贪婪算法进行拼接。对于第二代和第三代测序技术而言,read的长度只有30~50bp,read的数量更多,基于重叠图的拼接方法不再适用。目前常见的解决办法是采用基于de Bruijn图的算法,通过寻找加权图上的最优路径进行拼接。但是这种算法需要消耗大量的时间和内存来构建de Bruijn图并且容错率较低,拼接性能无法满足要求。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种中短基因片段测序的分析拼接方法及设备,基于四叉树搜索方法,通过构建特殊的数据结构以及有效的拼接策略提高拼接性能,并采用最长公共子序列(LCS)方法比较两个序列的相似性,利用read-pair信息组装contig生成super-contig,本发明相应的设备可采用可视化手持嵌入式系统装置。
为了实现上述目的,本发明采用的技术方案是:
一种中短基因片段测序的分析拼接方法,包括如下步骤:
(1)、对read进行预处理操作,去掉包含错误和不可靠信息的基因序列;
(2)、读取步骤(1)中处理后的read数据,分析数据并构建k-mer结构和四叉树结构;
(3)、构建拼接存储表,记录拼接过程的进展情况和当前参与拼接的read信息;
(4)、选取初始k-mer开始拼接后,根据拼接打分公式不断选取后继k-mer并实时更新拼接存储表结构中的信息,得到contig序列;
(5)、利用read-pair信息,基于最长公共子序列的方法合并contig序列,生成并输出super-contig。
所述步骤(1)中去掉的基因序列包括:包含未能识别的碱基N的片段和A碱基含量超过90%的片段。
所述步骤(2)具体包括:
1)将read打断成长度为8的基因序列,建立k-mer数组结构;
2)初始化四叉树结构,底层采用hash表存储,通过k-mer碱基序列散列化后的值实现寻址;
3)遍历四叉树,再次读取read数据,记录每个k-mer对应read的信息。
所述步骤(2)中k-mer结构包含以下信息:
1)k-mer碱基压缩后的整数值;
2)k-mer在所有read中出现的次数;
3)k-mer在read中出现的位置以及该read的编号。
所述步骤(2)中分析数据的过程中扫描read数据两次,采用动态分配内存的方法构建k-mer结构,在第一遍扫描输入的过程中获取k-mer结构所需要存储空间的信息,在第二遍扫描输入的过程中,分配空间并且填入每个k-mer及其所在read的信息用于后续的拼接。
所述步骤(2)中构建四叉树结构时,将一个k-mer作为四叉树的父节点,四个子节点分别是后k-1个碱基补上A/C/G/T得到的k-mer。
所述步骤(3)中拼接存储表包含以下信息:
1)唯一标识一条read的字段;
2)这条read参与拼接的方向;
3)这条read参与拼接的初始位置;
4)当前k-mer出现在read中的位置;
5)拼接中断发生的位置;
6)删除标识:如果一个在决策表中的read在后继的多个碱基位上参与拼接失败,设置该标识,表示该条read参与拼接失败,当指定超时完成时,从决策表中删除设置了删除标识的read信息;
7)拼接状态标记。
所述步骤(4)中k-mer的选取遵循以下规则:
选取在所有read中出现次数最多的k-mer作为拼接的初始k-mer,当前k-mer的后k-1个碱基分别接上A/G/C/T就是四个候选后继k-mer,选取得分最高的候选后继k-mer作为当前k-mer的后继k-mer,k-mer在第i条read的得分按下式计算:
其中k是k-mer在第i条read中出现的位置;L是read的长度;K是k-mer长度;[(L+1)/2]是不大于(L+1)/2的最大整数;
k-mer的总得分按下式计算:
其中:scorei是k-mer在第i条read的得分;numi是第i条read参与拼接的次数;n是包含该k-mer的read数量。
所述步骤(5)中利用第一代测序技术确定下来的read-pair信息获取待测片段中距离已知的两条read,当配对的两条read出现在不同的contig中时,根据read-pair信息确定contig之间的相对位置,去除重复片段合并contig,过程中采用最长公共子序列(LCS)方法比较两个序列的相似性,定义长度分别为M,N的基因序列X,Y之间的相似性函数f(X,Y)如下:
其中min(M,N)表示M,N中的较小值,LLCS(X,Y)表示X,Y间的最长公共子序列的长度,计算LLCS(X,Y)采用一种基于动态规划的递归方法,递归式如下所示:
其中c[i,j]是序列Xi和Yj的一个LCS的长度,Xi是基因序列X的前i个碱基组成的子序列,Yj是基因序列Y的前j个碱基组成的子序列,通过回溯以c[i,j]为元素组成的矩阵C可以快速得到Xi和Yj的一个LCS,矩阵C中最大的元素即最长公共子序列的长度LLCS(X,Y)。
本发明还提供了一种实现所述中短基因片段测序的分析拼接方法的设备,采用客户端-服务器硬件模型,其中本地客户端仅实现拼接过程及结果显示,数据的处理全部传输到服务器上进行,借助高性能的服务器实现基因拼接过程中数据的高速传输和海量数据的不间断处理。既可以提高拼接速度,还可以增强稳定性和可靠性,避免断电、客户端死机等异常情况对计算任务的影响。
设备硬件包括:
金属外壳1;
与金属外壳相连的液晶显示屏2;
与金属外壳相连的电源开关3、工作指示灯4和电源显示灯5;
金属外壳内部安装的实现数据快速读取的固态硬盘EMMC存储器6、双通道DDR3内存7和基于ARM Cortex-a9架构的四核处理器8;
为整个装置提供稳定电源的S5M8767电源管理单元9;
用于传输数据的USB数据模块10;
连接220V充电设备的电源输入接口11;
数据输入/输出接口12。
其中工作指示灯亮时表示设备已通电并正在工作中,电源显示灯为绿色代表电源充足,红色表示电源不足,需连接充电设备进行充电。接口11可以连接220V充电设备给本装置充电,并通过S5M8767电源管理单元9为整个装置提供稳定电源。通过输入/输出接口12传输read数据文件,经USB数据模块10传入嵌入式系统进行分析拼接处理。
与现有技术相比,利用本发明中提出的拼接方法与设备实现中短基因片段拼接测序的准确度可以达到97%,每处理1000个碱基数据仅占用1.6k内存,与现有技术相比,降低了内存消耗。
附图说明
图1是本发明中的中短基因片段测序分析拼接方法的总体流程图。
图2是本发明中的中短基因片段测序分析拼接方法的软件平台结构框图。
图3是本发明中的中短基因片段测序分析拼接装置的逻辑结构图。
具体实施方式
本发明提供了一种中短基因片段测序的分析拼接方法,其过程如图1所示。下面结合附图和实施例详细说明本发明的实施方式。
中短基因片段测序的分析拼接方法的流程图如图1所示。
1.校验read序列,将以下两种基因片段抛弃:一是包含未能识别的碱基N的片段;二是A碱基含量超过90%的片段。
2.本发明实施例中的read长度为35bp,将每条read打断成28个长度为8的k-mer(即前后两个k-mer会重叠7个碱基位的数据),并通过构建映射关系将每个碱基压缩成一个两位的二进制数。
分析数据的过程中需要扫描read数据两次,采用动态分配内存的方法构建k-mer结构。k-mer结构需要包含的具体信息包括:k-mer碱基压缩后的整数值;k-mer在所有read中出现的次数;k-mer在read中出现的位置以及该read的编号。
在第一遍扫描输入的过程中获取k-mer结构所需要存储空间的信息,在第二遍扫描输入的过程中,分配空间并且填入每个k-mer及其所在read的信息用于后续的拼接。
构建四叉树时,将一个k-mer作为四叉树的父节点,四个子节点分别是后k-1个碱基补上A/C/G/T得到的k-mer。如:父节点是AGGTCCTA,它的四个子节点是:GGTCCTAA、GGTCCTAC,GGTCCTAG,GGTCCTAT。四叉树结构底层采用哈希表实现存储。
3.构建一种拼接存储表结构,这个结构将实时的记录拼接过程的进展情况和当前参与拼接的一些read信息,为拼接的进行和后继k-mer的选取提供参考依据。拼接存储表结构主要包括的信息有:唯一标识一条read的字段;这条read参与拼接的方向;这条read参与拼接的初始位置;当前k-mer出现在read中的位置;拼接中断发生的位置;删除标识(如果一个在拼接存储表中的read在后继的多个碱基位上参与拼接失败,设置该标识,表示该条read参与拼接失败。当指定超时完成时,从拼接存储表中删除设置了删除标识的read信息);拼接状态标记。
4.选取在所有read中出现次数最多的k-mer作为拼接的初始k-mer,选取后继k-mer并实时更新拼接存储表结构中的信息。k-mer的选取遵循以下规则:
当前k-mer的后k-1个碱基分别接上A/G/C/T就是四个候选后继k-mer,选取得分最高的候选后继k-mer作为当前k-mer的后继k-mer。k-mer在第i条read的得分按下式计算:
其中k是k-mer在第i条read中出现的位置;L是read的长度;K是k-mer长度;[(L+1)/2]是不大于[(L+1)/2]的最大整数。
k-mer的总得分按下式计算:
其中:scorei是k-mer在第i条read的得分;numi是第i条read参与拼接的次数;n是包含该k-mer的read数量。
按照步骤4所述方法拼接k-mer直至无法再继续拼接时,得到一条contig,重复进行步骤4所述方法可以得到多条contig。
5.利用第一代测序技术确定下来的read-pair信息获取待测片段中距离已知的两条read。当配对的两条read出现在不同的contig中时,根据read-pair信息确定contig之间的相对位置,去除重复片段合并contig,生成并输出super-contig。采用最长公共子序列(LCS)方法比较两个序列的相似性,定义长度分别为M,N的基因序列X,Y之间的相似性函数f(X,Y)如下:
其中min(M,N)表示M,N中的较小值,LLCS(X,Y)表示X,Y间的最长公共子序列的长度。计算LLCS(X,Y)采用一种基于动态规划的递归方法,递归式如下所示:
其中c[i,j]是序列Xi和Yj的一个LCS的长度,Xi是基因序列X的前i个碱基组成的子序列,Yj是基因序列Y的前j个碱基组成的子序列。通过回溯以c[i,j]为元素组成的矩阵C可以快速得到Xi和Yj的一个LCS,矩阵C中最大的元素就是最长公共子序列的长度LLCS(X,Y)。
本发明还提供了一种实现上述分析拼接方法的系统装置,包括:
在嵌入式系统中配置算法执行软件,如图2所示,软件框架包括:主窗口1、菜单区2、显示区3、参数区4、消息区5。其中菜单区包括开启拼接过程的开始6、暂停拼接过程的暂停7,、保存拼接结果的保存8和退出系统的退出9。显示区显示了当前已完成的拼接长度10和拼接完成的碱基序列11。参数区用于设置分析拼接过程中校验参数和k-mer长度。消息区5用于显示系统运行消息或提醒。
实现基因片段分析拼接方法的系统装置逻辑图如图3所示,包括:
金属外壳1、与金属外壳相连的液晶显示屏2、与金属外壳相连的电源开关3、工作指示灯4和电源显示灯5。工作指示灯亮时表示系统装置已通电并正在工作中,电源显示灯为绿色代表电源充足,红色表示电源不足,需连接充电设备进行充电。在金属外壳内部安装实现数据快速读取的固态硬盘EMMC存储器6、双通道DDR3内存7和基于ARM Cortex-a9架构的四核处理器8。接口11可以连接220V充电设备给本装置充电,并通过S5M8767电源管理单元9为整个装置提供稳定电源。通过输入/输出接口12传输read数据文件,经USB数据模块10传入嵌入式系统进行分析拼接处理。
通过本发明提出的基因片段测序分析拼接方法及装置,可以将输入长度为30~50bp的read数据集拼接至长度为10~20万bp的基因片段,并且拼接的正确率达到95%以上,从而较好的实现了中短基因片段测序的分析拼接过程。
值得注意的是,上述的具体实施方式用于解释说明本发明,仅为本发明的优选实施方案,而不是对本发明进行限制。在本发明的精神和权力要求的保护范围内,对本发明做出的任何修改、等同替换、改进等,都属于本发明的保护范围。
Claims (5)
1.一种中短基因片段测序的分析拼接方法,其特征在于,包括如下步骤:
(1)、对read进行预处理操作,去掉包含错误和不可靠信息的基因序列;
(2)、读取步骤(1)中处理后的read数据,分析数据并构建k-mer结构和四叉树结构,具体包括:
1)将read打断成长度为8的基因序列,建立k-mer数组结构;
2)初始化四叉树结构,底层采用hash表存储,通过k-mer碱基序列散列化后的值实现寻址;
3)遍历四叉树,再次读取read数据,记录每个k-mer对应read的信息;
所述k-mer结构包含以下信息:
1)k-mer碱基压缩后的整数值;
2)k-mer在所有read中出现的次数;
3)k-mer在read中出现的位置以及该read的编号;
构建四叉树结构时,将一个k-mer作为四叉树的父节点,四个子节点分别是后k-1个碱基补上A/C/G/T得到的k-mer;
(3)、构建拼接存储表,记录拼接过程的进展情况和当前参与拼接的read信息,所述拼接存储表包含以下信息:
1)唯一标识一条read的字段;
2)这条read参与拼接的方向;
3)这条read参与拼接的初始位置;
4)当前k-mer出现在read中的位置;
5)拼接中断发生的位置;
6)删除标识:如果一个在决策表中的read在后继的多个碱基位上参与拼接失败,设置该标识,表示该条read参与拼接失败,当指定超时完成时, 从决策表中删除设置了删除标识的read信息;
7)拼接状态标记;
(4)、选取初始k-mer开始拼接后,根据拼接打分公式不断选取后继k-mer并实时更新拼接存储表结构中的信息,得到contig序列;
所述k-mer的选取遵循以下规则:
选取在所有read中出现次数最多的k-mer作为拼接的初始k-mer,当前k-mer的后k-1个碱基分别接上A/G/C/T就是四个候选后继k-mer,选取得分最高的候选后继k-mer作为当前k-mer的后继k-mer,k-mer在第i条read的得分按下式计算:
其中k是k-mer在第i条read中出现的位置;L是read的长度;K是k-mer长度;[(L+1)/2]是不大于(L+1)/2的最大整数;
k-mer的总得分按下式计算:
其中:scorei是k-mer在第i条read的得分;numi是第i条read参与拼接的次数;n是包含该k-mer的read数量;
(5)、利用read-pair信息,基于最长公共子序列的方法合并contig序列,生成并输出super-contig。
2.根据权利要求1所述中短基因片段测序的分析拼接方法,其特征在于,所述步骤(1)中去掉的基因序列包括:包含未能识别的碱基N的片段和A碱基含量超过90%的片段。
3.根据权利要求1所述中短基因片段测序的分析拼接方法,其特征在于,所述步骤(2)中分析数据的过程中扫描read数据两次,采用动态分配内存的方法构建k-mer结构,在第一遍扫描输入的过程中获取k-mer结构所需要存储空间的信息,在第二遍扫描输入的过程中,分配空间并且填入每个k-mer 及其所在read的信息用于后续的拼接。
4.一种实现权利要求1所述中短基因片段测序的分析拼接方法的设备,其特征在于:其为客户端-服务器硬件模型,其中本地客户端仅实现拼接过程及结果显示,数据的处理全部传输到服务器上进行,服务器实现基因拼接过程中数据的高速传输和海量数据的不间断处理。
5.根据权利要求4所述中短基因片段测序的分析拼接设备,其特征在于,包括:
金属外壳(1);
与金属外壳相连的液晶显示屏(2);
与金属外壳相连的电源开关(3)、工作指示灯(4)和电源显示灯(5);
金属外壳内部安装的实现数据快速读取的固态硬盘EMMC存储器(6)、双通道DDR3内存(7)和基于ARM Cortex-a9架构的四核处理器(8);
为整个装置提供稳定电源的S5M8767电源管理单元(9);
用于传输数据的USB数据模块(10);
连接220V充电设备的电源输入接口(11);
数据输入/输出接口(12)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510306051.1A CN104965999B (zh) | 2015-06-05 | 2015-06-05 | 一种中短基因片段测序的分析拼接方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510306051.1A CN104965999B (zh) | 2015-06-05 | 2015-06-05 | 一种中短基因片段测序的分析拼接方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104965999A CN104965999A (zh) | 2015-10-07 |
CN104965999B true CN104965999B (zh) | 2016-08-17 |
Family
ID=54220037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510306051.1A Expired - Fee Related CN104965999B (zh) | 2015-06-05 | 2015-06-05 | 一种中短基因片段测序的分析拼接方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104965999B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI582631B (zh) * | 2015-11-20 | 2017-05-11 | 財團法人資訊工業策進會 | 用以分析細菌菌種之定序資料的系統及其方法 |
CN106295250B (zh) * | 2016-07-28 | 2019-03-29 | 北京百迈客医学检验所有限公司 | 二代测序短序列快速比对分析方法及装置 |
CN108460245B (zh) * | 2017-02-21 | 2020-11-06 | 深圳华大基因科技服务有限公司 | 使用三代序列优化二代组装结果的方法和装置 |
CN106951734B (zh) * | 2017-02-24 | 2019-07-26 | 苏州金唯智生物科技有限公司 | 一种序列自动拼接方法及装置 |
CN107480471B (zh) * | 2017-07-19 | 2020-09-01 | 福建师范大学 | 基于小波变换为特征的序列相似性分析的方法 |
CN108595915B (zh) * | 2018-04-16 | 2021-06-22 | 北京化工大学 | 一种基于dna变异检测的三代数据校正方法 |
CN114171121B (zh) * | 2020-09-10 | 2024-05-17 | 深圳华大生命科学研究院 | 一种mRNA 5’3’末端差异的快速检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332064B (zh) * | 2011-10-07 | 2013-11-06 | 吉林大学 | 基于基因条形码的生物物种识别方法 |
CN103761453B (zh) * | 2013-12-09 | 2017-10-27 | 天津工业大学 | 一种基于簇图结构的并行基因拼接方法 |
CN104200133B (zh) * | 2014-09-19 | 2017-03-29 | 中南大学 | 一种基于读数和距离分布的基因组De novo序列拼接方法 |
-
2015
- 2015-06-05 CN CN201510306051.1A patent/CN104965999B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN104965999A (zh) | 2015-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104965999B (zh) | 一种中短基因片段测序的分析拼接方法及设备 | |
US11942191B2 (en) | Compound property prediction method and apparatus, computer device, and readable storage medium | |
US7353214B2 (en) | Outlier determination rule generation device and outlier detection device, and outlier determination rule generation method and outlier detection method thereof | |
US20210049715A1 (en) | Blockchain-based data procesing method, apparatus, and electronic device | |
CN105989268A (zh) | 一种人机识别的安全访问方法和系统 | |
CN112070608B (zh) | 信息处理方法、装置、介质及电子设备 | |
US20060288272A1 (en) | Computer-implemented method, system, and program product for developing a content annotation lexicon | |
CN108830389A (zh) | 一种信息系统自动巡检的方法及系统 | |
CN103809985B (zh) | 一种软件开发方案的生成方法及系统 | |
CN108665272A (zh) | 区块链数据处理方法、装置、设备和存储介质 | |
CN113205278A (zh) | 建筑工程质量的智能检查系统 | |
CN109543891A (zh) | 容量预测模型的建立方法、设备及计算机可读存储介质 | |
CN110808839A (zh) | 一种区块链异常数据的处理方法、装置、设备和介质 | |
CN109413047A (zh) | 行为模拟的判定方法、系统、服务器及存储介质 | |
CN113434542B (zh) | 数据关系识别方法、装置、电子设备及存储介质 | |
CN103856365B (zh) | 客户终端接入设备自动测试方法和系统 | |
CN112235254B (zh) | 一种高速主干网中Tor网桥的快速识别方法 | |
CN108399284B (zh) | 一种基于偏差约减的大数据交易模型分析与修复方法 | |
CN113312529A (zh) | 一种数据可视化方法、装置、计算机设备及存储介质 | |
CN116841564A (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 | |
CN105608006B (zh) | 一种基于概率模型的程序错误检测方法及系统 | |
CN108345541A (zh) | 一种程序检测方法及系统 | |
Sharma et al. | Exploring story cards for evaluating requirement understanding in agile software development | |
Muka et al. | Meta-level performance management of simulation: The problem context retrieval approach | |
CN104318019B (zh) | 一种基于耦合关系的飞行器系统分析系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160817 Termination date: 20190605 |
|
CF01 | Termination of patent right due to non-payment of annual fee |