CN102841987B - 基因序列数据的处理方法和装置 - Google Patents

基因序列数据的处理方法和装置 Download PDF

Info

Publication number
CN102841987B
CN102841987B CN201210147222.7A CN201210147222A CN102841987B CN 102841987 B CN102841987 B CN 102841987B CN 201210147222 A CN201210147222 A CN 201210147222A CN 102841987 B CN102841987 B CN 102841987B
Authority
CN
China
Prior art keywords
edge sequence
sequence
branch
edge
data records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210147222.7A
Other languages
English (en)
Other versions
CN102841987A (zh
Inventor
王垚燊
阮航
李萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Polytron Technologies Inc
Original Assignee
Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd filed Critical Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Priority to CN201210147222.7A priority Critical patent/CN102841987B/zh
Publication of CN102841987A publication Critical patent/CN102841987A/zh
Application granted granted Critical
Publication of CN102841987B publication Critical patent/CN102841987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基因序列数据的处理方法和装置。其中,基因序列数据的处理方法包括:接收初始基因序列的测序数据;构建测序数据的德布鲁因图;保存德布鲁因图中的第一边序列和组成第一边序列的各个短序列;获取组成第一边序列的各个短序列的深度信息;根据组成第一边序列的各个短序列的深度信息计算第一边序列的深度信息;按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图;以及切割化简后的德布鲁因图,得到测序数据的叠连群基因序列。通过本发明,解决了现有技术中基因序列数据的处理方法容易造成的生物信息缺失的问题,进而达到了提高基因序列组装的有效性的效果。

Description

基因序列数据的处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种基因序列数据的处理方法和装置。
背景技术
基于短片段序列数据进行测序的方法日渐成熟,通过构建德布鲁因图(de Bruijn)的思想进行基因组序列的组装软件,成功组装了大量的全基因序列。但是,现有组装软件在进行基因序列组装时,并不考虑用来组装的基因序列是杂合基因还是纯合基因,以生物界居多的二倍体基因为例进行举例说明,现有技术中在对二倍体基因进行序列组装时,均是将二倍体基因当作纯合二倍体进行组装,对于其中的等位基因位点采取随机选取其中一个的方式进行忽略,即,舍去等位基因中的一种情况,把二倍体基因当成纯合二倍体来处理,现有技术中的此种进行基因序列数据的处理组装的方式,不仅会造成了杂合二倍体基因的单核苷酸多态性(Single Nucleotide Polymorphism,简称SNP)的位点信息损失,影响生物信息的精确性,而且对于杂合度较高、SNP信息复杂的基因,组装所得到的基因序列偏离生物自身基因序列的程度更大。
针对相关技术中基因序列数据的处理方法容易造成的生物信息缺失的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种基因序列数据的处理方法和装置,以解决现有技术中基因序列数据的处理方法容易造成的生物信息缺失的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种基因序列数据的处理方法,包括:接收初始基因序列的测序数据;构建测序数据的德布鲁因图;保存德布鲁因图中的第一边序列和组成第一边序列的各个短序列,其中,第一边序列为德布鲁因图中的任一边序列;获取组成第一边序列的各个短序列的深度信息;根据组成第一边序列的各个短序列的深度信息计算第一边序列的深度信息;按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图;以及切割化简后的德布鲁因图,得到测序数据的叠连群基因序列。
进一步地,按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图包括:获取德布鲁因图中第一组合边序列,其中,第一组合边序列包括第一序列、第二序列和第三序列,第二序列连接在第一序列和第三序列之间,第一序列和第三序列均包括两条分支边序列,第二序列包括一条共有边序列;判断第一组合边序列中的各个边序列的深度信息是否满足预设条件;在判定第一组合边序列中的各个边序列的深度信息满足预设条件时,对比测序数据中的各个短序列,确定第一组合边序列的基因类型;以及按照基因类型拆解第一组合边序列,得到化简后的德布鲁因图。
进一步地,对比测序数据中的各个短序列,确定第一组合边序列的基因类型包括:对比测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列,其中,第一分支边序列为第一序列中的分支边序列,第二分支边序列为第三序列中的分支边序列;复制共有边序列,得到第一共有边序列和第二共有边序列;依次连接第一分支边序列、第一共有边序列和第二分支边序列,将连接后的组合边序列的类型确定为第一组合边序列的第一基因类型;以及依次连接第三分支边序列、第二共有边序列和第四分支边序列,将连接后的组合边序列的类型确定为第一组合边序列的第二基因类型,其中,第三分支边序列为第一序列中的分支边序列且第三分支边序列与第一分支边序列不同,第四分支边序列为第三序列中的分支边序列且第四分支边序列与第二分支边序列不同。
进一步地,对比测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列包括:判断第一短序列的长度是否大于共有边序列的长度,其中,第一短序列为各个短序列中的任一短序列;在判定第一短序列的长度大于共有边序列的长度时,对比第一短序列全部碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列;以及在判定第一短序列的长度小于或等于共有边序列的长度时,对比第一短序列的双末端碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列。
进一步地,判断第一组合边序列中的各个边序列的深度信息是否满足预设条件包括:判断共有边序列的深度信息值是否为分支边序列的深度信息值的第一数值倍,其中,在判定共有边序列的深度信息值为分支边序列的深度信息值的第一数值倍时,确定第一组合边序列中的各个边序列的深度信息满足预设条件。
进一步地,根据组成第一边序列的各个短序列的深度信息计算第一边序列的深度信息包括:计算组成第一边序列的各个短序列的深度信息值的平均值;以及确定计算出的平均值为第一边序列的深度信息值。
为了实现上述目的,根据本发明的另一方面,提供了一种基因序列数据的处理装置,该处理装置用于执行上述本发明提供的任一种基因序列数据的处理方法。
为了实现上述目的,根据本发明的另一方面,提供了一种基因序列数据的处理装置,包括:接收单元,用于接收初始基因序列的测序数据;构建单元,与接收单元相连接,用于构建测序数据的德布鲁因图;保存单元,与构建单元相连接,用于保存德布鲁因图中的第一边序列和组成第一边序列的各个短序列,其中,第一边序列为德布鲁因图中的任一边序列;获取单元,与保存单元相连接,用于获取组成第一边序列的各个短序列的深度信息;计算单元,与获取单元相连接,用于根据组成第一边序列的各个短序列的深度信息计算第一边序列的深度信息;化简单元,与计算单元相连接,用于按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图;以及切割单元,与化简单元相连接,用于切割化简后的德布鲁因图,得到测序数据的叠连群基因序列。
进一步地,化简单元包括:获取子单元,用于获取德布鲁因图中第一组合边序列,其中,第一组合边序列包括第一序列、第二序列和第三序列,第二序列连接在第一序列和第三序列之间,第一序列和第三序列均包括两条分支边序列,第二序列包括一条共有边序列;判断子单元,与获取子单元相连接,用于判断第一组合边序列中的各个边序列的深度信息是否满足预设条件;对比子单元,与判断子单元相连接,用于在判定第一组合边序列中的各个边序列的深度信息满足预设条件时,对比测序数据中的各个短序列,确定第一组合边序列的基因类型;以及拆分子单元,与对比子单元相连接,用于按照基因类型拆解第一组合边序列,得到化简后的德布鲁因图。
进一步地,对比子单元包括:对比模块,用于对比测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列,其中,第一分支边序列为第一序列中的分支边序列,第二分支边序列为第三序列中的分支边序列;复制模块,与对比模块相连接,用于复制共有边序列,得到第一共有边序列和第二共有边序列;第一确定模块,与复制模块相连接,用于依次连接第一分支边序列、第一共有边序列和第二分支边序列,将连接后的组合边序列的类型确定为第一组合边序列的第一基因类型;以及第二确定模块,与复制模块相连接,用于依次连接第三分支边序列、第二共有边序列和第四分支边序列,将连接后的组合边序列的类型确定为第一组合边序列的第二基因类型,其中,第三分支边序列为第一序列中的分支边序列且第三分支边序列与第一分支边序列不同,第四分支边序列为第二序列中的分支边序列且第四分支边序列与第二分支边序列不同。
进一步地,对比模块包括:判断子模块,用于判断第一短序列的长度是否大于共有边序列的长度,其中,第一短序列为各个短序列中的任一短序列;第一对比子模块,与判断子模块相连接,用于在判定第一短序列的长度大于共有边序列的长度时,对比第一短序列全部碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列;以及第二对比子模块,与判断子模块相连接,用于在判定第一短序列的长度小于或等于共有边序列的长度时,对比第一短序列的双末端碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列。
通过本发明,采用在构建测序数据的德布鲁因图的过程中保存德布鲁因图中各个边序列及组成各个边序列的测序数据中的各个短序列,通过该保存步骤,为后续步骤处理中避免杂合二倍体基因的单核苷酸多态性位点信息的损失的提供了保障,根据各个短序列的深度信息得到德布鲁因图中各个边序列的深度信息,然后按照各个边序列的深度信息和测序数据中的各个短序列化简已构建的德布鲁因图,通过按照边序列的深度信息及测试数据中的短序列对德布鲁因图进行化简,最后对化简后的德布鲁因图进行切割,得到叠连群基因序列,实现了得到较长的测序数据的边序列,对于杂合度较高、SNP信息复杂的基因,能够精确地反映其基因信息,减小组装所得到的基因序列偏离生物自身基因序列的程度,解决了现有技术中基因序列数据的处理方法容易造成的生物信息缺失的问题,进而达到了提高基因序列组装的有效性的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的处理装置的示意图;
图2是根据本发明优选实施例的处理装置的示意图;
图3是根据本发明实施例的处理方法的流程图;
图4是本发明实施例的处理方法中的第一组合边序列的结构示意图;
图5是本发明实施例的处理方法中的“杂合-纯合-杂合”结构的组合边序列的结构示意图;
图6是根据本发明实施例的处理方法进行基因类型判断的第一判断方法的示意图;
图7是根据本发明实施例的处理方法进行基因类型判断的第二判断方法的示意图;以及
图8是根据本发明实施例的处理方法拆解后的边序列的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明实施例提供了一种基因序列数据的处理装置,以下对本发明实施例所提供的基因序列数据的处理装置进行介绍。
图1是根据本发明实施例的处理装置的示意图,如图1所示,该实施例的处理装置包括:接收单元10、构建单元20、保存单元30、获取单元40、计算单元50、化简单元60和切割单元70。
具体地,接收单元10用于接收初始基因序列的测序数据;构建单元20与接收单元10相连接,用于构建接收到的测序数据的德布鲁因图;保存单元30与构建单元20相连接,用于保存德布鲁因图中的第一边序列edges和组成第一边序列的各个短序列reads,其中,第一边序列可以为构建出的德布鲁因图中的任意一条边序列;保存单元30可以为硬件存储单元,也可以为后台数据库,构建单元20在构建德布鲁因图的过程中可以边构建边将构建的边序列存储至保存单元30中,保存单元30中可以存储任意一条边序列及组成该边序列的短序列,同时还存储有各条短序列的深度信息值;获取单元40与保存单元30相连接,用于从保存单元30中调用组成任意一条边序列的各个短序列的深度信息值;计算单元50与获取单元40相连接,用于根据组成某一边序列的各个短序列的深度信息计算该条边序列的深度信息值;化简单元60与计算单元50相连接,用于按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图;以及切割单元70与化简单元60相连接,用于切割化简后的德布鲁因图,得到测序数据的叠连群基因序列。
本发明实施例的处理装置,通过保存单元在构建测序数据的德布鲁因图的过程中保存德布鲁因图中各个边序列及组成各个边序列的测序数据中的各个短序列,通过该保存单元的保存工作,为后续各单元的处理工作中避免杂合二倍体基因的单核苷酸多态性位点信息的损失的提供了保障,根据各个短序列的深度信息得到德布鲁因图中各个边序列的深度信息,然后由化简单元按照各个边序列的深度信息和测序数据中的各个短序列化简已构建的德布鲁因图,通过按照边序列的深度信息及测试数据中的短序列对德布鲁因图进行化简,最后对化简后的德布鲁因图进行切割,得到叠连群基因序列,实现了得到较长的测序数据的边序列,对于杂合度较高、SNP信息复杂的基因,能够精确地反应其基因信息,减小组装所得到的基因序列偏离生物自身基因序列的程度,解决了现有技术中基因序列数据的处理方法容易造成的生物信息缺失的问题,进而达到了提高基因序列组装的有效性的效果。
图2是本发明优选实施例的处理装置的示意图,如图2所示,该实施例的处理装置与图1中示出的处理装置相比,二者区别在于,本发明优选实施例的处理装置中化简单元60包括获取子单元61、判断子单元62、对比子单元63和拆分子单元64。
具体地,获取子单元61,用于获取德布鲁因图中满足一定边结构的组合边序列,假设满足该一定结构的组合边序列为第一组合边序列,那么,第一组合边序列需包括第一序列、第二序列和第三序列,并且,第二序列连接在第一序列和第三序列之间,第一序列和第三序列均包括两条分支边序列,第二序列包括一条共有边序列;判断子单元62与获取子单元61相连接,用于判断获取到的第一组合边序列中的各个边序列的深度信息是否满足预设条件;对比子单元63与判断子单元62相连接,用于在判定第一组合边序列中的各个边序列的深度信息满足预设条件时,对比初始的测序数据中的各个短序列,以确定出第一组合边序列的基因类型;以及拆分子单元64与对比子单元63相连接,用于按照确定出的第一组合边序列的基因类型拆解第一组合边序列,得到化简后的德布鲁因图。
该优选实施例的化简单元通过获取子单元找到德布鲁因图中能够被拆分的组合边序列,并对满足该结构的组合边序列中各分支序列的深度信息进行判断,以区分出杂合基因和纯合基因,最终确定出能够被完全拆解的组合边序列,然后按照初始的测序数据中的各个短序列来确定第一组合边序列的基因类型,并以其基因类型为拆分依据拆分第一组合边序列,得到化简后的德布鲁因图。该优选实施例的化简单元通过在各个子单元分别设定相应的参考量来实现对德布鲁因图的化简,达到了提高拆解化简效率的效果。
进一步地,对比子单元63在参考测序数据中的各个短序列以确定出第一组合边序列的基因类型时,可以通过以下方式来实现:首先,可以由对比子单元中的对比模块对比测序数据中的各个短序列得出同属于一条短序列的第一分支边序列和第二分支边序列,其中,第一分支边序列为第一序列中的分支边序列,第二分支边序列为第三序列中的分支边序列;其次,由与对比模块相连接的复制模块对第二序列中的共有边序列进行复制,得到两个完全相同的共有边序列,并且复制后的每一个共有边序列的深度信息均为原共有边序列的深度信息的一半;最后,由与复制模块相连接的第一确定模块依次连接第一分支边序列、复制后的一个共有边序列和第二分支边序列,并将连接后的组合边序列的类型确定为第一组合边序列的第一基因类型;以及由与复制模块相连接的第二确定模块依次连接第三分支边序列、复制后的另一个共有边序列和第四分支边序列,并将连接后的组合边序列的类型确定为第一组合边序列的第二基因类型,其中,第三分支边序列为第一序列中的分支边序列,并且第三分支边序列与第一分支边序列不同,第四分支边序列为第二序列中的分支边序列,并且第四分支边序列与第二分支边序列不同。
其中,对比模块在对比测序数据中的各个短序列得出同属于一条短序列的第一分支边序列和第二分支边序列时,可以通过以下方式来实现:首选,由对比模块中的判断子模块对第一短序列的长度是否大于共有边序列的长度进行判断,其中,第一短序列为各个短序列中的任意一条短序列;其次,当判断出第一短序列的长度大于共有边序列的长度时,由与判断子模块相连接的第一对比子模块对比第一短序列全部碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列;当判断出第一短序列的长度小于或等于共有边序列的长度时,由与判断子模块相连接的第二对比子模块对比第一短序列的双末端碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列。
本发明实施例还提供了一种基因序列数据的处理方法,以下对本发明实施例的处理方法进行介绍。
图3是本发明实施例的处理方法的流程图,如图3所示,该实施例的处理方法包括如下的步骤S302至步骤S314:
S302:接收初始基因序列的测序数据;
S304:构建测序数据的德布鲁因图;
S306:保存德布鲁因图中的第一边序列和组成第一边序列的各个短序列,其中,第一边序列为德布鲁因图中的任一边序列;具体地,可以在构建德布鲁因图的过程中可以边构建边将构建的边序列存储至硬件存储单元或后台数据库中,包括存储任意一条边序列及组成该边序列的短序列,以及各条短序列的深度信息值。
S308:从硬件存储单元或者后台数据库中获取组成第一边序列的各个短序列的深度信息值;
S310:根据组成第一边序列的各个短序列的深度信息计算第一边序列的深度信息;
S312:按照德布鲁因图中的各个边序列的深度信息和测序数据中的各个短序列化简德布鲁因图;以及
S314:切割化简后的德布鲁因图,得到测序数据的叠连群基因序列。
该实施例的处理方法通过在构建测序数据的德布鲁因图的过程中保存德布鲁因图中各个边序列及组成各个边序列的测序数据中的各个短序列,通过该保存步骤,为后续步骤处理中避免杂合二倍体基因的单核苷酸多态性位点信息的损失的提供了保障,根据各个短序列的深度信息得到德布鲁因图中各个边序列的深度信息,然后按照各个边序列的深度信息和测序数据中的各个短序列化简已构建的德布鲁因图,通过按照边序列的深度信息及测试数据中的短序列对德布鲁因图进行化简,最后对化简后的德布鲁因图进行切割,得到叠连群基因序列,实现了拼接得到较长的叠连群conting的边序列,对于杂合度较高、SNP信息复杂的基因,能够精确地反应其基因信息,减小组装所得到的基因序列偏离生物自身基因序列的程度,解决了现有技术中基因序列数据的处理方法容易造成的生物信息缺失的问题,进而达到了提高基因序列组装的有效性的效果。
其中,步骤S310可以通过以下方式计算第一边序列的深度信息:计算组成第一边序列的各个短序列的深度信息值的平均值;将计算出的平均值确定为第一边序列的深度信息值。
步骤S312可以通过以下步骤化简德布鲁因图:
第一步:获取德布鲁因图中满足一定边结构的组合边序列,假设满足该一定结构的组合边序列为第一组合边序列,那么,第一组合边序列需包括第一序列、第二序列和第三序列,第二序列连接在第一序列和第三序列之间,第一序列和第三序列均包括两条分支边序列,第二序列包括一条共有边序列;图4中示出了第一组合边序列的边结构,其中,41和42表示第一序列的两个分支边序列,43和44表示第三序列的两个分支边序列,45表示第二序列的共有边序列。
第二步:判断第一组合边序列中的各个边序列的深度信息是否满足预设条件;具体地,判断共有边序列45的深度信息值是否为各个分支边序列(包括分支边序列41、分支边序列42、分支边序列44和分支边序列44)的深度信息值的第一数值倍,由于杂合基因深度信息的期望值和纯合基因深度信息的期望值约为1∶2的关系,所以,在本发明实施例的处理方法中,可以将第一数据设定为2,即,判断共有边序列45的深度信息值是否为分支边序列41的深度信息值的2倍,判断共有边序列45的深度信息值是否为分支边序列42的深度信息值的2倍,判断共有边序列45的深度信息值是否为分支边序列43的深度信息值的2倍,以及判断共有边序列45的深度信息值是否为分支边序列44的深度信息值的2倍,其中,在判定共有边序列45的深度信息值为各个分支边序列的深度信息值的2倍(即,各分支边序列的深度信息值相等,而共有边序列的深度信息值为一个分支边序列的深度值的2倍)时,确定第一组合边序列中的各个边序列的深度信息满足预设条件,即,确定出组合边序列中满足边结构为“上游杂合-中间纯合-下游杂合”的组合边序列,以分支边序列41和分支边序列42为基因型号Aa的杂合基因、分支边序列44和分支边序列44为基因型号Cc的杂合基因、共有边序列为B的纯合基因为例进行说明,则边结构为“上游杂合-中间纯合-下游杂合”的组合边序列的结构示意图如图5所示。
第三步:在判定第一组合边序列中的各个边序列的深度信息满足预设条件时,对比测序数据中的各个短序列,确定第一组合边序列的基因类型;具体地,可以通过以下方式来实现:首先,对比测序数据中的各个短序列得出同属于一条短序列的第一分支边序列和第二分支边序列,其中,第一分支边序列为第一序列中的分支边序列,第二分支边序列为第三序列中的分支边序列;其次,复制共有边序列,得到两个完全相同的共有边序列,并且复制后的每一个共有边序列的深度信息均为原共有边序列的深度信息的一半;最后,依次连接第一分支边序列、复制后的一个共有边序列和第二分支边序列,并将连接后的组合边序列的类型确定为第一组合边序列的第一基因类型;以及依次连接第三分支边序列、复制后的另一个共有边序列和第四分支边序列,将连接后的组合边序列的类型确定为第一组合边序列的第二基因类型,其中,第三分支边序列为第一序列中的分支边序列,并且第三分支边序列与第一分支边序列不同,第四分支边序列为第二序列中的分支边序列,并且第四分支边序列与第二分支边序列不同。
更具体地,结合附图5、附图6和附图7来详细说明对比测序数据中的各个短序列得出同属于一条短序列的第一分支边序列和第二分支边序列的实现步骤:首先,对第一短序列的碱基长度是否大于共有边序列B的碱基长度进行判断,其中,第一短序列为各个短序列中的任意一条短序列;其次,当判断出第一短序列的长度大于共有边序列B的长度时,如图6所示,对比第一短序列的全部碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列,图6中R表示第一短序列Read;当判断出第一短序列的长度小于或等于共有边序列的长度时,如图7所示,对比第一短序列的双末端碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列,图7中PER表示第一短序列双末端Pair-end Reads。
第四步:按照基因类型拆解第一组合边序列,得到化简后的德布鲁因图,假设本发明实施例的处理方法中经由图6或图7的对比之后,确定出分支边序列A和分支边序列c同属于一条短序列,即,第一组合边序列的第一基因类型为ABc,第二基因类型为aBC,如图8所示,复制后的两条共有边序列分别为B和B′则按照这两个基因类型将第一组合边序列拆解为基因类型分别为ABc和aB′C的两条拆解后的边序列。
步骤S314具体为:将上述第四步中各个拆解出的边序列进行连接,当边序列不能再连下去的时候就从此处断开,将边序列输出,得到测序数据的叠连群基因序列。
如果德布鲁因图中满足上述特定边结构的组合边序列是由重复序列导致的而不是由杂合导致的,则此种组合边序列不可被拆解,此时,通过对满足该结构的组合边序列中各分支序列的深度信息进行判断,以区分出杂合基因和纯合基因,最终确定出能够被完全拆解的组合边序列,然后按照初始的测序数据中的各个短序列来确定第一组合边序列的基因类型,并以其基因类型为拆分依据拆分第一组合边序列,得到化简后的德布鲁因图,达到了提高拆解化简效率的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基因序列数据的处理方法,其特征在于,包括:
接收初始基因序列的测序数据;
构建所述测序数据的德布鲁因图;
保存所述德布鲁因图中的第一边序列和组成所述第一边序列的各个短序列,其中,所述第一边序列为所述德布鲁因图中的任一边序列;
获取组成所述第一边序列的各个短序列的深度信息;
根据组成所述第一边序列的各个短序列的深度信息计算所述第一边序列的深度信息;
按照所述德布鲁因图中的各个边序列的深度信息和所述测序数据中的各个短序列化简所述德布鲁因图,包括:获取所述德布鲁因图中第一组合边序列,其中,所述第一组合边序列包括第一序列、第二序列和第三序列,所述第二序列连接在所述第一序列和所述第三序列之间,所述第一序列和所述第三序列均包括两条分支边序列,所述第二序列包括一条共有边序列;判断所述第一组合边序列中的各个边序列的深度信息是否满足预设条件;在判定所述第一组合边序列中的各个边序列的深度信息满足所述预设条件时,对比所述测序数据中的各个短序列,确定所述第一组合边序列的基因类型;以及按照所述基因类型拆解所述第一组合边序列,得到化简后的德布鲁因图,判断所述第一组合边序列中的各个边序列的深度信息是否满足预设条件包括:判断所述共有边序列的深度信息值是否为所述分支边序列的深度信息值的第一数值倍,其中,在判定所述共有边序列的深度信息值为所述分支边序列的深度信息值的第一数值倍时,确定所述第一组合边序列中的各个边序列的深度信息满足所述预设条件;以及
切割化简后的德布鲁因图,得到所述测序数据的叠连群基因序列。
2.根据权利要求1所述的处理方法,其特征在于,对比所述测序数据中的各个短序列,确定所述第一组合边序列的基因类型包括:
对比所述测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列,其中,所述第一分支边序列为所述第一序列中的分支边序列,所述第二分支边序列为所述第三序列中的分支边序列;
复制所述共有边序列,得到第一共有边序列和第二共有边序列;
依次连接所述第一分支边序列、所述第一共有边序列和所述第二分支边序列,将连接后的组合边序列的类型确定为所述第一组合边序列的第一基因类型;以及
依次连接第三分支边序列、所述第二共有边序列和第四分支边序列,将连接后的组合边序列的类型确定为所述第一组合边序列的第二基因类型,其中,所述第三分支边序列为所述第一序列中的分支边序列且所述第三分支边序列与所述第一分支边序列不同,所述第四分支边序列为所述第三序列中的分支边序列且所述第四分支边序列与所述第二分支边序列不同。
3.根据权利要求2所述的处理方法,其特征在于,对比所述测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列包括:
判断第一短序列的长度是否大于所述共有边序列的长度,其中,所述第一短序列为所述各个短序列中的任一短序列;
在判定所述第一短序列的长度大于所述共有边序列的长度时,对比所述第一短序列全部碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列;以及
在判定所述第一短序列的长度小于或等于所述共有边序列的长度时,对比所述第一短序列的双末端碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列。
4.根据权利要求1所述的处理方法,其特征在于,根据组成所述第一边序列的各个短序列的深度信息计算所述第一边序列的深度信息包括:
计算组成所述第一边序列的各个短序列的深度信息值的平均值;以及
确定计算出的平均值为所述第一边序列的深度信息值。
5.一种基因序列数据的处理装置,其特征在于,包括:
接收单元,用于接收初始基因序列的测序数据;
构建单元,与所述接收单元相连接,用于构建所述测序数据的德布鲁因图;
保存单元,与所述构建单元相连接,用于保存所述德布鲁因图中的第一边序列和组成所述第一边序列的各个短序列,其中,所述第一边序列为所述德布鲁因图中的任一边序列;
获取单元,与所述保存单元相连接,用于获取组成所述第一边序列的各个短序列的深度信息;
计算单元,与所述获取单元相连接,用于根据组成所述第一边序列的各个短序列的深度信息计算所述第一边序列的深度信息;
化简单元,与所述计算单元相连接,用于按照所述德布鲁因图中的各个边序列的深度信息和所述测序数据中的各个短序列化简所述德布鲁因图,所述化简单元包括:获取子单元,用于获取所述德布鲁因图中第一组合边序列,其中,所述第一组合边序列包括第一序列、第二序列和第三序列,所述第二序列连接在所述第一序列和所述第三序列之间,所述第一序列和所述第三序列均包括两条分支边序列,所述第二序列包括一条共有边序列;判断子单元,与所述获取子单元相连接,用于判断所述第一组合边序列中的各个边序列的深度信息是否满足预设条件;对比子单元,与所述判断子单元相连接,用于在判定所述第一组合边序列中的各个边序列的深度信息满足所述预设条件时,对比所述测序数据中的各个短序列,确定所述第一组合边序列的基因类型;以及拆分子单元,与所述对比子单元相连接,用于按照所述基因类型拆解所述第一组合边序列,得到化简后的德布鲁因图,判断所述第一组合边序列中的各个边序列的深度信息是否满足预设条件包括:判断所述共有边序列的深度信息值是否为所述分支边序列的深度信息值的第一数值倍,其中,在判定所述共有边序列的深度信息值为所述分支边序列的深度信息值的第一数值倍时,确定所述第一组合边序列中的各个边序列的深度信息满足所述预设条件;以及
切割单元,与所述化简单元相连接,用于切割化简后的德布鲁因图,得到所述测序数据的叠连群基因序列。
6.根据权利要求5所述的处理装置,其特征在于,所述对比子单元包括:
对比模块,用于对比所述测序数据中的各个短序列以确定出同属于一条短序列的第一分支边序列和第二分支边序列,其中,所述第一分支边序列为所述第一序列中的分支边序列,所述第二分支边序列为所述第三序列中的分支边序列;
复制模块,与所述对比模块相连接,用于复制所述共有边序列,得到第一共有边序列和第二共有边序列;
第一确定模块,与所述复制模块相连接,用于依次连接所述第一分支边序列、所述第一共有边序列和所述第二分支边序列,将连接后的组合边序列的类型确定为所述第一组合边序列的第一基因类型;以及
第二确定模块,与所述复制模块相连接,用于依次连接第三分支边序列、所述第二共有边序列和第四分支边序列,将连接后的组合边序列的类型确定为所述第一组合边序列的第二基因类型,其中,所述第三分支边序列为所述第一序列中的分支边序列且所述第三分支边序列与所述第一分支边序列不同,所述第四分支边序列为所述第三序列中的分支边序列且所述第四分支边序列与所述第二分支边序列不同。
7.根据权利要求6所述的处理装置,其特征在于,所述对比模块包括:
判断子模块,用于判断第一短序列的长度是否大于所述共有边序列的长度,其中,所述第一短序列为所述各个短序列中的任一短序列;
第一对比子模块,与所述判断子模块相连接,用于在判定所述第一短序列的长度大于所述共有边序列的长度时,对比所述第一短序列全部碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列;以及
第二对比子模块,与所述判断子模块相连接,用于在判定所述第一短序列的长度小于或等于所述共有边序列的长度时,对比所述第一短序列的双末端碱基组成以确定出同属于一条短序列的第一分支边序列和第二分支边序列。
CN201210147222.7A 2012-05-11 2012-05-11 基因序列数据的处理方法和装置 Active CN102841987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210147222.7A CN102841987B (zh) 2012-05-11 2012-05-11 基因序列数据的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210147222.7A CN102841987B (zh) 2012-05-11 2012-05-11 基因序列数据的处理方法和装置

Publications (2)

Publication Number Publication Date
CN102841987A CN102841987A (zh) 2012-12-26
CN102841987B true CN102841987B (zh) 2015-04-01

Family

ID=47369342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210147222.7A Active CN102841987B (zh) 2012-05-11 2012-05-11 基因序列数据的处理方法和装置

Country Status (1)

Country Link
CN (1) CN102841987B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015027245A1 (en) * 2013-08-23 2015-02-26 Complete Genomics, Inc. Long fragment de novo assembly using short reads
CN104850761B (zh) * 2014-02-17 2017-11-07 深圳华大基因科技有限公司 核酸序列拼接方法及装置
CN106355046B (zh) * 2016-09-18 2019-04-30 北京百度网讯科技有限公司 结构体变异检测的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101096667A (zh) * 2007-05-24 2008-01-02 上海大学 高同源度多基因家族的表达谱的构建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101096667A (zh) * 2007-05-24 2008-01-02 上海大学 高同源度多基因家族的表达谱的构建方法

Also Published As

Publication number Publication date
CN102841987A (zh) 2012-12-26

Similar Documents

Publication Publication Date Title
Ghurye et al. Integrating Hi-C links with assembly graphs for chromosome-scale assembly
Koren et al. De novo assembly of haplotype-resolved genomes with trio binning
Hoang et al. UFBoot2: improving the ultrafast bootstrap approximation
Giarla et al. The challenges of resolving a rapid, recent radiation: empirical and simulated phylogenomics of Philippine shrews
Kumar et al. The evolutionary history of bears is characterized by gene flow across species
Bao et al. HALC: High throughput algorithm for long read error correction
Goloboff Calculating SPR distances between trees
Thawornwattana et al. Coalescent analysis of phylogenomic data confidently resolves the species relationships in the Anopheles gambiae species complex
Koren et al. One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly
El-Metwally et al. Next-generation sequence assembly: four stages of data processing and computational challenges
Leung et al. OMBlast: alignment tool for optical mapping using a seed-and-extend approach
Katoh et al. Recent developments in the MAFFT multiple sequence alignment program
Hoffmann et al. A multi-split mapping algorithm for circular RNA, splicing, trans-splicing and fusion detection
Siepel et al. Phylogenetic estimation of context-dependent substitution rates by maximum likelihood
Paajanen et al. A critical comparison of technologies for a plant genome sequencing project
Rothfels et al. Transcriptome-mining for single-copy nuclear markers in ferns
Kunde-Ramamoorthy et al. Comparison and quantitative verification of mapping algorithms for whole-genome bisulfite sequencing
Katju et al. On the formation of novel genes by duplication in the Caenorhabditis elegans genome
Lin et al. AGORA: assembly guided by optical restriction alignment
Dufresnes et al. Timeframe of speciation inferred from secondary contact zones in the European tree frog radiation (Hyla arborea group)
US20140323320A1 (en) Method of detecting fused transcripts and system thereof
Firtina et al. Hercules: a profile HMM-based hybrid error correction algorithm for long reads
Lapierre et al. The impact of HGT on phylogenomic reconstruction methods
CN102841987B (zh) 基因序列数据的处理方法和装置
Ashkenazy et al. Indel reliability in indel-based phylogenetic inference

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100083 Beijing, Haidian District, Qing Qing Road, No. 38, block B, Jin code building, 712

Patentee after: Beijing Polytron Technologies Inc

Address before: 100083 Beijing, Haidian District, Qing Qing Road, No. 38, block B, Jin code building, 712

Patentee before: Nuo Hezhi source, Beijing bioinformation Science and Technology Ltd.