CN107229842A - 一种基于局部图的三代测序序列校正方法 - Google Patents

一种基于局部图的三代测序序列校正方法 Download PDF

Info

Publication number
CN107229842A
CN107229842A CN201710411878.8A CN201710411878A CN107229842A CN 107229842 A CN107229842 A CN 107229842A CN 201710411878 A CN201710411878 A CN 201710411878A CN 107229842 A CN107229842 A CN 107229842A
Authority
CN
China
Prior art keywords
sequence
base
correction
module
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710411878.8A
Other languages
English (en)
Inventor
肖传乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Ophthalmic Center
Original Assignee
肖传乐
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 肖传乐 filed Critical 肖传乐
Priority to CN201710411878.8A priority Critical patent/CN107229842A/zh
Priority to PCT/CN2017/098120 priority patent/WO2018218787A1/zh
Publication of CN107229842A publication Critical patent/CN107229842A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于局部图的三代测序序列校正方法及其系统,系统包括两两比对模块、多重序列比对模块、校正操作比对模块、校正操作分类模块、一致区域的碱基位校正和复杂区域局部图碱基序列校正模块及模板序列校正分割和去融合处理模块,两两比对模块分别与单分子实时测序数据库和纳米孔测序数据连接,单分子实时测序数据库和纳米孔测序数据库分别输入到两两比对模块。方法和系统的精度可以达到99%,速度是目前应用软件的7‑10倍。

Description

一种基于局部图的三代测序序列校正方法
技术领域
本发明涉及三代测序(PacBio SMRT和Oxford nanopore测序)测序序列错误矫正方法,特别涉及一种基于局部图的三代测序序列校正方法。
背景技术
目前三代测序技术主要包含PacBio公司的单分子实时测序(single molecule,real-time,SMRT)测序技术和Oxford Nanopore公司的纳米孔(Nanopore)测序技术。与二代测序技术相比,三代测序数据具有读长(或测序序列)很长(long read,平均10-15kb左右)和测序序列无GC偏好性等特点,这些数据特征可以有力弥补了一代和二代测序技术很多缺陷,从而使其具有广泛应用市场:在基因组测序方面,研究者利用三代测序的测序序列完成了大基因组组装、基因组复杂区深度解析、人类基因组150个gap区域和结构变异的解析;在转录组测序方面,研究者利用测序序列已包含完整cDNA信息深入分析全转录组可变剪接和亚型;在DNA修饰测序方面,研究者利用模板修饰碱基降低聚合酶合成速率来有效检测DNA未知的修饰(例如DNA甲基化)。目前,三代测序技术将成为二代测序技术的有力补充或替代,近两年广泛应用于基因组组装、长片段indel检测和矫正以及甲基化修饰的检测等研究中。
三代测序高测序错误率(15%,其主要是插入或缺失)给三代测序数据处理带来了巨大的挑战,与此同时,高错误率使二代测序软件很难用于三代测序数据分析。为了解决高测序错误率,研究者采用多重序列比对获取高一致性公共序列的方法校正三代测序序列,校正后序列正确率可以达到97-99%。目前组装流程中的序列校正软件主要有三个:DAGCon,FC_consensus,和FalconSense;他们通过两步完成序列校正过程:1)将模板序列与候选序列进行两两比对获得模板的多重比对结果;2)通过多重序列比对推断止确的序列。DAGCon将多重序列比对结果转化成有向校正图,通过寻找有向图的最优路径从而获取校正序列;FC_consensus和FalconSense通过对每个碱基位各种操作计数从而获得校正序列(图x)。DAGCon的校正精度可以达到99.9%,但其速度很慢。虽然FC_consensus和FalconSense的校正速度较快,然而校正精度只有96-98%,并且FC_consensus和FalconSense输入是来源于Daligner和MHAP的两两比对结果,MHAP和Daligner的两两比对结果是我们mecat2pw软件的2-3倍,其大量多于的两两比对结果增加了多重序列比对的时间,增大了计算量。三代测序校正过程非常耗时,目前主流组装流程Canu(用FalconSense校正)和FALCON(用FC_consensus软件)完成54X人三代数据的校正需要30-50万核时。
因此,创建一种高效三代测序测序序列校正方法可以大幅降低目前已有校正方法的计算资源消耗,具有良好商业价值。
发明内容
本专利针对目前三代测序序列校正方法速度慢和校正正确率不高问题,设计了基于局部图的三代测序序列校正系统和方法。
具体的,本发明提供了一种基于局部图的三代测序序列校正系统,其特征在于该系统包括两两比对模块、多重序列比对模块、校正操作比对模块、校正操作分类模块、一致区域的碱基位校正和复杂区域局部图碱基序列校正模块及模板序列校正分割和去融合处理模块,两两比对模块分别与单分子实时测序数据库和纳米孔测序数据连接,单分子实时测序数据库和纳米孔测序数据库分别输入到两两比对模块。
单分子实时测序数据库包含PacBio数据,纳米孔测序数据库包含Nanopore数据。
上述系统中,优选的,两两比对模块、多重序列比对模块、校正操作比对模块、校正操作分类模块、一致区域的碱基位校正和复杂区域局部图碱基序列校正模块及模板序列校正分割和去融合处理模块按顺序依次连接,前一模块数据依次输入后一连接模块中进行处理。
上述系统中,优选的,两两比对模块中嵌合两两比对结果优选规则信息和过滤规则信息。尤其优选的,两两比对模块数据中包括两条测序序列的核心种子位置对信息,核心种子位置对信息的格式为九列格式信息,九列格式信息为:
第一列是测序序列A编号,
第二列是测序序列B编号,
第三列是A序列的正负链信息,正为0,负为1,
第四列是B序列的正负链信息,
第五列是核心位置对在A序列上的位置PA
第六列是核心位置对在B序列上的位置PB
第七列是核心位置对的全局投票得分,
第八列是A序列的长度LA
第九列是B序列的长度LB
过滤规则信息为在校正模板序列T时,提取所有与T相关的两两比对结果记录:即第一列或第二列含有T编号的记录。
优选的,对T相关两两比对结果过滤规则如下:
(1)过滤掉两条序列重叠长度小于90%的两条序列较小长度的记录。
过滤规则为:通过两个序列核心位置对信息,计算每条记录两个测序序列重叠长度,如果PA>=PB,左边的A和B的重叠长度OL=PB,否则OL=PA;如果LA-PA>=LB-PB,右边的A和B的重叠长度OR=LB-PB,否则OR=LA-PA;A和B序列重叠长度长度为O=OL+OR,当O长度大于A的序列长度LA的90%或者大于B的序列长度LA的90%,该两两比对记录将被保留,否则该记录将被过滤掉或忽略。
按照上述重叠长度过滤原则过滤掉分析所有T序列相关的两两比对记录,获得T序列的过滤后记录,另外其中一条测序序列的长度小于5000,该记录将被过滤。
(2)优选200候选两两比对记录进入候选校正步骤。
在重叠度过滤后,将T序列过滤后所有记录按照全局投票打分进行降序排序,取最高200个全局投票得分记录进入候选多重序列比对和T序列校正过程。
优选的,多重序列比对模块运行方法为:根据过滤后每条两两比对的核心位置对信息,从核心位置从右到左取出模板序列和输入序列的左边部分的两条序列进行局部两两比对。
优选的,局部两两比对方法为:针对于PacBio数据,采用diff进行局部序列分析;针对Nanopore数据,采用smith-waterman方法进行局部序列比对。
优选的,局部两两比对方法为:对取出两条左边序列进行按照500bp动态分段进行比对,先取出第一段500bp的两个序列,进行局部两两比对,比对完后从尾部向头回溯,寻找到有连续5个碱基匹配的的位置,为了保证500bp左边的序列起始正确性,从这个连续5bp匹配位置开始,再取500bp两个完成下一个段局部序列比对,重复上述过程,完成左边两条序列的局部比对过程。
类似左边两条序列局部比对过程,从核心位置从左到右取出模板序列和输入序列的右边部分的两条序列进行局部两两比对,其分段比对过程与左右相似。
优选的,局部两两比对的终止条件:1)完成两条序列局部比对;2)在每个500bp的分段序列中,错配,插入和删除碱基数小于500*0.2=100,如果遇到一段500bp中错误大于100bp,终止模板和输入序列的局部序列比对,过滤掉该两两比对记录。将所有200条模板序列相关的两两比对记录完成两两局部比对产生模板序列的多重序列比对结果。
上述系统中,优选的校正操作比对模块执行基于多重序列比对的一致性校正操作统计分析。具体的,统计模板序列每个位置匹配(mat)、删除(del)、插入(ins)、替代(mismat)四类校正操作的个数,获取模板序列每个位置一致性校正操作统计表。
当模板每个位置中mat+del<6时,该位点的mat值和del值设为0,当模板每个位置ins<6,ins值设为0,因为覆盖度小于6,该位点将不被校正。
优选的,校正操作分类模块执行基于校正操作统计表对校正操作分类规则。
优选的,规则如下:
根据多重序列比对的一致性校正操作统计表,对每个模板碱基位进行分类,其分成三类:1)如果该碱基位为坚定匹配位点(firmly matched point,fmp);2)如果该碱基位为坚定的删除位点(firmly deleted point,fdp);3)否则,该碱基为为不确定位点(underdetermined point,up)。模板序列每个碱基按照这三类进行分类。
优选的,一致区域的碱基位校正和复杂区域局部图碱基序列校正模块中嵌合如下规则:
碱基为属于fmp碱基位,将保持该碱基序列不变,其中85%以上属于这样碱基校正位,对于剩下的碱基位,从该碱基为向左和向右寻找fmp碱基为,找到左边最近的fmp碱基位和右边最近fmp的碱基位,将两个碱基位之间的所有多重比对序列取出,建立局部图采用DAGCon方法进行这部分复杂区域的校正:每个碱基是一个节点,每个边记录多重序列比对中走这个节点的次数,通过做经过次数做多的边,获取最终复杂区域的校正。
优选的,模板序列校正分割和去融合处理模块嵌合如下规则:
保证校正后序列正确率大于97%,当模板序列没有6X的覆盖度时,输出校正后序列时将剪切该段序列,当剪切序列在中间时,将造成一条测序序列多段校正输出的现象,在校正模板序列时,当校正某个位置,其输入序列没有超过1000bp的序列经过该位点左边和右边,该位置认为是融合位置,融合位置被剪断。
优选的,本发明还提供了一种基于局部图的三代测序粗劣校正方法,该方法包括如下步骤:
步骤1:两两比对结果优选和过滤,
步骤2:过滤后两两比对结果的多重序列比对,
步骤3:基于多重序列比对的一致性校正操作统计分析,
步骤4:基于校正操作统计表对校正操作分类,
步骤5:高度一致区域的碱基位校正和复杂区域局部图碱基序列校正,
步骤6:模板序列校正分割和去融合处理,
其中,步骤1中,基于两两比对方法(mecat2pw)的输出结果,每条mecat2pw的输出结果记录了两条测序序列的核心种子位置对信息,其记录是九列格式信息:第一列是测序序列A编号,第二列是测序序列B编号,第三列是A序列的正负链信息(正为0,负为1),第四列是B序列的正负链信息,第五列是核心位置对在A序列上的位置(PA),第六列是核心位置对在B序列上的位置(PB),第七列是核心位置对的全局投票得分,第八列是A序列的长度(LA),第九列是B序列的长度(LB),在校正模板序列T时,提取所有与T相关的两两比对结果记录:即第一列或第二列含有T编号的记录。
对T相关两两比对结果过滤步骤如下:
步骤1-1:过滤掉两条序列重叠长度小于90%的两条序列较小长度的记录:通过两个序列核心位置对信息,计算每条记录两个测序序列重叠长度,如果PA>=PB,左边的A和B的重叠长度OL=PB,否则OL=PA;如果LA-PA>=LB-PB,右边的A和B的重叠长度OR=LB-PB,否则OR=LA-PA;A和B序列重叠长度长度为0=OL+OR,当O长度大于A的序列长度LA的90%或者大于B的序列长度LA的90%,该两两比对记录将被保留,否则该记录将被过滤掉或忽略
按照上述重叠长度过滤原则过滤掉分析所有T序列相关的两两比对记录,获得T序列的过滤后记录,另外其中一条测序序列的长度小于5000,该记录被过滤。
步骤1-2:优选200候选两两比对记录进入候选校正步骤:在重叠度过滤后,将T序列过滤后所有记录按照全局投票打分进行降序排序,取最高200个全局投票得分记录进入候选多重序列比对和T序列校正过程,即输入序列(Inputs)和模板序列(Template)。
步骤2中,根据过滤后每条两两比对的核心位置对信息,从核心位置从右到左取出模板序列和输入序列的左边部分的两条序列进行局部两两比对,比对步骤如下:
步骤2-1:分段完成两两局部序列比对:对取出两条左边序列进行按照500bp动态分段进行比对,先取出第一段500bp的两个序列,进行局部两两比对,比对完后从尾部向头回溯,寻找到有连续5个碱基匹配的的位置,为了保证500bp左边的序列起始正确性,从这个连续5bp匹配位置开始,再取500bp两个完成下一个段局部序列比对,重复上述过程,完成左边两条序列的局部比对过程,类似左边两条序列局部比对过程,从核心位置从左到右取出模板序列和输入序列的右边部分的两条序列进行局部两两比对,其分段比对过程与左右相似。
步骤2-2:局部比对的终止条件:1)完成两条序列局部比对;2)在每个500bp的分段序列中,错配,插入和删除碱基数小于500*0.2=100,如果遇到一段500bp中错误大于100bp,终止模板和输入序列的局部序列比对,过滤掉该两两比对记录。将所有200条模板序列相关的两两比对记录用2-1和2-2完成他们的两两局部比对过程,产生模板序列的多重序列比对结果。
步骤3中,基于多重序列比对的一致性校正操作统计分析的方法如下:
统计模板序列每个位置匹配(mat)、删除(del)、插入(ins)、替代(mismat)等四类校正操作的个数,获取模板序列每个位置一致性校正操作统计表。
对于PacBio数据,由于diff比对中没有碱基替代比对,所以统计表中碱基校正操作只有三个类型:匹配、删除和插入。由于覆盖度小于6的位置,该位点保持原有模板序列比校正更可靠,所以当模板每个位置中mat+del<6时,该位点的mat值和del值设为0,当模板每个位置ins<6,ins值设为0,因为覆盖度小于6,该位点将不被校正。
步骤4中,基于校正操作统计表对校正操作分类的方法如下:
根据多重序列比对的一致性校正操作统计表,对每个模板碱基位进行分类,其分成三类:1)如果该碱基位为坚定匹配位点(firmly matchedpoint,fmp);2)如果该碱基位为坚定的删除位点(firmly deleted point,fdp);3)否则,该碱基为为不确定位点(underdetermined point,up),模板序列每个碱基按照这三类进行分类。
步骤5中,高度一致区域的碱基位校正和复杂区域局部图碱基序列校正方法如下:
碱基为属于fmp碱基位,将保持该碱基序列不变,其中85%以上属于这样碱基校正位,对于剩下的碱基位,从该碱基为向左和向右寻找fmp碱基为,找到左边最近的fmp碱基位和右边最近fmp的碱基位,将两个碱基位之间的所有多重比对序列取出,建立局部图采用DAGCon方法进行这部分复杂区域的校正:每个碱基是一个节点,每个边记录多重序列比对中走这个节点的次数,通过做经过次数做多的边,获取最终复杂区域的校正。
步骤6中,模板序列校正分割和去融合处理方法如下:
保证校正后序列正确率大于97%,当模板序列没有6X的覆盖度时,输出校正后序列时剪切该段序列,当剪切序列在中间时,将造成一条测序序列多段校正输出的现象。由于PacBio测序序列存在1%的融合现象(不相关两短序列测序成一条测序序列),在校正模板序列时,当校正某个位置,其输入序列没有超过1000bp的序列经过该位点左边和右边,该位置认为是融合位置,融合位置将被剪断。
有益效果
本发明针对目前三代测序序列校正方法速度慢和校正正确率不高问题,设计了基于局部图的三代测序序列校正方法和系统,在高度一致碱基位采用碱基计数方法,在复杂区域建立局部图方法。基于局部图三代测序序列校正方法完成了三代测序校正软件的开发,精度可以达到99%,速度是目前常用软件,例如软件FC_consensus和FalconSense等的7-10倍。
附图说明
图1基于局部图的三代测序序列校正示意图
具体实施方式
实施例1
基于两两比对结果,基于局部图的三代测序序列校正方法一下实施方式完成大量三代测序序列校正,其详细设计过程如下:
两两比对结果过滤:按照1-1的规则过滤所有两两比对所有结果,过滤记录可以消除重复子序列和错误的read信息对校正结果的影响。过滤剩余两两比对结果进行分卷,每卷包含200000条测序序列的两两比对结果记录,并卷内的比对信息按照测序序列的编号进行排序,以方便每条测序序列记录集中,方便后续校正处理。具体方法如下:
基于两两比对方法(mecat2pw)的输出结果,每条mecat2pw的输出结果记录了两条测序序列的核心种子位置对信息,其记录是九列格式信息:第一列是测序序列A编号,第二列是测序序列B编号,第三列是A序列的正负链信息(正为0,负为1),第四列是B序列的正负链信息,第五列是核心位置对在A序列上的位置(PA),第六列是核心位置对在B序列上的位置(PB),第七列是核心位置对的全局投票得分,第八列是A序列的长度(LA),第九列是B序列的长度(LB)。在校正模板序列T时,提取所有与T相关的两两比对结果记录:即第一列或第二列含有T编号的记录。对T相关两两比对结果过滤规则如下:
1-1过滤掉两条序列重叠长度小于90%的两条序列较小长度的记录:通过两个序列核心位置对信息,计算每条记录两个测序序列重叠长度,如果PA>=PB,左边的A和B的重叠长度OL=PB,否则OL=PA;如果LA-PA>=LB-PB,右边的A和B的重叠长度OR=LB-PB,否则OR=LA-PA;A和B序列重叠长度长度为O=OL+OR,当O长度大于A的序列长度LA的90%或者大于B的序列长度LA的90%,该两两比对记录将被保留,否则该记录将被过滤掉(忽略)。按照上述重叠长度过滤原则过滤掉分析所有T序列相关的两两比对记录,获得T序列的过滤后记录,另外其中一条测序序列的长度小于5000,该记录将被过滤。
1-2优选200候选两两比对记录进入候选校正步骤:在重叠度过滤后,将T序列过滤后所有记录按照全局投票打分进行降序排序,取最高200个全局投票得分记录进入候选多重序列比对和T序列校正过程,即图1中输入序列(Inputs)和模板序列(Template)。
测序序列的压缩内存存储:通常一条测序序列与多条测序序列有重叠关系,需要从测序序列库中调出多条相关的序列。如果将所有测序序列存在磁盘中,读取大量零散相关的测序序列过程将导致CPU长期处于等待I/O状态而使CPU利用率低下。为了加速测序序列的读取速度和提高CPU利用率,所有测序序列进行压缩编码(2个bit编码一个核酸)加载到内存,并对每条LR存储位置索引,方便读取。按照上述方案,约160G的三代测序测序序列大概占用40G的内存,即测序碱基1/4的内存。
每卷测序序列的校正:每个含200000测序序列的分卷取出一条目标校正测序序列序列和它的所有两两关系记录,根据过滤规则1-2获取最多200条候选记录,根据两两比对记录,从内存中取出相关的所有测序序列,按照如下方法做多重序列比对和目标序列校正:
过滤后两两比对结果的多重序列比对
根据过滤后每条两两比对的核心位置对信息,从核心位置从右到左取出模板序列和输入序列的左边部分的两条序列进行局部两两比对:a.针对于PacBio数据,由于其主要错误是删除和插入,采用diff进行局部序列分析;b.针对Nanopore数据,由于主要错误是错配,采用smith-waterman方法进行局部序列比对。详细比对过程如图1。
2-1分段完成两两局部序列比对:对取出两条左边序列进行按照500bp动态分段进行比对,先取出第一段500bp的两个序列,进行局部两两比对,比对完后从尾部向头回溯,寻找到有连续5个碱基匹配的的位置,为了保证500bp左边的序列起始正确性,从这个连续5bp匹配位置开始,再取500bp两个完成下一个段局部序列比对,重复上述过程,完成左边两条序列的局部比对过程。类似左边两条序列局部比对过程,从核心位置从左到右取出模板序列和输入序列的右边部分的两条序列进行局部两两比对,其分段比对过程与左右相似。
2-2局部比对的终止条件:1)完成两条序列局部比对;2)在每个500bp的分段序列中,错配,插入和删除碱基数小于500*0.2=100,如果遇到一段500bp中错误大于100bp,终止模板和输入序列的局部序列比对,过滤掉该两两比对记录。将所有200条模板序列相关的两两比对记录用2-1和2-2完成他们的两两局部比对过程,产生模板序列的多重序列比对结果(图1的第2步)。
基于多重序列比对的一致性校正操作统计分析
统计模板序列每个位置匹配(mat)、删除(del)、插入(ins)、替代(mismat)等四类校正操作的个数,获取模板序列每个位置一致性校正操作统计表:对于PacBio数据,由于diff比对中没有碱基替代比对,所以统计表中碱基校正操作只有三个类型:匹配、删除和插入(图1的第3步)。由于覆盖度小于6的位置,该位点保持原有模板序列比校正更可靠,所以当模板每个位置中mat+del<6时,该位点的mat值和del值设为0,当模板每个位置ins<6,ins值设为0,因为覆盖度小于6,该位点将不被校正。
基于校正操作统计表对校正操作分类
根据多重序列比对的一致性校正操作统计表,对每个模板碱基位进行分类,其分成三类:1)如果该碱基位为坚定匹配位点(firmly matched point,fmp);2)如果该碱基位为坚定的删除位点(firmly deleted point,fdp);3)否则,该碱基为为不确定位点(underdetermined point,up)。模板序列每个碱基按照这三类进行分类(图1第4步)。
高度一致区域的碱基位校正和复杂区域局部图碱基序列校正
如果该碱基为属于fmp碱基位,将保持该碱基序列不变,其中85%以上属于这样碱基校正位,对于剩下的碱基位,从该碱基为向左和向右寻找fmp碱基为,找到左边最近的fmp碱基位和右边最近fmp的碱基位,将两个碱基位之间的所有多重比对序列取出,建立局部图采用DAGCon方法进行这部分复杂区域的校正:每个碱基是一个节点,每个边记录多重序列比对中走这个节点的次数,通过做经过次数做多的边,获取最终复杂区域的校正。
模板序列校正分割和去融合处理
为了保证校正后序列正确率大于97%,当模板序列没有6X的覆盖度时,输出校正后序列时将剪切该段序列,当剪切序列在中间时,将造成一条测序序列多段校正输出的现象。由于PacBio测序序列存在1%的融合现象(不相关两短序列测序成一条测序序列),在校正模板序列时,当校正某个位置,其输入序列没有超过1000bp的序列经过该位点左边和右边,该位置认为是融合位置,融合位置将被剪断。
重复上述过程,完成该分卷测序序列所有序列校正,其中很多覆盖多小于6X的测序序列,将被丢弃,不能完成其序列的校正。每卷校序列校正完毕后输出一个校正该卷序列文件。
并行运算和校正序列合并:采用共享内存方式完成每卷测序序列校正,所有测序序列的压缩内存将被共享,每10条序列分一个线程进行校正,动态分配线程完成每卷序列的校正。逐一完成所有分卷序列的校正,将校正后每卷序列,合并成一个文件,完成三代测序大数据的校正过程。
上述局部图的三代策略序列校正方法实现了计算资源消耗降低和准确度增加,具体的测量实例数据参加如下表1和表2。
数据中MECAT方法即为上述具体实施方式部分的实施例1的方法。
表1:计算资源消耗
上述测试在相同计算节点(2.0GHz CPU和512GB内存)进行。数据大小指校正之后数据量,数据量越大效率越高。相对于其他方法,本发明的方法MECAT数据校正利用率最高(最高可达3倍以上),处理效率最高(最高可达21倍以上)。
表2:校正序列准确度
随机挑选了每个数据集100M原始数据进行校正,对校正前后的数据准确度进行比较(序列通过dnadiff软件比对到参考基因组以评估准确度)。可以看出本发明的方法MECAT准确度可达99%以上,比原始数据准确度要高并且优于同类其他软件。

Claims (10)

1.一种基于局部图的三代测序序列校正系统,其特征在于该系统包括两两比对模块、多重序列比对模块、校正操作比对模块、校正操作分类模块、一致区域的碱基位校正和复杂区域局部图碱基序列校正模块及模板序列校正分割和去融合处理模块,两两比对模块分别与单分子实时测序数据库和纳米孔测序数据连接,单分子实时测序数据库和纳米孔测序数据库分别输入到两两比对模块。
2.根据权利要求1所述的系统,其特征在于所述两两比对模块、多重序列比对模块、校正操作比对模块、校正操作分类模块、一致区域的碱基位校正和复杂区域局部图碱基序列校正模块及模板序列校正分割和去融合处理模块按顺序依次连接,前一模块数据依次输入后一连接模块中进行处理。
3.根据权利要求1或2所述的系统,其特征在于所述两两比对模块中嵌合两两比对结果优选规则信息和过滤规则信息,优选的,两两比对模块数据中包括两条测序序列的核心种子位置对信息。
4.根据权利要求3所述的系统,其特征在于所述核心种子位置对信息的格式为九列格式信息,九列格式信息为:
第一列是测序序列A编号,
第二列是测序序列B编号,
第三列是A序列的正负链信息,正为0,负为1,
第四列是B序列的正负链信息,
第五列是核心位置对在A序列上的位置PA
第六列是核心位置对在B序列上的位置PB
第七列是核心位置对的全局投票得分,
第八列是A序列的长度LA
第九列是B序列的长度LB
5.根据权利要求1或2所述的系统,其特征在于多重序列比对模块运行方法为:根据过滤后每条两两比对的核心位置对信息,从核心位置从右到左取出模板序列和输入序列的左边部分的两条序列进行局部两两比对,校正操作分类模块执行基于校正操作统计表对校正操作分类规则,一致区域的碱基位校正和复杂区域局部图碱基序列校正模块中嵌合如下规则:
碱基为属于fmp碱基位,将保持该碱基序列不变,其中85%以上属于这样碱基校正位,对于剩下的碱基位,从该碱基为向左和向右寻找fmp碱基为,找到左边最近的fmp碱基位和右边最近fmp的碱基位,将两个碱基位之间的所有多重比对序列取出,建立局部图采用DAGCon方法进行这部分复杂区域的校正:每个碱基是一个节点,每个边记录多重序列比对中走这个节点的次数,通过做经过次数做多的边,获取最终复杂区域的校正;
模板序列校正分割和去融合处理模块嵌合如下规则:
保证校正后序列正确率大于97%,当模板序列没有6X的覆盖度时,输出校正后序列时将剪切该段序列,当剪切序列在中间时,将造成一条测序序列多段校正输出的现象,在校正模板序列时,当校正某个位置,其输入序列没有超过1000bp的序列经过该位点左边和右边,该位置认为是融合位置,融合位置被剪断。
6.一种基于局部图的三代测序粗劣校正方法,该方法包括如下步骤:
步骤1:两两比对结果优选和过滤,
步骤2:过滤后两两比对结果的多重序列比对,
步骤3:基于多重序列比对的一致性校正操作统计分析,
步骤4:基于校正操作统计表对校正操作分类,
步骤5:高度一致区域的碱基位校正和复杂区域局部图碱基序列校正,
步骤6:模板序列校正分割和去融合处理。
7.根据权利要求6所述的方法,其特征在于步骤1中,基于两两比对方法mecat2pw的输出结果,每条mecat2pw的输出结果记录了两条测序序列的核心种子位置对信息。
8.根据权利要求6所述的方法,其特征在于步骤2中,根据过滤后每条两两比对的核心位置对信息,从核心位置从右到左取出模板序列和输入序列的左边部分的两条序列进行局部两两比对。
9.根据权利要求6所述的方法,其特征在于步骤3中,基于多重序列比对的一致性校正操作统计分析的方法如下:
统计模板序列每个位置匹配、删除、插入、替代四类校正操作的个数,获取模板序列每个位置一致性校正操作统计表。
10.根据权利要求6所述的方法,其特征在于步骤4中,基于校正操作统计表对校正操作分类的方法如下:
根据多重序列比对的一致性校正操作统计表,对每个模板碱基位进行分类,其分成三类:1)如果该碱基位为坚定匹配位点;2)如果该碱基位为坚定的删除位点;3)否则,该碱基为为不确定位点,模板序列每个碱基按照这三类进行分类;
步骤5中,高度一致区域的碱基位校正和复杂区域局部图碱基序列校正方法如下:
碱基为属于fmp碱基位,将保持该碱基序列不变,其中85%以上属于这样碱基校正位,对于剩下的碱基位,从该碱基为向左和向右寻找fmp碱基为,找到左边最近的fmp碱基位和右边最近fmp的碱基位,将两个碱基位之间的所有多重比对序列取出,建立局部图采用DAGCon方法进行这部分复杂区域的校正:每个碱基是一个节点,每个边记录多重序列比对中走这个节点的次数,通过做经过次数做多的边,获取最终复杂区域的校正;
步骤6中,模板序列校正分割和去融合处理方法如下:
保证校正后序列正确率大于97%,当模板序列没有6X的覆盖度时,输出校正后序列时剪切该段序列。
CN201710411878.8A 2017-06-02 2017-06-02 一种基于局部图的三代测序序列校正方法 Pending CN107229842A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710411878.8A CN107229842A (zh) 2017-06-02 2017-06-02 一种基于局部图的三代测序序列校正方法
PCT/CN2017/098120 WO2018218787A1 (zh) 2017-06-02 2017-08-18 一种基于局部图的三代测序序列校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710411878.8A CN107229842A (zh) 2017-06-02 2017-06-02 一种基于局部图的三代测序序列校正方法

Publications (1)

Publication Number Publication Date
CN107229842A true CN107229842A (zh) 2017-10-03

Family

ID=59934694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710411878.8A Pending CN107229842A (zh) 2017-06-02 2017-06-02 一种基于局部图的三代测序序列校正方法

Country Status (2)

Country Link
CN (1) CN107229842A (zh)
WO (1) WO2018218787A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959851A (zh) * 2018-06-12 2018-12-07 哈尔滨工程大学 一种Illumina高通量测序数据误差校正方法
CN110246545A (zh) * 2019-06-06 2019-09-17 武汉未来组生物科技有限公司 一种序列的校正方法及其校正装置
CN112397148A (zh) * 2019-08-23 2021-02-23 武汉未来组生物科技有限公司 序列比对方法、序列校正方法及其装置
CN112967753A (zh) * 2021-02-25 2021-06-15 美格医学检验所(广州)有限公司 一种基于纳米孔测序的病原微生物检测系统和方法
CN113139593A (zh) * 2021-04-19 2021-07-20 湖南大学 一种基于对话分析的工控协议报文分类方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050153324A1 (en) * 2003-11-17 2005-07-14 Jacobson Joseph M. Nucleotide sequencing via repetitive single molecule hybridization
CN1921884A (zh) * 2003-12-24 2007-02-28 塞鲁斯公司 重组核酸分子,表达盒和细菌,及其使用方法
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
CN106778076A (zh) * 2016-11-15 2017-05-31 上海派森诺生物科技股份有限公司 一种高效的针对于放线菌基因组拼接的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002026934A2 (en) * 2000-09-28 2002-04-04 New York University System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
CN104951672B (zh) * 2015-06-19 2017-08-29 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统
CN105389481B (zh) * 2015-12-22 2018-06-29 武汉菲沙基因信息有限公司 一种三代全长转录组中可变剪切体的检测方法
CN106021997B (zh) * 2016-05-17 2019-03-29 杭州和壹基因科技有限公司 一种三代PacBio测序数据的比对方法
CN106022002B (zh) * 2016-05-17 2019-03-29 杭州和壹基因科技有限公司 一种基于三代PacBio测序数据的补洞方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050153324A1 (en) * 2003-11-17 2005-07-14 Jacobson Joseph M. Nucleotide sequencing via repetitive single molecule hybridization
CN1921884A (zh) * 2003-12-24 2007-02-28 塞鲁斯公司 重组核酸分子,表达盒和细菌,及其使用方法
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
CN106778076A (zh) * 2016-11-15 2017-05-31 上海派森诺生物科技股份有限公司 一种高效的针对于放线菌基因组拼接的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUAN-LE XIAO 等: "MECAT-an ultra-fast mapping, error correction and de novo assembly tool for single-molecule sequencing reads", 《BIORXIV》 *
PRASHANT MALI 等: "The dnaSET: A Novel Device for Single-Molecule DNA Sequencing", 《IEEE TRANSACTIONS ON ELECTRON DEVICES》 *
柳延虎 等: "单分子实时测序技术的原理与应用", 《遗传》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959851A (zh) * 2018-06-12 2018-12-07 哈尔滨工程大学 一种Illumina高通量测序数据误差校正方法
CN108959851B (zh) * 2018-06-12 2022-03-18 哈尔滨工程大学 一种Illumina高通量测序数据误差校正方法
CN110246545A (zh) * 2019-06-06 2019-09-17 武汉未来组生物科技有限公司 一种序列的校正方法及其校正装置
CN110246545B (zh) * 2019-06-06 2021-04-13 武汉希望组生物科技有限公司 一种序列的校正方法及其校正装置
CN112397148A (zh) * 2019-08-23 2021-02-23 武汉未来组生物科技有限公司 序列比对方法、序列校正方法及其装置
CN112397148B (zh) * 2019-08-23 2023-10-03 武汉希望组生物科技有限公司 序列比对方法、序列校正方法及其装置
CN112967753A (zh) * 2021-02-25 2021-06-15 美格医学检验所(广州)有限公司 一种基于纳米孔测序的病原微生物检测系统和方法
CN113139593A (zh) * 2021-04-19 2021-07-20 湖南大学 一种基于对话分析的工控协议报文分类方法和系统
CN113139593B (zh) * 2021-04-19 2022-06-21 湖南大学 一种基于对话分析的工控协议报文分类方法和系统

Also Published As

Publication number Publication date
WO2018218787A1 (zh) 2018-12-06

Similar Documents

Publication Publication Date Title
CN107229842A (zh) 一种基于局部图的三代测序序列校正方法
CN103218435B (zh) 一种中文文本数据聚类方法及系统
CN104762402B (zh) 超快速检测人类基因组单碱基突变和微插入缺失的方法
CN101464955B (zh) 模式识别单元生成方法及信息处理装置
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
TW200828053A (en) A method for grid-based data clustering
CN104034792B (zh) 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法
JP4893624B2 (ja) データのクラスタリング装置、クラスタリング方法及びクラスタリング用プログラム
CN109801680B (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
CN111738297A (zh) 特征选择方法、装置、设备及存储介质
CN113362889A (zh) 基因组结构变异注释方法
CN114420212A (zh) 一种大肠杆菌菌株鉴定方法和系统
CN115631789A (zh) 一种基于泛基因组的群体联合变异检测方法
CN114020593B (zh) 一种基于轨迹聚类的异质流程日志采样方法与系统
CN115881238A (zh) 模型训练方法、变压器故障诊断方法及相关装置
CN108776660A (zh) 一种基于ArcGIS的批量匹配道路属性的方法
CN102682279A (zh) 以分类三角形实现的高速指纹特征比对系统及其方法
CN115527610B (zh) 一种单细胞组学数据的聚类分析方法
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
CN111370055A (zh) 内含子保留预测模型建立方法及其预测方法
CN106404878A (zh) 基于多组学丰度信息的蛋白质二级质谱鉴定方法
Bezerra et al. Bioinformatics data analysis using an artificial immune network
CN107943982B (zh) 内置约束规则的k-means文本聚类方法及装置
EP3828712A1 (en) Data parsing method and device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190522

Address after: 510060 No. 54 Xianlie South Road, Yuexiu District, Guangzhou City, Guangdong Province

Applicant after: Zhongshan Ophthalmic Center, Sun Yat-Sen University

Address before: 510300 Guangzhou City, Guangdong Province, 160 Xingang West Road, Light Industry Technician College, 3 doors 401

Applicant before: Xiao Chuanle

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20171003

RJ01 Rejection of invention patent application after publication