CN101457253A - 一种测序序列纠错方法、系统及设备 - Google Patents

一种测序序列纠错方法、系统及设备 Download PDF

Info

Publication number
CN101457253A
CN101457253A CNA2008102183406A CN200810218340A CN101457253A CN 101457253 A CN101457253 A CN 101457253A CN A2008102183406 A CNA2008102183406 A CN A2008102183406A CN 200810218340 A CN200810218340 A CN 200810218340A CN 101457253 A CN101457253 A CN 101457253A
Authority
CN
China
Prior art keywords
sequence
high frequency
short string
sequencing sequence
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008102183406A
Other languages
English (en)
Other versions
CN101457253B (zh
Inventor
石仲斌
李瑞强
朱红梅
阮珏
李胜霆
王俊
杨焕明
汪建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN2008102183406A priority Critical patent/CN101457253B/zh
Publication of CN101457253A publication Critical patent/CN101457253A/zh
Priority to JP2011539874A priority patent/JP5344774B2/ja
Priority to PCT/CN2009/001426 priority patent/WO2010066114A1/zh
Priority to EP09831391.9A priority patent/EP2377948B1/en
Priority to US13/132,038 priority patent/US8751165B2/en
Application granted granted Critical
Publication of CN101457253B publication Critical patent/CN101457253B/zh
Priority to HK12101570.2A priority patent/HK1161313A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明适用于基因工程技术领域,提供了一种测序序列纠错方法、系统及设备,所述方法包括下述步骤:接收测序序列,根据预设的高频阀值构造高频短串表;遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。在本发明中,根据预设的高频阀值构造高频短串表,结合构建的高频短串表将各测序序列中非连续高频短串区域的序列恢复为连续高频短串区域的序列,提高后续对测序序列进行分析、处理的准确性。

Description

一种测序序列纠错方法、系统及设备
技术领域
本发明属于基因工程技术领域,尤其涉及一种测序序列纠错方法、系统及设备。
背景技术
基于现有的基因测序技术,碱基测错的可能性是存在的,碱基测错后对于后续的数据分析、短序列组装等都存在一定的影响,现有的纠错策略只是是简单的屏蔽掉低频的短串,删除含有一定比例低频短串的序列,实际上并没有进行有效的纠正,纠错效果很差。
综上所述,现有测序序列纠错方法的纠错效果很差。
发明内容
本发明实施例的目的在于提供一种测序序列纠错方法,旨在解决现有测序序列纠错方法的纠错效果很差的问题。
本发明实施例是这样实现的,一种测序序列纠错方法,所述方法包括下述步骤:
接收测序序列,根据预设的高频阀值构造高频短串表;
遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;
根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;
根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。
本发明实施例的另一目的在于提供一种测序序列纠错系统,所述系统包括:
高频短串统计单元,用于接收测序序列,根据预设的高频阀值构造高频短串表;
高频区域查找单元,用于遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;
序列构造单元,用于根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;以及
序列还原单元,用于根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。
本发明实施例的另一目的在于提供包含上述测序序列纠错系统的基因组装设备。
在本发明实施例中,根据预设的高频阀值构造高频短串表,结合构建的高频短串表将各测序序列中非连续高频短串区域的序列恢复为连续高频短串区域的序列,实现了一种测序序列纠错方法,提高后续对测序序列进行分析、处理的准确性,且所需内存小、耗时短。
附图说明
图1是本发明实施例提供的测序序列纠错方法的实现流程图;
图2是本发明实施例提供的左侧树的结构示意图;
图3是本发明实施例提供的测序序列纠错系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,根据预设的高频阀值构造高频短串表,结合构建的高频短串表将各测序序列中非连续高频短串区域的序列恢复为连续高频短串区域的序列。
图1示出了本发明实施例提供的测序序列纠错方法的实现流程,详述如下:
在步骤S101中,接收测序序列,根据预设的高频阀值构造高频短串(kmer)表;
在步骤S102中,遍历接收到的各测序序列,结合高频短串表在各测序序列上查找连续为高频短串最多的区域;
在步骤S103中,根据相应接收到的测序序列和高频短串表,在查找到的区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;
在步骤S104中,根据构造的左序列和/或右序列,以及查找到的区域还原相应测序序列。
在本发明实施例中,上述步骤S101具体为:
1.接收测序序列,将接收到的各测序序列逐个碱基切割成预设长度的短串;
2.将切割得到的且出现次数超过预设高频阀值的短串添加到高频短串表。
这里,接收到的各测序序列长度在处理程序逻辑上没有限制,但一般在200碱基长度(bp)以下,短串的预设长度n为17bp,预设的高频阀值为5次,认为出现5次以上的短串即为高频短串,将高频短串添加到高频短串表。当然,短串的预设长度n可以取从1到小于测序序列碱基长度内的任意整数,但是在n的取值大于17bp时内存和运算时间的开销会加大,在n的取值小于17bp时纠错效果不理想,所以n最好取17bp。高频阀值可以根据切割成的短串的频率分布来确定,频率分布在理论上应该存在两个峰值,第一个峰是由于测序错误造成的,第二个峰是由于基因组序列本身的生物特性造成的,所以一般取第一个峰值为高频阀值。
接着,查找各测序序列连续高频短串最多的区域,步骤S102具体为:
1.遍历接收到的各测序序列,结合高频短序表,在各测序序列上查找连续为高频短串的区域,即顺序遍历测序序列的短串,如果该短串出现在高频短串表中,则认为该短串为高频短串;否则,认为该短串不是高频短串,这样遍历完各测序序列即可得到各测序序列相应的连续为高频短串的区域;
2.在各测序序列中取查找到的最长的区域作为其连续为高频短串最多的区域,这里假设各测序序列中连续为高频短串最多的区域为[s1,s2],其中s1、s2为查找到的最长的连续为高频短串的区域的起始碱基、结束碱基距离相应测序序列首个碱基的数目。
如果一个测序序列为X1X2X3......X1n-1X1n,其中ln为该测序序列的碱基长度,Xi表示该序列的第i个碱基,该测序序列最长的连续为高频短串的区域为[26,46],则X26X27......X46为该测序序列中最长的高频序列。
然后,根据原测序序列和高频短串表,在[s1,s2]的左侧和右侧各构造一条全是高频短串的序列,上述步骤S103具体为:
步骤1.从相应测序序列的第s1个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为s1的左侧树,其构造的树如图2所示,这里,深度s1即为26;
步骤2.遍历左侧树,找到一条全是高频短串的路径,根据该路径从叶子节点向上构造全是高频短串的左序列。
这里,从根节点开始向下遍历树,根节点为长度为n-1的序列N1,其子节点L1依次为A、C、G、T四种碱基,考察短串kmer1=L1+N1是否是高频短串,即判断高频短串表中是否有该短串,如果否,则结束相应碱基对应的路径;如果是,则进一步判断L1的值是否与相应测序序列X1X2X3......X49X50中相应碱基Xs1-1的值相同,如果相同则1级节点分数score1=0,否则1级节点分数score1=1,并继续在kmer1左端取n-1长度的序列N2,按照上述方式考察短串kmer2=L2+N2,其子节点L2依次为A、C、G、T四种碱基。按照该规则向叶子节点迭代、判断,并在迭代结束后,找到一条总分数 score = Σ i = 1 s 1 - 1 score i 最小路径,其中scorei为相应路径中第i级节点的分数。找到的最小路径即为全是高频短串的路径,根据该路径从叶子节点向根节点遍历得到的序列即为需要构造的全是高频短序的左序列。当然,如果迭代结束后,得到多条总分数score都相等且都最小的路径,则随机取一条,然后从叶子节点向根节点遍历得到需要构造的全是高频短序的左序列。当然,也可以从下向上遍历树,来查找一条全是高频短串的路径。
步骤3.从相应测序序列的第s2个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为ln-(s2-1)的右侧树,其中ln为该测试序列的碱基长度,其构造方式与上述步骤1相同,不再赘述;
步骤4.遍历右侧树,找到一条全是高频短串的路径,根据该路径从根节点向下构造全是高频短串的右序列,其查找最小路径的方式与上述步骤2相应,不再赘述。
在得到相应测序序列左侧和右侧的全是高频短串的序列后,将得到的左序列添加到相应最长的高频序列Xs1Xs1+1......Xs2左边,并将得到的右序列添加到相应最长的高频序列Xs1Xs1+1......Xs2右边,即得到经过纠错处理后的相应测序序列。
当然,如果相应测序序列中连续为高频短串最多的区域为[1,s2]或[s1,ln],即该区域在相应测序序列的左侧或右侧,则只需要在[1,s2]的右侧构造一条全是高频短序的右序列,或者只需要在[s1,ln]的左侧构造一条全是高频短串的左序列。此时,在还原相应测序序列时,只需要将得到的左序列添加到相应最长的高频序列左边,或者将得到的有序列添加到相应最长的高频序列右边。
使用本发明上述实施例提供的方法对人类基因质量控制序列(Humancontrol BAC)和非洲人类基因组序列(Human genome)进行纠错处理,纠错前的数据对比如表1所示,纠错后的数据对比如表2所示:
 
基因序列 序列总数 无错序列所占比例(%) 无错序列深度         碱基长度为25的短串个数
HumanBAC   6418794 64.13 830 17255027
 
Humangenome 3594519008 67.84 29 7407311848
表1
 
基因序列 序列总数 无错序列所占比例(%)         无错序列深度 碱基长度为25的短串个数  
Human BAC 4955988 95.31 952 301824
Human genome 3298690572 91.87 37 3058863566
表2
由表1、表2可知,经纠错处理后,使无错序列所占比例提高30%左右,无错序列深度提高约10%。
下面是采用本发明实施例提供的测序序列纠错方法实现纠错处理时所需要的内存资源估计,在短串为17碱基长度时,占用内存16G。另外,由于每个线程在处理一个文件时需要将该文件中存储的所有序列读入内存,假设一条测序序列占用50字节,其序列名称占用50个字节,每个文件存储10M个测序序列,那么对一个文件中存储的测序序列进行纠错处理需要占用1G内存。并且,每个线程还有单独的动态规划表占用1G内存,那么一个线程占用2G内存,在默认开设4个线程时需要占用24G内存。
另外,统计短串频数、输出频数表的耗时跟文件容量的多少和输入/输出状况有关。处理一个文件约需100s,非洲人基因组序列总共有606个文件,第一步输出频数表需要耗时15h。
采用本发明实施例提供的测序序列纠错方法对测序序列进行纠错处理后,后续的短序列组装基因组所耗内存可以降低一半。并且,纠完错后低频的短串被高频的短串合并了(即低频短串被纠正为高频短串),后面的组装策略只需要将序列切割成更长的短串(例如25碱基长度)进行组装,这样就会降低内存的使用。
进一步地,为了提高纠错处理的速度,可采用多个线程将所有需纠错文件拆分处理。处理一个文件约需1000s,采用4个线程处理100个文件需要耗时1000s*100/4=25000s=7h。第二步采用6个线程将非洲人类基因组序列的606个文件拆分成6份处理时只需要耗时7h,纠错处理总共耗时22h。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等,该程序用来执行如下步骤:
1.接收测序序列,根据预设的高频阀值构造高频短串表;
2.遍历接收到的各测序序列,结合高频短串表在各测序序列上查找连续为高频短串最多的区域;
3.根据相应接收到的测序序列和高频短串表,在查找到的区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;
4.根据构造的左序列和/或右序列,以及查找到的区域还原相应测序序列。
图3示出了本发明实施例提供的测序序列纠错系统的结构,为了便于说明仅示出了与本发明实施例相关的部分。
该系统可以用于基因组装设备,可以是运行于这些设备内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些设备中或者运行于这些设备的应用系统中,其中:
高频短串统计单元301,接收测序序列,根据预设的高频阀值构造高频短串表,其实现方式如上所述,不再赘述。
高频区域查找单元302,遍历接收到的各测序序列,结合高频短串表在各测序序列上查找连续为高频短串最多的区域。
序列构造单元303,根据相应接收到的测序序列和高频短串表,在查找到的区域左侧和/或右侧构造全是高频短串的左序列和/或右序列。
序列还原单元304,根据构造的左序列和/或右序列,以及查找到的区域还原相应测序序列。
其中,高频短串统计单元301包括:
短串切割模块3011,接收测序序列,将接收到的各测序序列逐个碱基切割成预设长度的短串。
高频短串采集模块3012,将切割得到的且出现次数超过预设高频阀值的短串添加到高频短串表,其实现方式如上所述,不再赘述。
另外,序列构造单元303包括:
左侧树构造模块3031,从相应测序序列的第s1个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为s1的树,其s1、n的定义及该左侧树构造模块3031的实现方式如上所述,不再赘述。
左序列构造模块3032,遍历左侧树,找到一条全是高频短串的路径,根据该路径从叶子节点向上构造全是高频短串的左序列,其实现方式如上所述,不再赘述。
右侧树构造模块3033,从相应测序序列的第s2个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为ln-(s2-1)的右侧树,其s2、n、ln的定义及该左侧树构造模块3031的实现方式如上所述,不再赘述。
右序列构造模块3034,遍历右侧树,找到一条全是高频短串的路径,根据该路径从根节点向下构造全是高频短串的右序列,其实现方式如上所述,不再赘述。
在本发明实施例中,根据预设的高频阀值构造高频短串表,结合构建的高频短串表将各测序序列中非连续高频短串区域的序列恢复为连续高频短串区域的序列,实现了一种测序序列纠错方法,提高后续对测序序列进行分析、处理的准确性,且所需内存小、耗时短。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1、一种测序序列纠错方法,其特征在于,所述方法包括下述步骤:
接收测序序列,根据预设的高频阀值构造高频短串表;
遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;
根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;
根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。
2、如权利要求1所述的方法,其特征在于,所述接收测序序列,根据预设的高频阀值构造高频短串表的步骤具体为:
接收测序序列,将接收到的各测序序列逐个碱基切割成预设长度的短串;
将切割得到的且出现次数超过预设高频阀值的短串添加到所述高频短串表。
3、如权利要求2所述的方法,其特征在于,所述预设的高频阀值根据切割成的预设长度的短串的频率分布确定,所述预设长度为17个碱基长度。
4、如权利要求1所述的方法,其特征在于,所述根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列的步骤具体为:
从相应测序序列的第s1个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为s1的左侧树;
遍历所述左侧树,找到一条全是高频短串的路径,根据所述路径从叶子节点向上构造全是高频短串的左序列;
从相应测序序列的第s2个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为ln-(s2-1)的右侧树;
遍历所述右侧树,找到一条全是高频短串的路径,根据所述路径从根节点向下构造全是高频短串的右序列;
其中,s1、s2分别为查找到的所述连续为高频短串最多的区域的起始碱基、结束碱基距离相应测序序列首个碱基的数目,n为所述高频短串的碱基长度,ln为相应测序序列的碱基长度。
5、如权利要求1所述的方法,其特征在于,所述接收到的测序序列的长度小于等于200碱基长度。
6、一种测序序列纠错系统,其特征在于,所述系统包括:
高频短串统计单元,用于接收测序序列,根据预设的高频阀值构造高频短串表;
高频区域查找单元,用于遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;
序列构造单元,用于根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;以及
序列还原单元,用于根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。
7、如权利要求6所述的系统,其特征在于,所述高频短串统计单元包括:
短串切割模块,用于接收测序序列,将接收到的各测序序列逐个碱基切割成预设长度的短串;以及
高频短串采集模块,用于将切割得到的且出现次数超过预设高频阀值的短串添加到所述高频短串表。
8、如权利要求7所述的系统,其特征在于,所述预设的高频阀值根据所述短串切割模块切割成的预设长度的短串的频率分布确定,所述预设长度为17个碱基长度。
9、如权利要求6所述的系统,其特征在于,所述序列构造单元包括:
左侧树构造模块,用于从相应测序序列的第s1个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为s1的树;
左序列构造模块,用于遍历所述左侧树,找到一条全是高频短串的路径,根据所述路径从叶子节点向上构造全是高频短串的左序列;
右侧树构造模块,用于从相应测序序列的第s2个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为ln-(s2-1)的右侧树;以及
右序列构造模块,用于遍历所述右侧树,找到一条全是高频短串的路径,根据所述路径从根节点向下构造全是高频短串的右序列;
其中,s1、s2分别为查找到的所述连续为高频短串最多的区域的起始碱基、结束碱基距离相应测序序列首个碱基的数目,n为所述高频短串的碱基长度,ln为相应测序序列的碱基长度。
10、一种包含权利要求6至9任一项所述测序序列纠错系统的基因组装设备。
CN2008102183406A 2008-12-12 2008-12-12 一种测序序列纠错方法、系统及设备 Active CN101457253B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2008102183406A CN101457253B (zh) 2008-12-12 2008-12-12 一种测序序列纠错方法、系统及设备
JP2011539874A JP5344774B2 (ja) 2008-12-12 2009-12-11 テスト配列の誤り訂正方法、対応するシステム及び遺伝子のアセンブリ装置
PCT/CN2009/001426 WO2010066114A1 (zh) 2008-12-12 2009-12-11 一种测序序列纠错方法、系统及基因组装设备
EP09831391.9A EP2377948B1 (en) 2008-12-12 2009-12-11 Error correcting method of test sequence, corresponding system and gene assembly equipment
US13/132,038 US8751165B2 (en) 2008-12-12 2009-12-11 Error correcting method of test sequence, corresponding system and gene assembly equipment
HK12101570.2A HK1161313A1 (zh) 2008-12-12 2012-02-17 種測序序列糾錯方法、系統及基因組裝設備

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102183406A CN101457253B (zh) 2008-12-12 2008-12-12 一种测序序列纠错方法、系统及设备

Publications (2)

Publication Number Publication Date
CN101457253A true CN101457253A (zh) 2009-06-17
CN101457253B CN101457253B (zh) 2011-08-31

Family

ID=40768373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102183406A Active CN101457253B (zh) 2008-12-12 2008-12-12 一种测序序列纠错方法、系统及设备

Country Status (6)

Country Link
US (1) US8751165B2 (zh)
EP (1) EP2377948B1 (zh)
JP (1) JP5344774B2 (zh)
CN (1) CN101457253B (zh)
HK (1) HK1161313A1 (zh)
WO (1) WO2010066114A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971031A (zh) * 2014-05-04 2014-08-06 南京师范大学 一种面向大规模基因数据的读段定位方法
CN105063208A (zh) * 2015-08-10 2015-11-18 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法
CN105849555A (zh) * 2013-12-18 2016-08-10 加利福尼亚太平洋生物科学股份有限公司 用于错误校正的序列读数迭代聚类
CN107969138A (zh) * 2015-05-14 2018-04-27 生命科技公司 条形码序列和有关系统与方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6520362B2 (ja) * 2014-08-25 2019-05-29 富士通株式会社 生成方法、装置、及びプログラム
US20160335298A1 (en) * 2015-05-12 2016-11-17 Extreme Networks, Inc. Methods, systems, and non-transitory computer readable media for generating a tree structure with nodal comparison fields and cut values for rapid tree traversal and reduced numbers of full comparisons at leaf nodes
CN111385022B (zh) * 2018-12-29 2022-02-25 深圳市海思半导体有限公司 误码检测方法及相关设备
CN114937475A (zh) * 2022-04-12 2022-08-23 桂林电子科技大学 一种PacBio测序数据纠错结果的自动化评估方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2400890A1 (en) * 2000-02-22 2001-08-30 Pe Corporation (Ny) Method and system for the assembly of a whole genome using a shot-gun data set
CN1169967C (zh) * 2001-11-16 2004-10-06 北京华大基因研究中心 一种基于重复序列识别的全基因组测序数据的拼接方法
CN2684471Y (zh) * 2004-03-15 2005-03-09 北京格林威尔科技发展有限公司 内嵌误码测试功能的光端机

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105849555A (zh) * 2013-12-18 2016-08-10 加利福尼亚太平洋生物科学股份有限公司 用于错误校正的序列读数迭代聚类
CN105849555B (zh) * 2013-12-18 2019-05-14 加利福尼亚太平洋生物科学股份有限公司 用于错误校正的序列读数迭代聚类
CN103971031A (zh) * 2014-05-04 2014-08-06 南京师范大学 一种面向大规模基因数据的读段定位方法
CN103971031B (zh) * 2014-05-04 2017-05-17 南京师范大学 一种面向大规模基因数据的读段定位方法
CN107969138A (zh) * 2015-05-14 2018-04-27 生命科技公司 条形码序列和有关系统与方法
US10978174B2 (en) 2015-05-14 2021-04-13 Life Technologies Corporation Barcode sequences, and related systems and methods
CN107969138B (zh) * 2015-05-14 2022-04-12 生命科技公司 条形码序列和有关系统与方法
CN105063208A (zh) * 2015-08-10 2015-11-18 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法
CN105063208B (zh) * 2015-08-10 2018-03-06 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法

Also Published As

Publication number Publication date
EP2377948A4 (en) 2014-07-30
JP5344774B2 (ja) 2013-11-20
WO2010066114A1 (zh) 2010-06-17
EP2377948B1 (en) 2016-05-18
US8751165B2 (en) 2014-06-10
CN101457253B (zh) 2011-08-31
JP2012511752A (ja) 2012-05-24
EP2377948A1 (en) 2011-10-19
US20110295784A1 (en) 2011-12-01
HK1161313A1 (zh) 2012-08-24

Similar Documents

Publication Publication Date Title
CN101457253B (zh) 一种测序序列纠错方法、系统及设备
Mollison The rate of spatial propagation of simple epidemics
US20120117064A1 (en) Adaptive cell-specific dictionaries for frequency-partitioned multi-dimensional data
CN105677683A (zh) 批量数据查询方法和装置
CN105224987A (zh) 一种基于动态Lipschitz下界估计的变策略群体全局优化方法
US10877973B2 (en) Method for efficient one-to-one join
US20140280036A1 (en) Techniques for improving the performance of complex queries
US20150269202A1 (en) System and method for column-specific materialization scheduling
US20140121983A1 (en) System and method for aligning genome sequence
US20230315733A1 (en) Pre-checking method and pre-checking system based on the olap pre-calculation model
Wang et al. Solving the SAT problem using a DNA computing algorithm based on ligase chain reaction
CN105488692A (zh) 在线人数计算方法及装置
CN103544208B (zh) 海量特征串集合的匹配方法及系统
CN103116575A (zh) 基于层次短语模型的译文词序概率确定方法及装置
CN110532439B (zh) 基于树搜索的同顺序部门决策流程生成方法、系统、装置
Alkhalid et al. Comparison of greedy algorithms for α-decision tree construction
KR20180109379A (ko) 관계형 데이터베이스의 조인 방법
CN111221864A (zh) 一种基于mysql慢查询日志词频分析的索引智能推荐方法
Du Uncertain effects of nutrient availability on global forest carbon balance
Ahmad et al. Some restrictions on the existence of second order limit language
CN112530520A (zh) 一种基于评分机制与LightGBM的CircRNA功能预测方法
CN112905806B (zh) 基于强化学习的知识图谱实体化视图生成器及生成方法
CN113554234B (zh) 一种材料分条方法、计算机设备和存储介质
CN110096448B (zh) 一种兼顾深度以及广度的模糊测试搜索方法
Hou et al. Long read error correction algorithm based on the de bruijn graph for the third-generation sequencing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN

Effective date: 20130826

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518083 SHENZHEN, GUANGDONG PROVINCE TO: 518000 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130826

Address after: 518000 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201

Patentee after: BGI Technology Solutions Co., Ltd.

Address before: Beishan Industrial Zone Building in Yantian District of Shenzhen city of Guangdong Province in 518083

Patentee before: BGI-Shenzhen