CN107256335A - 一种基于全局种子打分优选的三代测序序列比对方法 - Google Patents
一种基于全局种子打分优选的三代测序序列比对方法 Download PDFInfo
- Publication number
- CN107256335A CN107256335A CN201710412287.2A CN201710412287A CN107256335A CN 107256335 A CN107256335 A CN 107256335A CN 201710412287 A CN201710412287 A CN 201710412287A CN 107256335 A CN107256335 A CN 107256335A
- Authority
- CN
- China
- Prior art keywords
- seed
- block
- module
- reference gene
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 178
- 238000000034 method Methods 0.000 title claims abstract description 152
- 108090000623 proteins and genes Proteins 0.000 claims description 139
- 230000008569 process Effects 0.000 claims description 21
- 230000008878 coupling Effects 0.000 claims description 19
- 238000010168 coupling process Methods 0.000 claims description 19
- 238000005859 coupling reaction Methods 0.000 claims description 19
- 238000002864 sequence alignment Methods 0.000 claims description 17
- 230000035945 sensitivity Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 15
- 241001632427 Radiola Species 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 238000002865 local sequence alignment Methods 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 5
- 238000013077 scoring method Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- AIMMVWOEOZMVMS-UHFFFAOYSA-N cyclopropanecarboxamide Chemical compound NC(=O)C1CC1 AIMMVWOEOZMVMS-UHFFFAOYSA-N 0.000 claims 1
- 238000000547 structure data Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 241001269238 Data Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 2
- 102100030569 Nuclear receptor corepressor 2 Human genes 0.000 description 2
- 101710153660 Nuclear receptor corepressor 2 Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 101150090724 3 gene Proteins 0.000 description 1
- 241000193738 Bacillus anthracis Species 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 230000008836 DNA modification Effects 0.000 description 1
- 241001599018 Melanogaster Species 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于全局种子打分优选的三代测序序列比对方法,该方法通过基于全局种子打分优选的三代测序序列比对系统实现,系统包含模块1、模块2、模块3、模块4和模块5。本发明的系统及其系统中的规则和应用方法,实现了本发明的方法大幅降低目前三代测序需要的计算时间和资源,具有良好商业价值。
Description
技术领域
本发明属于基因测序领域,具体的,本发明涉及三代测序(PacBio SMRT和 Oxfordnanopore测序)序列比对方法,特别是涉及一种基于全局种子打分优选候选比对区域的三代测序序列比对方法。
背景技术
目前三代测序技术主要包含PacBio公司的单分子实时测序(single molecule,real-time,SMRT)测序技术和Oxford Nanopore公式的纳米孔(Nanopore)测序技术。与二代测序技术相比,三代测序数据具有读长(或测序序列)很长(longread,平均10-15kb左右)和测序序列无GC偏好性等特点,这些数据特征可以有力弥补了一代和二代测序技术很多缺陷,从而使其具有广泛应用市场:在基因组测序方面,研究者利用三代测序的测序序列完成了大基因组组装、基因组复杂区深度解析、人类基因组150个gap区域和结构变异的解析;在转录组测序方面,研究者利用测序序列已包含完整cDNA信息深入分析全转录组可变剪接和亚型;在 DNA修饰测序方面,研究者利用模板修饰碱基降低聚合酶合成速率来有效检测DNA未知的修饰(例如DNA甲基化)。目前,三代测序技术将成为二代测序技术的有力补充或替代,近两年来广泛应用于基因组组装、长片段indel检测和矫正、以及甲基化修饰的检测等研究中。
三代测序数据高测序错误率给三代测序数据处理带来了巨大的挑战。三代测序的测序数据具有测序序列高读长(14kbp)和错误率高(错误率高达15%,其主要是10%插入或4%缺失,有较少的1%替代)等特点,而二代测序测序数据具有短读长(50-200bp)和错误率低(错误率约1%,主要是替代产生)等特点。由于三代测序和二代测序的数据特征有显著不同,因此二代测序计算方法显然不实用于三代测序数据分析。目前PacBio公司针对三代测序数据特征不断开发SMART Analysis数据分析平台,然而该系统参考基因组比对(BLASR)和基因组组装流程两两比对计算十分耗资源:40X人类基因组三代测序数据,该系统软件BLASR完成参考基因组序列比对需要200G内存和几万核小时;完成人类基因组组装,需要几万个核运行三个月以上才能完成,也就是说,天河二号完成这样组装计算量也很有挑战,其中两两比对在拼装流程中占了总时间的98%以上。参考基因组比对和两两比对过程需要大量计算量,约束了三代测序广泛应用和发展。
因此,创建一种高效三代测序的两两比对方法和参考基因组比对方法(序列比对方法)具有很高实际应用价值。基于全局种子打分优选参考基因组比对方法的速度是目前三代测序参考基因组比对软件BLASR和BWA-mem的5-100倍;在 54X人基因组上,基于全局种子打分(优选两两比对方法)的速度是目前三代测序两两比对软件MHAP和Daligner的20-100倍。本发明的系统和方法可以大幅降低目前三代测序需要的计算时间和资源,具有良好商业价值。
发明内容
为解决上述技术问题,本发明提供了基于全局种子打分优选的三代测序序列比对系统,该系统包含模块1、模块2、模块3、模块4和模块5,模块1嵌合快速查找显著候选重叠区域的block数据结构模型,模块2嵌合参考基因组block 数据结构的映射规则,模块3嵌合参考基因组索引和测序序列(read)种子序列抽样规则,模块4嵌合匹配块(block)种子匹配数与灵敏度数学模型,模块5 嵌合基于块数据结构的全局种子打分模型,其中模块5包含模块5.1、模块5.2 和模块5.3,模块5.1嵌合两个种子对之间的两个序列的距离差异因子,模块5.2 嵌合两两种子投票打分获取核心匹配种子位置对规则,模块5.3嵌合延伸投票打分获取核心位置对的全局种子投票得分规则。
优选的,上述系统还包含模块6,模块6嵌合基于全局种子打分的优选和使用规则。
上述系统中,模块1嵌合快速查找显著候选重叠区域的block数据结构模型,所述快速查找显著候选重叠区域的block数据结构模型为:设Z为block数据结构的块比例,即块大小,对于参考基因组每Z个碱基建立一个块(block)数据结构,并顺序编号,用于比对过程中快速将种子序列定位到候选比对区域。每个块数据结构中包含种子计数器、p个种子位置对组成:种子位置对记录某一种子在测序序列的位置和该种子在参考基因组的匹配位置;种子计数器用来记录候选块结构比对的种子个数,同时表示块结构热点区域的得分。通常情况,某个特定块结构种子数得分越高,表示测序序列落在此块区间可能性越大(参见附图1)。
上述系统中,模块2嵌合参考基因组block数据结构的映射规则,参考基因组block数据结构的映射规则为:
通过测序序列(read)每个种子(k-mer)编码查询参考基因组索引获得每个种子基因组的精确位置,并用每个种子的精确位置按照公式1的规则映射到上述块结构:
其中Z表示块结构碱基区域大小,CR表示块结构的序号,CL为种子在参考基因组的在块结构的相对准确位置,SLi表示参考基因组候选位置。
其中,当种子序列比对到第CR号块结构中时,该块结构的种子计数器个数加1,并建立查询表记录所有可能候选区域block结构的位置和该区域种子数。
上述系统中,模块3嵌合参考基因组索引和测序序列(read)种子序列抽样规则,参考基因组索引和测序序列(read)种子序列抽样规则为:
以参考基因组每个位点为起始,取k=13个碱基长度的片段作为种子序列 (k-mer),建立种子(k-mer)的4进制编码与其对应起始位置的哈希表(参见附图2)。
哈希表中记录每个种子(k-mer)的编码和该种子(k-mer)在参考基因组上所有位置,即参考基因组索引,通过种子序列可以查找基因组中相同序列片段的所有位置;测序序列(read),每隔特定步长(ST)取k个碱基长度的种子序列,并顺序标号记录,用来寻找序列和参考序列中完全匹配的种子信息(参见附图3)。
上述系统中,模块4嵌合匹配块(block)种子匹配数与灵敏度数学模型,匹配块(block)种子匹配数与灵敏度数学模型包括参考基因组块种子匹配数与灵敏度数学模型和两两比对中块种子匹配数与灵敏度数学模型。
其中,参考基因组块种子匹配数与灵敏度数学模型如下:
假设所有种子(k-mer)比对是独立事件,种子(k-mer)的匹配概率初步符合二项式分布,在参考基因组比对过程中,种子(k-mer)匹配概率用如下公式 2计算:
Povl=(1-e)k (公式2)
公式2中,当e为0.15,块大小(Z)为1000,种子(k-mer)抽样步长(ST) 为20和k为13时,每个块的抽样数为两个匹配块平均种子(k-mer) 匹配个数为现将块匹配阈值设为6,由累计概率公式可知,两个匹配块小于6个种子(k-mer)匹配的概率为26.67%.,假设读长平均重叠长度14kbp (三个重叠块),则参考基因组比对灵敏度为99.99%。
其中,两两比对中块种子匹配数与灵敏度数学模型如下:
假设所有种子(k-mer)比对是独立事件,种子(k-mer)的匹配概率初步符合二项式分布,在两两比对过程中,种子(k-mer)匹配概率通过如下公式3计算:
公式3中,当e为0.15,块大小(Z)为2000,种子(k-mer)抽样步长(ST) 为5和k为13时,每个块的抽样数为两个匹配块平均种子(k-mer) 匹配个数为现将块匹配阈值设为5,由累计概率公式可知,两个匹配块小于5个种子(k-mer)匹配的概率为0.2,假设两个读长平均重叠长度>6000 (三个重叠块),则两两比对灵敏度为99.2%。
上述系统中,模块5嵌合基于块数据结构的全局种子打分模型,基于块数据结构的全局种子打分模型如下:
对参考基因组(reference)和三代测序序列(read)分别建立种子(k-mer) (k=13)的哈希表(参见附图2),同时将基因组和序列分成大小为1000bp的数据块。如果基因组和测序序列的两个块共享的种子(k-mer)大于阈值(6)时,这两个块就称为一个显著匹配块。
上述系统中,所述模块5中的全局种子打分从显著匹配块开始,其过程包含如下模块5.1,模块5.2和模块5.3,其中模块5.1嵌合两个种子对之间的两个序列的距离差异因子,模块5.2嵌合两两种子投票打分获取核心匹配种子位置对规则,模块5.3嵌合延伸投票打分获取核心位置对的全局种子投票得分规则。
优选的,模块5.1嵌合两个种子对之间的两个序列的距离差异因子,两个种子对之间的两个序列的距离差异因子的计算方法如下:
为有效过滤假阳性的匹配块,引入序列差异因子(DFF):对位于(s1,t1) 位置对的种子(k-mer)匹配和位于(s2,t2)位置对的种子(k-mer)匹配,(s1和s2是参考基因组位置,t1和t2是三代测序序列(read)位置),两个种子位置对之间序列最短编辑距离是两个种子位置对之间序列长度之差,定义两个匹配种子对之间的长度之差序列差异因子用公式4计算:
若DFF≤e,则为两个种子位置对相互支持,位置对各加一分。
优选的,模块5.2嵌合两两种子投票打分获取核心匹配种子位置对(起始匹配种子位置对)规则,两两种子投票打分获取核心匹配种子位置对规则为:
在显著匹配块结构中,通过种子位置对的两两投票打分获取核心位置对:当两个种子位置对之间符合DDF<0.3时,两个种子位置对各自加一分,所有位置对获得块匹配内另外种子的两两投票打分,投票得分最高的位置对即为核心位置对,当一个多个位置对获得相同分数时,选择第一个位置对为核心位置对。
优选的,模块5.3嵌合延伸投票打分获取核心位置对的全局种子投票得分规则,延伸投票打分获取核心位置对的全局种子投票得分规则如下:
测序序列长度(平均长度14kbp)远远大于Z bp,因此测序序列的种子序列通常覆盖多个相邻的块结构区域,核心种子对相邻块数据结构将对核心种子对进行单向种子投票打分。
根据开始种子位置对(SLk,SNk)估算测序序列可以跨越左边和右边相邻的块结构的范围:测序序列在开始种子位置对左右和右边的长度分别是SNk和 LL-SNk,可以通过下列公式5和公式6计算测序序列覆盖左和右相邻块数据结构数据的范围(VL和VR):
在公式中,LL是测序序列的长度。测序序列覆盖相邻块结构的所有种子位置对将按照公式4对核心位置对进行种子对投票打分,从而获得核心位置对的全局投票打分(10D),而获得核心位置对的全局分数,即该候选区域全局得分。(参见附图4)。
当一个相邻块结构中的80%种子位置对符合DFF≤e,即支持开始种子位置对,该块结构种子数将被设置为0,并且该块结构编号将在块结构查阅表中删除,也就是,该块结构不再被考虑为候选块结构。
优选的,上述系统中还包含模块6,所述模块6嵌合基于全局种子打分的优选和使用规则,基于全局种子打分的优选和使用规则如下:
对所有显著匹配块候选区域进行全局种子投票打分获取每个显著匹配块的核心种子对和全局种子得分,根据每个候选区域的核心种子对和全局种子得分判定核心种子位置对进入后续局部序列比对分析,其中全局种子投票打分方法为基于全局种子打分优选的参考基因组比对方法或基于全局种子打分优选的两两比对方法,其中判定方法如下:
(1)应用基于全局种子打分优选的参考基因组比对方法获得的结果,当参考基因组选择最高10个核心种子位置对所在的区域有效候选区域,这些核心种子位置对可以进入后续局部序列比对分析;
(2)应用基于全局种子打分优选的两两比对方法获得结果,选择最高100 个核心种子位置对所在的区域有效候选区域,这些核心种子位置对可以进入后续局部序列比对分析。
本发明还提供了一种基于全局种子打分优选的三代测序序列比对方法,所述三代测序序列比对方法为基于全局种子打分优选的参考基因组比对方法和基于全局种子打分优选的两两比对方法中的一种或两种,所述基于全局种子打分优选的参考基因组比对方法和基于全局种子打分优选的两两比对方法执行模块1、模块2、模块3、模块4和模块5中的至少2个以上的模块。
优选的,所述方法还包括执行模块6。
优选的,本发明提供了一种基于全局种子打分优选的三代测序序列比对方法,所述方法为基于全局种子打分优选的参考基因组比对方法,所述参考基因组比对方法包括如下步骤:
步骤1.1:建立参考基因组索引
步骤1.2:构建参考基因组块数据结构
步骤1.3:分割测序序列序列成若干个种子序列
步骤1.4:将所有种子序列映射到Z倍参考基因组块数据结构中
步骤1.5:获取显著块匹配区域的核心种子位置对
步骤1.6:获取核心种子位置对的全局投票打分
步骤1.7:选择最高n个核心位置对进行局部两两序列比对
步骤1.8:二次精准参考基因组序列比对。
上述参考基因组比对方法中,优选的,步骤1.1所述的建立参考基因组索引方法为:
应用模块3,从参考基因组中每个碱基位置提取k(k-mer)长度种子序列,也就是,相邻的种子(k-mer)之间没有间隔。参考基因组所有的碱基将被建立种子(k-mer)索引。
上述参考基因组比对方法中,优选的,步骤1.2所述的构建参考基因组块数据结构方法为:
应用模块1,将参考基因组每Z个碱基区域建立一个块数据结构,每个块数据结构用于记录测序序列种子在该结构代表参考基因组区域的匹配情况。优选的,每个块数据结构由种子匹配计算器、40个种子匹配候选种子位置对组成。
上述参考基因组比对方法中,优选的,步骤1.3所述的分割测序序列序列成若干个种子序列方法为:
应用模块3,在测序序列中按照ST=20步长提取种子(k-mer)的种子序列,每个种子有k个碱基组装,并按照测序序列顺序进行编码(SN)。
上述参考基因组比对方法中,优选的,步骤1.4所述的将所有种子序列映射到Z倍参考基因组块数据结构中的方法为:
一个测序序列种子序列的所有参考基因组候选位置(SLi,i=1,2,...n)可以从步骤1.1的参考基因组索引中查找,应用模块2,将每个种子所有候选位置映射到参考基因组块数据结构中存储。并且用查阅表(look-up table)记录所有匹配种子块数据结构编号(CR),查阅表记录着种子匹配的块区域编号和对应块区域的种子匹配数,每个块区域在查阅表中唯一记录.
上述参考基因组比对方法中,优选的,步骤1.5所述的获取显著块匹配区域的核心种子位置对方法为:
当一个块数据结构的种子数大于7时,该块结构被认为显著块匹配结构,显著块匹配结构的局部比对的核心匹配位置对将通过该块结构中所有种子对两两投票打分确定,按照模块5.2进行两两投票打分获取该显著匹配块的核心种子位置对。
上述参考基因组比对方法中,优选的,步骤1.6所述的获取核心种子位置对的全局投票打分方法为:
应用模块5.3,将测序序列所覆盖的核心种子位置对相邻块结构中位置对取出,对核心位置对进行单向投票打分,获取核心位置对全局种子得分。并将相邻块结构的80%种子位置对支持核心种子位置对的块结构的种子数将被设置为0.
上述参考基因组比对方法中,优选的,步骤1.7所述的选择最高n个核心位置对进行局部两两序列比对方法为:
通过步骤1.5和步骤1.6,获得每个高于种子阈值的块数据结构的核心种子位置对和全局投票打分。之后,对所有核心位置对的全局投票得分进行降序排序,选择全局投票得分最高10个核心位置对通过diff方法完成局部两两序列比对,对用nanopore,采用smith-waterman方法进行局部两两比对.如果核心位置对序列比对结果符合两个条件:重叠长读>1000和错误匹配率<0.20,认为该测序序列已找到正确参考基因组匹配位置。按照全局比对得分顺序进行两两序列比对,当遇到符合上述条件的核心位置对时,终止该测序序列序列比对过程,将该结果作为测序序列的序列比对结果输出。
上述参考基因组比对方法中,优选的,步骤1.8所述的二次精准参考基因组序列比对方法为:
针对少数测序序列的块匹配种子量较少,而且布局均一,不能被上述步骤 1.4参数搜索到。如果上述过程ST步长分割和Z数据结构没有获得搜索结果输出,将执行步骤1.3的ST变成ST/2步长(10),之后的块大小为2Z(2000),其它参数不变,重复上述步骤3到步骤1.7进行更精确的序列比对过程。
优选的,本发明提供了一种基于全局种子打分优选的三代测序序列比对方法,所述方法为基于全局种子打分优选的两两比对方法,所述两两比对方法包括如下步骤:
步骤2.1:三代测序数据分块和测序序列链接成类似参考基因组
步骤2.2:建立参考基因组索引
步骤2.3:构建链接参考序列的块数据结构
步骤2.4:分割测序序列成若干个种子序列
步骤2.5:将所有种子序列映射到Z倍链接参考序列的块数据结构中
步骤2.6:获取显著块匹配区域的的核心种子位置对
步骤2.7:获取核心种子位置对的全局投票打分
步骤2.8:选择最高n个核心位置对的候选区域输出结果。
上述两两比对方法中,优选的,步骤2.1所述的三代测序数据分块和测序序列链接成类似参考基因组方法为:
将三代测序数据集分成2G大小数据块,链接2G数据块内的测序序列(read) 成2G的一条参考序列,两条测序序列链接出添加一个N字母,记录每个测序序列在2G参考序列上的起始位置,方便后续寻找两个测序序列重叠的起始位置。
上述两两比对方法中,优选的,步骤2.2所述的建立参考基因组索引方法为:
应用模块3,从链接后的2G参考序列中每个碱基位置提取k(k-mer)长度种子序列,也就是,相邻的种子(k-mer)之间没有间隔。参考基因组所有的碱基将被建立种子(k-mer)索引。
上述两两比对方法中,优选的,步骤2.3所述的构建链接参考序列的块数据结构方法为:
应用模块1,链接参考序列每Z(Z=2000)个碱基区域建立一个块数据结构,每个块数据结构用于记录测序序列种子在该结构代表建链接参考序列区域的匹配情况。每个块数据结构由种子匹配计算器、40个种子匹配候选种子位置对组成。
上述两两比对方法中,优选的,步骤2.4所述的分割测序序列序列成若干个种子序列方法为:
应用模块3,在测序序列中按照ST=10步长提取种子(k-mer)的种子序列,每个种子有k个碱基组装,并按照测序序列顺序进行编码(SN)。
上述两两比对方法中,优选的,步骤2.5所述的将所有种子序列映射到Z倍链接参考序列的块数据结构中的方法为:
一个测序序列种子序列的所有参考基因组候选位置(SLi,i=1,2,...,n)从步骤2.1的参考基因组索引中查找,应用模块2,将每个种子所有候选位置映射到链接参考序列块数据结构中存储。并且用种子映射查阅表(look-up table)记录所有测序种子映射到的块数据结构(block)编号(CR)。种子映射查阅表由两个数据构成:1)测序序列种子映射到的块数据结构(block)编号,每个块数据结构编号在查阅表中唯一记录;2)该种子映射的块数据结构的种子匹配数。
上述两两比对方法中,优选的,步骤2.6所述的获取显著块匹配区域的的核心种子位置对方法为:
当一个块数据结构的种子数大于7时,该块结构被认为显著块匹配结构,显著块匹配结构的局部比对的核心匹配位置对将通过该块结构中所有种子对两两投票打分确定,应用模块5.2进行两两投票打分获取该显著匹配块的核心种子位置对。
上述两两比对方法中,优选的,步骤2.7所述的获取核心种子位置对的全局投票打分方法为:
应用模块5.3,将测序序列所覆盖的核心种子位置对相邻块结构中种子位置对取出,通过2G链接参考序列上每个测序序列的起始位置和显著块匹配的编号可以定位核心种子对来源2G中的测序序列的编号,根据两个测序序列重叠情况,获取相邻块匹配的范围,对重叠区域的核心位置对进行单向投票打分,获取核心位置对全局种子得分。并将相邻块结构的80%种子位置对支持核心种子位置对的块结构的种子数将被设置为0.
上述两两比对方法中,优选的,步骤2.8所述的选择最高n个核心位置对的候选区域输出结果的方法为:
通过步骤2.5和步骤2.6,获得每个高于种子阈值的块数据结构的核心种子位置对和全局投票打分。然后,对所有核心位置对的全局投票得分进行降序排序,选择全局投票得分最高100个核心位置对,将每个核心位置对信息通过测序序列在2G链接参考序列起始位置转化成两条测序序列的绝对位置信息,最后输出两个重叠测序序列的编号、核心位置对的绝对位置信息和全局投票得分。
上述方法中,其中种子(种子序列,seed sequence)是测序序列中的k长度的子序列,种子序列与参考基因组匹配需要长度相同且无空位的完全匹配序列,以种子作为参考,寻找测序序列与参考基因组序列的匹配时分值超过一定阈值的相似性片段。
其中块(block)数据结构(也称块结构)是指对于参考基因组每Z个碱基建立一个块(block)数据结构,并顺序编号,用于比对过程中快速将种子序列定位到候选比对区域。每个块数据结构中包含种子计数器、p个种子位置对组成 (参见附图1)。
其中匹配块(matched block)是测序序列种子映射到参考基因组块数据结构后,当一个块数据结构的种子计数器的数值大于阈值(7)时,则该块数据结构为测序序列的匹配块,也称是显著匹配块。
有益效果:
本发明的基于全局种子打分的候选比对区域优选方法中,每个候选比对区域的全局种子得分代表候选区域的重叠长度,通过全局打分可以有效优选重叠区域较长的候选区域,从而大幅降低进入两两局部比对的候选区域量;在全局种子打分模型基础上,设计了三代测序两两比对方法和参考基因组比对方法,这两种方法大大加速了三代测序序列比对过程和计算资源消耗量。
本发明的系统及其系统中的规则,实现了本发明的方法大幅降低目前三代测序需要的计算时间和资源,具有良好商业价值。
附图简要说明
图1:模块1中的block数据结构模型示意图
图2:模块2中的参考序列索引示意图
图3:模块2中的种子序列抽样规则示意图
图4:模块5中的全局种子投票打分模型示意图
具体实施方式
实施例1:基于全局种子打分优选的参考基因组比对方法
通过下而具体实施例来解释基于全局种子打分优选的参考基因组比对方法的相关步骤操作。
步骤1:建立参考基因组索引:
步骤1.1:以参考序列每个位点为起始,取13(种子(k-mer),k=13)个碱基长度的片段作为候选的种子序列,建立种子(k-mer)索引,参考基因组是由ATCG四个字母组成的一长串序列,实际长度可达10^9bp以上,为了方便统计采用编码的原理是用数字0替换字符A,数字1替换字符T,数字2为C和3 为G。于是参考基因组转换成了由数字0,1,2构成一长串排列。于是ATCG字符组成的序列可以看成是4进制数据,依次从右到左各个字母编号(1,2,3...i),通过如下公式计算得到:
公式中i对应于序列中碱基的位置,NCi为相应位置字母对应的数字,将其转化为十进制数据,编码就反应seed序列的特征,如:CTTAACCGGAAAGG对应十进制
2*4^13+1*4^12+1*4^11+0*4^10++0*4^9+2*4^8+2*4^7+3*4^6+3*4^5+0*4^4+0*4^3+0*4^2+3*4^1+3*4^0=4624294.
步骤1.2:建立一个4^13大小整数数组用来记录参考基因组包含该种子 (k-mer)数字编码个数SC[3^i]。SC[]数组的下标代表着种子(k-mer)的数字编码。SC每个元素的值代表着参考基因组中包含该元素下标数字编码序列的个数。数组中每个元素的初始值为0。
步骤1.3:逐步扫描参考基因组序列每个位置获得的种子(k-mer),将其字符按步骤1.1要求转换成十进制编码,记录在步骤1.2中对应数组下标的值中,每记录一次则累加1。统计数组SC中的最大值,记为SC_MAX。
步骤1.4:建立一个指针数组*SI[4^i]指向AL地址,建立一个存储种子(k-mer) 位置信息的数组AL[sum sc],其中SI[i]=AL+SC[i],sum sc=∑SC[n],再次扫描参考基因组,那么SI[i][SC[i]]=Location,其中Location代表所有候选位置信息,这是由于指针数组引用了AL中元素地址,Location最终存储在AL数组中,通过查找种子(k-mer)编码对应SI的下标就能在AL中找到参考基因组中seed候选位置信息和个数。记录了参考基因组中所有种子(k-mer)编码,出现次数及对应位置信息(如下表)。
SC | Ref.index position |
0 | 12,1001,10003,... |
1 | 101,145,1193,... |
2 | 144,1098,10129,... |
3 | 132,13799,144353,... |
步骤2:构建Z倍参考基因组块数据结构:
根据参考基因组长度L,分配一个L/1000+1的结构体数组,每个结构体包含种子匹配数和40个种子匹配位置对。并把每个块结构的种子计数设置为0,并分配一个L/1000+1的查阅表二维数组,里面记录后续测序种子匹配的块结构编号和该块种子匹配量。
步骤3:分割测序序列成若干个种子序列,种子序列提取规则为:
在测序序列中每隔20个碱基提取13个碱基长度的片段作为种子序列,并按照测序序列顺序进行编码。
步骤4:将所有种子序列比对到Z倍参考基因组块数据结构中
从步骤1的参考基因组索引中查到一个测序序列种子序列的所有参考基因组候选位置:(SLi,i=1,2,...n)。按照步骤3将每个种子所有候选位置映射到参考基因组块数据结构中存储。当一个测序序列的种子比对到CR块数据结构的区域时,该块结构种子计数器将加1,并且该结构的种子匹配位置对将记录该种子在测序序列的位置和在CR块区域的相对位置。每个测序序列种子的参考基因组候选位置(SL)按照上述规则和公式映射到参考基因组块数据结构中,并且用查阅表(look-up table)记录所有匹配种子块数据结构编号(CR)。
步骤5:从块数据结构中选择局部序列比对的开始种子位置对(核心种子位置对):
块数据结构查阅表将按照每个块结构的种子匹配数降序排序。当一个块数据结构的种子数大于一定阈值,该块结构被认为候选块结构。计算候选块结构中所有种子位置对之间的测序序列和参考基因组序列的长度之差(Dij)。根据公式计算两个种子位置对序列差异因子(DFij),当序列差异因DFij<0.2,子,块数据结构中的i和j号种子位置对互相投票支持,其投票得分各加一分。候选块数据结构所有种子位置对都进行上述两两投票打分后,投票得分最高种子对为局部比对开始种子对(核心种子位置对)。
步骤6:获取开始种子位置对的全局投票打分
根据开始种子位置对(SLk,SNk),根据公式5和公式6估算测序序列可以跨越左边和右边相邻的块数据结构的数目VL和VR。测序序列覆盖相邻块数据结构的所有种子位置对将按照DF公式对开始种子位置对进行投票,从而获得开始位置对的全局投票打分。当一个相邻块结构的80%种子位置对符合DFij<0.2,即支持开始种子位置对,该块结构种子数将被设置为0,不再被考虑为候选块结构。
步骤7:根据全局得分,选择最高10个开始位置对进行局部两两序列比对
对上述步骤5和步骤6获得每个高于种子阈值的块数据结构的开始种子位置对的全局投票打分进行降序排序。选择全局投票得分最高20个开始位置对通过修改后的diff算法完成局部两两序列比对。开始位置对序列比对结果符合两个条件:当遇到符合重叠长读>1000和错误匹配率<0.20的开始位置对时,终止该测序序列序列比对过程,将该结果作为测序序列的序列比对结果输出。
步骤8:清理测序序列计算过程留下痕迹
将测序序列种子匹配的所有块结构的种子计数器重新设置为0,,并且查阅表(look-up table)记录清空。读取下一条测序序列重复步骤3到步骤8。直到所有测序数据完成参考基因组比对。
步骤9:二次精准搜索序列比对分析
提取没有匹配测序序列数据,通过二次搜索完成没有匹配数据搜索,将上述过程将ST变成10步长,之后块结构大小改为2000,其它参数不变,重复上述 3-8步进行没有匹配序列的更精确的序列比对过程。
步骤10:程序并行化
将上述步骤2至步骤8通过基于共享内存变量空间pthread多线程包建立并行化程序,其中步骤1的参考基因组索引将放在多核共享内存。
实施例2:基于全局种子打分优选的两两比对方法
基于全局种子打分优选的两两比对方法基本上与实施例1的参考基因组实施过程类似,其不同之处如下:
第1步:数据分块和2G链接序列获取:扫描整个三代测序数据文件,按照 2G文件大小分割三代测序数据,两个测序序列之间用N链接,并记录每个测序序列在2G链接参考序列上的起始位置和终止,并输出2G文件每个测序序列文件位置索引,方便后续计算链接参考序列上位置转化为每个测序序列的绝对位置。
第2步:与实施例1的步骤1相同。
第3步:与实施例1的步骤2类似,只是将块结构大小Z改为2000.
第4步:与实施例1的步骤3类似,只是将取种子(k-mer)步长ST改为 10.
第5步:与实施例1的步骤4相同。
第6步:与实施例1的步骤5类似,只是两个种子位置对支持条件改为DFij<0.3。通过2G文件每个测序序列位置索引上每个测序链接序列的起始和终止位置,将核心位置对上参考基因组上的位置转化为该位置所在的测序序列(read)的编号和测序序列上绝对位置。
第7步:与实施例1的步骤6类似,需要修改两个种子位置对支持条件改为 DFii<0.3。两个测序序列重叠区域范围获取方式:根据显著匹配对的块编号和链接参考序列的测序序列起始位置,可以获取该匹配块定位测序序列编号和起始位置 (S1,E1),通过核心位置对的位置信息(参考基因组位置P1,待比对测序序列位置为P2),待比对测序序列长度为L,可以得出,链接参考序列上匹配序列核心位置对左边长度Ll=P1-S1和右边长度Lr=E1-P1,待比对序列左边长度为P+,布边长度为L-P+,取两个左边长度较短者为左边重叠区域的长度,取右边长度较短者为右边长度,两个长度范围即延伸块结构的范围。
第8步:两两比对全局打分的输出:两两比对中只需获取2G中最高100全局种子得分的核心种子位置信息,不需要做局部序列比对,将最高100个核心种子位置信息转化为将转化成两条测序序列的绝对位置信息,最后输出两个重叠测序序列的编号、核心位置对的绝对位置信息和全局投票得分。
第9步与实施例1的步骤8类似,只是读取下一条测序序列后,执行第4步到第9步。
第10步程序并行化:将上述第4步到第9步通过基于共享内存变量空间 pthread多线程包建立并行化程序,其中第2步的参考基因组索引将放在多核共享内存。
第11步每个数据块的两两比对:数据块1要与数据块1-n进行两两比对,数据块2要与数据块2-n进行两联比对,依次类推完成所有序列两两比对,为了匹配相同两个序列进行两个两两比对,比对过程中,待比对测序序列标号要大于显著匹配块的测序序列的编号才进行后续全局种子投票分析。
通过实施例1和实施例2的方法,下载五个真实物种(E.coli,Yeast,A.Thaliana,D.Melanogaster和Human)的PacBio数据集和三个真实物种(E.coli,B.anthracis 和Y.pestis)的nanopore数据集进行测试我们MECAT效果。两两比对软件比较随机提取500M数据进行比较,在PacBio数据集中,我们软件MECAT两两比对的速度是MHAP和Daligner软件的2-8倍;在nanopore数据集中,MECAT速度是 MHAP和Daligner的5-10倍。参考基因组软件比较使用整个数据集进行比较,在 PacBio数据集中,我们软件MECAT两两比对的速度是BLASR和BWA软件的5-70 倍;在nanopore数据集中,MECAT速度BLASR和BWA的4-5倍。
上述表格时间单位是核时。
Claims (31)
1.一种基于全局种子打分优选的三代测序序列比对系统,该系统包含模块1、模块2、模块3、模块4和模块5,模块1嵌合快速查找显著候选重叠区域的block数据结构模型,模块2嵌合参考基因组block数据结构的映射规则,模块3嵌合参考基因组索引和测序序列种子序列抽样规则,模块4嵌合匹配块种子匹配数与灵敏度数学模型,模块5嵌合基于块数据结构的全局种子打分模型,其中模块5包含模块5.1、模块5.2和模块5.3,模块5.1嵌合两个种子对之间的两个序列的距离差异因子,模块5.2嵌合两两种子投票打分获取核心匹配种子位置对规则,模块5.3嵌合延伸投票打分获取核心位置对的全局种子投票得分规则。
2.根据权利要求1所述的系统,其特征在于所述系统还包含模块6,模块6嵌合基于全局种子打分的优选和使用规则。
3.根据权利要求1或2所述的系统,其特征在于系统中的模块1嵌合快速查找显著候选重叠区域的block数据结构模型,所述快速查找显著候选重叠区域的block数据结构模型为:设Z为block数据结构的块比例,对于参考基因组每Z个碱基建立一个block数据结构,并顺序编号,用于比对过程中快速将种子序列定位到候选比对区域。
4.根据权利要求1或2所述的系统,其特征在于所述系统中,模块2嵌合参考基因组block数据结构的映射规则,参考基因组block数据结构的映射规则为:
通过测序序列每个种子编码查询参考基因组索引获得每个种子基因组的精确位置,并用每个种子的精确位置按照公式1的规则映射到上述块结构:
其中Z表示块结构碱基区域大小,CR表示块结构的序号,CL为种子在参考基因组的在块结构的相对准确位置,SLi表示参考基因组候选位置。
5.根据权利要求1或2所述的系统,其特征在于所述模块3嵌合参考基因组索引和测序序列种子序列抽样规则,参考基因组索引和测序序列种子序列抽样规则为:
以参考基因组每个位点为起始,取k=13个碱基长度的片段作为种子序列,建立种子的4进制编码与其对应起始位置的哈希表。
6.根据权利要求1或2所述的系统,其特征在于所述模块4嵌合匹配块种子匹配数与灵敏度数学模型,其中匹配块种子匹配数与灵敏度数学模型包括参考基因组块种子匹配数与灵敏度数学模型和两两比对中块种子匹配数与灵敏度数学模型。
7.根据权利要求6所述的系统,其特征在于所述系统中的参考基因组块种子匹配数与灵敏度数学模型如下:
假设所有种子比对是独立事件,种子的匹配概率初步符合二项式分布,在参考基因组比对过程中,种子匹配概率用如下公式2计算:
Povl=(1-e)k (公式2)
公式2中,当e为0.15,块大小为1000,种子抽样步长为20和k为13时,每个块的抽样数为两个匹配块平均种子匹配个数为
8.根据权利要求6所述的系统,其特征在于所述系统中两两比对中块种子匹配数与灵敏度数学模型如下:
假设所有种子比对是独立事件,种子的匹配概率初步符合二项式分布,在两两比对过程中,种子匹配概率通过如下公式3计算:
公式3中,当e为0.15,块大小为2000,种子抽样步长为5和k为13时,每个块的抽样数为两个匹配块平均种子匹配个数为
9.根据权利要求1或2所述的系统,其特征在于所述模块5嵌合基于块数据结构的全局种子打分模型,基于块数据结构的全局种子打分模型如下:
对参考基因组和三代测序序列分别建立种子k=13的哈希表,同时将基因组和序列分成大小为1000bp的数据块。
10.根据权利要求9所述的系统,其特征在于所述模块5中的全局种子打分从显著匹配块开始,其过程包含如下模块5.1,模块5.2和模块5.3,其中模块5.1嵌合两个种子对之间的两个序列的距离差异因子,模块5.2嵌合两两种子投票打分获取核心匹配种子位置对规则,模块5.3嵌合延伸投票打分获取核心位置对的全局种子投票得分规则。
11.根据权利要求2所述的系统,其特征在于所述系统中模块6嵌合基于全局种子打分的优选和使用规则,基于全局种子打分的优选和使用规则如下:
对所有显著匹配块候选区域进行全局种子投票打分获取每个显著匹配块的核心种子对和全局种子得分,根据每个候选区域的核心种子对和全局种子得分判定核心种子位置对进入后续局部序列比对分析,其中全局种子投票打分方法为基于全局种子打分优选的参考基因组比对方法或基于全局种子打分优选的两两比对方法,其中判定方法如下:
(1)应用基于全局种子打分优选的参考基因组比对方法获得的结果,当参考基因组选择最高10个核心种子位置对所在的区域有效候选区域,这些核心种子位置对可以进入后续局部序列比对分析;
(2)应用基于全局种子打分优选的两两比对方法获得结果,选择最高100个核心种子位置对所在的区域有效候选区域,这些核心种子位置对可以进入后续局部序列比对分析。
12.一种基于全局种子打分优选的三代测序序列比对方法,所述三代测序序列比对方法为基于全局种子打分优选的参考基因组比对方法和基于全局种子打分优选的两两比对方法中的一种或两种,所述基于全局种子打分优选的参考基因组比对方法和基于全局种子打分优选的两两比对方法执行权利要求1所述模块1、模块2、模块3、模块4和模块5中的至少2个以上的模块。
13.一种基于全局种子打分优选的三代测序序列比对方法,所述方法为基于全局种子打分优选的参考基因组比对方法,所述参考基因组比对方法包括如下步骤:
步骤1.1:建立参考基因组索引
步骤1.2:构建参考基因组块数据结构
步骤1.3:分割测序序列成若干个种子序列
步骤1.4:将所有种子序列映射到Z倍参考基因组块数据结构中
步骤1.5:获取显著块匹配区域的核心种子位置对
步骤1.6:获取核心种子位置对的全局投票打分
步骤1.7:选择最高n个核心位置对进行局部两两序列比对
步骤1.8:二次精准参考基因组序列比对。
14.根据权利要求13所述的方法,其特征在于步骤1.1所述的建立参考基因组索引方法为:
应用权利要求5所述的模块3,从参考基因组中每个碱基位置提取k长度种子序列,也就是,相邻的种子之间没有间隔,参考基因组所有的碱基被建立种子索引。
15.根据权利要求13所述的方法,其特征在于步骤1.2所述的构建参考基因组块数据结构方法为:
应用权利要求3所述的模块1,将参考基因组每Z个碱基区域建立一个块数据结构,每个块数据结构用于记录测序序列种子在该结构代表参考基因组区域的匹配情况。
16.根据权利要求15所述的方法,其特征在于每个块数据结构由种子匹配计算器、40个种子匹配候选种子位置对组成。
17.根据权利要求13所述的方法,其特征在于所述步骤1.3所述的分割测序序列序列成若干个种子序列方法为:
应用权利要求5所述的模块3,在测序序列中按照ST=20步长提取种子的种子序列,每个种子有k个碱基组装,并按照测序序列顺序进行编码。
18.根据权利要求13所述的方法,其特征在于所述步骤1.4所述的将所有种子序列映射到Z倍参考基因组块数据结构中的方法为:
一个测序序列种子序列的所有参考基因组候选位置从步骤1.1的参考基因组索引中查找,应用权利要求4所述的模块2,将每个种子所有候选位置映射到参考基因组块数据结构中存储。并且用查阅表记录所有匹配种子块数据结构编号,查阅表记录着种子匹配的块区域编号和对应块区域的种子匹配数,每个块区域在查阅表中唯一记录。
19.根据权利要求13所述的方法,其特征在于所述步骤1.5所述的获取显著块匹配区域的核心种子位置对方法为:
当一个块数据结构的种子数大于7时,该块结构被认为显著块匹配结构,显著块匹配结构的局部比对的核心匹配位置对将通过该块结构中所有种子对两两投票打分确定,按照权利要求10所述的模块5.2进行两两投票打分获取该显著匹配块的核心种子位置对。
20.根据权利要求13所述的方法,其特征在于所述步骤1.6所述的获取核心种子位置对的全局投票打分方法为:
应用权利要求10所述的模块5.3,将测序序列所覆盖的核心种子位置对相邻块结构中位置对取出,对核心位置对进行单向投票打分,获取核心位置对全局种子得分。并将相邻块结构的80%种子位置对支持核心种子位置对的块结构的种子数将被设置为0。
21.根据权利要求13所述的方法,其特征在于所述步骤1.7所述的选择最高n个核心位置对进行局部两两序列比对方法为:
通过步骤1.5和步骤1.6,获得每个高于种子阈值的块数据结构的核心种子位置对和全局投票打分,之后,对所有核心位置对的全局投票得分进行降序排序,选择全局投票得分最高10个核心位置对通过字基于最长公共字串的字符差异比对方法(diff)完成局部两两序列比对,对用nanopore,采用经典的局部匹配的方法(smith-waterman)进行局部两两比对,如果核心位置对序列比对结果符合两个条件:重叠长读>1000和错误匹配率<0.20,认为该测序序列已找到正确参考基因组匹配位置,按照全局比对得分顺序进行两两序列比对,当遇到符合上述条件的核心位置对时,终止该测序序列序列比对过程,将该结果作为测序序列的序列比对结果输出。
22.根据权利要求13所述的方法,其特征在于所述步骤1.8所述的二次精准参考基因组序列比对方法为:
针对少数测序序列的块匹配种子量较少,而且布局均一,不能被步骤1.4参数搜索到,如果上述过程ST步长分割和Z数据结构没有获得搜索结果输出,将执行步骤1.3的ST变成ST/2步长,之后的块大小为2Z,其它参数不变,重复上述步骤3到步骤1.7进行更精确的序列比对过程。
23.一种基于全局种子打分优选的三代测序序列比对方法,所述方法为基于全局种子打分优选的两两比对方法,所述两两比对方法包括如下步骤:
步骤2.1:三代测序数据分块和测序序列链接成类似参考基因组
步骤2.2:建立参考基因组索引
步骤2.3:构建链接参考序列的块数据结构
步骤2.4:分割测序序列序列成若干个种子序列
步骤2.5:将所有种子序列映射到Z倍链接参考序列的块数据结构中
步骤2.6:获取显著块匹配区域的的核心种子位置对
步骤2.7:获取核心种子位置对的全局投票打分
步骤2.8:选择最高n个核心位置对的候选区域输出结果。
24.根据权利要求23所述的方法,其特征在于所述步骤2.1所述的三代测序数据分块和测序序列链接成类似参考基因组方法为:
将三代测序数据集分成2G大小数据块,链接2G数据块内的测序序列成2G 的一条参考序列,两条测序序列链接出添加一个N字母,记录每个测序序列在2G参考序列上的起始位置,为后续寻找两个测序序列重叠的起始位置。
25.根据权利要求23所述的方法,其特征在于所述步骤2.2所述的建立参考基因组索引方法为:
应用权利要求5所述的模块3,从链接后的2G参考序列中每个碱基位置提取k长度种子序列,也就是,相邻的种子之间没有间隔。参考基因组所有的碱基将被建立种子索引。
26.根据权利要求23所述的方法,其特征在于所述步骤2.3所述的构建链接参考序列的块数据结构方法为:
应用权利要求3所述的模块1,链接参考序列每Z个碱基区域建立一个块数据结构,每个块数据结构用于记录测序序列种子在该结构代表建链接参考序列区域的匹配情况,每个块数据结构由种子匹配计算器、40个种子匹配候选种子位置对组成。
27.根据权利要求23所述的方法,其特征在于所述步骤2.4所述的分割测序序列序列成若干个种子序列方法为:
应用权利要求5所述的模块3,在测序序列中按照ST=10步长提取种子的种子序列,每个种子有k个碱基组装,并按照测序序列顺序进行编码。
28.根据权利要求23所述的方法,其特征在于所述步骤2.5所述的将所有种子序列映射到Z倍链接参考序列的块数据结构中的方法为:
一个测序序列种子序列的所有参考基因组候选位置从步骤2.1的参考基因组索引中查找,应用权利要求4所述的模块2,将每个种子所有候选位置映射到链接参考序列块数据结构中存储。并且用查阅表记录所有匹配种子块数据结构编号,查阅表记录着种子匹配的块区域编号和对应块区域的种子匹配数,每个块区域在查阅表中唯一记录。
29.根据权利要求23所述的方法,其特征在于所述步骤2.6所述的获取显著块匹配区域的的核心种子位置对方法为:
当一个块数据结构的种子数大于7时,该块结构被认为显著块匹配结构,显著块匹配结构的局部比对的核心匹配位置对将通过该块结构中所有种子对两两投票打分确定,应用权利要求10所述的模块5.2进行两两投票打分获取该显著匹配块的核心种子位置对。
30.根据权利要求23所述的方法,其特征在于所述步骤2.7所述的获取核心种子位置对的全局投票打分方法为:
应用权利要求10所述的模块5.3,将测序序列所覆盖的核心种子位置对相邻块结构中种子位置对取出,通过2G链接参考序列上每个测序序列的起始位置和显著块匹配的编号可以定位核心种子对来源2G中的测序序列的编号,根据两个测序序列重叠情况,获取相邻块匹配的范围,对重叠区域的核心位置对进行单向投票打分,获取核心位置对全局种子得分。并将相邻块结构的80%种子位置对支持核心种子位置对的块结构的种子数将被设置为0。
31.根据权利要求23所述的方法,其特征在于所述步骤2.8所述的选择最高n个核心位置对的候选区域输出结果的方法为:
通过步骤2.5和步骤2.6,获得每个高于种子阈值的块数据结构的核心种子位置对和全局投票打分,然后,对所有核心位置对的全局投票得分进行降序排序,选择全局投票得分最高100个核心位置对,将每个核心位置对信息通过测序序列在2G链接参考序列起始位置转化成两条测序序列的绝对位置信息,最后输出两个重叠测序序列的编号、核心位置对的绝对位置信息和全局投票得分。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710412287.2A CN107256335A (zh) | 2017-06-02 | 2017-06-02 | 一种基于全局种子打分优选的三代测序序列比对方法 |
PCT/CN2017/098122 WO2018218788A1 (zh) | 2017-06-02 | 2017-08-18 | 一种基于全局种子打分优选的三代测序序列比对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710412287.2A CN107256335A (zh) | 2017-06-02 | 2017-06-02 | 一种基于全局种子打分优选的三代测序序列比对方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107256335A true CN107256335A (zh) | 2017-10-17 |
Family
ID=60023899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710412287.2A Pending CN107256335A (zh) | 2017-06-02 | 2017-06-02 | 一种基于全局种子打分优选的三代测序序列比对方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107256335A (zh) |
WO (1) | WO2018218788A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460246A (zh) * | 2018-03-08 | 2018-08-28 | 北京希望组生物科技有限公司 | 一种基于三代测序平台的hla基因分型方法 |
CN108776749A (zh) * | 2018-06-05 | 2018-11-09 | 南京诺禾致源生物科技有限公司 | 测序数据的处理方法及装置 |
CN108920902A (zh) * | 2018-06-29 | 2018-11-30 | 郑州云海信息技术有限公司 | 一种基因序列处理方法及其相关设备 |
CN108985008A (zh) * | 2018-06-29 | 2018-12-11 | 郑州云海信息技术有限公司 | 一种快速比对基因数据的方法和比对系统 |
CN109326325A (zh) * | 2018-07-25 | 2019-02-12 | 郑州云海信息技术有限公司 | 一种基因序列比对的方法、系统及相关组件 |
CN110517727A (zh) * | 2019-08-23 | 2019-11-29 | 苏州浪潮智能科技有限公司 | 序列比对方法及系统 |
CN111190915A (zh) * | 2020-01-02 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 一种道具标识或角色标识的确定方法、服务器及存储介质 |
WO2021227555A1 (zh) * | 2020-05-09 | 2021-11-18 | 苏州浪潮智能科技有限公司 | 一种哈希表的压缩方法、系统及相关装置 |
CN114520024A (zh) * | 2022-01-17 | 2022-05-20 | 浙江天科高新技术发展有限公司 | 一种基于k-mer的序列联配方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016148650A1 (en) * | 2015-03-17 | 2016-09-22 | Agency For Science, Technology And Research | Bioinformatics data processing systems |
CN105989249A (zh) * | 2014-09-26 | 2016-10-05 | 叶承羲 | 用于组装基因组序列的方法、系统及装置 |
CN106021997A (zh) * | 2016-05-17 | 2016-10-12 | 杭州和壹基因科技有限公司 | 一种三代PacBio测序数据的比对方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2424031C (en) * | 2000-09-28 | 2016-07-12 | New York University | System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map |
CN104951672B (zh) * | 2015-06-19 | 2017-08-29 | 中国科学院计算技术研究所 | 一种第二代、三代基因组测序数据联用的拼接方法及系统 |
CN105389481B (zh) * | 2015-12-22 | 2018-06-29 | 武汉菲沙基因信息有限公司 | 一种三代全长转录组中可变剪切体的检测方法 |
CN106022002B (zh) * | 2016-05-17 | 2019-03-29 | 杭州和壹基因科技有限公司 | 一种基于三代PacBio测序数据的补洞方法 |
-
2017
- 2017-06-02 CN CN201710412287.2A patent/CN107256335A/zh active Pending
- 2017-08-18 WO PCT/CN2017/098122 patent/WO2018218788A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989249A (zh) * | 2014-09-26 | 2016-10-05 | 叶承羲 | 用于组装基因组序列的方法、系统及装置 |
WO2016148650A1 (en) * | 2015-03-17 | 2016-09-22 | Agency For Science, Technology And Research | Bioinformatics data processing systems |
CN106021997A (zh) * | 2016-05-17 | 2016-10-12 | 杭州和壹基因科技有限公司 | 一种三代PacBio测序数据的比对方法 |
Non-Patent Citations (2)
Title |
---|
CHUAN-LE XIAO ET AL.: "MECAT:an ultra-fast mapping,error correction and de novo assembly tool for single-molecule sequencing reads", 《BIORXIV》 * |
赵雅男: "生物序列比对中BWT索引技术及其算法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460246A (zh) * | 2018-03-08 | 2018-08-28 | 北京希望组生物科技有限公司 | 一种基于三代测序平台的hla基因分型方法 |
CN108460246B (zh) * | 2018-03-08 | 2022-02-22 | 北京希望组生物科技有限公司 | 一种基于三代测序平台的hla基因分型方法 |
CN108776749A (zh) * | 2018-06-05 | 2018-11-09 | 南京诺禾致源生物科技有限公司 | 测序数据的处理方法及装置 |
CN108776749B (zh) * | 2018-06-05 | 2022-05-03 | 北京诺禾致源科技股份有限公司 | 测序数据的处理方法及装置 |
CN108920902A (zh) * | 2018-06-29 | 2018-11-30 | 郑州云海信息技术有限公司 | 一种基因序列处理方法及其相关设备 |
CN108985008A (zh) * | 2018-06-29 | 2018-12-11 | 郑州云海信息技术有限公司 | 一种快速比对基因数据的方法和比对系统 |
CN108985008B (zh) * | 2018-06-29 | 2022-03-08 | 郑州云海信息技术有限公司 | 一种快速比对基因数据的方法和比对系统 |
CN109326325B (zh) * | 2018-07-25 | 2022-02-18 | 郑州云海信息技术有限公司 | 一种基因序列比对的方法、系统及相关组件 |
CN109326325A (zh) * | 2018-07-25 | 2019-02-12 | 郑州云海信息技术有限公司 | 一种基因序列比对的方法、系统及相关组件 |
CN110517727B (zh) * | 2019-08-23 | 2022-03-08 | 苏州浪潮智能科技有限公司 | 序列比对方法及系统 |
WO2021035940A1 (zh) * | 2019-08-23 | 2021-03-04 | 苏州浪潮智能科技有限公司 | 序列比对方法及系统 |
CN110517727A (zh) * | 2019-08-23 | 2019-11-29 | 苏州浪潮智能科技有限公司 | 序列比对方法及系统 |
CN111190915A (zh) * | 2020-01-02 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 一种道具标识或角色标识的确定方法、服务器及存储介质 |
CN111190915B (zh) * | 2020-01-02 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 一种道具标识或角色标识的确定方法、服务器及存储介质 |
WO2021227555A1 (zh) * | 2020-05-09 | 2021-11-18 | 苏州浪潮智能科技有限公司 | 一种哈希表的压缩方法、系统及相关装置 |
CN114520024A (zh) * | 2022-01-17 | 2022-05-20 | 浙江天科高新技术发展有限公司 | 一种基于k-mer的序列联配方法 |
CN114520024B (zh) * | 2022-01-17 | 2024-03-22 | 浙江天科高新技术发展有限公司 | 一种基于k-mer的序列联配方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018218788A1 (zh) | 2018-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107256335A (zh) | 一种基于全局种子打分优选的三代测序序列比对方法 | |
CA2424031C (en) | System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map | |
US20070156749A1 (en) | Detection of patterns in data records | |
US8832139B2 (en) | Associative memory and data searching system and method | |
CN101233509A (zh) | 对双标记序列进行处理和/或基因组定位的方法 | |
JP4912646B2 (ja) | 遺伝子の転写物マッピング方法及びシステム | |
CN102073708A (zh) | 面向大规模不确定图数据库的子图查询方法 | |
CN108710784A (zh) | 一种基因转录变异几率及变异方向的算法 | |
JP5279897B2 (ja) | ペア文字列検索システム | |
CN109545283A (zh) | 一种基于序列模式挖掘算法的系统发生树构建方法 | |
CN115713970A (zh) | 基于Transformer-Encoder和多尺度卷积神经网络的转录因子识别方法 | |
CN110119693A (zh) | 一种基于改进vgg-16模型的英文笔迹鉴别方法 | |
CN107169445B (zh) | 一种大规模掌纹编码和比对方法 | |
CN109979536B (zh) | 一种基于dna条形码对物种的鉴定方法 | |
KR20210126030A (ko) | 생물학적 서열분석 | |
CN113077845A (zh) | 一种大气气溶胶微生物群落组成的分析方法 | |
CN109727645A (zh) | 生物序列指纹 | |
Ganesh et al. | MOPAC: motif finding by preprocessing and agglomerative clustering from microarrays | |
CN117746997B (zh) | 一种基于多模态先验信息的顺式调控模体识别方法 | |
CN110046347A (zh) | 一种基于统计与条件随机场的复杂中文地名识别方法 | |
CN118335203B (zh) | 面向大规模基因组数据的冠状病毒重组检测方法、系统、设备及介质 | |
JPH07262322A (ja) | 文字認識方法及び文字認識装置 | |
JP3773092B2 (ja) | 遺伝子発現パターン表示方法および装置並びに記録媒体 | |
Luhmann | Phylogenetic assembly of paleogenomes integrating ancient DNA data | |
CN117891961A (zh) | 基于地图产品聚合的数据级联共享方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190605 Address after: 510060 No. 54 Xianlie South Road, Yuexiu District, Guangzhou City, Guangdong Province Applicant after: Zhongshan Ophthalmic Center, Sun Yat-Sen University Address before: 510300 Guangzhou City, Guangdong Province, 160 Xingang West Road, Light Industry Technician College, 3 doors 401 Applicant before: Xiao Chuanle |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171017 |
|
RJ01 | Rejection of invention patent application after publication |