CN111916153A - 一种并行多重序列比对方法 - Google Patents

一种并行多重序列比对方法 Download PDF

Info

Publication number
CN111916153A
CN111916153A CN202010552605.7A CN202010552605A CN111916153A CN 111916153 A CN111916153 A CN 111916153A CN 202010552605 A CN202010552605 A CN 202010552605A CN 111916153 A CN111916153 A CN 111916153A
Authority
CN
China
Prior art keywords
sequence
sequences
group
similarity
central
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010552605.7A
Other languages
English (en)
Other versions
CN111916153B (zh
Inventor
邹权
晁健楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010552605.7A priority Critical patent/CN111916153B/zh
Publication of CN111916153A publication Critical patent/CN111916153A/zh
Application granted granted Critical
Publication of CN111916153B publication Critical patent/CN111916153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种并行多重序列比对方法,该方法包括获取生物学序列数据,K‑mer特征提取,相似度计算,并行聚类分组,构建后缀树,双序列比对,融合比对结果。本发明通过K‑mer特征提取,采用并行聚类算法分组后构建后缀树,并采用Smith‑Waterman算法进行双序列比对,最后融合对比结果,能够较容易的实现多重序列并行化处理,从而快速完成多重序列比对,在序列数量多时相较其它比对方法效率突出,能够适应不同的序列特征,并节省用户大量的时间和精力。

Description

一种并行多重序列比对方法
技术领域
本发明属于计算机技术领域,具体涉及一种并行多重序列比对方法。
背景技术
多重序列比对是对三个以上的生物学序列(如蛋白质序列、DNA序列或RNA序列)所作的序列比对。一般来说,是输入一组假定拥有演化关系的序列。从多重序列比对的结果可推导出序列的同源性,而种系发生关系也可引导出这些序列共同的演化始祖。多重序列比对常用来研究序列的保守性,或是蛋白质结构域的三级结构与二级结构,甚至是个别的氨基酸或核苷酸。传统的多重序列比对方法通常过分依赖于动态规划而导致时间复杂度过高,用户在进行大量同源序列的比对时往往要花费数天甚至数月的时间。
发明内容
针对现有技术中的上述不足,本发明提供了一种并行多重序列比对方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种并行多重序列比对方法,包括以下步骤:
S1、获取生物学序列数据;
S2、利用每个线程对各个序列进行K-mer特征提取;
S3、利用每个线程计算任意两个序列之间的相似度,得到相似度矩阵;
S4、采用并行聚类算法根据相似度矩阵对序列进行分组;
S5、在每个分组中选择与其它序列平均相似度最高的序列作为中心序列,对每个分组的中心序列分配一个线程构建后缀树;
S6、对每个分组或分组内的的一个非中心序列分配一个线程根据后缀树提取中心序列与其它每个序列的同源区段;
S7、对每个分组或分组内的的一个非中心序列分配一个线程采用Smith-Waterman算法对非同源子序列对进行比对,将比对结果和同源区段拼接得到双序列比对结果;
S8、对每个分组或分组内的的一个非中心序列分配一个线程将双序列比对结果融合;
S9、对每个分组分配一个线程根据融合后的比对结果构建每个分组的代表序列,得到多重序列比对结果。
进一步地,所述步骤S2具体包括:
提取每个序列中设定长度的全部连续子序列作为特征,并统计特征频次作为对应序列的特征值。
进一步地,所述步骤S3中计算任意两个序列之间的相似度具体包括:
选取两个序列对应特征中较小的特征值,计算选取的所有特征值的和,得到两个序列之间的相似度。
进一步地,所述步骤S4具体包括:
初始随机生成的k个均值点;
将每个观测分配到聚类中,使得组内平方和达到最小,表示为
Figure BDA0002543128950000021
其中,
Figure BDA0002543128950000022
表示第t趟迭代中第i个聚类,
Figure BDA0002543128950000023
分别表示第t趟迭代中第i和j个聚类对应的聚类中心,xp表示第p个数据点;
根据得到的每一个聚类,以聚类中观测值的图心,作为新的均值点,表示为
Figure BDA0002543128950000031
其中,xj表示第j个数据点。
进一步地,所述步骤S5具体包括:
在每个分组中选择一条序列与其它序列的相似度求和并计算平均值,得到该序列与其它序列的平均相似度;
选择该分组中平均相似度最高的序列作为中心序列,对每个分组的中心序列构建包含设定字符串所有长度后缀作为关键字、其位置作为值的压缩型的树。
进一步地,所述步骤S6具体包括:
从索引0开始,依次查找后缀树中是否存在后缀的前x个元素与当前序列[0:x]相同,若存在,则构成一个同源区段;否则,继续查找。
进一步地,所述步骤S7中采用Smith-Waterman算法对非同源子序列对进行比对具体包括:
设定非同源子序列对为A=a1 a2 ... an和B=b1 b2 ... bn,其中n和m分别为序列A和B的长度,a和b分别表示序列A和B中的元素;
创建大小为n+1行m+1列的得分矩阵H,并初始化其首行和首列,表示为
Hk0=H0l=0,(0≤k≤n,0≤l≤m)
其中,Hk0表示矩阵H第k行第0列的值,H0l表示矩阵H第0行第l列的值,k和l分别表示矩阵H的行号和列号;
按照设定顺序进行打分,填充得分矩阵H剩余部分,表示为
Figure BDA0002543128950000041
其中,Huv表示矩阵H第u行第v列的值,Hi-1,j-1+s(ai,bi)表示将ai和bj比对的相似性得分,Hi-k,j–Wk表示ai位于一段长度为k的删除的末端的得分,Hi,j-l–Wl表示bj位于一段长度为l的删除的末端的得分,0表示ai和bj到此为止无相似性;
从得分矩阵H中得分最高的元素开始根据得分的来源回溯至上一位置,如此反复直至遇到得分为0的元素。
进一步地,所述步骤S8具体包括:
对于每个非中心序列生成在中心序列中插入空格的数量数组和在当前非中心序列中插入空格的数量数组;
统计所有中心序列对应的空格数组,每个空格位置的数量取它们中的最大值,计算融合后中心序列的空格;
对于每一个非中心序列,计算中心序列对应空格数量数组的变化量,并计算需要在当前非中心序列插入空格数量数组中多加入空格的数量和位置,得到当前非中心序列最终插入空格的结果。
进一步地,所述步骤S9中每个分组的代表序列具体包括:
从融合后的比对结果中选择各个位上统计频数最多的字符构成对应分组的代表序列。
本发明具有以下有益效果:
本发明通过K-mer特征提取,采用并行聚类算法分组后构建后缀树,并采用Smith-Waterman算法进行双序列比对,最后融合对比结果,能够较容易的实现多重序列并行化处理,从而快速完成多重序列比对,在序列数量多时相较其它比对方法效率突出,能够适应不同的序列特征,并节省用户大量的时间和精力。
附图说明
图1为本发明的并行多重序列比对方法流程图;
图2为本发明实施例中后缀树构建过程示意图;
图3为本发明实施例中Smith-Waterman算法示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,本发明实施例提供了一种并行多重序列比对方法,包括以下步骤S1至S9:
S1、获取生物学序列数据;
在本实施例中,本发明通过读取生物学序列数据文件,获取待处理的生物学序列数据和对应的序列名;本发明读取的生物学序列数据文件为用于表示核酸序列或多肽序列的格式fasta,其中核酸或氨基酸均以单个字母来表示,且可以在每个序列前设置有序列名及注释。
S2、利用每个线程对各个序列进行K-mer特征提取;
在本实施例中,本发明提取每个序列中设定长度的全部连续子序列作为特征,并统计特征频次作为对应序列的特征值。具体而言,本发明提取每个序列中长度为2的子序列。长度为2的子序列在DNA的情况下一共有16种可能,这16种排列均可以作为序列的特征,其统计频数作为对应序列的特征值。此外,本发明还可以取长度为3或4的子序列以提升相似度的可靠性。
对于步骤S2,本发明为每个序列分配一个线程,并行完成计算。
S3、利用每个线程计算任意两个序列之间的相似度,得到相似度矩阵;
在本实施例中,本发明选取任意的两个序列对应特征中较小的特征值,计算选取的所有特征值的和,得到两个序列之间的相似度。
对于步骤S3,要计算n条序列两两之间的相似度,须进行n*(n–1)次计算,因此本发明为每次计算分配一个线程,并行完成计算。
S4、采用并行聚类算法根据相似度矩阵对序列进行分组;
在本实施例中,本发明可以采用k均值聚类算法利用相似度矩阵进行序列的分组,具体包括:
初始随机生成的k个均值点m(1) 1,...,m(1) n
分配:将每个观测分配到聚类中,使得组内平方和达到最小,表示为
Figure BDA0002543128950000061
其中,
Figure BDA0002543128950000062
表示第t趟迭代中第i个聚类,
Figure BDA0002543128950000063
分别表示第t趟迭代中第i和j个聚类对应的聚类中心,xp表示第p个数据点;并且每个xp都只被分配到一个确定的聚类St中;
更新:根据得到的每一个聚类,以聚类中观测值的图心,作为新的均值点,表示为
Figure BDA0002543128950000071
其中,xj表示第j个数据点;并且在对于观测的分配不再变化时收敛。
对于步骤S4,本发明采用并行k均值算法,并行完成计算。
S5、在每个分组中选择与其它序列平均相似度最高的序列作为中心序列,对每个分组的中心序列分配一个线程构建后缀树;
在本实施例中,本发明具体包括:
在每个分组中选择一条序列与其它序列的相似度求和并计算平均值,得到该序列与其它序列的平均相似度;
选择该分组中平均相似度最高的序列作为中心序列,对每个分组的中心序列构建包含设定字符串所有长度后缀作为关键字、其位置作为值的压缩型的树。
下面以"abcabxabcd"为例,对本发明中后缀树的构建方法进行详细说明,如图2所示:
前三个字符从左到右,对逐个字符进行操作。
第1个字符是'a',创建一条边从根结点到叶结点,树更新如图2(a)。
处理第2个字符'b',扩展已经存在的边"a"至"ab";插入一条新边以表示"b",树更新如图2(b)。
处理第3个字符'c',重复同样的操作,树更新如图2(c)。
定义活动点为一个三元组,包括(活动结点,活动边,活动长度);剩余后缀数为一个整数,代表着还需要插入多少个新的后缀。
此时活动点为(root,'c',1)。
处理第4字符'a',已经存在一条边"abca"的前缀包含了后缀"a",不再向活动结点插入一条新的边。相反,保留树原来的样子,如图2(d)。
更新活动点为(root,'a',1),也就是说,活动结点仍为根结点,活动边为'a',活动长度为1;剩余后缀数自增1得到2。
继续处理下一个字符'b',保留树原来的样子,如图2(e)。
更新活动点为(root,'a',2);剩余后缀数自增1得到3。
继续处理下一个字符'x',此时活动边上接下去一个字符不是'x',须分裂该边,树更新如图2(f)。
更新活动点为(root,'b',1);剩余后缀数自减1得到2。
接下来处理后缀"bx",此时活动边上接下去一个字符不是'x',须分裂该边,树更新如图2(g)。
更新活动点为(root,'x',0);剩余后缀数自减1得到1。该新结点不是当前步骤中创建的第一个结点,将先前加入的结点与该新结点通过一个特殊的指针连接,称为后缀连接,如图2(h)。
接下来处理后缀"x",此时须从活动结点上发出新的分支,内容即为"x",树更新如图2(i)。
更新活动点为(root,'x',0);剩余后缀数不变。
继续处理下一个字符'a',保留树原来的样子。
发现'a'已经存在于活动结点的一个边中,更新活动点为(root,'a',1);剩余后缀数自增1得到2。
继续处理下一个字符'b',保留树原来的样子。
更新活动点为(root,'a',2);剩余后缀数自增1得到3。
继续处理下一个字符'c',保留树原来的样子。
发现字符'c'存在于分支边上,则更新活动点为(node,'c',1);剩余后缀数自增1得到4。
继续处理下一个字符'd',从活动边上分裂出新的分支,内容即为"d",树更新如图2(j)。
须沿着后缀连接的方向寻找结点,设置该结点为活动结点。(如果不存在,则设置根结点为活动结点。)更新活动点为(node,'c',1);剩余后缀数自减1得到3。
接下来处理后缀"bcd",从活动边上分裂出新的分支,内容即为"d",树更新如图2(k)。
此时从非根结点中新发生一条边,且没有后缀连接,则更新活动点为(root,'c',1);剩余后缀数自减1得到2。该新结点不是当前步骤中创建的第一个结点,将先前加入的结点与该新结点通过一个后缀连接相连。
接下来处理后缀"cd",从活动边上分裂出新的分支,内容即为"d",树更新如图2(l)。
更新活动点为(root,'d',0);剩余后缀数自减1得到1。新结点不是当前步骤中创建的第一个结点,将先前加入的结点与该新结点通过一个后缀连接相连,如图2(m)。
接下来处理后缀"d",从活动结点上发出新的分支,内容即为"d",树更新如图2(n)。
对于步骤S5,本发明为每个组的中心序列分配一个线程,并使用后缀树并行构建算法完成计算。
S6、对每个分组或分组内的的一个非中心序列分配一个线程根据后缀树提取中心序列与其它每个序列的同源区段;
在本实施例中,本发明采用同源区段提取方法依次处理非中心序列外的其它序列。
同源区段提取方法具体包括:
从索引0开始,依次查找后缀树中是否存在后缀的前x个元素与当前序列[0:x]相同,其中x须大于一定阈值,如序列长度的5%;若存在,则构成一个同源区段;否则,继续查找。
对于步骤S6,本发明为每个组或组内的一个非中心序列分配一个线程,并行计算。
S7、对每个分组或分组内的的一个非中心序列分配一个线程采用Smith-Waterman算法对非同源子序列对进行比对,将比对结果和同源区段拼接得到双序列比对结果;
在本实施例中,本发明根据步骤S6可以得到中心序列和其它序列之一存在x个同源区段,则可将两序列分割为另外的x+1个非同源子序列对,使用Smith-Waterman(史密斯-沃特曼)算法进行比对,将比对结果和同源区段拼接,得到双序列比对结果。
采用Smith-Waterman算法对非同源子序列对进行比对具体包括:
设定非同源子序列对为A=a1 a2 ... an和B=b1 b2 ... bn,其中n和m分别为序列A和B的长度,a和b分别表示序列A和B中的元素;
创建大小为n+1行m+1列的得分矩阵H,并初始化其首行和首列,表示为
Hk0=H0l=0,(0≤k≤n,0≤l≤m)
其中,Hk0表示矩阵H第k行第0列的值,H0l表示矩阵H第0行第l列的值,k和l分别表示矩阵H的行号和列号;
按照设定顺序进行打分,填充得分矩阵H剩余部分,如图3所示,表示为
Figure BDA0002543128950000111
其中,Huv表示矩阵H第u行第v列的值,Hi-1,j-1+s(ai,bi)表示将ai和bj比对的相似性得分,Hi-k,j–Wk表示ai位于一段长度为k的删除的末端的得分,Hi,j-l–Wl表示bj位于一段长度为l的删除的末端的得分,0表示ai和bj到此为止无相似性;
从得分矩阵H中得分最高的元素开始根据得分的来源回溯至上一位置,如此反复直至遇到得分为0的元素。
对于步骤S7,本发明为每个组或组内的一个非中心序列分配一个线程,并行计算。
S8、对每个分组或分组内的的一个非中心序列分配一个线程将双序列比对结果融合;
在本实施例中,本发明具体包括:
首先对于每个非中心序列生成两个数组,包括在中心序列中插入空格的数量数组长度为中心序列长度加1)和在当前非中心序列中插入空格的数量数组(长度为当前非中心序列长度加1);
然后计算融合后中心序列的空格,即统计所有中心序列对应的空格数组,每个空格位置的数量取它们中的最大值;
最后对于每一个非中心序列,计算中心序列对应空格数量数组的变化量,即在每个位置多加入多少空格,并计算需要在当前非中心序列插入空格数量数组中多加入空格的数量和位置,得到当前非中心序列最终插入空格的结果。
对于步骤S8,本发明为每个组或组内的一个非中心序列分配一个线程,并行计算。
S9、对每个分组分配一个线程根据融合后的比对结果构建每个分组的代表序列,得到多重序列比对结果。
在本实施例中,本发明从融合后的比对结果中选择各个位上统计频数最多的字符构成对应分组的代表序列,并将所有分组的代表序列构成一个新的分组,重复步骤S5至S8,得到最终的多重序列比对结果。
对于步骤S9,本发明为每个组分配一个线程,并行计算。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (9)

1.一种并行多重序列比对方法,其特征在于,包括以下步骤:
S1、获取生物学序列数据;
S2、利用每个线程对各个序列进行K-mer特征提取;
S3、利用每个线程计算任意两个序列之间的相似度,得到相似度矩阵;
S4、采用并行聚类算法根据相似度矩阵对序列进行分组;
S5、在每个分组中选择与其它序列平均相似度最高的序列作为中心序列,对每个分组的中心序列分配一个线程构建后缀树;
S6、对每个分组或分组内的的一个非中心序列分配一个线程根据后缀树提取中心序列与其它每个序列的同源区段;
S7、对每个分组或分组内的的一个非中心序列分配一个线程采用Smith-Waterman算法对非同源子序列对进行比对,将比对结果和同源区段拼接得到双序列比对结果;
S8、对每个分组或分组内的的一个非中心序列分配一个线程将双序列比对结果融合;
S9、对每个分组分配一个线程根据融合后的比对结果构建每个分组的代表序列,得到多重序列比对结果。
2.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S2具体包括:
提取每个序列中设定长度的全部连续子序列作为特征,并统计特征频次作为对应序列的特征值。
3.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S3中计算任意两个序列之间的相似度具体包括:
选取两个序列对应特征中较小的特征值,计算选取的所有特征值的和,得到两个序列之间的相似度。
4.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S4具体包括:
初始随机生成的k个均值点;
将每个观测分配到聚类中,使得组内平方和达到最小,表示为
Figure FDA0002543128940000021
其中,
Figure FDA0002543128940000022
表示第t趟迭代中第i个聚类,
Figure FDA0002543128940000023
分别表示第t趟迭代中第i和j个聚类对应的聚类中心,xp表示第p个数据点;
根据得到的每一个聚类,以聚类中观测值的图心,作为新的均值点,表示为
Figure FDA0002543128940000024
其中,xj表示第j个数据点。
5.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S5具体包括:
在每个分组中选择一条序列与其它序列的相似度求和并计算平均值,得到该序列与其它序列的平均相似度;
选择该分组中平均相似度最高的序列作为中心序列,对每个分组的中心序列构建包含设定字符串所有长度后缀作为关键字、其位置作为值的压缩型的树。
6.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S6具体包括:
从索引0开始,依次查找后缀树中是否存在后缀的前x个元素与当前序列[0:x]相同,若存在,则构成一个同源区段;否则,继续查找。
7.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S7中采用Smith-Waterman算法对非同源子序列对进行比对具体包括:
设定非同源子序列对为A=a1 a2 ... an和B=b1 b2 ... bn,其中n和m分别为序列A和B的长度,a和b分别表示序列A和B中的元素;
创建大小为n+1行m+1列的得分矩阵H,并初始化其首行和首列,表示为
Hk0=H0l=0,(0≤k≤n,0≤l≤m)
其中,Hk0表示矩阵H第k行第0列的值,H0l表示矩阵H第0行第l列的值,k和l分别表示矩阵H的行号和列号;
按照设定顺序进行打分,填充得分矩阵H剩余部分,表示为
Figure FDA0002543128940000031
其中,Huv表示矩阵H第u行第v列的值,Hi-1,j-1+s(ai,bi)表示将ai和bj比对的相似性得分,Hi-k,j–Wk表示ai位于一段长度为k的删除的末端的得分,Hi,j-l–Wl表示bj位于一段长度为l的删除的末端的得分,0表示ai和bj到此为止无相似性;
从得分矩阵H中得分最高的元素开始根据得分的来源回溯至上一位置,如此反复直至遇到得分为0的元素。
8.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S8具体包括:
对于每个非中心序列生成在中心序列中插入空格的数量数组和在当前非中心序列中插入空格的数量数组;
统计所有中心序列对应的空格数组,每个空格位置的数量取它们中的最大值,计算融合后中心序列的空格;
对于每一个非中心序列,计算中心序列对应空格数量数组的变化量,并计算需要在当前非中心序列插入空格数量数组中多加入空格的数量和位置,得到当前非中心序列最终插入空格的结果。
9.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S9中每个分组的代表序列具体包括:
从融合后的比对结果中选择各个位上统计频数最多的字符构成对应分组的代表序列。
CN202010552605.7A 2020-06-17 2020-06-17 一种并行多重序列比对方法 Active CN111916153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010552605.7A CN111916153B (zh) 2020-06-17 2020-06-17 一种并行多重序列比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010552605.7A CN111916153B (zh) 2020-06-17 2020-06-17 一种并行多重序列比对方法

Publications (2)

Publication Number Publication Date
CN111916153A true CN111916153A (zh) 2020-11-10
CN111916153B CN111916153B (zh) 2022-06-17

Family

ID=73237737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010552605.7A Active CN111916153B (zh) 2020-06-17 2020-06-17 一种并行多重序列比对方法

Country Status (1)

Country Link
CN (1) CN111916153B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030224384A1 (en) * 2001-11-13 2003-12-04 Khalid Sayood Divide and conquer system and method of DNA sequence assembly
JP2009116559A (ja) * 2007-11-06 2009-05-28 Hitachi Ltd 大量配列の一括検索方法及び検索システム
US20120239706A1 (en) * 2011-03-18 2012-09-20 Los Alamos National Security, Llc Computer-facilitated parallel information alignment and analysis
CN102750461A (zh) * 2012-06-14 2012-10-24 东北大学 一种可得到完全解的生物序列局部比对方法
US20120330566A1 (en) * 2010-02-24 2012-12-27 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
US20130053541A1 (en) * 2011-03-11 2013-02-28 Lynntech, Inc. Methods for discovering molecules that bind to proteins
CN104156636A (zh) * 2014-07-30 2014-11-19 中南大学 一种基于后缀数组的模糊串联重复序列识别方法
WO2019150399A1 (en) * 2018-02-05 2019-08-08 Bhatnagar Amogh Implementation of dynamic programming in multiple sequence alignment
CN111445952A (zh) * 2020-03-25 2020-07-24 山东大学 超长基因序列的相似性快速比对方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030224384A1 (en) * 2001-11-13 2003-12-04 Khalid Sayood Divide and conquer system and method of DNA sequence assembly
JP2009116559A (ja) * 2007-11-06 2009-05-28 Hitachi Ltd 大量配列の一括検索方法及び検索システム
US20120330566A1 (en) * 2010-02-24 2012-12-27 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
US20130053541A1 (en) * 2011-03-11 2013-02-28 Lynntech, Inc. Methods for discovering molecules that bind to proteins
US20120239706A1 (en) * 2011-03-18 2012-09-20 Los Alamos National Security, Llc Computer-facilitated parallel information alignment and analysis
CN102750461A (zh) * 2012-06-14 2012-10-24 东北大学 一种可得到完全解的生物序列局部比对方法
CN104156636A (zh) * 2014-07-30 2014-11-19 中南大学 一种基于后缀数组的模糊串联重复序列识别方法
WO2019150399A1 (en) * 2018-02-05 2019-08-08 Bhatnagar Amogh Implementation of dynamic programming in multiple sequence alignment
CN111445952A (zh) * 2020-03-25 2020-07-24 山东大学 超长基因序列的相似性快速比对方法及系统

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
FAHAD SAEED等: "Sample-align-d: A high performance multiple sequence alignment system using phylogenetic sampling and domain decomposition", 《2008 IEEE INTERNATIONAL SYMPOSIUM ON PARALLEL AND DISTRIBUTED PROCESSING》, 3 June 2008 (2008-06-03), pages 1 - 9 *
QUAN ZOU等: "Multiple Sequence Alignment Based on a Suffix Tree and Center-Star Strategy: A Linear Method for Multiple Nucleotide Sequence Alignment on Spark Parallel Framework", 《J COMPUT BIOL》, vol. 24, no. 12, 1 December 2017 (2017-12-01), pages 1230 - 1242 *
万世想: "基于分布式计算的大规模多序列比对研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》, no. 6, 15 June 2020 (2020-06-15), pages 002 - 417 *
呼广跃等: "超级多重基因组序列比对算法", 《计算机工程与应用》, no. 27, 21 September 2005 (2005-09-21), pages 13 - 15 *
小狗贤: "从零开始生物信息学(3):序列比对-Smith–Waterman算法", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/54194091》, 17 January 2019 (2019-01-17), pages 1 *
张法等: "基于Smith-Waterman算法的并行分而治之生物序列比对算法", 《中国科学E辑:技术科学》, vol. 34, no. 2, 20 February 2004 (2004-02-20), pages 190 - 199 *
邹权等: "基于Map Reduce的多序列星比对方法在肿瘤研究中的应用", 《癌症进展》, vol. 14, no. 6, 20 June 2016 (2016-06-20), pages 510 - 513 *
邹权等: "多序列比对算法的研究进展", 《生物信息学》, vol. 8, no. 4, 15 December 2010 (2010-12-15), pages 311 - 315 *

Also Published As

Publication number Publication date
CN111916153B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
US10204207B2 (en) Systems and methods for transcriptome analysis
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
JP5183155B2 (ja) 大量配列の一括検索方法及び検索システム
JP4912646B2 (ja) 遺伝子の転写物マッピング方法及びシステム
US8788522B2 (en) Pair character string retrieval system
Dorohonceanu et al. Accelerating protein classification using suffix trees.
CN111477281A (zh) 基于系统进化树的泛基因组构建方法和构建装置
US7085651B2 (en) Method and device for assembling nucleic acid base sequences
CN111916153B (zh) 一种并行多重序列比对方法
CN102841988B (zh) 一种对核酸序列信息进行匹配的系统和方法
Allali et al. The at-most $ k $-deep factor tree
US8639445B2 (en) Identification of related residues in biomolecular sequences by multiple sequence alignment and phylogenetic analysis
Pankratov et al. Spectral analysis for identification and visualization of repeats in genetic sequences
Gupta et al. Genetic algorithm based approach for obtaining alignment of multiple sequences
Mutakabbir et al. Mining frequent pattern within a genetic sequence using unique pattern indexing and mapping techniques
Nicolas et al. Finding and characterizing repeats in plant genomes
Somboonsak et al. A new edit distance method for finding similarity in Dna sequence
Turing Biological sequences and the exact string matching problem
Bannai et al. Finding optimal pairs of patterns
Biswas et al. PR2S2Clust: patched rna-seq read segments’ structure-oriented clustering
Alipanahi Variants and Applications of Colored De Bruijn Graphs
Palopoli et al. Discovering frequent structured patterns from string databases: an application to biological sequences
Sayood et al. Pairwise Sequence Alignment
Blassel From sequences to knowledge, improving and learning from sequence alignments
US20050060321A1 (en) Discovering permutation patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant