CN106022000B - 一种基于压缩和聚类的批量蛋白质同源性搜索方法 - Google Patents
一种基于压缩和聚类的批量蛋白质同源性搜索方法 Download PDFInfo
- Publication number
- CN106022000B CN106022000B CN201610309077.6A CN201610309077A CN106022000B CN 106022000 B CN106022000 B CN 106022000B CN 201610309077 A CN201610309077 A CN 201610309077A CN 106022000 B CN106022000 B CN 106022000B
- Authority
- CN
- China
- Prior art keywords
- seed
- entry
- sequence
- key
- mappings
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 62
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 62
- 238000007906 compression Methods 0.000 title claims abstract description 30
- 230000006835 compression Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 68
- 150000001413 amino acids Chemical class 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 10
- 125000000539 amino acid group Chemical group 0.000 claims description 8
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 6
- 230000006837 decompression Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 claims 2
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 claims 1
- 239000002253 acid Substances 0.000 claims 1
- 229910021529 ammonia Inorganic materials 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000003252 repetitive effect Effects 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 241001282153 Scopelogadus mizolepis Species 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005422 blasting Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于压缩和聚类的批量蛋白质同源性搜索方法,属于计算机应用技术与生物技术的交叉领域。该方法充分利用了蛋白质数据库序列和查询序列中存在的序列相似信息,首先对查询序列和蛋白质数据库通过冗余分析和冗余移除过程进行压缩操作;进而对压缩后的蛋白质数据库进行相似子序列聚类,然后在聚类数据库基础上利用映射原理进行查找以发现潜在的结果,并根据找到的潜在结果集建立可执行数据库;最后在可执行数据库上进行同源性搜索,以获得最终的同源性序列。本发明的方法通过在构建的可执行数据库上进行同源性搜索,大大减少了重复序列比对和无间隙扩展的时间。
Description
技术领域
本发明属于计算机应用技术与生物技术的交叉领域,涉及一种基于压缩和聚类的批量蛋白质同源性搜索方法。
背景技术
批量蛋白质同源性搜索对分子生物学家来说是一个非常普遍的任务。由于蛋白质序列的指数增长,同源性搜索正面临着一个计算瓶颈。例如,在跨物种的蛋白质识别时,需要在NR数据库中查找与未知序列同源性较高的序列。此外,一些公共的数据库(PDB,NR,SWISSPORT)频繁更新,使得蛋白质同源性搜索的计算代价日益昂贵。同时随着生物信息技术的高速发展,用户利用蛋白质数据库进行同源性搜索的查询频率日益增长。因而针对大规模蛋白质数据库,开发快速批量蛋白质同源性搜索搜索算法与工具是十分必要的。
BLAST(Altschul S F,Gish W,Miller W,et al.Basic local alignment searchtool[J].Journal of molecular biology,1990,215(3):403-410.)算法是针对于单条查询序列的同源性查找,应用其执行批量查询的操作将会花费大量的时间。对于每条查询序列,BLAST算法需要对数据库的每条序列进行相似性比较。由于查询序列集中的序列往往具有局部的高相似性,导致BLAST算法将做大量的冗余计算。目前已有相关的同源性批量查找研究,其中主要的研究体现在以下方法上。MegaBLAST(Morgulis A,Coulouris G,Raytselis Y,et al.Database indexing for production MegaBLAST searches[J].Bioinformatics,2008,24(16):1757-1764.)采用一个贪心的序列比对算法,其速度比传统的BLAST算法快,但在处理较长的查询序列时,该算法在搜索准确性上有一定的局限。MPBLAST算法通过将所有查询序列简单的串联成单条序列,以减少访问查询数据库的次数(Korf I,Gish W.MPBLAST:improved BLAST performance with multiplexed queries[J].Bioinformatics,2000,16(11):1052-1053.)。BLAST++将多个查询序列变成一条虚拟的查询序列,同时创建了一张查询序列的映射结构,从而免去在种子搜索阶段存在重复子序列的查询。上述算法在蛋白质序列的同源性查找研究上取得了一定的进展,但仍未考虑数据库及查询序列集的冗余度。BLAST+吸收了MPBLAST,BLAST++(Wang H,Ong T H,Ooi BC,et al.Blast++:A tool for blasting queries in batches[C]//Proceedings of theFirst Asia-Pacific bioinformatics conference on Bioinformatics 2003-Volume19.Australian Computer Society,Inc.,2003:71-79.),miBLAST(Kim Y J,Boyd A,AtheyB D,et al.miBLAST:scalable evaluation of a batch of nucleotide sequencequeries with BLAST[J].Nucleic acids research,2005,33(13):4335-4344.)和BLAT(Kent W J.BLAT—the BLAST-like alignment tool[J].Genome research,2002,12(4):656-664.)等算法的优点,但是随着数据库的规模持续增长,BLAST+在处理大批量查询所需要的时间花费仍然很大。MpiBLAST(Darling A,Feng W.mpiBLAST:Parallelization ofBLAST for Computational Clusters[J].Proc.of SupercomputingN02,Baltimore,USA,2002.)是从并行处理的角度利用集群来加速同源性搜索。CUDA-BLASTP(Liu W,Schmidt B,Muller-Wittig W.CUDA-BLASTP:accelerating BLASTP on CUDA-enabled graphicshardware[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics(TCBB),2011,8(6):1678-1684.)CUDA-BLASTP利用GPU加速BLASTP的搜索,不适合对大规模数据库的批量同源性查找。最近,RAPSearch(Ye Y,Choi J H,Tang H.RAPSearch:a fastprotein similarity search tool for short reads[J].BMC bioinformatics,2011,12(1):159.)和GHOSTZ(Suzuki S,Kakuta M,Ishida T,et al.Faster sequence homologysearches by clustering subsequences[J].Bioinformatics,2014:btu780.)等新的同源性搜索技术在处理序列的相关信息时,需要消耗比数据库本身更大的内存空间和存储空间,因此批量蛋白质同源性搜索仍然是一个极具挑战性的问题。
发明内容
本发明为了解决现有批量蛋白质同源性搜索存在需要花费大量时间,以及消耗大量内存空间和存储空间的问题,提出了一种基于压缩和聚类的批量蛋白质同源性搜索方法。本发明利用蛋白质数据库序列和查询序列中存在的相似序列信息,首先对查询序列和蛋白质数据库通过冗余分析和冗余移除过程进行压缩操作。进而对压缩后的蛋白质数据库进行相似子序列聚类。然后在聚类数据库基础上利用映射原理进行查找以发现Hits(潜在的结果序列),并根据找到的Hits集建立可执行数据库。最后在可执行数据库上进行同源性搜索,以获得最终的同源性序列。本发明减小了需要查询数据库的规模,从而提高了同源性搜索的效率。
本发明所采用的技术方案如下:
一种基于压缩和聚类的批量蛋白质同源性搜索方法,包括如下步骤:
(1)离线状态下,创建压缩蛋白质数据库
1)从左向右扫描一条蛋白质序列,创建一个key-entry映射集
映射集的每个key-entry映射中,key是由4-6个氨基酸组成的蛋白质序列片段,entry包括三个属性:序列号、起始氨基酸位置、指向下一条序列的指针。
2)从左到右扫描一条新的蛋白质序列,该新的蛋白质序列片段同样由4-6个氨基酸组成。应用Needleman-Wunsch算法,对每个新的蛋白质序列片段和上述创建的key进行相似性比较,如果发现新的蛋白质序列片段和上述的key相似性超过80%时,则删除该片段,并把不同之处记录在脚本中;否则就用新的蛋白质序列片段,创建另外一个key并建立相应的entry。
3)创建一个压缩蛋白质数据库,包含了其所有key-entry映射和脚本信息;创建一个压缩查询序列集,包含了其所有key-entry映射和脚本信息。
(2)离线状态下,创建上述压缩蛋白质数据库的聚类数据库
1)创建一个key-entry映射C,首先确定其key的长度,使用BLOSUM62矩阵产生10个缩减的氨基酸组(A,{K,R},{E,D,N,Q},C,G,H,{I,L,V,M},{F,Y,W},P,{S,T}),并且选取矩阵的最高得分来代表相应氨基酸组的罚分,依据罚分限定key是由6-9个氨基酸组成的一个新的蛋白质序列片段;key-entry映射C中的entry是由序列号、起始氨基酸位置、指向下一条序列的指针三个属性组成;从左向右扫描压缩蛋白质数据库中的蛋白质序列,其每个新片段创建一个key并建立相应的entry。
2)创建seed-entry映射1,首先确定seed的长度,seed根据key-entry映射C中key的起始位置分别向左右扩展5个氨基酸,其长度为10;由汉明距离计算,同一个key产生的不同seed的相似性,相似性超过90%的seed被聚在一个簇中,每一个簇选择一个代表seed,其他都为成员seed;seed-entry映射1中的seed为代表seed;seed-entry映射1中的entry是由簇ID和代表seed的位置两个属性组成。
3)创建seed-entry映射2,其seed为上述簇中其它所有的成员seed,各成员seed都与代表seed链接,seed-entry映射2中的entry是由簇ID和成员seed的位置组成。
(3)构建可执行数据库并进行蛋白质同源性批量搜索
1)根据上述的压缩查询序列集,创建一个与上述的seed-entry映射1同样结构的seed-entry映射3,将seed-entry映射1中key的起始位置替换为压缩查询序列集key-entry映射中key的起始位置,其余方式与创建seed-entry映射1相同。
2)获得Hits,首先将seed-entry映射3和上述的seed-entry映射1进行比较,如果相同,两个映射中的seed将会根据其映射结构里的entry还原成原始序列片段;进而计算seed-entry映射3和seed-entry映射1还原成原始序列片段之间的相似性;如果相似性超过80%,则由seed-entry映射1还原成的原始序列片段进行无间隙扩展,再进行有间隙扩展,得到Hits1。
随之根据seed-entry映射2结构里的entry将其seed还原成原始序列片段;计算seed-entry映射3和seed-entry映射2还原成原始序列片段之间的相似性;如果相似性超过80%,则由seed-entry映射2还原成的原始序列片段进行无间隙扩展,再进行有间隙扩展,得到Hits2。
Hits由上述Hits1和Hits2组成;根据压缩阶段建立的脚本文件对Hits进行解压操作,Hits解压之后的序列集与查询序列集同源性较为接近,利用该序列集重建一个适合BLAST算法的可执行数据库。
3)利用BLAST+工具对上述可执行数据库进行同源性搜索。
本发明的有益效果是该解决方案通过在构建的可执行数据库上进行同源性搜索,大大减少了重复序列比对和无间隙扩展的时间。
附图说明
附图1是Key-entry结构示意图。
附图2是冗余移除示意图。
附图3是压缩过程示意图。
附图4是执行数据库产生过程示意图。
附图5是该方法流程图。
具体实施方式
以下结合技术方案和附图详细说明本发明的具体实施方式。
该访求主要包含蛋白质序列压缩,聚类和批量搜索三个阶段。
1、离线状态压缩查询序列和蛋白质数据库序列的具体步骤如下:
1)从左向右扫描一条蛋白质序列,创建一个key-entry映射集,如图1所示,映射集的每个key-entry映射中,key是由5个氨基酸组成的蛋白质序列片段,entry包括三个属性:序列号、起始氨基酸位置、指向下一条序列的指针。
2)从左到右扫描一条新的蛋白质序列,该新的蛋白质序列片段同样由4-6个氨基酸组成;应用Needleman-Wunsch算法,对每个新的蛋白质序列片段和上述创建的key进行相似性比较;如果发现新的蛋白质序列片段和上述的key相似性超过80%时,则删除该片段,并把不同之处记录在脚本中;否则就用新的蛋白质序列片段,创建另外一个key并建立相应的entry。
3)创建一个压缩蛋白质数据库,包含了其所有key-entry映射和脚本信息;创建一个压缩查询序列集,包含了其所有key-entry映射和脚本信息。
以上的压缩过程包括了冗余分析,冗余移除和差别记录。冗余分析是通过key-entry映射和匹配得出的。图2给出了冗余情况下移除冗余的过程,Q1到Q6是查询序列或者蛋白质数据库中的6条序列。阴影片段代表相似性超过80%的序列片段;Q2′是截断Q2尾部片段b2产生的;Q3′是删除掉b3之后连接a3和c3得到的;Q4′是删除Q4中相似片段b4得出的;Q5完全被移除了;Q6被完全保留下来。此外,为保证序列信息的完整性,创建了一个脚本文件来记录相似序列间的差别(小于20%)。图3阐述了两个相似子序列的压缩过程,其中,序列a和序列b是两条来自原始序列集中的序列,它们由共同的key-‘SERGK’关联在一起,在key之后的序列片段的相似性超过80%,在压缩后的数据库中序列b将被截断形成新的序列。为了避免丢失掉删除片段的伪冗余部分,删除部分的差别由脚本文件记录。记录中保存了序列位置信息以及删除的片段与簇代表序列的差异信息。例如,‘a,15,43’表示该簇的代表序列是a,以及相似的部分是第15到43个氨基酸之间的序列片段。‘r6L,r8A,r3V,i5D’表示两个序列片段之间的差异。小写字母表示匹配过程中的3个不同的操作,分别是替换(r),插入(i)和删除(d)。数字代表了离上一个差异位置间的距离或者是离key起始点的距离。大写的字母则表示了被压缩片段相应位置的实际氨基酸。通过脚本所记录的信息可以由压缩序列还原原始序列。压缩之后的序列集是以FASTA格式存储的。
2、压缩阶段虽已降低查询序列集和蛋白质数据库的冗余。然而随着蛋白质序列的快速增长,压缩完以后的蛋白质序列仍然规模庞大。所以需要聚类,离线状态聚类上述压缩蛋白质数据库的具体步骤如下:
创建聚类数据库由创建一个key-entry映射C(Key finding),创建seed-entry映射1(Seed generation)和创建seed-entry映射2(Clustering)三个过程组成,如图4所示。
1)创建一个key-entry映射C,首先确定key的长度,为了提高序列匹配的敏感度和选择性,使用BLOSUM62矩阵产生10个缩减的氨基酸组(A,{K,R},{E,D,N,Q},C,G,H,{I,L,V,M},{F,Y,W},P,{S,T}),替代原有的20个氨基酸。用氨基酸组表示可以使相似的氨基酸隐含的聚在一起。研究已表明当key取6-9的长度将会取得较好的效果。并且选取矩阵的最高得分来代表相应氨基酸组的罚分,罚分之和的阈值依据6-9个氨基酸的长度设为39,依据罚分限定key是由6-9个氨基酸组成的一个新的蛋白质序列片段。key-entry映射中的entry是由序列号、起始氨基酸位置、指向下一条序列的指针三个属性组成;从左向右扫描压缩蛋白质数据库中的蛋白质序列,其每个新片段创建一个key并建立相应的entry。
2)创建seed-entry映射1,首先确定seed的长度,seed根据key-entry映射C中key的起始位置分别向左右扩展5个氨基酸,其长度为10;由汉明距离计算,同一个key产生的不同seed的相似性,相似性超过90%的seed被聚在一个簇中,每一个簇选择一个代表seed,其他都为成员seed;seed-entry映射1中的seed为代表seed;seed-entry映射1中的entry是由簇ID和代表seed的位置两个属性组成。
3)创建seed-entry映射2(聚类数据库),其seed为上述簇中其它所有的成员seed,各成员seed都与代表seed链接,seed-entry映射2中的entry是由簇ID和成员seed的位置组成。
3、构建可执行数据库并进行蛋白质同源性批量搜索
在离线情况下,根据上文压缩和聚类步骤生成聚类数据库。当蛋白质数据库定期更新的时候聚类数据库需要随之更新。针对一个给定的查询序列集,本发明的主要思想是从聚类数据库中尽可能找到潜在的同源性序列,并由此构造一个规模较小的可执行数据库进行批量搜索。
1)根据上述的压缩查询序列集创建一个与上述的seed-entry映射1同样结构的seed-entry映射3,将seed-entry映射1中key的起始位置替换为压缩查询序列集key-entry映射中key的起始位置,其余方式与创建seed-entry映射1相同。
2)获得Hits,首先将seed-entry映射3和上述的seed-entry映射1进行比较,如果相同,两个映射中的seed将会根据映射结构里的entry还原成原始序列片段;进而计算seed-entry映射3和seed-entry映射1还原成原始序列片段之间的相似性;如果相似性超过80%,则由seed-entry映射1还原成的原始序列片段先进行无间隙扩展,再进行有间隙扩展,得到Hits1。
随之根据seed-entry映射2结构里的entry将其seed还原成原始序列片段;计算seed-entry映射3和seed-entry映射2还原成原始序列片段之间的相似性;如果相似性超过80%,则由seed-entry映射2还原成的原始序列片段先进行无间隙扩展,再进行有间隙扩展,得到Hits2。
考虑到即使相似性低于阈值80%,查询序列也有可能与成员序列相似。为提高精度,用三角不等式(1)进行评估
d(Sq,Sm)≥d(Sq,Sr)-d(Sr,Sm) (1)
Sq,Sm,Sr分别代表查询序列的seed,成员序列seed和代表序列seed,d(S1,S2)表示种子S1和种子S2的距离。由于聚类阈值设定为90%,故d(Sr,Sm)的最大值为1。进而可以得到Sq和Sm的距离下限。如果下限小于Ts,则认定查询seed与成员seed可能相似。因此仍需要进行无间隙扩展和有间隙扩展得到潜在的Hits。
Hits由上述Hits1和Hits2组成。由于得到的Hits序列都是来源于压缩之后的数据库序列集,在进行同源性搜索之前根据压缩阶段建立的脚本文件对Hits进行解压操作,Hits解压之后的序列集与查询序列集同源性较为接近,利用该序列集重建一个适合BLAST算法的可执行数据库。
3)利用NCBI提供的BLAST+工具对上述可执行数据库进行同源性搜索,如图5所示。
Claims (1)
1.一种基于压缩和聚类的批量蛋白质同源性搜索方法,其特征在于,该方法包括如下步骤:
(1)离线状态下,创建压缩蛋白质数据库
1)从左向右扫描一条蛋白质序列,创建一个key-entry映射集
映射集的每个key-entry映射中,key是由4-6个氨基酸组成的蛋白质序列片段,entry包括三个属性:序列号、起始氨基酸位置、指向下一条序列的指针;
2)从左到右扫描一条新的蛋白质序列,该新的蛋白质序列片段同样由4-6个氨基酸组成;应用Needleman-Wunsch算法,对每个新的蛋白质序列片段和上述创建的key进行相似性比较;如果发现新的蛋白质序列片段和上述的key相似性超过80%时,则删除新的蛋白质序列片段,并把不同之处记录在脚本中;否则就用新的蛋白质序列片段,创建另外一个key并建立相应的entry;
3)创建一个压缩蛋白质数据库,包含了所有key-entry映射和脚本信息;
创建一个压缩查询序列集,包含了所有key-entry映射和脚本信息;
(2)离线状态下,创建上述压缩蛋白质数据库的聚类数据库
1)创建一个key-entry映射C,首先确定其key的长度,使用BLOSUM62矩阵产生10个缩减的氨基酸组(A, {K, R}, {E, D, N, Q}, C, G, H, {I, L, V, M}, {F, Y, W}, P, {S,T}),并且选取矩阵的最高得分来代表相应氨基酸组的罚分,依据罚分限定key是由6-9个氨基酸组成的一个新的蛋白质序列片段;key-entry映射C中的entry是由序列号、起始氨基酸位置、指向下一条序列的指针三个属性组成;从左向右扫描压缩蛋白质数据库中的蛋白质序列,其每个新片段创建一个key并建立相应的entry;
2)创建seed-entry映射1,首先确定seed的长度,seed根据key-entry映射C中key的起始位置分别向左右扩展5个氨基酸,其长度为10;由汉明距离计算同一个key产生的不同seed的相似性,相似性超过90%的seed被聚在一个簇中,每一个簇选择一个代表seed,其他都为成员seed;seed-entry映射1中的seed为代表seed;seed-entry映射1中的entry是由簇ID和代表seed的位置两个属性组成;
3)创建seed-entry映射2,其seed为上述簇中其它所有的成员seed,各成员seed都与代表seed链接,seed-entry映射2中的entry是由簇ID和成员seed的位置组成;
(3)构建可执行数据库并进行蛋白质同源性批量搜索
1)根据上述的压缩查询序列集,创建一个与上述的seed-entry映射1同样结构的seed-entry映射3,将seed-entry映射1中key的起始位置替换为压缩查询序列集key-entry映射中key的起始位置,其余方式与创建seed-entry映射1相同;
2)获得Hits,首先将seed-entry映射3和上述的seed-entry映射1进行比较,如果相同,两个映射中的seed将会根据其映射结构里的entry还原成原始序列片段;进而计算seed-entry映射3和seed-entry映射1还原成原始序列片段之间的相似性;如果相似性超过80%,则由seed-entry映射1还原成的原始序列片段进行无间隙扩展,再进行有间隙扩展,得到Hits1;
随之根据seed-entry映射2结构里的entry将其seed还原成原始序列片段;计算seed-entry映射3和seed-entry映射2还原成原始序列片段之间的相似性;如果相似性超过80%,则由seed-entry映射2还原成的原始序列片段进行无间隙扩展,再进行有间隙扩展,得到Hits2;
Hits由上述Hits1和Hits2组成;根据压缩阶段建立的脚本文件对Hits进行解压操作,Hits解压之后的序列集与压缩查询序列集同源性较为接近,利用Hits解压之后的序列集重建一个适合BLAST算法的可执行数据库;
3)利用BLAST+工具对上述可执行数据库进行同源性搜索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610309077.6A CN106022000B (zh) | 2016-05-11 | 2016-05-11 | 一种基于压缩和聚类的批量蛋白质同源性搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610309077.6A CN106022000B (zh) | 2016-05-11 | 2016-05-11 | 一种基于压缩和聚类的批量蛋白质同源性搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106022000A CN106022000A (zh) | 2016-10-12 |
CN106022000B true CN106022000B (zh) | 2018-06-08 |
Family
ID=57100053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610309077.6A Expired - Fee Related CN106022000B (zh) | 2016-05-11 | 2016-05-11 | 一种基于压缩和聚类的批量蛋白质同源性搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106022000B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709273B (zh) * | 2016-12-15 | 2019-06-18 | 国家海洋局第一海洋研究所 | 微藻蛋白质特征序列标签匹配的快速检测方法及系统 |
CN111243679B (zh) * | 2020-01-15 | 2023-03-31 | 重庆邮电大学 | 微生物群落物种多样性数据的存储检索方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794351A (zh) * | 2010-03-09 | 2010-08-04 | 哈尔滨工业大学 | 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法 |
CN105138864A (zh) * | 2015-09-24 | 2015-12-09 | 大连理工大学 | 基于生物医学文献的蛋白质交互关系数据库构建方法 |
-
2016
- 2016-05-11 CN CN201610309077.6A patent/CN106022000B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794351A (zh) * | 2010-03-09 | 2010-08-04 | 哈尔滨工业大学 | 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法 |
CN105138864A (zh) * | 2015-09-24 | 2015-12-09 | 大连理工大学 | 基于生物医学文献的蛋白质交互关系数据库构建方法 |
Non-Patent Citations (2)
Title |
---|
基于序列与结构域相似性的蛋白质直系同源聚类研究;任菲等;《中国现代医学杂志》;20120930;第22卷(第27期);第15-18页 * |
雏鸭肝炎病毒侵染下肝脏消减cDNA文库的构建及差异基因筛选;李秀等;《畜牧兽医学报》;20121231;第43卷(第2期);第211-219页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106022000A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106687966B (zh) | 用于数据分析和压缩的方法和系统 | |
Hu et al. | Mining Protein Contact Maps. | |
Phoophakdee et al. | Genome-scale disk-based suffix tree indexing | |
US10810239B2 (en) | Sequence data analyzer, DNA analysis system and sequence data analysis method | |
Haque et al. | Pairwise sequence alignment algorithms: a survey | |
Kuruppu et al. | Reference sequence construction for relative compression of genomes | |
CN109712674B (zh) | 注释数据库索引结构、快速注释遗传变异的方法及系统 | |
CN106022000B (zh) | 一种基于压缩和聚类的批量蛋白质同源性搜索方法 | |
Cogo et al. | Genodedup: Similarity-based deduplication and delta-encoding for genome sequencing data | |
Ge et al. | Fast batch searching for protein homology based on compression and clustering | |
Farzana Zerin et al. | A fast contiguous sequential pattern mining technique in DNA data sequences using position information | |
Pan et al. | Efficient algorithms for mining maximal frequent concatenate sequences in biological datasets | |
Poleksic | Optimal pairwise alignment of fixed protein structures in subquadratic time | |
JP3370787B2 (ja) | 文字配列検索方法 | |
Ye | A decomposition and dominance-based multiobjective artificial bee colony algorithm for multiple sequence alignment | |
Lotero et al. | UdeAlignC: fast alignment for the compression of DNA reads | |
JP2005078407A (ja) | データ探索方法、データ探索装置、データ探索プログラム及びそのプログラムを記録した記録媒体 | |
Al-Ssulami et al. | An efficient method for significant motifs discovery from multiple DNA sequences | |
Wang | CSNMG: constructing sequence neighbourhood mapping graphs to compress FASTQ files | |
Fu et al. | LCTD: A lossless compression tool of FASTQ file based on transformation of original file distribution | |
Buckingham et al. | Similarity Projection: A geometric measure for comparison of biological sequences | |
Beal et al. | Compressing genome resequencing data via the maximal longest factor | |
Orzechowski et al. | Parallel approach for visual clustering of protein databases | |
Runthala et al. | Need for a more accurate phylogeny metaserver | |
Layeb et al. | A Hybrid method for effective multiple sequence alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180608 |