CN106022000B

CN106022000B - 一种基于压缩和聚类的批量蛋白质同源性搜索方法

Info

Publication number: CN106022000B
Application number: CN201610309077.6A
Authority: CN
Inventors: 葛宏伟; 余景洪
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-05-11
Filing date: 2016-05-11
Publication date: 2018-06-08
Anticipated expiration: 2036-05-11
Also published as: CN106022000A

Abstract

本发明公开了一种基于压缩和聚类的批量蛋白质同源性搜索方法，属于计算机应用技术与生物技术的交叉领域。该方法充分利用了蛋白质数据库序列和查询序列中存在的序列相似信息，首先对查询序列和蛋白质数据库通过冗余分析和冗余移除过程进行压缩操作；进而对压缩后的蛋白质数据库进行相似子序列聚类，然后在聚类数据库基础上利用映射原理进行查找以发现潜在的结果，并根据找到的潜在结果集建立可执行数据库；最后在可执行数据库上进行同源性搜索，以获得最终的同源性序列。本发明的方法通过在构建的可执行数据库上进行同源性搜索，大大减少了重复序列比对和无间隙扩展的时间。

Description

一种基于压缩和聚类的批量蛋白质同源性搜索方法

技术领域

本发明属于计算机应用技术与生物技术的交叉领域，涉及一种基于压缩和聚类的批量蛋白质同源性搜索方法。

背景技术

批量蛋白质同源性搜索对分子生物学家来说是一个非常普遍的任务。由于蛋白质序列的指数增长，同源性搜索正面临着一个计算瓶颈。例如，在跨物种的蛋白质识别时，需要在NR数据库中查找与未知序列同源性较高的序列。此外，一些公共的数据库(PDB,NR,SWISSPORT)频繁更新，使得蛋白质同源性搜索的计算代价日益昂贵。同时随着生物信息技术的高速发展，用户利用蛋白质数据库进行同源性搜索的查询频率日益增长。因而针对大规模蛋白质数据库，开发快速批量蛋白质同源性搜索搜索算法与工具是十分必要的。

BLAST(Altschul S F,Gish W,Miller W,et al.Basic local alignment searchtool[J].Journal of molecular biology,1990,215(3):403-410.)算法是针对于单条查询序列的同源性查找，应用其执行批量查询的操作将会花费大量的时间。对于每条查询序列，BLAST算法需要对数据库的每条序列进行相似性比较。由于查询序列集中的序列往往具有局部的高相似性，导致BLAST算法将做大量的冗余计算。目前已有相关的同源性批量查找研究，其中主要的研究体现在以下方法上。MegaBLAST(Morgulis A,Coulouris G,Raytselis Y,et al.Database indexing for production MegaBLAST searches[J].Bioinformatics,2008,24(16):1757-1764.)采用一个贪心的序列比对算法，其速度比传统的BLAST算法快，但在处理较长的查询序列时，该算法在搜索准确性上有一定的局限。MPBLAST算法通过将所有查询序列简单的串联成单条序列，以减少访问查询数据库的次数(Korf I,Gish W.MPBLAST:improved BLAST performance with multiplexed queries[J].Bioinformatics,2000,16(11):1052-1053.)。BLAST++将多个查询序列变成一条虚拟的查询序列，同时创建了一张查询序列的映射结构，从而免去在种子搜索阶段存在重复子序列的查询。上述算法在蛋白质序列的同源性查找研究上取得了一定的进展，但仍未考虑数据库及查询序列集的冗余度。BLAST+吸收了MPBLAST,BLAST++(Wang H,Ong T H,Ooi BC,et al.Blast++:A tool for blasting queries in batches[C]//Proceedings of theFirst Asia-Pacific bioinformatics conference on Bioinformatics 2003-Volume19.Australian Computer Society,Inc.,2003:71-79.),miBLAST(Kim Y J,Boyd A,AtheyB D,et al.miBLAST:scalable evaluation of a batch of nucleotide sequencequeries with BLAST[J].Nucleic acids research,2005,33(13):4335-4344.)和BLAT(Kent W J.BLAT—the BLAST-like alignment tool[J].Genome research,2002,12(4):656-664.)等算法的优点，但是随着数据库的规模持续增长，BLAST+在处理大批量查询所需要的时间花费仍然很大。MpiBLAST(Darling A,Feng W.mpiBLAST:Parallelization ofBLAST for Computational Clusters[J].Proc.of SupercomputingN02,Baltimore,USA,2002.)是从并行处理的角度利用集群来加速同源性搜索。CUDA-BLASTP(Liu W,Schmidt B,Muller-Wittig W.CUDA-BLASTP:accelerating BLASTP on CUDA-enabled graphicshardware[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics(TCBB),2011,8(6):1678-1684.)CUDA-BLASTP利用GPU加速BLASTP的搜索，不适合对大规模数据库的批量同源性查找。最近，RAPSearch(Ye Y,Choi J H,Tang H.RAPSearch:a fastprotein similarity search tool for short reads[J].BMC bioinformatics,2011,12(1):159.)和GHOSTZ(Suzuki S,Kakuta M,Ishida T,et al.Faster sequence homologysearches by clustering subsequences[J].Bioinformatics,2014:btu780.)等新的同源性搜索技术在处理序列的相关信息时，需要消耗比数据库本身更大的内存空间和存储空间，因此批量蛋白质同源性搜索仍然是一个极具挑战性的问题。

发明内容

本发明为了解决现有批量蛋白质同源性搜索存在需要花费大量时间，以及消耗大量内存空间和存储空间的问题，提出了一种基于压缩和聚类的批量蛋白质同源性搜索方法。本发明利用蛋白质数据库序列和查询序列中存在的相似序列信息，首先对查询序列和蛋白质数据库通过冗余分析和冗余移除过程进行压缩操作。进而对压缩后的蛋白质数据库进行相似子序列聚类。然后在聚类数据库基础上利用映射原理进行查找以发现Hits(潜在的结果序列)，并根据找到的Hits集建立可执行数据库。最后在可执行数据库上进行同源性搜索，以获得最终的同源性序列。本发明减小了需要查询数据库的规模，从而提高了同源性搜索的效率。

本发明所采用的技术方案如下：

一种基于压缩和聚类的批量蛋白质同源性搜索方法，包括如下步骤：

(1)离线状态下，创建压缩蛋白质数据库

1)从左向右扫描一条蛋白质序列，创建一个key-entry映射集

映射集的每个key-entry映射中，key是由4-6个氨基酸组成的蛋白质序列片段，entry包括三个属性：序列号、起始氨基酸位置、指向下一条序列的指针。

2)从左到右扫描一条新的蛋白质序列，该新的蛋白质序列片段同样由4-6个氨基酸组成。应用Needleman-Wunsch算法，对每个新的蛋白质序列片段和上述创建的key进行相似性比较，如果发现新的蛋白质序列片段和上述的key相似性超过80％时，则删除该片段，并把不同之处记录在脚本中；否则就用新的蛋白质序列片段，创建另外一个key并建立相应的entry。

3)创建一个压缩蛋白质数据库，包含了其所有key-entry映射和脚本信息；创建一个压缩查询序列集，包含了其所有key-entry映射和脚本信息。

(2)离线状态下，创建上述压缩蛋白质数据库的聚类数据库

1)创建一个key-entry映射C，首先确定其key的长度，使用BLOSUM62矩阵产生10个缩减的氨基酸组(A,{K,R},{E,D,N,Q},C,G,H,{I,L,V,M},{F,Y,W},P,{S,T})，并且选取矩阵的最高得分来代表相应氨基酸组的罚分，依据罚分限定key是由6-9个氨基酸组成的一个新的蛋白质序列片段；key-entry映射C中的entry是由序列号、起始氨基酸位置、指向下一条序列的指针三个属性组成；从左向右扫描压缩蛋白质数据库中的蛋白质序列，其每个新片段创建一个key并建立相应的entry。

2)创建seed-entry映射1，首先确定seed的长度，seed根据key-entry映射C中key的起始位置分别向左右扩展5个氨基酸，其长度为10；由汉明距离计算，同一个key产生的不同seed的相似性，相似性超过90％的seed被聚在一个簇中，每一个簇选择一个代表seed，其他都为成员seed；seed-entry映射1中的seed为代表seed；seed-entry映射1中的entry是由簇ID和代表seed的位置两个属性组成。

3)创建seed-entry映射2，其seed为上述簇中其它所有的成员seed，各成员seed都与代表seed链接，seed-entry映射2中的entry是由簇ID和成员seed的位置组成。

(3)构建可执行数据库并进行蛋白质同源性批量搜索

1)根据上述的压缩查询序列集，创建一个与上述的seed-entry映射1同样结构的seed-entry映射3，将seed-entry映射1中key的起始位置替换为压缩查询序列集key-entry映射中key的起始位置，其余方式与创建seed-entry映射1相同。

2)获得Hits，首先将seed-entry映射3和上述的seed-entry映射1进行比较，如果相同，两个映射中的seed将会根据其映射结构里的entry还原成原始序列片段；进而计算seed-entry映射3和seed-entry映射1还原成原始序列片段之间的相似性；如果相似性超过80％，则由seed-entry映射1还原成的原始序列片段进行无间隙扩展，再进行有间隙扩展，得到Hits1。

随之根据seed-entry映射2结构里的entry将其seed还原成原始序列片段；计算seed-entry映射3和seed-entry映射2还原成原始序列片段之间的相似性；如果相似性超过80％，则由seed-entry映射2还原成的原始序列片段进行无间隙扩展，再进行有间隙扩展，得到Hits2。

Hits由上述Hits1和Hits2组成；根据压缩阶段建立的脚本文件对Hits进行解压操作，Hits解压之后的序列集与查询序列集同源性较为接近，利用该序列集重建一个适合BLAST算法的可执行数据库。

3)利用BLAST+工具对上述可执行数据库进行同源性搜索。

本发明的有益效果是该解决方案通过在构建的可执行数据库上进行同源性搜索，大大减少了重复序列比对和无间隙扩展的时间。

附图说明

附图1是Key-entry结构示意图。

附图2是冗余移除示意图。

附图3是压缩过程示意图。

附图4是执行数据库产生过程示意图。

附图5是该方法流程图。

具体实施方式

以下结合技术方案和附图详细说明本发明的具体实施方式。

该访求主要包含蛋白质序列压缩，聚类和批量搜索三个阶段。

1、离线状态压缩查询序列和蛋白质数据库序列的具体步骤如下：

1)从左向右扫描一条蛋白质序列，创建一个key-entry映射集，如图1所示，映射集的每个key-entry映射中，key是由5个氨基酸组成的蛋白质序列片段，entry包括三个属性：序列号、起始氨基酸位置、指向下一条序列的指针。

2)从左到右扫描一条新的蛋白质序列，该新的蛋白质序列片段同样由4-6个氨基酸组成；应用Needleman-Wunsch算法，对每个新的蛋白质序列片段和上述创建的key进行相似性比较；如果发现新的蛋白质序列片段和上述的key相似性超过80％时，则删除该片段，并把不同之处记录在脚本中；否则就用新的蛋白质序列片段，创建另外一个key并建立相应的entry。

以上的压缩过程包括了冗余分析，冗余移除和差别记录。冗余分析是通过key-entry映射和匹配得出的。图2给出了冗余情况下移除冗余的过程，Q1到Q6是查询序列或者蛋白质数据库中的6条序列。阴影片段代表相似性超过80％的序列片段；Q2′是截断Q2尾部片段b2产生的；Q3′是删除掉b3之后连接a3和c3得到的；Q4′是删除Q4中相似片段b4得出的；Q5完全被移除了；Q6被完全保留下来。此外，为保证序列信息的完整性，创建了一个脚本文件来记录相似序列间的差别(小于20％)。图3阐述了两个相似子序列的压缩过程，其中，序列a和序列b是两条来自原始序列集中的序列，它们由共同的key-‘SERGK’关联在一起，在key之后的序列片段的相似性超过80％，在压缩后的数据库中序列b将被截断形成新的序列。为了避免丢失掉删除片段的伪冗余部分，删除部分的差别由脚本文件记录。记录中保存了序列位置信息以及删除的片段与簇代表序列的差异信息。例如，‘a,15,43’表示该簇的代表序列是a，以及相似的部分是第15到43个氨基酸之间的序列片段。‘r6L,r8A,r3V,i5D’表示两个序列片段之间的差异。小写字母表示匹配过程中的3个不同的操作，分别是替换(r)，插入(i)和删除(d)。数字代表了离上一个差异位置间的距离或者是离key起始点的距离。大写的字母则表示了被压缩片段相应位置的实际氨基酸。通过脚本所记录的信息可以由压缩序列还原原始序列。压缩之后的序列集是以FASTA格式存储的。

2、压缩阶段虽已降低查询序列集和蛋白质数据库的冗余。然而随着蛋白质序列的快速增长，压缩完以后的蛋白质序列仍然规模庞大。所以需要聚类，离线状态聚类上述压缩蛋白质数据库的具体步骤如下：

创建聚类数据库由创建一个key-entry映射C(Key finding)，创建seed-entry映射1(Seed generation)和创建seed-entry映射2(Clustering)三个过程组成，如图4所示。

1)创建一个key-entry映射C，首先确定key的长度，为了提高序列匹配的敏感度和选择性，使用BLOSUM62矩阵产生10个缩减的氨基酸组(A,{K,R},{E,D,N,Q},C,G,H,{I,L,V,M},{F,Y,W},P,{S,T})，替代原有的20个氨基酸。用氨基酸组表示可以使相似的氨基酸隐含的聚在一起。研究已表明当key取6-9的长度将会取得较好的效果。并且选取矩阵的最高得分来代表相应氨基酸组的罚分，罚分之和的阈值依据6-9个氨基酸的长度设为39，依据罚分限定key是由6-9个氨基酸组成的一个新的蛋白质序列片段。key-entry映射中的entry是由序列号、起始氨基酸位置、指向下一条序列的指针三个属性组成；从左向右扫描压缩蛋白质数据库中的蛋白质序列，其每个新片段创建一个key并建立相应的entry。

3)创建seed-entry映射2(聚类数据库)，其seed为上述簇中其它所有的成员seed，各成员seed都与代表seed链接，seed-entry映射2中的entry是由簇ID和成员seed的位置组成。

3、构建可执行数据库并进行蛋白质同源性批量搜索

在离线情况下，根据上文压缩和聚类步骤生成聚类数据库。当蛋白质数据库定期更新的时候聚类数据库需要随之更新。针对一个给定的查询序列集，本发明的主要思想是从聚类数据库中尽可能找到潜在的同源性序列，并由此构造一个规模较小的可执行数据库进行批量搜索。

1)根据上述的压缩查询序列集创建一个与上述的seed-entry映射1同样结构的seed-entry映射3，将seed-entry映射1中key的起始位置替换为压缩查询序列集key-entry映射中key的起始位置，其余方式与创建seed-entry映射1相同。

2)获得Hits，首先将seed-entry映射3和上述的seed-entry映射1进行比较，如果相同，两个映射中的seed将会根据映射结构里的entry还原成原始序列片段；进而计算seed-entry映射3和seed-entry映射1还原成原始序列片段之间的相似性；如果相似性超过80％，则由seed-entry映射1还原成的原始序列片段先进行无间隙扩展，再进行有间隙扩展，得到Hits1。

随之根据seed-entry映射2结构里的entry将其seed还原成原始序列片段；计算seed-entry映射3和seed-entry映射2还原成原始序列片段之间的相似性；如果相似性超过80％，则由seed-entry映射2还原成的原始序列片段先进行无间隙扩展，再进行有间隙扩展，得到Hits2。

考虑到即使相似性低于阈值80％，查询序列也有可能与成员序列相似。为提高精度，用三角不等式(1)进行评估

d(S_q,S_m)≥d(S_q,S_r)-d(S_r,S_m) (1)

S_q,S_m，S_r分别代表查询序列的seed，成员序列seed和代表序列seed，d(S₁，S₂)表示种子S₁和种子S₂的距离。由于聚类阈值设定为90％，故d(S_r,S_m)的最大值为1。进而可以得到S_q和S_m的距离下限。如果下限小于T_s，则认定查询seed与成员seed可能相似。因此仍需要进行无间隙扩展和有间隙扩展得到潜在的Hits。

Hits由上述Hits1和Hits2组成。由于得到的Hits序列都是来源于压缩之后的数据库序列集，在进行同源性搜索之前根据压缩阶段建立的脚本文件对Hits进行解压操作，Hits解压之后的序列集与查询序列集同源性较为接近，利用该序列集重建一个适合BLAST算法的可执行数据库。

3)利用NCBI提供的BLAST+工具对上述可执行数据库进行同源性搜索,如图5所示。

Claims

1.一种基于压缩和聚类的批量蛋白质同源性搜索方法，其特征在于，该方法包括如下步骤：

（1）离线状态下，创建压缩蛋白质数据库

1）从左向右扫描一条蛋白质序列，创建一个key-entry映射集

映射集的每个key-entry映射中，key是由4-6个氨基酸组成的蛋白质序列片段，entry包括三个属性：序列号、起始氨基酸位置、指向下一条序列的指针；

2）从左到右扫描一条新的蛋白质序列，该新的蛋白质序列片段同样由4-6个氨基酸组成；应用Needleman-Wunsch算法，对每个新的蛋白质序列片段和上述创建的key进行相似性比较；如果发现新的蛋白质序列片段和上述的key相似性超过80%时，则删除新的蛋白质序列片段，并把不同之处记录在脚本中；否则就用新的蛋白质序列片段，创建另外一个key并建立相应的entry；

3）创建一个压缩蛋白质数据库，包含了所有key-entry映射和脚本信息；

创建一个压缩查询序列集，包含了所有key-entry映射和脚本信息；

（2）离线状态下，创建上述压缩蛋白质数据库的聚类数据库

1）创建一个key-entry映射C，首先确定其key的长度，使用BLOSUM62矩阵产生10个缩减的氨基酸组(A, {K, R}, {E, D, N, Q}, C, G, H, {I, L, V, M}, {F, Y, W}, P, {S,T})，并且选取矩阵的最高得分来代表相应氨基酸组的罚分，依据罚分限定key是由6-9个氨基酸组成的一个新的蛋白质序列片段；key-entry映射C中的entry是由序列号、起始氨基酸位置、指向下一条序列的指针三个属性组成；从左向右扫描压缩蛋白质数据库中的蛋白质序列，其每个新片段创建一个key并建立相应的entry；

2）创建seed-entry映射1，首先确定seed的长度，seed根据key-entry映射C中key的起始位置分别向左右扩展5个氨基酸，其长度为10；由汉明距离计算同一个key产生的不同seed的相似性，相似性超过90%的seed被聚在一个簇中，每一个簇选择一个代表seed，其他都为成员seed；seed-entry映射1中的seed为代表seed；seed-entry映射1中的entry是由簇ID和代表seed的位置两个属性组成；

3）创建seed-entry映射2，其seed为上述簇中其它所有的成员seed，各成员seed都与代表seed链接，seed-entry映射2中的entry是由簇ID和成员seed的位置组成；

（3）构建可执行数据库并进行蛋白质同源性批量搜索

1）根据上述的压缩查询序列集，创建一个与上述的seed-entry映射1同样结构的seed-entry映射3，将seed-entry映射1中key的起始位置替换为压缩查询序列集key-entry映射中key的起始位置，其余方式与创建seed-entry映射1相同；

2）获得Hits，首先将seed-entry映射3和上述的seed-entry映射1进行比较，如果相同，两个映射中的seed将会根据其映射结构里的entry还原成原始序列片段；进而计算seed-entry映射3和seed-entry映射1还原成原始序列片段之间的相似性；如果相似性超过80%，则由seed-entry映射1还原成的原始序列片段进行无间隙扩展，再进行有间隙扩展，得到Hits1；

随之根据seed-entry映射2结构里的entry将其seed还原成原始序列片段；计算seed-entry映射3和seed-entry映射2还原成原始序列片段之间的相似性；如果相似性超过80%，则由seed-entry映射2还原成的原始序列片段进行无间隙扩展，再进行有间隙扩展，得到Hits2；

Hits由上述Hits1和Hits2组成；根据压缩阶段建立的脚本文件对Hits进行解压操作，Hits解压之后的序列集与压缩查询序列集同源性较为接近，利用Hits解压之后的序列集重建一个适合BLAST算法的可执行数据库；

3）利用BLAST+工具对上述可执行数据库进行同源性搜索。