CN105574359A

CN105574359A - 一种蛋白质模板库的扩充方法及装置

Info

Publication number: CN105574359A
Application number: CN201510938160.5A
Authority: CN
Inventors: 董启文
Original assignee: SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Current assignee: Information technology of the island of Shanghai (Shanghai) Limited by Share Ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2016-05-11
Anticipated expiration: 2035-12-15
Also published as: CN105574359B

Abstract

本发明公开了一种蛋白质模板库的扩充方法及装置，包括：从已知结构的原始蛋白质模板库中选择初始蛋白质样本，并通过序列对比算法去除初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；通过蛋白质分子设计算法，设计与蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入原始蛋白质模板库，生成初始扩充蛋白质模板库；通过序列对比算法去除初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库，可见，在本实施例中，通过对筛选的蛋白质样本进行设计，能扩充现有蛋白质模板库，增加模板库中蛋白质序列的数量，从而提高蛋白质结构预测的精度及准确率。

Description

一种蛋白质模板库的扩充方法及装置

技术领域

本发明涉及蛋白质结构预测领域，更具体地说，涉及一种蛋白质模板库的扩充方法及装置。

背景技术

在生命活动中，蛋白质扮演着关键性的角色，由于通过实验手段获取蛋白质三维结构的难度和成本很大，因此发展出了各种蛋白质结构预测方法。蛋白质结构预测方法主要分为从头预测和基于模板预测两种类别。相对来说，基于模板的方法准确率比较高，这种方法把已知结构的蛋白质作为模板，通过序列比对的方式，参考已知蛋白质结构来预测未知蛋白质结构，但存在的一个问题是难以从模板库中识别未知结构序列的远程同源序列，制约了预测准确率的提升。远程同源序列的识别，一方面需要有高效精准的识别算法，另一方面需要有足够数量的模板序列供识别算法选择，而目前普遍采用的蛋白质序列模板库中的数据都是通过实验手段测得结构的蛋白质序列，相对于所有待预测序列而言，规模很小。截止2015年11月，蛋白数据库集UniProtKB中包含的蛋白质序列(注释+未注释)有5500万余条，而蛋白质三维结构数据库PDB(proteindatabank)中仅包含11万余个蛋白质结构，因此已知结构的序列仅占整个序列的0.2％不到。基于模板的方法要根据0.2％不到的已知结构序列来预测剩余近99.8％序列的结构，难度可想而知。

因此，如何扩充蛋白质模板库，增加模板库中蛋白质序列的数量，从而提高蛋白质结构预测的精度是现在需要解决的问题。

发明内容

本发明的目的在于提供一种蛋白质模板库的扩充方法及装置，以扩充蛋白质模板库，增加模板库中蛋白质序列的数量，从而提高蛋白质结构预测的精度。

为实现上述目的，本发明实施例提供了如下技术方案：

一种蛋白质模板库的扩充方法，包括：

从已知结构的原始蛋白质模板库中选择初始蛋白质样本，并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；

通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库；

通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库。

优选的，所述通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，包括：

将所述蛋白质样本作为输入，采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计，生成与每个蛋白质序列相对应的多个蛋白质序列。

优选的，所述从已知结构的原始蛋白质模板库中选择初始蛋白质样本，包括：

从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本，并根据所述蛋白质样本的编号，从所述PDB数据库中下载所述蛋白质序列。

优选的，通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本，包括：

通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本。

优选的，将最终保留的蛋白质序列作为扩充蛋白质模板库之后，还包括：

获取目标蛋白质序列；

利用PSI-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列，并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果；

将所述对比结果作为蛋白质结构预测软件包Modeller的输入，采用多模板的方式预测所述目标蛋白质序列的结构。

一种蛋白质模板库的扩充装置，包括：

选择模块，用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本；

第一去除模块，用于通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；

设计模块，用于通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库；

第二去除模块，用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库。

优选的，所述设计模块通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，具体包括：

优选的，所述选择模块具体用于：

优选的，所述第一去除模块具体用于：

优选的，还包括：

获取模块，用于获取目标蛋白质序列；

同源蛋白质序列获取模块，用于利用PSI-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列，并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果；

蛋白质序列结构预测模块，用于将所述对比结果作为蛋白质结构预测软件包Modeller的输入，采用多模板的方式预测所述目标蛋白质序列的结构。

通过以上方案可知，本发明实施例提供的一种蛋白质模板库的扩充方法及装置，包括：从已知结构的原始蛋白质模板库中选择初始蛋白质样本，并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库；通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库，可见，在本实施例中，通过对筛选的蛋白质样本进行设计，能扩充现有蛋白质模板库，增加模板库中蛋白质序列的数量，从而提高蛋白质结构预测的精度及准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种蛋白质模板库的扩充方法流程示意图；

图2为本发明实施例公开的一种蛋白质模板库的扩充装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种蛋白质模板库的扩充方法及装置，以扩充蛋白质模板库，增加模板库中蛋白质序列的数量，从而提高蛋白质结构预测的精度。

参见图1，本发明实施例提供的一种蛋白质模板库的扩充方法，包括：

S101、从已知结构的原始蛋白质模板库中选择初始蛋白质样本，并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；

其中，所述从已知结构的原始蛋白质模板库中选择初始蛋白质样本，包括：

在本实施例中为了保证扩充模板库具有充分的覆盖率，要在已知结构的原始蛋白质模板库中均匀地、充分地选取蛋白质结构作为样本，这些样本要覆盖各种蛋白质结构类型。具体可以根据SCOP蛋白质结构分类体系，选取若干个折叠作为原始样本数据，选取的原始蛋白质结构均匀地覆盖整个已知结构数据集，并且由于蛋白质分子设计程序的输入数据是蛋白质的三维结构信息，因此，为了对样本蛋白质进行设计，需要按照蛋白质编号的名称从PDB数据库下载样本蛋白质的结构数据，作为蛋白质分子设计的初始样本。

其中，通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本，包括：

具体的，鉴于远程同源蛋白质(序列相似度比较低)模板的数量对于基于模板的预测方法价值很大，因此本发明着重选取远程同源蛋白质，需要将序列相似度高的蛋白质去除。在此采用BLAST算法，在样本序列中进行搜索，只保留相似度低于指定阈值(50％)的蛋白质序列，最终保留的序列即为样本蛋白质序列。需要说明的是，在本实施例中的预定阈值可以根据实际情况自定义。

S102、通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库；

具体的，在本实施例中，为了能够充分提高基于模板的蛋白质结构预测方法的准确率，亟需采用合理的方法解决蛋白质序列模板库规模偏小的问题，即只有具备了足够数量和高质量的模板序列，基于模板的预测方法才能充分发挥作用。因此，在本实施例提供的蛋白质模板库扩充方法中，首先对蛋白质样本进行均匀的选取，再通过蛋白质分子设计算法设计与蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入原始蛋白质模板库中，以扩充蛋白质模板库，从而可以提高远程同源蛋白识别的精度，提升蛋白质结构预测的准确性。

其中，所述通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，包括：

具体的，Evodesign是基于进化序列谱的蛋白质全新设计方法，利用蛋白质三维结构信息设计蛋白质序列。Evodesign主要包含前期处理、模拟、聚类和选择三个过程。利用Evodesign对同一个蛋白质结构获取多个设计序列，这些序列可以认为是同一个蛋白质结构的不同表现方式，将这些序列在基于模板的蛋白质结构预测中作为比对模板，有助于提升蛋白质同源模板的数量。

S103、通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库。

具体的，在本实施例中将蛋白质样本的结构作为输入，采用蛋白质分子设计算法Evodesign，设计与样本蛋白质结构对应的蛋白质序列，将这些序列加入到原始的序列模板库中，实现序列模板库的扩充。同样，在扩充的序列模板库中用序列比对算法BLAST去除相似度超过50％的蛋白质序列，只保留相似度较低的序列。

获取目标蛋白质序列；

具体的，为了对目标蛋白质序列的结构进行预测，需要搜索出目标蛋白质序列的同源序列，并构造出序列比对结果。在本实施例中采用PSI-BLAST在扩充模板库中寻找目标蛋白质序列的同源蛋白质序列，进而获得目标蛋白质序列与同源蛋白质序列的比对结果。其中，Modeller软件包是一个被广泛使用的同源建模工具，并且同时支持单模板和多模板建模，在用于蛋白质三维结构的同源或者比较建模时，Modeller的输入数据是目标蛋白质序列和同源蛋白质序列的对比结果，Modeller以此为依据对蛋白质进行建模，从而实现了对目标蛋白质的结构预测。

具体的，在本实施例中基于蛋白质样本结构，逆向设计相应的蛋白质序列，从而扩充现有的蛋白质结构模板库，基于扩充的模板库进一步对未知结构的蛋白质序列进行结构预测，从而可探测到远程同源的蛋白质模板，进一步提高蛋白质结构预测的精度。

本发明实施例提供的一种蛋白质模板库的扩充方法，包括：从已知结构的原始蛋白质模板库中选择初始蛋白质样本，并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库；通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库，可见，在本实施例中，通过对筛选的蛋白质样本进行设计，能扩充现有蛋白质模板库，增加模板库中蛋白质序列的数量，从而提高蛋白质结构预测的精度及准确率。

下面对本发明实施例提供的一种蛋白质模板库的扩充装置进行介绍，下文描述的一种蛋白质模板库的扩充装置与上文描述的一种蛋白质模板库的扩充方法可以相互参照。

参见图2，本发明实施例提供的一种蛋白质模板库的扩充装置，包括：

选择模块100，用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本；

第一去除模块200，用于通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；

设计模块300，用于通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库；

第二去除模块400，用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库。

本发明实施例提供的一种蛋白质模板库的扩充装置，包括：选择模块100，用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本；第一去除模块200，用于通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；设计模块300，用于通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库；第二去除模块400，用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库。可见，在本实施例中，通过对筛选的蛋白质样本进行设计，能扩充现有蛋白质模板库，增加模板库中蛋白质序列的数量，从而提高蛋白质结构预测的精度及准确率。

优选的，在本发明提供的另一实施例中，所述设计模块通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，具体包括：

优选的，在本发明提供的另一实施例中，所述选择模块具体用于：

优选的，在本发明提供的另一实施例中，所述第一去除模块具体用于：

优选的，在本发明提供的另一实施例中，本装置还包括：

获取模块，用于获取目标蛋白质序列；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种蛋白质模板库的扩充方法，其特征在于，包括：

2.根据权利要求1所述的扩充方法，其特征在于，所述通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，包括：

3.根据权利要求2所述的扩充方法，其特征在于，所述从已知结构的原始蛋白质模板库中选择初始蛋白质样本，包括：

4.根据权利要求3所述的扩充方法，其特征在于，通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本，包括：

5.根据权利要求1-4中任意一项所述的扩充方法，其特征在于，将最终保留的蛋白质序列作为扩充蛋白质模板库之后，还包括：

获取目标蛋白质序列；

6.一种蛋白质模板库的扩充装置，其特征在于，包括：

7.根据权利要求6所述的扩充装置，其特征在于，所述设计模块通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，具体包括：

8.根据权利要求7所述的扩充装置，其特征在于，所述选择模块具体用于：

9.根据权利要求8所述的扩充装置，其特征在于，所述第一去除模块具体用于：

10.根据权利要求6-9中任意一项所述的扩充装置，其特征在于，还包括：

获取模块，用于获取目标蛋白质序列；