CN110111837A

CN110111837A - 基于两阶段结构比对的蛋白质相似性的搜索方法及系统

Info

Publication number: CN110111837A
Application number: CN201910222924.9A
Authority: CN
Inventors: 邓磊; 钟国伦; 唐勇军
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-08-09
Anticipated expiration: 2039-03-22
Also published as: CN110111837B

Abstract

本发明公开了一种基于两阶段结构比对的蛋白质相似性的搜索方法及系统，该方法包括：读取用户输入的多个蛋白质结构文件；将多个蛋白质结构文件进行两两配对，并提取每个蛋白质结构文件的二级结构，计算每组配对的二级结构的相似性，将所有相似性符合第一条件的配对集合为第一结果集；读取第一结果集中的蛋白质结构文件中的所有残基的三维坐标信息，根据残基的三维坐标进行第二次相似性比对，输出残基的相似信息和残基总体相似度值。本发明采用两阶段结构比对，每个阶段均可在多个CPU核心上进行并行计算，用户可在更短的时间内比对更多的蛋白质结构，节约了时间成本。

Description

基于两阶段结构比对的蛋白质相似性的搜索方法及系统

技术领域

本发明涉及蛋白质结构比对领域，尤其涉及一种基于两阶段结构比对的蛋白质相似性的搜索方法及系统。

背景技术

当前蛋白质数据库日益增长，蛋白质结构越来越复杂，传统的精确相似性搜索方法速度较慢，消耗计算资源大，步骤繁琐复杂，因此如何从大规模蛋白质序列中搜索相似性结构，提高蛋白质结构搜索效率是本领域技术人员关注的重点问题。

目前常用的搜索方法涉及并行计算、动态规划等计算机搜索算法，以及ProteinData Bank数据库。

并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机，也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理，再将处理的结果返回给用户。该算法利用的并行计算工具是C++标准并发库，它的功能比较完善，在多个操作系统的通用性好，对多核心处理器的利用率高，性能优越，相对于传统的顺序串行执行模型有很大的效率提升。

动态规划(dynamic programming)是运筹学的一个分支，是求解决策过程最优化的数学方法。如果问题是由交叠的子问题所构成，我们就可以用动态规划技术来解决它，一般来说，这样的子问题出现在对给定问题求解的递推关系中，这个递推关系包含了相同问题的更小子问题的解。动态规划法建议，与其对交叠子问题一次又一次的求解，不如把每个较小子问题只求解一次并把结果记录在表中，这样就可以从表中得到原始问题的解。在蛋白质结构比对中，动态规划是一种广泛运用的思想，本申请也使用了与之有关的最长公共子序列方法、结构评分矩阵等。

Protein Data Bank(PDB)是一个庞大的常用蛋白质数据库，包含了大量的蛋白质三维结构信息，一般用pdb文件存储，这些数据通常是通过x射线晶体学、核磁共振波谱学或低温电子显微镜学获得的，由来自世界各地的生物学家和生物化学家提交。PDB是结构生物学领域的关键资源，许多其他数据库使用储存在PDB中的蛋白质结构。

发明内容

本发明提供了一种基于两阶段结构比对的蛋白质相似性的搜索方法及系统，用以解决传统的精确相似性搜索方法速度较慢，消耗计算资源大，步骤繁琐复杂的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种基于两阶段结构比对的蛋白质相似性的搜索方法，包括以下步骤：

读取用户输入的多个蛋白质结构文件；

将多个蛋白质结构文件进行两两配对，并提取每个蛋白质结构文件的二级结构，计算每组配对的二级结构的相似性，将所有相似性符合第一条件的配对集合为第一结果集；

读取第一结果集中的蛋白质结构文件中的所有残基的三维坐标信息，根据残基的三维坐标进行第二次相似性比对，输出残基的相似信息和残基总体相似度值。

作为本发明的方法的进一步改进：

优选地，计算每组配对的二级结构的相似性，包括：每组配对独立地并行执行相应二级结构字符串的最长公共子序列动态规划算法，算出一对二级结构间的最长公共子序列的长度。

优选地，相似性符合第一条件的配对为最长公共子序列的长度不小于阈值的配对。

优选地，阈值为配对中较短的二级结构的长度的70％。

优选地，第一结果集中的配对表示为二级结构种类的字符串，读取第一结果集中的蛋白质结构文件中的所有残基的信息表示为残基信息的列表。

优选地，根据残基的三维坐标进行第二次相似性比对，包括以下步骤：

针对每一组配对，根据残基数目将蛋白质结构文件分别命名，将包含残基数目较少的蛋白质结构文件作为模板结构，将包含残基数目较多的蛋白质结构文件作为恒定结构；

将模板结构的蛋白质做出平移和旋转操作，使得恒定结构中和模板结构等长的从恒定结构的首个氨基酸位置开始的片段的均方根误差最小化；

构造初步比对结果，并计算出初步比对结果的残基的相似度值；

每一步移动恒定结构的一个氨基酸位置；

重复以上步骤，最终使得整个模板结构完全覆盖到恒定结构的每一个位置，选取具有最高的残基的相似度值的比对结果并记录对应的比对位置；

将模板结构分组分割成多个子片段组，重复以上过程，将获得的比对结果重新按顺序拼接完整，在所有的子片段组与完整的模板结构产生的完整比对结果中选取获取到的最高的相似度值的比对结果和比对位置作为结果。

优选地，构造初步比对结果是通过使用一个修改的TM-score比对矩阵来进行的，修改的TM-score比对矩阵为：

其中，M是一个(Lt+1)×(Lc+1)的得分矩阵，Lt和Lc分别表示模板结构和恒定结构的残基数目，g表示插入的间隔惩罚值，由用户自定义；d_ij表示根据Kabsch算法执行后的模板结构的第i个残基和恒定结构的第j个残基的三维坐标计算出的欧氏空间距离；

优选地，残基的相似度值为TM-score度量值，计算公式如下：

其中，N_ali是比对结果中对齐的残基配对的数目，d_i表示一对对齐的残基的空间距离。

本发明还提供了一种基于两阶段结构比对的蛋白质相似性的搜索系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的步骤。

作为本发明的方法的进一步改进：

处理器执行计算机程序时实现计算每组配对的二级结构的相似性或者根据残基的三维坐标进行第二次相似性比对的步骤时，在多个处理器核心上独立地对多个蛋白质结构配对进行比对操作。

本发明具有以下有益效果：

1、本发明的基于两阶段结构比对的蛋白质相似性的搜索方法，引入一个初步比对阶段，过滤一些相似度较低的蛋白质结构，减少了大量不必要的工作，在第二个阶段再进行更精准的动态规划比对，用户即可在更短的时间内比对更多的蛋白质结构，节约了时间成本。

2、在优选方案中，本发明基于两阶段结构比对的蛋白质相似性的搜索系统，考虑到计算量大的问题，本申请还使用了并行计算的模式，充分利用多核处理器的计算性能，来加快算法的运行，提高数据吞吐量。例如针对一个四核心处理器，使用并行计算将比传统的串行顺序执行快三倍，这是极大的时间优化。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的基于两阶段结构比对的蛋白质相似性的搜索方法的流程示意图；

图2是本发明优选实施例1的基于两阶段结构比对的蛋白质相似性的搜索方法的流程示意图；

图3是本发明优选实施例2的基于两阶段结构比对的蛋白质相似性的搜索方法的流程示意图；

图4是本发明优选实施例的在TM-align数据集上利用本发明进行结构比对的时间效率示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参见图1，本发明的基于两阶段结构比对的蛋白质相似性的搜索方法，包括以下步骤：

S1：读取用户输入的多个蛋白质结构文件；

S2：将多个蛋白质结构文件进行两两配对，并提取每个蛋白质结构文件的二级结构，计算每组配对的二级结构的相似性，将所有相似性符合第一条件的配对集合为第一结果集；

S3：读取第一结果集中的蛋白质结构文件中的所有残基(氨基酸残基)的三维坐标信息，根据残基的三维坐标进行第二次相似性比对，输出残基的相似信息和残基总体相似度值(最高的相似度值)。

以上步骤，引入一个初步比对阶段，过滤一些相似度较低的蛋白质结构，减少了大量不必要的工作，在第二个阶段再进行更精准的动态规划比对，用户即可在更短的时间内比对更多的蛋白质结构，节约了时间成本。

实际实施时，以上的方法还能进行以下的扩充或应用，以下实施例中的技术特征都能相互组合，实施例仅作为示例，不作为对技术特征的正常组合限制。

实施例1：

参见图2，本实施例的基于两阶段结构比对的蛋白质相似性的搜索方法，包括以下步骤：

在运行本算法之前，先将需要进行比对表示蛋白质结构的.pdb格式文件输入到DSSP程序中，由该程序计算蛋白质链的二级结构和残基信息并以.sse格式的文件输出。

S1：读取用户输入的多个蛋白质结构文件。考虑到用户需要输入大量蛋白质结构文件，算法可以一次性输入多个文件，随后将文件两两搭配，形成多个要进行比对的文件配对，并读取出每个文件的蛋白质二级结构组成。每个配对表示成二级结构种类的字符串。

S2：将多个蛋白质结构文件进行两两配对，并提取每个蛋白质结构文件的二级结构，计算每组配对的二级结构的相似性，每组配对独立地并行执行相应二级结构字符串的最长公共子序列动态规划算法，算出一对二级结构间的最长公共子序列的长度，(若最长公共子序列的长度小于阈值，则该配对的比对过程结束)将所有最长公共子序列的长度不小于阈值(阈值可由用户设定，阈值一般为配对中较短的二级结构的长度的70％)的配对集合为第一结果集。第一结果集中的配对表示为二级结构种类的字符串。

S3：读取第一结果集中的蛋白质结构文件中的所有残基的三维坐标信息，表示为氨基酸残基信息的列表，参见表1：

表1残基信息的列表

Item	Format	Size
			X	double	8bytes
Y	double	8bytes
			Z	double	8bytes
AMINO_ACID_TYPE	char	1byte

根据残基的三维坐标进行第二次相似性比对，输出残基的相似信息和残基总体相似度值。

其中，第二次相似性比对包括以下步骤：使用一种修改的TM-score比对矩阵作出一个初步比对结果，并求出所述初步比对结果的TM-score度量值；每一步移动恒定结构的一个氨基酸位置；重复以上步骤，最终使得整个模板结构完全覆盖到恒定结构的每一个位置，选取具有最高的TM-score度量值的比对结果并记录比对位置；创建4个分组，每个分组分别包含将模板结构分割为等长的2,3，5，8个子片段；重复以上过程，将获得的比对结果重新按顺序拼接完整，在所有的片段组与完整的模板结构产生的完整比对结果中选取获取到的最高TM-score度量值的比对结果和比对位置作为结果，并将该阶段的氨基酸残基比对结果和比对位置输出到一个文件中。

实施例2：

参见图3，本实施例的基于两阶段结构比对的蛋白质相似性的搜索方法，包括以下步骤：

S1：读取用户输入的多个蛋白质结构文件；

S2：将多个蛋白质结构文件进行两两配对，并提取每个蛋白质结构文件的二级结构，计算每组配对的二级结构的相似性，将所有相似性符合第一条件的配对集合为第一结果集，第一结果集中的配对表示为二级结构种类的字符串。

本实施例中，计算每组配对的二级结构的相似性，是将每组配对独立地并行执行相应二级结构字符串的最长公共子序列动态规划算法，算出一对二级结构间的最长公共子序列的长度，步骤如下：

首先利用DSSP程序将两个蛋白质结构A和B分别表示为由氨基酸二级结构类型(α螺旋，β折叠，卷曲以及其它类型)组成的字符串，字符串中的每一个字符表示一个氨基酸形成的二级结构类型：

m和n表示蛋白质链结构A和B的氨基酸数目。

利用最长公共子序列算法构造第一阶段的比对，首先构造一个(m+1)×(n+1)的得分矩阵S，S[i,j]表示从A的开头截取到A的第i个字符，以及从B的开头截取到B的第j个字符的两个子字符串之间的最长公共子序列长度，由此可得S[m,n]表示A和B的整体最长公共子序列长度。S[i,j]的计算公式如下：

利用矩阵S的值从S[m,n]开始回溯出一条最优路径，作为第一阶段的氨基酸二级结构比对结果，最优路径的回溯方法(伪代码)如下：

i＝m,j＝n；

for(；；)

if(i＝＝0or j＝＝0)return；

if(S[i,j]>S[i-1,j]and S[i,j]>S[i,j-1]and S[i,j]>S[i-1,j-1])output(A[i],B[j])；i-＝1；j-＝1；

else if(S[i-1,j]>S[i,j-1])output(A[i],gap)；i-＝1；

else output(gap,B[j])j-＝1；

下一步，对于完整的A和B，最长公共子序列的长度不小于阈值的配对列入第一结果集，并进入第二阶段的蛋白质的残基比对过程。本实施例中，阈值为m,n之间的较小值的70％。

S3：读取第一结果集中的蛋白质结构文件中的所有残基的三维坐标信息，将配对中的两个结构表示为残基信息的列表，根据残基的三维坐标进行第二次相似性比对，输出残基的相似信息和残基总体相似度值(即为最高的相似度值)。

本实施例中，根据残基的三维坐标进行第二次相似性比对，包括以下步骤：

针对每一组配对，根据残基数目将蛋白质结构文件分别命名，将包含残基数目较少的结构作为模板结构，残基数目较多的结构作为恒定结构。用Lt和Lc分别表示模板结构和恒定结构的氨基酸残基数目。

根据恒定蛋白质，使用Kabsch算法将模板蛋白质做出最优平移和旋转操作，使得恒定结构中和模板结构等长的从恒定结构的首个氨基酸位置开始的子序列的均方根误差最小化。

构造一个经过修改的TM-score比对矩阵，即(Lt+1)×(Lc+1)的得分矩阵M，表示一对结构间的残基相似度，矩阵值的定义如下：

其中，g表示插入的间隔惩罚值，可由用户自定义，默认值为3×10^-6。d_ij表示根据Kabsch算法执行后的模板结构的第i个残基和恒定结构的第j个残基的三维坐标计算出的欧氏空间距离。以上矩阵的定义一个是经过修改的TM-score旋转矩阵的定义。

利用矩阵M的值从M[Lt,Lc]开始回溯出一条最优路径，作为一个第二阶段的氨基酸比对结果，最优路径的回溯方法与第一阶段的回溯方法相同。再求出上述比对结果的TM-score度量值，TM-score度量值的计算方法如下：

下一步，移动恒定结构的一个氨基酸位置和模板结构的位置形成新的对应；

重复以上的步骤，直到使得整个模板结构完全覆盖到恒定结构的每一个残基位置，选取具有最高的TM-score度量值的比对结果并记录比对位置；

创建4个分组，每个分组分别包含将模板结构分割为等长的2,3，5，8个子片段，每个分组重复以上过程，将获得的比对结果重新按原有的氨基酸顺序拼接完整，在所有的片段组与完整的模板结构产生的完整比对结果中选取获取到的最高TM-score度量值的比对结果和比对位置作为结果。

采用上述方法可以加快蛋白质结构比对的效率，同时达到较好的比对效果。本发明选取了TM-align数据集，生成19900个蛋白质结构配对，与其它一些具有代表性的蛋白质结构比对算法作了比较，本发明在时间效率和比对效果上都较为突出，参见表2：

表2：本发明和其它一些方法在TM-align数据集上的平均性能比较

采用本发明的方法，将TM-align数据集(包含200个蛋白质结构)作为输入数据集，同整个PDB蛋白质数据库(包含约37万个蛋白质结构)进行相似性比对操作，实验结果参见图4，TM-align数据集中大部分蛋白质氨基酸长度低于400，这些蛋白质能够在半个小时内完成相似性比对(搜索)。

实施例3：

本实施例的基于两阶段结构比对的蛋白质相似性的搜索系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一实施例的步骤。本实施例中，处理器执行计算机程序时实现计算每组配对的二级结构的相似性或者根据残基的三维坐标进行第二次相似性比对的步骤时，在多个处理器核心上独立地对多个蛋白质结构配对进行比对操作。考虑到计算量大的问题，本申请还使用了并行计算的模式，充分利用多核处理器的计算性能，来加快算法的运行，提高数据吞吐量。例如针对一个四核处理器，使用并行计算将比传统的串行顺序执行快三倍。

综上可知，本发明通过两阶段结构比对，用户即可在更短的时间内比对更多的蛋白质结构，节约了时间成本。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于两阶段结构比对的蛋白质相似性的搜索方法，其特征在于，包括以下步骤：

读取用户输入的多个蛋白质结构文件；

将所述多个蛋白质结构文件进行两两配对，并提取每个蛋白质结构文件的二级结构，在多个CPU核心上并行计算每组配对的二级结构的相似性，将所有相似性符合第一条件的配对集合为第一结果集；

2.根据权利要求1所述的基于两阶段结构比对的蛋白质相似性的搜索方法，其特征在于，所述计算每组配对的二级结构的相似性，包括：

每组配对独立地并行执行相应二级结构字符串的最长公共子序列动态规划算法，算出一对二级结构间的最长公共子序列的长度。

3.根据权利要求1所述的基于两阶段结构比对的蛋白质相似性的搜索方法，其特征在于，所述相似性符合第一条件的配对为最长公共子序列的长度不小于阈值的配对。

4.根据权利要求3所述的基于两阶段结构比对的蛋白质相似性的搜索方法，其特征在于，所述阈值为所述配对中较短的二级结构的长度的70％。

5.根据权利要求1所述的基于两阶段结构比对的蛋白质相似性的搜索方法，其特征在于，所述第一结果集中的配对表示为二级结构种类的字符串，所述读取第一结果集中的蛋白质结构文件中的所有残基的信息表示为残基信息的列表。

6.根据权利要求1至5中任一项所述的基于两阶段结构比对的蛋白质相似性的搜索方法，其特征在于，所述根据残基的三维坐标进行第二次相似性比对包括以下步骤：

构造初步比对结果，并计算出所述初步比对结果的残基的相似度值；

每一步移动恒定结构的一个氨基酸位置；

7.根据权利要求6所述的基于两阶段结构比对的蛋白质相似性的搜索方法，其特征在于，所述构造初步比对结果是通过使用一个修改的TM-score比对矩阵来进行的，所述修改的TM-score比对矩阵为：

8.根据权利要求7所述的基于两阶段结构比对的蛋白质相似性的搜索方法，其特征在于，所述残基的相似度值为TM-score度量值，计算公式如下：

9.一种基于两阶段结构比对的蛋白质相似性的搜索系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至8任一所述方法的步骤。

10.根据权利要求9所述的基于两阶段结构比对的蛋白质相似性的搜索系统，其特征在于，所述处理器执行所述计算机程序时实现计算每组配对的二级结构的相似性或者根据残基的三维坐标进行第二次相似性比对的步骤时，在多个处理器核心上独立地对多个蛋白质结构配对进行比对操作。