CN111048145B

CN111048145B - 蛋白质预测模型的生成方法、装置、设备和存储介质

Info

Publication number: CN111048145B
Application number: CN201911329669.4A
Authority: CN
Inventors: 汤一凡; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2024-01-19
Anticipated expiration: 2039-12-20
Also published as: CN111048145A

Abstract

本申请公开了蛋白质预测模型的生成方法、装置、设备和存储介质，该方法包括：获取多个第一蛋白质，每个第一蛋白质包括第一位点和第二位点，第一位点为与目标物质发生结合作用的位点；提取每个第一位点对应的第一特征向量，并提取每个第二位点对应的第二特征向量；利用第一特征向量和第二特征向量训练预先构建的初始预测模型，生成目标预测模型，用于预测蛋白质中的位点是否具有和所述目标物质结合的功能。可见，无需再借助X射线或核磁共振等实验方式，仅需要提取该蛋白质上各位点对应的特征向量，借助目标预测模型，即可准确的预测出该蛋白质是否为能够和目标物质结合的蛋白质，使得方便、快速识别出与其他物质结合的蛋白质成为可能。

Description

蛋白质预测模型的生成方法、装置、设备和存储介质

技术领域

本申请涉及生物信息技术领域，特别是涉及一种蛋白质预测模型的生成方法、装置、设备及存储介质。

背景技术

通常，在蛋白质中，一些蛋白质具有跟其他物质(例如：糖类、脂质、脱氧核糖核酸(英文：Deoxyribonucleic Acid，简称：DNA)或核糖核酸(英文：Ribonucleic Acid，简称：RNA))发生作用的能力，该类蛋白质也被称为该物质结合蛋白质，例如：如果蛋白质序列中具有和糖类分子结合的位点，那么，可以认为该蛋白质可以和糖类发生作用，该蛋白质即为糖类结合蛋白质。快速有效的识别出这些物质结合蛋白质，对于蛋白质分析、分类以及其他研究具有重要意义。

目前，通常需要借助X射线或核磁共振等方式，通过人工实验去识别蛋白质是否为物质结合蛋白质，耗费大量人力和物力资源，识别效率较低。

发明内容

为了解决上述技术问题，本申请实施例提供了一种蛋白质预测模型的生成方法、装置、设备及存储介质，生成用于预测蛋白质和其他物质结合功能的预测模型，通过借助该预测模型，能够方便、快速的识别出具有和其他物质结合功能的蛋白质。

第一方面，提供了一种蛋白质预测模型的生成方法，包括：

获取多个第一蛋白质，每个所述第一蛋白质均包括第一位点和第二位点，所述第一位点为与目标物质发生结合作用的位点；

提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量；

利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型，生成目标预测模型，所述目标预测模型用于预测蛋白质中的位点是否具有和所述目标物质结合的功能。

可选地，所述第一特征向量的数量和所述第二特征向量的数量相同。

可选地，所述提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量，包括：

利用蛋白质对比工具获得各所述第一蛋白质对应的第一位置特异性得分矩阵PSSM；

以各所述第一蛋白质的每个所述第一位点为中心，基于所述第一PSSM向外扩展预设长度，得到各所述第一位点对应的所述第一特征向量；

以各所述第一蛋白质的每个所述第二位点为中心，基于所述第一PSSM向外扩展所述预设长度，得到各所述第二位点对应的所述第二特征向量。

可选地，所述方法还包括：

获取待预测的第二蛋白质，所述第二蛋白质包括N个位点，N为大于1的整数；

提取所述第二蛋白质的第i位点对应的第i特征向量，其中，i＝1,2,…,N；

根据所述第i特征向量和所述目标预测模型，获得第i预测结果，所述第i预测结果用于表征所述第i位点是否具有和所述目标物质结合的功能；

当所述第i预测结果表征所述第i位点具有和所述目标物质结合的功能，则，确定所述第二蛋白质为能够和所述目标物质结合的蛋白质。

可选地，所述提取所述第二蛋白质的第i位点对应的第i特征向量，包括：

利用所述蛋白质对比工具获得所述第二蛋白质对应的第二PSSM；

以所述第i位点为中心，基于所述第二PSSM向外扩展所述预设长度，得到所述第i位点对应的所述第i特征向量；

所述根据所述第i特征向量和所述目标预测模型，获得第i预测结果，具体为：

将所述第i特征向量输入所述目标预测模型，输出所述第i预测结果。

可选地，所述目标物质为：糖类、脂质、脱氧核糖核酸DNA、核糖核酸RNA、酸性糖类或非酸性糖类中的任意一种。

第二方面，本申请还提供了一种蛋白质预测模型的生成装置，包括：

第一获取模块，用于获取多个第一蛋白质，每个所述第一蛋白质均包括第一位点和第二位点，所述第一位点为与目标物质发生结合作用的位点；

第一提取模块，用于提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量；

生成模块，用于利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型，生成目标预测模型，所述目标预测模型用于预测蛋白质中的位点是否具有和所述目标物质结合的功能。

可选地，所述第一提取模块，包括：

第一计算单元，用于利用蛋白质对比工具获得各所述第一蛋白质对应的第一位置特异性得分矩阵PSSM；

第二计算单元，用于以各所述第一蛋白质的每个所述第一位点为中心，基于所述第一PSSM向外扩展预设长度，得到各所述第一位点对应的所述第一特征向量；

第三计算单元，用于以各所述第一蛋白质的每个所述第二位点为中心，基于所述第一PSSM向外扩展所述预设长度，得到各所述第二位点对应的所述第二特征向量。

可选地，该装置还包括：

第二获取模块，用于获取待预测的第二蛋白质，所述第二蛋白质包括N个位点，N为大于1的整数；

第二提取模块，用于提取所述第二蛋白质的第i位点对应的第i特征向量，其中，i＝1,2,…,N；

第三获取模块，用于根据所述第i特征向量和所述目标预测模型，获得第i预测结果，所述第i预测结果用于表征所述第i位点是否具有和所述目标物质结合的功能；

确定模块，用于当所述第i预测结果表征所述第i位点具有和所述目标物质结合的功能，则，确定所述第二蛋白质为能够和所述目标物质结合的蛋白质。

可选地，所述第二提取模块，包括：

第四计算单元，用于利用所述蛋白质对比工具获得所述第二蛋白质对应的第二PSSM；

第五计算单元，用于以所述第i位点为中心，基于所述第二PSSM向外扩展所述预设长度，得到所述第i位点对应的所述第i特征向量；

那么，所述第三获取模块，具体用于：

第三方面，还提供了一种蛋白质预测模型的生成设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述第一方面提供的方法。

第四方面，还提供了一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行上述第一方面提供的方法。

与现有技术相比，本申请至少具有以下优点：

在本申请实施例中，提供了一种蛋白质预测模型的生成方法，该方法包括：首先，获取多个第一蛋白质，每个第一蛋白质包括第一位点和第二位点，第一位点为与目标物质发生结合作用的位点；然后，提取每个第一位点对应的第一特征向量，并提取每个第二位点对应的第二特征向量；接着，利用所提取到的多个第一特征向量和第二特征向量训练预先构建的初始预测模型，生成目标预测模型，该目标预测模型用于预测蛋白质中的位点是否具有和所述目标物质结合的功能。可见，通过本申请实施例提供的方法，在需要识别功能未知的蛋白质是否为能够和目标物质结合的蛋白质时，无需再借助X射线或核磁共振等实验方式去识别，仅需要提取该蛋白质上各位点对应的特征向量，借助训练完成的该目标预测模型，即可准确的预测出该蛋白质是否为能够和目标物质结合的蛋白质，大大的节约了人力、物力资源，使得方便、快速识别出与其他物质结合的蛋白质成为可能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种蛋白质预测模型的生成方法的流程示意图；

图2为本申请实施例提供的实现步骤102的一示例的流程示意图；

图3为本申请实施例提供的一种目标预测模型的结构示意图；

图4为本申请实施例提供的另一种目标预测模型的结构示意图；

图5为本申请实施例提供的一种蛋白质预测方法的流程示意图；

图6为本申请实施例提供的实现步骤502的一示例的流程示意图；

图7为本申请实施例提供的一种蛋白质预测模型的生成装置的结构示意图；

图8为本申请实施例提供的一种蛋白质预测模型的生成设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，如果需要确定蛋白质是否能够和某种物质结合，通常要借助X射线或核磁共振等人工实验的方式，识别蛋白质是否为能够和该物质结合的蛋白质。但是，人工实验要耗费较多的耗材、时间及人力，导致识别成本较高，识别效率较低。

基于此，为了在识别蛋白质是否为能够和某种物质结合的蛋白质时节约成本，提高效率，本申请实施例提供了一种蛋白质预测模型的生成方法，通过获取多个包括第一位点和第二位点的第一蛋白质，其中，第一位点为与目标物质发生结合作用的位点；并提取每个第一位点对应的第一特征向量和每个第二位点对应的第二特征向量；接着，利用所提取到的多个第一特征向量和第二特征向量训练预先构建的初始预测模型，生成目标预测模型，该目标预测模型用于预测蛋白质中的位点是否具有和所述目标物质结合的功能。可见，通过本申请实施例提供的方法，无需再借助X射线或核磁共振等实验方式，仅需要提取该蛋白质上各位点对应的特征向量，借助训练完成的该目标预测模型，即可准确的预测出该蛋白质是否为能够和目标物质结合的蛋白质，大大的节约了人力、物力资源，使得方便、快速识别出与其他物质结合的蛋白质成为可能。

需要说明的是，本申请实施例中，位点特指蛋白质序列上的氨基酸，即，将蛋白质序列上的每个氨基酸都称为一个位点(也可以称为一个残基)。

下面结合附图，详细说明本申请实施例中的各种非限制性实施方式。

图1为本申请实施例提供的一种蛋白质预测模型的生成方法的流程示意图。参见图1，在本实施例中，该方法具体可以包括下述步骤101～步骤103：

步骤101，获取多个第一蛋白质，每个第一蛋白质均包括第一位点和第二位点，该第一位点为与目标物质发生结合作用的位点。

蛋白质的基本组成单位为氨基酸，20种氨基酸之间通过不同的组合和排列组成不同的氨基酸序列，一条氨基酸序列对应于一种蛋白质。而不同的蛋白质，由于结构不同而具有不同的生物学功能，例如：结合糖类的功能、结合脂质的功能等。

可以理解的是，第一蛋白质，为已知具有和目标物质发生结合作用的蛋白质。其中，目标物质可以为能够和蛋白质发生结合作用的物质，具体可以是：糖类、脂质、DNA、RNA、酸性糖类或非酸性糖类中的任意一种。当需要预测蛋白质是否能够结合目标物质时，该第一蛋白质可以从功能已知的众多蛋白质中筛选出的、具有结合该目标物质功能的蛋白质。多条该第一蛋白质为生成用于训练初始预测模型的训练样本的数据基础。

作为一个示例，可以从蛋白质立体结构数据库中，获得能够和目标物质结合的蛋白质，作为第一蛋白质。

作为另一个示例，为了让筛选的第一蛋白质更加准确，还可以先从蛋白质立体结构数据库中，获得能够和目标物质结合的候选蛋白质，再获取候选蛋白质上各位点与目标物质分子的空间距离，并将空间距离小于预设距离的位点所在的候选蛋白质作为第一蛋白质，其中，该预设距离可以是预先设定的蛋白质位点和目标物质的分子能够结合时两者空间距离的最大值，可以是一个经验值，例如：目标物质为糖类时，该预设距离可以取4埃(1埃＝10^-10米)。这样，通过从候选蛋白质筛选结合位点和目标物质分子之间的空间距离符合结合的空间距离的蛋白质，作为第一蛋白质参与对蛋白质预测模型的训练，使得该蛋白质预测模型的训练样本更加准确，从而能够使得获得的蛋白质预测模型的预测准确率更高，实现更高精度的蛋白质预测。

作为再一个示例，为了节约对蛋白质预测模型的训练时间和资源，还可以在通过上述空间距离筛选之后，去除相似的第一蛋白质带来的样本干扰，即，在将空间距离小于预设距离的位点所在的候选蛋白质作为第一蛋白质后，还可以通过基本局部对齐搜索工具(英文：Basic Local Alignment Search Tool，简称：BLAST)Clust计算各第一蛋白质的相似度，并确定相似度大于预设相似度阈值(如：30％)的多条第一蛋白质作为相似蛋白质，将多条相似蛋白质中的一个蛋白质保留而其余剔除，从而获得最终去冗余后的多条第一蛋白质，该去除冗余后的多条第一蛋白质之间均可以视作不相似。这样，通过去除相似蛋白质的方式，减少蛋白质预测模型的训练样本数量，在确保训练样本足够丰富和全面的基础上，尽可能的减少利用相似样本多次该蛋白质预测模型，节约训练时间和训练资源，提高了生成蛋白质预测模型的效率。

例如：若需要生成识别糖类结合蛋白质的蛋白质预测模型，首先，可以从蛋白质数据库(英文：Protein Database Bank，简称：PDB)中，筛选第一候选糖类结合蛋白质；然后，获取第一候选糖类结合蛋白质上各位点与糖类分子的空间距离，并将空间距离小于4埃的第一候选糖类结合蛋白质作为第二候选糖类结合蛋白质；接着，利用BLASTClust计算各第二候选糖类结合蛋白质之间的相似度，从相似度大于30％的多条第二候选糖类结合蛋白质中保留一条，剔除相似的第二候选糖类结合蛋白质后，获得369条第一蛋白质，即，369条糖类结合蛋白质。

又例如：若需要生成识别酸性糖类结合蛋白质的蛋白质预测模型，则可以在上述获得369条糖类结合蛋白质中，根据与糖类结合蛋白质结合的糖类分子的分子结构，确定出糖类分子是酸性糖类分子的糖类结合蛋白质，共计136条第一蛋白质。

再例如：若需要生成识别非酸性糖类结合蛋白质的蛋白质预测模型，则可以在上述获得369条糖类结合蛋白质中，根据与糖类结合蛋白质结合的糖类分子的分子结构，确定出糖类分子是非酸性糖类分子的糖类结合蛋白质，共计270条第一蛋白质。

需要说明的是，糖类结合蛋白质包括酸性糖类结合蛋白质和非酸性糖类结合蛋白质，一些糖类结合蛋白质只能与酸性糖类分子结合，称为酸性糖类结合蛋白质；另一些糖类结合蛋白质只能与非酸性糖类分子结合，称为非酸性糖类结合蛋白质；还有一些糖类结合蛋白质中，既存在能与酸性糖类分子结合的位点，也存在能与非酸性糖类分子结合，那么，该糖类结合蛋白质就既可以被识别为酸性糖类结合蛋白质，也可以被识别为非酸性糖类结合蛋白质。

对于第一蛋白质而言，每个第一蛋白质上包括至少一个和目标物质结合的位点，记作第一位点，而该第一蛋白质上除第一位点以外的其他位点，则属于不能和该目标物质结合的位点，记作其他位点。

一种可能的情况下，可以将其他位点均作为第二位点。

另一种可能的情况下，为了确保为蛋白质预测模型提供的训练样本较为均衡，即，正例样本和负例样本数量相同，也可以从其他位点中，选择与第一位点数量相同的位点，作为第二位点，这样，确保用于训练蛋白质预测模型的数据来源中，二分之一属于已知和目标物质结合的第一位点，另外二分之一属于已知和目标物质不结合的第二位点，一定程度上使得训练完成的蛋白质预测模型能够更加准确的完成蛋白质的预测。

例如：假设第一蛋白质包括蛋白质1、蛋白质2和蛋白质3，其中，3条第一蛋白质共包括300个氨基酸(即，300个位点)，且共包括5个第一位点，那么，该3条第一蛋白质共包括(300-5)＝295个其他位点，那么，可以从295个其他位点中筛选获得5个第二位点。

又例如，假设蛋白质1、蛋白质2和蛋白质3均包括100个位点，蛋白质1的第50个位点、蛋白质2的第10个位点和第60个位点、蛋白质3的第20个位点和第80个位点为第一位点，那么，筛选第二位点的过程可以包括：第一步，对于蛋白质1，可以先以第50个位点为中心，选择与该中心距离大于等于20个位点的区域，即，第1到30个位点和第70到第100个位点共60个位点；对于蛋白质2，可以先以第10个位点为中心，选择与该中心距离大于等于20个位点的区1，再以第60个位点为中心，选择与该中心距离大于等于20个位点的区域2，取区域1和区域2的交集中的位点，即，第30到40个位点和第80到第100个位点共30个位点；对于蛋白质3，可以先以第20个位点为中心，选择与该中心距离大于等于20个位点的区3，再以第80个位点为中心，选择与该中心距离大于等于20个位点的区域4，取区域3和区域4的交集中的位点，即，第40到60个位点共20个位点；第二步，通过上述第一步获得(60+30+20)＝110个其他位点；第三步，从110个其他位点中随机选择5个位点作为第二位点。

可见，通过上述步骤101获得包括第一位点和第二位点的多条蛋白质，为后续提供丰富和完善的训练样本以及训练出准确的蛋白质预测模型，提供了数据基础。

步骤102，提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量。

可以理解的是，第一特征向量用于表征其对应的第一位点的特征，该第一特征向量和第一位点一一对应，两者的数量相同。第二特征向量用于表征其对应的第二位点的特征，该第二特征向量和第二位点一一对应，两者的数量相同。若第一位点和第二位点的数量相同，则，第一特征向量的数量和第二特征向量的数量也相同。

具体实现时，步骤102具体可以通过下述图2所示的方式实现。参见图2，例如可以包括下述步骤1021～步骤1023：

步骤1021，利用蛋白质对比工具获得各第一蛋白质对应的第一位置特异性得分矩阵(英文：Position Specific Scoring Matrix，简称：PSSM)。

可以理解的是，当第一蛋白质确定后，该第一蛋白质的氨基酸序列上各个位置上的氨基酸也是确定的，那么，在基于氨基酸序列确定第一蛋白质能否和目标物质结合的过程中，采用PSSM进行分析和处理，可以大大的提高处理结果的准确性。

具体实现时，步骤1021的实现过程具体可以包括：S1，在蛋白质序列数据库中查找该第一蛋白质的同源蛋白质；S2，将第一蛋白质与同源蛋白质的氨基酸序列进行多序列比对，得到该第一蛋白质的第一PSSM。

其中，蛋白质序列数据库，是指应用计算机功能分析生物学信息的数据库。应用计算机的运算法则，比较氨基酸序列而预测蛋白质的结构和功能。例如：该蛋白质序列数据库可以是非冗余蛋白质序列数据库，该数据库包含152,910,397条蛋白质，每条蛋白质对应的氨基酸序列的信息例如可以包括：标定好的该氨基酸序列中各个位置的氨基酸，以及该氨基酸序列是否具备和糖类结合的功能，是否具备和脂质结合的功能等。

可以理解的是，同源蛋白质，是指来自不同种类生物、而对应的氨基酸序列类似的蛋白质。

作为一个示例，可以采用同源检测迭代的HMM-HMM的比较(英文：Homologydetection by iterative HMM-HMM comparison，简称：HHblits)工具，作为该步骤1021中的“蛋白质对比工具”，获得各第一蛋白质对应的第一PSSM。

作为另一个示例，获得该第一蛋白质的第一PSSM的具体过程也可以包括：首先，从蛋白质序列数据库中检索出该第一蛋白质的多个同源蛋白质，并从该蛋白质序列数据库中获取这些同源蛋白质的氨基酸序列；接着，可以将检索到的同源蛋白质的氨基酸序列和第一蛋白质的氨基酸序列进行多序列比对，得到该第一蛋白质的氨基酸序列的第一PSSM。

其中，多序列比对具体可以采用位置特定的迭代-基本局部对齐搜索工具(英文：Position-Specific Iterated-Basic Local Alignment Search Tool，简称：PSI-BLAST)。假设PSI-BLAST设置最大迭代次数为3，E值的临界值为0.001，采用该PSI-BLAST进行多序列比对该同源蛋白质的氨基酸序列和第一蛋白质的氨基酸序列，得到的第一PSSM例如可以如下表1所示：

表1第一PSSM

其中，横向的“A、R、N、D、C、Q、E、……、V”表示组成蛋白质的氨基酸序列的20中氨基酸；纵向的“1M、2K、3I、4S、5F、6H、……”表示该类同源的蛋白质的氨基酸序列中每个位置的位置序号和该位置上的氨基酸；中间的数字为位置特异性得分，用于表示该氨基酸出现在该位置的可能性大小(也称为倾向程度或者保守程度)，一般该位置特异性得分的取值范围为-13到+13。例如：上述表格中第二行和第三列交叉位置处的“-6”(字体加粗且加下划线的得分)，表示该第一蛋白质的氨基酸序列中，第一个位置出现氨基酸R的可能性得分为-6；再例如：上述表格中第五行和第五列交叉位置处的“-4”(字体加粗且加下划线的得分)，表示该第一蛋白质的氨基酸序列中，第四个位置出现氨基酸D的可能性得分为-4。

可以理解的是，若第一蛋白质的长度为n，则，获得该第一蛋白质对应的第一PSSM为n×20的矩阵。

步骤1022，以各第一蛋白质的每个第一位点为中心，基于第一PSSM向外扩展预设长度，得到各第一位点对应的所述第一特征向量。

以第一蛋白质长度为10为例，假设第一PSSM为：预设长度为2，第一位点为第3行对应的位置，则，该第一位点对应的第一特征向量可以是以第3行为中心，向上扩展两行，向下扩展两行，具体可以表示为：[(a₁,b₁,c₁,d₁,e₁),(a₂,b₂,c₂,d₂,e₂),(a₃,b₃,c₃,d₃,e₃),……,(a₂₀,b₂₀,c₂₀,d₂₀,e₂₀)]，该第一特征向量为(2*2+1)*20＝100维的特征向量。

其中，预设长度也可以取等于7，那么，第一位点对应的第一特征向量即为(7*2+1)*20＝300维的特征向量。预设长度可以根据技术人员的经验进行设计，在本申请实施例中不作具体限定。

由于第一位点已知为蛋白质和目标物质结合的位点，所以，该第一位点对应的第一特征向量，能够表现出该蛋白质为具有与目标物质结合的蛋白质。

步骤1023，以各第一蛋白质的每个第二位点为中心，基于第一PSSM向外扩展该预设长度，得到各第二位点对应的第二特征向量。

可以理解的是，为了确保提供的训练样本更加均衡，训练得到的蛋白质预测模型的鲁棒性更强，可以以步骤1022相同的方式，对各第二位点提取对应的第二特征向量。具体实现方式可以参见步骤1022的相关说明。

其中，步骤1023中的预设长度具体可以取步骤1022中的预设长度。

由于第二位点已知为蛋白质不能和目标物质结合的位点，所以，该第二位点对应的第二特征向量，能够表现出该蛋白质上的该第二位点不具有与目标物质结合的功能。

需要说明的是，步骤1022和步骤1023的执行没有先后顺序，可以先执行步骤1022再执行步骤1023，也可以先执行步骤1023再执行步骤1022，还可以同时执行步骤1022和步骤1023，在本申请实施例中不作具体限定。

如此，通过上述图2所示的方式，可以提取到已知具有与目标物质结合功能的第一位点对应的第一特征向量，以及已知不具有与目标物质结合功能的第二位点对应的第二特征向量，作为训练蛋白质预测模型的训练样本，为进行后续蛋白质预测模型的训练做好了准备。

步骤103，利用第一特征向量和第二特征向量训练预先构建的初始预测模型，生成目标预测模型，该目标预测模型用于预测蛋白质中的位点是否具有和目标物质结合的功能。

可以理解的是，初始预测模型，可以预先构建的、用于预测蛋白质中位点和目标物质结合情况的模型。该初始预测模型具体可以是分类模型，那么，该初始预测模型的输入为蛋白质上位点对应的特征向量，输出包括两种情况，一种情况，输出用于表征该位点具有和目标物质结合的功能，例如：输出“是”，另一种情况，输出用于表征该位点不具有和目标物质结合的功能，例如：输出“否”。

具体实现时，可以将各第一位点对应的第一特征向量和各第二位点对应的第二特征向量，输入到该初始预测模型中，通过对比实际输出结果和目标输出结果的差异，调整该初始预测模型。需要说明的是，当采用训练样本中的下一个特征向量1进行训练时，需要将该下一个特征向量1输入至最新调整后的初始预测模型1，获得该次训练的实际输出结果，用该次训练的实际输出结果和目标输出结果的差异继续调整该最新调整后的初始预测模型1，获得最新调整后的初始预测模型2；当采用训练样本中的下一个特征向量2进行训练时，需要将该下一个特征向量2输入至最新调整后的初始预测模型2，获得该次训练的实际输出结果，用该次训练的实际输出结果和目标输出结果的差异继续调整该最新调整后的初始预测模型2，获得最新调整后的初始预测模型3；以此类推，直至训练样本中所有的特征向量(即多个第一蛋白质中所有的第一位点对应的第一特征向量和所有的第二位点对应的第二特征向量)都参与初始预测模型的训练为止，或者，直至最新调整后的初始预测模型的预测准确率达到预设准确率阈值(例如：98％)为止，此时，该最新调整的初始预测模型即为目标预测模型。

作为一个示例，如果将第一特征向量输入初始预测模型，已知目标输出结果为该第一位点具有和目标物质结合的功能，若实际输出结果表征该第一位点具有和目标物质结合的功能，则认为实际输出结果和目标输出结果一致，不调整初始预测模型；若实际输出结果表征该第一位点不具有和目标物质结合的功能，则认为实际输出结果和目标输出结果不一致，调整初始预测模型。

作为另一个示例，如果将第二特征向量输入初始预测模型，已知目标输出结果为该第二位点不具有和目标物质结合的功能，若实际输出结果表征该第二位点具有和目标物质结合的功能，则认为实际输出结果和目标输出结果不一致，则调整初始预测模型；若实际输出结果表征该第二位点不具有和目标物质结合的功能，则认为实际输出结果和目标输出结果一致，不对初始预测模型进行调整。

例如，由于支持向量机(英文：Support Vector Machine，简称：SVM)，是一种按监督学习方式对数据进行二元分类的广义线性分类器，使用损失函数计算经验风险并在求解中加入了正则化项以优化结构风险，具有较强的鲁棒性，而且，SVM可以还通过核方法(英文：kernel method)进行非线性分类，准确度较高，所以，本申请实施例中的初始预测模型可以采用SVM。

为了使训练SVM的过程更加准确，训练得到的SVM的泛化能力尽可能好，防止在训练过程中SVM的过拟合，可以使用软间隔技术和核函数技术来不断优化SVM算法本身的泛化性能。可以理解的是，SVM中核函数用于解决低维数据线性不可分的问题，能够将低维数据映射到高维空间从而达到可分的目的。本申请实施例中，SVM的核函数可以采用径向基函数(英文：Radial Basis Function，简称：RBF)，具体如下公式(1)所示：

其中，x和z分别为训练样本中的两个特征向量，gamma为核函数RBF自带的一个参数，决定了数据映射到新的高维空间后的分布，参数gamma主要是对低维数据进行高维空间的映射。

其中，在线性不可分问题中使用硬边距SVM将产生分类误差，因此可在最大化边距的基础上引入损失函数构造新的优化问题。SVM使用铰链损失函数，并使用松弛变量ξ_i处理铰链损失函数的分段取值后，沿用硬边界SVM的优化问题形式，软边距SVM的优化问题有如下表示：

s.t.,y_i(w^Tx_i+b)≥1-ξ_i,ξ_i≥0,i＝1,…，n……公式(3)

公式(3)是公式(2)寻优求解的情况下的约束条件。其中，公式(2)和公式(3)中的w表示超平面的法向量；公式(3)中的b表示该超平面的截距，x_i表示训练样本中的任意特征向量，y_i表示该特征向量x_i已知应该被分的类别，即，目标输出结构，c表示正则化系数。

可见，SVM算法参数分别为c和gamma，c越大，表示该SVM的分类越严格，不能有错误；反之，c越小，意味着有更大的错误容忍度；gamma值越大，映射到的高维空间的维度越高，表示训练的结果越好，但是，也越容易引起过拟合，即泛化能力低。

基于此，本申请实施例中，通过不断的调整gamma和c的值，不断地进行交叉验证，从而确定出合适的gamma和c的值，再进入训练样本中下一个特征向量的预测。其中，评估对初始预测模型的训练效果时，可以使用5-fold交叉验证，将训练样本集合(即包括所有的第一特征向量和第二特征向量的集合)中分为5份训练样本子集合，选取其中4份用作训练，1份用作测试，测试获得马修斯相关系数(英文：Matthews correlation coefficient，简称：MCC)评估指标得分。5份训练样本子集合得到的MCC的取平均，作为本次交叉验证的最终评估得分。

其中，MCC考虑到真阳性、假阳性、真阴性和假阴性，通常被视为一种平衡的措施，即使真阳性、假阳性、真阴性和假阴性这些类别的规模大小不同也可以使用。从混淆矩阵中计算MCC的公式如下：

其中，TP称为真阳性，即，目标输出结果表示该位点具有和目标物质结合的功能，实际输出结果表示该位点也具有和目标物质结合的功能；FP称为假阴性，即，目标输出结果表示该位点不具有和目标物质结合的功能，实际输出结果表示该位点具有和目标物质结合的功能；TN称为真阴性，即，目标输出结果表示该位点不具有和目标物质结合的功能，实际输出结果表示该位点也不具有和目标物质结合的功能；FN称为假阳性，即，目标输出结果表示该位点具有和目标物质结合的功能，实际输出结果表示该位点不具有和目标物质结合的功能。

可以理解的是，根据预测需求的不同，可以设计不同的目标预测模型，例如：若需要对糖类结合蛋白质进行预测，则，图1所示实施例中的目标物质即为糖类，第一位点即为第一蛋白质中和糖类分子结合的位点，目标预测模型即为专用于预测蛋白质是否能够与糖类结合的预测模型。又例如：若需要对脂质结合蛋白质进行预测，则，图1所示实施例中的目标物质即为脂质，第一位点即为第一蛋白质中和脂质分子结合的位点，目标预测模型即为专用于预测蛋白质是否能够与脂质结合的预测模型。

需要说明的是，本申请实施例中，可以根据图1所示的实施例提供的方法，分别生成用于预测糖类结合蛋白质的目标预测模型1、用于预测酸性糖类结合蛋白质的目标预测模型2和用于预测非酸性糖类结合蛋白质的目标预测模型3。

作为一个示例，如图3所示，该目标预测模型1、目标预测模型2和目标预测模型3可以分别设置在三个不同的模块中，那么，当不知道待预测蛋白质是否为糖类结合蛋白质时，可以先将该待预测蛋白质各位点的特征向量输入目标预测模型1，当目标预测模型1的输出结果表征该待预测蛋白质为糖类结合蛋白质时，再将该待预测蛋白质各位点的特征向量分别输入至目标预测模型2和目标预测模型3中，确定该待预测蛋白质是酸性糖结合蛋白质还是非酸性糖类结合蛋白质。

作为另一个示例，如图4所示，该目标预测模型1、目标预测模型2和目标预测模型3也可以设置在一个模块100中，那么，当需要识别该待预测蛋白质是否为糖类结合蛋白质时，可以将该待预测蛋白质各位点的特征向量输入模块100中，目标预测模型1先对输入信息进行预测，当输出结果表征该待预测蛋白质不是糖类结合蛋白质时，直接从该模块100的输出端输出“待预测蛋白质不是糖类结合蛋白质”；当输出结果表征该待预测蛋白质为糖类结合蛋白质时，该待预测蛋白质各位点的特征向量再由目标预测模型2和目标预测模型3进行预测，确定该待预测蛋白质是酸性糖结合蛋白质还是非酸性糖类结合蛋白质。

这样，不仅可以快速、方便的识别出糖类结合蛋白质，还可以更加细化的识别出糖类结合蛋白质是酸性糖类结合蛋白质还是非酸性糖类结合蛋白质。

可见，通过本申请实施例提供的蛋白质预测模型的生成方法，构建并训练完成目标预测模型(也即生成的蛋白质预测模型)，该目标预测模型用于预测蛋白质上的位点是否具有和所述目标物质(如：糖类、脂质、DNA、RNA、酸性糖类或非酸性糖类)结合的功能，这样，无需再借助X射线或核磁共振等实验方式，仅提取该蛋白质上各位点对应的特征向量，借助训练完成的该目标预测模型，即可准确的预测出该蛋白质是否为能够和目标物质结合的蛋白质，大大的节约了人力、物力资源，使得方便、快速识别出与其他物质结合的蛋白质成为可能。

在图1所示实施例的基础上，本申请实施例还提供了借助步骤103中生成的目标预测模型对蛋白质的预测方法。图5示出了一种蛋白质预测方法的流程示意图，参见图5，该方法例如可以包括下述步骤501～步骤504：

步骤501，获取待预测的第二蛋白质，所述第二蛋白质包括N个位点，N为大于1的整数；

步骤502，提取所述第二蛋白质的第i位点对应的第i特征向量，其中，i＝1,2,…,N；

步骤503，根据所述第i特征向量和所述目标预测模型，获得第i预测结果，所述第i预测结果用于表征所述第i位点是否具有和所述目标物质结合的功能；

步骤504，当所述第i预测结果表征所述第i位点具有和所述目标物质结合的功能，则，确定所述第二蛋白质为能够和所述目标物质结合的蛋白质。

可以理解的是，对于待预测的第二蛋白质，其上包括N个位点，若需要利用图1生成的目标预测模型预测该第二蛋白质和目标物质结合的情况，则，首先，需要提取第二蛋白质上第i位点的第i特征向量。参见图6，步骤502具体可以包括：

步骤5021，利用该蛋白质对比工具获得第二蛋白质对应的第二PSSM；

步骤5022，以第i位点为中心，基于第二PSSM向外扩展该预设长度，得到第i位点对应的第i特征向量。

其中，蛋白质对比工具采用与图2所示实施例中相同的蛋白质对比工具，预设长度也采用与图2所示实施例中相同的预设长度。具体实现方式可以参见图2所示实施例的相关说明，在此不再赘述。

其中，步骤503中根据所述第i特征向量和所述目标预测模型，获得第i预测结果，具体为：将第i特征向量输入到目标预测模型，输出该第i预测结果。

作为一个示例，对于第二蛋白质的N个位点，可以都执行上述步骤502～步骤503，即，第二蛋白质上的每个位点，均得到一个对应的特征向量，并借助目标预测模型，均获得对应的一个预测结果，那么，当N个预测结果中，只要存在一个预测结果表征其对应的位点具有和目标物质结合的功能，则可以确定该第二蛋白质为能够和目标物质结合的蛋白质。

作为另一个示例，对于第二蛋白质的N个位点，可以依次执行上述步骤502～步骤503，即，第二蛋白质上的各个位点，顺序得到一个对应的特征向量，并借助目标预测模型，依次获得对应的一个预测结果，一旦出现某个位点对应的预测结果表示该位点具有和目标物质结合的功能，则可以确定该第二蛋白质为能够和目标物质结合的蛋白质，其他位点将不再进行特征提取以及预测，这样，可以在一定程度上节约预测资源，提高预测效率。

可见，通过本申请实施例提供的蛋白质预测方法，不仅可以生成目标预测模型，而且仅需要提取待预测蛋白质上各位点对应的特征向量，借助训练完成的该目标预测模型，即可准确的预测出该蛋白质是否为能够和目标物质结合的蛋白质，无需再借助X射线或核磁共振等实验方式，仅大大的节约了人力、物力资源，使得方便、快速识别出与其他物质结合的蛋白质成为可能。

相应的，本申请还提供了一种蛋白质预测模型的生成装置，如图7所示，该装置具体可以包括：

第一获取模块701，用于获取多个第一蛋白质，每个所述第一蛋白质均包括第一位点和第二位点，所述第一位点为与目标物质发生结合作用的位点；

第一提取模块702，用于提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量；

生成模块703，用于利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型，生成目标预测模型，所述目标预测模型用于预测蛋白质中的位点是否具有和所述目标物质结合的功能。

可选地，所述第一提取模块702，包括：

可选地，该装置还包括：

可选地，所述第二提取模块，包括：

那么，所述第三获取模块，具体用于：

上述描述为蛋白质预测模型的生成装置的相关描述，其中，具体实现方式以及达到的效果，可以参见上述蛋白质预测模型的生成方法实施例的描述，这里不再赘述。

此外，本申请实施例还提供了一种蛋白质预测模型的生成设备，如图8所示，该设备包括处理器801以及存储器802：

所述存储器802用于存储程序代码，并将所述程序代码传输给所述处理器801；

所述处理器801用于根据所述程序代码中的指令执行上述蛋白质预测模型的生成方法。

该蛋白质预测模型的生成设备的具体实现方式以及达到的效果，可以参见上述蛋白质预测模型的生成方法实施例的描述，这里不再赘述。

此外，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述程序被处理器运行时，实现如上述图1对应实施例提供的所述的蛋白质预测模型的生成方法。

本申请实施例中提到的“第一位点”、“第一特征向量”等名称中的“第一”只是用来做名字标识，并不代表顺序上的第一。该规则同样适用于“第二”等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例和设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及装置实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的优选实施方式，并非用于限定本申请的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种蛋白质预测模型的生成方法，其特征在于，包括：

获取多个第一蛋白质，每个所述第一蛋白质均包括第一位点和第二位点，所述第一位点为与目标物质发生结合作用的位点，所述第一蛋白质上各位点与所述目标物质的分子的空间距离小于预设距离，所述预设距离是预先设定的蛋白质位点和所述目标物质的分子能够结合时两者空间距离的最大值，所述目标物质为：糖类或脂质；

利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型，生成目标预测模型，所述目标预测模型用于预测蛋白质中的位点是否具有和所述目标物质结合的功能；

利用蛋白质对比工具获得所述第二蛋白质对应的第二位置特异性得分矩阵PSSM；

以第i位点为中心，基于所述第二位置特异性得分矩阵PSSM向外扩展预设长度，得到所述第i位点对应的第i特征向量，其中，i=1,2,…,N；

将所述第i特征向量输入所述目标预测模型，输出第i预测结果，所述第i预测结果用于表征所述第i位点是否具有和所述目标物质结合的功能；

当所述第i预测结果表征所述第i位点具有和所述目标物质结合的功能，则，确定所述第二蛋白质为能够和所述目标物质结合的蛋白质；

其中，所述提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量，包括：

利用所述蛋白质对比工具获得各所述第一蛋白质对应的第一位置特异性得分矩阵PSSM；

以各所述第一蛋白质的每个所述第一位点为中心，基于所述第一位置特异性得分矩阵PSSM向外扩展所述预设长度，得到各所述第一位点对应的所述第一特征向量；

以各所述第一蛋白质的每个所述第二位点为中心，基于所述第一位置特异性得分矩阵PSSM向外扩展所述预设长度，得到各所述第二位点对应的所述第二特征向量。

2.根据权利要求1所述的方法，其特征在于，所述第一特征向量的数量和所述第二特征向量的数量相同。

3.根据权利要求1所述的方法，其特征在于，所述目标物质为脱氧核糖核酸DNA或核糖核酸RNA。

4.根据权利要求1所述的方法，其特征在于，所述目标物质为酸性糖类或非酸性糖类。

5.一种蛋白质预测模型的生成装置，其特征在于，包括：

第一获取模块，用于获取多个第一蛋白质，每个所述第一蛋白质均包括第一位点和第二位点，所述第一位点为与目标物质发生结合作用的位点，所述第一蛋白质上各位点与所述目标物质的分子的空间距离小于预设距离，所述预设距离是预先设定的蛋白质位点和所述目标物质的分子能够结合时两者空间距离的最大值，所述目标物质为：糖类或脂质；

第一生成模块，用于利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型，生成目标预测模型，所述目标预测模型用于预测蛋白质中的位点是否具有和所述目标物质结合的功能；

第三获取模块，用于利用蛋白质对比工具获得所述第二蛋白质对应的第二位置特异性得分矩阵PSSM；

第二提取模块，用于以第i位点为中心，基于所述第二位置特异性得分矩阵PSSM向外扩展预设长度，得到所述第i位点对应的第i特征向量，其中，i=1,2,…,N；

第一预测模块，用于将所述第i特征向量输入所述目标预测模型，输出第i预测结果，所述第i预测结果用于表征所述第i位点是否具有和所述目标物质结合的功能；

第二预测模块，用于当所述第i预测结果表征所述第i位点具有和所述目标物质结合的功能，则，确定所述第二蛋白质为能够和所述目标物质结合的蛋白质；

其中，所述第一提取模块，包括：

第一计算单元，用于利用所述蛋白质对比工具获得各所述第一蛋白质对应的第一位置特异性得分矩阵PSSM；

第二计算单元，用于以各所述第一蛋白质的每个所述第一位点为中心，基于所述第一位置特异性得分矩阵PSSM向外扩展预设长度，得到各所述第一位点对应的所述第一特征向量；

第三计算单元，用于以各所述第一蛋白质的每个所述第二位点为中心，基于所述第一位置特异性得分矩阵PSSM向外扩展所述预设长度，得到各所述第二位点对应的所述第二特征向量。

6.一种蛋白质预测模型的生成设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1至4任一项所述的方法。

7.一种存储介质，其特征在于，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求1至4任一项所述的方法。