CN109785901A

CN109785901A - 一种蛋白质功能预测方法及装置

Info

Publication number: CN109785901A
Application number: CN201811603061.1A
Authority: CN
Inventors: 汤一凡; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-21
Anticipated expiration: 2038-12-26
Also published as: CN109785901B

Abstract

本申请实施例公开了一种蛋白质功能预测方法及装置，该方法包括：获得目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征；基于目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征，判断目标蛋白质的功能和参考蛋白质的功能是否满足相似判断规则；若是，则根据参考蛋白质的功能确定目标蛋白质的功能。从与功能相关的氨基酸序列的深层特征层面判断目标蛋白质的功能和参考蛋白质的功能之间的相似度，能够避免氨基酸序列表面特征的歧义性对功能相似性判断的影响，从而提高了蛋白质功能预测的覆盖率。

Description

一种蛋白质功能预测方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种蛋白质功能预测方法及装置。

背景技术

蛋白质由20种天然氨基酸经过线性组合而成，这些线性序列中包含着大量生命体特征信息，通常被认为能够解释和表达所有机体内的生命活动。蛋白质的功能由氨基酸序列所决定，通常具有相似功能的蛋白质也会具有相似的序列片段

基于序列相似的蛋白质其结构和功能也会相似的假设前提下，为实现对目标蛋白质的功能预测，目前通常利用氨基酸多序列比对技术(如Basic Local Alignment SearchTool，BLAST)，检索与待识别的目标蛋白质序列相似的已知功能蛋白质，进而根据检索得到的蛋白质对目标蛋白质的功能进行预测。但是，现有的序列对比技术，对与已知功能蛋白质序列分布差异性较大的目标蛋白质，以及，通过序列检索无法获取序列相似的已知功能蛋白质的目标蛋白质无法实现有效的功能预测。

发明内容

有鉴于此，本申请实施例提供了一种蛋白质功能预测方法及装置，能够解决或部分解决现有技术中对部分目标蛋白质无法实现有效的功能预测的问题。

本申请实施例第一方面提供了一种蛋白质功能预测方法，包括：

获得目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征；

基于所述目标蛋白质的氨基酸序列特征和所述参考蛋白质的氨基酸序列特征，判断所述目标蛋白质的功能和所述参考蛋白质的功能是否满足相似判断规则；

若是，则根据所述参考蛋白质的功能确定所述目标蛋白质的功能。

可选的，所述基于所述目标蛋白质的氨基酸序列特征和所述参考蛋白质的氨基酸序列特征，判断所述目标蛋白质的功能和所述参考蛋白质的功能是否满足相似判断规则，具体包括：

将所述氨基酸序列特征输入转换模型得到目标哈希编码；所述转换模型预先根据多个训练蛋白质的氨基酸序列特征以及任意两个所述训练蛋白质的功能是否满足所述相似判断规则训练得到；

判断所述目标哈希编码和参考哈希编码是否符合预设匹配规则；所述参考哈希编码利用所述转换模型得到。

可选的，所述转换模型的训练方法包括：

获取第一训练蛋白质的氨基酸序列特征和第二训练蛋白质的氨基酸序列特征，以及所述第一训练蛋白质的功能和所述第二训练蛋白质的功能是否符合所述相似判断规则的相似判断结果；

将所述第一训练蛋白质的氨基酸序列特征和所述第二训练蛋白质的氨基酸序列特征分别输入当前的转换模型，得到第一哈希编码和第二哈希编码；

基于所述第一哈希编码和所述第二哈希编码之间的相似度以及所述相似判断结果，更新所述当前的转换模型的模型参数。

可选的，所述基于所述第一哈希编码和所述第二哈希编码之间的相似度以及所述相似判断结果，更新所述当前的转换模型的模型参数，具体包括：

获取所述第一哈希编码和所述第二哈希编码之间的汉明距离；

利用预先设定的损失函数，根据所述相似判断结果和所述汉明距离，更新所述当前的转换模型的模型参数；

其中，当所述相似判断结果为所述第一训练蛋白质的功能和所述第二训练蛋白质的功能符合所述第二相似判断规则时，所述损失函数与所述汉明距离成正相关关系；当所述相似判断结果为所述第一训练蛋白质的功能和所述第二训练蛋白质的功能不符合所述第二相似判断规则时，所述损失函数与所述汉明距离成负相关关系。

可选的，所述氨基酸序列特征基于位置特异性得分矩阵得到。

可选的，所述获得目标蛋白质的氨基酸序列特征，具体包括：

查找所述目标蛋白质的位置特异性得分矩阵每列的最大位置特异性得分；

根据所述每列的最大位置特异性得分所在的行，形成矩阵作为所述目标蛋白质的氨基酸序列特征。

可选的，所述判断所述目标哈希编码和参考哈希编码是否符合预设匹配规则，具体包括：

判断所述目标哈希编码和所述参考哈希编码的汉明距离是否小于预设阈值。

本申请实施例第二方面提供了一种蛋白质功能预测装置，包括：获得单元、判断单元和确定单元；

所述获得单元，用于获得目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征；

所述判断单元，用于基于所述目标蛋白质的氨基酸序列特征和所述参考蛋白质的氨基酸序列特征，判断所述目标蛋白质的功能和所述参考蛋白质的功能是否满足相似判断规则；

所述确定单元，用于当所述判断单元判断所述目标蛋白质的功能和所述参考蛋白质的功能满足所述相似判断规则时，根据所述参考蛋白质的功能确定所述目标蛋白质的功能。

本申请实施例第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时，实现如上述第一方面提供的蛋白质功能预测方法中的任意一种。

本申请实施例第四方面提供了一种蛋白质功能预测设备，包括：处理器和存储器；

所述存储器，用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器，用于根据所述程序代码中的指令，执行如上述第一方面提供的蛋白质功能预测方法中的任意一种。

与现有技术相比，本申请至少具有以下优点：

在本申请实施例中，首先获得待识别的目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征，然后基于目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征，判断目标蛋白质的功能和参考蛋白质的功能是否满足相似判断规则，以氨基酸序列特征之间的相似性判断目标蛋白质和已知功能的蛋白质之间的功能相似性。当目标蛋白质的功能和参考蛋白质的功能满足相似判断规则时，根据参考蛋白质的功能确定目标蛋白质的功能，实现对目标蛋白质功能的预测。氨基酸序列特征包含了蛋白质氨基酸序列的深层特征，能够更加准确的表达蛋白质的功能特征。因此，根据氨基酸序列特征和蛋白质功能之间的联系，利用氨基酸序列特征对目标蛋白质和参考蛋白质之间的功能相似性进行评判，从与功能相关的氨基酸序列的深层特征层面判断目标蛋白质的功能和参考蛋白质的功能之间的相似度，能够避免氨基酸序列表面特征的歧义性对功能相似性判断的影响，从而提高了蛋白质功能预测的覆盖率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种蛋白质功能预测方法的流程示意图；

图2为本申请实施例提供的另一种蛋白质功能预测方法的流程示意图；

图3为本申请实施例提供的又一种蛋白质功能预测方法的流程示意图；

图4为本申请实施例提供的一种转换模型的结构示意图；

图5为本申请实施例提供的再一种蛋白质功能预测方法的流程示意图；

图6为本申请实施例提供的一种蛋白质功能预测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

为了便于理解，下面首先介绍本申请实施例涉及的多个技术术语。

蛋白质的功能：蛋白质功能广义上可划分为蛋白质与蛋白质、蛋白质与DNA分子、蛋白质与RNA分子、蛋白质与糖类分子、蛋白质与脂质类分子以及蛋白质与金属离子共6大类相互作用功能。例如，二磷酸鸟苷(Guanosine Diphosphate，GDP)是细胞生物学中的一个重要的多功能分子，它能够与蛋白质相互作用，在膜运输、细胞运动、肌肉收缩、DNA的信令、复制和转录等各种代谢过程中起着重要作用。又例如，蛋白激酶(protein kinase)与其他蛋白质分子接触，具有改变其他蛋白质分子活性的作用。

氨基酸序列：是氨基酸相互连接形成肽链(如蛋白质)或多肽的顺序。一般可以以字符串的形式存在，每个字符可以为一种氨基酸的氨基酸缩写码。氨基酸有100多种不同类型，其中20种常用于生产蛋白质。下表为20种常用于生产蛋白质的氨基酸及其对应的氨基酸缩写码：

下面举例示出了一种蛋白质的氨基酸序列片段：

“……KSAPYFLEILDKRVENKGTGVKSLADVLGI……”。

氨基酸残基(简称为残基)：组成多肽的氨基酸在相互结合时，由于其部分基团参与了肽键的形成而失去一分子水，因此把多肽中的氨基酸单位称为氨基酸残基。

目前，通常利用氨基酸多序列比对技术(如BLAST)，检索与目标蛋白质序列相似的已知功能蛋白质，进而根据检索得到的蛋白质对目标蛋白质的功能进行预测。从氨基酸序列表面的相似性出发，对比两个氨基酸序列中残基排列顺序的相似性，对与已知功能蛋白质序列分布差异性较大的目标蛋白质，以及，通过序列检索无法获取氨基酸序列相似的已知功能蛋白质的目标蛋白质无法实现有效的功能预测。

为此，本申请实施例提供了一种蛋白质功能预测方法，从氨基酸序列的深层特征(如进化特征或突变特征等)作为序列相似性对比的依据，避免氨基酸序列表面特征对功能表达的歧义性，在氨基酸序列相似度较低或者根据氨基酸序列相似度检索无法获得相似蛋白质进行参考的情况下，也能够完成对目标蛋白质序列的功能预测，提高蛋白质功能预测的覆盖率。

需要说明的是，本申请实施例提供的蛋白质功能预测方法及装置，能够实现对蛋白质与蛋白质、蛋白质与DNA分子、蛋白质与RNA分子、蛋白质与糖类分子、蛋白质与脂质类分子以及蛋白质与金属离子等相互作用功能的预测，具有较强的通用性，能够在蛋白质功能具体的细分领域，完成模型构建和功能预测应用，为生物实验者提供多方位功能信息，辅助指导药物设计。具体实施时，可以根据实际需要对待预测的目标蛋白质的任意一种或多种功能进行预测，在此不进行限定。

基于上述思想，为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。

参见图1，该图为本申请实施例提供的一种蛋白质功能预测方法的流程示意图。

本申请实施例提供的蛋白质功能预测方法，包括：

S101：获得目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征。

可以理解的是，目标蛋白质为功能待预测的蛋白质，参考蛋白质为功能已知的蛋白质。蛋白质的功能由其氨基酸序列决定，通常具有相似功能的蛋白质也会具有相似的氨基酸序列片段。这些实现特定功能的氨基酸序列片段在物种的衍生进化中体现了极高的保守性。

在本申请实施例中，目标蛋白质的氨基酸序列特征指的是表征目标蛋白质氨基酸序列的特征，能够表达目标蛋白质的氨基酸序列中实现特定功能的氨基酸序列片段在物种的衍生进化中的保守性，能够避免氨基酸序列表面特征(如特定氨基酸的出现频率)对特征表达的歧义性。类似的，参考蛋白质的氨基酸序列特征指的是表征参考蛋白质的氨基酸序列的特征，能够表达参考蛋白质的氨基酸序列中实现特定功能的氨基酸序列片段在物种的衍生进化中的保守性，能够避免氨基酸序列表面特征(如特定氨基酸的出现频率)对特征表达的歧义性。作为一个示例，氨基酸序列特征可以包含蛋白质氨基酸序列的深层特征(如进化特征或突变特征)，利用该深层特征来表达蛋白质，能够更加准确的表达与蛋白质功能相关的特征。

在一个具体的例子中，氨基酸序列特征可以基于位置特异性得分矩阵(positionspecific scoring matrix，PSSM)得到。PSSM包含了蛋白质氨基酸序列的进化保守信息，并且能够融入远源的进化信息，能够准确表达蛋白质的氨基酸序列特征。利用PSSM作为目标蛋白质氨基酸序列和参考蛋白质氨基酸序列的特征表达，能够消除序列表面特征的歧义性，准确的获取不同氨基酸序列片段之间的同源性，大大提高预测结果的准确性和精度。

在具体实施时，以目标蛋白质为例，PSSM可以通过如下步骤得到，参考蛋白质的PSSM获得方法与此类似：

第一步，构建蛋白质PSSM检索库。

其中，蛋白质PSSM检索库可以是利用现有的任意一种蛋白质序列数据库得到。例如，美国国立生物技术信息中心(National Center for Biotechnology Information，NCBI)提供的非冗余NCBI数据库。该NCBI数据库包含95563598条完全解析的氨基酸序列信息。又例如，UniProt蛋白质序列库(UniProt Knowledgebase，UniProtKB)和蛋白质立体结构库(Protein Data Bank，PDB)等，这里不再一一列举。

第二步，将目标蛋白质的氨基酸序列与同源蛋白质的氨基酸序列进行多序列对比，得到目标蛋白质的位置特异性得分矩阵。

可以理解的是，同源蛋白质是指与目标蛋白质在进化上相关的蛋白质，即不同物种中具有相同或相似功能的蛋白质或具有明显序列同源性的蛋白质。将目标蛋白质的氨基酸序列与同源蛋白质的氨基酸序列进行多序列对比，可以确定目标蛋白质的进化特征或突变特征，得到目标蛋白质的PSSM。

在一个具体的例子中，多序列对比可以采用位置特定的迭代-基本局部对齐搜索工具(Position-Specific Iterated-Basic Local Alignment Search Tool，PSI-BLAST)。例如，将PSI-BLAST设置最大迭代次数设为3，E值的阈值设为0.05，采用该PSI-BLAST对目标蛋白质的氨基酸序列和同源蛋白质的氨基酸序列进行多序列比，得到目标蛋白质的PSSM。表1举例示出了一种蛋白质的位置特异性得分矩阵：

表1位置特异性得分矩阵

位置特异性得分	A	R	N	D	C	Q	E	……	V
										1M	-2	-6	-7	-7	-5	-5	-6	……	2
2K	-4	2	0	-2	-6	2	2	……	-6
										3I	-4	-6	-7	-7	-4	-6	-6	……	3
4S	-2	3	-3	-4	-5	0	-2	……	-3
										5F	-6	-7	-7	-8	-2	-6	-7	……	-6
6H	-5	-5	-5	-6	-5	-4	-5	……	-3
										…	…	…	…	…	…	…	…	……	…

其中，表1第一行中包括的“A、R、N、D、C、Q、E、……、V”分别代表组成蛋白质的20种氨基酸；表1第一列中包括的“1M、2K、3I、4S、5F、6H、……”表示蛋白质的氨基酸序列每一个位置的位置序号及该位置上的氨基酸；表1第一行和第一列中每个元素的交点表示目标蛋白质的氨基酸序列中每位氨基酸被其他氨基酸代替的可能性(也可称为倾向程度或者保守程度)，即目标蛋白质的氨基酸序列中第n位进化或突变为其他氨基酸的可能性。一般，位置特异性得分的取值范围为-13到+13，分数越大可能性越高。例如，表1中第3行“2K”和第3列“R”交叉位置处的“2”，表示目标蛋白质的氨基酸序列中，第二个位置上的氨基酸赖氨酸(即K)被精氨酸(即R)替代的可能性得分为2。

则，在本申请实施例一些可能的实现方式中，如图2所示，当氨基酸序列特征基于PSSM得到时，步骤S101具体可以包括：

S1011：查找目标蛋白质的位置特异性得分矩阵每列的最大位置特异性得分。

可以理解的是，位置特异性得分即说明该得分对应的残基位点最大进化倾向性，特异性越强越能够表达该残基位点的深层特征。因此，在本申请实施例中，查找目标蛋白质的位置特异性得分矩阵每列的最大位置特异性得分，作为得到目标蛋白质的氨基酸序列特征的基础，以准确表达目标蛋白质氨基酸序列的深层特征，提高特征表达的准确度和精度，保证功能预测的覆盖率。

在实际应用中，可以采用任意一种查找最大值的方法得到PSSM中每列的最大位置特异性得分，如冒泡法等，这里不进行限定。以表1所示的PSSM为例，查找到的第三列“R”对应的最大位置特异性得分为3，第四列“R”对应的最大位置特异性得分为0，等等。

S1012：根据每列的最大位置特异性得分所在的行，形成矩阵作为目标蛋白质的氨基酸序列特征。

需要说明的是，在形成矩阵时，可以将每列的最大位置特异性得分所在的行作为形成的矩阵的行，也可以作为形成的矩阵的列，每列的最大位置特异性得分所在的行在形成矩阵时按照预先规定的顺序(如“A、R、N、D、C、Q、E、……、V”的顺序)排列。

继续以表1所示的PSSM为例，第三列“R”对应的最大位置特异性3所在的行为“4S”行，第四列“N”对应的最大位置特异性0所在的行为“2K”，则可以将“4S”行作为与“R”对应的氨基酸序列特征行(或列)，将“2K”行作为与“N”对应的氨基酸序列特征行(或列)。

还需要说明的是，当查找最大位置特异性得分时，PSSM中的一列存在多个相同的最大位置特异性得分，可以选取该多个最大位置特异性得分所在行的平均值作为该列对应的氨基酸序列特征行(或列)。

例如，表1中第二列“A”对应的最大位置特异性得分为-2，对应的行包括“1M”行和“4S”行，则可以将“1M”行和“4S”行对应位置的平均值所形成的行作为“A”对应的氨基酸序列特征行(或列)。即取“-2，-6，-7，-7，-5，-5，-6，……，2”和“-2，3，-3，-4，-5，0，-2，……，-3”的平均值“-2，-1.5，-5，-5.5，-5，-2.5，-4，……，-0.5”作为“A”对应的氨基酸序列特征行(或列)。依此类推，可以得到20个氨基酸序列特征行(或列)，形成20*20的矩阵作为目标蛋白质的氨基酸序列特征。作为一个示例，得到的目标蛋白质的氨基酸序列特征可以如下表2.1或表2.2所示：

表2.1一种目标蛋白质的氨基酸序列特征

A	-2	-1.5	-5	-5.5	-5	-2.5	-4	……	-0.5
										R	-2	3	-3	-4	-5	0	-2	……	-3
N	-4	2	0	-2	-6	2	2	……	-6
										D	-4	2	0	-2	-6	2	2	……	-6
C	-6	-7	-7	-8	-2	-6	-7	……	-6
										Q	-4	2	0	-2	-6	2	2	……	-6
……	……	……	……	……	……	……	……	……	……

表2.2另一种目标蛋白质的氨基酸序列特征

A	R	N	D	C	Q	……
							-2	-2	-4	-4	-6	-4	……
-1.5	3	2	2	-7	2	……
							-5	-3	0	0	-7	0	……
-5.5	-4	-2	-2	-8	-2	……
							-5	5	-6	-6	-2	-6	……
-2.5	0	2	2	-6	2	……
							-4	-2	2	2	-7	2	……
……	……	……	……	……	……	……
							-0.5	-3	-6	-6	-6	-6	……

可以理解的是，参考蛋白质的氨基酸序列特征与目标蛋白质的氨基酸序列特征获得方法类似，不再赘述。

S102：基于目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征，判断目标蛋白质的功能和参考蛋白质的功能是否满足相似判断规则；若是，则执行步骤S103。

在本申请实施例中，相似判断规则用于判断目标蛋白质的功能和参考蛋白质的功能之间的相似性，代表了功能预测的粒度。当目标蛋白质的功能和参考蛋白质的功能满足相似判断规则时，目标蛋白质的功能和参考蛋白质的功能可以属于同一类(如均可以与脂质相互作用)，目标蛋白质的功能和参考蛋白质的功能也可以属于同一种(如均可以与脂质结合，或者均可以与某一个具体的脂质结合)等，这里不进行限定。

可以理解的是，功能相似的蛋白质，其氨基酸序列相似，得到的氨基酸序列特征也会相似。因此，在本申请实施例中，基于目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征，对目标蛋白质的氨基酸序列和参考蛋白质的氨基酸序列的相似性进行判断，确定目标蛋白质和参考蛋白质之间的功能相似性，可以实现对目标蛋白质的功能预测，提高序列相似性判断的准确性和精度，保证功能预测的准确率和覆盖率。

在实际应用中，当目标氨基酸的氨基酸序列特征和参考氨基酸的氨基酸序列特征为特征矩阵(例如表2.1或表2.2所示的矩阵)时，可以通过矩阵相似性对比的方式，判断目标蛋白质的氨基酸序列和参考蛋白质的氨基酸序列的相似性，进而对目标蛋白质的功能和参考蛋白质的功能是否满足相似判断规则进行判断，本申请实施例矩阵对比的具体方法不进行限定，例如可以将矩阵视为图像，利用图像相似性识别算法对矩阵的相似性进行对比。下面将结合一个具体的例子进行说明。

在本申请实施例一些可能的实现方式中，如图3所示，步骤S102具体可以包括：

S1021：将目标蛋白质的氨基酸序列特征输入转换模型得到目标哈希编码。

哈希编码，也称为散列值，可以通过预先确定的函数或模型(即转换模型)转换得到。在本申请实施例中，转换模型用于对输入的氨基酸序列特征(即目标蛋白质的氨基酸序列特征)进行转换，输出该目标蛋白质的哈希编码(即目标哈希编码)。该转换模型可以预先根据多个训练蛋白质的氨基酸序列特征(即训练样本)以及任意两个训练蛋白质的功能是否满足相似判断规则训练得到，训练蛋白质的功能已知。将两个训练蛋白质的氨基酸序列特征输入转换模型后得到的两个哈希编码之间的相似度与这两个训练蛋白质的功能相似度相关，如成正相关关系或负相关关系。

下面以哈希编码之间的相似度与蛋白质的功能相似度成正相关关系为例进行说明，当两个训练蛋白质的功能满足相似判断规则时，将这两个训练蛋白质的氨基酸序列特征输入转换模型后得到的两个哈希编码相似度高；当两个训练蛋白质的功能不满足相似判断规则时，则将这两个训练蛋白质的氨基酸序列特征输入转换模型后得到的两个哈希编码相似度低。当哈希编码之间的相似度与蛋白质的功能相似度成负相关关系时，则与此相反，这里不再赘述。

在本申请实施例中，对转换模型的结构不进行具体限定，只要是可以实现对输入的氨基酸序列特征进行学习、输出与该氨基酸序列特征对应的满足上述相关关系的哈希编码的模型结构，均可以作为该转换模型。在一个例子中，转换模型可以为卷积神经网络结构。下面将结合一个具体的例子对转换模型进行详细说明，先不赘述。

S1022：判断目标哈希编码和参考哈希编码是否符合预设匹配规则。

在本申请实施例中，与目标哈希编码类似，参考哈希编码也是通过将参考蛋白质的氨基酸序列特征输入该转换模型得到。当目标哈希编码和参考哈希编码符合预设匹配规则时，说明目标哈希编码与参考哈希编码匹配，目标蛋白质的氨基酸序列和参考蛋白质的氨基酸序列相似，目标蛋白质的功能和参考蛋白质的功能满足相似判断规则，目标蛋白质的功能和参考蛋白质的功能也相似。

在实际应用中，可以根据实际情况对目标哈希编码和参考哈希编码之间匹配判断的参数进行设定，在一个例子中，可以基于目标哈希编码和参考哈希编码的汉明距离判断二者是否符合预设匹配规则。汉明距离表示两个相同长度数据对应位不同的数量，具体实施时，可以对两个数据(或字符串)进行异或运算，并统计结果为1的个数得到的结果即这两个数据的汉明距离。

则，在一些可能的实现方式中，步骤S1022具体可以包括：判断目标哈希编码和参考哈希编码的汉明距离是否小于预设阈值。

具体实施时，可以根据功能预测的精度需要对预设阈值进行设定，本申请实施例对此不进行限定。

S103：根据参考蛋白质的功能确定目标蛋白质的功能。

在本申请实施例中，当目标蛋白质的功能和参考蛋白质的功能满足相似判断规则时，即可根据参考蛋白质的功能确定目标蛋白质的功能，从而实现对目标蛋白质的功能的预测。

在本申请实施例中，首先获得待识别的目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征，然后基于目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征，判断目标蛋白质的功能和参考蛋白质的功能是否满足相似判断规则，以氨基酸序列特征之间的相似性判断目标蛋白质和已知功能的蛋白质之间的功能相似性。当目标蛋白质的功能和参考蛋白质的功能满足相似判断规则时，根据参考蛋白质的功能确定目标蛋白质的功能，实现对目标蛋白质功能的预测。氨基酸序列特征包含了蛋白质氨基酸序列的深层特征，能够更加准确的表达蛋白质的功能特征。因此，根据氨基酸序列特征和蛋白质功能之间的联系，利用氨基酸序列特征对目标蛋白质和参考蛋白质之间的功能相似性进行评判，从与功能相关的氨基酸序列的深层特征层面判断目标蛋白质的功能和参考蛋白质的功能之间的相似度，能够避免氨基酸序列表面特征的歧义性对功能相似性判断的影响，从而提高了蛋白质功能预测的覆盖率，具有较强的通用性，能够在蛋白质功能具体的细分领域，完成模型构建和功能预测应用，为生物实验者提供多方位功能信息，辅助指导药物设计。

下面以卷积神经网络结构为例，对转换模型进行详细说明。

如图4所示，转换模型400可以包括：卷积层401、下采样层402、全连接层403和输出层404。其中，卷积层401的输入为转换模型400的输入，卷积层401的输出连接下采样层402的输入，下采样层402的输出连接全连接层403的输入，全连接层403的输出连接输出层404的输入，输出层404的输出为转换模型400的输出。

在具体实现时，可以将氨基酸序列特征输入到转换模型400中，转换模型400中的卷积层401先对氨基酸序列特征进行预设卷积核的卷积运算，得到第一结果；然后，下采样层402对第一结果进行预设池化尺寸的最大池化运算，得到第二结果；接着，全连接层403对第二结果进行平铺展开为预设规模的向量后，与预设个数的神经元进行全连接运算，得到第三结果；最后，输出层404根据包括的神经元的数量基于第三结果输出该氨基酸序列特征对应的哈希编码。则，该哈希编码可以由1和-1(或者1和0)组成的k位数列，k为输出层404中包括的神经元的数量。

在一个例子中，可以使用简化的LeNet-5卷积神经网络架构构建转换模型。具体的，氨基酸序列特征可以为20×20的矩阵，卷积层401中采用5×5的卷积核，对20×20的氨基酸序列特征进行卷积计算，生成16×16的特征图(即第一结果)。下采样层402采用最大池化，池化尺寸可以是2×2，对16×16的特征图进行池化生成8×8的特征图(即第二结果)。全连接层403可以将8×8的特征图进行平铺展开为64位向量，再与500个神经元进行全连接，神经元的数量可以根据实际的迭代效果进行调整。输出层404设为k个神经元，代表输出的哈希编码中的每一位。其中，具体实施时，k可以设为48、64或128等。

转换矩阵可以通过对初始模型的若干次迭代训练至模型收敛得到。则，在一些可能的设计中，其中一个迭代训练步骤可以如图5所示。具体的，转换模型可以利用如下步骤训练得到：

S501：获取第一训练蛋白质的氨基酸序列特征和第二训练蛋白质的氨基酸序列特征，以及第一训练蛋白质的功能和第二训练蛋白质的功能是否符合相似判断规则的相似判断结果。

在本申请实施例中，第一训练蛋白质和第二训练蛋白质为上述多个训练蛋白质中的任意两个，其氨基酸序列和功能可以从任意一种蛋白质数据库(如Swiss-port蛋白质序列标注数据库)中提获取。对第一训练蛋白质的氨基酸序列特征和第二训练蛋白质的氨基酸序列特征的获得方法与上述目标蛋白质的氨基酸序列特征的获得方法类似，具体可以参见步骤S101部分的说明，不再赘述。

Swiss-port蛋白质序列标注数据库中的蛋白质均为被标定好已知脂质功能的历史蛋白质，标定的已知脂质功能可以包括：脂质结合(Lipid binding，LB)功能、脂质降解(Lipid degradation，LD)功能、脂质代谢(Lipid metabolism，LM)功能、脂质合成(Lipidsynthesis，LS)功能、脂质运输(Lipid transport，LT)功能、脂蛋白(Lipoprotein，LP)功能、脂多糖生物合成(Lipopolysaccharide biosynthesis，LPB)功能、脂多糖(lipoyl)功能或不具备脂质功能等。

在一些可能的实现方式中，为了训练样本的有效性，可以按照一定的规则从蛋白质数据库中筛选出符合该规则的历史蛋白质，将筛选出的历史蛋白质(即多个训练蛋白质)的氨基酸序列特征作为训练转换模型的训练样本。

作为一个示例，因为当历史蛋白质的氨基酸序列过长时，检索与其同源的蛋白质较为困难；而当历史蛋白质的氨基酸序列过短时，又不具备良好的位置特异性，难以准确的获取其对应的氨基酸序列特征。所以，可以根据预先设置的长度阈值范围(即筛选的规则)对历史蛋白质进行筛选，仅选取蛋白质数据库中氨基酸序列长度在长度阈值范围内的历史蛋白质的氨基酸序列特征作为训练样本。例如，长度阈值范围可以设为[50，5000]，则可以将蛋白质数据库中氨基酸序列长度在50～5000之间的历史蛋白质作为多个训练氨基酸。即，第一训练蛋白质和第二训练蛋白质可以是蛋白质数据库中长度在50～5000之间的已知功能蛋白质(即历史蛋白质)。

在一些可能的设计中，在确保训练样本的全面性的同时，为了尽量减少重复训练样本的多次训练、节约计算资源，还可以对多个训练氨基酸进行去重处理，使用去重算法(如CD-HIT序列比对程序)剔除多个训练氨基酸中氨基酸序列相似度大于预设相似度阈值(如90％)的历史蛋白质。

在实际应用中，还可以先将Swiss-prot蛋白质序列标注数据库中氨基酸序列相似度大于预设相似度阈值(如90％)的多个历史蛋白质选出，并将选出的该多个历史蛋白质进行融合，得到一条可以综合代表该类相似的历史蛋白质的新的历史蛋白质的氨基酸序列。

在本申请实施例中，第一训练蛋白质的功能和第二训练蛋白质的功能也可以从蛋白质数据库中预先对蛋白质功能的标注获得。当第一训练蛋白质的功能和第二训练蛋白质的功能符合相似评判规则(如均可以与脂质作用或者均可以与脂质结合等)时，相似评判结果为“相似”；反之，当第一训练蛋白质的功能和第二训练蛋白质的功能不符合相似评判规则时，相似评判结果为“不相似”。在实际应用中，可以将“相似”标记为0，将“不相似”标记为1。

S502将第一训练蛋白质的氨基酸序列特征和第二训练蛋白质的氨基酸序列特征分别输入当前的转换模型，得到第一哈希编码和第二哈希编码。

可以理解的是，当前的转换模型可以是初始设置模型参数得到的转换模型，也可以是迭代训练N次后得到的转换模型。将第一训练蛋白质的氨基酸序列特征输入当前的转换模型后，根据当前的转换模型的输出得到第一哈希编码；将第二训练蛋白质的氨基酸序列特征输入当前的转换模型后，根据当前的转换模型的输出得到第二哈希编码。

S503：基于第一哈希编码和第二哈希编码之间的相似度以及第一训练蛋白质和第二训练蛋白质对应的相似判断结果，更新当前的转换模型的模型参数。

在本申请实施例中，由于哈希编码之间的相似度与蛋白质的功能相似度成正相关关系，则转换模型的训练目标可以设为：当第一训练蛋白质和第二训练蛋白质对应的相似判断结果为“相似”时，第一哈希编码和第二哈希编码的相似度高；而当第一训练蛋白质和第二训练蛋白质对应的相似判断结果为“不相似”时，第一哈希编码和第二哈希编码的相似度低。根据第一哈希编码和第二哈希编码之间的相似度以及第一训练蛋白质和第二训练蛋白质对应的相似判断结果，更新当前的转换模型的模型参数使之符合转换模型的训练目标，即实现对转换模型的训练。

在实际应用中，可以根据实际情况对第一哈希编码和第二哈希编码之间的相似度的判断参数进行设定，在一个例子中，可以利用第一哈希编码和第二哈希编码之间的汉明距离表示第一哈希编码和第二哈希编码之间的相似度。

则，在本申请实施例一些可能的实现方式中，步骤S503具体可以包括：

S5031：获取第一哈希编码和第二哈希编码之间的汉明距离。

汉明距离的获得方法可以参见步骤S1022的相关说明，不再赘述。

S5032：利用预先设定的损失函数和汉明距离，更新当前的转换模型的模型参数。

损失函数(loss function)用来估量模型的预测值与真实值的不一致程度，是一个非负实值函数，损失函数越小，模型的鲁棒性就越好。在本申请实施例中，当相似判断结果为第一训练蛋白质的功能和第二训练蛋白质的功能符合相似判断规则时，预先设定的损失函数与汉明距离成正相关关系；当相似判断结果为第一训练蛋白质的功能和第二训练蛋白质的功能不符合相似判断规则时，预先设定的损失函数与汉明距离成负相关关系。

作为一个示例，预先设定的损失函数可以如下式：

式中，b₁和b₂分别为第一哈希编码和第二哈希编码；y为第一训练蛋白质和第二训练蛋白质对应的相似判断结果，当相似判断结果为“相似”时y＝0，当相似判断结果为“不相似”时y＝1；D(b₁,b₂)为第一哈希编码和第二哈希编码之间的汉明距离；m为损失边界，可根据实际需要设定为大于0的值。

通过将得到的哈希编码和相似判断结果代入上式所示的损失函数后，根据得到的结果和期望结果之间的差异，不断调整当前转换模型的参数，直到达到训练目标模型收敛，完成对转换模型的训练。根据训练后的转换模型，即可以根据输入的氨基酸序列特征，输出符合哈希编码之间的相似度与蛋白质的功能相似度成正相关关系要求的哈希编码，根据该哈希编码可以实现对蛋白质功能的预测。

基于上述实施例提供的蛋白质功能预测方法，本申请实施例还提供了一种蛋白质功能预测装置。

参见图6，该图为本申请实施例提供一种蛋白质功能预测装置的结构示意图。

本申请实施例提供的蛋白质功能预测装置，包括：获得单元601、判断单元602和确定单元603；

获得单元601，用于获得目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征；

可选的，氨基酸序列特征基于位置特异性得分矩阵得到。

判断单元602，用于基于目标蛋白质的氨基酸序列特征和参考蛋白质的氨基酸序列特征，判断目标蛋白质的功能和参考蛋白质的功能是否满足相似判断规则；

确定单元603，用于当判断单元判断目标蛋白质的功能和参考蛋白质的功能满足相似判断规则时，根据参考蛋白质的功能确定目标蛋白质的功能。

在本申请实施例一些可能的实现方式中，判断单元602具体可以包括：转换子单元和判断子单元；

转换子单元，用于将氨基酸序列特征输入转换模型得到目标哈希编码；转换模型预先根据多个训练蛋白质的氨基酸序列特征以及任意两个训练蛋白质的功能是否满足相似判断规则训练得到；

判断子单元，用于判断目标哈希编码和参考哈希编码是否符合预设匹配规则；参考哈希编码利用转换模型得到。

可选的，判断子单元，具体用于判断目标哈希编码和参考哈希编码的汉明距离是否小于预设阈值。

在本申请实施例一些可能的实现方式中，该装置还可以包括：输入单元和更新单元；

获得单元601，还用于获取第一训练蛋白质的氨基酸序列特征和第二训练蛋白质的氨基酸序列特征，以及第一训练蛋白质的功能和第二训练蛋白质的功能是否符合相似判断规则的相似判断结果；

输入单元，用于将第一训练蛋白质的氨基酸序列特征和第二训练蛋白质的氨基酸序列特征分别输入当前的转换模型，得到第一哈希编码和第二哈希编码；

更新单元，用于基于第一哈希编码和第二哈希编码之间的相似度以及相似判断结果，更新当前的转换模型的模型参数。

在本申请实施例一些可能的实现方式中，更新单元，具体可以包括：获取子单元和更新子单元；

获取子单元，用于获取第一哈希编码和第二哈希编码之间的汉明距离；

更新子单元，用于利用预先设定的损失函数，根据相似判断结果和汉明距离，更新当前的转换模型的模型参数；

其中，当相似判断结果为第一训练蛋白质的功能和第二训练蛋白质的功能符合第二相似判断规则时，损失函数与汉明距离成正相关关系；当相似判断结果为第一训练蛋白质的功能和第二训练蛋白质的功能不符合第二相似判断规则时，损失函数与汉明距离成负相关关系。

在本申请实施例一些可能的实现方式中，获得单元601，具体可以包括：查找子单元和形成子单元；

查找子单元，用于查找目标蛋白质的位置特异性得分矩阵每列的最大位置特异性得分；

形成子单元，用于根据每列的最大位置特异性得分所在的行，形成矩阵作为目标蛋白质的氨基酸序列特征。

基于上述实施例提供的蛋白质功能预测方法及装置，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时，实现如上述实施例提供的蛋白质功能预测方法中的任意一种。

基于上述实施例提供的蛋白质功能预测方法及装置，本申请实施例还提供了一种蛋白质功能预测设备，包括：处理器和存储器；

存储器，用于存储程序代码，并将程序代码传输给处理器；

处理器，用于根据程序代码中的指令，执行如上述实施例提供的蛋白质功能预测方法中的任意一种。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种蛋白质功能预测方法，其特征在于，所述方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标蛋白质的氨基酸序列特征和所述参考蛋白质的氨基酸序列特征，判断所述目标蛋白质的功能和所述参考蛋白质的功能是否满足相似判断规则，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述转换模型的训练方法包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一哈希编码和所述第二哈希编码之间的相似度以及所述相似判断结果，更新所述当前的转换模型的模型参数，具体包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述氨基酸序列特征基于位置特异性得分矩阵得到。

6.根据权利要求5所述的方法，其特征在于，所述获得目标蛋白质的氨基酸序列特征，具体包括：

7.根据权利要求2-4任一项所述的方法，其特征在于，所述判断所述目标哈希编码和参考哈希编码是否符合预设匹配规则，具体包括：

8.一种蛋白质功能预测装置，其特征在于，所述装置包括：获得单元、判断单元和确定单元；

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当该计算机程序被处理器执行时，实现如权利要求1-7任一项所述的蛋白质功能预测方法。

10.一种蛋白质功能预测设备，其特征在于，包括：处理器和存储器；

所述处理器，用于根据所述程序代码中的指令，执行如权利要求1-7任一项所述的蛋白质功能预测方法。