CN111401534A

CN111401534A - 一种蛋白质性能预测方法、装置和计算设备

Info

Publication number: CN111401534A
Application number: CN202010358971.9A
Authority: CN
Inventors: 王天元; 翟珂; 赖力鹏; 温书豪; 马健
Original assignee: Beijing Jingpai Technology Co ltd
Current assignee: Beijing Jingpai Technology Co ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-07-10
Anticipated expiration: 2040-04-29
Also published as: CN111401534B

Abstract

本发明公开了一种蛋白质性能预测方法，适于在计算设备中执行，计算设备包括蛋白质性质预测模型，该模型包括相互耦接的蛋白质序列特征模型和预测模型，蛋白质序列特征模型基于输入的三肽词汇序列输出对应的语义特征向量，预测模型基于语义特征向量输出蛋白质序列的性能属性，该方法包括步骤：获取待处理的目标蛋白质序列；以三肽为最小单位对目标蛋白质序列进行切分，并删除其中的二肽和离散的单个氨基酸，得到三肽词汇序列；利用蛋白质性能预测模型对目标蛋白质序列的三肽词汇序列进行处理，以得到该目标蛋白质序列的特征向量后，进而得到该特征向量所对应的蛋白质性能属性。本发明还一并公开了对应的蛋白质性能预测装置和计算设备。

Description

一种蛋白质性能预测方法、装置和计算设备

技术领域

本发明涉及药物虚拟筛选领域，尤其涉及一种蛋白质性能预测方法、装置和计算设备。

背景技术

众所周知，药物研发是一个漫长的过程，存在着研发周期长，研发成果率低，研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展，人工智能正在各行各业中发挥巨大的应用价值，在制药行业也受到了广泛的关注。在新药发现过程中，虚拟筛选可以提高活性分子的富集，通过对化合物的性能进行预测，可以节约大量的人力、物力，缩短药物研发周期，加速研究成果的转化，因此近年来已引起科研机构和制药公司的高度重视。

生物序列即由单个核酸或氨基酸组成的连续生物模型。线性组合的多个氨基酸一般被称为多肽或者蛋白质一级结构，它们在很大程度上决定了蛋白质的三维构象，包括二级结构和三级结构，同时蛋白质序列可用于预测局部特征，例如局部二级结构的预测和生物物理特性的估算等。总而言之，研究蛋白质的生物序列可以帮助科学家更好地了解疾病的生物蛋白基础，根据自定义的功能需求改进蛋白，帮助提高生产效率，甚至开发出全新功效的蛋白质。但目前的蛋白质序列特征表征仍然具有一定缺陷，相对应的蛋白质性能预测也不够准确，因此需要提供一种比较行之有效的蛋白质性能预测方法。

发明内容

为此，本发明提供了一种蛋白质性能预测方法、装置和计算设备，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种蛋白质性能预测方法，适于在计算设备中执行，所述计算设备包括蛋白质性质预测模型，该模型包括相互耦接的蛋白质序列特征模型和下游预测模型，蛋白质序列特征模型基于输入的三肽词汇序列输出对应的语义特征向量，下游预测模型基于语义特征向量输出蛋白质序列的性能属性，该方法包括步骤：获取待处理的目标蛋白质序列，目标蛋白质序列表示为单字母缩写的氨基酸标识；以三肽为最小单位对目标蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到目标蛋白质序列的三肽词汇序列；利用蛋白质性能预测模型对目标蛋白质序列的三肽词汇序列进行处理，以得到该目标蛋白质序列的特征向量，进而得到该特征向量所对应的蛋白质性能属性。

可选地，在根据本发明的蛋白质性能预测方法中，蛋白质性能预测模型包括：蛋白质序列特征模型：适于基于蛋白质序列的三肽序列生成对应的语义特征向量；参数冻结层：适于冻结训练好的蛋白质特征生成模型的部分参数，以完成所述蛋白质性能预测模型的训练；以及预测模型层，其为回归模型层或分类模型层。

可选地，在根据本发明的蛋白质性能预测方法中，分类模型的输出包括细胞水平是否具有特定活性，回归模型的输出包括细菌生长速率。

可选地，在根据本发明的蛋白质性能预测方法中，蛋白质序列特征模型为BERT模型，该模型结构包括：输入层：适于接收输入的三肽词汇序列；嵌入层：适于将每个三肽词汇编码为词向量；拼接层：适于将每个三肽词汇的词向量、字符位置向量和分割向量进行拼接，所述字符位置向量和分割向量分别代表所述三肽词汇的字符位置编号和上下句编号；多个编码器层：适于通过多头注意力机制对每个三肽词汇的上下文信息进行学习；语义向量输出层：适于输出三肽词汇序列的语义特征向量。

可选地，在根据本发明的蛋白质性能预测方法中，还包括蛋白质序列特征模型的训练步骤：获取多条已知的样本蛋白质序列，样本蛋白质序列表示为单字母缩写的氨基酸标识；以三肽为最小单位对样本蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到样本蛋白质序列的三肽词汇序列；以及以样本蛋白质序列的三肽词汇序列为输入，以该三肽词汇序列的语义特征向量为输出，对预训练的蛋白质序列特征模型进行训练，得到训练好的蛋白质序列特征模型。

可选地，在根据本发明的蛋白质性能预测方法中，以三肽为最小单位对所述目标蛋白质序列或样本蛋白质序列进行切分的步骤包括：从目标蛋白质序列或样本蛋白质序列的第一个氨基酸开始，每三个氨基酸组成一个三肽词汇，且相邻两个三肽词汇重复一个氨基酸；和/或将目标蛋白质序列或样本蛋白质序列的第一个氨基酸作为离散的单个氨基酸，从第二个氨基酸开始，每三个氨基酸组成一个三肽词汇，且相邻两个三肽词汇重复一个氨基酸。

可选地，在根据本发明的蛋白质性能预测方法中，在以三肽为最小单位对目标蛋白质序列或样本蛋白质序列进行切分之前，还包括步骤：若该蛋白质序列的氨基酸数目m大于预定数值n，则将该蛋白质序列切分为多个两两互相重叠的短蛋白序列。

可选地，在根据本发明的蛋白质性能预测方法中，所切分的短蛋白序列的个数

两两重叠部分的序列长度

为向上取整。

可选地，在根据本发明的蛋白质性能预测方法中，对预训练的蛋白质序列特征模型进行训练的步骤包括三肽词汇之间的关系训练和/或三肽句子之间的关系训练。

可选地，在根据本发明的蛋白质性能预测方法中，三肽词汇之间的关系训练步骤包括：随机遮蔽三肽词汇序列的部分三肽词汇后，输入到预训练的蛋白质序列特征模型，以输出所遮蔽的三肽词汇，并基于实际词汇结果对所述模型进行训练。

可选地，在根据本发明的蛋白质性能预测方法中，部分三肽词汇在所述三肽词汇序列的占比为15％，所遮蔽的部分三肽词汇用默认符号表示。

可选地，在根据本发明的蛋白质性能预测方法中，三肽句子之间的关系训练步骤包括：随机将三肽词汇序列切分为上下两句，并按照预定比例生成正样本和负样本，正样本中的上下两句保持不变，负样本中的上句保持不变，下句随机替换为其他三肽词汇序列；以及将正样本和负样本输入到预训练的蛋白质序列特征模型中，输出正样本和负样本的上下两句是否具有关联关系，并基于其实际关系对模型进行训练。

可选地，在根据本发明的蛋白质性能预测方法中，计算设备中还存储有序列库，所述序列库包含有由多条蛋白序列生成的三肽词汇序列片段，负样本中的下句随机替换为该序列库中的任一个三肽词汇序列片段。

可选地，在根据本发明的蛋白质性能预测方法中，在蛋白质序列特征模型的训练步骤之后，还包括蛋白质性能预测模型的训练步骤：获取样本蛋白质序列的性能标签；冻结训练好的蛋白质序列特征模型的部分参数，以样本蛋白质序列的三肽词汇序列作为样本输入，以预测的性能属性为样本输出，以对应的性能标签为样本标签，对蛋白质性能预测模型进行训练，得到训练好的蛋白质性能预测模型。

根据本发明的另一方面，提供了一种蛋白质性能预测装置，适于驻留在计算设备中，计算设备包括蛋白质性能预测模型，该模型包括相互耦接的蛋白质序列特征模型和下游预测模型，该蛋白质序列特征模型基于输入的三肽词汇序列输出对应的语义特征向量，该下游预测模型基于语义特征向量输出蛋白质序列的性能属性，该装置包括：序列获取模块，适于获取待处理的目标蛋白质序列，所述目标蛋白质序列表示为单字母缩写的氨基酸标识；序列切分模块，适于以三肽为最小单位对目标蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到目标蛋白质序列的三肽词汇序列；性能预测模块，适于利用蛋白质性能预测模型对目标蛋白质序列的三肽词汇序列进行处理，以得到该目标蛋白质序列的特征向量，进而得到该特征向量所对应的蛋白质性能属性。

根据本发明的再一方面，提供了一种计算设备，包括：存储器；一个或多个处理器；一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如上所述的蛋白质性能预测方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行如上所述的蛋白质性能预测方法。

根据本发明的技术方案，采用自然语言处理(NLP)工具，提供了一个可供后续下游蛋白分析任务使用的基于氨基酸序列的深度学习模型，其可以表征大范围蛋白空间，能够较广泛地学习蛋白质序列的语法语义特征。该模型以三肽整体为建模的基本单位，能够将氨基酸之间本身可能存在的物理和化学相互作用隐藏在词汇中，从而在一定程度上降低搜索这些相互作用对神经网络的负担。三肽模型的总词汇量为8000，可以通过模拟真实语言的词汇量情况，从而尽可能地发挥深度学习模型原本的理解能力。将该深度学习模型拼接上回归或分类等预测模型后，可实现蛋白质性能预测，如输出蛋白质的性质分类和理化指标。本发明的模型能够很高的预测效率和预测准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一些实施方式的计算设备100的示意图；

图2示出了根据本发明一个实施例的蛋白质性能预测方法200的流程图；

图3示出了根据本发明一个实施例的蛋白质序列特征模型的示意图；

图4示出了根据本发明一个实施例的蛋白质性能预测模型的示意图；

图5示出了根据本发明一个实施例的蛋白质性能预测装置500的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令，在根据本发明的计算设备100中，程序数据124包含用于执行蛋白质性能预测方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行蛋白质性能预测方法200。

图2示出了根据本发明一个实施例的蛋白质性能预测方法200的流程图。方法200在计算设备中执行，如在计算设备100中执行，以预测得到蛋白质的性能属性。如图2所示，该方法始于步骤S210。

在步骤S210中，获取待处理的目标蛋白质序列，该目标蛋白质序列表示为单字母缩写的氨基酸标识。

蛋白质是通过共价键连接的氨基酸的线性序列，总共有20种常见氨基酸，该序列表示为单字母缩写的氨基酸标识。例如G代表甘氨酸、A代表丙氨酸、V代表缬氨酸、L代表亮氨酸、I代表异亮氨酸、F代表苯丙氨酸、W代表色氨酸、Y代表酪氨酸、D代表天冬氨酸、N代表天冬氨酰、E代表谷氨酸，K代表赖氨酸、Q代表谷氨酰胺、M代表甲硫氨酸、S代表丝氨酸、T代表苏氨酸、C代表半胱氨酸、P代表脯氨酸、H代表组氨酸、R代表精氨酸，等等。

随后，在步骤S220中，以三肽为最小单位对目标蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到目标蛋白质序列的三肽词汇序列。

这里，仿照NLP编码文字序列的方式，将蛋白质以三肽为单位表示为一系列离散的单词，三肽通过三个氨基酸通过肽键连接形成，对于20种常见氨基酸，可形成的三肽数目为20*20*20共8000种。在一种实现方式中，在对目标蛋白质序列进行切分时，可以从目标蛋白质序列的第一个氨基酸开始，每三个氨基酸组成一个三肽词汇，且相邻两个三肽词汇之间重复一个氨基酸，也就是每个当前三肽词汇的结束氨基酸为下一个三肽词汇的起始氨基酸。

以氨基酸序列ASDPYQVHVK为例，从第一个氨基酸A开始，每三个氨基酸组成一个单词，得到序列ASD/DPY/YQV/VHV/VK，去除其中的二肽VK，得到三肽词汇序列为ASD/DPY/YQV/VHV。这里，单个游离氨基酸和二肽，无法表示为三肽词汇，但其中所包含的信息已经包含在其他三肽词汇中，且实际的蛋白序列长度往往都大于100，因此单独的氨基酸和二肽对整个蛋白序列的影响较小，故可以采取删除策略。这样得到的

在另一种实现方式中，在对目标蛋白质序列进行切分时，可以将蛋白质序列的第一个氨基酸作为离散的单个氨基酸，从第二个氨基酸开始，每三个氨基酸组成一个三肽词汇，且相邻两个三肽词汇之间重复一个氨基酸。

仍以上述氨基酸序列为例，第一个氨基酸A作为离散的单个氨基酸，从第二个氨基酸S开始，每三个氨基酸作为一个单词，且相邻两个三肽词汇之间重复一个氨基酸，重复的氨基酸是上一个三肽词汇的最后一个氨基酸。切分后的序列为A/SDP/PYQ/QVH/HVK，去除其中的单个氨基酸，得到三肽词汇序列为SDP/PYQ/QVH/HVK。

可见，随着起始切分位点的不同而产生两种切分方式，这两种三肽序列都可以在一定程度上表示该氨基酸序列，可以任选其一进行表示，也可以同时采用两种方式进行表征，即将两种不同拼接方式的结果连接起以统合表示该蛋白质序列。这在一定程度上扩增了数据，避免后续模型训练时计算三肽间关系时发生过拟合；其二，缓解模型长度限制的影响，由于参数量和模型自身的局限性，模型对序列长度有着128的限制，采用这种重复一个氨基酸的切分方式后，这个长度限制反映到蛋白序列上会得到近一倍的缓解，且保留氨基酸之间的相互作用；其三，呼应使用三肽而不是氨基酸为词汇单位的初衷，降低模型复杂度和神经网络负担。

这里所说的相互作用，从序列分布层次上来说可指三肽中氨基酸的前后连接关系，但是同时也决定了很多衍生相关作用，包括三肽理化性质、生理功效、以及与其他氨基酸的前后连接关系等。以常见的ACE抑制剂IPP(异亮氨酸-脯氨酸-脯氨酸)来说，IPP的前后连接关系代表着它可能成为ACE抑制位点，排列顺序的打乱会使理化性质的大幅改变与前后连接关系的改变。

当然，在以上两种方式中，相邻两个三肽词汇之间也可以重复两个氨基酸，也就是重复上一个三肽词汇的最后两个氨基酸，此时切分后的三肽词汇序列更长，能保留更多氨基酸之间隐藏的相互作用，但相应的会增加模型运算量。本领域技术人员可以根据需要自行选定切分方式，本发明对此不作限制。

另外，考虑到后续模型具有输入长度的限制，也就是三肽词汇序列中的三肽数目，因此在处理长序列蛋白时，可以先使用交叉分割氨基酸序列的方式进行预测，若蛋白质序列(包括目标蛋白质序列和后文的样本蛋白质序列)的氨基酸数目m大于预定数值n，则将长蛋白序列切分成相邻间两两重叠的短蛋白序列，再将这些短序列分别作为输入进行正常下游任务预测。重叠的目的在于尽量减少切割长序列对语义的影响，如果按序依次切分，则所有短序列边缘之外的其他序列对其均不可视，这会造成在模型在边界的效果下降。

可选地，所切分的短蛋白序列的个数

两两重叠部分的序列长度

为向上取整。

其中n为模型的最大输入长度，该模型最大长度在预训练时确定，理论上可以为大部分数值，如为128。该数字越大，在提高对长序列的处理效果时，计算负担也会大幅增加。当然，如果一个三肽词汇序列的长度不足128位，则可自动用零补齐。公式中减去数字3的目的是在最大序列长度以外去除必定存在的3个特殊字符[CLS]和2个[SEP]。

随后，在步骤S230中，利用训练好的蛋白质性能预测模型对目标蛋白质序列的三肽词汇序列进行处理，以得到该目标蛋白质序列的特征向量，进而得到该特征向量所对应的蛋白质性能属性。

其中，蛋白质性质预测模型包括相互耦接的蛋白质序列特征模型和下游预测模型，蛋白质序列特征模型基于输入的三肽词汇序列输出对应的语义特征向量，下游预测模型基于所述语义特征向量输出蛋白质序列的性能属性。

具体地，蛋白质性能预测模型包括蛋白质序列特征模型、参数冻结层和下游预测模型层。蛋白质序列特征模型基于蛋白质序列的三肽序列生成对应的语义特征向量；参数冻结层冻结训练好的蛋白质特征生成模型的部分参数，以完成所述蛋白质性能预测模型的训练。下游预测模型层为回归模型层或分类模型层。

根据一个实施例，蛋白质序列特征模型为BERT模型，其模型结构包括输入层、嵌入层、拼接层、多个编码器层和语义向量输出层。输入层接收输入的三肽词汇序列。嵌入层将每个三肽词汇编码为词向量，该词向量为初始的词向量，也可以为一个随机向量，向量维度可以为504维。拼接层将每个三肽词汇的词向量、位置向量和分割向量进行拼接，位置向量代表三肽词汇的字符位置编号，即该三肽词汇在整个序列中的第几位。分割向量代表三肽词汇的上下句编号，即三肽词汇在上句序列还是下句序列。多个编码器层通过多头注意力机制对每个三肽词汇的上下文信息进行学习。语义向量输出层输出三肽词汇序列的语义特征向量。

这里，在嵌入层中每个三肽词汇都会以504维的向量作为表征，从随机向量开始，通过大数据和自监督神经网络的大量训练，优化获得该三肽的特征向量表征。而且，两种切分方式得到的三肽词汇序列，每个三肽词汇都会由504维向量进行表征并分别训练学习后，得到三肽之间的关系、以及每个三肽词汇序列的语义特征向量，该语义特征向量中包括每个三肽词汇的表征向量。

关于蛋白质序列特征模型的详细结构和参数，本领域技术人员可以根据需要进行自行设定，本发明对此不作限制。根据一个实施例，该模型的层数为6层，向量维度为504维，头数目为12，序列最大长度为128，激活函数为Gelu，当然不限于此。多GPU模型架构如图3所示，其输入字符位置标示、分割片段标识和掩码标识后，完成掩码识别任务和下句预测任务。

根据本发明的一个实施例，方法200还可以有包括蛋白质序列特征模型的训练步骤：获取多条已知的样本蛋白质序列，该样本蛋白质序列表示为单字母缩写的氨基酸标识；以三肽为最小单位对样本蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到样本蛋白质序列的三肽词汇序列；以样本蛋白质序列的三肽词汇序列为输入，以该三肽词汇序列的语义特征向量为输出，对预训练的蛋白质序列特征模型进行训练，得到训练好的蛋白质序列特征模型。

根据统计，目前现有蛋白质结构数据库(PDB)中总共有16万数据，而Uniprot中的序列数据却有3亿。因此可以从这些大型数据库中提取多条蛋白质序列作为训练样本，如提取数百万条数据进行训练。这些样本和目标蛋白质一样，用TGAKH等单字母的氨基酸缩写表示。采用与目标蛋白质相同的序列切分方法，即样本蛋白质序列的第一个氨基酸开始，每三个氨基酸组成一个三肽词汇，且相邻两个三肽词汇之间重复一个氨基酸。或者，从样本蛋白质序列的第一个氨基酸作为离散的单个氨基酸，从第二个氨基酸开始，每三个氨基酸组成一个三肽词汇，且相邻两个三肽词汇之间重复一个氨基酸。任选一种切分方法，或者将两种方法切分的均作为模型输入，等于一条样本蛋白质得到两条三肽词汇序列。

基于训练样本的三肽词汇序列，可以对预训练的蛋白质序列特征模型进行训练，其训练过程包括三肽词汇之间的关系训练和/或三肽句子之间的关系训练。通过BERT模型的自监督学习方式可从无标签的数据中自行学习特征，本发明主要设计两个任务来帮助在大量无标签数据上进行预训练，即掩盖语言模型任务(MLM)和下句预测任务(NSP)。

掩盖语言模型任务为三肽词汇之间的关系训练，目的是为学习较短层次的词汇级别的特征，该步骤包括：随机遮蔽三肽词汇序列的部分三肽词汇后，输入到预训练的蛋白质序列特征模型，以输出所遮蔽的三肽词汇，并基于实际词汇结果来更新模型参数，直至模型达到收敛条件。通过对大量文本语料库重复此遮蔽预测过程，神经网络将为每个三肽词汇学习到丰富的包含知识语义的上下文特征，通过预训练模型预测缺失的三肽词汇时不具备方向性，会同时考虑所遮蔽三肽的前后三肽词汇。

根据一个实施例，所遮蔽的部分三肽词汇在三肽词汇序列的占比为15％，所遮蔽的部分三肽词汇用默认符号表示，如用MASK表示。模型达到收敛条件一般指达到预期迭代次数(如50次)、损失函数达到预期值、或者所遮蔽三肽词汇的预测值和真实值之间的误差满足预定条件。

依旧以氨基酸序列ASDPYQVHVK为例，其表征后的三肽词汇序列ASD/DPY/YQV/VHV和SDP/PYQ/QVH/HVK。在训练的过程中，从所有三肽词汇中随机抽取15％的词汇掩盖成[MASK]，掩盖后的结果例如为SDP/PYQ/[MASK]/HVK。这样，经过模型训练之后得到未遮蔽之前的序列，从而起到双向预测缺失值的作用，实现网络对三肽关系的特征理解。

下句预测任务是指三肽句子之间的关系训练，目的是人为创造任务以学习较长层次上的语义关系，该步骤包括：随机将三肽词汇序列切分为上下两句，并按照预定比例生成正样本和负样本，正样本中的上下两句保持不变，负样本中的上句保持不变，下句随机替换为其他三肽词汇序列。之后，将正样本和负样本输入到预训练的蛋白质序列模型中，输出正样本和负样本的上下两句是否具有关联关系，并基于其实际关系来更新模型参数，直至模型达到收敛条件。

这里，为了对蛋白前后衔接以及相互作用有所了解，将同一条蛋白切割划分为上下句，寻找句子级别的特征表征。切割后的上下句有50％概率保持不变作为正样本，代表上下句连贯衔接合理的表示；50％概率进行随机替换作为负样本，代表上下句衔接失败的表示。通过预训练模型中的分类任务，输入上下句对其是否进行替换进行预测，从而可以对上下句的连贯性相关性进行学习。模型达到收敛条件一般指达到迭代次数、损失函数达到预期值、或者所判断的多条样本的预测关系和真实关系的误差率满足预定条件。

仍以氨基酸序列ASDPYQVHVK为例，将三肽词汇序列ASD/DPY/YQV/VHV随机切分为上下两句，如前两个三肽词汇为上句，后两个三肽词汇为下句，用切分符号(如逗号、分号等)分开。本发明对于具体的切分位点没有严格要求，切分后的下句会以50％概率进行替换并以此进行下句预测任务。

进一步地，计算设备中还可存储序列库，该序列库包含有由多条蛋白序列生成的三肽词汇序列片段，该片段由一条有效蛋白质片段得到，因此具有一定的上下文逻辑关系，而不是随意的两个或多个三肽词汇之间的拼接。这样在进行下句替换时，可将负样本中的下句随机替换为该序列库中的任一个三肽词汇序列片段。所替换的三肽词汇序列片段与下句原有的三肽词汇片段长度可以相同，也可以不相同，本发明对此不作限制。

经过上述两个任务训练后的蛋白质序列特征模型，可用于生成目标蛋白质的序列特征表征。通过上述自监督预训练过程，模型将对氨基酸序列的构成模式有所理解，通过迁移理解各个蛋白组间和组内在空间中的分布规律，对在蛋白空间内无法通过序列比对提取特征的数据库外数据进行预测。

一旦完成了蛋白质序列特征模型的训练，就可以在模型的下游引入特定的任务，该任务的预测将吸收预训练模型已经学到的蛋白特征。两种可供应用的场景分别为蛋白序列性质的分类预测模型以及蛋白序列物理化学指标的回归预测模型。其中，分类模型代表蛋白质是否具有某项药物属性，可输出细胞水平是否具有特定活性(如抗癌活性)。回归模型代表序列的理化性质数值，例如可输出细菌生长速率。当然也可以设定其他输出参数，本发明对此不作限制。相对应地，模型输出的性能属性，可以为分类模型中的是否具有某种性能，也可以为回归模型中的具体性能值。当为分类模型时，训练样本的样本标签为样本蛋白质是否具有对应性能。当为回归模型时，训练样本的样本标签为样本蛋白质的准确性能值。

上述回归和分类任务不存在序列前后关系的预测，因此本发明使用将后句取空的单句模型。在各个下游应用场景上，以各个场景的序列数据和性质标签训练监督式精加工模型，新模型会在已训练完成的预训练模型的基础上，分别连接分类模型或回归模型，并在冻结部分参数的基础上进行快速训练。图4为一个精加工模型的示例，其在图3中的预训练模型基础上，加入了两层冻结层，来冻结预训练模型的参数。作为训练对象下游训练过程中的大部分参数与蛋白质序列特征的预训练模型相同并且数据量较少。

根据本发明的一个实施例，在完成蛋白质序列特征模型的训练步骤之后，还包括蛋白质性能预测模型的训练步骤：获取样本蛋白质序列的性能标签，该性能标签也就是上述样本标签；冻结训练好的蛋白质序列特征模型的部分参数，以样本蛋白质序列的三肽词汇序列作为样本输入，以预测的性能属性为样本输出，以对应的性能标签为样本标签，对蛋白质性能预测模型进行训练，得到训练好的蛋白质性能预测模型。

本发明在实际应用中，通过对不同数据集上的蛋白质序列的理化性质回归预测，以及在不同属性的分类预测上结果，均取得了非常高的预测效果，模型的绝对系数、皮尔森系数、斯皮尔曼系数等均达到了很优异的数值。需要说明的是，蛋白质序列特征模型可应用的场景不限上述的单句分类和单句回归任务，本领域技术人员也可以根据需要设定其他类型的场景模型，本发明对此不作限制。

图5示出了根据本发明一个实施例的蛋白质性能预测装置500，适于驻留在计算设备中，如驻留在计算设备100中，该计算设备中训练有蛋白质性能预测模型。如图5所示，装置500包括序列获取模块510、序列切分模块520和性能预测模块530。

序列获取模块510获取待处理的目标蛋白质序列，目标蛋白质序列表示为单字母缩写的氨基酸标识。序列获取模块510可以进行与上面在步骤S210中描述的处理相对应的处理，这里不再展开赘述。

序列切分模块520以三肽为最小单位对目标蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到目标蛋白质序列的三肽词汇序列。序列切分模块520可以进行与上面在步骤S220中描述的处理相对应的处理，例如对目标蛋白质序列的切分过程，这里不再展开赘述。而且，若该蛋白质序列的氨基酸数目m大于预定数值n，序列切分模块520还可以将该蛋白质序列切分为多个两两互相重叠的短蛋白序列。

性能预测模块530利用蛋白质性能预测模型对目标蛋白质序列的三肽词汇序列进行处理，以得到该目标蛋白质序列的特征向量后，进而得到该特征向量所对应的蛋白质性能属性。性能预测模块530可以进行与上面在步骤S230中描述的处理相对应的处理，这里不再展开赘述。

根据一个实施例，装置500还可以包括第一模型训练模块(图中未示出)，用于训练蛋白质序列特征模型，该模块适于：获取多条已知的样本蛋白质序列，以三肽为最小单位对样本蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到样本蛋白质序列的三肽词汇序列。最后，以样本蛋白质序列的三肽词汇序列为输入，以该三肽词汇序列的语义特征向量为输出，对预训练的蛋白质序列特征模型进行训练，得到训练好的蛋白质序列特征模型。该第一模型训练模块对样本蛋白质的切分过程和对模型的详细训练过程，已在基于图2的描述中详细公开，这里不再展开赘述。

进一步地，装置500还可以包括第二模型训练模块(图中未示出)，用于训练蛋白质性能预测模型，该模块适于：获取样本蛋白质序列的性能标签；冻结训练好的蛋白质序列特征模型的部分参数，以样本蛋白质序列的三肽词汇序列作为样本输入，以预测的性能属性为样本输出，以对应的性能标签为样本标签，对蛋白质性能预测模型进行训练，得到训练好的蛋白质性能预测模型。该第二模型训练模块对对模型的详细训练过程，已在基于图2的描述中详细公开，这里不再展开赘述。

根据本发明的技术方案，采用自然语言处理(NLP)工具，训练了基于氨基酸序列的深度学习模型，可以表征大范围蛋白空间，能够较广泛地学习蛋白质序列的语法语义特征，为后续可能的蛋白质性能的回归或分类预测提供有效的数据基础。该模型以三肽整体为建模的基本单位，能够将氨基酸之间本身可能存在的物理和化学相互作用隐藏在词汇中，从而在一定程度上降低搜索这些相互作用对神经网络的负担。三肽模型的总词汇量为8000，因此可以通过模拟真实语言的词汇量情况，从而尽可能地发挥深度学习模型原本的理解能力。之后，通过冻结大部分蛋白质序列特征模型的参数，并将蛋白质序列特征模型拼接下游预测模型后，能够得到高效且高准确度的蛋白质性能预测模型，用于预测蛋白质是否具有某些性能，或者蛋白质的准确性能值。

A8、如A7所述的方法，其中，

所切分的短蛋白序列的个数

两两重叠部分的序列长度

为向上取整。

A9、如A8所述的方法，其中，所述对预训练的蛋白质序列特征模型进行训练的步骤包括三肽词汇之间的关系训练和/或三肽句子之间的关系训练。A10、如A9所述的方法，其中，所述三肽词汇之间的关系训练步骤包括：随机遮蔽所述三肽词汇序列的部分三肽词汇后，输入到所述预训练的蛋白质序列特征模型，以输出所遮蔽的三肽词汇，并基于实际词汇结果对所述模型进行训练。A11、如A10所述的方法，其中，所述部分三肽词汇在所述三肽词汇序列的占比为15％，所遮蔽的部分三肽词汇用默认符号表示。A12、如A9所述的方法，其中，所述三肽句子之间的关系训练步骤包括：随机将所述三肽词汇序列切分为上下两句，并按照预定比例生成正样本和负样本，所述正样本中的上下两句保持不变，所述负样本中的上句保持不变，下句随机替换为其他三肽词汇序列；以及将所述正样本和负样本输入到所述预训练的蛋白质序列特征模型中，输出所述正样本和负样本的上下两句是否具有关联关系，并基于其实际关系对所述模型进行训练。

A13、如A12所述的方法，其中，所述计算设备中还存储有序列库，所述序列库包含有由多条蛋白序列生成的三肽词汇序列片段，所述负样本中的下句随机替换为该序列库中的任一个三肽词汇序列片段。A14、如A1-A13中任一项所述的方法，在所述蛋白质序列特征模型的训练步骤之后，还包括所述蛋白质性能预测模型的训练步骤：获取所述样本蛋白质序列的性能标签；冻结所述训练好的蛋白质序列特征模型的部分参数，以所述样本蛋白质序列的三肽词汇序列作为样本输入，以预测的性能属性为样本输出，以对应的性能标签为样本标签，对所述蛋白质性能预测模型进行训练，得到训练好的蛋白质性能预测模型。

这里讨论的技术参考处理器核、处理器、服务器、数据库、软件应用和其他基于计算机的系统、以及所采取的动作和发送到这些系统以及从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和之中的任务和功能性的各种可能的配置、组合以及划分。例如，这里讨论的处理可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现或跨多个系统分布。分布式组件可以顺序或并行操作。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种蛋白质性能预测方法，适于在计算设备中执行，所述计算设备包括蛋白质性质预测模型，该模型包括相互耦接的蛋白质序列特征模型和下游预测模型，所述蛋白质序列特征模型基于输入的三肽词汇序列输出对应的语义特征向量，所述下游预测模型基于所述语义特征向量输出蛋白质序列的性能属性，所述方法包括步骤：

获取待处理的目标蛋白质序列，所述目标蛋白质序列表示为单字母缩写的氨基酸标识；

以三肽为最小单位对所述目标蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到所述目标蛋白质序列的三肽词汇序列；以及

利用所述蛋白质性能预测模型对所述目标蛋白质序列的三肽词汇序列进行处理，以得到该目标蛋白质序列的特征向量，进而得到该特征向量所对应的蛋白质性能属性。

2.如权利要求1所述的方法，其中，所述蛋白质性能预测模型包括：

蛋白质序列特征模型：适于基于蛋白质序列的三肽序列生成对应的语义特征向量；

参数冻结层：适于冻结训练好的蛋白质特征生成模型的部分参数，以完成所述蛋白质性能预测模型的训练；以及

下游预测模型层，其为回归模型层或分类模型层。

3.如权利要求1所述的方法，其中，

所述分类模型的输出包括细胞水平是否具有特定活性，所述回归模型的输出包括细菌生长速率。

4.如权利要求1-3中任一项所述的方法，其中，所述蛋白质序列特征模型为BERT模型，该模型结构包括：

输入层：适于接收输入的三肽词汇序列；

嵌入层：适于将每个三肽词汇编码为词向量；

拼接层：适于将每个三肽词汇的词向量、字符位置向量和分割向量进行拼接，所述字符位置向量和分割向量分别代表所述三肽词汇的字符位置编号和上下句编号；

多个编码器层：适于通过多头注意力机制对每个三肽词汇的上下文信息进行学习；

语义向量输出层：适于输出三肽词汇序列的语义特征向量。

5.如权利要求1-4中任一项所述的方法，还包括所述蛋白质序列特征模型的训练步骤：

获取多条已知的样本蛋白质序列，所述样本蛋白质序列表示为单字母缩写的氨基酸标识；

以三肽为最小单位对所述样本蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到所述样本蛋白质序列的三肽词汇序列；以及

以所述样本蛋白质序列的三肽词汇序列为输入，以该三肽词汇序列的语义特征向量为输出，对预训练的蛋白质序列特征模型进行训练，得到训练好的蛋白质序列特征模型。

6.如权利要求1或5所述的方法，其中，以三肽为最小单位对所述目标蛋白质序列或样本蛋白质序列进行切分的步骤包括：

从所述目标蛋白质序列或样本蛋白质序列的第一个氨基酸开始，每三个氨基酸组成一个三肽词汇，且相邻两个三肽词汇重复一个氨基酸；和/或

将所述目标蛋白质序列或样本蛋白质序列的第一个氨基酸作为离散的单个氨基酸，从第二个氨基酸开始，每三个氨基酸组成一个三肽词汇，且相邻两个三肽词汇重复一个氨基酸。

7.如权利要求1或5所述的方法，其中，在以三肽为最小单位对所述目标蛋白质序列或样本蛋白质序列进行切分之前，还包括步骤：

若该蛋白质序列的氨基酸数目m大于预定数值n，则将该蛋白质序列切分为多个两两互相重叠的短蛋白序列。

8.一种蛋白质性能预测装置，适于驻留在计算设备中，所述计算设备包括蛋白质性质预测模型，该模型包括相互耦接的蛋白质序列特征模型和下游预测模型，所述蛋白质序列特征模型基于输入的三肽词汇序列输出对应的语义特征向量，所述下游预测模型基于所述语义特征向量输出蛋白质序列的性能属性，所述装置包括：

序列获取模块，适于获取待处理的目标蛋白质序列，所述目标蛋白质序列表示为单字母缩写的氨基酸标识；

序列切分模块，适于以三肽为最小单位对所述目标蛋白质序列进行切分，并从切分结果中删除二肽和离散的单个氨基酸，得到所述目标蛋白质序列的三肽词汇序列；以及

性能预测模块，适于利用所述蛋白质性能预测模型对所述目标蛋白质序列的三肽词汇序列进行处理，以得到该目标蛋白质序列的特征向量，进而得到该特征向量所对应的蛋白质性能属性。

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-7所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。