CN115862747B

CN115862747B - 一种序列-结构-功能耦合的蛋白质预训练模型构建方法

Info

Publication number: CN115862747B
Application number: CN202310167150.0A
Authority: CN
Inventors: 邓岳; 郭弢
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-30
Anticipated expiration: 2043-02-27
Also published as: CN115862747A

Abstract

本发明公开了一种序列‑结构‑功能耦合的蛋白质预训练模型构建方法，包括：以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源，构建GO‑Structure知识图谱；基于GNN蛋白质编码器，以BERT文本编辑器作为辅助模型，以TransH作为知识图谱编码框架，对GO‑Structure知识图谱进行训练，获得训练好的蛋白质编码器。通过该方法可以实现在知识图谱上对“序列‑结构‑功能”这一耦合关系进行特征学习。

Description

一种序列-结构-功能耦合的蛋白质预训练模型构建方法

技术领域

本发明属于机器学习、蛋白质工程技术领域，特别是一种序列-结构-功能耦合的蛋白质预训练模型构建方法。

背景技术

机器学习要学习复杂的输入-输出映射关系。大多数机器学习方法是通过对大量数据的学习，得到一个分类式或生成式模型，使得模型能够对从未见过的样本进行正确分类或生成出数据集中不存在的新样本。无论是分类式模型或是生成式模型，都依赖于对样本特征的提取。特征提取质量的高低决定了模型性能的优劣：如果模型能够提取到样本中针对当前任务的有效特征，则可以很容易训练分类器或生成器，从而达到理想的性能。因此，当下的很多机器学习方法都将注意力集中在特征提取中。

蛋白质是生物体中执行生物功能的重要生物机器，对蛋白质进行研究可以有效地了解生物体生长、凋亡、疾病等过程并对这些过程进行人为的调节。蛋白质是由氨基酸序列构成，氨基酸序列中的氨基酸通过共价键、氢键、范德华力等相互作用使得蛋白质具有稳定结构，而不同的蛋白质结构就决定了蛋白质多样的功能。因此蛋白质的序列决定结构，结构决定功能，“序列-结构-功能”这三者的关系相互耦合。随着结构生物学的发展，越来越多的蛋白质结构得以解析。PDB（Protein Data Bank，蛋白质数据库）中收集了海量的蛋白质解析结构，可供研究者们利用。有了大量的蛋白质结构数据集之后，现有技术中开发了AlphaFold2模型，其能够准确地从蛋白质序列预测蛋白质三维结构，这些结构预测的准确性已经可以达到学界认可的水平。

随着机器学习和蛋白质工程的发展，针对蛋白质的机器学习方法已经越来受到学者们的青睐。这类方法可以应用到蛋白质工程多个方面：上述的AlphaFold2模型是从蛋白质序列预测蛋白质的三维结构、以蛋白质序列为输入预测蛋白质的性质及功能、设计具有特殊性质的蛋白质的序列等。

通过上述内容可知，现有的蛋白质机器学习方法，主要是对蛋白质的序列、结构、序列-结构、序列-功能、共进化信息进行特征提取，没有涉及对蛋白质的耦合关系“序列-结构-功能”同时进行特征提取。此外，已经存在各种各样的生物医药知识图谱，但是现有的知识图谱没有表现出蛋白质的“序列-结构-功能”关系。且当前机器学习方法多用于生物医药知识图谱内的连接预测，鲜有模型利用在知识图谱中学习到的知识去做外延性任务。

因此，如何在知识图谱上对“序列-结构-功能”这一耦合关系进行特征学习，并将学习到的特征提取方法应用到外延性的下游任务中，成为当前研究的关键问题。

发明内容

鉴于上述问题，本发明提供一种至少解决上述部分技术问题的一种序列-结构-功能耦合的蛋白质预训练模型构建方法，通过该方法可以实现在知识图谱上对“序列-结构-功能”这一耦合关系进行特征学习。

本发明实施例提供了一种序列-结构-功能耦合的蛋白质预训练模型构建方法，包括：

S1、以GO生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源，构建GO-Structure知识图谱；

S2、基于GNN蛋白质编码器，以BERT文本编辑器作为辅助模型，以TransH作为知识图谱编码的框架，对所述GO-Structure知识图谱进行训练，获得训练好的蛋白质编码器。

进一步地，还包括：

S3、通过所述训练好的蛋白质编码器，实现提取目标蛋白质序列和结构的有效特征。

进一步地，所述S1具体包括：

S11、从UniProtKB蛋白质数据库中获取与GO术语有关的蛋白质编号和蛋白质序列；将所述与GO术语有关的蛋白质编号和蛋白质序列补充到GO生物知识图谱中，并与对应的GO术语建立连接关系；

S12、对于所述GO生物知识图谱中的每一个蛋白质，在PDB蛋白质结构数据库中搜索对应的三维结构，并将所述三维结构附加到所述GO生物知识图谱中，构建GO-Structure知识图谱。

进一步地，所述S12还包括：

对于所述GO生物知识图谱中的每一个蛋白质，如果所述PDB蛋白质结构数据库中没有对应的三维结构，则通过AlphaFold2模型依据序列，对所述GO生物知识图谱中的每一个蛋白质对应的三维结构进行预测，并将预测到的三维结构附加到所述GO生物知识图谱中，构建GO-Structure知识图谱。

进一步地，所述GO-Structure知识图谱包括GO节点和蛋白质节点；

所述GO节点包括GO术语、GO编号、术语描述和连接关系；

所述连接关系表示为三元组（h_head,r,h_tail），其中h_head和h_tail分别表示头实体和尾实体，r表示头实体和尾实体之间的连接关系；

所述蛋白质节点包含蛋白质编号、蛋白质序列和蛋白质三维结构。

进一步地，所述S2具体包括：

S21、采用GNN蛋白质编码器，对所述蛋白质节点中的蛋白质序列和蛋白质三维结构进行编码，生成GNN蛋白质编码器的输出特征；

S22、采用BERT文本编辑器对所有GO节点中拼接后的GO术语和术语描述进行编码，生成GO特征向量；

采用BERT文本编辑器对所有GO节点中的连接关系进行编码，生成第一关系特征向量和第二关系特征向量；

S23、根据所述GNN蛋白质编码器的输出特征、GO特征向量、第一关系特征向量和第二关系特征向量，采用基于TransH的知识图谱编码框架对所述GNN蛋白质编码器和BERT文本编辑器进行优化，直到获得训练好的蛋白质编码器。

进一步地，所述S21具体包括：

S211、获取所述GO-Structure知识图谱中蛋白质节点的蛋白质序列和蛋白质三维结构；

每个蛋白质节点包括多个氨基酸残基；每个氨基酸残基包括C原子、

原子和N原子；所述C原子、/>

原子和N原子均有对应的三维坐标，以此来表示蛋白质三维结构；

所述蛋白质序列表示为

；其中，n表示蛋白质序列的长度；/>

表示第i个氨基酸残基的类型；每个氨基酸残基的空间位置均由对应的/>

原子的三维坐标来表示；

S212、根据所述蛋白质序列和蛋白质三维结构，将每个氨基酸残基视为图结构中的一个氨基酸节点，构建蛋白质的图结构；

S213、定义图结构中的节点特征和边特征；

S214、基于所述节点特征和边特征，循环更新图神经网络，直至获得每一个氨基酸节点的隐藏状态；

S215、对所有氨基酸节点的隐藏状态取平均值，获得GNN蛋白质编码器的输出特征。

进一步地，所述S212包括：

将每个氨基酸残基视为图结构中的一个氨基酸节点，将当前氨基酸节点和与其在序列上相邻的氨基酸节点进行连接；

对于每个氨基酸节点，将与其距离最近的6个氨基酸节点也视为其相邻节点，将该氨基酸节点和与其距离最近的6个氨基酸节点相连接。

进一步地，所述S213包括：

利用图结构中的结构信息，基于空间几何求得蛋白质主链上每一个氨基酸节点位置的扭转角；对所述扭转角进行正余弦处理，并将正余弦处理后的扭转角信息编码处理后作为图结构中的节点特征；

计算两个相邻的氨基酸节点的欧氏距离，并将所述欧氏距离作为图结构中的边特征。

进一步地，基于TransH的知识图谱编码框架的损失函数表示为：

其中，

表示对GO-Structure知识图谱中所有的三元组进行遍历；/>

表示Sigmoid函数，用于将函数值映射到(0,1)；/>

表示预设的松弛变量；/>

表示真实存在的三元组头实体经过超平面变换后的编码；/>

表示真实存在的三元组尾实体经过超平面变换后的编码；/>

表示预设的伪三元组尾实体经过超平面变换后的编码；/>

表示关系r所对应的第一关系特征向量；K表示构造的伪三元组的数量。

与现有技术相比，本发明记载的一种序列-结构-功能耦合的蛋白质预训练模型构建方法，具有如下有益效果：

本发明构造了一个蛋白质编码器用作蛋白质的特征提取，其在训练过程中充分融入了蛋白质的“序列-结构-功能”耦合关系，符合生物学概念“蛋白质的序列决定结构，结构决定功能”。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的序列-结构-功能耦合的蛋白质预训练模型生成方法流程示意图。

图2为本发明实施例提供的GO-Structure知识图谱示意图。

图3为本发明实施例提供的氨基酸序列示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参见图1所示，本发明实施例提供了一种序列-结构-功能耦合的蛋白质预训练模型构建方法，具体包括如下步骤：

S2、基于GNN蛋白质编码器，以BERT文本编辑器作为辅助模型，以TransH作为知识图谱编码的框架，对所述GO-Structure知识图谱进行训练，获得训练好的蛋白质编码器；

S3、通过训练好的蛋白质编码器，实现提取目标蛋白质序列和结构的有效特征。

下面分别对上述各个步骤进行详细的说明。

在上述步骤S1中，GO-Structure知识图谱是一个包含生物知识、蛋白质序列及结构的数据，其以GO（Gene Ontology，基因本体论）生物知识图谱、UniProtKB蛋白质数据库和PDB蛋白质结构数据库为数据源，辅以AlphaFold2模型来预测三维结构。其中：

GO生物知识图谱，也称GO术语逻辑网络，是将当前学界所掌握生物知识整理成逻辑网络的形式，分别阐释了分子功能、生物过程和细胞组分三个层面多个术语之间的逻辑关系；其中：分子功能是描述基因产物在分子层面的功能活动，例如“转运活性”；生物过程是在生物体中进行的过程，比分子功能更宏观，一般由多种分子活动完成，例如“DNA修复”；细胞组分是与细胞结构相关的位置，基因产物在其中发挥功能，例如“线粒体”。GO生物知识图谱能够描述不同术语之间的联系。例如图2包含了GO中细胞组分的部分结构，其表示如下关系：plasma membrane（细胞质膜）是一种membrane（膜），也是cell periphery（细胞边界）的一部分；membrane是一种cellular anatomical entity（细胞解剖实体），cellperiphery是一种cellular anatomical entity；cellular anatomical entity是一种cellular component（细胞组分）。

UniProtKB蛋白质数据库中包含了大量人类已知的蛋白质，且能够标注出蛋白质序列信息及与GO术语的对应关系，从而在功能层面对蛋白质进行描述；如图2所示，Q14028蛋白与GO属于具有关系Is_a和Is_active_in。因此，本发明实施例将UniProtKB中与GO术语中有关的蛋白质编号和蛋白质序列记录下来，并将这些蛋白质编号和蛋白质序列信息补充到GO生物知识图谱中，并于对应的GO术语建立连接关系。

PDB蛋白质结构数据库中包含了大量具有解析结构的蛋白质，UniProtKB中的部分蛋白质可以从PDB蛋白质结构数据库中获取；因此，在本发明实施例中，对于GO生物知识图谱中的每一个蛋白质，在PDB蛋白质结构数据库中搜索对应的三维结构，并将三维结构附加到GO生物知识图谱中，构建GO-Structure知识图谱；如果PDB蛋白质结构数据库中没有对应的蛋白质结构，则通过AlphaFold2模型依据序列，对GO生物知识图谱中的每一个蛋白质对应的三维结构进行预测，并将预测到的三维结构附加到GO生物知识图谱中，构建GO-Structure知识图谱。

由此完成了GO-Structure知识图谱的构建（如图2），该GO-Structure知识图谱中包含GO节点和蛋白质节点；其中，GO节点包含GO术语（例如：membrane）、GO编号（例如：GO：0016020）、术语描述（例如：Membrane is …）和连接关系；该连接关系表示为三元组（h_head,r,h_tail），其中h_head和h_tail分别表示头实体和尾实体，r表示头实体和尾实体之间的连接关系。蛋白质节点包含蛋白质编号（例如：Q14028）、蛋白质序列和蛋白质三维结构。值得说明的是，将蛋白质与GO相联系，能够借助GO对蛋白质的功能及蛋白质所在的位置进行描述。

在上述步骤S2中，基于GNN（Graph Neural Network）的蛋白质编码器进行学习，同时将BERT文本编辑器作为辅助模型，将TransH作为知识图谱编码的框架；特征学习输入的数据是GO-Structure知识图谱，最后呈现出一个训练好的蛋白质编码器；该步骤S2具体包括以下内容：

S21、采用GNN蛋白质编码器，对蛋白质节点中的蛋白质序列和蛋白质三维结构进行编码，生成GNN蛋白质编码器的输出特征；具体包括：

获取GO-Structure知识图谱中蛋白质节点的蛋白质序列和蛋白质三维结构；其中，蛋白质序列（即氨基酸序列，以下不加以区分）由首尾顺次相连的氨基酸构成，可表示为

；n表示蛋白质序列的长度；/>

表示第i个氨基酸的类型；共有20种氨基酸类型。图3表示的是蛋白质序列的主干，图3框内表示一个氨基酸残基，一个氨基酸残基主干上从左到右分别为C原子、/>

原子和N原子，每一个原子都对应有一个三维坐标。因此，一个蛋白质有若干个氨基酸残基，每一个氨基酸残基上的C原子、/>

原子和N原子都有对应的三维坐标，以此可以表示蛋白质的三维结构；上述氨基酸残基实际上就是不完整的氨基酸。

在获得蛋白质的序列和三维结构之后，开始建立蛋白质的图结构。将每一个氨基酸残基视为图结构中的一个氨基酸节点，将当前氨基酸节点和与其在序列上相邻的氨基酸节点进行连接；用

原子的三维坐标来代表其所对应的氨基酸节点的空间位置；对于每一个氨基酸而言，与其距离最近的6个氨基酸也被视为其相邻节点，因此，将该氨基酸和与其距离最近的6个氨基酸相连接。

完成图结构的建立后，利用结构信息和空间几何知识，可以求得蛋白质主链上每一个氨基酸位置的扭转角

、/>

和/>

（如图3）；对该扭转角进行正余弦处理，并将正余弦处理后的扭转角信息编码处理后作为图结构中的节点特征；该节点特征表示为：

其中，下标i表示第i个氨基酸节点。

在图结构中两个相邻的氨基酸的空间位置都由其对应的

原子的三维坐标表示，因此本发明实施例中计算两个相邻的氨基酸的欧氏距离，并将该欧氏距离作为图结构中的边特征；该边特征表示为：

其中，

表示第i个氨基酸中/>

原子的三维坐标；第j个氨基酸在图结构中与第i个氨基酸相邻。

将图结构构建好且定义了节点和边的特征后，开始循环更新图神经网络。依据上述图结构及其对应的节点和边特征，对图神经网络更新

次，每次的更新公式为：

其中，

和/>

分别表示上一次更新后的第i个氨基酸节点和第j个氨基酸节点的隐藏状态，/>

；/>

表示与氨基酸类型相关的编码；/>

表示边特征；/>

表示两层全连接网络；/>

表示第i个节点更新（l+1）次后的隐藏状态；

对图网络更新L次后，可以得到每一个氨基酸节点的隐藏状态，表示为：

其中，

表示上述构建的图结构；/>

表示图神经网络的更新方式（如上所述）。

最后，对所有氨基酸节点的隐藏状态取平均值，即可输出给定维度的蛋白质编码，将该蛋白质编码作为GNN蛋白质编码器的输出特征

，表示为：

S22、BERT是当下较为流行的语言模型，其由多个Transformer模块堆叠而成，能够将一系列文本输入转化为编码输出；GO-Structure知识图谱里的每一个GO节点，不仅具有GO术语，还有相应的术语描述。GO术语和属于描述都属于文本，将此二者拼接之后输入BERT进行编码，可以获得GO节点的特征

，将所有GO节点的特征记作GO特征向量；

对于GO-Structure知识图谱中节点之间的连接关系（例如图2中的Is_a，Is_active_in），也输入到BERT文本编辑器中，获得两个关系特征

和/>

，编辑完成后获得第一关系特征向量第二关系特征向量；

在此需要说明的是，每一个蛋白质都可编码得到一个特征

，每一个GO节点都可编码得到一个GO特征/>

，每一种关系都可得到两个特征/>

和/>

，这四种特征的维度均相同。

S23、在知识图谱中，每一对连接关系都可以表示成一个三元组（h_head,r,h_tail），其中h_head和h_tail分别表示头和尾两个实体，

表示连接关系。实体h_head和h_tail可分别编码成

（黑体表示向量），关系/>

可编码成两个向量/>

和/>

。对于GO-Structure知识图谱，使用GNN蛋白质编码器对蛋白质进行编码，使用BERT文本编辑器对GO节点和连接关系进行编码。在这一部分为了便于表示，将蛋白质编码和GO节点编码都视作实体编码，不做区分；只以/>

和/>

区分头尾两个实体编码。/>

用作超平面变换，/>

用作距离描述。分别对头尾两个实体向量进行超平面变换：

因此，基于TransH的知识图谱编码框架的损失函数可表示为：

其中，

表示对GO-Structure知识图谱中所有的三元组进行遍历；/>

表示Sigmoid函数，用于将函数值映射到(0,1)；/>

表示预设的松弛变量；/>

表示真实存在的三元组头实体经过超平面变换后的编码；/>

表示真实存在的三元组尾实体经过超平面变换后的编码；/>

表示预设的伪三元组尾实体经过超平面变换后的编码；/>

对该损失函数

进行最小化处理，就是使得真三元组的/>

与/>

的距离更小，使得伪三元组的/>

与/>

的距离更大。

以最小化损失函数

为目标进行模型的训练，最后得到训练好的蛋白质编码器，在具体使用过程中，将蛋白质的序列和结构输入到该训练好的蛋白质编码器中，便可输出输出蛋白质对应的特征向量。由于在上述训练过程蛋白质编码器学习了知识图谱中的蛋白质功能信息，由此完成“序列-结构-功能”的特征学习。

在上述步骤S3中，已经训练好的蛋白质编码器能够从蛋白质序列和结构中提取出有效特征，可应用于下游任务（蛋白质稳定性预测、功能预测、互作预测、同源性预测等）。通过给该训练好的蛋白质编码器增加一个针对特定任务的模块，再依据数据集对给定任务进行微调，即可应用到下游任务中。

接下来通过一个具体的实施例，来进一步说明如何将本发明实施例所提供的方法应用到下游任务中。

蛋白质稳定性预测。其可被视作一个回归问题，即给定蛋白质的序列和结构作为输入，输出一个连续的稳定性系数。此时可在蛋白质编码器提取蛋白质特征之后，使用MLP（Multi-Layer Perceptron，多层感知机）将高维特征向量映射到一个连续数值，即可实现回归。

蛋白质功能预测和蛋白质同源性预测。这两个问题本质上都是多分类问题，即给定蛋白质的序列和结构作为输入，输出蛋白质可能属于的类别。此时可在蛋白质编码器提取蛋白质特征之后，使用MLP将高维特征向量映射到一个k维向量（k为类别数），再用

函数对此向量进行处理，映射到独热编码中即可实现多分类。

蛋白质-蛋白质互作预测。此问题预测两个蛋白质是否会发生相互作用，输入是两个蛋白质的序列和结构，输出是标签0或1。对于两个输入的蛋白质，使用蛋白质编码器对二者分别编码得到两个特征向量，将特征向量进行拼接，再经过一个MLP将高维特征向量映射到一维，使用

函数对此向量进行处理进行分类。

蛋白质序列设计。此问题即为蛋白质的序列生成，在生成序列的同时预测蛋白质的结构（即每一个氨基酸残基的坐标）。假设待生成序列的长度给定，初始化时将所有氨基酸类型设置成“空”类别，坐标初始化在原点。每预测一个氨基酸残基的类型及坐标，都需要经过一次蛋白质编码和预测模块（例如MLP），直到预测结束。

本发明实施例提供了一种序列-结构-功能耦合的蛋白质预训练模型构建方法，首先建立GO-Structure知识图谱，该GO-Structure知识图谱涉及蛋白质的序列、结构和功能；其次基于GNN构造了蛋白质编码器，使用BERT作为文本编码器，在知识图谱上采用TransH的训练框架，训练了一个融合蛋白质 “序列-结构-功能”耦合关系的蛋白质编码器；最后将蛋白质编码器所提取到的特征应用到多个下游任务中，增强模型的表现。

现有的知识图谱很少能够体现蛋白质的“序列-结构-功能”关系；现有的机器学习方法鲜有对蛋白质的“序列-结构-功能”关系进行建模；现有的知识图谱学习方法常常局限在知识图谱内的推理，没有将在知识图谱中所学到的知识进行外延性应用。本发明分别针对这三个现存问题，构建了GO-Structure知识图谱、训练蛋白质编码器学习蛋白质的“序列-结构-功能”关系、将蛋白质编码器应用到具有外延性的下游任务中，例如蛋白质稳定性预测、蛋白质功能预测、蛋白质序列设计、蛋白质互作预测和蛋白质同源性预测等。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。