CN112927753A

CN112927753A - 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法

Info

Publication number: CN112927753A
Application number: CN202110199585.4A
Authority: CN
Inventors: 邓磊; 唐明艳
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-08

Abstract

本发明涉及生物大数据、迁移学习及深度学习领域，具体涉及一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法。具体包括：通过获取源域和目标域的热点残基相关数据集，分别进行预处理和分类后，根据蛋白质序列信息对氨基酸残基进行编码，并将编码矩阵分别进行卷积神经网络模型提取特征集；根据所述源域数据集和源域特征集构建识别热点残基的预训练模型；将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型，用于识别蛋白质和RNA复合物界面热点残基，模型的预测速度快，准确率高，可用性高。

Description

一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法

技术领域

本发明涉及生物大数据、迁移学习及深度学习领域，具体涉及一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法。

背景技术

蛋白质和核酸是构成生物多样性的重要分子，它们具有各自的结构特性和功能属性，在活细胞生物中发挥着关键性的作用。蛋白质和RNA相互作用贯穿了生物的整个生命周期，包括基因复制、转录、翻译、细胞周期控制、蛋白质折叠、信号转导和免疫反应等。准确且高效地识别蛋白质和RNA复合物界面的热点残基，不仅能够帮助研究人员更好地理解生物分子机制，还能为构建蛋白质工程和标靶药物提供坚实的理论基础。同时，研究热点残基能够为研究癌症触发基因提供一个全新的视角。

目前，生物实验中的诱变技术被用于识别界面残基中的热点残基，例如丙氨酸扫描，荧光各向异性和凝胶移位等，但是其过程非常复杂，不仅需要高配置的实验室环境、精密的仪器设备和化学试剂等，还需要投入大量的人力和财力，实验代价非常昂贵，并且后续分析工作非常繁荣，需要对每个残基进行单独的分析。近年来机器学习的方法被广泛应用到热点残基的预测工作中，包括SBHD、PrabHot、SPHOT等方法，它们在预测精度和预测速度方面都取得了不错的效果。但是蛋白质和RNA复合物界面热点残基数据集稀少，而使用机器学习方法构建分类模型需要大量的标记数据，因此，现需提供一种准确且高效的计算方法来识别和预测蛋白质和RNA复合物界面热点残基，这对理解生物分子机制和指导医学药物设计具有十分重要的意义。

发明内容

基于此，本发明针对上述的问题，提供了一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法，旨在解决蛋白质和RNA复合物界面热点残基数据集稀少，而使用机器学习方法构建分类模型需要大量的标记数据无法获得快速准确识别蛋白质和RNA复合物界面热点残基方法的技术问题。

本发明提供了一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法，具体包括：

获取源域和目标域的热点残基相关数据集，分别进行预处理和分类获得源域训练数据集和测试数据集、目标域训练数据集和测试数据集；所述热点残基相关数据集包含热点残基样本和非热点残基样本；

将所述源域训练数据集和测试数据集、目标域训练数据集和测试数据集根据蛋白质序列信息对氨基酸残基进行编码，获得源域编码矩阵和目标域编码矩阵；

将所述源域编码矩阵和目标域编码矩阵分别进行卷积神经网络模型学习热点残基的特征，并获取源域特征集和目标域特征集；

根据所述源域数据集和源域特征集训练网络，构建识别热点残基的预训练模型；以及

将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型，用于识别蛋白质和RNA复合物界面热点残基。

进一步的，所述预处理具体为：

将所述源域和目标域的热点残基数据集通过序列比对聚类方法去除相似度大于40％的蛋白质序列，获得非冗余的源域和目标域的热点残基数据集。

进一步的，所述分类具体为：

将所述数据集按照9:1的比例分为训练数据集和测试数据集；

所述训练集中热点残基样本和非热点残基样本的比例接近于1:1。

进一步的，所述根据蛋白质序列信息对氨基酸残基进行编码步骤具体包括：

将包含蛋白质热点和非热点残基信息输入到独热编码程序中进行编码，获得稀疏矩阵M_L×20；

以热点残基为中心，L为滑动窗口的氨基酸序列经标签编码后获得密集矩阵N_L×20。

进一步的，所述根据所述源域数据集和源域特征集训练网络，构建识别热点残基的预训练模型步骤具体包括：

获取初始化网络权值，以(x_P,Y_P)表示任意一个热点残基样本P，并将x_P输入到网络进行训练，计算输入与每层网络权值矩阵的点乘，获得输出值O_P，O_P可以表示为：

O_P＝F_n(…(F₂(F₁(x_Pw¹)w²)…)wⁿ)；

所述x_P是输入样本，其真实标记值为Y_P,wⁱ为第i层网络的权值，F_i为对应的函数；

计算网络输出值O_P与实际值Y_P之间的误差，并按照极小化误差调整网络权值。

进一步的，所述将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型步骤具体包括：

删除预训练模型中的原始分类器，并根据目标域的分类任务添加新分类器，将所述目标域数据集和目标域特征集输入到预训练模型进行训练，对靠近新分类器的预训练三层网络模型进行网络自适应，获得迁移学习模型。

进一步的，所述网络自适应过程的模型优化目标为：

式中，Θ是表示网络权重和偏差的参数集合，l₁和l₂分别是网络迁移需要自适应的首尾层，x_a和n_a是源域和目标域中有标记数据的集合，λ是惩罚参数，

是源域数据和目标域数据的分布距离，

是cross-entropy损失函数。

有益效果：

本发明从数据库中收集源域和目标域中的热点残基相关数据集，通过预处理和分类后进行氨基酸编码，再采用CNN网络模型提取氨基酸编码矩阵中的热点残基特征，采用源域中的数据驱动模型蛋白质和蛋白质(DNA)复合物界面热点残基的数据集和特征集，基于深度学习框架构建CNN网络模型获得预训练模型，并将目标域的数据集和特征集采用预训练模型进行训练微调，获得一个预测速度快、准确率高、可用性高的模型。该方法通过迁移学习利用蛋白质和蛋白质(DNA)复合物界面热点残基领域的相关知识构建预训练模型，获取热点残基的通用特征并应用到蛋白质和RNA复合物界面热点残基的识别和预测任务中，不仅能够有效地解决蛋白质和RNA复合物界面热点残基数据集少的问题，还能够提升分类模型的准确性和鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

图1为本发明实施例提供的一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法的流程示意图；

图2为本发明实施例提供的迁移学习在热点残基研究领域的应用简图；

图3为本发明实施例提供的深度网络迁移示意图；

图4为本发明实施例提供的构建网络模型的流程图；

图5为本发明实施例提供的识别蛋白质和RNA复合物界面热点残基的深度网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提出了一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法的流程图，具体包括以下步骤：

步骤S101，获取源域和目标域的热点残基相关数据集，分别进行预处理和分类获得源域训练数据集和测试数据集、目标域训练数据集和测试数据集。

在本发明实施例中，从ASEdb、SKEMPI、Nabe、dbAMEPNI、PremPDI和SAMPDI等数据库中收集源域和目标域中与热点残基相关的数据集，其中源域是蛋白质和蛋白质(DNA)复合物界面热点残基研究领域，目标域是蛋白质和RNA复合物界面热点残基研究领域；所述热点残基相关数据集包含热点残基样本和非热点残基样本。所述数据集是从使用数据去冗余技术对原始数据集进行预处理，具体采用CD-HIT通过序列比对聚类方法去除相似度大于40％的蛋白质序列，获得一个非冗余的序列文件，所述CD-HIT序列去冗余为先对从PDB数据库中下载的所有蛋白质序列按照其长度进行排序，从最长的蛋白质序列开始形成第一个簇，然后依次对其他序列进行处理，如果接下来的序列与已存在的簇中的代表序列相似性大于cutoff指标，那么该序列属于这个簇，否则添加一个新的簇。

将预处理后的数据集进行分类处理：数据集按照9:1的比例分为训练数据集和测试数据集；训练数据集中采用下采样方法平衡正负样本，使得热点残基样本和非热点残基样本的比例接近于1:1。从而获得源域训练数据集、测试数据集和目标域训练数据集和测试数据集。

步骤S102，将所述源域训练数据集和测试数据集、目标域训练数据集和测试数据集根据蛋白质序列信息对氨基酸残基进行编码，获得源域编码矩阵和目标域编码矩阵。

在本发明实施例中，所述根据蛋白质序列信息对氨基酸残基进行编码采用如下两种方法进行：

独热编码：所述独热编码是使用N位状态寄存器来对N个不同的状态进行编码，且在任意时候只有其中一位有效。蛋白质序列由20种不同的氨基酸组成，对应了20种不同的状态，用独热编码的形式可以将其表示为一个20维的向量，其中每一个氨基酸对应其中一个有效位。将包含蛋白质热点和非热点残基数据集的相关信息文件输入到独热编码程序中，每个氨基酸残基分别得到一个只包含元素0和1的邻接矩阵M_L×20(其中L是滑动窗口的长度，20是氨基酸的种类数)。

标签编码：所述标签编码是采用连续的数值来表示特征的一种编码方式。使用数字0-19代表20种不同的氨基酸，每种氨基酸唯一匹配其中的一个数字。由氨基酸残基样本为中心，L为滑动窗口的氨基酸序列经过标签编码后可以得到一个长度为L的一维矩阵，然后这个一维矩阵和20种顺序排列的氨基酸组成一个二维矩阵N_L×20，矩阵中的元素a_ij为对应行列氨基酸数值之和。

步骤S103，将所述源域编码矩阵和目标域编码矩阵分别进行卷积神经网络模型学习热点残基的特征，并获取源域特征集和目标域特征集。

在本发明实施例中，将独热编码得到的稀疏矩阵和标签编码得到的密集矩阵分别输入到已经构建好的CNN模型中提取特征，CNN模型中的卷积层和池化层能够将输入数据映射到隐藏的特征空间，提取热点残基的特征。

步骤S104，根据所述源域数据集和源域特征集训练网络，构建识别热点残基的预训练模型。

在本发明实施例中，根据源域的数据集和特征集训练网络，构建识别热点残基的预训练模型，具体为获取与蛋白质和蛋白质(DNA)复合物界面热点残基有关的数据集和特征集，基于深度学习框架构建CNN网络模型，将源域的数据集和特征集输入到网络模型中预训练，并根据交叉验证的结果更新参数，不断优化模型，得到训练后的CNN网络模型。CNN网络模型的具体构建流程如图4所示，首先输入热点残基和非热点残基样本的特征集，然后基于caffe(Convolutional Architecture for Fast Feature Embedding,快速特征嵌入和卷积体系结构)深度学习框架构建CNN网络模型，通过训练数据集训练网络模型并更新参数，最后得到一个训练后的网络模型。CNN网络模型通过学习输入与输出之间的映射关系，并通过卷积来模拟特征分区，并且通过卷积的权重共享和池化来降低网络参数的数量级，最后通过神经网络完成分类任务。图5为本发明方法中的深度网络模型图，从图中可以看出，该网络模型由输入层、卷积层、池化层、注意力机制层、全连接层和输出层组成，其中卷积层和池化层将原始数据映射到隐藏特征空间，用来提取特征，而全连接层将学习到的特征映射到标记样本空间，实现残基分类目标。CNN网络模型的训练过程如下：

第一阶段：前向计算

(1)在模型训练前，用一些不同的小随机数初始化网络权值；

(2)用(x_P,Y_P)表示任意一个热点残基样本P，并将x_P输入到网络进行训练；

(3)计算输入与每层网络权值矩阵的点乘，得到相应的输出值O_P，O_P可以表示为：

O_P＝F_n(…(F₂(F₁(x_Pw¹)w²)…)wⁿ) (1)

式中，x_P是输入样本，其真实标记值为Y_P,wⁱ为第i层网络的权值，F_i为对应的函数。

第二阶段：反向传播

(1)计算CNN网络模型的损失，即网络输出O_P值与实际值Y_P之间的误差；

(2)按照极小化误差调整网络的权值矩阵。

当CNN网络模型输出的结果与期望的结果不符时，则需要进行反向传播过程，该过程主要目的是通过训练样本和期望值来调整网络权值，具体体现在首先计算出模型输出结果和期望结果之间的误差，然后将误差逐层返回，得到每一层的误差，并更新网络权重。在计算出网络模型的总误差后，每一层网络的误差可以通过以下公式计算：

δ(n)＝-(Y-a(n))f(z(n)) (2)

式中，δ(n)为输出层n的误差，a(n)为第n层的输出，Y为目标值，f(·)为激励函数的导函数值。

步骤S105，将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型，用于识别蛋白质和RNA复合物界面热点残基。

在本发明实施例中，如图2所示，迁移学习能够通过域之间的相似性获取蛋白质和蛋白质(DNA)复合物界面热点残基与蛋白质和RNA复合物界面热点残基的通用特征，通过构建迁移学习函数复用预训练模型，将源域热点残基数据的知识特点和结构特性迁移到目标域中，然后根据目标域热点残基数据的特殊特征再次训练模型，微调模型，得到最终的分类预测模型，用于识别蛋白质和RNA复合物界面热点残基，具体为将源域预训练得到的网络模型迁移应用到目标域中的学习任务中，首先删除预训练模型中的原始分类器，然后根据目标域的分类任务添加一个合适的新分类器，最后依次输入蛋白质和RNA界面热点和非热点残基样本进行再训练，在迭代的过程中逐步优化各项参数。

在本发明实施例中，所述删除预训练模型中的原始分类器，然后根据目标域的分类任务添加一个合适的新分类器，具体为深度学习模型可以自动学习分层中的特征表示，由第一层学习得到的特征一般而言是通用特征，并且可以在相关领域的不同问题中复用，而由最后一层计算得到的特征是特殊特征，并且依赖于训练的数据集和本领域的学习任务，所以，网络模型必定有一个从一般到特殊的转变过程。由于与热点残基有关的数据集数量较少，在复用预训练模型的过程中训练一些层并冻结其他层，为了避免数据过拟合问题，选择冻结更多的网络层，只训练靠近分类器的后三层网络。

深度学习网络的迁移形式主要是微调(fine-tune)，微调是利用前期训练好的网络模型，结合自身的学习任务再进行模型调整，固定网络的前面几层的参数，根据具体的学习任务，微调后面的网络层。应用深度网络迁移的过程中，考虑到网络迁移的层数和迁移的方法(度量准则)，通常采用以下公式计算网络损失：

l＝l_C(D_S,y_S)+λl_A(D_S,D_T) (3)

式中，D_S和D_T分别代表源域数据集和目标域数据集，y_S代表源域中样本的实际类别，l表示网络l的最终损失，l_C(D_S,y_S)表示网络在有标记的数据上的常规损失，l_A(D_S,D_T)表示迁移学习过程中的网络自适应损失，λ是平衡常规损失和网络自适应损失的权重参数。

基于深度网络进行迁移学习的核心就是找到网络中需要迁移的层数，并计算这些层在网络迁移过程中的自适应损失l_A(D_S,D_T)。本发明方法中采用了MK-MMD(Multi-kernelMaximumMeanDiscrepancy，多核最大均值差异)准则来度量网络自适应损失，所述MK-MMD是将源域和目标域中的特征集映射到拥有特有核K的再生核希尔伯特空间中，并求出映射后数据的均值差异。对于两个概率分布p和q，其在核K的再生核希尔伯特空间中的均值距离可以表示为MK-MMD d_K(p，q)，其平方公式为：

式中，φ(·)是特征映射，用于把原变量映射到再生核希尔伯特空间。MK-MMD的多核表示形式为：

式中，m是标记样本u的总数，{β_u}是需要确定的网络参数。

图3是本发明方法的深度网络迁移示意图，从图3中可以看出复用预训练模型时，除了靠近分类器的最后三层网络模型外，其他的网络层都被迁移应用到了目标域，也就是说前面几层网络被直接冻结了，只有后面三层网络需要进行网络自适应。这个过程中模型的优化需要同时考虑到损失函数和网络自适应损失，损失函数是用来度量真实值和预测值之间差异的指标，网络自适应损失是源域和目标域的差异，决定了网络的泛化能力。模型的优化目标可以用以下公式表示：

式中，Θ是表示网络权重和偏差的参数集合，l₁和l₂分别是网络迁移需要自适应的首尾层，x_a和n_a是源域和目标域中有标记数据的集合，

是源域数据和目标域数据的分布距离，

是一个cross-entropy损失函数，可以表示为：

式中，y为真实的输出，σ(z)为预测输出值，z＝∑_jw_jx_j+b，w和b是权重和偏差。

本发明提供一种基于迁移学习的蛋白质和RNA复合物界面热点残基识别和预测的方法，首先收集了与热点残基有关的数据集，然后将经过CD-HIT预处理的数据集划分为训练数据集和测试数据集，并采用下采样方法平衡数据集中的正负样本，然后根据蛋白质序列信息编码氨基酸，并使用CNN网络提取编码矩阵中的热点残基特征，最后构建预训练模型，获取热点残基的通用特性，并基于预训练模型修改原始分类器，加入蛋白质和RNA复合物界面热点残基的特殊特征，微调模型，得到最终的网络模型。该方法通过迁移学习学习了相关领域的知识，利用热点残基的通用特征和本领域热点残基的特殊特征构建模型，增加了热点残基特征表示的泛化性，在一定程度上提高了模型的分类精度和准确性，同时，方法实现了对已有知识和模型和重用，解决了蛋白质和RNA复合物界面热点残基研究中缺少标记样本的问题，也降低了构建模型的复杂度。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法，其特征在于，具体包括：

2.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法，其特征在于，所述预处理具体为：

3.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法，其特征在于，所述分类具体为：

将所述数据集按照9:1的比例分为训练数据集和测试数据集；

4.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法，其特征在于，所述根据蛋白质序列信息对氨基酸残基进行编码步骤具体包括：

5.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法，其特征在于，所述根据所述源域数据集和源域特征集训练网络，构建识别热点残基的预训练模型步骤具体包括：

O_P＝F_n(…(F₂(F₁(x_Pw¹)w²)…)wⁿ)；

6.根据权利要求1所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法，其特征在于，所述将所述目标域数据集和目标域特征集输入到所述预训练模型进行训练获得迁移学习模型步骤具体包括：

7.根据权利要求6所述的基于迁移学习识别蛋白质和RNA复合物界面热点残基的方法，其特征在于，所述网络自适应过程的模型优化目标为：

是源域数据和目标域数据的分布距离，J(·)是cross-entropy损失函数。