CN108830042A

CN108830042A - 一种基于多模态蛋白质序列的特征提取与编码方法及系统

Info

Publication number: CN108830042A
Application number: CN201810608670.XA
Authority: CN
Inventors: 雷海军; 李诗淇; 温玉婷; 雷柏英; 蔡晔; 杨张
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-16
Anticipated expiration: 2038-06-13
Also published as: CN108830042B

Abstract

本发明公开了一种基于多模态蛋白质序列的特征提取与编码方法及系统，方法包括：分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取，获取三种模态的蛋白质特征；对所述三种模态的蛋白质特征分别进行深度多项式网络编码，分别得到三种高级的特征表达；将三种高级的特征表达经过级联后再次进行深度多项式网络编码，获得融合后的蛋白质特征。相对于传统的蛋白质特征提取方法中，本发明综合了蛋白质氨基酸系列的多种理化性质，提取到更可靠的蛋白质特征，从而能够更准确的对蛋白质与蛋白质的相互作用进行分析。

Description

一种基于多模态蛋白质序列的特征提取与编码方法及系统

技术领域

本发明涉及生物信息学技术领域，尤其涉及的是一种基于多模态蛋白质序列的特征提取与编码方法及系统。

背景技术

近年来得益于计算机的存储能力和计算能力的提升，很多专家学者致力于基于计算方法的蛋白质与蛋白质相互作用(Protein and Protein Interactions,PPIs)的研究，而蛋白质通常是以成对的形式发挥功能作用的，因此研究蛋白质与蛋白质相互作用(PPIs)可以对揭示及获取蛋白质功能起到关键的作用，其中如何对于蛋白质进行特征提取是一个热点和难点。

虽然，目前已有许多基于计算方法的特征提取模型应用于蛋白质与蛋白质相互作用的分析，但是大多数蛋白质特征提取方法只考虑了一种蛋白质氨基酸序列的特点，没有综合多种蛋白质氨基酸序列的多种理化性质；并且现有的蛋白质特征提取方法获取的特征都具有高维度和高冗余性的特点，没有对其做进一步的特征选择和特征降维，这导致存高维度冗余的信息。此外，现有技术中都是使用两种特征直接线性组合的方式进行特征结合，没有利用多模态特征融合和多模态特征编码的方式获取到更加充分和高级的特征表达，影响蛋白质分析的准确性与高效性。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于多模态蛋白质序列的特征提取与编码方法及系统，旨在解决现有技术中的蛋白质特征提取方法没有综合多种蛋白质氨基酸序列的多种理化性质，容易导致高维度冗余的信息等问题，影响蛋白质分析的准确性与高效性。

本发明解决技术问题所采用的技术方案如下：

一种基于多模态蛋白质序列的特征提取与编码方法，其中，所述方法包括：

步骤A、分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取，获取三种模态的蛋白质特征；

步骤B、对所述三种模态的蛋白质特征分别进行深度多项式网络编码，分别得到三种高级的特征表达；

步骤C、将所述三种高级的特征表达经过级联后再次进行深度多项式网络编码，获得融合后的蛋白质特征；所述融合后的蛋白质特征中包含三种模态的蛋白质特征的各自内在的属性以及彼此之间的互联信息。

所述的基于多模态蛋白质序列的特征提取与编码方法，其中，所述步骤C之后还包括：

步骤D、将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解，输出求解结果，所述求解结果用于分析蛋白质与蛋白质的相互作用。

所述的基于多模态蛋白质序列的特征提取与编码方法，其中，所述步骤A具体包括：

步骤A1、基于线性判别分析法对蛋白质氨基酸序列的相对突变率的特征进行提取；

步骤A2、基于连续小波变换对蛋白质氨基酸序列的疏水性的特征进行提取；

步骤A3、基于离散小波变换对蛋白质氨基酸序列的亲水性的特征进行提取。

所述的基于多模态蛋白质序列的特征提取与编码方法，其中，所述步骤A1具体包括：

步骤A11、利用氨基酸评分矩阵代替蛋白质的序列信息，并通过矩阵运算获得蛋白质的高维特征矩阵；

步骤A12、获取所述高维特征矩阵中的特征矢量信息，并使用二维线性判别分析法将所述特征矢量信息整合成一个低维的特征矩阵。

所述的基于多模态蛋白质序列的特征提取与编码方法，其中，所述步骤A2具体包括：

步骤A21、根据氨基酸序列的疏水性指数将蛋白质序列中的每个氨基酸转换成数值的形式；

步骤A22、利用连续小波变换方法对长短不一的数值序列统为一个特征矩阵。

所述的基于多模态蛋白质序列的特征提取与编码方法，其中，所述步骤A3具体包括：

步骤A31、根据氨基酸序列的亲水性指数将蛋白质序列中的每个氨基酸转换成数值的形式；

步骤A32、利用离散小波变换方法对长短不一的数值序列统为一个特征矩阵。

所述的基于多模态蛋白质序列的特征提取与编码方法，其中，所述步骤B和步骤C中的深度多项式网络是经过多次迭代构建而成，并且在每次迭代构建网络层的时候对网络的宽度进行参数设置。

所述的基于多模态蛋白质序列的特征提取与编码方法，其中，所述步骤D中的极限学习机分类器是基于单隐藏层前馈神经网络，并在算法求解过程中采用留一交叉验证的方法选择最优的正则化参数。

一种基于多模态蛋白质序列的特征提取与编码系统，其中，所述系统包括：

特征提取模块，用于分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取，获取三种模态的蛋白质特征；

第一特征编码模块，用于对所述三种模态的蛋白质特征分别进行深度多项式网络编码，分别得到三种高级的特征表达；

第二特征编码模块，用于将所述三种高级的特征表达经过级联后再次进行深度多项式网络编码，获得融合后的蛋白质特征；所述融合后的蛋白质特征中包含三种模态的蛋白质特征的各自内在的属性以及彼此之间的互联信息。

所述的基于多模态蛋白质序列的特征提取与编码系统，其中，所述系统还包括：

分析模块，用于将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解，输出求解结果，所述求解结果用于分析蛋白质与蛋白质的相互作用。

本发明的有益效果：本发明提取蛋白质序列的不同模态的特征，并通过对不同模态的特征经过两层级联的DPN编码进行融合，获得各个模态特征中各自内在的属性和彼此之间的互联信息，相对于传统的蛋白质特征提取方法中，本发明综合了蛋白质氨基酸系列的多种理化性质，提取到更可靠的蛋白质特征，从而能够更准确的对蛋白质与蛋白质的相互作用进行分析。

附图说明

图1是本发明的基于多模态蛋白质序列的特征提取与编码方法的较佳实施例的流程图。

图2是本发明的基于多模态蛋白质序列的特征提取与编码方法的示意图。

图3是本发明的基于多模态蛋白质序列的特征提取与编码方法中的深度多项式网络编码的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

为了解决现有技术中的蛋白质特征提取的问题，本发明提供了一种基于多模态蛋白质序列的特征提取与编码方法，具体如图1所示，所述方法包括：

步骤S100、分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取，获取三种模态的蛋白质特征。

步骤S200、对所述三种模态的蛋白质特征分别进行深度多项式网络编码，分别得到三种高级的特征表达；

步骤S300、将所述三种高级的特征表达经过级联后再次进行深度多项式网络编码，获得融合后的蛋白质特征；所述融合后的蛋白质特征中包含三种模态的蛋白质特征的各自内在的属性以及彼此之间的互联信息。

具体实施时，如图2中所示，本发明首先对蛋白质序列进行特征提取，然后对提取的特征进行MDPN(多模态深度多项式网络)编码，将融合后的蛋白质特征输入至RELM(极限学习机)分类器，以得到蛋白质与蛋白质之间的相互作用。

具体地，本发明利用蛋白质氨基酸序列所特有的理化性质，如蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性，针对这三种理化性质进行特征提取，从而获得更加全面的蛋白质特征。

蛋白质氨基酸的相对突变率是指一种氨基酸在生命过程中突变成其它19种氨基酸的概率，这揭示了蛋白质之间的进化关系。本发明将最广泛使用的BLOSUM62氨基酸评分矩阵用于代替蛋白质的序列信息。BLOSUM评分矩阵代表了一组可供选择的评分矩阵，广泛应用于序列比对算法中。BLOSUM矩阵是基于蛋白质模块数据库Blocks中蛋白质序列的高度保守片段的对齐比较而得到的，BLOSUM62是最常用的替代矩阵，62是指蛋白质序列的平均相似度为62％的Blocks构建的打分矩阵。假设一个蛋白质序列的长度为N，表示为P＝(p₁，p₂，...，p_N)，转换成大小为N×20的替换矩阵，再经过矩阵乘法转换为20×20的高维特征矩阵HP。蛋白质的高维特征矩阵HP矩阵获取公式如下：

HP(i，j)＝[B(P(i)，j)]′×[B(P(i)，j)]i＝1，2，...，N，j＝1，2，...，20，

其中B表示20×20的BLOSUM62矩阵，B(i，j)表示氨基酸i在进化过程中突变成氨基酸j的占比。上述公式可以得到每个原始蛋白质序列被转换为长度400的特征矢量，那么一个蛋白质对就被转换为长度800的特征矢量。

对于长度800的特征矢量，在长度不一的蛋白质对中，蛋白质序列的长度从几十到几万不等。为了获得更加有效的蛋白质特征表达，降低噪声的干扰，本发明将使用二维线性判别分析法2DLDA将长度800的特征矢量信息整合为一个低维度的特征矩阵BP。二维线性判别分析法(Two-dimensional linear discriminant,2DLDA)是为了解决一维线性判别法(Linear Discriminant Analysis，LDA)的一些算法中的缺陷而提出的。LDA算法就是将高维度的数据经过子空间学习后映射到低维度的空间中，最优的投影空间可以通过散列矩阵的特征值分解计算得到，但是LDA在求解过程中存在奇异性问题而受到限制，在许多问题中都不能够得到正确求解。为了解决这个问题本发明采用LDA算法2DLDA，典型的LDA和2DLDA的主要区别在于数据表示的形式，LDA是由向量表示，2DLDA是由矩阵表示，也就是将数据在二维空间中进行投影。

将长度800的特征矢量的蛋白质对HP_I(I＝1，2，...，N)，其中I表示蛋白质对的数量，并分为k个类，那么2DLDA算法可以找到HP_I两个投影变换矩阵:L∈φ^r×p和R∈φ^c×q将高维空间的结构信息在低维空间上的得到保留，并保留为BP_I∈φ^p×q，公式如下表示：

BP_I(p，q)＝L^T(r，p)×HP_I(r，c)×R(c，q)I＝1，2，...，N.

子空间学习通过类内散列矩阵F_w和类间散列矩阵F_b两个变量进行相互约束求解出最优的映射变换矩阵L和R。当F_w求得最小值，F_b求得最大值时，那么L和R求得最优。基于一个自然的Frobenius范数的矩阵之间的相似性评价准则下，F_w和F_b有以下公式：

其中，是指1≤i≤k中第i类别的平均值，是指全局平均值。通过迭代算法求解F_w和F_b，经过40次的迭代后，将高维特征矩阵HP(r＝20，c＝40)降低到低维度的特征矩阵BP为49(r＝7，c＝7)。

进一步地，蛋白质氨基酸的疏水性特征是影响蛋白质结构稳定的因素之一，特别是在维持和稳定蛋白质构象中，氨基酸残基的亲疏水性是主要作用力，会影响蛋白质与蛋白质相互作用。在蛋白质特征提取中将氨基酸的疏水性特性作为一种特征提取方法，可以提取出更多蛋白质序列的有效信息，对后续的特征融合、编码起到重要作用。如表1所示，根据氨基酸疏水性指数将蛋白质序列中的每个氨基酸转换成数值的形式，在此基础之上，为了提取出真正有效的蛋白质特征，本发明将利用连续小波变换方法(Continuous WaveletTransform,CWT)对长短不一的数值序列统一为一个特征向量。

表1

连续小波变换方法可以将连续时间函数分解成很多个小波，构建一个具有很好的频域和时域局部化的信息。它的核心思想可以认为是将空间信息进行分解，在分解过程中，将输入信号变换为低频信息和高频信息，下一步又将低频信息和高频信息分别分解为两个部分，如此反复，直到满足假设的条件为止。本发明将通过疏水性指数(AAIndex)替代相应的1×N值的氨基酸序列，利用CWT算法将不同长度转化为统一大小特征矩阵(CP)。较佳地，用于特征提取的CWT公式可以表示如下：

CP(a，b)＝CWT(a，b)×CWT(a，b)′a＝1...n，b＝1...n。

其中P＝(p₁，p₂...，p_N)指长度为N的氨基酸序列，A表示1×20的AAindex替换矩阵，φ(t)是指小波函数，a是尺度参数，b是平移参数。在本发明中经过实验验证设置a＝5，b＝5来表达蛋白质序列的特征。根据CWT，每个不同长度的原始氨基酸序列被转换成25个特征系数的大小。最后一个蛋白质对由两个具有50个特征系数(CP)的蛋白质序列组成。

进一步地，在蛋白质结构的研究中亲水性指数是很重要的因素，会影响蛋白质与蛋白质相互作用。如表2所示，根据氨基酸疏水性指数将蛋白质序列中的每个氨基酸转换成数值的形式，在此基础之上，为了提取出真正有效的蛋白质特征，本发明将利用离散小波变换(Discrete Wavelet Transform,DWT)对长短不一的数值序列统一为一个特征向量。

表2

DWT就是指离散的输入输出，将输出的尺度参数和平移参数进行离散化。信号经过离散小波变换时，是将信号一部分通过一个高通滤波器得到信号的高频信息，一部分通过低通滤波器信号的低频信息。DWT函数的定义如下：

其中，a表示尺度参数，b表示平移参数，ψ(t)表示小波函数，f(t)作为蛋白质氨基酸序列。离散小波变换后的特征中包含近似参数和细节参数。近似参数保存了大部分的低频信息，而细节参数保存了少部分的高频信息。本发明选择18个近似参数代表每个蛋白质特征的大部分信息，8个细节参数代表每个蛋白质特征的细节信息。最后一个蛋白质对由两个具有52维(DP)的特征矩阵组成。

在提取到三种模态的蛋白质特征之后，将提取出来的蛋白质特征进行多模态的深度多项式网络编码。如图2中的示意图所示，本发明的多模态的深度多项式网络算法包含两个阶段，第一个阶段是把上述提取到的三种模态的蛋白质特征分别进行深度多项式网络编码获得高级的特征表达，第二阶段是将第一阶段的三种高级的特征表达经过级联后再进行深度多项式网络编码获取到更高级的特征表达，即融合后的蛋白质特征。

具体地，如图3中所示，其中图3(a)展示了4层深度多项式网络。假设输入训练样本表示为{(x₁，y₁)，...，(x_m，y_m)}，权值系数为(w₁，w₂，...，w_m)和m次多项式为p₁，p₂，...，p_m，如果训练样本是确定和有限的，就能得到m个多项式p₁，p₂，...，p_m的网络，然后根据目标输出训练出一个简单的线性分类器。即对任意的样本表示为：对于1阶多项式可以表示为：

{(<w，[1x₁]>，...，<w，[1x_m]>)：w∈R^m+1}；

利用奇异值分解法求得m+1个维度的向量w₁，w₂，...，w_m+1，然后得到线性变换的矩阵W，将[1 X]映射到构造基上。使得的每一列都是线性独立的，如此构造出第一层网络F¹。由构建的第一层网络表明矩阵

涵盖了2阶多项式可获得的所有可能值。因此，为了得到2阶多项式的构造基，只需要找到中的子集F²就足够了，也就是说增广矩阵[F F²]的每一列都是来自线性独立的列。通过从第一层网络构建第二层网络的过程，可以扩展到构建第三层，第四层，…，第z层网络。对于任何z阶多项式可以由1阶、2阶,…,(z-1)阶表示。因此，矩阵为：

其中[F F^z]，是来自的子集。

但是，深度多项式网络算法存在两个挑战：第一，网络随着样本集的增大而增大。第二，网络太深和太大很容易造成过拟合。F^z是来自增广矩阵列空间中的子集[F F^z]的列。因此如果很大，那么|F^z|也可能会大，造成各层有许多新的节点。因此，本发明在求解时放弃求解完全的，而是寻求“大约”的解，利用有界的部分构造基产生一个宽度小的网络层，也就是在每次迭代构建网络层的时候对网络的宽度进行参数设置。值得注意的是，第一层网络相当于主成分分析法进行特征编码，通过线性变换将增广矩阵[1，X]变换成前K个奇异向量。在下一层构建网络中，采用一个标准的正交最小二乘法算法来迭代选择中最相关的列。

图3(b)是多模态线性组合的深度多项式网络示意图，从图3(b)中可以看到将三种蛋白质特征经过线性组合后输入到基本DPN进一步编码。但是多特征的线性组合可能忽略了每个特征的自身属性，没有考虑到不同模态之间的关联信息，而单个DPN编码也可能会忽视不同模态之间的互补信息。因此，为了获取多个特征之间的互补信息，本发明采用图3(c)的多模态深度多项式网络，通过两层级联的DPN编码对三种蛋白质特征进行融合，它可以融合不同的特征矩阵，进一步提高特征表示，从而获得融合后的蛋白质特征。具体地，本发明首先第一阶段是将每种特征分别进行DPN编码获得高级特征表示，然后第二阶段是将上一阶段的编码特征进行级联后再次进行DNP编码，最终获取到三种模态的蛋白质特征中各自内在的属性和彼此之间的互联信息。MDPN(多模态深度多项式网络)编码体现了多模态之间的互补性和多模态间高度的非线性关系，可以大大提高本发明特征提取的可靠性。在蛋白质与蛋白质相互作用的研究中利用BP、CP和DP的蛋白质模态特征进行两层级联的DPN编码，获得高层次特征的表示(融合后的蛋白质特征)。与以往的特征提取方法相比，MDPN方法结合三种模态的蛋白质特征的共同和互补信息。通过迭代构建每一层网络可以减少噪声并获得有效信息，从而为获取到蛋白质与蛋白质之间的相互作用的分析提供更为有效的数据支持，更有利于分析蛋白质的功能。较佳地，由于蛋白质数据集较小，每个模态的特征尺寸也相对较小，所以每个基本DPN构建了两层网络，并要对每一层网络进行宽度的设置。

进一步地，本发明的基于多模态蛋白质序列的特征提取与编码方法还包括：将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解，输出求解结果，所述求解结果用于分析蛋白质与蛋白质的相互作用。

具体地，极限学习机是基于单隐藏层前馈神经网络，只需要随机的初始化隐藏层的节点数就可以确定输出权重值。假设N个样本集m种类别数据表示为输入表示为x_j＝[x_j1，x_j2，...，x_jn]^T∈Rⁿ，期望输出表示为t_j＝[t_j1，t_j2，...，t_jn]^T∈R^m。具有n个隐藏节点和激活函数为g(x)的样本集定义为：

其中b_i表示第i个隐藏节点的偏置，w_i表示第i个隐藏节点连接到输出节点的权重，β_i＝[β_i1，β_i2，...，β_im]^T表示第i个隐藏节点和输出节点的权向量，o_j表示实际的输出。极限学习机的目标函数为求解下述公式的最小值，min_β||Hβ-T||_F。

其中：

其中H表示隐藏层输出矩阵。一般情况下，正则化最小二乘法被提出来求解的最优解如下：

其中λ表示正则化参数，用于平衡训练误差，影响算法的性能。因此，本发明将采用留一法来确定最优正则化λ。留一法意味着数据集被分成N个不同的样本，N-1个训练集作为训练集，剩下一个样本作为测试样本。为了降低计算复杂度，本发明采用了预测残差平方和(predicted residual sum of squares，PRESS)的统计方法，该方法有效地计算了线性模型的均方误差(mean square error，MSE)，不用重新计算每个正则化参数λ的伪逆，并且利于奇异值分解来求解隐藏层输出矩阵H正则化后的HAT矩阵(被表示为HAT_r)。基于MSE的PRESS的计算公式为：

其中H＝UDV^T是H的奇异值分解，D是对角矩阵。

1)如果L≤N，HAT_r可以表示为：

HAT_r＝H(H^TH+λI)^-1H^T＝H(VDU^TUDV^T+λI)^-1H^T＝HV(D²+λI)^-1V^TH^T；

由上述MSE^PRESS和此HAT_r的公式求得最优正则化参数λ_opt，相应的最优输出权重矩阵为：

2)如果L≥N，HAT_r可以表示为：

HAT_r＝HH^T(HH^T+λI)^-1＝HH^T(UDV^TVDVU^T+λI)^-l＝HH^TU(D²+λI)^-1U^T；

由式MSE^PRESS和次HAT_r求得最优正则化参数λ_opt，相应的最优输出权重矩阵为：

以上就是通过留一交叉验证法对极限学习机求解的过程。极限学习机的主要优点是在算法执行过程中几乎不需要人为干预，通过将所述融合后的蛋白质特征输入至预设的极限学习机分类器中进行算法求解，输出求解结果，所述求解结果用于分析蛋白质与蛋白质的相互作用，从可以对蛋白质与蛋白质之间的相互作用进行预测，以便对蛋白质的功能进行更好的分析。

综上所述，本发明公开了一种基于多模态蛋白质序列的特征提取与编码方法及系统，方法包括：分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取，获取三种模态的蛋白质特征；对所述三种模态的蛋白质特征分别进行深度多项式网络编码，分别得到三种高级的特征表达；将三种高级的特征表达经过级联后再次进行深度多项式网络编码，获得融合后的蛋白质特征。相对于传统的蛋白质特征提取方法中，本发明综合了蛋白质氨基酸系列的多种理化性质，提取到更可靠的蛋白质特征，从而能够更准确的对蛋白质与蛋白质的相互作用进行分析。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于多模态蛋白质序列的特征提取与编码方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态蛋白质序列的特征提取与编码方法，其特征在于，所述步骤C之后还包括：

3.根据权利要求1所述的基于多模态蛋白质序列的特征提取与编码方法，其特征在于，所述步骤A具体包括：

4.根据权利要求3所述的基于多模态蛋白质序列的特征提取与编码方法，其特征在于，所述步骤A1具体包括：

5.根据权利要求3所述的基于多模态蛋白质序列的特征提取与编码方法，其特征在于，所述步骤A2具体包括：

6.根据权利要求3所述的基于多模态蛋白质序列的特征提取与编码方法，其特征在于，所述步骤A3具体包括：

7.根据权利要求1所述的基于多模态蛋白质序列的特征提取与编码方法，其特征在于，所述步骤B和步骤C中的深度多项式网络是经过多次迭代构建而成，并且在每次迭代构建网络层的时候对网络的宽度进行参数设置。

8.根据权利要求2所述的基于多模态蛋白质序列的特征提取与编码方法，其特征在于，所述步骤D中的极限学习机分类器是基于单隐藏层前馈神经网络，并在算法求解过程中采用留一交叉验证的方法选择最优的正则化参数。

9.一种基于多模态蛋白质序列的特征提取与编码系统，其特征在于，所述系统包括：

10.根据权利要求9所述的基于多模态蛋白质序列的特征提取与编码系统，其特征在于，所述系统还包括：