CN111916144A

CN111916144A - 基于自注意力神经网络和粗化算法的蛋白质分类方法

Info

Publication number: CN111916144A
Application number: CN202010730960.9A
Authority: CN
Inventors: 鱼滨; 张一帆; 张琛; 谢宇; 李春奕
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-11-10
Anticipated expiration: 2040-07-27
Also published as: CN111916144B

Abstract

本发明公开了一种基于自注意力神经网络和粗化算法的蛋白质分类方法。其步骤为：(1)构建自注意力神经网络；(2)生成蛋白质训练集；(3)利用粗化算法粗化图结构；(4)利用正则化拉普拉斯矩阵计算公式，计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值；(5)训练自注意力神经网络；(6)对无标签蛋白质样本进行识别。本发明搭建并训练了一个自注意力神经网络，能更好地捕获蛋白质的层次结构信息，采用粗化算法使得本发明在处理大型蛋白质分子时有着较短的处理时间和较大的空间利用率。

Description

基于自注意力神经网络和粗化算法的蛋白质分类方法

技术领域

本发明属于物理技术领域，更进一步涉及图像分类技术领域中的一种基于自注意力神经网络和粗化算法的蛋白质分类方法。本发明可根据蛋白质图的结构特征和分子节点属性，通过自注意力对图结构和节点属性提取蛋白质分子的属性信息，并根据该信息来进行分类，比如判断某个蛋白质分子是否为酶分子。

背景技术

蛋白质分子作为现实生活中的非欧几里得数据可以自然地以图数据结构来表示，即通常用于表征一组对象(即节点)及其关系(即边缘)。在常规的蛋白质分类技术中，通常需要通过一系列的物理或者化学实验才能判断某个蛋白质的特性，比如判断某一个蛋白质分子是否为酶。机器学习作为一种先进技术，现在也被应用于这些工作中，这些蛋白质分子被作为一个图结构数据输入到一个特定的机器学习模型中，然后利用已有的带标签的数据进行大量的学习优化最终得出了一个有很强适应力的机器学习模型。然后在此模型的基础上，把未知的蛋白质分子结构以及其属性信息输入进去，最终得出一个这个蛋白质的化学物理特性。

上海极链网络科技有限公司在其申请的专利文献“一种蛋白质图像分类方法、装置、设备及介质”(申请号：202010030899.7，申请公布号：111242922A)中提出了一种对蛋白质图像进行分类方法。该方法的实施步骤是：步骤1，获取原始蛋白质图像，根据所述原始蛋白质图像生成待分类蛋白质图像。步骤2，将所述待分类蛋白质图像输入至预先训练好的蛋白质分类模型中，获得所述蛋白质分类模型输出的分类结果。步骤3，根据所述分类结果确定所属原始蛋白质图像的类别。该方法存在的不足之处是，忽略了蛋白质图像分类中的结构信息，在蛋白质分子中，不同的分子结构可能会带来与其结构对应的蛋白质特性的巨大变化，比如脱氧血红蛋白与氧的亲和力很低，不易与氧结合。例如如果血红蛋白分子中的一个亚基与一个氧分子结合，就会引起该亚基构象发生改变，并引起其它三个亚基的构象相继发生变化，使这三个亚基易于和氧结合，而这两种构象在图像上呈现出来的是几乎无差别的，这会导致得到错误的分类结果。

青岛海洋科学与技术国家实验室发展中心在其申请的专利文献“蛋白质分类方法”(申请号：201911376845.X，申请公布号：111210870A)中提出了一种基于蛋白质三维模型的分类方法。该方法的实施步骤是：步骤1，将蛋白质三维模型置入N*N*N大小的体素占据网格。N表示该蛋白质中原子的数量。步骤2，对体素占据网格投射N*N条射线，每条射线通过N个体素的中心。步骤3，基于射线与蛋白质三维模型的相交情况构建占据模型。步骤4，将占据模型通过三维卷积神经网络实现对蛋白质的分类。该方法存在的不足之处是，通过蛋白质的三维模型进行分类时，在处理每一个蛋白质分子中都需要占用N*N*N大小的存储空间，如果该蛋白质分子的组成原子数量较大时，会占用较大的空间并导致较低的空间利用率，使得计算机在运算时造成了大量的无效运算，最终会影响到分类的效率。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于自注意力神经网络和粗化算法的蛋白质分类方法，用于解决现有分类方法忽略了蛋白质图像分类中的结构信息和占用较大的空间并导致较低的空间利用率的问题。

实现本发明目的的思路是，构建蛋白质数据集，粗化蛋白质图结构，构建并训练自注意力神经网络，将神经网络的输出和图标签相对应，对待识别蛋白质样本进行识别，使得网络能够精准识别蛋白质类别。

实现本发明目的的具体步骤如下：

(1)构建自注意力神经网络：

(1a)搭建一个十层的自注意力神经网络，其结构依次为：第一全连接层→第一正则化层→第二全连接层→第二正则化层→第三全连接层→第三正则化层→第一激活函数层→第一图卷积网络层→第四全连接层→第二激活函数层；

(1b)将第一至第四全连接层的参数分别设置为N*256,256*128,128*64和3*N*64*1,第一至第三正则化层的大小分别设置为256，128和64，第一至第二激活函数分别设置为ReLU函数和Softmax函数，其中，在蛋白质数据集内，每一个蛋白质样本都由若干个节点组成，N则表示该数据集内所有样本的节点数中的最大值；

(2)生成蛋白质训练集：

(2a)随机选取至少5000个蛋白质样本组成训练集，每一个蛋白质样本均包含其内部的原子，原子间的连接关系，原子的特征向量矩阵以及该蛋白质分子的类别标签；

(2b)对训练集内的每个蛋白质分子进行建模，生成由节点和连接边组成的包含多边形结构和单链结构的图结构；

(3)利用粗化算法粗化图结构：

(3a)利用粗化算法的多边形优化算法，将每个包含多边形结构的图结构中每个多边形结构都缩为一个节点后，删除该多边形结构原有的内部连接边；

(3b)利用粗化算法的单链池化算法，将每个包含单链结构的图结构中每个单链结构的中间节点与该中间节点对应的连接边删除后，在该单链结构的首尾节点间生成一条连接边；

(4)利用正则化拉普拉斯矩阵计算公式，计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值；

(5)训练自注意力神经网络：

(5a)将粗化后图结构对应的正则化拉普拉斯特征矩阵、邻接矩阵和图标签依次输入到自注意力神经网络中；

(5b)用梯度下降法，更新自注意力神经网络的权值直到损失函数收敛为止，得到训练好的自注意力神经网络；

(6)对无标签蛋白质样本进行识别：

(6a)将一个无标签待识别的蛋白质样本输入到自注意力神经网络中，输出一个类别特征向量，C表示该蛋白质样本可能属于的类别数量，该类别特征向量中的每个元素值表示该蛋白质样本属于该元素对应类别的概率；

(6b)从无标签蛋白质样本的类别特征向量中选择最大的概率值对应的类别作为该无标签蛋白质样本的类别标签。

本发明与现有技术相比有以下优点：

第一，由于本发明搭建并训练了一个自注意力神经网络，用于对蛋白质的样本进行分类，克服了现有分类方法忽略了蛋白质图像分类中的结构信息，导致错误分类结果的问题，使得本发明能更好地捕获蛋白质的层次结构信息，从而获得了更准确的分类结果。

第二，由于本发明利用粗化算法粗化图结构，将原有的图结构粗化为一个较小的图结构，克服了现有分类方法占用较大的空间并导致较低的空间利用率的问题，本发明在处理大型蛋白质分子时有着较短的处理时间和较大的空间利用率。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图1对本发明的实现步骤做进一步的描述。

步骤1，构建自注意力神经网络。

搭建一个十层的自注意力神经网络，其结构依次为：第一全连接层→第一正则化层→第二全连接层→第二正则化层→第三全连接层→第三正则化层→第一激活函数层→第一图卷积网络层→第四全连接层→第二激活函数层。

所述第一图卷积网络层采用的自注意力公式如下：

其中，H^(k+1)表示第一图卷积网络层中第k+1阶的节点特征矩阵，k表示第一图卷积网络层中阶的序号，n表示一个蛋白质图结构的节点总数，Π表示堆叠操作，

表示第一图卷积网络层中第k阶的节点特征矩阵第i行的特征向量，D_p表示节点p的度数，p的取值与i的取值对应相等，∑表示累加操作，Ner()表示节点的邻居节点集合，j表示Ner(i)中节点的序号，∈表示属于符号，α_x,y表示节点x对节点y的注意力系数，x的取值与i的取值对应相等，y的取值与j的取值对应相等，ω表示一个可学习的全局参数，

表示第一图卷积网络层中第k-1阶节点特征矩阵第j行的特征向量。

将第一至第四全连接层的参数分别设置为N*256,256*128,128*64和3*N*64*1,第一至第三正则化层的大小分别设置为256，128和64，第一至第二激活函数分别设置为ReLU函数和Softmax函数，其中，在蛋白质数据集内，每一个蛋白质样本都由若干个节点组成，N则表示该数据集内所有样本的节点数中的最大值。

步骤2，生成蛋白质训练集。

随机选取至少5000个蛋白质样本组成训练集，每一个蛋白质样本均包含其内部的原子，原子间的连接关系，原子的特征向量矩阵以及该蛋白质分子的类别标签。

对训练集内的每个蛋白质分子进行建模，生成由节点和连接边组成的包含多边形结构和单链结构的图结构。

所述对训练集内的每个蛋白质分子进行建模的步骤如下：

第1步，将训练集内的每个蛋白质样本输入到计算机中，将蛋白质分子内的每个原子映射为以序号0开始的节点；

第2步，将每个蛋白质样本内的原子连接关系映射为节点的连接边；

第3步，将蛋白质分子的类别标签映射为以序号0开始的图标签；

第4步，将上述三步得到的节点、边和图标签组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。

步骤3，利用粗化算法粗化图结构。

利用粗化算法的多边形优化算法，将每个包含多边形结构的图结构中每个多边形结构都缩为一个节点后，删除该多边形结构原有的内部连接边。

利用粗化算法的单链池化算法，将每个包含单链结构的图结构中每个单链结构的中间节点与该中间节点对应的连接边删除后，在该单链结构的首尾节点间生成一条连接边。

步骤4，利用正则化拉普拉斯矩阵计算公式，计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值。

所述正则化拉普拉斯矩阵计算公式如下：

其中，L_e,r表示粗化后图结构的正则化拉普拉斯特征矩阵中的第e行第r列的元素值，:＝表示赋值操作，v_t和v_m分别表示图结构中序号为t和m的节点，t的取值与e的取值对应相等，m的取值与r的取值对应相等，D_z、D_p和D_q分别表示图结构中序号为z、p和q节点的度，其中z和p的取值与e的取值对应相等，q的取值与r的取值对应相等，*表示相乘操作，t表示Ner(m)中节点的序号。

步骤5，训练自注意力神经网络。

将粗化后图结构对应的正则化拉普拉斯特征矩阵、邻接矩阵和图标签依次输入到自注意力神经网络中。

用梯度下降法，更新自注意力神经网络的权值直到损失函数收敛为止，得到训练好的自注意力神经网络。

步骤6，对无标签蛋白质样本进行识别。

将一个无标签待识别的蛋白质样本输入到自注意力神经网络中，输出一个类别特征向量，C表示该蛋白质样本可能属于的类别数量，该类别特征向量中的每个元素值表示该蛋白质样本属于该元素对应类别的概率。

从无标签蛋白质样本的类别特征向量中选择最大的概率值对应的类别作为该无标签蛋白质样本的类别标签。

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel(R)Xeon(R)CPU E5-2650 v4，主频为2.20GHz，内存256GB。

本发明的仿真实验的软件平台为：Ubuntu 18.04操作系统和python 3.6。

本发明仿真实验所使用的蛋白质样本数据集为，MUTAG、PTC、PROTEINS、NCI1、NCI109、D&D和ENZYMES。

MUTAG数据集由诱变的芳香族和杂芳香族硝基化合物组成，它具有188种化合物和两个图形标记，分别表示它们是否具有诱变作用。由Y.Yu等人在“Graph classificationbased on sparse graph feature selection and extreme learning machine,Neurocomputing 261(2017)20–27”中生成了该数据集。

PTC是化学化合物的数据集，标明它们对雄性或雌性大鼠有致癌性。由S.Pan等人在“Task sensitive feature exploration and learning for multitask graphclassification,IEEE Transactions on Systems,Man,and Cybernetics 47(3)(2017)744–758”中生成了该数据集。

PROTEINS是一组蛋白质图。每个图有一个标签，以指示它是酶还是非酶。由I.Schomburg等人在“the enzyme database:updates and major new developments,Nucleic Acids Research 32(90001)(2004)431–433”中生成了该数据集。

NCI1和NCI109是化合物数据集，边缘表示两个原子之间的键。此外，每个图都有一个标签，指示它们是否可以延迟癌细胞系的生长。由S.Pan等人在“Cogboost:Boosting forfast cost-sensitive graph classification,IEEE Transactions on Knowledge andData Engineering 27(11)(2015)2933–2946”中生成了该数据集。

D&D是一个蛋白质结构数据集，其图形标签指示它们是否为酶。由P.D.Dobson等人在“Distinguishing enzyme structures from non-enzymes without alignments,J.Mol.Biol(2003)771–783”中生成了该数据集。

ENZYMES是一个蛋白质数据集。每个图都有一个标签，指出它所属的EC顶级类别。由I.Schomburg等人在“the enzyme database:updates and major new developments,Nucleic Acids Research 32(90001)(2004)431–433”中生成了该数据集。

2.仿真内容及其结果分析：

本发明仿真实验是采用本发明和八个现有技术的分类方法(DCNN，PSCN，DGCNN，GCAPS-CNN，LDP，SP，GK，WL)分别对输入的蛋白质样本数据集分类，获得分类结果图。

现有技术DCNN分类方法指的是，J.Atwood等人在“Diffusion-convolutionalneural networks,in:Advances in Neural Information Processing Systems,2016,pp.1993–2001”中提出的传播-卷积神经网络分类方法，简称DCNN。

现有技术PSCN分类方法指的是，M.Niepert等人在“Learning convolutionalneural networks for graphs,in:Proceedings of the 33nd InternationalConference on Machine Learning,2016,pp.2014–2023”中提出的基于图结构的CNN网络框架方法，简称PSCN。

现有技术DGCNN分类方法指的是，M.Zhang等人在“An end-to-end deep learningarchitecture for graph classification,in:Proceedings of the 32nd AAAIConference on Artificial Intelligence,2018,pp.4438–4445”中提出的一个端到端的图分类框架，简称DGCNN。

现有技术GCAPS-CNN分类方法指的是，M.Niepert等人在“Learningconvolutional neural networks for graphs,in:Proceedings of the 33ndInternational Conference on Machine Learning,2016,pp.2014–2023”中提出的基于图置换的分类方法，简称GCAPS-CNN。

现有技术LDP分类方法指的是，C.Cai等人在“Asimple yet effective baselinefor non-attribute graph classification,in:Proceedings of the 35ndInternational Conference on Machine Learning,2018,pp.623–635”中提出的对于无属性图的分类方法，简称LDP。

现有技术SP分类方法指的是，K.M.Borgwardt等人在“Shortest-path kernels ongraphs,in:Proceedings of the 6th IEEE International Conference on DataMining,2006”中提出的基于最短路径的核方法，简称SP。

现有技术GK分类方法指的是，N.Shervashidze等人在“Efficient graphletkernels for large graph comparison,in:Proceedings of the TwelfthInternational Conference on Artificial Intelligence and Statistics,AISTATS2009,Clearwater Beach,Florida,USA,April 16-18,2009,2009,pp.488–495”中提出的一种高效的图比较方法，简称GK。

现有技术WL分类方法指的是，N.Shervashidze等人在“Weisfeiler-lehman graphkernels,J.Mach.Learn.Res.12(2011)2539–2561”中提出的一种威斯费勒-莱曼图核分类方法，简称WL。

利用评价指标分类正确率分别对九种方法的分类结果进行评价，将所有计算结果绘制成表1。

表1中的Ours表示本发明的仿真实验结果。

结合表1可以看出，本发明的在第一个MUTAG数据集上达到了现有技术的平均水平，而在后7个数据集上均超过了现有技术，证明本发明可以得到更高蛋白质分类准确率。

表1九种方法的分类结果评价一览表

Claims

1.一种基于自注意力神经网络和粗化算法的蛋白质分类方法，其特征在于，构建并训练一个自注意力神经网络，采用粗化算法对蛋白质样本建模生成的图结构进行粗化处理，该方法的具体步骤包括：

(1)构建自注意力神经网络：

(2)生成蛋白质训练集：

(3)利用粗化算法粗化图结构：

(5)训练自注意力神经网络：

(6)对无标签蛋白质样本进行识别：

2.根据权利要求1所述的基于自注意力神经网络和粗化算法的蛋白质分类方法，其特征在于，步骤(1a)中所述第一图卷积网络层采用的自注意力公式如下：

其中，H^(k+1)表示第一图卷积网络层中第k+1阶的节点特征矩阵，k表示第一图卷积网络层中阶的序号，n表示一个蛋白质图结构的节点总数，Π表示堆叠操作，H_i ^(k)表示第一图卷积网络层中第k阶的节点特征矩阵第i行的特征向量，D_p表示节点p的度数，p的取值与i的取值对应相等，∑表示累加操作，Ner()表示节点的邻居节点集合，j表示Ner(i)中节点的序号，∈表示属于符号，α_x,y表示节点x对节点y的注意力系数，x的取值与i的取值对应相等，y的取值与j的取值对应相等，ω表示一个可学习的全局参数，

3.根据权利要求1所述的基于自注意力神经网络和粗化算法的蛋白质分类方法，其特征在于，步骤(2b)中所述对训练集内的每个蛋白质分子进行建模的步骤如下：

第一步，将训练集内的每个蛋白质样本输入到计算机中，将蛋白质分子内的每个原子映射为以序号0开始的节点；

第二步，将每个蛋白质样本内的原子连接关系映射为节点的连接边；

第三步，将蛋白质分子的类别标签映射为以序号0开始的图标签；

第四步，将上述三步得到的节点、边和图标签组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。

4.根据权利要求1所述的基于自注意力神经网络和粗化算法的蛋白质分类方法，其特征在于，步骤(4)中所述正则化拉普拉斯矩阵计算公式如下：