CN113918711B

CN113918711B - 一种基于多视图多层注意力的面向学术论文的分类方法

Info

Publication number: CN113918711B
Application number: CN202110866447.7A
Authority: CN
Inventors: 张勇; 张鹏宇; 胡永利; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-04-16
Anticipated expiration: 2041-07-29
Also published as: CN113918711A

Abstract

一种基于多视图多层注意力的面向学术论文的分类方法涉及深度学习领域、图神经网络领域。在当今信息化高速发展的时代，传统的论文匹配方法仅仅使用单一的关系图，导致匹配效果不佳。本发明首先将论文之间的多种关系图输入图卷积神经网络，做到了更准确地捕捉真实论文数据的复杂关系。然后在捕捉到多种关系的基础上，使用多层注意力机制，学习到了每一篇论文的最优表示。最后引入自动编码器模块，缓解了图卷积网络在学习多视图信息时产生的过平滑问题。结果表明，通过将多层注意力与多视图输入结合，并将自动编码器与图神经网络相结合，提高了对学术论文分类的精度，从而实现了数字图书馆中对论文与论文作者的高效匹配。

Description

一种基于多视图多层注意力的面向学术论文的分类方法

技术领域

本发明涉及深度学习领域、图神经网络领域和多层注意力的应用，具体发明是一种基于多视图多层注意力的面向学术论文的分类方法。

背景技术

在真实世界中网络无处不在，如社交关系网络、学术论文合作网络和根据用户喜好进行商品推荐的推荐网络等。如希望对真实世界中的网络进行分析，则需将网络转化为图，才可以进行后续任务。图神经网络中的图卷积网络是一种用于学习图结构的神经网络，在许多领域都有应用，如购物网站的推荐系统、蛋白质结构分析时使用的图分类、短视频网站对在线用户进行分类时使用的链路预测和节点分类等。现实世界的节点关系通常较为复杂，由大量类型不同，但又彼此相连的关系组成，如果仅仅用一种关系图表示，则会造成节点关系信息的损失，从而影响神经网络的学习效果。相比于一种关系图，多种关系图更能准确的表现现实世界中节点之间的关系。多视图是包含多种节点关系的图，使用多视图可以保证模型在建模时保留更全面的节点信息，从而学到更完整的节点关系。如图1 所示，图中节点为论文，节点之间包含三种关系：共同作者、共同参会和公用关键词。在单视图中，节点之间只会存在一种关系，而在使用多视图的情况下，节点之间可以同时包含以上三种关系。然而，当模型同时包含多种节点关系时，如何保证模型以最优权重对不同节点关系进行融合，以便后续工作能够更有效率地进行呢？

现有研究GCN的工作已经取得了较好的成果，但大多数工作仅使用单视图对节点之间的关系进行描述，即在模型中仅包含了节点之间的一种关系。单视图有易于理解、神经网络模型便于设计等众多优点，但是却很难准确地捕捉节点之间的关系。而准确地捕捉节点之间的关系，在对消息传递的有效性和对问题的解决可以起到至关重要的作用。而如何更好地利用真实世界中的多种节点关系来更准确地学得节点表示成为了待解决的重要问题。由于来自不同视图的关系对同一节点的影响是不同的，实际情况下要对不同视图分配不同权重。例如，参加同一个会议的两篇论文之间存在一定关联，但是这种关联可能不如同时使用同一关键词的两篇论文紧密。所以如果对所有视图以及每个视图中的所有节点均赋予相同权重，便会对最终的预测结果产生负面影响，也会削弱多视图所提供信息的意义。同时，在图神经网络的训练过程中，如果网络层数较多，就会引起过平滑问题。即在图神经网络的训练过程中，随着网络层数的增加和迭代次数的增加，每个节点的隐层表征会趋向于收敛到同一个值，最终导致训练效果下降。

随着图神经网络的蓬勃发展，相关领域的研究也逐渐深入，但已有方案依然存在一些局限性。1)现有方案缺乏一种能够充分捕获节点之间多种关系的模块，来自不同关系的相同节点只是简单地拼接，导致模型中节点信息冗余或节点信息不足；2)现有方案中少有能够有效融合多种节点关系的机制，已有的融合方法也不够准确；3)现有方案输入部分和GCN训练部分缺少连接，阻碍了不同模块之间的协商，导致分类性能不理想。

针对上述三个方面局限性，本发明提出以下三点改进。1)模型在输入部分包含了多种节点关系，因此更全面捕获节点之间关系的能力得到了提高。2)通过使用多层注意力模块，模型做到了为单视图内的不同节点和多个视图之间分别分配不同的权重，从而可以学习到节点的最优表示。3)自动编码器模块将自动编码器中每一层捕获到的潜在信息传入对应的GCN卷积层中，保证GCN中每一层学习到的不仅是结构信息，也学到了数据本身有用的表示，同时缓解了GCN 过平滑的问题，进一步提升节点的分类效果。

发明内容

本发明提出了一种基于多视图多层注意力的面向学术论文的分类方法。在保证发明充分捕获论文节点特征的基础上，利用多层注意力技术，充分挖掘不同关系图对论文节点分类的影响，最后通过将自动编码器整合进图卷积网络中来避免出现的过平滑问题，从而进一步提升分类精度。具体而言，发明内容可分为四个部分进行说明，第一步：在多视图模块中，引入多视图输出保证方法可以全面地提取节点特征；第二步：在自动编码器模块中，使用自动编码器学习准确的数据表示并减缓过平滑问题；第三步：在多层注意力模块中，利用多层注意力融合多视图信息并得到数据的最优表示；第四步：利用Hilbert-Schmidt Independence Criterion学习不同视图之间尽可能独立的表示，同时利用相似性矩阵学习不同视图之间的相似性表示。

基于上述步骤，本发明的具体过程如下：

步骤1：设计能够学到更准确的节点表示的多视图输入模块

(1)构建特征矩阵X：从论文数据集中提取出论文名、论文关键词以及论文发表年份和发表期刊作为节点特征。然后，利用节点特征构建节点特征矩阵X，因为数据集中存在4000个节点，则X为4000*4000维由0或1构成的矩阵，矩阵内容先由程序随机输出0或1，然后通过模型训练算法学习最佳节点特征，学习最佳节点特征的方法为通过最小化步骤4中损失函数来实现。x_i∈X代表在特征矩阵X中第i个节点的特征向量。

(2)构建节点特征矩阵A_k，具体为：

①利用节点特征矩阵X来计算节点i和节点j S_ij。

其中，x_i和x_j是节点i和节点j的特征向量。|x_i|与|x_j|为这两个向量的模，即仅代表此向量的长度，不包括方向和位置信息。

②根据节点之间的相似矩阵S_ij来计算节点之间是否存在联系，从而构建出基于节点特征的k近邻图作为特征矩阵A_k，计算方法为在数据集中找出与节点i最相近的k个节点，作为与节点i有联系的节点。

(3)构建节点关系矩阵：多视图的关系矩阵表示为A_m。A为由0和1组成的矩阵，代表数据集中每个节点之间的关系，如视图中节点i与节点j存在联系，则在此视图的矩阵中，第i行第j列的数值为1；如视图中节点i与节点j不存在联系，则在此视图的矩阵中，第i行第j列的数值为0。m为视图的个数，在论文数据集中，节点为论文，节点之间存在的3种关系分别为：两篇论文共同参会，用 A₁表示；两篇论文使用同一关键词，用A₂表示；两篇论文存在共同作者，用A₃表示，A₁,A₂,A₃分别为独立的矩阵。

(4)单视图卷积：在卷积模块中，输入分别由特征矩阵X、节点特征矩阵A_k、节点关系矩阵A_m组成。第1个输入为节点特征图G_k＝(A_k,X)，第2个以后的输入为节点关系图G_m＝(A_m,X)，每一个输入都配备一个专属的卷积模块，单视图卷积模块的输出分别为Z_k和Z_m。在论文数据集中，节点为论文，节点之间存在的3种关系分别用A₁,A₂,A₃表示，则G_m分别为G₁,G₂,G₃，Z_m分别为Z₁,Z₂,Z₃。卷积的第l层的输出可以表示为：

其中，W^(l)为GCN第l层的权重矩阵，权重矩阵为独立的矩阵，先由程序随机给出权重矩阵中的数值，然后通过模型训练算法学习最佳的权重值，学习最佳权重值的方法通过最小化步骤4中损失函数来实现，初始的Z即Z⁽⁰⁾＝X，I为单位矩阵，/>为/>的对角矩阵，/>为/>的对角矩阵，ReLU为本公式使用到的激活函数，ReLU＝max(0,x)。

(5)多视图卷积：多视图卷积模块的输出为Z_c，其中第l层的卷积输出为：

其中，W^(l)为第l层GCN的权重矩阵，权重矩阵为独立的矩阵，先由程序随机给出权重矩阵中的数值，然后通过模型训练算法学习最佳的权重值，学习最佳权重值的方法通过最小化步骤4中损失函数来实现，初始的Z即Z⁽⁰⁾＝X， A为将A_k与A_m拼接之后得到的向量，/>是/>的对角矩阵，ReLU为本公式使用到的激活函数，ReLU＝max(0,x)。

步骤2：设计能够减缓过平滑问题的自动编码器模块

(1)使用自动编码器提取节点表示，在自动编码器中第l层学到的表示为

其中，W_e ^(l)为自动编码器中第l层的权重矩阵，为自动编码器中第l层的偏差，权重矩阵和偏差为独立的矩阵，先由程序随机给出数值，然后通过模型训练算法学习最佳的权重值与偏差值，学习最佳权重值与偏差值的方法通过最小化步骤4中损失函数来实现，为特征矩阵X，ReLU为本公式使用到的激活函数，ReLU＝max(0,x)。

(2)使用自动解码器还原节点表示，在自动解码器中第l层学到的表示为

其中，为自动编码器中第l层的权重矩阵，/>为自动编码器中第l层的偏差，权重矩阵和偏差为独立的矩阵，先由程序随机给出数值，然后通过模型训练算法学习最佳的权重值与偏差值，学习最佳权重值与偏差值的方法通过最小化步骤4中损失函数来实现，为/>ReLU为本公式使用到的激活函数， ReLU＝max(0,x)。

(3)将节点表示传入GCN模块，因为自动编码器学习到的表示可以重构数据本身，并且包含不同的有价值的信息。所以将两种表示结合起来，用/>表示：

其中，为特征矩阵X在GCN中第l层的表示，/>为在自动编码器中第l层学到的表示。通过这种方式，便可以将自动编码器和GCN逐层连接起来。

步骤3：设计能够融合多视图信息的多层注意力模块

(1)构建单视图内的注意力层，具体为：

①利用自注意力机制来学习各个节点之间的权重。在同一视图中，给定一对节点(i,j)，可以计算出节点j对与节点i的重要程度。并得到同视图内中心节点与邻居节点间的重要性：

公式中，α_ij为节点j对与节点i的重要程度系数；x_i,x_j,x_k分别为节点i,j,k的节点特征；k∈N为与节点i相连的N个邻居节点中，逐一将所有邻居节点的影响相加；||表示连接操作，及将两个特征向量拼接到一起，向量维数会随之增加；a^T为神经网络链接层与层之间的权重矩阵的转置矩阵，先由程序随机给出数值，然后通过模型训练算法学习最佳的权重矩阵，学习最佳权重矩阵通过最小化步骤4 中损失函数来实现；LeakyReLU为本公式使用到的激活函数，LeakyReLU＝ max(0.2x,x)。

②重复以上单视图注意力层K次，将学习到的嵌入连接为特定视图的嵌入。

并将学到的节点嵌入与节点特征矩阵进行拼接。

公式中，z_i为学习到的节点i的嵌入；α_ij为节点j对与节点i的重要程度系数； x_j为节点j的节点特征；为多头注意力当中的机制，即设置K个函数，每个函数都能计算出不同的注意力系数，并计算出一组加权求和用的系数，最后将多个结果连接在一起，得到卷积的结果；Sigmoid为本公式使用到的激活函数，数学形式为/>

(2)构建多视图之间的注意力层，具体为：

①将上一步GCN的输出作为此步输入，即输入为单视图图卷积Z_k,Z_m和多视图卷积Z_c，不同权重为互相独立的数字。对于节点i，在同一视图内，对节点嵌入进行非线性变换，然后使用如下公式来计算注意力权重。

公式中，分别为不同视图下的注意力权重；W_k,W_m,W_c为不同视图的相互独立的权重矩阵，先由程序随机给出权重矩阵中的数值，然后通过模型训练算法学习最佳的权重值，学习最佳权重值的方法通过最小化步骤4中损失函数来实现；b是偏差向量；q为注意力向量，用来测量节点嵌入/>的重要性；/>为在卷积输出矩阵Z_k,Z_m和Z_c中，第i行向量，代表第i个节点的节点特征；上角标T为对矩阵进行转置运算。

②对进行归一化，得到节点i的最终权重。

公式中，分别为节点i在不同视图中的最终注意力权重；/>分别为节点i在不同视图下的注意力权重。

③将三种嵌入相结合，得到最终的嵌入。其中越大代表此视图越重要。

Z＝α_k·Z_k+α_m·Z_m+α_c·Z_c

公式中，Z_k，Z_m，Z_c为卷积层的输出；α_k，α_m，α_c为每种视图中的注意力权重； Z为最终输出的节点嵌入。

步骤4：设计损失函数

(1)尽可能使卷积学习到不同的节点表示，即增加Z_k，Z_m，Z_c之间的不同。公式为：

HSIC(Z_k，Z_m)＝(n-1)^-2tr(RK_kRK_m)

HSIC(Z_k，Z_c)＝(n-1)^-2tr(RK_kRK_c)

HSIC(Z_c，Z_m)＝(n-1)^-2tr(RK_cRK_m)

公式中，HSIC为希尔伯特施密特独立性准则，主要目的是衡量两个变量之间的差异；K_k，K_m，K_c是格拉姆矩阵，此处的格拉姆矩阵是由两个向量经过内积运算所组成的矩阵，体现了两个向量的关系，需经过内积运算的向量分别为n为步骤 1中构建节点特征矩阵时节点邻居节点的数量，I是单位矩阵且e是全为1的列向量。

最终单视图的损失函数为L_s：

L_s＝HSIC(Z_k，Z_m)+HSIC(Z_k，Z_c)+HSIC(Z_c，Z_m)

(2)因为模型希望两个相似性矩阵尽可能相似，多视图损失函数为L_m：

L_m＝||S_k-S_m||²+||S_k-S_c||²+||S_c-S_m||²

公式中，S为节点之间的相似度，计算方法为：其中Z_nor为卷积输出Z经过L2归一化之后的矩阵；‖S_k-S_m‖²目的为最小化两个矩阵之间的差异。

(3)考虑到解码器的输出是对原始数据进行重构，故重构损失函数为L_res：

公式中，X为原始的特征矩阵；为经过自动解码器还原的特征矩阵即步骤2 中的的目的为最小化经过还原的矩阵与原始输入的矩阵之间的差异。

(4)对未知节点属于哪一类进行预测，预测结果为

公式中，softmax为分类函数，用于多分类过程中，它将多个神经元的输出，映射到(0,1)区间内，从而来进行多分类是所有类的规范化；W为步骤1中计算出的权重矩阵；b为步骤1中计算出的偏差向量；Z为步骤3计算出的节点最终嵌入矩阵。

接下来，预测损失为：

公式中，节点真实标签是Y；预测标签是为对数据集中每一个视图，以及每个视图中每个节点都分类别进行标签的预测，最终使预测误差尽可能小。

(5)最终损失函数为L：

L＝L_t+0.01L_m+0.001L_s+0.001L_res

公式中，L_t为预测损失；L_m为多视图损失；L_s为单视图损失；L_res为重构损失。

本发明基于多视图多层注意力技术，以学术论文为节点进行节点分类。方法使用论文关键词作为节点特征，使用论文共同参会关系，共同发文关系以及共现关键词关系等多种关系作为输入。使用多层注意力来学得节点的最优表示。并引入自动编码器来缓解图卷积网络带来的过平滑现象。本方法3个数据集(ACM、DBLP、IMDB)中都取得了较好的结果，如表1所示。特别对于准确率来说，模型对数据集ACM和数据集IMDB进行分类任务时，与其他方法对比，至少实现了3％和2.5％的显著改善。而在F1分数上，模型也有1.5％的平均提升。基于以上，本发明对以学术论文为节点的节点分类有较好的效果。

表1：节点分类结果(％)

附图说明

图1是节点关系图。

图2是网络结构图。

图3(a)为本发明的自动编码器对ACM数据集的影响

图3(b)为本发明的自动编码器对DBLP数据集的影响

图3(c)为本发明的自动编码器对IMDB数据集的影响

图4(a)为本发明的注意力层对ACM数据集的影响

图4(b)为本发明的注意力层对DBLP数据集的影响

图4(c)为本发明的注意力层对IMDB数据集的影响

图5(a)为本发明的不同视图对ACM数据集的影响

图5(b)为本发明的不同视图对DBLP数据集的影响

图5(c)为本发明的不同视图对IMDB数据集的影响

具体实施方式

以下将结合上述图例对本发明的基于多视图多层注意力的面向学术论文的分类方法作进一步详细描述。

步骤1：在多视图模块中，引入多视图保证全面的信息提取

本方法已在3个真实世界的数据集中进行验证，数据集中包含的多种节点关系的详细信息总结在表2中，3个数据集具体描述如下：

ACM：数据来自ACM论文数据库。节点为论文，节点特征为论文所用关键词组成的词袋，节点标签为论文所属类别：数据库、无线通信、数据挖掘。共包含三个节点关系图：共同作者(两篇论文包含同一作者)，共同参会(两篇论文共同参加同一会议)，共同关键词(两篇论文出现同一关键词)。

DBLP：数据来自DBLP论文数据库。节点为论文作者，节点特征为作者使用过的关键词组成的词袋，节点标签为作者的研究方向：数据库、数据挖掘、机器学习、信息检索。共包含三个节点关系图：合著(两名作者合作发表同一篇论文)，共同参会(两名作者共同参加同一会议)，共同关键词(两名作者使用同一关键词)。

IMDB：数据来自IMDB电影介绍及评分网站。节点为电影，节点特征为电影情节介绍中包含的关键词组成的词袋，节点标签为电影类别：动作类、喜剧类、戏剧类。共包含两个节点关系图：合作演员(两部电影包含同一演员)，共同导演(两部电影包含同一导演)，共同年份(两部电影发行在同一年份)。

表2：数据集中包含的多种关系图总结

步骤2：在自动编码器模块中，使用自动编码器学习准确的数据表示并减缓过平滑问题

本部分说明了使用自动编码器减缓过平滑的必要性。在图3中，横坐标为训练的轮数，纵坐标为准确度和F1分数。这里对每个数据集分别做实验，图中展现了本发明在没有引入自动编码器的输出和引入自动编码器之后的模型输出。

可以看到在引入自动编码器之后，模型最优预测结果从第9轮左右变为了第14论左右，这是因为自动编码器的加入，减缓了模型的过平滑问题，使得每个节点的隐层表征不会过早趋向于收敛到同一个值。同时预测结果也有增强，这是因为自动编码器保证了模型不但可以学到节点之间的结构信息，也可以学到节点数据本身的关系。从而证明了自动编码器模块的有效性。

步骤3：在多层注意力模块中，利用多层注意力融合多视图信息并得到数据的最优表示

本此处对不同层注意力的作用进行研究，如图4所示，分别为单视图内的注意力机制和多视图间的注意力机制。

首先仅使用单视图内的注意力SVA，不使用多视图间的注意力。接下来仅使用多视图间的注意力MVA，不使用单视图内的注意力。最终使用完整的多层注意力机制MVMA。可以看到SVA和MVA在对节点预测的准确度和F1分数上都不及MVMA。这是因为节点与节点之间的影响力不同，同时不同视图对预测结果的影响也不相同，如果简单的将所有视图和所有节点均分配相同权重，将导致模型性能下降。

举例来说，在ACM数据集中，每一个节点都是一篇论文，有些论文作者更愿意与之前没有过合作历史的作者合作，而有些作者却更倾向于和已经有过多次合作历史的作者合作，这导致了对于这两种作者发表的论文来说，不同的邻居节点对这两种作者的影响是不同的。同时，在IMDB数据集中，有些演员更倾向于和固定的导演和演员合作，拍摄多种类型的电影。而有些演员则更倾向于拍摄同一种类型的电影，但是却倾向于与之前没有过合作历史的演员合作。以上两个例子就说明了，不仅要考虑在同一视图中，不同节点对预测结点的影响，还要考虑不同视图对节点的影响。而多层注意力模块对不同视图分配了不同的注意力权重，同时也对不同节点分配不同权重，证明了多层注意力模块的有效性。

步骤4：利用Hilbert-Schmidt Independence Criterion学习不同视图之间尽可能独立的表示，同时利用相似性矩阵学习不同视图之间的相似性表示

本部分分析了发明添加多种视图的必要性。使用三个数据集分别验证多视图的有效性，在每个数据集中，先后使用每一个视图单独作为模型的输入，并得到模型分类结果，并与同时输入所有视图的结果进行对比，如图5所示。

以数据集ACM为例，输入共包含三个视图：共同参会，共同关键词和共同作者。将这三个视图分别作为模型输入，并将模型的准确度和F1分数输出。可以看到不同视图对结果影响不同，但最终将单视图作为输入的准确度和F1分数均低于将多视图作为输入的准确度和F1分数。

这是因为不同视图包含的信息的丰富程度不同，包含信息较丰富的视图对结果的积极影响较大，而信息不丰富的视图对结果影响较小甚至会对节点预测产生干扰。如ACM数据集中的共同参会视图、DBLP中的共同参会视图和IMDB中的共同发行年份视图，包含信息较少，故仅仅用以上视图作为模型输入时，会得到较差的预测结果。但是不能简单删除这部分信息密度较低的视图，因为面对众多数据集，会包含众多领域，对涉及领域不了解的人很难区分视图的信息密度高与低。并且有些视图虽然信息密度低，但是却依然会对模型的预测结果产生积极影响，故依然需要多视图模型将尽可能多的视图作为模型的输入。从而证明了多视图的必要性。

Claims

1.一种基于多视图多层注意力的面向学术论文的分类方法，其特征在于包括以下步骤：

步骤1：设计能够学到更准确的节点表示的多视图输入模块

(1)构建特征矩阵X：从论文数据集中提取出论文名、论文关键词以及论文发表年份和发表期刊作为节点特征；然后，利用节点特征构建节点特征矩阵X，因为数据集中存在4000个节点，则X为4000*4000维由0或1构成的矩阵，矩阵内容先由程序随机输出0或1，然后通过模型训练算法学习最佳节点特征，学习最佳节点特征的方法为通过最小化步骤4中损失函数来实现；x_i∈X代表在特征矩阵X中第i个节点的特征向量；

(2)构建节点特征矩阵A_k，具体为：

①利用节点特征矩阵X来计算节点i和节点j的相似矩阵S_ij；

其中，x_i和x_j是节点i和节点j的特征向量；|x_i|与|x_j|为这两个向量的模，即仅代表此向量的长度，不包括方向和位置信息；

②根据节点之间的相似矩阵S_ij来计算节点之间是否存在联系，从而构建出基于节点特征的k近邻图作为特征矩阵A_k，计算方法为在数据集中找出与节点i最相近的k个节点，作为与节点i有联系的节点；

(3)构建节点关系矩阵：多视图的关系矩阵表示为A_m；A为由0和1组成的矩阵，代表数据集中每个节点之间的关系，视图中节点i与节点j存在联系，则在此视图的矩阵中，第i行第j列的数值为1；视图中节点i与节点j不存在联系，则在此视图的矩阵中，第i行第j列的数值为0；m为视图的个数，在论文数据集中，节点为论文，节点之间存在的3种关系分别为：两篇论文共同参会，用A₁表示；两篇论文使用同一关键词，用A₂表示；两篇论文存在共同作者，用A₃表示，A₁，A₂，A₃分别为独立的矩阵；

(4)单视图卷积：在卷积模块中，输入分别由特征矩阵X、节点特征矩阵A_k、节点关系矩阵A_m组成；第1个输入为节点特征图G_k＝(A_k，X)，第2个以后的输入为节点关系图G_m＝(A_m，X)，每一个输入都配备一个专属的卷积模块，单视图卷积模块的输出分别为Z_k和Z_m；在论文数据集中，节点为论文，节点之间存在的3种关系分别用A₁，A₂，A₃表示，则G_m分别为G₁，G₂，G₃，Z_m分别为Z₁，Z₂，Z₃；卷积的第l层的输出可以表示为：

其中，W^(l)为GCN第l层的权重矩阵，权重矩阵为独立的矩阵，先由程序随机给出权重矩阵中的数值，然后通过模型训练算法学习最佳的权重值，学习最佳权重值的方法通过最小化步骤4中损失函数来实现，初始的Z即Z⁽⁰⁾＝X，I为单位矩阵/>为/>的对角矩阵，/>为/>的对角矩阵，ReLU为本公式使用到的激活函数，ReLU＝max(0，x)；

其中，W^(l)为第l层GCN的权重矩阵，权重矩阵为独立的矩阵，先由程序随机给出权重矩阵中的数值，然后通过模型训练算法学习最佳的权重值，学习最佳权重值的方法通过最小化步骤4中损失函数来实现，初始的Z即Z⁽⁰⁾＝X，A为将A_k与A_m拼接之后得到的向量，/>是/>的对角矩阵，ReLU为本公式使用到的激活函数，ReLU＝max(0，x)；

步骤2：设计能够减缓过平滑问题的自动编码器模块

其中，为自动编码器中第l层的权重矩阵，/>为自动编码器中第l层的偏差，权重矩阵和偏差为独立的矩阵，先由程序随机给出数值，然后通过模型训练算法学习最佳的权重值与偏差值，学习最佳权重值与偏差值的方法通过最小化步骤4中损失函数来实现，/>为特征矩阵X，ReLU为本公式使用到的激活函数，ReLU＝max(0，x)；

其中，为自动编码器中第l层的权重矩阵，/>为自动编码器中第l层的偏差，权重矩阵和偏差为独立的矩阵，先由程序随机给出数值，然后通过模型训练算法学习最佳的权重值与偏差值，学习最佳权重值与偏差值的方法通过最小化步骤4中损失函数来实现，/>为ReLU为本公式使用到的激活函数，ReLU＝max(0，x)；

(3)将节点表示传入GCN模块，因为自动编码器学习到的表示可以重构数据本身，并且包含不同的有价值的信息；所以将两种表示结合起来，用/>表示：

其中，为特征矩阵X在GCN中第l层的表示，/>为在自动编码器中第l层学到的表示；通过这种方式，将自动编码器和GCN逐层连接起来；

步骤3：设计能够融合多视图信息的多层注意力模块

(1)构建单视图内的注意力层，具体为：

①利用自注意力机制来学习各个节点之间的权重；在同一视图中，给定一对节点i，j，可以计算出节点j对于节点i的重要程度系数；并得到同视图内中心节点与邻居节点间的重要性：

公式中，α_ij为节点j对于节点i的重要程度系数；x_i，x_j，x_k分别为节点i，j，k的节点特征；k∈N为与节点i相连的N个邻居节点中，逐一将所有邻居节点的影响相加；||表示连接操作，及将两个特征向量拼接到一起，向量维数会随之增加；a^T为神经网络链接层与层之间的权重矩阵的转置矩阵，先由程序随机给出数值，然后通过模型训练算法学习最佳的权重矩阵，学习最佳权重矩阵通过最小化步骤4中损失函数来实现；LeakyReLU为本公式使用到的激活函数，LeakyReLU＝max(0.2x，x)；

②重复以上单视图注意力层K次，将学习到的嵌入连接为特定视图的嵌入；并将学到的节点嵌入与节点特征矩阵进行拼接；

公式中，z_i为学习到的节点i的嵌入；α_ij为节点j对于节点i的重要程度系数；x_j为节点j的节点特征；为多头注意力当中的机制，即设置K个函数，每个函数都能计算出不同的注意力系数，并计算出一组加权求和用的系数，最后将多个结果连接在一起，得到卷积的结果；Sigmoid为本公式使用到的激活函数，数学形式为/>

(2)构建多视图之间的注意力层，具体为：

①将上一步GCN的输出作为此步输入，即输入为单视图图卷积Z_k，Z_m和多视图卷积Z_c，不同权重为互相独立的数字；对于节点i，在同一视图内，对节点嵌入进行非线性变换，然后使用如下公式来计算注意力权重；

公式中，分别为不同视图下的注意力权重；W_k，W_m，W_c为不同视图的相互独立的权重矩阵，先由程序随机给出权重矩阵中的数值，然后通过模型训练算法学习最佳的权重值，学习最佳权重值的方法通过最小化步骤4中损失函数来实现；b是偏差向量；q为注意力向量，用来测量节点嵌入/>的重要性；/>为在卷积输出矩阵Z_k，Z_m和Z_c中，第i行向量，代表第i个节点的节点特征；上角标T为对矩阵进行转置运算；

②对进行归一化，得到节点i的最终权重；

公式中，分别为节点i在不同视图中的最终注意力权重；/>分别为节点i 在不同视图下的注意力权重；

③将三种嵌入相结合，得到最终的嵌入；其中越大代表此视图越重要；

Z＝α_k·Z_k+α_m·Z_m+α_c·Z_c

公式中，Z_k，Z_m，Z_c为卷积层的输出；α_k，α_m，α_c为每种视图中的注意力权重；Z为最终输出的节点嵌入；

步骤4：设计损失函数

(1)尽可能使卷积学习到不同的节点表示，即增加Z_k，Z_m，Z_c之间的不同；公式为：

HSIC(Z_k，Z_m)＝(n-1)^-2tr(RK_kRK_m)

HSIC(Z_k，Z_c)＝(n-1)^-2tr(RK_kRK_c)

HSIC(Z_c，Z_m)＝(n-1)^-2tr(RK_cRK_m)

公式中，HSIC为希尔伯特施密特独立性准则，主要目的是衡量两个变量之间的差异；K_k，K_m，K_c是格拉姆矩阵，此处的格拉姆矩阵是由两个向量经过内积运算所组成的矩阵，体现了两个向量的关系，需经过内积运算的向量分别为n为步骤1中构建节点特征矩阵时节点邻居节点的数量，I是单位矩阵且e是全为1的列向量；

最终单视图的损失函数为L_s：

L_s＝HSIC(Z_k，Z_m)+HSIC(Z_k，Z_c)+HSIC(Z_c，Z_m)

L_m＝||S_k-S_m||²+||S_k-S_c||²+||S_c-S_m||²

公式中，S为节点之间的相似度，计算方法为：其中Z_nor为卷积输出Z经过L2归一化之后的矩阵；||S_k-S_m||²目的为最小化两个矩阵之间的差异；

公式中，X为原始的特征矩阵；为经过自动解码器还原的特征矩阵即步骤2中的/> 的目的为最小化经过还原的矩阵与原始输入的矩阵之间的差异；

(4)对未知节点属于哪一类进行预测，预测结果为

公式中，softmax为分类函数，用于多分类过程中，它将多个神经元的输出，映射到(0，1)区间内，从而来进行多分类是所有类的规范化；W为步骤1中计算出的权重矩阵；b为步骤1中计算出的偏差向量；Z为步骤3计算出的节点最终嵌入矩阵；

接下来，预测损失为：

公式中，节点真实标签是Y；预测标签是为对数据集中每一个视图，以及每个视图中每个节点都分类别进行标签的预测，最终使预测误差尽可能小；

(5)最终损失函数为L：

L＝L_t+0.01L_m+0.001L_s+0.001L_res