CN111046907A - 一种基于多头注意力机制的半监督卷积网络嵌入方法 - Google Patents

一种基于多头注意力机制的半监督卷积网络嵌入方法 Download PDF

Info

Publication number
CN111046907A
CN111046907A CN201911062490.7A CN201911062490A CN111046907A CN 111046907 A CN111046907 A CN 111046907A CN 201911062490 A CN201911062490 A CN 201911062490A CN 111046907 A CN111046907 A CN 111046907A
Authority
CN
China
Prior art keywords
node
encoder
network
information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911062490.7A
Other languages
English (en)
Other versions
CN111046907B (zh
Inventor
王旭强
张旭
杨青
刘红昌
刘乙召
田雨婷
郑阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911062490.7A priority Critical patent/CN111046907B/zh
Publication of CN111046907A publication Critical patent/CN111046907A/zh
Application granted granted Critical
Publication of CN111046907B publication Critical patent/CN111046907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多头注意力机制的半监督卷积网络嵌入方法,包括:步骤1,输入节点文本内容,使用词向量查询的方法初始化每个词的语义表示;步骤2,构造节点文本编码器,所述节点文本编码器包括位置编码器、多头注意力机制和前馈神经网络位置编码器,节点文本编码器的输出为节点的文本向量表示,其输出为uT;步骤3,构造节点结构编码器,使用多层图卷积神经网络编码网络结构信息;步骤4,在半监督学习的框架下,将带标签节点的标签信息引入网络嵌入,将标签匹配损失与相似度损失联合优化得到最终的节点表示向量uR。该方法能更好地捕捉和融合网络的结构信息和外部信息。

Description

一种基于多头注意力机制的半监督卷积网络嵌入方法
技术领域
本发明涉及一种基于多头注意力机制的半监督卷积网络嵌入方法。
背景技术
随着信息技术的发展,互联网中积累了大量网络结构的数据。对这些网络结构数据的分析对各行业的发展具有重要意义,对网络的研究已成为重要的热点问题。网络嵌入已经成为网络分析的一种范式,引起了研究者的广泛关注。其目的是综合利用网络中的特征信息,将网络中的每个节点映射到一个低维向量空间,得到节点的低维向量表示。在得到网络节点的表示向量后,可将其输入已有的算法来完成节点分类、聚类、链接预测等下游任务。例如对城市间交通网络进行链接预测分析,可用于规划城际交通线路。另外,网络结构数据往往具有大量外部信息,例如节点的文本信息与节点标签信息。目前也存在许多融合文本信息的网络嵌入方法,但这些方法一般对文本信息与网络结构信息分别建模,最终简单地拼接两个表示向量得到最终的表示,这导致两种模态的信息难以有机地整合。此外,这些方法使用循环神经网络作为编码器。但是,循环神经网络本身的序列依赖导致其无法实现大规模并行计算。节点标签是另一个重要的外部信息,充分利用标签信息将进一步增强节点向量的表示能力。但现实中,并非所有网络节点都被标记,合理利用标记节点和未标记节点对网络嵌入过程具有重要意义。
网络嵌入是一种新兴的网络分析范式,其目标是学习低维节点表示。传统的网络嵌入算法通常将网络表示为图,并使用数据点的特征向量构建关联图,例如数据的k近邻图。由此,利用关联图可以将数据点嵌入到低维空间中,得到节点的向量表示。基于该思想,大量的网络嵌入方法被提出。然而,这些算法通常依赖于求解邻接矩阵的特征向量,其复杂度至少是节点数的平方,由此导致效率低下,并且难以应用于大规模网络。
近年来,网络嵌入逐渐成为了一个热门的研究课题。DeepWalk(Perozzi B,Al-Rfou R,Skiena S.Deepwalk:Online Learning of Social Representations[C].The20th KDD,New York,USA,August 24-27,2014:701-710.)是第一种将深度学习引入网络嵌入的方法。作为一种基于网络拓扑结构的方法,它在网络上执行截断的随机游走,并使用Skip-Gram(Mikolov T,Sutskever I,Chen K,et al.Distributed Representations ofWords and Phrases and Their Compositionality[C].The 27th NIPS,Lake Tahoe,USA,December 5-10,2014:3111-3119.)学习节点嵌入。Grover等人(Grover A,LeskovecJ.node2vec:Scalable Feature Learning for Networks[C].The 22nd KDD,SanFrancisco,USA,August 13-17,2016:855-864.)提出的Node2Vec对原始的DeepWalk进行改进,通过一个有偏的随机游走来平衡深度优先与广度优先。针对大规模的网络,Tang等人(Tang J,Qu M,Wang M,et al.Line:Large-Scale Information Network Embedding[C].The 24th WWW,Florence,Italy,May 18-22,2015:1067-1077)提出的LINE引入一阶与二阶相似度,从而同时保留了局部与全局的网络结构信息。除了网络的拓扑结构外,节点通常与其自身的属性信息紧密相关,例如文本内容,节点标签等。为了进一步考虑节点的属性信息,Yang等人(Yang C,Liu Z,Zhao D,et al.Network Representation Learning withRich Text Information[C].The 24th IJCAI,Buenos Aires,Argentina,July 25-31,2015:2111-2117.)提出了文本关联的DeepWalk模型(TADW),在矩阵分解框架下,将节点的内容引入到网络嵌入中。MMDW(Tu C,Zhang W,Liu Z,et al.Max-Margin Deepwalk:Discriminative Learning of Network Representation[C].The 25th IJCAI,New York,USA,July 09-15,2016:3889-3895.)考虑监督标签信息,同时学习网络表示和最大边缘分类器,将标签信息引入学习过程。
虽然现有的相关方法综合考虑了网络拓扑结构和节点属性信息,但是这些方法通常是对属性信息和拓扑结构分别建模,并对两部分表示进行简单拼接以得到最终的表示。
发明内容
针对现有技术中存在的问题,本发明提供一种基于多头注意力机制的半监督卷积网络嵌入方法,其利用多头注意力机制和图卷积神经网络,能充分融合网络拓扑结构、节点的文本内容以及节点的标签信息,进而得到表示性更强的节点向量。
为此,本发明的技术方案如下:
一种基于多头注意力机制的半监督卷积网络嵌入方法,包括顺序执行的下列步骤:
步骤1,输入节点文本内容,使用词向量查询的方法初始化每个词的语义表示;
步骤2,构造节点文本编码器,所述节点文本编码器包括位置编码器、多头注意力机制和前馈神经网络位置编码器,节点文本编码器的输出为节点的文本向量表示,其输出为uT
步骤3,构造节点结构编码器,使用多层图卷积神经网络编码网络结构信息;
步骤4,在半监督学习的框架下,将带标签节点的标签信息引入网络嵌入,将标签匹配损失与相似度损失联合优化得到最终的节点表示向量uR
其中,步骤1中所述的节点文本,其中节点u的文本信息表示为如下形式:
Tu=(xu1,xu2,…,xum) (1)
式中:xui为第i个词,以随机初始化的d维词向量表示,i=1-m,m为文本长度。
步骤2中,所述位置编码器位于所述节点文本编码器的底部,用于编码单词的相对位置信息,所述位置编码器形式如下:
Pu=(pu1,pu2,…,pum) (2)
其中pui∈Rm是独热向量,将所述将位置编码器与词向量矩阵进行拼接,得到多头注意力机制的输入,该输入包含词的相对位置关系:
Figure BDA0002258395360000031
其中:
Figure BDA0002258395360000032
表示拼接操作,xui表示节点u第i个词的词向量。
步骤2中,所述多头注意力机制用于使模型具备联合处理来自不同表示空间信息的能力,在第i个头,基于所述eu得到三个向量
Figure BDA0002258395360000033
Figure BDA0002258395360000034
Figure BDA0002258395360000035
其中
Figure BDA0002258395360000036
Figure BDA0002258395360000037
是三个全局的参数矩阵,dm表示第i个头的输入维度,dm=d+m=512;以h表示多头注意力机制中头的个数,则dk=dv=dm/h;R代表数域,
Figure BDA0002258395360000038
表示形状为dm*dk的矩阵。对于第i个头的注意力值,使用如下公式计算:
Figure BDA0002258395360000039
将多头注意力机制中所有头的输出拼接成一个向量,之后乘以权重矩阵Wo,得到多头注意力机制的输出结果,如下式:
Figure BDA00022583953600000310
其中
Figure BDA00022583953600000311
为一可训练的权重矩阵。
所述节点文本编码器的每一层均包含一个全连接的前馈神经网络FFN,所述前馈神经网络由两个使用ReLU的线性变换组成,如下所示:
Figure BDA00022583953600000312
其中,
Figure BDA00022583953600000313
Figure BDA00022583953600000314
是节点文本编码器第n层的前馈神经网络的可训练权重与偏差。
步骤3中,所述节点结构编码器使用多层图卷积神经网络编码网络结构信息,同时,节点结构编码器以节点文本信息编码器的输出作为节点结构信息编码器的输入,以此实现节点文本信息与网络结构信息的融合。
在通过节点文本编码器获得节点文本表示向量的基础上,使用图卷积神经网络来建模网络结构,以捕获任意尺度的结构信息,假设编码器由L层组成,第l层的集成过程表示为:
Figure BDA00022583953600000315
Figure BDA00022583953600000316
M=(E+I)D-1 (9)
Figure BDA00022583953600000317
其中:
Figure BDA0002258395360000041
分别是第l层图卷积神经网络的输入和输出向量;
k是向量的维度;
Figure BDA0002258395360000042
是ui的子网络
Figure BDA0002258395360000043
中所有节点的聚合表示;
E,I∈R|V|×|V|为信息网络的邻接矩阵和相同形状的单位矩阵,
对角矩阵D的目的在于对矩阵进行归一化处理,其元素aii=1+∑jeij;mji为公式(9)中对称矩阵M第j行i列的元素,表示邻居节点uj与中心节点ui的连接,
在第一层图卷积神经网络中,即l=1时,
Figure BDA0002258395360000044
步骤4所述的联合优化同时利用了带标签节点与无标签节点,对于无标签节点,其相似度损失函数由两部分组成:描述同边相连节点的文本内容相似度的Ltt,和节点结构编码器输出的表示向量的相似度Lss,通过α、β控制两部分权重,如以下公式所示:
Lunlabel(u)=αLss(u)+βLtt(u)
Figure BDA0002258395360000045
Figure BDA0002258395360000046
以上公式涉及的条件概率p定义为:
Figure BDA0002258395360000047
对于带标签节点,首先使用全连接层将节点表示映射到标签空间,得到节点标签的预测分布
Figure BDA0002258395360000048
并使用如下标签匹配损失实现最小化标签真实分布lu与预测分布的差别:
Figure BDA0002258395360000049
其中ul∈Ll,Ll为带标签节点的集合,Ω为正则化项,带标签节点的损失函数表示为:
Llabel(u)=αLss(u)+βLtt(u)-τLmatch(u)
其中,α,β,τ控制每部分的权重;
模型整体的损失函数为:
Figure BDA00022583953600000410
其中,Lu和Ll分别是无标签节点和带标签节点的集合;
优化这个损失函数最终得到综合了网络结构信息、节点文本信息与标签信息的节点表示。
本发明提供了一种基于多头注意力机制的半监督卷积网络嵌入方法,能更好地捕捉和融合网络的结构信息和外部信息。该方法首先以网络中的边作为样本,分别提取一条边上两个节点对应的子网络;其次,利用多头注意机制作文本编码器,对子网络中各节点的文本进行编码,得到各节点的文本表示向量,多头注意力机制能很好地解决文本的长距离依赖问题,同时可以并行计算;之后将各节点的文本表示向量作为可训练的节点特征输入图卷积神经网络,可以捕获任意尺度的结构信息;最后,以半监督学习的方式将标签信息引入节点表示。模型充分融合了网络的结构、文本与标签信息。
本发明的方法中,基于多头注意力机制学习网络节点的文本表示,使用卷积神经网络建模网络结构,同时在半监督的框架下引入节点标签信息,最终得到节点高质量的表示向量,提升了在下游任务(节点分类、链接预测)上的性能。
附图说明
图1是本发明方法涉及的系统组成示意图;
图2是本发明嵌入方法的流程图。
具体实施方式
下面结合附图对发明的基于多头注意力机制的半监督卷积网络嵌入方法进行详细说明。
参见图1,图中u、v为网络表示学习中常用的表示同边相连的节点的方式。本发明中涉及的数据主要为论文引用网络。网络节点的文本信息为论文的摘要或论文的标题。对于每篇论文的文本内容,将每个词初始化为词向量的形式,作为词的浅层语义表示。
本发明中所述的节点文本编码器包括:位置编码器、多头注意力机制、前馈神经网络三部分。对于词的浅层语义表示,首先使用位置编码器赋予其位置信息,再使用多头注意力机制进行注意力计算,将多头注意力机制中所有头的输出拼接成一个向量,输入一个全连接的前馈神经网络,得到文本的语义向量。
本发明中所述的节点结构编码器由多层堆叠的图卷积神经网络组成。在通过节点文本编码器获得节点文本表示向量的基础上,模型使用图卷积神经网络来建模网络结构,因为它可以捕获任意尺度的结构信息。所述节点结构编码器的输出向量融合了节点的文本信息与结构信息。
由于并非所有节点都具有标签,本发明对带标签节点与无标签节点分别设置不同的损失函数,使用半监督学习的方式引入节点标签信息。通过优化损失,得到综合了结构、文本、标签的节点表示向量。
本发明主要采用自然语言处理与网络嵌入相关的理论与方法对论文引用网络数据进行表示学习,为保证模型的训练与测试,要求所使用的计算机平台配备不低于8G的内存,CPU核心数不低于4个,并安装Python 3.6版本、TensorFlow框架等必备编程环境。
如图2所示,本发明提供的基于多头注意力机制的半监督卷积网络嵌入方法包括顺序执行的下列步骤:
步骤1,输入节点文本内容,使用词向量查询的方法初始化每个词的语义表示;
步骤2,构造节点文本编码器,所述节点文本编码器包括位置编码器、多头注意力机制和前馈神经网络位置编码器,节点文本编码器的输出为节点的文本向量表示,其输出为uT
步骤3,构造节点结构编码器,使用多层图卷积神经网络编码网络结构信息;
步骤4,在半监督学习的框架下,将带标签节点的标签信息引入网络嵌入,将标签匹配损失与相似度损失联合优化得到最终的节点表示向量uR
对于步骤1)所述的节点文本,其中节点u的文本信息可表示为如下形式:
Tu=(xu1,xu2,…,xum) (1)
式中:xui为第i个词,以随机初始化的d维词向量表示,i=1-m,m为文本长度。
步骤2中,为了保留输入文本中单词的相对位置信息,需在节点文本编码器得底部构造位置编码器编码单词的相对位置信息。位置编码器可形式化地表示为如下形式:
Pu=(pu1,pu2,…,pum) (2)
其中pui∈Rm是独热向量,将所述将位置编码器与词向量矩阵进行拼接,得到多头注意力机制的输入,这样的输入包含了词的相对位置关系。即:
Figure BDA0002258395360000061
其中:
Figure BDA0002258395360000062
表示拼接操作,xui表示节点u第i个词的词向量。
独热向量又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。
步骤2中,所述多头注意力机制使得模型具备联合处理来自不同表示空间信息的能力。在第i个头,需基于位置编码器的输出eu得到三个重要的向量:
Figure BDA0002258395360000063
Figure BDA0002258395360000064
计算公式如下:
Figure BDA0002258395360000065
其中
Figure BDA0002258395360000066
Figure BDA0002258395360000067
是三个全局的参数矩阵,dm表示第i个头的输入维度,本实施例中,dm=d+m=512。以h表示多头注意力机制中头的个数,则dk=dv=dm/h;R代表数域,
Figure BDA0002258395360000068
表示形状为dm*dk的矩阵。对于第i个头的注意力值,使用如下公式计算:
Figure BDA0002258395360000069
将多头注意力机制中所有头的输出拼接成一个向量,之后乘一个权重矩阵Wo,即可得到多头注意力机制的输出结果。如下公式所述:
Figure BDA0002258395360000071
其中
Figure BDA0002258395360000072
为一个可训练的权重矩阵。
除了多头注意力机制外,节点文本编码器的每一层都包含一个全连接的前馈网络FFN。前馈神经网络由两个使用ReLU的线性变换组成,如下所示:
Figure BDA0002258395360000073
其中,
Figure BDA0002258395360000074
Figure BDA0002258395360000075
是节点文本编码器第n层的前馈神经网络的可训练权重与偏差。
所述节点结构编码器使用多层图卷积神经网络编码网络结构信息。同时,节点结构编码器以节点文本信息编码器的输出作为节点结构信息编码器的输入,通过这种方式实现了节点文本信息与网络结构信息的融合。
首先给出节点结构编码器中涉及到的“子网络”的概念的定义及“子网络”的两个基本问题。节点u的子网络表示为sub_Gu,由u本身和它的相邻节点组成。称u为中心节点,其余节点为u节点的邻居节点。为保证模型训练时批次大小相同,本发明采样固定数量的邻居节点。在一个子网络中,中心节点与相邻节点的关系是对称的。在u的子网络sub_Gu中,邻居节点ui包含的信息应该向中心节点u聚合,而在ui的子网络中情况则相反;其次,同一个子网络中的邻居节点的排列通常是无序的。例如,在u的子网络sub_Gu中有三个邻居u1、u2、u3,其下标是任意的,并不能表示该子网络中邻居节点的优先级。
在通过节点文本编码器获得节点文本表示向量的基础上,模型使用图卷积神经网络来建模网络结构,因为它可以捕获任意尺度的结构信息。假设编码器由L层组成,第l层的集成过程可以表示为:
Figure BDA0002258395360000076
Figure BDA0002258395360000077
M=(E+I)D-1
Figure BDA0002258395360000078
其中
Figure BDA0002258395360000079
分别是第l层图卷积神经网络的输入和输出向量,k是向量的维度。
Figure BDA00022583953600000710
是ui的子网络
Figure BDA00022583953600000711
中所有节点的聚合表示。E,I∈R|V|×|V|为信息网络的邻接矩阵和相同形状的单位矩阵。对角矩阵D的目的在于对矩阵进行归一化处理,其元素aii=1+∑jeij。mji为公式(9)中对称矩阵M第j行i列的元素,表示邻居节点uj与中心节点ui的连接。在第一层图卷积神经网络中,即l=1时,
Figure BDA0002258395360000081
通过图卷积神经网络,模型可以很好地解决子网络的两个基本问题。对称矩阵M可以满足子网络中中心节点与邻居节点的对称连接关系。此外,
Figure BDA0002258395360000082
具有置换不变性,即改变邻居节点的顺序不会影响聚合过程。随着多层图卷积网络的叠加,每个节点递归地聚合来自每层子网络的信息,并将自己的信息扩散到相邻节点。
步骤2与步骤4的输出分别为uT和uR。uR即为节点的最终表示向量。
步骤4将模型以半监督学习的方式进行优化,同时利用了带标签节点与无标签节点。对于无标签节点,其损失函数由两部分组成,即描述同边相连节点的文本内容相似度的Ltt,和节点结构编码器输出的表示向量的相似度Lss。α,β控制两部分权重。如以下公式所示:
Lunlabel(u)=αLss(u)+βLtt(u)
Figure BDA0002258395360000083
Figure BDA0002258395360000084
以上公式涉及的条件概率p定义为:
Figure BDA0002258395360000085
对于带标签节点,首先使用全连接层将节点表示映射到标签空间,得到节点标签的预测分布
Figure BDA0002258395360000086
并使用如下标签匹配损失实现最小化标签真实分布lu与预测分布的差别:
Figure BDA0002258395360000087
其中ul∈Ll,Ll为带标签节点的集合,Ω为正则化项。带标签节点的损失函数可表示为:
Llabel(u)=αLss(u)+βLtt(u)-τLmatch(u)
其中,α,β,τ控制每部分的权重。
模型整体的损失函数为:
Figure BDA0002258395360000088
其中,Lu和Ll分别是无标签节点和带标签节点的集合。
优化这个损失函数最终可得到综合了网络结构信息、节点文本信息与标签信息的节点表示。

Claims (8)

1.一种基于多头注意力机制的半监督卷积网络嵌入方法,包括顺序执行的下列步骤:
步骤1,输入节点文本内容,使用词向量查询的方法初始化每个词的语义表示;
步骤2,构造节点文本编码器,所述节点文本编码器包括位置编码器、多头注意力机制和前馈神经网络位置编码器,节点文本编码器的输出为节点的文本向量表示,其输出为uT
步骤3,构造节点结构编码器,使用多层图卷积神经网络编码网络结构信息;
步骤4,在半监督学习的框架下,将带标签节点的标签信息引入网络嵌入,将标签匹配损失与相似度损失联合优化得到最终的节点表示向量uR
2.根据权利要求1所述的半监督卷积网络嵌入方法,其特征在于:
步骤1中所述的节点文本,其中节点u的文本信息表示为如下形式:
Tu=(xu1,xu2,…,xum) (1)
式中:xui为第i个词,以随机初始化的d维词向量表示,i=1-m,m为文本长度。
3.根据权利要求2所述的半监督卷积网络嵌入方法,其特征在于:步骤2中,所述位置编码器位于所述节点文本编码器的底部,用于编码单词的相对位置信息,所述位置编码器形式如下:
Pu=(pu1,pu2,…,pum) (2)
其中pui∈Rm是独热向量,将所述将位置编码器与词向量矩阵进行拼接,得到多头注意力机制的输入,该输入包含词的相对位置关系:
Figure FDA0002258395350000011
其中:
Figure FDA0002258395350000012
表示拼接操作,xui表示节点u第i个词的词向量。
4.根据权利要求3所述的半监督卷积网络嵌入方法,其特征在于:步骤2中,所述多头注意力机制用于使模型具备联合处理来自不同表示空间信息的能力,在第i个头,基于所述eu得到三个向量
Figure FDA0002258395350000013
Figure FDA0002258395350000014
Figure FDA0002258395350000015
其中
Figure FDA0002258395350000016
Figure FDA0002258395350000017
是三个全局的参数矩阵,dm表示第i个头的输入维度,dm=d+m=512;以h表示多头注意力机制中头的个数,则dk=dv=dm/h;R代表数域,
Figure FDA0002258395350000018
表示形状为dm*dk的矩阵。对于第i个头的注意力值,使用如下公式计算:
Figure FDA0002258395350000019
将多头注意力机制中所有头的输出拼接成一个向量,之后乘以权重矩阵Wo,得到多头注意力机制的输出结果,如下式:
Figure FDA00022583953500000110
其中
Figure FDA0002258395350000021
为一可训练的权重矩阵。
5.根据权利要求4所述的半监督卷积网络嵌入方法,其特征在于:所述节点文本编码器的每一层均包含一个全连接的前馈神经网络FFN,所述前馈神经网络由两个使用ReLU的线性变换组成,如下所示:
Figure FDA0002258395350000022
其中,
Figure FDA0002258395350000023
Figure FDA0002258395350000024
是节点文本编码器第n层的前馈神经网络的可训练权重与偏差。
6.根据权利要求5所述的半监督卷积网络嵌入方法,其特征在于:步骤3中,所述节点结构编码器使用多层图卷积神经网络编码网络结构信息,同时,节点结构编码器以节点文本信息编码器的输出作为节点结构信息编码器的输入,以此实现节点文本信息与网络结构信息的融合。
7.根据权利要求6所述的半监督卷积网络嵌入方法,其特征在于:在通过节点文本编码器获得节点文本表示向量的基础上,使用图卷积神经网络来建模网络结构,以捕获任意尺度的结构信息,假设编码器由L层组成,第l层的集成过程表示为:
Figure FDA0002258395350000025
Figure FDA0002258395350000026
M=(E+I)D-1 (9)
Figure FDA0002258395350000027
其中:
Figure FDA0002258395350000028
分别是第l层图卷积神经网络的输入和输出向量;
k是向量的维度;
Figure FDA0002258395350000029
是ui的子网络
Figure FDA00022583953500000210
中所有节点的聚合表示;
E,I∈R|V|×|V|为信息网络的邻接矩阵和相同形状的单位矩阵,
对角矩阵D的目的在于对矩阵进行归一化处理,其元素aii=1+∑jeij;mji为公式(9)中对称矩阵M第j行i列的元素,表示邻居节点uj与中心节点ui的连接,
在第一层图卷积神经网络中,即l=1时,
Figure FDA00022583953500000211
8.根据权利要求7所述的半监督卷积网络嵌入方法,其特征在于:步骤4所述的联合优化同时利用了带标签节点与无标签节点,
对于无标签节点,其相似度损失函数由两部分组成:描述同边相连节点的文本内容相似度的Ltt,和节点结构编码器输出的表示向量的相似度Lss,通过α、β控制两部分权重,如以下公式所示:
Lunlabel(u)=αLss(u)+βLtt(u)
Figure FDA0002258395350000031
Figure FDA0002258395350000032
以上公式涉及的条件概率p定义为:
Figure FDA0002258395350000033
对于带标签节点,首先使用全连接层将节点表示映射到标签空间,得到节点标签的预测分布
Figure FDA0002258395350000034
并使用如下标签匹配损失实现最小化标签真实分布lu与预测分布的差别:
Figure FDA0002258395350000035
其中ul∈Ll,Ll为带标签节点的集合,Ω为正则化项,
带标签节点的损失函数表示为:
Llabel(u)=αLss(u)+βLtt(u)-τLmatch(u)
其中,α,β,τ控制每部分的权重;
模型整体的损失函数为:
Figure FDA0002258395350000036
其中,Lu和Ll分别是无标签节点和带标签节点的集合;
优化这个损失函数最终得到综合了网络结构信息、节点文本信息与标签信息的节点表示。
CN201911062490.7A 2019-11-02 2019-11-02 一种基于多头注意力机制的半监督卷积网络嵌入方法 Active CN111046907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911062490.7A CN111046907B (zh) 2019-11-02 2019-11-02 一种基于多头注意力机制的半监督卷积网络嵌入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911062490.7A CN111046907B (zh) 2019-11-02 2019-11-02 一种基于多头注意力机制的半监督卷积网络嵌入方法

Publications (2)

Publication Number Publication Date
CN111046907A true CN111046907A (zh) 2020-04-21
CN111046907B CN111046907B (zh) 2023-10-27

Family

ID=70232786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911062490.7A Active CN111046907B (zh) 2019-11-02 2019-11-02 一种基于多头注意力机制的半监督卷积网络嵌入方法

Country Status (1)

Country Link
CN (1) CN111046907B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582409A (zh) * 2020-06-29 2020-08-25 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
CN111680217A (zh) * 2020-05-27 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及存储介质
CN111695260A (zh) * 2020-06-12 2020-09-22 上海大学 一种材料性能预测方法及系统
CN111695673A (zh) * 2020-05-09 2020-09-22 华为技术有限公司 训练神经网络预测器的方法、图像处理方法及装置
CN111721535A (zh) * 2020-06-23 2020-09-29 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN112132188A (zh) * 2020-08-31 2020-12-25 浙江工业大学 一种基于网络属性的电商用户分类方法
CN112329918A (zh) * 2020-10-28 2021-02-05 东南大学 一种基于注意力机制的对抗正则化网络嵌入方法
CN112560964A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN112651242A (zh) * 2021-01-20 2021-04-13 重庆大学 一种基于内外注意力机制和可变尺度卷积的文本分类方法
CN113157859A (zh) * 2021-04-06 2021-07-23 北京理工大学 一种基于上位概念信息的事件检测方法
CN113378913A (zh) * 2021-06-08 2021-09-10 电子科技大学 一种基于自监督学习的半监督节点分类方法
CN114661903A (zh) * 2022-03-03 2022-06-24 贵州大学 一种结合用户意图的深度半监督文本聚类方法、设备及介质
CN116092479A (zh) * 2023-04-07 2023-05-09 杭州东上智能科技有限公司 一种基于对比文本-音频对的文本韵律生成方法和系统
WO2024067779A1 (zh) * 2022-09-30 2024-04-04 华为技术有限公司 一种数据处理方法及相关装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108053035A (zh) * 2018-01-03 2018-05-18 清华大学 基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法
US20180189634A1 (en) * 2017-01-03 2018-07-05 International Business Machines Corporation Determining context-aware distances using deep neural networks
CN108399241A (zh) * 2018-02-28 2018-08-14 福州大学 一种基于多类特征融合的新兴热点话题检测系统
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
US20180300400A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Deep Reinforced Model for Abstractive Summarization
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN109726389A (zh) * 2018-11-13 2019-05-07 北京邮电大学 一种基于常识和推理的中文缺失代词补全方法
CN109743196A (zh) * 2018-12-13 2019-05-10 杭州电子科技大学 一种基于跨双层网络随机游走的网络表征方法
CN109977232A (zh) * 2019-03-06 2019-07-05 中南大学 一种基于力导图的图神经网络可视分析方法
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110163288A (zh) * 2019-05-24 2019-08-23 中森云链(成都)科技有限责任公司 一种基于网络节点广度与深度捕捉的社交网络用户群组分类方法
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110334339A (zh) * 2019-04-30 2019-10-15 华中科技大学 一种基于位置感知自注意力机制的序列标注模型与标注方法
WO2019204186A1 (en) * 2018-04-18 2019-10-24 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
CN110390017A (zh) * 2019-07-25 2019-10-29 中国民航大学 基于注意力门控卷积网络的目标情感分析方法及系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
US20180189634A1 (en) * 2017-01-03 2018-07-05 International Business Machines Corporation Determining context-aware distances using deep neural networks
US20180300400A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Deep Reinforced Model for Abstractive Summarization
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108053035A (zh) * 2018-01-03 2018-05-18 清华大学 基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法
CN108399241A (zh) * 2018-02-28 2018-08-14 福州大学 一种基于多类特征融合的新兴热点话题检测系统
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
WO2019204186A1 (en) * 2018-04-18 2019-10-24 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
CN109726389A (zh) * 2018-11-13 2019-05-07 北京邮电大学 一种基于常识和推理的中文缺失代词补全方法
CN109743196A (zh) * 2018-12-13 2019-05-10 杭州电子科技大学 一种基于跨双层网络随机游走的网络表征方法
CN109977232A (zh) * 2019-03-06 2019-07-05 中南大学 一种基于力导图的图神经网络可视分析方法
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110334339A (zh) * 2019-04-30 2019-10-15 华中科技大学 一种基于位置感知自注意力机制的序列标注模型与标注方法
CN110163288A (zh) * 2019-05-24 2019-08-23 中森云链(成都)科技有限责任公司 一种基于网络节点广度与深度捕捉的社交网络用户群组分类方法
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110390017A (zh) * 2019-07-25 2019-10-29 中国民航大学 基于注意力门控卷积网络的目标情感分析方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JIABAO GUO, GANG LIU, CAIQUAN XIONG: "Multiple Attention Networks with Temporal Convolution for Machine Reading Comprehension", 2019 IEEE 9TH INTERNATIONAL CONFERENCE ON ELECTRONICS INFORMATION AND EMERGENCY COMMUNICATION (ICEIEC) *
TIECHENG SONG, JIANFEI CAI, TIANQI ZHANG, CHENQIANG GAO, FANMAN MENG, QINGBO WU: "Semi-supervised manifold-embedded hashing with joint feature representation and classifier learning", PATTERN RECOGNITION, vol. 68 *
张仲伟;曹雷;陈希亮;寇大磊;宋天挺;: "基于神经网络的知识推理研究综述", 计算机工程与应用, no. 12 *
杨鹏,刘扬,杨青: "基于层次语义理解的电力系统客服工单分类", vol. 36, no. 36 *
王杰;张曦煌;: "基于图卷积网络和自编码器的半监督网络表示学习模型", 模式识别与人工智能, no. 04 *
袁和金,张旭,牛为华等: "融合注意力机制的多通道卷积与双向GRU模型的文本情感分析研究", vol. 33, no. 33 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695673A (zh) * 2020-05-09 2020-09-22 华为技术有限公司 训练神经网络预测器的方法、图像处理方法及装置
CN111695673B (zh) * 2020-05-09 2024-05-24 华为技术有限公司 训练神经网络预测器的方法、图像处理方法及装置
CN111680217A (zh) * 2020-05-27 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及存储介质
CN111680217B (zh) * 2020-05-27 2022-10-14 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及存储介质
CN111695260B (zh) * 2020-06-12 2022-06-21 上海大学 一种材料性能预测方法及系统
CN111695260A (zh) * 2020-06-12 2020-09-22 上海大学 一种材料性能预测方法及系统
CN111721535A (zh) * 2020-06-23 2020-09-29 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN111721535B (zh) * 2020-06-23 2021-11-30 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN111582409A (zh) * 2020-06-29 2020-08-25 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
CN111582409B (zh) * 2020-06-29 2023-12-26 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
CN112132188A (zh) * 2020-08-31 2020-12-25 浙江工业大学 一种基于网络属性的电商用户分类方法
CN112132188B (zh) * 2020-08-31 2024-04-16 浙江工业大学 一种基于网络属性的电商用户分类方法
CN112329918A (zh) * 2020-10-28 2021-02-05 东南大学 一种基于注意力机制的对抗正则化网络嵌入方法
CN112560964A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN112651242A (zh) * 2021-01-20 2021-04-13 重庆大学 一种基于内外注意力机制和可变尺度卷积的文本分类方法
CN112651242B (zh) * 2021-01-20 2024-04-26 重庆大学 一种基于内外注意力机制和可变尺度卷积的文本分类方法
CN113157859A (zh) * 2021-04-06 2021-07-23 北京理工大学 一种基于上位概念信息的事件检测方法
CN113378913A (zh) * 2021-06-08 2021-09-10 电子科技大学 一种基于自监督学习的半监督节点分类方法
CN113378913B (zh) * 2021-06-08 2023-10-31 电子科技大学 一种基于自监督学习的半监督节点分类方法
CN114661903A (zh) * 2022-03-03 2022-06-24 贵州大学 一种结合用户意图的深度半监督文本聚类方法、设备及介质
WO2024067779A1 (zh) * 2022-09-30 2024-04-04 华为技术有限公司 一种数据处理方法及相关装置
CN116092479B (zh) * 2023-04-07 2023-07-07 杭州东上智能科技有限公司 一种基于对比文本-音频对的文本韵律生成方法和系统
CN116092479A (zh) * 2023-04-07 2023-05-09 杭州东上智能科技有限公司 一种基于对比文本-音频对的文本韵律生成方法和系统

Also Published As

Publication number Publication date
CN111046907B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN111046907B (zh) 一种基于多头注意力机制的半监督卷积网络嵌入方法
Bresson et al. Residual gated graph convnets
CN110413844B (zh) 基于时空注意力深度模型的动态链路预测方法
CN109299216B (zh) 一种融合监督信息的跨模态哈希检索方法和系统
Wang et al. Deep supervised hashing with triplet labels
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
CN112380435A (zh) 基于异构图神经网络的文献推荐方法及推荐系统
CN113095439A (zh) 基于注意力机制的异构图嵌入学习方法
Arsov et al. Network embedding: An overview
Rohekar et al. Constructing deep neural networks by Bayesian network structure learning
CN110781271A (zh) 一种基于层次注意力机制的半监督网络表示学习模型
CN107491782B (zh) 利用语义空间信息的针对少量训练数据的图像分类方法
Tian et al. Knowledge distillation on graphs: A survey
CN110781319A (zh) 跨媒体大数据的公共语义表示、搜索方法和装置
Han et al. Augmented sentiment representation by learning context information
Nutakki et al. An introduction to deep clustering
Wang et al. Deep Unified Cross-Modality Hashing by Pairwise Data Alignment.
CN113128667B (zh) 一种跨域自适应的图卷积平衡迁移学习方法与系统
CN113343100B (zh) 一种基于知识图谱的智慧城市资源推荐方法和系统
Siu Residual networks behave like boosting algorithms
Wang et al. Binary Graph Convolutional Network With Capacity Exploration
Zhang et al. Co-evolution-based parameter learning for remote sensing scene classification
Liao Graph neural networks: graph generation
CN114399048A (zh) 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统
Xie et al. L-BGNN: Layerwise trained bipartite graph neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant