CN110781271A - 一种基于层次注意力机制的半监督网络表示学习模型 - Google Patents

一种基于层次注意力机制的半监督网络表示学习模型 Download PDF

Info

Publication number
CN110781271A
CN110781271A CN201910821415.8A CN201910821415A CN110781271A CN 110781271 A CN110781271 A CN 110781271A CN 201910821415 A CN201910821415 A CN 201910821415A CN 110781271 A CN110781271 A CN 110781271A
Authority
CN
China
Prior art keywords
node
representation
text
vector
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910821415.8A
Other languages
English (en)
Inventor
姚宗强
崇志强
刘杰
徐福华
周作静
马世乾
杨晓静
郭悦
尚学军
王伟臣
邓君怡
李国栋
霍现旭
王旭东
黄志刚
吕金炳
张文政
张津沛
苏立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Jinghai Power Supply Co of State Grid Tianjin Electric Power Co Ltd
Original Assignee
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Jinghai Power Supply Co of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd, Jinghai Power Supply Co of State Grid Tianjin Electric Power Co Ltd filed Critical Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority to CN201910821415.8A priority Critical patent/CN110781271A/zh
Publication of CN110781271A publication Critical patent/CN110781271A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:包括如下步骤:步骤1),词级语义编码;步骤2),句级语义编码;步骤3),节点文本表示;步骤4),得到节点结构表示向量及节点的表示向量;步骤5),半监督框架下引入节点标签。本发明基于层次注意力机制学习网络节点的文本表示,同时在半监督的框架下引入节点标签信息,最终得到节点高质量的表示向量。提升了在下游任务(节点分类、链接预测)上的性能。

Description

一种基于层次注意力机制的半监督网络表示学习模型
技术领域
本发明属于计算机应用技术领域,涉及一种半监督网络表示学习模型,具体涉及一种基于层次注意力机制的半监督网络表示学习模型。
背景技术
网络是一种组织现实世界中不同种类信息的有效方式。随着信息技术的发展,互联网中积累了大量具备网络结构的数据。对这些网络结构数据的分析对各行业的发展具有重要意义。分析网络结构数据的首要任务就是综合利用网络中的特征信息,将网络节点表示成一个低维、稠密的向量,又称为网络表示学习。在得到网络节点的表示向量后,可将其输入已有的算法来完成节点分类、聚类、链接预测等下游任务。例如对社交网络中的节点进行聚类分析,可以帮助社交平台进行社区发现,进而为用户提供更好的消息推送与好友推荐,提升用户使用体验。另外,网络结构数据往往具有大量外部信息,例如节点的文本信息与节点标签信息。文本信息的引入可以丰富节点语义,提高表示向量质量;节点标签信息可以提升表示向量的区分性。然而,由于网络结构是稀疏的,外部文本信息具有层次结构,大规模网络中节点标签是不完全的,因此如何有效地、综合地考虑网络数据的结构信息、文本信息与标签信息,得到高质量的节点表示向量是本发明专利研究的核心任务。
近年来,国内外已有很多工作针对网络表示学习任务开展了相关研究,并且取得了一定的研究成果。现有的相关研究主要可以分为基于关系矩阵的表示学习,基于网络结构的表示学习和结合外部信息的网络表示学习。
关系矩阵一般为网络的邻接矩阵或拉普拉斯矩阵,基于关系矩阵的表示往往需要对这些矩阵进行特征向量计算。可以将诸如局部线性表示(Locally Linear Embedding,LLE)、拉普拉斯特征表(Laplace Eigenmap,LE)、有向图表示(Directed Graph Embedding,DEG)等的网络表示学习方法视为降维算法,这些方法能够捕捉网络的线性结构信息。然而,特征向量计算的非线性性导致这类算法较高的复杂度,限制了其在大规模网络数据上的应用。
作为基于网络结构的表示学习算法的代表,DeepWalk第一次将深度学习的技术引入到网络表示学习。Perozzi等人通过实验验证了网络中随机游走序列中的节点和文档中的单词一样都遵从指数定律,从而将词表示学习算法skip-gram应用在随机游走序列上,学习节点表示。Grover等人提出的Node2Vec对原始的DeepWalk进行改进,通过一个有偏的随机游走来平衡深度优先与广度优先。针对大规模的网络,Tang等人提出的LINE引入一阶与二阶相似度,从而同时保留了局部与全局的网络结构信息。同时,LINE使用负采样方法来优化skip-gram。
真实世界中的网络节点往往会伴随着丰富的外部信息。Yang等人提出了文本相关的DeepWalk模型,在矩阵分解的框架下,将节点的文本特征引入网络表示学习。真实世界中的网络节点在与其他节点交互时,往往会展现出不同方面的特点。Tu等人基于这一点,利用网络节点的文本信息来对节点之间的关系进行解释,为网络节点根据不同的邻居学习上下文相关的表示向量。另外,Tu等人提出的MMDW同时学习矩阵分解形式的网络表示模型和最大间隔分类器,从而增大了表示向量的区分能力。
虽然上述方法考虑到了网络拓扑结构与节点外部信息,但在编码文本信息时,并未考虑文本的层次结构。本发明专利认为,层次地编码文本,即由词的表示得到句子的表示,再由句子的表示得到篇章的表示,可以提升文本表示的质量,之后用半监督的方法引入节点标签信息,最终能得到更好的节点表示向量。由此,如何层次地建模节点文本信息,并与网络结构信息、节点标签信息结合,是本专利主要解决的问题。
针对上述问题,本发明专利提出了一种基于层次注意力机制的半监督网络表示学习模型,综合考虑网络结构、节点文本与节点标签信息。
通过对公开专利文献的检索,并未发现与本专利申请相同的公开专利文献。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于层次注意力机制的半监督网络表示学习模型。
本发明解决其技术问题是通过以下技术方案实现的:
一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:包括如下步骤:
步骤1),词级语义编码:输入以句号分句的节点文本,使用词向量查询的方法初始化每个词的初始语义表示,后利用双向GRU以序列的方式对句中的词进行高层的语义编码;
步骤2),句级语义编码:根据词的高层语义表示,以词级注意力机制得到句子的初始语义表示,后利用另一组双向GRU学习文本中每个句子的高层语义表示;
步骤3),节点文本表示:根据句子的高层语义表示,以句级注意力机制得到文本的表示向量,与节点文本中各词的词向量平均池化向量相加得到节点的文本表示;
步骤4),得到节点结构表示向量及节点的表示向量:随机初始化节点结构表示向量,用对数似然损失函数优化得到结构表示向量,将节点的文本表示向量与结构表示向量拼接得到节点的表示向量;
步骤5),半监督框架下引入节点标签:在半监督学习的框架下,将带标签节点的标签信息引入网络表示学习,将分类损失与步骤4中的对数似然损失联合优化得到最终的节点表示向量。
而且,所述的步骤1)中,输入以句号分句的节点文本,其中节点u的文本信息可表示为如下形式:
Du=(Su1Su2,,Suq)
其中,Sui为节点u文本的第i个句子,q为该文本所包含的句子总数;
Sui可表示为:
其中
Figure BDA0002187595040000032
为句子Sui的第j个词,以随机初始化的d维词向量表示,m为该句子所包含的词的个数。
而且,所述的步骤1)中,为了获取句中词的高层语义表示,使用双向GRU对词向量进行编码,t时刻GRU的状态ht通过如下公式计算:
rt=σ(Wrxt+Urht-1+br)
zt=σ(Wzxt+Uzht-1+bz)
公式中,rt、zt分别代表重置门、更新门,用于控制信息的传递,σ为sigmoid激活函数,W、U和b为网络参数,⊙代表矩阵元素乘法,xt为序列在t时刻的表示向量,为t时刻GRU的候选状态。
而且,所述的步骤1)中,利用双向GRU以序列的方式对句中的词进行高层的语义编码的具体步骤为:
步骤1.1)前向的GRU编码阶段:
利用GRU对句中的词向量序列按照原始顺序进行编码得到前向的隐藏特征,对于第i个句中的第j个词,
步骤1.2)反向的GRU编码阶段:
Figure BDA0002187595040000043
步骤1.3)双向编码特征结合阶段:
将步骤1.1)与步骤1.2)中得到的两个方向的隐藏特征向量进行拼接,得到每个词双向的高层语义表示:
Figure BDA0002187595040000044
而且,所述步骤2)中,以句子中词的高层表示向量作为输入,通过以下步骤得到句子的高层语义表示:
步骤2.1)利用注意力机制选择对句子语义更为重要的词,可通过下式生成u节点的第i个句子的词级注意力向量
Figure BDA0002187595040000045
Figure BDA0002187595040000046
其中,Cw为全局的词级上下文向量,的计算方法如下所示:
Figure BDA0002187595040000048
其中Ww和bw是待学习的参数,tanh是非线性激活函数,
在得到注意力权重
Figure BDA0002187595040000049
的基础上,利用下式得到u节点的第i个句子的初始语义表示:
Figure BDA00021875950400000410
步骤2.2)使用双向GRU单元对句子进行编码,与步骤1.1)步骤1.2)步骤1.3)中所述步骤相同,对于节点u的第i个句子,其高层语义表示由如下公式得到:
Figure BDA0002187595040000051
Figure BDA0002187595040000052
而且,所述步骤3)包含如下三个步骤:
步骤3.1)以文本中句子的高层表示向量
Figure BDA0002187595040000053
作为输入,通过与步骤2)类似的步骤得到节点的文本表示向量
Figure BDA0002187595040000055
Figure BDA0002187595040000056
Figure BDA0002187595040000057
其中,Cs为全局的句级上下文向量;
步骤3.2)为防止因网络过深而导致的信息偏离,将节点u文本中所有词的词向量做平均,得到
Figure BDA0002187595040000058
步骤3.3)将两者相加得到节点的最终文本表示ut
而且,所述步骤4)基于步骤3)得到的节点文本表示ut,得到节点的结构表示us,将节点的文本表示向量与结构表示向量拼接得到节点的表示向量ur
而且,学习节点表示,需考虑结构表示之间的关联、文本表示之间的关联、结构表示与文本表示的关联,因此,使用如下对数损失函数:
Figure BDA00021875950400000510
Figure BDA00021875950400000511
Figure BDA00021875950400000512
其中,v是与u相连的节点,wu,v为两点之间边的权重,
Figure BDA00021875950400000513
为u节点与v节点相连时的结构表示,对于一条边上的两个节点,
Figure BDA00021875950400000514
Figure BDA00021875950400000515
条件概率p(v|u)表示为:
Figure BDA00021875950400000516
最终的节点结构表示由如下公式计算:
Figure BDA00021875950400000517
其中|Eu|是与u节点的边的数量,
ur=ut+us
而且,所述步骤5)将模型以半监督学习的方式进行优化,同时利用了带标签节点与无标签节点,对于无标签节点,其损失函数为:
Lunlabel(uu)=α·Lss(uu)+β·Ltt(uu)+θ·Lst(uu)+γ·Lss(uu)
其中,uu∈Lu,Lu为无标签节点的集合,α,β,θ,γ控制每部分的权重,
对于带标签节点,首先使用全连接层将节点表示映射到标签空间,得到节点标签的预测分布
Figure BDA0002187595040000061
并使用如下标签匹配损失实现最小化标签真实分布lu与预测分布的差别:
Figure BDA0002187595040000062
其中u1∈L1,Ll为带标签节点的集合,Ω为正则化项,带标签节点的损失函数可表示为:
Llabel(ul)=α·Lss(ul)+β·Ltt(ul)+θ·Lst(ul)+γ·Lss(ul)-λLmatch(ul)
其中,α,β,θ,γ,λ控制每部分的权重,
模型整体的损失函数为:
Figure BDA0002187595040000063
优化这个损失函数最终可得到综合了网络结构信息、节点文本信息与标签信息的节点表示。
本发明的优点和有益效果为:
本发明基于层次注意力机制学习网络节点的文本表示,同时在半监督的框架下引入节点标签信息,最终得到节点高质量的表示向量。提升了在下游任务(节点分类、链接预测)上的性能。
附图说明
图1为本发明的整体系统结构示意图;
图2为本发明的处理流程图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
本发明主要采用自然语言处理与网络表示学习相关的理论与方法对论文引用网络数据进行表示学习,为保证模型的训练与测试,要求所使用的计算机平台配备不低于8G的内存,CPU核心数不低于4个,并安装Python3.6版本、tensorflow框架等必备编程环境。
如图2所示,本发明提供的基于层次注意力机制的半监督网络表示学习方法包括顺序执行的下列步骤:
步骤1)输入以句号分句的文本,使用词向量查询的方法初始化每个词的初始语义表示,后利用双向GRU以序列的方式对句中的词进行高层的语义编码;
步骤2)根据词的高层语义表示,以词级注意力机制得到句子的初始语义表示,后利用另一组双向GRU学习文本中每个句子的高层语义表示;
步骤3)根据句子的高层语义表示,以句级注意力机制得到文本的表示向量,与节点文本中各词的词向量平均池化向量相加得到节点的文本表示;
步骤4)随机初始化节点结构表示向量,用对数似然损失函数优化得到结构表示向量,将节点的文本表示向量与结构表示向量拼接得到节点的表示向量;
步骤5)在半监督学习的框架下,将带标签节点的标签信息引入网络表示学习,将分类损失与步骤4中的对数似然损失联合优化得到最终的节点表示向量。
在步骤1)中,输入以句号分句的节点文本,其中节点u的文本信息可表示为如下形式:
Du=(Su1,Su2,…,Suq)
其中,Sui为节点u文本的第i个句子,q为该文本所包含的句子总数。
Sui可表示为:
Figure BDA0002187595040000071
其中为句子Sui的第j个词,以随机初始化的d维词向量表示,m为该句子所包含的词的个数。
为了获取句中词的高层语义表示,使用双向GRU对词向量进行编码,t时刻GRU的状态ht通过如下公式计算:
rt=σ(Wrxt+Urht-1+br)
Figure BDA0002187595040000088
zt=σ(Wzxt+Uzht-1+bz)
Figure BDA0002187595040000081
公式中,rt、zt分别代表重置门、更新门,用于控制信息的传递。σ为sigmoid激活函数,W、U和b为网络参数,⊙代表矩阵元素乘法,xt为序列在t时刻的表示向量,为t时刻GRU的候选状态。
本发明专利使用双向GRU对词的编码具体包含如下步骤:
步骤1.1)前向的GRU编码阶段:
利用GRU对句中的词向量序列按照原始顺序进行编码得到前向的隐藏特征,对于第i个句中的第j个词,
Figure BDA0002187595040000083
步骤1.2)反向的GRU编码阶段:
Figure BDA0002187595040000084
步骤1.3)双向编码特征结合阶段:
将步骤1.1)与步骤1.2)中得到的两个方向的隐藏特征向量进行拼接,得到每个词双向的高层语义表示:
Figure BDA0002187595040000085
在步骤2)中,以句子中词的高层表示向量作为输入,通过以下步骤得到句子的高层语义表示:
步骤2.1)利用注意力机制选择对句子语义更为重要的词,可通过下式生成u节点的第i个句子的词级注意力向量
Figure BDA0002187595040000086
Figure BDA0002187595040000087
其中,Cw为全局的词级上下文向量,
Figure BDA0002187595040000091
的计算方法如下所示:
Figure BDA0002187595040000092
其中Ww和bw是待学习的参数,tanh是非线性激活函数。
在得到注意力权重
Figure BDA0002187595040000093
的基础上,利用下式得到u节点的第i个句子的初始语义表示:
Figure BDA0002187595040000094
步骤2.2)使用双向GRU单元对句子进行编码,与步骤1.1)步骤1.2)步骤1.3)中所述类似。对于节点u的第i个句子,其高层语义表示由如下公式得到:
Figure BDA0002187595040000095
Figure BDA0002187595040000096
Figure BDA0002187595040000097
步骤3)包含如下三个小步骤:
步骤3.1)以文本中句子的高层表示向量
Figure BDA0002187595040000098
作为输入,通过与步骤2)类似的步骤得到节点的文本表示向量
Figure BDA0002187595040000099
Figure BDA00021875950400000911
Figure BDA00021875950400000912
其中,Cs为全局的句级上下文向量。
步骤3.2)为防止因网络过深而导致的信息偏离(deviation),将节点u文本中所有词的词向量做平均,得到
Figure BDA00021875950400000913
步骤3.3)将两者相加得到节点的最终文本表示ut
Figure BDA00021875950400000914
步骤4)基于步骤3)得到的节点文本表示ut,得到节点的结构表示us,将节点的文本表示向量与结构表示向量拼接得到节点的表示向量ur。为了综合地学习节点表示,有必要考虑结构表示之间的关联、文本表示之间的关联、结构表示与文本表示的关联。因此,使用如下对数损失函数:
Figure BDA0002187595040000101
Figure BDA0002187595040000102
Figure BDA0002187595040000103
Figure BDA0002187595040000104
其中,v是与u相连的节点,wu,v为两点之间边的权重,
Figure BDA0002187595040000105
为u节点与v节点相连时的结构表示。对于一条边上的两个节点,
Figure BDA0002187595040000107
条件概率p(v|u)表示为:
Figure BDA0002187595040000108
最终的节点结构表示由如下公式计算:
Figure BDA0002187595040000109
其中|Eu|是与u节点的边的数量。
ur=ut+us
步骤5)将模型以半监督学习的方式进行优化,同时利用了带标签节点与无标签节点。对于无标签节点,其损失函数为:
Lunlabel(uu)=α·Lss(uu)+β·Ltt(uu)+θ·Lst(uu)+γ·Lss(uu)
其中,uu∈Lu,Lu为无标签节点的集合。α,β,θ,γ控制每部分的权重。
对于带标签节点,首先使用全连接层将节点表示映射到标签空间,得到节点标签的预测分布
Figure BDA00021875950400001010
并使用如下标签匹配损失实现最小化标签真实分布lu与预测分布的差别:
Figure BDA00021875950400001011
其中u1∈L1,Ll为带标签节点的集合,Ω为正则化项。带标签节点的损失函数可表示为:
Llabel(ul)=α·Lss(ul)+β·Ltt(ul)+θ·Lst(ul)+γ·Lss(ul)-λLmatch(ul)
其中,α,β,θ,γ,λ控制每部分的权重。
模型整体的损失函数为:
Figure BDA0002187595040000111
优化这个损失函数最终可得到综合了网络结构信息、节点文本信息与标签信息的节点表示。
尽管为说明目的公开了本发明的实施例和附图,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例和附图所公开的内容。

Claims (9)

1.一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:包括如下步骤:
步骤1),词级语义编码:输入以句号分句的节点文本,使用词向量查询的方法初始化每个词的初始语义表示,后利用双向GRU以序列的方式对句中的词进行高层的语义编码;
步骤2),句级语义编码:根据词的高层语义表示,以词级注意力机制得到句子的初始语义表示,后利用另一组双向GRU学习文本中每个句子的高层语义表示;
步骤3),节点文本表示:根据句子的高层语义表示,以句级注意力机制得到文本的表示向量,与节点文本中各词的词向量平均池化向量相加得到节点的文本表示;
步骤4),得到节点结构表示向量及节点的表示向量:随机初始化节点结构表示向量,用对数似然损失函数优化得到结构表示向量,将节点的文本表示向量与结构表示向量拼接得到节点的表示向量;
步骤5),半监督框架下引入节点标签:在半监督学习的框架下,将带标签节点的标签信息引入网络表示学习,将分类损失与步骤4中的对数似然损失联合优化得到最终的节点表示向量。
2.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:所述的步骤1)中,输入以句号分句的节点文本,其中节点u的文本信息可表示为如下形式:
Du=(Su1,Su2,…,Suq)
其中,Sui为节点u文本的第i个句子,q为该文本所包含的句子总数;
Sui可表示为:
Figure FDA0002187595030000011
其中
Figure FDA0002187595030000012
为句子Sui的第j个词,以随机初始化的d维词向量表示,m为该句子所包含的词的个数。
3.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:所述的步骤1)中,为了获取句中词的高层语义表示,使用双向GRU对词向量进行编码,t时刻GRU的状态ht通过如下公式计算:
rt=σ(Wrxt+Urht-1+br)
Figure FDA0002187595030000021
zt=σ(Wzxt+Uzht-1+bz)
Figure FDA0002187595030000022
公式中,rt、zt分别代表重置门、更新门,用于控制信息的传递,σ为sigmoid激活函数,W、U和b为网络参数,⊙代表矩阵元素乘法,xt为序列在t时刻的表示向量,
Figure FDA0002187595030000023
为t时刻GRU的候选状态。
4.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:所述的步骤1)中,利用双向GRU以序列的方式对句中的词进行高层的语义编码的具体步骤为:
步骤1.1)前向的GRU编码阶段:
利用GRU对句中的词向量序列按照原始顺序进行编码得到前向的隐藏特征,对于第i个句中的第j个词,
Figure FDA0002187595030000024
步骤1.2)反向的GRU编码阶段:
Figure FDA0002187595030000025
步骤1.3)双向编码特征结合阶段:
将步骤1.1)与步骤1.2)中得到的两个方向的隐藏特征向量进行拼接,得到每个词双向的高层语义表示:
Figure FDA0002187595030000026
5.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:所述步骤2)中,以句子中词的高层表示向量作为输入,通过以下步骤得到句子的高层语义表示:
步骤2.1)利用注意力机制选择对句子语义更为重要的词,可通过下式生成u节点的第i个句子的词级注意力向量
Figure FDA0002187595030000027
Figure FDA0002187595030000031
其中,Cw为全局的词级上下文向量,
Figure FDA0002187595030000032
的计算方法如下所示:
Figure FDA0002187595030000033
其中Ww和bw是待学习的参数,tanh是非线性激活函数,
在得到注意力权重
Figure FDA0002187595030000034
的基础上,利用下式得到u节点的第i个句子的初始语义表示:
Figure FDA0002187595030000035
步骤2.2)使用双向GRU单元对句子进行编码,与步骤1.1)步骤1.2)步骤1.3)中所述步骤相同,对于节点u的第i个句子,其高层语义表示由如下公式得到:
Figure FDA0002187595030000036
Figure FDA0002187595030000037
6.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:所述步骤3)包含如下三个步骤:
步骤3.1)以文本中句子的高层表示向量作为输入,通过与步骤2)类似的步骤得到节点的文本表示向量
Figure FDA00021875950300000310
Figure FDA00021875950300000312
Figure FDA00021875950300000313
其中,Cs为全局的句级上下文向量;
步骤3.2)为防止因网络过深而导致的信息偏离,将节点u文本中所有词的词向量做平均,得到
Figure FDA00021875950300000314
步骤3.3)将两者相加得到节点的最终文本表示ut
Figure FDA00021875950300000315
7.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:所述步骤4)基于步骤3)得到的节点文本表示ut,得到节点的结构表示us,将节点的文本表示向量与结构表示向量拼接得到节点的表示向量ur
8.根据权利要求7所述的一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:学习节点表示,需考虑结构表示之间的关联、文本表示之间的关联、结构表示与文本表示的关联,因此,使用如下对数损失函数:
Figure FDA0002187595030000041
Figure FDA0002187595030000042
Figure FDA0002187595030000043
Figure FDA0002187595030000044
其中,v是与u相连的节点,wu,v为两点之间边的权重,为u节点与v节点相连时的结构表示,对于一条边上的两个节点,
Figure FDA0002187595030000046
Figure FDA0002187595030000047
条件概率p(v|u)表示为:
Figure FDA0002187595030000048
最终的节点结构表示由如下公式计算:
Figure FDA0002187595030000049
其中|Eu|是与u节点的边的数量,
ur=ut+us
9.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型,其特征在于:所述步骤5)将模型以半监督学习的方式进行优化,同时利用了带标签节点与无标签节点,对于无标签节点,其损失函数为:
Lunlabel(uu)=α·Lss(uu)+β·Ltt(uu)+θ·Lst(uu)+γ·Lss(uu)
其中,uu∈Lu,Lu为无标签节点的集合,α,β,θ,γ控制每部分的权重,
对于带标签节点,首先使用全连接层将节点表示映射到标签空间,得到节点标签的预测分布
Figure FDA00021875950300000410
并使用如下标签匹配损失实现最小化标签真实分布lu与预测分布的差别:
Figure FDA00021875950300000411
其中ul∈L1,Ll为带标签节点的集合,Ω为正则化项,带标签节点的损失函数可表示为:
Llabel(ul)=α·Lss(ul)+β·Ltt(ul)+θ·Lst(ul)+γ·Lss(ul)-λLmatch(ul)
其中,α,β,θ,γ,λ控制每部分的权重,
模型整体的损失函数为:
Figure FDA0002187595030000051
优化这个损失函数最终可得到综合了网络结构信息、节点文本信息与标签信息的节点表示。
CN201910821415.8A 2019-09-02 2019-09-02 一种基于层次注意力机制的半监督网络表示学习模型 Pending CN110781271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910821415.8A CN110781271A (zh) 2019-09-02 2019-09-02 一种基于层次注意力机制的半监督网络表示学习模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910821415.8A CN110781271A (zh) 2019-09-02 2019-09-02 一种基于层次注意力机制的半监督网络表示学习模型

Publications (1)

Publication Number Publication Date
CN110781271A true CN110781271A (zh) 2020-02-11

Family

ID=69383351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910821415.8A Pending CN110781271A (zh) 2019-09-02 2019-09-02 一种基于层次注意力机制的半监督网络表示学习模型

Country Status (1)

Country Link
CN (1) CN110781271A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611498A (zh) * 2020-04-26 2020-09-01 北京科技大学 一种基于领域内部语义的网络表示学习方法及系统
CN111814468A (zh) * 2020-07-09 2020-10-23 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN113111224A (zh) * 2021-03-17 2021-07-13 中山大学 一种基于拓扑感知文本表征的网络嵌入学习方法
CN113343711A (zh) * 2021-06-29 2021-09-03 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113361615A (zh) * 2021-06-16 2021-09-07 中国人民解放军军事科学院军事科学信息研究中心 基于语义相关性的文本分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108053035A (zh) * 2018-01-03 2018-05-18 清华大学 基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108053035A (zh) * 2018-01-03 2018-05-18 清华大学 基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIE LIU: "Hierarchical Attention Based Semi-supervised Network Representation Learning" *
ZICHAO YANG: "Hierarchical Attention Networks for Document Classification" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611498A (zh) * 2020-04-26 2020-09-01 北京科技大学 一种基于领域内部语义的网络表示学习方法及系统
CN111611498B (zh) * 2020-04-26 2024-01-02 北京科技大学 一种基于领域内部语义的网络表示学习方法及系统
CN111814468A (zh) * 2020-07-09 2020-10-23 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN111814468B (zh) * 2020-07-09 2021-02-26 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN113111224A (zh) * 2021-03-17 2021-07-13 中山大学 一种基于拓扑感知文本表征的网络嵌入学习方法
CN113111224B (zh) * 2021-03-17 2023-08-18 中山大学 一种基于拓扑感知文本表征的网络嵌入学习方法
CN113361615A (zh) * 2021-06-16 2021-09-07 中国人民解放军军事科学院军事科学信息研究中心 基于语义相关性的文本分类方法
CN113343711A (zh) * 2021-06-29 2021-09-03 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质
CN113343711B (zh) * 2021-06-29 2024-05-10 南方电网数字电网研究院有限公司 工单生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Alzubaidi et al. A survey on deep learning tools dealing with data scarcity: definitions, challenges, solutions, tips, and applications
Tu et al. Cane: Context-aware network embedding for relation modeling
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN111046907B (zh) 一种基于多头注意力机制的半监督卷积网络嵌入方法
CN110781271A (zh) 一种基于层次注意力机制的半监督网络表示学习模型
CN111985245A (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN108229582A (zh) 一种面向医学领域的多任务命名实体识别对抗训练方法
Liu et al. Dynamic knowledge graph reasoning based on deep reinforcement learning
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
Zhang et al. Aspect-based sentiment analysis for user reviews
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN115145551A (zh) 一种面向机器学习应用低代码开发的智能辅助系统
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN113312912B (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN112529071B (zh) 一种文本分类方法、系统、计算机设备和存储介质
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN117033423A (zh) 一种注入最优模式项和历史交互信息的sql生成方法
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN116595406A (zh) 基于角色一致性的事件论元角色分类方法及系统
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
Luo Research and implementation of text topic classification based on text CNN
Wang et al. Autocite: Multi-modal representation fusion for contextual citation generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200211

RJ01 Rejection of invention patent application after publication