CN110489567B - 一种基于跨网络特征映射的节点信息获取方法及其装置 - Google Patents

一种基于跨网络特征映射的节点信息获取方法及其装置 Download PDF

Info

Publication number
CN110489567B
CN110489567B CN201910787798.1A CN201910787798A CN110489567B CN 110489567 B CN110489567 B CN 110489567B CN 201910787798 A CN201910787798 A CN 201910787798A CN 110489567 B CN110489567 B CN 110489567B
Authority
CN
China
Prior art keywords
network
text
data
attention
source network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910787798.1A
Other languages
English (en)
Other versions
CN110489567A (zh
Inventor
王国胤
孟艺凝
舒航
刘群
王如琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910787798.1A priority Critical patent/CN110489567B/zh
Publication of CN110489567A publication Critical patent/CN110489567A/zh
Application granted granted Critical
Publication of CN110489567B publication Critical patent/CN110489567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于特征学习领域,特别涉及一种基于跨网络特征映射的节点信息获取方法及其装置,所述方法包括对源网络和目标网络的文本数据进行嵌入操作,得到源网络和目标网络的第二文本矩阵;将源网络的第二文本矩阵矩阵输入到源网络的神经网络中进行训练;训练源网络的过程中,源网络的第二文本矩阵通过多头注意力机制层得到注意力加权,获得源网络的第三文本矩;对源网络的第三文本矩阵进行归一化处理,并将结果输入到神经网络的全连接层;将全连接层更新的向量作为softmax层的输入,并最大化softmax函数,完成训练;利用训练好的源网络的神经网络迁移到目标网络的神经网络,获得目标网络中节点的向量表示;本发明不仅可以减少计算文本信息的减少时间复杂度,还可以降低模型过拟合的风险。

Description

一种基于跨网络特征映射的节点信息获取方法及其装置
技术领域
本发明属于特征学习领域,特别涉及一种基于跨网络特征映射的节点信息获取方法及其装置。
背景技术
以Facebook、Twitter、微信和微博为代表的大型在线社会网络不断发展,产生了海量体现网络结构的数据信息以及异构信息。采用机器学习技术对网络数据进行分析的一个重要问题是如何对数据进行表示。传统的网络表示使用高维的稀疏向量,但是高维稀疏的表示也成为了人们使用统计学习方法时的局限所在,因为高维的向量将花费更多的运行时间和空间。因此将网络中节点表示为低维的向量表示方法,有效融合网络结构与节点外部信息,形成更具区分性的网络表示成为未来的发展趋势。
社交网络中的节点并非完全独立,它们之间存在着链接关系,并且除了节点间的链接关系外,其自身也包含了很多信息,如图1所示的用户的文本信息。综合考虑用户的结构数据和异构数据中有价值的信息,然后将数据表示为向量,进而可以完成机器学习中各种相关任务如节点分类、链路预测、社区发现等。目前对含有异构信息的网络节点表示学习主要有基于谱方法的网络表示学习、基于最优化的网络表示学习、基于概率生成式模型的网络表示学习等。
近几年来Goole提出了attention机制,它完全摒弃了CNN和RNN的结构,从自然语言本身特征出发,设计出了full attention的机制,而且还达到了start of art的结果。Attention机制相比于CNN和RNN结构计算的时间复杂度更低且可以并行运行,同时可调参数减少,可以综合节点的全局信息。
迁移学习(Transfer Learning)可以从现有的数据中迁移知识,用来帮助将来的学习。迁移学习的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。它提高了模型在未经训练的数据上表现良好的能力,使预训练的模型有目的的去训练任务,这些任务迫使模型学习在相关上下文中有用的通用模型。
发明内容
为了增强机器对数据的理解、提升模型的性能,本发明提出一种基于跨网络特征映射的节点信息获取方法及其装置,所述节点信息获取方法包括若源网络中的节点的结构信息和文本信息均完备,而目标网络中节点的文本信息有部分缺失,利用迁移学习的方法利用训练好的源网络去学习目标网络中节点的表示,从而获得文本信息完整的目标节点中的节点描述,其中所述节点为网络中的用户、文章、设备或者服务器,获取节点描述的具体过程包括:
S1、获取源网络(Source network)和目标网络(Target network)的文本数据信息以及结构数据信息;
S2、利用实体链接工具获得源网络和目标网络文本中的实体以及实体对应的数据链接;
S3、将数据链接对应的文本数据加入到源网络和目标网络的文本数据中,形成新的源网络和目标网络文本数据;
S4、利用网络结构特征提取工具将源网络和目标网络的信息结构分别表示为V1,V2,其中,V1和V2的维度数均为1×dr;dr为结构向量维度;
S5、对源网络和目标网络的文本数据进行嵌入操作,得到源网络和目标网络的第一文本矩阵S1,S2,并将V1和V2向量分别加入到源网络和目标网络的第一文本矩阵中,得到源网络和目标网络的第二文本矩阵S1',S2';
S6、将源网络的第二文本矩阵S1'矩阵输入到源网络的神经网络中进行训练;
S7、训练源网络的过程中,源网络的第二文本矩阵S1'通过多头注意力机制层得到注意力加权,获得源网络的第三文本矩阵S1”;
S8、对源网络的第三文本矩阵S1”进行归一化处理,并将结果输入到神经网络的全连接层;
S9、将全连接层更新的向量作为softmax层的输入,并最大化softmax函数,完成训练;
S10、利用训练好的源网络的神经网络迁移到目标网络的神经网络,获得目标网络中节点的向量表示。
进一步的,通过多头注意力机制层得到注意力加权的过程包括:
对输入的源网络的第二文本矩阵S1'进行归一化处理;
多头注意力机制层由h个缩放点积注意力单元堆叠构成,在每个缩放点积注意力单元中的查询值Q、关键值K以及所有词的嵌入表示向量V做线性变换之后计算查询值Q、关键值K以及所有词的嵌入表示向量V的注意力,将h个缩放点积注意力单元计算得到的查询值Q、关键值K以及所有词的嵌入表示向量V的注意力拼接起来,对拼接的注意力再进行一次线性变换,输出得到多头注意力机制层得到注意力加权,表示为:
Muti_head_attention(Q,K,V)=concat(head1,head2,...,headi,...,headh);
Figure GDA0003492871420000031
其中,Muti_head_attention(Q,K,V)为多头注意力机制层输出的注意力加权;concat(·)表示拼接操作;headi表示第i个缩放点积注意力单元获得的加权注意力;
Figure GDA0003492871420000032
表示在第i个缩放点积注意力单元中查询值Q的权值;
Figure GDA0003492871420000033
表示在第 i个缩放点积注意力单元中关键值K的权值;
Figure GDA0003492871420000034
表示在第i个缩放点积注意力单元中所有词的嵌入表示向量V的权值。
进一步的,归一化处理包括:
Figure GDA0003492871420000035
其中,x*表示归一化处理后的数据;x表示归一化处理前的数据;max表示进行归一化处理的数据中的最大值;min表示进行归一化处理的数据中的最小值。
本发明还提出一种基于跨网络特征映射的节点描述系统,所述系统包括数据获取模块、数据迁移模块,所述数据获取模块包括网络文本抓取单元、实体链接抓取单元、实体链接数据获取单元;所述数据迁移模块包括网络结构特征提取单元、嵌入单元、基于多头注意力机制的参数迁移单元以及微调单元;其中:
所述网络文本抓取单元用于抓取源网络和目标网络的文本数据信息以及结构数据信息;
所述实体链接抓取单元用于抓取源网络和目标网络的文本数据信息中的实体以及实体对应的数据链接;
所述实体链接数据获取单元用于抓取实体对应的数据链接对应的文本数据;
所述网络结构特征提取单元用于将源网络和目标网络的信息结构表示为向量形式;
所述嵌入单元用于对源网络和目标网络的数据文本执行嵌入操作;
所述基于多头注意力机制的数据迁移单元用于对源网络的数据进行计算并进行训练,当完成训练之后,利用基于多头注意力机制的数据迁移单元初始化目标网络,完成参数迁移;
所述微调单元用于控制完成参数迁移的目标网络的神经网络针对不同任务接口进行微调。
本发明综合考虑了社交网络中用户的结构信息和文本信息来学习用户的节点表示,摒弃了传统的CNN和RNN的结构,利用multi-head-attention机制来计算节点结构和文本信息的全局联系,减少时间复杂度;考虑到数据稀疏对结果影响的问题,本文利用知识图谱中的实体链接技术,调用已有的工具包如:Fast Entity Linker,获得源网络和目标网络文本中的实体及其在维基百科上的链接,爬取维基百科词条加入到对应文本中,这样可以增加原有数据的语义信息,提高机器对文本的可读性和理解性,一定程度上有“数据对齐”的效果,同时在一定程度上还能减弱很多分类问题中出现的“边缘”问题,降低过拟合的风险,优化模型性能;同时目标网络中部分文本属性的缺失属于冷启动问题,而迁移学习可解决冷启动问题,因此本发明训练好一个文本数据和结构数据都完整的源网络,然后利用源网络参数去初始化目标网络,这样就可以将目标网络中缺失的属性“补全”,最后根据不同的任务来微调目标网络,使目标网络有目的地去学习,这样得到的目标网络节点向量既包含了完整的节点文本特征也包含了节点的结构特征,此向量表示对节点的描述比较全面。
附图说明
图1为本发明现实网络数据示意图;
图2为本发明一种基于跨网络特征映射的节点信息获取方法的流程图;
图3为本发明采用的multi-head-attention求解过程示意图;
图4为本发明采用的迁移学习结构示意图;
图5为本发明一种基于跨网络特征映射的节点描述系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方法进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于跨网络特征映射的节点信息获取方法及其装置,所述节点信息获取方法包括若源网络中的节点的结构信息和文本信息均完备,而目标网络中节点的文本信息有部分缺失,利用迁移学习的方法利用训练好的源网络源网络去学习目标网络中节点的表示,从而获得文本信息完整的目标节点中的节点描述,其中所述节点为网络中的用户、文章、设备或者服务器,获取节点描述的具体过程包括:
S1、获取源网络和目标网络的文本数据信息以及结构数据信息;
S2、利用实体链接工具获得源网络和目标网络文本中的实体以及实体对应的数据链接;
S3、将数据链接对应的文本数据加入到源网络和目标网络的文本数据中,形成新的源网络和目标网络文本数据;
S4、利用网络结构特征提取工具将源网络和目标网络的信息结构分别表示为V1,V2,其中,V1和V2的维度数均为1×dr;
S5、对源网络和目标网络的文本数据进行嵌入操作,得到源网络和目标网络的第一文本矩阵S1,S2,并将V1和V2向量分别加入到源网络和目标网络的第一文本矩阵中,得到源网络和目标网络的第二文本矩阵S1',S2';
S6、将源网络的第二文本矩阵S1'矩阵输入到源网络的神经网络中进行训练;
S7、训练源网络的过程中,源网络的第二文本矩阵S1'通过多头注意力机制层得到注意力加权,获得源网络的第三文本矩阵S1”;
S8、对源网络的第三文本矩阵S1”进行归一化(Normalization)处理,并将结果输入到神经网络的全连接层;
S9、将全连接层(Full connected)更新的向量作为softmax层的输入,并最大化softmax函数,完成训练;
S10、利用训练好的源网络的神经网络的通过迁移学习初始化目标网络的神经网络,获得目标网络中节点,即目标数据(target data)的向量表示(Word vector);其中获得的节点的向量表示包括完整的文本特征和结构特征,节点的向量表示即为节点描述,将节点描述输入特定任务模式(task-specific-model),例如节点分类、链路预测等任务进行后续操作。
在本实施例中,如图1~2,以Tiwtter作为源网络,以Facebook作为目标网络,实体对应的数据链接选择维基百科;利用雅虎开源的实体链接工具(Fast Entity Link)获得Tiwtter和Facebook文本中的实体以及实体对应的维基百科页面链接;
将实体对应的维基百科页面词条加入到Tiwtter和Facebook文本数据中,形成新的源网络和目标网络文本数据;
利用node2vec工具将Tiwtter和Facebook结构分别表示为V1,V2,其中V1和V2的维度数分别为1×dr;
如图4,利用Glove词向量对Tiwtter和Facebook的文本数据(Text data) 输入嵌入相关矩阵(Embedding marix)进行嵌入(Embedding)操作,得到源网络和目标网络的第一文本矩阵S1、S2,并将V1和V2向量加入到对应文本矩阵中,得到源网络和目标网络的第二文本矩阵S1'、S2';在该过程中,对源网络的文本数据进行嵌入包括:
源网络的文本矩阵的列对应句子中的每个单词、行对应每个单词的向量表示;
单词的向量表示为随机初始的值或者预先训练好的词向量;若一个词没有预先训练好的词向量,则该词可被随机量化;
通过填充操作将长短不一的句子填充为统一长度;
若一个文本中句子的最大长度为n,si表示源网络中长度为n的句子中第i 个单词的向量表示为si=(e1,e2,...,er),er表示构成si中的第r个元素;
源网络文本矩阵表示为S=(s1,s2,s3,...sn),将源网络结构向量V1加入到对应的文本矩阵中,最终输入到源网络的第一文本矩阵为S1=(s1,s2,s3,…sn,v1);其中 v1表示源网络的结构信息。
对目标网络的文本数据进行嵌入包括:
对于包含文本的节点,文本矩阵的列对应句子中的每个单词、行对应每个单词的向量表示;
单词的向量表示为随机初始的值或者预先训练好的词向量;若一个词没有预先训练好的词向量,则该词可被随机量化;
通过填充操作将长短不一的句子填充为统一长度;
设一个文本中句子的最大长度为n,si'表示目标网络中长度为n的句子中第 i个单词的向量表示为si'=(e1',e2',...,er'),er'表示构成si'中的第r个元素;
目标网络中带有文本的节点,其文本矩阵可表示为:S'=(s1',s2',s3',...sn');
对于没有文本的节点,其文本矩阵为S'=(s1',s2',s3',...sn'),其中 s1',s2',s3',...sn' = 0 ;
将结构向量V2加入到对应的文本矩阵中,最终目标网络的输入矩阵为S2=(s1',s2',s3',…sn',v2);其中v2表示目标网络的结构信息。
将源网络的第二文本矩阵S1'输入到源网络的神经网络中进行训练,将神经网络中的多头注意力机制(multi_head_attention)的头数设置为6,即缩放点积注意力单元的数量为6;通过多头注意力机制层得到注意力加权的过程包括:
多头注意力机制层由h个缩放点积注意力单元堆叠构成,在每个缩放点积注意力单元中的查询值Q、关键值K以及所有词的嵌入表示向量V做线性变换之后计算查询值Q、关键值K以及所有词的嵌入表示向量V的注意力,将h个缩放点积注意力单元计算得到的查询值Q、关键值K以及所有词的嵌入表示向量V的注意力拼接起来,对拼接的注意力再进行一次线性变换,输出得到多头注意力机制层得到注意力加权,其中若在一个缩放点积注意力单元中第i个词的嵌入表示为vi,则该词的注意力表示为:
Figure GDA0003492871420000081
所有词的注意力表示为:
Figure GDA0003492871420000082
多头注意力机制层得到注意力加权表示为:
Muti_head_attention(Q,K,V)=concat(head1,head2,...,headi,...,headh);
Figure GDA0003492871420000091
其中,Qi表示缩放点积注意力单元的查询值,K表示缩放点积注意力单元中的关键值,在本发明中,查询值Qi以及关键值K的取值均为源网络的第二文本矩阵S1';V为所有词的嵌入表示,表示为
Figure GDA0003492871420000092
上标T表示矩阵或向量的转置;Muti_head_attention(Q,K,V)为多头注意力机制层输出的注意力加权; concat(·)表示拼接操作;headi表示第i个缩放点积注意力单元获得的加权注意力;
Figure GDA0003492871420000093
表示在第i个缩放点积注意力单元中查询值Q的权值;
Figure GDA0003492871420000094
表示在第i个缩放点积注意力单元中关键值K的权值;
Figure GDA0003492871420000096
表示在第i个缩放点积注意力单元中所有词的嵌入表示向量V的权值;n表示在网络中句子的最大长度。
如图3,多头注意力(multi-head attention)是由多个h个缩放点积注意力单元(Scaled Dot-product Atttention)堆叠形成的,对输入的Q、K以及V通过线性层(liner)进行线性转化,然后输入每个缩放点积注意力单元,对所有缩放点积注意力单元堆叠后,将缩放点积注意力单元进行拼接(concat),拼接后在线性层进行线性转化,然后输出;在每个缩放点积注意力单元中,将线性转化后的Q和K进行矩阵运算(MatMul),即两个矩阵相乘的操作,可选地(opt),可以在矩阵运算后进行掩膜操作(Mask),通过归一化指数函数(SoftMax)输出,输出的值再与V进行矩阵运算。
对输入的源网络的第二文本矩阵S1'进行归一化处理;归一化处理包括:
Figure GDA0003492871420000095
其中,x*表示归一化处理后的数据;x表示归一化处理前的数据;max表示进行归一化处理的数据中的最大值;min表示进行归一化处理的数据中的最小值。
图1中Facebook需要进行的是链路预测任务,所以根据链路预测的标准对目标网络的神经网络的参数进行微调,达到最高分类精度。
本发明还提出一种基于跨网络特征映射的节点信息获取装置,所述系统包括数据获取模块、数据迁移模块,所述数据获取模块包括网络文本抓取单元、实体链接抓取单元、实体链接数据获取单元;所述数据迁移模块包括网络结构特征提取单元、嵌入单元以及基于多头注意力机制的数据迁移单元;其中:
所述网络文本抓取单元用于抓取源网络和目标网络的文本数据信息以及结构数据信息;
所述实体链接抓取单元用于抓取源网络和目标网络的文本数据信息中的实体以及实体对应的数据链接;
所述实体链接数据获取单元用于抓取实体对应的数据链接对应的文本数据;
所述网络结构特征提取单元用于将源网络和目标网络的信息结构表示为向量形式;
所述嵌入单元用于对源网络和目标网络的数据文本执行嵌入操作;
所述基于多头注意力机制的数据迁移单元用于对源网络的数据进行计算并进行训练,当完成训练之后,将源网络的网络参数迁移到目标网络;
所述微调单元用于控制完成参数迁移的目标网络的神经网络针对不同任务接口进行微调;如图5,微调是指利用源网络神经网络的网络参数初始化目标网络神经网络之后,对获得的目标网络的节点描述根据实际任务需要,例如分类任务、链路预测任务等,对目标网络的参数,例如学习率、激活函数、训练次数等,进行微调,直到达到满意效果,该微调操作在不同的任务接口处完成;在微调时,目标网络的神经网络通过冻结神经网络中的部分模型(通常是靠近输入的多数卷积层),训练剩下的卷积层(通常是靠近输出的部分卷积层)以及全连接层来实现;
例如目标网络需要进行文本分类任务,那么系统的接口层就是softmax层,最终输出的结果是文本的类别,而最后一层全连接层的输出就是节点在该任务下的表示向量。
进一步的,所述基于多头注意力机制的数据迁移单元包括h个缩放点积注意力单元、拼接器以及线性变换器,其中:
所述h个缩放点积注意力单元之间堆叠构成,每个缩放点积注意力子单元计算数据的注意力;优选的,本发明h=6;
所述拼接器用于将h个缩放点积注意力单元计算获得注意力进行拼接获得多头注意力机制的最终权重值;
所述将文本第二矩阵输入到多头注意力机制层,然后对输出结果进行归一化处理;
所述的归一化处理结果输入到全连接层,全连接层设置固定的输出向量长度;
所述全连接层输出结果根据特定的任务如文本分类任务来设置softmax层,损失函数层等来训练目标网络。
如图5,基于跨网络特征映射的节点描述方法其应用系统的输入是两个不同的社交网络数据,一个社交网络中的结构和文本数据均完整,另一个社交网络中的结构数据完整,文本数据有缺失。将数据输入到本文封装好的方法中,输出的结果是不完整网络经过迁移学习以后所得到的节点向量表示,该向量包含了节点的文本信息和结构信息。将得到节点的向量表示,输出到不同的任务接口:节点分类、用户关系挖掘、链路预测等,就可以完成不同的社交网络任务。
与已有的节点表示学习相比,本发明充分考虑了社交网络节点的结构和文本信息,同时摒弃了CNN和RNN结构,利用multi-head-attention和迁移学习结合的方法来学习节点表示,并完成不同的机器学习任务。主要思想是利用 multi-head-attention层来构建源网络,这样可以充分考虑节点结构和文本在全局信息上的联系,同时可以减少时间复杂度,然后利用训练好的源网络参数来初始化目标网络,目标网络根据不同的机器学习任务来微调(fine-turning)整个网络。同时考虑到数据稀疏对结果影响的问题,本文利用知识图谱中的实体链接技术,调用已有的工具包如:Fast Entity Linker,获得源网络和目标网络文本中的实体及其在实体的数据链接,例如维基百科上的数据链接,爬取维基百科词条加入到对应文本中,这样可以增加原有数据的语义信息,提高机器对文本的可读性和理解性,一定程度上有“数据对齐”的效果,同时在一定程度上还能减弱很多分类问题中出现的“边缘”问题,降低过拟合的风险,优化模型性能。同时目标网络中部分文本属性的缺失属于冷启动问题,而迁移学习可解决冷启动问题,因此本发明训练好一个文本数据和结构数据都完整的源网络,然后利用源网络参数去初始化目标网络,这样就可以将目标网络中缺失的属性“补全”,最后根据不同的任务来微调目标网络,使目标网络有目的地去学习,这样得到的目标网络节点向量既包含了完整的节点文本特征也包含了节点的结构特征,此向量表示对节点的描述比较全面。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于跨网络特征映射的节点信息获取方法,其特征在于,若源网络中的节点的结构信息和文本信息均完备,而目标网络中节点的文本信息有部分缺失,利用迁移学习的方法利用训练好的源网络去学习目标网络中节点的表示,从而获得文本信息完整的目标节点中的节点描述,其中所述节点为网络中的用户、文章、设备或者服务器,获取节点描述的具体过程包括:
S1、获取源网络和目标网络的文本数据信息以及结构数据信息;
S2、利用实体链接工具获得源网络和目标网络文本中的实体以及实体对应的数据链接;
S3、将数据链接对应的文本数据加入到源网络和目标网络的文本数据中,形成新的源网络和目标网络文本数据;
S4、利用网络结构特征提取工具将源网络和目标网络的信息结构分别表示为V1,V2,其中,V1和V2的维度数均为1×dr;dr为结构向量维度;
S5、对源网络和目标网络的文本数据进行嵌入操作,得到源网络和目标网络的第一文本矩阵S1,S2,并将V1和V2向量分别加入到源网络和目标网络的第一文本矩阵中,得到源网络和目标网络的第二文本矩阵S1',S2';
S6、将源网络的第二文本矩阵S1'矩阵输入到源网络的神经网络中进行训练;
S7、训练源网络的过程中,源网络的第二文本矩阵S1'通过多头注意力机制层得到注意力加权,获得源网络的第三文本矩阵S1”;
S8、对源网络的第三文本矩阵S1”进行归一化处理,并将结果输入到神经网络的全连接层;
S9、将全连接层更新的向量作为softmax层的输入,并最大化softmax函数,完成训练;
S10、利用训练好的源网络的神经网络迁移到目标网络的神经网络,获得目标网络中节点的向量表示。
2.根据权利要求1所述的一种基于跨网络特征映射的节点信息获取方法,其特征在于,对源网络的文本数据进行嵌入包括:
源网络的文本矩阵的列对应句子中的每个单词、行对应每个单词的向量表示;
单词的向量表示为随机初始的值或者预先训练好的词向量;若一个词没有预先训练好的词向量,则该词可被随机量化;
通过填充操作将长短不一的句子填充为统一长度;
若一个文本中句子的最大长度为n,si表示源网络中长度为n的句子中第i个单词的向量表示为si=(e1,e2,...,er),er表示构成si中的第r个元素;
源网络文本矩阵表示为S=(s1,s2,s3,...sn),将源网络结构向量V1加入到对应的文本矩阵中,最终输入到源网络的第一文本矩阵为S1=(s1,s2,s3,…sn,v1);其中v1表示源网络的结构信息。
3.根据权利要求1所述的一种基于跨网络特征映射的节点信息获取方法,其特征在于,对目标网络的文本数据进行嵌入包括:
对于包含文本的节点,文本矩阵的列对应句子中的每个单词、行对应每个单词的向量表示;
单词的向量表示为随机初始的值或者预先训练好的词向量;若一个词没有预先训练好的词向量,则该词可被随机量化;
通过填充操作将长短不一的句子填充为统一长度;
设一个文本中句子的最大长度为n,si'表示目标网络中长度为n的句子中第i个单词的向量表示为si'=(e1',e2',...,er'),er'表示构成si'中的第r个元素;
目标网络中带有文本的节点,其文本矩阵可表示为:S'=(s1',s2',s3',...sn');
对于没有文本的节点,其文本矩阵为S'=(s1',s2',s3',...sn'),其中s1',s2',s3',...sn' = 0 ;
将结构向量V2加入到对应的文本矩阵中,最终目标网络的输入矩阵为S2=(s1',s2',s3',…sn',v2);其中v2表示目标网络的结构信息。
4.根据权利要求1所述的一种基于跨网络特征映射的节点信息获取方法,其特征在于,通过多头注意力机制层得到注意力加权的过程包括:
对输入的源网络的第二文本矩阵S1'进行归一化处理;
多头注意力机制层由h个缩放点积注意力单元堆叠构成,在每个缩放点积注意力单元中的查询值Q、关键值K以及所有词的嵌入表示向量V做线性变换之后计算查询值Q、关键值K以及所有词的嵌入表示向量V的注意力,将h个缩放点积注意力单元计算得到的查询值Q、关键值K以及所有词的嵌入表示向量V的注意力拼接起来,对拼接的注意力再进行一次线性变换,输出得到多头注意力机制层得到注意力加权,多头注意力机制层得到注意力加权表示为:
Muti_head_attention(Q,K,V)=concat(head1,head2,...,headi,...,headh);
Figure FDA0003492871410000031
其中,Muti_head_attention(Q,K,V)为多头注意力机制层输出的注意力加权;concat(·)表示拼接操作;headi表示前i个缩放点积注意力单元堆叠获得的加权注意力;
Figure FDA0003492871410000032
表示在第i个缩放点积注意力单元中查询值Q的权值;
Figure FDA0003492871410000033
表示在第i个缩放点积注意力单元中关键值K的权值;
Figure FDA0003492871410000034
表示在第i个缩放点积注意力单元中所有词的嵌入表示向量V的权值。
5.根据权利要求4所述的一种基于跨网络特征映射的节点信息获取方法,其特征在于,归一化处理包括:
Figure FDA0003492871410000035
其中,x*表示归一化处理后的数据;x表示归一化处理前的数据;max表示进行归一化处理的数据中的最大值;min表示进行归一化处理的数据中的最小值。
6.根据权利要求1所述的一种基于跨网络特征映射的节点信息获取方法,其特征在于,最大化softmax函数表示为:
Figure FDA0003492871410000036
其中,p(zi)表示第i个节点Zi在全连接层的输出;
Figure FDA0003492871410000041
表示第第i个节点Zi单词向量中元素。
7.根据权利要求6所述的一种基于跨网络特征映射的节点信息获取方法,其特征在于,步骤S9还包括利用交叉熵损失作为损失函数来优化源网络的网络参数,交叉熵损失表示为:
Figure FDA0003492871410000042
其中n表示在网络中句子的最大长度。
8.一种基于跨网络特征映射的节点信息获取装置,其特征在于,所述装置包括数据获取模块、数据迁移模块以及微调单元,所述数据获取模块包括网络文本抓取单元、实体链接抓取单元、实体链接数据获取单元;所述数据迁移模块包括网络结构特征提取单元、嵌入单元以及基于多头注意力机制的数据迁移单元;其中:
所述网络文本抓取单元用于抓取源网络和目标网络的文本数据信息以及结构数据信息;
所述实体链接抓取单元用于抓取源网络和目标网络的文本数据信息中的实体以及实体对应的数据链接;
所述实体链接数据获取单元用于抓取实体对应的数据链接对应的文本数据;
所述网络结构特征提取单元用于将源网络和目标网络的信息结构表示为向量形式;
所述嵌入单元用于对源网络和目标网络的数据文本执行嵌入操作;
所述基于多头注意力机制的数据迁移单元包括源网络的神经网络、目标网络的神经网络,将源网络的数据输入源网络的神经网络进行训练,当完成训练之后,将源网络的网络参数迁移到目标网络;
所述微调单元用于根据对应的不同的任务接口对目标网络的神经网络进行微调,利用微调后目标网络的神经网络获得节点在目标网络中的节点描述,该节点描述中包括完整的文本特征和结构特征。
9.根据权利要求8所述的一种基于跨网络特征映射的节点信息获取装置,其特征在于,所述源网络的神经网络包括多头注意力机制子单元单元,该子单元包括h个缩放点积注意力单元、拼接器以及线性变换器,其中:
所述h个缩放点积注意力单元之间通过堆叠构成,每个缩放点积注意力子单元计算输入的文本矩阵的注意力;
所述拼接器用于将h个缩放点积注意力单元计算获得注意力进行拼接获得多头注意力机制的最终权重值;
所述线性变换器用于对数据进行线性变换。
CN201910787798.1A 2019-08-26 2019-08-26 一种基于跨网络特征映射的节点信息获取方法及其装置 Active CN110489567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910787798.1A CN110489567B (zh) 2019-08-26 2019-08-26 一种基于跨网络特征映射的节点信息获取方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910787798.1A CN110489567B (zh) 2019-08-26 2019-08-26 一种基于跨网络特征映射的节点信息获取方法及其装置

Publications (2)

Publication Number Publication Date
CN110489567A CN110489567A (zh) 2019-11-22
CN110489567B true CN110489567B (zh) 2022-03-22

Family

ID=68554024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910787798.1A Active CN110489567B (zh) 2019-08-26 2019-08-26 一种基于跨网络特征映射的节点信息获取方法及其装置

Country Status (1)

Country Link
CN (1) CN110489567B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090814B (zh) * 2019-12-30 2021-02-09 四川大学 基于度惩罚的迭代式跨社交网络用户账号关联方法
CN111160483B (zh) * 2019-12-31 2023-03-17 杭州师范大学 一种基于多分类器融合模型的网络关系类型预测方法
CN113298223B (zh) * 2020-02-24 2023-12-26 中科寒武纪科技股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN111476673A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 基于神经网络的社交网络间用户对齐的方法、装置、介质
WO2021196240A1 (zh) * 2020-04-03 2021-10-07 清华大学 面向跨网络的表示学习算法
CN111695260B (zh) * 2020-06-12 2022-06-21 上海大学 一种材料性能预测方法及系统
CN113409157B (zh) * 2021-05-19 2022-06-28 桂林电子科技大学 一种跨社交网络用户对齐方法以及装置
CN114677322B (zh) * 2021-12-30 2023-04-07 东北农业大学 基于注意力引导点云特征学习的奶牛体况自动评分方法
CN116579403A (zh) * 2022-01-29 2023-08-11 华为技术有限公司 一种数据处理方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090971A (zh) * 2014-07-17 2014-10-08 中国科学院自动化研究所 面向个性化应用的跨网络行为关联方法
CN109271522A (zh) * 2018-11-20 2019-01-25 深圳大学 基于深度混合模型迁移学习的评论情感分类方法及系统
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法
CN109919316A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 获取网络表示学习向量的方法、装置和设备及存储介质
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6435581B2 (ja) * 2015-01-29 2018-12-12 パナソニックIpマネジメント株式会社 転移学習装置、転移学習システム、転移学習方法およびプログラム
US10817650B2 (en) * 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090971A (zh) * 2014-07-17 2014-10-08 中国科学院自动化研究所 面向个性化应用的跨网络行为关联方法
CN109271522A (zh) * 2018-11-20 2019-01-25 深圳大学 基于深度混合模型迁移学习的评论情感分类方法及系统
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN109919316A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 获取网络表示学习向量的方法、装置和设备及存储介质
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism;Pengfei Cao等;《Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing》;20181104;第182-192页 *
基于注意力的BiLSTM-CNN中文微博立场检测模型;白静等;《计算机应用与软件》;20180315(第03期);第266-274页 *
基于迁移学习的分层注意力网络情感分析算法;曲昭伟等;《计算机应用》;20180719(第11期);第3053-3056+3062页 *
有向动态网络中基于模体演化的链路预测方法;杜凡等;《计算机应用研究》;20180314(第05期);第1441-1445+1453页 *

Also Published As

Publication number Publication date
CN110489567A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110489567B (zh) 一种基于跨网络特征映射的节点信息获取方法及其装置
US11423233B2 (en) On-device projection neural networks for natural language understanding
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
WO2020228376A1 (zh) 文本处理方法、模型训练方法和装置
CN108153913B (zh) 回复信息生成模型的训练方法、回复信息生成方法及装置
CN111914067B (zh) 中文文本匹配方法及系统
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN111310439A (zh) 一种基于深度特征变维机制的智能语义匹配方法和装置
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN111274375A (zh) 一种基于双向gru网络的多轮对话方法及系统
US20230169271A1 (en) System and methods for neural topic modeling using topic attention networks
WO2022218139A1 (zh) 融合注意力机制的个性化搜索方法和搜索系统
Chen et al. Deep neural networks for multi-class sentiment classification
CN110597968A (zh) 一种回复选择方法及装置
CN111966811A (zh) 意图识别和槽填充方法、装置、可读存储介质及终端设备
Jing et al. News text classification and recommendation technology based on wide & deep-bert model
CN117235261A (zh) 一种多模态方面级情感分析方法、装置、设备及存储介质
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN112115347B (zh) 搜索结果的获取方法和装置及存储介质
CN116089618B (zh) 融合三元损失和标签嵌入的图注意力网络文本分类模型
CN113988081A (zh) 基于Coarse2Fine网络的相似问题匹配方法
CN117312551A (zh) 一种社交文本分类方法、系统、计算机设备和存储介质
CN112686052A (zh) 试题推荐及相关模型的训练方法、电子设备、存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant