CN114329232A - 一种基于科研网络的用户画像构建方法和系统 - Google Patents

一种基于科研网络的用户画像构建方法和系统 Download PDF

Info

Publication number
CN114329232A
CN114329232A CN202210008325.9A CN202210008325A CN114329232A CN 114329232 A CN114329232 A CN 114329232A CN 202210008325 A CN202210008325 A CN 202210008325A CN 114329232 A CN114329232 A CN 114329232A
Authority
CN
China
Prior art keywords
label
propagation
node
nodes
scientific research
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210008325.9A
Other languages
English (en)
Inventor
赵梦丽
张雪洁
金彦伶
朱云
韦一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202210008325.9A priority Critical patent/CN114329232A/zh
Publication of CN114329232A publication Critical patent/CN114329232A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于科研网络的用户画像构建方法和系统,基于论文合著数据构建科研网络图;输入一组节点的特征向量,通过一层多头注意力机制计算节点之间的注意力系数构建概率转移矩阵,使用一层单头注意力计算节点的更新特征,通过分类函数预测节点标签,并计算特征传播的损失;输入科研网络图和部分已知的节点标签向量,利用标签传播算法,计算标签传播的损失;通过特征传播和标签传播的损失求和得到自定义损失函数,对标签预测结果进行修正,最终输出预测的学者研究领域标签。该发明解决了用户画像获取标签方式单一的问题,充分利用学者的特征信息、标签信息及学者间关联结构信息,对未知节点的标签信息进行补全,提高了标签预测的准确率。

Description

一种基于科研网络的用户画像构建方法和系统
技术领域
本发明涉及一种基于科研网络的用户画像构建方法和系统,属于数据处理技术领域。
背景技术
随着科研领域的发展和互联网的快速扩张,科研网络中有大量的学者加入,科研社交网络中的学术资源呈现爆发式增长,出现了“信息过载”问题,信息过载限制了科研人员的有效信息获取能力,如何在海量学术资源中寻找领域相关的论文和学者信息,已成为科研社交网络亟待解决的问题。
用户画像为“信息过载”问题提供了理想化解决方案,目前,主流的面向社交网络的用户画像构建方法主要包括基于知识图谱的传播方法、基于图神经网络的传播方法、基于自然语言处理的标签传播算法。然而,普通用户的在线社交可以通过用户之间的转发、评论、点赞、浏览等数据构建社交网络图,但科研人员之间的社交只能通过引用、论文合著数据建立连接关系,方式相对单一,导致边密度稀疏,学者之间的关联性不强,使得面向社交网络的用户画像构建方法不能充分挖掘学者的关联结构信息,降低标签预测的准确性。
发明内容
发明目的:针对面向社交网络的用户画像构建方法不能充分利用用户之间关联结构信息的问题,本发明提供一种基于科研网络的用户画像构建方法和系统,考虑利用标签传播算法改进图注意力网络,由于标签传播算法假设用户拥有相同的标签,可以增加用户之间的关联程度,有效解决科研社交网络边密度稀疏的问题,以科研社交网络为切入点,融合相邻用户的关联结构、特征和标签信息预测未知用户的标签,本发明方法打破了用户画像获取标签方式单一的局限,充分挖掘科研人员之间的关联,从学者的社交维度完善用户画像。
技术方案:一种基于科研网络的用户画像构建方法,包括以下步骤:
(1)数据预处理:基于论文合著数据信息,以学者为节点,学者之间的合著关系为边,构建科研社交网络图,将节点特征通过独热编码处理为特征向量,将已知节点的标签通过独热编码转换为标签向量。
(2)特征传播:将科研社交网络图结构以及节点特征作为特征传播层的输入,特征传播层是在图卷积神经网络中嵌入层级注意力机制,具体操作是利用一层多头注意力机制对相邻的成对节点分别计算注意力相似性系数,将注意力相似性系数进行归一化操作之后得到概率转移矩阵,将概率转移矩阵与学者原始特征向量线性变换得到更新后的学者特征,最后利用一层单头注意力对更新后的学者特征进行融合,并用softmax激活函数进行标签分类,预测节点活跃的研究领域标签。
(3)标签传播:将科研社交网络图结构以及已知的部分学者的标签向量作为标签传播层的输入,标签传播层是指标签传播算法,通过标签传播算法实现标签的传播。
(4)用户画像的标签预测:根据特征传播层和标签传播层的损失计算求和得到自定义的损失函数,将其最小化处理帮助特征传播层学习优化器,将优化器反馈到特征传播层学习最终的节点表示,最终的输出结果即为预测得到的学者的研究领域标签。
在标签传播过程中,保持已标记的数据的标签不变,使其将标签通过传播矩阵传给未标注的数据。最终,节点的标签传播趋于稳定,此时通过交叉熵损失函数计算标签传播的损失。
所述数据预处理中,基于论文合著数据信息,以学者为节点,学者之间论文合著关系为边,构建可量化科研用户合作关系的科研社交网络图。
科研社交网络图表示为G=(V,A,X,L),其中,G表示科研社交网络图的名称,V表示节点集合,代表学者;A表示邻接矩阵,代表学者之间的合著关系;X表示学者的特征集合,即节点特征集合,节点特征代表每个作者论文的关键词,特征向量构建方法为:利用独热编码将包含的特征标为1,不包含的标为0;L表示部分学者拥有的标签集合,标签代表学者最活跃的研究领域标签,标签向量的构建方法为:利用独热编码将出现的标签标为1,没出现的标签标为0。
特征传播过程中,在图卷积神经网络(GCN)结构中添加层级注意力机制,首先利用多头注意力机制层对邻居节点的特征进行聚合,实现根据不同合作关系的权值自适应匹配,得到注意力系数,并通过归一化操作得到概率转移矩阵;然后,将各节点的原始特征向量与概率转移矩阵相乘,计算得到各个节点更新后的特征信息;最后利用一层单头注意力机制对得到的更新后的节点特征进行融合,并用softmax激活函数进行标签分类,预测节点活跃的研究领域标签。特征传播进一步包含以下步骤:
2.1)输入:将科研社交网络图及一组节点特征向量作为特征传播层的输入,学者的特征向量集合为
Figure BDA0003457875940000021
其中N是节点的个数,F是节点特征的维度;
2.2)计算概率转移矩阵:以某节点为中心,计算其相邻节点的注意力相似性系数,则该节点称为中心节点,相邻节点称为邻居节点;利用多头注意力机制计算每一个中心节点和其一阶相邻节点之间的注意力相似性系数,通过softmax激活函数进行归一化操作,得到概率转移矩阵μij,计算公式如下:
Figure BDA0003457875940000022
其中,下标i、j表示节点i和节点j,
Figure BDA0003457875940000031
表示节点i的特征向量,W表示一个可训练的权值矩阵,||表示拼接操作,
Figure BDA0003457875940000032
表示可学习的注意力参数;
Figure BDA0003457875940000033
表示对输入特征向量进行线性变换,通过||操作将节点i和节点j变换后的特征向量拼接在一起,与注意力权重做点积运算,计算得到节点i和节点j之间的注意力相似性系数,该系数表示节点j对节点i的重要性;最后通过softmax函数对注意力相似性系数进行归一化,得到概率转移矩阵;
2.3)特征传播:由于科研网络社交图中节点特征较多,为了提高计算效率,使用多头注意力机制进行特征传播,多头注意力的本质是并发执行计算邻居之间概率权重,将节点的特征向量与通过多头注意力机制计算得到的概率转移矩阵结合,即中心节点的更新特征是相邻节点特征的加权平均,
Figure BDA0003457875940000034
表示节点i更新后的特征,计算公式为:
Figure BDA0003457875940000035
其中
Figure BDA0003457875940000036
表示通过第k头注意力计算得到的概率转移矩阵,ij,j∈N(i)表示节点i及其邻居节点,
Figure BDA0003457875940000037
表示邻居节点j的特征,σ(·)表示激活函数;公式表示首先通过多头注意力机制得到节点i的部分更新特征,然后将k头注意力机制得到的部分更新特征拼接,得到节点i的更新特征;
2.4)通过单头的注意力网络层融合各个节点更新后的特征,输出一组更新特征向量,根据输入的N个节点特征输出更新特征,设这个新的预测特征向量的节点特征维度为F’,表示为
Figure BDA0003457875940000038
2.5)标签预测:利用softmax激活函数对节点特征对应的研究领域标签预测,利用交叉熵函数计算预测标签与真实标签的误差损失,并利用损失函数和梯度下降函数对特征传播过程调优实现学者研究领域标签预测任务。
标签传播过程中,标签传播算法(LPA)的基本假设为相连的节点可能拥有相同的标签,即相连的学者可能含有相同的研究方向或研究兴趣,因此迭代式的沿边传播标签,可以补充缺失的节点的标签信息,进一步包括以下内容:
3.1)模型输入:将科研社交网络图G中的标签向量L和邻接矩阵A作为标签传播过程的输入,初始化时将有标签节点设置为one-hot向量,将无标签节点设置为零向量;
3.2)标签传播:令
Figure BDA0003457875940000039
为第k次迭代中的标签矩阵,其中迭代指不断重复标签传播的过程,元素
Figure BDA00034578759400000310
代表k次迭代中节点标签的预测分布,k次迭代后的标签传播的计算公式如下:
Lk+1=D-1AL(k)
其中,A表示邻接矩阵,D为对角矩阵,数值由邻接矩阵A中对应行元素求和得到,公式表示标签沿边进行标签传递;
3.3)保留已标记节点:因为部分已知学者的标签信息是确定的,因此传播完成后,需重新将已知用户节点的标签设为原始标签;
3.4)LPA中的最终标签是邻居节点的加权平均,利用tensorflow中的交叉熵损失函数计算标签传播的损失。
用户画像的标签预测中,将特征传播和标签传播的损失函数求和构造自定义损失函数,利用损失函数对特征传播的标签预测结果优化,提高标签预测的准确度,进一步包括以下内容;
通过特征传播和标签传播提取相邻节点的特征、标签和关联结构信息,进行学者的研究领域标签预测,自定义损失函数loss的计算公式如下:
Figure BDA0003457875940000041
其中,
Figure BDA0003457875940000042
表示计算特征传播过程中的损失,
Figure BDA0003457875940000043
表示计算标签传播过程的损失,公式表示分别计算标签传播和特征传播过程中真实标签与预测标签之间的损失,通过求和操作得到自定义损失函数。然后对损失最小化处理学习优化器,利用优化器对嵌入层级注意力机制的图卷积神经网络进行修正,提高学者标签预测的准确度。
一种基于科研网络的用户画像构建系统,其特征在于,包括:
(1)数据预处理模块:基于论文合著数据信息,以学者为节点,学者之间的合著关系为边,构建科研社交网络图,将节点特征通过处理为特征向量,将已知节点的标签转换为标签向量;
(2)特征传播模块:将科研社交网络图结构以及节点特征作为特征传播层的输入,特征传播层是在图卷积神经网络中嵌入层级注意力机制,利用一层多头注意力机制对相邻的成对节点分别计算注意力相似性系数,将注意力相似性系数进行归一化操作之后得到概率转移矩阵,将概率转移矩阵与学者原始特征向量线性变换得到更新后的学者特征,最后利用一层单头注意力对更新后的学者特征进行融合,并进行标签分类,预测节点活跃的研究领域标签;
(3)标签传播模块:将科研社交网络图结构以及已知的部分学者的标签向量作为标签传播层的输入,标签传播层是指标签传播算法,通过标签传播算法实现标签的传播;
(4)用户画像的标签预测模块:根据特征传播层和标签传播层的损失计算求和得到自定义的损失函数,将其最小化处理帮助特征传播层学习优化器,将优化器反馈到特征传播层学习最终的节点表示,最终的输出结果即为预测得到的学者的研究领域标签。
系统的实现过程与方法实现过程相同。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于科研网络的用户画像构建方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于科研网络的用户画像构建方法的计算机程序。
与现有技术相比,本发明的有益效果是:面向科研网络的用户画像构建方法通过在图卷积神经网络中嵌入注意力模块并与标签传播算法融合,实现对未知学者的标签预测。该方法通过融合相邻节点的特征和标签信息实现中心节点的标签预测;自注意力机制能够根据节点间的关联结构对论文合著作者信息进行聚合,对不同学者(节点)关系的权值自适应匹配;标签传播算法能提取节点之间的关联结构,增加关联节点间的边权重;在GCN中嵌入自注意力模块并与LPA算法融合,能充分挖掘学者的特征、标签信息及学者之间的关联结构信息,对缺失、未知学者的标签信息进行补全,获取更加准确的用户标签,进而提高用户画像的准确率,完善用户画像的构建。
附图说明
图1为本发明实施例提供的基于科研网络的用户画像构建方法的流程图;
图2为本发明实施例的特征传播方法的流程图;
图3为本发明实施例的科研社交网络的结构示意图;
图4为本发明实施例中的标签传播方法的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于科研网络的用户画像构建方法的流程图,其工作过程如下所描述:
1)基于科研学者的论文合著者的数据信息,以学者为节点,节点之间论文合著关系为边,构建可量化学者合作关系的科研社交网络图。构建科研社交网络图时,利用独热编码(OneHot Encoding)将节点特征处理为特征向量,利用csr_matrix对学者的特征值压缩,构建稀疏矩阵;利用独热编码将已有的节点标签处理为标签向量,利用csr_matrix或networks方法根据节点之间的关联构建邻接矩阵,即利用学者之间的关系绘制科研社交网络图,科研社交网络可表示为G=(V,A,X,L),其中,G是由节点和节点合作关系组成的无向图名称,V是节点组成的节点集合,A表示基于用户间关联构建的邻接矩阵,A={ai1,ai2,ai3,···aij};X表示节点特征集合,
Figure BDA0003457875940000061
L表示标签集合,仅部分节点拥有标签,标签集合为L={1,···,c}。本实施例中构建科研社交网络的数据集主要指论文合著数据集(Co-auther Dataset),该数据集被划分为训练集、验证集和测试集,节点代表学者,节点特征代表每个学者的论文关键词,标签代表每个学者最活跃的研究领域;
2)特征传播:将科研社交网络图结构以及节点特征作为特征传播层的输入,特征传播层是在图卷积神经网络中嵌入层级注意力机制,具体操作是利用利用一层多头注意力机制对相邻的成对节点分别计算注意力相似性系数,将注意力相似性系数进行归一化操作之后得到概率转移矩阵,将概率转移矩阵与学者原始特征向量线性变换得到更新后的学者特征,最后利用一层单头注意力对更新后的学者特征进行融合,并用softmax激活函数进行标签分类,预测节点活跃的研究领域标签。
3)标签传播:将科研社交网络图结构以及已知的部分学者的标签向量作为标签传播层的输入,标签传播层是指利用标签传播算法实现标签的传播,在标签传播过程中,保持已标记的数据的标签不变,使其将标签通过传播矩阵传给未标注的数据,最终用户节点的标签传播趋于稳定,此时通过交叉熵损失函数计算标签传播的损失。
4)用户画像的标签预测:根据特征传播层和标签传播层的损失计算求和得到自定义损失函数,并将损失最小化处理学习优化器,将自定义损失函数和优化器反馈到添加层级注意力机制的GCN中学习学者的特征表示,最终的输出结果即为预测得到的学者的研究领域标签。
图2为本实施例的特征传播的流程图,在图卷积神经网络结构中添加层级注意力机制,首先利用多头注意力机制层对邻居节点的特征进行聚合,实现根据不同合作关系的权值自适应匹配,得到注意力系数,并通过归一化操作得到概率转移矩阵;然后将各节点的原始特征向量与概率转移矩阵相乘,计算得到各个节点更新后的特征信息;最后利用一层单头注意力机制对得到的更新后的节点特征进行融合,并用softmax激活函数进行标签分类,预测节点活跃的研究领域标签。特征传播进一步包含以下步骤:
Step:1:将数据预处理之后得到的科研社交网络以及一组节点特征向量作为特征传播层的输入,节点的特征向量集合为
Figure BDA0003457875940000062
其中N是节点的个数,F是节点特征的维度,设置图卷积神经网络超参数,包括批处理大小(batch_size)、周期(epochs)、耐受率(patience)、学习率(lr)、权重损失(l2_coef)、注意力头数(hid_units)、最后一层注意力数量(n_heads);
Step2:训练多头注意力机制:使用多头注意力机制分别计算中心节点和其相邻节点之间的注意力系数,如附图3所示,对于节点i,邻接节点有学者u1、学者u2、学者u3和学者u4,通过注意力机制量化邻接学者对中心节点的重要性,其中,学者i对学者u1的重要性与学者u1对学者i的重要性不同,节点i与节点j之间的注意力系数αij的计算公式如下:
Figure BDA0003457875940000071
其中,W表示可训练的权值矩阵,W∈RF'×F,通过权值矩阵对输入的特征向量进行至少一次的线性变换,得到输出的特征维度,
Figure BDA0003457875940000072
代表注意力机制的参数,公式代表将两个相邻节点的输入特征线性变换后进行拼接操作,然后与注意力参数
Figure BDA0003457875940000073
做点积运算,得到注意力系数;
Step3:计算概率转移矩阵:通过softmax对注意力系数进行归一化操作,利用μij=softmax(αij)得到节点i和节点j之间的概率转移矩阵μij
Step4:特征传播:由于科研网络社交图中节点特征较多,为了提高计算效率,使用多头注意力机制进行特征传播,多头注意力的本质是并发的给邻居节点分配权重,将节点的特征向量与通过多头注意力机制计算得到的概率转移矩阵结合,即中心节点的更新特征是相邻学者节点特征的加权平均,
Figure BDA0003457875940000074
表示节点i更新后的特征,计算公式为:
Figure BDA0003457875940000075
其中,
Figure BDA0003457875940000076
表示通过第k头注意力计算得到的概率转移矩阵,ij,j∈N(i)表示节点i及其邻居节点,
Figure BDA0003457875940000077
表示邻居节点j的特征向量,σ(·)采用激活函数Relu;公式表示首先通过多头注意力机制得到节点i的部分更新特征,然后将k头注意力机制得到的部分更新特征拼接,得到节点i的更新特征;
Step5:通过一层单头注意力机制融合各个节点更新后的特征,输出一组更新的特征向量,即根据输入的N个节点特征输出更新特征,设这个新的预测特征向量的节点特征维度为F’,输出特征可以表示为
Figure BDA0003457875940000078
Step6:标签预测:利用softmax激活函数对节点特征对应的研究领域标签预测,利用交叉熵函数计算训练集中预测特征值与真实值的损失,并利用损失函数和梯度下降函数对特征传播过程调优,实现学者研究领域标签预测任务。
图4为本发明方法中标签传播的流程图。LPA的基本假设为相连的节点可能拥有相同的标签,即相连的学者可能含有相同的研究领域,进一步包括以下内容:
Step1:输入:将科研社交网络图G中的有标签的部分节点、无标签的节点和邻接矩阵A作为标签传播过程的输入,初始化时将有标签节点设置为one-hot向量,将无标签节点设置为零向量;
Step2:迭代标签传播算法:令
Figure BDA0003457875940000081
为第k次迭代中的标签矩阵,其中元素li (k)代表k次迭代中学者标签的预测分布,k次迭代后的标签传播的计算公式如下:
Lk+1=D-1AL(k)
其中,A表示邻接矩阵,D为对角矩阵,数值由邻接矩阵A中对应行元素求和得到,公式表示根据用户之间的关联程度得到传播概率矩阵,每个用户节点按概率矩阵将周围用户节点传播的标签值按权重相加,并更新到自己的概率分布;
Step3:保留已标记节点:因为LPA希望能保留已知学者的标签信息,公式如下:
Figure BDA0003457875940000082
其中,
Figure BDA0003457875940000083
表示原始标签,公式表示传播完成后,需重新将已知用户节点的标签
Figure BDA0003457875940000084
设为原始标签;
Step4:标签预测:通过多次迭代上述Step2、3获得稳定的标签传播结果;
Step5:计算标签传播层的损失:LPA中的最终标签是邻居节点的加权平均,利用tensorflow中的交叉熵损失函数计算标签传播的损失(loss),即真实标签与预测标签之间的误差。
用户画像的标签预测:利用标签传播提取节点之间的关联结构信息,将结果反馈到特征传播层进而提高标签预测的准确度,进一步包括以下内容:
通过特征传播和标签传播提取相邻节点的特征、标签和关联结构信息,进行节点的研究领域标签预测,自定义损失函数loss的计算公式如下:
Figure BDA0003457875940000085
其中,
Figure BDA0003457875940000086
表示计算特征传播过程中的损失,
Figure BDA0003457875940000087
表示计算标签传播过程的损失,公式表示分别计算标签传播和特征传播过程中真实标签与预测标签之间的损失,通过求和操作得到自定义损失函数。然后对损失最小化处理学习优化器,利用优化器对嵌入层级注意力机制的图卷积神经网络进行修正,提高学者标签预测的准确度。
根据以上实施例可知,本发明实现了一种面向科研网络的用户画像构建方法,在图卷积神经网络中嵌入注意力模块并与标签传播算法融合,实现对未知节点的标签预测。该方法充分利用节点的特征、标签信息及节点之间的关联结构信息,通过层级注意力机制对不同学者关系的权重进行计算,根据相邻用户的特征和标签对缺失、未知节点的标签信息进行补全,提高用户标签预测的准确率,进而实现用户画像的精准构建。
一种基于科研网络的用户画像构建系统,其特征在于,包括:
(1)数据预处理模块:基于论文合著数据信息,以学者为节点,学者之间的合著关系为边,构建科研社交网络图,将节点特征通过处理为特征向量,将已知节点的标签转换为标签向量;
(2)特征传播模块:将科研社交网络图结构以及节点特征作为特征传播层的输入,特征传播层是在图卷积神经网络中嵌入层级注意力机制,利用一层多头注意力机制对相邻的成对节点分别计算注意力相似性系数,将注意力相似性系数进行归一化操作之后得到概率转移矩阵,将概率转移矩阵与学者原始特征向量线性变换得到更新后的学者特征,最后利用一层单头注意力对更新后的学者特征进行融合,并进行标签分类,预测节点活跃的研究领域标签;
(3)标签传播模块:将科研社交网络图结构以及已知的部分学者的标签向量作为标签传播层的输入,标签传播层是指标签传播算法,通过标签传播算法实现标签的传播;
(4)用户画像的标签预测模块:根据特征传播层和标签传播层的损失计算求和得到自定义的损失函数,将其最小化处理帮助特征传播层学习优化器,将优化器反馈到特征传播层学习最终的节点表示,最终的输出结果即为预测得到的学者的研究领域标签。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于科研网络的用户画像构建方法各步骤或基于科研网络的用户画像构建系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种基于科研网络的用户画像构建方法,其特征在于,包括以下步骤:
(1)数据预处理:基于论文合著数据信息,以学者为节点,学者之间的合著关系为边,构建科研社交网络图,将节点特征通过处理为特征向量,将已知节点的标签转换为标签向量;
(2)特征传播:将科研社交网络图结构以及节点特征作为特征传播层的输入,特征传播层是在图卷积神经网络中嵌入层级注意力机制,利用一层多头注意力机制对相邻的成对节点分别计算注意力相似性系数,将注意力相似性系数进行归一化操作之后得到概率转移矩阵,将概率转移矩阵与学者原始特征向量线性变换得到更新后的学者特征,最后利用一层单头注意力对更新后的学者特征进行融合,并进行标签分类,预测节点活跃的研究领域标签;
(3)标签传播:将科研社交网络图结构以及已知的部分学者的标签向量作为标签传播层的输入,标签传播层是指标签传播算法,通过标签传播算法实现标签的传播;
(4)用户画像的标签预测:根据特征传播层和标签传播层的损失计算求和得到自定义的损失函数,将其最小化处理帮助特征传播层学习优化器,将优化器反馈到特征传播层学习最终的节点表示,最终的输出结果即为预测得到的学者的研究领域标签。
2.根据权利要求1所述的基于科研网络的用户画像构建方法,其特征在于,在标签传播过程中,保持已标记的数据的标签不变,使其将标签通过传播矩阵传给未标注的数据;最终,节点的标签传播趋于稳定,此时通过交叉熵损失函数计算标签传播的损失。
3.根据权利要求1所述的基于科研网络的用户画像构建方法,其特征在于,所述数据预处理中,基于论文合著数据信息,以学者为节点,学者之间论文合著关系为边,构建可量化科研用户合作关系的科研社交网络图;科研社交网络图表示为G=(V,A,X,L),其中,G表示科研社交网络图的名称,V表示节点集合,代表学者;A表示邻接矩阵,代表学者之间的合著关系;X表示学者的特征集合,即节点特征集合,节点特征代表每个作者论文的关键词,特征向量构建方法为:利用独热编码将包含的特征标为1,不包含的标为0;L表示部分学者拥有的标签集合,标签代表学者最活跃的研究领域标签,标签向量的构建方法为:利用独热编码将出现的标签标为1,没出现的标签标为0。
4.根据权利要求1所述的基于科研网络的用户画像构建方法,其特征在于,特征传播过程中,在图卷积神经网络(GCN)结构中添加层级注意力机制,首先利用多头注意力机制层对邻居节点的特征进行聚合,实现根据不同合作关系的权值自适应匹配,得到注意力系数,并通过归一化操作得到概率转移矩阵;然后,将各节点的原始特征向量与概率转移矩阵相乘,计算得到各个节点更新后的特征信息;最后利用一层单头注意力机制对得到的更新后的节点特征进行融合,并用softmax激活函数进行标签分类,预测节点活跃的研究领域标签。
5.根据权利要求1所述的基于科研网络的用户画像构建方法,其特征在于,特征传播进一步包含以下步骤:
2.1)输入:将科研社交网络图及一组节点特征向量作为特征传播层的输入,学者的特征向量集合为
Figure FDA0003457875930000021
其中N是节点的个数,F是节点特征的维度;
2.2)计算概率转移矩阵:以某节点为中心,计算其相邻节点的注意力相似性系数,则该节点称为中心节点,相邻节点称为邻居节点;利用多头注意力机制计算每一个中心节点和其一阶相邻节点之间的注意力相似性系数,通过softmax激活函数进行归一化操作,得到概率转移矩阵μij
2.3)特征传播:使用多头注意力机制进行特征传播,多头注意力的本质是并发执行计算邻居之间概率权重,将节点的特征向量与通过多头注意力机制计算得到的概率转移矩阵结合,即中心节点的更新特征是相邻节点特征的加权平均;首先通过多头注意力机制得到节点i的部分更新特征,然后将k头注意力机制得到的部分更新特征拼接,得到节点i的更新特征;
2.4)通过单头的注意力网络层融合各个节点更新后的特征,输出一组更新特征向量,根据输入的N个节点特征输出更新特征,设这个新的预测特征向量的节点特征维度为F’,表示为
Figure FDA0003457875930000022
2.5)标签预测:利用softmax激活函数对节点特征对应的研究领域标签预测,利用交叉熵函数计算预测标签与真实标签的误差损失,并利用损失函数和梯度下降函数对特征传播过程调优实现学者研究领域标签预测任务。
6.根据权利要求1所述的基于科研网络的用户画像构建方法,其特征在于,标签传播过程中,标签传播算法的基本假设为相连的节点可能拥有相同的标签,即相连的学者可能含有相同的研究方向或研究兴趣,因此迭代式的沿边传播标签,可以补充缺失的节点的标签信息,具体包括以下内容:
3.1)模型输入:将科研社交网络图G中的标签向量L和邻接矩阵A作为标签传播过程的输入,初始化时将有标签节点设置为one-hot向量,将无标签节点设置为零向量;
3.2)标签传播:令
Figure FDA0003457875930000023
为第k次迭代中的标签矩阵,其中迭代指不断重复标签传播的过程,元素li (k)代表k次迭代中节点标签的预测分布,k次迭代后的标签传播的计算公式如下:
Lk+1=D-1AL(k)
其中,A表示邻接矩阵,D为对角矩阵,数值由邻接矩阵A中对应行元素求和得到,公式表示标签沿边进行标签传递;
3.3)保留已标记节点:因为部分已知学者的标签信息是确定的,因此传播完成后,需重新将已知用户节点的标签设为原始标签;
3.4)LPA中的最终标签是邻居节点的加权平均,利用tensorflow中的交叉熵损失函数计算标签传播的损失。
7.根据权利要求1所述的基于科研网络的用户画像构建方法,其特征在于,用户画像的标签预测中,将特征传播和标签传播的损失函数求和构造自定义损失函数,利用损失函数对特征传播的标签预测结果优化,提高标签预测的准确度,包括以下内容;
通过特征传播和标签传播提取相邻节点的特征、标签和关联结构信息,进行学者的研究领域标签预测,自定义损失函数loss的计算公式如下:
Figure FDA0003457875930000031
其中,
Figure FDA0003457875930000033
表示计算特征传播过程中的损失,
Figure FDA0003457875930000032
表示计算标签传播过程的损失,公式表示分别计算标签传播和特征传播过程中真实标签与预测标签之间的损失,通过求和操作得到自定义损失函数;然后对损失最小化处理学习优化器,利用优化器对嵌入层级注意力机制的图卷积神经网络进行修正,提高学者标签预测的准确度。
8.一种基于科研网络的用户画像构建系统,其特征在于,包括:
(1)数据预处理模块:基于论文合著数据信息,以学者为节点,学者之间的合著关系为边,构建科研社交网络图,将节点特征通过处理为特征向量,将已知节点的标签转换为标签向量;
(2)特征传播模块:将科研社交网络图结构以及节点特征作为特征传播层的输入,特征传播层是在图卷积神经网络中嵌入层级注意力机制,利用一层多头注意力机制对相邻的成对节点分别计算注意力相似性系数,将注意力相似性系数进行归一化操作之后得到概率转移矩阵,将概率转移矩阵与学者原始特征向量线性变换得到更新后的学者特征,最后利用一层单头注意力对更新后的学者特征进行融合,并进行标签分类,预测节点活跃的研究领域标签;
(3)标签传播模块:将科研社交网络图结构以及已知的部分学者的标签向量作为标签传播层的输入,标签传播层是指标签传播算法,通过标签传播算法实现标签的传播;
(4)用户画像的标签预测模块:根据特征传播层和标签传播层的损失计算求和得到自定义的损失函数,将其最小化处理帮助特征传播层学习优化器,将优化器反馈到特征传播层学习最终的节点表示,最终的输出结果即为预测得到的学者的研究领域标签。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于科研网络的用户画像构建方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的基于科研网络的用户画像构建方法的计算机程序。
CN202210008325.9A 2022-01-06 2022-01-06 一种基于科研网络的用户画像构建方法和系统 Pending CN114329232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210008325.9A CN114329232A (zh) 2022-01-06 2022-01-06 一种基于科研网络的用户画像构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210008325.9A CN114329232A (zh) 2022-01-06 2022-01-06 一种基于科研网络的用户画像构建方法和系统

Publications (1)

Publication Number Publication Date
CN114329232A true CN114329232A (zh) 2022-04-12

Family

ID=81025291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210008325.9A Pending CN114329232A (zh) 2022-01-06 2022-01-06 一种基于科研网络的用户画像构建方法和系统

Country Status (1)

Country Link
CN (1) CN114329232A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115641955A (zh) * 2022-10-19 2023-01-24 哈尔滨工业大学 基于深度学习的胃癌分期判别系统及存储介质
CN116032665A (zh) * 2023-03-28 2023-04-28 北京芯盾时代科技有限公司 一种网络群体的发现方法、装置、设备及存储介质
CN116089722A (zh) * 2023-02-15 2023-05-09 北京欧拉认知智能科技有限公司 基于图产出标签的实现方法、装置、计算设备和存储介质
CN116127386A (zh) * 2023-04-19 2023-05-16 浪潮电子信息产业股份有限公司 一种样本分类方法、装置、设备和计算机可读存储介质
CN116151354A (zh) * 2023-04-10 2023-05-23 之江实验室 网络节点的学习方法、装置、电子装置和存储介质
CN117274726A (zh) * 2023-11-23 2023-12-22 南京信息工程大学 一种基于多视角补标签的图片分类方法与系统
CN117422530A (zh) * 2023-12-19 2024-01-19 深圳华强电子交易网络有限公司 电子元器件信息推送方法、装置及电子设备
CN117671165A (zh) * 2023-10-19 2024-03-08 兰州交通大学 一种基于图注意力网络的dem数据综合方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115641955A (zh) * 2022-10-19 2023-01-24 哈尔滨工业大学 基于深度学习的胃癌分期判别系统及存储介质
CN116089722A (zh) * 2023-02-15 2023-05-09 北京欧拉认知智能科技有限公司 基于图产出标签的实现方法、装置、计算设备和存储介质
CN116089722B (zh) * 2023-02-15 2023-11-21 北京欧拉认知智能科技有限公司 基于图产出标签的实现方法、装置、计算设备和存储介质
CN116032665A (zh) * 2023-03-28 2023-04-28 北京芯盾时代科技有限公司 一种网络群体的发现方法、装置、设备及存储介质
CN116151354A (zh) * 2023-04-10 2023-05-23 之江实验室 网络节点的学习方法、装置、电子装置和存储介质
CN116127386A (zh) * 2023-04-19 2023-05-16 浪潮电子信息产业股份有限公司 一种样本分类方法、装置、设备和计算机可读存储介质
CN116127386B (zh) * 2023-04-19 2023-08-08 浪潮电子信息产业股份有限公司 一种样本分类方法、装置、设备和计算机可读存储介质
CN117671165A (zh) * 2023-10-19 2024-03-08 兰州交通大学 一种基于图注意力网络的dem数据综合方法
CN117274726A (zh) * 2023-11-23 2023-12-22 南京信息工程大学 一种基于多视角补标签的图片分类方法与系统
CN117274726B (zh) * 2023-11-23 2024-02-23 南京信息工程大学 一种基于多视角补标签的图片分类方法与系统
CN117422530A (zh) * 2023-12-19 2024-01-19 深圳华强电子交易网络有限公司 电子元器件信息推送方法、装置及电子设备
CN117422530B (zh) * 2023-12-19 2024-03-26 深圳华强电子交易网络有限公司 电子元器件信息推送方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN114329232A (zh) 一种基于科研网络的用户画像构建方法和系统
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN112905891B (zh) 基于图神经网络的科研知识图谱人才推荐方法及装置
CN110674323B (zh) 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN111160564B (zh) 一种基于特征张量的中文知识图谱表示学习方法
Shafiee et al. Deep learning with Darwin: Evolutionary synthesis of deep neural networks
Li et al. An efficient manifold regularized sparse non-negative matrix factorization model for large-scale recommender systems on GPUs
Li et al. Multi-reservoir echo state networks with sequence resampling for nonlinear time-series prediction
Xue et al. Optimizing ontology alignment through memetic algorithm based on partial reference alignment
Jia et al. Adaptive neighborhood propagation by joint L2, 1-norm regularized sparse coding for representation and classification
Chen et al. Binarized neural architecture search for efficient object recognition
CN116095089B (zh) 遥感卫星数据处理方法及系统
Li et al. A deep graph structured clustering network
CN115661550A (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
Liu et al. EACP: An effective automatic channel pruning for neural networks
Li et al. A competitive variable-fidelity surrogate-assisted CMA-ES algorithm using data mining techniques
CN114386582A (zh) 一种基于对抗训练注意力机制的人体动作预测方法
Sun et al. Dynamic Intelligent Supply-Demand Adaptation Model Towards Intelligent Cloud Manufacturing.
CN116244484B (zh) 一种面向不平衡数据的联邦跨模态检索方法及系统
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
Tian et al. Interval type-2 fuzzy logic for semisupervised multimodal hashing
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN111553475A (zh) 一种基于随机嵌入技术的高维多模式演化优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination