CN115186086A - 一种异构环境下嵌入预期价值的文献推荐方法 - Google Patents

一种异构环境下嵌入预期价值的文献推荐方法 Download PDF

Info

Publication number
CN115186086A
CN115186086A CN202210745509.3A CN202210745509A CN115186086A CN 115186086 A CN115186086 A CN 115186086A CN 202210745509 A CN202210745509 A CN 202210745509A CN 115186086 A CN115186086 A CN 115186086A
Authority
CN
China
Prior art keywords
vector
document
heterogeneous
documents
literature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210745509.3A
Other languages
English (en)
Other versions
CN115186086B (zh
Inventor
戴涛
赵杰
周琦
李德鸿
何浩楠
权飞过
田顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN202210745509.3A priority Critical patent/CN115186086B/zh
Publication of CN115186086A publication Critical patent/CN115186086A/zh
Application granted granted Critical
Publication of CN115186086B publication Critical patent/CN115186086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种异构环境下嵌入预期价值的文献推荐方法,广泛应用于信息服务领域中的学术文献查询和检索过程中,包括如下步骤:构建初始向量,将文献网络转化为异构无向网络,利用异构图卷积将异构节点表示为节点向量,利用深度注意力层获取节点权重并优化节点向量,利用强化学习机制在节点向量中嵌入文献预期价值。本发明设计合理,结构清晰,使用便捷,可解决现有方法无法估计和利用文献预期价值的问题,以及无法多维度衡量节点贡献度的问题,减少推荐误差,提高了新发表文献的推荐效率和推荐精度。

Description

一种异构环境下嵌入预期价值的文献推荐方法
技术领域
本发明属于学术文献检索技术领域,具体涉及一种异构环境下嵌入预期价值的文献推荐方法。
背景技术
随着信息技术的快速发展,网络上的学术文献数量呈现指数级增长趋势。如何依据现有工作,在大量文献中快速定位和发现有引用价值的学术文献,是科研工作者,特别是初级科研工作者面临的难题。根据研究者现有工作,为其推荐合适的学术引文文献,是目前推荐领域研究的热点问题,具有重要的实际应用价值。
随着近年来深度神经网络技术,特别是图学习技术的进步,有些研究者提出用基于图卷积神经网络的方法来推荐学术文献。图神经网络利用设定好的网络结构,完全从训练数据中学习文献内容的层级结构性特征,能够提取更加接近文献内容高级语义的抽象特征,因此在文献推荐上的表现远远超过传统机器学习方法。同时图卷积神经网络能够利用文献间的关联关系,将链接信息嵌入文献特征中,能够有效还原文献网络结构,在特征表示上具有极大的优越性。
虽然图卷积神经网络能提取接近文献语义和链接的抽象特征,然而由于文献网络还包含作者和期刊等异构信息,图卷积神经网络难以挖掘和利用这些异构信息之间的深层关联关系,随着卷积层数的增加,更深层次的节点向量难以区分位于不同距离和不同类型节点的重要性,因此容易在节点表示学习过程中带来噪声。同时由于新文献的链接数量非常少,无法利用引用数预计新发表文献的价值信息,导致图卷积神经网络对新发表文献的推荐效果较差。
发明内容
本发明的目的是提供一种异构环境下嵌入预期价值的文献推荐方法,解决了现有文献推荐技术中无法多维度衡量文献网络中异构节点重要度,且对新发表文献推荐效果较差的问题。
为达上述目的,本发明提供了一种异构环境下嵌入预期价值的文献推荐方法,包括以下步骤:
S1:根据文献数据集构建初始特征向量;
S2:根据初始特征向量构建异构文献图;
S3:根据S2中的异构文献图构建异构图卷积网络,并将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量;
S4:构建深度注意力层,并利用注意力层获取每个卷积层的权重调节因子,然后利用权重调节因子生成所有的异构节点最终向量表示;
S5:将所获得的异构节点最终向量表示利用解码器还原文献网络结构;
S6:利用对抗生成机制,将文件预期价值信息嵌入文献向量中;
S7:针对每一篇候选文献计算得分,最终根据得分对文献进行推荐。
进一步的,所述步骤S1具体过程如下:
S1.1:根据文献数据集,对于每一篇文献,通过Word2Vec工具获取每个词的词向量,并将该文献中的词向量取平均获得文献初始向量;
S1.2:根据文献数据集,对于每一个作者,取其发表过的所有文献的初始向量并取平均,从而获得作者初始向量;
S1.3:根据文献数据集,对于每一个期刊,取其包含的所有文献的初始向量并取平均,从而获得期刊初始向量。
进一步的,所述步骤S2中异构文献图表示为G={X,E};
X={XP,XA,XJ},其表示三类不同节点的特征信息:XP表示所有文献向量特征,XA表示所有作者向量特征,XJ表示所有期刊向量特征,取值自于步骤S1初始特征向量;根据节点的不同,边集E={EPP,EPA,EPJ,EAA,EAJ,EJJ}含有六种不同类型,包括三种同构关联关系:EPP为文献引用信息、EAA为作者合著信息和EJJ为来源关联信息,以及三种异构关联关系:EPA为文献-作者关系、EPJ为文献-来源关系、EAJ为作者-来源关系。
进一步的,所述步骤S3中异构图卷积网络构成方法如下:
S301:首先基于步骤S2中的异构文献图,依据不同的节点和边信息构造六类邻接矩阵R={RPP,RPA,RPJ,RAA,RAJ,RJJ};
式中:
Figure BDA0003716713110000031
Figure BDA0003716713110000032
Figure BDA0003716713110000033
分别为文献-引用信息、文献-作者关系、文献-来源关系、作者-合著信息、作者-来源关系和来源关联信息所对应的领接矩阵,其中NP、NA和NJ分别表示数据集中文献、作者和期刊的总数;
S302:临界矩阵初始化,并根据初始化的邻接矩阵生成转置矩阵;
S303:基于邻接矩阵R构造增广邻接矩阵
Figure BDA0003716713110000034
Figure BDA0003716713110000035
式中:RAP、RJA和RJP分别为步骤S302中RPA、RAJ和RPJ的转置矩阵;
S304:基于R*构建L层异构图卷积层,其中第l层的异构图卷积过程为:
Figure BDA0003716713110000036
其中,Relu(·)表示修正线性单元函数,
Figure BDA0003716713110000041
为卷积核,ds表示卷积核宽度,
Figure BDA0003716713110000042
是基于R*构造的矩阵,其值为R*+I,其中
Figure BDA0003716713110000043
为单位矩阵,
Figure BDA0003716713110000044
表示异构图的度矩阵,
Figure BDA0003716713110000045
表示取度矩阵
Figure BDA0003716713110000046
的第i行第j列的数据,
Figure BDA0003716713110000047
表示取
Figure BDA0003716713110000048
矩阵的第i行第j列的数据,Zl表示深度图卷积网络第l层的数据特征,其中
Figure BDA0003716713110000049
由节点初始特征向量构成,Z0的构造方式分别为:
Figure BDA00037167131100000410
将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量,获得每一层的异构节点中间向量Z1,Z2,…,ZL
进一步的,所述步骤S4具体过程如下:
S4.1:构建三个可学习的投射向量
Figure BDA00037167131100000411
分别用于计算不同卷积层中的文献、作者和期刊向量权重,式中dα表示投射向量的长度;
S4.2:依据不同节点类型,将所有异构节点向量进行堆叠,获得关于文献、作者和来源的张量
Figure BDA00037167131100000412
Figure BDA00037167131100000413
然后利用下述过程为L个卷积层生成权重调节因子:
Figure BDA00037167131100000414
Figure BDA00037167131100000415
Figure BDA00037167131100000416
分别生成的所有卷积层中文献向量、作者向量和来源向量的权重因子;其中,σ(·)为sigmoid函数,softmax(·)为多分类函数,
Figure BDA00037167131100000417
为可学习的映射矩阵;
S4.3:根据三类权重调节因子,依据下式生成所有的异构节点最终向量表示:
Figure BDA0003716713110000051
其中,
Figure BDA0003716713110000052
表示Hadamard积,
Figure BDA0003716713110000053
表示向量加和取平均。
进一步的,所述步骤S5具体过程如下:
为保证所获异构节点表示的有效性,将最终异构节点最终向量表示输入解码器以概率
Figure BDA0003716713110000054
还原文献网络结构,其解码方式为最大化如下似然函数:
Figure BDA0003716713110000055
式中,N*=NP+NA+NJ表示节点总数,
Figure BDA0003716713110000056
Figure BDA0003716713110000057
表示
Figure BDA0003716713110000058
中任意两个节点向量,
Figure BDA0003716713110000059
为增广邻接矩阵R*
Figure BDA00037167131100000510
Figure BDA00037167131100000511
节点所对应的邻接值。
进一步的,所述步骤S6具体过程如下:
S6.1:构建文献幂律分布生成器:
将数据集中所有文献的被引次数在[0,C]范围内分为M个区间,其中引用次数超过C值的文献被归为第M个区间,定义h为某个被引次数区间,p(h)为该被引次数区间中的文章数量,则可以获得如下幂律分布:
p(h,C,α)=β(h)
式中,α和β是可估计参数;
S6.2:随机多批次选取文献,然后按被引次数划分统计每次选择子样本集的文献引用次数,则可以获得如下观测序列
Figure BDA00037167131100000512
其中N表示每一批次获取的样本总数,将此观测序列作为训练数据,采用极大似然估计法,通过下式估计获得中α和β的参数值:
Figure BDA0003716713110000061
S6.3:利用获得的幂律分布,动态采样获得一组符合该幂律分布的值,记为文献预期价值向量
Figure BDA0003716713110000062
S6.4:利用卷积神经网络,将所有文献向量表示
Figure BDA0003716713110000063
矩阵转化为预期文献价值向量
Figure BDA0003716713110000064
Figure BDA0003716713110000065
其中,T表示矩阵转置,CovX(·)表示带一层卷积和k-max池化层的卷积神经网络,
Figure BDA0003716713110000066
为卷积核,所用卷积核个数为NC,同时NC*k=M,k表示卷积之后最大的k个值;
S6.5:利用对抗生成网络,将H*作为约束加入文献向量表示
Figure BDA0003716713110000067
的学习过程中,对抗生成网络的判别器会将
Figure BDA0003716713110000068
判定为假,并将从幂律分布中采样获得的H*判定为真,此时由数据集中的文献向量产生的价值向量
Figure BDA00037167131100000610
与幂律分布器产生的价值向量H*保持近似,从而将文件预期价值信息嵌入文献向量中;此过程等价于如下过程:
Figure BDA0003716713110000069
其中,D(·)表示判别器,G(·)表示生成器,包含CovX(·)及S3到S5所述的异构图卷积网络;
S6.6:通过重复步骤S3-步骤S6.5,直到所有参数值收敛或达到最大训练次数,最大训练次数取500次。
进一步的,所述步骤S7具体过程如下:
S7.1:首先给定查询q=[qw,qΑ,qJ],其中qw为查询文本所有词,qΑ为查询作者所有词,qJ为查询来源所有词,然后将查询q=[qw,qΑ,qJ]转化为向量
Figure BDA0003716713110000071
其中
Figure BDA0003716713110000072
为查询文本所有词的平均向量,
Figure BDA0003716713110000073
为查询作者所发表过的所有文献所包含词的平均向量,
Figure BDA0003716713110000074
为查询来源中所有文献所包含词的平均向量;
S7.2:选取数据集中的所有文献为候选文献di,针对每一篇候选文献di,以下式计算得分
Figure BDA0003716713110000075
Figure BDA0003716713110000076
其中,
Figure BDA0003716713110000077
Figure BDA0003716713110000078
分别候选文献di的文本、作者和来源向量表示,其取值均来自于步骤S4.3中的
Figure BDA0003716713110000079
最终选择得分较高的文献,作为结果推荐。
本发明的优点是:
1.本发明针对图卷积神经网络难以利用文献网路异构节点的问题,建立了非对等条件下的异构节点贡献度的计算机制,从而获取高性能的文献网络异构节点特征。
2.本发明针对图卷积神经网络对新发表文献推荐效果较差的问题,利用现时文献网络结构和引用数据,估计文献预期价值,提升了新发表文献的推荐精度。
3.相对于基于传统机器学习的文献推荐方法,本发明方法由于采用大数据量文献样本进行端到端的深度学习,其推荐精度大幅提升,通用性更强,可靠性更高。
下面结合附图和实施例对本发明做详细说明。
附图说明
图1是异构环境下嵌入预期价值的文献推荐方法的模型框架图。
具体实施方式
为进一步阐述本发明达成预定目的所采取的技术手段及功效,以下结合附图及实施例对本发明的具体实施方式、结构特征及其功效,详细说明如下。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
本实施例提供了如图1所示的一种异构环境下嵌入预期价值的文献推荐方法,包括以下步骤:
S1:根据文献数据集构建初始特征向量;
S2:根据初始特征向量构建异构文献图;
S3:根据S2中的异构文献图构建异构图卷积网络,并将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量;
S4:构建深度注意力层,并利用注意力层获取每个卷积层的权重调节因子,然后利用权重调节因子生成所有的异构节点最终向量表示;
S5:将所获得的异构节点最终向量表示利用解码器还原文献网络结构;
S6:利用对抗生成机制,将文件预期价值信息嵌入文献向量中;
S7:针对每一篇候选文献计算得分,最终根据得分对文献进行推荐。
进一步的,所述步骤S1具体过程如下:
S1.1:根据文献数据集,对于每一篇文献,通过Word2Vec工具获取每个词的词向量,并将该文献中的词向量取平均获得文献初始向量;
S1.2:根据文献数据集,对于每一个作者,取其发表过的所有文献的初始向量并取平均,从而获得作者初始向量;
S1.3:根据文献数据集,对于每一个期刊,取其包含的所有文献的初始向量并取平均,从而获得期刊初始向量。
进一步的,所述步骤S2中异构文献图表示为G={X,E};
X={XP,XA,XJ},表示三类不同节点的特征信息:XP表示所有文献向量特征,XA表示所有作者向量特征,XJ表示所有期刊向量特征,取值自于步骤S1初始特征向量;
根据节点的不同,边集E={EPP,EPA,EPJ,EAA,EAJ,EJJ}含有六种不同类型,包括三种同构关联关系:EPP为文献引用信息、EAA为作者合著信息和EJJ为来源关联信息,以及三种异构关联关系:EPA为文献-作者关系、EPJ为文献-来源关系、EAJ为作者-来源关系。
进一步的,所述步骤S3中异构图卷积网络构成方法如下:
首先基于步骤S2中的异构文献图,依据不同的节点和边信息构造六类邻接矩阵R={RPP,RPA,RPJ,RAA,RAJ,RJJ};
式中:
Figure BDA0003716713110000091
Figure BDA0003716713110000092
Figure BDA0003716713110000093
分别为文献-引用信息、文献-作者关系、文献-来源关系、作者-合著信息、作者-来源关系和来源关联信息所对应的领接矩阵,其中NP、NA和NJ分别表示数据集中文献、作者和期刊的总数;
S302:临界矩阵初始化,并根据初始化的邻接矩阵生成转置矩阵;
临界矩阵初始化具体步骤如下:
判断节点间链接关系,若两篇文章之间具有引用关系,则RPP中两篇文章对应的邻接值为1,否则为0;若文章中的作者列表包含某位作者,则RPA中该文章和作者对应的邻接值为1,否则为0;若文章发表于某个期刊,则RPJ中该文章和期刊对应的邻接值为1,否则为0;若两个作者共同署名同一篇文章,则RAA中这两个作者对应的邻接值为1,否则为0;若某个作者在某期刊发表过文章,则RAJ中该作者和期刊对应的邻接值为1,否则为0;若两个期刊属于共同的类别,则RJJ中这两个期刊对应的邻接值为1,否则为0;
S303:基于邻接矩阵R构造增广邻接矩阵
Figure BDA0003716713110000101
Figure BDA0003716713110000102
式中:RAP、RJA和RJP分别为步骤S302中RPA、RAJ和RPJ的转置矩阵;
S304:基于R*构建L层异构图卷积层,其中第l层的异构图卷积过程为:
Figure BDA0003716713110000103
其中,Relu(·)表示修正线性单元函数,
Figure BDA0003716713110000104
为卷积核,ds表示卷积核宽度,
Figure BDA0003716713110000105
是基于R*构造的矩阵,其值为R*+I,其中
Figure BDA0003716713110000106
为单位矩阵,
Figure BDA0003716713110000107
表示异构图的度矩阵,
Figure BDA0003716713110000108
表示取度矩阵
Figure BDA0003716713110000109
的第i行第j列的数据,
Figure BDA00037167131100001010
表示取
Figure BDA00037167131100001011
矩阵的第i行第j列的数据,Zl表示深度图卷积网络第l层的数据特征,其中
Figure BDA00037167131100001012
由节点初始特征向量构成,Z0的构造方式分别为:
Figure BDA00037167131100001013
将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量,获得每一层的异构节点中间向量Z1,Z2,…,ZL
进一步的,所述步骤S4具体过程如下:
S4.1:构建三个可学习的投射向量
Figure BDA0003716713110000111
分别用于计算不同卷积层中的文献、作者和期刊向量权重,式中dα表示投射向量的长度;
S4.2:依据不同节点类型,将所有异构节点向量进行堆叠,获得关于文献、作者和来源的张量
Figure BDA0003716713110000112
Figure BDA0003716713110000113
然后利用下述过程为L个卷积层生成权重调节因子:
Figure BDA0003716713110000114
Figure BDA0003716713110000115
Figure BDA0003716713110000116
分别生成的所有卷积层中文献向量、作者向量和来源向量的权重因子;其中,σ(·)为sigmoid函数,softmax(·)为多分类函数,
Figure BDA0003716713110000117
为可学习的映射矩阵;
S4.3:根据三类权重调节因子,依据下式生成所有的异构节点最终向量表示:
Figure BDA0003716713110000118
其中,
Figure BDA0003716713110000119
表示Hadamard积,
Figure BDA00037167131100001110
表示向量加和取平均。
进一步的,所述步骤S5具体过程如下:
为保证所获异构节点表示的有效性,将最终异构节点最终向量表示输入解码器以概率
Figure BDA00037167131100001111
还原文献网络结构,其解码方式为最大化如下似然函数:
Figure BDA0003716713110000121
式中,N*=NP+NA+NJ表示节点总数,
Figure BDA0003716713110000122
Figure BDA0003716713110000123
表示
Figure BDA0003716713110000124
中任意两个节点向量,
Figure BDA0003716713110000125
为增广邻接矩阵R*
Figure BDA0003716713110000126
Figure BDA0003716713110000127
节点所对应的邻接值。
进一步的,所述步骤S6具体过程如下:
S6.1:构建文献幂律分布生成器:
将数据集中所有文献的被引次数在[0,C]范围内分为M个区间,其中引用次数超过C值的文献被归为第M个区间,定义h为某个被引次数区间,p(h)为该被引次数区间中的文章数量,则可以获得如下幂律分布:
p(h,C,α)=β(h)
式中,α和β是可估计参数;
S6.2:随机多批次选取文献,然后按被引次数划分统计每次选择子样本集的文献引用次数,则可以获得如下观测序列
Figure BDA0003716713110000128
其中N表示每一批次获取的样本总数,将此观测序列作为训练数据,采用极大似然估计法,通过下式估计获得中α和β的参数值:
Figure BDA0003716713110000129
S6.3:利用获得的幂律分布,动态采样获得一组符合该幂律分布的值,记为文献预期价值向量
Figure BDA00037167131100001210
S6.4:利用卷积神经网络,将所有文献向量表示
Figure BDA00037167131100001211
矩阵转化为预期文献价值向量
Figure BDA00037167131100001212
Figure BDA00037167131100001213
其中,T表示矩阵转置,CovX(·)表示带一层卷积和k-max池化层的卷积神经网络,
Figure BDA00037167131100001214
为卷积核,所用卷积核个数为NC,同时NC*k=M,k表示卷积之后最大的k个值;
S6.5:利用对抗生成网络,将H*作为约束加入文献向量表示
Figure BDA0003716713110000131
的学习过程中,对抗生成网络的判别器会将
Figure BDA0003716713110000132
判定为假,并将从幂律分布中采样获得的H*判定为真,此时由数据集中的文献向量产生的价值向量
Figure BDA0003716713110000133
与幂律分布器产生的价值向量H*保持近似,从而将文件预期价值信息嵌入文献向量中;此过程等价于如下过程:
Figure BDA0003716713110000134
其中,D(·)表示判别器,G(·)表示生成器,包含CovX(·)及S3到S5所述的异构图卷积网络;
S6.6:通过重复步骤S3-步骤S6.5,直到所有参数值收敛或达到最大训练次数,具体的说,最大训练次数取500次。
进一步的,所述步骤S7具体过程如下:
S7.1:首先给定查询q=[qw,qΑ,qJ],其中qw为查询文本所有词,qΑ为查询作者所有词,qJ为查询来源所有词,然后将查询q=[qw,qΑ,qJ]转化为向量
Figure BDA0003716713110000135
其中
Figure BDA0003716713110000136
为查询文本所有词的平均向量,
Figure BDA0003716713110000137
为查询作者所发表过的所有文献所包含词的平均向量,
Figure BDA0003716713110000138
为查询来源中所有文献所包含词的平均向量;
S7.2:选取数据集中的所有文献为候选文献di,针对每一篇候选文献di,以下式计算得分
Figure BDA0003716713110000139
Figure BDA00037167131100001310
其中,
Figure BDA00037167131100001311
Figure BDA00037167131100001312
分别候选文献di的文本、作者和来源向量表示,其取值均来自于步骤S4.3中的
Figure BDA00037167131100001313
最终选择得分较高的文献,作为结果推荐。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:包括以下步骤:
S1:根据文献数据集构建初始特征向量;
S2:根据初始特征向量构建异构文献图;
S3:根据S2中的异构文献图构建异构图卷积网络,并将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量;
S4:构建深度注意力层,并利用注意力层获取每个卷积层的权重调节因子,然后利用权重调节因子生成所有的异构节点最终向量表示;
S5:将所获得的异构节点最终向量表示利用解码器还原文献网络结构;
S6:利用对抗生成机制,将文件预期价值信息嵌入文献向量中;
S7:针对每一篇候选文献计算得分,最终根据得分对文献进行推荐。
2.如权利要求1所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S1具体过程如下:
S1.1:根据文献数据集,对于每一篇文献,通过Word2Vec工具获取每个词的词向量,并将该文献中的词向量取平均获得文献初始向量;
S1.2:根据文献数据集,对于每一个作者,取其发表过的所有文献的初始向量并取平均,从而获得作者初始向量;
S1.3:根据文献数据集,对于每一个期刊,取其包含的所有文献的初始向量并取平均,从而获得期刊初始向量。
3.如权利要求1所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S2中异构文献图表示为G={X,E};
X={XP,XA,XJ},表示三类不同节点的特征信息:XP表示所有文献向量特征,XA表示所有作者向量特征,XJ表示所有期刊向量特征,取值自于步骤S1初始特征向量;
根据节点的不同,边集E={EPP,EPA,EPJ,EAA,EAJ,EJJ}含有六种不同类型,包括三种同构关联关系:EPP为文献引用信息、EAA为作者合著信息和EJJ为来源关联信息,以及三种异构关联关系:EPA为文献-作者关系、EPJ为文献-来源关系、EAJ为作者-来源关系。
4.如权利要求3所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S3中异构图卷积网络构成方法如下:
S301:首先基于步骤S2中的异构文献图,依据不同的节点和边信息构造六类邻接矩阵R={RPP,RPA,RPJ,RAA,RAJ,RJJ};
式中:
Figure FDA0003716713100000021
Figure FDA0003716713100000022
Figure FDA0003716713100000023
分别为文献-引用信息、文献-作者关系、文献-来源关系、作者-合著信息、作者-来源关系和来源关联信息所对应的领接矩阵,其中NP、NA和NJ分别表示数据集中文献、作者和期刊的总数,
Figure FDA0003716713100000027
表示对应矩阵的元素值;
S302:临界矩阵初始化,并根据初始化的邻接矩阵生成转置矩阵;
S303:基于邻接矩阵R构造增广邻接矩阵
Figure FDA0003716713100000024
Figure FDA0003716713100000025
式中:RAP、RJA和RJP分别为步骤S302中RPA、RAJ和RPJ的转置矩阵;
S304:基于R*构建L层异构图卷积层,其中第l层的异构图卷积过程为:
Figure FDA0003716713100000026
其中,Relu(·)表示修正线性单元函数,
Figure FDA0003716713100000031
为卷积核,ds表示卷积核宽度,
Figure FDA0003716713100000032
是基于R*构造的矩阵,其值为R*+I,其中
Figure FDA0003716713100000033
为单位矩阵,
Figure FDA0003716713100000034
表示异构图的度矩阵,
Figure FDA0003716713100000035
Figure FDA0003716713100000036
表示取度矩阵
Figure FDA0003716713100000037
的第i行第j列的数据,
Figure FDA0003716713100000038
表示取
Figure FDA0003716713100000039
矩阵的第i行第j列的数据,Zl表示深度图卷积网络第l层的数据特征,其中
Figure FDA00037167131000000310
由节点初始特征向量构成,Z0的构造方式分别为:
Figure FDA00037167131000000311
5.如权利要求4所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S4具体过程如下:
S4.1:构建三个可学习的投射向量
Figure FDA00037167131000000312
分别用于计算不同卷积层中的文献、作者和期刊向量权重,式中dα表示投射向量的长度;
S4.2:依据不同节点类型,将所有异构节点向量进行堆叠,获得关于文献、作者和来源的张量
Figure FDA00037167131000000313
Figure FDA00037167131000000314
然后利用下述过程为L个卷积层生成权重调节因子:
Figure FDA00037167131000000315
Figure FDA00037167131000000316
Figure FDA00037167131000000317
分别生成的所有卷积层中文献向量、作者向量和来源向量的权重因子;其中,σ(·)为sigmoid函数,softmax(·)为多分类函数,
Figure FDA00037167131000000318
为可学习的映射矩阵;
S4.3:根据三类权重调节因子,依据下式生成所有的异构节点最终向量表示:
Figure FDA0003716713100000041
其中,
Figure FDA0003716713100000042
表示Hadamard积,
Figure FDA0003716713100000043
表示向量加和取平均。
6.如权利要求5所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S5具体过程如下:
将最终异构节点最终向量表示输入解码器以概率
Figure FDA0003716713100000044
还原文献网络结构,其解码方式为最大化如下似然函数:
Figure FDA0003716713100000045
式中,N*=NP+NA+NJ表示节点总数,
Figure FDA0003716713100000046
Figure FDA0003716713100000047
表示
Figure FDA0003716713100000048
中任意两个节点向量,
Figure FDA0003716713100000049
为增广邻接矩阵R*
Figure FDA00037167131000000410
Figure FDA00037167131000000411
节点所对应的邻接值。
7.如权利要求1所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S6具体过程如下:
S6.1:构建文献幂律分布生成器:
将数据集中所有文献的被引次数在[0,C]范围内分为M个区间,其中引用次数超过C值的文献被归为第M个区间,定义h为某个被引次数区间,p(h)为该被引次数区间中的文章数量,则可以获得如下幂律分布:
p(h,C,α)=β(h)
式中,α和β是可估计参数;
S6.2:随机多批次选取文献,然后按被引次数划分统计每次选择子样本集的文献引用次数,则可以获得如下观测序列
Figure FDA00037167131000000412
其中N表示每一批次获取的样本总数,将此观测序列作为训练数据,采用极大似然估计法,通过下式估计获得中α和β的参数值:
Figure FDA0003716713100000051
S6.3:利用获得的幂律分布,动态采样获得一组符合该幂律分布的值,记为文献预期价值向量
Figure FDA0003716713100000052
S6.4:利用卷积神经网络,将所有文献向量表示
Figure FDA0003716713100000053
矩阵转化为预期文献价值向量
Figure FDA0003716713100000054
Figure FDA0003716713100000055
其中,T表示矩阵转置,CovX(·)表示带一层卷积和k-max池化层的卷积神经网络,
Figure FDA0003716713100000056
为卷积核,所用卷积核个数为NC,同时NC*k=M,k表示卷积之后最大的k个值;
S6.5:利用对抗生成网络,将H*作为约束加入文献向量表示
Figure FDA0003716713100000057
的学习过程中,对抗生成网络的判别器会将
Figure FDA0003716713100000058
判定为假,并将从幂律分布中采样获得的H*判定为真,此时由数据集中的文献向量产生的价值向量
Figure FDA0003716713100000059
与幂律分布器产生的价值向量H*保持近似,从而将文件预期价值信息嵌入文献向量中;此过程等价于如下过程:
Figure FDA00037167131000000510
其中,D(·)表示判别器,G(·)表示生成器,包含CovX(·)及S3到S5所述的异构图卷积网络;
S6.6:通过重复步骤S3-步骤S6.5,直到所有参数值收敛或达到最大训练次数,最大训练次数取500次。
8.如权利要求1所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S7具体过程如下:
S7.1:首先给定查询q=[qw,qΑ,qJ],其中qw为查询文本所有词,qΑ为查询作者所有词,qJ为查询来源所有词,然后将查询q=[qw,qΑ,qJ]转化为向量
Figure FDA0003716713100000061
其中
Figure FDA0003716713100000062
为查询文本所有词的平均向量,
Figure FDA0003716713100000063
为查询作者所发表过的所有文献所包含词的平均向量,
Figure FDA0003716713100000064
为查询来源中所有文献所包含词的平均向量;
S7.2:选取数据集中的所有文献为候选文献di,针对每一篇候选文献di,以下式计算得分
Figure FDA0003716713100000065
Figure FDA0003716713100000066
其中,
Figure FDA0003716713100000067
Figure FDA0003716713100000068
分别候选文献di的文本、作者和来源向量表示,其取值均来自于步骤S4.3中的
Figure FDA0003716713100000069
最终选择得分较高的文献,作为结果推荐。
CN202210745509.3A 2022-06-27 2022-06-27 一种异构环境下嵌入预期价值的文献推荐方法 Active CN115186086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210745509.3A CN115186086B (zh) 2022-06-27 2022-06-27 一种异构环境下嵌入预期价值的文献推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210745509.3A CN115186086B (zh) 2022-06-27 2022-06-27 一种异构环境下嵌入预期价值的文献推荐方法

Publications (2)

Publication Number Publication Date
CN115186086A true CN115186086A (zh) 2022-10-14
CN115186086B CN115186086B (zh) 2023-08-08

Family

ID=83514730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210745509.3A Active CN115186086B (zh) 2022-06-27 2022-06-27 一种异构环境下嵌入预期价值的文献推荐方法

Country Status (1)

Country Link
CN (1) CN115186086B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8572129B1 (en) * 2010-04-19 2013-10-29 Facebook, Inc. Automatically generating nodes and edges in an integrated social graph
WO2020147594A1 (zh) * 2019-01-16 2020-07-23 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
US20200242304A1 (en) * 2017-11-29 2020-07-30 Tencent Technology (Shenzhen) Company Limited Text recommendation method and apparatus, and electronic device
US20200250734A1 (en) * 2019-02-01 2020-08-06 Target Brands, Inc. Item recommendations using convolutions on weighted graphs
US20200285944A1 (en) * 2019-03-08 2020-09-10 Adobe Inc. Graph convolutional networks with motif-based attention
CN112347362A (zh) * 2020-11-16 2021-02-09 安徽农业大学 一种基于图自编码器的个性化推荐方法
CN112380435A (zh) * 2020-11-16 2021-02-19 北京大学 基于异构图神经网络的文献推荐方法及推荐系统
CN112632296A (zh) * 2020-12-31 2021-04-09 上海交通大学 基于知识图谱具有可解释性的论文推荐方法及系统、终端
US20220058464A1 (en) * 2020-08-20 2022-02-24 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
CN114417161A (zh) * 2022-01-21 2022-04-29 杭州碧游信息技术有限公司 基于异构图的虚拟物品时序推荐方法、装置、介质及设备
CN114510642A (zh) * 2022-02-17 2022-05-17 重庆大学 基于异构信息网络的书籍推荐方法、系统及设备
CN114510630A (zh) * 2021-12-31 2022-05-17 中南财经政法大学 一种基于异质图卷积神经网络的学术论文推荐方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8572129B1 (en) * 2010-04-19 2013-10-29 Facebook, Inc. Automatically generating nodes and edges in an integrated social graph
US20200242304A1 (en) * 2017-11-29 2020-07-30 Tencent Technology (Shenzhen) Company Limited Text recommendation method and apparatus, and electronic device
WO2020147594A1 (zh) * 2019-01-16 2020-07-23 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
US20200250734A1 (en) * 2019-02-01 2020-08-06 Target Brands, Inc. Item recommendations using convolutions on weighted graphs
US20200285944A1 (en) * 2019-03-08 2020-09-10 Adobe Inc. Graph convolutional networks with motif-based attention
US20220058464A1 (en) * 2020-08-20 2022-02-24 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
CN112347362A (zh) * 2020-11-16 2021-02-09 安徽农业大学 一种基于图自编码器的个性化推荐方法
CN112380435A (zh) * 2020-11-16 2021-02-19 北京大学 基于异构图神经网络的文献推荐方法及推荐系统
CN112632296A (zh) * 2020-12-31 2021-04-09 上海交通大学 基于知识图谱具有可解释性的论文推荐方法及系统、终端
CN114510630A (zh) * 2021-12-31 2022-05-17 中南财经政法大学 一种基于异质图卷积神经网络的学术论文推荐方法及系统
CN114417161A (zh) * 2022-01-21 2022-04-29 杭州碧游信息技术有限公司 基于异构图的虚拟物品时序推荐方法、装置、介质及设备
CN114510642A (zh) * 2022-02-17 2022-05-17 重庆大学 基于异构信息网络的书籍推荐方法、系统及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUAN SHI: "Heterogeneous Information Network Embedding for Recommendation", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》, vol. 31, no. 2, pages 357 - 370, XP011704515, DOI: 10.1109/TKDE.2018.2833443 *
张森南: "基于图卷积神经网络的文本分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 6 *
朱祥;张云秋;惠秋悦;: "基于学科异构知识网络的学术文献推荐方法研究", 图书馆杂志, no. 08, pages 104 - 111 *

Also Published As

Publication number Publication date
CN115186086B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
Bera et al. On neutrosophic soft linear spaces
Tian et al. A surrogate-assisted multiobjective evolutionary algorithm for large-scale task-oriented pattern mining
Carmona et al. Overview on evolutionary subgroup discovery: analysis of the suitability and potential of the search performed by evolutionary algorithms
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN109063021B (zh) 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN108734223A (zh) 基于社区划分的社交网络好友推荐方法
Lin et al. Designing a classifier by a layered multi-population genetic programming approach
Gupte et al. Role discovery in graphs using global features: Algorithms, applications and a novel evaluation strategy
CN103559320A (zh) 对异质网络中对象进行排序的方法
Zhang et al. Underwater TDOA/AOA joint localization algorithm based on hybrid invasive weed optimization algorithm
Gong et al. Directed network Laplacians and random graph models
CN117272195A (zh) 基于图卷积注意力网络的区块链异常节点检测方法及系统
Liang et al. A new hybrid ant colony optimization based on brain storm optimization for feature selection
CN115186086A (zh) 一种异构环境下嵌入预期价值的文献推荐方法
CN109728958A (zh) 一种网络节点信任预测方法、装置、设备及介质
CN111191717B (zh) 一种基于隐空间聚类的黑盒对抗样本生成算法
Sato et al. Performance comparison of population‐based meta‐heuristic algorithms in affine template matching
CN112561599A (zh) 一种融合域特征交互的基于注意力网络学习的点击率预测方法
Xue et al. Optimizing biomedical ontology alignment in lexical vector space
Qiao et al. Heterogeneous-attributes enhancement deep framework for network embedding
Huang et al. Social network coalescence based on multilayer network model
Hirota et al. An application of fuzzy theory to the case-based reasoning of the CISG
Abe et al. Analyzing behavior of objective rule evaluation indices based on a correlation coefficient
CN115329158B (zh) 一种基于多源异构电力数据的数据关联方法
Khan et al. Neutrosophic soft metric matrices with applications in decision-making

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant