CN115186086B - 一种异构环境下嵌入预期价值的文献推荐方法 - Google Patents
一种异构环境下嵌入预期价值的文献推荐方法 Download PDFInfo
- Publication number
- CN115186086B CN115186086B CN202210745509.3A CN202210745509A CN115186086B CN 115186086 B CN115186086 B CN 115186086B CN 202210745509 A CN202210745509 A CN 202210745509A CN 115186086 B CN115186086 B CN 115186086B
- Authority
- CN
- China
- Prior art keywords
- vector
- document
- heterogeneous
- literature
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 140
- 239000011159 matrix material Substances 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 13
- 238000005096 rolling process Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 239000012633 leachable Substances 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种异构环境下嵌入预期价值的文献推荐方法,广泛应用于信息服务领域中的学术文献查询和检索过程中,包括如下步骤:构建初始向量,将文献网络转化为异构无向网络,利用异构图卷积将异构节点表示为节点向量,利用深度注意力层获取节点权重并优化节点向量,利用强化学习机制在节点向量中嵌入文献预期价值。本发明设计合理,结构清晰,使用便捷,可解决现有方法无法估计和利用文献预期价值的问题,以及无法多维度衡量节点贡献度的问题,减少推荐误差,提高了新发表文献的推荐效率和推荐精度。
Description
技术领域
本发明属于学术文献检索技术领域,具体涉及一种异构环境下嵌入预期价值的文献推荐方法。
背景技术
随着信息技术的快速发展,网络上的学术文献数量呈现指数级增长趋势。如何依据现有工作,在大量文献中快速定位和发现有引用价值的学术文献,是科研工作者,特别是初级科研工作者面临的难题。根据研究者现有工作,为其推荐合适的学术引文文献,是目前推荐领域研究的热点问题,具有重要的实际应用价值。
随着近年来深度神经网络技术,特别是图学习技术的进步,有些研究者提出用基于图卷积神经网络的方法来推荐学术文献。图神经网络利用设定好的网络结构,完全从训练数据中学习文献内容的层级结构性特征,能够提取更加接近文献内容高级语义的抽象特征,因此在文献推荐上的表现远远超过传统机器学习方法。同时图卷积神经网络能够利用文献间的关联关系,将链接信息嵌入文献特征中,能够有效还原文献网络结构,在特征表示上具有极大的优越性。
虽然图卷积神经网络能提取接近文献语义和链接的抽象特征,然而由于文献网络还包含作者和期刊等异构信息,图卷积神经网络难以挖掘和利用这些异构信息之间的深层关联关系,随着卷积层数的增加,更深层次的节点向量难以区分位于不同距离和不同类型节点的重要性,因此容易在节点表示学习过程中带来噪声。同时由于新文献的链接数量非常少,无法利用引用数预计新发表文献的价值信息,导致图卷积神经网络对新发表文献的推荐效果较差。
发明内容
本发明的目的是提供一种异构环境下嵌入预期价值的文献推荐方法,解决了现有文献推荐技术中无法多维度衡量文献网络中异构节点重要度,且对新发表文献推荐效果较差的问题。
为达上述目的,本发明提供了一种异构环境下嵌入预期价值的文献推荐方法,包括以下步骤:
S1:根据文献数据集构建初始特征向量;
S2:根据初始特征向量构建异构文献图;
S3:根据S2中的异构文献图构建异构图卷积网络,并将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量;
S4:构建深度注意力层,并利用注意力层获取每个卷积层的权重调节因子,然后利用权重调节因子生成所有的异构节点最终向量表示;
S5:将所获得的异构节点最终向量表示利用解码器还原文献网络结构;
S6:利用对抗生成机制,将文献预期价值信息嵌入文献向量中;
S7:针对每一篇候选文献计算得分,最终根据得分对文献进行推荐。
进一步的,所述步骤S1具体过程如下:
S1.1:根据文献数据集,对于每一篇文献,通过Word2Vec工具获取每个词的词向量,并将该文献中的词向量取平均获得文献初始向量;
S1.2:根据文献数据集,对于每一个作者,取其发表过的所有文献的初始向量并取平均,从而获得作者初始向量;
S1.3:根据文献数据集,对于每一个期刊,取其包含的所有文献的初始向量并取平均,从而获得期刊初始向量。
进一步的,所述步骤S2中异构文献图表示为G={X,E};
X={XP,XA,XJ},其表示三类不同节点的特征信息:XP表示所有文献向量特征,XA表示所有作者向量特征,XJ表示所有期刊向量特征,取值自于步骤S1初始特征向量;根据节点的不同,边集E={EPP,EPA,EPJ,EAA,EAJ,EJJ}含有六种不同类型,包括三种同构关联关系:EPP为文献引用信息、EAA为作者合著信息和EJJ为来源关联信息,以及三种异构关联关系:EPA为文献-作者关系、EPJ为文献-来源关系、EAJ为作者-来源关系。
进一步的,所述步骤S3中异构图卷积网络构成方法如下:
S301:首先基于步骤S2中的异构文献图,依据不同的节点和边信息构造六类邻接矩阵R={RPP,RPA,RPJ,RAA,RAJ,RJJ};
式中: 和/>分别为文献-引用信息、文献-作者关系、文献-来源关系、作者-合著信息、作者-来源关系和来源关联信息所对应的领接矩阵,其中NP、NA和NJ分别表示数据集中文献、作者和期刊的总数;
S302:临界矩阵初始化,并根据初始化的邻接矩阵生成转置矩阵;
S303:基于邻接矩阵R构造增广邻接矩阵
式中:RAP、RJA和RJP分别为步骤S302中RPA、RAJ和RPJ的转置矩阵;
S304:基于R*构建L层异构图卷积层,其中第l层的异构图卷积过程为:
其中,Relu(·)表示修正线性单元函数,为卷积核,ds表示卷积核宽度,/>是基于R*构造的矩阵,其值为R*+I,其中/>为单位矩阵,/>表示异构图的度矩阵,/> 表示取度矩阵/>的第i行第j列的数据,/>表示取/>矩阵的第i行第j列的数据,Zl表示深度图卷积网络第l层的数据特征,其中由节点初始特征向量构成,Z0的构造方式分别为:
将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量,获得每一层的异构节点中间向量Z1,Z2,…,ZL。
进一步的,所述步骤S4具体过程如下:
S4.1:构建三个可学习的投射向量分别用于计算不同卷积层中的文献、作者和期刊向量权重,式中dα表示投射向量的长度;
S4.2:依据不同节点类型,将所有异构节点向量进行堆叠,获得关于文献、作者和来源的张量和/>然后利用下述过程为L个卷积层生成权重调节因子:
和/>分别生成的所有卷积层中文献向量、作者向量和来源向量的权重因子;其中,σ(·)为sigmoid函数,softmax(·)为多分类函数,为可学习的映射矩阵;
S4.3:根据三类权重调节因子,依据下式生成所有的异构节点最终向量表示:
其中,表示Hadamard积,/>表示向量加和取平均。
进一步的,所述步骤S5具体过程如下:
为保证所获异构节点表示的有效性,将最终异构节点最终向量表示输入解码器以概率还原文献网络结构,其解码方式为最大化如下似然函数:
式中,N*=NP+NA+NJ表示节点总数,和/>表示/>中任意两个节点向量,/>为增广邻接矩阵R*中/>和/>节点所对应的邻接值。
进一步的,所述步骤S6具体过程如下:
S6.1:构建文献幂律分布生成器:
将数据集中所有文献的被引次数在[0,C]范围内分为M个区间,其中引用次数超过C值的文献被归为第M个区间,定义h为某个被引次数区间,p(h)为该被引次数区间中的文章数量,则可以获得如下幂律分布:
p(h,C,α)=β(h)-α
式中,α和β是可估计参数;
S6.2:随机多批次选取文献,然后按被引次数划分统计每次选择子样本集的文献引用次数,则可以获得如下观测序列其中N表示每一批次获取的样本总数,将此观测序列作为训练数据,采用极大似然估计法,通过下式估计获得中α和β的参数值:
S6.3:利用获得的幂律分布,动态采样获得一组符合该幂律分布的值,记为文献预期价值向量
S6.4:利用卷积神经网络,将所有文献向量表示矩阵转化为预期文献价值向量
其中,T表示矩阵转置,CovX(·)表示带一层卷积和k-max池化层的卷积神经网络,为卷积核,所用卷积核个数为NC,同时NC*k=M,k表示卷积之后最大的k个值;
S6.5:利用对抗生成网络,将H*作为约束加入文献向量表示的学习过程中,对抗生成网络的判别器会将/>判定为假,并将从幂律分布中采样获得的H*判定为真,此时由数据集中的文献向量产生的价值向量/>与幂律分布器产生的价值向量H*保持近似,从而将文献预期价值信息嵌入文献向量中;此过程等价于如下过程:
其中,D(·)表示判别器,G(·)表示生成器,包含CovX(·)及S3到S5所述的异构图卷积网络;
S6.6:通过重复步骤S3-步骤S6.5,直到所有参数值收敛或达到最大训练次数,最大训练次数取500次。
进一步的,所述步骤S7具体过程如下:
S7.1:首先给定查询q=[qw,qΑ,qJ],其中qw为查询文本所有词,qΑ为查询作者所有词,qJ为查询来源所有词,然后将查询q=[qw,qΑ,qJ]转化为向量其中/>为查询文本所有词的平均向量,/>为查询作者所发表过的所有文献所包含词的平均向量,/>为查询来源中所有文献所包含词的平均向量;
S7.2:选取数据集中的所有文献为候选文献di,针对每一篇候选文献di,以下式计算得分
其中,和/>分别候选文献di的文本、作者和来源向量表示,其取值均来自于步骤S4.3中的/>
最终选择得分较高的文献,作为结果推荐。
本发明的优点是:
1.本发明针对图卷积神经网络难以利用文献网路异构节点的问题,建立了非对等条件下的异构节点贡献度的计算机制,从而获取高性能的文献网络异构节点特征。
2.本发明针对图卷积神经网络对新发表文献推荐效果较差的问题,利用现时文献网络结构和引用数据,估计文献预期价值,提升了新发表文献的推荐精度。
3.相对于基于传统机器学习的文献推荐方法,本发明方法由于采用大数据量文献样本进行端到端的深度学习,其推荐精度大幅提升,通用性更强,可靠性更高。
下面结合附图和实施例对本发明做详细说明。
附图说明
图1是异构环境下嵌入预期价值的文献推荐方法的模型框架图。
具体实施方式
为进一步阐述本发明达成预定目的所采取的技术手段及功效,以下结合附图及实施例对本发明的具体实施方式、结构特征及其功效,详细说明如下。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
本实施例提供了如图1所示的一种异构环境下嵌入预期价值的文献推荐方法,包括以下步骤:
S1:根据文献数据集构建初始特征向量;
S2:根据初始特征向量构建异构文献图;
S3:根据S2中的异构文献图构建异构图卷积网络,并将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量;
S4:构建深度注意力层,并利用注意力层获取每个卷积层的权重调节因子,然后利用权重调节因子生成所有的异构节点最终向量表示;
S5:将所获得的异构节点最终向量表示利用解码器还原文献网络结构;
S6:利用对抗生成机制,将文献预期价值信息嵌入文献向量中;
S7:针对每一篇候选文献计算得分,最终根据得分对文献进行推荐。
进一步的,所述步骤S1具体过程如下:
S1.1:根据文献数据集,对于每一篇文献,通过Word2Vec工具获取每个词的词向量,并将该文献中的词向量取平均获得文献初始向量;
S1.2:根据文献数据集,对于每一个作者,取其发表过的所有文献的初始向量并取平均,从而获得作者初始向量;
S1.3:根据文献数据集,对于每一个期刊,取其包含的所有文献的初始向量并取平均,从而获得期刊初始向量。
进一步的,所述步骤S2中异构文献图表示为G={X,E};
X={XP,XA,XJ},表示三类不同节点的特征信息:XP表示所有文献向量特征,XA表示所有作者向量特征,XJ表示所有期刊向量特征,取值自于步骤S1初始特征向量;
根据节点的不同,边集E={EPP,EPA,EPJ,EAA,EAJ,EJJ}含有六种不同类型,包括三种同构关联关系:EPP为文献引用信息、EAA为作者合著信息和EJJ为来源关联信息,以及三种异构关联关系:EPA为文献-作者关系、EPJ为文献-来源关系、EAJ为作者-来源关系。
进一步的,所述步骤S3中异构图卷积网络构成方法如下:
首先基于步骤S2中的异构文献图,依据不同的节点和边信息构造六类邻接矩阵R={RPP,RPA,RPJ,RAA,RAJ,RJJ};
式中: 和/>分别为文献-引用信息、文献-作者关系、文献-来源关系、作者-合著信息、作者-来源关系和来源关联信息所对应的领接矩阵,其中NP、NA和NJ分别表示数据集中文献、作者和期刊的总数;
S302:临界矩阵初始化,并根据初始化的邻接矩阵生成转置矩阵;
临界矩阵初始化具体步骤如下:
判断节点间链接关系,若两篇文章之间具有引用关系,则RPP中两篇文章对应的邻接值为1,否则为0;若文章中的作者列表包含某位作者,则RPA中该文章和作者对应的邻接值为1,否则为0;若文章发表于某个期刊,则RPJ中该文章和期刊对应的邻接值为1,否则为0;若两个作者共同署名同一篇文章,则RAA中这两个作者对应的邻接值为1,否则为0;若某个作者在某期刊发表过文章,则RAJ中该作者和期刊对应的邻接值为1,否则为0;若两个期刊属于共同的类别,则RJJ中这两个期刊对应的邻接值为1,否则为0;
S303:基于邻接矩阵R构造增广邻接矩阵
式中:RAP、RJA和RJP分别为步骤S302中RPA、RAJ和RPJ的转置矩阵;
S304:基于R*构建L层异构图卷积层,其中第l层的异构图卷积过程为:
其中,Relu(·)表示修正线性单元函数,为卷积核,ds表示卷积核宽度,/>是基于R*构造的矩阵,其值为R*+I,其中/>为单位矩阵,/>表示异构图的度矩阵,/> 表示取度矩阵/>的第i行第j列的数据,/>表示取/>矩阵的第i行第j列的数据,Zl表示深度图卷积网络第l层的数据特征,其中由节点初始特征向量构成,Z0的构造方式分别为:
将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量,获得每一层的异构节点中间向量Z1,Z2,…,ZL。
进一步的,所述步骤S4具体过程如下:
S4.1:构建三个可学习的投射向量分别用于计算不同卷积层中的文献、作者和期刊向量权重,式中dα表示投射向量的长度;
S4.2:依据不同节点类型,将所有异构节点向量进行堆叠,获得关于文献、作者和来源的张量和/>然后利用下述过程为L个卷积层生成权重调节因子:
和/>分别生成的所有卷积层中文献向量、作者向量和来源向量的权重因子;其中,σ(·)为sigmoid函数,softmax(·)为多分类函数,为可学习的映射矩阵;
S4.3:根据三类权重调节因子,依据下式生成所有的异构节点最终向量表示:
其中,表示Hadamard积,/>表示向量加和取平均。
进一步的,所述步骤S5具体过程如下:
为保证所获异构节点表示的有效性,将最终异构节点最终向量表示输入解码器以概率还原文献网络结构,其解码方式为最大化如下似然函数:
式中,N*=NP+NA+NJ表示节点总数,和/>表示/>中任意两个节点向量,/>为增广邻接矩阵R*中/>和/>节点所对应的邻接值。
进一步的,所述步骤S6具体过程如下:
S6.1:构建文献幂律分布生成器:
将数据集中所有文献的被引次数在[0,C]范围内分为M个区间,其中引用次数超过C值的文献被归为第M个区间,定义h为某个被引次数区间,p(h)为该被引次数区间中的文章数量,则可以获得如下幂律分布:
p(h,C,α)=β(h)-α
式中,α和β是可估计参数;
S6.2:随机多批次选取文献,然后按被引次数划分统计每次选择子样本集的文献引用次数,则可以获得如下观测序列其中N表示每一批次获取的样本总数,将此观测序列作为训练数据,采用极大似然估计法,通过下式估计获得中α和β的参数值:
S6.3:利用获得的幂律分布,动态采样获得一组符合该幂律分布的值,记为文献预期价值向量
S6.4:利用卷积神经网络,将所有文献向量表示矩阵转化为预期文献价值向量
其中,T表示矩阵转置,CovX(·)表示带一层卷积和k-max池化层的卷积神经网络,为卷积核,所用卷积核个数为NC,同时NC*k=M,k表示卷积之后最大的k个值;
S6.5:利用对抗生成网络,将H*作为约束加入文献向量表示的学习过程中,对抗生成网络的判别器会将/>判定为假,并将从幂律分布中采样获得的H*判定为真,此时由数据集中的文献向量产生的价值向量/>与幂律分布器产生的价值向量H*保持近似,从而将文献预期价值信息嵌入文献向量中;此过程等价于如下过程:
其中,D(·)表示判别器,G(·)表示生成器,包含CovX(·)及S3到S5所述的异构图卷积网络;
S6.6:通过重复步骤S3-步骤S6.5,直到所有参数值收敛或达到最大训练次数,具体的说,最大训练次数取500次。
进一步的,所述步骤S7具体过程如下:
S7.1:首先给定查询q=[qw,qΑ,qJ],其中qw为查询文本所有词,qΑ为查询作者所有词,qJ为查询来源所有词,然后将查询q=[qw,qΑ,qJ]转化为向量其中/>为查询文本所有词的平均向量,/>为查询作者所发表过的所有文献所包含词的平均向量,/>为查询来源中所有文献所包含词的平均向量;
S7.2:选取数据集中的所有文献为候选文献di,针对每一篇候选文献di,以下式计算得分
其中,和/>分别候选文献di的文本、作者和来源向量表示,其取值均来自于步骤S4.3中的/>
最终选择得分较高的文献,作为结果推荐。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (4)
1.一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:包括以下步骤:
S1:根据文献数据集构建初始特征向量;
S2:根据初始特征向量构建异构文献图;
其中,异构文献图表示为G={X,E};
X={XP,XA,XJ},表示三类不同节点的特征信息:XP表示所有文献向量特征,XA表示所有作者向量特征,XJ表示所有期刊向量特征,取值自于步骤S1初始特征向量;
根据节点的不同,边集E={EPP,EPA,EPJ,EAA,EAJ,EJJ}含有六种不同类型,包括三种同构关联关系:EPP为文献引用信息、EAA为作者合著信息和EJJ为来源关联信息,以及三种异构关联关系:EPA为文献-作者关系、EPJ为文献-来源关系、EAJ为作者-来源关系;
S3:根据S2中的异构文献图构建异构图卷积网络,并将节点初始特征向量输入异构图卷积深度网络获得异构节点特征向量;
其中异构图卷积网络构成方法如下:
S301:首先基于步骤S2中的异构文献图,依据不同的节点和边信息构造六类邻接矩阵R={RPP,RPA,RPJ,RAA,RAJ,RJJ};
式中: 和/>分别为文献-引用信息、文献-作者关系、文献-来源关系、作者-合著信息、作者-来源关系和来源关联信息所对应的领接矩阵,其中NP、NA和NJ分别表示数据集中文献、作者和期刊的总数,/>表示对应矩阵的元素值;
S302:临界矩阵初始化,并根据初始化的邻接矩阵生成转置矩阵;
S303:基于邻接矩阵R构造增广邻接矩阵
式中:RAP、RJA和RJP分别为步骤S302中RPA、RAJ和RPJ的转置矩阵;
S304:基于R*构建L层异构图卷积层,其中第l层的异构图卷积过程为:
其中,Relu(·)表示修正线性单元函数,为卷积核,ds表示卷积核宽度,是基于R*构造的矩阵,其值为R*+I,其中/>为单位矩阵,/>表示异构图的度矩阵,/> 表示取度矩阵/>的第i行第j列的数据,/>表示取/>矩阵的第i行第j列的数据,Zl表示深度图卷积网络第l层的数据特征,其中由节点初始特征向量构成,Z0的构造方式分别为:
S4:构建深度注意力层,并利用注意力层获取每个卷积层的权重调节因子,然后利用权重调节因子生成所有的异构节点最终向量表示;
具体过程如下:
S4.1:构建三个可学习的投射向量分别用于计算不同卷积层中的文献、作者和期刊向量权重,式中dα表示投射向量的长度;
S4.2:依据不同节点类型,将所有异构节点向量进行堆叠,获得关于文献、作者和来源的张量和/>然后利用下述过程为L个卷积层生成权重调节因子:
和/>分别生成的所有卷积层中文献向量、作者向量和来源向量的权重因子;其中,σ(·)为sigmoid函数,softmax(·)为多分类函数,为可学习的映射矩阵;
S4.3:根据三类权重调节因子,依据下式生成所有的异构节点最终向量表示:
其中,表示Hadamard积,/>表示向量加和取平均;
S5:将所获得的异构节点最终向量表示利用解码器还原文献网络结构;
具体过程如下:
将最终异构节点最终向量表示输入解码器以概率还原文献网络结构,其解码方式为最大化如下似然函数:
式中,N*=NP+NA+NJ表示节点总数,和/>表示/>中任意两个节点向量,/>为增广邻接矩阵R*中/>和/>节点所对应的邻接值;
S6:利用对抗生成机制,将文献预期价值信息嵌入文献向量中;
S7:针对每一篇候选文献计算得分,最终根据得分对文献进行推荐。
2.如权利要求1所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S1具体过程如下:
S1.1:根据文献数据集,对于每一篇文献,通过Word2Vec工具获取每个词的词向量,并将该文献中的词向量取平均获得文献初始向量;
S1.2:根据文献数据集,对于每一个作者,取其发表过的所有文献的初始向量并取平均,从而获得作者初始向量;
S1.3:根据文献数据集,对于每一个期刊,取其包含的所有文献的初始向量并取平均,从而获得期刊初始向量。
3.如权利要求1所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S6具体过程如下:
S6.1:构建文献幂律分布生成器:
将数据集中所有文献的被引次数在[0,C]范围内分为M个区间,其中引用次数超过C值的文献被归为第M个区间,定义h为某个被引次数区间,p(h)为该被引次数区间中的文章数量,则可以获得如下幂律分布:
p(h,C,α)=β(h)-α
式中,α和β是可估计参数;
S6.2:随机多批次选取文献,然后按被引次数划分统计每次选择子样本集的文献引用次数,则可以获得如下观测序列其中N表示每一批次获取的样本总数,将此观测序列作为训练数据,采用极大似然估计法,通过下式估计获得中α和β的参数值:
S6.3:利用获得的幂律分布,动态采样获得一组符合该幂律分布的值,记为文献预期价值向量
S6.4:利用卷积神经网络,将所有文献向量表示矩阵转化为预期文献价值向量
其中,T表示矩阵转置,CovX(·)表示带一层卷积和k-max池化层的卷积神经网络,为卷积核,所用卷积核个数为NC,同时NC*k=M,k表示卷积之后最大的k个值;
S6.5:利用对抗生成网络,将H*作为约束加入文献向量表示的学习过程中,对抗生成网络的判别器会将/>判定为假,并将从幂律分布中采样获得的H*判定为真,此时由数据集中的文献向量产生的价值向量/>与幂律分布器产生的价值向量H*保持近似,从而将文献预期价值信息嵌入文献向量中;此过程等价于如下过程:
其中,D(·)表示判别器,G(·)表示生成器,包含CovX(·)及S3到S5所述的异构图卷积网络;
S6.6:通过重复步骤S3-步骤S6.5,直到所有参数值收敛或达到最大训练次数,最大训练次数取500次。
4.如权利要求1所述的一种异构环境下嵌入预期价值的文献推荐方法,其特征在于:所述步骤S7具体过程如下:
S7.1:首先给定查询q=[qw,qΑ,qJ],其中qw为查询文本所有词,qΑ为查询作者所有词,qJ为查询来源所有词,然后将查询q=[qw,qΑ,qJ]转化为向量其中/>为查询文本所有词的平均向量,/>为查询作者所发表过的所有文献所包含词的平均向量,/>为查询来源中所有文献所包含词的平均向量;
S7.2:选取数据集中的所有文献为候选文献di,针对每一篇候选文献di,以下式计算得分
其中,和/>分别候选文献di的文本、作者和来源向量表示,其取值均来自于步骤S4.3中的/>
最终选择得分较高的文献,作为结果推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745509.3A CN115186086B (zh) | 2022-06-27 | 2022-06-27 | 一种异构环境下嵌入预期价值的文献推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745509.3A CN115186086B (zh) | 2022-06-27 | 2022-06-27 | 一种异构环境下嵌入预期价值的文献推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115186086A CN115186086A (zh) | 2022-10-14 |
CN115186086B true CN115186086B (zh) | 2023-08-08 |
Family
ID=83514730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210745509.3A Active CN115186086B (zh) | 2022-06-27 | 2022-06-27 | 一种异构环境下嵌入预期价值的文献推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115186086B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8572129B1 (en) * | 2010-04-19 | 2013-10-29 | Facebook, Inc. | Automatically generating nodes and edges in an integrated social graph |
WO2020147594A1 (zh) * | 2019-01-16 | 2020-07-23 | 阿里巴巴集团控股有限公司 | 获取实体间关系表达的方法、系统和设备、广告召回系统 |
CN112347362A (zh) * | 2020-11-16 | 2021-02-09 | 安徽农业大学 | 一种基于图自编码器的个性化推荐方法 |
CN112380435A (zh) * | 2020-11-16 | 2021-02-19 | 北京大学 | 基于异构图神经网络的文献推荐方法及推荐系统 |
CN112632296A (zh) * | 2020-12-31 | 2021-04-09 | 上海交通大学 | 基于知识图谱具有可解释性的论文推荐方法及系统、终端 |
CN114417161A (zh) * | 2022-01-21 | 2022-04-29 | 杭州碧游信息技术有限公司 | 基于异构图的虚拟物品时序推荐方法、装置、介质及设备 |
CN114510642A (zh) * | 2022-02-17 | 2022-05-17 | 重庆大学 | 基于异构信息网络的书籍推荐方法、系统及设备 |
CN114510630A (zh) * | 2021-12-31 | 2022-05-17 | 中南财经政法大学 | 一种基于异质图卷积神经网络的学术论文推荐方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840321B (zh) * | 2017-11-29 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 文本推荐方法、装置及电子设备 |
US11373233B2 (en) * | 2019-02-01 | 2022-06-28 | Target Brands, Inc. | Item recommendations using convolutions on weighted graphs |
US11544535B2 (en) * | 2019-03-08 | 2023-01-03 | Adobe Inc. | Graph convolutional networks with motif-based attention |
JP2022035314A (ja) * | 2020-08-20 | 2022-03-04 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
-
2022
- 2022-06-27 CN CN202210745509.3A patent/CN115186086B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8572129B1 (en) * | 2010-04-19 | 2013-10-29 | Facebook, Inc. | Automatically generating nodes and edges in an integrated social graph |
WO2020147594A1 (zh) * | 2019-01-16 | 2020-07-23 | 阿里巴巴集团控股有限公司 | 获取实体间关系表达的方法、系统和设备、广告召回系统 |
CN112347362A (zh) * | 2020-11-16 | 2021-02-09 | 安徽农业大学 | 一种基于图自编码器的个性化推荐方法 |
CN112380435A (zh) * | 2020-11-16 | 2021-02-19 | 北京大学 | 基于异构图神经网络的文献推荐方法及推荐系统 |
CN112632296A (zh) * | 2020-12-31 | 2021-04-09 | 上海交通大学 | 基于知识图谱具有可解释性的论文推荐方法及系统、终端 |
CN114510630A (zh) * | 2021-12-31 | 2022-05-17 | 中南财经政法大学 | 一种基于异质图卷积神经网络的学术论文推荐方法及系统 |
CN114417161A (zh) * | 2022-01-21 | 2022-04-29 | 杭州碧游信息技术有限公司 | 基于异构图的虚拟物品时序推荐方法、装置、介质及设备 |
CN114510642A (zh) * | 2022-02-17 | 2022-05-17 | 重庆大学 | 基于异构信息网络的书籍推荐方法、系统及设备 |
Non-Patent Citations (1)
Title |
---|
基于学科异构知识网络的学术文献推荐方法研究;朱祥;张云秋;惠秋悦;;图书馆杂志(08);104-111 * |
Also Published As
Publication number | Publication date |
---|---|
CN115186086A (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113190699B (zh) | 一种基于类别级语义哈希的遥感图像检索方法及装置 | |
CN109299462B (zh) | 基于多维卷积特征的短文本相似度计算方法 | |
CN110895878B (zh) | 一种基于ge-gan的交通状态虚拟检测器的生成方法 | |
CN111753044B (zh) | 一种基于正则化的去社会偏见的语言模型及应用 | |
CN109902714B (zh) | 一种基于多图正则化深度哈希的多模态医学图像检索方法 | |
CN110837602A (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
CN112925962B (zh) | 基于哈希编码的跨模态数据检索方法、系统、设备及介质 | |
CN111026887B (zh) | 一种跨媒体检索的方法及系统 | |
Erpolat Taşabat | A Novel Multicriteria Decision‐Making Method Based on Distance, Similarity, and Correlation: DSC TOPSIS | |
CN105956093A (zh) | 一种基于多视图锚点图哈希技术的个性化推荐方法 | |
CN114117153A (zh) | 一种基于相似度重学习的在线跨模态检索方法及系统 | |
CN113505225B (zh) | 一种基于多层注意力机制的小样本医疗关系分类方法 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN116383422B (zh) | 一种基于锚点的无监督跨模态哈希检索方法 | |
Song et al. | Separating common (global and local) and distinct variation in multiple mixed types data sets | |
CN113254592A (zh) | 基于门机制的多级注意力模型的评论方面检测方法及系统 | |
Dai et al. | Latent-enhanced variational adversarial active learning assisted soft sensor | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
CN115186086B (zh) | 一种异构环境下嵌入预期价值的文献推荐方法 | |
CN113449849A (zh) | 基于自编码器的学习型文本哈希方法 | |
CN115495546B (zh) | 相似文本检索方法、系统、设备及存储介质 | |
CN111126443A (zh) | 基于随机游走的网络表示学习方法 | |
Ma et al. | Fuzzy nodes recognition based on spectral clustering in complex networks | |
Zhang et al. | Differential evolution-based weighted majority voting for crowdsourcing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |