CN114610989B - 基于异构图动态信息补偿的个性化论文推荐方法及系统 - Google Patents
基于异构图动态信息补偿的个性化论文推荐方法及系统 Download PDFInfo
- Publication number
- CN114610989B CN114610989B CN202210170463.7A CN202210170463A CN114610989B CN 114610989 B CN114610989 B CN 114610989B CN 202210170463 A CN202210170463 A CN 202210170463A CN 114610989 B CN114610989 B CN 114610989B
- Authority
- CN
- China
- Prior art keywords
- user
- thesis
- trend
- expression
- meta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于异构图动态信息补偿的个性化论文推荐方法,方法首先从学术HIN中按照有向边以及节点出入度游走方式提取多样化的交互元路径;然后通过采样得到的多种元路径来学习用户节点和论文节点的嵌入并用全连接层进行融合,作为总体兴趣和受众趋势的表达,再利用结合了注意机制的双向长短期记忆神经网络(Bi‑LSTM)捕捉隐藏在用户、论文历史数据中的动态变化,来融合成短期变化趋势的表达;最后,利用用户和论文短期变化趋势表达得到的链接预测结果来补偿总体趋势表达得到的链接预测结果,从而使推荐结果更加符合用户当前的偏好,解决现有方法存在的路径采样不全面、无法挖掘用户兴趣以及论文受众变化的问题。
Description
技术领域
本发明涉及论文推荐技术领域,尤其是指一种基于异构图动态信息补偿的个性化论文推荐方法及系统。
背景技术
近年来,随着信息技术的普及,电子文献变得极大丰富,这些学术网络为人们获取知识提供了非常大的便利。然而,论文数量的快速增长,研究领域的逐步细分以及不同学科、领域间的交叉,使得研究人员不得不花费大量的时间和精力才能找到他们真正感兴趣的论文,因而,文献推荐变得非常具有实际意义。现有的论文推荐主要是利用基于历史交互数据的协同过滤进行推荐,特别是矩阵分解方法在许多应用中已显示出其有效性,它将用户-项目评级矩阵分解为两个低秩的用户特定矩阵和项目特定矩阵,然后使用分解后的矩阵进行进一步的预测。
对于给用户推荐论文的问题,在学术网络中通常将用户和论文作为节点来考虑,针对网络中的任一用户,对其推荐最符合其兴趣的论文,将两个节点链接起来。若用户在未来读了这篇论文,则表示链接(推荐)正确。因此,论文推荐问题又可以当作链接预测问题。现有的推荐模型大多依赖于协同过滤,最常用的方法是矩阵分解。但该方法对交互矩阵的依赖较大,且容易出现交互数据不足的问题。为了解决这个问题,越来越多的补充信息被添加到推荐模型中。如将用户兴趣、社会和地理因素结合到推荐中,提出了统一的基于兴趣的推荐框架。一些研究利用深度学习模型(如卷积神经网络)挖掘隐藏在文本、图像和网络结构中的潜在信息来改进推荐。近年来异构信息网络(heterogeneous informationnetworks,简称HIN)也被用于推荐模型,基于HIN的方法主要依赖于异构实体的表示学习,与网络嵌入的研究密切相关。嵌入后每个异构实体节点可以由一个低维向量表示,该向量能反映用户的阅读偏好以及论文的相关特征,通过一些已知的用户与论文的阅读记录来训练出链接预测函数,再以训练好的预测函数为工具对引文网络上的用户和论文进行匹配,进而挖掘与用户存在潜在链接的论文,达到推荐阅读的目的。异构实体的表示学习通常还需要依靠在HIN上进行元路径采样,现有方法在元路径采样上存在无向采样和回溯采样两种方式,如图1所示,论文之间的箭头关系表示引用,无向采样将有向引用边视为无向,采样的路径如黑色虚线所示,回溯采样在一定程度上避免了无向采样容易导致的深度游走问题,一般策略是按边游走几步后退回到上一个节点或者源节点,采样的路径如白灰色虚线所示。但是无向采样容易收集无效信息甚至噪声信息,同时丢失一些重要信息,回溯采样不能全面收集路径,因此,不能很好地保证路径采样的多样性。并且,用户的阅读偏好会随着研究兴趣的变化而改变,论文的受众也会随着时间的推移而改变,现有的方法并没有考虑到这些动态变化带来的影响,因此推荐的结果可能不是用户目前最想要阅读的。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种基于异构图动态信息补偿的个性化论文推荐方法及系统,其使推荐结果更加符合用户当前的偏好,解决了现有方法存在的路径采样不全面、无法挖掘用户兴趣以及论文受众变化的问题。
为解决上述技术问题,本发明提供一种基于异构图动态信息补偿的个性化论文推荐方法,包括以下步骤:
步骤1:构建学术网络异构信息网络图,基于所述学术网络异构信息网络图提取用户和论文的历史信息,其中所述学术网络异构信息网络图由学术网络内多种不同类型的节点集合构成;
步骤2:根据步骤1得到的所述学术网络异构信息网络图设计出分别针对用户和论文的元路径模式以及基于出入边的元路径采样方法;
步骤3:根据步骤1得到的用户和论文的历史信息以及步骤2得到的针对用户和论文的元路径模式学习用户和论文的总体趋势表达和短期趋势表达,用户和论文的总体趋势表达分别对每一种元路径模式下采样到的路径进行表示学习,并利用全连接层进行连接得到属于用户总体兴趣趋势和论文总体受众趋势的表达;用户和论文的短期趋势表达根据得到的总体趋势表达以及步骤1得到的用户和论文的历史信息,将用户最近一段时间阅读论文的总体受众趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到用户短期内的兴趣趋势表达,同样将论文最新一段时间读者的总体兴趣趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到论文短期内的受众趋势表达;
步骤4:将步骤3得到的用户和论文的总体趋势表达做点乘得到的值作为总体趋势下用户与论文链接存在的预测值,再将用户和论文的短期趋势表达做点乘得到的值作为短期趋势下用户与论文链接存在的预测值,利用短期趋势下用户与论文链接存在的预测值补偿总体趋势下用户与论文链接存在的预测值,若补偿后的链接预测值大于设定的阈值时,则将论文推荐给用户,若补偿后的链接预测值小于等于设定的阈值时,则不将论文推荐给用户。
在本发明的一个实施例中,步骤1中提取用户和论文的历史信息的方法包括:
将用户历史阅读过的论文按每个时间段划分到集合中,再将所有时间段集合按从小到大顺序放入一个大集合表示为该用户的历史阅读信息;将阅读论文的用户按每个时间段划分到集合中,再将所有时间段集合按从小到大放入一个大集合表示为该论文的历史被阅读信息。
在本发明的一个实施例中,步骤2中针对用户和论文的元路径模式以及基于出入边的元路径采样方法,包括:
在学术网络异构信息网络图的基础上定义元路径模式为:其中双向箭头表示有向边,其有两个选择,即左指向或者右指向,在进行基于出入边的元路径采样时,严格按照元路径指定的边的连接方向进行,当方向为→时,表示下一个节点必须来自源节点的出邻居,如果方向为←,则下一个节点必须来自入邻居,且下一个节点的类型与元路径指定的类型一致。
在本发明的一个实施例中,用户和论文的总体趋势表达分别对每一种元路径模式下采样到的路径进行表示学习,并利用全连接层进行连接得到属于用户总体兴趣趋势和论文总体受众趋势的表达的方法包括:
使用全连接层组合从每个元路径中学到的初始嵌入,分别得到用户总体兴趣趋势的表达和论文总体受众趋势的表达如下:
其中,|MPU|表示用户元路径种类的数量,WU表示要学习的用户全连接层权重矩阵,|MPP|表示论文元路径种类的数量,WP表示要学习的论文全连接层权重矩阵。
在本发明的一个实施例中,用户的短期趋势表达根据得到的总体趋势表达以及步骤1得到的用户的历史信息,将用户最近一段时间阅读论文的总体受众趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到用户短期内的兴趣趋势表达的方法包括:
将用户历史信息中的前a%阅读数据作为训练集的正样本,使用Ptrain的最后b%形成该用户包含动态变化信息的数据为:
RPu={{p1},{p2,p3},...,{pn}},Ptrain={p1,p2,...,pn×a%},
Ptest={pn×a%+1,...,pn},DCIUu={pn×a%×(1-b%),...,pn×a%},
其中DCIUu表示包含用户u的动态变化信息;
在本发明的一个实施例中,所述注意力感知的Bi-LSTM的注意力权重定义如下:
其中α表示可训练的注意向量,σ表示非线性的激活函数。
在本发明的一个实施例中,步骤4中用户和论文链接存在的概率预测值通过如下的计算公式进行预测:
此外,本发明还提供一种基于异构图动态信息补偿的个性化论文推荐系统,包括:
异构信息网络图构建模块,其用于构建学术网络异构信息网络图,基于所述学术网络异构信息网络图提取用户和论文的历史信息,其中所述学术网络异构信息网络图由学术网络内多种不同类型的节点集合构成;
元路径设计与采样模块,其用于根据所述学术网络异构信息网络图设计出分别针对用户和论文的元路径模式以及基于出入边的元路径采样方法;
节点表示学习模块,其用于根据用户和论文的历史信息以及针对用户和论文的元路径模式学习用户和论文的总体趋势表达和短期趋势表达,用户和论文的总体趋势表达分别对每一种元路径模式下采样到的路径进行表示学习,并利用全连接层进行连接得到属于用户总体兴趣趋势和论文总体受众趋势的表达;用户和论文的短期趋势表达根据得到的总体趋势表达以及步骤1得到的用户和论文的历史信息,将用户最近一段时间阅读论文的总体受众趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到用户短期内的兴趣趋势表达,同样将论文最新一段时间读者的总体兴趣趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到论文短期内的受众趋势表达;
链接值预测模块,其用于将用户和论文的总体趋势表达做点乘得到的值作为总体趋势下用户与论文链接存在的预测值,再将用户和论文的短期趋势表达做点乘得到的值作为短期趋势下用户与论文链接存在的预测值,利用短期趋势下用户与论文链接存在的预测值补偿总体趋势下用户与论文链接存在的预测值,若补偿后的链接预测值大于设定的阈值时,则将论文推荐给用户,若补偿后的链接预测值小于等于设定的阈值时,则不将论文推荐给用户。
在本发明的一个实施例中,所述节点表示学习模块包括:
初始嵌入学习子模块,所述初始嵌入学习子模块用于利用skip-gram模型的DeepWalk表示学习方法对每个元路径模式下的采样结果进行初始嵌入其中mpk表示用户u在第k个元路径模式下得到的嵌入样本集合;
总体趋势表达子模块,所述总体趋势表达子模块用于使用全连接层组合从每个元路径中学到的初始嵌入,分别得到用户总体兴趣趋势的表达和论文总体受众趋势的表达如下:
其中,|MPU|表示用户元路径种类的数量,WU表示要学习的用户全连接层权重矩阵,|MPP|表示论文元路径种类的数量,WP表示要学习的论文全连接层权重矩阵。
在本发明的一个实施例中,所述节点表示学习模块包括:
动态信息获取子模块,所述动态信息获取子模块用于将用户历史信息中的前a%阅读数据作为训练集的正样本,使用Ptrain的最后b%形成该用户包含动态变化信息的数据为:
RPu={{p1},{p2,p3},...,{pn}},Ptrain={p1,p2,...,pn×a%},
Ptest={pn×a%+1,...,pn},DCIUu={pn×a%×(1-b%),...,pn×a%},
其中DCIUu表示包含用户u的动态变化信息;
本发明的上述技术方案相比现有技术具有以下优点:
本发明首先从学术HIN中按照有向边以及节点出入度游走方式提取多样化的交互元路径,给定游走方向(入度、出度)能够在有向图中采样到多样化路径的同时避免噪声加入;然后通过采样得到的多种元路径来学习用户节点和论文节点的嵌入并用全连接层进行融合,作为总体兴趣和受众趋势的表达,再利用结合了注意机制的双向长短期记忆神经网络(Bi-LSTM)捕捉隐藏在用户、论文历史数据中的动态变化,来融合成短期变化趋势的表达;最后,利用用户和论文短期变化趋势表达得到的链接预测结果来补偿总体趋势表达得到的链接预测结果,从而使推荐结果更加符合用户当前的偏好,解决了现有方法存在的路径采样不全面、无法挖掘用户兴趣以及论文受众变化的问题。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是现有方法进行元路径采样示意图。
图2是本发明基于异构图动态信息补偿的个性化论文推荐方法的流程图。
图3是本发明基于异构图动态信息补偿的个性化论文推荐方法的示意图。
图4是本发明学术异构信息网络模式图。
图5是注意力机制下的Bi-LSTM示意图。
图6是数据集信息统计图。
图7是不同方法在三种指标方面的实验比较结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一
请参阅图2和3所示,本实施例提供一种基于异构图动态信息补偿的个性化论文推荐方法,包括以下步骤:
步骤1:构建学术网络异构信息网络图,基于所述学术网络异构信息网络图提取用户和论文的历史信息,其中所述学术网络异构信息网络图由学术网络内多种不同类型的节点集合构成;
步骤2:根据步骤1得到的所述学术网络异构信息网络图设计出分别针对用户和论文的元路径模式以及基于出入边的元路径采样方法;
步骤3:根据步骤1得到的用户和论文的历史信息以及步骤2得到的针对用户和论文的元路径模式学习用户和论文的总体趋势表达和短期趋势表达,用户和论文的总体趋势表达分别对每一种元路径模式下采样到的路径进行表示学习,并利用全连接层进行连接得到属于用户总体兴趣趋势和论文总体受众趋势的表达;用户和论文的短期趋势表达根据得到的总体趋势表达以及步骤1得到的用户和论文的历史信息,将用户最近一段时间阅读论文的总体受众趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到用户短期内的兴趣趋势表达,同样将论文最新一段时间读者的总体兴趣趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到论文短期内的受众趋势表达;
步骤4:将步骤3得到的用户和论文的总体趋势表达做点乘得到的值作为总体趋势下用户与论文链接存在的预测值,再将用户和论文的短期趋势表达做点乘得到的值作为短期趋势下用户与论文链接存在的预测值,利用短期趋势下用户与论文链接存在的预测值补偿总体趋势下用户与论文链接存在的预测值,若补偿后的链接预测值大于设定的阈值时,则将论文推荐给用户,若补偿后的链接预测值小于等于设定的阈值时,则不将论文推荐给用户。
本发明首先从学术HIN中按照有向边以及节点出入度游走方式提取多样化的交互元路径,给定游走方向(入度、出度)能够在有向图中采样到多样化路径的同时避免噪声加入;然后通过采样得到的多种元路径来学习用户节点和论文节点的嵌入并用全连接层进行融合,作为总体兴趣和受众趋势的表达,再利用结合了注意机制的双向长短期记忆神经网络(Bi-LSTM)捕捉隐藏在用户、论文历史数据中的动态变化,来融合成短期变化趋势的表达;最后,利用用户和论文短期变化趋势表达得到的链接预测结果来补偿总体趋势表达得到的链接预测结果,从而使推荐结果更加符合用户当前的偏好,解决了现有方法存在的路径采样不全面、无法挖掘用户兴趣以及论文受众变化的问题。
具体地结合附图,以任意一个用户u和论文p为例对本发明的技术方案进行详细的说明。本发明的基于异构图动态信息补偿的个性化论文推荐方法,用于给用户推荐当下最感兴趣的论文,是用户把握当下研究情况的基础,能为用户后续的研究提供有力支持,方法执行流程如图2所示,方法包括步骤:
步骤1、构建学术网络HIN图和提取用户、论文历史信息。学术网络HIN图用图G=(V,E)表示,其中V表示顶点集合,由学术交网络内多种不同类型的节点集合(用户、论文、话题、期刊)构成,E表示节点间的关系集合(阅读、写作、引用、隶属)。学术网络HIN图还包括两个映射函数Φ:V→O以及Ψ:E→L,O和L代表预定义的对象和链接类型的集合。将用户历史阅读过的论文按每个时间段划分到集合中,再将所有时间段集合按从小到大顺序放入一个大集合表示为此用户的历史阅读信息;将阅读论文的用户按每个时间段划分到集合中,再将所有时间段集合按从小到大放入一个大集合表示为此论文的历史被阅读信息。
步骤2、根据步骤1中得到的学术网络HIN图,设计出分别针对用户和论文的元路径模式以及基于出入边的元路径采样方法,用户和论文的元路径模式集合分别用MPU={mpui},MPP={mppi}表示,其中mpui和mppi分别表示针对用户、论文的第i种元路径模式。
步骤3、根据步骤1得到的历史记录和步骤2得到的针对用户和论文的元路径模式集合,学习用户和论文的总体趋势表达和短期趋势表达。前者分别对每一种元路径模式下采样到的路径进行表示学习,并利用全连接层进行连接得到属于用户总体兴趣趋势和论文总体受众趋势的表达;后者根据得到的总体趋势表达以及步骤1中提取的用户、论文历史信息,将用户最近一段时间阅读论文的总体受众趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到用户短期内的兴趣趋势表达,同样将论文最新一段时间读者的总体兴趣趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到论文短期内的受众趋势表达。
步骤4、根据步骤3的结果,利用已知的用户阅读论文记录进行监督学习,将用户和论文的长期趋势表达做点乘得到的值作为长期趋势下用户与论文链接存在的可能性,再将用户和论文的短期趋势表达做点乘得到的值作为短期趋势下用户与论文链接存在的可能性,如果短期趋势的链接可能性非常高,则将其去替换长期趋势得到的值,达到补偿的效果,最终预测的链接可能性值大于设定阈值η时,表示用户与论文之间存在链接。
进一步的,所述步骤1中构建学术网络HIN图和提取用户、论文历史信息方法为:
首先,学术网络HIN图包括节点的类型有:用户(U)、论文(P)、话题(T)、期刊(V),链接类型有:阅读(UP_R)、引用(PP)、隶属(PT、PV)、写作(UP_W)。为了确定阅读关系,假设用户在自己的文章中引用这篇文章之前已经阅读过这篇文章,然后我们通过一个阅读边将用户与被引用的文章连接起来,这个阅读边用UP_R表示。因此,UP_W表示用户写了一篇文章。PP表示论文之间的引文关系。PT和PV表示隶属关系,前者代表论文属于某一特定话题,后者代表论文在某一期刊发表。根据构造的HIN图,我们可以得到网络模式,表示为S={O,L},它是异构信息网络G={V,E}的元模板,带有两个映射函数Φ:V→O以及Ψ:E→L,O和L代表预定义的对象和链接类型的集合。网络模式是一个定义在对象类型O上的有向图,从L中取边作为关系,如图4所示。
其次,为了捕捉动态变化的信息,我们仍然需要通过对数据集进行预处理来提取必要的历史信息,包括每个用户阅读的论文集合、每篇论文的一组读者以及阅读/被阅读的时间。对于每个用户和论文,我们将相应的集合按照时间顺序进行排序,以用户u和论文p为例:
其中,RPu表示用户u的阅读论文列表,AUp表示论文p的读者列表。{p2,p3}表示用户u在同一时间段内读过p2和p3,{u2,u3}表示p在同一时间段被用户u2和u3读过。我们将时间以年为单位进行分割。
进一步的,所述步骤2中针对用户和论文设计的元路径模式以及采样元路径的方法为:
在学术网络HIN图的基础上,定义的元路径模式为:其中双向箭头表示有向边,有两个选择,即左指向或者右指向。比如元路径表示两个用户阅读了同一个话题下的论文,可以简写为UPTPU,另外还有表示两个用户阅读了同一篇论文,可以简写为UPU_R,则表示两个用户协作写了同一篇文章,简写为UPU_W,表示两篇论文引用了同一篇论文,简写为PP。在进行基于出入边的元路径采样时,要严格按照元路径指定的边的连接方向进行,当方向为→时,表示下一个节点必须来自源节点的出邻居,如果方向为←,则下一个节点必须来自入邻居。下一个节点的类型也应该与元路径指定的类型一致。元路径模式是采样路径的依据,并不限制采样路径长度,所以在图1中本发明方法能采样得到灰色虚线路径,该路径语义包含p3同时被p1和p6引用,p6同时引用p3和p7,更为丰富。在进行论文推荐时,主要关注U和P两个实体,所以元路径按照本方法的模型被设计成相同的开始和结束节点(U或P)。因此,元路径被分为两种类型,MPU表示用户的元路径集合和MPP表示论文的元路径集合。
进一步的,所述步骤3中得到属于用户和论文的总体趋势表达以及短期趋势表达,其方法为:
首先,在步骤2中获得了元路径的模式,以用户为例,假设用户元路径集合为MPU={mp1,mp2,mp3,...},每种元路径模式下根据人为设定的路径长度、每个节点游走次数就能生成很多条路径,我们通过利用了skip-gram模型的Deep Walk表示学习方法来对每个元路径模式下的采样结果进行初始嵌入:mpk表示用户u在第k个元路径模式下得到的嵌入样本集合。接下来,我们需要集成从每个元路径中学到的初始嵌入。对于每个用户,都有不同的元路径选择偏好。有些用户更关注某个话题,而另一些用户可能更关注某个期刊。因此,我们使用全连接层来组合每个用户的初始嵌入:
其中|MPU|是用户元路径种类的数量,WU是要学习的用户全连接层权重矩阵。这样就获得了属于用户u的总体兴趣趋势的表达Eu,同理,论文p的总体受众趋势表达Ep也用相似的过程获得:
其中|MPP|是论文元路径种类的数量,WP是要学习的论文全连接层权重矩阵。
然后,我们需要得到用户短期内的兴趣趋势表达和论文短期内的受众趋势表达,因为通过元路径学习到的表示不能突出显示用户兴趣的变化,以及文章读者随时间的变化。因此,我们仍然需要通过挖掘历史信息来捕获这些变化。假设我们有用户u的已排序的阅读列表RPu,然后我们使用前a%的阅读数据作为训练集(Ptrain)的正样本,最后(1-a)%的数据作为测试集(Ptest)的正样本。根据实际情况,我们需要掌握最近的阅读趋势,并保证输入到Bi-LSTM的数据规模是相同的,所以我们使用Ptrain的最后b%来形成用户u包含动态变化信息的数据:
RPu={{p1},{p2,p3},...,{pn}},Ptrain={p1,p2,...,pn×a%},
Ptest={pn×a%+1,...,pn},DCIUu={pn×a%×(1-b%),...,pn×a%},(4),其中DCIUu表示包含用户u的动态变化信息。如果分割发生的位置落在一个集合上,那我们对集合内元素进行随机排序,然后执行分割。同样,包含论文p的动态变化信息(DCIPp)也以同样的方式处理:
AUp={{u1},{u2,u3},...,{un}},Ptrain={u1,u2,...,un×a%},
Ptest={un×a%+1,...,un},DCIPp={un×a%×(1-b%),...,un×a%}.(5)
并且设计一个注意感知的Bi-LSTM来捕获DCIUu的动态信息。考虑到不同的论文不能被平等对待,我们利用注意力机制来整合Bi-LSTM的输出形成包含用户动态变化信息的表示。下面以用户u的DCIUu为例:
其中hi是第i个内容的输出隐态,⊙表示Hadamard乘积,bj(j∈{z,f,t,c})是第i个内容特征的需要学习的参数,zi、fi和oi分别是遗忘门向量、输入门向量、输出门向量。上述操作捕捉了用户u近期阅读的论文之间的“深层”关系,其中,注意力权重att(*)利用注意力权重融合所有隐藏状态,以此获得短期内兴趣趋势变化的表达。
这里,我们将注意力权重定义如下:
其中α是一个可训练的注意向量,σ是一个非线性的激活函数。注意力机制下的Bi-LSTM的示意图如图5所示。同样,论文的短期受众趋势表示p(E′p)也是同样的过程:
进一步的,所述步骤4中得到链接预测值的方法为:
其中,σ是一个激活函数,这里选择Sigmoid函数。σ(Eu TEp)是基础的预测,当它低于阈值η时,表明用户的总体阅读偏好与论文不匹配,此时使用用户u近期的阅读偏好来匹配p的近期受众趋势,即如果仍然低于η,这意味着用户u最近的阅读偏好也不匹配论文p,所以该论文将不会被推荐给用户u。
为了训练本发明方法,训练集D由从HIN中提取的训练数据组成,以(u,p,r)的形式构建,其中只有两个可能的值:0或1,r=0表示用户u没有读过论文,否则表示u读过论文。我们设定一个交叉熵损失Θ作为模型训练的目标。所有参数通过结合随机梯度的反向传播更新,试图最小化目标Θ,即每个训练数据的平均损失Θ(u,p,r):
为了验证本方法的有效性,通过仿真实验提供一具体实施例。实验做如下设置:学术网络数据集来自开发数据集Aminer,详细统计数据如图6所示,其中T1和T2是两个不同时间段的数据集(T1:2000-2005,T2:2005-2015)。除了正样本外,我们随机选择6篇没有被用户阅读过的论文,为每个用户生成负样本。
我们使用F1-score、AUC和NDCG这三个经典的评价指标来评价推荐模型的性能。F1-score同时兼顾了分类模型的精确率和召回率,可以看作是模型精确率和召回率的一种调和平均。AUC被定义为ROC曲线下与坐标轴围成的面积,越高表示方法的真实性越高。NDCG用作排序结果的评价指标,评价排序的准确性,在实验中设定推荐列表长度为10。对于所有指标,值越高表示性能越好。所有的实验重复做10次。每次实验在损失值收敛时停止,并以10次结果的平均值报告最终指标。模型参数设置如下:a设为80,b设为25,Eq.(4)中,η设为0.5。对于学习率,我们设置为0.0004,批量大小设置为500。
为了评估本发明方法的性能,实验比较了几个有代表性的基准方法:Deepwalk、Node2vec和Metapath2vec是使用skip-gram模型进行节点表示学习的经典方法:HERec对元路径得到的嵌入结果进行非线性合并;我们还实现了COMRec的两种变体,即COMRecmp和COMReclstm。前者仅依赖于从元路径中学习到的嵌入,后者使用LSTM而不是Bi-LSTM来连接动态信息进行补偿推荐。
与本发明方法比较的实验结果如图7所示。本文提出的出入边采样方法(IO)比所有其他基准采样方法(Original)的效果都要好,此外所有基于HIN的方法都优于基于同构图的方法Deepwalk和Node2vec。在这些基于HIN的推荐方法中,HERec、COMRec及其变体的推荐效果优于Metapath2vec,后者的推荐结果直接基于异构采样获得。COMRecmp的性能优于HERec,所以与非线性层相比,全连接层是嵌入融合的更好选择。COMReclstm对COMRecmp的优势进一步说明了基于动态变化的补偿推荐可以帮助本方法获得更好的推荐结果。COMRec以微弱优势好于COMReclstm。基于注意力机制,我们改进的Bi-LSTM通过双向操作,在短期内更好地捕捉到用户的阅读偏好和文章受众的动态趋势,为准确推荐提供了更有用的嵌入。
实施例二
下面对本发明实施例二公开的一种基于异构图动态信息补偿的个性化论文推荐系统进行介绍,下文描述的一种基于异构图动态信息补偿的个性化论文推荐系统与上文描述的一种基于异构图动态信息补偿的个性化论文推荐方法可相互对应参照。
本实施例公开了一种基于异构图动态信息补偿的个性化论文推荐系统,包括:
异构信息网络图构建模块,其用于构建学术网络异构信息网络图,基于所述学术网络异构信息网络图提取用户和论文的历史信息,其中所述学术网络异构信息网络图由学术网络内多种不同类型的节点集合构成;
元路径设计与采样模块,其用于根据所述学术网络异构信息网络图设计出分别针对用户和论文的元路径模式以及基于出入边的元路径采样方法;
节点表示学习模块,其用于根据用户和论文的历史信息以及针对用户和论文的元路径模式学习用户和论文的总体趋势表达和短期趋势表达,用户和论文的总体趋势表达分别对每一种元路径模式下采样到的路径进行表示学习,并利用全连接层进行连接得到属于用户总体兴趣趋势和论文总体受众趋势的表达;用户和论文的短期趋势表达根据得到的总体趋势表达以及步骤1得到的用户和论文的历史信息,将用户最近一段时间阅读论文的总体受众趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到用户短期内的兴趣趋势表达,同样将论文最新一段时间读者的总体兴趣趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到论文短期内的受众趋势表达;
链接值预测模块,其用于将用户和论文的总体趋势表达做点乘得到的值作为总体趋势下用户与论文链接存在的预测值,再将用户和论文的短期趋势表达做点乘得到的值作为短期趋势下用户与论文链接存在的预测值,利用短期趋势下用户与论文链接存在的预测值补偿总体趋势下用户与论文链接存在的预测值,若补偿后的链接预测值大于设定的阈值时,则将论文推荐给用户,若补偿后的链接预测值小于等于设定的阈值时,则不将论文推荐给用户。
在本发明的一个实施例中,所述节点表示学习模块包括:
初始嵌入学习子模块,所述初始嵌入学习子模块用于利用skip-gram模型的DeepWalk表示学习方法对每个元路径模式下的采样结果进行初始嵌入其中mpk表示用户u在第k个元路径模式下得到的嵌入样本集合;
总体趋势表达子模块,所述总体趋势表达子模块用于使用全连接层组合从每个元路径中学到的初始嵌入,分别得到用户总体兴趣趋势的表达和论文总体受众趋势的表达如下:
其中,|MPU|表示用户元路径种类的数量,WU表示要学习的用户全连接层权重矩阵,|MPP|表示论文元路径种类的数量,WP表示要学习的论文全连接层权重矩阵。
在本发明的一个实施例中,所述节点表示学习模块包括:
动态信息获取子模块,所述动态信息获取子模块用于将用户历史信息中的前a%阅读数据作为训练集的正样本,使用Ptrain的最后b%形成该用户包含动态变化信息的数据为:
RPu={{p1},{p2,p3},...,{pn}},Ptrain={p1,p2,...,pn×a%},
Ptest={pn×a%+1,...,pn},DCIUu={pn×a%×(1-b%),...,pn×a%},
其中DCIUu表示包含用户u的动态变化信息;
本实施例的基于异构图动态信息补偿的个性化论文推荐系统用于实现前述的基于异构图动态信息补偿的个性化论文推荐方法,因此该系统的具体实施方式可见前文中的基于异构图动态信息补偿的个性化论文推荐方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的基于异构图动态信息补偿的个性化论文推荐系统用于实现前述的基于异构图动态信息补偿的个性化论文推荐方法,因此其作用与上述方法的作用相对应,这里不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种基于异构图动态信息补偿的个性化论文推荐方法,其特征在于,包括以下步骤:
步骤1:输入学术网络,构建学术网络异构信息网络图,基于所述学术网络异构信息网络图提取用户和论文的历史信息,其中所述学术网络异构信息网络图由学术网络内多种不同类型的节点集合构成;
步骤2:根据步骤1得到的所述学术网络异构信息网络图设计出分别针对用户和论文的元路径模式以及基于出入边的元路径采样方法;
步骤3:根据步骤1得到的用户和论文的历史信息以及步骤2得到的针对用户和论文的元路径模式学习用户和论文的总体趋势表达和短期趋势表达,用户和论文的总体趋势表达分别对每一种元路径模式下采样到的路径进行表示学习,并利用全连接层进行连接得到属于用户总体兴趣趋势和论文总体受众趋势的表达;用户和论文的短期趋势表达根据得到的总体趋势表达以及步骤1得到的用户和论文的历史信息,将用户最近一段时间阅读论文的总体受众趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到用户短期内的兴趣趋势表达,同样将论文最新一段时间读者的总体兴趣趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到论文短期内的受众趋势表达;
步骤4:将步骤3得到的用户和论文的总体趋势表达做点乘得到的值作为总体趋势下用户与论文链接存在的预测值,再将用户和论文的短期趋势表达做点乘得到的值作为短期趋势下用户与论文链接存在的预测值,利用短期趋势下用户与论文链接存在的预测值补偿总体趋势下用户与论文链接存在的预测值,若补偿后的链接预测值大于设定的阈值时,则将论文推荐给用户,若补偿后的链接预测值小于等于设定的阈值时,则不将论文推荐给用户。
2.根据权利要求1所述的基于异构图动态信息补偿的个性化论文推荐方法,其特征在于,步骤1中提取用户和论文的历史信息的方法包括:
将用户历史阅读过的论文按每个时间段划分到集合中,再将所有时间段集合按从小到大顺序放入一个大集合表示为该用户的历史阅读信息;将阅读论文的用户按每个时间段划分到集合中,再将所有时间段集合按从小到大放入一个大集合表示为该论文的历史被阅读信息。
4.根据权利要求1所述的基于异构图动态信息补偿的个性化论文推荐方法,其特征在于,用户和论文的总体趋势表达分别对每一种元路径模式下采样到的路径进行表示学习,并利用全连接层进行连接得到属于用户总体兴趣趋势和论文总体受众趋势的表达的方法包括:
使用全连接层组合从每个元路径中学到的初始嵌入,分别得到用户总体兴趣趋势的表达和论文总体受众趋势的表达如下:
其中,|MPU|表示用户元路径种类的数量,WU表示要学习的用户全连接层权重矩阵,|MPP|表示论文元路径种类的数量,WP表示要学习的论文全连接层权重矩阵。
5.根据权利要求1所述的基于异构图动态信息补偿的个性化论文推荐方法,其特征在于,用户的短期趋势表达根据得到的总体趋势表达以及步骤1得到的用户的历史信息,将用户最近一段时间阅读论文的总体受众趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到用户短期内的兴趣趋势表达的方法包括:
将用户历史信息中的前a%阅读数据作为训练集的正样本,使用Ptrain的最后b%形成该用户包含动态变化信息的数据为:
其中DCIUu表示包含用户u的动态变化信息;
8.一种基于异构图动态信息补偿的个性化论文推荐系统,其特征在于,包括:
异构信息网络图构建模块,其用于构建学术网络异构信息网络图,基于所述学术网络异构信息网络图提取用户和论文的历史信息,其中所述学术网络异构信息网络图由学术网络内多种不同类型的节点集合构成;
元路径设计与采样模块,其用于根据所述学术网络异构信息网络图设计出分别针对用户和论文的元路径模式以及基于出入边的元路径采样方法;
节点表示学习模块,其用于根据用户和论文的历史信息以及针对用户和论文的元路径模式学习用户和论文的总体趋势表达和短期趋势表达,用户和论文的总体趋势表达分别对每一种元路径模式下采样到的路径进行表示学习,并利用全连接层进行连接得到属于用户总体兴趣趋势和论文总体受众趋势的表达;用户和论文的短期趋势表达根据得到的总体趋势表达以及步骤1得到的用户和论文的历史信息,将用户最近一段时间阅读论文的总体受众趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到用户短期内的兴趣趋势表达,同样将论文最新一段时间读者的总体兴趣趋势表达利用注意力机制下的Bi-LSTM进行连接处理得到论文短期内的受众趋势表达;
链接值预测模块,其用于将用户和论文的总体趋势表达做点乘得到的值作为总体趋势下用户与论文链接存在的预测值,再将用户和论文的短期趋势表达做点乘得到的值作为短期趋势下用户与论文链接存在的预测值,利用短期趋势下用户与论文链接存在的预测值补偿总体趋势下用户与论文链接存在的预测值,若补偿后的链接预测值大于设定的阈值时,则将论文推荐给用户,若补偿后的链接预测值小于等于设定的阈值时,则不将论文推荐给用户。
9.根据权利要求8所述的基于异构图动态信息补偿的个性化论文推荐系统,其特征在于,所述节点表示学习模块包括:
初始嵌入学习子模块,所述初始嵌入学习子模块用于利用skip-gram模型的Deep Walk表示学习方法对每个元路径模式下的采样结果进行初始嵌入其中mpk表示用户u在第k个元路径模式下得到的嵌入样本集合;
总体趋势表达子模块,所述总体趋势表达子模块用于使用全连接层组合从每个元路径中学到的初始嵌入,分别得到用户总体兴趣趋势的表达和论文总体受众趋势的表达如下:
其中,|MPU|表示用户元路径种类的数量,WU表示要学习的用户全连接层权重矩阵,|MPP|表示论文元路径种类的数量,WP表示要学习的论文全连接层权重矩阵。
10.根据权利要求8所述的基于异构图动态信息补偿的个性化论文推荐系统,其特征在于,所述节点表示学习模块包括:
动态信息获取子模块,所述动态信息获取子模块用于将用户历史信息中的前a%阅读数据作为训练集的正样本,使用Ptrain的最后b%形成该用户包含动态变化信息的数据为:
RPu={{p1},{p2,p3},...,{pn}},Ptrain={p1,p2,...,pn×a%},
Ptest={pn×a%+1,...,pn},DCIUu={pn×a%×(1-b%),...,pn×a%},
其中DCIUu表示包含用户u的动态变化信息;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210170463.7A CN114610989B (zh) | 2022-02-23 | 2022-02-23 | 基于异构图动态信息补偿的个性化论文推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210170463.7A CN114610989B (zh) | 2022-02-23 | 2022-02-23 | 基于异构图动态信息补偿的个性化论文推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114610989A CN114610989A (zh) | 2022-06-10 |
CN114610989B true CN114610989B (zh) | 2022-11-18 |
Family
ID=81859484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210170463.7A Active CN114610989B (zh) | 2022-02-23 | 2022-02-23 | 基于异构图动态信息补偿的个性化论文推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114610989B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370672B (zh) * | 2023-12-06 | 2024-02-23 | 烟台大学 | 基于混合结构图的用户兴趣点推荐方法、系统和设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9195941B2 (en) * | 2013-04-23 | 2015-11-24 | International Business Machines Corporation | Predictive and descriptive analysis on relations graphs with heterogeneous entities |
CN106980659A (zh) * | 2017-03-20 | 2017-07-25 | 华中科技大学鄂州工业技术研究院 | 一种基于异构图模型的社交活动推荐方法 |
US11163803B2 (en) * | 2019-04-29 | 2021-11-02 | Adobe Inc. | Higher-order graph clustering |
CN112380435B (zh) * | 2020-11-16 | 2024-05-07 | 北京大学 | 基于异构图神经网络的文献推荐方法及推荐系统 |
CN113239232B (zh) * | 2021-05-17 | 2023-12-26 | 北京达佳互联信息技术有限公司 | 图神经网络推荐系统、方法、装置、电子设备及存储介质 |
-
2022
- 2022-02-23 CN CN202210170463.7A patent/CN114610989B/zh active Active
Non-Patent Citations (2)
Title |
---|
CTHGAT:Category-aware and Time-aware Next Point-of-Interest via;Chenchao Wang 等;《2021 IEEE International Conference on Systems, Man, and Cybernetics (SMC)》;20211017;全文 * |
基于知识图谱嵌入与多神经网络的序列推荐算法;沈冬东 等;《计算机工程与科学》;20200930;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114610989A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380435B (zh) | 基于异构图神经网络的文献推荐方法及推荐系统 | |
CN112529168B (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
Zhu et al. | A survey on graph structure learning: Progress and opportunities | |
CN111914185B (zh) | 一种基于图注意力网络的社交网络中文本情感分析方法 | |
Guerra-Montenegro et al. | Computational Intelligence in the hospitality industry: A systematic literature review and a prospect of challenges | |
CN111353392A (zh) | 换脸检测方法、装置、设备及存储介质 | |
Wang et al. | Trust-aware collaborative filtering with a denoising autoencoder | |
Stamile et al. | Graph Machine Learning: Take graph data to the next level by applying machine learning techniques and algorithms | |
Kaluža | Machine Learning in Java | |
Li et al. | A novel method for credit scoring based on feature transformation and ensemble model | |
CN112015896A (zh) | 基于人工智能的情感分类方法、以及装置 | |
CN114610989B (zh) | 基于异构图动态信息补偿的个性化论文推荐方法及系统 | |
Salehin et al. | AutoML: A systematic review on automated machine learning with neural architecture search | |
Zhang et al. | A graph-based semi-supervised multi-label learning method based on label correlation consistency | |
CN113469819A (zh) | 基金产品的推荐方法、相关装置及计算机存储介质 | |
Wang et al. | TANGO: A temporal spatial dynamic graph model for event prediction | |
Suyal et al. | An Agile Review of Machine Learning Technique | |
Liu et al. | Assessing the helpfulness of hotel reviews for information overload: a multi-view spatial feature approach | |
CN116702784B (zh) | 实体链接方法、装置、计算机设备和存储介质 | |
Mulay et al. | Hawk eye: Intelligent analysis of socio inspired cohorts for plagiarism | |
Bohlin | Toward higher-order network models | |
Shultana et al. | CvTSRR: A Convolutional Vision Transformer Based Method for Social Relation Recognition | |
Song et al. | Prior-guided multi-scale fusion transformer for face attribute recognition | |
CN110674417B (zh) | 一种基于用户关注关系的标签推荐方法 | |
Bielak et al. | A deeper look at Graph Embedding RetroFitting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |