CN113342995A

CN113342995A - 一种基于路径语义和特征提取的负样本提取方法

Info

Publication number: CN113342995A
Application number: CN202110759010.3A
Authority: CN
Inventors: 熊熙; 马腾; 李中志; 蒋雯静; 徐孟奇
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-09-03
Anticipated expiration: 2041-07-05
Also published as: CN113342995B

Abstract

本发明涉及推荐系统技术领域，尤其涉及一种基于路径语义和特征提取的负样本提取方法。包括以下步骤：S1.进行样本采集，收集需要进行提取的样本范围，搭建采样系统模型；S2.将知识图谱的三元组结构的表示学习与SDAE结合，进而从关系中获取物品实体的编码S3.根据知识图谱中用户节点和物品节点的关联关系，结合相应的搜索算法采样得到负样本；S4.按照评分高低对负样本数据集进行排序S5.对低分负样本数据集进行修剪；S6.基于数据集进行对比试验，本发明采取基于路径的综合方式优化已有模型，从正样本出发，通过强化学习方法递归探索图谱中的节点关系，结合通道注意力将有用的特征增强，对信息量小或者无用特征进行适当抑制。

Description

一种基于路径语义和特征提取的负样本提取方法

技术领域

本发明涉及推荐系统技术领域，尤其涉及一种基于路径语义和特征提取的负样本提取方法。

背景技术

随着计算机技术的高速发展，各大产业及APP的广泛使用产生了大量的数据，但并非所有的数据都是用户所感兴趣的内容，因此推荐系统应运而生，成为解决此问题的重要技术。如何提高用户的满意度和体验感还保证推荐的准确度成为了推荐系统的主要研究内容。根据对用户兴趣爱好的横向推测，以及对用户历史选择的纵向分析，推荐系统可以分为两类：基于协同过滤的推荐系统和基于内容的推荐系统。前者主要面临数据冷启动问题，后者则依据用户和物品之间历史交互信息，也就是物品向量之间的相似度进行比较，其缺点是只能推荐用户候选集合中的对象，无法给用户带来惊喜。

随着推荐系统的发展，也有越来越多的其它方法来辅助提高推荐效率。近年来，基于知识图谱的推荐系统的优势逐渐显现。这种方式比一般的模型包含了更加丰富的信息，具体来说是将图谱中三元组作为推荐系统的辅助信息整合到推荐系统中从而捕捉用户对物品的偏好，挖掘潜在关系，这样不仅能够提高推荐的准确度还提高了推荐的可解释性。通过研究用户与物品的交互信息获取用户的喜好，并根据路径推理用户选择物品的动机。

发明内容

本申请的目的在于提供一种基于路径语义和特征提取的负样本提取方法，其解决了对信息量小或者无用特征无法进行适当的抑制的问题。

本申请的实施例通过以下技术方案实现：包括以下步骤：S1.进行样本采集，收集需要进行提取的样本范围，搭建采样系统模型；S2.将知识图谱的三元组结构的表示学习与SDAE结合，进而从关系中获取物品实体的编码；S3.根据知识图谱中用户节点和物品节点的关联关系，结合相应的搜索算法采样得到负样本；S4.按照评分高低对负样本数据集进行排序；S5.对低分负样本数据集进行修剪；S6.基于数据集进行对比试验。

步骤S1具体包括以下内容：所述系统模型通过强化学习正样本，利用递归进行探索，结合通道注意力机制，增强有用特征，判断进行下一个节点的访问，通过MF方法验证模型的有效性。

步骤S2具体包括以下内容：选用Translate模型中的TransR与SDAE结合对结构化知识进行表示，将知识图谱三元组(h，r，t)中的实体通过矩阵投影到对应关系所在的空间，进而得到在关系r上的投影向量。

步骤S3具体包括以下步骤：以用户交互的正样本为初始节点，通过强化学习来获得知识图谱的负样本集合，进而探索优秀样本，上述过程循环进行，同时对探索样本结果提供解释。

所述强化学习方法包括States，Action以及Reword三个部分，用于状态转移过程中降低Reword。

所述通道注意力机制具体包括以下内容：考察各个通道之间的依赖程度以及每个通道内的信号；根据不同通道进行不同权利的赋值，区别每个所述通道的重要程度。

所述系统模型将多模拟信息作为对实体和关系的辅助特征，结合所述通道注意力机制对信息量小或者无用的特征进行抑制。

本发明实施例的技术方案至少具有如下优点和有益效果：

1.本发明采取基于路径的综合方式优化已有模型，将多模态信息作为对实体和关系的辅助特征。从正样本出发，通过强化学习方法递归探索图谱中的节点关系，结合通道注意力将有用的特征增强，对信息量小或者无用特征进行适当的抑制，根据注意力得分的高低来决定下一个适合访问的点；

2.本发明使用TransR对结构化知识进行表示，将知识图谱三元组(h，r，t)中的实体通过矩阵投影到对应关系所在空间，得到头实体和尾实体在关系r的投影向量。使相似关系在空间上相互靠近，不同关系的相互远离；

3.本发明通道注意力即通过对通道的依赖性进行建模以提高网络的表示能力。

附图说明

图1为本发明的一种实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明提供了一种基于路径语义和特征提取的负样本提取方法系统，该系统已经处于实际使用阶段，包括包括以下步骤：S1.进行样本采集，收集需要进行提取的样本范围，搭建采样系统模型；S2.将知识图谱的三元组结构的表示学习与SDAE结合，进而从关系中获取物品实体的编码；S3.根据知识图谱中用户节点和物品节点的关联关系，结合相应的搜索算法采样得到负样本；S4.按照评分高低对负样本数据集进行排序；S5.对低分负样本数据集进行修剪；S6.基于数据集进行对比试验。

基于上述步骤进行的相关实验数据结果为，负采样有效性比较为

表1

为了验证负采样的有效性，选择了以下方法作为对比，包括静态RNS，自适应DNS和基于KG(RWS)的采样器：RNS：随机负抽样(RNS)以均匀概率对负样本进行抽样的技术。在这里为了便于比较使用MF作为推荐，DNS：动态负抽样(DNS)，该方法自适应地在一些随机缺失的样本中选择当前MF推荐值得分最高的负样本，RWS：这种随机行走抽样(RWS)仅仅依赖于KG的拓扑结构选择负样本来辅助MF奖励功能的影响。

负采样有效性的实验结果如表2所示，通过比较表2的数据可以看出DNS的效果优于RNS。特别是均匀取样器容易产生低质量的负样本梯度消失。这个发现验证了高质量负样本可以使简单的线性相互作用函数(即MF)达到与复杂的非线性相互作用模型(如rippleet和KGAT)相当的性能。DNS采样策略在这三个数据集上运行良好。原因是DNS可以通过感知排序的拒绝采样机制有效地减少搜索空间，这说明了适当的剪枝策略的积极作用。在与NSEP利用相同的数据实验时，RWS只能获得与静态采样器相当的性能。这是因为随机生成的路径通常会因节点的受欢迎程度不同而有偏差。它再次证明了NSEP更好地利用了KG。同时我们发现Yelp2018上NSEP的改善最为显著，而Amazon-book上NSEP的改善最少。这可能是由于知识质量的原因，因为Yelp2018中的KG是使用本地的业务信息构建的，因此与其他的相比更加准确和有针对性。而利用正样本增强物品之间的语义相似性或者通过传播用户偏好来推荐，忽略了KG提取负样本的能力，本发明提出的策略更强调物品之间的差异性，因此有利于负抽样。

增强器相关对比结果：

表2

由于本算法提出了基于负样本的推荐方式，因此与其它基于知识图谱的的推荐算法进行比较，包括基于监督学习(NFM)、基于规则化(CKE)、基于路径(RippleNet)和基于gnn的(KGAT)。NFM：该推荐者将历史行为和物品知识分解为用户-物品交互对的表示，并将其输入神经网络进行预测。CKE：这样的推荐使用KG嵌入来增强物品表示，并进一步帮助MF。ripplenet：这种模型利用KG中每个用户的多跳路径来丰富其表示。KGAT：这是一个最先进的基于KG的推荐，它在KG上使用GNN来生成用户和物品表示，并使用内积来进行预测。

与其它基于知识图谱的推荐算法比的实验效果如表3所示。可以观察到NSEP在所有三个数据集上带来的显著改进。在Yelp2018、LastFM和Amazon-book上的表现分别高出2.40％、3.41％和3.25％。这再次验证了在抽样方法中使用KG的合理性，并验证了KG可以为高质量的负样本提供指导信号。

通过对比表中数据不难发现知识强化赋予推荐者更好的表示能力。除NFM外，所有基于KG的推荐都结合了用户和物品表示来做预测；因此，对物品的表示能力直接决定了推荐的性能。与CKE利用物品之间的语义相似性，RippleNet中的基于路径的模型来传播用户偏好和KGAT中基于用户和物品的高阶连接的模型相比，NSEP使用简单的ID嵌入，能取得最好的性能。这表明，使用适当的消极信号有助于提高表征能力。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于路径语义和特征提取的负样本提取方法，其特征在于，包括以下步骤：

S1.进行样本采集，收集需要进行提取的样本范围，搭建采样系统模型；

S2.将知识图谱的三元组结构的表示学习与SDAE结合，进而从关系中获取物品实体的编码；

S3.根据知识图谱中用户节点和物品节点的关联关系，结合相应的搜索算法采样得到负样本；

S4.按照评分高低对负样本数据集进行排序；

S5.对低分负样本数据集进行修剪；

S6.基于数据集进行对比试验。

2.根据权利要求1所述的基于路径语义和特征提取的负样本提取方法，其特征在于，步骤S1具体包括以下内容：所述系统模型通过强化学习正样本，利用递归进行探索，结合通道注意力机制，增强有用特征，判断进行下一个节点的访问，通过MF方法验证模型的有效性。

3.根据权利要求1所述的基于路径语义和特征提取的负样本提取方法，其特征在于，步骤S2具体包括以下内容：选用Translate模型中的TransR与SDAE结合对结构化知识进行表示，将知识图谱三元组(h，r，t)中的实体通过矩阵投影到对应关系所在的空间，进而得到在关系r上的投影向量。

4.根据权利要求1所述的基于路径语义和特征提取的负样本提取方法，其特征在于，步骤S3具体包括以下步骤：以用户交互的正样本为初始节点，通过强化学习来获得知识图谱的负样本集合，进而探索优秀样本，上述过程循环进行，同时对探索样本结果提供解释。

5.根据权利要求4所述的基于路径语义和特征提取的负样本提取方法，其特征在于，所述强化学习方法包括States，Action以及Reword三个部分，用于状态转移过程中降低Reword。

6.根据权利要求4所述的基于路径语义和特征提取的负样本提取方法，其特征在于，所述通道注意力机制具体包括以下内容：考察各个通道之间的依赖程度以及每个通道内的信号；根据不同通道进行不同权利的赋值，区别每个所述通道的重要程度。

7.根据权利要求1或2任意一项所述的基于路径语义和特征提取的负样本提取方法，其特征在于，所述系统模型将多模拟信息作为对实体和关系的辅助特征，结合所述通道注意力机制对信息量小或者无用的特征进行抑制。