CN113342995A - 一种基于路径语义和特征提取的负样本提取方法 - Google Patents
一种基于路径语义和特征提取的负样本提取方法 Download PDFInfo
- Publication number
- CN113342995A CN113342995A CN202110759010.3A CN202110759010A CN113342995A CN 113342995 A CN113342995 A CN 113342995A CN 202110759010 A CN202110759010 A CN 202110759010A CN 113342995 A CN113342995 A CN 113342995A
- Authority
- CN
- China
- Prior art keywords
- negative sample
- method based
- feature extraction
- path
- extraction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及推荐系统技术领域,尤其涉及一种基于路径语义和特征提取的负样本提取方法。包括以下步骤:S1.进行样本采集,收集需要进行提取的样本范围,搭建采样系统模型;S2.将知识图谱的三元组结构的表示学习与SDAE结合,进而从关系中获取物品实体的编码S3.根据知识图谱中用户节点和物品节点的关联关系,结合相应的搜索算法采样得到负样本;S4.按照评分高低对负样本数据集进行排序S5.对低分负样本数据集进行修剪;S6.基于数据集进行对比试验,本发明采取基于路径的综合方式优化已有模型,从正样本出发,通过强化学习方法递归探索图谱中的节点关系,结合通道注意力将有用的特征增强,对信息量小或者无用特征进行适当抑制。
Description
技术领域
本发明涉及推荐系统技术领域,尤其涉及一种基于路径语义和特征提取的负样本提取方法。
背景技术
随着计算机技术的高速发展,各大产业及APP的广泛使用产生了大量的数据,但并非所有的数据都是用户所感兴趣的内容,因此推荐系统应运而生,成为解决此问题的重要技术。如何提高用户的满意度和体验感还保证推荐的准确度成为了推荐系统的主要研究内容。根据对用户兴趣爱好的横向推测,以及对用户历史选择的纵向分析,推荐系统可以分为两类:基于协同过滤的推荐系统和基于内容的推荐系统。前者主要面临数据冷启动问题,后者则依据用户和物品之间历史交互信息,也就是物品向量之间的相似度进行比较,其缺点是只能推荐用户候选集合中的对象,无法给用户带来惊喜。
随着推荐系统的发展,也有越来越多的其它方法来辅助提高推荐效率。近年来,基于知识图谱的推荐系统的优势逐渐显现。这种方式比一般的模型包含了更加丰富的信息,具体来说是将图谱中三元组作为推荐系统的辅助信息整合到推荐系统中从而捕捉用户对物品的偏好,挖掘潜在关系,这样不仅能够提高推荐的准确度还提高了推荐的可解释性。通过研究用户与物品的交互信息获取用户的喜好,并根据路径推理用户选择物品的动机。
发明内容
本申请的目的在于提供一种基于路径语义和特征提取的负样本提取方法,其解决了对信息量小或者无用特征无法进行适当的抑制的问题。
本申请的实施例通过以下技术方案实现:包括以下步骤:S1.进行样本采集,收集需要进行提取的样本范围,搭建采样系统模型;S2.将知识图谱的三元组结构的表示学习与SDAE结合,进而从关系中获取物品实体的编码;S3.根据知识图谱中用户节点和物品节点的关联关系,结合相应的搜索算法采样得到负样本;S4.按照评分高低对负样本数据集进行排序;S5.对低分负样本数据集进行修剪;S6.基于数据集进行对比试验。
步骤S1具体包括以下内容:所述系统模型通过强化学习正样本,利用递归进行探索,结合通道注意力机制,增强有用特征,判断进行下一个节点的访问,通过MF方法验证模型的有效性。
步骤S2具体包括以下内容:选用Translate模型中的TransR与SDAE结合对结构化知识进行表示,将知识图谱三元组(h,r,t)中的实体通过矩阵投影到对应关系所在的空间,进而得到在关系r上的投影向量。
步骤S3具体包括以下步骤:以用户交互的正样本为初始节点,通过强化学习来获得知识图谱的负样本集合,进而探索优秀样本,上述过程循环进行,同时对探索样本结果提供解释。
所述强化学习方法包括States,Action以及Reword三个部分,用于状态转移过程中降低Reword。
所述通道注意力机制具体包括以下内容:考察各个通道之间的依赖程度以及每个通道内的信号;根据不同通道进行不同权利的赋值,区别每个所述通道的重要程度。
所述系统模型将多模拟信息作为对实体和关系的辅助特征,结合所述通道注意力机制对信息量小或者无用的特征进行抑制。
本发明实施例的技术方案至少具有如下优点和有益效果:
1.本发明采取基于路径的综合方式优化已有模型,将多模态信息作为对实体和关系的辅助特征。从正样本出发,通过强化学习方法递归探索图谱中的节点关系,结合通道注意力将有用的特征增强,对信息量小或者无用特征进行适当的抑制,根据注意力得分的高低来决定下一个适合访问的点;
2.本发明使用TransR对结构化知识进行表示,将知识图谱三元组(h,r,t)中的实体通过矩阵投影到对应关系所在空间,得到头实体和尾实体在关系r的投影向量。使相似关系在空间上相互靠近,不同关系的相互远离;
3.本发明通道注意力即通过对通道的依赖性进行建模以提高网络的表示能力。
附图说明
图1为本发明的一种实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明提供了一种基于路径语义和特征提取的负样本提取方法系统,该系统已经处于实际使用阶段,包括包括以下步骤:S1.进行样本采集,收集需要进行提取的样本范围,搭建采样系统模型;S2.将知识图谱的三元组结构的表示学习与SDAE结合,进而从关系中获取物品实体的编码;S3.根据知识图谱中用户节点和物品节点的关联关系,结合相应的搜索算法采样得到负样本;S4.按照评分高低对负样本数据集进行排序;S5.对低分负样本数据集进行修剪;S6.基于数据集进行对比试验。
基于上述步骤进行的相关实验数据结果为,负采样有效性比较为
表1
为了验证负采样的有效性,选择了以下方法作为对比,包括静态RNS,自适应DNS和基于KG(RWS)的采样器:RNS:随机负抽样(RNS)以均匀概率对负样本进行抽样的技术。在这里为了便于比较使用MF作为推荐,DNS:动态负抽样(DNS),该方法自适应地在一些随机缺失的样本中选择当前MF推荐值得分最高的负样本,RWS:这种随机行走抽样(RWS)仅仅依赖于KG的拓扑结构选择负样本来辅助MF奖励功能的影响。
负采样有效性的实验结果如表2所示,通过比较表2的数据可以看出DNS的效果优于RNS。特别是均匀取样器容易产生低质量的负样本梯度消失。这个发现验证了高质量负样本可以使简单的线性相互作用函数(即MF)达到与复杂的非线性相互作用模型(如rippleet和KGAT)相当的性能。DNS采样策略在这三个数据集上运行良好。原因是DNS可以通过感知排序的拒绝采样机制有效地减少搜索空间,这说明了适当的剪枝策略的积极作用。在与NSEP利用相同的数据实验时,RWS只能获得与静态采样器相当的性能。这是因为随机生成的路径通常会因节点的受欢迎程度不同而有偏差。它再次证明了NSEP更好地利用了KG。同时我们发现Yelp2018上NSEP的改善最为显著,而Amazon-book上NSEP的改善最少。这可能是由于知识质量的原因,因为Yelp2018中的KG是使用本地的业务信息构建的,因此与其他的相比更加准确和有针对性。而利用正样本增强物品之间的语义相似性或者通过传播用户偏好来推荐,忽略了KG提取负样本的能力,本发明提出的策略更强调物品之间的差异性,因此有利于负抽样。
增强器相关对比结果:
表2
由于本算法提出了基于负样本的推荐方式,因此与其它基于知识图谱的的推荐算法进行比较,包括基于监督学习(NFM)、基于规则化(CKE)、基于路径(RippleNet)和基于gnn的(KGAT)。NFM:该推荐者将历史行为和物品知识分解为用户-物品交互对的表示,并将其输入神经网络进行预测。CKE:这样的推荐使用KG嵌入来增强物品表示,并进一步帮助MF。ripplenet:这种模型利用KG中每个用户的多跳路径来丰富其表示。KGAT:这是一个最先进的基于KG的推荐,它在KG上使用GNN来生成用户和物品表示,并使用内积来进行预测。
与其它基于知识图谱的推荐算法比的实验效果如表3所示。可以观察到NSEP在所有三个数据集上带来的显著改进。在Yelp2018、LastFM和Amazon-book上的表现分别高出2.40%、3.41%和3.25%。这再次验证了在抽样方法中使用KG的合理性,并验证了KG可以为高质量的负样本提供指导信号。
通过对比表中数据不难发现知识强化赋予推荐者更好的表示能力。除NFM外,所有基于KG的推荐都结合了用户和物品表示来做预测;因此,对物品的表示能力直接决定了推荐的性能。与CKE利用物品之间的语义相似性,RippleNet中的基于路径的模型来传播用户偏好和KGAT中基于用户和物品的高阶连接的模型相比,NSEP使用简单的ID嵌入,能取得最好的性能。这表明,使用适当的消极信号有助于提高表征能力。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种基于路径语义和特征提取的负样本提取方法,其特征在于,包括以下步骤:
S1.进行样本采集,收集需要进行提取的样本范围,搭建采样系统模型;
S2.将知识图谱的三元组结构的表示学习与SDAE结合,进而从关系中获取物品实体的编码;
S3.根据知识图谱中用户节点和物品节点的关联关系,结合相应的搜索算法采样得到负样本;
S4.按照评分高低对负样本数据集进行排序;
S5.对低分负样本数据集进行修剪;
S6.基于数据集进行对比试验。
2.根据权利要求1所述的基于路径语义和特征提取的负样本提取方法,其特征在于,步骤S1具体包括以下内容:所述系统模型通过强化学习正样本,利用递归进行探索,结合通道注意力机制,增强有用特征,判断进行下一个节点的访问,通过MF方法验证模型的有效性。
3.根据权利要求1所述的基于路径语义和特征提取的负样本提取方法,其特征在于,步骤S2具体包括以下内容:选用Translate模型中的TransR与SDAE结合对结构化知识进行表示,将知识图谱三元组(h,r,t)中的实体通过矩阵投影到对应关系所在的空间,进而得到在关系r上的投影向量。
4.根据权利要求1所述的基于路径语义和特征提取的负样本提取方法,其特征在于,步骤S3具体包括以下步骤:以用户交互的正样本为初始节点,通过强化学习来获得知识图谱的负样本集合,进而探索优秀样本,上述过程循环进行,同时对探索样本结果提供解释。
5.根据权利要求4所述的基于路径语义和特征提取的负样本提取方法,其特征在于,所述强化学习方法包括States,Action以及Reword三个部分,用于状态转移过程中降低Reword。
6.根据权利要求4所述的基于路径语义和特征提取的负样本提取方法,其特征在于,所述通道注意力机制具体包括以下内容:考察各个通道之间的依赖程度以及每个通道内的信号;根据不同通道进行不同权利的赋值,区别每个所述通道的重要程度。
7.根据权利要求1或2任意一项所述的基于路径语义和特征提取的负样本提取方法,其特征在于,所述系统模型将多模拟信息作为对实体和关系的辅助特征,结合所述通道注意力机制对信息量小或者无用的特征进行抑制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110759010.3A CN113342995B (zh) | 2021-07-05 | 2021-07-05 | 一种基于路径语义和特征提取的负样本提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110759010.3A CN113342995B (zh) | 2021-07-05 | 2021-07-05 | 一种基于路径语义和特征提取的负样本提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113342995A true CN113342995A (zh) | 2021-09-03 |
CN113342995B CN113342995B (zh) | 2022-12-02 |
Family
ID=77482586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110759010.3A Active CN113342995B (zh) | 2021-07-05 | 2021-07-05 | 一种基于路径语义和特征提取的负样本提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342995B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836417A (zh) * | 2021-09-26 | 2021-12-24 | 北京爱奇艺科技有限公司 | 一种负样本的确定方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255033A (zh) * | 2018-11-05 | 2019-01-22 | 桂林电子科技大学 | 一种基于位置服务领域的知识图谱的推荐方法 |
US20200257922A1 (en) * | 2019-02-12 | 2020-08-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device and readable storage medium for image-based data processing |
US20200364406A1 (en) * | 2019-05-17 | 2020-11-19 | Baidu Online Network Technology (Beijing) Co., Ltd | Entity relationship processing method, apparatus, device and computer readable storage medium |
CN112417306A (zh) * | 2020-12-10 | 2021-02-26 | 北京工业大学 | 基于知识图谱的推荐算法性能优化的方法 |
CN112699247A (zh) * | 2020-12-23 | 2021-04-23 | 清华大学 | 一种基于多类交叉熵对比补全编码的知识表示学习框架 |
CN112818137A (zh) * | 2021-04-19 | 2021-05-18 | 中国科学院自动化研究所 | 基于实体对齐的多源异构知识图谱协同推理方法及装置 |
CN112950324A (zh) * | 2021-03-15 | 2021-06-11 | 重庆邮电大学 | 一种知识图谱辅助的成对排序个性化电商推荐方法及系统 |
-
2021
- 2021-07-05 CN CN202110759010.3A patent/CN113342995B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255033A (zh) * | 2018-11-05 | 2019-01-22 | 桂林电子科技大学 | 一种基于位置服务领域的知识图谱的推荐方法 |
US20200257922A1 (en) * | 2019-02-12 | 2020-08-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device and readable storage medium for image-based data processing |
US20200364406A1 (en) * | 2019-05-17 | 2020-11-19 | Baidu Online Network Technology (Beijing) Co., Ltd | Entity relationship processing method, apparatus, device and computer readable storage medium |
CN112417306A (zh) * | 2020-12-10 | 2021-02-26 | 北京工业大学 | 基于知识图谱的推荐算法性能优化的方法 |
CN112699247A (zh) * | 2020-12-23 | 2021-04-23 | 清华大学 | 一种基于多类交叉熵对比补全编码的知识表示学习框架 |
CN112950324A (zh) * | 2021-03-15 | 2021-06-11 | 重庆邮电大学 | 一种知识图谱辅助的成对排序个性化电商推荐方法及系统 |
CN112818137A (zh) * | 2021-04-19 | 2021-05-18 | 中国科学院自动化研究所 | 基于实体对齐的多源异构知识图谱协同推理方法及装置 |
Non-Patent Citations (1)
Title |
---|
任春林 等: ""基于WEB信息的特定类型物联网终端识别方法"", 《通信技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836417A (zh) * | 2021-09-26 | 2021-12-24 | 北京爱奇艺科技有限公司 | 一种负样本的确定方法、装置、电子设备及存储介质 |
CN113836417B (zh) * | 2021-09-26 | 2024-07-19 | 北京爱奇艺科技有限公司 | 一种负样本的确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113342995B (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Joint modeling of user check-in behaviors for real-time point-of-interest recommendation | |
Li et al. | A survey on knowledge graph-based recommender systems | |
Yao et al. | Service recommendation for mashup composition with implicit correlation regularization | |
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN108305181B (zh) | 社交影响力确定、信息投放方法及装置、设备及存储介质 | |
Liu et al. | Behavior2vector: Embedding users’ personalized travel behavior to vector | |
Xu et al. | Robust network enhancement from flawed networks | |
Gao et al. | On efficiently finding reverse k-nearest neighbors over uncertain graphs | |
CN115408618B (zh) | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 | |
Yang et al. | Inferring substitutable and complementary products with Knowledge-Aware Path Reasoning based on dynamic policy network | |
CN113342995B (zh) | 一种基于路径语义和特征提取的负样本提取方法 | |
Yang et al. | DUAPM: An effective dynamic micro-blogging user activity prediction model towards cyber-physical-social systems | |
CN114676315A (zh) | 基于增强图卷积的属性融合交互推荐模型构建方法及系统 | |
CN108009298B (zh) | 一种互联网人物搜索信息整合分析控制方法 | |
KR101910424B1 (ko) | 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
Yang et al. | Application of Apriori and FP-growth algorithms in soft examination data analysis | |
Shi et al. | Random pairwise shapelets forest | |
CN115203532B (zh) | 一种项目推荐方法、装置、电子设备及存储介质 | |
CN112765469B (zh) | 一种从Web点击流数据中挖掘代表序列模式的方法 | |
CN114925207A (zh) | 一种面向知识感知推荐的知识图谱构建方法 | |
Wei et al. | Algorithm of mining sequential patterns for web personalization services | |
Xu et al. | A new self-adaptive hybrid Markov topic model POI recommendation in social networks | |
Jia et al. | Application of graph neural network and feature information enhancement in relation inference of sparse knowledge graph | |
CN110928920A (zh) | 一种基于改进位置社交的知识推荐方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |