CN113935804B

CN113935804B - 一种基于强化学习和加权元路径的语义推荐方法

Info

Publication number: CN113935804B
Application number: CN202111203509.2A
Authority: CN
Inventors: 宫继兵; 郎月; 李学文
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2024-05-14
Anticipated expiration: 2041-10-15
Also published as: CN113935804A

Abstract

本发明公开了一种基于强化学习和加权元路径的语义推荐方法，属于推荐算法技术领域，包括收集用户各类实体属性信息、获取记录中用户和物品的异构信息网络，对提取的记录以及各类实体属性信息进行预处理并分析，利用强化学习算法计算不同元路径的权重，自主学习不同元路径的权重，构建马尔可夫决策过程，对元路径的权重进行训练，得到元路径选择权重的信息并生成记录，构建深层决策网络并训练，设计经验池、预测网络和结果网络，对输出的奖励值进行拟合得到最佳权重，依据得到的最佳权重的元路径，计算用户相似度，并选取Top‑N进行排列，完成推荐。本发明能够结合用户的购买记录以及其他信息进行个性化推荐，提高了推荐的准确性。

Description

一种基于强化学习和加权元路径的语义推荐方法

技术领域

本发明涉及推荐系统技术领域，尤其是一种基于强化学习和加权元路径的语义推荐方法。

背景技术

推荐是一种把用户相关检索内容、推荐并展现给用户的过程，利于用户主动获取到相关信息帮助用户快速的找到符合需求的信息，很大程度上节省了用户的时间。现在推荐方法逐渐成熟，已经广泛应用在各行各业中，比如在电商行业、音乐行业、新闻媒体行业、视频软件行业等都有很出色的表现，给人们生活提供极大的便利，推荐系统除了能够给人类生活带来生活上的便利，也能给企业带来更多的效益，比如淘宝、京东、抖音等应用都有自己的推荐方法，使企业效益在很大程度上有了提升。

随着推荐系统的技术逐步成熟，较早的推荐方法已经不能满足现在人们的要求。后来随着异构信息网络(Heterogeneousinformationnetwork,HIN)技术的兴起，越来越多的研究者注意到HIN的重要性，HIN包含了多种实体类型的信息，而且不同的元路径代表着不同的信息；但基于元路径的相似度方法进行推荐依然存在缺陷，主要是元路径选择不合理导致基于元路径的相似性方法不可靠，很多没有考虑到元路径的权重问题，无法将包含有语义特征的元路径进行重点训练，无法准确推荐并提供可解释性。

近年来，随着强化学习(ReinforcementLearning,RL)的不断发展，也为推荐方法提供了新思路，强化学习的原理是利用智能体和环境的不断交互选择最优动作，最后实现回报最大化。近年来有很多学者将强化学习用于推荐系统中，都得到了不错的实验效果；同时语义推荐是要从语义理解的角度分析用户的请求和信息资源，并以此来进行搜索，从而更准确地向用户推荐符合其需求的搜索结果。

因此，有必要研发一种融合强化学习和加权元路径的语义推荐方法，以满足用户的个性化需求，提高推荐的准确性，更能增加推荐的解释性。

发明内容

本发明需要解决的技术问题是提供一种基于强化学习和加权元路径的语义推荐方法，解决了现有技术中存在的缺陷，能够结合用户的购买记录以及其他信息进行个性化推荐，提高了推荐的准确性。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于强化学习和加权元路径的语义推荐方法，包括以下步骤：

S1、收集用户购买记录、评分记录、各类实体属性信息，获取记录中用户和物品的异构信息网络；

S2、对S1中收集的用户购买记录、评分记录以及各类实体属性信息进行预处理，对数据清洗，将处理好的数据作为后续模型训练的输入；

S3、将S2处理好的数据进行分析，不同的元路径代表着不同的语义关联信息，在异构信息网络中综合考虑实体的属性，利用不同元路径语义信息度量异构信息网格中用户的相关性；

S4、利用强化学习算法计算不同元路径的权重，自主学习不同元路径的权重，构建马尔可夫决策过程，根据数据的特点设计状态、动作、环境、奖励函数，对元路径的权重进行训练，得到元路径选择权重的信息并生成记录；

S5、基于元路径选择权重的信息记录，构建深层决策网络，设计经验池、预测网络和结果网络，对深层决策网络进行训练，然后对输出的奖励值进行拟合，得到最佳权重；

S6、依据得到的最佳权重的元路径，计算用户相似度，并选取Top-N进行排列，完成推荐。

本发明技术方案的进一步改进在于：S1中，所述数据清洗包括异常数据清洗，从不同特征角度对收集的用户购买记录、评分记录以及各类实体属性信息进行分析，对收集的用户购买记录、评分记录以及各类实体属性信息进行特征工程。

本发明技术方案的进一步改进在于：S3中，具体包括以下步骤：

S31、根据不同元路径将所述异构信息网络分解为不同的同构子网络；

S32、从所述同构子网络提取各个记录中用户和物品的语义信息；

S33、根据不同的语义信息度量用户的相似度。

本发明技术方案的进一步改进在于：S4中，具体包括以下步骤：

S41、构建马尔可夫决策过程；

S411、定义状态集，状态为分析选择出来的初始化元路径的不同权重，计算公式为：

其中，在时刻t之前，不同元路径的权重有N种选择；S代表状态集，V代表元路径选择不同权重的次数，n代表交互记录的时间跨度，p代表元路径与权重选择的最大交互行为；

S412、定义动作集，动作为每条元路径选择的不同权重包含用户之间的相似度特征，公式为：

其中，a_t代表动作，V_k代表不同权重初始序列，代表交互行为的次数；

S413、定义回报函数，函数负责计算对当前状态采取动作后得到的奖励值；

S414、定义折扣因子，代表在训练过程中整个长期的奖励值对当下动作选择的影响，一般取值在0～1之间；

S42、决策过程训练出不同元路径所选择的权重的信息，学习出元路径所占权重最佳的策略；

S43、将学习过程中累计的选择权重的经验存储在经验池中，生成经验记录。

本发明技术方案的进一步改进在于：S5中，具体包括以下步骤：

S51、设计经验池，将选择元路径权重时得到的奖励值和新状态存储在经验池中，即将状态、动作、奖励值和新状态组成的四元组作为经验池的基本存储元素，计算公式为：

d_k＝<s_t,a_t,r_st,s_t+1>

其中，d_k为学习记录，s_t为状态数据，a_t为选取的最优动作，r_st为奖励值，s_t+1代表转移后的新状态；

S52、设计预测网络，将状态和动作看作一组作为预测网络的输入，将这组的奖励值作为预测网络的输出；

S53、设计结果网络，将状态转换后的新状态和动作看作一组作为结果网络的输入，将这组的奖励值作为结果网络的输出，计算公式为：

其中，迭代过程超过一定次数时，结果网络会更新参数，Q_target代表新状态选择的最优动作的预测值，Q_real代表结果值，r_s,a代表选择动作a时根据概率进入到下一状态s得到的奖励值r，γ代表在整个训练过程中整个长期的奖励值对当下动作选择的影响，a代表最优动作；

S54、对深层决策网络进行训练；

S55、对输出的奖励值进行拟合，得到最佳权重。

本发明技术方案的进一步改进在于：S54中，具体包括以下步骤：

S541、提取经验池中累计的经验进行训练，学习元路径选择权重的内部策略；

S542、加入预测网络和结果网络双重网络训练最佳状态和最佳动作，得出奖励值，计算公式为：

加入两个网络结构训练，使计算的奖励值更加稳定准确，其中为训练好的预测网络的输出值，/>为训练好的结果网络的输出值；

S543、根据迭代学习次数，更新预测网络和结果网络的参数，并再次生成新的学习经验和更新参数。

由于采用了上述技术方案，本发明取得的技术进步是：

1、本发明将各用户实体之间的映射信息作为用户实体推荐的推理规则，并对用户的各类实体信息预处理，利用强化学习算法自主的学习不同元路径的权重，得到最佳权重计算用户相似度，进而根据Top-N排序来实现个性化语义推荐过程，实现了推荐准确性的提升，并且推荐结果更加符合用户的需求。

2、本发明解决了现有技术中存在的缺陷，能够结合用户的购买记录以及其他信息进行个性化推荐，以满足用户的个性化需求，提高了推荐的准确性，更能增加推荐的解释性。

附图说明

图1是本发明的方法流程图；

图2是本发明的深层决策网络结构图。

具体实施方式

本发明是针对电影推荐领域而研发的一种基于强化学习和加权元路径的语义推荐方法，主要是利用强化学习训练元路径的权重，选择合理的元路径，利用强化学习训练元路径权重强化学习里设置双重网络训练，得出UU矩阵，计算两个用户的相似度进行推荐。

附图仅用于示例性说明，不能理解为对本专利的限制。

下面结合附图及实施例对本发明做进一步详细说明：

如图1、2所示，一种基于强化学习和加权元路径的语义推荐方法，包括如下步骤：

S1、收集用户购买记录等信息，获取记录中用户和物品的异构信息网络；

收集用户购买记录等信息采用本领域技术人员比较熟悉的scrapy框架，进行信息收集；

S2、对获得的数据信息进行预处理；

对数据清洗，包括异常数据清洗、从不同特征角度对样本进行分析，对其进行特征工程，将处理好的数据作为后续模型训练的输入；

S3、对处理的数据分析，利用不同元路径语义信息度量用户的相关性；

具体包括以下步骤：

S31、根据不同元路径将所述异构信息网络分解为不同的同构子网络：

S33、根据不同的语义信息度量用户的相似度；

S4、利用强化学习算法训练不同元路径的权重，构建马尔可夫决策过程；

利用强化学习算法计算不同元路径的权重，自主学习不同元路径的权重，构建马尔可夫决策过程，根据数据的特点设计状态、动作、环境、奖励函数等，对元路径的权重进行训练，得到元路径选择权重的信息并生成记录；

具体包括以下步骤：

S41、构建马尔可夫决策过程；

S43、将学习过程中累计的选择权重的经验存储在经验池中，生成经验记录；

其中，步骤S41的具体过程为：

在时刻t之前，不同元路径的权重有N种选择，其中，S代表状态集，V代表元路径选择不同权重的次数，n代表交互记录的时间跨度，p代表元路径与权重选择的最大交互行为；

其中，a_t代表动作，V_k代表了不同权重初始序列，代表交互行为的次数；

决策过程中通过强化学习训练出不用元路径的最佳权重，增强了推荐的可解释性，主要训练出一个不同元路径所选择的权重的信息，学习一个元路径所占权重最佳的策略，之后向用户进行项目的推荐。

S5、构建深层决策网络，设计经验池、预测网络和结果网络，进行训练；

基于元路径选择权重的信息记录，利用神经网络和强化学习相结合，构建了深层强化学习网络，如图2所示，包括设计经验池、预测网络和结果网络，对深层决策网络进行训练，然后对输出的奖励值进行拟合，得到最佳权重；

具体包括以下步骤：

d_k＝<s_t,a_t,r_st,s_t+1>

S54、对深层决策网络进行训练；具体包括以下步骤：

S543、根据迭代学习次数，更新预测网络和结果网络的参数，并再次生成新的学习经验和更新参数；

S55、对输出的奖励值进行拟合，得到最佳权重；

实施例

收集电影相关信息，包括电影评分，电影风格类型，年代，导演，用户id，性别，购买记录等。

选择元路径:

1.两个用户对同一部电影给出过评分；

2.两个用户对同一个演员出演的电影给出过评分；

3.两个用户对同一个导演执导的电影给出过评分；

4.两个用户对同一个国家上映的电影给出过评分；

5.两个用户对同一个体裁的电影给出过评分；

6.两个用户标记过同一部电影；

利用强化学习算法计算不同元路径的权重，自主学习不同元路径的权重，构建马尔可夫决策过程，设计状态、动作、环境、奖励函数等，对元路径的权重进行训练，得到元路径选择权重的信息并生成记录，构建深层决策网络并训练，设计经验池、预测网络和结果网络，然后对输出的奖励值进行拟合得到最佳权重，依据得到的最佳权重的元路径，计算用户相似度，并选取Top-N进行排列，完成推荐。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于强化学习和加权元路径的语义推荐方法，其特征在于：包括以下步骤：

具体包括以下步骤：

d_k＝<s_t,a_t，r_st，s_t+1>

Q_real(s_t,a_t)＝r_s，a+γ*max(Q_target(s_t+1，a))

其中，迭代过程超过一定次数时，结果网络会更新参数，Q_target代表新状态选择的最优动作的预测值，Q_real代表结果值，r_s，a代表选择动作a时根据概率进入到下一状态s得到的奖励值r，γ代表在整个训练过程中整个长期的奖励值对当下动作选择的影响，a代表最优动作；

S54、对深层决策网络进行训练；

具体包括以下步骤：

S55、对输出的奖励值进行拟合，得到最佳权重；

2.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法，其特征在于：S2中，所述数据清洗包括异常数据清洗，从不同特征角度对收集的用户购买记录、评分记录以及各类实体属性信息进行分析，对收集的用户购买记录、评分记录以及各类实体属性信息进行特征工程。

3.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法，其特征在于：S3中，具体包括以下步骤：

S33、根据不同的语义信息度量用户的相似度。

4.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法，其特征在于：S4中，具体包括以下步骤：

S41、构建马尔可夫决策过程；

其中，在时刻t之前，不同元路径的权重有N种选择；S代表状态集，V代表元路径选择不同权重的次数，n代表交互记录的时间跨度，p代表元路径与权重选择的最大交互行为，

S414、定义折扣因子，代表在训练过程中整个长期的奖励值对当下动作选择的影响，取值在0～1之间；