CN111104595B

CN111104595B - 一种基于文本信息的深度强化学习交互式推荐方法及系统

Info

Publication number: CN111104595B
Application number: CN201911297092.3A
Authority: CN
Inventors: 李国徽; 王朝阳; 李剑军; 郭志强
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2023-04-07
Anticipated expiration: 2039-12-16
Also published as: CN111104595A

Abstract

本发明公开了一种基于文本信息的深度强化学习交互式推荐方法及系统，属于交互式个性化推荐领域，包括：基于文本信息将商品和用户分别转换为商品向量和用户向量，并对用户进行聚类；基于DDPG为每个用户类别建立推荐模型，并建立全局的环境模拟器；对于任意一个推荐模型，在第t轮交互中，构建动作候选集Can(u_i,t)；策略网络以当前用户的状态s_t为输入，得到策略向量p_t后，根据p_t从Can(u_i,t)中选出动作向量a_t；估值网络以p_t和s_t为输入，计算Q值，用于评价p_t的优劣；每一轮交互中，环境模拟器计算反馈奖励值，并更新当前用户的状态；反馈奖励值输出至估值网络，矫正估值网络，Q值反向传导至策略网络，调整策略网络，以获得更优的策略向量。本发明能够提高推荐效率和推荐准确度。

Description

一种基于文本信息的深度强化学习交互式推荐方法及系统

技术领域

本发明属于交互式个性化推荐领域，更具体地，涉及一种基于文本信息的深度强化学习交互式推荐方法及系统。

背景技术

随着互联网信息量的迅速增长，信息之间的差异也在不断增加，与此同时用户对差异信息的不同选择也表现出了明显的聚类特征。为了持续个性化地推荐，出现了一系列交互式推荐系统(Interactive Recommender System,IRS)的研究成果。强化学习可以在动态交互过程中持续学习并使回报最大化，使其最近在IRS中引起了广泛关注。

强化学习是机器学习的重要分支，是在与环境交互中寻找最优策略的一类方法。强化学习求解最优策略的过程非常类似于人类学习的过程，其通过与环境的交互和试错，不断改进自身策略，获取更大的奖励。强化学习与机器学习中的其他领域的主要区别在于，强化学习是一个主动学习的过程，没有特定的训练数据，智能体需要在不断与环境交互的过程中获得样本；在强化学习中，奖励承担了监督信号的作用，智能体依据奖励进行策略优化。近年来，强化学习与深度神经网络进行了广泛结合，产生了一个交叉领域，被称为深度强化学习(Deep Reinforcement Learning，DRL)，由于深度学习对复杂的高维数据具有良好的感知能力，而强化学习适用于进行策略学习，因此将二者结合产生的DRL算法同时具有感知复杂输入和进行决策的能力。

虽然深度强化学习能够在一些任务中取得很好的效果，但是，深度强化学习在IRS下的应用通常面临离散动作空间过大的问题，这使得现在大多数基于强化学习的推荐方法效率低下。此外，随着数据稀疏性的增加，仅使用对稀疏性敏感的评分矩阵或者交互矩阵会使推荐效果急剧下降。总的来说，现有的采用深度强化学习的推荐方法，普遍存在效率低下、推荐效果差的问题。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于文本信息的深度强化学习交互式推荐方法及系统，其目的在于，解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题。

为实现上述目的，按照本发明的第一方面，提供了一种基于文本信息的深度强化学习交互式推荐方法，包括：数据预处理阶段和强化学习交互式推荐阶段；

数据预处理阶段包括：

根据商品的描述信息和评论信息将各商品转换为对应的商品向量；

基于用户历史记录中具有正评分的商品及其商品向量，将各用户转换为对应的用户向量；

根据用户向量对用户进行聚类，得到用户类别信息；

强化学习交互式推荐阶段包括：

基于DDPG为每个用户类别C_l建立推荐模型，并建立一个与各推荐模型进行交互的全局的环境模拟器；

对于任意一个推荐模型Rec_l，在其与环境模拟器的第t轮交互中，从当前用户u_i的历史记录中获取正样本、负样本和随机样本，构成动作候选集Can(u_i,t)；推荐模型Rec_l中的策略网络以第t轮交互中用户u_i的状态s_t为输入，得到用于计算商品得分的策略向量p_t后，根据p_t从动作候选集Can(u_i,t)中选取得分最高的部分商品作为动作向量a_t；推荐模型Rec_l中的估值网络以策略向量p_t和状态s_t的组合为输入，计算出相应的Q值，用于评价策略向量p_t的优劣；

在每一轮交互中，推荐模型通过与环境模拟器交互，使得环境模拟器计算出相应的反馈奖励值，并更新当前用户的状态，作为该用户在下一轮交互中的状态；反馈奖励值输出至估值网络，从而对估值网络进行矫正，使得估值网络输出的Q值与反馈奖励值正相关；估值网络输出的Q值反向传导至策略网络，从而调整策略网络，以获得更优的策略向量；

其中，i为用户编号，u_i表示对应的用户；正评分大于预设的评分阈值y_b，负评分小于或等于评分阈值y_b，正样本和负样本分别对应具有正评分和负评分的商品。

本发明结合大规模离散Top-k推荐的特点，基于文本信息和成熟的DDPG(DeepDeterministic Policy Gradient)强化模型，提出一种新的应用于商品推荐的模型TDDPG-Rec(Text-based Deep Deterministic Policy Gradient for Recommendation)；利用词向量处理方法，将商品的描述信息、评论信息以及用户的历史记录信息这些对评分敏感程度更低的文本信息向量化，并以此为基础，分别构造出商品向量和用户向量，将待推荐的商品和用户映射到同一特征空间，有效缓解了数据稀疏性问题，提高了推荐准确度；通过对用户聚类，在每个聚类内部进行强化学习，并利用正样本、负样本和随机样本构造了动作候选集，有效减小了动作空间的规模，从而能够提高推荐效率。总的来说，本发明能够有效解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题。

进一步地，根据商品的描述信息将各商品转换为对应的商品向量，包括：

对于任意第j个商品m_j，获得其相关的描述信息和评论信息后，滤除其中的停用词，结合预训练词向量库，获得剩余单词的词向量；

按照

计算商品m_j的商品向量

；

其中，n_d和n_r分别代表滤除停用词之后的描述信息和评论信息中包含的单词数量，在单词统计的过程中不作去重处理；w_p和w_q分别表示描述信息和评论信息中的词向量；β表示商品描述信息所占比重，0＜β＜1。

本发明将商品的描述信息和评论信息包含的有意义的词进行加权平均，得到了商品向量，词的重复代表某个词的重要程度，在计算商品向量的过程中，不作去重处理，使得所构建的商品向量能够准确地刻画商品属性。

进一步地，基于用户历史记录中具有正评分的商品及其商品向量，将各用户转换为对应的用户向量，包括：

对于任意第i个用户u_i，获得其历史记录具有正评分的所有商品，利用对应的商品向量构成商品集合V_i ^p；根据商品权重对商品集合V_i ^p中的商品向量进行加权平均，得到用户u_i的用户向量为：

其中，n表示商品集合V_i ^p的大小，

表示其中第j个商品m_j的商品向量。

本发明使用用户记录中具有正评分的商品的加权平均来代表用户，一方面使用了文本信息(即用户记录)，另一方面将商品和用户映射到了同一特征空间。

进一步地，对于任意一个推荐模型Rec_l，在其与环境模拟器的第t轮交互中，从当前用户u_i的历史记录中获取正样本、负样本和随机样本，构成动作候选集Can(u_i,t)，包括：

从用户u_i的历史记录中获得具有正评分的所有商品，利用对应的商品向量构成商品集合V_i ^p，并从用户u_i的历史记录中获得具有负评分的所有商品，利用对应的商品向量构成商品集合V_i ⁿ；

令

若|V_i ^p|＞n_p，则从商品集合V_i ^p中随机选择n_p个样本作为动作候选集Can(u_i,t)中的正样本；否则，将商品集合V_i ^p中的全部样本作为Can(u_i,t)中的正样本，且按照n_p＝|V_i ^p|对n_p进行更新；

令

若|V_i ⁿ|＞n_n，则从商品集合V_i ⁿ中随机选择n_n个样本为动作候选集Can(u_i,t)中的负样本；否则，将商品集合V_i ⁿ中的全部样本作为Can(u_i,t)中的负样本，并对动作候选集Can(u_i,t)中的负样本进行补充，直至动作候选集Can(u_i,t)中负样本的数目等于n_n；

令n_o＝n_c-n_p-n_n，从剩下的商品向量中随机抽取n_o个作为动作候选集Can(u_i,t)中的随机样本，完成动作候选集的构建；

其中，n_c表示预设的动作候选集大小，

表示向下取整，α表示动作候选集中正样本的比例上限，|V_i ^p|和|V_i ⁿ|分别表示商品集合V_i ^p和V_i ⁿ的大小。

本发明以正样本、负样本和随机样本混合的方式进行采样，构造候选集，直接缩小了动作空间的规模，有效提高了推荐效率。

进一步地，对动作候选集Can(u_i,t)中的负样本进行补充，包括：

获得与用户u_i所属的第一用户类别距离最远的第二用户类别，并随机获得第二用户类别中用户的正样本，若该正样本不属于商品集合V_i ^p，则将其作为用户u_i的负样本，加入到动作候选集Can(u_i,t)中。

本发明逆向应用协同过滤的思想，在负样本不足时，以距离当前用户所属类别最远的类别中用户的正样本作为当前用户的负样本，能够解决样本数据量不足的问题，同时简化负样本的生成过程。

进一步地，推荐模型中的策略网络包括：第一多层感知机和策略层；

第一多层感知机用于根据当前的用户状态预测用户对商品特征中各个维度的偏好程度，从而得到策略向量；策略层用于根据第一多层感知机输出的策略向量，计算用户候选集中各样本的得分，并按照得分从高到低的顺序选取候选集中得分最高的K个样本，作为动作向量；

推荐模型中的估值网络包括：第二多层感知机；

第二多层感知机用于根据当前的用户状态和第一多层感知机输出的策略向量计算Q值，并根据环境模拟器输出的反馈奖励值调整Q值。

本发明所构建的推荐模型由策略网络产生动作，其动作是连续的，多用于连续动作的强化学习模型，能应对大规模连续动作空间的最优策略学习的问题；本发明设计了策略向量，策略向量的形式不同于其他强化学习的应用，策略向量的维度与单个商品向量的维度一致，其各个维度的值的大小代表该用户对此维度代表的隐含特征的偏好，使用策略从动作候选集中按照一定的顺序选择推荐商品作为动作向量，将实际推荐的离散动作与策略网络产生的连续动作向量关联了起来，能够缓解动作空间庞大且离散的问题；右侧的估值网络，根据该动作作用于环境返回的奖励值调整Q值，用以评估策略网络产生动作的好坏。

进一步地，环境模拟器根据

计算反馈奖励值；

其中，

表示反馈奖励值；k表示动作向量a_t中样本得分的排名，w_k为对应的样本权重；j为商品编号，m_j表示对应的商品，r_i,j为用户u_i对商品m_j的奖励值。

进一步地，w_k＝1/log₂(k+1)；

其中，正历史记录为商品评分大于评分阈值y_b的历史记录，负历史记录为商品评分小于等于评分阈值的历史记录，y_i,j为用户u_i对商品m_j的评分。

进一步地，策略层根据第一多层感知机输出的策略向量，计算动作候选集中样本的得分，包括：

在(0～1)的范围内，随机改变策略向量中部分维度的值；

利用随机改变后的策略向量与样本对应的商品向量点乘，从而得到样本的得分。

本发明在利用策略向量计算候选集中样本的得分之前，先随机改变策略向量的部分维度，增强了泛化能力和不确定性，有利于提高推荐准确度。

进一步地，模拟器通过与推荐模型的交互确定动作向量作用于环境后用户的状态，包括：

将在动作向量a_t中出现，而未在当前的用户状态s_t中出现的商品向量定义为向量a_t′：向量a_t′中商品向量的相对位置顺序与动作向量a_t一致；

将向量a_t′和状态s_t首尾拼接后，利用预设的滑动窗口从拼接所得向量中截取部分商品向量；

将截取到的商品向量确定为动作向量作用于环境后用户的状态s_t+1；

其中，用户的状态为用户可能感兴趣的一组商品的向量组合。

本发明中，模拟器基于滑动窗口的思想，达到了在用户当前状态和动作向量作用于环境后用户的状态之间进行去重的效果，能够尽可能覆盖用户交互过的所有商品，增强商品的多样性，提高推荐准确度。

按照本发明的第二方面，提供了一种系统，包括：计算机可读存储介质和处理器；

计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行本发明第一方面提供的基于文本信息的深度强化学习交互式推荐方法及系统。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统，利用词向量处理方法，将商品的描述信息、评论信息以及用户的历史记录信息这些对评分敏感程度更低的文本信息向量化，并以此为基础，分别构造出商品向量和用户向量，将待推荐的商品和用户映射到同一特征空间，有效缓解了数据稀疏性问题，提高了推荐准确度；通过对用户聚类，在每个聚类内部进行强化学习，并混合正样本、负样本和随机样本，构造了动作候选集，有效减小了动作空间的规模，从而能够提高推荐效率。总的来说，本发明能够有效解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题。

(2)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统，以正样本、负样本和随机样本混合的方式进行采样，构造候选集，直接缩小了动作空间的规模，有效提高了推荐效率；在其优选方案中，逆向应用协同过滤的思想，在负样本不足时，以距离当前用户所属类别最远的类别中用户的正样本作为当前用户的负样本，能够解决样本数据量不足的问题，同时简化负样本的生成过程。

(3)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统，在所建立的推荐模型中，设计了策略向量，其各个维度的值的大小代表该用户对此维度代表的隐含特征的偏好，使用策略从动作候选集中按照一定的顺序选择推荐商品作为动作向量，将实际推荐的离散动作与策略网络产生的连续动作向量关联了起来，能够缓解动作空间庞大且离散的问题，提高推荐效率。

(4)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统，在利用策略向量计算候选集中样本的得分之前，先随机改变策略向量的部分维度，增强了泛化能力和不确定性，有利于提高推荐准确度。

(5)本发明提供的基于文本信息的深度强化学习交互式推荐方法及系统，模拟器基于滑动窗口的思想，达到了在用户当前状态和动作向量作用于环境后用户的状态之间进行去重的效果，能够尽可能覆盖用户交互过的所有商品，增强商品的多样性，提高推荐准确度。

附图说明

图1为本发明实施例提供的基于文本信息的深度强化学习交互式推荐方法示意图；

图2为本发明实施例提供的推荐模型及模拟器示意图；

图3为本发明实施例提供的策略向量示意图；

图4为本发明实施例提供的模型训练示意图；

图5为本发明实施例提供的状态更新示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在详细解释本发明的技术方案之前，先对DDPG模型进行简要介绍。DDPG模型在传统AC(Actor-Critic)模型的基础上进行了改良，不同于AC模型采用的随机策略梯度的方式，DDPG模型沿用DPG(Deterministic Policy Gradient)的确定策略梯度方法进行策略求解。同时，对深度神经网络进行训练的时假设输入的数据之间是独立同分布的，然而强化学习的数据是顺序采集的，其间存在马尔科夫性，不满足独立同分布的假设。因此，当利用深度神经网络进行函数逼近的时候，强化学习算法稳定性不足。为了打破数据之间的相关性，DQN使用了回放记忆单元和目标网络，DDPG的算法将它们应用到了DPG算法中。此外，为了增强模型的探索能力，DDPG算法加入了随机噪声项，一定程度上防止模型陷入局部最优。总的来说，DDPG算法是一种无模型的、离策略的Actor-Critic算法，它结合了DQN和DPG的优点，可以使用神经网络在高维连续动作空间学习策略的同时逼近Q值函数。

为解决现有的深度强化学习推荐方法中存在的效率低、推荐效果差的问题，本发明提供的基于文本信息的深度强化学习交互式推荐方法，如图1所示，包括：数据预处理阶段和强化学习交互式推荐阶段；

数据预处理阶段包括：

根据用户向量对用户进行聚类，得到用户类别信息；

强化学习交互式推荐阶段包括：

上述基于文本信息的深度强化学习交互式推荐方法，利用词向量处理方法，将商品的描述信息、评论信息以及用户的历史记录信息这些对评分敏感程度更低的文本信息向量化，并以此为基础，分别构造出商品向量和用户向量，将待推荐的商品和用户映射到同一特征空间，有效缓解了数据稀疏性问题，提高了推荐准确度；通过对用户聚类，在每个聚类内部进行强化学习，并混合正样本、负样本和随机样本构造了动作候选集，有效减小了动作空间的规模，从而能够提高推荐效率。

在一个可选的实施方式中，上述基于文本信息的深度强化学习交互式推荐方法中，根据商品的描述信息将各商品转换为对应的商品向量，包括：

对于任意第j个商品m_j，获得其相关的描述信息和评论信息后，滤除其中的停用词，结合预训练词向量库，获得剩余单词的词向量；具体可以结合停用词过滤停用词，词向量可以是从大型语料库中预先训练得到的；针对某个商品，在其相关的描述信息和评论信息中滤除停用词后，剩下的即为有意义的单词；词向量本身支持加减运算，且具有相近词汇欧氏距离更小的特性，因此可以使用某一商品描述信息和评论信息包含的有意义的词进行加和平均；

按照

计算商品m_j的商品向量

；

其中，n_d和n_r分别代表滤除停用词之后的描述信息和评论信息中包含的单词数量，在单词统计的过程中不作去重处理，词的重复代表某个词的重要程度，在计算商品向量的过程中，不作去重处理，使得所构建的商品向量能够准确地刻画商品属性；w_p和w_q分别表示描述信息和评论信息中的词向量；β表示商品描述信息所占比重，0＜β＜1，β的具体取值可根据商品属性与描述信息和评论信息之间的相关程度灵活调整。

在一个可选的实施方式中，上述基于文本信息的深度强化学习交互式推荐方法中，基于用户历史记录中具有正评分的商品及其商品向量，将各用户转换为对应的用户向量，包括：

其中，n表示商品集合V_i ^p的大小，v_mj表示其中第j个商品m_j的商品向量；

使用用户记录中具有正评分的商品的加权平均来代表用户，一方面使用了文本信息(即用户记录)，另一方面将商品和用户映射到了同一特征空间。

在一个可选的实施方式中，上述基于文本信息的深度强化学习交互式推荐方法中，对于任意一个推荐模型Rec_l，在其与环境模拟器的第t轮交互中，从当前用户u_i的历史记录中获取正样本、负样本和随机样本，构成动作候选集Can(u_i,t)，包括：

令

令

其中，n_c表示预设的动作候选集大小，

表示向下取整，α表示动作候选集中正样本的比例上限，|V_i ^p|和|V_i ⁿ|分别表示商品集合V_i ^p和V_i ⁿ的大小；

以正样本、负样本和随机样本混合的方式进行采样，构造候选集，直接缩小了动作空间的规模，有效提高了推荐效率；

作为一个优选的实施方式，在本实施例中，对候选集中的负样本数量进行补充，包括：

获得与用户u_i所属的第一用户类别距离最远的第二用户类别，并随机获得第二用户类别中用户的正样本，若该正样本不属于商品集合V_i ^p，则将其作为用户u_i的负样本，加入到动作候选集Can(u_i,t)中；

本实施例以正、负样本混合的方式进行采样，构造候选集，直接缩小了动作空间的规模，有效提高了推荐效率；逆向应用协同过滤的思想，在用户聚类完成之后，对于任意两个用户，其相距越远他们的共同点就越少，那么其中一个用户喜欢的恰恰是另一个用户不喜欢的概率就越大，本实施例基于这一思想，在负样本不足时，以距离当前用户所属类别最远的类别中用户的正样本作为当前用户的负样本，能够解决样本数据量不足的问题，同时简化负样本的生成过程；应当说明的是，这种逆向应用协同过滤思想的负样本填充方法仅为本发明的一种优选实施方式，而不应理解为对本发明的唯一限定，其他的负样本填充方式，例如，基于生成对抗网络(GAN)的模拟器，以生成以假乱真的数据，同样可以应用于本发明。

在本实施例中，结合大规模离散Top-k推荐的特点，基于文本信息和成熟的DDPG强化模型，提出一种新的应用于商品推荐的推荐方法TDDPG-Rec，如图2所示，该推荐模型中的策略网络包括：第一多层感知机和策略层；

推荐模型中的估值网络包括：第二多层感知机；

本实施例所构建的推荐模型由策略网络产生动作，其动作是连续的，多用于连续动作的强化学习模型，能应对大规模连续动作空间的最优策略学习的问题；本发明设计了策略向量，策略向量的形式不同于其他强化学习的应用，策略向量的维度与单个商品向量的维度一致，其各个维度的值的大小代表该用户对此维度代表的隐含特征的偏好，使用策略从动作候选集中按照一定的顺序选择推荐商品作为动作向量，将实际推荐的离散动作与策略网络产生的连续动作向量关联了起来，能够缓解动作空间庞大且离散的问题；右侧的估值网络，根据该动作作用于环境返回的奖励值调整Q值，用以评估策略网络产生动作的好坏；

可选地，对于候选集中的任意第j的样本(即商品向量

)，利用策略向量与对应的商品向量作点乘即可得到相应的得分为：

，Score_j表示样本得分，p_t表示策略向量；

以图3为例，被推荐商品为电影，从描述信息和评论信息中获取到导演、题材、演员相关的单词，并转换为词向量，即将电影映射到特征空间后，得到各电影的商品向量；利用策略网络得到的策略向量与各电影的商品向量进行点乘，即可得到各电影的得分；

为了进一步提高推荐准确度，策略层在计算候选集样本得分之前，还可先在(0～1)的范围内，随机改变策略向量中部分维度的值；之后利用随机改变后的策略向量与样本对应的商品向量点乘，从而得到样本的得分；

在利用策略向量计算候选集中样本的得分之前，先随机改变策略向量的部分维度，增强了泛化能力和不确定性，有利于提高推荐准确度。

在本实施例中，环境模拟器根据

计算反馈奖励值；

其中，

表示反馈奖励值；k表示动作向量a_t中样本得分的排名，w_k为对应的样本权重；j为商品编号，m_j表示对应的商品，r_i,j为用户u_i对商品m_j的奖励值；

权重w_k可借鉴DCG方法设计为：w_k＝1/log₂(k+1)；同样，此处的权重设计仅为一种示例性说明，实际应用时，也可以采用其他权重设计方式；

则根据用户的历史记录中的商品评分确定，在本实施例中，

在本实施例中，对于任意一个用户类别，建立推荐模型后，利用其中各用户的候选集依次对所建立的推荐模型进行训练的具体过程如图4所示，简洁起见，将策略网络(Actor)和估值网络(Critic)合并在一起，将当前的称为主网络，另一个称为目标网络；主网络和目标网络结构一致，两个网络的参数异步更新，每隔n时间步将主网络的参数向目标网络复制一次。基于TDDPG-Rec方法的模型训练依赖存放强化学习历史交互数据的回放记忆单元，首先使用随机的初始参数填充回放记忆单元，然后每次从回放记忆单元选择一个批次的数据进行模型的训练，并更新回放记忆单元。

Critic网络部分致力于缩小当前Q值和预期Q值之间的差距，这个差距通过公式

衡量；其中，s_i和p_i分别是当前批次中第i个状态和策略向量，Q是当前估值网络(即主网络中的估值网络)，对应的Q'是目标估值网络(即目标网络中的估值网络)，θ^Q和θ^Q'分别是它们的参数；n′是一次选择的一批数据的数目，y_i是期望的累计回报，可以由贝尔曼方程得到，即y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)，其中μ是当前策略网络，对应的μ′是目标策略网络，θ^μ′和θ^μ′分别是它们的参数，γ是回报递减因子。

Actor网络的目标是通过调整策略向量p，以最大化Q值，使用采样策略梯度的方法，优化函数为

其中，

和

分别表示优化函数J在参数θ^μ上的梯度和估值网络Q在策略向量p上的梯度；

基于深度强化学习模型建立的推荐模型经过与模拟器的多轮交互学习，模型损失会逐渐稳定，从而可以获得针对该用户类别的推荐模型，即该用户类别的目标推荐模型。对于其他用户类别，仅需更改数据和重新初始化环境，然后重复训练过程。

在本实施例中，如图5所示，模拟器通过与推荐模型的交互确定动作向量作用于环境后用户的状态，包括：

其中，用户的状态为用户最偏好的多个商品向量构成的向量；滑动窗口的长度与用户状态所包含的商品向量个数一致；

模拟器基于滑动窗口的思想，能够在对用户状态进行更新的过程中，对更新前后的状态所包含的商品向量进行去重，从而能够尽可能覆盖用户交互过的所有商品，增强商品的多样性，提高推荐准确度。

本发明还提供了一种系统，包括：计算机可读存储介质和处理器；

计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行上述基于文本信息的深度强化学习交互式推荐方法及系统。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本信息的深度强化学习交互式推荐方法，其特征在于，包括：数据预处理阶段和强化学习交互式推荐阶段；

所述数据预处理阶段包括：

根据用户向量对用户进行聚类，得到用户类别信息；

所述强化学习交互式推荐阶段包括：

对于任意一个推荐模型Rec_l，在其与环境模拟器的第t轮交互中，从当前用户u_i的历史记录中获取正样本、负样本和随机样本，构成动作候选集Can(u_i,t)；推荐模型Rec_l中的策略网络以第t轮交互中用户u_i的状态s_t为输入，得到用于计算商品得分的策略向量p_t后，根据策略向量p_t从动作候选集Can(u_i,t)中选取得分最高的部分商品作为动作向量a_t；推荐模型Rec_l中的估值网络以策略向量p_t和状态s_t的组合为输入，计算出相应的Q值，用于评价策略向量p_t的优劣；

2.如权利要求1所述的基于文本信息的深度强化学习交互式推荐方法，其特征在于，根据商品的描述信息将各商品转换为对应的商品向量，包括：

按照