CN111523940B

CN111523940B - 一种带负反馈的基于深度强化学习的推荐方法及系统

Info

Publication number: CN111523940B
Application number: CN202010328640.0A
Authority: CN
Inventors: 李玉华; 李鑫; 李瑞轩; 辜希武
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2023-04-18
Anticipated expiration: 2040-04-23
Also published as: CN111523940A

Abstract

本发明公开了一种带负反馈的基于深度强化学习的推荐方法及系统，收集商品特征信息，同时收集用户行为数据得到用户的正负反馈行为向量；对用户的正负反馈行为向量通过特征提取网络模型得到用户的正负反馈特征混合状态向量；利用用户的正负反馈特征混合状态向量对由策略网络和估值网络组成的深度确定性策略梯度模型进行训练，直至模型收敛；根据需要进行推荐工作的用户的历史行为，先生成正负反馈特征混合状态向量，通过完成训练的深度确定性策略梯度模型生成用户推荐商品列表供给用户进行选择，完成用户推荐工作。本申请可以使得相关神经网络的参数更新得到延迟，从而减小网络之间的相关性，提升推荐方法的训练速度和准确度。

Description

一种带负反馈的基于深度强化学习的推荐方法及系统

技术领域

本发明属于数据挖掘和推荐技术领域，更具体地，涉及一种带负反馈的基于深度强化学习的推荐方法及系统。

背景技术

近几年来，随着电子商务的蓬勃发展，用户推荐领域的技术也是飞速发展，如基于协同过滤、机器学习、以及深度学习等各类技术都被应用于推荐方法当中。但传统的推荐方法有着各式各样的问题，如基于协同过滤的方法、基于传统的机器学习方法，或是基于深度学习的方法，他们均具有静态的推荐算法特点，即无法对用户动态表现做出反应，且大多数方法遵循类似于贪心的固定算法来进行推荐，这会将使得他们过分注重要求短期的奖励最大化，并且是以用户最终订单为目的，从而完全忽略了推荐用户可能会喜欢或者更适合用户的长期的产品，即只能局部最优而无法做到全局最优。而基于传统的强化学习算法，如基于价值的强化学习方法，在面临大规模状态维度和大规模行为维度的任务时，会出现需要维护更新一张过大的Q值表而导致内存和时间开销过大的问题。而基于策略的强化学习方法也会面临着回合更新，导致学习速率过慢的问题。

此外当前大多数商品推荐算法都过多关专注于如购买或添加到购物车等用户的正反馈信息，这样往往忽略了实际过程中如浏览商品这种数据量更大的负反馈信息。在实际中正反馈信息数据量的往往是稀疏的，这样会导致推荐模型的训练不充分，进而导致推荐算法的准确度无法提高等问题。

现有的解决方案主要是将深度学习融入到强化学习。由此产生了深度强化学习模型，相较于传统的深度学习算法，深度强化学习算法将推荐过程中用户与推荐系统的序列化的交互行为视为一个马尔科夫的动态过程，过程满足马尔科夫性，并利用强化学习的特性，通过推荐产品并由此接受用户的反馈来动态的学习最优的策略，从而实现对用户的动态行为的学习，避免局部最优的情况发生。同时相较于传统的强化学习，深度强化学习则同时可以通过包含神经网络的特性，可以直接使用状态价值函数计算出Q值，从而省去维护庞大Q值表的开销，提高了算法的运算速度。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种带负反馈的基于深度强化学习的推荐方法及系统，旨在解决现有用户推荐方法学习速率过慢、准确度低的问题。

为实现上述目的，本发明所采用的技术方案是：结合现有深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)模型，设计出一种针对真实用户的商品推荐方法，首先使用带门循环单元(Gated Recurrent Unit，GRU)网络模型根据用户正负反馈的历史行为进行特征提取、处理和混合，得到用户的正负反馈混合状态向量，将正负反馈混合状态向量输入到Actor策略神经网络模型中，根据策略函数对进行推荐的产品候选集进行阈值计算筛选，挑选出基于当前用户正负反馈混合状态向量的推荐行为向量，使用Critic估值神经网络对推荐行为进行评测打分计算出状态价值Q值，而后模型使用随机梯度下降方式完成参数更新，使模型总体状态价值Q值不断增大直至收敛，从而完成推荐方法的训练工作，最后使用完成训练的策略网络Actor神经网络实现对用户的推荐工作。

为实现上述目的，按照本发明的一方面，提供了一种带负反馈的基于深度强化学习的推荐方法，包括如下步骤：

S1.收集商品特征信息得到商品特征向量数据集，同时收集用户行为数据得到用户的正负反馈行为向量；

S2.对用户的正负反馈行为向量通过特征提取网络模型处理后，得到用户的正负反馈特征混合状态向量；

S3.利用用户的正负反馈特征混合状态向量对由Actor策略网络和Critic估值网络组成的深度确定性策略梯度模型进行训练，直至模型收敛；

S4.根据需要进行推荐工作的用户的历史行为，先使用步骤S2生成正负反馈特征混合状态向量，通过步骤S3完成训练的深度确定性策略梯度模型生成用户推荐商品列表供给用户进行选择，完成用户推荐工作。

进一步地，步骤S1具体包括：

S1.1.收集商品特征信息，按照时间与商品种类进行划分，分别进行embedding处理，得到商品特征向量数据集(timestamp，itemid，embedding)，用于后续的训练工作；

S1.2.收集用户行为数据，按照行为时间、用户、行为动作以及对应商品编号进行划分得到用户行为数据集(timestamp，visitorid，event，itemid)，按照用户与时间划分数据，得到用户的正负反馈行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}，其中i_n与j_n分别为用户某时间段内进行了正反馈和负反馈的商品。

进一步地，步骤S2具体包括：

S2.1.将用户行为数据集按用户与时间进行训练任务划分，选取用户某时段内的前n个正反馈行为{i₁，i₂，...，i_n}与前n个负反馈行为{j₁，j₂，...，j_n}，构成用户某时段内的历史行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}，并使用带门循环单元的特征提取网络模型进行处理，生成正反馈状态向量S_t+＝{s₁₊，s₂+，...，s_n+}与负反馈状态向量S_t-＝{s_1-，s_2-，...，s_n-}；

S2.2.将步骤S2.1中获取的正反馈状态向量S_t+＝{s₁₊，s₂₊，...，s_n+}、负反馈状态向量S_t-＝{s_1-，s_2-，...，s_n-}进行处理而后再进行混合，完成正负反馈特征混合状态向量K_t＝{k₁，k₂，...，k_n}生成工作。

进一步地，步骤S3具体包括：

S3.1.将所述混合状态向量K_t＝{k₁，k₂，...，k_n}输入到online Actor网络，按照策略函数

生成推荐动作向量At，并按照用户行为记忆模拟器根据用户的历史行为，计算当前状态与历史状态的相似度，对当前状态进行计算评分得出状态价值r_t，根据状态价值r_t将推荐产品加入到{i₁，i₂，....i_n}与{j₁，j₂，....j_n}生成用户行为U_t+1，将(U_t，A_t，r_t，U_t+1)记录加入到记忆池中供后续模型的训练使用；

S3.2.随机从记忆池中选取batch size条记录用于模型的训练工作，利用步骤S2.1、S2.2生成正负反馈状态向量S_t＝{S_t+，S_t-}，S_t+1＝{S_t+1+，S_t+1-}以及混合状态向量K_t与K_t+1，状态价值r_t：

S3.3.利用步骤S3.2中的正负反馈混合状态向量K_t+1，target Actor网络按照策略函数

根据K_t+1生成A_t+1；

S3.4.利用步骤S3.2中正负反馈混合状态向量K_t，online Actor网络按照策略函数

根据K_t生成A_t；

S3.5.将步骤S3.2与S3.4中S_t＝{S_t+，S_t-}，A_t交付给online Critic价值网络，生成预测行为价值Q^*(S_t，A_t；θ^μ)，以及Q^*(S_t，A_t；θ^μ)关于推荐动作A_t的梯度方向

S3.6.将步骤S3.3、S3.2中A_t+1，S_t+1＝{S_t+1+，S_t+1-}交付给TargetCritic网络生成预测行为价值Q(S_t+1，A_t+1；θ^μ’)；

S3.7.根据S3.2、S3.5与S3.6得到的价值r_t值、Q^*(S_t，A_t；θ^μ)与Q(S_t+1，A_t+1；θ^μ’)计算损失函数L(θ^μ)，online Critic根据损失函数L(θ^μ)与online critic网络参数parameter的梯度方向进行参数更新；

S3.8.online Actor网络根据策略函数

关于S3.5中返回的梯度

以及网络模型参数的优化梯度方向，完成模型的参数更新；

S3.9.target Actor与target Critic网络更新则依赖于online Actor与onlineCritic的网络参数，按照学习率γ进行网络参数的软更新操作；

S3.10.重复执行步骤S3.1～S3.9完成推荐方法的训练工作，直至模型收敛

按照本发明的另一方面，提供了一种带负反馈的基于深度强化学习的推荐系统，包括：

正负反馈行为向量获取模块，收集商品特征信息得到商品特征向量数据集，同时收集用户行为数据得到用户的正负反馈行为向量；

正负反馈特征混合状态向量获取模块，对所述用户的正负反馈行为向量通过特征提取网络模型处理后，得到用户的正负反馈特征混合状态向量；

模型训练模块，利用所述用户的正负反馈特征混合状态向量对由Actor策略网络和Critic估值网络组成的深度确定性策略梯度模型进行训练，直至模型收敛；

用户推荐模块，根据需要进行推荐工作的用户的历史行为，先生成正负反馈特征混合状态向量，通过完成训练的深度确定性策略梯度模型生成用户推荐商品列表供给用户进行选择，完成用户推荐工作。

优选地，所述正负反馈行为向量获取模块包括：

商品特征收集单元，收集商品特征信息，按照时间与商品种类进行划分，分别进行embedding处理，得到商品特征向量数据集(timestamp，itemid，embedding)，用于后续的训练工作；

用户行为收集单元，收集用户行为数据，按照行为时间、用户、行为动作以及对应商品编号进行划分得到用户行为数据集(timestamp，visitorid，event，itemid)，按照用户与时间划分数据，得到用户的正负反馈行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}，其中i_n与j_n分别为用户某时间段内进行了正反馈和负反馈的商品。

优选地，正负反馈特征混合状态向量获取模块包括：

正负反馈状态向量生成单元，将用户行为数据集按用户与时间进行训练任务划分，选取用户某时段内的前n个正反馈行为{i₁，i₂，...，i_n}与前n个负反馈行为{j₁，j₂，...，j_n}，构成用户某时段内的历史行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}，并使用带门循环单元的特征提取网络模型进行处理，生成正反馈状态向量S_t+＝{s₁₊，s₂₊，...，s_n+}与负反馈状态向量S_t-＝{s_1-，s_2-，...，s_n-}；

正负反馈特征混合状态向量生成单元，将生成的正反馈状态向量S_t+＝{s₁₊，s₂₊，...，s_n+}、负反馈状态向量S_t-＝{s_1-，s_2-，...，s_n-}进行处理而后再进行混合，完成正负反馈特征混合状态向量K_t＝{k₁，k₂，...，k_n}生成工作。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)本发明将用户与推荐方法做出的序列化交互行为视作马尔科夫过程，通过向用户推荐货品，并接受用户的消极和积极的反馈来自动学习最优的策略。相较于传统的推荐方法均基于一个静态的过程，本发明中推荐方法能够动态的学习用户行为，更好的完成推荐工作。利用深度强化学习的深度确定性策略梯度模型完成推荐方法训练工作，本发明基于深度强化学习带负反馈的推荐方法的训练模型拥有双网络、经验回放和随机噪声等特性，能够较好解决传统深度强化学习模型存在的难收敛问题，同时可以使得相关神经网络的参数更新得到延迟，从而减小网络之间的相关性，提升推荐方法的训练速度；

(2)本发明对于用户的正反馈行为关注的同时，对于传统推荐方法关注较少的用户负反馈行为也予以利用。同时对正负反馈行为进行特征提取，使得推荐方法可以从用户的积极与消极两个方面进行训练和学习，从而完善推荐算法对于用户特征的捕获，使得推荐方法的准确率得到提高。

附图说明

图1是本发明提供的带负反馈的基于深度强化学习的推荐方法的步骤流程图；

图2是本发明提供的带负反馈的基于深度强化学习的推荐方法的正负反馈特征提取网络模型结构图；

图3是本发明提供的带负反馈的基于深度强化学习的推荐方法的训练过程图；

图4是本发明提供的带负反馈的基于深度强化学习的推荐方法的参数更新流图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种方法，如图1所示，具体包括：

S1.基于深度强化学习带负反馈推荐方法的数据获取主要依赖于电子商务网站中的用户游览网站时的行为信息以及商品的特征信息，在真实的电子商务网站获取数据后需要对商品特征信息进行提取以及对用户的行为数据进行划分；

S1.1.根据收集到商品特征信息按照时间与商品种类进行划分，通过对商品的所有特征进行统计，筛选出数量合适并对所有商品种类覆盖率高且有意义的商品特征，生成特征字典，而后对不同时间点的不同商品进行按照特征字典进行embedding处理，得到每个时刻的商品特征向量，生成商品特征向量集合embed文件，其处理完成后数据格式为(timestamp，itemid，embedding)。其中embedding为商品的特征向量，用于后续的训练工作和推荐工作。

S1.2.根据收集用户行为数据，按照行为时间，用户名，行为动作，以及商品编号进行划分得到用户行为数据集，处理完成的格式为(timestamp，visitorid，event，itemid)。将处理完成的行为数据集，按照用户与时间进行相应的划分，得到用户行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}，其中in与jn分别为用户某时间段内的进行了正反馈与负反馈的商品编号。

S2.对所述用户的正负反馈行为向量通过特征提取网络模型处理后，得到用户的正负反馈特征混合状态向量，特征提取网络模型结构如图2所示；前期准备工作包括完成带门循环单元(Gated Recurrent Units，GRU)用户正负反馈状态向量提取网络模型的参数初始化，用户模拟记忆simulator初始化，记忆池replay buffer初始化等工作，而后进行用户正负反馈状态向量的生成工作：

S2.1.基于深度强化学习带负反馈推荐方法中，根据步骤S1.2中生成的用户历史行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}生成用户正反馈状态向量S_t+＝{s₁₊，s₂₊，...，s_n+}与负反馈状态向量S_t-＝{s_1-，s_2-，...，s_n-}，选择使用带GRU的循环神经网络完成处理工作，选择GRU单元的原因是因为相较于长短期记忆网络(Long Short-TermMemory，LSTM)，GRU单元在塑造用户连续行为状态S_t方面会有优势。

在行为向量生成RNN网络中，GRU单元会使用更新门z_n来生成新状态，同时会使用重置门r_n来控制来自RNN网络中前一个GRU单元的输出h_n-1，在处理开始前将用户的积极行为{i₁，i₂....i_n}(消极行为处理过程相同)输入到RNN中，处理过程公式(1-1)-(1-4)所示：

z_n＝σ(W_zi_n+U_zh_n-1)， (1-1)

r_n＝σ(W_ri_n+U_rh_n-1)， (1-2)

h′_n＝tanh[Wi_n+U(r_n·h_n-1)]， (1-3)

h_n＝(1-z_n)h_n-1+z_n h′_n， (1-4)

σ()，tanh()为非线性激活函数，W_z，W_r，W为相应层的权重值，U_z，U_r，U是线性层。

S2.2.将正负反馈状态向量输入相应处理隐层中，而后两个处理隐层输出到全连接混合隐层中，生成正负反馈混合状态向量K_t＝{k₁，k₂，...，k_n}，过程如公式(1-5)-(1-7)所示：

h₁＝w_iS_t++b₁ (1-5)

h₂＝w₂S_t-+b₂ (1-6)

K_t＝W₊h₁+W_-h₂+b (1-7)

其中W₁，W₂，W₊，W_-分别为正负反馈向量对应的权重矩阵，b₁，b₂，b为偏置矩阵，t为某一时刻。

S3.完成推荐方法的训练工作，具体过程如图3所示；需提前初始化训练模型的模型参数，参数包括双Actor策略网络(online Actor，target Actor)与双Critic价值网络(online Critic，target Critic)参数，网络模型的迭代回合数，推荐行为向量长度，batch_size大小，以及模型的学习率等，而后完成模型训练工作。

S3.1.将混合状态向量K_t＝{k₁，k₂，...，k_n}输入到online Actor网络生成推荐动作A_t＝{a₁，a₂，...，a_k}，以及用户对推荐动作A_t的反馈，使用用户交互记忆simulator生成在K_t状态下采取A_t后的状态价值r_t，生成用户新的行为向量U_t+1，将结果保存到记忆池中的，完成记忆池数据更新：

使用步骤S2.1-S2.2，生成混合状态向量K_t＝{k₁，k₂，...，k_n}，并将其输入到online Actor网络，online Actor网络根据算法1.1生成推荐动作；具体过程为，根据策略函数

与当前的混合状态向量K_t＝{k₁，k₂，...，k_n}，生成权重向量W_t＝{w₁，w₂，...，w_k}，其中策略函数

是关于参数θ^π的函数，其功能是将混合特征向量K_t映射到权重空间中，本发明在这里选用Actor策略深度神经网络来实现策略函数

的功能，过程如公式(1-8)所示：

根据生成的W_t＝{w₁，w₂，...，w_k}中w_i与推荐产品候选集I中的商品特征向量E_i＝{e₁，e₂，...，e_n}进行点乘得生成得分socre E_i，过程如公式(1-9)所示：

socre E_i＝w^k _t E^T _i (1-9)

将得分socre E_i最高的商品Ei添加到为A_t中，生成推荐动作向量A_t＝{a₁，a₂，...，a_k}，具体算法如表1所示：

表1

并根据用户模拟记忆simulator计算当前的行为向量U_t，推荐动作A_t，计算出与记忆池中的历史行为的相似度Cosine(p_t，m_i)，如公式(1-10)所示：

其中α为行为状态的折算率，p_t为与记忆池中mi记录的相似度，u_i与a_i为记忆池中m_i记录中的历史行为向量与推荐行为向量。

而后用对Cosine(p_t，m_i)进行归一化处理，如公式(1-11)所示：

其中M为记忆池中所有得记录，m_j为M中得记录，r_i为第i个价值。

获取当前状态下的状态价值r_t值，如公式(1-12)所示：

r_t＝∑m_j∈M P(p_t→r_i)*r_i (1-12)

根据状态价值r_t值将当前的推荐动作A_t添加到{i₁，i₂，...，i_n}与{j₁，j₂，...，j_n}，若r_t＞0则将A_t加入到用户积极行为中，生成用户行为U_t+1＝{{i₁，i₂，...，i_n，A_t}，{j₁，j₂，...，j_n}}，反之则加入到用户的消极行为中生成U_t+1＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n，A_t}}，并将(U_t，A_t，r_t，U_t+1)记录加入到记忆池中供后续模型的训练学习使用。

S3.2.随机从记忆池中选取batch size条记录用于模型的训练工作，利用步骤S2.1、，S2.2、生成正负反馈状态向量S_t＝{S_t+，S_t-}，S_t+1＝{S_t+1+，S_t+1-}以及混合状态向量K_t与K_t+1，状态价值r_t完成模型训练；

S3.3.利用步骤S3.2中正负反馈混合状态向量K_t+1，target Actor网络依照算法1.1使用策略函数

根据K_t+1生成A_t+1；

S3.4.利用步骤S3.2中正负反馈混合状态向量K_t，online Actor网络按照依照算法1.1，使用策略函数

根据K_t生成A_t；

S3.5.将步骤S3.3、S3.2中A_t+1，S_t+1＝{S_t+1+，S_t+1-}交付给target Critic价值网络，target Critic价值网络需要先将正负反馈状态向量S_t+1＝{S_t+1+，S_t+1-}与推荐动作向量A_t+1＝{a₁，a₂，...，a_k}进行相应处理，首先使用融合隐层将正负反馈状态向量分别与推荐动作向量进行融合，而后输出到混合隐层进行混合，其过程如公式(1-13)-(1-15)所示：

h₁＝w₊S_t+1++w_1aA_t+1+b₁ (1-13)

h₂＝w_-S_t+1-+w_2aA_t+1+b₂ (1-14)

h₃＝w₃₁h₁+w₃₂h₂+b₃ (1-15)

其中w₊，w_1a，w_-，w_2a，w₃₁，w₃₂，b₁，b₂，b₃，分别为权重矩阵以及偏置矩阵。

target Critic神经网络根据h₃的输入，生成评估价值Q(S_t+1，A_t+1；θ^μ’)输出，而后将Q(S_t+1，A_t+1；θ^μ’)乘以学习率γ，并加上基于S_t状态的行为价值rt，从而得到t时刻下的实际总价值R_t，R_t获取过程如公式(1-16)所示：

其中E为期望。

S3.6.将步骤S3.2、S3.4中S_t＝{S_t+，S_t-}，A_t交付给online Critic网络，onlineCritic网络采取同步骤S3.5相同的方法处理S_t＝{S_t+，S_t-}，A_t，而后生成预测行为价值Q^*(S_t，A_t；θ^μ)，以及Q^*(S_t，A_t；θ^μ)关于推荐动作A_t的梯度方向

S3.7.根据步骤S3.5与S3.6得到Q^*(S_t，A_t；θ^μ)与R_t，计算损失函数L(θ^μ)，过程如公式(1-17)所示：

其中θ^μ为online Critic网络参数。

online Critic网络参数更新是沿着minimizing(L(θ^μ))方向进行的，其过程如公式(1-18)所示：

S3.8.target Critic网络参数更新形式则是依靠online Critic网络参数以及更新率τ的软更新，其过程如公式(1-19)所示：

θ^μ’←τθ^μ+(1-τ)θ^μ’ (1-19)

其中θ^μ’为Target Critic网络参数。

S3.9.online Actor网络参数更新方向是沿着策略函数

关于online Actor网络模型参数以及步骤S3.6中返回的梯度

的优化梯度方向进行，其更新过程如公式(1-20)所示：

其中θ^π为online Actor网络参数。

S3.10、target Actor网络的参数更新更新形式是依靠online Critic网络参数以及更新率τ的软更新，其更新过程如公式(1-21)所示：

θ^π’←τθ^π+(1-τ)θ^π’ (1-21)

其中θ^π’为target Actor网络参数，具体的相关网络参数更新过程如图4所示。

S3.11.结合步骤S3.1～S3.10为模型的整体训练过程，如此往复直至模型收敛，具体过程如表2所示：

表2

S4.用户商品推荐；按照用户的行为时间以及用户正在浏览的电子商务网站商品区域(如数码产品区，日用品区，食物药品区等)，选取该商品区类中所有在此时间节的商品特征向量，作为商品特征向量集合embed＝{e₁，e₂…，e_n}，将embed交付给完成训练的Actor策略网络，Actor网络根据用户在电子商务网站的历史行为生成的状态向量S_t＝{{s₁₊，s₂₊，...，s_n+}，{s_1-，s_2-，...，s_n-}}以及商品特征向量集合embed，使用算法1.1生成用户推荐商品列表，供给用户进行选择(具体过程与步骤S3.1相同)。而后将用户的正负反馈添加到行为向量中生成u_t+1，供后续使用。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种带负反馈的基于深度强化学习的推荐方法，其特征在于，具体包括以下步骤：

S1.收集商品特征信息得到商品特征向量数据集，同时收集用户行为数据得到用户的正负反馈行为向量；具体包括：

S1.1.收集商品特征信息，按照时间与商品种类进行划分，分别进行嵌入处理，得到商品特征向量数据集(timestamp，itemid，embedding)，用于后续的训练工作；

S1.2.收集用户行为数据，按照行为时间、用户、行为动作以及对应商品编号进行划分得到用户行为数据集(timestamp，visitorid，event，itemid)，按照用户与时间划分数据，得到用户的正负反馈行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}，其中i_n与j_n分别为用户某时间段内进行了正反馈和负反馈的商品；

S2.对所述用户的正负反馈行为向量通过特征提取网络模型处理后，得到用户的正负反馈特征混合状态向量；具体包括：

S2.1.选取用户某时段内的前n个正反馈行为{i₁，i₂，...，i_n}与前n个负反馈行为{j₁，j₂，...，j_n}，构成用户某时段内的历史行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}，并使用带门循环单元的特征提取网络模型进行处理，生成正反馈状态向量S_t+＝{s₁₊，s₂₊，...，s_n+}与负反馈状态向量S_t-＝{s_1-，s_2-，...，s_n-}；

S2.2.将步骤S2.1中获取的正反馈状态向量S_t+＝{s₁₊，s₂₊，...，s_n+}、负反馈状态向量S_t-＝{s_1-，s_2-，...，s_n-}进行处理而后再进行混合，完成正负反馈特征混合状态向量K_t＝{k₁，k₂，...，k_n}生成工作；

S3.利用所述用户的正负反馈特征混合状态向量使用深度强化学习模型进行训练，直至模型收敛；具体包括：

S3.1.将所述混合状态向量K_t＝{k₁，k₂，...，k_n}输入到在线策略网络，按照策略函数

生成推荐动作向量A_t，并按照用户行为记忆模拟器根据用户的历史行为，计算当前状态与历史状态的相似度，对当前状态进行计算评分得出状态价值r_t，根据状态价值r_t将推荐产品加入到{i₁，i₂，....i_n}与{j₁，j₂，....j_n}，生成用户行为U_t+1，将(U_t，A_t，r_t，U_t+1)记录加入到记录库中供后续模型的训练使用；

S3.2.随机从记录库中选取预设数量记录用于模型的训练工作，利用步骤S2.1、S2.2生成正负反馈状态向量S_t＝{S_t+，S_t-}，S_t+1＝{S_t+1+，S_t+1-}以及混合状态向量K_t与K_t+1，状态价值r_t：

S3.3.利用步骤S3.2中的正负反馈混合状态向量K_t+1，目标策略网络按照策略函数

根据K_t+1生成A_t+1；

S3.4.利用步骤S3.2中正负反馈混合状态向量K_t，在线策略网络按照策略函数

根据K_t生成A_t；

S3.5.将步骤S3.2与S3.4中S_t＝{S_t+，S_t-}，A_t交付给在线估值网络，生成预测行为价值Q^*(S_t，A_t；θ^μ)，以及Q^*(S_t，A_t；θ^μ)关于推荐动作A_t的梯度方向

S3.6.将步骤S3.3、S3.2中A_t+1，S_t+1＝{S_t+1+，S_t+1-}交付给目标估值网络生成预测行为价值Q(S_t+1，A_t+1；θ^μ’)；

S3.7.根据S3.2、S3.5与S3.6得到的价值r_t值、Q^*(S_t，A_t；θ^μ)与Q(S_t+1，A_t+1；θ^μ’)计算损失函数L(θ^μ)，在线估值网络根据损失函数L(θ^μ)与在线估值网络参数parameter的梯度方向进行参数更新；

S3.8.在线策略网络根据策略函数

关于S3.5中返回的梯度

以及网络模型参数的优化梯度方向，完成模型的参数更新；

S3.9.目标策略网络与目标估值网络更新则依赖于在线策略网络与在线估值网络的网络参数，按照设定学习率进行相关网络参数的更新操作；

S3.10.重复执行步骤S3.1～S3.9完成推荐方法的训练工作，直至模型收敛；

S4.根据需要进行推荐工作的用户的历史行为，先使用步骤S2生成正负反馈特征混合状态向量，通过步骤S3完成训练的深度强化学习模型生成用户推荐商品列表供给用户进行选择，完成用户推荐工作。

2.一种带负反馈的基于深度强化学习的推荐系统，其特征在于，包括：

正负反馈行为向量获取模块，收集商品特征信息得到商品特征向量数据集，同时收集用户行为数据得到用户的正负反馈行为向量；所述正负反馈行为向量获取模块包括：

商品特征收集单元，收集商品特征信息，按照时间与商品种类进行划分，分别进行嵌入处理，得到商品特征向量数据集(timestamp，itemid，embedding)，用于后续的训练工作；

用户行为收集单元，收集用户行为数据，按照行为时间、用户、行为动作以及对应商品编号进行划分得到用户行为数据集(timestamp，visitorid，event，itemid)，按照用户与时间划分数据，得到用户的正负反馈行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}，其中i_n与j_n分别为用户某时间段内进行了正反馈和负反馈的商品；

正负反馈特征混合状态向量获取模块，对所述用户的正负反馈行为向量通过特征提取网络模型处理后，得到用户的正负反馈特征混合状态向量；所述正负反馈特征混合状态向量获取模块包括：

正负反馈状态向量生成单元，选取用户某时段内的前n个正反馈行为{i₁，i₂，...，i_n}与前n个负反馈行为{j₁，j₂，...，j_n}，构成用户某时段内的历史行为向量U_t＝{{i₁，i₂，...，i_n}，{j₁，j₂，...，j_n}}，并使用带门循环单元的特征提取网络模型进行处理，生成正反馈状态向量S_t+＝{s₁₊，s₂₊，...，s_n+}与负反馈状态向量S_t-＝{s_1-，s_2-，...，s_n-}；

正负反馈特征混合状态向量生成单元，将生成的正反馈状态向量S_t+＝{s₁₊，s₂₊，...，s_n+}、负反馈状态向量S_t-＝{s_1-，s_2-，...，s_n-}进行处理而后再进行混合，完成正负反馈特征混合状态向量K_t＝{k₁，k₂，...，k_n}生成工作；

模型训练模块，利用所述用户的正负反馈特征混合状态向量对由策略网络和估值网络组成的深度强化学习模型进行训练，直至模型收敛；所述模型训练模块包括：

将所述混合状态向量K_t＝{k₁，k₂，...，k_n}输入到在线策略网络，按照策略函数f_θπ生成推荐动作向量A_t，并按照用户行为记忆模拟器根据用户的历史行为，计算当前状态与历史状态的相似度，对当前状态进行计算评分得出状态价值r_t，根据状态价值r_t将推荐产品加入到{i₁，i₂，....i_n}与{j₁，j₂，....j_n}，生成用户行为U_t+1，将(U_t，A_t，r_t，U_t+1)记录加入到记录库中供后续模型的训练使用；

随机从记录库中选取预设数量记录用于模型的训练工作，生成正负反馈状态向量S_t＝{S_t+，S_t-}，S_t+1＝{S_t+1+，S_t+1-}以及混合状态向量K_t与K_t+1，状态价值r_t：

利用正负反馈混合状态向量K_t+1，目标策略网络按照策略函数

根据K_t+1生成A_t+1；

利用正负反馈混合状态向量K_t，在线策略网络按照策略函数

根据K_t生成A_t；

将S_t＝{S_t+，S_t-}，A_t交付给在线估值网络，生成预测行为价值Q^*(S_t，A_t；θ^μ)，以及Q^*(S_t，A_t；θ^μ)关于推荐动作A_t的梯度方向

将步骤A_t+1，S_t+1＝{S_t+1+，S_t+1-}交付给目标估值网络生成预测行为价值Q(S_t+1，A_t+1；θ^μ’)；

根据价值r_t值、Q^*(S_t，A_t；θ^μ)与Q(S_t+1，A_t+1；θ^μ’)计算损失函数L(θ^μ)，在线估值网络根据损失函数L(θ^μ)与在线估值网络参数parameter的梯度方向进行参数更新；

在线策略网络根据策略函数

关于梯度

以及网络模型参数的优化梯度方向，完成模型的参数更新；

目标策略网络与目标估值网络更新则依赖于在线策略网络与在线估值网络的网络参数，按照设定学习率进行相关网络参数的更新操作；重复完成推荐方法的训练工作，直至模型收敛；

用户推荐模块，根据需要进行推荐工作的用户的历史行为，先生成正负反馈特征混合状态向量，通过完成训练的深度强化学习模型生成用户推荐商品列表供给用户进行选择，完成用户推荐工作。