CN116071129A

CN116071129A - 商品的推荐方法、装置、存储介质及电子设备

Info

Publication number: CN116071129A
Application number: CN202310079068.2A
Authority: CN
Inventors: 唐珊珊; 周洪菊; 黄振飞; 赵培
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-05-05

Abstract

本发明公开了一种商品的推荐方法、装置、存储介质及电子设备，涉及金融科技领域。其中，该方法包括：获取目标待推荐用户的用户数据；将用户数据输入目标推荐策略模型，输出目标预测推荐结果，其中，目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，初始推荐策略模型是通过深度强化学习算法训练得到的，目标预测推荐结果表征目标待推荐用户对待推荐商品的偏好概率；根据目标预测推荐结果，对待推荐商品进行排序，得到目标商品推荐列表；将目标商品推荐列表推送给目标待推荐用户。本发明解决了现有技术中对推荐策略模型的优化效果差导致在通过推荐策略模型为用户推荐商品时存在推荐准确性差的技术问题。

Description

商品的推荐方法、装置、存储介质及电子设备

技术领域

本发明涉及金融科技领域，具体而言，涉及一种商品的推荐方法、装置、存储介质及电子设备。

背景技术

随着金融服务中资产管理类产品的兴起，针对基金、保险、理财等产品的推荐逐渐成为热门。其中，产品推荐策略的好坏直接影响着推荐结果的优劣，产品推荐策略的评估指标主要包括准确率、召回率、F1分数(F1-score)、点击率、购买率等，一般认为这些评估指标越高，对应的推荐策略越好。

目前，现有技术中通常采用具有推荐功能的策略模型为用户推荐基金、保险、理财等产品，大部分推荐策略模型都是在获取用户历史数据的基础上，设计并训练离线模型之后，进行线上投放和使用，然后在积累一定量的数据后，重新训练新的推荐策略模型，即并未以原有推荐策略模型为基础，导致新的推荐策略模型和原有推荐策略模型的推荐效果存在较大差异性，即对原有推荐策略模型的优化效果较差，从而导致在通过新的推荐策略模型为用户推荐商品时存在推荐准确性差的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种商品的推荐方法、装置、存储介质及电子设备，以至少解决现有技术中对推荐策略模型的优化效果差导致在通过推荐策略模型为用户推荐商品时存在推荐准确性差的技术问题。

根据本发明实施例的一个方面，提供了一种商品的推荐方法，包括：获取目标待推荐用户的用户数据，其中，用户数据包括以下至少之一：用户属性数据、用户行为数据；将用户数据输入目标推荐策略模型，输出目标预测推荐结果，其中，目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，初始推荐策略模型是通过深度强化学习算法训练得到的，目标预测推荐结果表征目标待推荐用户对待推荐商品的偏好概率；根据目标预测推荐结果，对待推荐商品进行排序，得到目标商品推荐列表；将目标商品推荐列表推送给目标待推荐用户。

进一步地，商品的推荐方法还包括：通过以下步骤生成目标推荐策略模型：获取初始推荐策略模型的线下评估值，其中，线下评估值包括第一评估值、第二评估值以及第三评估值；在将初始推荐策略模型进行线上部署之后，获取初始推荐策略模型的线上评估值，其中，线上评估值包括第四评估值和第五评估值，第一评估值、第二评估值、第三评估值、第四评估值、第五评估值对应的评价指标不同；基于初始推荐策略模型，生成线下评估值对应的推荐策略模型以及线上评估值对应的推荐策略模型，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型，其中，每个推荐策略模型的优化目标不同；在将初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型进行线上部署之后，获取目标反馈数据，并根据目标反馈数据，通过加权投票的方式得到目标推荐策略模型。

进一步地，商品的推荐方法还包括：获取初始推荐策略模型的权重和第一反馈数据，其中，第一反馈数据是在将初始推荐策略模型进行线上部署之后，通过初始推荐策略模型向多个用户推送商品推荐列表，并接收多个用户对商品推荐列表的反馈得到的，商品推荐列表用于为多个用户呈现目标待推荐商品；根据第一反馈数据，对初始推荐策略模型的目标层的权重进行调整，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型，其中，目标层为以下之一：最后两层、最后一层、前两层。

进一步地，商品的推荐方法还包括：获取第一反馈数据中的第一样本数据集和第二样本数据集，其中，第一样本数据集和第二样本数据集中包含的正样本和负样本的数量不同；获取第三样本数据集，其中，第三样本数据集为通过深度强化学习算法训练初始推荐策略模型时使用的数据集；根据第一样本数据集，以优化第一评估值为目标，对初始推荐策略模型的最后两层的权重进行调整，得到第一推荐策略模型，其中，第一推荐策略模型的权重为W1；根据第二样本数据集，以优化第二评估值为目标，对初始推荐策略模型的最后一层的权重进行调整，得到第二推荐策略模型，其中，第二推荐策略模型的权重为W2；根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第三评估值为目标，对初始推荐策略模型的最后两层的权重进行调整，得到第三推荐策略模型，其中，第三推荐策略模型的权重为W3；根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第四评估值为目标，对初始推荐策略模型的前两层的权重进行调整，得到第四推荐策略模型，其中，第四推荐策略模型的权重为W4；根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第五评估值为目标，对初始推荐策略模型的最后一层的权重进行调整，得到第五推荐策略模型，其中，第五推荐策略模型的权重为W5。

进一步地，商品的推荐方法还包括：在将初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型进行线上部署之后，通过初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型生成初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表；通过目标测试方法，将初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表分别推送给多个不同的待推荐用户；接收多个不同的待推荐用户对初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表的反馈，得到目标反馈数据。

进一步地，商品的推荐方法还包括：根据目标反馈数据，分别计算初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型的第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值，得到每个推荐策略模型的第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值；计算第一推荐策略模型的第一目标评估值相对于初始推荐策略模型的第一目标评估值的提升值，得到第一提升值A1；计算第二推荐策略模型的第二目标评估值相对于初始推荐策略模型的第二目标评估值的提升值，得到第二提升值A2；计算第三推荐策略模型的第三目标评估值相对于初始推荐策略模型的第三目标评估值的提升值，得到第三提升值A3；计算第四推荐策略模型的第四目标评估值相对于初始推荐策略模型的第四目标评估值的提升值，得到第四提升值A4；计算第五推荐策略模型的第五目标评估值相对于初始推荐策略模型的第五目标评估值的提升值，得到第五提升值A5；根据W1、W2、W3、W4、W5、A1、A2、A3、A4以及A5，进行加权投票融合计算，得到初始推荐策略模型的目标权重；基于目标权重，对初始推荐策略模型的权重进行更新，得到目标推荐策略模型。

进一步地，商品的推荐方法还包括：在获取初始推荐策略模型的线下评估值之前，获取第三样本数据集中的测试集；将测试集的样本数据输入初始推荐策略模型，输出第一预测推荐结果，其中，第一预测推荐结果表征样本用户对样本商品的偏好概率；获取测试集的样本数据的数据标签，其中，数据标签用于表征测试集的样本数据对应的类别；根据第一预测推荐结果和数据标签，确定线下评估值。

进一步地，商品的推荐方法还包括：在将初始推荐策略模型进行线上部署之后，获取多个用户的用户数据；将多个用户的用户数据输入初始推荐策略模型，输出第二预测推荐结果，其中，第二预测推荐结果表征多个用户对目标待推荐商品的偏好概率；根据第二预测推荐结果，对目标待推荐商品进行排序，得到商品推荐列表；将商品推荐列表推送给多个用户，并统计多个用户对商品推荐列表做出的反馈，得到第一反馈数据；根据第一反馈数据，确定线上评估值。

根据本发明实施例的另一方面，还提供了一种商品的推荐装置，包括：获取模块，用于获取目标待推荐用户的用户数据，其中，用户数据包括以下至少之一：用户属性数据、用户行为数据；第一处理模块，用于将用户数据输入目标推荐策略模型，输出目标预测推荐结果，其中，目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，初始推荐策略模型是通过深度强化学习算法训练得到的，目标预测推荐结果表征目标待推荐用户对待推荐商品的偏好概率；第二处理模块，用于根据目标预测推荐结果，对待推荐商品进行排序，得到目标商品推荐列表；发送模块，用于将目标商品推荐列表推送给目标待推荐用户。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的商品的推荐方法。

根据本发明实施例的另一方面，还提供了一种电子设备，该电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的商品的推荐方法。

在本发明实施例中，采用基于强化学习指导初始推荐策略模型如何调整现有产品推荐策略，使得推荐策略不断优化，以得到目标推荐策略模型的方式，首先获取目标待推荐用户的用户数据，然后将用户数据输入目标推荐策略模型，输出目标预测推荐结果，然后根据目标预测推荐结果，对待推荐商品进行排序，得到目标商品推荐列表，然后将目标商品推荐列表推送给目标待推荐用户。其中，用户数据包括以下至少之一：用户属性数据、用户行为数据，目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，初始推荐策略模型是通过深度强化学习算法训练得到的，目标预测推荐结果表征目标待推荐用户对待推荐商品的偏好概率。

在上述过程中，通过目标推荐策略模型预测用户对待推荐商品的偏好概率，能够确定出目标商品推荐列表，从而可以将目标商品推荐列表推送给目标待推荐用户，实现商品的推荐。其中，通过强化学习指导初始推荐策略模型对现有推荐策略进行优化，可以得到目标推荐策略模型，提升了对模型的优化效果，从而能够更快地找到用户感兴趣的商品所对应的推荐策略，并根据该推荐策略将用户感兴趣的商品推送给用户，提高了商品推荐的准确性，从而有助于提升用户的满意度、好感度，进而能够实现业务的稳定增长。

由此可见，通过本发明的技术方案，达到了通过强化学习指导推荐策略模型如何调整现有产品推荐策略，使得产品推荐策略不断优化的目的，从而实现了提高商品推荐的准确性的技术效果，进而解决了现有技术中对推荐策略模型的优化效果差导致在通过推荐策略模型为用户推荐商品时存在推荐准确性差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的商品的推荐方法的流程图；

图2是根据本发明实施例的一种可选的生成目标推荐策略模型的流程图；

图3是根据本发明实施例的一种可选的商品的推荐装置的示意图；

图4是根据本发明实施例的一种可选的电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本发明所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。

实施例1

根据本发明实施例，提供了一种商品的推荐方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的商品的推荐方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，获取目标待推荐用户的用户数据，其中，用户数据包括以下至少之一：用户属性数据、用户行为数据。

在上述步骤中，可以通过应用系统、处理器、电子设备等装置获取目标待推荐用户的用户数据。例如，通过商品的推荐系统获取目标待推荐用户的用户数据。可选的，目标待推荐用户可以是对资产管理类产品(例如，基金、保险、理财等产品)感兴趣的用户，例如，用户点击或浏览基金、保险、理财等产品的页面，则认为该用户为目标待推荐用户。用户属性数据可以是用户的性别、年龄、身高、体重、婚姻状况等数据，用户行为数据可以是用户浏览产品页面的历史时长、历史购买数据等数据。

步骤S102，将用户数据输入目标推荐策略模型，输出目标预测推荐结果，其中，目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，初始推荐策略模型是通过深度强化学习算法训练得到的，目标预测推荐结果表征目标待推荐用户对待推荐商品的偏好概率。

在上述步骤中，可以通过商品的推荐系统将用户数据输入目标推荐策略模型，得到目标待推荐用户对待推荐商品的偏好概率。例如，用户对理财产品感兴趣，通过点击理财产品的页面，浏览多个理财产品的产品信息，理财产品即为待推荐商品。通过将用户数据输入目标推荐策略模型，可以得知用户对多个理财产品的喜爱程度即偏好概率，例如，待推荐商品有理财产品A、理财产品B以及理财产品C，目标推荐策略模型输出的目标预测推荐结果可以是理财产品A对应的概率为60％、理财产品B对应的概率为30％、理财产品C对应的概率为10％，即用户喜欢理财产品A的概率为60％、喜欢理财产品B的概率为30％、喜欢理财产品C的概率为10％。

可选的，目标推荐策略模型是对初始推荐策略模型进行优化处理得到的。在本实施例中，采用基于强化学习指导初始推荐策略模型如何调整现有产品推荐策略，使得推荐策略不断优化的方式得到目标推荐策略模型。

步骤S103，根据目标预测推荐结果，对待推荐商品进行排序，得到目标商品推荐列表。

步骤S104，将目标商品推荐列表推送给目标待推荐用户。

在上述步骤中，根据目标预测推荐结果可以得知用户对多个理财产品的喜爱程度，可选的，通过商品的推荐系统对待推荐商品进行排序，可以得到目标商品推荐列表，从而能够将目标商品推荐列表推送给目标待推荐用户。例如，目标商品推荐列表中待推荐商品的排列顺序从上到下依此为理财产品A、理财产品B以及理财产品C。

基于上述步骤S101至步骤S104所限定的方案，可以获知，在本发明实施例中，采用基于强化学习指导初始推荐策略模型如何调整现有产品推荐策略，使得推荐策略不断优化，以得到目标推荐策略模型的方式，首先获取目标待推荐用户的用户数据，然后将用户数据输入目标推荐策略模型，输出目标预测推荐结果，然后根据目标预测推荐结果，对待推荐商品进行排序，得到目标商品推荐列表，然后将目标商品推荐列表推送给目标待推荐用户。其中，用户数据包括以下至少之一：用户属性数据、用户行为数据，目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，初始推荐策略模型是通过深度强化学习算法训练得到的，目标预测推荐结果表征目标待推荐用户对待推荐商品的偏好概率。

容易注意到的是，在上述过程中，通过目标推荐策略模型预测用户对待推荐商品的偏好概率，能够确定出目标商品推荐列表，从而可以将目标商品推荐列表推送给目标待推荐用户，实现商品的推荐。其中，通过强化学习指导初始推荐策略模型对现有推荐策略进行优化，可以得到目标推荐策略模型，提升了对模型的优化效果，从而能够更快地找到用户感兴趣的商品所对应的推荐策略，并根据该推荐策略将用户感兴趣的商品推送给用户，提高了商品推荐的准确性，从而有助于提升用户的满意度、好感度，进而能够实现业务的稳定增长。

可选的，在本实施例中涉及的关键术语定义如下：

强化学习：主要由智能体和环境两部分组成。智能体观测环境，做出行动，并接收来自环境的反馈；环境受智能体的影响，改变自己的状态，并给出反馈。

智能体：在推荐策略中，智能体指的是推荐策略本身。

环境：由网站或APP、用户组成的整个推荐策略外部环境。在环境中，用户接收推荐结果并做出相应反馈。

动作：指的是推荐策略进行产品排序后推送给用户的动作。

反馈：用户收到推荐结果后，进行正向的、或者负向的反馈。例如，点击行为是一个正反馈，曝光后不点击是一个负反馈。

状态：在产品推荐场景中，状态可以被看作收到的所有行动和反馈，以及用户和产品的所有相关信息的特征向量表示。简单地说，状态可被看作已收到的、可用于训练的所有数据的集合。

预训练模型：应用现有数据集构建深度神经网络模型，并进行模型训练。

微调：以预训练模型为基础，保持其网络结构不变、部分层的权重不变，用新进来的少量数据集进行模型训练，更新原有预训练模型的部分层的权重。

可选的，在本实施例中，对于基金、保险、理财等产品，推荐策略(智能体)基于当前已收集的数据(状态)构建离线模型Q0(设其网络权重为矩阵W0)，并进行模型训练，得到模型的线下度量指标(即准确率、召回率、F1-score)。

可选的，将模型进行线上投放和使用。具体的，对待推荐产品进行排序(智能体做出动作)，并将推荐列表推送到网站或者APP(环境)中。用户通过网站或者APP接收到推荐列表后，会点击、购买或忽略推荐结果，从而得到模型的线上度量指标(即点击率、购买率)，并将其作为反馈给到推荐策略(智能体)。

可选的，推荐策略(智能体)收到反馈后，基于对预训练模型(即离线模型Q0)进行微调的方法，分别构建以优化原有离线训练指标(即准确率、召回率、F1-score)为目标的三个模型M1、M2、M3(设其网络权重分别为W1、W2、W3)，和以优化线上统计指标(即点击率、购买率)为目标的两个模型M4、M5(设其网络权重分别为W4、W5)。

可选的，结合不同待推荐用户的信息，对神经网络模型Q0、M1、M2、M3、M4、M5应用AB测试方法，形成新的推荐列表L0、L1、L2、L3、L4、L5并将推荐列表推送给对应的待推荐用户，收集用户反馈。可选的，收集到用户对于不同优化目标模型的反馈后，通过加权投票得到新的推荐模型，将该模型作为形成最终推荐列表的深度神经网络模型。

可选的，根据上述过程可以形成调优闭环，对原始模型进行迭代调优，从而实现基于强化学习指导预训练模型进行微调实现模型调优的目标。

图2是根据本发明实施例的一种可选的生成目标推荐策略模型的流程图，在一种可选的实施例中，如图2所示，通过以下步骤生成目标推荐策略模型：

步骤S201，获取初始推荐策略模型的线下评估值，其中，线下评估值包括第一评估值、第二评估值以及第三评估值；

步骤S202，在将初始推荐策略模型进行线上部署之后，获取初始推荐策略模型的线上评估值，其中，线上评估值包括第四评估值和第五评估值，第一评估值、第二评估值、第三评估值、第四评估值、第五评估值对应的评价指标不同；

步骤S203，基于初始推荐策略模型，生成线下评估值对应的推荐策略模型以及线上评估值对应的推荐策略模型，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型，其中，每个推荐策略模型的优化目标不同；

步骤S204，在将初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型进行线上部署之后，获取目标反馈数据，并根据目标反馈数据，通过加权投票的方式得到目标推荐策略模型。

可选的，在步骤S201中，可以通过应用系统、处理器、电子设备等装置获取初始推荐策略模型的线下评估值。其中，初始推荐策略模型对应于前述预训练模型(即离线模型Q0)，第一评估值对应的评价指标为准确率，第二评估值对应的评价指标为召回率，第三评估值对应的评价指标为F1-score。

具体的，推荐策略(智能体)基于当前已收集的数据构建初始推荐策略模型并进行模型训练，得到模型的线下度量指标(即线下评估值)，即智能体观测环境，做出动作，并接收来自环境的反馈。

可选的，当前已收集的数据至少包括产品数据、用户数据、场景数据等。产品数据可以是基金、保险、理财等产品的属性信息数据，例如，理财产品A所属的行业为新能源，理财产品B所属的行业为半导体。用户数据可以是用户的身高、体重、婚姻状况等数据，场景数据可以是产品的浏览数据、购买数据等数据。

可选的，在步骤S202中，第四评估值对应的评价指标为点击率，第五评估值对应的评价指标为购买率。在将初始推荐策略模型进行线上部署(即线上投放和使用)之后，用户会收到来自该模型的产品推荐列表，并给出点击、购买或忽略的反馈，对反馈数据进行统计可以得到初始推荐策略模型的线上评估值。其中，点击率ctr是指在推荐给用户的列表中，用户真正点击的列表个数占比。购买率cvr是指在用户点击的列表中，真正产生购买的列表个数占比。

可选的，在步骤S203中，第一推荐策略模型即为前述神经网络模型M1，第二推荐策略模型即为前述神经网络模型M2，第三推荐策略模型即为前述神经网络模型M3，第四推荐策略模型即为前述神经网络模型M4，第五推荐策略模型即为前述神经网络模型M5，其中，第一推荐策略模型以优化准确率为目标，第二推荐策略模型以优化召回率为目标，第三推荐策略模型以优化F1-score为目标，第四推荐策略模型以优化点击率为目标，第五推荐策略模型以优化购买率为目标。

具体的，推荐策略(智能体)收到反馈后，以初始推荐策略模型(即前述离线模型Q0)为预训练模型，分别基于前述五个度量指标(准确率、召回率、F1-score、点击率、购买率)，构建五个不同优化目标的模型，生成线下评估值对应的推荐策略模型以及线上评估值对应的推荐策略模型。

可选的，在步骤S204中，目标反馈数据可以是用户对于初始推荐策略模型以及5个不同优化目标的模型的反馈数据，目标推荐策略模型为通过加权投票得到新的推荐模型，即形成最终推荐列表的深度神经网络模型。

具体的，在将前述模型Q0以及M1-M5进行线上部署之后，结合不同待推荐用户的信息，通过Q0、M1-M5分别给出推荐列表L0、L1、L2、L3、L4、L5，并分别对于6个模型进行AB测试，将推荐列表推送给不同用户并收集反馈数据。进一步地，根据目标反馈数据可以计算出6个模型的准确率、召回率、F1-score、点击率、购买率，从而可以通过加权投票的方式得到目标推荐策略模型。

需要说明的是，在上述过程中，通过强化学习指导初始推荐策略模型对现有推荐策略进行优化，可以得到目标推荐策略模型，提升了对模型的优化效果，从而提高了商品推荐的准确性。

在一种可选的实施例中，在基于初始推荐策略模型，生成线下评估值对应的推荐策略模型以及线上评估值对应的推荐策略模型，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型的过程中，首先获取初始推荐策略模型的权重和第一反馈数据，然后根据第一反馈数据，对初始推荐策略模型的目标层的权重进行调整，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型。其中，第一反馈数据是在将初始推荐策略模型进行线上部署之后，通过初始推荐策略模型向多个用户推送商品推荐列表，并接收多个用户对商品推荐列表的反馈得到的，商品推荐列表用于为多个用户呈现目标待推荐商品，目标层为以下之一：最后两层、最后一层、前两层。

可选的，初始推荐策略模型的权重为W0，多个用户可以是在统计初始推荐策略模型的点击率和购买率时对应的线上用户，例如，登录或点击理财产品页面的多个用户。第一反馈数据是用户对于初始推荐策略模型的反馈数据。

具体的，可以通过程序脚本实现保持Q0的网络结构不变和部分层的权重不变，用新得到的反馈样本(即第一反馈数据)重新训练并调整Q0部分层的网络权重。其中，新得到的反馈样本包括正样本和负样本，例如，推荐列表向用户呈现了10个理财产品，用户点击了2个理财产品，则将这2个理财产品作为正样本。

在一种可选的实施例中，在根据第一反馈数据，对初始推荐策略模型的目标层的权重进行调整，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型的过程中，首先获取第一反馈数据中的第一样本数据集和第二样本数据集，然后获取第三样本数据集，然后根据第一样本数据集，以优化第一评估值为目标，对初始推荐策略模型的最后两层的权重进行调整，得到第一推荐策略模型，然后根据第二样本数据集，以优化第二评估值为目标，对初始推荐策略模型的最后一层的权重进行调整，得到第二推荐策略模型，然后根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第三评估值为目标，对初始推荐策略模型的最后两层的权重进行调整，得到第三推荐策略模型，然后根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第四评估值为目标，对初始推荐策略模型的前两层的权重进行调整，得到第四推荐策略模型，然后根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第五评估值为目标，对初始推荐策略模型的最后一层的权重进行调整，得到第五推荐策略模型。其中，第一样本数据集和第二样本数据集中包含的正样本和负样本的数量不同，第三样本数据集为通过深度强化学习算法训练初始推荐策略模型时使用的数据集，第一推荐策略模型的权重为W1，第二推荐策略模型的权重为W2，第三推荐策略模型的权重为W3，第四推荐策略模型的权重为W4，第五推荐策略模型的权重为W5。

可选的，第一样本数据集为第一反馈数据中初始推荐策略模型分类正确的全部样本的集合，第二样本数据集为第一反馈数据的正样本中初始推荐策略模型分类正确的样本的集合，第三样本数据集为训练初始推荐策略模型时的历史数据样本。

具体的，以优化准确率(即衡量全部样本中分类正确的样本)为目标，将分类正确的全部样本即第一样本数据集输入Q0，重新训练Q0以调整其最后两层网络的权重，得到权重为W1的第一推荐策略模型即模型M1。

具体的，以优化召回率(即衡量分类为正样本的数据中，有多少是真的正样本)为目标，将正样本中分类正确的样本即第二样本数据集输入Q0，重新训练Q0以调整其最后一层网络的权重，得到权重为W2的第二推荐策略模型即模型M2。

具体的，以优化F1-score(即两方面内容的加权：分类正确的正样本的比例和覆盖到的正样本的比例)为目标，将现有全部正负样本即第一反馈数据包含的全部样本数据和第三样本数据集，也就是训练时的样本数据和线上新收集到的反馈数据输入Q0，重新训练Q0以调整其最后两层网络的权重，得到权重为W3的第三推荐策略模型即模型M3。

具体的，以优化点击率(即推荐的内容中，有多少被点击)为目标，将现有全部正负样本输入Q0，重新训练Q0以调整其前两层网络的权重，得到权重为W4的第四推荐策略模型即模型M4。

具体的，以优化购买率(点击的内容中，有多少被购买)为目标，将现有全部正负样本输入Q0，重新训练Q0以调整其最后一层网络的权重，得到权重为W5的第五推荐策略模型即模型M5。

需要说明的是，在上述过程中，完成了对于模型M1-M5的以不同度量指标为优化目标的新一轮网络训练，为后续进行测试提供了基础。

在一种可选的实施例中，在将初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型进行线上部署之后，获取目标反馈数据的过程中，首先在将初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型进行线上部署之后，通过初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型生成初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表，然后通过目标测试方法，将初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表分别推送给多个不同的待推荐用户，然后接收多个不同的待推荐用户对初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表的反馈，得到目标反馈数据。

可选的，初始商品推荐列表即为前述L0，第一商品推荐列表即为前述L1，第二商品推荐列表即为前述L2，第三商品推荐列表即为前述L3，第四商品推荐列表即为前述L4，第五商品推荐列表即为前述L5，目标测试方法即为前述AB测试方法。

具体的，在将Q0、M1-M5进行线上部署之后，应用Q0、M1-M5分别给出推荐列表L0、L1、L2、L3、L4、L5，并分别对6个模型进行AB测试，将推荐列表推送给不同用户并收集反馈。其中，上述过程为推荐策略(智能体)采取新的动作并接收新的反馈的过程。

在一种可选的实施例中，在根据目标反馈数据，通过加权投票的方式得到目标推荐策略模型的过程中，首先根据目标反馈数据，分别计算初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型的第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值，得到每个推荐策略模型的第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值，然后计算第一推荐策略模型的第一目标评估值相对于初始推荐策略模型的第一目标评估值的提升值，得到第一提升值A1，然后计算第二推荐策略模型的第二目标评估值相对于初始推荐策略模型的第二目标评估值的提升值，得到第二提升值A2，然后计算第三推荐策略模型的第三目标评估值相对于初始推荐策略模型的第三目标评估值的提升值，得到第三提升值A3，然后计算第四推荐策略模型的第四目标评估值相对于初始推荐策略模型的第四目标评估值的提升值，得到第四提升值A4，然后计算第五推荐策略模型的第五目标评估值相对于初始推荐策略模型的第五目标评估值的提升值，得到第五提升值A5，然后根据W1、W2、W3、W4、W5、A1、A2、A3、A4以及A5，进行加权投票融合计算，得到初始推荐策略模型的目标权重，然后基于目标权重，对初始推荐策略模型的权重进行更新，得到目标推荐策略模型。

可选的，第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值为根据用户对于模型Q0、M1、M2、M3、M4、M5的反馈数据(即目标反馈数据)计算出的准确率、召回率、F1-score、点击率、购买率。

具体的，得到根据目标反馈数据后，可以根据目标反馈数据，计算得出6个模型的准确率、召回率、F1-score、点击率、购买率，然后以模型Q0的5个指标为基准，分别计算模型M1的准确率相对提升值A1(即第一提升值A1)，模型M2的召回率相对提升值A2(即第二提升值A2)，模型M3的F1-score相对提升值A3(即第三提升值A3)，模型M4的点击率相对提升值A4(即第四提升值A4)，模型M5的购买率相对提升值A5(即第五提升值A5)。例如，模型Q0的准确率为0.9，模型M1的准确率为0.95，第一提升值A1为模型M1的准确率减去模型Q0的准确率，然后除以模型Q0的准确率，即A1＝(0.95-0.9)/0.9。

同理，根据上述计算方法，可以得到第二提升值A2、第三提升值A3、第四提升值A4以及第五提升值A5，在此不做赘述。

进一步地，根据W1、W2、W3、W4、W5、A1、A2、A3、A4以及A5，进行加权投票融合计算，得到初始推荐策略模型的目标权重。具体的，根据如下公式进行计算，可以得到Q0的最终权重(即目标权重)：

进一步地，基于目标权重，对初始推荐策略模型的权重进行更新，可以得到目标推荐策略模型，即在更新了该网络的权重后，得到本轮强化学习的最终模型，可结合用户信息、产品信息等形成新的推荐列表。

需要说明的是，在上述过程中，通过强化学习指导初始推荐策略模型对现有推荐策略进行优化，可以得到目标推荐策略模型，提升了对模型的优化效果，从而能够更快地找到用户感兴趣的商品所对应的推荐策略，并根据该推荐策略将用户感兴趣的商品推送给用户，提高了商品推荐的准确性，从而有助于提升用户的满意度、好感度，进而能够实现业务的稳定增长。

在一种可选的实施例中，在获取初始推荐策略模型的线下评估值之前，首先获取第三样本数据集中的测试集，然后将测试集的样本数据输入初始推荐策略模型，输出第一预测推荐结果，然后获取测试集的样本数据的数据标签，然后根据第一预测推荐结果和数据标签，确定线下评估值。其中，第一预测推荐结果表征样本用户对样本商品的偏好概率，数据标签用于表征测试集的样本数据对应的类别。

可选的，将历史收集到的数据集(即第三样本数据集)按照一定的比例(例如，7：2：1)划分为训练集、测试集、验证集，离线训练出权重矩阵为W0的深度神经网络Q0即初始推荐策略模型。其中，第三样本数据集中的样本数据包含正、负样本的标签即数据标签。

可选的，通过将测试集的样本数据输入初始推荐策略模型，可以得到初始推荐策略模型对样本数据的预测推荐结果即第一预测推荐结果，然后根据第一预测推荐结果和数据标签，可以确定线下评估值，即准确率、召回率、F1-score。

具体的，准确率Accuracy的定义为：在一个推荐策略的模型训练时，会将问题看作分类问题，分类准确率的定义为分类正确的样本占总样本个数的比例，即

其中，n_correct为被正确分类的样本个数，n_total为总样本个数。

具体的，召回率Recall是分类正确的分类正确的正样本个数占真正的正样本个数的比例。精确率Precision和召回率Recall是一对相互矛盾的概念，一个高会导致另一个相对低，为了对二者进行平衡，定义F1-score如下：

其中，精确率Precision是分类正确的正样本个数占模型判定为正样本的样本个数的比例。

在一种可选的实施例中，在将初始推荐策略模型进行线上部署之后，在获取初始推荐策略模型的线上评估值之前，首先在将初始推荐策略模型进行线上部署之后，获取多个用户的用户数据，然后将多个用户的用户数据输入初始推荐策略模型，输出第二预测推荐结果，然后根据第二预测推荐结果，对目标待推荐商品进行排序，得到商品推荐列表，然后将商品推荐列表推送给多个用户，并统计多个用户对商品推荐列表做出的反馈，得到第一反馈数据，然后根据第一反馈数据，确定线上评估值。其中，第二预测推荐结果表征多个用户对目标待推荐商品的偏好概率。

可选的，在将初始推荐策略模型(即Q0)进行线上部署之后，通过Q0得到多个用户对目标待推荐商品的喜爱程度，然后可以根据第二预测推荐结果，对目标待推荐商品进行排序，得到商品推荐列表，从而能够商品推荐列表推送给多个用户，并通过统计多个用户对商品推荐列表做出的反馈，得到第一反馈数据，进而根据第一反馈数据，确定出线上评估值即点击率和购买率。例如，统计用户对商品推荐列表的点击次数、忽略次数、购买次数等，可以得到第一反馈数据，通过计算用户点击的列表中，真正产生购买的列表个数占比，可以得到购买率。

实施例2

根据本发明实施例，提供了一种商品的推荐装置的实施例，其中，图3是根据本发明实施例的一种可选的商品的推荐装置的示意图，如图3所示，该装置包括：获取模块301，用于获取目标待推荐用户的用户数据，其中，用户数据包括以下至少之一：用户属性数据、用户行为数据；第一处理模块302，用于将用户数据输入目标推荐策略模型，输出目标预测推荐结果，其中，目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，初始推荐策略模型是通过深度强化学习算法训练得到的，目标预测推荐结果表征目标待推荐用户对待推荐商品的偏好概率；第二处理模块303，用于根据目标预测推荐结果，对待推荐商品进行排序，得到目标商品推荐列表；发送模块304，用于将目标商品推荐列表推送给目标待推荐用户。

需要说明的是，上述获取模块301、第一处理模块302、第二处理模块303以及发送模块304对应于上述实施例中的步骤S101至步骤S104，四个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，商品的推荐装置还包括：第一获取模块，用于获取初始推荐策略模型的线下评估值，其中，线下评估值包括第一评估值、第二评估值以及第三评估值；第二获取模块，用于在将初始推荐策略模型进行线上部署之后，获取初始推荐策略模型的线上评估值，其中，线上评估值包括第四评估值和第五评估值，第一评估值、第二评估值、第三评估值、第四评估值、第五评估值对应的评价指标不同；第一确定模块，用于基于初始推荐策略模型，生成线下评估值对应的推荐策略模型以及线上评估值对应的推荐策略模型，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型，其中，每个推荐策略模型的优化目标不同；第二确定模块，用于在将初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型进行线上部署之后，获取目标反馈数据，并根据目标反馈数据，通过加权投票的方式得到目标推荐策略模型。

可选的，第一确定模块包括：第三获取模块，用于获取初始推荐策略模型的权重和第一反馈数据，其中，第一反馈数据是在将初始推荐策略模型进行线上部署之后，通过初始推荐策略模型向多个用户推送商品推荐列表，并接收多个用户对商品推荐列表的反馈得到的，商品推荐列表用于为多个用户呈现目标待推荐商品；第三处理模块，用于根据第一反馈数据，对初始推荐策略模型的目标层的权重进行调整，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型，其中，目标层为以下之一：最后两层、最后一层、前两层。

可选的，第三处理模块包括：第四获取模块，用于获取第一反馈数据中的第一样本数据集和第二样本数据集，其中，第一样本数据集和第二样本数据集中包含的正样本和负样本的数量不同；第五获取模块，用于获取第三样本数据集，其中，第三样本数据集为通过深度强化学习算法训练初始推荐策略模型时使用的数据集；第四处理模块，用于根据第一样本数据集，以优化第一评估值为目标，对初始推荐策略模型的最后两层的权重进行调整，得到第一推荐策略模型，其中，第一推荐策略模型的权重为W1；第五处理模块，用于根据第二样本数据集，以优化第二评估值为目标，对初始推荐策略模型的最后一层的权重进行调整，得到第二推荐策略模型，其中，第二推荐策略模型的权重为W2；第六处理模块，用于根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第三评估值为目标，对初始推荐策略模型的最后两层的权重进行调整，得到第三推荐策略模型，其中，第三推荐策略模型的权重为W3；第七处理模块，用于根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第四评估值为目标，对初始推荐策略模型的前两层的权重进行调整，得到第四推荐策略模型，其中，第四推荐策略模型的权重为W4；第八处理模块，用于根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第五评估值为目标，对初始推荐策略模型的最后一层的权重进行调整，得到第五推荐策略模型，其中，第五推荐策略模型的权重为W5。

可选的，第二确定模块包括：第三确定模块，用于在将初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型进行线上部署之后，通过初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型生成初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表；第一推送模块，用于通过目标测试方法，将初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表分别推送给多个不同的待推荐用户；第一接收模块，用于接收多个不同的待推荐用户对初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表的反馈，得到目标反馈数据。

可选的，第二确定模块还包括：第一计算模块，用于根据目标反馈数据，分别计算初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型的第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值，得到每个推荐策略模型的第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值；第二计算模块，用于计算第一推荐策略模型的第一目标评估值相对于初始推荐策略模型的第一目标评估值的提升值，得到第一提升值A1；第三计算模块，用于计算第二推荐策略模型的第二目标评估值相对于初始推荐策略模型的第二目标评估值的提升值，得到第二提升值A2；第四计算模块，用于计算第三推荐策略模型的第三目标评估值相对于初始推荐策略模型的第三目标评估值的提升值，得到第三提升值A3；第五计算模块，用于计算第四推荐策略模型的第四目标评估值相对于初始推荐策略模型的第四目标评估值的提升值，得到第四提升值A4；第六计算模块，用于计算第五推荐策略模型的第五目标评估值相对于初始推荐策略模型的第五目标评估值的提升值，得到第五提升值A5；第七计算模块，用于根据W1、W2、W3、W4、W5、A1、A2、A3、A4以及A5，进行加权投票融合计算，得到初始推荐策略模型的目标权重；第一更新模块，用于基于目标权重，对初始推荐策略模型的权重进行更新，得到目标推荐策略模型。

可选的，商品的推荐装置还包括：第六获取模块，用于获取第三样本数据集中的测试集；第九处理模块，用于将测试集的样本数据输入初始推荐策略模型，输出第一预测推荐结果，其中，第一预测推荐结果表征样本用户对样本商品的偏好概率；第七获取模块，用于获取测试集的样本数据的数据标签，其中，数据标签用于表征测试集的样本数据对应的类别；第四确定模块，用于根据第一预测推荐结果和数据标签，确定线下评估值。

可选的，商品的推荐装置还包括：第八获取模块，用于获取多个用户的用户数据；第十处理模块，用于将多个用户的用户数据输入初始推荐策略模型，输出第二预测推荐结果，其中，第二预测推荐结果表征多个用户对目标待推荐商品的偏好概率；排序模块，用于根据第二预测推荐结果，对目标待推荐商品进行排序，得到商品推荐列表；第二推送模块，用于将商品推荐列表推送给多个用户，并统计多个用户对商品推荐列表做出的反馈，得到第一反馈数据；第五确定模块，用于根据第一反馈数据，确定线上评估值。

实施例3

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的商品的推荐方法。

实施例4

根据本发明实施例的另一方面，还提供了一种电子设备，其中，图4是根据本发明实施例的一种可选的电子设备的示意图，如图4所示，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的商品的推荐方法。处理器执行程序时实现以下步骤：获取目标待推荐用户的用户数据，其中，用户数据包括以下至少之一：用户属性数据、用户行为数据；将用户数据输入目标推荐策略模型，输出目标预测推荐结果，其中，目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，初始推荐策略模型是通过深度强化学习算法训练得到的，目标预测推荐结果表征目标待推荐用户对待推荐商品的偏好概率；根据目标预测推荐结果，对待推荐商品进行排序，得到目标商品推荐列表；将目标商品推荐列表推送给目标待推荐用户。

可选的，处理器执行程序时还实现以下步骤：通过以下步骤生成目标推荐策略模型：获取初始推荐策略模型的线下评估值，其中，线下评估值包括第一评估值、第二评估值以及第三评估值；在将初始推荐策略模型进行线上部署之后，获取初始推荐策略模型的线上评估值，其中，线上评估值包括第四评估值和第五评估值，第一评估值、第二评估值、第三评估值、第四评估值、第五评估值对应的评价指标不同；基于初始推荐策略模型，生成线下评估值对应的推荐策略模型以及线上评估值对应的推荐策略模型，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型，其中，每个推荐策略模型的优化目标不同；在将初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型进行线上部署之后，获取目标反馈数据，并根据目标反馈数据，通过加权投票的方式得到目标推荐策略模型。

可选的，处理器执行程序时还实现以下步骤：获取初始推荐策略模型的权重和第一反馈数据，其中，第一反馈数据是在将初始推荐策略模型进行线上部署之后，通过初始推荐策略模型向多个用户推送商品推荐列表，并接收多个用户对商品推荐列表的反馈得到的，商品推荐列表用于为多个用户呈现目标待推荐商品；根据第一反馈数据，对初始推荐策略模型的目标层的权重进行调整，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型，其中，目标层为以下之一：最后两层、最后一层、前两层。

可选的，处理器执行程序时还实现以下步骤：获取第一反馈数据中的第一样本数据集和第二样本数据集，其中，第一样本数据集和第二样本数据集中包含的正样本和负样本的数量不同；获取第三样本数据集，其中，第三样本数据集为通过深度强化学习算法训练初始推荐策略模型时使用的数据集；根据第一样本数据集，以优化第一评估值为目标，对初始推荐策略模型的最后两层的权重进行调整，得到第一推荐策略模型，其中，第一推荐策略模型的权重为W1；根据第二样本数据集，以优化第二评估值为目标，对初始推荐策略模型的最后一层的权重进行调整，得到第二推荐策略模型，其中，第二推荐策略模型的权重为W2；根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第三评估值为目标，对初始推荐策略模型的最后两层的权重进行调整，得到第三推荐策略模型，其中，第三推荐策略模型的权重为W3；根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第四评估值为目标，对初始推荐策略模型的前两层的权重进行调整，得到第四推荐策略模型，其中，第四推荐策略模型的权重为W4；根据第一反馈数据包含的全部样本数据和第三样本数据集，以优化第五评估值为目标，对初始推荐策略模型的最后一层的权重进行调整，得到第五推荐策略模型，其中，第五推荐策略模型的权重为W5。

可选的，处理器执行程序时还实现以下步骤：在将初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型进行线上部署之后，通过初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型生成初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表；通过目标测试方法，将初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表分别推送给多个不同的待推荐用户；接收多个不同的待推荐用户对初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表的反馈，得到目标反馈数据。

可选的，处理器执行程序时还实现以下步骤：根据目标反馈数据，分别计算初始推荐策略模型、第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型的第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值，得到每个推荐策略模型的第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值；计算第一推荐策略模型的第一目标评估值相对于初始推荐策略模型的第一目标评估值的提升值，得到第一提升值A1；计算第二推荐策略模型的第二目标评估值相对于初始推荐策略模型的第二目标评估值的提升值，得到第二提升值A2；计算第三推荐策略模型的第三目标评估值相对于初始推荐策略模型的第三目标评估值的提升值，得到第三提升值A3；计算第四推荐策略模型的第四目标评估值相对于初始推荐策略模型的第四目标评估值的提升值，得到第四提升值A4；计算第五推荐策略模型的第五目标评估值相对于初始推荐策略模型的第五目标评估值的提升值，得到第五提升值A5；根据W1、W2、W3、W4、W5、A1、A2、A3、A4以及A5，进行加权投票融合计算，得到初始推荐策略模型的目标权重；基于目标权重，对初始推荐策略模型的权重进行更新，得到目标推荐策略模型。

可选的，处理器执行程序时还实现以下步骤：在获取初始推荐策略模型的线下评估值之前，获取第三样本数据集中的测试集；将测试集的样本数据输入初始推荐策略模型，输出第一预测推荐结果，其中，第一预测推荐结果表征样本用户对样本商品的偏好概率；获取测试集的样本数据的数据标签，其中，数据标签用于表征测试集的样本数据对应的类别；根据第一预测推荐结果和数据标签，确定线下评估值。

可选的，处理器执行程序时还实现以下步骤：在将初始推荐策略模型进行线上部署之后，获取多个用户的用户数据；将多个用户的用户数据输入初始推荐策略模型，输出第二预测推荐结果，其中，第二预测推荐结果表征多个用户对目标待推荐商品的偏好概率；根据第二预测推荐结果，对目标待推荐商品进行排序，得到商品推荐列表；将商品推荐列表推送给多个用户，并统计多个用户对商品推荐列表做出的反馈，得到第一反馈数据；根据第一反馈数据，确定线上评估值。

本文中的设备可以是服务器、PC、PAD、手机等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种商品的推荐方法，其特征在于，包括：

获取目标待推荐用户的用户数据，其中，所述用户数据包括以下至少之一：用户属性数据、用户行为数据；

将所述用户数据输入目标推荐策略模型，输出目标预测推荐结果，其中，所述目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，所述初始推荐策略模型是通过深度强化学习算法训练得到的，所述目标预测推荐结果表征所述目标待推荐用户对待推荐商品的偏好概率；

根据所述目标预测推荐结果，对所述待推荐商品进行排序，得到目标商品推荐列表；

将所述目标商品推荐列表推送给所述目标待推荐用户。

2.根据权利要求1所述的方法，其特征在于，通过以下步骤生成所述目标推荐策略模型：

获取所述初始推荐策略模型的线下评估值，其中，所述线下评估值包括第一评估值、第二评估值以及第三评估值；

在将所述初始推荐策略模型进行线上部署之后，获取所述初始推荐策略模型的线上评估值，其中，所述线上评估值包括第四评估值和第五评估值，所述第一评估值、所述第二评估值、所述第三评估值、所述第四评估值、所述第五评估值对应的评价指标不同；

基于所述初始推荐策略模型，生成所述线下评估值对应的推荐策略模型以及所述线上评估值对应的推荐策略模型，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型，其中，每个推荐策略模型的优化目标不同；

在将所述初始推荐策略模型、所述第一推荐策略模型、所述第二推荐策略模型、所述第三推荐策略模型、所述第四推荐策略模型以及所述第五推荐策略模型进行线上部署之后，获取目标反馈数据，并根据所述目标反馈数据，通过加权投票的方式得到所述目标推荐策略模型。

3.根据权利要求2所述的方法，其特征在于，基于所述初始推荐策略模型，生成所述线下评估值对应的推荐策略模型以及所述线上评估值对应的推荐策略模型，得到第一推荐策略模型、第二推荐策略模型、第三推荐策略模型、第四推荐策略模型以及第五推荐策略模型，包括：

获取所述初始推荐策略模型的权重和第一反馈数据，其中，所述第一反馈数据是在将所述初始推荐策略模型进行线上部署之后，通过所述初始推荐策略模型向多个用户推送商品推荐列表，并接收所述多个用户对所述商品推荐列表的反馈得到的，所述商品推荐列表用于为所述多个用户呈现目标待推荐商品；

根据所述第一反馈数据，对所述初始推荐策略模型的目标层的权重进行调整，得到所述第一推荐策略模型、所述第二推荐策略模型、所述第三推荐策略模型、所述第四推荐策略模型以及所述第五推荐策略模型，其中，所述目标层为以下之一：最后两层、最后一层、前两层。

4.根据权利要求3所述的方法，其特征在于，根据所述第一反馈数据，对所述初始推荐策略模型的目标层的权重进行调整，得到所述第一推荐策略模型、所述第二推荐策略模型、所述第三推荐策略模型、所述第四推荐策略模型以及所述第五推荐策略模型，包括：

获取所述第一反馈数据中的第一样本数据集和第二样本数据集，其中，所述第一样本数据集和第二样本数据集中包含的正样本和负样本的数量不同；

获取第三样本数据集，其中，所述第三样本数据集为通过所述深度强化学习算法训练所述初始推荐策略模型时使用的数据集；

根据所述第一样本数据集，以优化所述第一评估值为目标，对所述初始推荐策略模型的最后两层的权重进行调整，得到所述第一推荐策略模型，其中，所述第一推荐策略模型的权重为W1；

根据所述第二样本数据集，以优化所述第二评估值为目标，对所述初始推荐策略模型的最后一层的权重进行调整，得到所述第二推荐策略模型，其中，所述第二推荐策略模型的权重为W2；

根据所述第一反馈数据包含的全部样本数据和所述第三样本数据集，以优化所述第三评估值为目标，对所述初始推荐策略模型的最后两层的权重进行调整，得到所述第三推荐策略模型，其中，所述第三推荐策略模型的权重为W3；

根据所述第一反馈数据包含的全部样本数据和所述第三样本数据集，以优化所述第四评估值为目标，对所述初始推荐策略模型的前两层的权重进行调整，得到所述第四推荐策略模型，其中，所述第四推荐策略模型的权重为W4；

根据所述第一反馈数据包含的全部样本数据和所述第三样本数据集，以优化所述第五评估值为目标，对所述初始推荐策略模型的最后一层的权重进行调整，得到所述第五推荐策略模型，其中，所述第五推荐策略模型的权重为W5。

5.根据权利要求4所述的方法，其特征在于，在将所述初始推荐策略模型、所述第一推荐策略模型、所述第二推荐策略模型、所述第三推荐策略模型、所述第四推荐策略模型以及所述第五推荐策略模型进行线上部署之后，获取目标反馈数据，包括：

在将所述初始推荐策略模型、所述第一推荐策略模型、所述第二推荐策略模型、所述第三推荐策略模型、所述第四推荐策略模型以及所述第五推荐策略模型进行线上部署之后，通过所述初始推荐策略模型、所述第一推荐策略模型、所述第二推荐策略模型、所述第三推荐策略模型、所述第四推荐策略模型以及所述第五推荐策略模型生成初始商品推荐列表、第一商品推荐列表、第二商品推荐列表、第三商品推荐列表、第四商品推荐列表以及第五商品推荐列表；

通过目标测试方法，将所述初始商品推荐列表、所述第一商品推荐列表、所述第二商品推荐列表、所述第三商品推荐列表、所述第四商品推荐列表以及所述第五商品推荐列表分别推送给多个不同的待推荐用户；

接收所述多个不同的待推荐用户对所述初始商品推荐列表、所述第一商品推荐列表、所述第二商品推荐列表、所述第三商品推荐列表、所述第四商品推荐列表以及所述第五商品推荐列表的反馈，得到所述目标反馈数据。

6.根据权利要求5所述的方法，其特征在于，根据所述目标反馈数据，通过加权投票的方式得到所述目标推荐策略模型，包括：

根据所述目标反馈数据，分别计算所述初始推荐策略模型、所述第一推荐策略模型、所述第二推荐策略模型、所述第三推荐策略模型、所述第四推荐策略模型以及所述第五推荐策略模型的第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值以及第五目标评估值，得到所述每个推荐策略模型的所述第一目标评估值、所述第二目标评估值、所述第三目标评估值、所述第四目标评估值以及所述第五目标评估值；

计算所述第一推荐策略模型的所述第一目标评估值相对于所述初始推荐策略模型的所述第一目标评估值的提升值，得到第一提升值A1；

计算所述第二推荐策略模型的所述第二目标评估值相对于所述初始推荐策略模型的所述第二目标评估值的提升值，得到第二提升值A2；

计算所述第三推荐策略模型的所述第三目标评估值相对于所述初始推荐策略模型的所述第三目标评估值的提升值，得到第三提升值A3；

计算所述第四推荐策略模型的所述第四目标评估值相对于所述初始推荐策略模型的所述第四目标评估值的提升值，得到第四提升值A4；

计算所述第五推荐策略模型的所述第五目标评估值相对于所述初始推荐策略模型的所述第五目标评估值的提升值，得到第五提升值A5；

根据所述W1、所述W2、所述W3、所述W4、所述W5、所述A1、所述A2、所述A3、所述A4以及所述A5，进行加权投票融合计算，得到所述初始推荐策略模型的目标权重；

基于所述目标权重，对所述初始推荐策略模型的权重进行更新，得到所述目标推荐策略模型。

7.根据权利要求2所述的方法，其特征在于，在获取所述初始推荐策略模型的线下评估值之前，所述方法还包括：

获取第三样本数据集中的测试集；

将所述测试集的样本数据输入所述初始推荐策略模型，输出第一预测推荐结果，其中，所述第一预测推荐结果表征样本用户对样本商品的偏好概率；

获取所述测试集的样本数据的数据标签，其中，所述数据标签用于表征所述测试集的样本数据对应的类别；

根据所述第一预测推荐结果和所述数据标签，确定所述线下评估值。

8.根据权利要求2所述的方法，其特征在于，在将所述初始推荐策略模型进行线上部署之后，在获取所述初始推荐策略模型的线上评估值之前，所述方法还包括：

在将所述初始推荐策略模型进行线上部署之后，获取多个用户的用户数据；

将所述多个用户的用户数据输入所述初始推荐策略模型，输出第二预测推荐结果，其中，所述第二预测推荐结果表征所述多个用户对目标待推荐商品的偏好概率；

根据所述第二预测推荐结果，对所述目标待推荐商品进行排序，得到商品推荐列表；

将所述商品推荐列表推送给所述多个用户，并统计所述多个用户对所述商品推荐列表做出的反馈，得到第一反馈数据；

根据所述第一反馈数据，确定所述线上评估值。

9.一种商品的推荐装置，其特征在于，包括：

获取模块，用于获取目标待推荐用户的用户数据，其中，所述用户数据包括以下至少之一：用户属性数据、用户行为数据；

第一处理模块，用于将所述用户数据输入目标推荐策略模型，输出目标预测推荐结果，其中，所述目标推荐策略模型是对初始推荐策略模型进行优化处理得到的，所述初始推荐策略模型是通过深度强化学习算法训练得到的，所述目标预测推荐结果表征所述目标待推荐用户对待推荐商品的偏好概率；

第二处理模块，用于根据所述目标预测推荐结果，对所述待推荐商品进行排序，得到目标商品推荐列表；

发送模块，用于将所述目标商品推荐列表推送给所述目标待推荐用户。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的商品的推荐方法。

11.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现用于运行程序，其中，所述程序被设置为运行时执行所述权利要求1至8任一项中所述的商品的推荐方法。