CN112036954A

CN112036954A - 物品推荐方法和装置、计算机可读存储介质、电子设备

Info

Publication number: CN112036954A
Application number: CN202010929349.9A
Authority: CN
Inventors: 王文彬; 田琳; 张玲玲
Original assignee: Beike Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-04

Abstract

本公开实施例公开了一种物品推荐方法和装置、计算机可读存储介质、电子设备，其中，方法包括：基于交互场景中获取的用户需求信息，获取n个目标物品；其中，所述n为大于等于1的整数；基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；基于所述n个目标物品回报值对所述n个目标物品进行排序，按照所述排序将m个目标物品推荐给所述用户；本实施例通过第一排序模型实现对未来的影响的建模，能提供权衡用户短期和长期的参与度，由于考虑到当前推荐行为和用户的行为，能够实现对长期回报的预测，解决了仅针对短期目标时不停给用户推荐已有偏好的问题。

Description

物品推荐方法和装置、计算机可读存储介质、电子设备

技术领域

本公开涉及个性化推荐技术，尤其是一种物品推荐方法和装置、计算机可读存储介质、电子设备。

背景技术

个性化推荐系统是互联网和电子商务发展的产物，它是建立在海量数据挖掘基础上的一种高级商务智能平台，向顾客提供个性化的信息服务和决策支持。近年来已经出现了许多非常成功的大型推荐系统实例，与此同时，个性化推荐系统也逐渐成为学术界的研究热点之一。

实际推荐系统主要关注短期的预测，仅估计用户对推荐的即时响应，优化的目标都是短期奖励short term reward，比如点击率、观看时长。在短期目标下，容易不停的给用户推荐已有的偏好。在另一面，当新用户或者无行为用户来的时候，会更倾向于推荐热门。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种物品推荐方法和装置、计算机可读存储介质、电子设备。

根据本公开实施例的一个方面，提供了一种物品推荐方法，包括：

基于交互场景中获取的用户需求信息，获取n个目标物品；其中，所述n为大于等于1的整数；

基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；

基于所述n个目标物品回报值对所述n个目标物品进行排序，按照排序将m个所述目标物品推荐给所述用户。

可选地，在基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值之前，还包括：

利用已知目标物品集对所述第一排序模型进行训练；其中，所述已知目标物品集包括多个已知目标物品对应的交互双方的操作信息和交互结果信息，以及每个所述已知目标物品对应的已知回报值。

可选地，所述利用已知目标物品集对所述第一排序模型进行训练，包括：

迭代执行：以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得所述已知目标物品对应的损失；

基于所述损失对所述第一排序模型的参数进行调整，直到所述损失满足预设条件，得到训练后的所述第一排序模型。

可选地，所述以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得所述已知目标物品对应的损失，包括：

利用所述第二排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第二预测回报值；

以所述第二预测回报值和所述已知回报值，对所述第二排序模型进行参数调整，得到第二参数；

基于所述第二参数更新所述第一排序模型，并利用所述更新后的第一排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第一预测回报值；

根据所述第一预测回报值、所述第二预测回报值和所述已知回报值，确定所述已知目标物品对应的损失。

可选地，所述交互双方的操作信息包括以下至少之一：交互双方中任意一方的点击操作、发送操作、回复操作；

所述交互结果信息包括：转委托信息。

可选地，所述第一排序模型包括因子分解机模型和深度神经网络模型；

所述基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值，包括：

利用所述因子分解机模型获得所述n个目标物品中的每个目标物品对应的低阶特征，得到n个低阶特征；

利用所述深度神经网络模型获得所述n个目标物品中的每个目标物品对应的高阶特征，得到n个高阶特征；

基于所述n个低阶特征和所述n个高阶特征，经过激活函数层和全连接层的处理，得到所述n个目标物品回报值。

可选地，所述基于所述n个低阶特征和所述n个高阶特征，经过激活函数层和全连接层的处理，得到所述n个目标物品回报值，包括：

分别将所述n个低阶特征中的每个低阶特征与所述n个高阶特征中对应的高阶特征进行连接，得到n个连接特征；

利用所述激活函数层和所述全连接层对所述n个连接特征进行数值化处理，得到所述n个目标物品回报值。

可选地，所述基于所述n个目标物品回报值对所述n个目标物品进行排序，按照排序将m个所述目标物品推荐给所述用户，包括：

利用随机贪婪策略将所述n个目标物品回报值转换为概率表达，并按照概率采样对所述n个目标物品进行排序；

按照所述排序将m个所述目标物品推荐给所述用户。

可选地，所述基于交互场景中获取的用户需求信息，获取n个目标物品，包括：

利用感知自然语言理解技术对交互场景中用户输入的信息进行槽位提取，得到至少一个槽位信息；

根据所述至少一个槽位信息进行物品召回，得到多个物品；

基于所述多个物品确定所述n个目标物品。

可选地，所述基于所述多个物品确定所述n个目标物品，包括：

根据用户画像对所述多个物品进行初排序，得到初始排序后的多个物品；其中，所述用户画像基于所述用户的历史行为信息确定；

将所述初始排序后的多个物品中的前n个物品，确定为所述n个目标物品。

根据本公开实施例的另一方面，提供了一种物品推荐装置，包括：

需求识别模块，用于基于交互场景中获取的用户需求信息，获取n个目标物品；其中，n为大于等于1的整数；

回报值预测模块，用于基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；

物品推荐模块，用于基于所述n个目标物品回报值对所述n个目标物品进行排序，按照排序将m个所述目标物品推荐给所述用户；其中，m为小于或等于n的整数。

可选地，所述装置还包括：

模型训练模块，用于利用已知目标物品集对所述第一排序模型进行训练；其中，所述已知目标物品集包括多个已知目标物品对应的交互双方的操作信息和交互结果信息，以及每个所述已知目标物品对应的已知回报值。

可选地，所述模型训练模块，具体用于迭代执行：以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得所述已知目标物品对应的损失；基于所述损失对所述第一排序模型的参数进行调整，直到所述损失满足预设条件，得到训练后的所述第一排序模型。

可选地，所述模型训练模块在以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得所述已知目标物品对应的损失时，用于利用所述第二排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第二预测回报值；以所述第二预测回报值和所述已知回报值，对所述第二排序模型进行参数调整，得到第二参数；基于所述第二参数更新所述第一排序模型，并利用所述更新后的第一排序模型对所述已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第一预测回报值；根据所述第一预测回报值、所述第二预测回报值和所述已知回报值，确定所述已知目标物品对应的损失。

可选地，所述交互双方的操作信息包括以下至少之一：交互双方中任意一方的点击操作、发送操作、回复操作；所述交互结果信息包括：转委托信息。

所述回报值预测模块，具体用于利用所述因子分解机模型获得所述n个目标物品中的每个目标物品对应的低阶特征，得到n个低阶特征；利用所述深度神经网络模型获得所述n个目标物品中的每个目标物品对应的高阶特征，得到n个高阶特征；基于所述n个低阶特征和所述n个高阶特征，经过激活函数层和全连接层的处理，得到所述n个目标物品回报值。

可选地，所述回报值预测模块在基于所述n个低阶特征和所述n个高阶特征，经过激活函数层和全连接层的处理，得到所述n个目标物品回报值时，用于分别将所述n个低阶特征中的每个低阶特征与所述n个高阶特征中对应的高阶特征进行连接，得到n个连接特征；利用所述激活函数层和所述全连接层对所述n个连接特征进行数值化处理，得到所述n个目标物品回报值。

可选地，所述物品推荐模块，具体用于利用随机贪婪策略将所述n个目标物品回报值转换为概率表达，并按照概率采样对所述n个目标物品进行排序；按照所述排序将m个所述目标物品推荐给所述用户。

可选地，所述需求识别模块，具体用于利用感知自然语言理解技术对交互场景中用户输入的信息进行槽位提取，得到至少一个槽位信息；根据所述至少一个槽位信息进行物品召回，得到多个物品；基于所述多个物品确定所述n个目标物品。

可选地，所述需求识别模块在基于所述多个物品确定所述n个目标物品时，用于根据用户画像对所述多个物品进行初排序，得到初始排序后的多个物品；其中，所述用户画像基于所述用户的历史行为信息确定；将所述初始排序后的多个物品中的前n个物品，确定为所述n个目标物品。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的物品推荐方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的物品推荐方法。

基于本公开上述实施例提供的一种物品推荐方法和装置、计算机可读存储介质、电子设备，基于交互场景中获取的用户需求信息，获取n个目标物品；其中，所述n为大于等于1的整数；基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；基于所述n个目标物品回报值对所述n个目标物品进行排序，按照所述排序将m个目标物品推荐给所述用户；本实施例通过第一排序模型实现对未来的影响的建模，能提供权衡用户短期和长期的参与度，由于考虑到当前推荐行为和用户的行为，能够实现对长期回报的预测，解决了仅针对短期目标时不停给用户推荐已有偏好的问题。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的物品推荐方法的流程示意图。

图2是本公开另一示例性实施例提供的物品推荐方法的流程示意图。

图3是本公开图2所示的实施例中步骤203的一个流程示意图。

图4是本公开图3所示的实施例中步骤2031的一个流程示意图。

图5是本公开图1所示的实施例中步骤104的一个流程示意图。

图6是本公开图1所示的实施例中步骤106的一个流程示意图。

图7是本公开图1所示的实施例中步骤102的一个流程示意图。

图8是本公开一示例性实施例提供的物品推荐装置的结构示意图。

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，当前大部分的个性化推荐技术，都只考虑用户的当前的行为，但现有技术至少存在以下问题：在短期目标下，容易不停的给用户推荐已有的偏好；当新用户或者无行为用户来的时候，会更倾向于推荐热门。

示例性方法

图1是本公开一示例性实施例提供的物品推荐方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，基于交互场景中获取的用户需求信息，获取n个目标物品。

其中，n为大于等于1的整数，交互场景(例如，IM场景)下，具有交互双方，用户作为交互的一方，要为用户推荐用户感兴趣的件物品，首先需要确定用户的需求，可选地，通过获取用户输入的信息确定用户的需求信息，用户的需求信息可以包括一个或多个；基于这些用户需求信息，获取n个满足用户需求信息的物品作为目标物品。

步骤104，基于第一排序模型对n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值。

在一实施例中，第一排序模型可以是一种神经网络模型，该第一排序模型经过训练，可对输入的n个目标物品中的每个目标物品直接得到预测的回报值。

可选地，第一排序模型可以获得每个目标物品的低阶特征和高阶特征，基于每个目标物品的低阶特征和高阶特征确定每个目标物品的目标物品回报值。

步骤106，基于n个目标物品回报值对n个目标物品进行排序，按照排序将m个目标物品推荐给用户。

其中，m为小于或等于n的整数。

本实施例基于目标物品回报值对n个目标物品进行排序，实现了将更符合用户需求的目标物品排序在前，提高了用户体验，提高了用户的点击率。

本公开上述实施例提供的一种物品推荐方法，基于交互场景中获取的用户需求信息，获取n个目标物品；其中，所述n为大于等于1的整数；基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；基于所述n个目标物品回报值对所述n个目标物品进行排序，按照所述排序将m个目标物品推荐给所述用户；本实施例通过第一排序模型实现对未来的影响的建模，能提供权衡用户短期和长期的参与度，由于考虑到当前推荐行为和用户的行为，能够实现对长期回报的预测，解决了仅针对短期目标时不停给用户推荐已有偏好的问题。

图2是本公开另一示例性实施例提供的物品推荐方法的流程示意图。如图2所示，包括如下步骤：

步骤202，基于交互场景中获取的用户需求信息，获取n个目标物品。

其中，n为大于等于1的整数。

步骤203，利用已知目标物品集对第一排序模型进行训练。

其中，已知目标物品集包括多个已知目标物品对应的交互双方的操作信息和交互结果信息，以及每个已知目标物品对应的已知回报值。

步骤204，基于第一排序模型对n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值。

步骤206，基于n个目标物品回报值对n个目标物品进行排序，按照排序将m个目标物品推荐给用户。

本实施例中，利用已知回报值的已知目标物品对第一排序模型进行训练，使经过训练的第一排序模型能够对输入的目标物品直接输出预测的回报值，实现结合用户需求信息和历史行为信息对将来的回报值进行预测，由于第一排序模型结合了当前用户的需求信息和历史用户行为，能够得到对未来收益最有利的动作，以预测得到的目标物品回报值排序后的目标物品更符合用户需求，提高了用户对目标物品的关注度。

如图3所示，在上述图2所示实施例的基础上，步骤203可包括如下步骤：

步骤2031，以已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得已知目标物品对应的损失。

可选地，已知目标物品对应的损失可以用于表达该已知目标物品对应的已知回报值，与第一排序模型和第二排序模型预测的回报值之间的差异。

步骤2032，基于损失对第一排序模型的参数进行调整。

步骤2033，判断损失是否满足预设条件，如果是，得到训练后的第一排序模型；否则，返回执行步骤2031。

其中，强化学习研究的是智能体(agent)与环境之间交互的认为，也就是让智能体像人一样通过试错，不断地学习在不同的环境下做出最优的动作，而不是有监督地之间告诉智能体在什么环境下应该做出什么动作；本实施例中利用强化学习，结合交互双方的反馈确定损失，利用损失对第一排序模型进行训练，可选地，通过梯度下降方法对第一排序模型的参数进行调整，可选地，预设条件可以包括但不限于：损失小于第一设定值、两次调整得到的损失之间的差值小于第二设定值等。

可选地，交互双方的操作信息包括以下至少之一：交互双方中任意一方的点击操作、发送操作、回复操作；交互结果信息包括：转委托信息。

在对第一排序模型进行训练之前，将当前的状态(本实施例中状态指本次输入的n个目标物品)、选择的动作(包括交互双方的操作信息和交互结果信息)、执行该动作得到的回报(已知回报值)，以及下一个状态(对输入的n个目标物品重新排序后的n个目标物品)存入经验池中；在利用强化学习对模型的参数进行调整时，从经验池中批量取出预存的信息作为训练样本，对第一排序模型进行训练，具体参数更新可参照公式(1)所示：

其中，θ表示第一排序模型的网络参数，θ_t表示本次更新前的网络参数，θ_t+1表示本次更新后的网络参数，α表示学习率(是神经网络的超参数)，r表示已知回报值，γ表示折扣因子，Q表示第一排序模型(如值函数网络)，S_t表示当前的状态，a_t表示选择的动作。

如图4所示，在上述图3所示实施例的基础上，步骤2031可包括如下步骤：

步骤401，利用第二排序模型对已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第二预测回报值。

回报函数可以如下公式(2)所示：

f_reward＝f(agent_click，agent_send，user_emotion，user_delegation) (2)

其中，假设交互双方包括A方和B方，此时，agent_click表示A方的点击操作；agent_send表示A方向B方的发送操作；user_emotion表示B方的回复操作，该回复可通过B方的情感来表示，例如，在房产领域中，正向反馈：“这套房子还可以”，负向反馈：“价格太高”，或者无反馈；user_delegation表示转委托信息；转委托在一些领域中表示AB双方已经建立线下联系，实现了A方的目的，例如，在房产领域中，A方为经纪人，B方为用户，此时，物品为房子。

步骤402，以第二预测回报值和已知回报值，对第二排序模型进行参数调整，得到第二参数。

步骤403，基于第二参数更新第一排序模型，并利用更新后的第一排序模型对已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第一预测回报值。

可选地，第一排序模型和第二排序模型的结构相同，只有其中的网络参数不同，基于第二参数更新第一排序模型，可以将第二参数直接带入第一排序模型实现更新，或者，利用公式(3)得到第一排序模型的参数：

θ^target＝τ*θ+(1-τ)*θ^target (3)

其中，θ^target是第一排序模型的网络参数，τ是网络更新的程度，θ是第二参数，

步骤404，根据第一预测回报值、第二预测回报值和已知回报值，确定已知目标物品对应的损失。

可选地，确定损失的损失函数可以如公式(4)所示：

f_loss＝(r+γ*maxQ(s_t+1，a_t+1)-Q(s_t，a_t))² (4)

其中，r表示已知回报值，γ表示折扣因子，maxQ(s_t+1，a_t+1)表示第一预测回报值，本实施例通过更新后的第一排序模型预测得到，Q(s_t，a_t)表示第二预测回报值。

本实施例中，以第二排序模型确定的第二预测回报值作为当前状态，以第一排序模型确定的第一预测回报值作为下一个状态，实现了对智能体结合当前状态和下一个状态的深度强化学习，此时，得到的损失是利用深度强化学习得到的损失，以该损失对第二排序模型进行训练，并基于第二排序模型训练后的网络参数确定第一排序模型的网络参数，实现对第一排序模型的训练。

如图5所示，在上述图1所示实施例的基础上，第一排序模型包括因子分解机模型和深度神经网络模型；步骤104可包括如下步骤：

步骤1041，利用因子分解机模型获得n个目标物品中的每个目标物品对应的低阶特征，得到n个低阶特征。

步骤1042，利用深度神经网络模型获得n个目标物品中的每个目标物品对应的高阶特征，得到n个高阶特征。

步骤1043，基于n个低阶特征和n个高阶特征，经过激活函数层和全连接层的处理，得到n个目标物品回报值。

本实施例为了在确定目标物品回报值时，提高准确率，结合目标物品的低阶特征和高阶特征，其中，因子分解机(FM)模型负责低阶特征的提取，深度神经网络(DNN)模型负责高阶特征的提取，通过将低阶特征和高阶特征拼接起来，如，x_deepFM＝concat(y_FM，y_DNN)，其中y_FM，y_DNN分别表示第一排序模型中的因子分解机部分与深度神经网络部分；将两部分网络拼接在一起之后，可通过再连接一个激活函数(relu)和一个全连接层(full connection)，通过全连接层将特征合成后得到的向量处理为数值，得到的数值即可作为目标物品回报值。

可选地，在上述实施例的基础上，步骤1043可以包括：

分别将n个低阶特征中的每个低阶特征与n个高阶特征中对应的高阶特征进行连接，得到n个连接特征；

利用激活函数层和全连接层对n个连接特征进行数值化处理，得到n个目标物品回报值。

本实施例中，可利用concat分别将n个目标物品中每个目标物品对应低阶特征和高阶特征进行拼接，得到每个目标物品对应一个连接特征，该连接特征即能体现该目标物品的高阶特征，同时体现了该目标物品的低阶特征，提高了基于该连接特征确定的回报值的准确率，其中，concat()方法用于连接两个或多个数组，由于本实施例中得到的高阶特征和低阶特征表现为向量形式，因此，连接特征也是向量表达，本实施例通过全连接层将向量表达的连接特征进行数值化处理，例如，如公式(5)所示：

其中，embeding_m表示为第m个目标物品对应的连接特征，m取值为1-n；

为通过第一排序模型得到的第m个目标物品对应的回报值；W表示为全连接矩阵；该公式表示通过连接特征与全连接矩阵进行点乘，得到目标物品的回报值。

由于获取n个目标物品处于同一个上下文关系(基于相同的用户输入信息确定)，因此彼此之间会有影响，本实施例参考transformer的方法，输出的连接特征之间相互影响。

如图6所示，在上述图1所示实施例的基础上，步骤106可包括如下步骤：

步骤1061，利用随机贪婪策略将n个目标物品回报值转换为概率表达，并按照概率采样对n个目标物品进行排序。

步骤1062，按照排序将m个目标物品推荐给用户。其中，m为小于或等于n的整数。

在一个可选示例中，假设计算的n个物品的回报值为[Q_valuel，Q_value2，…，Q_valuen]，在进行物品推荐时，为了提高用户体验，本实施例仅推荐有限数量的目标物品给用户，例如，只推荐3个目标物品，因此需要按照某种策略选出目标房源。

在一个可选示例中，利用贪婪策略选择设定数量的目标物品，贪婪策略TOPN：按照顺序，选择值最大的三套房源发送出去；如：Top3([Q_value1，Q_value2，…，Q_valuen])。在另一些可选示例中，利用随机贪婪策略选择设定数量的目标物品；随机贪婪策略：通过softmax把值转成概率，然后按照该概率采样m个目标物品出来；如：P＝softmax([Q-value1，Q-value2，Q-value3，...，Q-valueN])＝[p1，p2，p3，...，pn]，按照P分布采样得到m个目标物品。

如图7所示，在上述图1所示实施例的基础上，步骤102可包括如下步骤：

步骤1021，利用感知自然语言理解技术对交互场景中用户输入的信息进行槽位提取，得到至少一个槽位信息。

步骤1022，根据至少一个槽位信息进行物品召回，得到多个物品。

步骤1023，基于多个物品确定n个目标物品。

本实施例中，通过感知自然语言理解技术(NLU)对交互过程中用户输入的信息进行关键信息识别，提取出多个槽位信息(本实施例中可理解为关键信息)，槽位提取主要是识别交互双方在交互过程中，能够表达需求(例如，在找房过程中，主要识别用户的找房需求)的信息，召回阶段主要是将根据多个槽位信息召回出满足条件(例如，满足用户的部分需求或所有需求等)的目标物品，本实施例在基于槽位信息实现召回时，可能获得大量的目标物品，但后续基于第一排序模型进行排序时，为了提高处理效率，仅针对设定数量(n个)的目标物品进行精排序，因此，本实施例对召回的多个目标物品进行初排序，可选地，根据用户画像对多个物品进行初排序，得到初始排序后的多个物品；其中，用户画像基于用户的历史行为信息确定；将初始排序后的多个物品中的前n个物品，确定为n个目标物品。本实施例不限制确定用户画像的具体方式，可以体现用户的偏好即可；例如：将用户属性和用户属性值分别进行编码，对于用户来说，可选地，通过统计该用户线上及线下的行为，整理得到其画像，如是否偏好地铁房、偏好的房屋居室，并对得到的用户画像进行编码。例如，通过key和value两个部分共同进行表述用户向量，其中，key表示属性，value表示属性值。在模型语义表达上，可选地，每一个key和value都有各自独立的嵌入词典(embeddingDict)获得其向量表示，最后将key和value的向量拼接(concat)起来作为用户拼接向量，本实施例中没有使用序列模型是考虑到用户的属性是没有先后顺序的而且是相互独立的，所以不需要RNN模型来提取特征。并通过用户向量对将每种用户属性与其对应的用户属性值进行对应，以提高每种属性与其对应的属性值之间的关联。通过将召回的多个目标物品与用户画像进行匹配，例如，通过目标物品对应的属性和属性值与用户画像中的属性和属性值进行匹配，以确定目标物品与用户的匹配度；并按照匹配度对多个目标物品进行初排序，按照该初排序按序提取前n个目标物品，即可获得n个后续需要进行精排序的目标物品。

本公开实施例提供的任一种物品推荐方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种物品推荐方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种物品推荐方法。下文不再赘述。

示例性装置

图8是本公开一示例性实施例提供的物品推荐装置的结构示意图。如图8所示，本申请实施例提供的装置包括：

需求识别模块81，用于基于交互场景中获取的用户需求信息，获取n个目标物品。

其中，n为大于等于1的整数。

回报值预测模块82，用于基于第一排序模型对n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值。

物品推荐模块83，用于基于n个目标物品回报值对n个目标物品进行排序，按照排序将m个目标物品推荐给用户。

其中，m为小于或等于n的整数。

本公开上述实施例提供的一种物品推荐装置，基于交互场景中获取的用户需求信息，获取n个目标物品；其中，所述n为大于等于1的整数；基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值；基于所述n个目标物品回报值对所述n个目标物品进行排序，按照所述排序将m个目标物品推荐给所述用户；本实施例通过第一排序模型实现对未来的影响的建模，能提供权衡用户短期和长期的参与度，由于考虑到当前推荐行为和用户的行为，能够实现对长期回报的预测，解决了仅针对短期目标时不停给用户推荐已有偏好的问题。

在一些可选的实施例中，本实施例提供的装置还包括：

模型训练模块，用于利用已知目标物品集对第一排序模型进行训练。

可选地，模型训练模块，具体用于迭代执行：以已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得已知目标物品对应的损失；基于损失对第一排序模型的参数进行调整，直到损失满足预设条件，得到训练后的第一排序模型。

可选地，模型训练模块在以已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得已知目标物品对应的损失时，用于利用第二排序模型对已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第二预测回报值；以第二预测回报值和已知回报值，对第二排序模型进行参数调整，得到第二参数；基于第二参数更新第一排序模型，并利用更新后的第一排序模型对已知目标物品对应的交互双方的操作信息和交互结果信息进行处理，得到第一预测回报值；根据第一预测回报值、第二预测回报值和已知回报值，确定已知目标物品对应的损失。

在一些可选的实施例中，第一排序模型包括因子分解机模型和深度神经网络模型；

回报值预测模块82，具体用于利用因子分解机模型获得n个目标物品中的每个目标物品对应的低阶特征，得到n个低阶特征；利用深度神经网络模型获得n个目标物品中的每个目标物品对应的高阶特征，得到n个高阶特征；基于n个低阶特征和n个高阶特征，经过激活函数层和全连接层的处理，得到n个目标物品回报值。

可选地，回报值预测模块82在基于n个低阶特征和n个高阶特征，经过激活函数层和全连接层的处理，得到n个目标物品回报值时，用于分别将n个低阶特征中的每个低阶特征与n个高阶特征中对应的高阶特征进行连接，得到n个连接特征；利用激活函数层和全连接层对所述n个连接特征进行数值化处理，得到n个目标物品回报值。

在一些可选地的实施例中，物品推荐模块83，具体用于利用随机贪婪策略将n个目标物品回报值转换为概率表达，并按照概率采样对n个目标物品进行排序；按照排序将m个目标物品推荐给用户。

在一些可选地的实施例中，需求识别模块81，具体用于利用感知自然语言理解技术对交互场景中用户输入的信息进行槽位提取，得到至少一个槽位信息；根据至少一个槽位信息进行物品召回，得到多个物品；基于多个物品确定n个目标物品。

可选地，需求识别模块81在基于多个物品确定n个目标物品时，用于根据用户画像对多个物品进行初排序，得到初始排序后的多个物品；其中，用户画像基于用户的历史行为信息确定；将初始排序后的多个物品中的前n个物品，确定为n个目标物品。

示例性电子设备

下面，参考图9来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图9图示了根据本公开实施例的电子设备的框图。

如图9所示，电子设备90包括一个或多个处理器91和存储器92。

处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备90中的其他组件以执行期望的功能。

存储器92可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器91可以运行所述程序指令，以实现上文所述的本公开的各个实施例的物品推荐方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备90还可以包括：输入装置93和输出装置94，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置93可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置93可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备93还可以包括例如键盘、鼠标等等。

该输出装置94可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备94可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备90中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备90还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的物品推荐方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的物品推荐方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种物品推荐方法，其特征在于，包括：

基于交互场景中获取的用户需求信息，获取n个目标物品；其中，n为大于等于1的整数；

基于所述n个目标物品回报值对所述n个目标物品进行排序，按照排序将m个所述目标物品推荐给所述用户；其中，m为小于或等于n的整数。

2.根据权利要求1所述的方法，其特征在于，在基于第一排序模型对所述n个目标物品中的每个目标物品进行回报值预测，得到n个目标物品回报值之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述利用已知目标物品集对所述第一排序模型进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述以所述已知目标物品对应的交互双方的操作信息和交互结果信息作为输入信息，结合第二排序模型利用强化学习方法，获得所述已知目标物品对应的损失，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述交互双方的操作信息包括以下至少之一：交互双方中任意一方的点击操作、发送操作、回复操作；

所述交互结果信息包括：转委托信息。

6.根据权利要求1-5任一所述的方法，其特征在于，所述第一排序模型包括因子分解机模型和深度神经网络模型；

7.根据权利要求6所述的方法，其特征在于，所述基于所述n个低阶特征和所述n个高阶特征，经过激活函数层和全连接层的处理，得到所述n个目标物品回报值，包括：

8.一种物品推荐装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的物品推荐方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的物品推荐方法。