CN111737579A

CN111737579A - 对象推荐方法、装置及电子设备、存储介质

Info

Publication number: CN111737579A
Application number: CN202010599172.0A
Authority: CN
Inventors: 胥凯; 黄俊逸; 闫阳辉; 王琳; 叶璨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-02

Abstract

本公开关于一种对象推荐方法、装置及电子设备、存储介质，涉及信息传播技术领域。通过接收终端设备上账户发送的访问请求，其中，所述访问请求携带有账户信息且与所述账户信息对应的历史交互操作信息数量小于预设阈值；基于账户信息确定账户的当前状态，从信息候选库中筛选出与所述当前状态相匹配的推荐对象；将所述推荐对象发送至终端设备，并接收所述终端设备返回的操作信息，其中，所述操作信息用于更新所述当前状态，从而与用户交互的过程中不断根据最新的返回的操作信息进行对象推荐，推荐的推荐对象更精准地符合新用户的兴趣。

Description

对象推荐方法、装置及电子设备、存储介质

技术领域

本公开涉及信息传播技术领域，尤其涉及一种对象推荐方法、装置及电子设备、存储介质。

背景技术

随着现代科技的发展，人们每天能获取的信息(例如，文字信息、视频信息、音乐信息等)极速膨胀，对于用户而言在信息推广平台的操作界面上从海量的信息中筛选出自己感兴趣的信息是一件非常有挑战性的事情。因此，可以利用推荐系统通过挖掘用户兴趣和潜在需求，帮助用户快速找到有用信息。

对于新用户而言，由于还没有对推荐信息的历史行为，或者对推荐信息的历史行为还比较稀疏，现有技术中，推荐系统为新用户推荐的信息方式为：根据新用户的基本信息如年龄、地域、联系人、关注好友等为推荐信息，然而根据上述的方式不能准确捕捉新用户的兴趣和潜在需求，从而无法更新用户推荐符合用户的兴趣和潜在需求的信息，降低了新用户对信息推广平台的黏性，造成新用户的流失，影响信息推广平台收入。

发明内容

本公开提供一种对象推荐方法、装置及电子设备、存储介质，以至少解决相关技术中无法更新用户推荐符合用户的兴趣和潜在需求的信息的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种对象推荐方法，所述方法包括：

接收终端设备上账户发送的访问请求，其中，所述访问请求携带有账户信息且与所述账户信息对应的历史交互操作信息数量小于预设阈值；

基于账户信息确定账户的当前状态，从信息候选库中筛选出与所述当前状态相匹配的推荐对象；

将所述推荐对象发送至终端设备，并接收所述终端设备返回的操作信息，其中，所述操作信息用于更新所述当前状态。

根据本公开实施例的第二方面，提供一种对象推荐装置，所述装置包括：

信息接收单元，被配置成执行接收终端设备上账户发送的访问请求，其中，所述访问请求携带有账户信息且与所述账户信息对应的历史交互操作信息数量小于预设阈值；

信息选择单元，被配置成执行基于账户信息确定账户的当前状态，从信息候选库中筛选出与所述当前状态相匹配的推荐对象；

信息收发单元，被配置成执行将所述推荐对象发送至终端设备，并接收所述终端设备返回的操作信息，其中，所述操作信息用于更新所述当前状态。

根据本公开实施例的第三方面，提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现本公开实施例第一方面的对象推荐方法。

根据本公开实施例的第四方面，提供了一种存储介质，当存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如本公开实施例第一方面的对象推荐方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括指令，当计算机程序产品被计算机所执行时，该指令使得计算机执行本公开实施例第一方面的对象推荐方法。

本公开的实施例提供的技术方案至少带来以下有益效果：该对象推荐方法通过接收终端设备上账户发送的访问请求，其中，所述访问请求携带有账户信息且与所述账户信息对应的历史交互操作信息数量小于预设阈值；基于账户信息确定账户的当前状态，从信息候选库中筛选出与所述当前状态相匹配的推荐对象；将所述推荐对象发送至终端设备，并接收所述终端设备返回的操作信息，其中，所述操作信息用于更新所述当前状态，从而与用户交互的过程中不断根据最新的返回的操作信息进行对象推荐，推荐的推荐对象更精准地符合新用户的兴趣。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种对象推荐方法的流程图。

图2是根据一示例性实施例示出的终端设备与电子设备的交互示意图。

图3是根据一示例性实施例示出的一种对象推荐方法的流程图。

图4是训练机器学习模型的流程图。

图5是根据一示例性实施例示出的一种对象推荐方法的流程图。

图6是根据一示例性实施例示出的一种对象推荐装置的框图。

图7是根据一示例性实施例示出的一种对象推荐装置的框图。

图8是根据一示例性实施例示出的一种电子设备的电路连接框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，本申请实施例提供了一种对象推荐方法，应用于电子设备100，其中，电子设备100可以为服务器，如图2所示，电子设备100与终端设备200通信连接，以便进行数据交互。所述方法包括：

S11：接收终端设备200上账户发送的访问请求，其中，访问请求携带有账户信息且与账户信息对应的历史交互操作信息数量小于预设阈值。

终端设备200安装有信息访问应用程序，例如，即时通信应用程序、直播应用程序，用户可以在通过信息访问应用程序发出访问请求(例如，在直播应用程序的浏览界面点击一次刷新)。其中，账户信息可以包括但不限于性别、年龄、性别、地理位置、使用终端的机型、发出访问请求的时间等等。

S12：基于账户信息确定账户的当前状态，从信息候选库中筛选出与所述当前状态相匹配的推荐对象。

其中，账户的当前状态可以表征用户对各个类型的对象感兴趣的程度。

S13：将推荐对象发送至终端设备200，并接收终端设备200返回的操作信息，其中，操作信息用于更新当前状态。

其中，返回的操作信息可以包括但不限于点击、转发、评论、点赞以及跳过中的至少之一。其中，点击、转发、评论、点赞可以被认为是正返回的操作信息，而跳过则可以被认为是负返回的操作信息，即用户如果对推荐的推荐对象进行过点击、转发、评论、点赞，则说明用户对推荐对象感兴趣；如果用户对推荐的推荐对象进行跳过，则说明用户对推荐对象不感兴趣。另外，选择出的推荐对象的形式可以为文字信息、视频信息、图片信息等，在此不做限定。进一步地，选择出当前待推荐的推荐对象的数量可以为一个或多个，在此也不作限定。

该对象推荐方法，通过接收终端设备200发送的访问请求，其中，访问请求携带有账户信息，根据账户信息及终端设备200对历史上推荐的每一个推荐对象的返回的操作信息，从信息候选库中选择出当前待推荐的推荐对象；将当前待推荐的推荐对象发送至所述终端设备200显示，由于选出推荐对象的依据包括终端设备200对历史上推荐的每一个推荐对象的返回的操作信息，从而与用户交互的过程中不断根据最新的返回的操作信息进行对象推荐，推荐的推荐对象更符合新用户的兴趣和潜在需求，增加了新用户对信息推广平台的黏性，减少了新用户的流失。

可选地，如图3所示，S12包括：

S31：从信息候选库中，筛选出状态变化信息与当前状态相匹配的N个候选对象。

具体地，S31可以包括：判断信息候选库中对象的状态变化信息是否符合目标，其中，信息对应的状态变化信息为在信息发送至终端设备之后账户的状态变化信息；若信息对应的状态变化信息符合目标，则确定信息为与当前状态相匹配的候选对象。可选地，目标可以为与当前状态相关联的交互反馈信息的评估参数。

S32：从N个候选对象中确定出推荐对象，其中，N为大于等于1的自然数。

具体地，作为其中一种实施方式，S32可以包括：将状态变化信息与当前状态的匹配度高于预定阈值的候选对象，确定为推荐对象。如，上述的预设阈值可以为80％、85％、90％等，在此不做限定。将状态变化信息与当前状态的匹配度高于预定阈值的候选对象，确定为推荐对象，使得确定的推荐对象更精准的符合用户的兴趣爱好。

作为另一种实施方式，S32还可以包括：将N个候选对象中状态变化信息与当前状态的匹配度排序在前M位的候选对象，确定为推荐对象，其中，M为小于等于N的自然数。例如，N等于5，则可以从5个候选对象中，确定与当前状态的匹配度排序在前1位或前2位的候选对象。将N个候选对象中状态变化信息与当前状态的匹配度排序在前M位的候选对象，确定为推荐对象，使得确定的推荐对象更精准的符合用户的兴趣爱好。

具体地，S31-S32包括：根据预先训练的强化学习模型从信息候选库中，筛选出状态变化信息与当前状态相匹配的N个候选对象；并从N个候选对象中确定出推荐对象，其中，强化学习模型为以账户信息和选择出的推荐对象作为强化学习模型的状态、以终端设备返回的操作信息作为强化学习模型的奖赏、以从信息候选库中对推荐对象的选择作为强化学习模型的动作预先训练而成。

利用强化学习模型从信息候选库中筛选出状态变化信息与当前状态相匹配的N个候选对象，更加方便快捷，效率高。

可选地，强化学习模型可以通过深度Q神经网络基于贝尔曼最优方程采用时间差分学习训练而成。

具体地，贝尔曼最优方程的表达形式可以为：Q(s_t，a_t)←Q(s_t,a_t)+α(r_t+Amnx_aQ(s_t+1,a)-Q(s_t，a_t)其中，Q(s_t,a_t)为深度Q神经网络，其输出为选择的推荐对象及预估的用户对推荐对象感兴趣的收益值，s_t为机器学习模型的状态、a_t为机器学习模型的动作，t为时刻，r_t为对机器学习模型的奖赏，α、λ为常数。为了由于深度Q神经网络本身存在误差，直接对其取max操作并以此为基础进行更新往往导致对用户对推荐对象感兴趣的收益值的估计偏大，为了缓解这个问题在实际应用时可以将Q(s_t+1、a)替换为Qˊ(s_t+1、a)进行机器学习模型训练，Q(s_t+1、a)用于实际进行更新并提供当前最优的动作，Qˊ(s_t+1、a)负责提供更新所需要的目标值。

具体地，基于上述，如图4所示，训练强化学习模型的过程包括：

S41：接收终端设备上账户发送的访问请求，其中，访问请求携带有账户信息且与账户信息对应的历史交互操作信息数量小于预设阈值，将账户信息输入深度Q神经网络。

S42：通过深度Q神经网络基于账户信息确定账户的当前状态，从信息候选库中筛选出与所述当前状态相匹配的推荐对象。

S43：将推荐对象发送至终端设备，并接收终端设备返回的操作信息，其中，操作信息用于更新当前状态。

S44：判断预估的用户对推荐对象感兴趣的长期收益值与当前确定的长期收益值的差值是否在预设的范围内；如果是，则执行S45，如果否，则执行S46。

S45：根据当前配置的信息选择策略建立机器学习模型。

S46：根据所述差值更新当前配置的信息选择策略；并返回S41。

例如，在t＝0时刻，将历史访问请求携带的账户信息输入深度Q神经网络，从信息候选库选择出推荐对象A推荐至终端设备200，用户对推荐对象A进行了点击操作(即用户对推荐对象A感兴趣)，则深度Q神经网络根据用户对推荐对象A的返回的操作信息，确定用户对推荐对象感兴趣的长期收益值；如果预估的用户对推荐对象感兴趣的长期收益值与所述长期收益值的差值不在预设的范围内，则根据所述差值更新当前配置的信息选择策略。在t＝1时刻，将历史访问请求携带的账户信息再次输入深度Q神经网络，从信息候选库选择出推荐对象B推荐至终端设备200，假设用户对推荐对象B进行跳过(即用户对推荐对象B不感兴趣)，深度Q神经网络根据终端设备用户对推荐对象B的返回的操作信息，确定用户对推荐对象感兴趣的长期收益值，并判断预估的用户对推荐对象感兴趣的长期收益值和当前确定的长期收益值的差值是否在预设的范围内，如果是，则根据当前配置的信息选择策略建立机器学习模型，如果否，继续在t＝3时刻，执行将历史访问请求携带的账户信息输入深度Q神经网络，如此循环，直到预估的用户对推荐对象感兴趣的长期收益值与当前确定的长期收益值的差值在预设的范围内。

具体地，如图5所示，S12可以包括：

S51：对终端设备针对推荐对象的至少一种返回的操作信息对应的收益值进行加权求和，生推荐对象的反馈收益值。

返回的操作信息可以包括但不限于点击、转发、评论、点赞以及跳过中的至少之一。

例如，当返回的操作信息为点击时，反馈收益值为1，当返回的操作信息为转发时，反馈收益值为3，当返回的操作信息为评论时，反馈收益值为2，若返回的操作信息同时包括点击、转发、评论，则反馈收益值为6。另外，当返回的操作信息为跳过时，反馈收益值可以为-2。

S52：根据账户信息及推荐对象的反馈收益值，更新所述当前状态。

反馈收益值越高，说明用户对推荐对象越感兴趣，因此，根据反馈收益值从信息候选库中选择出当前待推荐的推荐对象，更符合用户的需求。

图6是根据一示例性实施例示出的一种对象推荐装置500的框图。请参照图6，本公开实施例还提供了一种对象推荐装置500，应用于电子设备100，其中，电子设备100可以为服务器，如图2所示，电子设备100与终端设备200通信连接，以便进行数据交互。需要说明的是，本申请实施例所提供的对象推荐装置500，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本申请实施例部分未提及之处，可参考上述的实施例中相应内容。所述装置500包括信息接收单元501、信息选择单元502以及信息发送单元503，其中，

信息接收单元501，被配置成执行接收终端设备上账户发送的访问请求，其中，所述访问请求携带有账户信息且与所述账户信息对应的历史交互操作信息数量小于预设阈值。

信息选择单元502，被配置成执行基于账户信息确定账户的当前状态，从信息候选库中筛选出与所述当前状态相匹配的推荐对象。

信息发送单元503，被配置成执行将所述推荐对象发送至终端设备，并接收所述终端设备返回的操作信息，其中，所述操作信息用于更新所述当前状态。

该对象推荐装置500在执行时可以实现如下功能，通过接收终端设备200发送的访问请求，其中，访问请求携带有账户信息，根据账户信息及终端设备200对历史上推荐的每一个推荐对象的返回的操作信息，从信息候选库中选择出当前待推荐的推荐对象；将当前待推荐的推荐对象发送至终端设备200显示，由于选出推荐对象的依据包括终端设备200对历史上推荐的每一个推荐对象的返回的操作信息，从而与用户交互的过程中不断根据最新的返回的操作信息进行对象推荐，推荐的推荐对象更符合新用户的兴趣和潜在需求，增加了新用户对信息推广平台的黏性，减少了新用户的流失。

关于上述实施例中的装置500，其中各个模块及单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可选地，信息选择单元502被具体配置成执行从所述信息候选库中，筛选出状态变化信息与所述当前状态相匹配的N个候选对象；从所述N个候选对象中确定出推荐对象，其中，N为大于等于1的自然数。

可选地，信息选择单元502被具体配置成判断所述信息候选库中对象的状态变化信息是否符合目标，其中，信息对应的状态变化信息为在所述信息发送至所述终端设备之后所述账户的状态变化信息；若信息对应的状态变化信息符合所述目标，则确定所述信息为与所述当前状态相匹配的候选对象。

可选地，信息选择单元502被具体配置成将状态变化信息与所述当前状态的匹配度高于预定阈值的候选对象，确定为推荐对象；

或，将N个候选对象中状态变化信息与当前状态的匹配度排序在前M位的候选对象，确定为推荐对象，其中，M为小于等于N的自然数

可选地，目标为与当前状态相关联的交互反馈信息的评估参数。

可选地，信息选择单元502被具体配置成根据预先训练的强化学习模型从信息候选库中，筛选出状态变化信息与当前状态相匹配的N个候选对象；并从N个候选对象中确定出推荐对象，其中，强化学习模型为以账户信息和选择出的推荐对象作为强化学习模型的状态、以终端设备返回的操作信息作为强化学习模型的奖赏、以从信息候选库中对推荐对象的选择作为强化学习模型的动作预先训练而成。

可选地，强化学习模型通过深度Q神经网络基于贝尔曼最优方程采用时间差分学习训练而成。

可选地，如图7所示，所述装置500还包括模型训练单元601，模型训练单元被配置成执行接收终端设备上账户发送的访问请求，其中，所述访问请求携带有账户信息且与所述账户信息对应的历史交互操作信息数量小于预设阈值，将账户信息输入深度Q神经网络；通过深度Q神经网络基于账户信息确定账户的当前状态，从信息候选库中筛选出与所述当前状态相匹配的推荐对象；将推荐对象发送至终端设备，并接收终端设备返回的操作信息，其中，操作信息用于更新当前状态；判断预估的用户对推荐对象感兴趣的长期收益值与当前确定的长期收益值的差值是否在预设的范围内；如果是，则执行根据当前配置的信息选择策略建立机器学习模型的步骤，如果否，则根据所述差值更新当前配置的信息选择策略；并返回接收终端设备上账户发送的访问请求的步骤。

可选地，信息选择单元502被具体配置成执行对终端设备200对历史上推荐的每一个推荐对象的至少一种返回的操作信息对应的收益值进行加权求和，生成终端设备200对历史上推荐的每一个推荐对象的反馈收益值；根据账户信息及终端设备200对历史上推荐的每一个推荐对象的反馈收益值，从信息候选库中选择出当前待推荐的推荐对象。

图8是根据一示例性实施例示出的一种电子设备100的框图。例如，电子设备100可以被提供为一服务器。参照图8，电子设备100包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行上述的对象推荐生成方法。所述对象推荐生成方法可以包括：

电子设备还可以包括一个电源组件726被配置为执行电子设备的电源管理，一个有线或无线网络接口750被配置为将电子设备连接到网络，和一个输入输出(I/O)接口758。电子设备可以操作基于存储在存储器732的操作系统，例如Windows ServerTM，Mac OSXTM，UnixTM，LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述对象推荐生成方法。其中，对象推荐生成方法可以包括：

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

另外，提供一种计算机程序产品，包括指令，当计算机程序产品被计算机所执行时，该指令使得计算机执行本公开实施例上述的对象推荐方法。。其中，对象推荐生成方法可以包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种对象推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于账户信息确定账户的当前状态，从信息候选库中筛选出与所述当前状态相匹配的推荐对象包括：

从所述信息候选库中，筛选出状态变化信息与所述当前状态相匹配的N个候选对象；

从所述N个候选对象中确定出推荐对象，其中，N为大于等于1的自然数。

3.根据权利要求2所述的方法，其特征在于，从所述信息候选库中，筛选出状态变化信息与所述当前状态相匹配的N个候选对象包括：

判断所述信息候选库中对象的状态变化信息是否符合目标，其中，信息对应的状态变化信息为在所述信息发送至所述终端设备之后所述账户的状态变化信息；

若信息对应的状态变化信息符合所述目标，则确定所述信息为与所述当前状态相匹配的候选对象。

4.根据权利要求3所述的方法，其特征在于，所述目标为与所述当前状态相关联的交互反馈信息的评估参数。

5.根据权利要求2所述的方法，其特征在于，从所述N个候选对象中确定出推荐对象包括：

将状态变化信息与所述当前状态的匹配度高于预定阈值的候选对象，确定为所述推荐对象；

或，将所述N个候选对象中状态变化信息与所述当前状态的匹配度排序在前M位的候选对象，确定为所述推荐对象，其中，M为小于等于N的自然数。

6.根据权利要求1所述的方法，其特征在于，所述从所述信息候选库中，筛选出状态变化信息与所述当前状态相匹配的N个候选对象；从所述N个候选对象中确定出推荐对象包括：

根据预先训练的强化学习模型从所述信息候选库中，筛选出状态变化信息与所述当前状态相匹配的N个候选对象；并从所述N个候选对象中确定出推荐对象，其中，所述强化学习模型为以账户信息和选择出的推荐对象作为强化学习模型的状态、以终端设备返回的操作信息作为强化学习模型的奖赏、以从信息候选库中对推荐对象的选择作为强化学习模型的动作预先训练而成。

7.根据权利要求1所述的方法，其特征在于，在所述将所述推荐对象发送至终端设备，并接收所述终端设备返回的操作信息之后，所述方法还包括：

对终端设备针对推荐对象的至少一种返回的操作信息对应的收益值进行加权求和，生推荐对象的反馈收益值；

根据所述账户信息及推荐对象的所述反馈收益值，更新所述当前状态。

8.一种对象推荐装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的对象推荐方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的对象推荐方法。