CN114969517A

CN114969517A - 对象推荐模型的训练方法、推荐方法、装置及电子设备

Info

Publication number: CN114969517A
Application number: CN202210513259.0A
Authority: CN
Inventors: 王国强
Original assignee: Shenzhen Huantai Technology Co Ltd
Current assignee: Shenzhen Huantai Technology Co Ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-30

Abstract

本申请公开了一种对象推荐模型的训练方法、对象推荐方法、装置、电子设备及存储介质。其中，对象推荐模型的训练方法包括：将第一用户特征输入初始推荐模型，得到第一评分；将第二用户特征输入初始推荐模型，得到第二评分；根据评分奖励对第二评分进行调整，得到第三评分，评分奖励表征第一状态与第二状态之间的评分增长量；根据第一评分和第三评分，对初始推荐模型进行训练，得到对象推荐模型。在本申请中，将评分奖励作为第二评分的长期收益，根据评分奖励对第二评分进行调整，得到第三评分，第三评分与第二用户特征更加匹配，第三评分的准确率更高，进而使得根据第一评分和第三评分训练获得的对象推荐模型所输出的评分的准确性较高。

Description

对象推荐模型的训练方法、推荐方法、装置及电子设备

技术领域

本申请涉及人工智能技术领域，更具体地，涉及一种对象推荐模型的训练方法、对象推荐方法、装置、电子设备及存储介质。

背景技术

随着电子技术和网络技术的不断发展，越来越多的用户通过网络获取新闻、商品以及学习课程等对象的信息。对象推荐平台可以根据训练样本对神经网络模型进行训练，得到对象推荐模型，然后将用户特征输入对象推荐模型，得到推荐对象各自的评分，以根据推荐对象各自的评分，确定推荐的对象。

然而，上述过程中，对象推荐模型所预测的推荐对象的评分的准确性较低，从而造成对象推荐不准确的问题。

发明内容

有鉴于此，本申请实施例提出了一种对象推荐模型的训练方法、对象推荐方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种对象推荐模型的训练方法，所述方法包括：将第一用户特征输入初始推荐模型，得到所述初始推荐模型预测的多个预置对象类别各自对应的第一评分，所述第一用户特征是用户在第一状态下的特征；将第二用户特征输入所述初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第二评分，所述第二用户特征是所述用户在第二状态下的特征，所述第一状态与所述第二状态具有关联关系；根据评分奖励对所述第二评分进行调整，得到第三评分，所述评分奖励表征所述第一状态与所述第二状态之间的评分增长量；根据所述第一评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

第二方面，本申请实施例提供了一种对象推荐方法，所述方法包括：响应于接收到的对象推荐请求，获取目标状态的用户特征；根据所述目标状态的用户特征，确定多个推荐对象各自的对象评分；将所述目标状态的用户特征输入对象推荐模型，得到所述对象推荐模型预测的多个预置对象类别各自对应的类别评分，所述对象推荐模型由第一方面所述的方法训练得到，所述多个预置对象类别包括所述多个推荐对象各自对应的对象类别；根据所述多个预置对象类别自对应的类别评分以及所述多个推荐对象各自对应的对象评分，确定目标推荐对象。

第三方面，本申请实施例提供了一种对象推荐模型的训练装置，所述装置包括：第一评分模块，用于将第一用户特征输入初始推荐模型，得到所述初始推荐模型预测的多个预置对象类别各自对应的第一评分，所述第一用户特征是用户在第一状态下的特征；第二评分模块，用于将第二用户特征输入所述初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第二评分，所述第二用户特征是所述用户在第二状态下的特征，所述第一状态与所述第二状态具有关联关系；调整模块，用于通过评分奖励对所述第二评分进行调整，得到第三评分，所述评分奖励表征所述第一状态与所述第二状态之间的评分增长量；训练模块，用于根据所述第一评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

第四方面，本申请实施例提供了一种对象推荐装置，所述装置包括：响应模块，用于响应于接收到的对象推荐请求，获取目标状态的用户特征；确定模块，用于根据所述目标状态的用户特征，确定多个推荐对象各自的对象评分；第三评分模块，用于将所述目标状态的用户特征输入对象推荐模型，得到所述对象推荐模型预测的多个预置对象类别各自对应的类别评分，所述对象推荐模型由第一方面所述的方法训练得到，所述多个预置对象类别包括所述多个推荐对象各自对应的对象类别；对象推荐模块，用于根据所述多个预置对象类别自对应的类别评分以及所述多个推荐对象各自对应的对象评分，确定目标推荐对象。

第五方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述的方法。

第七方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述的方法。

本申请实施例提供的一种对象推荐模型的训练方法、对象推荐方法、装置、电子设备及存储介质，将评分奖励作为第二评分的长期收益，根据评分奖励对第二评分进行调整，得到第三评分，第三评分与第二用户特征更加匹配，第三评分的准确率更高，进而使得根据第一评分和第三评分训练获得的对象推荐模型所输出的评分的准确性较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的一种对象推荐模型的训练方法的流程图；

图2示出了本申请又一个实施例提供的一种对象推荐模型的训练方法的流程图；

图3示出了本申请中对象推荐模型的训练过程示意图；

图4示出了本申请一个实施例提出的一种对象推荐方法的流程图；

图5示出了本申请一个实施例提出的一种对象推荐模型的训练装置的框图；

图6示出了本申请一个实施例提出的一种口语评分装置的框图；

图7示出了用于执行根据本申请实施例的口语评分模型训练方法的电子设备的结构框图；

图8示出了本申请实施例提供的计算机可读介质的模块框图；

图9示出了本申请实施例提供的计算机产品的模块框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。根据本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

目前，确定推荐对象的具体过程可以包括粗排、精排等几个阶段。在粗排阶段，可以根据训练样本对神经网络模型进行训练，得到粗排阶段的对象推荐模型，然后将用户特征输入粗排阶段的对象推荐模型，得到推荐对象各自的评分，作为粗排评分；在精排阶段，可以根据训练样本对神经网络模型进行训练，得到精排阶段的对象推荐模型，然后将用户特征输入精排阶段的对象推荐模型，得到推荐对象各自的评分，作为精排评分；最后根据精排评分和粗排评分，确定需要推荐的对象。

但是，在精排阶段，精排阶段的对象推荐模型是基于用户与对象的关系的，并未考虑推荐对象的长期收益，导致精排阶段的对象推荐模型输出的评分准确性较差，从而造成对象推荐不准确的问题。

为解决上述问题，本申请实施例提供了一种对象推荐模型的训练方法、对象推荐方法、装置、电子设备及存储介质，通过将第一用户特征输入初始推荐模型，得到所述初始推荐模型预测的多个预置对象类别各自对应的第一评分，所述第一用户特征是用户在第一状态下的特征；将第二用户特征输入所述初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第二评分，所述第二用户特征是所述用户在第二状态下的特征，所述第一状态与所述第二状态具有关联关系；根据评分奖励对所述第二评分进行调整，得到第三评分，所述评分奖励表征所述第一状态与所述第二状态之间的评分增长量；根据所述第一评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。本申请中，将评分奖励作为第二评分的长期收益，根据评分奖励对第二评分进行调整，得到第三评分，第三评分与第二用户特征更加匹配，第三评分的准确率更高，进而使得根据第一评分和第三评分训练获得的对象推荐模型所输出的评分的准确性较高。

请参阅图1，图1示出了本申请一个实施例提供的一种对象推荐模型的训练方法的流程图，方法可以用于电子设备，方法包括：

S110、将第一用户特征输入初始推荐模型，得到所述初始推荐模型预测的多个预置对象类别各自对应的第一评分，所述第一用户特征是用户在第一状态下的特征。

S120、将第二用户特征输入所述初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第二评分，所述第二用户特征是所述用户在第二状态下的特征，所述第一状态与所述第二状态具有关联关系。

在本实施例中，电子设备可以是指对象推荐平台(例如服务器)，对象推荐平台可以与移动终端连接，移动终端通过对象推荐应用程序与对象推荐平台连接，移动终端中的对象推荐应用程序可以登录有用户的账号。对象推荐应用程序，采集该账号对应的用户特征，并将采集的用户特征发送至对象推荐平台，对象推荐平台将用户特征存储于与账号对应的存储空间。

用户还可以通过移动终端的对象推荐应用程序向对象推荐平台发送搜索请求，对象推荐平台根据搜索请求返回对应的对象，移动终端中的对象推荐应用程序输出对应的对象。对象推荐平台还可以自动向移动终端中的对象推荐应用程序发送推荐对象，移动终端展示发送的推荐对象。对象推荐应用程序可以是购物应用程序、新闻应用程序等，对象推荐平台可以是指网购平台、新闻平台等，对象可以是指商品、新闻等。

需要说明的是，移动终端中的对象推荐应用程序采集用户特征时需要用户的授权，在得到用户的授权后，才能采集用户的用户特征。

在本申请中，初始推荐模型可以是指深度Q网络。

多个预置对象类别可以是指对象推荐平台中的全部对象类别，例如，对象为商品时，多个预置对象类别可以是指全部商品所涉及到的全部商品类别。不同的对象推荐平台对应的多个预置对象类别可以不同。例如，A对象推荐平台为一个网购平台，共有100000种不同的商品，该100000种不同的商品对应的商品类别共有500种，则该A对象推荐平台对应的多个预置对象类别可以是指该500个预置商品类别。

用户特征可以包括用户属性特征以及上下文特征，用户属性特征可以是指用户的个人信息(包括但不限于年纪、性别以及职业等)、用户偏好的对象等，例如，对象为商品时，用户属性特征可以包括用于的年纪、职业、性别、购买记录和偏好商品等；上下文特征可以是指用户使用对象推荐应用程序的时间信息(可以精确到到秒，例如2018年3月2日15点30分09秒)以及预设时段内用户针对对象推荐应用程序的刷新次数，预设时段可以是半小时等。例如，对象为商品时，上下文特征可以是指针对商品对应的购物应用程序的使用时间信息以及预设时段内针对购物应用程序的刷新次数(例如刷新次数为5)，其中，刷新次数可以是指购物应用程序的推荐页面的刷新次数。

对象推荐应用程序在前台运行时，作为一个状态。当对象推荐应用程序退出前台运行时(可以是关闭或者进入后台运行)，当前的状态结束。第一状态和第二状态可以是不同的状态，且，第一状态和第二状态具有关联关系，其中，关联关系可以包括所述第二状态为与所述第一状态相邻的下一个状态。例如，任意一个时刻，对象推荐应用程序在前台运行时，作为第一状态，当第一状态结束之后，对象推荐应用程序再次进入前台运行时，作为第二状态。

确定出第一状态的第一用户特征和第二状态的第二用户特征之后，将第一用户特征和第二用户特征分别输入初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第一评分以及第二评分。

S130、根据评分奖励对所述第二评分进行调整，得到第三评分，所述评分奖励表征所述第一状态与所述第二状态之间的评分增长量。

可以通过评分奖励，对所述第二评分进行调整，得到第三评分，以将评分奖励作为第二评分的长期收益，通过评分奖励对第二状态的第二评分进行调整，使得得到的第三评分可以准确的与第二状态相匹配，第三评分的准确性更高。其中，通过评分奖励，对所述第二评分进行调整可以是指将评分奖励与第二评分做和。

评分奖励的获取方法可以包括：获取选定对象类别对应的点击次数以及支付金额，所述选定对象类别为所述多个预置对象类别中与交互行为对应的对象类别，所述交互行为是针对样本推荐对象的，所述样本推荐对象是根据所述多个预置对象类别各自对应的第一评分得到的；根据所述点击次数和所述支付金额，确定所述评分奖励。

当根据用户的第一用户特征得到第一评分之后，根据第一评分得到各个预置对象类别下的推荐对象，作为样本推荐对象，并输出样本推荐对象，用户针对输出的推荐商品发送交互行为，该交互行为针对的预置对象类别作为选定对象类别，然后确定针对选定对象类别的交互行为所对应的点击次数以及支付金额。交互行为可以是点击、滑动、购买对象以及删除对象等。

在一些实施方式中，针对每个预置对象类别下的全部对象，可以确定全部对象各自的对象评分，并将对象评分最高的一个对象作为该预置对象类别下的推荐对象。其中，可以通过粗排阶段的对象推荐模型得到全部对象各自的对象评分，该粗排阶段的对象推荐模型可以是对神经网络模型进行训练得到的。

具体的，可以计算选定对象类别对应的支付金额与超参数的比值，并将该比值与选定对象类别对应的点击次数做和，得到评分奖励。其中，超参数可以是用于对支付金额进行归一化的参数(由于支付金额通常较大，为了使得得到的评分奖励更加准确，需要对支付金额进行归一化)，本申请对超参数不做具体限定。

例如，用户针对多个预设对象类别中的B类别下的b1商品和b2商品分别发送了3次点击操作，并购买了b2商品，支付金额为c，此时，交互行为对应的选定对象类别为B，确定的评分奖励可以是d＝6+c/T，其中，T为超参数。

S140、根据所述第一评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

得到第一评分和第三评分之后，可以确定第一评分和所述第三评分之间的损失值，根据该损失值初始推荐模型进行训练，得到所述对象推荐模型。

在一些实施方式中，可以根据第一评分和所述第三评分，通过均方差损失函数，确定损失值；然后通过该损失值，对初始推荐模型进行训练，得到所述对象推荐模型。

在本实施例中，可以包括多个批次的样本，每个批次的样本包括第一用户特征和第二用户特征，通过多个批次的样本对初始推荐模型进行训练，直到迭代次数到达预设次数，得到对应的对象推荐模型。

本实施例提供的训练方法，通过将第一用户特征输入初始推荐模型，得到所述初始推荐模型预测的多个预置对象类别各自对应的第一评分，将第二用户特征输入所述初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第二评分，再根据评分奖励对所述第二评分进行调整，得到第三评分，所述评分奖励表征所述第一状态与所述第二状态之间的评分增长量，根据所述第一评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。将评分奖励作为第二评分的长期收益，根据评分奖励对第二评分进行调整，得到第三评分，第三评分与第二用户特征更加匹配，第三评分的准确率更高，进而使得根据第一评分和第三评分训练获得的对象推荐模型所输出的评分的准确性较高。

在本实施例中，对象推荐模型针对的是对象类别，避免了对象推荐模型预测各个对象的评分所导致的维度爆炸的问题，从而提高了对象推荐模型的预测效率，同时，减少了某些对象由于样本量少导致的模型学习不充分的问题的发生，提高了对象推荐模型的评分准确率。

请参阅图2，图2示出了本申请又一个实施例提供的一种对象推荐模型的训练方法的流程图，方法可以用于电子设备，方法包括：

S210、将第一用户特征输入初始推荐模型，得到所述初始推荐模型预测的多个预置对象类别各自对应的第一评分，所述第一用户特征是用户在第一状态下的特征。

S220、将第二用户特征输入所述初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第二评分，所述第二用户特征是所述用户在第二状态下的特征，所述第一状态与所述第二状态具有关联关系。

其中，S210-S220的描述参照上述S110-S120的描述。

S230、从所述第二评分中确定第四评分；根据所述评分奖励对所述第四评分进行调整，得到第三评分。

第二评分包括多个预设对象类别各自对应的第二评分，可以在第二评分中确定出一个评分作为第四评分，然后根据评分奖励对所述第四评分进行调整，得到第三评分。

可选地，所述从所述第二评分中确定第四评分，包括：获取所述第二评分中分值最高的第二评分，作为第四评分。

S240、从所述第一评分中确定第五评分；根据所述第五评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

第一评分包括多个预设对象类别各自对应的第一评分，可以在第一评分中确定出一个评分作为第五评分，然后根据所述第五评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

可选地，所述从所述第一评分中确定第五评分，包括：从所述多个预置对象类别中确定对应交互行为的选定对象类别，所述交互行为是针对样本推荐对象的，所述样本推荐对象是根据所述多个预置对象类别各自对应的第一评分得到的；从所述第一评分中获取对应所述选定对象类别的第一评分，作为第五评分。

当根据用户的第一用户特征得到第一评分之后，根据第一评分得到各个预置对象类别下的推荐对象，作为样本推荐对象，并输出样本推荐对象，用户针对输出的样本推荐对象发送交互行为，该交互行为针对的预置对象类别作为选定对象类别，该选定对象类别对应的第一评分作为第五评分。

例如，用户针对多个预设对象类别中的G类别下的g1商品和g2商品分别发送了5次点击操作，并购买了g2商品，支付金额为c，此时，交互行为对应的选定对象类别为G。

可选地，所述根据所述第五评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型，包括：根据第五评分和所述第三评分，通过均方差损失函数，确定损失值；通过所述损失值，对所述初始推荐模型进行训练，得到所述对象推荐模型。

请参阅图3，图3示出了本申请中对象推荐模型的训练过程示意图。

将第一用户特征和第二用户特征分别输入初始推荐模型，得到对应第一用户特征的多个预置对象类别各自的第一评分以及对应第二用户特征的多个预置对象类别各自的第二评分。

根据第一评分得到各个预置对象类别下的推荐对象，作为样本推荐对象，并输出样本推荐对象，用户针对输出的推荐商品发送交互行为，该交互行为针对的预置对象类别作为选定对象类别，然后确定针对选定对象类别的交互行为所对应的点击次数以及支付金额，并根据点击次数以及支付金额确定评分奖励。

根据选定对象类别，在第一评分中确定出对应的第五评分，并在第二评分中确定分值最高的第二评分，作为第四评分，并通过评分奖励对第四评分进行处理，得到第三评分。

根据第五评分和所述第三评分，确定损失值；通过所述损失值，对所述初始推荐模型进行训练，得到所述对象推荐模型。

在本实施例中，根据用户的交互行为，确定评分奖励，评分奖励与交互行为更加匹配，使得基于评分奖励得到的第三评分更能反映用户的需求，进而使得得到的对象推荐模型的预测准确率较高。

请参阅图4，图4示出了本申请一个实施例提供的一种对象推荐方法的流程图，方法可以用于电子设备，方法包括：

S310、响应于接收到的对象推荐请求，获取目标状态的用户特征。

可以是通过移动终端中的对象推荐应用程序接收用户发送的对象推荐请求，并将用户推荐请求发送至服务器，由服务器根据用于推荐请求获取对应对象推荐请求的用户特征。

在一些实施方式中，对象推荐应用程序包括推荐页面，用户打开对象推荐应用程序的推荐页面时，对象推荐应用程序自动生成并发送对象推荐请求。对象推荐平台接收到对象推荐请求之后，获取目标状态的用户特征。

用户打开对象推荐应用程序的推荐页面时，可以确定为目标状态，对象推荐平台根据对象推荐请求，获取目标状态下的用户特征。

S320、根据所述目标状态的用户特征，确定多个推荐对象各自的对象评分。

可以是将目标状态的用户特征输入粗排阶段的对象推荐模型，得到各个推荐对象各自的对象评分。粗排阶段的对象推荐模型可以根据训练样本对神经网络模型进行训练得到的模型。多个推荐对象可以是指对象推荐平台中全部的对象，例如，对象推荐平台为F网购平台，包括5000000商品，则多个推荐对象包括5000000商品，根据粗排阶段的对象推荐模型得到该5000000商品各自的对象评分。

S330、将所述目标状态的用户特征输入对象推荐模型，得到所述对象推荐模型预测的多个预置对象类别各自对应的类别评分，所述对象推荐模型由上述任一实施例所述的对象推荐模型的训练方法训练得到，所述多个预置对象类别包括所述多个推荐对象各自对应的对象类别。

将目标状态的用户特征输入对象推荐模型，得到所述对象推荐模型预测的多个预置对象类别各自对应的类别评分，该对象推荐模型可以是作为精排阶段的对象推荐模型。

多个预置对象类别可以是指多个推荐对象所涉及的全部类别，例如，对象推荐平台为F网购平台，包括5000000商品，则多个推荐对象包括5000000商品，该5000000商品划分为1000个商品类别，则对应的多个预置对象类别为1000个商品类别。

S340、根据所述多个预置对象类别自对应的类别评分以及所述多个推荐对象各自对应的对象评分，确定目标推荐对象。

确定多个预置对象类别自对应的类别评分以及多个推荐对象各自对应的对象评分，可以针对每个预置对象类别下的对象，确定评分最高的一个对象作为选定推荐对象，然后将各个预置对象类别下的选定推荐对象按照各个预置对象类别的类别评分由高到低排序，得到有序的选定推荐对象，作为目标推荐对象。目标推荐对象中，排序越靠前的对象，越是被最先推荐。

在一些实施方式中，针对每个预置对象类别下的对象，还可以确定多个对象作为选定推荐对象，选定推荐对象按照对象评分由高到低排序，对象的排序越靠前，越是被先推荐。

在得到目标推荐对象之后，可以将目标推荐对象发送至移动终端中的对象推荐应用程序，移动终端通过对象推荐应用程序的推荐页面输出目标推荐对象，目标推荐对象包括的选定推荐对象按照对象的排序被展示。

在本实施例中，通过多个推荐对象各自的对象评分以及多个预置对象类别自对应的类别评分，确定目标推荐对象，对象推荐模型预测的多个预置对象类别各自对应的类别评分的准确性较高，使得目标推荐对象的准确性较高。

同时，对象推荐模型预测的多个预置对象类别各自对应的类别评分，减少了预测各个对象各自的对象评分导致的数据处理量较大，推荐效率较低的问题发生，从而提高了对象推荐效率。

最终的目标推荐对象的选取，经过对象评分以及类别评分两层探索策略，减少了对象推荐模型陷入局部最优的问题发生。

请参阅图5，图5示出了本申请一个实施例提出的一种对象推荐模型的训练装置的框图，所述装置700包括：

第一评分模块710，用于将第一用户特征输入初始推荐模型，得到所述初始推荐模型预测的多个预置对象类别各自对应的第一评分，所述第一用户特征是用户在第一状态下的特征；

第二评分模块720，用于将第二用户特征输入所述初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第二评分，所述第二用户特征是所述用户在第二状态下的特征，所述第一状态与所述第二状态具有关联关系；

调整模块730，用于通过评分奖励对所述第二评分进行调整，得到第三评分，所述评分奖励表征所述第一状态与所述第二状态之间的评分增长量；

训练模块740，用于根据所述第一评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

可选地，装置还包括评分奖励获取模块，用于获取选定对象类别对应的点击次数以及支付金额，所述选定对象类别为所述多个预置对象类别中与交互行为对应的对象类别，所述交互行为是针对样本推荐对象的，所述样本推荐对象是根据所述多个预置对象类别各自对应的第一评分得到的；根据所述点击次数和所述支付金额，确定所述评分奖励。

可选地，调整模块730，还用于从所述第二评分中确定第四评分；根据所述评分奖励对所述第四评分进行调整，得到第三评分；训练模块740，还用于从所述第一评分中确定第五评分；根据所述第五评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

可选地，调整模块730，还用于获取所述第二评分中分值最高的第二评分，作为第四评分。

可选地，训练模块740，还用于根据第五评分和所述第三评分，通过均方差损失函数，确定损失值；通过所述损失值，对所述初始推荐模型进行训练，得到所述对象推荐模型。

请参阅图6，图6示出了本申请一个实施例提出的一种对象推荐装置的框图，所述装置800包括：

响应模块810，用于响应于接收到的对象推荐请求，获取目标状态的用户特征；

确定模块820，用于根据所述目标状态的用户特征，确定多个推荐对象各自的对象评分；

第三评分模块830，用于将所述目标状态的用户特征输入对象推荐模型，得到所述对象推荐模型预测的多个预置对象类别各自对应的类别评分，所述对象推荐模型由上述任一实施例所述的对象推荐模型的训练方法训练得到，所述多个预置对象类别包括所述多个推荐对象各自对应的对象类别；

对象推荐模块840，用于根据所述多个预置对象类别自对应的类别评分以及所述多个推荐对象各自对应的对象评分，确定目标推荐对象。

需要说明的是，本申请中的装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

图7示出了用于执行根据本申请实施例的口语评分模型训练方法的电子设备的结构框图。该电子设备2900可以是智能手机、平板电脑、电子书、服务器等能够运行应用程序的电子设备。本申请中的电子设备2900，该电子设备2900可以是前述的对象推荐平台，电子设备2900可以包括一个或多个如下部件：处理器2910、存储器2920、屏幕2930以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器2920中并被配置为由一个或多个处理器2910执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器2910可以包括一个或者多个处理核。处理器2910利用各种接口和线路连接整个电子设备2900内的各个部分，通过运行或执行存储在存储器2920内的指令、程序、代码集或指令集，以及调用存储在存储器2920内的数据，执行电子设备2900的各种功能和处理数据。可选地，处理器2910可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器2910可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器2910中，单独通过一块通信芯片进行实现。

存储器2920可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器2920可用于存储指令、程序、代码、代码集或指令集。存储器2920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备2900在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图8，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质3000中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质3000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质3000包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质3000具有执行上述方法中的任何方法步骤的程序代码3010的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码3010可以例如以适当形式进行压缩。

请参考图9，其示出了本申请实施例提供的一种计算机可读产品3100的结构框图。计算机程序产品包括计算机程序/指令3110，其特征在于，该计算机程序/指令被处理器执行时实现上述方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种对象推荐模型的训练方法，其特征在于，所述方法包括：

将第一用户特征输入初始推荐模型，得到所述初始推荐模型预测的多个预置对象类别各自对应的第一评分，所述第一用户特征是用户在第一状态下的特征；

将第二用户特征输入所述初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第二评分，所述第二用户特征是所述用户在第二状态下的特征，所述第一状态与所述第二状态具有关联关系；

根据评分奖励对所述第二评分进行调整，得到第三评分，所述评分奖励表征所述第一状态与所述第二状态之间的评分增长量；

根据所述第一评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

2.根据权利要求1所述的方法，其特征在于，所述评分奖励的获取方法包括：

获取选定对象类别对应的点击次数以及支付金额，所述选定对象类别为所述多个预置对象类别中与交互行为对应的对象类别，所述交互行为是针对样本推荐对象的，所述样本推荐对象是根据所述多个预置对象类别各自对应的第一评分得到的；

根据所述点击次数和所述支付金额，确定所述评分奖励。

3.根据权利要求1所述的方法，其特征在于，所述根据评分奖励对所述第二评分进行调整，得到第三评分，包括：

从所述第二评分中确定第四评分；

根据所述评分奖励对所述第四评分进行调整，得到第三评分；

所述根据所述第一评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型，包括：

从所述第一评分中确定第五评分；

根据所述第五评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

4.根据权利要求3所述的方法，其特征在于，所述从所述第一评分中确定第五评分，包括：

从所述多个预置对象类别中确定对应交互行为的选定对象类别，所述交互行为是针对样本推荐对象的，所述样本推荐对象是根据所述多个预置对象类别各自对应的第一评分得到的；

从所述第一评分中获取对应所述选定对象类别的第一评分，作为第五评分。

5.根据权利要求3所述的方法，其特征在于，所述从所述第二评分中确定第四评分，包括：

获取所述第二评分中分值最高的第二评分，作为第四评分。

6.根据权利要求3所述的方法，其特征在于，所述根据所述第五评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型，包括：

根据第五评分和所述第三评分，通过均方差损失函数，确定损失值；

通过所述损失值，对所述初始推荐模型进行训练，得到所述对象推荐模型。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述关联关系包括所述第二状态为与所述第一状态相邻的下一个状态。

8.一种对象推荐方法，其特征在于，所述方法包括：

响应于接收到的对象推荐请求，获取目标状态的用户特征；

根据所述目标状态的用户特征，确定多个推荐对象各自的对象评分；

将所述目标状态的用户特征输入对象推荐模型，得到所述对象推荐模型预测的多个预置对象类别各自对应的类别评分，所述对象推荐模型由权利要求1-7任一项训练得到，所述多个预置对象类别包括所述多个推荐对象各自对应的对象类别；

根据所述多个预置对象类别自对应的类别评分以及所述多个推荐对象各自对应的对象评分，确定目标推荐对象。

9.一种对象推荐模型的训练装置，其特征在于，所述装置包括：

第一评分模块，用于将第一用户特征输入初始推荐模型，得到所述初始推荐模型预测的多个预置对象类别各自对应的第一评分，所述第一用户特征是用户在第一状态下的特征；

第二评分模块，用于将第二用户特征输入所述初始推荐模型，得到所述初始推荐模型预测的所述多个预置对象类别各自对应的第二评分，所述第二用户特征是所述用户在第二状态下的特征，所述第一状态与所述第二状态具有关联关系；

调整模块，用于通过评分奖励对所述第二评分进行调整，得到第三评分，所述评分奖励表征所述第一状态与所述第二状态之间的评分增长量；

训练模块，用于根据所述第一评分和所述第三评分，对所述初始推荐模型进行训练，得到所述对象推荐模型。

10.一种对象推荐装置，其特征在于，所述装置包括：

响应模块，用于响应于接收到的对象推荐请求，获取目标状态的用户特征；

确定模块，用于根据所述目标状态的用户特征，确定多个推荐对象各自的对象评分；

第三评分模块，用于将所述目标状态的用户特征输入对象推荐模型，得到所述对象推荐模型预测的多个预置对象类别各自对应的类别评分，所述对象推荐模型由权利要求1-7任一项训练得到，所述多个预置对象类别包括所述多个推荐对象各自对应的对象类别；

对象推荐模块，用于根据所述多个预置对象类别自对应的类别评分以及所述多个推荐对象各自对应的对象评分，确定目标推荐对象。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-8中任一项所述的方法。

12.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-8中任一项所述的方法。