CN114328993A

CN114328993A - 一种模型处理方法及相关产品

Info

Publication number: CN114328993A
Application number: CN202111535874.3A
Authority: CN
Inventors: 韩瑞东; 王建东; 刘军宁; 齐逸岩; 郑昆仑; 黄帆
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-12
Anticipated expiration: 2041-12-15
Also published as: CN114328993B

Abstract

本发明实施例公开了一种模型处理方法及相关产品，其中方法包括获取样本对象的第一对象信息和推荐项候选集；调用融合权重模型对第一对象信息进行处理，确定反馈行为的融合权重集合；根据融合权重集合和预测概率，确定目标推荐项；分别确定每个目标推荐项的预测反馈行为，根据预测反馈行为确定反馈奖励；获取所述样本对象的第二对象信息；其中，由第一对象信息、融合权重集合、反馈奖励和第二对象信息组成的训练样本，用于训练融合权重模型，训练后的融合权重模型用于多媒体数据推荐。本申请可以提升生成的训练样本的真实性，减小训练样本的数据误差，提升模型的训练效果和使用效果。

Description

一种模型处理方法及相关产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型处理方法及相关产品。

背景技术

随着互联网中信息量的大幅增长，用户在面对大量信息时很难从中获取到真正有价值的信息，造成信息超载问题。解决信息超载问题的一种方法是推荐系统，它根据用户的信息需求、兴趣等，将用户感兴趣的商品、文章、图片、短视频等推荐给用户。

当海量的待推荐项输入到推荐系统后，依次经过召回、排序和重排序，得到推荐列表。其中，重排序作为推荐系统与用户交互的最后环节，可以依据用户的满意度对待推荐项进一步排序。为了提高重排序结果的精确度，可以采用人工智能模型来进行重排序。但是在这些模型训练过程中，往往需要大量的训练样本。目前的技术方案是通过模拟器生成训练样本，生成的训练样本具有数据偏差，进而导致模型的训练效果和使用效果不佳。

发明内容

本申请提供一种模型处理方法及相关产品，可以提升生成的训练样本的真实性，减小训练样本的数据偏差，进而提升模型的训练效果和使用效果。

本申请提供了一种模型处理方法，该方法包括：

获取样本对象的第一对象信息和推荐项候选集；推荐项候选集包括L个候选推荐项，以及每个候选推荐项对应的N种反馈行为的预测概率，L、N均为正整数，第一对象信息是根据样本对象的第一线上请求数据获取的；

调用融合权重模型对第一对象信息进行处理，确定N种反馈行为的融合权重集合；

根据融合权重集合和预测概率，从L个候选推荐项中选取M个目标推荐项，M≤L；

分别确定每个目标推荐项的预测反馈行为，根据M个预测反馈行为确定反馈奖励；

获取样本对象的第二对象信息，第二对象信息是根据样本对象的第二线上请求数据获取的，第一线上请求数据和第二线上请求数据分别对应的时间信息不同；

其中，由第一对象信息、融合权重集合、反馈奖励和第二对象信息组成的训练样本，用于训练所述融合权重模型，训练后的融合权重模型用于多媒体数据推荐。

其中，根据目标预测策略，确定待处理目标推荐项的预测反馈行为的方式包括：

当目标预测策略是第一预测策略时，获取多个对象对待处理目标推荐项的N种反馈行为的线上反馈概率，以及获取多个对象对待处理目标推荐项的N种反馈行为的预测反馈概率；根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对待处理目标推荐项的预测概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率；将N个目标概率组合为待处理目标推荐项的预测反馈行为；

或者，当目标预测策略是第二预测策略时，分别确定待处理目标推荐项的每种反馈行为的反馈概率阈值；根据反馈概率阈值分别确定待处理目标推荐项的N种反馈行为的反馈概率区间；在N个反馈概率区间分别随机采样，确定待处理目标推荐项的N种反馈行为的目标概率；将N个目标概率组合为待处理目标推荐项的预测反馈行为。

本申请提供了一种模型处理装置，该装置包括：

获取模块，用于获取样本对象的第一对象信息和推荐项候选集；推荐项候选集包括L个候选推荐项，以及每个候选推荐项对应的N种反馈行为的预测概率，L、N均为正整数，第一对象信息是根据样本对象的第一线上请求数据获取的；

处理模块，用于调用融合权重模型对第一对象信息进行处理，确定N种反馈行为的融合权重集合；

处理模块，还用于根据融合权重集合和预测概率，从L个候选推荐项中选取M个目标推荐项，M≤L；

处理模块，还用于分别确定每个目标推荐项的预测反馈行为，根据M个预测反馈行为确定反馈奖励；

获取模块，还用于获取样本对象的第二对象信息，第二对象信息是根据样本对象的第二线上请求数据获取的，第一线上请求数据和第二线上请求数据分别对应的时间信息不同；

其中，由第一对象信息、融合权重集合、反馈奖励和第二对象信息组成的训练样本，用于训练融合权重模型，训练后的融合权重模型用于多媒体数据推荐。

本申请提供了一种电子设备，该电子设备包括存储器、处理器，其中，上述存储器上存储模型处理程序，该模型处理程序被上述处理器执行时实现如上述模型处理方法的步骤。

本申请提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时实现如上述模型处理方法的步骤。

本申请提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，计算机程序或计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取计算机程序或计算机指令，处理器执行计算机程序或计算机指令，使得计算机设备执行上述模型处理方法。

本申请可以通过线上请求，获取到样本对象的真实对象信息，进而由真实对象信息来生成应用于多媒体数据推荐的模型的训练样本。由于该训练样本保留了样本对象的真实信息，相比于完全由模拟器生成训练样本，本申请的训练样本更具有真实性，可以减少数据误差，最大程度地还原真实推荐环境，由真实训练样本所训练的推荐模型，具有更高的推荐准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种通信系统的示意图；

图2是本申请实施例提供的一种模型处理方法的流程示意图；

图3是本申请实施例提供的一种批约束深度强化学习网络架构示意图；

图4是本申请实施例提供的一种生成训练样本的应用流程示意图；

图5是本申请实施例提供的一种确定预测反馈行为和反馈奖励的流程示意图；

图6是本申请实施例提供的一种模型处理装置的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

可以理解的是，在本申请的具体实施方式中，涉及到用户静态信息、用户历史行为信息、用户线上反馈概率、用户预测反馈概率等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

为了更好地理解本申请的方案，下面先对本申请中涉及到的技术领域和专业术语进行介绍：

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等几大方向。本申请实施例提供的方案涉及人工智能技术下属的机器学习等技术，下面将对机器学习技术进行叙述。

机器学习(machine learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习、式教学习等技术。本申请主要涉及机器学习技术中的强化学习(reinforcement learning，RL)，强化学习用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题，在本申请中，可以通过强化学习对已排序后的推荐项进行重排序，以使重排序后的结果可以获得用户的最大反馈回报或奖励。强化学习可以与深度学习相结合，进而借助深度学习中强大的特征表达能力，提高学习效果。

下面对本申请实施例的通信系统进行介绍：

参见图1，图1是本申请实施例提供的一种通信系统的示意图。如图1所示，该通信系统包括终端设备101和模型处理装置102。其中，终端设备101为用户查看、收听、播放多媒体数据的设备，包括但不限于：智能手机、平板电脑、笔记本电脑等设备。模型处理装置102为向用户推荐可能感兴趣的多媒体数据的后台设备或后台设备中的芯片。示例性地，模型处理装置102可以安装于服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端设备101根据样本用户或目标用户的操作生成线上推荐系统请求，线上推荐系统可对样本用户或目标用户生成推荐数据，具体过程包括召回、排序(粗排、精排)、重排序，推荐。模型处理装置102主要应用于该过程中的重排序环节，通过对样本用户的线上推荐系统请求进行采样和统计，得到样本用户的真实信息和候选推荐项的行为预测概率(该概率由排序环节确定)，依据真实信息和概率生成训练样本，生成的训练样本可以用于训练模型。当模型处理装置102接收到终端设备101中目标用户的线上推荐系统请求时，根据训练好的模型对已经排序后的待推荐数据再进行重排序，生成最终的推荐数据。终端设备101接收到来自模型处理装置102发送的推荐数据后，通过显示屏、扬声器等输出设备进行输出。终端设备101和模型处理装置102之间可以通过有线通信或者无线通信方式进行直接或间接地连接，本申请对此不做限制。需要说明的是，图1所示的通信系统中终端设备101和模型处理装置的数量可以为一个或者多个，本申请对此不作限制。

参见图2，是本申请实施例提供的一种模型处理方法的流程示意图，该方法包括步骤201～步骤206。需要说明的是，图2所描述的方法的执行主体以上述模型处理装置202为例。其中：

201、获取样本对象的第一对象信息和推荐项候选集；推荐项候选集包括L个候选推荐项，以及每个候选推荐项对应的N种反馈行为的预测概率，L、N均为正整数，第一对象信息是根据样本对象的第一线上请求数据获取的。

其中，样本对象可以为历史时间段内在线上与推荐项进行各种交互或反馈的真实用户。

在一种可能实施方式中，第一对象信息包括样本对象的静态身份信息和第一历史行为信息。静态身份信息包括但不限于样本对象的年龄、性别、城市、职业等，该静态身份信息可以用一个多热(muti-hot)向量表示，示例性地，静态身份信息的多热向量表示格式为(x₁，x₂，x₃，x₄，....)。其中，x₁为样本对象的年龄取值，x₂为样本对象的性别取值，当性别为男时取值为1，性别为女时取值为2，x₃为样本对象的居住城市代码取值，x₄表示样本对象的职业代码取值，针对一个年龄为20岁居住在北京的男性厨师，北京的城市代码预设为1，厨师的职业代码预设为5，则其静态身份信息为(20，1，1，5)。需要说明的是，静态身份信息中每类信息的取值可依据实际情况设定，本申请对此不作限制。

在一种可能实施方式中，第一历史行为信息是样本对象在第一历史时间段内，对L个候选推荐项的历史反馈行为量。第一历史时间段所在的时间段位于第一线上请求对应的时间处于第一历史时间段内。该历史反馈行为包括但不限于在第一历史时间段内的历史点赞行为、历史评论行为、历史观看行为等，历史反馈行为量为历史点赞数量、历史评论数量、历史观看次数或历史观看时长等。示例性地，第一历史行为信息可以以一个一维多热向量表示，例如可表示为(5，2，2)，其中5表示样本对象在第一历史时间段内对L个候选推荐项总共点赞了5次，第一个2表示对L个候选推荐项总共评论了2次，第二个2表示对L个候选推荐项总共观看了2次；或者，可表示为(5，2，30)，5、2表示的含义与上述相同，30表示对L个候选推荐项总共观看了30分钟。

对于推荐项候选集，每个候选推荐项对应的N种反馈行为与上述历史反馈行为的种类可以相同，则N种反馈行为的预测概率为点赞概率、评论概率、观看概率等。示例性地，第i个候选推荐项的N种反馈行为的预测概率可表示为

o_i＝(o_i，1，o_i，2，...o_i，j，...o_i，N)

其中，1＜＜j＜＜N，o_i，j表示第i个候选推荐项在第j个反馈行为的预测概率，每个候选推荐项的N种反馈行为的预测概率，可以由推荐系统通过线上召回和排序环节对真实推荐候选集中的每个候选推荐项的反馈行为进行多任务预测得到。

202、调用融合权重模型对第一对象信息进行处理，确定N种反馈行为的融合权重集合。

与上述N种反馈行为对应，融合权重集合包括N个权重分量，每个权重分量用于指示每个反馈行为的预测概率所需要优化的融合权重。示例性地，融合权重集合可表示为

a＝(a₁，a₂，a₃，...，a_j，...，a_N)

其中，a_j表示第j个权重分量。调用融合权重模型对不同样本对象的第一对象信息进行处理，可以获取到不同的融合权重集合。例如，样本对象为一个经常对视频点赞、观看但较少评论的用户，则将样本对象的第一对象信息输入到融合权重模型后，输出的点赞权重分量和观看权重分量将高于评论权重分量，样本对象为一个经常对视频观看但较少点赞、评论的用户，则将样本对象的第一对象信息输入到融合权重模型后，输出的观看权重分量将高于点赞权重分量和评论权重分量。

需要说明的是，该融合权重模型内的参数与线上融合权重模型(训练后的融合权重模型)内的参数保持同步更新，以确保融合权重模型生成的融合权重集合可以最大程度地还原真实推荐环境。示例性地，同步更新的频率可以设置为每天同步一次，也即是说将前一天融合权重模型内训练确定的参数同步至当天的线上融合权重模型，将当天融合权重模型内训练确定的参数同步至后一天的线上融合权重模型。融合权重模型可以为强化学习模型或者深度强化学习模型等，本申请对此不作限制。

示例性地，本申请实施例以批约束深度强化学习(batch-constrained deep q-learning，BCQ)为例，对得到融合权重集合的过程进行说明。图3是本申请提供的一种BCQ网络架构示意图。如图3所示，将样本对象的第一对象信息输入BCQ网络，则输出为N种反馈行为的融合权重集合。具体地，在给定第一对象信息s后，调用变分自编码器模型中的Decoder网络，生成Z个符合训练数据分布的初始融合权重集合

每个初始融合权重集合包括在N个反馈行为上的权重分量。接着，将第一对象信息s、Z个初始融合权重集合

噪声φ输入Actor网络，输出Z个增加扰动后的融合权重集合，每个增加扰动后的融合权重集合可表示为a_p＝a_h+ξ_φ(s，a_h，φ)。再将第一对象信息s，Z个增加扰动后的融合权重集合输入Critic网络，使用Q_θ求取每个增加扰动后融合权重集合的价值，并从中选择出最大价值的集合最为最终的融合权重集合a，该过程可以表示为a＝π(s)＝argmax_aQ_θ(s，a_p)。

203、根据融合权重集合和预测概率，从L个候选推荐项中选取M个目标推荐项，M≤L。

在一种可能实施方式中，步骤203的具体实施过程为：将待处理候选推荐项的N种反馈行为的预测概率与融合权重集合进行加权求和运算，得到待处理候选推荐项的推荐分数，待处理候选推荐项是L个候选推荐项中的一个候选推荐项，对其余候选推荐项都采用相同方式确定与之对应的推荐分数；将L个候选推荐项的推荐分数按照从大到小的顺序排序，将前M个推荐分数对应的M个候选推荐项作为M个目标推荐项。

其中，当待处理候选推荐项为第i个候选推荐项时，待处理候选推荐项的推荐分数可按下述表达式进行计算：

score_i＝a₁*o_i，1+a₂*o_i，2+...+a_j*o_i，j+...+a_N*o_i，N

示例性地，若L取值为3，N的取值为4，M取值为2，融合权重集合a＝(a₁，a₂，a₃，a₄)＝(0.1，0.2，0.3，0.4)，3个候选推荐项的预测概率依次为o₁＝(o_1，1，o_1，2，o_1，3，o_1，4)＝(0.2，0.25，0.25，0.3)、o₂＝(o_2，1，o_2，2，o_2，3，o_2，4)＝(0.3，0.1，0.3，0.3)、o₃＝(o_3，1，o_3，2，o_3，3，o_3，4)＝(0.16，0.24，0.25，0.35)，则按照上述表达式计算3个候选推荐项的推荐分数依次为score₁＝0.265、score₂＝0.3、score₃＝0.279，3个推荐分数所对应的候选推荐项的排名为候选推荐项2、候选推荐项3、候选推荐项1，目标推荐项为候选推荐项2、候选推荐项3。

可以理解的是L、M、N的取值依据实际情况为例，本申请对此不作限制。例如，针对于视频类多媒体数据的业务推荐，若在同一页面内每次可以同时显示多个视频数据(示例性地，在视频类应用软件首页每次显示多个视频)，则每次业务推荐时M的取值为同一页面可显示的多个视频数据的数量；若在同一页面内每次只能显示一个视频数据(示例性地，短视频类应用软件每次在一个页面只显示一个视频)，则每次业务推荐时M的取值为1；或者，虽然在同一页面内每次只能显示一个视频数据，但用户对于每次显示视频数据的浏览速度过快(也即是说，用户将很快需要浏览下一个视频数据)，则也可以每次可选出多个目标推荐视频(即M取值大于1)存储于用户所在终端设备的视频缓冲区，使终端设备可以按照多个目标推荐视频的推荐分数依次渲染输出。

204、分别确定每个目标推荐项的预测反馈行为，根据M个预测反馈行为确定反馈奖励。

其中，预测反馈行为模拟了样本对象对M个目标推荐项中每个推荐对象的的反馈或交互行为，该预测反馈行为为包括N种反馈行为的目标概率，示例性地，某个目标推荐项的预测反馈行为为(0.2，0.3，0.4，0.1)，则说明样本对象有0.2的概率对目标推荐项执行第一种反馈行为，有0.3的概率对目标推荐项执行第二种反馈行为，有0.4的概率对目标推荐项执行第三种反馈行为，有0.1的概率对目标推荐项执行第四种反馈行为。经过样本对象对M个目标推荐项的M个预测反馈行为，可以确定本次推荐的反馈奖励r。步骤204的具体实施方式可参见下述其余实施例的描述。

205、获取样本对象的第二对象信息，第二对象信息是根据样本对象的第二线上请求数据获取的，第一线上请求数据和第二线上请求数据分别对应的时间信息不同；

其中，第二对象信息包括样本对象的静态身份信息和第二历史行为信息，第二历史行为信息是样本对象在第二历史时间段内，对L个候选推荐项的历史反馈行为量，在时间轴上第一历史时间段在第二历史时间段之前。静态身份信息和第二历史行为信息的具体表现形式可参见步骤201中的相关描述，在此不赘述。

在一种可能实施方式中，由第一对象信息、融合权重集合、反馈奖励和第二对象信息组成的训练样本，用于训练融合权重模型，训练后的融合权重模型用于多媒体数据推荐。

下面以BCQ网络中的Critic网络为例，对训练融合权重模型的过程进行简要说明，Critic网络的参数θ的更新方式可参见下述表达式：

θ←argmin_θ∑_(s，a)∈B(y-Q_θ(s，a))²

其中，B是基于训练样本的集合，每个训练样本由(s，a，r，s′)表示，s′为第二对象信息。在本申请中采用了基于训练样本集合的训练方式，将根据上述步骤生成的每个训练样本存储到集合B之中，模型训练过程中，每次从B中抽取一个随机的小批次{(s，a，r，s′)}进行模型训练。∑_(s，a)∈B(y-Q_θ(s，a))²为Critic网络的损失函数，通过最小化损失函数的数值，对Critic网络的参数θ进行更新。

更新表达式中的

用于表示根据目标Critic网络得到的目标Q值，其中，γ为未来奖励折扣衰减参数，0＜γ＜1，越大，γ越大意味着得到的未来奖励在当前的价值越大。特别的，若折现因子等于1，意味着得到的未来奖励与当前价值等同。若折现因子为0，则意味着得到的未来奖励在现在毫无价值，即说明模型推荐效果不准确。a′_p为s′所对应的增加扰动后的融合权重集合，λ为双网络平衡权重，

为目标Critic网络，与当前Critic网络

具有相同的网络结构。

在一种可能实施方式中，训练样本还包括退出标志位，退出标志位包括第一标志和第二标志，退出标志位是根据M个目标推荐项的历史退出率和退出预测率确定的，若训练样本的退出标志位是第一标志，则停止生成关于样本对象的下一个训练样本；若训练样本的退出标志位是第二标志，则继续生成关于样本对象的下一个训练样本。

示例性地，退出标志位可以用D表示，D由{d₁，d₂，d₃，...，d_M}确定，d₁，d₂，d₃，...，d_M可以由每个目标推荐项的历史退出率和退出预测率确定为True和False，具体确定方式可参见下述方法实施例的d的确定方式。当d₁，d₂，d₃，...，d_M中存在True，则D为第一标志，说明样本对象已经退出当前会话，依据该样本对象生成的新的目标推荐项不会得到样本对象的预测反馈行为，也即是说无法得到新的训练样本，则在此时停止生成关于样本对象的下一个训练样本；当当d₁，d₂，d₃，...，d_M不存在True且全为False，则D为第二标志，说明样本对象未退出当前会话，依据该样本对象生成的新的目标推荐项会得到样本对象的预测反馈行为，也即是说能够生成关于样本对象的下一个训练样本。

针对上述生成用于模型训练的训练样本的方案，以图4为例对其在实际应用的过程进行简单概述，如图4所示是本申请提供的一种生成训练样本的应用流程示意图。具体地，模型处理装置在获取样本对象的线上推荐系统请求后，通过线上流量控制模块获取来自线上推荐系统的样本对象的第一对象信息和推荐项候选集，接着通过推荐项重排序模块对候选推荐项进行重排序以确定出若干个目标推荐项(在该过程中确定了融合权重集合)，最后通过用户行为模拟模块确定样本对象的预测反馈行为、预测反馈行为的反馈奖励、以及样本对象的第二对象信息。通过上述过程确定的用户训练轨迹(第一对象信息、融合权重集合、反馈奖励、第二对象信息)即为训练样本。

上述描述了如何生成用于模型训练的训练样本以及模型训练的方法，接下来对该模型应用于多媒体数据的推荐进行简单描述：

在一种可能实施方式中，模型应用于多媒体数据的推荐具体包括：获取目标对象的对象信息和多媒体数据集合；多媒体数据集合包括S个多媒体数据，以及每个多媒体数据对应的N种反馈行为的初始预测概率，S为正整数，对象信息是根据目标对象的线上请求数据获取的，对象信息包括对象的静态身份信息和历史行为信息；调用训练后的融合权重模型对对象信息进行处理，确定N种反馈行为的目标融合权重集合；将每个多媒体数据的初始预测概率分别与目标融合权重集合进行加权求和运算，得到每个多媒体数据的目标推荐分数；根据每个多媒体数据的目标推荐分数，从S个多媒体数据中选取K个待推荐多媒体数据，K≤S；将K个待推荐多媒体数据发送至目标对象所在的终端设备。

在该方式中，每个多媒体数据对应的N种反馈行为的初始预测概率可以由其余推荐系统通过线上召回和排序环节对多媒体数据集合中的每个多媒体数据的反馈行为进行多任务预测得到。确定K个待推荐多媒体数据可以参见上述获取训练样本方式中的相应描述，本申请对此不作限制。需要说明的是，该方式主要可以应用于单次推荐任务和多次推荐任务中，当应用于单次推荐任务时，可以从S个多媒体数据中确定K个待推荐多媒体数据进行推荐；当应用于多次推荐任务时，可以在第一次从S个多媒体数据中确定K个待推荐多媒体数据进行推荐，在第二次从S-K个多媒体数据中确定K个新的待推荐多媒体数据进行推荐，以此类推。

基于图2所示的实施例，可以通过线上请求，获取到样本对象的真实对象信息，进而由真实对象信息来生成应用于多媒体数据推荐的模型的训练样本。由于该训练样本保留了样本对象的真实信息，相比于完全由模拟器生成训练样本，本申请的训练样本更具有真实性，可以减少数据误差，最大程度地还原真实推荐环境，由真实训练样本所训练的推荐模型，具有更高的推荐准确性。

参见图5，是本申请实施例提供的一种确定预测反馈行为和反馈奖励的流程示意图，该方法包括步骤501～步骤505。其中步骤501-步骤505是上述图2对应实施例中步骤205的具体实施例：

501、获取第一预测策略以及第一预测策略的第一被选取概率，获取第二预测策略以及第二预测策略的第二被选取概率；第一预测策略和第二预测策略各不相同。

其中，第一预测策略用于根据待处理目标推荐项的反馈行为的预测概率(该预测概率可参见图2所示实施例中的预测概率)来模拟样本对象针对目标推荐项的反馈行为，第二预测策略用于随机触发样本对象对目标推荐项的反馈。

502、根据第一被选取概率和第二被选取概率，为待处理目标推荐项从第一预测策略和第二预测策略中选取目标预测策略。

其中，待处理目标推荐项是M个目标推荐项中的一个目标推荐项，以一定的概率选择使用第一预测策略或者第二预测策略来预测反馈行为，可以使得确定的反馈奖励准确性更高。

示例性地，可以使用下述表达式中的ε-贪心算法来确定目标预测策略，以根据目标预测策略确定预测反馈行为。其中，每次以概率ε(即上述的第二被选取概率)来探索样本对象的预测反馈行为，以概率1-ε(即上述的第一被选取概率)利用待处理目标推荐项的反馈行为的预测概率来确定样本对象的预测反馈行为，若预测反馈行为的反馈奖励的确定性较大时，ε可以取较大的值(也即是说需要更多探索预测反馈行为)，若预测反馈行为的反馈奖励的确定性较小时，ε可以取较小的值(也即是说需要少量的探索就可以确定预测反馈行为，且用第一预测策略确定的预测反馈行为真实性很高)，例如ε可以取值为0.1或者0.01。或者，随着预测反馈行为次数的增加，使用第一预测策略所预测的反馈行为与真实反馈行为的相似性逐渐提高，可以依次减小ε的取值。对于ε的取值可依据实际情况确定，本申请对此不作限制。

503、根据目标预测策略，确定待处理目标推荐项的预测反馈行为。

在一种可能实施方式中，步骤503具体包括：按照目标预测策略，确定待处理目标推荐项的每种反馈行为的模拟概率；获取多个对象对待处理目标推荐项的N种反馈行为的线上反馈概率，以及获取多个对象对待处理目标推荐项的N种反馈行为的预测反馈概率；根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对N个模拟概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率；将N个目标概率组合为待处理目标推荐项的预测反馈行为。

可选的，确定待处理目标推荐项的每种反馈行为的模拟概率的方式具体包括：当目标预测策略是第一预测策略时，将待处理目标推荐项的每种反馈行为的预测概率，作为待处理目标推荐项的每种反馈行为的模拟概率；或者，当目标预测策略是第二预测策略时，分别确定待处理目标推荐项的每种反馈行为的反馈概率阈值，根据反馈概率阈值分别确定待处理目标推荐项的N种反馈行为的反馈概率区间，在N个反馈概率区间分别随机采样，确定待处理目标推荐项的每种反馈行为的模拟概率。

示例性地，当目标预测策略是第一预测策略，待处理目标推荐项为第m个目标推荐项时，则将o_m确定为样本对象对待处理目标推荐项N种反馈行为的模拟概率，o_m的表示形式可参见图2所示实施例中的O_i。当目标预测策略是第二预测策略时，假设反馈行为具有点赞、评论、观看三种形式，则分别确定点赞、评论、观看的反馈概率阈值max，再根据rand(0，max)，分别随机确定一个0至max之间的一个数值作为每种反馈行为的模拟概率。例如点赞、评论的概率阈值预设为1，观看的概率阈值预设为根据先验知识确定的正整数5，则根据rand(0，max)可以确定点赞、评论、观看的模拟概率为0.4、0.35、2.56。需要说明的是，本申请对反馈概率阈值的具体设定数值不作限制。

在该实现方式中，为进一步提升预测反馈行为和确定反馈奖励的真实性和准确性，可以对根据目标预测策略所确定的模拟概率进行修正，得到目标概率，将每种反馈行为的目标概率进行组合即可表示为样本对象对待处理目标推荐项的预测反馈行为。示例性地，可引入重要性采样，将模拟概率与线上反馈概率的分布对齐得到目标概率。具体过程可参见下面的表达式：

目标概率＝σ_线上/σ_预测*(模拟概率-μ_预测)+μ_线上

其中，μ_线上和σ_线上是线上反馈概率的均值和方差(也可称为线上反馈均值和线上反馈方差)，μ预测和σ预测是预测反馈概率的均值和方差(也可称为预测反馈均值和预测反馈方差)，σ_线上/σ_预测为根据线上反馈方差和预测反馈方差确定的重要性权重。根据该重要性权重、预测反馈均值、线上反馈均值可对每个模拟概率进行修正，得到与线上反馈概率对齐的目标概率。

对于V个对象对待处理目标推荐项的线上反馈行为可以确定V*N个线上反馈概率，该结果可以以下述矩阵表示，矩阵的一行表示一个对象对待处理目标推荐项的N种反馈行为的线上反馈概率，矩阵的一列表示V个对象对待处理目标推荐项的每个反馈行为的线上反馈概率。需要说明的是，V个对象对待处理目标推荐项的线上反馈行为是一段时间内的反馈行为，V的取值数量远小于生成训练样本的数量，在实际应用中，可以通过数量在为几千级别的线上反馈行为确定数量为千万级别的训练样本。因此，通过矩阵的每一列，可以确定V个对象对待处理目标推荐项的每个反馈行为的线上反馈概率的均值μ_线上和方差σ_线上。此外，μ_预测和σ_预测可以由V个对象对待处理目标推荐项的每种反馈行为的预测反馈概率得到，每个对象的预测反馈概率在待处理目标推荐项的每种反馈行为的预测反馈概率可参见图2实施例中步骤201中的o_i，在此不赘述。

在另一种可能实施方式中，步骤503包括：当目标预测策略是第一预测策略时，获取多个对象对待处理目标推荐项的N种反馈行为的线上反馈概率，以及获取多个对象对待处理目标推荐项的N种反馈行为的预测反馈概率；根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对待处理目标推荐项的预测概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率；将N个目标概率组合为待处理目标推荐项的预测反馈行为；

在该方式中，只对根据第一预测策略确定目标概率进行了修正，对根据第二预测策略确定目标概率没有进行修正，在具体实施时，减少了修正的工作量，提高了确定预测反馈行为的效率。其中根据两种预测策略确定目标概率的方式可参见上述第一种可能实施方式中的相应描述，在此不赘述。

504、将待处理目标推荐项的N个目标概率进行加权求和运算，得到待处理目标推荐项的反馈奖励分量。

示例性地，若确定待处理目标推荐项的N个目标概率为(0.08、0.25、0.32、0.2、0.15)，则根据预设奖励权重集合对N个目标概率进行加权求和，得到待处理目标推荐项的反馈奖励分量为

其中，m_i为第j个反馈行为的目标概率，w_j为第j个反馈行为的预设奖励权重分量。例如预设奖励权重集合为(0.2、0.2、0.2、0.2、0.2)，则待处理目标推荐项的反馈奖励分量为0.2*0.08+0.2*0.25+0.2*0.32+0.2*0.2+0.2*0.15＝0.188。

505、对M个反馈奖励分量进行叠加处理，确定反馈奖励。

在一种可能实施方式中，可以将M个反馈奖励分量相加得到最终的反馈奖励r。

在另一种可能实施方式中，步骤504具体包括：获取样本对象对每个目标推荐项的退出预测率；根据每个目标推荐项在会话内的累计推荐量(累计推荐量为在目标推荐项之前的所有已推荐的目标推荐项的数量)，确定每个目标推荐项的历史退出率；根据推荐分数，对M个目标推荐项均设置轮询优先级，推荐分数越高，优先级越高；按照轮询优先级由高到低的顺序，从M个目标推荐项中确定待轮询目标推荐项；

其中，若待轮询目标推荐项的历史退出率大于退出预测率，则将待轮询目标推荐项的反馈奖励分量添加至奖励集合，确定下一个待轮询目标推荐项；若待轮询目标推荐项的历史退出率不大于退出预测率，或所有目标推荐项均被确定为待轮询目标推荐项，则停止轮询，将奖励集合中的所有反馈奖励分量相加得到反馈奖励。

在该可能实施方式中，在模拟样本对象的预测反馈行为的同时，模拟了样本对象跳出当前会话的概率。样本对象跳出当前会话的概率(也称为退出预测率)，退出预测率是指样本对象在与当前目标推荐项交互时，退出当前会话的预测概率。示例性地，若样本对象对当前目标推荐项的退出预测率取值为0，则样本对象在与当前目标推荐项交互时不可能退出当前会话，若样本对象对当前目标推荐项的退出预测率取值为1，则样本对象在与当前目标推荐项交互时必然退出当前会话，退出预测率的取值可以为包括区间[0，1]中的任一取值，本申请对此不作限制。历史退出率是指对象在与目标推荐项交互时，退出历史会话的真实概率(该真实概率是基于统计学的方法对线上数据进行统计后得到的)，历史退出率与样本对象浏览的推荐项的个数强相关，例如推荐项的历史退出率随着样本对象浏览推荐项个数的增加而增加，因此本申请在模拟跳出行为时同时考虑会话中累积推荐项的影响，并给予每个待轮询目标推荐项的跳出规则：

其中，q_预测为推荐系统在对候选推荐项进行多任务打分环节时，同时得到的每个候选推荐项的退出预测率，q_历史为每个目标推荐项的历史退出率，rand(0，1)均匀地产生0到1之间的随机数，增加跳出规则的随机性。具体地，每次以概率i来探索样本对象的跳出行为，以概率1-ε利用待轮询目标推荐项的退出预测率和历史退出率来确定样本对象的跳出行为。示例性地，若5个目标推荐项的历史退出率和预测退出率分别为(0.4、0.5、0.6、0.7)与(0.35、0.45、0.65、0.67)，5个目标推荐项的推荐分数/优先级由高至低，则根据跳出规则，样本对象在前两个目标推荐项不会产生退出行为，在第三个目标推荐项产生退出行为且在第三个目标推荐项产生的退出行为使得样本对象不会对第四个推荐项有任何反馈行为。由此可见可以将前两个目标推荐项的反馈奖励分量相加得到反馈奖励。需要说明的是，由于在本次四个目标推荐项中存在有样本对象的退出行为(也即是说第三个目标推荐项的d取值为True)，则根据图2所述的实施例不会继续生成关于样本对象的下一个训练样本。

基于图5所示的实施例，可以确定样本对象对目标推荐项的预测反馈行为，并根据预测反馈行为确定图2实施例中训练样本中的反馈奖励。

参见图6，是本申请实施例提供的一种模型处理装置的结构示意图。该模型处理装置包括：获取模块601、处理模块602。其中：

获取模块601，用于获取样本对象的第一对象信息和推荐项候选集；推荐项候选集包括L个候选推荐项，以及每个候选推荐项对应的N种反馈行为的预测概率，L、N均为正整数，第一对象信息是根据样本对象的第一线上请求数据获取的；

处理模块602，用于调用融合权重模型对第一对象信息进行处理，确定N种反馈行为的融合权重集合；

处理模块602，还用于根据融合权重集合和预测概率，从L个候选推荐项中选取M个目标推荐项，M≤L；

处理模块602，还用于分别确定每个目标推荐项的预测反馈行为，根据M个预测反馈行为确定反馈奖励；

获取模块601，还用于获取样本对象的第二对象信息，第二对象信息是根据样本对象的第二线上请求数据获取的，第一线上请求数据和第二线上请求数据分别对应的时间信息不同；

在一种可能实施方式中，处理模块602，在用于根据融合权重集合和预测概率，从L个候选推荐项中选取M个目标推荐项时，具体包括：

处理模块602，用于将待处理候选推荐项的N种反馈行为的预测概率与融合权重集合进行加权求和运算，得到待处理候选推荐项的推荐分数，待处理候选推荐项是L个候选推荐项中的一个候选推荐项；

处理模块602，还用于将L个候选推荐项的推荐分数按照从大到小的顺序排序，将前M个推荐分数对应的M个候选推荐项作为M个目标推荐项。

在一种可能实施方式中，待处理目标推荐项是M个目标推荐项中的一个目标推荐项，处理模块602，在用于确定待处理目标推荐项的预测反馈行为时，具体包括：

获取模块601，用于获取第一预测策略以及第一预测策略的第一被选取概率，获取第二预测策略以及第二预测策略的第二被选取概率；第一预测策略和第二预测策略各不相同；

处理模块602，用于根据第一被选取概率和第二被选取概率，为待处理目标推荐项从第一预测策略和第二预测策略中选取目标预测策略；

处理模块602，还用于根据目标预测策略，确定待处理目标推荐项的预测反馈行为。

在一种可能实施方式中，处理模块602，在用于根据目标预测策略，确定待处理目标推荐项的预测反馈行为时，具体包括：

处理模块602，用于按照目标预测策略，确定待处理目标推荐项的每种反馈行为的模拟概率；

获取模块601，用于获取多个对象对待处理目标推荐项的N种反馈行为的线上反馈概率，以及获取多个对象对待处理目标推荐项的N种反馈行为的预测反馈概率；

处理模块602，还用于根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对N个模拟概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率；

处理模块602，还用于将N个目标概率组合为待处理目标推荐项的预测反馈行为。

在一种可能实施方式中，处理模块602，在确定待处理目标推荐项的每种反馈行为的模拟概率时，具体包括：

当目标预测策略是第一预测策略时，处理模块602，用于将待处理目标推荐项的每种反馈行为的预测概率，作为待处理目标推荐项的每种反馈行为的模拟概率；或者，

当目标预测策略是第二预测策略时，处理模块602，用于分别确定待处理目标推荐项的每种反馈行为的反馈概率阈值，根据反馈概率阈值分别确定待处理目标推荐项的N种反馈行为的反馈概率区间，在N个反馈概率区间分别随机采样，确定待处理目标推荐项的每种反馈行为的模拟概率。

当目标预测策略是第一预测策略时，获取模块601，用于获取多个对象对待处理目标推荐项的N种反馈行为的线上反馈概率，以及获取多个对象对待处理目标推荐项的N种反馈行为的预测反馈概率；处理模块602，用于根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对待处理目标推荐项的预测概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率；处理模块602，还用于将N个目标概率组合为待处理目标推荐项的预测反馈行为；

或者，当目标预测策略是第二预测策略时，处理模块602，用于分别确定待处理目标推荐项的每种反馈行为的反馈概率阈值；处理模块602，还用于根据反馈概率阈值分别确定待处理目标推荐项的N种反馈行为的反馈概率区间；处理模块602，还用于在N个反馈概率区间分别随机采样，确定待处理目标推荐项的N种反馈行为的目标概率；处理模块602，还用于将N个目标概率组合为待处理目标推荐项的预测反馈行为。

在一种可能实施方式中，处理模块602，在用于根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对N个模拟概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率时，具体包括：

处理模块602，用于根据每个对象的N个线上反馈概率，确定每种反馈行为的线上反馈均值和线上反馈方差；

处理模块602，还用于根据每个对象的N个预测反馈概率，确定每种反馈行为的预测反馈均值和预测反馈方差；

处理模块602，还用于根据N个线上反馈方差和N个预测反馈方差，确定每种反馈行为的重要性权重；

处理模块602，还用于根据每种反馈行为的重要性权重、每种反馈行为的线上反馈均值以及每种反馈行为的预测反馈均值，分别对N个模拟概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率。

在一种可能实施方式中，处理模块602，在用于根据M个预测反馈行为确定反馈奖励时，具体包括：

处理模块602，用于将待处理目标推荐项的N个目标概率进行加权求和运算，得到待处理目标推荐项的反馈奖励分量；

处理模块602，还用于对M个反馈奖励分量进行叠加处理，确定反馈奖励。

在一种可能实施方式中，处理模块602，在用于对M个反馈奖励分量进行叠加处理，确定反馈奖励时，具体包括：

获取模块601，用于获取样本对象对每个目标推荐项的退出预测率；

处理模块602，用于根据每个目标推荐项在会话内的累计推荐量，确定每个目标推荐项的历史退出率；

处理模块602，还用于根据推荐分数，对M个目标推荐项均设置轮询优先级，推荐分数越高，优先级越高；

处理模块602，还用于按照轮询优先级由高到低的顺序，从M个目标推荐项中确定待轮询目标推荐项；

若待轮询目标推荐项的历史退出率大于退出预测率，则处理模块602，还用于将待轮询目标推荐项的反馈奖励分量添加至奖励集合，确定下一个待轮询目标推荐项；

若待轮询目标推荐项的历史退出率不大于退出预测率，或所有目标推荐项均被确定为待轮询目标推荐项，则处理模块602，还用于停止轮询，将奖励集合中的所有反馈奖励分量相加得到反馈奖励。

在一种可能实施方式中，训练样本还包括退出标志位，退出标志位是根据M个目标推荐项的历史退出率和退出预测率确定的，退出标志位包括第一标志和第二标志，处理模块602，还用于若训练样本的退出标志位是第一标志，则停止生成关于样本对象的下一个训练样本；若训练样本的退出标志位是第二标志，则继续生成关于样本对象的下一个训练样本。

在一种可能实施方式中，第一对象信息包括样本对象的静态身份信息和第一历史行为信息，第一历史行为信息是样本对象在第一历史时间段内，对L个候选推荐项的历史反馈行为量，第二对象信息包括样本对象的静态身份信息和第二历史行为信息，第二历史行为信息是样本对象在第二历史时间段内，对L个候选推荐项的历史反馈行为量，在时间轴上第一历史时间段在第二历史时间段之前。

在一种可能实施方式中，模型处理装置还包括发送模块603，该方式中还包括：

获取模块，用于获取目标对象的对象信息和多媒体数据集合；多媒体数据集合包括S个多媒体数据，以及每个多媒体数据对应的N种反馈行为的初始预测概率，S为正整数，对象信息是根据目标对象的线上请求数据获取的；

处理模块602，用于调用训练后的融合权重模型对对象信息进行处理，确定N种反馈行为的目标融合权重集合；

处理模块602，还用于将每个多媒体数据的初始预测概率分别与目标融合权重集合进行加权求和运算，得到每个多媒体数据的目标推荐分数；

处理模块602，还用于根据每个多媒体数据的目标推荐分数，从S个多媒体数据中选取K个待推荐多媒体数据，K≤S；

发送模型603，用于将K个待推荐多媒体数据发送至目标对象所在的终端设备。

需要说明的是，本申请实施例的模型处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程及有益效果可以参照上述方法实施例的相关描述，在此不作赘述。

参见图7，是本申请实施例提供的一种电子设备的结构示意图。该电子设备包括：处理器701、存储装置702以及网络接口703。上述处理器701、存储装置702以及网络接口703之间可以进行数据交互。上述存储装置702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置702也可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，固态硬盘(solid-statedrive，SSD)等；上述存储装置702还可以包括上述种类的存储器的组合。上述处理器701可以是中央处理器(central processing unit，CPU)。在一个实施例中，上述存储装置702用于存储程序指令，上述处理器701可以调用上述程序指令，执行如下操作：

其中，由第一对象信息、融合权重集合、反馈奖励和第二对象信息组成的训练样本，用于训练融合权重模型，训练后的融合权重模型用于多媒体数据推荐。在一种可能实施方式中，处理器701，在用于根据融合权重集合和预测概率，从L个候选推荐项中选取M个目标推荐项时，具体包括：

将待处理候选推荐项的N种反馈行为的预测概率与融合权重集合进行加权求和运算，得到待处理候选推荐项的推荐分数，待处理候选推荐项是L个候选推荐项中的一个候选推荐项；

将L个候选推荐项的推荐分数按照从大到小的顺序排序，将前M个推荐分数对应的M个候选推荐项作为M个目标推荐项。

在一种可能实施方式中，待处理目标推荐项是M个目标推荐项中的一个目标推荐项，处理器701，在用于确定待处理目标推荐项的预测反馈行为时，具体包括：

获取第一预测策略以及第一预测策略的第一被选取概率，获取第二预测策略以及第二预测策略的第二被选取概率；第一预测策略和第二预测策略各不相同；

根据第一被选取概率和第二被选取概率，为待处理目标推荐项从第一预测策略和第二预测策略中选取目标预测策略；

根据目标预测策略，确定待处理目标推荐项的预测反馈行为。

在一种可能实施方式中，处理器701，在用于根据目标预测策略，确定待处理目标推荐项的预测反馈行为时，具体包括：

按照目标预测策略，确定待处理目标推荐项的每种反馈行为的模拟概率；

获取多个对象对待处理目标推荐项的N种反馈行为的线上反馈概率，以及获取多个对象对待处理目标推荐项的N种反馈行为的预测反馈概率；

根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对N个模拟概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率；

将N个目标概率组合为待处理目标推荐项的预测反馈行为。

在一种可能实施方式中，处理器701，在确定待处理目标推荐项的每种反馈行为的模拟概率时，具体包括：

当目标预测策略是第一预测策略时，将待处理目标推荐项的每种反馈行为的预测概率，作为待处理目标推荐项的每种反馈行为的模拟概率；或者，

当目标预测策略是第二预测策略时，分别确定待处理目标推荐项的每种反馈行为的反馈概率阈值，根据反馈概率阈值分别确定待处理目标推荐项的N种反馈行为的反馈概率区间，在N个反馈概率区间分别随机采样，确定待处理目标推荐项的每种反馈行为的模拟概率。

在一种可能实施方式中，处理器701，在用于根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对N个模拟概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率时，具体包括：

根据每个对象的N个线上反馈概率，确定每种反馈行为的线上反馈均值和线上反馈方差；

根据每个对象的N个预测反馈概率，确定每种反馈行为的预测反馈均值和预测反馈方差；

根据N个线上反馈方差和N个预测反馈方差，确定每种反馈行为的重要性权重；

根据每种反馈行为的重要性权重、每种反馈行为的线上反馈均值以及每种反馈行为的预测反馈均值，分别对N个模拟概率进行修正，得到待处理目标推荐项的N种反馈行为的目标概率。

在一种可能实施方式中，处理器701，在用于根据M个预测反馈行为确定反馈奖励时，具体包括：

将待处理目标推荐项的N个目标概率进行加权求和运算，得到待处理目标推荐项的反馈奖励分量；

对M个反馈奖励分量进行叠加处理，确定反馈奖励。

在一种可能实施方式中，处理器701，在用于对M个反馈奖励分量进行叠加处理，确定反馈奖励时，具体包括：

获取样本对象对每个目标推荐项的退出预测率；

根据每个目标推荐项在会话内的累计推荐量，确定每个目标推荐项的历史退出率；

根据推荐分数，对M个目标推荐项均设置轮询优先级，推荐分数越高，优先级越高；

按照轮询优先级由高到低的顺序，从M个目标推荐项中确定待轮询目标推荐项；

若待轮询目标推荐项的历史退出率大于退出预测率，则将待轮询目标推荐项的反馈奖励分量添加至奖励集合，确定下一个待轮询目标推荐项；

若待轮询目标推荐项的历史退出率不大于退出预测率，或所有目标推荐项均被确定为待轮询目标推荐项，则停止轮询，将奖励集合中的所有反馈奖励分量相加得到反馈奖励。

在一种可能实施方式中，训练样本还包括退出标志位，退出标志位是根据M个目标推荐项的历史退出率和退出预测率确定的，退出标志位包括第一标志和第二标志，处理器701还用于若训练样本的退出标志位是第一标志，则停止生成关于样本对象的下一个训练样本；若训练样本的退出标志位是第二标志，则继续生成关于样本对象的下一个训练样本。

在一种可能实施方式中，处理器701还用于：

获取目标对象的对象信息和多媒体数据集合；多媒体数据集合包括S个多媒体数据，以及每个多媒体数据对应的N种反馈行为的初始预测概率，S为正整数，对象信息是根据目标对象的线上请求数据获取的；

调用训练后的融合权重模型对对象信息进行处理，确定N种反馈行为的目标融合权重集合；

将每个多媒体数据的初始预测概率分别与目标融合权重集合进行加权求和运算，得到每个多媒体数据的目标推荐分数；

根据每个多媒体数据的目标推荐分数，从S个多媒体数据中选取K个待推荐多媒体数据，K≤S；

将K个待推荐多媒体数据发送至目标对象所在的终端设备。

具体实现中，本申请实施例中所描述的处理器701、存储装置702以及网络接口703可执行本申请实施例图3提供的模型处理方法的相关实施例中所描述的实现方式，在此不再赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的模型处理装置所执行的计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文图3、图5所对应实施例中的方法，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图3、图5所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型处理方法，其特征在于，所述方法包括：

获取样本对象的第一对象信息和推荐项候选集；所述推荐项候选集包括L个候选推荐项，以及每个候选推荐项对应的N种反馈行为的预测概率，L、N均为正整数，所述第一对象信息是根据所述样本对象的第一线上请求数据获取的；

调用融合权重模型对所述第一对象信息进行处理，确定所述N种反馈行为的融合权重集合；

根据所述融合权重集合和所述预测概率，从所述L个候选推荐项中选取M个目标推荐项，M≤L；

获取所述样本对象的第二对象信息，所述第二对象信息是根据所述样本对象的第二线上请求数据获取的，所述第一线上请求数据和所述第二线上请求数据分别对应的时间信息不同；

其中，由所述第一对象信息、所述融合权重集合、所述反馈奖励和所述第二对象信息组成的训练样本，用于训练所述融合权重模型，训练后的融合权重模型用于多媒体数据推荐。

2.根据权利要求1所述的方法，其特征在于，所述根据所述融合权重集合和所述预测概率，从所述L个候选推荐项中选取M个目标推荐项，包括：

将待处理候选推荐项的N种反馈行为的预测概率与所述融合权重集合进行加权求和运算，得到所述待处理候选推荐项的推荐分数，所述待处理候选推荐项是所述L个候选推荐项中的一个候选推荐项；

将所述L个候选推荐项的推荐分数按照从大到小的顺序排序，将前M个推荐分数对应的M个候选推荐项作为M个目标推荐项。

3.根据权利要求1所述的方法，其特征在于，待处理目标推荐项是所述M个目标推荐项中的一个目标推荐项，确定所述待处理目标推荐项的预测反馈行为的过程，包括：

获取第一预测策略以及所述第一预测策略的第一被选取概率，获取第二预测策略以及所述第二预测策略的第二被选取概率；所述第一预测策略和所述第二预测策略各不相同；

根据所述第一被选取概率和所述第二被选取概率，为所述待处理目标推荐项从所述第一预测策略和所述第二预测策略中选取目标预测策略；

根据所述目标预测策略，确定所述待处理目标推荐项的预测反馈行为。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标预测策略，确定所述待处理目标推荐项的预测反馈行为，包括：

按照所述目标预测策略，确定所述待处理目标推荐项的每种反馈行为的模拟概率；

获取多个对象对所述待处理目标推荐项的N种反馈行为的线上反馈概率，以及获取所述多个对象对所述待处理目标推荐项的N种反馈行为的预测反馈概率；

根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对N个模拟概率进行修正，得到所述待处理目标推荐项的N种反馈行为的目标概率；

将N个目标概率组合为所述待处理目标推荐项的预测反馈行为。

5.根据权利要求4所述的方法，其特征在于，所述确定所述待处理目标推荐项的每种反馈行为的模拟概率，包括：

当所述目标预测策略是第一预测策略时，将所述待处理目标推荐项的每种反馈行为的预测概率，作为所述待处理目标推荐项的每种反馈行为的模拟概率；或者，

当所述目标预测策略是第二预测策略时，分别确定所述待处理目标推荐项的每种反馈行为的反馈概率阈值，根据所述反馈概率阈值分别确定所述待处理目标推荐项的N种反馈行为的反馈概率区间，在N个反馈概率区间分别随机采样，确定所述待处理目标推荐项的每种反馈行为的模拟概率。

6.根据权利要求4所述的方法，其特征在于，所述根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率，对N个模拟概率进行修正，得到所述待处理目标推荐项的N种反馈行为的目标概率，包括：

根据所述每个对象的N个线上反馈概率，确定每种反馈行为的线上反馈均值和线上反馈方差；

根据所述每个对象的N个预测反馈概率，确定每种反馈行为的预测反馈均值和预测反馈方差；

根据所述每种反馈行为的重要性权重、所述每种反馈行为的线上反馈均值以及所述每种反馈行为的预测反馈均值，分别对所述N个模拟概率进行修正，得到所述待处理目标推荐项的N种反馈行为的目标概率。

7.根据权利要求4所述的方法，其特征在于，所述根据M个预测反馈行为确定反馈奖励，包括：

将所述待处理目标推荐项的N个目标概率进行加权求和运算，得到所述待处理目标推荐项的反馈奖励分量；

对M个所述反馈奖励分量进行叠加处理，确定所述反馈奖励。

8.根据权利要求7所述的方法，其特征在于，所述对M个所述反馈奖励分量进行叠加处理，确定所述反馈奖励，包括：

获取所述样本对象对每个目标推荐项的退出预测率；

根据所述每个目标推荐项在会话内的累计推荐量，确定所述每个目标推荐项的历史退出率；

根据所述推荐分数，对所述M个目标推荐项均设置轮询优先级，推荐分数越高，优先级越高；

按照轮询优先级由高到低的顺序，从所述M个目标推荐项中确定待轮询目标推荐项；

若所述待轮询目标推荐项的历史退出率大于退出预测率，则将所述待轮询目标推荐项的反馈奖励分量添加至奖励集合，确定下一个待轮询目标推荐项；

若所述待轮询目标推荐项的历史退出率不大于退出预测率，或所有目标推荐项均被确定为待轮询目标推荐项，则停止轮询，将所述奖励集合中的所有反馈奖励分量相加得到反馈奖励。

9.根据权利要求8所述的方法，其特征在于，所述训练样本还包括退出标志位，所述退出标志位是根据所述M个目标推荐项的历史退出率和退出预测率确定的，所述退出标志位包括第一标志和第二标志，所述方法还包括：

若所述训练样本的退出标志位是第一标志，则停止生成关于所述样本对象的下一个训练样本；

若所述训练样本的退出标志位是第二标志，则继续生成关于所述样本对象的下一个训练样本。

10.根据权利要求1所述的方法，其特征在于，所述第一对象信息包括所述样本对象的静态身份信息和第一历史行为信息，所述第一历史行为信息是所述样本对象在第一历史时间段内，对所述L个候选推荐项的历史反馈行为量，所述第二对象信息包括所述样本对象的所述静态身份信息和第二历史行为信息，所述第二历史行为信息是所述样本对象在第二历史时间段内，对所述L个候选推荐项的历史反馈行为量，在时间轴上所述第一历史时间段在所述第二历史时间段之前。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标对象的对象信息和多媒体数据集合；所述多媒体数据集合包括S个多媒体数据，以及每个多媒体数据对应的N种反馈行为的初始预测概率，S为正整数，所述对象信息是根据所述目标对象的线上请求数据获取的；

调用训练后的融合权重模型对所述对象信息进行处理，确定所述N种反馈行为的目标融合权重集合；

将每个多媒体数据的初始预测概率分别与所述目标融合权重集合进行加权求和运算，得到所述每个多媒体数据的目标推荐分数；

根据所述每个多媒体数据的目标推荐分数，从所述S个多媒体数据中选取K个待推荐多媒体数据，K≤S；

将所述K个待推荐多媒体数据发送至所述目标对象所在的终端设备。

12.一种模型处理装置，其特征在于，所述模型处理装置包括：

获取模块，用于获取样本对象的第一对象信息和推荐项候选集；所述推荐项候选集包括L个候选推荐项，以及每个候选推荐项对应的N种反馈行为的预测概率，L、N均为正整数，所述第一对象信息是根据所述样本对象的第一线上请求数据获取的；

处理模块，用于调用融合权重模型对所述第一对象信息进行处理，确定所述N种反馈行为的融合权重集合；

所述处理模块，还用于根据所述融合权重集合和所述预测概率，从所述L个候选推荐项中选取M个目标推荐项，M≤L；

所述处理模块，还用于分别确定每个目标推荐项的预测反馈行为，根据M个预测反馈行为确定反馈奖励；

所述获取模块，还用于获取所述样本对象的第二对象信息，所述第二对象信息是根据所述样本对象的第二线上请求数据获取的，所述第一线上请求数据和所述第二线上请求数据分别对应的时间信息不同；

13.一种电子设备，其特征在于，所述电子设备包括存储器、处理器，其中，所述存储器上存储模型处理程序，所述模型处理程序被所述处理器执行时实现如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使得所述处理器执行如权利要求1-11中任一项所述的方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现如权利要求1-11中任一项所述的方法的步骤。