CN112561554B

CN112561554B - 确定待展示的多媒体资源方法、装置、服务器及存储介质

Info

Publication number: CN112561554B
Application number: CN201910919271.XA
Authority: CN
Inventors: 高晓沨; 卢君苇; 杨超琪
Original assignee: Shanghai Jiaotong University; Tencent Technology Shenzhen Co Ltd
Current assignee: Shanghai Jiaotong University; Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2023-07-28
Anticipated expiration: 2039-09-26
Also published as: CN112561554A

Abstract

本发明公开了一种确定待展示的多媒体资源方法、装置、服务器及存储介质，属于互联网技术领域。所述方法包括：获取对多媒体资源进行展示的当前环境信息；将当前环境信息输入到多媒体资源竞价模型中，输出每个候选多媒体资源的竞标价格，多媒体资源竞价模型根据至少一个奖励函数独立训练得到；根据每个候选多媒体资源的竞标价格，确定待展示的多媒体资源。本发明根据所设置的至少一个目标，将总奖励函数拆分为至少一个奖励函数，并基于至少一个奖励函数训练多媒体资源竞价模型，使得根据所训练的多媒体资源竞价模型，确定的每个候选多媒体资源的竞标价格更准确，进一步提高了所确定待展示的多媒体资源的准确性。

Description

确定待展示的多媒体资源方法、装置、服务器及存储介质

技术领域

本发明涉及互联网技术领域，特别涉及一种确定待展示的多媒体资源方法、装置、服务器及存储介质。

背景技术

竞价广告是一种由用户自主投放、自主管理，通过调整价格来进行排名，按照广告效果付费的新型网络广告形式。在竞价广告场景下，对于海量的广告，如何确定待展示的广告，成为本领域技术人员亟需解决的问题。

目前，相关技术确定待展示的广告时，可采用如下方法：当接收到用户对指定广告位上广告的展示请求时，获取对多媒体资源进行展示的当前环境信息，该当前环境信息包括用户的特征信息、指定广告位的特征信息及各个广告的特征信息，并将当前环境信息输入到广告竞价模型中，输出每个广告的竞标价格，该广告竞价模型用于基于环境信息，确定每个广告的竞标价格，该广告竞价模型根据总奖励函数训练得到，总奖励函数为将在竞价广告场景下所设置的各个目标对应的奖励函数进行线性加权得到；基于每个广告的竞标价格，确定本次待展示的广告。

然而，对多个目标对应的奖励函数进行线性加权的前提是，各个目标并不互斥，但是在竞价广告场景下，各个目标之间经常是互斥的，导致基于总奖励函数所训练的广告竞价模型并不准确，进一步基于该广告竞价模型所确定的待展示的广告也并不准确。

发明内容

为了解决相关技术的问题，本发明实施例提供了一种确定待展示的多媒体资源方法、装置、服务器及存储介质。所述技术方案如下：

一方面，提供了一种确定待展示的多媒体资源方法，所述方法包括：

当接收到用户对指定多媒体展示位上多媒体资源的展示请求时，获取对多媒体资源进行展示的当前环境信息，所述当前环境信息包括用户的特征信息、指定多媒体展示位的特征信息及各个候选多媒体资源的特征信息；

将所述当前环境信息输入到多媒体资源竞价模型中，输出每个候选多媒体资源的竞标价格，所述多媒体资源竞价模型用于基于环境信息，确定多媒体资源的竞标价格，所述多媒体资源竞价模型根据至少一个奖励函数独立训练得到，每个奖励函数根据多媒体展示场景下所设置的每个目标构建；

根据每个候选多媒体资源的竞标价格，确定待展示的多媒体资源。

另一方面，提供了一种确定待展示的多媒体资源装置，所述装置包括：

获取模块，用于当接收到用户对指定多媒体展示位上多媒体资源的展示请求时，获取对多媒体资源进行展示的当前环境信息，所述当前环境信息包括用户的特征信息、指定多媒体展示位的特征信息及各个候选多媒体资源的特征信息；

输入输出模块，用于将所述当前环境信息输入到多媒体资源竞价模型中，输出每个候选多媒体资源的竞标价格，所述多媒体资源竞价模型用于基于环境信息，确定多媒体资源的竞标价格，所述多媒体资源竞价模型根据至少一个奖励函数独立训练得到，每个奖励函数根据多媒体展示场景下所设置的每个目标构建；

确定模块，用于根据每个候选多媒体资源的竞标价格，确定待展示的多媒体资源。

另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如确定待展示的多媒体资源方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现确定待展示的多媒体资源方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明根据所设置的至少一个目标，将总奖励函数拆分为至少一个奖励函数，并基于至少一个奖励函数训练多媒体资源竞价模型，使得根据所训练的多媒体资源竞价模型，确定的每个候选多媒体资源的竞标价格更准确，进一步提高了所确定待展示的多媒体资源的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种广告系统；

图2是本发明实施例提供的一种传统的A3C模型的示意图；

图3是本发明实施例提供的一种MoTiAC模型的示意图；

图4是本发明实施例提供的一种训练多媒体资源竞价模型的方法流程图；

图5是本发明实施例提供的一种确定待展示的多媒体资源方法流程图；

图6是本发明实施例提供的一种确定待展示的多媒体资源装置结构示意图；

图7是根据一示例性实施例示出的一种用于确定待展示的多媒体资源的服务器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1，其示出了一种广告系统，参见图1，该系统分为用户侧、广告侧及展示侧。

其中，用户侧包括至少一个用户，每个用户可通过终端向展示侧发送对广告的展示请求，并浏览展示侧所返回的广告。

广告侧包括出版商(Publisher)、SSP(Supply Side Platform，供给侧平台)、DMP(Data Management Platform，数据管理单元)、ADX(Ad Exchange，广告交易系统)及DSP(Demand Side Platform，需求侧平台)等。其中，SSP用于帮助拥有流量的用户快速搭建供给方平台，从而实现专业、高效、高回报的流量回报。DMP能够帮助所有涉及广告库存购买和出售的各方管理其数据、更方便地使用第三方数据、增强对所有这些数据的理解、传回数据或将定制数据传入某一平台，以进行更好地定位。ADX是一种互联网广告交易平台，可以联系广告主和广告位拥有方，帮助两方完成投放广告的交易。DSP可以收集能够展示广告的多个广告位以及广告主待投放的多个广告，按照不同的组合方式将任一广告与任一广告位进行组合，从而制定多种投放策略，每种投放策略均确定了每个广告位上要投放的广告。

广告侧包括至少一个广告主，每个广告主可将广告投放在DSP平台，由DSP对广告的展示进行决策。

基于图1所示的广告系统，广告的展示过程为：当接收到用户对指定广告位上广告的展示请求时，展示侧浏览器端的Publisher向SSP提出请求，SSP将展示请求所携带的信息发送给ADX，接收到SSP发送的信息后，ADX向DMP发送请求，以请求DMP获取指定广告位上的特征信息及用户的特征信息，将获取到的信息整理后发送至DSP。DSP接收ADX发送的信息，并结合每条广告的特征信息，进行CTR(点击率)和CVR(转化率)的预估以及曝光的评价等等，最终进入广告竞价环节，基于所训练的模型，挑选出衡量结果最好的广告发送至Publisher展示给用户。目前，在广告竞价环节，通常采用GSP(Generalized Second Price，二价博弈)挑选出衡量结果最好的广告。在竞价过程中，DSP平台可根据每条广告的特征信息、广告位的特征信息及用户的特征信息，确定每一条广告的竞标价格，进而将竞标价格最高的广告，确定为待展示的广告，将第二高的竞标价格确定为该待展示的广告的价格。

在竞价广告场景下，可设置两个目标，一个为投资回报率目标，另一个为成交总额目标，基于所设置的两个目标在训练模型时，相关技术通常采用奖励组合(RewardCombination)的方式进行训练，即利用线性加权的方式将多个目标合并成一个目标。进行线性组合时，每一个权重用于量化不同目标之间的相对重要性。然而，采用该种方式存在以下几个问题：

第一、对多个目标进行线性加权的前提是，各个目标并不互斥，但是在竞价广告场景下，各个目标之间经常是互斥的。

第二、将至少一个目标进行组合，会使得每个目标的最终的梯度被抵消，从而缩小的搜索空间。

第三、将至少一个目标组合进行组合时，可能很难找到相应的权重值，特别是在高度动态的环境之中，整合成一个单目标的总奖励函数，低维的向量表征可能很难被一个状态价值函数逼近，导致学习过程可能会非常缓慢和不稳定。

针对模型训练过程中，奖励组合存在的问题，本发明实施例提出了奖励拆分(Reward Partition)的机制，根据所设置每个目标，分别构建一个奖励函数。

为了实现奖励拆分机制，本发明实施例在传统的A3C网络基础上，对传统的A3C网络进行改进，将传统的A3C网络进行了扩展，根据所设置的目标，将同一子网络拆分成了多目标的子网络，得到MoTiAC(Multi-objective Actor-Critic)网络。对于传统A3C网络和MoTiAC网络之间的结构差别，下面将结合图2和图3进行说明。

图2示出了传统的A3C网络，参见图2，A3C网络包括一个全局网络和至少一个并行的Actor-Critic网络。在基于传统A3C网络，对奖励组合方式确定的总奖励函数进行搜索时，各个Actor-Critic网络同时进行搜索，并异步得到的全局网络中各个参数的梯度更新给全局网络。每次在进行更新时，各个Actor-Critic网络从全局网络拷贝上次更新的参数即可。传统A3C网络中多个完全相同的局部网络分别各自探索，再把各自学到的梯度更新给全局网络，通过全局网络实现同步。

图3示出了MoTiAC网络，参见图3，该MoTiAC网络包括一个全局网络，该全局网络包括一个Actor和多个Critic，每个Critic与Actor构成一个子网络，每个子网络对应一个目标，用于对该目标进行搜索。基于该MoTiAC网络结构，每个Actor-Critic子网络只会根据各自的目标进行搜索，且在搜索时同时只使用环境中与目标相关的一小部分的状态表征。每次在进行更新时，每个Actor-Critic子网络会从全局网络拷贝子网络的参数，进而基于拷贝的参数进行搜索。MoTiAC网络中不同组的子网络分别搜索各自的目标，在学习到相应参数的梯度时，采用异步更新策略，通过加权函数将学习到的梯度推送至全局网络的Actor和Critics，以对全局网络的参数进行更新。

本发明实施例提供的MoTiAC网络具有以下优点：

首先，不同目标对应的奖励函数隐式组合，从而避免不同的目标之间互斥而发生冲突，使得不同目标之间的冲突可以得以缓解。

其次，每个Actor-Critic子网络各自搜索各自的目标，避免不同Actor-Critic子网络搜索的梯度互相抵消，从而扩大了搜索空间。

再次，由于每个Actor-Critic子网络针对每个目标分别进行搜索，从而无需对各个目标的奖励函数进行组合，因此，不需要学习一个比较复杂的组合函数，学习起来更容易。

需要说明的是，本发明实施例中所述的多媒体资源竞价模型也即是上述所述的MoTiAC网络。

本发明实施例提供了一种训练多媒体资源竞价模型的方法流程图，参见图4，本发明实施例提供方法流程包括：

401、服务器获取训练样本环境信息。

其中，训练样本环境信息包括训练样本用户的特征信息、训练样本多媒体展示位的特征信息及各个训练样本多媒体资源的特征信息。训练样本用户的特征信息包括训练样本用户的年龄、性别、浏览习惯等。训练样本多媒体展示位的特征信息包括训练样本多媒体所能展示的多媒体资源的类型(例如，网页类多媒体资源、应用类多媒体资源等)、所展示的历史多媒体资源等。训练样本多媒体资源的特征信息包括训练多媒体资源的展示次数、点击率、转化率、多媒体资源的拥有者(例如广告商)所设置的理论竞标价格等，每个训练样本多媒体资源对应一个参考竞标价格。

402、服务器根据多媒体展示场景下所设置的至少一个目标，构建至少一个奖励函数。

基于在多媒体展示场景下所设置的目标，服务器构建相应的奖励函数，每个奖励函数的因变量为所设置的目标，子变量为多媒体竞价模型中与该目标相应的子模型的模型参数，该模型参数通常为多个特征组成的向量。

403、服务器获取初始多媒体资源竞价模型。

其中，初始多媒体竞价模型可以为深度学习模型中一种，该初始多媒体资源竞价模型包括至少一个子模型，每个子模型与一个奖励函数对应。

404、服务器根据训练样本环境信息和至少一个奖励函数，确定不同子模型的模型参数的梯度值。

服务器根据训练样本环境信息和至少一个奖励函数，确定不同子模型的模型参数的梯度值时，可采用如下方法：

4041、对于任一子模型，服务器从初始多媒体资源竞价模型中获取每个子模型的初始模型参数。

在对初始多媒体资源竞价模型进行训练之前，服务器可从初始多媒体资源竞价模型中获取每个子模型的初始模型参数，并将获取的初始模型参数赋予各个子模型，从而使得各个子模型能够在各自环境中为每个训练样本多媒体资源搜索竞标价格，以实现每个子模型对应的目标。

4042、服务器将训练样本环境信息输入到子模型中，输出每个训练样本多媒体资源的预测竞标价格。

服务器将训练样本环境信息输入到子模型中，该子模型基于所输入的训练样本环境信息，从中选取与实现该子模型对应的目标相关的信息，进而基于所选取的信息及初始模型参数进行搜索，得到每个训练样本多媒体资源的预测竞标价格。

4043、服务器根据每个训练样本多媒体资源的预测竞标价格和子模型对应的奖励函数，确定子模型的模型参数的梯度值。

服务器根据每个训练样本多媒体资源的预测竞标价格和参考竞标价格，确定奖励函数的函数值，并通过对子模型的模型参数求梯度，可得到子模型的模型参数的梯度值，该子模型的模型参数的梯度值为从初始多媒体资源竞价模型中获取的初始模型参数与本次搜索得到的模型参数之间的误差。

405、服务器根据每个子模型的模型参数的梯度值，对初始多媒体资源竞价模型的模型参数进行更新，得到多媒体资源竞价模型。

服务器根据每个子模型的模型参数的梯度值，对初始多媒体资源竞价模型的模型参数进行更新，得到多媒体资源竞价模型时，可采用如下方法：

4051、服务器确定每个子模型的模型参数对应的权重值。

在对多媒体资源竞价模型进行更新时，本发明实施例根据多媒体展示场景下每个目标的重要程度，确定每个子模型的模型参数对应的权重值，且各个子模型的模型参数对应的权重值总和为1。例如，在媒体展示场景下设置投资回报率目标和成交总额两个目标，根据实际需求，设定投资回报率目标的重要程度比成交总额目标的重要程度要大，因此，可将投资回报率目标对应的子模型的模型参数的权重值相比于成交总额目标对应的子模型的模型参数的权重值要大，且需要保证投资回报率目标对应的子模型的模型参数的权重值与成交总额目标对应的子模型的模型参数的权重值之和为1。

4052、服务器根据每个子模型的模型参数对应的权重值，对每个子模型的模型参数的梯度值进行加权计算，得到初始多媒体资源竞价模型的模型参数的梯度值。

服务器根据每个子模型的模型参数对应的权重值，通过对每个子模型的模型参数的梯度值进行加权计算，可得到初始多媒体资源竞价模型的模型参数的梯度值。

例如，设定在媒体展示场景下设置投资回报率目标和成交总额两个目标，其中，一天内的决策轨迹记为τ，投资回报率目标对应的奖励函数为Reward₁(τ)，投资回报率对应的子模型的模型参数的权重值为λ^j(t)，成交总额目标对应的奖励函数为Reward₂(τ)，成交总额目标对应的子模型的模型参数的权重值为1-λ^j(t)，则第t轮使用广告j进行训练时，

对投资回报率对应的子模型的模型参数的梯度值进行加权计算的过程可表示为：

对投资总额对应的子模型的模型参数的梯度值进行加权计算的过程可表示为：

其中，λ^j(t)是一个优先级函数，随着时间变化，其值域在0和1之间，并且可以根据多媒体展示场景下每个目标的重要程度的变化而变化；η是学习率；表示Reward_i(τ)的期望的梯度。

本发明实施例通过设置λ^j(t)解决了多目标问题的难点。首先，λ^j(t)可根据CPA目标和转化目标向全局网络更新参数；其次，在多媒体资源不同及波动场景下，可基于优先级函数λ^j(t)，利用不同的子网络达到不同的目标，同时对于全局网络参数θ的改变依赖程度降低，更多聚焦于不同目标本身，这也意味着MoTiAC网络可以做到更加广度的探索，从而达到一个多目标之间的平衡。

4053、服务器根据初始多媒体资源竞价模型的模型参数的梯度值，对初始多媒体资源竞价模型的模型参数进行更新，得到多媒体资源竞价模型。

基于所获取的初始多媒体资源竞价模型的模型参数的梯度值，服务器根据该初始多媒体资源竞价模型的模型参数的梯度值，对初始多媒体资源竞价模型的模型参数进行更新，可得到多媒体资源竞价模型。

以下需要说明两点：

第一点、本发明实施例提供的奖励拆分机制，不仅可以应用于多媒体资源展示场景，还可以应用于其他场景，当奖励拆分机制应用于其他场景，目标可根据具体场景设定，例如，在游戏场景下，游戏中的存活时间、购买装备等等均作为目标而进行相应的奖励分拆。

第二点、本发明实施例中的权重值设置方案是根据不同多媒体资源的特征及目标进行设置，在其他场景中，各个目标的权重值可以是相同的。

采用本发明实施例提供的方法训练的多媒体资源竞价模型，具有以下优势：一方面，对于CPA目标，通过不同的子网络与环境进行交互来学习如何得到更低的平均实际CPA。

另一方面，另一组子网络根据转化量目标将相应的梯度更新给全局网络。针对某一目标的子网络并行运行，会探索到环境的不同部分，获取不同层次的信息。另外，对于每个目标来说，也可能学到不同的最优策略来使候选策略集更加多样化。总的来说，本发明实施例训练的模型，基于宏观和微观两种维度情况下的探索，可以得到一个更好的策略。

对于宏观维度，在RTB(Real Time Bidding，实时竞价)的问题中，最优化每个目标，并通过设置权重值，以满足不同场景下的训练需求。

对于微观维度，同一个组中的子网络将会学习去搜索同一目标，往往可以同时学到针对同一个目标的不同策略，这个并行性使得智能体能够在给定的时间步内经历许多不同的状态。例如，给定一个具有较高平均CPA的广告，并行的智能体可以把竞价环节控制在不同的层次中，然后根据各自的奖励函数连续地更新全局网络。当一个相似的场景出现的时，全局网络可根据之前的处理结果，快速得出结果。除了可以精确地校准不同目标的参数以外，还可以降低训练的时间，从而在一种更加稳定的条件下使用在线强化学习的方法。采用该种方法，可以达到更深层的搜索效果。另外，在模型的训练中，采用Adam优化器计算每个子网络的梯度，随着更新过程的进行，可在多目标之间得到具有鲁棒性的策略。

本发明实施例提供了一种确定待展示的多媒体资源方法流程图，参见图5，本发明实施例提供方法流程包括：

501、当接收到用户对指定多媒体展示位上多媒体资源的展示请求时，服务器获取对多媒体资源进行展示的当前环境信息。

其中，当前环境信息包括用户的特征信息、指定多媒体展示位的特征信息及各个候选多媒体资源的特征信息。

502、服务器将当前环境信息输入到多媒体资源竞价模型中，输出每个候选多媒体资源的竞标价格。

基于所获取的当前环境信息，服务器将当前环境信息输入到多媒体资源竞价模型中，输出每个候选多媒体资源的竞标价格。其中，多媒体资源竞价模型用于基于环境信息，确定多媒体资源的竞标价格，多媒体资源竞价模型根据至少一个奖励函数独立训练得到，每个奖励函数根据多媒体展示场景下所设置的每个目标构建。

503、服务器根据每个候选多媒体资源的竞标价格，确定待展示的多媒体资源。

服务器根据每个候选多媒体资源的竞标价格，确定待展示的多媒体资源时，可采用如下方法：

5031、服务器对各个候选多媒体资源的竞标价格进行排序。

服务器根据每个候选多媒体资源的竞标价格，按照由高到低的顺序，对各个候选多媒体资源的竞标价格进行排序，得到排序结果。

5032、服务器将竞标价格最高的候选多媒体资源，确定为待展示的多媒体资源。

基于得到的排序结果，服务器获取最高的竞标价格，并将竞标价格最高的候选多媒体资源，确定为待展示的多媒体资源，并基于GSP策略，将第二高的竞标价格作为该待展示的多媒体资源的价格。

对于本发明实施提供的方法所产生的效果，下面将以某一广告平台上2019年1月7日到2019年1月11日5天的真实的点击日志进行说明。其中，该广告平台上的广告分为两种类型，分别为html5广告和手机app广告，在此实验中不加区分。设定每天的广告数量大约是10000条，共占磁盘13GB，当然，还可以有其他的一些支持性文件。这些支持性文件中最重要的是两种文件：一个是点击日志文件，每个广告有一个点击日志文件，每一行是一条点击日志，包含日期、产品型号、广告站点、广告序号、预估转化率、预估点击率、点击事件、目标CPA等等；另一个是回流转化词表，该文件由广告商提供，包含了每个时间段的广告转化数。在实验时使用5-fold交叉验证，4天的数据用于训练，剩下1天的数据用于测试。本次实验在两台服务器上进行，一台服务器拥有128GB内存和56个CPU，另一台服务器拥有128GB内存和32个CPU。其中所得到的数据统计结果如下：

表1

表2

其中，表1为采用本发明实施例提供的方法平台上5天内总广告数量、总点击数量及总转化数量的数据，表2为采用不同模型进行训练时，投资回报率和成交总额的数据。通过上述两个表格可以看出，采用本发明实施例提供的MoTiAC可以取得很好的效果。

本发明实施例提供的方法，本发明根据所设置的至少一个目标，将总奖励函数拆分为至少一个奖励函数，并基于至少一个奖励函数训练多媒体资源竞价模型，使得根据所训练的多媒体资源竞价模型，确定的每个候选多媒体资源的竞标价格更准确，进一步提高了所确定待展示的多媒体资源的准确性。

参见图6，本发明实施例提供了一种确定待展示的多媒体资源装置，该装置包括：

获取模块601，用于当接收到用户对指定多媒体展示位上多媒体资源的展示请求时，获取对多媒体资源进行展示的当前环境信息，当前环境信息包括用户的特征信息、指定多媒体展示位的特征信息及各个候选多媒体资源的特征信息；

输入输出模块602，用于将当前环境信息输入到多媒体资源竞价模型中，输出每个候选多媒体资源的竞标价格，多媒体资源竞价模型用于基于环境信息，确定多媒体资源的竞标价格，多媒体资源竞价模型根据至少一个奖励函数独立训练得到，每个奖励函数根据多媒体展示场景下所设置的每个目标构建；

确定模块603，用于根据每个候选多媒体资源的竞标价格，确定待展示的多媒体资源。

在本发明的另一个实施例中，该装置还包括：

获取模块601，用于获取训练样本环境信息，训练样本环境信息包括训练样本用户的特征信息、训练样本多媒体展示位的特征信息及各个训练样本多媒体资源的特征信息，每个训练样本多媒体资源对应一个参考竞标价格；

构建模块，用于根据多媒体展示场景下所设置的至少一个目标，构建至少一个奖励函数；

获取模块601，用于获取初始多媒体资源竞价模型，初始多媒体资源竞价模型包括至少一个子模型，每个子模型与一个奖励函数对应；

确定模块603，用于根据训练样本环境信息和至少一个奖励函数，确定不同子模型的模型参数的梯度值；

更新模块，用于根据每个子模型的模型参数的梯度值，对初始多媒体资源竞价模型的模型参数进行更新，得到多媒体资源竞价模型。

在本发明的另一个实施例中，确定模块603，用于对于任一子模型，从初始多媒体资源竞价模型中获取每个子模型的初始模型参数；将训练样本环境信息输入到子模型中，输出每个训练样本多媒体资源的预测竞标价格；根据每个训练样本多媒体资源的预测竞标价格和子模型对应的奖励函数，确定子模型的模型参数的梯度值。

在本发明的另一个实施例中，更新模块，用于确定每个子模型的模型参数对应的权重值；根据每个子模型的模型参数对应的权重值，对每个子模型的模型参数的梯度值进行加权计算，得到初始多媒体资源竞价模型的模型参数的梯度值；根据初始多媒体资源竞价模型的模型参数的梯度值，对初始多媒体资源竞价模型的模型参数进行更新，得到多媒体资源竞价模型。

在本发明的另一个实施例中，更新模块，用于根据多媒体展示场景下每个目标的重要程度，确定每个子模型的模型参数对应的权重值。

在本发明的另一个实施例中，确定模块603，用于对各个候选多媒体资源的竞标价格进行排序；将竞标价格最高的候选多媒体资源，确定为待展示的多媒体资源。

综上所述，本发明实施例提供的装置，根据所设置的至少一个目标，将总奖励函数拆分为至少一个奖励函数，并基于至少一个奖励函数训练多媒体资源竞价模型，使得根据所训练的多媒体资源竞价模型，确定的每个候选多媒体资源的竞标价格更准确，进一步提高了所确定待展示的多媒体资源的准确性。

图7是根据一示例性实施例示出的一种用于确定待展示的多媒体资源的服务器。参照图7，服务器700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行上述确定待展示的多媒体资源方法中服务器所执行的功能。

服务器700还可以包括一个电源组件726被配置为执行服务器700的电源管理，一个有线或无线网络接口750被配置为将服务器700连接到网络，和一个输入输出(I/O)接口758。服务器700可以操作基于存储在存储器732的操作系统，例如Windows Server^TM，Mac OSX^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

本发明实施例提供的服务器，根据所设置的至少一个目标，将总奖励函数拆分为至少一个奖励函数，并基于至少一个奖励函数训练多媒体资源竞价模型，使得根据所训练的多媒体资源竞价模型，确定的每个候选多媒体资源的竞标价格更准确，进一步提高了所确定待展示的多媒体资源的准确性。

本发明实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图5所示的确定待展示的多媒体资源方法。

本发明实施例提供的计算机可读存储介质，根据所设置的至少一个目标，将总奖励函数拆分为至少一个奖励函数，并基于至少一个奖励函数训练多媒体资源竞价模型，使得根据所训练的多媒体资源竞价模型，确定的每个候选多媒体资源的竞标价格更准确，进一步提高了所确定待展示的多媒体资源的准确性。

需要说明的是：上述实施例提供的确定待展示的多媒体资源装置在确定待展示的多媒体资源时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将确定待展示的多媒体资源装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的确定待展示的多媒体资源方法与确定待展示的多媒体资源装置实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定待展示的多媒体资源方法，其特征在于，所述方法包括：

将所述当前环境信息输入到多媒体资源竞价模型中，输出每个候选多媒体资源的竞标价格，所述多媒体资源竞价模型用于基于环境信息，确定多媒体资源的竞标价格；

根据每个候选多媒体资源的竞标价格，确定待展示的多媒体资源；

其中，所述多媒体资源竞价模型的训练过程，包括：

获取训练样本环境信息，所述训练样本环境信息包括训练样本用户的特征信息、训练样本多媒体展示位的特征信息及各个训练样本多媒体资源的特征信息，每个训练样本多媒体资源对应一个参考竞标价格；

根据多媒体展示场景下所设置的多个目标，构建多个奖励函数；

获取初始多媒体资源竞价模型，所述初始多媒体资源竞价模型包括多个子模型，每个子模型与一个奖励函数对应；

根据所述训练样本环境信息和所述多个奖励函数，确定不同子模型的模型参数的梯度值；

根据每个子模型的模型参数的梯度值，对所述初始多媒体资源竞价模型的模型参数进行更新，得到所述多媒体资源竞价模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本环境信息和所述多个奖励函数，确定不同子模型的模型参数的梯度值，包括：

对于任一子模型，从所述初始多媒体资源竞价模型中获取每个子模型的初始模型参数；

将所述训练样本环境信息输入到所述子模型中，输出每个训练样本多媒体资源的预测竞标价格；

根据每个训练样本多媒体资源的预测竞标价格和所述子模型对应的奖励函数，确定所述子模型的模型参数的梯度值。

3.根据权利要求1所述的方法，其特征在于，所述根据每个子模型的模型参数的梯度值，对所述初始多媒体资源竞价模型的模型参数进行更新，得到所述多媒体资源竞价模型，包括：

确定每个子模型的模型参数对应的权重值；

根据每个子模型的模型参数对应的权重值，对每个子模型的模型参数的梯度值进行加权计算，得到所述初始多媒体资源竞价模型的模型参数的梯度值；

根据所述初始多媒体资源竞价模型的模型参数的梯度值，对所述初始多媒体资源竞价模型的模型参数进行更新，得到所述多媒体资源竞价模型。

4.根据权利要求3所述的方法，其特征在于，所述确定每个子模型的模型参数对应的权重值，包括：

根据多媒体展示场景下每个目标的重要程度，确定每个子模型的模型参数对应的权重值。

5.根据权利要求1所述的方法，其特征在于，所述根据每个候选多媒体资源的竞标价格，确定待展示的多媒体资源，包括：

对各个候选多媒体资源的竞标价格进行排序；

将竞标价格最高的候选多媒体资源，确定为待展示的多媒体资源。

6.一种确定待展示的多媒体资源装置，其特征在于，所述装置包括：

输入输出模块，用于将所述当前环境信息输入到多媒体资源竞价模型中，输出每个候选多媒体资源的竞标价格，所述多媒体资源竞价模型用于基于环境信息，确定多媒体资源的竞标价格；

确定模块，用于根据每个候选多媒体资源的竞标价格，确定待展示的多媒体资源；

所述获取模块，还用于获取训练样本环境信息，所述训练样本环境信息包括训练样本用户的特征信息、训练样本多媒体展示位的特征信息及各个训练样本多媒体资源的特征信息，每个训练样本多媒体资源对应一个参考竞标价格；

构建模块，用于根据多媒体展示场景下所设置的多个目标，构建多个奖励函数；

所述获取模块，还用于获取初始多媒体资源竞价模型，所述初始多媒体资源竞价模型包括多个子模型，每个子模型与一个奖励函数对应；

所述确定模块，还用于根据所述训练样本环境信息和所述多个奖励函数，确定不同子模型的模型参数的梯度值；

更新模块，用于根据每个子模型的模型参数的梯度值，对所述初始多媒体资源竞价模型的模型参数进行更新，得到所述多媒体资源竞价模型。

7.根据权利要求6所述的装置，其特征在于，所述确定模块，用于对于任一子模型，从所述初始多媒体资源竞价模型中获取每个子模型的初始模型参数；将所述训练样本环境信息输入到所述子模型中，输出每个训练样本多媒体资源的预测竞标价格；根据每个训练样本多媒体资源的预测竞标价格和所述子模型对应的奖励函数，确定所述子模型的模型参数的梯度值。

8.根据权利要求6所述的装置，其特征在于，所述更新模块，用于确定每个子模型的模型参数对应的权重值；根据每个子模型的模型参数对应的权重值，对每个子模型的模型参数的梯度值进行加权计算，得到所述初始多媒体资源竞价模型的模型参数的梯度值；根据所述初始多媒体资源竞价模型的模型参数的梯度值，对所述初始多媒体资源竞价模型的模型参数进行更新，得到所述多媒体资源竞价模型。

9.根据权利要求8所述的装置，其特征在于，所述更新模块，用于根据多媒体展示场景下每个目标的重要程度，确定每个子模型的模型参数对应的权重值。

10.根据权利要求6所述的装置，其特征在于，所述确定模块，用于对各个候选多媒体资源的竞标价格进行排序；将竞标价格最高的候选多媒体资源，确定为待展示的多媒体资源。

11.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5中任一项所述的确定待展示的多媒体资源方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至5中任一项所述的确定待展示的多媒体资源方法。