CN113918826B

CN113918826B - 投放信息处理方法、资源预测模型训练方法及装置

Info

Publication number: CN113918826B
Application number: CN202111529876.1A
Authority: CN
Inventors: 张弛; 郭远; 李怀宇; 谢淼; 林子钏; 杨森; 刘霁
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25
Anticipated expiration: 2041-12-15
Also published as: WO2023109025A1; CN113918826A

Abstract

本公开关于一种投放信息处理方法、资源预测模型训练方法及装置，所述方法包括：确定目标投放信息在当前投放周期的起始状态特征信息；获取资源预测模型；所述资源预测模型包括条件变分自编码网络和预测执行网络；将起始状态特征信息，输入到所述条件变分自编码网络进行资源预测，得到第一资源；将起始状态特征信息，以及所述第一资源输入到所述预测执行网络进行资源预测，得到第二资源；基于所述第一资源和所述第二资源得到所述目标投放信息对应的目标资源；所述目标资源为使得所述目标投放信息在所述当前投放周期的投放收益满足目标投放收益的预测资源。本公开能够提高资源分配的合理性，进而提高投放信息遴选的效率。

Description

投放信息处理方法、资源预测模型训练方法及装置

技术领域

本公开涉及信息处理技术领域，尤其涉及一种投放信息处理方法、资源预测模型训练方法及装置。

背景技术

在信息投放系统中，不断有新的投放信息上传到系统中等待投放；为了从大量新上传的投放信息中快速甄别出潜力较大的投放信息，信息投放平台一般会给新上传的投放信息分配相应的冷启动资源，以使其获得更大的投放机会。

相关技术中，冷启动资源一般是直接基于点击/转化单价以及ctr（click throughrate，点击率）进行计算得到的，并没有考虑到新上传的投放信息在投放平台的长期收益问题，并且由于新上传的投放信息曝光行为较少，导致其ctr的计算不准确，相应计算得到的冷启动资源也是不准确的；从而由于冷启动资源的计算不准确，以及没有考虑到投放信息长期收益的问题，导致基于冷启动资源进行信息投放之后所确定的投放信息遴选结果是不合理的。

发明内容

本公开提供一种投放信息处理方法、资源预测模型训练方法及装置，以至少解决相关技术中冷启动资源分配，以及投放信息遴选结果不合理的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种投放信息处理方法，包括：

确定目标投放信息在当前投放周期的起始状态特征信息；所述目标投放信息在所述当前投放周期的起始状态特征信息基于所述目标投放信息在上一投放周期的起始状态特征信息，和所述目标投放信息在所述上一投放周期的投放结果信息得到；所述起始状态特征信息包括所述目标投放信息在所述当前投放周期之前的历史投放结果信息，以及所述目标投放信息的属性信息；

获取资源预测模型；所述资源预测模型包括条件变分自编码网络和预测执行网络；

将所述目标投放信息在所述当前投放周期的起始状态特征信息，输入到所述条件变分自编码网络进行资源预测，得到第一资源；

将所述目标投放信息在所述当前投放周期的起始状态特征信息，以及所述第一资源输入到所述预测执行网络进行资源预测，得到第二资源；

基于所述第一资源和所述第二资源得到所述目标投放信息对应的目标资源；所述目标资源为使得所述目标投放信息在所述当前投放周期的投放收益满足目标投放收益的预测资源。

在一可选实施例中，所述确定目标投放信息在当前投放周期的起始状态特征信息包括：

获取所述目标投放信息在所述上一投放周期的起始状态特征信息；所述在上一投放周期的起始状态特征信息包括所述目标投放信息在所述上一投放周期之前的历史投放结果信息；

基于所述目标投放信息在所述上一投放周期的投放结果信息，对所述历史投放结果信息进行更新，确定所述目标投放信息在所述当前投放周期的起始状态特征信息。

在一可选实施例中，所述在上一投放周期的起始状态特征信息还包括投放设置信息以及所述目标投放信息的类别信息；所述投放设置信息用于对多项待投放信息进行排序；

所述基于所述目标投放信息在所述上一投放周期的投放结果信息，对所述历史投放结果信息进行更新，确定所述目标投放信息在所述当前投放周期的起始状态特征信息，包括：

基于所述投放设置信息、所述类别信息，以及更新后的历史投放结果，生成所述目标投放信息在所述当前投放周期的起始状态特征信息。

在一可选实施例中，所述方法还包括：

基于各项待投放信息在所述当前投放周期内的预测资源，计算所述当前投放周期内的资源均值和资源方差；

根据所述资源均值、所述资源方差，以及所述目标资源，计算与所述目标资源对应的归一化系数；

基于所述归一化系数以及预设资源量，确定在所述当前投放周期内为所述目标投放信息分配的实际资源；

基于所述各项待投放信息的实际资源，对所述各项待投放信息进行排序，得到排序结果。

在一可选实施例中，所述基于各项待投放信息的实际资源，对所述各项待投放信息进行排序，得到排序结果，包括：

基于所述各项待投放信息的投放设置信息，以及所述各项待投放信息的实际资源，对所述各项待投放信息进行排序，得到所述排序结果。

在一可选实施例中，所述方法还包括：

基于所述排序结果，在所述当前投放周期内进行信息投放。

在一可选实施例中，所述方法还包括：

获取所述目标投放信息在所述当前投放周期内的投放结果信息；所述投放结果信息包括转化数据，以及投放消耗数据；

对所述投放转化数据以及所述投放消耗数据进行加权求和，得到所述目标投放信息在所述当前投放周期内的投放收益。

根据本公开实施例的第二方面，提供一种资源预测模型训练方法，包括：

获取样本数据；所述样本数据包括样本投放信息在每个历史投放周期内的起始状态特征信息，以及历史资源；所述起始状态特征信息用于表征所述样本投放信息在每个历史投放周期的起始时刻之前的历史投放特征；

基于所述起始状态特征信息以及所述历史资源对预设条件变分自编码网络进行训练，得到目标条件变分自编码网络；

将所述目标条件变分自编码网络对所述历史资源的编码信息，以及所述起始状态特征信息，输入到预设预测执行网络进行资源预测，得到与所述历史资源对应的预测资源；

基于所述历史资源、所述历史资源对应的预测资源，以及目标预测分析网络对所述预设预测执行网络进行训练，得到目标预测执行网络；所述目标预测执行网络预测得到的预测资源为使得待投放信息在投放周期的投放收益满足目标投放收益的资源；

基于所述目标条件变分自编码网络以及所述目标预测执行网络，得到资源预测模型。

在一可选实施例中，所述基于所述起始状态特征信息以及所述历史资源对预设条件变分自编码网络进行训练，得到目标条件变分自编码网络，包括：

将所述起始状态特征信息以及所述历史资源输入到所述预设条件变分自编码网络，通过所述预设条件变分自编码网络对所述起始状态特征信息以及所述历史资源的数据分布信息进行拟合，得到概率分布信息，以及通过所述预设条件变分自编码网络对所述历史资源进行编码，得到与所述历史资源对应的编码信息；

基于所述概率分布信息、所述历史资源、以及与所述历史资源对应的编码信息，对所述预设条件变分自编码网络进行训练，得到所述目标条件变分自编码网络。

在一可选实施例中，所述基于所述概率分布信息、所述历史资源、以及与所述历史资源对应的编码信息，对所述预设条件变分自编码网络进行训练，得到所述目标条件变分自编码网络包括：

根据所述概率分布信息和标准正态分布，得到第一损失分量；

根据所述历史资源、以及与所述历史资源对应的编码信息，得到第二损失分量；

基于所述第一损失分量以及所述第二损失分量，得到第一损失函数；

基于所述第一损失函数对所述预设条件变分自编码网络进行网络参数调整，得到所述目标条件变分自编码网络。

在一可选实施例中，所述基于所述历史资源、所述历史资源对应的预测资源，以及目标预测分析网络对所述预设预测执行网络进行训练，得到目标预测执行网络包括：

将所述起始状态特征信息，以及所述历史资源对应的预测资源输入到所述目标预测分析网络，通过所述目标预测分析网络对基于所述起始状态特征信息分配所述预测资源的行为进行分析，得到第一分析信息；

基于所述第一分析信息对所述预设预测执行网络进行网络参数调整，得到所述目标预测执行网络。

在一可选实施例中，所述样本数据还包括所述样本投放信息在每个历史投放周期内的历史投放收益、以及更新状态特征信息；所述更新状态特征信息基于所述起始状态特征信息和所述样本投放信息在所述历史投放周期内的投放结果信息得到；

所述方法还包括：

将所述起始状态特征信息以及所述历史资源输入到预设预测分析网络，通过所述预设预测分析网络对基于所述起始状态特征信息分配所述历史资源进行分析，得到第二分析信息；

基于所述更新状态特征信息以及所述目标条件变分自编码网络进行历史资源采样，得到预设数量的采样资源；

基于所述更新状态特征信息，确定与所述采样资源对应的投放收益；

确定投放收益最大的采样资源为目标采样资源；

基于所述第二分析信息、所述历史投放收益、以及所述目标采样资源对应的投放收益，对所述预设预测分析网络进行网络参数调整，得到目标预测分析网络。

在一可选实施例中，所述方法还包括：

获取已投放信息在目标投放周期内的第一投放收益，以及所述已投放信息在所述目标投放周期后的预设时间段内的第二投放收益；所述目标投放周期为初始投放阶段中的最后一个投放周期；

基于所述第一投放收益以及所述第二投放收益，得到与所述目标投放周期对应的历史投放收益；

基于与所述目标投放周期对应的历史投放收益，生成与所述已投放信息在所述目标投放周期的样本。

根据本公开实施例的第三方面，提供一种投放信息处理装置，包括：

状态特征信息确定单元，被配置为执行确定目标投放信息在当前投放周期的起始状态特征信息；所述目标投放信息在所述当前投放周期的起始状态特征信息基于所述目标投放信息在上一投放周期的起始状态特征信息，和所述目标投放信息在所述上一投放周期的投放结果信息得到；所述起始状态特征信息包括所述目标投放信息在所述当前投放周期之前的历史投放结果信息，以及所述目标投放信息的属性信息；

资源预测模型获取单元，被配置为执行获取资源预测模型；所述资源预测模型包括条件变分自编码网络和预测执行网络；

第一预测单元，被配置为执行将所述目标投放信息在所述当前投放周期的起始状态特征信息，输入到所述条件变分自编码网络进行资源预测，得到第一资源；

第二预测单元，被配置为执行将所述目标投放信息在所述当前投放周期的起始状态特征信息，以及所述第一资源输入到所述预测执行网络进行资源预测，得到第二资源；

目标资源确定单元，被配置为执行基于所述第一资源和所述第二资源得到所述目标投放信息对应的目标资源；所述目标资源为使得所述目标投放信息在所述当前投放周期的投放收益满足目标投放收益的预测资源。

在一可选实施例中，所述状态特征信息确定单元包括：

第一获取单元，被配置为执行获取所述目标投放信息在所述上一投放周期的起始状态特征信息；所述在上一投放周期的起始状态特征信息包括所述目标投放信息在所述上一投放周期之前的历史投放结果信息；

第一更新单元，被配置为执行基于所述目标投放信息在所述上一投放周期的投放结果信息，对所述历史投放结果信息进行更新，确定所述目标投放信息在所述当前投放周期的起始状态特征信息。

在一可选实施例中，所述在上一投放周期的起始状态特征信息还包括投放设置信息以及所述目标投放信息的类别信息；所述投放设置信息用于对多项待投放的目标投放信息进行排序；

所述第一更新单元包括：

第一生成单元，被配置为执行基于所述投放设置信息、所述类别信息，以及更新后的历史投放结果，生成所述目标投放信息在所述当前投放周期的起始状态特征信息。

在一可选实施例中，所述装置还包括：

第一计算单元，被配置为执行基于各项待投放信息在所述当前投放周期内的预测资源，计算所述当前投放周期内的资源均值和资源方差；

第二计算单元，被配置为执行根据所述资源均值、所述资源方差，以及所述目标资源，计算与所述目标资源对应的归一化系数；

实际资源确定单元，被配置为执行基于所述归一化系数以及预设资源量，确定在所述当前投放周期内为所述目标投放信息分配的实际资源；

第一排序单元，被配置为执行基于各项待投放信息的实际资源，对所述各项待投放信息进行排序，得到排序结果。

在一可选实施例中，所述第一排序单元包括：

第二排序单元，被配置为执行基于所述各项待投放信息的投放设置信息，以及所述各项待投放信息的实际资源，对所述各项待投放信息进行排序，得到所述排序结果。

在一可选实施例中，所述装置还包括：

信息投放单元，被配置为执行基于所述排序结果，在所述当前投放周期内进行信息投放。

在一可选实施例中，所述装置还包括：

第二获取单元，被配置为执行获取所述目标投放信息在所述当前投放周期内的投放结果信息；所述投放结果信息包括转化数据，以及投放消耗数据；

加权求和单元，被配置为执行对所述投放转化数据以及所述投放消耗数据进行加权求和，得到所述目标投放信息在所述当前投放周期内的投放收益。

根据本公开实施例的第四方面，提供一种资源预测模型训练装置，包括：

样本数据获取单元，被配置为执行获取样本数据；所述样本数据包括样本投放信息在每个历史投放周期内的起始状态特征信息，以及历史资源；所述起始状态特征信息用于表征所述样本投放信息在每个历史投放周期的起始时刻之前的历史投放特征；

第一训练单元，被配置为执行基于所述起始状态特征信息以及所述历史资源对预设条件变分自编码网络进行训练，得到目标条件变分自编码网络；

第三预测单元，被配置为执行将所述目标条件变分自编码网络对所述历史资源的编码信息，以及所述起始状态特征信息，输入到预设预测执行网络进行资源预测，得到与所述历史资源对应的预测资源；

第二训练单元，被配置为执行基于所述历史资源、所述历史资源对应的预测资源，以及目标预测分析网络对所述预设预测执行网络进行训练，得到目标预测执行网络；所述目标预测执行网络预测得到的预测资源为使得待投放信息在投放周期的投放收益满足目标投放收益的资源；

资源预测模型确定单元，被配置为执行基于所述目标条件变分自编码网络以及所述目标预测执行网络，得到资源预测模型。

在一可选实施例中，所述第一训练单元包括：

信息输入单元，被配置为执行将所述起始状态特征信息以及所述历史资源输入到所述预设条件变分自编码网络，通过所述预设条件变分自编码网络对所述起始状态特征信息以及所述历史资源的数据分布信息进行拟合，得到概率分布信息，以及通过所述预设条件变分自编码网络对所述历史资源进行编码，得到与所述历史资源对应的编码信息；

第三训练单元，被配置为执行基于所述概率分布信息、所述历史资源、以及与所述历史资源对应的编码信息，对所述预设条件变分自编码网络进行训练，得到所述目标条件变分自编码网络。

在一可选实施例中，所述第三训练单元包括：

第一损失分量确定单元，被配置为执行根据所述概率分布信息和标准正态分布，得到第一损失分量；

第二损失分量确定单元，被配置为执行根据所述历史资源、以及与所述历史资源对应的编码信息，得到第二损失分量；

第一损失函数确定单元，被配置为执行基于所述第一损失分量以及所述第二损失分量，得到第一损失函数；

第一参数调整单元，被配置为执行基于所述第一损失函数对所述预设条件变分自编码网络进行网络参数调整，得到所述目标条件变分自编码网络。

在一可选实施例中，所述第二训练单元包括：

第一分析信息确定单元，被配置为执行将所述起始状态特征信息，以及所述历史资源对应的预测资源输入到所述目标预测分析网络，通过所述目标预测分析网络对基于所述起始状态特征信息分配所述预测资源的行为进行分析，得到第一分析信息；

第二参数调整单元，被配置为执行基于所述第一分析信息对所述预设预测执行网络进行网络参数调整，得到所述目标预测执行网络。

所述装置还包括：

第二分析信息确定单元，被配置为执行将所述起始状态特征信息以及所述历史资源输入到预设预测分析网络，通过所述预设预测分析网络对基于所述起始状态特征信息分配所述历史资源进行分析，得到第二分析信息；

资源采样单元，被配置为执行基于所述更新状态特征信息以及所述目标条件变分自编码网络进行历史资源采样，得到预设数量的采样资源；

投放收益确定单元，被配置为执行基于所述更新状态特征信息，确定与所述采样资源对应的投放收益；

目标采样资源确定单元，被配置为执行确定投放收益最大的采样资源为目标采样资源；

第三参数调整单元，被配置为执行基于所述第二分析信息、所述历史投放收益、以及所述目标采样资源对应的投放收益，对所述预设预测分析网络进行网络参数调整，得到目标预测分析网络。

在一可选实施例中，所述装置还包括：

第三获取单元，被配置为执行获取已投放信息在目标投放周期内的第一投放收益，以及所述已投放信息在所述目标投放周期后的预设时间段内的第二投放收益；所述目标投放周期为初始投放阶段中的最后一个投放周期；

历史投放收益确定单元，被配置为执行基于所述第一投放收益以及所述第二投放收益，得到与所述目标投放周期对应的历史投放收益；

样本生成单元，被配置为执行基于与所述目标投放周期对应的历史投放收益，生成与所述已投放信息在所述目标投放周期的样本。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上所述的投放信息处理方法或者资源预测模型训练方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如上所述的投放信息处理方法或者资源预测模型训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述的投放信息处理方法或者资源预测模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开首先确定目标投放信息在当前投放周期的起始状态信息，然后将起始状态信息输入资源预测模型中的条件变分自编码网络进行资源预测，得到第一资源；再将起始状态信息和第一资源输入到资源预测模型中的预测执行网络进行资源预测，得到第二资源；基于第一资源和第二资源得到目标投放信息对应的目标资源；目标资源为使得目标投放信息在当前投放周期的投放收益满足目标投放收益的预测资源。本公开中对目标投放周期的资源按投放周期进行确定，不同的投放周期可能对应不同的资源，即根据目标投放周期在每个投放周期的起始状态信息以及资源预测模型，对目标投放信息在当前投放周期所分配的资源进行预测，预测资源为使得目标投放信息在当前投放周期收益满足目标收益的资源，从而提高了资源分配的合理性；进一步可根据目标投放信息在多个投放周期的投放收益确定冷启动结果，该冷启动结果符合投放收益满足目标收益的条件，基于冷启动结果遴选出符合投放目标的投放信息，进而提高投放信息遴选的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种实施环境示意图。

图2是根据一示例性实施例示出的一种投放信息处理方法流程图。

图3是根据一示例性实施例示出的一种投放信息的起始状态特征信息更新方法流程图。

图4是根据一示例性实施例示出的一种基于预测资源对投放信息进行排序的方法流程图。

图5是根据一示例性实施例示出的一种投放收益计算方法流程图。

图6是根据一示例性实施例示出的资源预测模型结构示意图。

图7是根据一示例性实施例示出的一种资源预测模型训练方法流程图。

图8是根据一示例性实施例示出的对条件变分自编码网络进行训练的方法流程图。

图9是根据一示例性实施例示出的对条件变分自编码网络进行参数调整的方法流程图。

图10是根据一示例性实施例示出的目标预测执行网络训练方法流程图。

图11是根据一示例性实施例示出的目标分析网络训练方法流程图。

图12是根据一示例性实施例示出的一种样本生成方法流程图。

图13是根据一示例性实施例示出的一种投放信息处理装置框图。

图14是根据一示例性实施例示出的一种资源预测模型训练装置框图。

图15是根据一示例性实施例示出的电子设备结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，其示出了本公开实施例提供的实施环境示意图，该实施环境可包括：至少一个第一终端110和第二终端120，第一终端110和第二终端120可通过网络进行数据通信。

具体地，第二终端120可对投放系统中的投放信息进行投放，第一终端110接收到投放信息时，对投放信息进行展示，以使得用户浏览到该投放信息时，进行点击浏览、点击后转化等操作；第二终端120根据用户基于第一终端110对投放信息的操作，对投放信息的点击数据、转化数据等进行统计及分析。

第一终端110可以基于浏览器/服务器模式（Browser/Server，B/S）或客户端/服务器模式（Client/Server，C/S）与第二终端120进行通信。第一终端110可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本公开实施例中的第一终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

第二终端120与第一终端110可以通过有线或者无线建立通信连接，第二终端120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，其中服务器可以是云端服务器。

投放信息的生命周期一般可分为探索期、成长期、成熟期和衰退期等几个阶段，本公开中的投放周期可以冷启动阶段的一个周期，冷启动阶段即可对应生命周期中的探索期。在投放信息的探索期，新的投放信息被上传并陆续投放，当新的投放信息被投放一段时间并积累了一定的转化数量后，转化数量较好的投放信息可以进入通过探索期进入成长期，而转化数量较差的投放信息则冷启动失败，未来也将不再投放。

为了解决相关技术中资源分配，以及投放信息遴选结果不合理的问题，本公开实施例提供了一种投放信息处理方法，请参阅图2，该方法可包括：

S210. 确定目标投放信息在当前投放周期的起始状态特征信息；所述目标投放信息在所述当前投放周期的起始状态特征信息基于所述目标投放信息在上一投放周期的起始状态特征信息，和所述目标投放信息在所述上一投放周期的投放结果信息得到；所述起始状态特征信息包括所述目标投放信息在所述当前投放周期之前的历史投放结果信息，以及所述目标投放信息的属性信息。

投放周期可以为初始投放阶段中的一个周期，一个初始投放阶段中可包括多个投放周期，每个投放周期的时长一般是相同的；具体地，初始投放阶段可以为投放信息的冷启动阶段。例如冷启动阶段为7天，以每个小时为一个投放周期。

在一个具体实施例中，由于投放信息的状态可能随着信息的投放发生变化，从而在每个投放周期的初始时刻，可首先确定目标投放信息的起始状态特征信息，当前投放周期的起始状态特征信息基于目标投放信息在上一投放周期的起始状态特征信息，和目标投放信息在所述上一投放周期的投放结果信息得到。起始状态特征信息包括目标投放信息在所述当前投放周期之前的历史投放结果信息，以及目标投放信息的属性信息。

S220. 获取资源预测模型；所述资源预测模型包括条件变分自编码网络和预测执行网络。

在一个具体实施例中，在投放周期的起始时刻，资源预测模型能够以满足目标投放收益为目标，对目标投放信息在当前投放周期内应该被分配的资源进行资源预测，从而使得目标投放信息能够基于预测资源进入到信息投放的后续处理步骤中。

S230. 将所述目标投放信息在所述当前投放周期的起始状态特征信息，输入到所述条件变分自编码网络进行资源预测，得到第一资源。

S240. 将所述目标投放信息在所述当前投放周期的起始状态特征信息，以及所述第一资源输入到所述预测执行网络进行资源预测，得到第二资源。

S250. 基于所述第一资源和所述第二资源得到所述目标投放信息对应的目标资源；所述目标资源为使得所述目标投放信息在所述当前投放周期的投放收益满足目标投放收益的预测资源。

在一可选实施例中，目标资源可以是指协助投放信息进行投放的资源，具体可以是在信息投放过程中能够使得目标投放信息尽快被投放的资源；即目标资源量越大，则越有可能被尽快投放。

在一具体实施例中，具体可以投放信息的投放收益最大化为目标进行模型训练，从而得到资源预测模型，即资源预测模型能够以最大化所述当前投放周期，和/或未来时间段的投放收益为目标进行资源预测，使得目标资源即可为使得目标投放信息在当前投放周期，和/或未来时间段内的投放收益最大化的资源，这里的未来时间段可以是指未来的一个或者多个投放周期，也可是指冷启动阶段之后的时间段。

在一可选实施例中，资源预测模型具体可采用离线强化学习模型，由于对新的投放信息进行资源分配的目的是为了尽快遴选出有较大潜力的投放信息，同时给不同的投放信息分配资源使得其长期的投放收益最大化，而强化学习的优化目标即是最大化整体收益；另外，强化学习是一个序列化决策问题，而在信息投放的冷启动过程中，也可以每个投放周期内来确定当前投放信息在下一投放周期内的资源，也可看成是一个序列化决策问题；由此可见，可采用强化学习的方法来进行资源预测，以使得投放收益最大化。另外，通过已经积累的历史数据进行离线强化学习模型训练，能够避免直接线上探索时的数据波动对训练结果产生的影响。

本公开中对目标投放周期的资源按投放周期进行确定，不同的投放周期可能对应不同的资源，即根据目标投放周期在每个投放周期的起始状态信息以及资源预测模型，对目标投放信息在当前投放周期所分配的资源进行预测，预测资源为使得目标投放信息在当前投放周期收益满足目标收益的资源，从而提高了资源分配的合理性；进一步可根据目标投放信息在多个投放周期的投放收益确定冷启动结果，该冷启动结果符合投放收益满足目标收益的条件，基于冷启动结果遴选出符合投放目标的投放信息，进而提高投放信息遴选的效率。

在一个具体实施例中，请参阅图3，其示出了一种投放信息的起始状态特征信息更新方法，该方法可包括：

S310. 获取所述目标投放信息在所述上一投放周期的起始状态特征信息；所述在上一投放周期的起始状态特征信息包括所述目标投放信息在所述上一投放周期之前的历史投放结果信息。

S320. 基于所述目标投放信息在所述上一投放周期的投放结果信息，对所述历史投放结果信息进行更新，确定所述目标投放信息在所述当前投放周期的起始状态特征信息。

历史投放结果信息可包括在当前投放周期的起始时刻之前目标投放信息的转化信息，投放设置信息可包括目标投放信息的竞价信息，由于投放信息的状态可能随着信息的投放发生变化，从而在每个投放周期的初始时刻，可首先确定目标投放信息的起始状态特征信息，具体可以基于目标投放信息在上一周期的投放结果信息，对上一投放周期的起始状态信息中的历史投放结果信息进行更新，即可得到目标投放信息在当前投放周期的起始状态特征信息。在每个投放周期的起始时刻，均可基于目标投放信息在上一投放周期的起始状态信息以及投放结果信息进行起始状态特征信息的适应性更新，从而能够提高起始状态特征信息对目标投放信息的当前状态特征表征的准确性。

在一个可选实施例中，所述在上一投放周期的起始状态特征信息还包括投放设置信息以及所述目标投放信息的类别信息；所述投放设置信息用于对多项待投放信息进行排序；从而在具体确定起始状态特征信息时，可基于所述投放设置信息、所述类别信息，以及更新后的历史投放结果，生成所述目标投放信息在所述当前投放周期的起始状态特征信息。

类别信息即用于表征目标投放信息的类别特征，例如领域类别、信息类别、创意类别等，其中领域类别可包括电商类别、游戏类别、教育类别等；信息类别可包括视频类别、图片类别、图文类别等；创意类别可包括海报类别、版面类别等。其中历史投放结果信息以及投放设置信息为连续特征，类别信息为离散特征。在具体生成状态特征信息时，可对历史投放结果信息以及投放设置信息对应的数值进行归一化处理，对类别信息采用one-hot编码生成相应的编码向量，基于经过归一化以及编码之后的特征信息生成相应的状态特征信息能够便于后续进行数据处理，提高数据处理效率。

另外，本公开中通过多维特征信息从不同的角度分别对目标投放信息的起始状态特征信息进行描述，能够提高对目标投放信息的表征能力，从而提高了后续基于状态特征信息进行数据处理的准确性。

在一个具体实施例中，请参阅图4，其示出了一种基于预测资源对投放信息进行排序的方法，具体可包括：

S410. 基于各项待投放信息在所述当前投放周期内的预测资源，计算所述当前投放周期内的资源均值和资源方差。

S420. 根据所述资源均值、所述资源方差，以及所述目标资源，计算与所述目标资源对应的归一化系数。

S430. 基于所述归一化系数以及预设资源量，确定在所述当前投放周期内为所述目标投放信息分配的实际资源。

S440. 基于所述各项待投放信息的实际资源，对所述各项待投放信息进行排序，得到排序结果。

本公开中通过资源预测模型预测得到的资源是在投放周期内应该获得的资源量，但是在每个投放周期内对各投放信息的资源量是有限的，从而直接采用预测得到的预测资源可能会带来资源超预算或者预算不足的情况；为了使得资源分配结果与当前总的资源量相匹配，可对预测得到的资源进行归一化处理，可得到与每项投放信息对应的归一化系数，如式（1）所示：

（1）

其中，

为目标投放信息对应的目标资源，avg(a)为当前冷启动周期内各项投放信息的资源均值，std(a)为当前投放周期内各项投放信息的资源方差。从而将目标投放信息对应的归一化系数应用于当前已有的资源分配策略中，得到与目标投放信息对应的实际资源。本公开基于资源总量的约束，对预测得到的资源进行归一化处理，由于所有的平均值为1，这样可以控制各投放信息被分配的实际资源之和与总的资源量相匹配，避免资源超预算的问题。

在一个具体实施例中，确定了目标投放信息将被分配的实际资源时，可基于该实际资源对各项待投放的目标投放信息进行排序，得到排序结果；该排序结果中包括多项待投放信息的排序情况。进一步地，基于上述内容可知，可基于所述各项待投放信息的投放设置信息，以及所述各项待投放信息的实际资源，对所述各项待投放信息进行排序，得到所述排序结果。基于排序结果，可在当前投放周期内进行信息投放，即具体在当前投放周期内需要投放哪些目标信息，可基于排序结果进行确定，例如可从排序结果中选取排序靠前的N项目标投放信息进行投放。

具体地，在基于各项目标投放信息的排序分数从高到低进行排序，排序分数的计算公式如式（2）所示：

（2）

其中，ecpm（estimated Cost per Million）为预估的千次展示计费，可基于上述投放设置信息和点击率得到，bonus即为目标资源，ueq（user experience quantity）为用户体验分数。可从排序结果中选取排序在前N位的目标投放信息进行投放。

在一具体实施例中，请参阅图5，其示出了一种投放收益计算方法，该方法可包括：

S510. 获取所述目标投放信息在所述当前投放周期内的投放结果信息；所述投放结果信息包括投放转化数据，以及投放消耗数据。

S520. 对所述投放转化数据以及所述投放消耗数据进行加权求和，得到所述目标投放信息在所述当前投放周期内的投放收益。

在每个投放周期内基于预测出的资源进行信息投放，在当前投放周期结束时，可确定出在当前投放周期内的投放收益，这里的投放收益可看成是在目标投放信息在处于当前状态下，对目标投放信息分配目标资源所获得的投放收益，当前状态通过当前投放周期的状态特征信息进行表征。

投放转化数据具体可以为转化率，投放消耗数据可以为在信息投放时的投放竞价，这两项信息可作为投放结果信息，相应可确定投放转化数据以及投放消耗数据的权重，例如投放转化数据的权重可为1，投放消耗数据的权重可为0.05，即以投放数据为主，投放消耗数据为辅，确定当前投放周期内的投放收益。从而实现基于投放转化数据和投放消耗数据的加权求和来确定目标投放信息在当前投放周期内的投放收益，提高了投放收益确定的准确性和便利性。

通过对目标投放信息在多个投放周期的投放收益来确定目标投放信息在冷启动阶段内的投放收益，从而能够基于在冷启动阶段内的投放收益确定相应的冷启动结果。具体地，当在冷启动阶段内的投放收益大于等于预设冷启动收益阈值时，确定目标投放信息通过冷启动阶段，进入成熟期；当在冷启动阶段内的投放收益小于预设冷启动收益阈值时，确定目标投放信息没有通过冷启动阶段，后续也将不再对其进行投放。从而通过冷启动阶段的目标投放信息被选出来继续进行投放，且这些通过冷启动阶段的目标投放信息均是在冷启动阶段被预期长期投放收益较大的投放信息。

在一个具体实施例中，请参阅图6，其示出了资源预测模型结构示意图，具体可包括条件变分自编码网络、预测执行网络和预测分析网络，状态state对应状态特征信息，动作action对应所分配的冷启动资源，回报r对应投放收益；其中预测执行网络负责针对当前状态预测出合适的动作，预测分析网络则根据当前状态和动作来评价当前预测出的动作的好坏程度。

具体地，条件变分自编码网络（Conditional VAE）

包括一个编码器（encoder）和一个解码器（decoder），encoder的功能为将状态和动作进行编码，使得编码结果与标准正态分布接近；而decoder的功能则是还原该encoder，使得标准正态分布经过decoder后能够与实际的动作和状态分布接近。在条件变分自编码网络中，输入即是当前的状态state和动作action，这些特征经过2层MLP（multi-layer perceptron，多层神经网络），得到一组均值和方差；从该组均值和方差采样出一个样本，再用一个2层MLP，得到一组对encoder输入信息的还原信息。

对于预测执行网络actor，其输入包括两部分，一部分是当前的state，另一部分是条件变分自编码网络的decoder的输出；该网络的输出为

。本公开实施例中，w可为0.001。若将w设置过大，则容易出现算法不收敛的现象，而过小的话，则预测执行网络的输出对最后结果的影响则被限制。

预测分析网络critic的输入包括当前的状态state，以及当前的动作action，而预测分析网络需要拟合的目标为该动作下的总体收益，即当前动作收益加上未来收益，即

，此处r即是回报。未来收益是在下一步状态（s’）下的

最大值。

在一可选实施例中，请参阅图7，其示出了一种资源预测模型训练方法，该方法可包括：

S710. 获取样本数据；所述样本数据包括样本投放信息在每个历史投放周期内的起始状态特征信息，以及历史资源；所述起始状态特征信息用于表征所述样本投放信息在每个历史投放周期的起始时刻之前的历史投放特征。

S720. 基于所述起始状态特征信息以及所述历史资源对预设条件变分自编码网络进行训练，得到目标条件变分自编码网络。

S730. 将所述目标条件变分自编码网络对所述历史资源的编码信息，以及所述起始状态特征信息，输入到预设预测执行网络进行资源预测，得到与所述历史资源对应的预测资源。

S740. 基于所述历史资源、所述历史资源对应的预测资源，以及目标预测分析网络对所述预设预测执行网络进行训练，得到目标预测执行网络；所述目标预测执行网络预测得到的预测资源为使得待投放信息在投放周期的投放收益满足目标投放收益的资源。

具体地，在对预设预测执行网络进行训练的过程中，可采用目标预测分析网络对当前预测执行网络的预测结果进行评价，得到评价分数，即当目标预测分析网络对当前预测执行网络的评价分数大于等于预设分数时，可认为对预设预测执行网络的训练达到了收敛条件，结束对预设预测执行网络的训练，将当前预测执行网络确定为目标预测执行网络。

另外，目标预测分析网络在对当前预测执行网络进行评价时，是基于当前预测执行网络所预测的资源，使得待投放信息在投放周期的投放收益满足目标投放收益的程度来确定的，即当前预测执行网络的预测资源使得待投放信息在投放周期的投放收益越接近目标投放收益，则相应评价分数越高。

S750. 基于所述目标条件变分自编码网络以及所述目标预测执行网络，得到资源预测模型。

本公开实施例中，可通过交替训练的方式分别对条件变分自编码网络、预测执行网络以及预测分析网络进行训练，即每次训练一个网络时，可保持其他两个网络不变。具体可先对条件变分自编码网络进行训练，当条件变分自编码网络的训练到预设程度时，例如训练N轮之后，开始进行条件变分自编码网络、预测执行网络以及预测分析网络进行训练三者交替训练。另外，在强化学习模型中，为了使得预测分析网络训练得更好，可将预测分析网络以及预测执行网络以M:1的频次进行训练，M≥2，使得预测分析网络能够更快收敛。

资源预测模型包括了条件变分自编码网络的decoder部分，以及预测执行网络，从而基于已训练的条件变分自编码网络以及预测执行网络，能够得到用于资源预测的资源预测模型。

在一个具体实施例中，强化学习的训练样本的形式主要为（s，a，r，s’），其中，s代表代理人以及环境的当前状态（state），a代表在该环境状态下采取的动作（action），r代表在采取了动作a后，环境给出的回报（reward），s’则代表经过动作a后，代理人和环境到达的下一个状态（next state）。

本公开实施例中，由于采用的是离线强化学习模型，所以用于模型训练的样本数据均是历史数据；样本投放信息可以是指已经经历过冷启动阶段，且已确定相应冷启动结果的历史投放信息，这里历史投放信息在每个投放周期的数据，以及最终的冷启动结果均是已知的，从而可基于这些已知数据构建样本数据。

与离线强化学习模型的样本形式相对应，以每个投放周期为样本单元，得到与每个投放周期对应的样本对，每项样本中包含当前投放周期的起始状态特征信息、资源、投放收益，以及下一投放周期的起始状态特征信息。从而采用强化学习样本形式进行样本的构建，使得构建出的样本能够适用于强化学习模型的分析方法，从而能够提高构建出的样本的适应性，以及样本构建的效率。

在一个具体实施例中，请参阅图8，其示出了对条件变分自编码网络进行训练的方法，该方法具体可包括：

S810. 将所述起始状态特征信息以及所述历史资源输入到所述预设条件变分自编码网络，通过所述预设条件变分自编码网络对所述起始状态特征信息以及所述历史资源的数据分布信息进行拟合，得到概率分布信息，以及通过所述预设条件变分自编码网络对所述历史资源进行编码，得到与所述历史资源对应的编码信息。

S820. 基于所述概率分布信息、所述历史资源、以及与所述历史资源对应的编码信息，对所述预设条件变分自编码网络进行训练，得到所述目标条件变分自编码网络。

在模型训练过程中，条件变分自编码网络的输入可以包括起始状态特征信息以及历史资源，输出可以包括概率分布信息以及对历史资源的编码信息。

在一个可选实施例中，条件变分自编码网络还可以包括第一网络和第二网络，当输入起始状态特征信息以及历史资源时，相应的第一网络输出概率分布信息，第二网络输出对历史资源的编码信息，第一网络与第二网络相串联。

在另一个可选实施例中，条件变分自编码网络可以为一个独立编码网络，当输入起始状态特征信息以及历史资源时，相应的独立编码网络的输出包括概率分布信息和对历史资源的编码信息两项信息。

在一具体实施例中，请参阅图9，其示出了一种对条件变分自编码网络进行参数调整的方法，该方法可包括：

S910. 根据所述概率分布信息和标准正态分布，得到第一损失分量。

S920. 根据所述历史资源、以及与所述历史资源对应的编码信息，得到第二损失分量。

S930. 基于所述第一损失分量以及所述第二损失分量，得到第一损失函数。

S940. 基于所述第一损失函数对所述预设条件变分自编码网络进行网络参数调整，得到所述目标条件变分自编码网络。

从图6中可以看出，条件变分自编码网络的encoder的输出为概率分布信息，条件变分自编码网络的decoder的输出为对输入的动作action的还原信息，从而可基于这两项信息确定与该模型对应的损失函数，如式（3）所示：

（3）

其中，x对应条件变分自编码网络的encoder输入的动作action，x’对应的是条件变分自编码网络的decoder的输出的对输入的动作action的还原信息；

为条件变分自编码网络的encoder输出的概率分布信息，为正态分布，从而可基于该损失函数对条件变分自编码网络进行参数调整，进而得到已训练的条件变分自编码网络。

在一可选实施例中，请参阅图10，其示出了一种目标预测执行网络训练方法，该方法可包括：

S1010. 将所述起始状态特征信息，以及所述历史资源对应的预测资源输入到所述目标预测分析网络，通过所述目标预测分析网络对基于所述起始状态特征信息分配所述预测资源的行为进行分析，得到第一分析信息。

S1020. 基于所述第一分析信息对所述预设预测执行网络进行网络参数调整，得到所述目标预测执行网络。

由于当前对预测执行网络进行训练，可保持条件变分自编码网络以及预测分析网络不变，可直接使用条件变分自编码网络以及预测分析网络进行数据处理。预测执行网络的输入需要依赖于条件变分自编码网络decoder的输出，在对预测执行网络进行训练时，将当前样本对中的状态state以及动作action输入到当前条件变分自编码网络，得到对输入动作action的动作还原信息，将该动作还原信息，以及当前样本对中的状态state输入到预测执行网络，得到输出动作action（即冷启动资源输出信息）。然后将预测执行网络的输出动作action以及当前样本对中的状态state输入到预测分析网络，预测分析网络会给出在状态state下采取输出动作action所得的评价分数Q-value（即收益回报）。基于预测分析网络的评价分数对预测执行网络的参数进行调整，以使得预测分析网络对预测执行网络的输出动作action的评价分数更高；从而通过不断调整预测执行网络的参数，得到已训练预测执行网络。

在一具体实施例中，样本数据还包括所述样本投放信息在每个历史投放周期内的历史投放收益、以及更新状态特征信息；进一步地，请参阅图11，其示出了目标分析网络训练方法，该方法可包括：

S1110. 将所述起始状态特征信息以及所述历史资源输入到预设预测分析网络，通过所述预设预测分析网络对基于所述起始状态特征信息分配所述历史资源进行分析，得到第二分析信息。

S1120. 基于所述更新状态特征信息以及所述目标条件变分自编码网络进行历史资源采样，得到预设数量的采样资源。

S1130. 基于所述更新状态特征信息，确定与所述采样资源对应的投放收益。

S1140. 确定投放收益最大的采样资源为目标采样资源。

S1150. 基于所述第二分析信息、所述历史投放收益、以及所述目标采样资源对应的投放收益，对所述预设预测分析网络进行网络参数调整，得到目标预测分析网络。

在对预测分析网络进行训练时，保持条件变分自编码网络以及预测执行网络不变，对于预测分析网络的训练，即是以投放收益最大为训练目标实现的。对于预测分析网络的输出具体可以是与输入的状态state和动作action对应的收益，即在状态state下采取动作action所能得到的收益。本公开实施例中预测分析网络的你和目标为当前动作action下的总体收益，可以包括当前动作action在当前冷启动周期的收益以及在下一冷启动周期内的收益，从而可将当前收益和未来收益，未来收益可以指在下一状态下的投放收益最大值，下一状态可以为下一冷启动周期对应的状态，即

作为目标收益，将当前动作action以及当前状态state输入得到的评价分数（即收益回报）与目标收益进行比较，根据比较结果来更新预测分析网络的参数，从而得到已训练预测分析网络。

其中，对于目标收益中的r，其为当前样本对中的投放收益r，对于在下一状态下的投放收益最大值，可通过bootstrap技巧进行动作action的采样，基于下一状态s'可采样出预设数量的采样动作action，根据样本数据可找出每个采样动作action对应的投放收益，从中可确定出最大的投放收益，这个最大的投放收益即可作为目标收益中的未来收益。

在一可选实施例中，请参阅图12，其示出了一种样本生成方法，该方法可包括：

S1210. 获取已投放信息在目标投放周期内的第一投放收益，以及所述已投放信息在所述目标投放周期后的预设时间段内的第二投放收益；所述目标投放周期为初始投放阶段中的最后一个投放周期。

S1220. 基于所述第一投放收益以及所述第二投放收益，得到与所述目标投放周期对应的历史投放收益。

S1230. 基于与所述目标投放周期对应的历史投放收益，生成与所述已投放信息在所述目标投放周期的样本。

具体地，目标投放信息可以为成功通过冷启动阶段的已投放信息，从而对于初始投放阶段的最后一个投放周期，其相应的样本投放收益可以包括在最后一个投放周期内的投放收益，以及初始投放阶段之后的投放收益；例如，最后一个投放周期的投放收益可包括最后一个投放周期的投放收益以及未来三小时的投放收益。因为最后一个投放阶段之后所得到的投放收益有可能是由于在最后一个投放收益所分配的目标资源所带来的，从而在确定最后一个投放周期的投放收益时，将未来时刻的投放收益考虑在内，提高了样本数据的准确性。

图13是根据一示例性实施例示出的一种投放信息处理装置框图，该装置包括：

状态特征信息确定单元1310，被配置为执行确定目标投放信息在当前投放周期的起始状态特征信息；所述目标投放信息在所述当前投放周期的起始状态特征信息基于所述目标投放信息在上一投放周期的起始状态特征信息，和所述目标投放信息在所述上一投放周期的投放结果信息得到；所述起始状态特征信息包括所述目标投放信息在所述当前投放周期之前的历史投放结果信息，以及所述目标投放信息的属性信息；

资源预测模型获取单元1320，被配置为执行获取资源预测模型；所述资源预测模型包括条件变分自编码网络和预测执行网络；

第一预测单元1330，被配置为执行将所述目标投放信息在所述当前投放周期的起始状态特征信息，输入到所述条件变分自编码网络进行资源预测，得到第一资源；

第二预测单元1340，被配置为执行将所述目标投放信息在所述当前投放周期的起始状态特征信息，以及所述第一资源输入到所述预测执行网络进行资源预测，得到第二资源；

目标资源确定单元1350，被配置为执行基于所述第一资源和所述第二资源得到所述目标投放信息对应的目标资源；所述目标资源为使得所述目标投放信息在所述当前投放周期的投放收益满足目标投放收益的预测资源。

在一可选实施例中，所述状态特征信息确定单元1310包括：

所述第一更新单元包括：

在一可选实施例中，所述装置还包括：

在一可选实施例中，所述第一排序单元包括：

在一可选实施例中，所述装置还包括：

请参阅图14，其示出了一种资源预测模型训练装置框图，包括：

样本数据获取单元1410，被配置为执行获取样本数据；所述样本数据包括样本投放信息在每个历史投放周期内的起始状态特征信息，以及历史资源；所述起始状态特征信息用于表征所述样本投放信息在每个历史投放周期的起始时刻之前的历史投放特征；

第一训练单元1420，被配置为执行基于所述起始状态特征信息以及所述历史资源对预设条件变分自编码网络进行训练，得到目标条件变分自编码网络；

第三预测单元1430，被配置为执行将所述目标条件变分自编码网络对所述历史资源的编码信息，以及所述起始状态特征信息，输入到预设预测执行网络进行资源预测，得到与所述历史资源对应的预测资源；

第二训练单元1440，被配置为执行基于所述历史资源、所述历史资源对应的预测资源，以及目标预测分析网络对所述预设预测执行网络进行训练，得到目标预测执行网络；所述目标预测执行网络预测得到的预测资源为使得待投放信息在投放周期的投放收益满足目标投放收益的资源；

资源预测模型确定单元1450，被配置为执行基于所述目标条件变分自编码网络以及所述目标预测执行网络，得到资源预测模型。

在一可选实施例中，所述第一训练单元1420包括：

在一可选实施例中，所述第三训练单元包括：

在一可选实施例中，所述第二训练单元1440包括：

所述装置还包括：

在一可选实施例中，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，可选地，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等；当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上所述的任一方法。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述任一方法。

本实施例还提供了一种设备，其结构图请参见图15，该设备1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processingunits，CPU）1522（例如，一个或一个以上处理器）和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储媒体1530（例如一个或一个以上海量存储设备）。其中，存储器1532和存储媒体1530可以是短暂存储或持久存储。存储在存储媒体1530的程序可以包括一个或一个以上模块（图示未示出），每个模块可以包括对设备中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储媒体1530通信，在设备1500上执行存储媒体1530中的一系列指令操作。设备1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。本实施例上述的任一方法均可基于图15所示的设备进行实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种投放信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定目标投放信息在当前投放周期的起始状态特征信息包括：

3.根据权利要求2所述的方法，其特征在于，所述在上一投放周期的起始状态特征信息还包括投放设置信息以及所述目标投放信息的类别信息；所述投放设置信息用于对多项待投放信息进行排序；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于各项待投放信息的实际资源，对所述各项待投放信息进行排序，得到排序结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

基于所述排序结果，在所述当前投放周期内进行信息投放。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

8.一种资源预测模型训练方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述起始状态特征信息以及所述历史资源对预设条件变分自编码网络进行训练，得到目标条件变分自编码网络，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述概率分布信息、所述历史资源、以及与所述历史资源对应的编码信息，对所述预设条件变分自编码网络进行训练，得到所述目标条件变分自编码网络包括：

11.根据权利要求8所述的方法，其特征在于，所述基于所述历史资源、所述历史资源对应的预测资源，以及目标预测分析网络对所述预设预测执行网络进行训练，得到目标预测执行网络包括：

12.根据权利要求8所述的方法，其特征在于，所述样本数据还包括所述样本投放信息在每个历史投放周期内的历史投放收益、以及更新状态特征信息；所述更新状态特征信息基于所述起始状态特征信息和所述样本投放信息在所述历史投放周期内的投放结果信息得到；

所述方法还包括：

确定投放收益最大的采样资源为目标采样资源；

13.根据权利要求8所述的方法，其特征在于，所述方法还包括：

14.一种投放信息处理装置，其特征在于，包括：

15.根据权利要求14所述的装置，其特征在于，所述状态特征信息确定单元包括：

16.根据权利要求15所述的装置，其特征在于，所述在上一投放周期的起始状态特征信息还包括投放设置信息以及所述目标投放信息的类别信息；所述投放设置信息用于对多项待投放的目标投放信息进行排序；

所述第一更新单元包括：

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

18.根据权利要求17所述的装置，其特征在于，所述第一排序单元包括：

19.根据权利要求18所述的装置，其特征在于，所述装置还包括：

20.根据权利要求17所述的装置，其特征在于，所述装置还包括：

21.一种资源预测模型训练装置，其特征在于，包括：

22.根据权利要求21所述的装置，其特征在于，所述第一训练单元包括：

23.根据权利要求22所述的装置，其特征在于，所述第三训练单元包括：

24.根据权利要求21所述的装置，其特征在于，所述第二训练单元包括：

25.根据权利要求21所述的装置，其特征在于，所述样本数据还包括所述样本投放信息在每个历史投放周期内的历史投放收益、以及更新状态特征信息；所述更新状态特征信息基于所述起始状态特征信息和所述样本投放信息在所述历史投放周期内的投放结果信息得到；

所述装置还包括：

26.根据权利要求21所述的装置，其特征在于，所述装置还包括：

27.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的投放信息处理方法，或如权利要求8至13中任一项所述的资源预测模型训练方法。

28.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的投放信息处理方法，或如权利要求8至13中任一项所述的资源预测模型训练方法。

29.一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行如权利要求1至7中任一项所述的投放信息处理方法，或如权利要求8至13中任一项所述的资源预测模型训练方法。