CN111222902B

CN111222902B - 广告投放方法、装置、系统、计算设备及存储介质

Info

Publication number: CN111222902B
Application number: CN201811425664.7A
Authority: CN
Inventors: 张琦; 曾文聪; 刘兆杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2024-02-09
Anticipated expiration: 2038-11-27
Also published as: CN111222902A

Abstract

本发明公开了一种广告投放方法、装置、计算设备和存储介质。该方法包括：获取特征数据，所述特征数据包括与候选广告队列相关的第一特征数据；基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数；基于所述调序参数，调整所述至少一个候选广告的排序分值；以及基于所述排序分值，对所述广告队列中的候选广告重新排序。由此，通过实时根据环境的变化，调整候选广告的排序，以使得广告主竞得高性价比的流量，同时为内容平台方提高收益。

Description

广告投放方法、装置、系统、计算设备及存储介质

技术领域

本公开涉及互联网技术领域，特别涉及一种广告投放方法、装置、系统、计算设备及存储介质。

背景技术

随着现代技术的发展，智能终端成为人类必不可少的工具和娱乐伙伴。伴随着智能终端的普及，为智能终端提供内容的流量型平台应运而生，在用户终端请求获取其平台内容时，向用户终端投放或推送广告成为该类平台的主要盈利手段之一。

现有技术中，广告主通过竞价的方式获得平台提供的信息流流量，即通过竞价获得在平台用户的智能终端进行广告展示的机会。竞价方式一般为价高者得，即谁出价高就能获得相应的信息流流量。

在广告竞价过程中，新加入的广告主、广告主修改出价、或者广告主修改定向条件，都会造成竞价环境发生很大的变化，而广告主并不能较为快速、准确地感知到这一变化，使得广告主要么以高价格竞得某些流量，要么广告主出价太低，不能在适合自己的信息流流量竞价中胜出，而丧失广告展示机会。这种竞价机制既不利于广告主的推广，也不利于平台的收入。

由此，如何在快速变化的竞价环境中，为广告主竞得性价比高的流量，同时提升广告平台收入，是一个亟需解决的问题。

发明内容

本公开的目的是提供一种广告投放方法和装置，使得广告主能够竞得高性价比的流量，以提升广告点击率、转化率。

根据本公开的第一个方面，提供了一种广告投放方法，包括：获取特征数据，所述特征数据包括与候选广告队列相关的第一特征数据；基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数；基于所述调序参数，调整所述至少一个候选广告的排序分值；以及基于所述排序分值，对所述广告队列中的候选广告重新排序。

可选地，所述第一特征数据包括所述候选广告队列中一个或多个候选广告的预估用户响应率和/或一个或多个候选广告的广告主的定向信息。

可选地，所述预估响应率可以包括预估点击率和/或预估点展率。

可选地，该广告投放方法还可以包括：确定与信息流流量相对应的候选广告队列。

可选地，所述信息流流量可以是由用户请求访问的操作触发的，该方法还可以包括：向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

可选地，该广告投放方法还可以包括：获取所述用户的第二特征数据，其中，所述特征数据还包括所述第二特征数据。

可选地，所述基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数的步骤可以包括：将所述特征数据输入参数模型，以通过所述参数模型确定所述候选广告队列中的至少一个候选广告的调序参数。

可选地，该广告投放方法还可以包括：基于所述调序参数，调整所述一个或多个候选广告相对应的广告主的出价信息。

可选地，所述参数模型可以是线性模型。

可选地，该广告投放方法还可以包括：采用协方差矩阵自适应进化策略(CMA-ES)对所述参数模型进行模型参数迭代优化。

可选地，所述模型参数迭代优化的步骤可以包括：获取展现给用户的展现广告在预定时间段内的展现数据，以便基于所述展现数据对所述参数模型进行模型参数的迭代优化。

可选地，所述基于所述展现数据对所述参数模型进行模型参数的迭代优化的步骤可以包括：获取基于N个同构的待优化参数模型确定的所述展现广告的所述展现数据，得到能够分别反映所述N个待优化参数模型的模型质量的N个反馈信息；以及基于所述N个反馈信息确定参与下一次的迭代优化的M个优质的待优化参数模型，其中N、M均为正整数，且N大于或等于M。

可选地，所述反馈信息是标量信息；并且所述优质的待优化参数模型是所述N个反馈信息中数值较大的M个反馈信息对应的待优化参数模型。

可选地，所述展现数据可以包括以下至少一项：在所述预定时间段内所述展现广告的展现次数；用户对所述展现广告的点击次数；以及所述展现广告的计费数据。

根据本公开的第二个方面，还提供了一种信息流广告投放方法，包括：响应于用户操作触发的信息流流量，获取特征数据，所述特征数据包括与候选广告队列相关的第一特征数据；基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数；基于所述调序参数，调整所述至少一个候选广告的排序分值；基于所述排序分值，对所述广告队列中的候选广告重新排序；以及在所述信息流流量中，向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

可选地，所述候选广告可以是信息流形式的广告。

可选地，该方法还可以包括：确定与信息流流量相对应的候选广告队列。

可选地，所述第一特征数据可以包括所述候选广告队列中一个或多个候选广告的预估用户响应率和/或一个或多个候选广告的广告主的定向信息。

可选地，该方法还可以包括：获取所述用户的第二特征数据，其中，所述特征数据还包括所述第二特征数据。

根据本公开的第三个方面，还提供了一种广告投放装置，包括：特征数据获取单元，用于获取特征数据，所述特征数据包括与候选广告队列相关的第一特征数据；调序参数确定单元，用于基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数；排序分值调整单元，用于基于所述调序参数，调整所述至少一个候选广告的排序分值；以及排序单元，用于基于所述排序分值，对所述广告队列中的候选广告重新排序。

可选地，该装置还可以包括：候选广告队列确定单元，用于确定与信息流流量相对应的候选广告队列。

可选地，所述信息流流量可以是由用户请求访问的操作触发的，该装置还可以包括：展现单元，用于向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

可选地，所述特征数据获取单元还可以用于获取所述用户的第二特征数据，其中，所述特征数据还包括所述第二特征数据。

可选地，所述调序参数确定单元用于将所述特征数据输入参数模型，以通过所述参数模型确定所述候选广告队列中的至少一个候选广告的调序参数。

可选地，该广告投放装置还可以包括：出价调整单元，用于基于所述调序参数，调整所述一个或多个候选广告相对应的广告主的出价信息。

可选地，该广告投放装置还可以包括：参数优化单元，用于采用协方差矩阵自适应进化策略(CMA-ES)对所述参数模型进行模型参数迭代优化。

可选地，所述参数优化单元用于获取展现给用户的展现广告在预定时间段内的展现数据，以便基于所述展现数据对所述参数模型进行模型参数的迭代优化。

可选地，所述参数优化单元可以包括：反馈计算单元，用于获取基于N个同构的待优化参数模型确定的所述展现广告的所述展现数据，得到能够分别反映所述N个待优化参数模型的模型质量的N个反馈信息；以及迭代单元，用于基于所述N个反馈信息确定参与下一次的迭代优化的M个优质的待优化参数模型，其中N、M均为正整数，且N大于或等于M。

根据本公开的第四个方面，还提供了一种信息流广告投放装置，包括：特征数据获取装置，用于响应于用户操作触发的信息流流量，获取特征数据，所述特征数据包括与候选广告队列相关的第一特征数据；调序参数确定装置，用于基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数；排序分值调整装置，用于基于所述调序参数，调整所述至少一个候选广告的排序分值；排序装置，用于基于所述排序分值，对所述广告队列中的候选广告重新排序；以及展现装置，用于在所述信息流流量中，向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

可选地，所述候选广告可以是信息流形式的广告。

可选地，该装置还可以包括：候选广告队列确定装置，用于确定与信息流流量相对应的候选广告队列。

根据本公开的第五个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上任何一项所述的方法。

根据本公开的第六个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上任一项所述的方法。

由此，通过提取相关的特征数据确定候选广告对应的调序参数来对候选广告队列中的至少一个候选广告进行调序，使得广告主能够竞得高性价比的流量，以提升广告点击率、转化率。另外，还可以降低广告主的投入成本、提升广告平台收益。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开一个实施例的广告投放系统的结构示意图。

图2示出了根据本公开一个实施例的广告投放的整体流程的示意图。

图3示出了根据本公开一个实施例的广告投放方法的流程示意图。

图4示出了根据本公开一个实施例的信息流广告投放方法的流程示意图。

图5是示出了根据本公开一实施例的广告投放装置的结构的示意性方框图。

图6示出了根据本发明一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

【术语解释】

CMA-ES是Covariance Matrix Adaptation Evolutionary Strategies的缩写，即协方差矩阵自适应进化策略，主要用于解决连续优化问题，尤其在病态条件下的连续优化问题。

进化策略(ES)算法主要作为求解参数优化问题的方法，模仿生物进化原理，假设不论基因发生何种变化，产生的结果(性状)总遵循着零均值、某一方差的高斯分布。

强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learningsystem)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。

【方案概述】

如前所述，伴随着智能终端的普及，为智能终端提供内容的流量型平台应运而生，在用户终端请求获取其平台内容时，向用户终端投放或推送广告成为该类平台的主要盈利手段之一。

信息流(Feeds)广告，是在社交媒体用户好友动态、或者资讯媒体和视听媒体内容流中的广告。这种穿插在内容流中的广告，对用户来说体验相对较好，对广告主来说也可以利用用户的标签进行精准投放。因此，特别是在移动互联网时代到来后迎来了爆炸式的增长，很多互联网媒体都推出了信息流广告平台(如下简称内容平台方)。

如下示例中将结合信息流广告对本公开的广告投放方案进行详细说明。本领域技术人员应当理解，本公开如下所述的广告投放方案同样可以适用于其其它形式(例如搜索广告、展示类广告、分类广告、引导广告等)的互联网广告投放。

目前，信息流广告的竞价方式是，在展示信息流广告的产品中，在出现信息流流量的展示机会时，例如用户请求访问信息流的刷新操作，一般采用排序策略，内容平台方需要根据广告的相关信息对多个广告主的广告进行排序，从而决定由哪一个或者哪几个广告赢得在这次信息流流量上的展示机会。

排序策略需要综合衡量广告质量以及广告主的出价。

常见的做法是通过如下式(1)，计算得到各个广告的排序分值，将排序分值较高的一个或多个广告进行展现，也即这一个或多个广告的广告主竞得了广告展现机会。

rank_score＝pctr*bid (1)

其中，rank_score表述排序分值，pctr表示广告预估点击率，bid表示广告主出价。

应当理解的是，本公开涉及的广告预估点击率、以及如下述及的广告预估转化率、广告主的目标转化成本等参数均可以通过相关模块或模型进行计算或是从相关处获取，本公开对此类参数的确定过程不再赘述。

相比于用户意图较为明显的搜索广告，由于信息流广告定向的难度相对较大，信息流广告的点击率和转化效果相对也较差。因此，为寻求广告主和内容平台方的利益最大化，出现了以优化转化效果为目标的排序策略。

这种以优化转化效果为目标的排序策略，是业内引入的最初形态的智能调价的方式，通过收集广告转化数据以及计算广告预估转化率pcvr，对广告主出价进行调整，以使得转化率高的信息流流量有比较高的广告主出价，而对于转化率低的信息流流量有较低的广告主出价bid。

该排序策略通过如下的式(2)，计算得到广告的排序分值，将排序分值较高的几个广告进行展现，也即广告主竞得广告展现机会。

rank_score＝pctr*pcvr*tcpa (2)

其中，rank_score表述排序分值，pctr表示广告预估点击率，pcvr表示预估转化率，tcpa表示广告主的目标转化成本。

如上(式2)中的pcvr*tcpa可以视为等价于(式1)中的广告主出价bid。但是，pcvr*tcpa与bid的区别在于，广告主出价bid是动态变化的。在实际应用中，转化数据的收集和参数模型的学习都需要较长时间，而竞价环境的快速变化并不能很快地体现在广告预估转化率pcvr这一参数上。

在竞价环境发生变化的情况下，例如新加入广告主、广告主修改bid、或者广告主修改广告定向信息等，pcvr*tcpa这一非动态变化的参数也不能很好地展现竞价环境的快速变化。

因此，在上述基于广告预估转化率pcvr的最初形态的智能调价方案，仍然不能很好地感知竞价环境的变化，也不能根据竞价环境的变化实时地调整广告主出价，以实现广告主与内容平台方的共赢。

有鉴于此，本公开提出了一种广告投放方案，通过离线的模型学习以及在线的调序参数预测，通过快速感知竞价环境的变化，帮助广告主竞得高性价比的流量，提升广告点击率、转化率，同时降低广告主的投入成本，提升内容平台方的收益。

作为本公开的一个示例，提出了一种基于强化学习的思路来进行离线模型学习和参数迭代优化。在模型参数调整上可以采用协方差矩阵自适应进化策略(CMA-ES)(其中，参数学习还可以采用梯度下降方法或者CEM方法)，以多个具有不同模型参数的同构模型作为智能调序主体(Agent)来进行训练，并通过从竞价环境中获取展现广告的展现数据以计算强化信号，以此强化信号作为评价模型质量的标量信号(即反馈信息)，通过不断进行模型参数的迭代优化以得到能够更加适应竞价环境的参数模型。本公开由于采用了协方差自适应和整体步长自适应的学习机制，可以具有较快的收敛速度，使得参数模型更加可控，并且可以快速得到实验结果上线，早日为内容平台方带来收益。

如下将结合附图及实施例详细说明本公开的广告投放方案。

如图1所示，本发明的广告投放系统包括参数模型(Model)、反馈信息收集模块(Reward Collector)和竞价环境(Environment)。

通过离线的模型学习获得该参数模型相应的模型参数，该参数模型可以从竞价环境中获取候选广告队列相关的特征数据作为训练样本，以便得到针对候选广告预测的调序参数。并且，还可以通过定期或周期性地通过反馈信息收集模块获取已展现广告的相关展现数据作为环境的反馈来优化和更新模型参数。

其中，在在线智能广告投放阶段，则可以通过从竞价环境中获取候选广告队列以及用户的相关特征数据，来进行实时的预测调序参数并在线智能投放广告。在模型参数迭代优化阶段，参数模型可以通过反馈信息收集模块从记录用户对展现广告的响应的消息队列中收集用于评价参数模型质量所需的展现数据。

如下将分别结合实施例详细说明本发明的广告投放系统。其中，虽然在如下描述中分别以离线模型学习和在线调序参数预测两部分进行描述，但是本领域技术人员应当理解，在实际应用中，是结合在线预测和后台的模型优化来实现对本公开的参数模型的学习、迭代优化以及基于参数模型的在线调序参数预测。

离线模型学习

参见图1，在模型参数初始化阶段，首先可以基于高斯分布随机生成N组初始化模型参数(例如1.5、0.1等不同的浮点数)，每一组模型参数代表一个种群也即一个待优化的参数模型，各个种群对应的参数模型即是具有不同模型参数的同构模型，每组模型参数中对应的多个模型参数可以分别对应于从环境中获取的多个特征。

在模型训练阶段，可以从环境中获取相关特征数据(例如候选广告的预估响应率、用户特征信息、广告主定向信息等)作为训练样本，采用CMA-ES方法来对上述具有不同模型参数的多个(例如N个)同构模型进行学习和训练(此过程可参见如下结合在线调序参数预测部分的相关描述，在此不再赘述)，以预测对候选广告的测试调序参数，来实现例如对候选广告在候选广告队列中的排序、候选广告对应的广告主出价信息进行调整，以达到使得广告主竞得高性价比流量的目的。

以上述获取的特征数据作为各个同构模型的输入特征，模型输出为预测的调序参数。使用了不同模型参数的同构模型在运行一段时间之后，可以计算出各个模型带来的反馈信息，该反馈信息reward可以是一个标量信号，reward的数值大小能够在一定程度上反映出参与迭代优化的待优化参数模型的模型质量。例如，reward数值越大表示对应的模型越优质。

作为本公开的一个示例，可以根据用户对基于上述各个同构模型确定的展现广告的响应即展现广告的展现数据来确定各个模型带来的反馈信息。

具体来说，例如，在基于上述N个同构模型确定的调序参数，重新调整各个同构模型相应的候选广告队列中候选广告的排序以及候选广告对应的广告主出价信息(例如广告主出价、广告主目标转化成本等)以分别确定相应的展现广告之后，可以获取用户对相关展现广告的响应数据(即展现广告的展现数据)，以基于环境对展现广告的反馈实现对各个待优化参数模型的模型质量的评估。

作为本公开的一个示例，参见图1，可以通过反馈信息收集模块从消息队列中收集实时展现数据，包括在所述预定时间段内所述展现广告的展现次数(show)、用户对所述展现广告的点击次数(click)、所述展现广告的计费数据(charge)，并基于这些展现数据确定竞价环境的反馈信息(reward)。

上述收集的实时展现数据优选可以为预定时间段(例如最近1-3小时)内展现广告的线上展现数据，包括但不限于是展现广告的展现信息、用户对展现广告的点击信息、展现广告的计费数据等。

在本公开示例中，根据优化目的的不同，还可以定义不同的reward。例如，若优化目的是提升内容平台方的收入，在使用不同模型参数的同构模型运行一段时间后，则可以使用各个同构模型计算得到的一段时间内广告的前次展现价格(即如上所述的广告主出价)来作为模型带来的reward，将得到的reward数值相对较大的多个模型作为优质模型使之参与到模型参数的迭代优化中，并确定相对最为优质的参数模型使之应用在在线广告智能投放中。

反馈信息reward也可以是根据业务场景的需要来定制的。例如，在使用不同模型参数的同构模型运行一段时间后，可以基于各个同构模型确定的展现广告在一定时间段内的展现数据(即用户对展现广告的响应)来分别计算各个同构模型带来的reward。例如，可以将展现广告在一段时间内的消费数加和然后除以总展现次数，以求得各个模型带来的reward。本公开还可以通过其它方法定义上述reward，本公开对此不做限制。

进而，根据N个同构模型带来的反馈信息，可以从中确定参与下一次迭代优化的M个较为优质的模型，例如是得到的反馈信息数值相对较大的待优化参数模型。其中，N、M均为正整数，且N大于或等于M。由此，使反馈信息其参与到离线模型学习和模型参数迭代中，以实现对参数模型的更新和优化。

由此，通过不断地模型参数迭代优化确定相对优质的模型作为本公开的用于在线广告智能投放的参数模型。

这样，通过对多个同构模型(每次迭代中涉及的同构模型的数量可以相同也可以不同，可以根据需求进行设置)的模型学习和不断迭代优化，确定一个相对最为优质的参数模型，并使之作为用于进行在线智能广告投放的参数模型，参与到在线智能广告投放中。

在线调序参数预测阶段

将上述学习和训练得到的参数模型应用到在线智能广告投放中，以在线进行调序参数预测以及调整相关候选广告的排序或广告主出价信息，以使得广告主可以竞得高性价比的流量，实现广告主和内容平台方的双赢。

在在线智能广告投放中，当出现信息流广告的展现机会(例如用户请求访问信息流内容、用户请求访问信息流内容的刷新操作、用户选择相关频道等)时，参数模型可以从竞价环境中获取在线广告投放控制所需相关特征数据。该特征数据是能够反映竞价环境实时变化的特征数据，以便参数模型能够根据变化的竞价环境实时进行调序参数的预测，以调整候选广告的排序以及广告主的出价。

作为本公开的一个示例，可以在出现信息流流量时，确定与信息流流量相对应的候选广告队列以及该候选广告队列中的一个或多个候选广告。该信息流流量可以是用户请求访问内容的相关操作触发的。例如，用户打开相关内容平台方提供的应用程序首页时、用户选择相关频道时、用户进行页面刷新操作时等等。

候选广告队列以及候选广告队列中的一个或多个候选广告可以是基于多种方式确定的。例如可以是与用户点击的频道对应的相关频道候选广告队列以及候选广告，也可以是与用户感兴趣标签对应的相关兴趣候选广告队列以及候选广告，还可以是与用户所处地域相关的候选广告队列以及候选广告，或是通过其它方式确定该候选广告队列。本公开对候选广告队列及其中的一个或多个候选广告的确定方式不做限制，在此也不再赘述。

作为本公开的一个示例，可以通过获取特征数据，并基于特征数据确定候选广告队列中至少一个候选广告的调序参数，之后，基于调序参数调整至少一个候选广告的排序分值，并基于排序分值，对候选广告队列中的候选广告重新排序，完成在线智能广告投放。上述特征数据例如可以包括与候选广告队列相关的第一特征数据以及/或者用户的第二特征数据。

第一特征数据可以包括候选广告队列中一个或多个候选广告的预估用户响应率，例如预估点击率和/或预估转化率。其中，预估用户响应率可以通过多种方式(例如其它相关预估模型)确定，本公开在此不再赘述。

第一特征数据还可以一个或多个候选广告的广告主的定向信息，例如广告主投放的关键词、目标人群、目标地域、目标兴趣等定向条件。广告主定向信息是为了体现当次信息流流量对候选广告的投放广告主的适合程度。

该特征数据还可以包括一个或多个候选广告相对应的广告主的目标转化成本等信息。该预估用户响应率以及目标转化成本信息可以体现候选广告在候选广告队列中所处的位置(例如排序)，以判断当次信息流流量对于候选广告队列中的每个候选广告的适合程度(参见如上式2)。

用户的第二特征数据，例如可以是用户性别、年龄、职业、人群等用户画像信息。第二特征数据主要是为了体现当次信息流流量的受众对于广告队列中每个候选广告的适合程度。作为本公开的一个示例，该第二特征数据也可以用于确定候选广告队列中所述一个或多个候选广告的调序参数。

这里应当理解的是，如上所述的“候选广告队列中的一个或多个候选广告”与“候选广告队列中至少一个候选广告”可以相同也可以不同或是不完全相同。

例如，二者均可以包括候选广告队列中的全部候选广告。这样，参数模型通过获取候选广告队列中全部候选广告的相关特征数据来分别预测该全部候选广告对应的调序参数，从组合优化的角度快速感知复杂的竞价环境的变化。

又例如，上述“一个或多个候选广告”可以包括候选广告队列中的一部分候选广告，“至少一个候选广告”可以包括候选广告队列的另一部分候选广告。这样，可以通过一些广告相关的特征来预测另一些广告对应的调序参数。

又例如，上述“一个或多个候选广告”可以包括候选广告队列中的全部候选广告，“至少一个候选广告”可以包括候选广告队列的一部分候选广告，从组合优化的角度快速感知复杂的竞价环境的变化，并通过预测得到候选广告相应的调序参数，来对部分候选广告(例如得到价格调整授权)的排序、价格等进行调整，以使得广告主能够竞得高性价比的流量。

这样，在对至少部分候选广告确定调序参数时，还考虑了候选广告队列中其它候选广告的特征数据，能够体现其它候选广告的相关信息，使得能够给出更适合当前环境的报价信息，从而使得相关广告主能够竞得高性价比的流量，提升广告点击率和转化率。

在确定至少一个候选广告的调序参数的步骤中，可以将所获取的特征数据作为输入特征输入参数模型，以通过该参数模型确定候选广告队列中至少一个候选广告的调序参数R。该调序参数R可以用于对候选广告的广告主出价信息以及候选广告在广告队列中的排序进行实时在线调整，以使得广告主能够在快速变化的竞价环境中竞得高性价比的流量。

该参数模型可以是线性模型，调序参数可以是所述参数模型的多个模型参数与输入的特征数据中对应于所述模型参数的各个特征的特征值的乘积之和。其中，调序参数的目的是对候选广告的出价或排序进行调整，以调高高性价比广告的出价或排序、降低低性价比广告的出价或排序。该调序参数例如可以是0.5-1.5之间。

例如，参数模型可以通过如下公式确定所述调序参数：

R＝w₀+w₁*E₁+w₂*E₂+……+w_n*E_n

其中，R是调序参数，n表示每个候选广告的第n个特征，E_n表示对应于每个候选广告的第n个特征对应的特征值，w_n表示参数模型的第n个模型参数。

出价信息可以包括候选广告对应的广告主出价或广告目标转化成本，或是该候选广告在所述广告队列中的排序分值(或排序名次)。

基于上述得到的每个候选广告的调序参数R，可以通过如下式(3)调整候选广告的广告目标转化成本：

tcpa’＝tcpa*R (3)

通过如下式(4)调整候选广告的广告主出价：

bid’＝pcvr*tcpa*R (4)

通过如下式(5)计算每个候选广告的排序分值，以对广告队列中的多个候选广告进行重新排序。

rank_score’＝pctr*pcvr*tcpa*R (5)

其中，pctr、pcvr、tcpa分别表示作为输入特征的预估点击率、预估转化率、广告目标转化成本，R表示调序参数，tcpa’、bid’、rank_score’分别表示基于参数模型输出的调序参数调整后重新确定的候选广告对应的广告目标转化成本、广告主出价以及候选广告在候选广告队列中的排序分值。

之后，基于新的排序分值对候选广告队列中的候选广告重新排序，并向用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告，即展现给用户的候选广告对应的广告主竞得该信息流流量。其中，预定数量可以是根据实际场景中稀缺的广告位的数据确定的。

由此，上述的广告投放方案能够基于候选广告队列中全部候选广告整体，从组合优化的角度，基于竞价环境的快速变化，通过强化学习的方法在线实时调整排序策略和相关竞价，帮助广告主以合适的出价竞得高性价比的信息流流量。该方案对于广告点击率、转化率的提升也有明显效果，能够同时降低广告主的投入成本，提升内容平台方的收益。

另外，作为本公开的一个示例，还可以定期或周期性地通过反馈信息收集模块从消息队列中收集预定时间段内的线上展现数据，并基于获取的线上展现数据对参数模型进行周期性地更新和优化。这样，可以使得该参数模型能够更加适应变化的竞价环境，进一步提升参数模型的精度。

如图2所示，上述广告投放系统从离线模型训练至在线对候选广告队列中的至少一个候选广告进行在线调整以及模型更新的整体处理流程：

步骤S210、模型参数初始化：

基于高斯分布随机生成N组初始化模型参数，每一组模型参数代表一个种群即一个待优化的参数模型。

步骤S220、学习和训练以得到用于在线调序参数预测的参数模型：

从环境中获取候选广告队列的相关特征数据，并将其作为各个待优化的参数模型的输入特征分别输入各个待优化的参数模型。各个待优化的参数模型输出预测的调整参数。基于调序参数调整广告主的出价信息以及候选广告的排序分值，并向用户展现候选广告队列中重新排序后排序在前的预定数量个候选广告。在使用不同模型参数的同构模型运行一段时间后，从竞价环境中收集用户对展现广告的响应即展现广告的展现数据，并根据展现数据确定各个模型带来的反馈信息reward，以基于反馈信息从上述各个待优化参数模型中挑选出较为优质的M个种群并使其参与下一次的模型参数的迭代优化，直至确定出其中最为优质的种群作为用于进行在线调序参数预测的参数模型。

步骤S230、出现信息流流量时，从环境中获取候选广告队列的相关特征数据。

步骤S240、将获取到的特征数据输入步骤2中确定的参数模型，并输出在线实时预测的候选广告对应的调序参数。

步骤S250、基于预测的在线调序参数在线实时调整候选广告的广告主出价信息以及候选广告在广告队列中的排序分值。

步骤S260、基于排序分值，对候选广告队列中的候选广告重新排序，并向用户展现候选广告队列中排序在前的预定数量个候选广告。

步骤S270、离线收集展现数据以及参数迭代：从竞价环境中收集用户对展现广告的响应即展现广告的展现数据，并根据展现数据确定参数模型带来的反馈信息reward，采用CMA-ES方法进行模型参数迭代以更新和优化参数模型。

由此，本公开通过实时获取竞价环境中的特征数据，并采用预定参数模型，来预测调序参数，以便实时根据竞价环境的变化对候选广告对应的广告主出价信息、候选广告在候选广告队列中的排序分值等进行调整，以使得高性价比广告溢价、低性价比广告降低出价，使得广告主能够竞得高性价比的流量，同时提升内容平台方的收益。并且，通过定期或周期性地更新和优化参数模型，使得该参数模型能够更加适应变化的竞价环境，进一步提升参数模型的精度。

至此，结合附图1-2详细说明了本公开的广告投放方法的整体实现。

本公开如上技术方案，从候选广告队列整体优化的角度，基于竞价环境实时变化特点，通过强化学习的方法对广告主的出价信息以及候选广告的排序进行及时调整，使高性价比广告溢价，低性价比广告降低出价，以使得广告主能够竞得高性价比的流量。同时，对于广告点击率、转化率的提升都会有比较明显的效果，能够降低广告主的投入成本，提升内容平台方收益。

【广告投放方法】

本公开如上所述的广告投放方案还可以实现为一种广告投放方法。图3示出了根据本公开一个实施例的广告投放方法的流程示意图。

如图3所示，在步骤S310，获取特征数据，所述特征数据包括与候选广告队列相关的第一特征数据。其中，第一特征数据例如可以包括所述候选广告队列中一个或多个候选广告的预估用户响应率和/或一个或多个候选广告的广告主的定向信息。预估响应率例如可以包括预估点击率和/或预估点展率。

作为本公开的一个示例，上述特征数据还可以包括用户的第二特征数据。上述步骤S310还可以包括获取用户的第二特征数据。其中，可以同时获取第一特征数据和第二特征数据，也可以分别获取第一特征数据或第二特征数据。

之后，在步骤S320，基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数。其中，该参数模型可以是线性模型，并且该参数模型是采用协方差矩阵自适应进化策略(CMA-ES)进行模型参数迭代优化的。

具体地，可以将上述特征数据输入参数模型，以通过所述参数模型确定所述候选广告队列中的至少一个候选广告的调序参数。

在步骤S330，基于所述调序参数，调整所述至少一个候选广告的排序分值。优选地，这里还可以基于所述调序参数，调整所述一个或多个候选广告相对应的广告主的出价信息。

在步骤S340，基于所述排序分值，对所述广告队列中的候选广告重新排序。在步骤S340之后，还可以向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

作为本公开的一个优选示例，在上述步骤S310之前，还可以确定与信息流流量相对应的候选广告队列。信息流流量可以是由用户请求访问的操作触发的。

作为本公开的一个优选示例，该广告投放方法还可以包括：采用协方差矩阵自适应进化策略(CMA-ES)对所述参数模型进行模型参数迭代优化。

其中，所述模型参数迭代优化的步骤可以包括：获取展现给用户的展现广告在预定时间段内的展现数据，以便基于所述展现数据对所述参数模型进行模型参数的迭代优化。

可选地，所述基于所述展现数据对所述参数模型进行模型参数的迭代优化的步骤可以包括：获取基于N个同构的待优化参数模型确定的展现广告的展现数据，得到能够分别反映所述N个待优化参数模型的模型质量的N个反馈信息；以及基于所述N个反馈信息确定参与下一次的迭代优化的M个优质的待优化参数模型，其中N、M均为正整数，且N大于或等于M。

可选地，所述反馈信息可以是标量信息；并且所述优质的待优化参数模型可以是所述N个反馈信息中数值较大的M个反馈信息对应的待优化参数模型。

上述广告投放方法的具体实现可参见上述结合附图1-2的相关描述，在此不再赘述。

本公开如上所述的广告投放方案同样适用于信息流广告的应用场景中，图4示出了根据本公开一个实施例的信息流广告投放方法的流程示意图。

如图4所示，在步骤S410，响应于用户操作触发的信息流流量，获取特征数据，所述特征数据包括与候选广告队列相关的第一特征数据。其中，第一特征数据可以包括所述候选广告队列中一个或多个候选广告的预估用户响应率和/或一个或多个候选广告的广告主的定向信息。

作为本公开的一个示例，上述特征数据还可以包括用户的第二特征数据。上述步骤S410还可以包括获取用户的第二特征数据。其中，可以同时获取第一特征数据和第二特征数据，也可以分别获取第一特征数据或第二特征数据。

在步骤S420，基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数。其中，该候选广告是信息流形式的广告。

在步骤S430，基于所述调序参数，调整所述至少一个候选广告的排序分值。具体地，例如可以将所述特征数据输入参数模型，以通过所述参数模型确定所述候选广告队列中的至少一个候选广告的调序参数。

在步骤S440，基于所述排序分值，对所述广告队列中的候选广告重新排序.

在步骤S450，在所述信息流流量中，向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

作为本公开的一个示例，该方法还可以包括：确定与信息流流量相对应的候选广告队列。

上述信息流广告投放方法的具体实现也可参见上述结合附图1-2的相关描述，在此不再赘述。

【广告投放装置】

本公开如上所述的广告投放方案还可以实现为一种广告投放装置。图5是示出了根据本公开一实施例的广告投放装置的结构的示意性方框图。其中，装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图5所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关的描述，这里不再赘述。

如图5所示，本公开的广告投放装置500可以包括特征数据获取装置510、调序参数确定装置520、排序分值调整装置530和排序装置540。

特征数据获取装置510可以用于获取特征数据，所述特征数据包括与候选广告队列相关的第一特征数据。其中，特征数据还可以包括用户的第二特征数据，特征数据获取装置510可以用于获取用户的第二特征数据。

调序参数确定装置520可以用于基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数。其中，调序参数确定装置520可以将所述特征数据输入参数模型，以通过所述参数模型确定所述候选广告队列中的至少一个候选广告的调序参数。

排序分值调整装置530可以用于基于所述调序参数，调整所述至少一个候选广告的排序分值。

排序装置540可以用于基于所述排序分值，对所述广告队列中的候选广告重新排序。

作为本公开的一个示例，该广告投放装置还可以包括候选广告队列确定装置(图中未示出)。候选广告队列确定装置可以用于确定与信息流流量相对应的候选广告队列。其中，所述信息流流量可以是由用户请求访问的操作触发的。

作为本公开的一个示例，该广告投放装置还可以包括展现装置(图中未示出)。展现装置可以用于向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

作为本公开的一个示例，该广告投放装置还可以包括出价调整装置(图中未示出)。该出价调整装置可以用于基于所述调序参数，调整所述一个或多个候选广告相对应的广告主的出价信息。

作为本公开的一个示例，该广告投放装置还可以包括参数优化装置(图中未示出)。参数优化装置可以用于采用协方差矩阵自适应进化策略(CMA-ES)对所述参数模型进行模型参数迭代优化。其中，参数优化装置可以用于获取展现给用户的展现广告在预定时间段内的展现数据，以便基于所述展现数据对所述参数模型进行模型参数的迭代优化。

可选地，所述参数优化装置可以包括：反馈计算装置，用于获取基于N个同构的待优化参数模型确定的所述展现广告的展现数据，得到能够分别反映所述N个待优化参数模型的模型质量的N个反馈信息；以及迭代装置，用于基于所述N个反馈信息确定参与下一次的迭代优化的M个优质的待优化参数模型，其中N、M均为正整数，且N大于等于M。

上述广告投放装置500同样适用于实现图4所示的信息流广告投放方法。

具体来说，例如，特征数据获取装置510可以响应于用户操作触发的信息流流量，获取特征数据，所述特征数据包括与候选广告队列相关的第一特征数据。

调序参数确定装置520可以基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数。其中，候选广告可以是信息流形式的广告。

排序分值调整装置530可以基于所述调序参数，调整所述至少一个候选广告的排序分值。

排序装置540可以基于所述排序分值，对所述广告队列中的候选广告重新排序。

展现装置，用于在所述信息流流量中，向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

候选广告队列确定装置可以确定与信息流流量相对应的候选广告队列。

上述广告投放装置的各个装置或模块的功能的实现可参见上文相关描述，在此不再赘述。

【计算设备】

图6示出了根据本发明一实施例可用于实现上述广告投放方法的计算设备的结构示意图。

参见图6，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器610可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可处理代码，当可处理代码被处理器620处理时，可以使处理器620执行上文述及的广告投放方法。

上文中已经参考附图详细描述了根据本发明的广告投放方法和装置。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种广告投放方法，其特征在于，包括：

获取能够反映竞价环境实时变化的特征数据，所述特征数据包括与候选广告队列相关的第一特征数据以及用户的第二特征数据；所述第一特征数据包括用于体现候选广告在候选广告队列中所处的位置的信息，以及一个或多个候选广告的广告主的定向信息，所述定向信息用于体现当次信息流流量对广告主的适合程度；所述第二特征数据用于体现当次信息流流量的受众对于广告队列中的各个候选广告的适合程度；

基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数，所述调序参数用于对所述候选广告的广告主出价信息进行调整，所述广告主出价信息等于预估转化率乘以广告目标转化成本；

基于所述调序参数，调整所述至少一个候选广告的广告主出价信息，并基于调整后的广告主出价信息调整所述至少一个候选广告的排序分值；以及

基于所述排序分值，对所述广告队列中的候选广告重新排序。

2.根据权利要求1所述的方法，其特征在于，

所述第一特征数据包括所述候选广告队列中一个或多个候选广告的预估用户响应率。

3.根据权利要求2所述的方法，其特征在于，

所述预估响应率包括预估点击率和/或预估点展率。

4.根据权利要求1所述的方法，其特征在于，还包括：

确定与信息流流量相对应的候选广告队列。

5.根据权利要求1所述的方法，其特征在于，所述信息流流量是由用户请求访问的操作触发的，该方法还包括：

向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

6.根据权利要求1所述的方法，其特征在于，所述基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数的步骤包括：

将所述特征数据输入参数模型，以通过所述参数模型确定所述候选广告队列中的至少一个候选广告的调序参数。

7.根据权利要求6所述的方法，其特征在于，所述参数模型是线性模型。

8.根据权利要求6所述的方法，其特征在于，还包括：

采用协方差矩阵自适应进化策略(CMA-ES)对所述参数模型进行模型参数迭代优化。

9.根据权利要求8所述的方法，其特征在于，所述模型参数迭代优化的步骤包括：

获取展现给用户的展现广告在预定时间段内的展现数据，以便基于所述展现数据对所述参数模型进行模型参数的迭代优化。

10.根据权利要求9所述的方法，其特征在于，所述基于所述展现数据对所述参数模型进行模型参数的迭代优化的步骤包括：

获取基于N个同构的待优化参数模型确定的所述展现广告的所述展现数据，得到能够分别反映所述N个待优化参数模型的模型质量的N个反馈信息；以及

基于所述N个反馈信息确定参与下一次的迭代优化的M个优质的待优化参数模型，其中N、M均为正整数，且N大于或等于M。

11.根据权利要求10所述的方法，其特征在于，

所述反馈信息是标量信息；并且

所述优质的待优化参数模型是所述N个反馈信息中数值较大的M个反馈信息对应的待优化参数模型。

12.根据权利要求9所述的方法，其特征在于，所述展现数据包括以下至少一项：

在所述预定时间段内所述展现广告的展现次数；

用户对所述展现广告的点击次数；以及

所述展现广告的计费数据。

13.一种信息流广告投放方法，其特征在于，包括：

响应于用户操作触发的信息流流量，获取能够反映竞价环境实时变化的特征数据，所述特征数据包括与候选广告队列相关的第一特征数据以及用户的第二特征数据；所述第一特征数据包括能够用于体现候选广告在候选广告队列中所处的位置的信息，以及一个或多个候选广告的广告主的定向信息，所述定向信息用于体现当次信息流流量对广告主的适合程度；所述第二特征数据用于体现当次信息流流量的受众对于广告队列中的各个候选广告的适合程度；

基于所述调序参数，调整所述至少一个候选广告的广告主出价信息，并基于调整后的广告主出价信息调整所述至少一个候选广告的排序分值；

基于所述排序分值，对所述广告队列中的候选广告重新排序；以及

在所述信息流流量中，向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

14.根据权利要求13所述的方法，其特征在于，所述候选广告是信息流形式的广告。

15.根据权利要求13所述的方法，其特征在于，还包括：

确定与信息流流量相对应的候选广告队列。

16.根据权利要求13所述的方法，其特征在于，

17.根据权利要求13所述的方法，其特征在于，所述基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数的步骤包括：

18.一种广告投放装置，其特征在于，包括：

特征数据获取装置，用于获取能够反映竞价环境实时变化的特征数据，所述特征数据包括与候选广告队列相关的第一特征数据以及用户的第二特征数据；所述第一特征数据包括能够用于体现候选广告在候选广告队列中所处的位置的信息，以及一个或多个候选广告的广告主的定向信息，所述定向信息用于体现当次信息流流量对广告主的适合程度；所述第二特征数据用于体现当次信息流流量的受众对于广告队列中的各个候选广告的适合程度；

调序参数确定装置，用于基于所述特征数据，确定所述候选广告队列中的至少一个候选广告的调序参数，所述调序参数用于对所述候选广告的广告主出价信息进行调整，所述广告主出价信息等于预估转化率乘以广告目标转化成本；

排序分值调整装置，用于基于所述调序参数，调整所述至少一个候选广告的广告主出价信息，并基于调整后的广告主出价信息调整所述至少一个候选广告的排序分值；以及

排序装置，用于基于所述排序分值，对所述广告队列中的候选广告重新排序。

19.根据权利要求18所述的装置，其特征在于，还包括：

候选广告队列确定装置，用于确定与信息流流量相对应的候选广告队列。

20.根据权利要求19所述的装置，其特征在于，所述信息流流量是由用户请求访问的操作触发的，该装置还包括：

展现装置，用于向所述用户展现所述候选广告队列中重新排序后排序在前的预定数量个候选广告。

21.根据权利要求18所述的装置，其特征在于，

所述调序参数确定装置用于将所述特征数据输入参数模型，以通过所述参数模型确定所述候选广告队列中的至少一个候选广告的调序参数。

22.根据权利要求21所述的装置，其特征在于，还包括：

参数优化装置，用于采用协方差矩阵自适应进化策略(CMA-ES)对所述参数模型进行模型参数迭代优化。

23.根据权利要求22所述的装置，其特征在于，所述参数优化装置用于获取展现给用户的展现广告在预定时间段内的展现数据，以便基于所述展现数据对所述参数模型进行模型参数的迭代优化。

24.根据权利要求23所述的装置，其特征在于，所述参数优化装置包括：

反馈计算装置，用于获取基于N个同构的待优化参数模型确定的所述展现广告的所述展现数据，得到能够分别反映所述N个待优化参数模型的模型质量的N个反馈信息；以及

迭代装置，用于基于所述N个反馈信息确定参与下一次的迭代优化的M个优质的待优化参数模型，其中N、M均为正整数，且N大于或等于M。

25.一种信息流广告投放装置，其特征在于，包括：

特征数据获取装置，用于响应于用户操作触发的信息流流量，获取能够反映竞价环境实时变化的特征数据，所述特征数据包括与候选广告队列相关的第一特征数据以及用户的第二特征数据；所述第一特征数据包括能够用于体现候选广告在候选广告队列中所处的位置的信息，以及一个或多个候选广告的广告主的定向信息，所述定向信息用于体现当次信息流流量对广告主的适合程度；所述第二特征数据用于体现当次信息流流量的受众对于广告队列中的各个候选广告的适合程度；

排序分值调整装置，用于基于所述调序参数，调整所述至少一个候选广告的广告主出价信息，并基于调整后的广告主出价信息调整所述至少一个候选广告的排序分值；

排序装置，用于基于所述排序分值，对所述广告队列中的候选广告重新排序；以及

26.根据权利要求25所述的装置，其特征在于，所述候选广告是信息流形式的广告。

27.根据权利要求26所述的装置，其特征在于，还包括：

28.一种计算设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-17中任何一项所述的方法。

29.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至17中任一项所述的方法。