CN113762587A

CN113762587A - 一种素材投放方法、装置及相关产品

Info

Publication number: CN113762587A
Application number: CN202110552176.8A
Authority: CN
Inventors: 杨敏达; 李文俊; 王恒欢; 肖泽东; 殷泽龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-12-07

Abstract

本申请实施例公开了一种素材投放方法、装置及相关产品，至少涉及人工智能中的机器学习或自然语言处理。方法包括：获得素材投放后的用户响应数据；用户响应数据与投放效果指标具有关联关系；素材与目标素材具有关联关系；根据用户响应数据获得在未来投放时间窗口下目标素材的投放效果指标的预测值；根据投放效果指标的预测值对目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在未来投放时间窗口下目标素材的投放目标；从多种待定投放动作中确定出使投放目标满足调优需求的目标投放动作，对目标素材执行目标投放动作。

Description

一种素材投放方法、装置及相关产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种广告素材管理方法、装置及相关产品。

背景技术

随着互联网技术的发展，越来越多的素材被投放到公众所能接触到的信息平台上。例如，广告需求方平台在广告投放平台投放各种类型的广告素材。这些广告投放平台可以是网站或应用程序的网页等。投放的广告素材内容与广告需求方平台研发的产品类型相关，例如广告需求方平台研发的产品为一款游戏应用程序，则投放在广告投放平台的素材可以是推广该游戏应用程序的宣传动画。

素材投放的过程通常包括三个部分，分别是召回、排序和投放管理。仍以广告素材为例，召回是指在广告需求方平台(即广告主)提供的素材池中召回候选的广告素材，过滤低质量和重复性素材。排序是指需要根据预估的投放效果进行广告素材的排序。投放管理是指在多种待选投放动作(例如暂停投放、调整预算、调整出价)中决定出需要继续对素材执行的适合的投放动作。

现有技术中进行素材的投放管理时，往往依赖于人工经验决定对素材的投放动作。例如人工进行素材投放管理一般是基于人工经验设置阈值组合的规则来实现素材的投放管理，决定投放动作。但是依靠此种方式，投放效果往往难以把控，达不到预期的现象时有发生。同时，人工确定投放动作的方式存在效率较低的问题。已有的自动化执行素材投放的方法也无法实现素材投放的调优管理。因此，在素材投放方面依然有值得研究的空间。

发明内容

本申请实施例提供了一种素材投放方法、装置及相关产品，以高效实现对素材投放动作的决策，并实现对素材的调优管理。

有鉴于此，本申请第一方面提供了一种素材投放方法，方法包括：

获得素材投放后的用户响应数据；用户响应数据与投放效果指标具有关联关系；素材与目标素材具有关联关系；

根据用户响应数据获得在未来投放时间窗口下目标素材的投放效果指标的预测值；

根据投放效果指标的预测值对目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在未来投放时间窗口下目标素材的投放目标；

从多种待定投放动作中确定出使投放目标满足调优需求的目标投放动作，对目标素材执行目标投放动作。

本申请第二方面提供一种素材投放装置，装置包括：

数据获取单元，用于获得素材投放后的用户响应数据；用户响应数据与投放效果指标具有关联关系；素材与目标素材具有关联关系；

指标预测单元，用于根据用户响应数据获得在未来投放时间窗口下目标素材的投放效果指标的预测值；

动作模拟单元，用于根据投放效果指标的预测值对目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在未来投放时间窗口下目标素材的投放目标；

动作决策单元，用于从多种待定投放动作中确定出使投放目标满足调优需求的目标投放动作；

动作投放单元，用于对目标素材执行目标投放动作。

本申请第三方面提供一种计算机设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令，执行如上述第一方面的素材投放方法的步骤。

本申请第四方面提供一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述第一方面的素材投放方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中提供了一种素材投放方法、装置及相关产品。素材投放方法利用素材投放后的用户响应数据来获得在未来投放时间窗口下目标素材的投放效果指标的预测值。进而，基于可收集的已产生的数据实现了对目标素材未来投放效果指标的预测。接着，根据投放效果指标的预测值对目标素材分别模拟执行多种待定投放动作，模拟后可以获得多种待定投放动作下在未来投放时间窗口下目标素材的投放目标。例如不同的待定投放动作模拟执行后产生的投放目标在数值上呈现出差异。投放目标的数值与调优需求关联。例如，调优需求是投放目标数值最大化。在本申请中，从多种待定投放动作中确定出使投放目标满足调优需求的目标投放动作，再对目标素材执行目标投放动作。本申请以预测出的投放效果指标为基础并结合调优需求来指导投放动作的决策，实现了对素材的调优管理。此外，该方法可以自动化地执行，因此可以实现对素材投放动作的高效决策和执行。

附图说明

图1为本申请实施例提供的一种素材投放方法流程图；

图2为本申请实施例提供的一种预测模型训练示意图；

图3为本申请实施例提供的一种决策模型训练示意图；

图4为本申请实施例提供的一种利用模型实现素材投放的示意图；

图5为本申请实施例提供的一种根据时间序列形式的用户响应数据实现投放效果指标预测的TCN模型架构示意图；

图6为本申请实施例提供的一种在POMDP模型中素材状态转化以及通过观测判断素材所属状态的示意图；

图7为本申请实施例提供的一种素材投放装置的结构示意图；

图8为本发明实施例提供的一种服务器的结构示意图；

图9为本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

基于当前素材投放管理环节存在的投放管理效率低并且投放目标难以把控的问题，本申请实施例提出了针对性的解决方案，具体包括：素材投放方法、装置及相关产品。在本申请实施例中，基于已收集的用户行为数据去预测未来投放时间窗口下目标素材的投放效果指标，再以预测的投放效果指标为基础模拟对目标素材执行不同投放动作，获得每一种投放动作下在未来产生的投放目标。进而，再基于调优需求从多个待选的投放动作中确定出目标投放动作以实际执行该投放动作。该方案依赖于历史投放产生的数据进行投放效果指标的预测以及投放动作的决策，而不需依赖人工经验，因此，可以自动化地完成，大大提升了效率。另外，以预测的投放效果指标和调优需求来指导对目标素材投放动作的决策，实现了对素材的调优管理，进而使投放目标更容易把控，更逼近于调优需求。

本申请实施例提供的素材投放方法可以是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述自然语言处理、机器学习/深度学习等方向。例如，可以涉及自然语言处理(Nature Language processing，NLP)中的语义理解(Semantic understanding)、机器人问答，包括问题理解(queryunderstanding)、答案抽取(Answer extraction)、答案论证(Answer argument)，也可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(Artificial Neural Network，ANN)。

本申请提供的素材投放方法可以应用于具有数据处理能力的素材投放设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、智能手表等，但并不局限于此；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

素材投放设备可以具备实施自然语言处理的能力，自然语言处理(NatureLanguage processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中，文本处理设备可以通过自然语言处理中的文本预处理、语义理解等技术对文本进行处理。

素材投放设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

在本申请实施例素材投放方法中，可以采用机器学习方法实现指标预测和动作决策。进而实现了对素材的调优管理，使投放目标更容易把控，更逼近于调优需求。

在本申请实施例中，素材投放平台和素材需求方平台可以是基于区块链实现的。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层(例如素材投放平台或素材需求方平台)提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

素材投放属于当前较为常见的场景，例如日常人们见到的广告素材均是投放后呈现在人们面前的。而广告需求方平台的广告素材管理项目和产品应用中常需要关注如何提升广告素材管理效率和投放效果。广告素材具体在广告投放平台投放。下面结合附图对本申请实施例提供的一种素材投放方法进行介绍。

如图1所示，素材投放方法包括：

S101：获得素材投放后的用户响应数据。

在素材投放后，素材可以呈现在素材投放平台的受众面前，此处这些受众被称为素材投放平台的用户。作为示例，素材投放平台可以是一款通讯类应用程序或者一款媒体播放类应用程序。本申请中，为了实现对目标素材的投放管理，需要获得素材投放后的用户响应数据，此处用户响应数据所对应的素材与目标素材具有关联关系。例如，用户响应数据所对应的素材为目标素材本身，或者与目标素材同类型的素材。作为一示例，目标素材是一款游戏产品的广告素材A，则S101中具体获得广告素材A的用户响应数据。作为另一示例，目标素材是一款游戏产品的广告素材A，则S101中具体获得其他游戏产品的广告素材的用户响应数据。

此处，用户响应数据可以包括：素材点击率、素材曝光量，这些是可以通过素材投放平台获得的用户响应数据。此外，用户响应数据还可以包括：用户(对素材对应的产品的)注册量、用户(对素材对应的产品的)付费信息等，这些是可以通过素材需求方平台获得的用户响应数据。本申请对于用户响应数据的来源和具体内容不做限制。用户响应数据从数值或者数值量级上客观上反映了此前素材投放产生的效果，用户响应数据与投放效果指标具有关联关系，因此获取后可以用作预测目标素材未来的投放效果指标，具体参见S102。

投放效果指标可以用于指示素材的投放效果。

本申请实施例中，基于历史投放素材后获得的用户响应数据便可以预测未来的投放效果指标。而为了更加精准地实现预测，使预测效果更加趋于准确，还可以收集其他的回流数据，例如投放素材的消耗金额等。这类数据也有益于后续做出更加匹配的投放动作决策。

S102：根据用户响应数据获得在未来投放时间窗口下目标素材的投放效果指标的预测值。

未来投放时间窗口的大小，表示了以当前时刻对目标素材未来的投放效果指标进行预测的时间长度。例如，未来投放时间窗口的大小为24h，则表示要预测的是未来24h目标素材达到的投放效果指标。再例如，未来投放时间窗口的大小为一周，则表示要预测的是未来一周目标素材达到的投放效果指标。对未来投放时间窗口大小的选取可以根据实际预测需求进行设置，此处不做严格限制。

进行投放效果指标的预测，具体可以是针对单个维度的投放效果指标进行预测，还可以是对多个维度的投放效果指标进行预测。作为示例，投放效果指标包括以下任意一个或多个的组合：投资回报率(return on investment,ROI)、素材点击率、用户次日留存率或用户付费比例。

由于S101获得的素材用户响应数据与素材的投放效果指标具有关联关系，因此，便可以基于这些用户响应数据对未来投放时间窗口下目标素材的投放效果指标进行预测，获得各个投放效果指标的预测值。素材用户响应数据与素材的投放效果指标之间的关联关系可以通过多种方式获得。例如，通过分析历史的数据(包括用户响应数据和真实的投放效果指标)在数值上的联系(例如权重、影响因子等)，挖掘出上述关联关系。

通过执行S102，获得了未来投放时间窗口下目标素材的投放效果指标的预测值。为了对当前需要执行的目标投放动作决策以实现目标素材投放的调优管理，本申请实施例在后续步骤中，可以用S102获得的投放效果指标的预测值作为基础，搭建出一个预测出的未来投放时间窗口的环境用于选定目标投放动作，具体参见S103。

S103：根据投放效果指标的预测值对目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在未来投放时间窗口下目标素材的投放目标。

对于目标素材其通常包括多种待定投放动作。待定投放动作是指可选的投放动作，需要执行的目标投放动作是多种待定投放动作之一。以下对几种投放动作进行举例：

1、等待(wait)

2、暂停投放(withdraw)

3、上线(launch)

4、上调预算(add_budget)

5、下调预算(reduce_budget)

6、上调出价(add_bid)

7、下调出价(reduce_bid)

作为示例，如果目标素材当前处于暂停投放的状态，则其多种待定投放动作可以包括等待、上线、上调预算、下调预算、上调出价和下调出价。如果当前处于等待状态，则目标素材的多种待定投放动作可以包括暂停投放、上线、上调预算、下调预算、上调出价和下调出价。也就是说，目标素材的待选投放动作具体可以根据前一次执行的投放动作确定。

在本申请实施例中，对于多种待选投放动作，可以分别模拟以获得多种待定投放动作下各自在未来投放时间窗口下目标素材的投放目标。例如，不同的待定投放动作在模拟后，产生的投放目标数值上存在差异。

投放目标可以根据目标素材指向的产品类型确定。例如，产品是关注广告成本及用户付费的游戏类APP，则投放目标可以包括回款和消耗；产品是关注用户使用时长和留存的新闻及视频类APP，则投放目标可以包括留存和消耗。因此此处对于投放目标不做限定。

在可能的实现方式中，投放目标可能是前面预测的投放效果指标之中的一个或多个指标，也可能与上述投放效果指标具有关联关系的其他指标。本申请实施例中，以投放目标的数值来评价和衡量对目标素材执行投放动作后产生的投放效果。

本申请实施例中，模拟执行多种待定投放动作下，其前提是以S102获得的投放效果指标预测值作为数据基础。也就是说，在拥有这些数据基础的前提之下，多种待定投放动作才是基于一个统一的环境模拟执行的，模拟的多种待定投放动作具有共同的数据基础。通过模拟即可以获得不同待定投放动作下在未来投放时间窗口下目标素材的投放目标。

S104：从多种待定投放动作中确定出使投放目标满足调优需求的目标投放动作。

本申请实施例中，对目标投放动作的确定需要以S103获得的投放目标作为依据，因为投放目标的数值用于评价和衡量对目标素材执行投放动作后产生的投放效果。此外，在本申请实施例中，目标投放动作的选取还需与调优需求匹配。例如，投放目标是收益，而调优需求是使得收益值最大化，则在S104确定的目标投放动作应当是在模拟中使得未来投放时间窗口收益达到最大的一个待定投放动作。

S105：对目标素材执行目标投放动作。

由于在S104中确定的目标投放动作是通过模拟执行后未来阶段满足调优需求的投放动作，因此，为了之后获得接近调优需求的投放目标，在S105中对目标素材执行此动作即可。

以上即为本申请实施例提供的一种素材投放方法。该素材投放方法利用素材投放后的用户响应数据来获得在未来投放时间窗口下目标素材的投放效果指标的预测值。进而，基于可收集的已产生的数据实现了对目标素材未来投放效果指标的预测。接着，根据投放效果指标的预测值对目标素材分别模拟执行多种待定投放动作，模拟后可以获得多种待定投放动作下在未来投放时间窗口下目标素材的投放目标。例如不同的待定投放动作模拟执行后产生的投放目标在数值上呈现出差异。投放目标的数值与调优需求关联。例如，调优需求是投放目标数值最大化。在本申请中，从多种待定投放动作中确定出使投放目标满足调优需求的目标投放动作，再对目标素材执行目标投放动作。本申请以预测出的投放效果指标为基础并结合调优需求来指导投放动作的决策，实现了对素材的调优管理。此外，该方法可以自动化地执行，因此可以实现对素材投放动作的高效决策和执行。

在以上实施例介绍的S102和S103-S104分别可以通过模型实现。以下介绍通过预测模型实现S102和通过决策模型实现S103-S104的方法。首先对预测模型和决策模型的输入和输出进行介绍。

结合S102介绍的内容，对于预测模型而言，其输入是S101获得的用户响应数据，其输出是未来投放时间窗口下目标素材的投放效果指标的预测值。结合S103-S104介绍的内容，对于决策模型而言，其输入是预测模型的输出，即未来投放时间窗口下目标素材的投放效果指标的预测值，输出是所模拟的待选投放动作执行后产生的投放目标，其中包含了目标投放动作产生的投放目标。也就是说，本申请实施例中，预测模型能够基于输入的用户响应数据来预测未来投放时间窗口下目标素材的投放效果指标。决策模型则能够基于输入的投放效果指标决策出目标投放动作。

预测模型和决策模型在部署和使用之前均需要经过训练。下面结合图2介绍预测模型的训练环节，结合图3介绍决策模型的训练环节。在本申请实施例中，预测模型及决策模型可以分别训练，也可以通过输出与输入耦合的方式同时训练。

为训练预测模型，首先准备了第二样本集，其中第二样本集包括：素材样本投放后的用户响应数据样本。用户响应数据样本的标签为素材样本的真实投放效果指标样本。如图2所示，在训练时，将用户响应数据样本输入待训练的预测模型，根据待训练的预测模型的输出与真实投放效果指标样本的差异，对待训练的预测模型各层参数进行调整；当待训练的预测模型满足第二训练截止条件时，完成训练获得预测模型。

作为示例，第二训练截止条件可以是训练次数达到预设次数，或者是模型达到一定的收敛程度。本申请实施例中关注于预测模型的一些特定的评价指标，例如输出与标签的相关系数、均方根误差和准确率等。因此，第二训练截止条件还可以是这些评价指标到达相应的设定数值。

为训练决策模型，首先准备了第一样本集，其中第一样本集包括：素材样本的投放效果指标样本。投放效果指标样本的标签为真实投放动作下素材样本的真实投放目标。如图3所示，在训练时，将投放效果指标样本输入待训练的决策模型，根据待训练的决策模型的输出与投放效果指标样本的标签之间的差异，对待训练的决策模型各层参数进行调整；当待训练的决策模型满足第一训练截止条件时，完成训练获得决策模型。

作为示例，第一训练截止条件可以是训练次数达到预设次数，或者是模型达到一定的收敛程度。本申请实施例中关注于决策模型的一些特定的评价指标，例如输出的投放目标大小。因此，第一训练截止条件还可以是这些评价指标到达相应的设定数值。

前面提到，预测模型和决策模型可以协同训练，因此可以在预测模型训练完成能够达到较高的准确度后，将预测模型的输出作为第一样本集中的投放效果指标样本。如此，也与实际场景中预测模型和决策模型使用模式匹配。

图4为本申请实施例提供的一种利用模型实现素材投放的示意图。如图4所示，将用户响应数据作为预测模型的输入，通过预测模型获得在未来投放时间窗口下目标素材的投放效果指标的预测值。将投放效果指标的预测值作为决策模型的输入，通过决策模型对目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在未来投放时间窗口下目标素材的投放目标。决策模型依据调优需求(例如可以是依据投放目标的调优函数)主动调优投放目标，进而确定出目标投放动作。

此外，在训练完成后，还可以对预测模型和决策模型进行仿真测试。仿真测试具体可以包括离线测试和实时测试。离线测试使用的测试数据与第一样本集、第二样本集及相应的标签来源渠道类似。实时仿真使用的数据则来源于素材实时的投放环境。通过离线测试和实时测试，能够更好地检验所训练出的预测模型和决策模型的使用效果，并在使用效果不符合预期是加以及时的调节更新。

在前文提到，要预测的投放效果指标可以是多维度的。在建模之前可以采用相关系分析和回归模型来确定具体投放场景下用户响应数据与投放效果指标的关联性，从而避免预测模型数据维度过大或陷入过拟合的误区。

在决策模型的规则迭代(policy iteration)中预先可能并不确定哪些投放效果指标能够更好地决定未来的投放目标，提供多维度的预测值能够避免决策模型在学习过程中限于局部最优解。此外，不同的业务场景虽然可能有类似的用户响应数据或者金额消耗等回流数据，但往往投放目标会有些差异，某些情况下业务的投放目标也会随着本身的发展而改变，采取多指标预测能够更好的覆盖不同投放目标的相关投放效果指标。因此，在本申请实施例中，还可以通过多维度投放效果指标的预测，使用通用的预测模型，只对决策模型进行新场景的针对性训练。因此，通过多指标的预测，能够克服传统素材投放管理场景下无法有效根据业务特点选取素材指标的缺陷。此外模型的使用还避免了人工方式投放素材时，主观设置阈值进行投放动作选取的低效。

在本申请实施例中，预测模型可以选用：支持时间序列建模的神经网络模型，例如：时域卷积网络(Temporal Convolutional Network,TCN)模型，或用于拟合函数的机器学习模型，如线性回归模型。决策模型可以选用：用于增强学习的神经网络模型，例如：部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)模型，或增强学习模型，例如如：Q-learning模型。

下面介绍选用TCN模型作为预测模型的优势。

预测模型中采用TCN建模。在研究时间序列的场景中，时间卷积网络是用于序列建模任务的卷积神经网络用于时序模型的变体，可以看作递归神经网络(recurrent neuralnetwork,RNN)和卷积神经网络(convolutional neural network,CNN)的融合体。使用卷积结构的TCN在多个任务和数据集上优于常用循环网络如长短期记忆网络(long short termmemory,LSTM)模型，同时表现出更好的长期记忆效果。

TCN用于多维时间序列建模，由于TCN卷积顺序为因果卷积，即不存在时间上从未来到过去的信息“泄露”。另外类似RNN结构，TCN可以编码输入任意长度的序列并映射至输出序列，通过结合扩张卷积网络利于TCN编码选取输入时间上相距非常远的信息。在本申请实施例中，采用TCN模型作为预测模型，则用户响应数据具体按照时间序列输入预测模型中。序列的长度与数据跨越的时间长度以及数据的采样精度有关。本申请实施例中在素材投放的投放效果指标预测场景使用TCN有如下优点：

TCN模型支持不定长输入，可以更好的编码时间序列。TCN的卷积层负责编码可能出现的不同时间粒度的特征。此外，TCN模型方便使用时间编码函数，有利于模型学习素材的用户响应数据中的时间信息。

图5为本申请实施例提供的一种根据时间序列形式的用户响应数据实现投放效果指标预测的TCN模型架构示意图。TCN模型可选的主要超参数包括输入时间窗口的长度、卷积网络层的数目等。输入模型的数据为素材以往投放动作产生的用户响应数据，还可以包括回流的数据。例如，输入的数据包括：每小时的展示(expose)、点击(click)、消耗(cost)、激活数(active)等。可选地，可以将这些数据累积并相应归一化后作为每个小时的特征值。图5中time_(t-k)、…、time_(t-5)、…time_(t-1)、time_(t)等均表示过去的时间，从图中下端可以看到每一个时间对应着多种数据用以输入模型并预测投放效果指标。假设未来投放时间窗口为24h，则t+24表示未来投放时间窗口的结束时刻。模型的预测目标为素材在未来投放周期中的预期表现(即投放效果指标)，例如可以选择预测素材未来24小时的ROI，如图5中所示的ROI_(t+24h)。

结合图5的TCN模型架构可以看出，在预测投放的素材在未来的表现时，采取TCN模型有以下优势：由于卷积可以并行完成，在训练和评估时TCN可以直接处理整个长输入序列，对比于RNN需要顺序处理，TCN模型更适宜在时间延迟敏感的素材投放场景中使用。此外，TCN架构中可通过多种方式如堆叠更多卷积层、使用更大的扩张因子、增加滤波器大小等方式改变感受野大小。如此灵活性，方便在不同的业务场景根据数据的有效历史和时间粒度调整TCN感受野，进而能够减少不同业务场景开发并部署的维护难度。

TCN架构的预测模型对于多目标的学习和预测有较好支持，具体实现时可以直接将不同的预测目标(即投放效果指标)进行归一化后并列作为TCN模型的预测目标训练，在同一模型中同时预测多个相关目标可以看作对模型参数的一种正则化(regularization)，即参数倾向于学习到能够预测多个目标的特征，降低过拟合的可能性。同时多目标预测可以从不同维度的指标提供对于素材未来投放时间窗口表现的信息，可以理解为在增强学习框架如POMDP中提供多维度的价值迭代(value iteration)预测值。

下面介绍选用POMDP模型作为决策模型的优势。

可以将素材所处的状态(例如投放中或者暂停投放)看作是有限状态机里的状态，而将模型对于素材的投放动作的决策看作状态间转移的动作，从而建立直观且和决策直接挂钩的决策模型。马尔可夫决策过程(Markov Decision Process,MDP)和隐马尔可夫模型(Hidden Markov Model,HMM)是两类基于马尔可夫模型的模型。MDP通常用于描述代理能够控制选择决策的模型，而HMM通常用作刻画被动的进程。在素材投放中每条素材会“决策”进行投放动作的改变(投放动作涵盖预算调整/下线等不同投放动作)，使用MDP更符合投放过程中素材角度进行决策的过程。MDP中设定每个状态转移会伴随事先定义的某种收益，而在每个状态转移时决策的目标函数通常即为最大化期望收益，在素材投放阶段由于能够较清晰定义投放目标，比如营收或用户次日留存，且一般情况下素材投放的直接目标即为最大化某种收益，因此MDP更为合适。

具体到素材投放阶段的投放动作决策，使用POMDP来建模描述素材的不同状态和决策。这里使用部分可观察的原因是素材投放平台相对“黑盒”，这容易使得素材所处真实投放状态和可观测的用户响应数据间并非决定性的映射，所以是用可观测到的部分的数据推测素材的真正状态。同时POMDP模型这样设计在算法上允许使用更多可观测到的用户响应数据来建模描述试探阶段的每个状态，吸收了HMM模型的部分优点，从便于理解的角度讲，可以认为POMDP是状态部分可观测的MDP,亦可认为POMDP是可自主决定动作过程的HMM。

在POMDP算法中模型的描述可以重点关注一组模型参数(S,A,O,R)，这组参数在算法角度的含义如下：

一组状态集合S，使得任意s以及s’∈S，其中s和s’分别为当前状态和下一状态。

一组动作集合A，使得任意a∈A，其中a为任意状态下的某动作。

可能的观测维度空间O，使得任意o∈O,其中o为任意状态下观测到的数值。

可能的回报数值R，使得任意r∈R,其中r为使用某动作a从当前状态到下一状态转移间得到的回报。

具体到素材管理场景中，POMDP模型参数(S,A,O,R)的具体设计如下：

状态集合S:投放阶段(合格素材，不合格素材)。

投放动作集合A：

1.等待(wait)

2.暂停投放(withdraw)

3.上线(launch)

4.上调预算(add_budget)

5.下调预算(reduce_budget)

6.上调出价(add_bid)

7.下调出价(reduce_bid)

观测维度空间O：可观测数据维度取决于具体的APP，例如游戏类APP中的ROI数据，内软类APP的留存数据。

回报数值R：在素材管理中也取决于具体APP，如游戏类APP中的回款和消耗，内软类APP的留存和消耗。

POMDP模型中求解可以通过蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)的算法。MCTS算法在树状搜索模拟未来收益的过程中通过Monte Carlo概率采样的方法达到剪枝缩小预估复杂度的作用。图6为本申请实施例提供的一种在POMDP模型中素材状态转化以及通过观测判断素材所属状态的示意图。

在图6中v表示暂时回报，r表示最终回报。S表示状态，以S＝{0.7,0.3}为例，0.7表示素材处于合格状态的概率，0.3表示素材处于不合格状态的概率。action为投放动作，其后有具体的取值。例如action＝“wait”表示投放动作为等待。图6中O₁和O₂为示例的两种观测值。观测值也是指观测到的以往的用户响应数据。通过这些数据，POMDP模型基于MCTS算法可以分析出素材所属不同状态的概率。并通过一步一步的分析获得每一分支下的最终回报r。

基于前述实施例提供的素材投放方法，相应地，本申请还提供了一种素材投放装置。以下结合图7进行说明。

图7为本申请实施例提供的一种素材投放装置的结构示意图。

如图7所示的素材投放装置700，包括：

数据获取单元701，用于获得素材投放后的用户响应数据；用户响应数据与投放效果指标具有关联关系；素材与目标素材具有关联关系；

指标预测单元702，用于根据用户响应数据获得在未来投放时间窗口下目标素材的投放效果指标的预测值；

动作模拟单元703，用于根据投放效果指标的预测值对目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在未来投放时间窗口下目标素材的投放目标；

动作决策单元704，用于从多种待定投放动作中确定出使投放目标满足调优需求的目标投放动作；

动作投放单元705，用于对目标素材执行目标投放动作。

本申请实施例提供的素材投放装置700以预测出的投放效果指标为基础并结合调优需求来指导投放动作的决策，实现了对素材的调优管理。此外，该装置可以实现对素材投放动作的高效决策和执行。

可选地，动作模拟单元703，具体用于将投放效果指标的预测值作为决策模型的输入，通过决策模型对目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在未来投放时间窗口下目标素材的投放目标；

装置还包括第一训练单元，第一训练单元包括：

样本第一获取子单元，用于获得第一样本集；第一样本集包括：素材样本的投放效果指标样本；投放效果指标样本的标签为真实投放动作下素材样本的真实投放目标；

第一训练子单元，用于将投放效果指标样本输入待训练的决策模型，根据待训练的决策模型的输出与投放效果指标样本的标签之间的差异，对待训练的决策模型各层参数进行调整；当待训练的决策模型满足第一训练截止条件时，完成训练获得决策模型。

可选地，指标预测单元702，具体用于将用户响应数据作为预测模型的输入，通过预测模型获得在未来投放时间窗口下目标素材的投放效果指标的预测值；

装置还包括：第二训练单元，第二训练单元包括：

样本第二获取子单元，用于获得第二样本集；第二样本集包括：素材样本投放后的用户响应数据样本；用户响应数据样本的标签为素材样本的真实投放效果指标样本；

第二训练子单元，用于将用户响应数据样本输入待训练的预测模型，根据待训练的预测模型的输出与真实投放效果指标样本的差异，对待训练的预测模型各层参数进行调整；当待训练的预测模型满足第二训练截止条件时，完成训练获得预测模型。

可选地，在决策模型的训练阶段，预测模型的输出作为第一样本集中的投放效果指标样本。

可选地，素材投放装置700还包括：模型更新单元；

模型更新单元，用于以执行目标投放动作之后目标素材的用户响应数据和在未来时间窗口下目标素材的投放目标真实值，对预测模型和决策模型进行更新。

本申请实施例还提供了一种计算机设备，下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。

图8是本申请实施例提供的一种服务器结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

其中，CPU 922用于执行如下步骤：

针对上文描述的素材投放方法，本申请实施例还提供了一种用于素材投放的终端设备，以使上述素材投放方法在实际中实现以及应用。

参见图9，图9为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图9示出的是与本申请实施例提供的终端形式计算机设备相关的手机的部分结构的框图。参考图9，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：CodeDivision Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband CodeDivision Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long TermEvolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图9中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1080还具有以下功能：

获得素材投放后的用户响应数据；所述用户响应数据与投放效果指标具有关联关系；所述素材与目标素材具有关联关系；

根据所述用户响应数据获得在未来投放时间窗口下所述目标素材的投放效果指标的预测值；

根据所述投放效果指标的预测值对所述目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在所述未来投放时间窗口下所述目标素材的投放目标；

从所述多种待定投放动作中确定出使投放目标满足调优需求的目标投放动作，对所述目标素材执行所述目标投放动作。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种素材投放方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种素材投放方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种素材投放方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述投放效果指标的预测值对所述目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在所述未来投放时间窗口下所述目标素材的投放目标，包括：

将所述投放效果指标的预测值作为决策模型的输入，通过所述决策模型对所述目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在所述未来投放时间窗口下所述目标素材的投放目标；

所述决策模型为通过以下方式训练获得：

获得第一样本集；所述第一样本集包括：素材样本的投放效果指标样本；所述投放效果指标样本的标签为真实投放动作下所述素材样本的真实投放目标；

将所述投放效果指标样本输入待训练的决策模型，根据所述待训练的决策模型的输出与所述投放效果指标样本的标签之间的差异，对所述待训练的决策模型各层参数进行调整；当所述待训练的决策模型满足第一训练截止条件时，完成训练获得所述决策模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户响应数据获得在未来投放时间窗口下所述目标素材的投放效果指标的预测值，包括：

将所述用户响应数据作为预测模型的输入，通过所述预测模型获得在未来投放时间窗口下所述目标素材的投放效果指标的预测值；

所述预测模型为通过以下方式训练获得：

获得第二样本集；所述第二样本集包括：素材样本投放后的用户响应数据样本；所述用户响应数据样本的标签为所述素材样本的真实投放效果指标样本；

将所述用户响应数据样本输入待训练的预测模型，根据所述待训练的预测模型的输出与所述真实投放效果指标样本的差异，对所述待训练的预测模型各层参数进行调整；当所述待训练的预测模型满足第二训练截止条件时，完成训练获得所述预测模型。

4.根据权利要求3所述的方法，其特征在于，在所述决策模型的训练阶段，所述预测模型的输出作为所述第一样本集中的投放效果指标样本。

5.根据权利要求4所述的方法，其特征在于，还包括：

获得执行所述目标投放动作之后所述目标素材的用户响应数据和在所述未来时间窗口下所述目标素材的投放目标真实值，以用于对所述预测模型和所述决策模型进行更新。

6.根据权利要求1所述的方法，其特征在于，还包括：

根据所述目标素材指向的产品类型确定投放目标的类型。

7.根据权利要求1所述的方法，其特征在于，所述投放效果指标包括以下任意一个或多个的组合：

投资回报率ROI、素材点击率、用户次日留存率或用户付费比例。

8.根据权利要求3所述的方法，其特征在于，所述预测模型为时域卷积网络TCN模型，所述用户响应数据具体按照时间序列输入所述预测模型中。

9.一种素材投放装置，其特征在于，包括：

数据获取单元，用于获得素材投放后的用户响应数据；所述用户响应数据与投放效果指标具有关联关系；所述素材与目标素材具有关联关系；

指标预测单元，用于根据所述用户响应数据获得在未来投放时间窗口下所述目标素材的投放效果指标的预测值；

动作模拟单元，用于根据所述投放效果指标的预测值对所述目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在所述未来投放时间窗口下所述目标素材的投放目标；

动作决策单元，用于从所述多种待定投放动作中确定出使投放目标满足调优需求的目标投放动作；

动作投放单元，用于对所述目标素材执行所述目标投放动作。

10.根据权利要求9所述的装置，其特征在于，所述动作模拟单元，具体用于将所述投放效果指标的预测值作为决策模型的输入，通过所述决策模型对所述目标素材分别模拟执行多种待定投放动作，获得多种待定投放动作下在所述未来投放时间窗口下所述目标素材的投放目标；

所述装置还包括第一训练单元，所述第一训练单元包括：

样本第一获取子单元，用于获得第一样本集；所述第一样本集包括：素材样本的投放效果指标样本；所述投放效果指标样本的标签为真实投放动作下所述素材样本的真实投放目标；

第一训练子单元，用于将所述投放效果指标样本输入待训练的决策模型，根据所述待训练的决策模型的输出与所述投放效果指标样本的标签之间的差异，对所述待训练的决策模型各层参数进行调整；当所述待训练的决策模型满足第一训练截止条件时，完成训练获得所述决策模型。

11.根据权利要求10所述的装置，其特征在于，所述指标预测单元，具体用于将所述用户响应数据作为预测模型的输入，通过所述预测模型获得在未来投放时间窗口下所述目标素材的投放效果指标的预测值；

所述装置还包括：第二训练单元，所述第二训练单元包括：

样本第二获取子单元，用于获得第二样本集；所述第二样本集包括：素材样本投放后的用户响应数据样本；所述用户响应数据样本的标签为所述素材样本的真实投放效果指标样本；

第二训练子单元，用于将所述用户响应数据样本输入待训练的预测模型，根据所述待训练的预测模型的输出与所述真实投放效果指标样本的差异，对所述待训练的预测模型各层参数进行调整；当所述待训练的预测模型满足第二训练截止条件时，完成训练获得所述预测模型。

12.根据权利要求11所述的装置，其特征在于，在所述决策模型的训练阶段，所述预测模型的输出作为所述第一样本集中的投放效果指标样本。

13.根据权利要求12所述的装置，其特征在于，还包括：模型更新单元；

所述模型更新单元，用于以执行所述目标投放动作之后所述目标素材的用户响应数据和在所述未来时间窗口下所述目标素材的投放目标真实值，对所述预测模型和所述决策模型进行更新。

14.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-8任一项所述的素材投放方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-8任一项所述的素材投放方法。