CN113300972A

CN113300972A - 一种流量分配方法、装置、服务器及存储介质

Info

Publication number: CN113300972A
Application number: CN202010536047.5A
Authority: CN
Inventors: 陈达贵; 靳骏奇; 潘飞; 牛绿茵; 喻川; 李晗; 许俭; 盖坤
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2021-08-24

Abstract

本申请实施例提供一种流量分配方法、装置、服务器及存储介质，其中方法包括：至少获取对象在创意脚本平台的第一时间段和第二时间段的历史流量分配数据，第二时间段为第一时间段的下一时间段；确定与第一时间段的历史流量分配数据对应的对象在创意脚本平台的第一实际状态，以及与第二时间段的历史流量分配数据关联的对象在推荐平台的第二实际状态；以对象在创意脚本平台的第一实际状态为基础，模拟创意脚本平台针对对象的流量分配过程，得到对象在创意脚本平台的模拟状态；至少根据对象在推荐平台的第二实际状态和所述模拟状态，更新对象在创意脚本平台的流量分配策略，使对象在推荐平台的自然流量得到提升。本申请实施例可提升对象的自然流量。

Description

一种流量分配方法、装置、服务器及存储介质

技术领域

本申请实施例涉及流量技术领域，具体涉及一种流量分配方法、装置、服务器及存储介质。

背景技术

随着电子商务等技术的发展，线上商品、服务等对象越来越多，为提升对象转化，流量对于对象而言至关重要。

自然流量是对象的流量来源之一，具体是指对象所能获得的免费流量，例如对象在推荐平台所获得的流量；提升对象的自然流量是提升对象流量的主要途径之一，这对于对象转化具有重要意义，因此如何提供技术性方案来提升对象的自然流量，成为了本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本申请实施例提供一种流量分配方法、装置、服务器及存储介质，以提升对象的自然流量。

为实现上述目的，本申请实施例提供如下技术方案：

一种流量分配方法，其中，包括：

至少获取对象在创意脚本平台的第一时间段的历史流量分配数据和第二时间段的历史流量分配数据，所述第二时间段为所述第一时间段的下一时间段；

确定与所述第一时间段的历史流量分配数据对应的所述对象在创意脚本平台的第一实际状态，以及与所述第二时间段的历史流量分配数据关联的所述对象在推荐平台的第二实际状态；

以所述对象在创意脚本平台的第一实际状态为基础，模拟创意脚本平台针对所述对象的流量分配过程，得到所述对象在创意脚本平台的模拟状态；

至少根据所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态，更新所述对象在创意脚本平台的流量分配策略，使所述对象在推荐平台的自然流量得到提升。

一种流量分配装置，其中，包括：

历史流量分配数据获取模块，用于至少获取对象在创意脚本平台的第一时间段的历史流量分配数据和第二时间段的历史流量分配数据，所述第二时间段为所述第一时间段的下一时间段；

实际状态确定模块，用于确定与所述第一时间段的历史流量分配数据对应的所述对象在创意脚本平台的第一实际状态，以及与所述第二时间段的历史流量分配数据关联的所述对象在推荐平台的第二实际状态；

模拟状态确定模块，用于以所述对象在创意脚本平台的第一实际状态为基础，模拟创意脚本平台针对所述对象的流量分配过程，得到所述对象在创意脚本平台的模拟状态；

更新模块，用于至少根据所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态，更新所述对象在创意脚本平台的流量分配策略，使所述对象在推荐平台的自然流量得到提升。

本申请实施例还提供一种服务器，包括至少一个存储器和至少一个处理器；所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行上述所述的流量分配方法。

本申请实施例还提供一种存储介质，所述存储介质存储一条或多条计算机可执行指令，所述一条或多条计算机可执行指令用于执行上述所述的流量分配方法。

本申请实施例提供的流量分配方法，可至少获取对象在创意脚本平台的第一时间段的历史流量分配数据和第二时间段的历史流量分配数据，所述第二时间段为所述第一时间段的下一时间段；确定与所述第一时间段的历史流量分配数据对应的所述对象在创意脚本平台的第一实际状态，以及与所述第二时间段的历史流量分配数据关联的所述对象在推荐平台的第二实际状态；从而以所述对象在创意脚本平台的第一实际状态为基础，模拟创意脚本平台针对所述对象的流量分配过程，得到所述对象在创意脚本平台的模拟状态；进而至少根据所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态，更新所述对象在创意脚本平台的流量分配策略，使所述对象在推荐平台的自然流量得到提升。

基于对象在创意脚本平台的流量分配结果，影响对象在推荐平台的自然流量分配结果的现象，本申请实施例可利用该现象，以提升自然流量为优化目标，更新对象在创意脚本平台的流量分配策略，从而基于更新后的对象在创意脚本平台的流量分配策略，本申请实施例可调整对象在创意脚本平台的流量分配结果，使得受影响的对象的自然流量得到提升，达到提升对象的自然流量的目的。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1(a)-图1(j)为对象的自然流量和平均推荐得分之间的关系示意图；

图2为马尔可夫决策示例图；

图3为本申请实施例提供的流量分配方法的流程图；

图4为本申请实施例提供的获取对象在创意脚本平台的模拟状态的流程图；

图5为获取对象在创意脚本平台的模拟状态的示例图；

图6为本申请实施例提供的更新对象在创意脚本平台的流量分配策略的流程图；

图7为本申请实施例提供的流量分配方法的示例图；

图8为本申请实施例提供的流量分配装置的框图；

图9为本申请实施例提供的服务器的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前常用SEO(Search Engine Optimization，搜索引擎优化)方式来提升对象的自然流量，SEO主要利用搜索引擎的规则提高对象在搜索结果中的自然排名，从而提升对象的自然流量；区别于SEO方式，本申请实施例提出一种新型的流量分配方案，以提升对象的自然流量。

商品、服务等对象的流量主要分为自然流量和付费流量；自然流量是指对象获得的免费流量，例如对象在推荐平台所获得的流量；付费流量是指对象通过付费得到的流量，例如对象在创意脚本平台所获得的流量。需要说明的是，创意脚本主要以文本，声音，图像，视频等为载体进行传播，是用于宣传、推广对象的脚本内容。

本申请的发明人在研究过程中发现：创意脚本平台和推荐平台的对象集合存在部分重合，一般的，创意脚本平台的对象集合比较小，例如创意脚本平台的对象集合为推荐平台的对象集合的子集；用户针对创意脚本平台和推荐平台的重合对象的行为数据可被推荐平台记录，进而影响推荐平台的推荐模型对于对象的推荐结果，因此可以通过调整对象在创意脚本平台的付费流量分配结果，来改变推荐平台的数据分布，进而使得推荐平台对于对象的自然流量发生改变；

具体的，对象在推荐平台的自然流量由推荐平台的推荐模型决定(如推荐模型基于对象在推荐平台的数据分布，确定对象的自然流量)，对象在创意脚本平台的付费流量分配结果由对象在创意脚本平台的流量分配策略决定，通过更新对象在创意脚本平台的流量分配策略，可调整对象在创意脚本平台的付费流量分配结果，从而使得对象在推荐平台的数据分布产生改变，进而影响对象在推荐平台的自然流量分配结果发生改变；

也就是说，更新对象在创意脚本平台的流量分配策略，可调整对象在创意脚本平台的付费流量分配结果，从而使得对象在推荐平台的自然流量分配结果受影响而改变。

为更为形象的解释对象的付费流量分配结果与自然流量分配结果之间的关系，图1(a)-图1(j)示例了对象的自然流量和对象在推荐模型的平均推荐得分之间的关系，对象在推荐模型的平均推荐得分决定对象的推荐排序，对象的推荐排序越靠前，则对象的自然流量一般靠高，对象在推荐模型的平均推荐得分例如对象的平均预估点击率等；图中

表示对象g在时间段t内获得的自然流量，

表示对象g在时间段t内的平均推荐得分，

表示对象g在时间段t的下一时间段t+1内的平均推荐得分；参照图1(a)-图1(j)：

图1(a)示出了对象在时间段t内所获得的自然流量随平均推荐得分的增加而递增，同时，递增的趋势随着边际效应的递减而逐步递减，另外，如果对象的平均推荐得分太低，则无法获得自然流量；

图1(b)示出了对象在时间段t内所获得的自然流量，对于对象在下一时间段t+1内的平均推荐得分的影响；一方面，当对象获得一定的曝光后，用户对于对象的反馈会提升对象的平均推荐得分；另一方面，在稳定情况下，对象的曝光效果会逐级被稀释，从而导致图1(b)的曲线下降，即对象的平均推荐得分降低；

图1(c)将图1(a)和图1(b)的两条曲线绘制到一个坐标系，从而绘制出了对象的自然流量变化序列(如图中虚线所示)，对象的自然流量变化序列会收敛于稳定点B，该点B表示在稳定情况下，对象所能获得的自然流量；然而，如果对象的初始自然流量在另一个交点A的左边，那么对象将无法获得任何自然流量，点A可称为是冷启动点；

图1(d)示出了高质量的对象没有冷启动点；图1(e)示出了低质量的对象无法获得任何的自然流量；

图1(f)示出了在投放创意脚本的情况下，对于对象的自然流量的影响；一方面，创意脚本平台的付费流量对于对象的曝光，将导致对象所需的自然流量变少，从而导致曲线左移；另一方面，创意脚本平台的付费流量的质量不同于自然流量，从而导致曲线向上或向下移动，一般情况下，创意脚本具有更好的内容创意和更优质的展现位置，因此曲线会上移；

图1(g)和图1(h)示出了：在对象的付费流量分配结果影响自然流量分配结果的作用下，对象渡过了冷启动点，同时在稳定情况下，对象的自然流量存在变化(自然流量增加或减少)；

图1(i)示出了：在对象的付费流量分配结果影响自然流量分配结果的作用下，低质量的对象也获得了自然流量；

图1(j)示出了：即使在对象的付费流量分配结果影响自然流量分配结果的作用下，一些更低质量的对象也无法获得任何自然流量。

综上可以看出，调整对象在创意脚本平台的付费流量分配结果，将影响对象在推荐平台的自然流量分配结果发生改变；基于此，本申请实施例提供一种改进的流量分配方法，以提升对象的自然流量。

在本申请实施例中，对象的自然流量分配过程可以看成是一个决策过程，例如马尔可夫决策过程，马尔可夫决策可以认为是强化学习的理论模型，如图2所示，马尔可夫决策过程的元素可以如状态s，动作a，奖励r，及状态转移函数；以搜索场景为例，参照图2，在马尔可夫决策过程中，智能体(如搜索引擎)与环境(如用户)进行交互，智能体感知时间段t的状态s_t，从动作空间中选择动作a_t执行；环境接收智能体所选择的动作之后，给予智能体在下一时间段t+1相应的奖励信号反馈r_t+1，并转移到新的状态s_t+1，从而等待智能体做出新的决策，智能体在时间段t相应的奖励信号如图示r_t。在智能体与环境的交互过程中，智能体的目标是找到优选决策，以提升奖励(如最大化奖励)。

利用决策过程(如马尔可夫决策过程)，本申请实施例中涉及的状态、动作、状态转移函数和奖励可以如下定义。

其中，状态包括对象在创意脚本平台的状态，和对象在推荐平台的状态；对象在创意脚本平台的状态是指对象在创意脚本平台的一段时间内的对象特征的描述信息，例如，将对象在创意脚本平台的一段时间内的点击率、转化率、单次点击单价、点击量等对象特征进行组合，从而组合得到的结果可以作为对象在创意脚本平台的该段时间内的状态，对象特征的具体形式可以根据实际需求定义，本申请实施例并不设限；对象在推荐平台的状态同理参照，只不过对象在推荐平台的状态的数据来源是推荐平台，如将对象在推荐平台的一段时间内的点击率、转化率、点击量等对象特征进行组合，得到对象在推荐平台的该段时间内的状态。

动作，所述动作具体用于调整对象的付费流量分配结果，即通过动作可对对象在创意脚本平台的流量进行调整；例如，以通过竞价获得付费流量为例，动作可以是调整竞价系数的动作，对象对于创意脚本的最终竞价由竞价系数所决定；当然，动作也可以具有其他形式，本质上，动作只要能够影响付费流量的分配即可，例如，对象也可能并不通过竞价获得付费流量，如对象可能通过创意脚本合约的形式来获得付费流量，即通过创意脚本合约约定创意脚本应达到的曝光量和创意脚本价格，从而在创意脚本合约的场景下，动作的形式也可以相应调整。

状态转移函数，表示在执行完成动作之后，对象的状态后继跳转到下一状态的概率；在对象的付费流量分配结果影响自然流量分配结果的情况下，状态转移函数可以分为对象在创意脚本平台的状态转移函数，和对象在推荐平台的状态转移函数；具体的，所述动作可调整对象的付费流量分配结果，因此在执行完成动作之后，由于对象的付费流量分配结果发生变化，对象在创意脚本平台的状态也将发生变化和跳转，此时将存在对象在创意脚本平台后继跳转的后继状态；同时，对象的付费流量分配结果发生变化，将导致对象在推荐平台的数据分布产生变化，从而使得推荐模型针对对象的自然流量分配结果发生变化，此时，存在对象在推荐平台后继跳转的后继状态；也就是说，在执行完成动作之后，对象在创意脚本平台的状态和在推荐平台的状态都将发生变化和跳转；

例如，在一种示例中，当评估到对象在某类用户上容易获得比较多的正反馈(正反馈比如购买对象、收藏对象等)，那么在通过竞价获得付费流量的情况下，本申请实施例可将对象在该类用户上的创意脚本竞价系数调高，从而调整对象的付费流量分配结果，以通过付费流量的刺激，拉高对象的正向反馈，进而对象在创意脚本平台的状态(比如点击率、转化率等)将产生变化和跳转；同时，对象的付费流量分配结果的调整，将使得对象在推荐平台的数据分布产生变化，造成对象在推荐平台的状态产生变化和跳转。

在本申请实施例中，奖励是指对象的自然流量提升，例如最大化对象的自然流量。

基于上述元素，本申请实施例可以提升奖励(如最大化累计奖励)为优化目标，对对象的自然流量进行优化，以实现对象的流量分配。在可选实现中，图3示出了本申请实施例提供的流量分配方法的可选流程，该流程可以由服务器执行，该服务器可以是多台服务器组成的服务器群组，也可以是单一服务器；参照图3，该流程可以包括：

步骤S100、至少获取对象在创意脚本平台的第一时间段的历史流量分配数据和第二时间段的历史流量分配数据，所述第二时间段为所述第一时间段的下一时间段。

可选的，第一时间段和第二时间段可以是相邻的两个历史时间段，其中，第二时间段为第一时间段的下一时间段；在一种示例中，第一时间段可以是历史时间段t，第二时间段可以是历史时间段t的下一历史时间段t+1。本申请实施例可获取对象在创意脚本平台的第一时间段的历史流量分配数据，以及对象在创意脚本平台的第二时间段的历史流量分配数据。

对象在创意脚本平台的历史流量分配数据可以指示对象在创意脚本平台已历史分配过流量，并表示对象在创意脚本平台的历史点击率、转化率、单次点击单价、点击量等对象特征，例如，对象在创意脚本平台的第一时间段的历史流量分配数据可以表示：对象在创意脚本平台的第一时间段的点击率、转化率、单次点击单价、点击量等对象特征；对象在创意脚本平台的第二时间段的历史流量分配数据可以表示：对象在创意脚本平台的第二时间段的点击率、转化率、单次点击单价、点击量等对象特征。

步骤S110、确定与所述第一时间段的历史流量分配数据对应的所述对象在创意脚本平台的第一实际状态，以及与所述第二时间段的历史流量分配数据关联的所述对象在推荐平台的第二实际状态。

基于对象在创意脚本平台的第一时间段的历史流量分配数据，本申请实施例可确定与所述第一时间段的历史流量分配数据对应的所述对象在创意脚本平台的第一实际状态，即对象在创意脚本平台的第一实际状态为对象在创意脚本平台的第一时间段的实际状态；以第一时间段使用t表示，则对象在创意脚本平台的第一实际状态可使用o_t表示。

o_t可以反映：在线上部署付费流量分配策略(如创意脚本竞价策略等)的情况下，对象在创意脚本平台的第一时间段t内的对象特征的描述信息；在可选实现中，本申请实施例可基于对象在创意脚本平台的第一时间段t的历史流量分配数据，获取对象在创意脚本平台的第一时间段t内的多项对象特征，将该多项对象特征进行组合，得到对象在创意脚本平台的第一时间段t的第一状态。

在第一时间段t，对象除在创意脚本平台对应有第一实际状态o_t外，还在推荐平台对应有第一实际状态，本申请实施例可使用x_t表示对象在推荐平台的第一实际状态(即对象在推荐平台的第一时间段t的实际状态)。

在对象在创意脚本平台的第一实际状态和在推荐平台的第一实际状态的基础上，如果执行调整对象在创意脚本平台的流量分配的动作，则在执行动作后，线上部署的对象在创意脚本平台的流量分配策略(如付费流量分配策略)，将对对象在创意脚本平台的付费流量分配结果进行调整，从而对象在创意脚本平台的第二时间段(即第一时间段的下一时间段)的实际状态将相应发生调整；在可选实现中，调整对象在创意脚本平台的流量分配的动作例如，调整对象在创意脚本平台的流量分配策略的工作，以通过竞价获得付费流量为例，动作可以是调整竞价系数的动作。

可选的，以第二时间段定义为t+1为例，则对象在创意脚本平台的第二时间段t+1内的实际状态将不再是0_t，而是由0_t调整到的对象在创意脚本平台的第二实际状态o_t+1；o_t+1反映的是：在执行调整对象在创意脚本平台的流量分配的动作后，对象在创意脚本平台的第二时间段t+1的实际状态。可选的，本申请实施例可基于对象在创意脚本平台的第二时间段t+1的历史流量分配数据，获取对象在创意脚本平台的第二时间段t+1的多项对象特征并进行组合，以得到对象在创意脚本平台的第二实际状态o_t+1。

可以理解的是，由于对象的付费流量分配结果将影响自然流量分配结果，因此基于对象在创意脚本平台的付费流量分配结果的调整，对象在推荐平台的数据分布将产生变化，从而对象在推荐平台的第二时间段t+1的实际状态也将发生变化，即对象在推荐平台的第二时间段t+1的实际状态将不再是x_t，而是由x_t调整到的对象在推荐平台的第二实际状态x_t+1；可见，对象在推荐平台的第二实际状态受对象在创意脚本平台的第二时间段的付费流量分配结果调整，因此对象在推荐平台的第二实际状态与对象在创意脚本平台的第二时间段的历史流量分配数据相关联。

可见，在对象在创意脚本平台和推荐平台的第一时间段的第一实际状态的基础上，如果执行调整所述对象在创意脚本平台的流量分配的动作，以对所述对象在创意脚本平台的流量分配结果进行调整；则根据调整的所述对象在创意脚本平台的第二时间段的历史流量分配数据，本申请实施例可在所述对象在推荐平台的第一时间段的第一实际状态的基础上，获取所述对象在推荐平台的第二时间段的第二实际状态。可以理解的是，对象在创意脚本平台的第二实际状态为，对象在创意脚本平台的第一实际状态的后继状态，对象在推荐平台的第二实际状态为，对象为推荐平台的第一实际状态的后继状态。

步骤S120、以所述对象在创意脚本平台的第一实际状态为基础，模拟创意脚本平台针对所述对象的流量分配过程，得到所述对象在创意脚本平台的模拟状态。

基于对象在创意脚本平台的第一实际状态，本申请实施例可模拟创意脚本平台针对所述对象的流量分配过程，从而模拟得到对象在创意脚本平台的第二时间段t+1的状态；模拟得到的对象在创意脚本平台的第二时间段t+1的状态可以称为是，对象在创意脚本平台的模拟状态，可使用0_t+1’表示。

在可选实现中，本申请实施例可以对象在创意脚本平台的第一时间段t的第一实际状态0_t为基础，模拟调整付费流量分配的动作，以实现模拟创意脚本平台针对所述对象的流量分配过程，从而模拟得出对象在第二时间段t+1内的付费流量分配结果，基于模拟出的对象在第二时间段t+1内的付费流量分配结果，可以模拟得到对象在创意脚本平台的第二时间段t+1内变化的多项对象特征，基于该变化的多项对象特征，本申请实施例可获得到模拟的对象在创意脚本平台的第二时间段t+1的模拟状态0_t+1’。即本申请实施例可以对象在创意脚本平台的第一时间段t的第一实际状态x_t为基础，通过模拟调整付费流量分配结果的动作，来模拟创意脚本平台针对所述对象的流量分配过程，从而获得到模拟的对象在创意脚本平台的第二时间段t+1的模拟状态0_t+1’。

步骤S130、至少根据所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态，更新所述对象在创意脚本平台的流量分配策略，使所述对象在推荐平台的自然流量得到提升。

在可选实现中，本申请实施例可根据学习样本，以提升对象在推荐平台的自然流量为优化目标，更新所述对象在创意脚本平台的流量分配策略，使得受所述流量分配策略影响的所述自然流量得到提升。

可选的，学习样本可以至少包括：对象在推荐平台的第二实际状态，及对象在创意脚本平台的模拟状态的组合结果。在进一步的可选实现中，学习样本还可结合对象在推荐平台和创意脚本平台的第一实际状态，例如，学习样本可以是组合样本与真实样本相结合的结果；其中，组合样本是对象在推荐平台的第二实际状态，及对象在创意脚本平台的模拟状态的组合结果；真实样本由对象在推荐平台和创意脚本平台的第一实际状态组合得到。在可选实现中，将对象在推荐平台的第二实际状态及在创意脚本平台的模拟状态相组合可以是，将对象在推荐平台的第二实际状态和在创意脚本平台的模拟状态进行concat(连接)处理。

在可选实现中，本申请实施例可利用强化学习更新算法，以提升对象在推荐平台的自然流量为优化目标，更新所述对象在创意脚本平台的流量分配策略；例如，本申请实施例可根据学习样本，利用强化学习更新算法，以提升对象在推荐平台的自然流量为优化目标，对对象在创意脚本平台的流量分配策略进行更新，从而得到更新后的对象在创意脚本平台的流量分配策略。可以理解的是，基于更新后的对象在创意脚本平台的流量分配策略，本申请实施例可调整对象在创意脚本平台的流量分配结果，并且该调整后的对象在创意脚本平台的流量分配结果，将影响对象在推荐平台的自然流量，使得对象在推荐平台的自然流量得到提升。

可选的，优化目标可以具体选用最大化对象在推荐平台的自然流量，从而实现最大化提升对象在推荐平台的自然流量。

在可选实现中，步骤S110可基于线上真实环境实现，以获得对象在推荐平台的第二实际状态；步骤S120可基于离线模拟环境实现，从而模拟得到对象在创意脚本平台的模拟状态。

需要说明的是，本申请实施例可选使用强化学习算法，更新对象在创意脚本平台的流量分配策略(即更新对象的付费流量分配策略)；虽然强化学习算法可以建模未知状态转移函数的问题，但强化学习算法具有非常高的样本复杂度，如果所有的样本都基于真实环境获得，那么将对创意脚本平台的正常工作带来一定的负担，特别是在电子商务等场景下，如果所有的样本都基于真实环境获得，那么无疑将使得电子商务平台造成严重损失；基于此，本申请实施例在步骤S120中，通过离线模拟环境，模拟得到对象在创意脚本平台的模拟状态，来实现样本的扩充，如此处理可使得模拟动作限制在离线环境，避免了在真实环境下执行动作所带来的问题；同时基于模拟方式，得到对象在创意脚本平台的模拟状态，可以较大的降低样本的复杂度。

需要说明的是，在本申请实施例中，无论是针对创意脚本平台还是推荐平台，本申请实施例对状态定义有实际状态和模拟状态。实际状态可以理解为是真实环境下，对象在创意脚本平台和推荐平台的状态，在真实环境下，本申请实施例通过实际执行调整对象的付费流量分配的动作，来实现对象在创意脚本平台的状态调整，和实现对象在推荐平台的状态调整；模拟状态可以理解为是模拟环境下对象在创意脚本平台的状态，本申请实施例通过模拟执行调整对象的付费流量分配的动作，来模拟对象在创意脚本平台的状态调整。

在步骤S120的可选实现中，本申请实施例可以对象在创意脚本平台的第一实际状态为基础，使用创意脚本平台的模拟器，模拟对象在创意脚本平台的状态转移函数，从而实现获得模拟的对象在创意脚本平台的第二时间段的模拟状态；模拟对象在创意脚本平台的状态转移函数可以理解为是，以对象在创意脚本平台的第一实际状态为基础，通过模拟调整对象的付费流量分配的动作，来模拟出对象在创意脚本平台的状态跳转，得出对象在创意脚本平台的模拟状态；可选的，图4示出了本申请实施例提供的获取模拟的对象在创意脚本平台的模拟状态的可选流程，如图4所示，该流程可以包括：

步骤S200、以对象在创意脚本平台的第一实际状态为基础，根据对象在创意脚本平台的流量分配日志，使用模拟器模拟对象在创意脚本平台的流量分配过程。

创意脚本平台可收集对象在创意脚本平台的流量分配日志，该流量分配日志可以记录对象在创意脚本平台的流量分配过程信息，例如，以竞价获得对象在创意脚本平台的流量(即付费流量)为例，创意脚本平台可收集对象参加竞价、获得流量的过程信息；从而基于对象在创意脚本平台的流量分配日志，本申请实施例可以对象在创意脚本平台的第一实际状态为基础，在离线环境下，使用模拟器模拟对象在创意脚本平台的流量分配过程。

步骤S210、在模拟器模拟所述流量分配过程时，动态调整流量分配参数，得到所述对象在创意脚本平台的流量分配模拟结果，其中一个流量分配参数对应一个流量分配模拟结果。

流量分配参数可以与调整对象在创意脚本平台的流量分配的动作相关，本申请实施例可模拟调整所述对象在创意脚本平台的流量分配的多个不同动作，以实现动态调整流量分配参数，其中，所述动作影响所述流量分配参数，不同的所述动作对应不同的流量分配参数；例如以竞价获得对象在创意脚本平台的流量为例，流量分配参数可以是竞价系数，本申请实施例可通过执行调整竞价系数的多个不同动作，以调整出不同的流量分配参数。

在模拟器模拟对象在创意脚本平台的流量分配过程时，通过动态调整流量分配参数，本申请实施例可得到对象在创意脚本平台相应的流量分配模拟结果。可以理解的是，在模拟器模拟对象在创意脚本平台的流量分配过程时，基于多个不同的流量分配参数，本申请实施例可得到多个不同的流量分配模拟结果，即一个流量分配参数可对应一个流量分配模拟结果。

步骤S220、获取模拟器输出的与所述流量分配模拟结果相对应的对象在创意脚本平台的状态，以得到对象在创意脚本平台的模拟状态。

基于对象在创意脚本平台的流量分配模拟结果，可模拟出对象在创意脚本平台的点击率、转化率、单次点击单价、点击量等对象特征，将这些对象特征进行组合，则可得到对应的对象在创意脚本平台的状态，该状态即为模拟的对象在创意脚本平台的模拟状态。本申请实施例可设置由模拟器输出对象在创意脚本平台的模拟状态。

可选的，基于图4所示流程，模拟得到的对象在创意脚本平台的模拟状态可以为多个，例如，在模拟对象在创意脚本平台的流量分配过程时，通过多个不同的流量分配参数，可得到对象在创意脚本平台的多个流量分配模拟结果，而各个流量分配模拟结果均可对应有对象在创意脚本平台的模拟状态，从而可得到对象在创意脚本平台的多个模拟状态；

示例的，如图5所示，基于对象在创意脚本平台的第一时间段t的第一实际状态o_t，在离线模拟环境下，本申请实施例可通过动作策略，得到M个不同的动作

至

如在竞价获得对象在创意脚本平台的流量的情况下，一个动作可表示一个修改竞价系数的动作，从而

至

可对应M个不同的竞价系数；从而以o_t为基础，在模拟器模拟对象在创意脚本平台的流量分配过程时，模拟器基于不同的动作，可输出对象在创意脚本平台的第二时间段t+1的不同模拟状态，如图5所示对象在创意脚本平台的M个模拟状态

至

其中，

与

对应，

与

对应，以此类推。

在得到对象在创意脚本平台的模拟状态后，本申请实施例可将对象在推荐平台的第二时间段的第二实际状态，和所述对象在创意脚本平台的模拟状态进行组合，以得到组合样本，从而组合样本集合真实样本，可得到学习样本；进而根据学习样本，可利用强化学习算法，对对象在创意脚本平台的流量分配策略进行更新，以提升对象的自然流量。可选的，图6示出了本申请实施例提供的更新对象在创意脚本平台的流量分配策略的可选流程，如图6所示，该流程可以包括：

步骤S300、将所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态进行组合，得到组合样本。

在可选实现中，本申请实施例可将对象在推荐平台的第二实际状态和对象在创意脚本平台的模拟状态进行连接(concat)，从而组合对象在推荐平台的第二实际状态和对象在创意脚本平台的模拟状态。

如果对象在创意脚本平台的模拟状态为多个，则本申请实施例可将对象在推荐平台的第二实际状态，分别与对象在创意脚本平台的各个模拟状态进行组合，从而得到多个组合样本，即一个组合样本可以认为是：对象在推荐平台的第二实际状态，与对象在创意脚本平台的一个模拟状态的组合结果。

步骤S310、至少将所述组合样本与真实样本相结合，得到学习样本；所述真实样本由对象在推荐平台和创意脚本平台的第一实际状态组合得到。

对象在推荐平台的第一实际状态为对象在推荐平台的第一时间段对应的实际状态；本申请实施例将对象在推荐平台的第一实际状态，和对象在创意脚本平台的第一实际状态组合得到真实样本，从而真实样本与组合样本可相结合，得到学习样本；可选的，如果组合样本为多个，则真实样本可与各个组合样本分别组合，得到多个学习样本。可选的，进一步，针对每个学习样本，学习样本还可以进一步包括模拟的调整对象付费流量分配的动作，相应的状态转移函数等。

步骤S320、根据所述学习样本，以提升对象在推荐平台的自然流量为优化目标，对对象在创意脚本平台的流量分配策略进行强化学习更新，得到更新后的对象在创意脚本平台的流量分配策略。

步骤S330、基于更新后的对象在创意脚本平台的流量分配策略，更新对象在创意脚本平台的流量分配结果，以使得所述自然流量得到提升。

基于步骤S310得到的学习样本，本申请实施例可利用强化学习算法，以提升对象的自然流量为优化目标，更新对象在创意脚本平台的流量分配策略(如使用强化学习更新创意脚本平台的流量分配模型的参数)，由于对象在创意脚本平台的流量分配策略更新，则对象在创意脚本平台的流量分配结果也将相应调整，从而使得对象在推荐平台的自然流量相应调整，且调整的对象的自然流量得到提升。

在更为具体的实现中，步骤S320中的优化目标可以具体为最大化对象在推荐平台的自然流量，从而在步骤S330中更新对象在创意脚本平台的流量分配结果后，可使得对象在推荐平台的自然流量达到最大化。

在一种示例中，如图7所示，本申请实施例提供的流量分配方法可以分为在线交互阶段，离线模拟阶段和更新阶段；具体如图7所示：

在在线交互阶段，本申请实施例可获取对象在推荐平台的第一时间段t的第一实际状态x_t，对象在创意脚本平台的第一时间段t的第一实际状态0_t，从而执行调整对象在创意脚本平台的流量分配的动作a_j(如调整对象在创意脚本平台的竞价系数的动作)，从而基于用户等环境对于动作a_j的反馈，获得到对象在推荐平台的第二时间段t+1的第二实际状态x_t+1，对象在创意脚本平台的第二时间段t+1的第二实际状态0_t+1；可选的，x_t和0_t可以存储在存储区中，作为真实样本；

在离线模拟阶段，以对象在创意脚本平台的第一时间段t的第一实际状态0_t为基础，通过动作策略，模拟调整对象在创意脚本平台的流量分配的M个不同的动作

至

从而模拟器输出对象在创意脚本平台的第二时间段t+1的M个模拟状态

至

进而，将对象在推荐平台的第二时间段t+1的第二实际状态x_t+1，分别与各个模拟状态

至

进行组合，可得到多个组合样本；所获得的组合样本可存储在存储区；

在更新阶段，本申请实施例可将存储区中存储的真实样本和各个组合样本分别结合，得到多个学习样本；进而，根据多个学习样本，以最大化对象在推荐平台的自然流量为优化目标，使用强化学习算法，更新对象在创意脚本平台的流量分配策略，从而基于更新后的对象在创意脚本平台的流量分配策略，对对象在创意脚本平台的流量分配结果进行更新，使得受影响的自然流量达到最大化。可选的，以

所在的学习样本为例，该学习样本包括的内容可以例如：

进一步，该学习样本还可以包括在离线模拟阶段所模拟的动作

及相应的状态转移函数等。

本申请实施例可利用对象在创意脚本平台的流量分配结果，影响对象在推荐平台的自然流量分配结果的现象，以提升自然流量为优化目标，更新所述对象在创意脚本平台的流量分配策略，从而使得对象的自然流量得到提升。并且本申请实施例可在离线模拟环境，模拟对象在创意脚本平台的模拟状态，来实现学习样本的扩充，可使得模拟动作限制在离线环境，避免了在真实环境下执行动作所带来的时间和经济损失，同时可以较大的降低学习样本的复杂度。

上文描述了本申请实施例提供的多个实施例方案，各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用，从而延伸出多种可能的实施例方案，这些均可认为是本申请实施例披露、公开的实施例方案。

下面对本申请实施例提供的流量分配装置进行介绍，下文描述的流量分配装置可以认为是，服务器为实现本申请实施例提供的流量分配方法，所需设置的功能模块。下文描述的流量分配装置的内容，可与上文描述的流量分配方法的内容，相互对应参照。

在可选实现中，图8示出了本申请实施例提供的流量分配装置的可选框图，如图8所示，该装置可以包括：

历史流量分配数据获取模块100，用于至少获取对象在创意脚本平台的第一时间段的历史流量分配数据和第二时间段的历史流量分配数据，所述第二时间段为所述第一时间段的下一时间段；

实际状态确定模块110，用于确定与所述第一时间段的历史流量分配数据对应的所述对象在创意脚本平台的第一实际状态，以及与所述第二时间段的历史流量分配数据关联的所述对象在推荐平台的第二实际状态；

模拟状态确定模块120，用于以所述对象在创意脚本平台的第一实际状态为基础，模拟创意脚本平台针对所述对象的流量分配过程，得到所述对象在创意脚本平台的模拟状态；

更新模块130，用于至少根据所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态，更新所述对象在创意脚本平台的流量分配策略，使所述对象在推荐平台的自然流量得到提升。

可选的，模拟状态确定模块120，用于以所述对象在创意脚本平台的第一实际状态为基础，模拟创意脚本平台针对所述对象的流量分配过程，得到所述对象在创意脚本平台的模拟状态，包括：

以所述对象在创意脚本平台的第一实际状态为基础，使用模拟器模拟所述对象在创意脚本平台的状态转移函数，得到所述对象在创意脚本平台的模拟状态。

可选的，模拟状态确定模块120，用于以所述对象在创意脚本平台的第一实际状态为基础，使用模拟器模拟所述对象在创意脚本平台的状态转移函数，得到所述对象在创意脚本平台的模拟状态，包括：

以所述对象在创意脚本平台的第一实际状态为基础，根据所述对象在创意脚本平台的流量分配日志，使用模拟器模拟所述对象在创意脚本平台的流量分配过程；

在模拟器模拟所述流量分配过程时，动态调整流量分配参数，得到所述对象在创意脚本平台的流量分配模拟结果，其中一个流量分配参数对应一个流量分配模拟结果；

获取模拟器输出的与所述流量分配模拟结果相对应的所述对象在创意脚本平台的模拟状态。

可选的，模拟状态确定模块120，用于动态调整流量分配参数包括：

模拟调整所述对象在创意脚本平台的流量分配的多个不同动作，其中，所述动作影响所述流量分配参数，不同的所述动作对应不同的流量分配参数。

可选的，所述流量分配参数为所述对象在创意脚本平台的竞价系数。

可选的，更新模块130，用于至少根据所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态，更新所述对象在创意脚本平台的流量分配策略，使所述对象在推荐平台的自然流量得到提升，包括：

将所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态进行组合，得到组合样本；

至少将所述组合样本与真实样本相结合，得到学习样本；所述真实样本由所述对象在创意脚本平台的第一实际状态和所述对象在推荐平台的第一时间段对应的实际状态组合得到；

根据所述学习样本，以提升所述对象在推荐平台的自然流量为优化目标，更新所述对象在创意脚本平台的流量分配策略，使得受所述流量分配策略影响的所述自然流量得到提升。

可选的，更新模块130，用于根据所述学习样本，以提升所述对象在推荐平台的自然流量为优化目标，更新所述对象在创意脚本平台的流量分配策略，使得受所述流量分配策略影响的所述自然流量得到提升，包括：

根据所述学习样本，以提升所述对象的自然流量为优化目标，对所述对象在创意脚本平台的流量分配策略进行强化学习更新；

基于强化学习更新后的所述对象在创意脚本平台的流量分配策略，更新所述对象在创意脚本平台的流量分配结果，以使得所述对象在推荐平台的自然流量得到提升。

可选的，所述对象在创意脚本平台的模拟状态可以为多个；在可选实现中，更新模块130，用于将所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态进行组合，得到组合样本，包括：

将所述对象在推荐平台的第二实际状态，分别与所述对象在创意脚本平台的各个模拟状态进行组合，得到多个组合样本。

可选的，所述优化目标可以具体为最大化所述对象在推荐平台的自然流量。

可选的，所述推荐平台的对象集合与所述创意脚本平台的对象集合部分重合。

本申请实施例提供的流量分配装置可提升对象的自然流量，并且较大的降低学习样本的复杂度。

本申请实施例还提供一种服务器，在可选实现中，该服务器可通过装载计算机可执行指令形式的上述流量分配装置，以实现本申请实施例提供的流量分配方法。在可选实现中，图9示出了本申请实施例提供的服务器的可选框图，如图9所示，该服务器可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4。

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。

可选的，通信接口2可以为用于进行网络通信的通信模块的接口。

可选的，处理器1可能是CPU(中央处理器)，GPU(Graphics Processing Unit，图形处理器)，NPU(嵌入式神经网络处理器)，FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)，TPU(张量处理单元)，AI芯片，特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路等。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器3存储一条或多条计算机可执行指令，处理器1调用所述一条或多条计算机可执行指令，以执行本申请实施例提供的流量分配方法。

本申请实施例还提供一种存储介质，该存储介质可存储一条或多条计算机可执行指令，所述一条或多条计算机可执行指令可用于执行本申请实施例提供的流量分配方法。

关于上述计算机可执行指令的具体功能和扩展功能，可参照前文流量分配方法部分的介绍。

虽然本申请实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种流量分配方法，其中，包括：

2.根据权利要求1所述的流量分配方法，其中，所述以所述对象在创意脚本平台的第一实际状态为基础，模拟创意脚本平台针对所述对象的流量分配过程，得到所述对象在创意脚本平台的模拟状态包括：

3.根据权利要求2所述的流量分配方法，其中，所述以所述对象在创意脚本平台的第一实际状态为基础，使用模拟器模拟所述对象在创意脚本平台的状态转移函数，得到所述对象在创意脚本平台的模拟状态包括：

4.根据权利要求3所述的流量分配方法，其中，所述动态调整流量分配参数包括：

5.根据权利要求4所述的流量分配方法，其中，所述流量分配参数包括所述对象在创意脚本平台的竞价系数。

6.根据权利要求1-5任一项所述的流量分配方法，其中，所述至少根据所述对象在推荐平台的第二实际状态和所述对象在创意脚本平台的模拟状态，更新所述对象在创意脚本平台的流量分配策略，使所述对象在推荐平台的自然流量得到提升包括：

7.根据权利要求6所述的流量分配方法，其中，所述根据所述学习样本，以提升所述对象在推荐平台的自然流量为优化目标，更新所述对象在创意脚本平台的流量分配策略，使得受所述流量分配策略影响的所述自然流量得到提升包括：

8.根据权利要求6-7任一项所述的流量分配方法，其中，所述优化目标具体为最大化所述对象在推荐平台的自然流量。

9.一种流量分配装置，其中，包括：

10.一种服务器，其中，包括至少一个存储器和至少一个处理器；所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行权利要求1-8任一项所述的流量分配方法。

11.一种存储介质，其中，所述存储介质存储一条或多条计算机可执行指令，所述一条或多条计算机可执行指令用于执行权利要求1-8任一项所述的流量分配方法。