CN111339675A

CN111339675A - 基于机器学习构建模拟环境的智能营销策略的训练方法

Info

Publication number: CN111339675A
Application number: CN202010160913.5A
Authority: CN
Inventors: 俞扬; 秦熔均; 姜允执; 池飞
Original assignee: Nanqi Xiance Nanjing Technology Co ltd
Current assignee: Nanqi Xiance Nanjing Technology Co ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-06-26
Anticipated expiration: 2040-03-10
Also published as: CN111339675B

Abstract

本发明公开了一种基于机器学习构建模拟环境的智能营销策略的训练方法，主要包括(1)基于机器学习的模拟营销平台环境构建、(2)基于模拟营销平台环境的营销策略搜索、(3)营销策略迁移优化三大部分，解决营销系统领域里的试错成本高、营销平台变化快、营销策略求解难的问题。

Description

基于机器学习构建模拟环境的智能营销策略的训练方法

技术领域

本发明涉及一种基于机器学习构建模拟环境的智能营销策略的训练方法，涉及人工智能及互联网数据处理技术领域。

背景技术

营销的过程通常是营销者设计好素材，选择营销受众(即目标群体)、预算等可配置参数，将素材投放在社交媒体平台上，平台根据内部的策略进行展示，根据投放平台反馈的统计数据信息，如浏览量、下载量，实际费用等，更新受众、预算等可配置参数，直至该投放过程结束。这是一个典型的序列决策过程，营销的目标是使得实际费用尽可能低的情况下，在目标受众上的转化率(可定为下载量或浏览量)尽可能高。由于素材投放之后，平台内部会在大量的投放素材之间进行竞价和推荐，最终进行展示，而平台的策略无法直接获得，也间接导致素材的投放是一个持续的、动态变化的过程，投放者需要凭借直觉和经验决策，即决定如何进行下一次投放。

强化学习通过让智能体与环境不断交互试错，提升智能体自身的决策能力和效率，使智能体在环境中逐渐学得最优控制策略(即最优决策策略)，自动完成决策任务。然而，强化学习的学习过程需要智能体与环境进行大量交互试错，在实际的营销过程中，如果直接使用强化学习，则需要使用大量不同的配置参数在真实的营销平台中进行试错，然后从这些试错的交互轨迹，获得最优的投放策略，显然这种方法会带来巨大的资源浪费，试错成本巨大，是不切实际的。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于机器学习构建模拟环境的智能营销策略的训练方法。

技术方案：一种基于机器学习构建模拟环境的智能营销策略的训练方法，主要包括营销环境模拟器构造、策略搜索和策略迁移优化三个模块的实现。现实中的营销平台通常会收到多个投放者的投放需求，经平台内部竞价和推荐策略计算后，进行实际投放，并将投放结果的统计量返回给各个投放者。由于其他投放者个数不定，其投放策略和平台内部的策略均不可观测，因此本发明将平台和其他投放者建模为营销环境，并构建模拟营销环境，投放者进行投放操作后，模拟营销环境返回对应的投放结果。

营销环境模拟器构造模块利用真实营销环境中的历史投放记录数据(交互数据)，首先以投放者视角，对交互数据作状态和动作编码为S和a，其中状态S包含平台反馈的统计信息，动作a为投放内容、目标群体等具体投放行为，并按照时间先后顺序，得到对应的状态-动作序列，即(S0,a0,S1,a1,…,ST)序列。营销环境模拟器利用机器学习方法，从编码并划分完成的状态-动作序列中学得营销环境模型，作为营销环境模拟器，该模型输入当前的“状态”与执行的“动作”，输出动作执行完成后的下一个“状态”。

营销环境模拟器构造完成后，策略搜索模块利用策略搜索方法，和营销环境模拟器交互，进行策略优化，例如优化目标为最大化下载量与实际花费的比值，并根据实际场景，建立约束，通过搜索之后，得到投放策略。为了增强策略的鲁棒性，通常在训练时需要进行噪声扰动。

由于模拟营销环境和真实营销环境的状态和动作空间具有一致性，可将在营销环境模拟器中学得的营销策略直接应用到真实营销平台上，但实际营销场景中，平台的内部策略通常也在不断改进，因此将搜索得到的营销策略部署后，策略迁移优化模块需要收集部署后产生的新的交互数据，用于对营销环境模拟器的进一步更新，并重新搜索策略，以提高各个模型的准确度和适应性。

附图说明

图1是本发明实施例的方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于机器学习构建模拟环境的智能营销策略的训练方法，包括营销环境模拟器构造、营销策略搜索和策略迁移优化三个部分：

营销环境模拟器构建：

采用神经网络作为营销环境模拟器的模型，准备好状态-动作序列后，由于模型的输入为当前一步的状态和动作，输出下一步状态，因此可进一步对状态-动作序列进行切分，划分出多个(S_t,a_t,S_t+1)的元组，以其中(S_t,a_t)作为模拟器模型的输入，S_t+1为输出。模拟器模型需要学习这个输入到输出的对应关系。通常可直接使用监督学习对这个对应关系进行学习，具体方案如下：

【方案例1】使用监督学习

首先，对真实营销环境中的历史营销的交互数据进行划分，得到多个(S_t,a_t,S_t+1)元组，S_t+1为S_t的下一个状态；

然后，使用监督学习方法，如深度神经网络、岭回归等，将(S_t,a_t)作为样本，S_t+1作为预测目标，从划分后的数据集中训练出模拟器模型；

最后，训练后模型根据输入的状态-动作对，预测下一个状态，作为营销环境模拟器使用。

另一方面，由于使用监督学习来训练模拟器模型时，容易出现累积复合误差，导致模型在较长时序的预测下失效，采用对抗学习技术可以缓解复合误差的影响。利用营销环境和投放者“互为环境”的特性，即以投放者视角来看，营销环境是与其交互的环境，而以营销环境的视角来看，投放者是与其交互的环境。为了进一步缓解累积复合误差，需要评估交互轨迹，因此本发明中为投放者和营销环境各自建立策略模型，再建立一个判别器，投放策略模型和营销环境模型交互产生一批(S0,a0,S1,a1,…,Sn)序列，判别器对生成的一批(S0,a0,S1,a1,…,Sn)序列进行打分。具体实施过程如下：

【实施例1】使用对抗学习

首先，建立若干神经网络作为投放策略模型和营销环境模型；

其次，建立一个神经网络作为判别器，用于判别某条生成(S0,a0,S1,a1,…,Sn)轨迹序列的可信度，可信度取值为0到1之间的实数，越接近1则越像真实数据，越接近0则越像生成数据；

然后，通过投放策略模型和营销环境模型进行投放者和营销环境交互，生成一批(S0,a0,S1,a1,…,Sn)轨迹序列，用生成的(S0,a0,S1,a1,…,Sn)序列和真实数据中的(S0,a0,S1,a1,…,Sn)序列更新判别器，将真实轨迹序列数据集记为D，训练过程中的生成的轨迹序列数据集记为D’，更新目标如下：

其中f为判别器，f(τ),f(τ′)分别表示判别器在单条真实轨迹和生成轨迹上输出的可信度，可采用两种方式实施：(1)使用嵌入(Embedding)方法，把交互轨迹降维成定长的特征向量，判别器f输出对降维后特征向量的可信度，作为对原轨迹置信度(2)建立判别器f时，输出对(S_t,a_t,S_t+1)的置信度，按照公式

计算结果作为判别器对单条轨迹输出的可信度；

再次，用更新后的判别器给生成的(S0,a0,S1,a1,…,Sn)轨迹序列打分，即输出可信度，作为该条轨迹的期望奖励，用强化学习算法更新营销投放策略和营销环境模型；

然后，重复以上两步，直到达到最大循环次数；

最后，将通过以上过程训练完成后的营销环境模型作为营销环境模拟器使用。

策略搜索：

经过模拟器构建后，可使用强化学习方法或演化学习算法进行策略搜索，寻找最优投放策略，具体实施方案描述如下：

首先，建立一个神经网络作为投放策略模型；

其次，使用建立的投放策略和营销环境模拟器交互，根据交互数据中的状态计算出奖励信息(例如，下载量、安装量，可由本领域技术人员指定或根据实际场景的指标给出计算规则)，并在观测状态上加高斯噪声，返回状态和奖励信息；

然后，用演化算法或强化学习算法，结合上一步返回的状态和奖励信息，进行策略搜索来更新投放策略的模型，提高当前投放策略的期望奖励；

再次，重复以上两步，直到投放策略的期望奖励无法提升或达到最大循环次数；

最后，使用经过上述训练搜索过程后的投放策略，作为营销策略。

策略搜索过程中在观测的状态上引入了高斯噪声，可提高投放策略的鲁棒性，由于状态和动作空间与真实的投放策略一致，训练得到的投放策略可直接用于真实投放平台。

下面以演化算法和强化学习算法分别作为策略搜索实施例，说明如下：

【实施例1】演化算法策略搜索：

(1)建立多个神经网络作为投放策略模型种群；

(2)选择一个投放策略和营销环境模拟器交互，即先由营销环境模拟器采样或生成一个初始状态，投放策略以该初始状态作为输入，输出投放动作；营销环境模拟器输入当前的状态和投放动作，返回下一个状态，投放策略再根据当前状态，输出投放动作，直到达到外部终止条件(如最多投放次数，可由本领域专业人员指定)。重复M次上述交互过程，得到M条轨迹，每条轨迹为(S0,a0,S1,a1,…,Sn)序列，并根据状态计算出奖励信息，并在每个观测状态上加高斯噪声再返回给投放策略作为输入；

(3)为(2)中每条轨迹计算该条轨迹的期望收益(可使用算数平均或多步折扣公式计算)，并计算所有的期望奖励的平均值，作为当前选中的投放策略的适应度；

(4)重复(2)(3)，直到种群里所有策略模型都具有适应度；

(5)使用演化算法对策略模型进行扰动，即遗传、变异、交叉等过程，生成新的种群，回到(2)，直到达到最大迭代次数；

(6)使用当前种群中适应度最高的策略模型作为策略搜索结果。

【实施例2】强化学习策略搜索：

(1)建立一个神经网络作为投放策略模型；

(2)用投放策略和营销环境模拟器交互，即先由营销环境模拟器采样或生成一个初始状态，投放策略以该初始状态作为输入，输出投放动作；营销环境模拟器输入当前的状态和投放动作，返回下一个状态，投放策略再根据当前状态，输出投放动作，直到达到外部终止条件(如最多投放次数，可由本领域专业人员指定)。重复M次上述交互过程，得到M条轨迹，每条轨迹为(S0,a0,S1,a1,…,Sn)序列，并根据状态计算出奖励信息，并在每个观测状态上加高斯噪声再返回给投放策略作为输入；

(3)用(2)中的轨迹使用强化学习算法(如DDPG、PPO等)进行策略更新；

(4)重复(2)(3)，直到达到最大迭代次数，并将最后得到的策略模型作为策略搜索结果。

策略迁移优化：

策略搜索后得到的投放策略是根据历史交互数据进行训练得到的最优策略，为保证投放策略可及时更新，应对环境平台的变化，需要根据部署后真实的运维结果，对营销模拟环境以及从中得到的投放策略进行增量式修正，以适配真实的营销过程。具体的实施方式如下：

【实施例1】

首先，将在模拟环境中训练得到的投放策略部署到真实的营销平台中进行投放，记录并保留所有新产生的交互数据D，记录实际与预估的投放收益的比值小于δ的交互数据(δ可根据业务指标制定，通常设为0.5～0.9)，保存到数据集合

中；

其次，将上线后新的交互数据加入到历史交互数据中，并维护最近一段时间的交互数据，例如维护最近90天的交互数据进行重新整合；

然后，使用新产生的交互数据D，对当前营销模拟环境模型、营销策略模型，按照模拟器构建和策略搜索的流程进行一次更新，并额外使用

中数据，按照模拟器构建和策略搜索的流程进行一次更新，作为修正；

最后，定期进行全量更新，即使用重新整合的交互数据，对营销模拟环境模型、营销策略模型，按照模拟器构建和策略搜索步骤进行更新。

经过上述优化的营销策略可持续更新。

Claims

1.一种基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：包括营销环境模拟器构造、策略搜索和策略迁移优化三个模块的实现；

营销环境模拟器构造模块利用真实营销环境中的历史交互数据，首先以投放者视角，对交互数据作状态和动作编码为S和a，其中状态S包含平台反馈的统计信息，动作a为投放行为，并按照时间先后顺序，得到对应的状态-动作序列，即(S0,a0,S1,a1,…,ST)序列；营销环境模拟器利用机器学习方法，从编码并划分完成的状态-动作序列中学得营销环境模型，作为营销环境模拟器，该模型输入当前的“状态”与执行的“动作”，输出动作执行完成后的下一个“状态”；

营销环境模拟器构造完成后，策略搜索模块利用策略搜索方法，和营销环境模拟器交互，进行策略优化；为了增强策略的鲁棒性，在训练时进行噪声扰动；

将搜索得到的营销策略部署后，策略迁移优化模块需要收集部署后产生的新的交互数据，用于对营销环境模拟器的进一步更新，并重新搜索策略，以提高各个模型的准确度和适应性。

2.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：策略搜索模块中，策略优化目标为最大化下载量与实际花费的比值，并根据实际场景，建立约束，通过搜索之后，得到投放策略。

3.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：使用监督学习算法获得营销环境模拟器流程为：

然后，使用监督学习方法，将(S_t,a_t)作为样本，S_t+1作为预测目标，从划分后的数据集中训练出模拟器模型；

4.如权利要求3所述的基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：采用对抗学习技术缓解监督学习带来的复合误差的影响，具体实施过程如下：

其次，建立一个神经网络作为判别器，用于判别某条生成(S0,a0,S1,a1,…,Sn)轨迹序列的可信度；

然后，通过投放策略模型和营销环境模型进行投放者和营销环境交互，生成一批(S0,a0,S1,a1,…,Sn)轨迹序列，用生成的(S0,a0,S1,a1,…,Sn)轨迹序列和真实数据中的(S0,a0,S1,a1,…,Sn)轨迹序列更新判别器，将真实轨迹序列数据集记为D，训练过程中的生成的轨迹序列数据集记为D’，更新目标如下：

其中f为判别器，f(τ),f(τ′)分别表示判别器在单条真实轨迹和生成轨迹上输出的可信度；

然后，重复以上两步，直到达到最大循环次数；

5.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：完成营销模拟器构建后，使用演化学习算法进行策略搜索，具体步骤为：

(1)建立多个神经网络作为投放策略模型种群；

(2)选择一个投放策略和营销环境模拟器交互，即先由营销环境模拟器采样或生成一个初始状态，投放策略以该初始状态作为输入，输出投放动作；营销环境模拟器输入当前的状态和投放动作，返回下一个状态，投放策略再根据当前状态，输出投放动作，直到达到外部终止条件；重复M次上述交互过程，得到M条轨迹，每条轨迹为(S0,a0,S1,a1,…,Sn)序列，并根据状态计算出奖励信息，并在每个观测状态上加高斯噪声再返回给投放策略作为输入；

(3)为(2)中每条轨迹计算该条轨迹的期望收益，并计算所有的期望奖励的平均值，作为当前选中的投放策略的适应度；

(4)重复(2)(3)，直到种群里所有策略模型都有适应度；

(5)使用演化算法对策略模型进行扰动，生成新的种群，回到(2)，直到达到最大迭代次数；

6.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：完成营销模拟器构建后，使用强化学习算法进行策略搜索，具体步骤为：

(1)建立一个神经网络作为投放策略模型；

(2)用投放策略和营销环境模拟器交互，即先由营销环境模拟器采样或生成一个初始状态，投放策略以该初始状态作为输入，输出投放动作；营销环境模拟器输入当前的状态和投放动作，返回下一个状态，投放策略再根据当前状态，输出投放动作，直到达到外部终止条件；重复M次上述交互过程，得到M条轨迹，每条轨迹为(S0,a0,S1,a1,…,Sn)序列，并根据状态计算出奖励信息，并在每个观测状态上加高斯噪声再返回给投放策略作为输入；

(3)用(2)中的轨迹使用强化学习算法进行策略更新；

7.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于，策略搜索后得到的投放策略是根据历史交互数据进行训练得到的最优策略，为保证投放策略可及时更新，应对环境平台的变化，需要根据部署后真实的运维结果，对营销模拟环境以及从中得到的投放策略进行增量式修正，以适配真实的营销过程，具体的实施方式如下：

首先，将在模拟环境中训练得到的投放策略部署到真实的营销平台中进行投放，记录并保留所有新产生的交互数据D，记录实际与预估的投放收益的比值小于δ的交互数据，保存到数据集合

中；

其次，将上线后新的交互数据加入到历史交互数据中，并维护最近一段时间的交互数据，进行重新整合；