CN113327141A

CN113327141A - 一种基于模拟环境的出行平台优惠券发放优化方法

Info

Publication number: CN113327141A
Application number: CN202110886220.9A
Authority: CN
Inventors: 张超; 胡南; 刘泽琳; 邢育超; 刘昌鑫; 徐亮
Original assignee: Nanqi Xiance Nanjing Technology Co ltd
Current assignee: Nanqi Xiance Nanjing Technology Co ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-08-31

Abstract

本发明公开一种基于模拟环境的出行平台优惠券发放优化方法，基于机器学习构建出行平台优惠券发放的模拟环境，包括构建平台优惠券发放模型和用户行为模型；所述出行优惠券发放策略优化是根据所设定的优化目标，使得模拟环境内的平台优惠券发放模型和用户行为模型进行行为交互，优化后的平台优惠券发放策略；所述用户行为结果复盘将优化后的平台优惠券发放策略在现有的出行平台中进行投放，比对真实用户行为和模拟环境内的用户行为模型输出的差异性概率，对模拟环境中的用户行为模型进行修正，缩小模拟环境与真实环境误差，从而进一步在模拟环境内进行贴合实际场景的出行优惠券发放策略优化。

Description

一种基于模拟环境的出行平台优惠券发放优化方法

技术领域

本发明涉及一种基于模拟环境的出行平台优惠券发放优化方法，在基于机器学习技术构建的模拟环境，模拟平台发券和用户打车的交互过程，从而获得对出行平台优化的优惠券发放方法，属于智能出行技术领域。

背景技术

随着社会的发展、经济水平的提高以及人们生活水准的提高，公共交通设施已经不能满足部分用户的需求。众多出行平台应运而生，着力打造更快速、便捷、舒适的出行方式。但由于众多出行平台的参与，且出行领域用户粘性较小，所以各种出行优惠券的发放成为各出行平台的获客手段。

而出行优惠券发放过程高度依赖运营人员的经验。这些经验通常由运营人员之间交流以及实际优惠券发放中的试错获取，难以形成数字化的经验，新入行从业人员的学习成本较高，且在众多城市中，最优发券策略往往不同，运营人员难以快速调整策略。因此，现有的出行优惠券发放的整个过程需要大量的人力和高昂的费用，亟需一种数字化、自动化、智能化的优惠券发放方法。

机器学习中适用于序列决策过程的强化学习方法，其学习过程要求智能体与环境不断交互试错，以帮助智能体在环境中逐渐学得最优控制策略(即最优决策策略)，从而自动完成决策任务。然而，强化学习是智能体与环境进行大量交互试错的过程，在现实环境中往往难以实行。例如，在实际的出行平台优惠券发放过程中直接用强化学习，则需要使用大量不同的优惠券发放方案在实际业务中进行试错，然后从对应用户的行为决策数据中，学习得到最优的平台优惠券发放策略。显然，这种方法会带来巨大的经济损失和时间成本，是出行平台无法接受的。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于模拟环境的出行平台优惠券发放优化方法。

技术方案：一种基于模拟环境的出行平台优惠券发放优化方法，主要包括出行平台优惠券发放的模拟环境构建、出行优惠券发放策略优化和用户行为结果复盘三个部分的实现，其中，出行平台优惠券发放的模拟环境构建包括构建平台优惠券发放模型和用户行为模型；出行优惠券发放策略优化根据所设定的优化目标，使得模拟环境内的平台优惠券发放模型和用户行为模型进行行为交互，优化后的平台优惠券发放策略；用户行为结果复盘将优化后的平台优惠券发放策略在现有的出行平台中进行投放，比对真实用户行为和模拟环境内的用户行为模型输出的差异性概率，对模拟环境中的用户行为模型进行修正。

所述出行平台优惠券发放的模拟环境构建过程中，对实际发生的历史平台发券内容和用户打车行为数据进行学习，构造平台优惠券发放模型和用户行为模型；学习过程中，首先基于出行平台视角，定义并抽象出状态数据s和平台发券的动作数据a ^p；然后基于用户视角，定义并抽象出用户动作数据a ^u；根据数据的时序关系，将实际发生的发券打车数据排列为对应的状态-动作序列，即

序列；利用机器学习算法，通过所述状态-动作序列学习得到两个策略模型，分别是平台优惠券发放模型和用户行为模型。

所述出行优惠券发放策略优化过程中，设定优化目标，给定随机初始状态数据s，基于所构建的平台优惠券发放的模拟环境内的平台优惠券发放模型与用户行为模型的行为交互，在模拟环境内根据优化目标持续寻优，优化平台优惠券发放模型的输出。

所述用户行为结果复盘中，将优化后的平台优惠券发放模型的输出内容，即优化后的出行优惠券发放内容，在现有出行平台中进行实际发放，获取出行平台中真实用户动作数据，并输出出行平台中真实用户动作数据和模拟环境内用户行为模型的差异性，对模拟环境中的用户行为模型的输出进行修正。

所述的出行平台优惠券发放的模拟环境中的平台优惠券发放模型，其输入为状态数据s，输出为平台发券的动作数据a ^p；用户行为模型的输入为状态数据s和平台发券的动作数据a ^p的拼接向量，输出为用户动作数据。

所述的用户行为结果复盘中的用户行为模型修正过程中，对于当前状态数据s，输入到模拟环境中的平台优惠券发放模型，输出平台发券的动作数据a ^p，同时在模拟环境中的用户行为模型输出用户动作数据a ^u，将平台发券的动作数据a ^p在真实出行平台中进行实际投放，则现有出行平台的真实用户根据平台优惠券发放内容在出行平台中进行相应动作，根据真实用户动作数据和模拟环境内的用户动作数据a ^u的差异性概率比较，将差异性概率作为用户行为模型输出的用户动作数据a ^u的概率修正。

一种基于模拟环境的出行平台优惠券发放优化系统，主要包括出行平台优惠券发放的模拟环境构建模块、出行优惠券发放策略优化模块和用户行为结果复盘模块；所述出行平台优惠券发放的模拟环境构建模块包括构建平台优惠券发放模型和用户行为模型；所述出行优惠券发放策略优化模块，用于根据所设定的优化目标，使得模拟环境内的平台优惠券发放模型和用户行为模型进行行为交互，输出优化后的平台优惠券发放策略；所述用户行为结果复盘模块将优化后的平台优惠券发放策略在现有的出行平台中进行投放，比对真实用户行为和模拟环境模块的用户行为模型输出的差异性概率，对模拟环境模块的用户行为模型进行修正。

所述出行平台优惠券发放的模拟环境构建模块，对实际发生的历史出行平台发券内容和用户打车行为数据进行学习，构造平台优惠券发放模型和用户行为模型；学习过程中，首先基于出行平台视角，定义并抽象出状态数据s和平台发券的动作数据a ^p；然后基于用户视角，定义并抽象出用户动作数据a ^u；根据数据的时序关系，将实际发生的发券打车数据排列为对应的状态-动作序列，即

所述出行优惠券发放策略优化模块中，设定优化目标，给定随机初始状态数据

，基于所述平台优惠券发放模型与用户行为模型的行为交互，在模拟环境内根据优化目标持续寻优，通过平台优惠券发放模型输出优化后平台优惠券发放策略。

所述用户行为结果复盘模块，将优化后的平台优惠券发放模型的输出内容，即优化后的出行优惠券发放策略，在现有出行平台中进行实际发放，获取出行平台中真实用户动作数据，并输出出行平台中真实用户动作数据和模拟环境内用户行为模型的差异性，对用户行为模型的输出进行修正。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于模拟环境的出行平台优惠券发放优化方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于模拟环境的出行平台优惠券发放优化方法的计算机程序。

有益效果：在出行平台优惠券发放过程中，一般都是人工根据经验发放，然后根据发放结果不断调整发放策略，大大增加试错成本和时间。为降本增效，本发明提出了一种基于模拟环境的出行平台优惠券发放优化方法，首先从历史真实发生的平台发券和用户打车的时序数据中构建出行平台优惠券发放模拟环境，模拟环境内包含平台优惠券发放模型和用户行为模型，然后设定优化目标，通过强化学习算法在模拟环境内进行平台优惠券发放模型和用户行为模型的行为交互，实现在模拟环境中低成本高效率地寻优平台优惠券发放策略。然后基于线下优惠券实际投放后的用户行为结果复盘，比对真实用户行为和模拟环境内的用户行为模型输出的差异性概率，对模拟环境中的用户行为模型进行修正，缩小模拟环境与真实环境误差，从而进一步在模拟环境内进行贴合实际场景的出行优惠券发放策略优化。

附图说明

图1是本发明实施例的方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于模拟环境的出行平台优惠券发放优化方法，包括出行平台优惠券发放的模拟环境构建、出行优惠券发放策略优化和用户行为结果复盘三个部分的实现：

出行平台优惠券发放的模拟环境构建：

出行平台优惠券发放的模拟环境包含平台优惠券发放模型和用户行为模型，且平台优惠券发放模型和用户行为模型均采用神经网络作为模型结构，学习过程中，首先基于出行平台视角，定义并抽象出状态数据s和平台发券的动作数据a ^p。

其中，在本实施例中，状态数据s指：用户过去两个月打车频率、用户过去两个月打车金额、用户过去两个月打车所使用的最低折扣、用户过去两个月打车所使用的折扣金额等数据信息。动作数据a ^p指：折扣券张数、折扣券有效期、折扣券的折扣力度（6折、6.5折、7折、7.5折、8折、8.5折、9折、9.5折）等数据信息。

然后基于用户视角，定义并抽象出用户动作数据a ^u。用户动作数据a ^u是指：用户是否打车、用户打车金额、用户是否使用折扣券等数据信息。

根据数据的时序关系，将出行平台实际发生的发券打车数据排列为对应的状态-动作序列，即

序列，下标代表的含义为时间序列，0为初始时刻，1为0的下一时刻，以此类推。利用机器学习算法，通过此序列学习得到两个策略模型，即平台优惠券发放模型和用户行为模型。其中，平台优惠券发放模型，其输入为状态数据s，输出为平台发券的动作数据a ^p。用户行为模型的输入为状态数据s和平台发券的动作数据a ^p的拼接向量，输出为用户动作数据a ^u。

出行优惠券发放策略优化：

设定优化目标，给定随机初始状态数据

，基于所构建的平台优惠券发放的模拟环境内的平台优惠券发放模型和用户行为模型的行为交互，在模拟环境内根据优化目标持续寻优，优化平台优惠券发放模型的输出a ^p。

用户行为结果复盘：

对于现有出行平台中真实的状态数据s，在模拟环境中由用户行为模型输出用户动作数据a ^u，同时，将模拟环境中的平台优惠券发放模型的输出，即平台发券的动作数据a ^p在现有出行平台中进行实际发放，则真实用户根据平台优惠券发放内容在出行平台上进行相应动作，获取出行平台中真实用户动作数，根据真实用户动作和模拟环境内的用户动作数据a ^u的差异性概率比较，将差异性作为用户行为模型输出的用户动作数据a ^u的概率修正。

一种基于模拟环境的出行平台优惠券发放优化系统，主要包括出行平台优惠券发放的模拟环境构建模块、出行优惠券发放策略优化模块和用户行为结果复盘模块；出行平台优惠券发放的模拟环境构建模块包括构建平台优惠券发放模型和用户行为模型；出行优惠券发放策略优化模块，用于根据所设定的优化目标，使得模拟环境内的平台优惠券发放模型和用户行为模型进行行为交互，输出优化后的平台优惠券发放策略；用户行为结果复盘模块将优化后的平台优惠券发放策略在现有的出行平台中进行投放，比对真实用户行为和模拟环境模块的用户行为模型输出的差异性概率，对模拟环境模块的用户行为模型进行修正。

出行平台优惠券发放的模拟环境构建模块，对实际发生的历史出行平台发券内容和用户打车行为数据进行学习，构造平台优惠券发放模型和用户行为模型；学习过程中，首先基于出行平台视角，定义并抽象出状态数据s和平台发券的动作数据a ^p；然后基于用户视角，定义并抽象出用户动作数据a ^u；根据数据的时序关系，将实际发生的发券打车数据排列为对应的状态-动作序列，即

序列；利用机器学习算法，通过状态-动作序列学习得到两个策略模型，分别是平台优惠券发放模型和用户行为模型。

出行优惠券发放策略优化模块中，设定优化目标，给定随机初始状态数据

，基于平台优惠券发放模型与用户行为模型的行为交互，在模拟环境内根据优化目标持续寻优，通过平台优惠券发放模型输出优化后平台优惠券发放策略。

用户行为结果复盘模块，将优化后的平台优惠券发放模型的输出内容，即优化后的出行优惠券发放策略，在现有出行平台中进行实际发放，获取出行平台中真实用户动作数据，并输出出行平台中真实用户动作数据和模拟环境内用户行为模型的差异性，对用户行为模型的输出进行修正。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于模拟环境的出行平台优惠券发放优化系统各模块或基于模拟环境的出行平台优惠券发放优化方法各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于模拟环境的出行平台优惠券发放优化方法，其特征在于，包括出行平台优惠券发放的模拟环境构建、出行优惠券发放策略优化和用户行为结果复盘三个部分的实现，其中，出行平台优惠券发放的模拟环境构建包括构建平台优惠券发放模型和用户行为模型；所述出行优惠券发放策略优化是根据所设定的优化目标，使得模拟环境内的平台优惠券发放模型和用户行为模型进行行为交互，优化后的平台优惠券发放策略；所述用户行为结果复盘将优化后的平台优惠券发放策略在现有的出行平台中进行投放，比对真实用户行为和模拟环境内的用户行为模型输出的差异性概率，对模拟环境中的用户行为模型进行修正。

2.根据权利要求1所述的基于模拟环境的出行平台优惠券发放优化方法，其特征在于，所述出行平台优惠券发放的模拟环境构建过程中，对实际发生的历史平台发券内容和用户打车行为数据进行学习，构造平台优惠券发放模型和用户行为模型；学习过程中，首先基于出行平台视角，定义并抽象出状态数据s和平台发券的动作数据a ^p；然后基于用户视角，定义并抽象出用户动作数据a ^u；根据数据的时序关系，将实际发生的发券打车数据排列为对应的状态-动作序列，即

3.根据权利要求1所述的基于模拟环境的出行平台优惠券发放优化方法，其特征在于，所述出行优惠券发放策略优化过程中，设定优化目标，给定随机初始状态数据s，基于所构建的平台优惠券发放的模拟环境内的平台优惠券发放模型与用户行为模型的行为交互，在模拟环境内根据优化目标持续寻优，优化平台优惠券发放模型的输出。

4.根据权利要求1所述的基于模拟环境的出行平台优惠券发放优化方法，其特征在于，所述用户行为结果复盘中，将优化后的平台优惠券发放模型的输出内容，即优化后的出行优惠券发放内容，在现有出行平台中进行实际发放，获取出行平台中真实用户动作数据，并输出出行平台中真实用户动作数据和模拟环境内用户行为模型的差异性，对模拟环境中的用户行为模型的输出进行修正。

5.根据权利要求1所述的基于模拟环境的出行平台优惠券发放优化方法，其特征在于，所述的出行平台优惠券发放的模拟环境中的平台优惠券发放模型，其输入为状态数据s，输出为平台发券的动作数据a ^p；用户行为模型的输入为状态数据s和平台发券的动作数据a ^p的拼接向量，输出为用户动作数据。

6.根据权利要求1所述的基于模拟环境的出行平台优惠券发放优化方法，其特征在于，所述的用户行为结果复盘中的用户行为模型修正过程中，对于当前状态数据s，输入到模拟环境中的平台优惠券发放模型，输出平台发券的动作数据a ^p，同时在模拟环境中的用户行为模型输出用户动作数据a ^u，将a ^p在真实出行平台中进行实际投放，则现有出行平台的真实用户根据平台优惠券发放内容进行相应动作，根据真实用户动作数据和模拟环境内的用户动作数据a ^u的差异性概率比较，将差异性概率作为用户行为模型输出的用户动作数据a ^u的概率修正。

7.一种基于模拟环境的出行平台优惠券发放优化系统，其特征在于，包括出行平台优惠券发放的模拟环境构建模块、出行优惠券发放策略优化模块和用户行为结果复盘模块；所述出行平台优惠券发放的模拟环境构建模块包括构建平台优惠券发放模型和用户行为模型；所述出行优惠券发放策略优化模块，用于根据所设定的优化目标，使得模拟环境内的平台优惠券发放模型和用户行为模型进行行为交互，输出优化后的平台优惠券发放策略；所述用户行为结果复盘模块将优化后的平台优惠券发放策略在现有的出行平台中进行投放，比对真实用户行为和模拟环境模块的用户行为模型输出的差异性概率，对模拟环境模块的用户行为模型进行修正。

8.根据权利要求7所述的基于模拟环境的出行平台优惠券发放优化系统，其特征在于，所述出行平台优惠券发放的模拟环境构建模块，对实际发生的历史出行平台发券内容和用户打车行为数据进行学习，构造平台优惠券发放模型和用户行为模型；学习过程中，首先基于出行平台视角，定义并抽象出状态数据s和平台发券的动作数据a ^p；然后基于用户视角，定义并抽象出用户动作数据a ^u；根据数据的时序关系，将实际发生的发券打车数据排列为对应的状态-动作序列，即

序列；利用机器学习算法，通过所述状态-动作序列学习得到两个策略模型，分别是平台优惠券发放模型和用户行为模型；

，基于所述平台优惠券发放模型与用户行为模型的行为交互，在模拟环境内根据优化目标持续寻优，通过平台优惠券发放模型输出优化后平台优惠券发放策略；

9.一种计算机设备，其特征在于，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-6中任一项所述的基于模拟环境的出行平台优惠券发放优化方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质存储有执行如权利要求1-6中任一项所述的基于模拟环境的出行平台优惠券发放优化方法的计算机程序。