CN111814050A

CN111814050A - 旅游场景强化学习模拟环境构建方法、系统、设备和介质

Info

Publication number: CN111814050A
Application number: CN202010649717.4A
Authority: CN
Inventors: 王育添; 江文斌; 李健
Original assignee: Shanghai Ctrip International Travel Agency Co Ltd
Current assignee: Shanghai Ctrip International Travel Agency Co Ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-23
Anticipated expiration: 2040-07-08
Also published as: CN111814050B

Abstract

本发明公开了一种旅游场景强化学习模拟环境构建方法、系统、设备和介质，其中旅游场景强化学习模拟环境构建方法包括以下步骤：抽取用户对旅游产品的历史行为数据；对历史行为数据进行session划分；奖励函数确定和用户行为模型估计；输出模拟环境。通过旅游场景强化学习模拟环境的构建，智能体可以在一个类似真实的旅游平台上，与虚拟用户进行多轮交互。在交互过程中，根据用户行为反馈不断更新策略，使智能体收敛到生成匹配用户动态偏好的最优策略。模拟环境中的模型训练将有助于减少线上的探索成本，为线上强化学习模型提供良好的初始化。

Description

旅游场景强化学习模拟环境构建方法、系统、设备和介质

技术领域

本发明属于强化学习技术领域，尤其涉及一种旅游场景强化学习模拟环境构建方法、系统、设备和介质。

背景技术

近些年来，搜索引擎在各行各业都发挥着重要作用。在信息爆炸的时代，一个良好的搜索排序引擎通过将符合用户兴趣的产品排在靠前位置，让用户在短时间内从海量商品找到自己满意的商品，增强用户体验，提升平台收益。

旅游场景下的搜索排序是十分复杂的。当前搜索推荐主要的研究是基于监督学习的，通过日志收集用户的历史行为数据，设置损失函数并进行优化，期望获得用户偏好，以此进行更好的商品排序。然而这种搜索推荐只考虑了短期效益，用户与系统交互的过程中，决策并不是独立的，每个阶段、每一轮的决策都会受到上一次决策的影响。在旅游场景下，用户与系统的交互时间跨度更长，用户往往要经历目的地探索期、目的地明确产品选择期、预订准备期、预订期等完整的决策周期。以往的监督学习并不能动态的把握这些过程，强化学习天然适应这样多轮决策的的场景，通过agent(代理)与环境的多轮交互，理论上可以获得最大的长期收益。

强化学习中模型的学习需要与真实环境进行大量交互，来不断优化智能体的策略，然而，强化学习在线交互环境消耗资源较多，成本较高，贸然地进行线上实验，会伤害用户体验，降低用户留存率。因此，强化学习训练过程需要能有一个模拟环境。通过在模拟环境中训练模型，去使算法表现优异，减少线上模型学习的成本，为线上环境训练模型提供一个良好的初始化。

发明内容

本发明要解决的技术问题是为了克服现有技术中强化学习在线交互环境消耗资源较多的缺陷，提供一种旅游场景强化学习模拟环境构建方法、系统、设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种旅游场景强化学习模拟环境构建方法，包括以下步骤：

抽取用户对旅游产品的历史行为数据；

对历史行为数据进行session划分；

奖励函数确定和用户行为模型估计；

输出模拟环境。

较佳地，历史行为数据包括用户曝光数据、用户点击数据、用户下单数据；

抽取用户对旅游产品的历史行为数据的步骤包括：

通过埋点收集用户曝光数据、用户点击数据、用户下单数据。

较佳地，对历史行为数据进行session划分的步骤包括：

将用户曝光数据、用户点击数据、用户下单数据拼接合并以形成合并数据；

按照用户ID、搜索关键词、定位站、目的地站对合并数据进行分组，形成一个连续的时间序列的行为列表，构成候选session；

判断候选session中用户对当前产品行为的时间距上一个产品的时间跨度是否大于预设阈值，若是，则将候选session进行切割以形成目标session，若否，则以候选session作为目标session。

较佳地，预设阈值为15-45分钟。

本发明还提供一种旅游场景强化学习模拟环境构建系统，包括抽取单元、划分单元、估计单元、输出单元；

抽取单元用于抽取用户对旅游产品的历史行为数据；

划分单元用于对历史行为数据进行session划分；

估计单元用户进行奖励函数确定和用户行为模型估计；

输出单元用于输出模拟环境。

抽取单元还用于通过埋点收集用户曝光数据、用户点击数据、用户下单数据。

较佳地，划分单元还用于将用户曝光数据、用户点击数据、用户下单数据拼接合并以形成合并数据；

划分单元还用于按照用户ID、搜索关键词、定位站、目的地站对合并数据进行分组，形成一个连续的时间序列的行为列表，构成候选session；

划分单元还用于判断候选session中用户对当前产品行为的时间距上一个产品的时间跨度是否大于预设阈值，若是，则将候选session进行切割以形成目标session，若否，则以候选session作为目标session。

较佳地，预设阈值为15-45分钟。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本发明的旅游场景强化学习模拟环境构建方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的旅游场景强化学习模拟环境构建方法的步骤。

本发明的积极进步效果在于：通过旅游场景强化学习模拟环境的构建，智能体可以在一个类似真实的旅游平台上，与虚拟用户进行多轮交互。在交互过程中，根据用户行为反馈不断更新策略，使智能体收敛到生成匹配用户动态偏好的最优策略。模拟环境中的模型训练将有助于减少线上的探索成本，为线上强化学习模型提供良好的初始化。

附图说明

图1为本发明的实施例1的旅游场景强化学习模拟环境构建方法的流程图。

图2为本发明的实施例1的旅游场景强化学习模拟环境构建方法的步骤S12的流程图。

图3为本发明的实施例2的旅游场景强化学习模拟环境构建系统的结构示意图。

图4为本发明的实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种旅游场景强化学习模拟环境构建方法。参照图1，该旅游场景强化学习模拟环境构建方法包括以下步骤：

步骤S11、抽取用户对旅游产品的历史行为数据。

步骤S12、对所述历史行为数据进行session划分。

步骤S13、奖励函数确定和用户行为模型估计。

步骤S14、输出模拟环境。

本实施例的旅游场景强化学习模拟环境构建方法，利用预先收集到的用户在旅游场景下的行为数据，对用户在不同状态下的行为进行建模，最终可以获得旅游场景下强化学习的模拟环境。强化学习中智能体与环境的交互过程，智能体观察环境，采取动作，获得奖赏与新一轮环境的观察。用户在选择旅游产品完整的决策过程可以视为强化学习的过程，其中智能体为搜索引擎，环境为用户，agent与用户产生多轮交互。强化学习框架旨在寻找一种策略π^*，使得它在任意状态s和任意时间步骤t下，都能够获得最大的长期累计奖赏，如下式所述：

式中k为未来时间步骤，γ为折扣率，r_t+k表示agent在时间步骤(t+k)上获得的即时奖赏。一个理想的agent可以识别出即时奖励较小但长期对奖励贡献较大的对象，通过最优的旅游产品展示策略获得更大的转化率，提升GMV(Gross Merchandise Volume，成交总额)等指标。

用户进入当前携程旅游平台进行旅游产品决策的主要过程包括：用户进入跟团游界面，系统获取用户定位站，用户选择目的地，用户选择关键词，发出搜索请求。系统执行动作，将候选商品排序，展示给用户一个包含k个商品的PV(浏览量)，用户给出反馈信号，如点击、跳过、收藏、购买等，系统收到反馈信号做出新一轮的PV请求的相关页面的展示。系统通过优化展示策略提高转化率、GMV等指标，用户的反馈信号依赖于PV的展示过程，因此用户选择旅游产品的过程是一个多步的决策问题。

具体实施时，在步骤S11中，用户在浏览旅游产品、点击旅游产品、下单旅游产品的多轮交互中，可以建模为马尔科夫决策过程。其中系统的搜索引擎可以看作智能体(agent)，用户可以看作环境(environment)，智能体感知当前环境状态(state)，采取动作来获得最大的长期累计奖赏(reward)。旅游产品搜索排序场景下的马尔科夫决策过程可由以下四元组<S,A,R,T>表示，

1)State：Agent对Environment的观测，用户过去所有有过行为的旅游产品以及用户所处的决策周期阶段构成当前Agent观察到的状态

2)Action：Agent根据观察到的状态，所采取的动作空间，比如展示k个旅游产品给用户，k值可根据业务需求和实际情况设定

3)Reward：agent在当前状态下采取的动作获得的奖赏值。该奖赏值与用户对agent推荐的k个商品的行为B_t，以及用户所处决策周期阶段D_t相关。

R_t＝f(B_t，D_t)

用户的行为B_t(如用户对当前推荐的k个商品的点击、跳过等行为)衡量了用户对当前推荐商品的满意程度，用户所处决策周期D_t衡量用户当前行为的重要性。当用户处于决策周期早期阶段时，用户的点击行为具有很强的随意性，点击贡献的奖励较小，当用户处于决策周期的晚期时，用户对要去的目的地以及喜好的产品类型已经基本明确，点击行为基本可以表征用户的偏好，此时点击行为贡献的奖励值较大。而下单行为，无论在决策周期早期还是晚期，都是用户偏好的表征。在一次搜索排序中，智能体获得的奖励不是对单个物品的行为，而是在一次PV展示中对用户曝光的K个商品的奖赏值的累加。

4)P(s,a,s′)：环境的状态转移函数，表示在当前状态s下采取动作a转移到下一个状态s′的概率。

在用户与平台的交互过程中，用户对展示给的产品可能比较感兴趣，在时间t下点击进去，查看详情页，进行收藏，也可能对当前产品没有行为，直接跳过当前产品，对下一个产品进行操作。比如，在一次PV展示中，系统一次将5个产品(p1,p2,p3,p4,p5)依次展示给用户，如用户点击了p1、p3,对p2、p4、p5没有任何操作，用户可能继续发出请求操作，进行下滑动作，系统展示给用户更多的产品，进而对系统展示的产品发生行为，也有可能结束当前搜索过程。在步骤S11中，根据用户与平台的交互过程中的操作，抽取用户对旅游产品的历史行为数据。

历史行为数据包括用户曝光数据、用户点击数据、用户下单数据。作为一种可选的实施方式，步骤S11包括：

然后，在步骤S12中，对历史行为数据进行预处理。数据的预处理过程主要是将收集到的数据进行session(会话)的划分，以便于使用。

在一种可选的实施方式中，参照图2，session划分的步骤S12包括以下步骤：

步骤S121、将用户曝光数据、用户点击数据、用户下单数据拼接合并以形成合并数据。

步骤S122、按照用户ID、搜索关键词、定位站、目的地站对合并数据进行分组，形成一个连续的时间序列的行为列表，构成候选session。

步骤S123、判断候选session中用户对当前产品行为的时间距上一个产品的时间跨度是否大于预设阈值，若是，则将所述候选session进行切割以形成目标session，若否，则以所述候选session作为目标session。

在一种可选的实施方式中，若候选session中用户对当前产品行为的时间距上一个产品的时间跨度大于30min(分钟)，则进行切割，重新开始一个session。在其他可选的实施方式中，预设阈值的较佳范围为15-45min。

经过session划分后，最终获得的数据具有如下表的形式，即在一个目标session下用户在对应的出发站城市和目的地城市随着时间变化依次对产品发生行为。表1中UID指用户ID，PID指产品ID，LCID指定位站城市ID，DCID指目的地城市ID，KWD指用户搜索关键字。每个用户可以有相应的静态特征(年龄、性别等)以及最近的行为产品列表，比如用户最近有过具体行为的m个商品(p₁,p₂…p_m)，通过相关的用户维度表与UID可以产生关联。产品ID通过相应的产品维度表与具体产品相关联，产品维度表有相应的特征，如销量、价格、最近一周点击量等。用户与产品不仅可以用相应表的具体特征表示，也可以用训练出的embedding来表示用户和产品。下表的behavior表示在当前session中用户对产品的具体行为，done字段标识着当下session中用户的浏览行为是否结束，若为True，则当前session结束。

表1

SessionID

UID

t

KWD

PID

LCID

DCID

behavior

done

16

2

0

泰国

32

C79

C389

skip

False

16

2

1

泰国

88

C79

C389

skip

False

16

2

泰国

54

C79

C389

click

False

16

2

3

泰国

67

C79

C389

skip

False

16

2

4

泰国

89

C79

C389

favor

False

16

2

5

泰国

45

C79

C389

skip

True

步骤S13中，奖励函数确定与用户行为模型估计。在一个session下，按照时间顺序t，系统每次展示k个产品给一个用户，形成一个PV。通过观察该session下用户behavior的相关数据，可计算出在该PV下的奖赏值，则形成特定LCID、DCID、KWD下的状态动作对到奖励值(s,a)＝r的映射关系。当用户对展示的产品发生行为时，对用户的状态进行更新，state始终保持为用户最近有过行为的m个商品。将此过程在一个session内依次进行，每次向前滑动k个商品，进行状态动作到奖励的映射，更新状态state，更新(s,a)＝r的映射关系，直到该session字段done为True时停止，则一个session处理完毕。其中a代表系统每次展示的k个商品，可用具体的商品特征表示。当完成一次session处理时，对用户决策周期所处阶段D_i进行更新。以决策周期阶段D_i,用户定位站城市LCID，用户目的地城市DCID为键，收集到的状态动作到奖赏的映射为值，将session下收集到的数据存入历史记忆库中。对收集到的所有session依次进行操作，最终可得到历史行为库B。

在步骤S13中，当预测新的用户状态、系统所执行动作可能获得奖赏时，通过如下两个公式进行。确定当前出发站城市与目的地城市以及用户所处决策周期的阶段，获得与之相关的状态动作对，计算要预测的状态动作对与历史行为库中的相似性，对奖赏进行加权平均获得该状态行为下的奖赏值。

Similarity(n_t,h_i)＝α*dist(s_t,s_i)+(1-α)*dist(a_t,a_i)

其中n_t为要当下时刻的行为和状态，h_i为与n_t处于相同出发站城市、目的地城市、决策周期阶段所有历史行为状态，dist是一个计算距离的函数，α是一个调节因子。通过计算当前状态与历史状态、当前动作与历史动作的相似性进行加权平均，可获得当下状态行为与历史行为的相似性，通过对属于同一决策周期、同一出发地目的地的所有历史行为进行比较，则可模拟出用户获得的奖励值。

模拟环境对用户行为的估计主要是基于所有session的历史数据。用户在搜索过程中，不是静态的个体。他对当前搜索引擎推荐商品的行为主要与用户所处决策周期阶段、用户过去行为以及当前引擎具体推荐的商品有关。用户对推荐商品的行为B_i可以形式化为一个监督学习问题，通过训练一个输入为用户状态、决策周期阶段、推荐商品，输出为用户行为的多分类模型，可以估计出用户的行为模型

用户行为B_i可以有m种，对于训练好的行为模型

可以估计出用户在当下决策周期与状态动作下产生的行为概率，每次选出对当前商品行为概率最大的一个行为作为模拟环境对用户当前产品行为的模拟。比如，通过

函数估计出用户对当前商品点击、收藏、跳过、下单的行为分别为0.1，0.06，0.8，0.04，则模拟环境平台估计本次用户对当前商品的行为是跳过。通过用户行为的反馈，agent观察的状态s会得到更新。

旅游场景强化学习模拟环境的使用主要是以如下过程进行。

1)Reset模块。Reset模块被调用时会产生虚拟用户，虚拟用户包含出发站和目的地城市，以及用户所处决策周期阶段，以此来开始用户与系统的交互过程。通过建立一个抽样函数来产生和真实平台相似的用户。当该模块被调用时，模拟器初始化一个随机的用户，产生该用户的状态state，以及该用户所处的决策周期，同时模拟环境产生与之有关的多个待排序的商品列表。

2)Step模块。Step模块在用户与推荐智能体每一次的交互过程中发挥作用。模拟环境相关使用者设置自己的强化学习模型，当调用此模块时，agent执行动作，即将候选物品中的k个商品展示给用户，给出推荐的列表，模拟环境同时会返回以下几个方面的值：

--Observation：用户在该状态下对智能体的推荐发生具体行为；

--Reward：智能体在当下推荐中获得的奖励；

--Done：是否结束，标志着用户是否结束了此次session，若是则智能体不再与之交互。

agent通过获得的奖赏值更新自己的模型，使用该模拟环境的用户可以通过一系列步骤在此平台上训练自己的模型，来达到最优的搜索推荐策略。

实施例2

本实施例提供一种旅游场景强化学习模拟环境构建系统。参照图3，包括抽取单元101、划分单元102、估计单元103、输出单元104。

抽取单元用于抽取用户对旅游产品的历史行为数据；

划分单元用于对历史行为数据进行session划分；

估计单元用户进行奖励函数确定和用户行为模型估计；

输出单元用于输出模拟环境。

本实施例的旅游场景强化学习模拟环境构建系统，利用预先收集到的用户在旅游场景下的行为数据，对用户在不同状态下的行为进行建模，最终可以获得旅游场景下强化学习的模拟环境。强化学习中智能体与环境的交互过程，智能体观察环境，采取动作，获得奖赏与新一轮环境的观察。用户在选择旅游产品完整的决策过程可以视为强化学习的过程，其中智能体为搜索引擎，环境为用户，agent与用户产生多轮交互。强化学习框架旨在寻找一种策略π^*，使得它在任意状态s和任意时间步骤t下，都能够获得最大的长期累计奖赏，如下式所述：

具体实施时，用户在浏览旅游产品、点击旅游产品、下单旅游产品的多轮交互中，可以建模为马尔科夫决策过程。其中系统的搜索引擎可以看作智能体(agent)，用户可以看作环境(environment)，智能体感知当前环境状态(state)，采取动作来获得最大的长期累计奖赏(reward)。旅游产品搜索排序场景下的马尔科夫决策过程可由以下四元组<S,A,R,T>表示，

R_t＝f(B_t，D_t)

在用户与平台的交互过程中，用户对展示给的产品可能比较感兴趣，在时间t下点击进去，查看详情页，进行收藏，也可能对当前产品没有行为，直接跳过当前产品，对下一个产品进行操作。比如，在一次PV展示中，系统一次将5个产品(p1,p2,p3,p4,p5)依次展示给用户，如用户点击了p1、p3,对p2、p4、p5没有任何操作，用户可能继续发出请求操作，进行下滑动作，系统展示给用户更多的产品，进而对系统展示的产品发生行为，也有可能结束当前搜索过程。抽取单元101根据用户与平台的交互过程中的操作，抽取用户对旅游产品的历史行为数据。

历史行为数据包括用户曝光数据、用户点击数据、用户下单数据。作为一种可选的实施方式，抽取单元101通过埋点收集用户曝光数据、用户点击数据、用户下单数据。

然后，划分单元102对历史行为数据进行预处理。数据的预处理过程主要是将收集到的数据进行session(会话)的划分，以便于使用。

在一种可选的实施方式中，进行session划分时，划分单元102将用户曝光数据、用户点击数据、用户下单数据拼接合并以形成合并数据；划分单元102按照用户ID、搜索关键词、定位站、目的地站对合并数据进行分组，形成一个连续的时间序列的行为列表，构成候选session；划分单元102判断候选session中用户对当前产品行为的时间距上一个产品的时间跨度是否大于预设阈值，若是，则将所述候选session进行切割以形成目标session，若否，则以所述候选session作为目标session。

然后，估计单元103进行奖励函数确定与用户行为模型估计。在一个session下，按照时间顺序t，系统每次展示k个产品给一个用户，形成一个PV。通过观察该session下用户behavior的相关数据，可计算出在该PV下的奖赏值，则形成特定LCID、DCID、KWD下的状态动作对到奖励值(s,a)＝r的映射关系。当用户对展示的产品发生行为时，对用户的状态进行更新，state始终保持为用户最近有过行为的m个商品。将此过程在一个session内依次进行，每次向前滑动k个商品，进行状态动作到奖励的映射，更新状态state，更新(s,a)＝r的映射关系，直到该session字段done为True时停止，则一个session处理完毕。其中a代表系统每次展示的k个商品，可用具体的商品特征表示。当完成一次session处理时，对用户决策周期所处阶段D_i进行更新。以决策周期阶段D_i,用户定位站城市LCID，用户目的地城市DCID为键，收集到的状态动作到奖赏的映射为值，将session下收集到的数据存入历史记忆库中。对收集到的所有session依次进行操作，最终可得到历史行为库B。

当预测新的用户状态、系统所执行动作可能获得奖赏时，通过如下两个公式进行。确定当前出发站城市与目的地城市以及用户所处决策周期的阶段，获得与之相关的状态动作对，计算要预测的状态动作对与历史行为库中的相似性，对奖赏进行加权平均获得该状态行为下的奖赏值。

Similarity(n_t,h_i)＝α*dist(s_t,s_i)+(1-α)*dist(a_t,a_i)

用户行为B_i可以有m种，对于训练好的行为模型

旅游场景强化学习模拟环境的使用主要是以如下过程进行。

--Observation：用户在该状态下对智能体的推荐发生具体行为；

--Reward：智能体在当下推荐中获得的奖励；

实施例3

图4为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的旅游场景强化学习模拟环境构建方法。图4显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的旅游场景强化学习模拟环境构建方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的旅游场景强化学习模拟环境构建方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的旅游场景强化学习模拟环境构建方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种旅游场景强化学习模拟环境构建方法，其特征在于，包括以下步骤：

抽取用户对旅游产品的历史行为数据；

对所述历史行为数据进行session划分；

奖励函数确定和用户行为模型估计；

输出模拟环境。

2.如权利要求1所述的旅游场景强化学习模拟环境构建方法，其特征在于，所述历史行为数据包括用户曝光数据、用户点击数据、用户下单数据；

抽取用户对旅游产品的历史行为数据的步骤包括：

通过埋点收集所述用户曝光数据、所述用户点击数据、所述用户下单数据。

3.如权利要求2所述的旅游场景强化学习模拟环境构建方法，其特征在于，对所述历史行为数据进行session划分的步骤包括：

判断候选session中用户对当前产品行为的时间距上一个产品的时间跨度是否大于预设阈值，若是，则将所述候选session进行切割以形成目标session，若否，则以所述候选session作为目标session。

4.如权利要求3所述的旅游场景强化学习模拟环境构建方法，其特征在于，所述预设阈值为15-45分钟。

5.一种旅游场景强化学习模拟环境构建系统，其特征在于，包括抽取单元、划分单元、估计单元、输出单元；

所述抽取单元用于抽取用户对旅游产品的历史行为数据；

所述划分单元用于对所述历史行为数据进行session划分；

所述估计单元用户进行奖励函数确定和用户行为模型估计；

所述输出单元用于输出模拟环境。

6.如权利要求5所述的旅游场景强化学习模拟环境构建系统，其特征在于，所述历史行为数据包括用户曝光数据、用户点击数据、用户下单数据；

所述抽取单元还用于通过埋点收集所述用户曝光数据、所述用户点击数据、所述用户下单数据。

7.如权利要求6所述的旅游场景强化学习模拟环境构建系统，其特征在于，所述划分单元还用于将用户曝光数据、用户点击数据、用户下单数据拼接合并以形成合并数据；

所述划分单元还用于按照用户ID、搜索关键词、定位站、目的地站对合并数据进行分组，形成一个连续的时间序列的行为列表，构成候选session；

所述划分单元还用于判断候选session中用户对当前产品行为的时间距上一个产品的时间跨度是否大于预设阈值，若是，则将所述候选session进行切割以形成目标session，若否，则以所述候选session作为目标session。

8.如权利要求7所述的旅游场景强化学习模拟环境构建系统，其特征在于，所述预设阈值为15-45分钟。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的旅游场景强化学习模拟环境构建方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的旅游场景强化学习模拟环境构建方法的步骤。