CN115953187A

CN115953187A - 基于强化学习的舱位控制和超售方法、装置及电子设备

Info

Publication number: CN115953187A
Application number: CN202310229215.XA
Authority: CN
Inventors: 张筱; 吴发国; 陈天元; 姚望
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-04-11
Anticipated expiration: 2043-03-10
Also published as: CN115953187B

Abstract

本申请是关于一种基于强化学习的舱位控制和超售方法、装置及电子设备。该方法包括：获取航空市场动力学仿真模型，航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测任一航线对应的第二状态信息和预测收益信息；根据航空市场动力学仿真模型和价值函数，确定时空动态图，时空动态图包括多个节点、多个连接线以及每个连接线对应的权值，每个连接线由初始节点指向目标节点，初始节点是指航线中的出发地，目标节点是指航线中的目的地；调用舱位控制策略模型，基于时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作。该方法实现了灵活高效、时空动态自适应的航班舱位控制和超售。

Description

基于强化学习的舱位控制和超售方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于强化学习的舱位控制和超售方法、装置和电子设备。

背景技术

舱位控制和超售对于民用航空运输来说具有十分重要的地位，通过拒接购票请求或者接受购票请求，来达到舱位控制或者超售的目的。对于日常大规模舱位控制和超售，合理高效的舱位控制和超售策略能大量节省包括空座损失和拒载损失等成本。而对于包括自然灾害在内的紧急情况，反应快速灵活的舱位控制和超售在进行迅速止损方面都十分关键。

发明内容

为克服相关技术中存在的问题，本申请提供一种基于强化学习的舱位控制和超售方法、装置及电子设备。

根据本申请实施例的第一方面，提供一种基于强化学习的舱位控制和超售方法，应用于电子设备，所述方法包括：

获取航空市场动力学仿真模型，所述航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测所述任一航线对应的第二状态信息和预测收益信息；

根据所述航空市场动力学仿真模型和价值函数，确定时空动态图，所述时空动态图包括多个节点、多个连接线以及每个连接线对应的权值，每个连接线由初始节点指向目标节点，所述初始节点是指航线中的出发地，所述目标节点是指航线中的目的地；

调用舱位控制策略模型，基于所述时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作，所述目标动作包括接受购票请求和拒绝购票请求中的任一种，所述舱位控制策略模型用于预测针对购票请求执行的动作。

在一些实施例中，所述第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息，所述动作信息是指在所述第一状态信息的基础上针对购票请求执行的第一动作，所述第一动作包括接受购票请求和拒绝购票请求中的任一种，所述第二状态信息是指在针对所述购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息，所述预测收益信息是指针对所述购票请求执行动作后所带来的收益。

在一些实施例中，所述航空市场动力学仿真模型包括训练得到的模型参数以及预设超参数，所述预设超参数包括客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力中的至少一种。

在一些实施例中，所述根据所述航空市场动力学仿真模型和价值函数，确定时空动态图，包括：

获取初始航线图，所述初始航线图包括多个节点以及多个连接线；

基于时序差分算法，以收益度量作为奖励函数，以风险信息作为惩罚项，确定每个所述节点对应的状态价值函数和动作价值函数，所述状态价值函数用于描述每个所述节点的节点状态的价值，所述节点状态指示对应节点是否有对应的飞行器，所述动作价值函数用于描述对应节点执行第二动作的价值，所述第二动作是指从以对应节点为出发地的至少一个航线中选择航线，所述收益度量是指调用航空市场动力学仿真模型基于所选择的航线对应的第一状态信息和动作信息预测的收益信息；

基于所述动作价值函数和所述状态价值函数之间的差值，确定所述初始航线图中的每个所述连接线对应的权值，将添加有权值的初始航线图作为所述时空动态图。

在一些实施例中，所述基于所述状态价值函数和所述动作价值函数之间的差值，确定所述初始航线图中的每个所述连接线对应的权值，包括：

采用下述公式确定每个所述连接线对应的权值：

其中， W(i,j)表示所述初始航线图中从节点 i指向节点 j的连接线对应的权值， s _i表示节点 i的节点状态， a _ij表示选择从节点 i到节点 i的航线的动作，Q( s _i, a _ij)表示在( s _i, a _ij)时的动作价值函数， V(s_i)表示在( s _i, a _ij)时的状态价值函数， γ表示预设参数，R表示所述奖励函数。

在一些实施例中，所述获取航空市场动力学仿真模型，包括：

获取待训练的航空市场动力学仿真模型和第一训练数据集，所述第一训练数据集中包括多组训练数据，每组训练数据包括第一样本状态信息、样本动作信息、第二样本状态信息和样本收益信息；

基于所述第一训练数据集，训练所述待训练的航空市场动力学仿真模型，得到训练后的航空市场动力学仿真模型。

在一些实施例中，所述调用舱位控制策略模型，基于所述时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作之前，所述方法还包括：

获取待训练的舱位控制策略模型和第二训练数据集，所述第二训练数据集中包括样本时空动态图、样本销售进度、样本风险信息和样本价值函数；

基于Actor-Critic算法和所述第二训练数据集，训练所述待训练的舱位控制策略模型，得到训练后的舱位控制策略模型。

在一些实施例中，所述待训练的舱位控制策略模型包括策略网络和价值网络，所述基于Actor-Critic算法和所述第二训练数据集，训练所述待训练的舱位控制策略模型，包括：

基于梯度算法，采用下述公式调整所述策略网络中的参数：

其中， θ ₁和

表示所述策略网络中的参数，

为对 θ ₁调整后的参数， a _i表示选择样本时空动态图中的节点 i， s _i表示样本时空动态图中节点 i的节点状态，R表示奖励函数， V（ s _i； θ _v）表示样本价值函数， θ _v表示样本价值函数中的参数，Risk_total表示样本风险信息；

基于均方误差算法，采用下述公式调整所述价值网络中的参数：

其中， θ ₂和

表示所述价值网络中的参数，

为对 θ ₂调整后的参数。

根据本申请实施例的第二方面，提供一种基于强化学习的舱位控制和超售装置，所述装置包括：

模型获取模块，被配置为获取航空市场动力学仿真模型，所述航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测所述任一航线对应的第二状态信息和预测收益信息；

动态图获取模块，被配置为根据所述航空市场动力学仿真模型和价值函数，确定时空动态图，所述时空动态图包括多个节点、多个连接线以及每个连接线对应的权值，每个连接线由初始节点指向目标节点，所述初始节点是指航线中的出发地，所述目标节点是指航线中的目的地；

动作确定模块，被配置为调用舱位控制策略模型，基于所述时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作，所述目标动作包括接受购票请求和拒绝购票请求中的任一种，所述舱位控制策略模型用于预测针对购票请求执行的动作。

在一些实施例中，所述动态图获取模块，被配置为：

采用下述公式确定每个所述连接线对应的权值：

在一些实施例中，所述模型获取模块，被配置为：

在一些实施例中，所述装置还包括：

模型训练模块，被配置为获取待训练的舱位控制策略模型和第二训练数据集，所述第二训练数据集中包括样本时空动态图、样本销售进度、样本风险信息和样本价值函数；

所述模型训练模块，还被配置为基于Actor-Critic算法和所述第二训练数据集，训练所述待训练的舱位控制策略模型，得到训练后的舱位控制策略模型。

在一些实施例中，所述待训练的舱位控制策略模型包括策略网络和价值网络，所述所述模型训练模块，还被配置为：

基于梯度算法，采用下述公式调整所述策略网络中的参数：

其中， θ ₁和

表示所述策略网络中的参数，

其中， θ ₂和

表示所述价值网络中的参数，

为对 θ ₂调整后的参数。

根据本申请实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如本申请实施例的第一方面中任一项所述的基于强化学习的舱位控制和超售方法。

根据本申请实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本申请实施例的第一方面中任一项所述的基于强化学习的舱位控制和超售方法。

本申请实施例的第五方面，提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现如本申请实施例的第一方面中任一项所述的基于强化学习的舱位控制和超售方法。

采用本申请的上述方法，具有以下有益效果：

本申请实施例提供的基于强化学习的舱位控制和超售方法，获取航空市场动力学仿真模型，航空市场动力学仿真模型能够基于任一航线对应的第一状态信息和动作信息预测任一航线对应的第二状态信息和预测收益信息，相当于模拟了可信的、可重复仿真交互环境，然后根据航空市场动力学仿真模型和价值函数，确定时空动态图，该时空动态图给出了各个航线以及每个航线的权重，最后调用舱位控制策略模型，基于时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作，实现了灵活高效、时空动态自适应的航班舱位控制和超售，并且能够实现自动的航班舱位控制和超售的预测，降低了人工成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性的实施例示出的一种基于强化学习的舱位控制和超售方法的流程图；

图2是根据一示例性的实施例示出的另一种基于强化学习的舱位控制和超售方法的流程图；

图3是根据一示例性的实施例示出的一种Actor-Critic模型架构的示意图；

图4是根据一示例性的实施例示出的一种基于强化学习的舱位控制和超售的算法架构的示意图；

图5是根据一示例性的实施例示出的一种基于强化学习的舱位控制和超售装置的装置框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本申请将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本申请概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本申请所必须的，因此不能用于限制本申请的保护范围。

本申请实施例提供的基于强化学习的舱位控制和超售方法，由电子设备执行，该电子设备可以为终端或者服务器。

图1是根据一示例性的实施例示出的一种基于强化学习的舱位控制和超售方法的流程图，由电子设备执行，参见图1，该方法包括以下步骤：

步骤S101，获取航空市场动力学仿真模型，航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测任一航线对应的第二状态信息和预测收益信息。

本公开实施例中的航线市场动力学仿真模块是根据真实世界数据训练得到的，能够模拟航空售票过程中的情况，以便于为后续在预测是进行舱位控制还是超售时提供可重复的、比较可信的仿真交互环境。

其中，第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息，动作信息是指在第一状态信息的基础上针对购票请求执行的第一动作，第一动作包括接受购票请求和拒绝购票请求中的任一种，第二状态信息是指在针对购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息，预测收益信息是指针对购票请求执行动作后所带来的收益。

步骤S102，根据航空市场动力学仿真模型和价值函数，确定时空动态图，时空动态图包括多个节点、多个连接线以及每个连接线对应的权值，每个连接线由初始节点指向目标节点，初始节点是指航线中的出发地，目标节点是指航线中的目的地。

本公开实施例中，时空动态图是在初始航线图的基础上在增加了每个连接线对应的权重得到的。其中，初始航线图包括多个节点以及多个连接线，每个连接线由初始节点指向目标节点，该连接线指示航线，初始节点是指航线中的出发地，目标节点是指航线中的目的地。航空市场动力学仿真模型可以根据每个时刻的状态信息以及针对购票请求执行的第一动作，预测下一时刻的状态信息以及针对购票请求执行动作后所带来的收益，也就是说航空市场动力学仿真模型可以模拟航空售票过程中的情况，而价值函数可以根据航空市场动力学仿真模型可以模拟航空售票过程中的情况，估计选择某个航线时所带来的价值，而价值越高说明该航线的越重要，那么对应的连接线的权重越大，价值越低说明该航线的越不重要，那么对应的连接线的权重越小。

步骤S103，调用舱位控制策略模型，基于时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作，目标动作包括接受购票请求和拒绝购票请求中的任一种，舱位控制策略模型用于预测针对购票请求执行的动作。

本公开实施例中，舱位控制策略模型用于预测针对购票请求执行的动作，时空动态图给出了每个节点（出发地或目的地）的状态以及每个航线的重要程度，目标航线对应的当前销售进度信息给出了当前的售票情况，因此，舱位控制策略模型可以根据时空动态图和目标航线对应的当前销售进度信息，预测出对购票请求执行的目标动作。其中，目标航线是指当前请求购票的舱位所在的航线。

图2是根据一示例性的实施例示出的另一种基于强化学习的舱位控制和超售方法的流程图，由电子设备执行，参见图2，该方法包括以下步骤：

步骤S201，定义航线风险度量和收益度量，并进行参数估计。

风险度量用于衡量当前航线对舱位进行超售或空置的代价，风险度量越高进行每个舱位的超售或空置的潜在代价越高。收益度量为舱位控制策略在经过市场销售后最终得到的收益的统计量化，其中舱位控制策略是指控制针对航线进行超售或者空置的策略。风险度量和收益度量是后续训练航空市场动力学仿真模型和对舱位控制策略模型进行强化学习的关键，后续将风险度量作为惩罚项，将收益度量作为奖励函数，用于训练航空市场动力学仿真模型和对舱位控制策略模型进行强化学习。其中，进行参数估计是指基于客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力等指标对空置舱位或者超售舱位的代价进行评估。

在一些实施例中，风险度量包括超售风险度量和控制风险度量，超售风险度量用于衡量当前航线对舱位进行超售的代价，空置风险度量用于衡量当前航线对舱位进行空置的代价，超售风险度量和空置风险度量是非对称的。

在一些实施例中，将风险度量定义为：

其中，Risk₁为超售风险度量，Risk₂为空置风险度量， C为航线总运力， v为客户到来频率参数， p ₁为购票概率参数， p ₂为退票概率参数，

为拒载成本估计值，

为非自愿降舱成本估计值，

为对应两项的系数，

为空置成本估计值。

上述定义的超售风险度量和空置风险度量具有非对称的特性，即对于超过运力（存在超售情况）和小于运力（存在空置情况）的订票行为具有不同的风险量化评估。

将收益度量定义为：

其中，Rev为收益度量， R为毛利值，

分别为拒载成本、非自愿降舱成本以及空置成本。其中，

可以通过模拟实际航班运行情况估计得到的。

步骤S202，获取航空市场动力学仿真模型。

其中，航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测任一航线对应的第二状态信息和预测收益信息。

本公开实施例中的航线市场动力学仿真模块是根据真实世界数据训练得到的，能够模拟航空售票过程中的情况，以便于为后续在预测是进行舱位控制还是超售时提供可重复的、比较可信的仿真交互环境。其中，第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息，动作信息是指在第一状态信息的基础上针对购票请求执行的第一动作，第一动作包括接受购票请求和拒绝购票请求中的任一种，第二状态信息是指在针对购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息，预测收益信息是指针对购票请求执行动作后所带来的收益。

在一些实施例中，该航空市场动力学仿真模型的训练过程包括：获取待训练的航空市场动力学仿真模型和第一训练数据集，第一训练数据集中包括多组训练数据，每组训练数据包括第一样本状态信息、样本动作信息、第二样本状态信息和样本收益信息；基于第一训练数据集，训练待训练的航空市场动力学仿真模型，得到训练后的航空市场动力学仿真模型。

例如，航空市场动力学仿真模型训练过程如下：

首先，定义航空市场动力学仿真模型：

其中，

为待训练的航空市场动力学仿真模型， θ为航空市场动力学仿真模型中的模型参数， S _t为t时刻的销售进度信息以及距离航线起飞的时间信息，a_t为在t时刻的状态信息的基础上针对购票行为作出的第一动作， S _t+1为航空市场动力学仿真模型预测出的第t+1时刻的销售进度信息以及距离航线起飞的时间信息， r _t为在t时刻的状态信息的基础上针对购票行为作出第一动作后所带来的收益。

给定第一训练数据集

该第一训练数据集中包括n组训练数据，第i组训练数据中 S _i为第一样本状态信息，a_i为样本动作信息，

为第二样本状态信息， r _i为样本收益信息。其中，对于一次训练过程，( s _i, a _i)为样本输入，

为该样本输入对应的样本输出。在基于上述第一训练数据进行训练的情况下，采用随机梯度下降（SGD）算法进行回归训练航空市场动力学仿真模型。例如，采用如下损失函数进行训练：

其中，

表示损失值，

表示第i组训练数据中的样本输出，

表示航空市场动力学仿真模型在输入第i组训练数据中的样本输入时的预测输出。

在一些实施例中，基于上述航空市场动力学仿真模型的输入和输出可以看出，该航空市场动力学仿真模型需要预测收益信息，即预测收益度量，而收益度量与客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力相关。因此，该航空市场动力学仿真模型需要包括训练得到的模型参数以及预设超参数，该预设超参数包括客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力中的至少一种。

在一些实施例中，航空市场动力学仿真模型为包括两个隐藏层，且每层有256个神经元的前馈神经网络。或者，该航空市场动力学仿真模型也可以为其他的网络结构，本公开实施例对航空市场动力学仿真模型的具体网络结构不做限制。

需要说明的是，航空市场动力学仿真模型的训练过程可以由该电子设备执行，电子设备在训练完航空市场动力学仿真模型后，将训练后的航空市场动力学仿真模型存储在电子设备中，在后续执行舱位控制和超售方案时，获取存储的航空市场动力学仿真模型；或者，航空市场动力学仿真模型的训练过程由其他电子设备执行，其他电子设备在训练得到航空市场动力学仿真模型后发送给该电子设备。

步骤S203，采用时序差分算法，根据航空市场动力学仿真模型和价值函数，确定初始航线图中每个连接线的权值，得到时空航线图。

在一些实施例中，获取初始航线图；基于时序差分算法，以收益度量作为奖励函数，以风险度量作为惩罚项，确定每个节点对应的状态价值函数和动作价值函数，基于动作价值函数和状态价值函数之间的差值，确定初始航线图中的每个连接线对应的权值，将添加有权值的初始航线图作为时空动态图。其中，收益度量是指调用航空市场动力学仿真模型基于所选择的航线对应的第一状态信息和动作信息预测的收益信息，风险度量是指上述步骤S201中定义的收益度量，状态价值函数用于描述每个节点的节点状态的价值，节点状态指示对应节点是否有对应的飞行器，动作价值函数用于描述对应节点执行第二动作的价值，第二动作是指从以对应节点为出发地的至少一个航线中选择航线。

在一些实施例中，采用下述公式确定每个连接线对应的权值：

其中， W(i,j)表示初始航线图中从节点 i指向节点 j的连接线对应的权值， s _i表示节点 i的节点状态， a _ij表示选择从节点 i到节点 i的航线的动作，Q( s _i, a _ij)表示在( s _i, a _ij)时的动作价值函数， V(s_i)表示在( s _i, a _ij)时的状态价值函数， γ表示预设参数，R表示奖励函数。

在一些实施例中，时序差分算法来迭代计算价值函数如下所示：

随机初始化状态价值函数 V，s∈S

参数：步长α∈(0,1]，正整数n

repeat

初始化并存储S₀为非最终状态

步骤S204，调用舱位控制策略模型，基于时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行接受或拒绝动作中的一种。

本公开实施例中，舱位控制策略模型用于预测针对购票请求执行的动作，时空动态图给出了每个节点（出发地或目的地）的状态以及每个航线的重要程度，目标航线对应的当前销售进度信息给出了当前的售票情况，因此，舱位控制策略模型可以根据时空动态图和目标航线对应的当前销售进度信息，预测出对购票请求执行的目标动作。

在一些实施例中，该舱位控制策略模型的训练过程包括：获取待训练的舱位控制策略模型和第二训练数据集，第二训练数据集中包括样本时空动态图、样本销售进度、样本风险信息和样本价值函数；基于Actor-Critic（演员-评判家）算法和第二训练数据集，训练待训练的舱位控制策略模型，得到训练后的舱位控制策略模型。

在一些实施例中，在训练舱位控制策略模型的过程中，还需要调用航空市场动力学仿真模型给出状态转移和奖励函数，其中，状态转移是指在基于当前时刻的状态信息预测出的下一时刻的状态信息，以及产生的收益信息，该收益信息也可称为奖励函数。

在一些实施例中，待训练的舱位控制策略模型包括策略网络和价值网络，策略网络用于预测针对购票请求执行接受动作还是拒绝动作，价值网络用于预测执行每种动作时所带来的回报，也可以说是所带来的收益。

基于梯度算法，采用下述公式调整策略网络中的参数：

其中， θ ₁和

表示策略网络中的参数，

为对 θ ₁调整后的参数， a _i表示选择样本时空动态图中的节点 i， s _i表示样本时空动态图中节点 i的节点状态，R表示奖励函数， V（ s _i； θ _v）表示样本价值函数， θ _v表示样本价值函数中的参数，Risk_total表示样本风险信息。其中， V（ s _i； θ _v）表示时空动态图中节点 i的优先级，Risk_total是指上述步骤S201中定义的风险度量，即Risk_total= Risk ₁+ Risk ₂。

基于均方误差算法，采用下述公式调整价值网络中的参数：

其中， θ ₂和

表示价值网络中的参数，

为对 θ ₂调整后的参数。

需要说明的是，上述公式表示基于一个样本数据所积累的梯度，将全部样本数据所累积的梯度累相加求平均即可得到用于参数更新的总梯度。

在一些实施例中，舱位控制策略模型每执行一次预测带来的回报R如下：

其中，r_i为当前执行此次预测的动作后带来的回报，右侧的 R为之前预测带来的回报总和，左侧的 R此次预测之后的回报总和， γ为预设参数。

这种确定带来的回报的方式能够避免反复收集和计算整个飞行过程的蒙特卡洛回报，适用于非回合制学习。

在一些实施例中，Actor-Critic模型（舱位控制策略模型）架构的示意图如图3所示，该舱位控制策略模型包括策略网络、价值网络和图自编码器（Graph Auto Encoder，GAE）。首先将当前销售进度信息和时空动态图作为输入信息，分别输入至策略网络和价值网络，然后价值网络基于输入信息对策略网络进行一个初步评估，得到初步评估结果，图自编码器基于该初步评估结果和给定的奖励（回报）确定一个时间差分值，策略网络基于输入信息进行初步预测结果，并根据时间差分值以及初步预测结果，得到策略网络的输出结果。其中，该初步预测结果可以采用对数概率表示，策略网络的输出结果可以采用MSE（MeanSquared Error）表示。此外，根据价值网络输出的初步评估结果和给定奖励还可以确定策略模型此次预测之后的奖励。

本公开实施例中，由于舱位控制策略模型确定每执行一次预测带来的回报，在接受购票请求所带来的回报大于拒绝购票请求所带来的回报的情况下，舱位控制策略模型预测需要对购票请求执行接受动作，在拒绝购票请求所带来的回报大于接受购票请求所带来的回报的情况下，舱位控制策略模型预测需要对购票请求执行拒绝动作。通过预测对购票请求执行接受或拒绝动作，可以实现对舱位超售或空置的控制。

本公开实施例提供的基于强化学习的舱位控制和超售的算法架构如图4所示。首先，定义风险度量和收益度量，并进行参数估计；然后获取航空市场动力学仿真模型，基于时序差分算法学习价值函数，并获取初始航线图，然后基于价值函数确定初始航线图中每个连接线的权值，从而确定时空动态图，最后基于航空市场动力学仿真模型和时空动态图，学习Actor-Critic模型，基于学习到的Actor-Critic模型实现舱位控制和超售的预测。

图5是根据一示例性的实施例示出的一种基于强化学习的舱位控制和超售装置的装置框图，参见图5，该装置包括：

模型获取模块501，被配置为获取航空市场动力学仿真模型，航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测任一航线对应的第二状态信息和预测收益信息；

动态图获取模块502，被配置为根据航空市场动力学仿真模型和价值函数，确定时空动态图，时空动态图包括多个节点、多个连接线以及每个连接线对应的权值，每个连接线由初始节点指向目标节点，初始节点是指航线中的出发地，目标节点是指航线中的目的地；

动作确定模块503，被配置为调用舱位控制策略模型，基于时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作，目标动作包括接受购票请求和拒绝购票请求中的任一种，舱位控制策略模型用于预测针对购票请求执行的动作。

本申请实施例提供的基于强化学习的舱位控制和超售装置，获取航空市场动力学仿真模型，航空市场动力学仿真模型能够基于任一航线对应的第一状态信息和动作信息预测任一航线对应的第二状态信息和预测收益信息，相当于模拟了可信的、可重复仿真交互环境，然后根据航空市场动力学仿真模型和价值函数，确定时空动态图，该时空动态图给出了各个航线以及每个航线的权重，最后调用舱位控制策略模型，基于时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作，实现了灵活高效、时空动态自适应的航班舱位控制和超售，并且能够实现自动的航班舱位控制和超售的预测，降低了人工成本。

在一些实施例中，第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息，动作信息是指在第一状态信息的基础上针对购票请求执行的第一动作，第一动作包括接受购票请求和拒绝购票请求中的任一种，第二状态信息是指在针对购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息，预测收益信息是指针对购票请求执行动作后所带来的收益。

在一些实施例中，航空市场动力学仿真模型包括训练得到的模型参数以及预设超参数，预设超参数包括客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力中的至少一种。

在一些实施例中，动态图获取模块502，被配置为：

获取初始航线图，初始航线图包括多个节点以及多个连接线；

基于时序差分算法，以收益度量作为奖励函数，以风险信息作为惩罚项，确定每个节点对应的状态价值函数和动作价值函数，状态价值函数用于描述每个节点的节点状态的价值，节点状态指示对应节点是否有对应的飞行器，动作价值函数用于描述对应节点执行第二动作的价值，第二动作是指从以对应节点为出发地的至少一个航线中选择航线，收益度量是指调用航空市场动力学仿真模型基于所选择的航线对应的第一状态信息和动作信息预测的收益信息；

基于动作价值函数和状态价值函数之间的差值，确定初始航线图中的每个连接线对应的权值，将添加有权值的初始航线图作为时空动态图。

在一些实施例中，动态图获取模块502，被配置为：

采用下述公式确定每个连接线对应的权值：

在一些实施例中，模型获取模块501，被配置为：

获取待训练的航空市场动力学仿真模型和第一训练数据集，第一训练数据集中包括多组训练数据，每组训练数据包括第一样本状态信息、样本动作信息、第二样本状态信息和样本收益信息；

基于第一训练数据集，训练待训练的航空市场动力学仿真模型，得到训练后的航空市场动力学仿真模型。

在一些实施例中，装置还包括：

模型训练模块，被配置为获取待训练的舱位控制策略模型和第二训练数据集，第二训练数据集中包括样本时空动态图、样本销售进度、样本风险信息和样本价值函数；

模型训练模块，还被配置为基于Actor-Critic算法和第二训练数据集，训练待训练的舱位控制策略模型，得到训练后的舱位控制策略模型。

在一些实施例中，待训练的舱位控制策略模型包括策略网络和价值网络，模型训练模块，还被配置为：

基于梯度算法，采用下述公式调整策略网络中的参数：

其中， θ ₁和

表示策略网络中的参数，

为对 θ ₁调整后的参数， a _i表示选择样本时空动态图中的节点 i， s _i表示样本时空动态图中节点 i的节点状态， R表示奖励函数， V（ s _i； θ _v）表示样本价值函数， θ _v表示样本价值函数中的参数，Risk_total表示样本风险信息；

基于均方误差算法，采用下述公式调整价值网络中的参数：

其中， θ ₂和

表示价值网络中的参数，

为对 θ ₂调整后的参数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行上述实施例中的基于强化学习的舱位控制和超售方法。

本申请实施例还提供了一种非临时性计算机可读存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中的基于强化学习的舱位控制和超售方法。

应清楚地理解，本申请描述了如何形成和使用特定示例，但本申请不限于这些示例的任何细节。相反，基于本申请公开的内容的教导，这些原理能够应用于许多其它实施例。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本申请提供的上述方法所限定的上述功能的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、或者网络设备等）执行根据本申请实施方式的上述方法。

软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于强化学习的舱位控制和超售方法，其特征在于，应用于电子设备，所述方法包括：

2.根据权利要求1所述的基于强化学习的舱位控制和超售方法，其特征在于，

所述第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息，所述动作信息是指在所述第一状态信息的基础上针对购票请求执行的第一动作，所述第一动作包括接受购票请求和拒绝购票请求中的任一种，所述第二状态信息是指在针对所述购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息，所述预测收益信息是指针对所述购票请求执行动作后所带来的收益。

3.根据权利要求1所述的基于强化学习的舱位控制和超售方法，其特征在于，

所述航空市场动力学仿真模型包括训练得到的模型参数以及预设超参数，所述预设超参数包括客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力中的至少一种。

4.根据权利要求1所述的基于强化学习的舱位控制和超售方法，其特征在于，所述根据所述航空市场动力学仿真模型和价值函数，确定时空动态图，包括：

基于时序差分算法，以收益度量作为奖励函数，以风险度量作为惩罚项，确定每个所述节点对应的状态价值函数和动作价值函数；其中，所述状态价值函数用于描述每个所述节点的节点状态的价值，所述节点状态指示对应节点是否有对应的飞行器，所述动作价值函数用于描述对应节点执行第二动作的价值，所述第二动作是指从以对应节点为出发地的至少一个航线中选择航线，所述收益度量是指调用航空市场动力学仿真模型基于所选择的航线对应的第一状态信息和动作信息预测的收益信息；

5.根据权利要求4所述的基于强化学习的舱位控制和超售方法，其特征在于，所述基于所述状态价值函数和所述动作价值函数之间的差值，确定所述初始航线图中的每个所述连接线对应的权值，包括：

采用下述公式确定每个所述连接线对应的权值：

其中，W(i,j)表示所述初始航线图中从节点i指向节点j的连接线对应的权值，s _i表示节点i的节点状态，a _ij表示选择从节点i到节点i的航线的动作，Q(s _i,a _ij)表示在(s _i,a _ij)时的动作价值函数，V(s _i)表示在(s _i,a _ij)时的状态价值函数，γ表示预设参数，R表示所述奖励函数。

6.根据权利要求1所述的基于强化学习的舱位控制和超售方法，其特征在于，所述获取航空市场动力学仿真模型，包括：

7.根据权利要求1所述的基于强化学习的舱位控制和超售方法，其特征在于，所述调用舱位控制策略模型，基于所述时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作之前，所述方法还包括：

8.根据权利要求7所述的基于强化学习的舱位控制和超售方法，其特征在于，所述待训练的舱位控制策略模型包括策略网络和价值网络，所述基于Actor-Critic算法和所述第二训练数据集，训练所述待训练的舱位控制策略模型，包括：

基于梯度算法，采用下述公式调整所述策略网络中的参数：