CN112580801A

CN112580801A - 一种强化学习训练方法及基于强化学习的决策方法

Info

Publication number: CN112580801A
Application number: CN202011451511.7A
Authority: CN
Inventors: 刘震; 王闯; 周兴; 李华
Original assignee: Guangzhou Youce Technology Co ltd
Current assignee: Guangzhou Youce Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-30
Anticipated expiration: 2040-12-09
Also published as: CN112580801B

Abstract

本发明提供一种强化学习训练方法及基于强化学习的决策方法，其中，强化学习模型训练方法，包括如下步骤：获取多组历史状态数据；将每一组历史状态数据输入至强化学习模型，得到初步决策数据；将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，所述状态量变化值为当前状态数据与下一状态数据的差值；根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。通过实施本发明，能够增加强化学习模型训练样本量，提高强化学习效果，提高动态决策规划结果的准确性。

Description

一种强化学习训练方法及基于强化学习的决策方法

技术领域

本发明涉及机器学习领域，具体涉及一种强化学习训练方法及基于强化学习的决策方法。

背景技术

目前，强化学习是对多个应用场景进行动态决策规划的一种有效方式，它注重主体在一个环境中应该如何进行行动从而达到最大化累积奖励。强化学习应用场景一般包括交通、金融、能源、商业管理等多个领域，如对航班舱位管理，通过基于航班的多个状态数据(如剩余舱位数、舱位销售量等)使用强化学习对航班舱位进行控制管理。

相关技术中，对模型进行强化学习时，需要大量的状态数据以便于对强化学习模型进行训练，而实际上，一般用于模型训练的真实状态数据是基于真实场景中执行固定决策得到的，表征状态的数据量有限，导致强化学习模型训练样本不足，使得模型的强化学习效果不佳，导致动态决策规划结果不准确。

发明内容

有鉴于此，本发明实施例提供了一种强化学习训练方法及基于强化学习的决策方法，以解决现有技术中动态决策规划结果不准确的缺陷。

根据第一方面，本发明实施例提供一种强化学习模型训练方法，包括如下步骤：获取多组历史状态数据；将每一组历史状态数据输入至强化学习模型，得到初步决策数据；将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，所述状态量变化值为当前状态数据与下一状态数据的差值；根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。

可选地，根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数，包括：将所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值组成数据集，得到多个数据集；根据预设比例，将所述多个数据集以及多组历史数据输入至强化学习模型，更新所述强化学习模型参数，所述历史数据包括相邻状态数据以及对应的决策数据。

根据第二方面，本发明实施例提供一种基于强化学习的决策方法，包括如下步骤：获取任一应用场景的当前状态数据；将所述当前状态数据输入至第一方面或第一方面任一实施方式所述的强化学习训练方法训练得到的强化学习模型，得到决策数据。

根据第三方面，本发明实施例提供一种基于强化学习的航空开舱决策方法，包括如下步骤：获取当前状态数据，所述当前状态数据包括多个平行航班的销售量、剩余座位量、多个平行航班距离起飞的时间以及多个舱价位数据；将所述当前状态数据输入至如第一方面或第一方面任一实施方式所述的强化学习训练方法训练得到的强化学习模型，得到决策数据，所述决策数据包括多个平行航班的开舱情况数据。

可选地，将所述当前状态数据输入至如第一方面或第一方面任一实施方式所述方法还包括：将通过所述强化学习模型得到的决策数据输入至所述预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值；根据所述每一组当前状态数据以及对应的决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。

根据第四方面，本发明实施例提供一种强化学习模型训练装置，包括：历史数据获取模块，用于获取多组历史状态数据；初步决策确定模块，用于将每一组历史状态数据输入至强化学习模型，得到初步决策数据；贝叶斯神经网络模块，用于将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，所述状态量变化值为当前状态数据与下一状态数据的差值；参数更新模块，用于根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。

根据第五方面，本发明实施例提供一种基于强化学习的决策装置，包括：当前状态数据获取模块，用于获取任一应用场景的当前状态数据；决策数据确定模块，用于将所述当前状态数据输入至如第一方面或第一方面任一实施方式所述的强化学习训练方法训练得到的强化学习模型，得到决策数据。

根据第六方面，本发明实施例提供一种基于强化学习的航空开舱决策装置，包括：航空状态获取模块，用于获取当前状态数据，所述当前状态数据包括多个平行航班的销售量、剩余座位量、多个平行航班距离起飞的时间以及多个舱价位数据；舱位决策模块，用于将所述当前状态数据输入至如第一方面或第一方面任一实施方式所述的强化学习训练方法训练得到的强化学习模型，得到决策数据，所述决策数据包括多个平行航班的开舱情况数据。

根据第七方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面或第一方面任一实施方式所述的强化学习模型训练方法以及第二方面或第二方面任一实施方式所述的基于强化学习的决策方法以及第三方面或第三方面任一实施方式所述的基于强化学习的航空开舱决策方法的步骤。

根据第八方面，本发明实施例提供一种存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面或第一方面任一实施方式所述的强化学习模型训练方法以及第二方面或第二方面任一实施方式所述的基于强化学习的决策方法以及第三方面或第三方面任一实施方式所述的基于强化学习的航空开舱决策方法的步骤。

本发明技术方案，具有如下优点：

本实施例提供的强化学习模型训练方法，通过BNN贝叶斯神经网络推断求出的是神经网络参数的分布，可以有效的解决过拟合的问题，使得在数据中出现的决策不多的情况下依然可以学到执行所有策略的状态数据；并且贝叶斯神经网络学习的是状态的变化量而不是整个输入状态到输出下一个状态的完整映射，因此贝叶斯神经网络可以通过很少的数据构建出效果较好的虚拟环境，强化学习模型可以在由贝叶斯神经网络构建的虚拟环境中进行学习，比如，贝叶斯神经网络可以根据强化学习模型的输入(历史状态数据)以及输出(初步决策数据)，得到状态变化量以及奖励值，以供强化学习模型进行参数更新，也即针对任意一个历史状态数据，由于强化学习模型在不同学习阶段给出的初步决策数据不同，那么针对贝叶斯神经网络得到的状态变化量以及奖励值也会不同，因此，能够得到更多表征状态的数据量，增加了强化学习模型训练样本量，提高了强化学习效果，提高了动态决策规划结果的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中强化学习模型训练方法的一个具体示例的流程图；

图2为本发明实施例中基于强化学习的决策方法的一个具体示例的流程图；

图3为本发明实施例中基于强化学习的航空开舱决策方法的一个具体示例的流程图；

图4为本发明实施例中基于强化学习的航空开舱决策方法的一个示例图；

图5为本发明实施例中基于强化学习的航空开舱决策方法的一个示例图；

图6为本发明实施例中基于强化学习的航空开舱决策方法的一个示例图；

图7为本发明实施例中强化学习模型训练装置的一个具体示例原理框图；

图8为本发明实施例中基于强化学习的决策装置的一个具体示例原理框图；

图9为本发明实施例中基于强化学习的航空开舱决策装置的一个具体示例原理框图；

图10为本发明实施例中电子设备的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种强化学习模型训练方法，如图1所示，包括如下步骤：

S101，获取多组历史状态数据；

示例性地，对于不同的领域，其历史状态数据不同，比如，对于自动驾驶领域，其一组历史状态数据可以包括某一时刻车辆所处位置以及周围环境信息，对于平行航班进行舱位开放控制，其一组历史状态数据可以包括某个时刻各个平行航班的各个舱位销量、剩余座位数量、价位以及距离起飞的时间。获取多组历史状态数据的方式可以是从预先存储历史数据的数据库中获取，本实施例对历史状态数据以及其获取方式不做限定，本领域技术人员可以根据需要确定。

S102，将每一组历史状态数据输入至强化学习模型，得到初步决策数据；

示例性地，强化学习模型可以是通过SAC算法构建而成，以对平行航班进行舱位开放控制为例，那么强化学习模型可以是将A1、A2两个平行航班设定为一个智能体，其策略网络为原A神经网络和目标A’神经网络，均采用两个隐藏层，每个隐藏层64个神经元的高斯神经网络结构，采用Adam优化算法；估值网络为原Q神经网络和目标Q’神经网络，两个神经网络结构相同，均采用三个隐藏层，每个隐藏层128个神经元的全连接神经网络结构，采用Adam优化算法；智能体通过历史状态数据，决策出处于某一时间点的开舱动作，将该开舱动作作为初步决策数据。在该强化学习模型中可以设置优化目标，使强化学习模型向优化目标学习，从而得到满足优化目标要求的决策数据，比如在平行航班动态博弈中使A1航班收益最大。具体训练过程中的参数可以设置为训练总回合数1000回、回合最大长度500、采样间隔freq＝10等。

S103，将每一组历史状态数据和初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，状态量变化值为当前状态数据与下一状态数据的差值；

示例性地，预先建立的贝叶斯神经网络模型可以是由历史数据训练而成，比如，以对平行航班进行舱位开放控制为例，通过获取平行航班真实的销售历史数据，将历史数据保存为如下表1的格式：

表1

其中，当优化目标是在平行航班动态博弈中使A1航班收益最大，那么奖励函数可以设置为当A1航班卖出票时奖励值为一个正值，反之当A2航班卖出票时奖励值为负值，奖励函数可以根据实际目标自行设定，例如奖励函数可以由卖出票的等效价格+上座率等效指标值+当前时间单元等效权重构成。

在训练时，可以将销售历史数据的状态数据和开舱策略作为BNN贝叶斯神经网络的输入，将状态变化量和奖励值作为BNN贝叶斯神经网络的输出，迭代训练BNN贝叶斯神经网络，其中状态变化量表示下一状态数据与上一状态数据的差值，此设计直接影响贝叶斯训练需要的数据量及效果，因为如果输出的是下一状态数据，相当于贝叶斯训练学习的是从一个状态到另一个状态的完整映射，需要的数据量要远大于去训练学习状态变化量。通过用少量的历史数据可以训练得到贝叶斯神经网络，根据贝叶斯神经网络为整个平行航班环境进行虚拟环境构建，从而为强化学习模型提供更多可学习的训练数据。

S104，根据每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新强化学习模型的模型参数。

示例性地，根据状态变化量以及每一组历史状态数据，得到下一状态数据，在得到下一状态数据的同时，需要判断当前销售是否已经结束。将每一组历史状态数据中上一状态数据、初步决策数据、状态变化量、下一状态数据、奖励值以及结束标识形成一条数据集，从而得到多条数据集。将多条数据集输入至强化学习模型，对强化学习模型进行训练以及神经网络参数更新。

作为本实施例一种可选的实施方式，根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数，包括：将每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值组成数据集，得到多个数据集；根据预设比例，将多个数据集以及多组历史数据输入至强化学习模型，更新强化学习模型参数，历史数据包括相邻状态数据以及对应的决策数据。

示例性地，根据状态变化量以及每一组历史状态数据，得到下一状态数据，在得到下一状态数据的同时，需要判断当前销售是否已经结束。将每一组历史状态数据对应的上一状态数据、初步决策数据、状态变化量、下一状态数据、奖励值以及结束标识形成一条数据集，从而得到多条数据集。并根据预设比例，选取存储的如表1的历史数据，共同输入至强化学习模型，对强化学习模型进行训练以及神经网络参数更新。预设比例可以是1:5,本实施例对预设比例大小不做限定，本领域技术人员可以根据需要确定。

本实施例提供的强化学习模型训练方法，本实施例将真实的历史数据和由贝叶斯神经网络得到的数据共同训练强化学习模型，在进一步保证训练样本数量的基础上，使得强化学习模型训练不脱离实际，同时真实的历史数据和由贝叶斯神经网络产生的数据的数据分布不会完全相同，多样式的数据可以提高强化学习模型的泛化性，使得算法鲁棒性更强。

本发明实施例提供一种基于强化学习的决策方法，如图2所示，包括如下步骤：

S201,获取任一应用场景的当前状态数据。

示例性地，任一应用场景可以是自动驾驶场景也可以是平行航班舱位开放控制场景。当应用场景为自动驾驶场景，那么当前状态数据可以是当前时刻车辆位置以及周围环境情况，其获取方式可以是通过传感器/摄像头获取，当应用场景为平行航班舱位开放控制场景，那么当前状态数据可以是当前各个平行航班的销售量、剩余位置、距离起飞的时间以及各个舱位的价位等等，其获取方式可以是从航班销售系统中获取。本实施例对应用场景以及获取数据的方式不做限定，本领域技术人员可以根据需要确定。

S202,将当前状态数据输入至如上述实施例中强化学习训练方法训练得到的强化学习模型，得到决策数据。

示例性地，本实施例中的强化学习模型为已根据上述强化学习训练方法完成线下训练的模型。在线上正式使用时，可以直接通过输入当前状态数据得到较为准确的决策数据。当应用场景为平行航班舱位开放控制场景，根据上述实施例中的强化学习方法已经线下训练好了强化学习模型，当用于线上进行决策时，只需输入当前状态数据，即可得到满足优化目标的决策数据，比如，当强化学习模型的优化目标是在平行航班动态博弈中使A1航班收益最大，那么决策数据则会指导用户如何开舱能够使得A1航班收益最大。

本实施例提供的基于强化学习的决策方法，将当前状态数据输入至如上述实施例中强化学习训练方法训练得到的强化学习模型，也即在强化学习模型的实际使用过程中，调用的强化学习模型为在线下预先训练好的模型，使得模型在真实使用的初期就有一个较好的效果，并且通过上述实施例中强化学习训练方法训练得到的强化学习模型由于其训练过程中采用了大量的训练样本，其学习效果好，提高了决策的准确性。

作为本实施例一种可选的实施方式，所述方法，还包括：将通过所述强化学习模型得到的决策数据输入至所述预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值；根据每一组当前状态数据以及对应的决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。

示例性地，本实施例在得到决策数据之后，还将得到的决策数据作为强化学习的训练数据，使得强化学习模型借鉴MPC架构进行线上滚动优化，不断根据市场情况加入新数据，不断更新强化学习模型中的参数，使得强化学习模型能够不断完善，不脱离实际的市场情况。

强化学习模型在线上运行的过程中用当前强化学习模型得到决策数据，并执行决策数据，得到真实数据。还可以将决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，状态量变化值为当前状态数据与下一状态数据的差值并存储；隔一段时间按照一定比例将每一组当前状态数据以及对应的决策数据、状态变化量以及奖励值以及执行决策数据之后的真实决策结果数据输入至强化学习模型，用于更新强化学习的模型参数。其滚动优化的过程如上述实施例强化学习模型训练方法一致，在此不再赘述。

本发明实施例提供一种基于强化学习的航空开舱决策方法，如图3所示，包括如下步骤：

S301，获取当前状态数据，当前状态数据包括多个平行航班的销售量、剩余座位量、多个平行航班距离起飞的时间以及多个舱价位数据；

示例性地，本实施例可以以在A1、A2两个平行航班动态博弈中使A1航班收益最大为优化目标。具体内容参见上述实施例中对应部分，在此不再赘述。

S302，将当前状态数据输入至如上述实施例中的强化学习训练方法训练得到的强化学习模型，得到决策数据，决策数据包括多个平行航班的开舱情况数据。具体参见上述实施例对应部分，在此不再赘述。

本实施例提供的基于强化学习的航空开舱决策方法，将当前状态数据输入至如上述实施例中强化学习训练方法训练得到的强化学习模型，也即在强化学习模型的实际使用过程中，调用的强化学习模型为在线下预先训练好的模型，使得模型在真实使用的初期就有一个较好的决策数据以符合强化学习的优化目标，比如，若本实施例中以在A1、A2两个平行航班动态博弈中使A1航班收益最大为优化目标，那么可以通过上述方法，得到使得A1航班收益最大的开舱决策数据。

作为本实施例一种可选的实施方式，方法还包括：将通过所述强化学习模型得到的决策数据输入至所述预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值；根据所述每一组当前状态数据以及对应的决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。具体参见上述实施例对应部分，在此不再赘述。

为了验证通过线下进行强化学习训练形成的强化学习模型转移到线上真实环境中进行决策的有效性，本实施例对其进行仿真验证。真实数据采用的是按照预先设定好规律的程序(当作真实环境，记为环境G)生成的数据，便于判断方法是否有效，以及判别强化学习模型是否挖掘出了数据中设定好的规律。

具体流程如下：

一、生成民航订票数据作为真实环境数据

1.数据概况：

生成距离飞机起飞前0-30天范围内的机票销售过程数据，在此销售过程中有两架航班可供旅客选择，为了简化模型，两架航班的信息由以下简化特征构成：

A1航班：

总座位数：A1_capacity＝200

舱级：A1_cabin＝['Y','H','B','M','N']，其中，'Y','H','B','M','N'可以分别表示不同舱位价格等级，比如Y表示原价，H表示九折价格，以此类推。

各舱级价格：A1_fare＝[1000,900,800,700,600]

A2航班：

总座位数：A2_capacity＝300

舱级：A2_cabin＝['Y','H','B','M','N']

各舱级价格：A2_fare＝[950,850,750,650,550]

2.需求生成：

通过二项分布及泊松分布生成旅客到达数据，航空旅客对于航班的选择遵循设定的一个规律，在销售期前半段选择两个航班舱位价格最低的航班以及舱位，在销售后半段反之选择价格高的。

3.两个航班开舱过程设定：

为了大体符合实际开舱情况，按照距离起飞时间越近开的舱级越高的规则设定函数来生成开舱数据，A1函数：y＝a*x，过点(0,0)和点(744,4)；A2函数：y＝b*x2，过点(0,0)和点(744,4)，x均在[0,744]范围内，y均在[0,4]范围内(744＝31天*24小时，[0,4]是指五个舱级对应的索引值0-4，根据A1、A2函数及均过点(0,0)和点(744,4)，可以求出a和b，那么随着销售时间x的变化就可以求出对应开舱等级的索引值y)。开舱方式为每次选择开的舱作为当前可售的最低等级舱，每次开5个舱，其余舱位放在最高等级舱，销售时按照嵌套原则，销售高等级舱可以占用低等级舱座位。

4.生成如表1的数据格式,并设置初始化的样例归一化数据，如图4所示。

其中，state为一个起始状态，action为基于当前状态民航公司的开舱策略，航空旅客选择订某个航班的机票，之后state状态会变成next_state状态，reward为自定义奖励函数得出的奖励值，奖励函数可以根据实际需要进行设定，例如可以由卖出票的等效价格+上座率等效指标值+当前时间单元等效权重构成。

对图4中归一化数据的解释以action＝[0,0,0,0,1,0,0,0,1,0]为例进行说明：action中前5位对应A1的action，后5位对应A2的action，那么A1开的为N舱；A2开的是M舱。

二.试验过程

将上述经过预先设定好规律的程序生成的数据，分别以A1航班收益最大为优化目标，对线下强化学习模型以及线上强化学习模型执行如上述实施例中强化学习模型训练方法进行训练，得到线下/线上强化学习模型，以使线下/线上强化学习模型学习其预先设定的规律。强化学习模型训练的具体过程参见上述实施例中强化学习模型训练方法部分，在此不再赘述。

三、验证结果

线下训练得到的强化学习模型在真实环境下一百次验证的准确率，如图5所示，可见在一百次验证中最高准确率为98％，最低准确率为85％，平均准确率为91％。其准确率表征在100次验证中客户选择A1航班的占比高于选择A2航班的占比的比例。

线上训练得到的强化学习模型在真实环境下一百次验证的准确率，如图6所示，可见在一百次验证中最高准确率为99％，最低准确率为85％，平均准确率为91％。

通过不断调整模型参数及扩大数据集准确率还能进一步提高，可以认为强化学习模型在线下根据BNN贝叶斯神经网络构建出虚拟环境学习到的策略在真实环境中有效并且是按照奖励函数设定的规则使累积奖励值最大化，即收益最大化，实现收益管理。

本发明实施例提供一种强化学习模型训练装置，如图7所示，包括：

历史数据获取模块401，用于获取多组历史状态数据；具体内容参见上述实施例中对应部分，在此不再赘述。

初步决策确定模块402，用于将每一组历史状态数据输入至强化学习模型，得到初步决策数据；具体内容参见上述实施例中对应部分，在此不再赘述。

贝叶斯神经网络模块403，用于将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，所述状态量变化值为当前状态数据与下一状态数据的差值；具体内容参见上述实施例中对应部分，在此不再赘述。

参数更新模块404，用于根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。具体内容参见上述实施例中对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，参数更新模块404，包括：

多数据集存储模块，用于将所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值组成数据集，得到多个数据集；具体内容参见上述实施例中对应部分，在此不再赘述。

更新子模块，用于根据预设比例，将所述多个数据集以及多组历史数据输入至强化学习模型，更新所述强化学习模型参数，所述历史数据包括相邻状态数据以及对应的决策数据。具体内容参见上述实施例中对应部分，在此不再赘述。

本发明实施例提供一种基于强化学习的决策装置，如图8所示，包括：

当前状态数据获取模块501，用于获取任一应用场景的当前状态数据；具体内容参见上述实施例中对应部分，在此不再赘述。

决策数据确定模块502，用于将所述当前状态数据输入至如上述实施例所述的强化学习训练方法训练得到的强化学习模型，得到决策数据。具体内容参见上述实施例中对应部分，在此不再赘述。

本发明实施例提供一种基于强化学习的航空开舱决策装置，如图9所示，包括：

航空状态获取模块601，用于获取当前状态数据，所述当前状态数据包括多个平行航班的销售量、剩余座位量、多个平行航班距离起飞的时间以及多个舱价位数据；具体内容参见上述实施例中对应部分，在此不再赘述。

舱位决策模块602，用于将所述当前状态数据输入至如上述实施例所述的强化学习训练方法训练得到的强化学习模型，得到决策数据，所述决策数据包括多个平行航班的开舱情况数据。具体内容参见上述实施例中对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，基于强化学习的决策装置/基于强化学习的航空开舱决策装置还包括，还包括：

中间数据确定模块，用于将通过所述强化学习模型得到的决策数据输入至所述预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值；具体内容参见上述实施例中对应部分，在此不再赘述。

更新模块，用于根据所述每一组当前状态数据以及对应的决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。具体内容参见上述实施例中对应部分，在此不再赘述。

本申请实施例还提供一种电子设备，如图10所示，处理器710和存储器720，其中处理器710和存储器720可以通过总线或者其他方式连接。

处理器710可以为中央处理器(Central Processing Unit，CPU)。处理器710还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器720作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的强化学习模型训练方法或基于强化学习的决策方法或基于强化学习的航空开舱决策方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器720可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器720中，当被所述处理器710执行时，执行如图1所示实施例中的强化学习模型训练方法或图2所示的基于强化学习的决策方法或图3所示的基于强化学习的航空开舱决策方法。

上述电子设备的具体细节可以对应参阅图1、2、3所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中强化学习模型训练方法或基于强化学习的决策方法或基于强化学习的航空开舱决策方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种强化学习模型训练方法，其特征在于，包括如下步骤：

获取多组历史状态数据；

将每一组历史状态数据输入至强化学习模型，得到初步决策数据；

将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，所述状态量变化值为当前状态数据与下一状态数据的差值；

根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。

2.根据权利要求1所述的方法，其特征在于，根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数，包括：

将所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值组成数据集，得到多个数据集；

根据预设比例，将所述多个数据集以及多组历史数据输入至强化学习模型，更新所述强化学习模型参数，所述历史数据包括相邻状态数据以及对应的决策数据。

3.一种基于强化学习的决策方法，其特征在于，包括如下步骤：

获取任一应用场景的当前状态数据；

将所述当前状态数据输入至如权利要求1或2所述的强化学习训练方法训练得到的强化学习模型，得到决策数据。

4.一种基于强化学习的航空开舱决策方法，其特征在于，包括如下步骤：

获取当前状态数据，所述当前状态数据包括多个平行航班的销售量、剩余座位量、多个平行航班距离起飞的时间以及多个舱价位数据；

将所述当前状态数据输入至如权利要求1或2所述的强化学习训练方法训练得到的强化学习模型，得到决策数据，所述决策数据包括多个平行航班的开舱情况数据。

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

将通过所述强化学习模型得到的决策数据输入至所述预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值；

根据所述每一组当前状态数据以及对应的决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。

6.一种强化学习模型训练装置，其特征在于，包括：

历史数据获取模块，用于获取多组历史状态数据；

初步决策确定模块，用于将每一组历史状态数据输入至强化学习模型，得到初步决策数据；

贝叶斯神经网络模块，用于将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，所述状态量变化值为当前状态数据与下一状态数据的差值；

参数更新模块，用于根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。

7.一种基于强化学习的决策装置，其特征在于，包括：

当前状态数据获取模块，用于获取任一应用场景的当前状态数据；

决策数据确定模块，用于将所述当前状态数据输入至如权利要求1或2所述的强化学习训练方法训练得到的强化学习模型，得到决策数据。

8.一种基于强化学习的航空开舱决策装置，其特征在于，包括：

航空状态获取模块，用于获取当前状态数据，所述当前状态数据包括多个平行航班的销售量、剩余座位量、多个平行航班距离起飞的时间以及多个舱价位数据；

舱位决策模块，用于将所述当前状态数据输入至如权利要求1或2所述的强化学习训练方法训练得到的强化学习模型，得到决策数据，所述决策数据包括多个平行航班的开舱情况数据。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1或2所述的强化学习模型训练方法以及权利要求3或权利要求5所述的基于强化学习的决策方法以及权利要求4或权利要求5所述的基于强化学习的航空开舱决策方法的步骤。

10.一种存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1或2所述的强化学习模型训练方法以及权利要求3或权利要求5所述的基于强化学习的决策方法以及权利要求4或权利要求5所述的基于强化学习的航空开舱决策方法的步骤。