CN116485196B

CN116485196B - 基于强化学习的服务区开放控制决策方法和系统

Info

Publication number: CN116485196B
Application number: CN202310380218.3A
Authority: CN
Inventors: 王笑
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Guangte Haizhi Marine Technology Qingdao Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-11-14
Anticipated expiration: 2043-04-11
Also published as: CN116485196A

Abstract

本发明涉及一种基于强化学习的服务区开放控制决策方法及系统，属于人工智能技术领域。所述方法包括：建立强化学习后的循环神经网络模型，所述模型的输出层用于智能预测下一时刻服务区周围存在的各种车辆分别对应的各个存在数量；基于下一时刻服务区周围存在的各种车辆分别对应的各个存在数量确定下一时刻之后预设时长内的服务区的关闭打开策略以及服务区内加油站的关闭打开策略。通过本发明，能够将循环神经网络应用到高速公路的服务区的开放控制的决策中，通过强化学习以及结构定制，构建了适应不同服务区的能够基于历史数据确定下一时刻过往车辆信息的人工智能识别机制，从而为服务区管理方的决策提供足够的反应时间。

Description

基于强化学习的服务区开放控制决策方法和系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于强化学习的服务区开放控制决策方法和系统。

背景技术

人工智能是计算机学科的一个分支，二十世纪七十年代以来被称为世界三大尖端技术之一（空间技术、能源技术、人工智能）。也被认为是二十一世纪三大尖端技术（基因工程、纳米科学、人工智能）之一。这是因为近三十年来它获得了迅速的发展，在很多学科领域都获得了广泛应用，并取得了丰硕的成果，人工智能已逐步成为一个独立的分支，无论在理论和实践上都已自成一个系统。

神经网络是人工智能的一个重要分支，人工神经网络（Artificial NeuralNetworks，简写为ANNs），也简称为神经网络（NNs）或称作连接模型（Connection Model），他是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

循环神经网络（Recurrent Neural Network, RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network），其中双向循环神经网络（Bidirectional RNN,Bi-RNN）和长短期记忆网络（Long Short-Term Memory networks，LSTM）是常见的循环神经网络。

循环神经网络可以用于各种人工智能式的模糊处理，并能够达到一定的精度。尽管如此，在很多应用领域中，循环神经网络的解决方案还存在空白，导致应用场景的数据无法和循环神经网络的解决方案有机融合，即使融合，由于缺乏针对性的研究，导致人工智能识别的准确度不高。例如，在一些荒野地段的高速公路的服务区，经营者一直纠结于开放则成本过高、关闭则无法满足正常的服务需求的矛盾中，原因在于无法预测每一时刻的过往车辆的种类和数量，而循环神经网络尚未应用到这一场景。

发明内容

为了解决上述问题，本发明提供了一种基于强化学习的服务区开放控制决策方法和装置，能够将循环神经网络应用到高速公路的服务区的开放控制的决策中，并通过强化学习以及结构定制，形成了能够基于历史数据确定下一时刻过往车辆信息的人工智能识别模式，尤为关键的是，针对距离最近城市远近不同的服务区，灵活定制了不同结构的循环神经网络，从而实现一套识别模式铺展到所有服务区的兼容式应用。

为此，本发明至少需要具备以下四处关键的发明点：

（1）使用服务区历史数据对预测时刻的下一时刻服务区附近过往车辆的种类和数量进行人工智能预测，并基于预测结果确定下一时刻之后预设时长内服务区的开关策略以及服务区内加油站的开关策略；

（2）选择循环神经网络模型用于实现下一时刻服务区附近过往车辆信息的人工智能预测，对所述循环神经网络模型执行针对性的强化学习，尤为重要的是，服务区到最近城市的距离越远，历史数据中均匀间隔的各个时刻中相邻两个时刻之间的时间间隔越长，从而完成对不同服务区的模型的灵活定制；

（3）采用加权计算模式确定下一时刻之后预设时长内的服务区的关闭打开策略，其中，车辆种类对应的乘员越多，所述车辆种类被赋予的权重值越大；

（4）采用加权计算模式确定下一时刻之后预设时长内的服务区内加油站的关闭打开策略，其中，车辆种类对应的油箱容积越大，所述车辆种类被赋予的权重值越大。

根据本发明的第一方面，提供了一种基于强化学习的服务区开放控制决策方法，所述方法包括：

建立循环神经网络模型，所述循环神经网络模型的隐藏层中的每个神经元接收具有相同设定时间延迟的输入数据，所述循环神经网络模型的输出层的输出数据为判断时刻服务区周围存在的过往车辆信息，所述循环神经网络模型的输入层的各个输入数据为判断时刻之前预设数量且均匀间隔的各个时刻服务区周围存在的过往车辆信息；

以历史上某一判断时刻之前预设数量且均匀间隔的各个时刻服务区周围存在的过往车辆信息作为所述循环神经网络模型的一份学习数据，以历史上某一判断时刻服务区周围存在的各种车辆分别对应的各个存在数量的各个倒数作为对所述循环神经网络模型进行强化学习的奖励信号以实现对所述循环神经网络模型执行的强化学习操作，并分时逐份完成固定数量的多份学习数据对所述循环神经网络模型的强化学习操作，从而获得强化学习后的循环神经网络模型；

以下一时刻之前预设数量且均匀间隔的各个时刻服务区周围存在的过往车辆信息作为强化学习后的循环神经网络模型的输入层的各个输入数据，并运行所述强化学习后的循环神经网络模型以获得其输出层的输出数据，即下一时刻服务区周围存在的各种车辆分别对应的各个存在数量，所述下一时刻与当前时刻之间相隔所述均匀间隔对应的间隔时长；

基于下一时刻服务区周围存在的各种车辆分别对应的各个存在数量确定下一时刻之后预设时长内的服务区的关闭打开策略；

基于下一时刻服务区周围存在的各种车辆分别对应的各个存在数量确定下一时刻之后预设时长内的服务区内加油站的关闭打开策略；

其中，所述循环神经网络模型的输出层的输出数据为判断时刻服务区周围存在的过往车辆信息包括：所述判断时刻服务区周围存在的过往车辆信息为判断时刻服务区周围存在的各种车辆分别对应的各个存在数量；

其中，所述循环神经网络模型的输入层的各个输入数据为判断时刻之前预设数量且均匀间隔的各个时刻服务区周围存在的过往车辆信息包括：每一个输入数据为判断时刻之前某一个时刻服务区周围存在的各种车辆分别对应的各个存在数量；

其中，所述服务区到最近城市的距离越远，所述均匀间隔的各个时刻中相邻两个时刻之间的间隔时长的数值越大。

根据本发明的第二方面，提供了一种基于强化学习的服务区开放控制的决策系统，所述系统包括：

第一建模设备，用于建立循环神经网络模型，所述循环神经网络模型的隐藏层中的每个神经元接收具有相同设定时间延迟的输入数据，所述循环神经网络模型的输出层的输出数据为判断时刻服务区周围存在的过往车辆信息，所述循环神经网络模型的输入层的各个输入数据为判断时刻之前预设数量且均匀间隔的各个时刻服务区周围存在的过往车辆信息；

第二建模设备，与所述第一建模设备连接，用于以历史上某一判断时刻之前预设数量且均匀间隔的各个时刻服务区周围存在的过往车辆信息作为所述循环神经网络模型的一份学习数据，以历史上某一判断时刻服务区周围存在的各种车辆分别对应的各个存在数量的各个倒数作为对所述循环神经网络模型进行强化学习的奖励信号以实现对所述循环神经网络模型执行的强化学习操作，并分时逐份完成固定数量的多份学习数据对所述循环神经网络模型的强化学习操作，从而获得强化学习后的循环神经网络模型；

数据解析设备，与所述第二建模设备连接，用于以下一时刻之前预设数量且均匀间隔的各个时刻服务区周围存在的过往车辆信息作为强化学习后的循环神经网络模型的输入层的各个输入数据，并运行所述强化学习后的循环神经网络模型以获得其输出层的输出数据，即下一时刻服务区周围存在的各种车辆分别对应的各个存在数量，所述下一时刻与当前时刻之间相隔所述均匀间隔对应的间隔时长；

第一判断设备，与所述数据解析设备连接，用于基于下一时刻服务区周围存在的各种车辆分别对应的各个存在数量确定下一时刻之后预设时长内的服务区的关闭打开策略；

第二判断设备，与所述数据解析设备连接，用于基于下一时刻服务区周围存在的各种车辆分别对应的各个存在数量确定下一时刻之后预设时长内的服务区内加油站的关闭打开策略；

附图说明

以下将结合附图对本发明的实施方案进行描述，其中：

图1为根据本发明的基于强化学习的服务区开放控制决策方法和系统的技术流程图。

图2为根据本发明的实施例4示出的基于强化学习的服务区开放控制的决策系统的内部结构图。

图3为根据本发明的实施例5示出的基于强化学习的服务区开放控制的决策系统的内部结构图。

图4为根据本发明的实施例6示出的基于强化学习的服务区开放控制的决策系统的内部结构图。

具体实施方式

循环神经网络具有记忆性、参数共享并且图灵完备（Turing completeness），因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理（NaturalLanguage Processing，NLP），例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。引入了卷积神经网络（Convolutional Neural Network，CNN）构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中。强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process, MDP）。按给定条件，强化学习可分为基于模式的强化学习（model-based RL）和无模式强化学习（model-free RL），以及主动强化学习（active RL）和被动强化学习（passive RL）。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数（value function）算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。通过学习策略以达成回报最大化或实现特定目标的问题。

当前，针对高速公路的服务区以及关联加油站的是否开放以及开放时刻的选择方面，不同服务区需要制定不同的策略，原因在于，不同服务区所处的地段不同，过往车辆的流量和类型也不尽相同，同时即使是相同地段，过往车辆的流量和类型也具有一定的随机性和偶然性，导致服务区经营者难以确定服务区以及关联加油站的开放策略。

为了克服上述不足，本发明搭建了一种基于强化学习的服务区开放控制决策方法和装置，通过引入定制结构的强化学习后的循环神经网络模型，完成基于服务区历史数据到任一时刻的过往车辆的流量和类型的智能化解析，进而自适应确定相应的服务区以及关联加油站的开放策略和具体开放时刻，从而在降低成本和满足需求之间达到动态平衡。

如图1所示，给出了根据本发明示出的基于强化学习的服务区开放控制决策方法和系统的技术流程图。

如图1所示，本发明的基于强化学习的服务区开放控制决策方法包括：

首先，采集判断时刻之前均匀间隔的各个时刻的服务区附近过往车辆信息，包括每一种类型车辆的数量，将这些采集数据作为循环神经网络模型的输入数据，将判断时刻服务区附近过往车辆信息作为循环神经网络模型的输出数据，构造定制结构的循环神经网络模型；

其次，对构造的定制结构的循环神经网络模型进行针对性的强化学习，以保证强化学习后的循环神经网络模型的识别精度；

再次，将下一时刻之前均匀间隔的各个时刻的服务区附近过往车辆信息作为强化学习后的循环神经网络模型的输入数据以使用强化学习后的循环神经网络模型，获取确定下一时刻之后预设时长内服务区的开关策略以及服务区内加油站的开关策略的关键信息，即下一时刻服务区附近过往车辆中每一种类型车辆的数量；

最后，使用上述关键信息执行确定的下一时刻之后预设时长内服务区的开关策略以及服务区内加油站的开关策略，包括是否开放，以及需要调配的人力资源数量或者物资资源数量。

本发明的关键点在于，将定制结构的强化学习后的循环神经网络模型用于高速公路服务区开关策略以及资源调配的具体选择中，基于历史数据预测下一时刻的服务区附近过往车辆中每一种类型车辆的数量，从而提前获取第一手数据，为服务区和加油站的开放或者关闭，以及服务区人力物力的定量调配提供反应时间。

下面，将对本发明的基于强化学习的服务区开放控制决策方法和装置以实施例的方式进行具体说明。

实施例1

本发明实施例1提供的基于强化学习的服务区开放控制决策方法包括以下步骤：

实施例2

本发明的实施例2提供的基于强化学习的服务区开放控制决策方法，相比较于本发明的实施例1，所述基于强化学习的服务区开放控制决策方法还包括：

基于确定的下一时刻之后预设时长内的服务区的关闭打开策略以及确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的人力资源数量；

其中，基于确定的下一时刻之后预设时长内的服务区的关闭打开策略以及确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的人力资源数量包括：当服务区的关闭打开策略确定为打开时，相比较于关闭的关闭打开策略，解析的下一时刻之后预设时长内服务区应派遣的人力资源数量更多；

其中，基于确定的下一时刻之后预设时长内的服务区的关闭打开策略以及确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的人力资源数量包括：当服务区内加油站的关闭打开策略确定为打开时，相比较于关闭的关闭打开策略，解析的下一时刻之后预设时长内服务区应派遣的人力资源数量更多。

实施例3

本发明的实施例3提供的基于强化学习的服务区开放控制决策方法，相比较于本发明的实施例1，所述基于强化学习的服务区开放控制决策方法还包括：

基于确定的下一时刻之后预设时长内的服务区的关闭打开策略以及确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的物质资源数量；

其中，基于确定的下一时刻之后预设时长内的服务区的关闭打开策略以及确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的物质资源数量包括：当服务区的关闭打开策略确定为打开时，相比较于关闭的关闭打开策略，解析的下一时刻之后预设时长内服务区应派遣的物质资源数量更多；

其中，基于确定的下一时刻之后预设时长内的服务区的关闭打开策略以及确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的物质资源数量包括：当服务区内加油站的关闭打开策略确定为打开时，相比较于关闭的关闭打开策略，解析的下一时刻之后预设时长内服务区应派遣的物质资源数量更多。

在上述实施例1-3的任一实施例中，可选地，在所述基于强化学习的服务区开放控制决策方法中：

基于下一时刻服务区周围存在的各种车辆分别对应的各个存在数量确定下一时刻之后预设时长内的服务区的关闭打开策略包括：对下一时刻服务区周围存在的各种车辆分别对应的各个存在数量执行加权计算，并基于加权计算结果确定下一时刻之后预设时长内的服务区的关闭打开策略，车辆种类对应的乘员越多，所述车辆种类被赋予的权重值越大。

基于下一时刻服务区周围存在的各种车辆分别对应的各个存在数量确定下一时刻之后预设时长内的服务区内加油站的关闭打开策略包括：对下一时刻服务区周围存在的各种车辆分别对应的各个存在数量执行加权计算，并基于加权计算结果确定下一时刻之后预设时长内的服务区内加油站的关闭打开策略，车辆种类对应的油箱容积越大，所述车辆种类被赋予的权重值越大。

实施例4

如图2所示，所述基于强化学习的服务区开放控制的决策系统包括以下部件：

实施例5

如图3所示，相比较于本发明的实施例4，所述基于强化学习的服务区开放控制的决策系统还包括：

第一调配设备，分别与所述第一判断设备和所述第二判断设备连接，用于基于所述第一判断设备确定的下一时刻之后预设时长内的服务区的关闭打开策略以及所述第二判断设备确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的人力资源数量；

其中，基于所述第一判断设备确定的下一时刻之后预设时长内的服务区的关闭打开策略以及所述第二判断设备确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的人力资源数量包括：当服务区的关闭打开策略确定为打开时，相比较于关闭的关闭打开策略，解析的下一时刻之后预设时长内服务区应派遣的人力资源数量更多；

其中，基于所述第一判断设备确定的下一时刻之后预设时长内的服务区的关闭打开策略以及所述第二判断设备确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的人力资源数量包括：当服务区内加油站的关闭打开策略确定为打开时，相比较于关闭的关闭打开策略，解析的下一时刻之后预设时长内服务区应派遣的人力资源数量更多。

实施例6

如图4所示，相比较于本发明的实施例4，所述基于强化学习的服务区开放控制的决策系统还包括：

第二调配设备，分别与所述第一判断设备和所述第二判断设备连接，用于基于所述第一判断设备确定的下一时刻之后预设时长内的服务区的关闭打开策略以及所述第二判断设备确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的物质资源数量；

其中，基于所述第一判断设备确定的下一时刻之后预设时长内的服务区的关闭打开策略以及所述第二判断设备确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的物质资源数量包括：当服务区的关闭打开策略确定为打开时，相比较于关闭的关闭打开策略，解析的下一时刻之后预设时长内服务区应派遣的物质资源数量更多；

其中，基于所述第一判断设备确定的下一时刻之后预设时长内的服务区的关闭打开策略以及所述第二判断设备确定的下一时刻之后预设时长内的服务区内加油站的关闭打开策略解析下一时刻之后预设时长内服务区应派遣的物质资源数量包括：当服务区内加油站的关闭打开策略确定为打开时，相比较于关闭的关闭打开策略，解析的下一时刻之后预设时长内服务区应派遣的物质资源数量更多。

在上述实施例4-6的任一实施例中，可选地，在所述基于强化学习的服务区开放控制的决策系统中：

另外，高速公路服务区是指专门为乘客和司机停留休息的场所，应提供停车场、公共厕所、加油站、车辆修理所、餐饮与小卖部等设施，平均间距约50千米。进入服务区的服务流分为人流和车流。车流有不停留加油的和要停留的。人流分为等车、休息、如厕、购物、用餐、住宿、使用电子设备等不同类型。

服务区的建设规模一般需要适应未来交通量的增长。常见的高速公路服务区有单侧式服务区和双侧式服务区两种。

单侧式服务区也叫中央集中式服务区。其布局原则是在道路一侧设置服务区，各种功能服务集中在一个服务区里。逆向车道的车辆通过跨线桥或者地道进入服务区。由于单侧式服务区较双侧式服务区有些许使用缺陷，所以较为少见。单侧式服务区常见的有两种形式的：一种为大型的集中服务区，对外服务设施设置于公路一侧，加油设施分别位于公路两侧。在欧洲有很多这种形式的服务区，其集中了大型购物中心、娱乐设施、住宿、餐饮等功能。另一种小型的单侧式服务区主要是由于地形的缘故，在山区以及无法提供足够建设空间的地区有其存在的价值，特别是确定为小型服务区以及停车区的规划建设，单侧式服务区能够在一定程度上起到很好的作用。西北地区地形复杂，在一些特殊的地理环境下，单侧式服务区是必然的选择。占地面积小而且同时满足双向行驶车辆的使用特点，在这些特殊的环境里可以起独特作用。近年来，随着高速公路的发展，出现了一些观景停驻的景观服务区。

双侧式服务区的布局最为常见，其布局原则是在道路双侧均设置服务区，两侧服务设施及功能分区相同。由于高速公路为全封闭双向车道，且中间设置隔离带的道路，双侧式服务区的设置，可以分别提供各自方向车辆的进出使用；同时，两侧的服务区通过跨线桥或者地道连通起来，使其车辆的使用容量及物资调配得以优化。双侧式服务区应在良好的地理环境下使用，因此更加具有合理性，满足了使用便利、快速高效的要求，最大限度地增加商业效应。在视觉上双侧服务区既可设计为相同布局的形式，也可为不同的形式，以自然景观环境借景呼应。

高速公路服务区作为高速公路产业的发展而产生配套服务设施，对高速公路的快速发展和里程规划的增加具有重要意义。服务区的有效运营和优质服务可以更好地实现高速公路的社会服务价值，也可以增加高速公路投资公司的经济效益，还可以提供就业机会，解决富余人员的分流。另外，还可以利用开发服务区的机会以较低的土地成本获取珍稀的土地资源等。

以及强化学习把学习看作试探评价过程，智能体Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号（奖或惩）反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化（奖）的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

强化学习不同于连接主义学习中的监督学习，强化学习中由环境提供的强化信号是Agent对所产生动作的好坏作一种评价（通常为标量信号），而不是告诉Agent如何去产生正确的动作。由于外部环境提供了很少的信息，Agent必须靠自身的经历进行学习。通过这种方式，Agent在行动一一评价的环境中获得知识，改进行动方案以适应环境。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种基于强化学习的服务区开放控制决策方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于强化学习的服务区开放控制决策方法，其特征在于，所述方法还包括：

3.如权利要求1所述的基于强化学习的服务区开放控制决策方法，其特征在于，所述方法还包括：

4.如权利要求1-3任一所述的基于强化学习的服务区开放控制决策方法，其特征在于：

5.如权利要求1-3任一所述的基于强化学习的服务区开放控制决策方法，其特征在于：

6.一种基于强化学习的服务区开放控制的决策系统，其特征在于，所述系统包括：

7.如权利要求6所述的基于强化学习的服务区开放控制的决策系统，其特征在于，所述系统还包括：

8.如权利要求6所述的基于强化学习的服务区开放控制的决策系统，其特征在于，所述系统还包括：

9.如权利要求6-8任一所述的基于强化学习的服务区开放控制的决策系统，其特征在于：

10.如权利要求6-8任一所述的基于强化学习的服务区开放控制的决策系统，其特征在于：