CN109741626B

CN109741626B - 停车场停车情况预测方法、调度方法和系统

Info

Publication number: CN109741626B
Application number: CN201910134880.4A
Authority: CN
Inventors: 傅启明; 施政延; 陈建平; 陆悠; 钟珊; 罗恒
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2019-02-24
Filing date: 2019-02-24
Publication date: 2023-09-29
Anticipated expiration: 2039-02-24
Also published as: CN109741626A

Abstract

本发明涉及一种停车场停车情况预测方法、调度方法和系统。其主要包括数据采集模块：用于获取停车场的各个车位的实际的停车情况数据以及路况信息数据；数据处理模块：用于利用所述实际的停车情况数据，通过Q‑learning算法获得预测策略，利用预测策略预测停车情况数据，并且，通过路况信息数据和预测得到的停车情况数据，计算获得推荐车位，将推荐车位发送给终端设备；数据存储模块：用于将数据采集模块的数据以及数据处理模块的数据进行存储。有利于解决停车难及城市交通拥堵的问题。

Description

停车场停车情况预测方法、调度方法和系统

技术领域

本发明涉及停车场智能管理领域，特别是涉及停车场停车情况预测方法、调度方法和系统。

背景技术

随着经济的快速发展与城镇化进度的不断推进，汽车的使用率正不断提高。停车问题日益突出。另一方面，传统的停车场由于缺乏智能化管理方法，使得停车场的车位资源无法得到充分利用。

发明内容

基于此，有必要针对传统的停车场的车位资源无法得到充分利用问题，提供一种停车场的车位停车情况预测方法。

一种停车场的车位停车情况预测方法，包括：

获取停车场的各个车位的实际的停车情况数据，

利用所述实际的停车情况数据，通过Q-learning算法获得预测策略，利用预测策略预测停车情况数据。

上述方法由于可以对停车场未来一段时间的车位的停车情况进行预测，这样可以给停车场的管理者一定的参考数据，管理者可根据该数据采取一定措施，以便于充分利用停车场的车位资源。

在其中一个实施例中，所述利用所述实际的停车情况数据，通过Q-learning算法获得预测策略，利用预测策略预测停车情况数据包括：

将停车情况问题建模为一个马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及立即奖赏函数，

建立值函数回报模型，

利用Q-learning算法获得预测策略，

利用预测策略预测停车情况数据。

在其中一个实施例中，所述将停车情况问题建模为一个马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及立即奖赏函数包括：

状态，用s表示，设G＝{1，…m}为所有停车场的集合，m为停车场的数量，设V＝{1,2,3,…,k}是停车场的车位的集合，其中k是停车场的车位的总数，第i个停车场的第j个车位的停车情况数据为v_i,j，其中i∈G，j∈V，则状态表示为：

s＝(v_1,1,v_1,2,…,v_2,1,…,v_m,k)；

动作，用a表示，动作可以表示为预测下一时刻各个停车场的各个车位的停车情况数据，设第i个公共停车场的第j个车位的停车情况数据为r_i,j，

其中i∈G，j∈V，r_i,j∈{0,1}，其中，0表示车位空闲，1表示车位被占用，则动作表示为：

a＝(r_1,1,r_1,2,r_1,3,…,r_m,k)；

状态转移函数，用f表示，设当前停车场调度状态s的动作为：a’＝(q_1,1,q_1,2,q_1,3,…,q_m,k)，q∈{-1,0,1}，其中，-1表示车位车辆离开，0表示车位无变动，1表示空车位有车停入，则状态转移函数表示为：

f:s_t+1←s_t+(q_1,1,q_1,2,q_1,3,…,q_m,k)；

立即奖赏函数，用r表示，设下一个时刻的预测的停车场的车辆停放状况集合为E_t+1，该时刻实际的车辆停放状况集合为e_t+1，两者之间的差值为：立即奖赏函数可以表示为：r＝-E；

所述建立值函数回报模型包括：

建立值函数回报模型，设R(s,a)表示在状态s下采用动作a的回报值；值函数Q(s,a)是关于R(s,a)的期望，则Q(s,a)＝E[R(s,a)]；

所述利用Q-learning算法获得预测策略包括：

每收集一次停车场的各个车位的实际的停车情况数据记为一次情节，每次状态转移即预测一次下一时刻的停车情况数据记为一个时间步t，重复以下步骤直至状态s收敛：

采取动作a_t，获得r和下一个状态s_t+1，通过ε-greedy策略从Q根据s_t+1选择下一个动作a_t+1，具体应用的公式如下：

Q(s_t,a_t)←Q(s_t,a_t)+α[R_t+1+γmax Q(s_t+1,a_t+1)-Q(s_t,a_t)],

s_t←s_t+1，

a_t←a_t+1，

其中，γ为折扣因子，α为学习速率。

在其中一个实施例中，采用TD Learning算法对所述值函数进行更新。

在其中一个实施例中，

在所述利用预测策略预测停车情况数据之前，先使用DQN深度强化学习算法，对通过Q-learning算法得到的预测策略进行优化。

一种停车场的调度方法，包括所述的停车场的车位停车情况预测方法，还包括：

获取路况信息数据，结合预测得到的停车情况数据，计算获得推荐车位，将推荐车位发送给终端设备。

在其中一个实施例中，所述推荐车位距离目的地的距离小于等于阈值D，所述终端设备所在位置到推荐车位所用时间小于等于阈值T。

一种停车场的调度系统，包括：

数据采集模块：用于获取停车场的各个车位的实际的停车情况数据以及路况信息数据；

数据处理模块：用于利用所述实际的停车情况数据，通过Q-learning算法获得预测策略，利用预测策略预测停车情况数据，并且，通过路况信息数据和预测得到的停车情况数据，计算获得推荐车位，将推荐车位发送给终端设备；

数据存储模块：用于将数据采集模块的数据以及数据处理模块的数据进行存储。

一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述的停车场的调度方法对应的操作。

一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的停车场的调度方法对应的操作。

附图说明

图1为本发明的实施例的一种停车场的车位停车情况预测方法的流程图。

图2为本发明的实施例的所述利用实际的停车情况数据，通过Q-learning算法获得预测策略，利用预测策略预测停车情况数据的流程图。

图3为在图2基础上增加对Q-learning算法得到的预测策略进行优化步骤的流程图。

图4为基于DQN深度强化学习算法对Q-learning算法得到的预测策略进行优化的流程图。

图5为本发明的实施例的停车场的调度系统的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，本发明的实施例提供了一种停车场的车位停车情况预测方法，包括：

S100、获取停车场的各个车位的实际的停车情况数据，

S200、利用所述实际的停车情况数据，通过Q-learning算法获得预测策略，利用预测策略预测停车情况数据。

其中，上述停车情况数据是指各个车位上的停车情况，停车情况分为空闲和被占用，空闲即该车位上没有车辆停放，被占用即该车位上停有车辆。

各个车位的实际的停车情况数据的获取方式有多种。例如，可采用停车场出入口控制器以及无线超声波车辆感应器等设备获取上述数据。具体的，可以给各个车位配备一个无线超声波车辆感应器，当无线超声波车辆感应器感应到对应车位有车辆停放时，无线超声波车辆感应器将信号发送给出入口控制器进行记录，出入口控制器记录该车位为被占用，当该车辆离开该车位后，出入口控制器记录该车位空闲。同时，出入口控制器还记录该车位被占用的时间以及空闲的时间。这样就可形成供Q-learning算法使用的训练数据集。

可以理解，也可以应用其它类型的设备获取上述数据，只要能记录上述相关信息，以形成训练数据集即可。

例如，对于一个停车场，预测该停车场未来一段时间内的停车情况数据，如果未来一段时间该停车场的车位会出现大面积空闲，则该停车场管理者可根据该数据分析为何会出现这种情况，采用何种措施来改善这种情况，以使停车场的车位资源得到充分利用。

例如，对于一个区域内的各个停车场，如果预测了各个停车场的未来一段时间内的停车情况数据，可以将该数据通过导航系统发送给终端用户，以供需要停车的用户参考使用。这样也可以使停车场的车位资源得到充分利用。

如图2所示，本实施例中，所述利用所述实际的停车情况数据，通过Q-learning算法获得预测策略，利用预测策略预测停车情况数据包括：

S210、将停车情况问题建模为一个马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及立即奖赏函数，

S220、建立值函数回报模型，

S230、利用Q-learning算法获得预测策略，

S240、利用预测策略预测停车情况数据。

具体的，所述将停车情况问题建模为一个马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及立即奖赏函数包括：

状态，用s表示，设G＝{1，…m}为所有停车场的集合，m为停车场的数量，例如可以为1个，2个，3个或其它数量。设V＝{1,2,3,…,k}是停车场的车位的集合，其中k是停车场的车位的总数，第i个停车场的第j个车位的停车情况数据为v_i,j，其中i∈G，j∈V，则状态可以表示为：

s＝(v_1,1,v_1,2,…,v_2,1,…,v_m,k)；

其中i∈G，j∈V，r_i,j∈{0,1}，其中，0表示车位空闲，1表示车位被占用，则动作可以表示为：

a＝(r_1,1,r_1,2,r_1,3,…,r_m,k)；

状态转移函数，用f表示，设当前停车场调度状态s的动作为：a’＝(q_1,1,q_1,2,q_1,3,…,q_m,k)，q∈{-1,0,1}，其中，-1表示车位车辆离开，0表示车位无变动，1表示空车位有车停入，则状态转移函数可以表示为：

f:s_t+1←s_t+(q_1,1,q_1,2,q_1,3,…,q_m,k)；

立即奖赏函数，用r表示，设下一个时刻的预测的停车场的车辆停放状况集合为E_t+1，该时刻实际的车辆停放状况集合为e_t+1，两者之间的差值为：差值越小就意味着实际的预测越准确，奖赏建模为一个负值的变量，相当于预测结果的惩罚值，立即奖赏函数可以表示为：r＝-E；

所述建立值函数回报模型包括：

所述利用Q-learning算法获得预测策略包括：

Q(s_t,a_t)←Q(s_t,a_t)+α[R_t+1+γmax Q(s_t+1,a_t+1)-Q(s_t,a_t)],

s_t←s_t+1，

a_t←a_t+1，

其中，γ为折扣因子，γ大于等于0且小于1，根据实际收敛情况而定，α为学习速率，0<α<1。

本实施例中，在步骤S230中，采用TD Learning算法对所述值函数进行更新。

具体的，使用TD Learning的思想来进行值函数的更新。TD Learning时间差分方法的目标为R_t+1+γV(s_t+1)，若V(s_t+1)采用真实值，则TD Learning时间差分方法估计也是无偏估计，然而在试验中，V(S_t+1)用的也是估计值，因此TDLearning时间差分方法属于有偏估计。更新方法可应用以下公式：

V(s_t)←V(s_t)+α(R_t+1+γV(s_t+1)-V(s_t))，

其中，α为TD Learning步长，γ为TD Learning报酬贴现率。

如图3所示，在其中一个实施例中，在所述利用预测策略预测停车情况数据之前，先使用DQN深度强化学习算法，对通过Q-learning算法得到的预测策略进行优化。这样可以使预测结果更加接近真实值。

具体的：

将从Q-Table中的更新问题变成一个函数拟合问题，相近的状态得到相近的输出动作，通过更新参数θ使Q函数逼近最优Q值，如下式：

Q(s,a；θ)≈Q′(s,a)，

Q-Learning的更新公式为：

Q(s_t,a_t)←Q(s_t,a_t)+α[R_t+1+γmax Q(s_t+1,a)-Q(s_t,a_t)]，

而DQN的Loss Function为：

L(θ)＝E[(TargetQ-Q(s_t,a；θ))²]，

其中θ是网络参数，目标为：

TargetQ＝r+γmaxQ_a’TargetQ＝r+γmaxQa(s_t+1,a_t+1；θ)，

接下来，通过数学求导的方法得到L(θ)关于θ的梯度，使用SGD梯度下降方法更新网络参数θ。

本发明的实施例还提供了一种停车场的调度方法，包括上述的停车场的车位停车情况预测方法，还包括：

其中，路况信息数据可以向路况服务商购买获取，也可以从百度地图或者高德地图获取。

上述方法可在获知未来一段时间哪些停车场的车位处于空闲的基础上，通过路况信息数据可以计算各个车位距离目的地的距离，以及计算出需要停车的用户从出发地到各个车位所用的时间。然后可以根据上述距离以及时间按照一定规则选出推荐的车位信息发送到需要停车的用户的终端设备，以供用户参考使用。

例如，上述规则可以是：所述推荐车位距离目的地的距离小于等于阈值D，所述终端设备所在位置到推荐车位所用时间小于等于阈值T。

可以理解，上述推荐的车位可以是多个，可供用户进行选择。通过上述方法，可以方便用户在出行之前，提前规划好停车位置，节省停车时间。有利于解决停车难的问题。

通过上述分析可知，本发明的上述预测方法和调度方法具有以下优点：

1)所需的参数少；

2)不依赖确定的环境模型(各停车场车辆停放情况的环境模型)；

3)方法所求得的最优调度策略更加准确高效；

4)可以采用离线的实现方式；

5)可以保证收敛到qπ，收敛速度较快；

6)可以用于连续任务；

7)可生产大量样本供监督学习使用；

8)算法稳定性高，不易出现差错；

9)方法可以根据环境的变化动态修正最优策略。

本发明的实施例还提供了一种停车场的调度系统，包括：

具体的，如图5所示，上述调度系统可包括云计算平台，深度强化学习系统，大数据处理系统，数据交互系统，停车管理预测系统，数据收集系统，导航系统和基于Android/IOS平台开发的客户端等。

所述的深度强化学习系统，用深度学习方法来解决策略和值函数的建模问题，是用强化学习来解决问题的定义和选择的优化，然后使用Q-Learning强化学习算法与DQN(Deep Q-Network)深度强化学习算法来优化目标函数，得到最优策略。

所述的大数据处理系统，与云计算平台进行交互，通过互联网收集地图实况信息进行数据采集，得到自动生成的数据训练集编号，并存入数据库中。

所述的停车管理预测系统，与深度强化学习系统进行交互，根据训练模型对未来停车情况数据进行预测，并将数据存入到数据库中。

所述的数据收集系统，是让云计算平台记录停车场附近实时路况数据，停车场的本地数据管理系统收集停车场相关数据，在完成一段时间的数据收集后，以时间戳为标准传输到云计算平台上。

所述的数据交互系统，用于进行数据传输。例如，在停车场的本地数据管理系统收集到一段时间内停车场相关数据后，采用DES与RSA混合加密算法编译加密后传输到云计算平台，云计算平台解密后将数据进行算法计算分析，并结合根据相应数据得到对应的结果，并发送给客户端。

所述的基于Android/IOS平台开发的客户端，从云计算平台系统管理员、用户两个角色进行深度开发，给予角色不同的权限进行管理。在各个角色登录后，会具有各自的业务功能。为了对导航系统的二维码进行加密，客户端使用DES与RSA混合的加密算法提供安全保障。并且为了提高导航系统的预测效率，在实时路况发生变动时，云计算平台管理员根据不同的训练数据对训练参数进行修改调整，以达到提高导航效率、减少时间开销的目的。

本发明的上述调度系统首先能对城市交通状况与停车场的相应数据进行收集与分析，在出现大幅度波动数据时，发出相应的提示，并进行信息的记录。根据系统收集的数据使用深度强化学习方法进行建模分析，建立每个城市交通状况与停车场的调度模型，并对未来一段时间内的停车状况数据进行预测。在预测结果的基础上，根据实际数据进行模型的修正，以达到最大化的预测准确率。用户可以使用移动端应用程序查看通过收集分析数据得到的结果。在传送数据时使用DES与RSA混合加密算法来提高数据传输的安全性与完整性，保证数据不会外泄。系统采用移动互联网、云计算、人工智能等多种信息技术，提升城市停车场的利用率，从而有利于解决城市交通的拥堵与停车难等问题。

本发明的实施例还提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述的停车场的调度方法对应的操作。

本发明的实施例还提供了一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的停车场的调度方法对应的操作。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种停车场的车位停车情况预测方法，其特征在于，包括：

获取停车场的各个车位的实际的停车情况数据，

利用所述实际的停车情况数据，通过Q-learning算法获得预测策略，利用预测策略预测停车情况数据，

所述利用所述实际的停车情况数据，通过Q-learning算法获得预测策略，利用预测策略预测停车情况数据包括：

将停车情况问题建模为一个马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及立即奖赏函数,具体包括：

s＝(v_1,1,v_1,2,…,v_2,1,…,v_m,k)；

a＝(r_1,1,r_1,2,r_1,3,…,r_m,k)；

f:s_t+1←s_t+(q_1,1,q_1,2,q_1,3,…,q_m,k)；

立即奖赏函数，用r表示，设下一个时刻的预测的停车场的车辆停放状况集合为E_t+1，该时刻实际的车辆停放状况集合为e_t+1，两者之间的差值为：立即奖赏函数表示为：r＝-E；

建立值函数回报模型,具体包括：

所述利用Q-learning算法获得预测策略包括：

Q(s_t,a_t)←Q(s_t,a_t)+α[R_t+1+γmax Q(s_t+1,a_t+1)-Q(s_t,a_t)],

s_t←s_t+1，

a_t←a_t+1，

其中，γ为折扣因子，α为学习速率；

利用预测策略预测停车情况数据；

采用TD Learning算法对所述值函数进行更新，具体包括：

使用TD Learning的思想来进行值函数的更新，TD Learning时间差分方法的目标为R_t+1+γV(s_t+1)，若V(s_t+1)采用真实值，则TD Learning时间差分方法估计也是无偏估计，然而在试验中，V(S_t+1)用的也是估计值，因此TD Learning时间差分方法属于有偏估计，更新方法应用以下公式：

V(s_t)←V(s_t)+α(R_t+1+γV(s_t+1)-V(s_t))，

其中，α为TD Learning步长，γ为TD Learning报酬贴现率，

在所述利用预测策略预测停车情况数据之前，先使用DQN深度强化学习算法，对通过Q-learning算法得到的预测策略进行优化，具体包括：

Q(s,a；θ)≈Q′(s,a)，

Q-Learning的更新公式为：

Q(s_t,a_t)←Q(s_t,a_t)+α[R_t+1+γmax Q(s_t+1,a)-Q(s_t,a_t)]，

而DQN的Loss Function为：

L(θ)＝E[(TargetQ-Q(s_t,a；θ))²]，

其中θ是网络参数，目标为：

TargetQ＝r+γmaxQ_a’(s_t+1,a_t+1；θ)，

2.一种停车场的调度方法，其特征在于，包括权利要求1所述的停车场的车位停车情况预测方法，还包括：

3.根据权利要求2所述的停车场的调度方法，其特征在于，所述推荐车位距离目的地的距离小于等于阈值D，所述终端设备所在位置到推荐车位所用时间小于等于阈值T。

4.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求2或3所述的停车场的调度方法对应的操作。

5.一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求2或3所述的停车场的调度方法对应的操作。