CN112419775B

CN112419775B - 基于强化学习的数字孪生智慧停车方法及系统

Info

Publication number: CN112419775B
Application number: CN202010804756.7A
Authority: CN
Inventors: 陈铭松; 黄红兵; 韩定定; 曹鹗; 夏珺; 周亮; 焦阳
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2022-01-11
Anticipated expiration: 2040-08-12
Also published as: CN112419775A

Abstract

本发明公开了一种基于强化学习的数字孪生智慧停车方法，为智慧城市信息物理融合物联网构建提供了一个智能、易用的系统模型。该智慧停车系统支持对实际场景下多车辆自动泊车过程进行实时控制，并能有效避免碰撞，降低人工停车时间成本，减少人为操作失误安全事故的发生。对于即将落地实施的智慧停车场项目都可以先采用数字孪生原型来进行可行性分析、算法测试、功能验证的任务；对于已经落地实现的智慧停车场项目，也可以使用数字孪生技术来实现数据的采集和报送，实现停车场数据的全周期管理，为后续数据资源的开发与利用提供帮助。

Description

基于强化学习的数字孪生智慧停车方法及系统

技术领域

本发明属于计算机技术领域，尤其涉及一种基于强化学习的数字孪生智慧停车方法及系统。

背景技术

随着人类社会逐渐数字信息化以及人工智能、物联网、云计算、5G等技术的发展，现阶段对信息-物理融合系统的需求也日益增加，以往的单个系统小范围设备间实施简单的“感执传控”难以满足人民和国家的需求，精确实时地认知、控制与协同的宏观多异构系统(例如涵盖智慧交通、智慧消防、智慧园区等异构系统的智慧城市系统)正逐渐成为信息-物理融合系统的发展方向。智慧城市信息-物理融合系统是在环境感知的基础上，深度融合计算、通信和控制能力的网络化物理设备互联系统，其通过反馈回路深度融合计算进程和物理进程，从而实现对智慧城市中物理实体安全、高效和实时的检测与控制。由于实时性需求的提高与整体系统的建设与调试难度日益增强，因此信息-物理融合系统的规模和复杂度日益升高，给安全可信的智慧城市系统设计带来了极大的挑战。现今城市交通事件频发，多数原因都是人为操作的失误，极少为不可控原因的影响。所以为了保护人民群众的生命安全，现代城市中亟待安全可信的智慧交通系统调控城市整体交通情况，最优化的实现。千里之行始于足下，防碰撞自动停车系统是智慧城市系统建设过程中不可或缺环节，智慧停车系统的安全可信直接关系到车主的人身安全与财产安全。因此，如何设计安全可信智慧停车系统成为了现阶段智慧城市建设的重点。

发明内容

本发明公开了一种基于强化学习的数字孪生智慧停车系统，为智慧城市信息物理融合物联网构建提供了一个智能、易用的系统模型。该智慧停车系统支持对实际场景下多车辆自动泊车过程进行实时控制，并能有效避免碰撞，降低人工停车时间成本，减少人为操作失误安全事故的发生。对于即将落地实施的智慧停车场项目都可以先采用数字孪生原型来进行可行性分析、算法测试、功能验证的任务；对于已经落地实现的智慧停车场项目，也可以使用数字孪生技术来实现数据的采集和报送，实现停车场数据的全周期管理，为后续数据资源的开发与利用提供帮助。

实现本发明目的的具体技术方案是：

本发明提供了一种基于强化学习的数字孪生智慧停车系统，该系统包括：云-端控制策略模型、数字孪生体仿真模型、云-端通信模型和数据采集模型。

所述云-端控制策略模型为使用强化学习算法训练停车过程得到的控制方法。

所述数字孪生体仿真模型为对实际停车场景进行建模仿真得到的数字孪生体。

所述云-端通信模型即根据云端控制策略对数字孪生体进行仿真控制，进而对实际停车场景进行智能控制。

所述数据采集模型对虚拟场景中的所有数据进行采集，包括但不限于数字孪生体汽车物理信息和环境信息数据。整个过程中采集的数据都可以应用于后续的数据可视化与数据挖掘等操作。

本发明还提供了一种基于强化学习的数字孪生智慧停车方法，该方法包括以下步骤：

步骤1：对实际停车场景基于物理方法创建2D和3D数字孪生体仿真模型，以支持智慧城市实际停车场景信物融合系统建模，所述系统建模包括真实物联网设备状态属性、物理环境和物理过程；

步骤2：通过停车场景的物理数据和实时环境，对步骤1中创建的停车场景数字孪生体仿真模型进行强化学习训练，包括环境观测、策略选择、动作选择、参数控制、状态控制；

步骤3：通信模型对协同控制策略、仿真环境和终端物联网设备模型之间的连接关系和通信协议进行建模，使用步骤2中训练停车场景得到的控制策略模型，通过通信模型对真实停车场景进行应用；

步骤4：数据采集模型对虚拟场景中的所有数据进行采集，包括但不限于数字孪生体汽车物理信息和环境信息数据；整个过程中采集的数据都可以应用于后续的数据可视化与数据挖掘等操作。

本发明步骤1中，对实际停车场景创建2D和3D数字孪生体仿真模型，所述模型因素包括环境观测、物理数据。

其中，所述2D模型采用OpenAI Gym创建，3D模型采用unity3d平台创建。

其中，所述环境观测由空余停车位数量和位置、最近停车位位置、其他车辆位置和速度、其他避免碰撞物体位置构成，用于描述真实设备所处环境和需观测的数据。

其中，所述物理数据由设备位置、速度、方向、防碰撞范围构成，用于描述真实停车设备自身属性和防碰撞限制因素。

步骤2中，通过强化学习算法训练出对数字孪生体仿真模型进行控制的控制策略。

其中，所述强化学习算法选择maddpg算法。

其中，所述控制策略由控制算法、动作选择、状态控制构成，用于描述物联网设备控制策略。

所述控制算法包括设备的策略选择、策略优化；

策略选择采用集中式学习，分布式应用。用θ＝[θ₁,…,θ_n]表示n个智能体策略的参数，π＝[π₁,·,π_n]表示n个智能体的策略，针对第i个智能体的累积期望奖励

针对随机策略，求策略梯度为

其中o_i表示第i个智能体的观测，x＝[o₁,…,o_n]表示观测向量，即状态。

表示第i个智能体集中式的状态-动作函数。由于每个智能体独立学习自己的

函数，因此每个智能体可以有不同的奖励函数(reward function)，因此可以完成合作或竞争任务。

上述为随机策略梯度算法，下面拓展到确定性策略

梯度公式为：

where

表示目标网络，μ'＝[μ'₁,…,μ'_n]为目标策略具有滞后更新的参数θ'_j。其他智能体的策略可以采用拟合逼近的方式得到，而不需要通信交互。

可以看出critic借用了全局信息学习，actor只用局部观测信息。如果知道所有智能体的动作，环境就是稳定的，就算策略在不断更新环境也是稳定的，因为模型动力学是为稳定的：

P(s′∣s,a₁,…,a_n,π₁,…,π_n)＝P(s′∣s,a₁,…,a_n)＝P(s′∣s,a₁,…,a_n,π′₁,…,π′_n)

策略优化采用策略集合优化方法。第i个智能体的策略μi由一个具有K个子策略的集合构成，在每一个训练episode中只用一个子策略

(简写为

)。对每一个智能体，最大化其策略集合的整体奖励

为每一个子策略k构建一个记忆存储

优化策略集合的整体效果，因此针对每一个子策略的更新梯度为：

所述动作选择能够设定真实停车设备的动作，包括速度大小和方向，支持连续和离散的动作空间，将控制算法的控制指令转化为真实设备能够识别和执行的动作命令。

所述状态控制能够反馈真实设备的所处状态，并将这些状态提供给控制算法使用进行训练和分析。

步骤3中，通信模型对云端和终端的连接关系和通信协议建模。

其中，所述通信模型由云平台选择、通信协议构成，用于描述真实停车设备向云端发送实时数据信息和云端向真实停车设备发送控制信息。

所述通信模型的云平台能够接收和处理数字孪生体仿真模型和真实设备的实时物理数据，能够通过控制算法下发控制命令给真实设备并观测其反馈；设备选择树莓派、Arduino系列单片机；云平台选择指定中移物联网OneNET云平台。

所述通信协议使用OneNET云平台MQTT协议，以支持算法控制、真实设备、数字孪生体仿真模型和云平台之间的相互通信过程。

步骤4中，数据采集模型对虚拟场景中的所有数据进行采集。

所述信息数据由状态信息、动作信息和环境信息构成，用于描述虚拟场景下的环境因素和真实设备自身状态属性。

所述环境因素由空余停车位数量和位置、最近停车位位置、其他车辆位置和速度、其他避免碰撞物体位置构成，用于描述真实设备所处环境和需观测的数据；

所述状态属性由设备位置、速度、方向、防碰撞范围构成，用于描述真实停车设备自身属性和防碰撞限制因素。

本发明还提出了一种基于强化学习的数字孪生智慧停车系统，所述系统采用上述的基于强化学习的数字孪生智慧停车方法，所述系统包括：云-端控制策略模型、数字孪生体仿真模型和云-端通信模型；其中，

所述云-端控制策略模型为使用强化学习算法训练停车过程得到的控制方法；

所述数字孪生体仿真模型为对实际停车场景进行建模仿真得到的数字孪生体；

所述云-端通信模型即根据云端控制策略对数字孪生体进行仿真控制，进而对实际停车场景进行智能控制；

通过对所述数字孪生体进行强化学习训练，支持对实际场景下多车辆自动泊车过程进行实时控制。

本发明具有的有益效果在于：

本发明设计了一个基于强化学习的数字孪生智慧停车系统，为智慧城市信息物理融合物联网构建提供了一个智能、易用的系统模型。所述系统将数字孪生智慧停车系统分为云-端控制策略模型、数字孪生体仿真模型和云-端通信模型。云-端控制策略模型为使用强化学习算法训练停车过程得到的控制方法。数字孪生体仿真模型为对实际停车场景进行建模仿真得到的数字孪生体。云-端通信模型即根据云端控制策略对数字孪生体进行仿真控制，进而对实际停车场景进行智能控制。数据采集模型即对虚拟场景中的所有信息数据进行采集，包括但不限于数字孪生体汽车物理信息和环境信息数据。通过对数字孪生体进行强化学习训练，该智慧停车系统支持对实际场景下多车辆自动停车过程进行实时控制，并能有效避免碰撞，降低人工停车时间成本，减少人为操作失误安全事故的发生。

对于即将落地实施的智慧停车场项目都可以先采用数字孪生原型来进行可行性分析、算法测试、功能验证的任务；对于已经落地实现的智慧停车场项目，也可以使用数字孪生技术来实现数据的采集和报送，实现停车场数据的全周期管理，为后续数据资源的开发与利用提供帮助。

附图说明

图1是本发明流程图。

图2是本发明模型交互图。

图3是智慧停车2D数字孪生场景示意图。

图4是智慧停车3D数字孪生场景示意图。

图5是智慧停车3D数字孪生场景数据采集显示图。

图6是智慧停车强化学习控制算法模型。

图7是智慧停车强化学习控制算法流程。

图8-图12是智慧停车3D数字孪生场景演示效果图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明，本发明的保护内容不局限于以下实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。实施本发明的过程、条件、试剂、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

一种基于强化学习的数字孪生智慧停车方法，该方法包括以下步骤：

步骤1：对实际停车场景基于物理方法创建2D和3D数字孪生体仿真模型，以支持智慧城市实际停车场景信物融合系统建模，系统建模包括真实物联网设备状态属性、物理环境和物理过程。

步骤2：通过停车场景的物理数据和实时环境，对步骤1中创建的停车场景数字孪生体仿真模型进行强化学习训练，包括环境观测、策略选择、动作选择、参数控制、状态控制。

步骤3：通信模型对协同控制策略、仿真环境和终端物联网设备模型之间的连接关系和通信协议进行建模，使用步骤2中训练停车场景得到的控制策略模型，通过通信模型对真实停车场景进行应用。

步骤4：数据采集模型对虚拟场景中的所有数据进行采集，包括但不限于数字孪生体汽车物理信息和环境信息数据。整个过程中采集的数据都可以应用于后续的数据可视化与数据挖掘等操作。

下面结合具体实施例对本发明作进一步说明。

如图3所示，在2D数字孪生体仿真模型自动停车场景下，用小球表示的agent需要到达大球表示的landmark位置，这里小球表示实际场景下车的模型，大球表示停车位的模型。agent和landmark实际上是不同的物联网设备，能够接入OneNET云平台。云平台上已经部署了控制策略，能够实时获取车和停车位的状态(车的位置和速度，停车位的位置)，然后发送指令控制agent进行下一步动作(运动方向和速度)，agent接收指令后做出动作，此后agent和landmark需要将当前状态再发送到云平台等待下一步指令，如此循环往复直到agent到达landmark的位置。需要注意的是，agent在执行动作时候应当要避免与其他agent碰撞，在实际停车场景下表现为汽车防碰撞避免事故的发生。

考虑到2D数字孪生体仿真模型自动停车场景下汽车的速度方向是万向的，在实际场景中可以通过圆形托盘移动汽车实现。在未使用其他工具的实际场景中，如图4所示，通过unity3d构建了一个3D数字孪生自动停车模型。该模型中，对于给定的停车场，已经停放了若干车辆并且还剩余一些空余车位，陆续到达此停车场的需泊车辆需要寻找空余车位进行停车，在此过程中也需要防碰撞。

数字孪生自动停车模型可具体分为云端控制策略模型、仿真模型和通信模型。控制策略模型根据系统目的需要将汽车停到空余停车位上，汽车指定的动作为二维矢量推力。2D场景中，这个二维矢量推力可以直接控制agent按任意方向行驶到达停车位；3D场景中，与车身平行方向的力推动汽车前进或后退，与车身垂直方向的力控制车前轮转角，使汽车改变方向，二者结合使得汽车可以实际意义上行驶。控制策略可使用强化学习的maddpg、ppo等算法。仿真器模型即对真实停车场景进行建模，包含设备状态和物理环境。设备状态即汽车的速度、方向、位置以及碰撞力，物理环境即停车位的位置、其他车辆的状态信息。强化学习算法对模拟真实停车场景的数字孪生体进行控制策略的训练，每个真实设备的数字孪生体汽车模型，在训练时需要观测其他汽车的位置和速度等信息，上传到OneNET云平台实时展示效果，如图5所示。训练好的模型可以用来控制这个数字孪生体以及真实的物联网汽车。控制策略根据需泊的车的速度和方向计算出需泊的车的下一步的动作，并将动作命令即二维矢量推力通过云平台发送给数字孪生体或者真实的物联网汽车，汽车接收到云平台的指令后做出相应的动作并再次将自身状态和周围环境上报到控制策略部分，循环进行。

如图6所示，强化学习的maddpg算法在控制汽车防碰撞到达停车位的效果显著。在数字孪生场景中，maddpg算法是集中式的学习，分布式的应用。也就是说，在训练的时候，除了需泊车辆的状态信息，还需要使用一些额外的信息(在停车场景中，即停车位的位置和其他车辆的状态信息)，但是在应用的时候，只需要知道局部信息(即需泊车辆的方向和速度)。训练时，所有车辆的状态信息都是已知的，环境就是稳定的。所以需要估计其他智能体的策略，这个过程可以通过不断通信获取，也可以通过对其他智能体的策略进行估计来实现。由于每个需泊车辆的策略都是在动态更新的，导致针对特定的需泊车辆来说，环境是不稳定的，易导致其针对其他需泊车辆过拟合出一个脆弱的强策略，这里可以使用策略集合的方式，即每一个需泊车辆的策略是一个多策略集合，每次训练时只用其中一个子策略，然后最大化其策略集合的整体奖励即可。图7为maddpg算法的伪代码。

实施例1

本系统的Unity3D项目是基于2018.4.17版本构建的，以.exe文件可执行文件的形式发布。双击可以运行打包好的CarPark.exe程序来启动Unity3D项目。如图8所示。启动CarPark.exe程序时弹出设置框如图9所示。

控制算法采用Python语言编写，会在本地使用websocket与Unity3D程序建立连接，通过MADDPG多智能体强化学习算法控制虚拟小车的运动。回到Unity3D程序界面，可以看到小车已经能在算法的控制下进行防碰撞的自动泊车入位，如图10所示。一段时间以后，三辆小车都已经找到空余车位并成功停入车位，且过程中没有发生碰撞，如图11所示。而且汽车会将实时的其他车辆的位置信息发送到OneNET平台上，这些数据都可以被采集用作后续的数据分析和可视化等工作，如图12所示。

以上实施例只是为了说明本发明技术构思及特点，让本领域普通技术人员能够了解本发明内容并据以实施，并不能以此限制本发明保护范围。凡是根据本发明内容的实质所作的等效变化和修饰，都应涵盖在本发明保护范围内。

Claims

1.一种基于强化学习的数字孪生智慧停车方法，其特征在于，该方法包括以下步骤：

步骤1：对实际停车场景基于物理方法创建2D数字孪生体仿真模型和3D数字孪生体仿真模型，以支持智慧城市实际停车场景信物融合系统建模，所述系统建模包括真实物联网设备状态属性、物理环境和物理过程；对实际停车场景创建2D数字孪生体仿真模型和3D数字孪生体仿真模型，模型因素包括环境观测、物理数据；通过强化学习算法训练出对数字孪生体仿真模型进行控制的控制策略；通信模型对云端和终端的连接关系和通信协议建模；数据采集模型对虚拟场景中的所有信息数据进行采集；

所述2D数字孪生体仿真模型采用OpenAI Gym创建，所述3D数字孪生体仿真模型采用unity3d平台创建；所述强化学习算法选择maddpg算法；

所述环境观测由空余停车位数量和位置、最近停车位位置、其他车辆位置和速度、其他避免碰撞物体位置构成，用于描述真实设备所处环境和需观测的数据；

所述物理数据由设备位置、速度、方向、防碰撞范围构成，用于描述真实停车设备自身属性和防碰撞限制因素；

所述控制策略由控制算法、动作选择、状态控制构成，用于描述物联网设备控制策略；其中，

所述控制算法包括设备的策略优化、策略选择；

所述动作选择能够设定真实停车设备的动作，包括速度大小和方向，支持连续和离散的动作空间，将控制算法的控制指令转化为真实设备能够识别和执行的动作命令；

所述状态控制能够反馈真实设备的所处状态，并将这些状态提供给控制算法使用进行训练和分析；

所述通信模型由云平台选择、通信协议构成，用于描述真实停车设备向云端发送实时数据信息和云端向真实停车设备发送控制信息；

所述信息数据由状态信息、动作信息和环境信息构成，用于描述虚拟场景下的环境因素和真实设备自身状态属性；所述环境因素由空余停车位数量和位置、最近停车位位置、其他车辆位置和速度、其他避免碰撞物体位置构成，用于描述真实设备所处环境和需观测的数据；

所述状态属性由设备位置、速度、方向、防碰撞范围构成，用于描述真实停车设备自身属性和防碰撞限制因素；

步骤2：通过停车场景的物理数据和实时环境，对步骤1中创建的数字孪生体仿真模型进行强化学习训练，所述训练包括环境观测、策略选择、动作选择、参数控制、状态控制，得到的控制策略模型；所述策略选择采用集中式学习，分布式应用；用θ＝[θ₁,…,θ_n]表示n个智能体策略的参数，π＝[π₁,···,π_n]表示n个智能体的策略，针对第i个智能体的累积期望奖励：

式中，r_i,t为第i个智能体第t步的奖励，γ^t为第t步的折扣因子，是为了将更远的状态的奖励权重进行弱化；状态s服从策略选择后的状态空间，动作a_i服从智能体策略选择的动作空间；

步骤3：通信模型对协同控制策略、仿真环境和终端物联网设备模型之间的连接关系和通信协议进行建模，使用步骤2中训练停车场景得到的控制策略模型，通过所述通信模型对真实停车场景进行应用；

步骤4：数据采集模型对虚拟场景中的所有数据进行采集，包括数字孪生体汽车物理信息和环境信息数据；整个过程中采集的数据应用于后续的数据可视化与数据挖掘操作。

2.根据权利要求1所述的方法，其特征在于，针对随机策略，求策略梯度为：

式中，o_i表示第i个智能体的观测，x＝[o₁,…,o_n]表示观测向量，即状态；

表示第i个智能体集中式的状态-动作函数；由于每个智能体独立学习自己的

函数，因此每个智能体有不同的奖励函数，完成合作或竞争任务。

3.根据权利要求2所述的方法，其特征在于，针对确定性策略

梯度公式为：

式中，

表示目标网络，μ′＝[μ′₁，…，μ′_n]为目标策略具有滞后更新的参数θ′_j；其他智能体的策略采用拟合逼近的方式得到，而不需要通信交互；

如果知道所有智能体的动作，环境就是稳定的，就算策略在不断更新环境也是稳定的，因为模型动力学是为稳定的：

P(s′∣s，a₁,…,a_n,π₁,…，π_n)＝P(s′∣s′a₁,…,a_n)＝P(s′∣s,a₁，…，a_n，π′₁，…，π′_n)；

式中，P(s′∣s,a₁,…，a_n，π₁,…，π_n)为从状态s，遵循策略π₁，…，π_n，依次经过动作a₁，…，a_n变成状态s′的概率；

P(s′∣s，a₁，…,a_n)为从状态s，依次经过动作a₁，…，a_n变成状态s′的概率；

P(s′∣s,a₁,…,a_n,π′₁,…,π′_n)为从状态s，遵循策略π′₁,…,π′_n，依次经过动作a₁,…,a_n变成状态s′的概率。

4.根据权利要求1所述的方法，其特征在于，所述策略优化采用策略集合优化方法：第i个智能体的策略μ_i由一个具有K个子策略的集合构成，在每一个训练episode中只用一个子策略

对每一个智能体，最大化其策略集合的整体奖励：

式中，r_i,t为第i个智能体第t步的奖励，γ^t为第t步的折扣因子；K服从均匀分布(1，K)；

为每一个子策略k构建一个记忆存储

式中，K为子策略的集合，动作空间a服从记忆存储集合，θ_i为第i个智能体策略的参数，μ_i为第i个智能体的策略，o_i表示第i个智能体的观测，a_i表示第i个智能体的动作。

5.根据权利要求1所述的方法，其特征在于，所述通信模型的云平台能够接收和处理数字孪生体仿真模型和真实设备的实时物理数据，能够通过控制算法下发控制命令给真实设备并观测其反馈；云平台选择指定中移物联网OneNET云平台；

6.一种基于强化学习的数字孪生智慧停车系统，其特征在于，所述系统采用如权利要求1-5之任一项所述的基于强化学习的数字孪生智慧停车方法，所述系统将数字孪生智慧停车系统分为云-端控制策略模型、数字孪生体仿真模型、云-端通信模型和数据采集模型；其中，

所述数据采集模型对虚拟场景中的所有数据进行采集，包括但不限于数字孪生体汽车物理信息和环境信息数据；整个过程中采集的数据应用于后续的数据可视化与数据挖掘操作；