CN112419775B - 基于强化学习的数字孪生智慧停车方法及系统 - Google Patents

基于强化学习的数字孪生智慧停车方法及系统 Download PDF

Info

Publication number
CN112419775B
CN112419775B CN202010804756.7A CN202010804756A CN112419775B CN 112419775 B CN112419775 B CN 112419775B CN 202010804756 A CN202010804756 A CN 202010804756A CN 112419775 B CN112419775 B CN 112419775B
Authority
CN
China
Prior art keywords
digital twin
parking
model
strategy
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010804756.7A
Other languages
English (en)
Other versions
CN112419775A (zh
Inventor
陈铭松
黄红兵
韩定定
曹鹗
夏珺
周亮
焦阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010804756.7A priority Critical patent/CN112419775B/zh
Publication of CN112419775A publication Critical patent/CN112419775A/zh
Application granted granted Critical
Publication of CN112419775B publication Critical patent/CN112419775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/14Traffic control systems for road vehicles indicating individual free spaces in parking areas
    • G08G1/145Traffic control systems for road vehicles indicating individual free spaces in parking areas where the indication depends on the parking areas
    • G08G1/148Management of a network of parking areas
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • H04L67/125Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习的数字孪生智慧停车方法,为智慧城市信息物理融合物联网构建提供了一个智能、易用的系统模型。该智慧停车系统支持对实际场景下多车辆自动泊车过程进行实时控制,并能有效避免碰撞,降低人工停车时间成本,减少人为操作失误安全事故的发生。对于即将落地实施的智慧停车场项目都可以先采用数字孪生原型来进行可行性分析、算法测试、功能验证的任务;对于已经落地实现的智慧停车场项目,也可以使用数字孪生技术来实现数据的采集和报送,实现停车场数据的全周期管理,为后续数据资源的开发与利用提供帮助。

Description

基于强化学习的数字孪生智慧停车方法及系统
技术领域
本发明属于计算机技术领域,尤其涉及一种基于强化学习的数字孪生智慧停车方法及系统。
背景技术
随着人类社会逐渐数字信息化以及人工智能、物联网、云计算、5G等技术的发展,现阶段对信息-物理融合系统的需求也日益增加,以往的单个系统小范围设备间实施简单的“感执传控”难以满足人民和国家的需求,精确实时地认知、控制与协同的宏观多异构系统(例如涵盖智慧交通、智慧消防、智慧园区等异构系统的智慧城市系统)正逐渐成为信息-物理融合系统的发展方向。智慧城市信息-物理融合系统是在环境感知的基础上,深度融合计算、通信和控制能力的网络化物理设备互联系统,其通过反馈回路深度融合计算进程和物理进程,从而实现对智慧城市中物理实体安全、高效和实时的检测与控制。由于实时性需求的提高与整体系统的建设与调试难度日益增强,因此信息-物理融合系统的规模和复杂度日益升高,给安全可信的智慧城市系统设计带来了极大的挑战。现今城市交通事件频发,多数原因都是人为操作的失误,极少为不可控原因的影响。所以为了保护人民群众的生命安全,现代城市中亟待安全可信的智慧交通系统调控城市整体交通情况,最优化的实现。千里之行始于足下,防碰撞自动停车系统是智慧城市系统建设过程中不可或缺环节,智慧停车系统的安全可信直接关系到车主的人身安全与财产安全。因此,如何设计安全可信智慧停车系统成为了现阶段智慧城市建设的重点。
发明内容
本发明公开了一种基于强化学习的数字孪生智慧停车系统,为智慧城市信息物理融合物联网构建提供了一个智能、易用的系统模型。该智慧停车系统支持对实际场景下多车辆自动泊车过程进行实时控制,并能有效避免碰撞,降低人工停车时间成本,减少人为操作失误安全事故的发生。对于即将落地实施的智慧停车场项目都可以先采用数字孪生原型来进行可行性分析、算法测试、功能验证的任务;对于已经落地实现的智慧停车场项目,也可以使用数字孪生技术来实现数据的采集和报送,实现停车场数据的全周期管理,为后续数据资源的开发与利用提供帮助。
实现本发明目的的具体技术方案是:
本发明提供了一种基于强化学习的数字孪生智慧停车系统,该系统包括:云-端控制策略模型、数字孪生体仿真模型、云-端通信模型和数据采集模型。
所述云-端控制策略模型为使用强化学习算法训练停车过程得到的控制方法。
所述数字孪生体仿真模型为对实际停车场景进行建模仿真得到的数字孪生体。
所述云-端通信模型即根据云端控制策略对数字孪生体进行仿真控制,进而对实际停车场景进行智能控制。
所述数据采集模型对虚拟场景中的所有数据进行采集,包括但不限于数字孪生体汽车物理信息和环境信息数据。整个过程中采集的数据都可以应用于后续的数据可视化与数据挖掘等操作。
本发明还提供了一种基于强化学习的数字孪生智慧停车方法,该方法包括以下步骤:
步骤1:对实际停车场景基于物理方法创建2D和3D数字孪生体仿真模型,以支持智慧城市实际停车场景信物融合系统建模,所述系统建模包括真实物联网设备状态属性、物理环境和物理过程;
步骤2:通过停车场景的物理数据和实时环境,对步骤1中创建的停车场景数字孪生体仿真模型进行强化学习训练,包括环境观测、策略选择、动作选择、参数控制、状态控制;
步骤3:通信模型对协同控制策略、仿真环境和终端物联网设备模型之间的连接关系和通信协议进行建模,使用步骤2中训练停车场景得到的控制策略模型,通过通信模型对真实停车场景进行应用;
步骤4:数据采集模型对虚拟场景中的所有数据进行采集,包括但不限于数字孪生体汽车物理信息和环境信息数据;整个过程中采集的数据都可以应用于后续的数据可视化与数据挖掘等操作。
本发明步骤1中,对实际停车场景创建2D和3D数字孪生体仿真模型,所述模型因素包括环境观测、物理数据。
其中,所述2D模型采用OpenAI Gym创建,3D模型采用unity3d平台创建。
其中,所述环境观测由空余停车位数量和位置、最近停车位位置、其他车辆位置和速度、其他避免碰撞物体位置构成,用于描述真实设备所处环境和需观测的数据。
其中,所述物理数据由设备位置、速度、方向、防碰撞范围构成,用于描述真实停车设备自身属性和防碰撞限制因素。
步骤2中,通过强化学习算法训练出对数字孪生体仿真模型进行控制的控制策略。
其中,所述强化学习算法选择maddpg算法。
其中,所述控制策略由控制算法、动作选择、状态控制构成,用于描述物联网设备控制策略。
所述控制算法包括设备的策略选择、策略优化;
策略选择采用集中式学习,分布式应用。用θ=[θ1,…,θn]表示n个智能体策略的参数,π=[π1,·,πn]表示n个智能体的策略,针对第i个智能体的累积期望奖励
Figure GDA0003289861380000031
针对随机策略,求策略梯度为
Figure GDA0003289861380000032
其中oi表示第i个智能体的观测,x=[o1,…,on]表示观测向量,即状态。
Figure GDA0003289861380000033
表示第i个智能体集中式的状态-动作函数。由于每个智能体独立学习自己的
Figure GDA0003289861380000034
函数,因此每个智能体可以有不同的奖励函数(reward function),因此可以完成合作或竞争任务。
上述为随机策略梯度算法,下面拓展到确定性策略
Figure GDA0003289861380000035
梯度公式为:
Figure GDA0003289861380000036
Figure GDA0003289861380000037
where
Figure GDA0003289861380000038
Figure GDA0003289861380000039
表示目标网络,μ'=[μ'1,…,μ'n]为目标策略具有滞后更新的参数θ'j。其他智能体的策略可以采用拟合逼近的方式得到,而不需要通信交互。
可以看出critic借用了全局信息学习,actor只用局部观测信息。如果知道所有智能体的动作,环境就是稳定的,就算策略在不断更新环境也是稳定的,因为模型动力学是为稳定的:
P(s′∣s,a1,…,an1,…,πn)=P(s′∣s,a1,…,an)=P(s′∣s,a1,…,an,π′1,…,π′n)
策略优化采用策略集合优化方法。第i个智能体的策略μi由一个具有K个子策略的集合构成,在每一个训练episode中只用一个子策略
Figure GDA0003289861380000041
(简写为
Figure GDA0003289861380000042
)。对每一个智能体,最大化其策略集合的整体奖励
Figure GDA0003289861380000043
为每一个子策略k构建一个记忆存储
Figure GDA0003289861380000044
优化策略集合的整体效果,因此针对每一个子策略的更新梯度为:
Figure GDA0003289861380000045
所述动作选择能够设定真实停车设备的动作,包括速度大小和方向,支持连续和离散的动作空间,将控制算法的控制指令转化为真实设备能够识别和执行的动作命令。
所述状态控制能够反馈真实设备的所处状态,并将这些状态提供给控制算法使用进行训练和分析。
步骤3中,通信模型对云端和终端的连接关系和通信协议建模。
其中,所述通信模型由云平台选择、通信协议构成,用于描述真实停车设备向云端发送实时数据信息和云端向真实停车设备发送控制信息。
所述通信模型的云平台能够接收和处理数字孪生体仿真模型和真实设备的实时物理数据,能够通过控制算法下发控制命令给真实设备并观测其反馈;设备选择树莓派、Arduino系列单片机;云平台选择指定中移物联网OneNET云平台。
所述通信协议使用OneNET云平台MQTT协议,以支持算法控制、真实设备、数字孪生体仿真模型和云平台之间的相互通信过程。
步骤4中,数据采集模型对虚拟场景中的所有数据进行采集。
所述信息数据由状态信息、动作信息和环境信息构成,用于描述虚拟场景下的环境因素和真实设备自身状态属性。
所述环境因素由空余停车位数量和位置、最近停车位位置、其他车辆位置和速度、其他避免碰撞物体位置构成,用于描述真实设备所处环境和需观测的数据;
所述状态属性由设备位置、速度、方向、防碰撞范围构成,用于描述真实停车设备自身属性和防碰撞限制因素。
本发明还提出了一种基于强化学习的数字孪生智慧停车系统,所述系统采用上述的基于强化学习的数字孪生智慧停车方法,所述系统包括:云-端控制策略模型、数字孪生体仿真模型和云-端通信模型;其中,
所述云-端控制策略模型为使用强化学习算法训练停车过程得到的控制方法;
所述数字孪生体仿真模型为对实际停车场景进行建模仿真得到的数字孪生体;
所述云-端通信模型即根据云端控制策略对数字孪生体进行仿真控制,进而对实际停车场景进行智能控制;
所述数据采集模型对虚拟场景中的所有数据进行采集,包括但不限于数字孪生体汽车物理信息和环境信息数据。整个过程中采集的数据都可以应用于后续的数据可视化与数据挖掘等操作。
通过对所述数字孪生体进行强化学习训练,支持对实际场景下多车辆自动泊车过程进行实时控制。
本发明具有的有益效果在于:
本发明设计了一个基于强化学习的数字孪生智慧停车系统,为智慧城市信息物理融合物联网构建提供了一个智能、易用的系统模型。所述系统将数字孪生智慧停车系统分为云-端控制策略模型、数字孪生体仿真模型和云-端通信模型。云-端控制策略模型为使用强化学习算法训练停车过程得到的控制方法。数字孪生体仿真模型为对实际停车场景进行建模仿真得到的数字孪生体。云-端通信模型即根据云端控制策略对数字孪生体进行仿真控制,进而对实际停车场景进行智能控制。数据采集模型即对虚拟场景中的所有信息数据进行采集,包括但不限于数字孪生体汽车物理信息和环境信息数据。通过对数字孪生体进行强化学习训练,该智慧停车系统支持对实际场景下多车辆自动停车过程进行实时控制,并能有效避免碰撞,降低人工停车时间成本,减少人为操作失误安全事故的发生。
对于即将落地实施的智慧停车场项目都可以先采用数字孪生原型来进行可行性分析、算法测试、功能验证的任务;对于已经落地实现的智慧停车场项目,也可以使用数字孪生技术来实现数据的采集和报送,实现停车场数据的全周期管理,为后续数据资源的开发与利用提供帮助。
附图说明
图1是本发明流程图。
图2是本发明模型交互图。
图3是智慧停车2D数字孪生场景示意图。
图4是智慧停车3D数字孪生场景示意图。
图5是智慧停车3D数字孪生场景数据采集显示图。
图6是智慧停车强化学习控制算法模型。
图7是智慧停车强化学习控制算法流程。
图8-图12是智慧停车3D数字孪生场景演示效果图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明,本发明的保护内容不局限于以下实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。实施本发明的过程、条件、试剂、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
一种基于强化学习的数字孪生智慧停车方法,该方法包括以下步骤:
步骤1:对实际停车场景基于物理方法创建2D和3D数字孪生体仿真模型,以支持智慧城市实际停车场景信物融合系统建模,系统建模包括真实物联网设备状态属性、物理环境和物理过程。
步骤2:通过停车场景的物理数据和实时环境,对步骤1中创建的停车场景数字孪生体仿真模型进行强化学习训练,包括环境观测、策略选择、动作选择、参数控制、状态控制。
步骤3:通信模型对协同控制策略、仿真环境和终端物联网设备模型之间的连接关系和通信协议进行建模,使用步骤2中训练停车场景得到的控制策略模型,通过通信模型对真实停车场景进行应用。
步骤4:数据采集模型对虚拟场景中的所有数据进行采集,包括但不限于数字孪生体汽车物理信息和环境信息数据。整个过程中采集的数据都可以应用于后续的数据可视化与数据挖掘等操作。
下面结合具体实施例对本发明作进一步说明。
如图3所示,在2D数字孪生体仿真模型自动停车场景下,用小球表示的agent需要到达大球表示的landmark位置,这里小球表示实际场景下车的模型,大球表示停车位的模型。agent和landmark实际上是不同的物联网设备,能够接入OneNET云平台。云平台上已经部署了控制策略,能够实时获取车和停车位的状态(车的位置和速度,停车位的位置),然后发送指令控制agent进行下一步动作(运动方向和速度),agent接收指令后做出动作,此后agent和landmark需要将当前状态再发送到云平台等待下一步指令,如此循环往复直到agent到达landmark的位置。需要注意的是,agent在执行动作时候应当要避免与其他agent碰撞,在实际停车场景下表现为汽车防碰撞避免事故的发生。
考虑到2D数字孪生体仿真模型自动停车场景下汽车的速度方向是万向的,在实际场景中可以通过圆形托盘移动汽车实现。在未使用其他工具的实际场景中,如图4所示,通过unity3d构建了一个3D数字孪生自动停车模型。该模型中,对于给定的停车场,已经停放了若干车辆并且还剩余一些空余车位,陆续到达此停车场的需泊车辆需要寻找空余车位进行停车,在此过程中也需要防碰撞。
数字孪生自动停车模型可具体分为云端控制策略模型、仿真模型和通信模型。控制策略模型根据系统目的需要将汽车停到空余停车位上,汽车指定的动作为二维矢量推力。2D场景中,这个二维矢量推力可以直接控制agent按任意方向行驶到达停车位;3D场景中,与车身平行方向的力推动汽车前进或后退,与车身垂直方向的力控制车前轮转角,使汽车改变方向,二者结合使得汽车可以实际意义上行驶。控制策略可使用强化学习的maddpg、ppo等算法。仿真器模型即对真实停车场景进行建模,包含设备状态和物理环境。设备状态即汽车的速度、方向、位置以及碰撞力,物理环境即停车位的位置、其他车辆的状态信息。强化学习算法对模拟真实停车场景的数字孪生体进行控制策略的训练,每个真实设备的数字孪生体汽车模型,在训练时需要观测其他汽车的位置和速度等信息,上传到OneNET云平台实时展示效果,如图5所示。训练好的模型可以用来控制这个数字孪生体以及真实的物联网汽车。控制策略根据需泊的车的速度和方向计算出需泊的车的下一步的动作,并将动作命令即二维矢量推力通过云平台发送给数字孪生体或者真实的物联网汽车,汽车接收到云平台的指令后做出相应的动作并再次将自身状态和周围环境上报到控制策略部分,循环进行。
如图6所示,强化学习的maddpg算法在控制汽车防碰撞到达停车位的效果显著。在数字孪生场景中,maddpg算法是集中式的学习,分布式的应用。也就是说,在训练的时候,除了需泊车辆的状态信息,还需要使用一些额外的信息(在停车场景中,即停车位的位置和其他车辆的状态信息),但是在应用的时候,只需要知道局部信息(即需泊车辆的方向和速度)。训练时,所有车辆的状态信息都是已知的,环境就是稳定的。所以需要估计其他智能体的策略,这个过程可以通过不断通信获取,也可以通过对其他智能体的策略进行估计来实现。由于每个需泊车辆的策略都是在动态更新的,导致针对特定的需泊车辆来说,环境是不稳定的,易导致其针对其他需泊车辆过拟合出一个脆弱的强策略,这里可以使用策略集合的方式,即每一个需泊车辆的策略是一个多策略集合,每次训练时只用其中一个子策略,然后最大化其策略集合的整体奖励即可。图7为maddpg算法的伪代码。
实施例1
本系统的Unity3D项目是基于2018.4.17版本构建的,以.exe文件可执行文件的形式发布。双击可以运行打包好的CarPark.exe程序来启动Unity3D项目。如图8所示。启动CarPark.exe程序时弹出设置框如图9所示。
控制算法采用Python语言编写,会在本地使用websocket与Unity3D程序建立连接,通过MADDPG多智能体强化学习算法控制虚拟小车的运动。回到Unity3D程序界面,可以看到小车已经能在算法的控制下进行防碰撞的自动泊车入位,如图10所示。一段时间以后,三辆小车都已经找到空余车位并成功停入车位,且过程中没有发生碰撞,如图11所示。而且汽车会将实时的其他车辆的位置信息发送到OneNET平台上,这些数据都可以被采集用作后续的数据分析和可视化等工作,如图12所示。
以上实施例只是为了说明本发明技术构思及特点,让本领域普通技术人员能够了解本发明内容并据以实施,并不能以此限制本发明保护范围。凡是根据本发明内容的实质所作的等效变化和修饰,都应涵盖在本发明保护范围内。

Claims (6)

1.一种基于强化学习的数字孪生智慧停车方法,其特征在于,该方法包括以下步骤:
步骤1:对实际停车场景基于物理方法创建2D数字孪生体仿真模型和3D数字孪生体仿真模型,以支持智慧城市实际停车场景信物融合系统建模,所述系统建模包括真实物联网设备状态属性、物理环境和物理过程;对实际停车场景创建2D数字孪生体仿真模型和3D数字孪生体仿真模型,模型因素包括环境观测、物理数据;通过强化学习算法训练出对数字孪生体仿真模型进行控制的控制策略;通信模型对云端和终端的连接关系和通信协议建模;数据采集模型对虚拟场景中的所有信息数据进行采集;
所述2D数字孪生体仿真模型采用OpenAI Gym创建,所述3D数字孪生体仿真模型采用unity3d平台创建;所述强化学习算法选择maddpg算法;
所述环境观测由空余停车位数量和位置、最近停车位位置、其他车辆位置和速度、其他避免碰撞物体位置构成,用于描述真实设备所处环境和需观测的数据;
所述物理数据由设备位置、速度、方向、防碰撞范围构成,用于描述真实停车设备自身属性和防碰撞限制因素;
所述控制策略由控制算法、动作选择、状态控制构成,用于描述物联网设备控制策略;其中,
所述控制算法包括设备的策略优化、策略选择;
所述动作选择能够设定真实停车设备的动作,包括速度大小和方向,支持连续和离散的动作空间,将控制算法的控制指令转化为真实设备能够识别和执行的动作命令;
所述状态控制能够反馈真实设备的所处状态,并将这些状态提供给控制算法使用进行训练和分析;
所述通信模型由云平台选择、通信协议构成,用于描述真实停车设备向云端发送实时数据信息和云端向真实停车设备发送控制信息;
所述信息数据由状态信息、动作信息和环境信息构成,用于描述虚拟场景下的环境因素和真实设备自身状态属性;所述环境因素由空余停车位数量和位置、最近停车位位置、其他车辆位置和速度、其他避免碰撞物体位置构成,用于描述真实设备所处环境和需观测的数据;
所述状态属性由设备位置、速度、方向、防碰撞范围构成,用于描述真实停车设备自身属性和防碰撞限制因素;
步骤2:通过停车场景的物理数据和实时环境,对步骤1中创建的数字孪生体仿真模型进行强化学习训练,所述训练包括环境观测、策略选择、动作选择、参数控制、状态控制,得到的控制策略模型;所述策略选择采用集中式学习,分布式应用;用θ=[θ1,…,θn]表示n个智能体策略的参数,π=[π1,···,πn]表示n个智能体的策略,针对第i个智能体的累积期望奖励:
Figure FDA0003312352190000021
式中,ri,t为第i个智能体第t步的奖励,γt为第t步的折扣因子,是为了将更远的状态的奖励权重进行弱化;状态s服从策略选择后的状态空间,动作ai服从智能体策略选择的动作空间;
步骤3:通信模型对协同控制策略、仿真环境和终端物联网设备模型之间的连接关系和通信协议进行建模,使用步骤2中训练停车场景得到的控制策略模型,通过所述通信模型对真实停车场景进行应用;
步骤4:数据采集模型对虚拟场景中的所有数据进行采集,包括数字孪生体汽车物理信息和环境信息数据;整个过程中采集的数据应用于后续的数据可视化与数据挖掘操作。
2.根据权利要求1所述的方法,其特征在于,针对随机策略,求策略梯度为:
Figure FDA0003312352190000022
式中,oi表示第i个智能体的观测,x=[o1,…,on]表示观测向量,即状态;
Figure FDA0003312352190000023
表示第i个智能体集中式的状态-动作函数;由于每个智能体独立学习自己的
Figure FDA0003312352190000024
函数,因此每个智能体有不同的奖励函数,完成合作或竞争任务。
3.根据权利要求2所述的方法,其特征在于,针对确定性策略
Figure FDA0003312352190000025
梯度公式为:
Figure FDA0003312352190000026
Figure FDA0003312352190000027
Figure FDA0003312352190000031
式中,
Figure FDA0003312352190000032
表示目标网络,μ′=[μ′1,…,μ′n]为目标策略具有滞后更新的参数θ′j;其他智能体的策略采用拟合逼近的方式得到,而不需要通信交互;
如果知道所有智能体的动作,环境就是稳定的,就算策略在不断更新环境也是稳定的,因为模型动力学是为稳定的:
P(s′∣s,a1,…,an1,…,πn)=P(s′∣s′a1,…,an)=P(s′∣s,a1,…,an,π′1,…,π′n);
式中,P(s′∣s,a1,…,an,π1,…,πn)为从状态s,遵循策略π1,…,πn,依次经过动作a1,…,an变成状态s′的概率;
P(s′∣s,a1,…,an)为从状态s,依次经过动作a1,…,an变成状态s′的概率;
P(s′∣s,a1,…,an,π′1,…,π′n)为从状态s,遵循策略π′1,…,π′n,依次经过动作a1,…,an变成状态s′的概率。
4.根据权利要求1所述的方法,其特征在于,所述策略优化采用策略集合优化方法:第i个智能体的策略μi由一个具有K个子策略的集合构成,在每一个训练episode中只用一个子策略
Figure FDA0003312352190000033
对每一个智能体,最大化其策略集合的整体奖励:
Figure FDA0003312352190000034
式中,ri,t为第i个智能体第t步的奖励,γt为第t步的折扣因子;K服从均匀分布(1,K);
为每一个子策略k构建一个记忆存储
Figure FDA0003312352190000035
优化策略集合的整体效果,因此针对每一个子策略的更新梯度为:
Figure FDA0003312352190000036
式中,K为子策略的集合,动作空间a服从记忆存储集合,θi为第i个智能体策略的参数,μi为第i个智能体的策略,oi表示第i个智能体的观测,ai表示第i个智能体的动作。
5.根据权利要求1所述的方法,其特征在于,所述通信模型的云平台能够接收和处理数字孪生体仿真模型和真实设备的实时物理数据,能够通过控制算法下发控制命令给真实设备并观测其反馈;云平台选择指定中移物联网OneNET云平台;
所述通信协议使用OneNET云平台MQTT协议,以支持算法控制、真实设备、数字孪生体仿真模型和云平台之间的相互通信过程。
6.一种基于强化学习的数字孪生智慧停车系统,其特征在于,所述系统采用如权利要求1-5之任一项所述的基于强化学习的数字孪生智慧停车方法,所述系统将数字孪生智慧停车系统分为云-端控制策略模型、数字孪生体仿真模型、云-端通信模型和数据采集模型;其中,
所述云-端控制策略模型为使用强化学习算法训练停车过程得到的控制方法;
所述数字孪生体仿真模型为对实际停车场景进行建模仿真得到的数字孪生体;
所述云-端通信模型即根据云端控制策略对数字孪生体进行仿真控制,进而对实际停车场景进行智能控制;
所述数据采集模型对虚拟场景中的所有数据进行采集,包括但不限于数字孪生体汽车物理信息和环境信息数据;整个过程中采集的数据应用于后续的数据可视化与数据挖掘操作;
通过对所述数字孪生体进行强化学习训练,支持对实际场景下多车辆自动泊车过程进行实时控制。
CN202010804756.7A 2020-08-12 2020-08-12 基于强化学习的数字孪生智慧停车方法及系统 Active CN112419775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010804756.7A CN112419775B (zh) 2020-08-12 2020-08-12 基于强化学习的数字孪生智慧停车方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010804756.7A CN112419775B (zh) 2020-08-12 2020-08-12 基于强化学习的数字孪生智慧停车方法及系统

Publications (2)

Publication Number Publication Date
CN112419775A CN112419775A (zh) 2021-02-26
CN112419775B true CN112419775B (zh) 2022-01-11

Family

ID=74844217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010804756.7A Active CN112419775B (zh) 2020-08-12 2020-08-12 基于强化学习的数字孪生智慧停车方法及系统

Country Status (1)

Country Link
CN (1) CN112419775B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434116B (zh) * 2021-06-01 2022-09-20 华东师范大学 一种面向周期控制器的以模式为基础的信物融合系统建模及验证方法
CN113596095B (zh) * 2021-06-30 2024-04-19 新奥数能科技有限公司 快速物联方法、装置、计算机设备及计算机可读存储介质
CN113590232B (zh) * 2021-08-23 2023-04-25 南京信息工程大学 一种基于数字孪生的中继边缘网络任务卸载方法
CN113495578B (zh) * 2021-09-07 2021-12-10 南京航空航天大学 一种基于数字孪生式训练的集群航迹规划强化学习方法
CN114080905B (zh) * 2021-11-25 2022-12-06 杭州乔戈里科技有限公司 基于数字双胞胎的采摘方法及云采摘机器人系统
CN114372645A (zh) * 2022-03-22 2022-04-19 山东大学 基于多智能体强化学习的供能系统优化方法及系统
CN114879536B (zh) * 2022-07-11 2022-09-16 山东交通学院 基于数字孪生技术获取悬架系统实时特性的方法和装置
CN116311878A (zh) * 2022-10-21 2023-06-23 广州金王科技股份有限公司 一种智能停车器控制方法及其控制系统
CN115657548A (zh) * 2022-10-25 2023-01-31 重庆邮电大学 一种基于模型预测控制和强化学习融合的自动泊车决策方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898255A (zh) * 2018-06-29 2018-11-27 河南聚合科技有限公司 一种基于数字化双胞胎的智慧社区运维监控仿真云平台
CN110454290A (zh) * 2019-07-02 2019-11-15 北京航空航天大学 一种基于数字孪生技术的汽车发动机管控方法
CN111526177A (zh) * 2020-03-27 2020-08-11 华东师范大学 面向智慧城市信息-物理融合的智能物联网系统构建方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101696929B1 (ko) * 2010-06-30 2017-02-01 현대모비스 주식회사 디지털 피에이에스 센서를 이용한 주차 제어 시스템 및 그 제어 방법
US10102555B2 (en) * 2012-09-04 2018-10-16 Autotrader.Com, Inc. Systems and methods for facilitating the purchase of one or more vehicles
US10614721B2 (en) * 2017-06-08 2020-04-07 International Business Machines Corporation Providing parking assistance based on multiple external parking data sources
US11954651B2 (en) * 2018-03-19 2024-04-09 Toyota Jidosha Kabushiki Kaisha Sensor-based digital twin system for vehicular analysis
CN108711311A (zh) * 2018-03-30 2018-10-26 斑马网络技术有限公司 停车辅助系统及其停车辅助方法
US10843689B2 (en) * 2018-06-13 2020-11-24 Toyota Jidosha Kabushiki Kaisha Collision avoidance for a connected vehicle based on a digital behavioral twin
CN110853746A (zh) * 2019-10-14 2020-02-28 边缘智能研究院南京有限公司 基于数字孪生的智慧医院系统及其构建方法
CN110920552B (zh) * 2019-11-15 2020-10-30 吉林大学 防止高速路上碰撞后发生连环事故的车辆安全系统及方法
CN111267866B (zh) * 2020-01-13 2022-01-11 腾讯科技(深圳)有限公司 信息处理方法、装置、介质及电子设备
CN111445720A (zh) * 2020-04-15 2020-07-24 中国电子科技集团公司第三十八研究所 一种基于数字孪生的室内停车方法及停车系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898255A (zh) * 2018-06-29 2018-11-27 河南聚合科技有限公司 一种基于数字化双胞胎的智慧社区运维监控仿真云平台
CN110454290A (zh) * 2019-07-02 2019-11-15 北京航空航天大学 一种基于数字孪生技术的汽车发动机管控方法
CN111526177A (zh) * 2020-03-27 2020-08-11 华东师范大学 面向智慧城市信息-物理融合的智能物联网系统构建方法

Also Published As

Publication number Publication date
CN112419775A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112419775B (zh) 基于强化学习的数字孪生智慧停车方法及系统
CN112389427B (zh) 车辆轨迹优化方法、装置、电子设备和存储介质
JP7150846B2 (ja) 自律車両のための物体相互作用予測システムおよび方法
Rauskolb et al. Caroline: An autonomously driving vehicle for urban environments
US11740624B2 (en) Advanced control system with multiple control paradigms
Zhao et al. A path planning method based on multi-objective cauchy mutation cat swarm optimization algorithm for navigation system of intelligent patrol car
US11891087B2 (en) Systems and methods for generating behavioral predictions in reaction to autonomous vehicle movement
CN111290399B (zh) 一种车队协同驾驶组队控制方法
CN111830977A (zh) 一种移动机器人自主导航软件框架及导航方法
CN111679660A (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN111267852B (zh) 一种车队协同驾驶巡航控制方法
CN111290400B (zh) 一种车队协同驾驶拆分控制方法
EP3891572A1 (en) Direct and indirect control of mixed- automata vehicle platoon
CN112784867A (zh) 利用合成图像训练深度神经网络
Artunedo et al. Advanced co-simulation framework for cooperative maneuvers among vehicles
Lienke et al. Core components of automated driving–algorithms for situation analysis, decision-making, and trajectory planning
Aguilar et al. Ten autonomous mobile robots (and even more) in a route network like environment
US11960292B2 (en) Method and system for developing autonomous vehicle training simulations
CN111267858B (zh) 一种车队协同驾驶换道控制方法
CN115164890A (zh) 一种基于模仿学习的群体无人机自主运动规划方法
Liu et al. Multi-agent collaborative adaptive cruise control based on reinforcement learning
Khoukhi An intelligent multi-agent system for mobile robots navigation and parking
CN112700001A (zh) 用于深度强化学习的认证对抗鲁棒性
CN112668692A (zh) 利用gan对模拟数据的真实感进行量化
Elallid et al. Deep Reinforcement Learning for Autonomous Vehicle Intersection Navigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant