CN112906126A - 基于深度强化学习的车辆硬件在环仿真训练系统及方法 - Google Patents

基于深度强化学习的车辆硬件在环仿真训练系统及方法 Download PDF

Info

Publication number
CN112906126A
CN112906126A CN202110054199.6A CN202110054199A CN112906126A CN 112906126 A CN112906126 A CN 112906126A CN 202110054199 A CN202110054199 A CN 202110054199A CN 112906126 A CN112906126 A CN 112906126A
Authority
CN
China
Prior art keywords
vehicle
virtual
data
real
simulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110054199.6A
Other languages
English (en)
Other versions
CN112906126B (zh
Inventor
余贵珍
廖亚萍
周彬
李涵
陈冠宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110054199.6A priority Critical patent/CN112906126B/zh
Publication of CN112906126A publication Critical patent/CN112906126A/zh
Application granted granted Critical
Publication of CN112906126B publication Critical patent/CN112906126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于无人驾驶车辆仿真测试领域,特别涉及一种基于深度强化学习的车辆硬件在环仿真训练系统及方法。本系统包括虚拟仿真单元和实车控制器,所述虚拟仿真单元包括仿真车辆模块、仿真控制模块、实车轨迹数据库、仿真传感器模块、重置接口以及启停接口。本发明通过对实车控制器和虚拟仿真场景进行联合仿真训练,实现深度强化学习运动规划模型在实车无人驾驶系统的有效运行,从而解决深度强化学习模型无法从虚拟仿真车辆到无人驾驶实车进行有效移植的问题。

Description

基于深度强化学习的车辆硬件在环仿真训练系统及方法
技术领域
本发明属于无人驾驶车辆仿真测试领域,特别涉及一种基于深度强化学习的车辆硬件在环仿真训练系统及方法。
背景技术
运动规划模块是车辆实现无人驾驶的重要技术环节,在无人驾驶感知-运动(规划)-控制-执行技术链中起到承上启下的重要作用,相当于驾驶员的大脑。过去,无人驾驶车辆的运动规划研究主要采用规则式方法、模型式方法和深度学习数据“喂养式”方法。由于规则式和模型式方法仅能针对特定简单场景进行参数建模,不适用于复杂多变的城市行车场景,而基于深度学习的运动规划模型不仅需要采集大量的场景数据进行学习,才能保障车辆在这些场景中安全运行,而且建立的模型无法适用于未学习的场景。鉴于上述这些方法存在的不足之处,学者们提出基于深度强化学习的运动规划建模方法,利用深度强化学习结合深度学习的高维数据特征提取优势和强化学习的自学习优势,同时弥补上述三种方法的不足。
许多学者将深度强化学习应用于构建无人驾驶跟车、换道、车道保持等模型,并使用仿真软件对构建的深度强化学习模型进行成千上万次的试错训练。采取仿真训练的方式不仅减少大量的人力和财力耗费,同时避免了碰撞事故和人员伤亡的发生。如中国专利CN201811092800.5公开了“一种基于强化学习网络训练的自动泊车方法”,其利用仿真方法训练自动泊车强化学习模型。中国专利CN201910283506.0公开了“一种基于深度强化学习的防碰撞控制方法”,其利用本车参数和环境车辆参数,构建虚拟环境模型训练获取了深度强化学习防碰撞方法。这些方法在仿真软件中取得了不错的训练和测试效果,但他们主要是将仿真方法用于验证算法的可行性,而并未考虑模型在实车控制器上的应用情况。
发明内容
针对上述问题,本发明提出一种基于深度强化学习的车辆运动规划硬件在环仿真训练系统及方法,通过对实车控制器和虚拟仿真场景进行联合仿真训练,实现深度强化学习运动规划模型在实车无人驾驶系统的有效运行,从而解决深度强化学习模型无法从虚拟仿真车辆到无人驾驶实车进行有效移植的问题。
为实现上述目的,本发明提供了一种基于深度强化学习的车辆运动规划硬件在环仿真训练系统,包括虚拟仿真单元和实车控制器,所述虚拟仿真单元包括仿真车辆模块、仿真控制模块、实车轨迹数据库、仿真传感器模块、重置接口以及启停接口;
所述仿真车辆模块包括运用虚拟引擎软件通过物理部件绘制、组装而成且与实车车型机械原理相匹配的虚拟车辆,所述虚拟车辆包括由所述仿真控制模块控制的虚拟本车车辆和由所述实车轨迹数据库中的实车轨迹数据控制的虚拟环境车辆;
所述仿真传感器模块包括虚拟传感器和虚拟传感器数据输出接口;所述虚拟传感器用于采集道路环境地图数据、虚拟环境车辆运行数据以及虚拟本车车辆运行数据;
所述重置接口用于接收所述实车控制器的重置指令,以进行所述虚拟仿真单元的环境重置,所述环境重置指结束当前所述虚拟仿真单元中所有模块的运行状态,回归重置指令所要求的状态;
所述启停接口用于接收所述实车控制器的启动指令和停止指令,以进行所述虚拟仿真单元的环境启动和停止,所述环境启动和停止指控制所述虚拟仿真单元各模块的启动工作和停止工作;
所述实车控制器包括深度网络学习模块、虚拟传感器数据输入接口、数据处理模块以及动作输出接口,所述虚拟传感器数据输入接口与所述虚拟传感器数据输出接口连接;所述数据处理模块用于对从所述虚拟传感器数据输入接口接收的数据进行处理,并将处理后数据发送至所述深度网络学习模块,计算输出控制指令;
所述仿真控制模块包括控制指令接收接口,其与所述动作输出接口连接,以接收所述控制指令。
优选地,所述控制指令包括所述虚拟本车车辆的的油门踏板行程控制指令、电制动行程控制指令、前轮转角控制指令、档位控制指令和驻车状态控制指令。
优选地,所述实车控制器与所述虚拟仿真单元的各接口通过UDP/TCP进行数据传输。
优选地,所述虚拟传感器包括视觉传感器、激光雷达、毫米波雷达和全球定位系统中的一种或多种。
优选地,所述虚拟传感器安装于所述虚拟本车车辆上。
优选地,所述道路环境地图包括结构化道路环境地图和非结构化道路环境地图,所述结构化道路环境地图包括高速公路环境地图、城市道路环境地图和郊区道路环境地图;所述非结构化道路环境地图包括乡村道路环境地图、矿区道路环境地图和港口物流道路环境地图。
本发明还提供了一种利用上述系统的基于深度强化学习的车辆硬件在环仿真训练方法,包括如下步骤:
S1:在所述实车控制器的深度网络学习模块中植入深度强化学习算法,并与所述虚拟仿真单元进行通信连接;
S2:初始化所述深度强化学习算法的参数,同时通过启停接口向所述虚拟仿真单元发送启动指令,启动所述虚拟仿真单元,使得所述虚拟仿真单元各模块处于待工作状态;
S3:进入所述深度强化学习算法的第j回合训练,所述实车控制器通过重置接口向所述虚拟仿真单元发送重置指令,控制所述仿真车辆模块进行虚拟车辆运动状态重置,其中将所述虚拟本车车辆的运动状态重置为静止状态,将所述虚拟环境车辆的运行状态重置为实车轨迹数据Ψ的第i个状态点对应的状态,i=1,2,...m,实车轨迹数据Ψ是从实车轨迹数据库中随机筛选出来的,Ψ=1,2,...,n;所述实车轨迹数据库中存储有n条实车轨迹数据,每条实车轨迹数据由m个状态点按照时间序列排列组成;
S4:所述仿真传感器模块通过虚拟传感器数据输出接口向所述实车控制器发送时刻T对应的数据集合ST,包括时刻T对应的道路环境地图数据、虚拟环境车辆运行状态数据以及虚拟本车车辆运行状态数据;
S5:利用所述数据处理模块对数据集合ST进行处理,获取所述深度强化学习算法所需的状态数组S′T
S6:将状态数组S′T输入所述深度强化学习算法,计算输出控制指令aT,并将控制指令aT发送至所述仿真控制模块;
S7:所述仿真控制模块根据控制指令aT控制所述虚拟本车车辆运行Δt时间后,所述仿真传感器模块再次向所述实车控制器发送时刻T+Δt对应的数据集合ST+Δt,此时虚拟环境车辆运行状态是实车轨迹数据Ψ的第i+1个状态点对应的状态,之后进一步获取时刻T+Δt对应的状态数组S′T+Δt
S8:基于状态数组S′T+Δt获取时刻T+Δt的碰撞时间TTC、车头时距值THW、车辆加速度变化量jerk值,进而输入所述深度强化学习算法的奖励函数r中,计算出训练回合j的奖励值rT
S9:将{S′T,aT,S′T+Δt,rT}作为一个样本存储至所述深度强化学习算法的样本经验池中,判断样本经验池中的样本个数是否达到h;如果是,则利用经验优先和重要性采样方法筛选出Δh个样本,并对所述深度强化学习算法进行参数优化;否则直接进入步骤S10;
S10:判断所述虚拟本车车辆与所述虚拟环境车辆是否发生碰撞,或者所述虚拟环境车辆的运行状态是否已经为实车轨迹数据Ψ的第m个状态点对应的状态,若达到其中一个判断条件,则训练回合j结束,进入步骤S11;否则,设置ST=ST+1,i=i+1,进入步骤S5;
S11:判断训练回合数j是否满足达到最大回合数;如果否,则进入步骤S3,开始第j=j+1回合训练;如果是,则所述实车控制器通过启停接口向虚拟仿真单元发送停止指令,关闭虚拟仿真单元各模块工作状态,训练结束。
进一步,所述深度强化学习算法为所述车辆运动规划算法Φ,所述奖励函数r=rsafe+refficient+rcomfot
rsafe为车辆运行安全性奖励函数:
Figure BDA0002900308450000041
其中,TTC_threshold表示碰撞事件阈值,其从实车轨迹数据中提取获得,即对实车轨迹数据库中的碰撞时间TTC数据集合Nsafe做概率密度累积分布,将概率密度累积分布的百分之五分位处所对应的TTC值作为碰撞时间阈值TTC_threshold;
refficient为高效性奖励函数:
refficient=-(THW-E(THW))2
其中,E(THW)表示车头时距THW的期望值,其从实车轨迹数据中提取获得,即对实车轨迹数据库中的车头时距THW数据集合Nefficient做统计概率分布,并用对数分布函数f(THW,μ,σ)进行参数μ,σ拟合,得到
Figure BDA0002900308450000051
rcomfot为舒适性奖励函数:
Figure BDA0002900308450000052
其中,amin,amax分别表示车辆加速度的最小值和最大值,两者从实车轨迹数据中提取获得。
本发明的有益效果:
1)本发明将虚拟仿真场景和实车控制器融为一体,利用虚拟仿真场景的可操作性、便捷性优势为无人驾驶强化学习运动规划算法提供丰富的训练场景,同时直接使用实车控制器运行基于深度强化学习的车辆运动规划算法,避免出现算法对实车应用的不适应效果,提高算法的稳定性;
2)本发明的车辆运动规划算法中奖励函数的安全性、效率性和舒适性关键指标是由实车轨迹数据提取出的,且虚拟环境本车运动状态也是提取自实车轨迹数据,这使得车辆运动规划算法融入了真实场景下的车辆行驶特点,并保证了训练获取的模型对真实道路交通驾驶习惯的适应性。
附图说明
图1是本发明实施例的基于深度强化学习的车辆硬件在环仿真训练系统示意图;
图2是本发明实施例的虚拟本车车辆和虚拟环境车辆的运行示意图;
图3是本发明实施例的基于深度强化学习的车辆硬件在环仿真训练方法流程图。
具体实施方式
下面结合附图和实施例进一步描述本发明,应该理解,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,本实施例提供的基于深度强化学习的车辆硬件在环仿真训练系统,包括虚拟仿真单元和实车控制器,其中虚拟仿真单元包括仿真车辆模块、仿真控制模块、实车轨迹数据库、仿真传感器模块、重置接口以及启停接口;实车控制器配置有ubuntu操作系统、深度网络学习模块,虚拟传感器数据输入接口、数据处理模块和动作输出接口。
本发明的仿真车辆模块包括运用虚拟引擎软件通过物理部件绘制、组装而成的与实车车型机械原理相匹配的虚拟车辆。所述虚拟车辆包括由仿真控制模块进行直接控制的虚拟本车车辆和由实车轨迹数据库中实车轨迹数据直接控制的虚拟环境车辆两种车辆类型,如图2所示。所述实车轨迹数据库中存储有n条实车轨迹数据,每条实车轨迹数据均由m个状态点按照时间序列排列组成。
本发明的仿真传感器模块包括虚拟传感器和与实车控制器的虚拟传感器数据输入接口连接的虚拟传感器数据输出接口。在本实施例中,虚拟传感器包括视觉传感器、激光雷达、毫米波雷达和全球定位系统(GPS),用于采集道路环境地图数据、虚拟环境车辆运行数据以及虚拟本车车辆运行数据,并通过虚拟传感器数据输出接口传输至实车控制器。在本实施例中,将虚拟传感器安装于虚拟本车车辆上。此外,应该理解,本领域技术人员可以根据需求自由组合搭配各种虚拟传感器或增加其他传感器。
本实施例中的道路环境地图数据括结构化道路环境地图和非结构化道路环境地图,其中,结构化道路环境地图包括高速公路环境地图、城市道路环境地图和郊区道路环境地图;非结构化道路环境地图包括乡村道路环境地图、矿区道路环境地图和港口物流道路环境地图。
本发明的仿真控制模块内置与实车控制器的动作输出接口连接的控制指令接收接口,用于接收实车控制器输出的控制指令,以控制虚拟本车车辆的的油门踏板行程、电制动行程、前轮转角、档位、驻车状态,实现虚拟本车车辆运行。
本发明的所述重置接口用于接收实车控制器的重置指令,以进行整个虚拟仿真单元的环境重置,所述环境重置指结束当前虚拟仿真单元中所有模块运行状态,回归重置指令所要求的状态。
本发明的启停接口用于接收实车控制器启动指令和停止指令,进行整个虚拟仿真单元的环境启动和停止,所述环境启动和停止指控制各模块启动工作和停止工作。
在本实施例中,实车控制器与虚拟仿真单元的各接口间通过UDP/TCP进行数据传输。
如图3所示,本实施例还提供了一种利用上述系统的环仿真训练方法,包括如下步骤:
S1:在实车控制器中通过Ubuntu操作系统植入基于深度强化学习的车辆运动规划算法Φ,并与虚拟仿真单元进行UDP/TCP通信连接;所述基于深度强化学习的车辆运动规划算法Φ中的奖励函数r是由车辆运行安全性奖励函数rsafe、高效性奖励函数refficient、舒适性奖励函数rcomfot三大部分建立而成,具体建立方法:
安全性奖励函数rsafe:从实车轨迹数据中提取车辆运行安全性评价指标的数据集合Nsafe,所述车辆运行安全性评价指标指碰撞时间TTC,并对TTC的数据集合Nsafe做概率密度累积分布,然后将概率密度累积分布为百分之五分位处所对应的TTC值作为碰撞时间阈值TTC_threshold,进而获取安全性奖励函数为:
Figure BDA0002900308450000071
高效性奖励函数refficient:从实车轨迹数据中提取车辆运行高效性评价指标的数据集Nefficient,所述车辆运行安全性评价指标指车头时距THW,并对THW的数据集合Nefficient做统计概率分布,并用对数分布函数f(THW,μ,σ)进行参数μ,σ拟合,得到THW期望值
Figure BDA0002900308450000072
进而获取高效性奖励函数为:refficient=-(THW-E(THW))2
舒适性奖励函数rcomfot:选取车辆加速度变化量jerk作为舒适性评价指标,从实车轨迹数据中提取车辆加速度阈值范围amin,amax,获取舒适性奖励函数为:
Figure BDA0002900308450000081
基于上述三部分奖励函数,获取车辆运动规划算法Φ中的奖励函数r=rsafe+refficient+rcomfot
S2:初始化实车控制器中的算法Φ的参数,同时通过启停接口向虚拟仿真单元发送启动指令,启动虚拟环境,使得虚拟仿真单元内部各模块处于待工作状态;
S3:进入算法Φ的第j回合训练,实车控制器通过重置接口向虚拟仿真单元发送重置指令,控制仿真车辆模块进行虚拟车辆运动状态重置,其中将虚拟本车车辆的运动状态重置为静止状态,将虚拟环境车辆的运行状态重置为实车轨迹数据Ψ的第i个状态点对应的状态,i=1,2,...m,实车轨迹数据Ψ是从实车轨迹数据库中随机筛选出来的,Ψ=1,2,...,n;实车轨迹数据库中存储有n条实车轨迹数据,每条实车轨迹数据由m个状态点按照时间序列排列组成;
S4:仿真传感器模块通过虚拟传感器数据输出接口向实车控制器发送时刻T对应的道路环境地图数据、虚拟环境车辆运行状态数据以及虚拟本车车辆运行状态数据构成的数据集合ST
S5:实车控制器的数据处理模块对数据集合ST进行处理,以获取算法Φ所需的状态数组S′T
S6:算法Φ收到状态数组S′T后,计算输出控制指令aT,并将该控制指令aT发送至仿真控制模块的控制指令接收接口,控制虚拟本车车辆运行;
S7:虚拟本车车辆按照控制指令aT运行Δt时间后,向实车控制器再次发送道路环境地图数据、虚拟环境车辆运行状态数据以及虚拟本车车辆运行状态数据构成的数据集合ST+Δt,此时虚拟环境车辆运行状态是实车轨迹数据Ψ的第i+1个状态点对应的状态;然后将数据集合ST+Δt输入实车控制器数据处理模块中进行处理以获取状态数组S′T+Δt
S8:基于状态数组S′T+Δt获取此时的碰撞时间TTC、车头时距值THW、车辆加速度变化量jerk值,进而输入奖励函数r中计算出控制指令aT获取的奖励值rT
S9:将上述获取的{S′T,aT,S′T+Δt,rT}作为一个样本存储至算法Φ中的样本经验池中,判断样本经验池中的样本个数是否达到h;如果是,则利用经验优先和重要性采样方法筛选出Δh个样本,基于Adam梯度优化算法对算法Φ进行参数优化;如果否,则直接进入步骤S10;
S10:判断该回合是否满足回合终止条件,所述回合终止条件指:虚拟本车车辆与虚拟环境车辆是否发生碰撞,或者虚拟环境车辆运行状态是否已经为实车轨迹数据Ψ的第m个状态点对应的状态;若达到其中一个判断条件,则训练回合j结束,进入步骤S11;否则,设置ST=ST+1,i=i+1,进入步骤S5;
S11:判断训练回合数j是否满足达到最大回合数;如果否,则进入步骤S3,开始第j=j+1回合的训练;如果是,则实车控制器通过启停接口向虚拟仿真单元发送停止指令,关闭虚拟仿真单元各模块工作状态,训练结束。
对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以对本发明的实施例做出若干变型和改进,这些都属于本发明的保护范围。

Claims (8)

1.一种基于深度强化学习的车辆运动规划硬件在环仿真训练系统,其特征在于,包括虚拟仿真单元和实车控制器,所述虚拟仿真单元包括仿真车辆模块、仿真控制模块、实车轨迹数据库、仿真传感器模块、重置接口以及启停接口;
所述仿真车辆模块包括运用虚拟引擎软件通过物理部件绘制、组装而成且与实车车型机械原理相匹配的虚拟车辆,所述虚拟车辆包括由所述仿真控制模块控制的虚拟本车车辆和由所述实车轨迹数据库中的实车轨迹数据控制的虚拟环境车辆;
所述仿真传感器模块包括虚拟传感器和虚拟传感器数据输出接口;所述虚拟传感器用于采集道路环境地图数据、虚拟环境车辆运行数据以及虚拟本车车辆运行数据;
所述重置接口用于接收所述实车控制器的重置指令,以进行所述虚拟仿真单元的环境重置,所述环境重置指结束当前所述虚拟仿真单元中所有模块的运行状态,回归重置指令所要求的状态;
所述启停接口用于接收所述实车控制器的启动指令和停止指令,以进行所述虚拟仿真单元的环境启动和停止,所述环境启动和停止指控制所述虚拟仿真单元各模块的启动工作和停止工作;
所述实车控制器包括深度网络学习模块、虚拟传感器数据输入接口、数据处理模块以及动作输出接口,所述虚拟传感器数据输入接口与所述虚拟传感器数据输出接口连接;所述数据处理模块用于对从所述虚拟传感器数据输入接口接收的数据进行处理,并将处理后数据发送至所述深度网络学习模块,计算输出控制指令;
所述仿真控制模块包括控制指令接收接口,其与所述动作输出接口连接,以接收所述控制指令。
2.根据权利要求1所述的系统,其特征在于,所述控制指令包括所述虚拟本车车辆的的油门踏板行程控制指令、电制动行程控制指令、前轮转角控制指令、档位控制指令和驻车状态控制指令。
3.根据权利要求1所述的系统,其特征在于,所述实车控制器与所述虚拟仿真单元的各接口通过UDP/TCP进行数据传输。
4.根据权利要求1所述的系统,其特征在于,所述虚拟传感器包括视觉传感器、激光雷达、毫米波雷达和全球定位系统中的一种或多种。
5.根据权利要求1-4之一所述的系统,其特征在于,所述虚拟传感器安装于所述虚拟本车车辆上。
6.根据权利要求1-4之一所述的系统,其特征在于,所述道路环境地图包括结构化道路环境地图和非结构化道路环境地图,所述结构化道路环境地图包括高速公路环境地图、城市道路环境地图和郊区道路环境地图;所述非结构化道路环境地图包括乡村道路环境地图、矿区道路环境地图和港口物流道路环境地图。
7.一种利用根据权利要求1-6之一所述系统的基于深度强化学习的车辆运动规划硬件在环仿真训练方法,其特征在于,包括如下步骤:
S1:在所述实车控制器的深度网络学习模块中植入深度强化学习算法,并与所述虚拟仿真单元进行通信连接;
S2:初始化所述深度强化学习算法的参数,同时通过启停接口向所述虚拟仿真单元发送启动指令,启动所述虚拟仿真单元,使得所述虚拟仿真单元各模块处于待工作状态;
S3:进入所述深度强化学习算法的第j回合训练,所述实车控制器通过重置接口向所述虚拟仿真单元发送重置指令,控制所述仿真车辆模块进行虚拟车辆运动状态重置,其中将所述虚拟本车车辆的运动状态重置为静止状态,将所述虚拟环境车辆的运行状态重置为实车轨迹数据Ψ的第i个状态点对应的状态,i=1,2,...m,实车轨迹数据Ψ是从实车轨迹数据库中随机筛选出来的,Ψ=1,2,...,n;所述实车轨迹数据库中存储有n条实车轨迹数据,每条实车轨迹数据由m个状态点按照时间序列排列组成;
S4:所述仿真传感器模块通过虚拟传感器数据输出接口向所述实车控制器发送时刻T对应的数据集合ST,包括时刻T对应的道路环境地图数据、虚拟环境车辆运行状态数据以及虚拟本车车辆运行状态数据;
S5:利用所述数据处理模块对数据集合ST进行处理,获取所述深度强化学习算法所需的状态数组S′T
S6:将状态数组S′T输入所述深度强化学习算法,计算输出控制指令aT,并将控制指令aT发送至所述仿真控制模块;
S7:所述仿真控制模块根据控制指令aT控制所述虚拟本车车辆运行Δt时间后,所述仿真传感器模块再次向所述实车控制器发送时刻T+Δt对应的数据集合ST+Δt,此时虚拟环境车辆运行状态是实车轨迹数据Ψ的第i+1个状态点对应的状态,之后进一步获取时刻T+Δt对应的状态数组S′T+Δt
S8:基于状态数组S′T+Δt获取时刻T+Δt的碰撞时间TTC、车头时距值THW、车辆加速度变化量jerk值,进而输入所述深度强化学习算法的奖励函数r中,计算出训练回合j的奖励值rT
S9:将{S′T,aT,S′T+Δt,rT}作为一个样本存储至所述深度强化学习算法的样本经验池中,判断样本经验池中的样本个数是否达到h;如果是,则利用经验优先和重要性采样方法筛选出Δh个样本,并对所述深度强化学习算法进行参数优化;否则直接进入步骤S10;
S10:判断所述虚拟本车车辆与所述虚拟环境车辆是否发生碰撞,或者所述虚拟环境车辆的运行状态是否已经为实车轨迹数据Ψ的第m个状态点对应的状态,若达到其中一个判断条件,则训练回合j结束,进入步骤S11;否则,设置ST=ST+1,i=i+1,进入步骤S5;
S11:判断训练回合数j是否满足达到最大回合数;如果否,则进入步骤S3,开始第j=j+1回合训练;如果是,则所述实车控制器通过启停接口向虚拟仿真单元发送停止指令,关闭虚拟仿真单元各模块工作状态,训练结束。
8.根据权利要求7所述的方法,其特征在于,所述深度强化学习算法为所述车辆运动规划算法Φ,所述奖励函数r=rsafe+refficient+rcomfot
rsafe为车辆运行安全性奖励函数:
Figure FDA0002900308440000031
其中,TTC_threshold表示碰撞事件阈值,其从实车轨迹数据中提取获得,即对实车轨迹数据库中的碰撞时间TTC数据集合Nsafe做概率密度累积分布,将概率密度累积分布的百分之五分位处所对应的TTC值作为碰撞时间阈值TTC_threshold;
refficient为高效性奖励函数:
refficient=-(THW-E(THW))2
其中,E(THW)表示车头时距THW的期望值,其从实车轨迹数据中提取获得,即对实车轨迹数据库中的车头时距THW数据集合Nefficient做统计概率分布,并用对数分布函数f(THW,μ,σ)进行参数μ,σ拟合,得到
Figure FDA0002900308440000041
rcomfot为舒适性奖励函数:
Figure FDA0002900308440000042
其中,amin,amax分别表示车辆加速度的最小值和最大值,两者从实车轨迹数据中提取获得。
CN202110054199.6A 2021-01-15 2021-01-15 基于深度强化学习的车辆硬件在环仿真训练系统及方法 Active CN112906126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110054199.6A CN112906126B (zh) 2021-01-15 2021-01-15 基于深度强化学习的车辆硬件在环仿真训练系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110054199.6A CN112906126B (zh) 2021-01-15 2021-01-15 基于深度强化学习的车辆硬件在环仿真训练系统及方法

Publications (2)

Publication Number Publication Date
CN112906126A true CN112906126A (zh) 2021-06-04
CN112906126B CN112906126B (zh) 2023-04-07

Family

ID=76113596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110054199.6A Active CN112906126B (zh) 2021-01-15 2021-01-15 基于深度强化学习的车辆硬件在环仿真训练系统及方法

Country Status (1)

Country Link
CN (1) CN112906126B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449823A (zh) * 2021-08-31 2021-09-28 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN113460090A (zh) * 2021-08-18 2021-10-01 清华大学 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备
CN113625594A (zh) * 2021-07-30 2021-11-09 中汽创智科技有限公司 一种自动驾驶仿真方法及仿真系统
CN113706725A (zh) * 2021-08-31 2021-11-26 的卢技术有限公司 一种基于unity ML插件的可移动环境的实现方法
CN114415737A (zh) * 2022-04-01 2022-04-29 天津七一二通信广播股份有限公司 一种无人机强化学习训练系统的实现方法
CN114758042A (zh) * 2022-06-14 2022-07-15 深圳智华科技发展有限公司 新的虚拟仿真引擎、虚拟仿真方法以及装置
CN114779764A (zh) * 2022-03-31 2022-07-22 北京航空航天大学 基于行车风险分析的车辆强化学习运动规划方法
CN117246345A (zh) * 2023-11-06 2023-12-19 镁佳(武汉)科技有限公司 一种生成式车辆控制方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803607A (zh) * 2018-06-08 2018-11-13 北京领骏科技有限公司 一种用于自动驾驶的多功能仿真系统
US20190129831A1 (en) * 2017-10-27 2019-05-02 Uber Technologies, Inc. Autonomous Vehicle Simulation Testing Systems and Methods
CN110837697A (zh) * 2019-10-25 2020-02-25 华南理工大学 一种智能车的智能交通仿真系统及其仿真方法
US20200372822A1 (en) * 2019-01-14 2020-11-26 Polixir Technologies Limited Training system for autonomous driving control policy
WO2021245200A1 (en) * 2020-06-03 2021-12-09 Five AI Limited Simulation in autonomous driving

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190129831A1 (en) * 2017-10-27 2019-05-02 Uber Technologies, Inc. Autonomous Vehicle Simulation Testing Systems and Methods
CN108803607A (zh) * 2018-06-08 2018-11-13 北京领骏科技有限公司 一种用于自动驾驶的多功能仿真系统
US20200372822A1 (en) * 2019-01-14 2020-11-26 Polixir Technologies Limited Training system for autonomous driving control policy
CN110837697A (zh) * 2019-10-25 2020-02-25 华南理工大学 一种智能车的智能交通仿真系统及其仿真方法
WO2021245200A1 (en) * 2020-06-03 2021-12-09 Five AI Limited Simulation in autonomous driving

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴付威等: "高速公路智能汽车自动超车控制算法仿真研究", 《计算机工程与设计》 *
李志航: "基于深度递归强化学习的无人自主驾驶策略研究", 《工业控制计算机》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113625594A (zh) * 2021-07-30 2021-11-09 中汽创智科技有限公司 一种自动驾驶仿真方法及仿真系统
CN113625594B (zh) * 2021-07-30 2024-04-26 中汽创智科技有限公司 一种自动驾驶仿真方法及仿真系统
CN113460090A (zh) * 2021-08-18 2021-10-01 清华大学 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备
CN113460090B (zh) * 2021-08-18 2023-09-12 清华大学 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备
CN113449823A (zh) * 2021-08-31 2021-09-28 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN113449823B (zh) * 2021-08-31 2021-11-19 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN113706725A (zh) * 2021-08-31 2021-11-26 的卢技术有限公司 一种基于unity ML插件的可移动环境的实现方法
CN114779764A (zh) * 2022-03-31 2022-07-22 北京航空航天大学 基于行车风险分析的车辆强化学习运动规划方法
CN114415737A (zh) * 2022-04-01 2022-04-29 天津七一二通信广播股份有限公司 一种无人机强化学习训练系统的实现方法
CN114758042A (zh) * 2022-06-14 2022-07-15 深圳智华科技发展有限公司 新的虚拟仿真引擎、虚拟仿真方法以及装置
CN117246345A (zh) * 2023-11-06 2023-12-19 镁佳(武汉)科技有限公司 一种生成式车辆控制方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112906126B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112906126B (zh) 基于深度强化学习的车辆硬件在环仿真训练系统及方法
CN112703459B (zh) 对抗场景的迭代生成
CN107169567B (zh) 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN104834776B (zh) 一种微观交通仿真中交通车辆建模仿真系统及方法
CN111795832B (zh) 一种智能驾驶车辆测试方法、装置及设备
CN110647056A (zh) 一种基于整车硬件在环的智能网联汽车环境模拟仿真系统
US20220198107A1 (en) Simulations for evaluating driving behaviors of autonomous vehicles
CN113076897B (zh) 智能网联汽车的博弈动态行驶安全测控方法及调控终端
CN111275249A (zh) 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN110371132A (zh) 驾驶员接管评估方法及装置
CN108597223A (zh) 一种用于智能车辆行为描述的数据处理方法和系统
EP4134769A1 (en) Method and apparatus for vehicle to pass through boom barrier
CN110824912B (zh) 训练用于生成自动驾驶策略的控制策略模型的方法和装置
KR20200082672A (ko) 게임서버 연계 자율주행 시뮬레이션 방법
CN113892088A (zh) 一种测试方法和系统
CN112784867A (zh) 利用合成图像训练深度神经网络
CN114179830A (zh) 一种自动驾驶车辆的自主超车方法和系统
CN110501167A (zh) 用于执行机动车辆与非机动车道路使用者的模拟碰撞场景的系统
Zhao et al. Virtual traffic simulator for connected and automated vehicles
CN116382150A (zh) 一种基于深度强化学习决策系统的远程驾驶方法和装置、电子设备
CN116895107A (zh) 车辆数据存储激活
CN116300853A (zh) 具有驾驶激进性的期望水平的自动化驾驶系统
CN114987495A (zh) 一种面向高度自动驾驶的人机混合决策方法
Merenda et al. Tiny machine learning techniques for driving behavior scoring in a connected car environment
US10977783B1 (en) Quantifying photorealism in simulated data with GANs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant