CN113486871A - 基于深度图的无人车局部自主控制方法、装置和设备 - Google Patents

基于深度图的无人车局部自主控制方法、装置和设备 Download PDF

Info

Publication number
CN113486871A
CN113486871A CN202111043740.XA CN202111043740A CN113486871A CN 113486871 A CN113486871 A CN 113486871A CN 202111043740 A CN202111043740 A CN 202111043740A CN 113486871 A CN113486871 A CN 113486871A
Authority
CN
China
Prior art keywords
depth
unmanned vehicle
navigation
reward
depth map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111043740.XA
Other languages
English (en)
Other versions
CN113486871B (zh
Inventor
胡瑞军
张育林
郑永煌
李传详
梁庄
张琦
赵成
谌廷政
索相波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111043740.XA priority Critical patent/CN113486871B/zh
Publication of CN113486871A publication Critical patent/CN113486871A/zh
Application granted granted Critical
Publication of CN113486871B publication Critical patent/CN113486871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本申请涉及基于深度图的无人车局部自主控制方法、装置和设备,方法包括:获取无人车视野拍摄的深度图并提取深度图的深度特征矢量;将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;设计综合奖励函数;利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练;在真实物理环境中,利用训练好的所述导航神经网络对深度图像处理,输出无人车控制指令。上述方法提高了算法的泛化性能,保持较好的导航能力,环境适应性较强。

Description

基于深度图的无人车局部自主控制方法、装置和设备
技术领域
本申请涉及无人车视觉感知与智能控制技术领域,特别是涉及一种基于深度图的无人车局部自主控制方法、装置和设备。
背景技术
无人车的导航通常包括全局导航和局部导航。全局导航是指根据全局地图为无人车规划出一条从起始位置到目标位置的安全路径,其通常需要依赖全局地图构建和离线的路径规划,具有全局最优性,常用的全局路径规划算法包括栅格法、A*算法、快速搜索随机数法(RRT)、人工势场法、粒子群算法和遗传算法等。局部导航是指无人车根据其自身对当前环境中障碍物的感知情况进行短期的避障决策和规划,其通常体现为运动控制指令序列,常用的规划方法包括人工势场法、模糊逻辑、动态窗口法和强化学习等。
局部导航要求具有较高的可靠性和快速性。端到端的反应式架构可以提供快速、可靠的导航。强化学习和深度强化学习不需要依赖环境模型和监督训练标签,而是通过Agent与环境的交互积累经验,并从经验中学习最优行为策略,因此其被越来越多的用于复杂场景下的无人车决策规划和智能控制。然而,在实现本发明的过程中,发明人发现无人车传统的基于深度强化学习的局部控制方法,仍然存在着环境适应性较差的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于深度图的无人车局部自主控制方法、一种基于深度图的无人车局部自主控制装置以及一种计算机可读存储设备,对导航的环境适应性较强。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种基于深度图的无人车局部自主控制方法,包括步骤:
获取无人车视野拍摄的深度图像;
对所述深度图像进行处理,提取得到深度特征矢量;
将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;
利用所述融合特征矢量和所述综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练;
在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将深度图像输入至训练好的所述导航神经网络,输出无人车控制指令。
另一方面,还提供一种基于深度图的无人车局部自主控制装置,包括:
深度矢量模块,用于获取无人车视野拍摄的深度图像;对所述深度图像进行处理,提取得到深度特征矢量;
矢量融合模块,用于将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
综合奖励模块,用于将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;
网络训练模块,用于利用所述融合特征矢量和所述综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练;
导航应用模块,用于在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将深度图像输入至训练好的所述导航神经网络,输出无人车控制指令。
又一方面,还提供一种无人车,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现任一项的上述基于深度图的无人车局部自主控制方法的步骤。
再一方面,还提供一种计算机可读存储设备,其上存储有计算机程序,计算机程序被处理器执行时实现任一项的上述基于深度图的无人车局部自主控制方法的步骤。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述基于深度图的无人车局部自主控制方法、装置和设备,通过仿真训练可以建立深度感知数据到最佳导航行为的数据模型,避免了基于大范围距离感知传感器的地图构建和路径规划,可以仅依靠局部的感知数据进行环境特征推理和导航行为规划。以低维度的深度特征矢量代替高维度的无人车视野深度数据进行网络训练,通过矢量形式的状态表征,减轻了网络参数对于环境、无人车成像稳定性的依赖,提高了基于深度强化学习的无人车局部导航算法的泛化性能,使得能够轻易的迁移到新的仿真环境或实物环境,保持较好的导航能力,环境适应性较强。
通过连续多个时刻的深度特征矢量和连续多个时刻的目标位置信息融合并输入到网络中,使得无人车当前时刻的行为决策能够兼顾过去时刻的障碍物和目标位置分布情况,即使当前视野内没有障碍物也能够继续以往时刻的避障行为,持续完成避障,有效地克服了无人车感知范围局限的问题。
此外,包含了目标趋近奖励、避障奖励和优化能量奖励的综合奖励机制,能够加速基于深度强化学习的无人车导航神经网络的训练,促进无人车快速学会跟随和避障行为,优化能量奖励能够引导无人车产生更短的运动轨迹。同时,所提出的综合奖励机制设计方法对于深度强化学习在其他无人车规划和控制领域的应用具有一定的参考价值。
附图说明
图1为一个实施例中基于深度图的无人车局部自主控制方法的总体设计示意图;
图2为一个实施例中基于深度图的无人车局部自主控制方法的流程示意图;
图3为一个实施例中深度特征矢量的获取流程示意图;
图4为一个实施例中基于深度强化学习方法的无人车导航神经网络的数据流示意图;
图5为一个实施例中无人车导航神经网络的数据推理层网络结构示意图;
图6为一个实施例中无人车安全性评估函数计算中的深度特征矢量元素权重系数曲线示意图;
图7为一个实施例中基于深度图的无人车局部自主控制装置的模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
强化学习和深度强化学习模仿生物对外界信号做出应激反应的现象,通过Agent与环境的交互经验和奖惩信号来学习系统状态到最优行为决策的映射模型。其优点在于不需要依赖环境模型和监督训练标签,而是通过Agent与环境的交互积累经验,并从经验中学习最优行为策略,因此其被越来越多的用于复杂场景下的无人车决策规划和智能控制。深度强化学习利用人工神经网络来表征系统的状态,将强化学习由离散空间的拓展到连续复杂空间。因此,利用深度强化学习可以直接利用连续的无人车感知数据进行导航控制规划,构建端到端的反应式导航方法,而避免了障碍物测量、识别、定位和建图等环节,其用于在线实时规划的时效性好的优势。
在实践中,发明人研究发现传统的无人车的局部导航技术中,存在着以下缺陷:其一,目前,基于深度强化学习的无人车局部导航的研究成为一个热点,但是能够成功应用于物理无人车的案例并不多。限制基于深度强化学习的无人车导航应用的一个重要问题是算法的泛化能力不足,也就是说训练后的算法对新的环境、新的感知数据的适应性较差,甚至其只能适用于训练地图。因此,泛化性是基于深度强化学习的导航方法设计中需要重点考虑的问题。
其二,不完全状态感知会导致深度强化学习算法收敛速度慢,难以学会最优策略,是深度强化学习应用于复杂环境导航的另一个难题。无人车局部导航依赖于在线感知情况,但是在大多数情况下,无人车对环境的感知比较有限,属于不完全状态感知。比如采用双目相机时,其深度视野通常只有90°的范围,并且当无人车运动时,无人车视野随无人车的位置姿态一起变化,因而会丢失先前的障碍物信息,使得无人车始终难以知道其周围的完整的障碍物分布,因此难以决策出最优的导航行为。需要通过一定的状态表征和数据供给机制弥补不完全感知的挑战。
综上,本申请针对无人车传统的局部导航方法中,仍然存在着的环境适应性较差的技术问题,提供了一种对导航的环境适应性较强的基于深度图的无人车局部自主控制方法,属于一种新的基于深度强化学习的无人车“端到端”的反应式局部导航方法。该方法能够以无人车视野内深度图像为输入,实现持续的导航行为的决策:首先,以降维的无人车视野深度特征矢量进行环境状态表征,有效提高了导航网络算法对新环境或不规则障碍物环境的泛化性能;其次,以连续多个时刻的环境和目标位置状态的融合矢量输入到导航网络中,通过补充对过去时刻环境和目标信息的记忆信息,有效弥补了无人车视野局限的不足,能够实现无人车持续的避障行为。
强化学习:强化学习模仿人类或动物针对外界信号做出应激反应的现象,通过Agent与环境的交互积累经验并进行动作选择策略的学习,其通过强化信号来指导学习方向的机器学习方法,是区别于监督学习和无监督学习的第三类机器学习方法。
神经网络的泛化性:神经网络的泛化性能是指对数据变化的鲁棒性,或者说是学习后的神经网络对测试样本或工作样本做出正确反应的能力,也就是其对训练数据集以外的其他数据的识别能力;或者说泛化能力就是网络的测试准确率。
深度图像:深度图像是指以物理世界中的点到相机平面的归一化距离为像素点亮度值的图像,反映了视野内物体各点到相机平面的远近程度,根据相机焦距信息和深度图像可以计算出深度图像中各点的空间距离和3维坐标。深度图像通常通过深度相机获取,比如双目视觉相机或tof红外测距相机等。
请参阅图1,提供了本申请的基于深度图的无人车局部自主控制方法的总体设计示意图,主要包括状态与动作空间定义、神经网络构建、综合奖励机制设计、虚拟环境构建与训练、迁移应用等五大环节。
请参阅图2,一方面,本发明提供一种基于深度图的无人车局部自主控制方法,包括如下步骤S12至S20:
S12,获取无人车视野拍摄的深度图像,对深度图像进行处理,提取得到深度特征矢量。
可以理解,无人车视野拍摄的深度图包含了其拍摄到的各个物理世界的点到相机平面的归一化距离的信息,可以为无人车的避障提供有效的障碍物感知所需的信息。
无人车的导航系统的状态可包含两方面的信息,分别是导航目标位置信息和无人车视野的深度特征矢量信息。其中
Figure 913442DEST_PATH_IMAGE001
时刻的目标位置信息记为
Figure 734768DEST_PATH_IMAGE002
Figure 270791DEST_PATH_IMAGE001
时刻无人车视野内深度特征矢量记为
Figure 177567DEST_PATH_IMAGE003
,其中,
Figure 191660DEST_PATH_IMAGE004
表示深度特征矢量的维度。
在一个实施例中,上述步骤S12具体可以包括如下处理步骤:
S122,对深度图进行地面背景减除,得到障碍物深度图;
S124,对障碍物深度图进行深度特征降维采样,得到深度特征矢量。
可以理解,基于深度图获取深度特征矢量的过程主要包括两步,分别是地面背景减除和深度特征降维采样。深度特征矢量获取的流程图如图3所示。
地面背景减除的目的是减去深度图中路面相应位置处的深度像素,从而得到只有障碍物的深度图(也即障碍物深度图)。深度特征降维采样是为了将2维的像素矩阵降维到一个1维的矢量,从而减少状态表征对图像本身的依赖,提高算法的泛化能力,甚至能够在一定程度上消除训练仿真图像和真实相机采集到的图像的差异带来壁垒。
在一个实施例中,关于上述步骤S122,具体可以包括如下处理流程:
获取深度图像中开阔地带的地面深度图像;
获取无人车在工作过程中当前视野的当前深度图像;
计算当前深度图像与地面深度图像的相似度矩阵;
根据相似度矩阵和当前深度图的像素矩阵进行矩阵元素乘积计算,减除背景深度信息,得到障碍物深度图。
具体的,获取开阔地带的地面深度图像
Figure 133071DEST_PATH_IMAGE005
,其第
Figure 105575DEST_PATH_IMAGE006
行、第
Figure 499647DEST_PATH_IMAGE007
列的像素值记为
Figure 51851DEST_PATH_IMAGE008
,且满足
Figure 847769DEST_PATH_IMAGE009
。获取无人车(可以是真实的无人车或仿真无人车)工作过程中某一时刻的视野深度图像
Figure 728525DEST_PATH_IMAGE010
,也即选取的该某一时刻的当前视野的当前深度图像,其第
Figure 609893DEST_PATH_IMAGE011
行、第
Figure 231367DEST_PATH_IMAGE012
列的像素值记为
Figure 147371DEST_PATH_IMAGE013
,且满足
Figure 805885DEST_PATH_IMAGE014
计算当前深度图像
Figure 299183DEST_PATH_IMAGE015
与地面深度图像
Figure 334136DEST_PATH_IMAGE016
的相似度矩阵
Figure 229279DEST_PATH_IMAGE017
,可采用本领域现有的相似度计算算法来实现。相似度矩阵
Figure 324274DEST_PATH_IMAGE017
为一个01矩阵,其元素记为
Figure 304869DEST_PATH_IMAGE018
Figure 409091DEST_PATH_IMAGE019
的取值按照前述两个矩阵对应位置像素值的相似度决定:当前述两个矩阵同一位置的两个像素值差异较小时,
Figure 768528DEST_PATH_IMAGE019
取值为0;当前述两个矩阵同一位置的两个像素值的差异较大时,
Figure 159058DEST_PATH_IMAGE019
取值为1。也就是按照如下公式进行计算:
Figure 236735DEST_PATH_IMAGE020
其中,
Figure 3703DEST_PATH_IMAGE021
表示人为设置的相似性判别差异;
Figure 748805DEST_PATH_IMAGE022
表示深度相机最远探测距离。
基于相似度矩阵,按照如下公式进行背景减除计算:
Figure 310237DEST_PATH_IMAGE023
其中,
Figure 875210DEST_PATH_IMAGE024
符号表示两个矩阵对应位置像素值做乘积并充当结果矩阵的同一索引位置的像素值。
在一个实施例中,关于上述步骤S124,具体可以包括如下处理流程:
将障碍物深度图的下半幅沿水平方向分割为N个条状子图;N个为大于等于2的整数。
分别将每个条状子图的最大像素值设为每个条状子图的特征采样值;
将各特征采样值进行反归一化变换,得到深度特征矢量。
具体的,采样时,将障碍物深度图下半幅沿水平方向分割为N个条状子图,并用每个条状子图的最大像素值
Figure 321235DEST_PATH_IMAGE025
作为该子图的特征采样值,特征采样值反应了该条状子图所在方向上最近障碍物距相机平面的距离的归一化数值,并且有
Figure 517249DEST_PATH_IMAGE026
。将这些特征采样值进行反归一化变换后,得到深度特征矢量:
Figure 249581DEST_PATH_IMAGE027
,其中,
Figure 567430DEST_PATH_IMAGE028
表示障碍物深度图中从左到右第
Figure 285987DEST_PATH_IMAGE029
个采样带中障碍物的最近距离,
Figure 864736DEST_PATH_IMAGE030
Figure 908916DEST_PATH_IMAGE031
为相机性能参数,分别表示到相机深度测量的最远距离和最近距离。
S14,将当历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态。
可以理解,由于无人车视野有限,当其在避障运动时存在看不到两侧障碍物的情况,因此将当前时刻到过去
Figure 573115DEST_PATH_IMAGE032
个连续时刻的深度特征矢量和
Figure 95363DEST_PATH_IMAGE033
个连续时刻的无人车的导航目标点位置坐标进行拼接融合,形成融合特征矢量,用于一起表征当前的障碍物分布情况,作为导航神经网络的输入状态,融合特征矢量可以表示为
Figure 528619DEST_PATH_IMAGE034
Figure 478120DEST_PATH_IMAGE035
其中,融合特征矢量的维度为
Figure 364037DEST_PATH_IMAGE036
。通过将过去连续时刻状态输入到导航神经网络中,意味着将Agent的记忆引入学习过程,使Agent能够基于对过去时刻的障碍物信息与目标点位置的记忆,以及当前的视野前方的障碍物情况和目标位置进行导航行为的决策,有助于无人车产生持续的避障行为,从而提高对较大尺寸障碍物的规避能力。图4所示为本申请所提的基于深度强化学习的基于深度图的无人车局部自主控制方法的数据流示意图,图中
Figure 689976DEST_PATH_IMAGE037
在一些实施方式中,采用离散的动作空间设计,为无人车预先设计了离散的动作空间。无人车运动行为记为
Figure 118683DEST_PATH_IMAGE038
,其中,动作库
Figure 363720DEST_PATH_IMAGE039
中包含7个动作,分别是4个运动朝向调整动作,包括高速左转,低速左转,低速右转,高速右转;以及3个直行行为,包括低速前进,中速前进和高速前进。每个动作的控制周期取固定值,例如固定为1.0秒。
在一些实施方式中,关于无人车的基于深度强化学习的神经网络构建方面,深度强化学习的数据推理层可采用图5所示的4层的网络结构,网络以深度特征矢量
Figure 877878DEST_PATH_IMAGE040
和目标位置信息
Figure 132141DEST_PATH_IMAGE041
拼接形成的融合特征矢量为输入,以无人车导航行为的评价值函数
Figure 149776DEST_PATH_IMAGE042
为输出,其中,
Figure 822504DEST_PATH_IMAGE043
表示当前时刻状态;采用线性整流单元(Relu)为激活函数。如图5中,作为输出的评价值函数
Figure 558379DEST_PATH_IMAGE044
其上方每一个圆圈代表的是一个标量的评价值,一个标量对应机器人的一个行为,因此一个圆圈也代表了一个行为的评价值;上图4中相应部分同理理解。数据推理层的网络参数将在仿真训练过程中根据奖励信号进行更新。
S16,将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数。
可以理解,为了使无人车能够快速学会障碍环境下的导航行为,为其设计了一种稠密奖励机制,包括目标趋近奖励,避障奖励和能量优化奖励三个部分。
在一个实施例中,设计的目标趋近奖励为
Figure 350754DEST_PATH_IMAGE045
Figure 222895DEST_PATH_IMAGE046
其中,
Figure 216259DEST_PATH_IMAGE047
表示比例系数,
Figure 564064DEST_PATH_IMAGE048
表示
Figure 769917DEST_PATH_IMAGE049
时刻目标引导点到无人车的距离,
Figure 152357DEST_PATH_IMAGE050
表示
Figure 51043DEST_PATH_IMAGE051
时刻目标引导点到无人车的距离,
Figure 620565DEST_PATH_IMAGE052
表示无人车到达目标引导点的判定距离阈值。
具体的,设计此种奖励用于激励无人车学会到达目标位置,记为
Figure 895688DEST_PATH_IMAGE054
。为了加速无人车趋向于目标位置,尽可能优化无人车的运动路径长度,根据引导点到无人车的距离的变化量来给予线性的稠密奖励,按照
Figure 8001DEST_PATH_IMAGE055
计算。其中,
Figure 936642DEST_PATH_IMAGE056
为比例系数,
Figure 134405DEST_PATH_IMAGE057
表示
Figure 72274DEST_PATH_IMAGE058
时刻目标引导点到无人车的距离;而当无人车到达目标位置时,给予100的最大奖励值。无人车到达引导点的判定距离阈值记为
Figure 39093DEST_PATH_IMAGE059
,因此,设计的目标趋近奖励如上式所示。
在一个实施例中,设计的避障奖励为
Figure 138636DEST_PATH_IMAGE060
Figure 823696DEST_PATH_IMAGE061
其中,
Figure 440622DEST_PATH_IMAGE062
表示比例系数,
Figure 389511DEST_PATH_IMAGE063
表示深度带状分割矢量各元素的权重矢量,
Figure 800901DEST_PATH_IMAGE064
表示
Figure 832310DEST_PATH_IMAGE065
时刻的深度特征矢量,
Figure 987348DEST_PATH_IMAGE066
表示
Figure 53393DEST_PATH_IMAGE067
时刻的深度特征矢量,
Figure 370105DEST_PATH_IMAGE068
表示深度特征向量维数,
Figure 888811DEST_PATH_IMAGE069
表示无人车到任意障碍物的距离,
Figure 581961DEST_PATH_IMAGE070
表示判定无人车与环境障碍物是否发生碰撞的距离阈值。
具体的,当无人车前进方向出现障碍物时,则无人车处于比较危险的状态。根据无人车前方的障碍物分布状况,构造一个无人车安全状态指标函数用于评估某一时刻无人车的安全性,记为
Figure 643458DEST_PATH_IMAGE071
。本实施例中采用深度分割矢量加权求和得到的标量来评估安全性,也就是:
Figure 521284DEST_PATH_IMAGE072
其中,
Figure 402652DEST_PATH_IMAGE073
为深度带状分割矢量各元素的权重矢量,
Figure 758547DEST_PATH_IMAGE074
表示深度特征矢量,
Figure 408971DEST_PATH_IMAGE075
为深度特征矢量的维数。
Figure 723278DEST_PATH_IMAGE076
越大则表明无人车安全性越好,说明无人车前进通路上存在的障碍物比较少或比较远。直观上,无人车视野中央的障碍物相比视野两侧的障碍物对无人车的威胁更大。因此,
Figure 91942DEST_PATH_IMAGE077
可按照线性规律取值,如图6所示,其前后两端的“0”值是为了减少相机视野边缘的障碍物的影响,因为此处认为相机视野边缘障碍物的分布对无人车的安全性影响比较小。其中,
Figure 251528DEST_PATH_IMAGE078
为折线的斜率,可设定为0.1或0.2。
Figure 22038DEST_PATH_IMAGE079
其中,
Figure 117033DEST_PATH_IMAGE080
。根据无人车安全性指标的变化设计了其避障奖励函数,也即:
Figure 100557DEST_PATH_IMAGE081
其中,
Figure 673621DEST_PATH_IMAGE082
表示
Figure 688850DEST_PATH_IMAGE083
时刻无人车安全状态指标函数,
Figure 954747DEST_PATH_IMAGE084
表示
Figure 157058DEST_PATH_IMAGE085
时刻无人车安全状态指标函数。
此外,当无人车与环境障碍发生碰撞时,给予-100的惩罚。
Figure 799392DEST_PATH_IMAGE086
用来表示判定无人车与环境障碍是否发生碰撞的距离阈值。因此,无人车的避障奖励函数可以写为上述前一式的
Figure 403548DEST_PATH_IMAGE087
所示。当无人车在原地转向时,引导点到其距离的变化非常微小,此时无人车的转向行为的奖励主要来自于这一项避障奖励。因此避障奖励主要用于直接对无人车的转向动作进行奖励或惩罚。
在一个实施例中,能量优化奖励为
Figure 105925DEST_PATH_IMAGE088
Figure 670899DEST_PATH_IMAGE089
其中,
Figure 710399DEST_PATH_IMAGE091
表示每个训练回合的设置回合内步数上限,
Figure 310008DEST_PATH_IMAGE092
表示当前步数。
具体的,从能量优化的角度出发,设置了优化能耗奖励,记为
Figure 307919DEST_PATH_IMAGE093
。为了督促无人车以尽可能快的速度完成躲避障碍物并到达引导点,无人车每控制一次给予无人车大小为-1的能量损耗代价。此外,为每个训练回合设置回合内步数上限,用
Figure 360189DEST_PATH_IMAGE094
表示。当超出每个回合的时间限制时,给予-100的惩罚值。因此,
Figure 203380DEST_PATH_IMAGE095
的表达式可以表示为前式所示。
综上所示,以下综合奖励函数可以用作无人车强化学习训练过程中的强化信号:
Figure 657495DEST_PATH_IMAGE096
其中,
Figure 560729DEST_PATH_IMAGE097
表示综合奖励函数。
S18,利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练。
可以理解,对于无人车的导航神经网络的训练,可以构建一个障碍物仿真环境对无人车导航神经网络进行训练。训练时采取超参数分段的训练策略,其中,第一阶段的训练过程中参数选取较为激进,从而促进Agent快速学会目标趋近和避障等导航行为;第二阶段的学习率和探索概率等参数减小,从而加速网络的收敛。可以研究训练过程中导航成功率取值进行训练过程分段,当成功率较高时,认为无人车已经学会了目标趋近和避障行为,转入第二个阶段的保守训练,从而加速网络收敛。表1展示了一组经过测试证明比较合理的训练超参数。
表1
Figure 365874DEST_PATH_IMAGE098
S20,在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将深度图像输入至训练好的所述导航神经网络,输出无人车控制指令。
具体的,训练好的导航神经网络直接迁移至新的仿真环境或真实物理环境中的无人车导航应用中,其对障碍物的尺寸、形状、颜色等属性以及无人车相机的成像质量等因素具有较好的鲁棒性,导航能力更出色。
上述基于深度图的无人车局部自主控制方法,通过仿真训练可以建立深度感知数据到最佳导航行为的数据模型,避免了基于大范围距离感知传感器的地图构建和路径规划,可以仅依靠局部的感知数据进行环境特征推理和导航行为规划。以低维度的深度特征矢量代替高维度的无人车视野深度数据进行网络训练,通过矢量形式的状态表征,减轻了网络参数对于环境、无人车成像稳定性的依赖,提高了基于深度强化学习的无人车局部导航算法的泛化性能,使得能够轻易的迁移到新的仿真环境或实物环境,保持较好的导航能力,环境适应性较强。
通过连续多个时刻的深度特征矢量和连续多个时刻的目标位置信息融合并输入到网络中,使得无人车当前时刻的行为决策能够兼顾过去时刻的障碍物和目标位置分布情况,即使当前视野内没有障碍物也能够继续以往时刻的避障行为,持续完成避障,有效地克服了无人车感知范围局限的问题。此外,包含了目标趋近奖励、避障奖励和优化能量奖励的综合奖励机制,能够加速基于深度强化学习的无人车导航神经网络的训练,促进无人车快速学会跟随和避障行为,优化能量奖励能够引导无人车产生更短的运动轨迹。同时,所提出的综合奖励机制设计方法对于深度强化学习在其他无人车规划和控制领域的应用具有一定的参考价值。
应该理解的是,虽然图1至图3流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其他的顺序执行。而且图1至图3的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图7,在一个实施例中,还提供了一种基于深度图的无人车局部自主控制装置100,包括深度矢量模块11、矢量融合模块13、综合奖励模块15、网络训练模块17和导航应用模块19。其中,深度矢量模块11用于获取无人车视野拍摄的深度图并提取深度图的深度特征矢量。矢量融合模块13用于将当前时刻到过去
Figure 888122DEST_PATH_IMAGE099
个连续时刻的深度特征矢量与
Figure 324307DEST_PATH_IMAGE100
个连续时刻的无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
Figure 273809DEST_PATH_IMAGE100
为正整数。综合奖励模块15用于将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数。网络训练模块17用于利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练。导航应用模块19用于将训练好的导航神经网络迁移至真实物理环境中,对无人车进行局部自主导航。
上述基于深度图的无人车局部自主控制装置100,通过各模块的协作,仿真训练建立深度感知数据到最佳导航行为的数据模型,避免了基于大范围距离感知传感器的地图构建和路径规划,可以仅依靠局部的感知数据进行环境特征推理和导航行为规划。以低维度的深度特征矢量代替高维度的无人车视野深度数据进行网络训练,通过矢量形式的状态表征,减轻了网络参数对于环境、无人车成像稳定性的依赖,提高了基于深度强化学习的无人车局部导航算法的泛化性能,使得能够轻易的迁移到新的仿真环境或实物环境,保持较好的导航能力,环境适应性较强。
通过连续多个时刻的深度特征矢量和连续多个时刻的目标位置信息融合并输入到网络中,使得无人车当前时刻的行为决策能够兼顾过去时刻的障碍物和目标位置分布情况,即使当前视野内没有障碍物也能够继续以往时刻的避障行为,持续完成避障,有效地克服了无人车感知范围局限的问题。此外,包含了目标趋近奖励、避障奖励和优化能量奖励的综合奖励机制,能够加速基于深度强化学习的无人车导航神经网络的训练,促进无人车快速学会跟随和避障行为,优化能量奖励能够引导无人车产生更短的运动轨迹。同时,所提出的综合奖励机制设计方法对于深度强化学习在其他无人车规划和控制领域的应用具有一定的参考价值。
在一个实施例中,上述深度矢量模块11可以包括背景减除子模块和矢量采样子模块。背景减除子模块用于对深度图进行地面背景减除,得到障碍物深度图。矢量采样子模块用于对障碍物深度图进行深度特征降维采样,得到深度特征矢量。
在一个实施例中,上述背景减除子模块具体可以用于获取深度图中开阔地带的地面深度图;获取无人车在工作过程中当前视野的当前深度图;计算当前深度图与地面深度图的相似度矩阵;根据相似度矩阵和当前深度图的像素矩阵进行矩阵元素乘积计算,得到障碍物深度图。
在一个实施例中,上述矢量采样子模块具体可以用于将障碍物深度图的下半幅沿水平方向分割为N个条状子图;分别将每个条状子图的最大像素值设为每个条状子图的特征采样值;将各特征采样值进行反归一化变换,得到深度特征矢量。
在一个实施例中,上述基于深度图的无人车局部自主控制装置100各模块及其子模块,还可以用于实现上述基于深度图的无人车局部自主控制方法各实施例中其他的相应子步骤。
关于基于深度图的无人车局部自主控制装置100的具体限定,可以参见上文中基于深度图的无人车局部自主控制方法的相应限定,在此不再赘述。上述基于深度图的无人车局部自主控制装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型导航规划控制的微处理器、单片机或树莓派等设备。
又一方面,还提供一种无人车,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时可以实现以下步骤:获取无人车视野拍摄的深度图并提取深度图的深度特征矢量;将当前时刻到过去
Figure 159725DEST_PATH_IMAGE101
个连续时刻的深度特征矢量与
Figure 751244DEST_PATH_IMAGE101
个连续时刻的无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
Figure 39005DEST_PATH_IMAGE101
为正整数;将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练;将训练好的导航神经网络迁移至真实物理环境中,对无人车进行局部自主导航。
需要说明的是,本实施例中的无人车除上述列出的存储器和处理器之外,还可以包括其他必要组成构件,例如但不限于行走机构、抓取机构、收纳机构和/或躯干本体,具体可以根据实际应用场景中的无人车的型号确定。
在一个实施例中,处理器执行计算机程序时还可以实现上述基于深度图的无人车局部自主控制方法各实施例中增加的步骤或者子步骤。
再一方面,还提供一种计算机可读存储设备,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取无人车视野拍摄的深度图并提取深度图的深度特征矢量;将当前时刻到过去
Figure 159408DEST_PATH_IMAGE101
个连续时刻的深度特征矢量与
Figure 939145DEST_PATH_IMAGE102
个连续时刻的无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
Figure 927830DEST_PATH_IMAGE101
为正整数;将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练;将训练好的导航神经网络迁移至真实物理环境中,对无人车进行局部自主导航。
在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于深度图的无人车局部自主控制方法各实施例中增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储设备中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他设备的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于深度图的无人车局部自主控制方法,其特征在于,包括步骤:
获取无人车视野拍摄的深度图像;
对所述深度图像进行处理,提取得到深度特征矢量;
将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;
利用所述融合特征矢量和所述综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练;
在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将深度图像输入至训练好的所述导航神经网络,输出无人车控制指令。
2.根据权利要求1所述的基于深度图的无人车局部自主控制方法,其特征在于,对所述深度图像进行处理,提取得到深度特征矢量,包括:
对所述深度图像进行地面背景减除,得到障碍物深度图;
对所述障碍物深度图进行深度特征降维采样,得到所述深度特征矢量。
3.根据权利要求2所述的基于深度图的无人车局部自主控制方法,其特征在于,对所述深度图像进行地面背景减除,得到障碍物深度图的步骤,包括:
获取所述深度图像中开阔地带的地面深度图像;
获取所述无人车在工作过程中当前视野的当前深度图像;
计算所述当前深度图像与所述地面深度图像的相似度矩阵;
根据所述相似度矩阵和所述当前深度图像的像素矩阵进行矩阵元素乘积计算,减除背景深度信息,得到所述障碍物深度图。
4.根据权利要求2所述的基于深度图的无人车局部自主控制方法,其特征在于,对所述障碍物深度图进行深度特征降维采样,得到所述深度特征矢量的步骤,包括:
将所述障碍物深度图的下半幅沿水平方向分割为N个条状子图;
分别将每个所述条状子图的最大像素值设为每个所述条状子图的特征采样值;
将各所述特征采样值进行反归一化变换,得到所述深度特征矢量。
5.根据权利要求1至4任一所述的基于深度图的无人车局部自主控制方法,其特征在于,所述目标趋近奖励为
Figure 435864DEST_PATH_IMAGE001
Figure 680900DEST_PATH_IMAGE002
其中,
Figure 929479DEST_PATH_IMAGE003
表示比例系数,
Figure 918164DEST_PATH_IMAGE004
表示
Figure 466957DEST_PATH_IMAGE005
时刻目标引导点到无人车的距离,
Figure 758261DEST_PATH_IMAGE006
表示
Figure 618769DEST_PATH_IMAGE007
时刻目标引导点到无人车的距离,
Figure 552090DEST_PATH_IMAGE008
表示所述无人车到达目标引导点的判定距离阈值。
6.根据权利要求5所述的基于深度图的无人车局部自主控制方法,其特征在于,所述避障奖励为
Figure 814444DEST_PATH_IMAGE009
Figure 276650DEST_PATH_IMAGE010
其中,
Figure 627384DEST_PATH_IMAGE011
表示比例系数,
Figure 833237DEST_PATH_IMAGE012
表示深度带状分割矢量各元素的权重矢量,
Figure 950098DEST_PATH_IMAGE013
表示
Figure 114363DEST_PATH_IMAGE014
时刻的深度特征矢量,
Figure 824830DEST_PATH_IMAGE015
表示
Figure 693429DEST_PATH_IMAGE016
时刻的深度特征矢量,
Figure 805741DEST_PATH_IMAGE017
表示深度特征向量维数,
Figure 734383DEST_PATH_IMAGE018
表示无人车到任意障碍物的距离,
Figure 932146DEST_PATH_IMAGE019
表示判定所述无人车与环境障碍物是否发生碰撞的距离阈值。
7.根据权利要求5所述的基于深度图的无人车局部自主控制方法,其特征在于,所述能量优化奖励为
Figure 604436DEST_PATH_IMAGE020
Figure 836834DEST_PATH_IMAGE021
其中,
Figure 936377DEST_PATH_IMAGE022
表示每个训练回合的设置回合内步数上限,
Figure 355857DEST_PATH_IMAGE023
表示当前步数。
8.一种基于深度图的无人车局部自主控制装置,其特征在于,包括:
深度矢量模块,用于获取无人车视野拍摄的深度图像;对所述深度图像进行处理,提取得到深度特征矢量;
矢量融合模块,用于将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
综合奖励模块,用于将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;
网络训练模块,用于利用所述融合特征矢量和所述综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练;
导航应用模块,用于在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将深度图像输入至训练好的所述导航神经网络,输出无人车控制指令。
9.一种计算机可读存储设备,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现权利要求1至7中任一项所述基于深度图的无人车局部自主控制方法的步骤。
CN202111043740.XA 2021-09-07 2021-09-07 基于深度图的无人车局部自主控制方法、装置和设备 Active CN113486871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111043740.XA CN113486871B (zh) 2021-09-07 2021-09-07 基于深度图的无人车局部自主控制方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111043740.XA CN113486871B (zh) 2021-09-07 2021-09-07 基于深度图的无人车局部自主控制方法、装置和设备

Publications (2)

Publication Number Publication Date
CN113486871A true CN113486871A (zh) 2021-10-08
CN113486871B CN113486871B (zh) 2021-11-16

Family

ID=77946496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111043740.XA Active CN113486871B (zh) 2021-09-07 2021-09-07 基于深度图的无人车局部自主控制方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113486871B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153216A (zh) * 2021-12-14 2022-03-08 浙江大学湖州研究院 基于深度强化学习和块规划的月面路径规划系统和方法
CN115307640A (zh) * 2022-07-29 2022-11-08 西安现代控制技术研究所 基于改进人工势场法的无人车双目视觉导航方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3430427A1 (en) * 2016-03-14 2019-01-23 IMRA Europe S.A.S. Processing method of a 3d point cloud
US20190026956A1 (en) * 2012-02-24 2019-01-24 Matterport, Inc. Employing three-dimensional (3d) data predicted from two-dimensional (2d) images using neural networks for 3d modeling applications and other applications
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
KR102131414B1 (ko) * 2019-12-31 2020-07-08 한국산업기술시험원 사용자 위치정보와 거주 기후 조건하에서 심층 강화 학습 알고리즘을 적용한 공기조화기 예비 냉난방 에너지절약 학습 시스템 및 그 방법
CN112083501A (zh) * 2020-09-09 2020-12-15 中国人民解放军国防科技大学 用于水下目标探测的海水离子运动磁场仿真方法、装置
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112762957A (zh) * 2020-12-29 2021-05-07 西北工业大学 一种基于多传感器融合的环境建模及路径规划方法
CN112857370A (zh) * 2021-01-07 2021-05-28 北京大学 一种基于时序信息建模的机器人无地图导航方法
CN112882469A (zh) * 2021-01-14 2021-06-01 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN112965081A (zh) * 2021-02-05 2021-06-15 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026956A1 (en) * 2012-02-24 2019-01-24 Matterport, Inc. Employing three-dimensional (3d) data predicted from two-dimensional (2d) images using neural networks for 3d modeling applications and other applications
EP3430427A1 (en) * 2016-03-14 2019-01-23 IMRA Europe S.A.S. Processing method of a 3d point cloud
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
KR102131414B1 (ko) * 2019-12-31 2020-07-08 한국산업기술시험원 사용자 위치정보와 거주 기후 조건하에서 심층 강화 학습 알고리즘을 적용한 공기조화기 예비 냉난방 에너지절약 학습 시스템 및 그 방법
CN112083501A (zh) * 2020-09-09 2020-12-15 中国人民解放军国防科技大学 用于水下目标探测的海水离子运动磁场仿真方法、装置
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112762957A (zh) * 2020-12-29 2021-05-07 西北工业大学 一种基于多传感器融合的环境建模及路径规划方法
CN112857370A (zh) * 2021-01-07 2021-05-28 北京大学 一种基于时序信息建模的机器人无地图导航方法
CN112882469A (zh) * 2021-01-14 2021-06-01 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN112965081A (zh) * 2021-02-05 2021-06-15 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
AMIR RAMEZANI DOORAKI 等: "Memory-based reinforcement learning algorithm for autonomous exploration in unknown environment", 《INTERNATIONAL JOURNAL OF ADVANCED ROBOTIC SYSTEMS》 *
RUIJUN HU 等: "A Lunar Robot Obstacle Avoidance Planning Method Using Deep Reinforcement Learning for Data Fusion", 《2019 CHINESE AUTOMATION CONGRESS (CAC)》 *
SHUHUAN WEN 等: "Path planning for active SLAM based on deep reinforcement learning under unknown environments", 《INTELLIGENT SERVICE ROBOTICS》 *
周仕承 等: "基于深度强化学习的智能化渗透测试路径发现", 《计算机科学》 *
奚小波 等: "基于Bezier曲线优化的农机自动驾驶避障控制方法", 《农业工程学报》 *
蒋林 等: "单目视觉移动机器人导航算法研究现状及趋势", 《计算机工程与应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153216A (zh) * 2021-12-14 2022-03-08 浙江大学湖州研究院 基于深度强化学习和块规划的月面路径规划系统和方法
CN114153216B (zh) * 2021-12-14 2023-10-03 浙江大学湖州研究院 基于深度强化学习和块规划的月面路径规划系统和方法
CN115307640A (zh) * 2022-07-29 2022-11-08 西安现代控制技术研究所 基于改进人工势场法的无人车双目视觉导航方法

Also Published As

Publication number Publication date
CN113486871B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN111142557B (zh) 无人机路径规划方法、系统、计算机设备及可读存储介质
Richter et al. Safe visual navigation via deep learning and novelty detection
Wenzel et al. Vision-based mobile robotics obstacle avoidance with deep reinforcement learning
CN114384920A (zh) 一种基于局部栅格地图实时构建的动态避障方法
CN113486871B (zh) 基于深度图的无人车局部自主控制方法、装置和设备
Drews et al. Aggressive deep driving: Model predictive control with a cnn cost model
CN113467462B (zh) 机器人的行人伴随控制方法、装置、移动机器人和介质
CN114708435B (zh) 基于语义分割的障碍物尺寸预测与不确定性分析方法
CN113128381A (zh) 障碍物轨迹预测方法、系统及计算机存储介质
Park et al. Vision-based obstacle avoidance for UAVs via imitation learning with sequential neural networks
CN116703984B (zh) 机器人路径规划及红外光图像融合方法、系统及存储介质
Naveed et al. Deep introspective SLAM: Deep reinforcement learning based approach to avoid tracking failure in visual SLAM
Chen et al. Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization
Qin et al. Deep imitation learning for autonomous navigation in dynamic pedestrian environments
Zhang et al. Cat: Closed-loop adversarial training for safe end-to-end driving
Wang et al. Deep understanding of big geospatial data for self-driving: Data, technologies, and systems
Masmoudi et al. Autonomous car-following approach based on real-time video frames processing
Rezaei et al. Mobile robot monocular vision-based obstacle avoidance algorithm using a deep neural network
CN116448134B (zh) 基于风险场与不确定分析的车辆路径规划方法及装置
Guzel Mobile robot vavigation using a vision based approach
Abbas et al. Autonomous canal following by a micro-aerial vehicle using deep cnn
CN115373383B (zh) 一种垃圾回收无人艇的自主避障方法、装置及相关设备
Pierre Spatio-temporal deep learning for robotic visuomotor control
CN114120653A (zh) 一种集中式车群决策控制方法、装置及电子设备
Brill et al. The effective field of view paradigm: Adding representation to a reactive system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant