CN113486871B - 基于深度图的无人车局部自主控制方法、装置和设备 - Google Patents

基于深度图的无人车局部自主控制方法、装置和设备 Download PDF

Info

Publication number
CN113486871B
CN113486871B CN202111043740.XA CN202111043740A CN113486871B CN 113486871 B CN113486871 B CN 113486871B CN 202111043740 A CN202111043740 A CN 202111043740A CN 113486871 B CN113486871 B CN 113486871B
Authority
CN
China
Prior art keywords
unmanned vehicle
depth
navigation
reward
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111043740.XA
Other languages
English (en)
Other versions
CN113486871A (zh
Inventor
胡瑞军
张育林
郑永煌
李传详
梁庄
张琦
赵成
谌廷政
索相波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111043740.XA priority Critical patent/CN113486871B/zh
Publication of CN113486871A publication Critical patent/CN113486871A/zh
Application granted granted Critical
Publication of CN113486871B publication Critical patent/CN113486871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Electromagnetism (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本申请涉及基于深度图的无人车局部自主控制方法、装置和设备,方法包括:获取无人车视野拍摄的深度图并提取深度图的深度特征矢量;将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;设计综合奖励函数;利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练;在真实物理环境中,利用训练好的所述导航神经网络对深度图像处理,输出无人车控制指令。上述方法提高了算法的泛化性能,保持较好的导航能力,环境适应性较强。

Description

基于深度图的无人车局部自主控制方法、装置和设备
技术领域
本申请涉及无人车视觉感知与智能控制技术领域,特别是涉及一种基于深度图的无人车局部自主控制方法、装置和设备。
背景技术
无人车的导航通常包括全局导航和局部导航。全局导航是指根据全局地图为无人车规划出一条从起始位置到目标位置的安全路径,其通常需要依赖全局地图构建和离线的路径规划,具有全局最优性,常用的全局路径规划算法包括栅格法、A*算法、快速搜索随机树法(RRT)、人工势场法、粒子群算法和遗传算法等。局部导航是指无人车根据其自身对当前环境中障碍物的感知情况进行短期的避障决策和规划,其通常体现为运动控制指令序列,常用的规划方法包括人工势场法、模糊逻辑、动态窗口法和强化学习等。
局部导航要求具有较高的可靠性和快速性。端到端的反应式架构可以提供快速、可靠的导航。强化学习和深度强化学习不需要依赖环境模型和监督训练标签,而是通过Agent与环境的交互积累经验,并从经验中学习最优行为策略,因此其被越来越多的用于复杂场景下的无人车决策规划和智能控制。然而,在实现本发明的过程中,发明人发现无人车传统的基于深度强化学习的局部控制方法,仍然存在着环境适应性较差的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于深度图的无人车局部自主控制方法、一种基于深度图的无人车局部自主控制装置以及一种计算机可读存储设备,对导航的环境适应性较强。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种基于深度图的无人车局部自主控制方法,包括步骤:
获取无人车视野拍摄的深度图像;
对所述深度图像进行处理,提取得到深度特征矢量;
将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;
利用所述融合特征矢量和所述综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练;
在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将深度图像输入至训练好的所述导航神经网络,输出无人车控制指令。
另一方面,还提供一种基于深度图的无人车局部自主控制装置,包括:
深度矢量模块,用于获取无人车视野拍摄的深度图像;对所述深度图像进行处理,提取得到深度特征矢量;
矢量融合模块,用于将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
综合奖励模块,用于将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;
网络训练模块,用于利用所述融合特征矢量和所述综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练;
导航应用模块,用于在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将深度图像输入至训练好的所述导航神经网络,输出无人车控制指令。
又一方面,还提供一种无人车,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现任一项的上述基于深度图的无人车局部自主控制方法的步骤。
再一方面,还提供一种计算机可读存储设备,其上存储有计算机程序,计算机程序被处理器执行时实现任一项的上述基于深度图的无人车局部自主控制方法的步骤。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述基于深度图的无人车局部自主控制方法、装置和设备,通过仿真训练可以建立深度感知数据到最佳导航行为的数据模型,避免了基于大范围距离感知传感器的地图构建和路径规划,可以仅依靠局部的感知数据进行环境特征推理和导航行为规划。以低维度的深度特征矢量代替高维度的无人车视野深度数据进行网络训练,通过矢量形式的状态表征,减轻了网络参数对于环境、无人车成像稳定性的依赖,提高了基于深度强化学习的无人车局部导航算法的泛化性能,使得能够轻易的迁移到新的仿真环境或实物环境,保持较好的导航能力,环境适应性较强。
通过连续多个时刻的深度特征矢量和连续多个时刻的目标位置信息融合并输入到网络中,使得无人车当前时刻的行为决策能够兼顾过去时刻的障碍物和目标位置分布情况,即使当前视野内没有障碍物也能够继续以往时刻的避障行为,持续完成避障,有效地克服了无人车感知范围局限的问题。
此外,包含了目标趋近奖励、避障奖励和优化能量奖励的综合奖励机制,能够加速基于深度强化学习的无人车导航神经网络的训练,促进无人车快速学会跟随和避障行为,优化能量奖励能够引导无人车产生更短的运动轨迹。同时,所提出的综合奖励机制设计方法对于深度强化学习在其他无人车规划和控制领域的应用具有一定的参考价值。
附图说明
图1为一个实施例中基于深度图的无人车局部自主控制方法的总体设计示意图;
图2为一个实施例中基于深度图的无人车局部自主控制方法的流程示意图;
图3为一个实施例中深度特征矢量的获取流程示意图;
图4为一个实施例中基于深度强化学习方法的无人车导航神经网络的数据流示意图;
图5为一个实施例中无人车导航神经网络的数据推理层网络结构示意图;
图6为一个实施例中无人车安全性评估函数计算中的深度特征矢量元素权重系数曲线示意图;
图7为一个实施例中基于深度图的无人车局部自主控制装置的模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
强化学习和深度强化学习模仿生物对外界信号做出应激反应的现象,通过Agent与环境的交互经验和奖惩信号来学习系统状态到最优行为决策的映射模型。其优点在于不需要依赖环境模型和监督训练标签,而是通过Agent与环境的交互积累经验,并从经验中学习最优行为策略,因此其被越来越多的用于复杂场景下的无人车决策规划和智能控制。深度强化学习利用人工神经网络来表征系统的状态,将强化学习由离散空间的拓展到连续复杂空间。因此,利用深度强化学习可以直接利用连续的无人车感知数据进行导航控制规划,构建端到端的反应式导航方法,而避免了障碍物测量、识别、定位和建图等环节,其用于在线实时规划的时效性好的优势。
在实践中,发明人研究发现传统的无人车的局部导航技术中,存在着以下缺陷:其一,目前,基于深度强化学习的无人车局部导航的研究成为一个热点,但是能够成功应用于物理无人车的案例并不多。限制基于深度强化学习的无人车导航应用的一个重要问题是算法的泛化能力不足,也就是说训练后的算法对新的环境、新的感知数据的适应性较差,甚至其只能适用于训练地图。因此,泛化性是基于深度强化学习的导航方法设计中需要重点考虑的问题。
其二,不完全状态感知会导致深度强化学习算法收敛速度慢,难以学会最优策略,是深度强化学习应用于复杂环境导航的另一个难题。无人车局部导航依赖于在线感知情况,但是在大多数情况下,无人车对环境的感知比较有限,属于不完全状态感知。比如采用双目相机时,其深度视野通常只有90°的范围,并且当无人车运动时,无人车视野随无人车的位置姿态一起变化,因而会丢失先前的障碍物信息,使得无人车始终难以知道其周围的完整的障碍物分布,因此难以决策出最优的导航行为。需要通过一定的状态表征和数据供给机制弥补不完全感知的挑战。
综上,本申请针对无人车传统的局部导航方法中,仍然存在着的环境适应性较差的技术问题,提供了一种对导航的环境适应性较强的基于深度图的无人车局部自主控制方法,属于一种新的基于深度强化学习的无人车“端到端”的反应式局部导航方法。该方法能够以无人车视野内深度图像为输入,实现持续的导航行为的决策:首先,以降维的无人车视野深度特征矢量进行环境状态表征,有效提高了导航网络算法对新环境或不规则障碍物环境的泛化性能;其次,以连续多个时刻的环境和目标位置状态的融合矢量输入到导航网络中,通过补充对过去时刻环境和目标信息的记忆信息,有效弥补了无人车视野局限的不足,能够实现无人车持续的避障行为。
强化学习:强化学习模仿人类或动物针对外界信号做出应激反应的现象,通过Agent与环境的交互积累经验并进行动作选择策略的学习,其通过强化信号来指导学习方向的机器学习方法,是区别于监督学习和无监督学习的第三类机器学习方法。
神经网络的泛化性:神经网络的泛化性能是指对数据变化的鲁棒性,或者说是学习后的神经网络对测试样本或工作样本做出正确反应的能力,也就是其对训练数据集以外的其他数据的识别能力;或者说泛化能力就是网络的测试准确率。
深度图像:深度图像是指以物理世界中的点到相机平面的归一化距离为像素点亮度值的图像,反映了视野内物体各点到相机平面的远近程度,根据相机焦距信息和深度图像可以计算出深度图像中各点的空间距离和3维坐标。深度图像通常通过深度相机获取,比如双目视觉相机或tof红外测距相机等。
请参阅图1,提供了本申请的基于深度图的无人车局部自主控制方法的总体设计示意图,主要包括状态与动作空间定义、神经网络构建、综合奖励机制设计、虚拟环境构建与训练、迁移应用等五大环节。
请参阅图2,一方面,本发明提供一种基于深度图的无人车局部自主控制方法,包括如下步骤S12至S20:
S12,获取无人车视野拍摄的深度图像,对深度图像进行处理,提取得到深度特征矢量。
可以理解,无人车视野拍摄的深度图包含了其拍摄到的各个物理世界的点到相机平面的归一化距离的信息,可以为无人车的避障提供有效的障碍物感知所需的信息。
无人车的导航系统的状态可包含两方面的信息,分别是导航目标位置信息和无人车视野的深度特征矢量信息。其中
Figure 617871DEST_PATH_IMAGE001
时刻的目标位置信息记为
Figure 207115DEST_PATH_IMAGE002
Figure 252431DEST_PATH_IMAGE001
时刻无人车视野内深度特征矢量记为
Figure 552700DEST_PATH_IMAGE003
,其中,
Figure 632652DEST_PATH_IMAGE004
表示深度特征矢量的维度。
在一个实施例中,上述步骤S12具体可以包括如下处理步骤:
S122,对深度图进行地面背景减除,得到障碍物深度图;
S124,对障碍物深度图进行深度特征降维采样,得到深度特征矢量。
可以理解,基于深度图获取深度特征矢量的过程主要包括两步,分别是地面背景减除和深度特征降维采样。深度特征矢量获取的流程图如图3所示。
地面背景减除的目的是减去深度图中路面相应位置处的深度像素,从而得到只有障碍物的深度图(也即障碍物深度图)。深度特征降维采样是为了将2维的像素矩阵降维到一个1维的矢量,从而减少状态表征对图像本身的依赖,提高算法的泛化能力,甚至能够在一定程度上消除训练仿真图像和真实相机采集到的图像的差异带来壁垒。
在一个实施例中,关于上述步骤S122,具体可以包括如下处理流程:
获取深度图像中开阔地带的地面深度图像;
获取无人车在工作过程中当前视野的当前深度图像;
计算当前深度图像与地面深度图像的相似度矩阵;
根据相似度矩阵和当前深度图的像素矩阵进行矩阵元素乘积计算,减除背景深度信息,得到障碍物深度图。
具体的,获取开阔地带的地面深度图像
Figure 986273DEST_PATH_IMAGE005
,其第
Figure 394251DEST_PATH_IMAGE006
行、第
Figure 124310DEST_PATH_IMAGE007
列的像素值记为
Figure 58768DEST_PATH_IMAGE008
,且满足
Figure 193077DEST_PATH_IMAGE009
。获取无人车(可以是真实的无人车或仿真无人车)工作过程中某一时刻的视野深度图像
Figure 478565DEST_PATH_IMAGE010
,也即选取的该某一时刻的当前视野的当前深度图像,其第
Figure 481156DEST_PATH_IMAGE006
行、第
Figure 411066DEST_PATH_IMAGE007
列的像素值记为
Figure 106490DEST_PATH_IMAGE011
,且满足
Figure 613694DEST_PATH_IMAGE012
计算当前深度图像
Figure 796807DEST_PATH_IMAGE013
与地面深度图像
Figure 705857DEST_PATH_IMAGE014
的相似度矩阵
Figure 447549DEST_PATH_IMAGE015
,可采用本领域现有的相似度计算算法来实现。相似度矩阵
Figure 442049DEST_PATH_IMAGE015
为一个01矩阵,其元素记为
Figure 52022DEST_PATH_IMAGE016
Figure 690945DEST_PATH_IMAGE017
的取值按照前述两个矩阵对应位置像素值的相似度决定:当前述两个矩阵同一位置的两个像素值差异较小时,
Figure 728171DEST_PATH_IMAGE018
取值为0;当前述两个矩阵同一位置的两个像素值的差异较大时,
Figure 209968DEST_PATH_IMAGE019
取值为1。也就是按照如下公式进行计算:
Figure 233419DEST_PATH_IMAGE020
其中,
Figure 117061DEST_PATH_IMAGE021
表示人为设置的相似性判别差异;
Figure 325189DEST_PATH_IMAGE022
表示深度相机最远探测距离。
基于相似度矩阵,按照如下公式进行背景减除计算:
Figure 668183DEST_PATH_IMAGE023
其中,
Figure 354379DEST_PATH_IMAGE024
符号表示两个矩阵对应位置像素值做乘积并充当结果矩阵的同一索引位置的像素值。
在一个实施例中,关于上述步骤S124,具体可以包括如下处理流程:
将障碍物深度图的下半幅沿水平方向分割为N个条状子图;N个为大于等于2的整数。
分别将每个条状子图的最大像素值设为每个条状子图的特征采样值;
将各特征采样值进行反归一化变换,得到深度特征矢量。
具体的,采样时,将障碍物深度图下半幅沿水平方向分割为N个条状子图,并用每个条状子图的最大像素值
Figure 233474DEST_PATH_IMAGE025
作为该子图的特征采样值,特征采样值反应了该条状子图所在方向上最近障碍物距相机平面的距离的归一化数值,并且有
Figure 878082DEST_PATH_IMAGE026
。将这些特征采样值进行反归一化变换后,得到深度特征矢量:
Figure 68892DEST_PATH_IMAGE027
,其中,
Figure 434145DEST_PATH_IMAGE028
表示障碍物深度图中从左到右第
Figure 26800DEST_PATH_IMAGE029
个采样带中障碍物的最近距离,
Figure 576730DEST_PATH_IMAGE030
Figure 395782DEST_PATH_IMAGE031
为相机性能参数,分别表示到相机深度测量的最远距离和最近距离。
S14,将当历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态。
可以理解,由于无人车视野有限,当其在避障运动时存在看不到两侧障碍物的情况,因此将当前时刻到过去
Figure 689360DEST_PATH_IMAGE032
个连续时刻的深度特征矢量和
Figure 767213DEST_PATH_IMAGE033
个连续时刻的无人车的导航目标点位置坐标进行拼接融合,形成融合特征矢量,用于一起表征当前的障碍物分布情况,作为导航神经网络的输入状态,融合特征矢量可以表示为
Figure 222465DEST_PATH_IMAGE034
Figure 653447DEST_PATH_IMAGE035
其中,融合特征矢量的维度为
Figure 360503DEST_PATH_IMAGE036
。通过将过去连续时刻状态输入到导航神经网络中,意味着将Agent的记忆引入学习过程,使Agent能够基于对过去时刻的障碍物信息与目标点位置的记忆,以及当前的视野前方的障碍物情况和目标位置进行导航行为的决策,有助于无人车产生持续的避障行为,从而提高对较大尺寸障碍物的规避能力。图4所示为本申请所提的基于深度强化学习的基于深度图的无人车局部自主控制方法的数据流示意图,图中
Figure 927750DEST_PATH_IMAGE038
在一些实施方式中,采用离散的动作空间设计,为无人车预先设计了离散的动作空间。无人车运动行为记为
Figure 819483DEST_PATH_IMAGE039
,其中,动作库
Figure 347547DEST_PATH_IMAGE040
中包含7个动作,分别是4个运动朝向调整动作,包括高速左转,低速左转,低速右转,高速右转;以及3个直行行为,包括低速前进,中速前进和高速前进。每个动作的控制周期取固定值,例如固定为1.0秒。
在一些实施方式中,关于无人车的基于深度强化学习的神经网络构建方面,深度强化学习的数据推理层可采用图5所示的4层的网络结构,网络以深度特征矢量
Figure 248507DEST_PATH_IMAGE041
和目标位置信息
Figure 404682DEST_PATH_IMAGE042
拼接形成的融合特征矢量为输入,以无人车导航行为的评价值函数
Figure 608261DEST_PATH_IMAGE043
为输出,其中,
Figure 482677DEST_PATH_IMAGE044
表示当前时刻状态;采用线性整流单元(Relu)为激活函数。如图5中,作为输出的评价值函数
Figure 921748DEST_PATH_IMAGE045
其上方每一个圆圈代表的是一个标量的评价值,一个标量无人车对应的一个行为,因此一个圆圈也代表了一个行为的评价值;上图4中相应部分同理理解。数据推理层的网络参数将在仿真训练过程中根据奖励信号进行更新。
S16,将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数。
可以理解,为了使无人车能够快速学会障碍环境下的导航行为,为其设计了一种稠密奖励机制,包括目标趋近奖励,避障奖励和能量优化奖励三个部分。
在一个实施例中,设计的目标趋近奖励为
Figure 837489DEST_PATH_IMAGE046
Figure 71025DEST_PATH_IMAGE047
其中,
Figure 573681DEST_PATH_IMAGE048
表示比例系数,
Figure 550864DEST_PATH_IMAGE049
表示
Figure 947211DEST_PATH_IMAGE050
时刻目标引导点到无人车的距离,
Figure 227013DEST_PATH_IMAGE051
表示
Figure 341600DEST_PATH_IMAGE052
时刻目标引导点到无人车的距离,
Figure 856895DEST_PATH_IMAGE053
表示无人车到达目标引导点的判定距离阈值。
具体的,设计此种奖励用于激励无人车学会到达目标位置,记为
Figure 983114DEST_PATH_IMAGE054
。为了加速无人车趋向于目标位置,尽可能优化无人车的运动路径长度,根据引导点到无人车的距离的变化量来给予线性的稠密奖励,按照
Figure 824031DEST_PATH_IMAGE055
计算。其中,
Figure 160334DEST_PATH_IMAGE056
为比例系数,
Figure 121731DEST_PATH_IMAGE057
表示
Figure 492669DEST_PATH_IMAGE058
时刻目标引导点到无人车的距离;而当无人车到达目标位置时,给予100的最大奖励值。无人车到达引导点的判定距离阈值记为
Figure 114274DEST_PATH_IMAGE059
,因此,设计的目标趋近奖励如上式所示。
在一个实施例中,设计的避障奖励为
Figure 672295DEST_PATH_IMAGE060
Figure 60551DEST_PATH_IMAGE061
其中,
Figure 895783DEST_PATH_IMAGE062
表示比例系数,
Figure 78502DEST_PATH_IMAGE063
表示深度带状分割矢量各元素的权重矢量,
Figure 389398DEST_PATH_IMAGE064
表示
Figure 191132DEST_PATH_IMAGE065
时刻的深度特征矢量,
Figure 5504DEST_PATH_IMAGE066
表示
Figure 998606DEST_PATH_IMAGE067
时刻的深度特征矢量,
Figure 531218DEST_PATH_IMAGE068
表示深度特征向量维数,
Figure 261277DEST_PATH_IMAGE069
表示无人车到任意障碍物的距离,
Figure 71101DEST_PATH_IMAGE070
表示判定无人车与环境障碍物是否发生碰撞的距离阈值。
具体的,当无人车前进方向出现障碍物时,则无人车处于比较危险的状态。根据无人车前方的障碍物分布状况,构造一个无人车安全状态指标函数用于评估某一时刻无人车的安全性,记为
Figure 595623DEST_PATH_IMAGE071
。本实施例中采用深度分割矢量加权求和得到的标量来评估安全性,也就是:
Figure 756477DEST_PATH_IMAGE072
其中,
Figure 759068DEST_PATH_IMAGE073
为深度带状分割矢量各元素的权重矢量,
Figure 548033DEST_PATH_IMAGE074
表示深度特征矢量,
Figure 384402DEST_PATH_IMAGE075
为深度特征矢量的维数。
Figure 626027DEST_PATH_IMAGE076
越大则表明无人车安全性越好,说明无人车前进通路上存在的障碍物比较少或比较远。直观上,无人车视野中央的障碍物相比视野两侧的障碍物对无人车的威胁更大。因此,
Figure 697888DEST_PATH_IMAGE077
可按照线性规律取值,如图6所示,其前后两端的“0”值是为了减少相机视野边缘的障碍物的影响,因为此处认为相机视野边缘障碍物的分布对无人车的安全性影响比较小。其中,
Figure 983770DEST_PATH_IMAGE078
为折线的斜率,可设定为0.1或0.2。
Figure 584515DEST_PATH_IMAGE079
其中,
Figure 844595DEST_PATH_IMAGE080
。根据无人车安全性指标的变化设计了其避障奖励函数,也即:
Figure 329934DEST_PATH_IMAGE081
其中,
Figure 93491DEST_PATH_IMAGE082
表示
Figure 865138DEST_PATH_IMAGE083
时刻无人车安全状态指标函数,
Figure 487880DEST_PATH_IMAGE084
表示
Figure 635965DEST_PATH_IMAGE085
时刻无人车安全状态指标函数。
此外,当无人车与环境障碍发生碰撞时,给予-100的惩罚。
Figure 394973DEST_PATH_IMAGE086
用来表示判定无人车与环境障碍是否发生碰撞的距离阈值。因此,无人车的避障奖励函数可以写为上述前一式的
Figure 603101DEST_PATH_IMAGE087
所示。当无人车在原地转向时,引导点到其距离的变化非常微小,此时无人车的转向行为的奖励主要来自于这一项避障奖励。因此避障奖励主要用于直接对无人车的转向动作进行奖励或惩罚。
在一个实施例中,能量优化奖励为
Figure 306615DEST_PATH_IMAGE088
Figure 632292DEST_PATH_IMAGE089
其中,
Figure 370440DEST_PATH_IMAGE090
表示每个训练回合的设置回合内步数上限,
Figure 483890DEST_PATH_IMAGE091
表示当前步数。
具体的,从能量优化的角度出发,设置了优化能耗奖励,记为
Figure 815645DEST_PATH_IMAGE092
。为了督促无人车以尽可能快的速度完成躲避障碍物并到达引导点,无人车每控制一次给予无人车大小为-1的能量损耗代价。此外,为每个训练回合设置回合内步数上限,用
Figure 305532DEST_PATH_IMAGE093
表示。当超出每个回合的时间限制时,给予-100的惩罚值。因此,
Figure 163767DEST_PATH_IMAGE094
的表达式可以表示为前式所示。
综上所示,以下综合奖励函数可以用作无人车强化学习训练过程中的强化信号:
Figure 589063DEST_PATH_IMAGE095
其中,
Figure 532749DEST_PATH_IMAGE096
表示综合奖励函数。
S18,利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练。
可以理解,对于无人车的导航神经网络的训练,可以构建一个障碍物仿真环境对无人车导航神经网络进行训练。训练时采取超参数分段的训练策略,其中,第一阶段的训练过程中参数选取较为激进,从而促进Agent快速学会目标趋近和避障等导航行为;第二阶段的学习率和探索概率等参数减小,从而加速网络的收敛。可以研究训练过程中导航成功率取值进行训练过程分段,当成功率较高时,认为无人车已经学会了目标趋近和避障行为,转入第二个阶段的保守训练,从而加速网络收敛。表1展示了一组经过测试证明比较合理的训练超参数。
表1
Figure 560747DEST_PATH_IMAGE097
S20,在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将深度图像输入至训练好的所述导航神经网络,输出无人车控制指令。
具体的,训练好的导航神经网络直接迁移至新的仿真环境或真实物理环境中的无人车导航应用中,其对障碍物的尺寸、形状、颜色等属性以及无人车相机的成像质量等因素具有较好的鲁棒性,导航能力更出色。
上述基于深度图的无人车局部自主控制方法,通过仿真训练可以建立深度感知数据到最佳导航行为的数据模型,避免了基于大范围距离感知传感器的地图构建和路径规划,可以仅依靠局部的感知数据进行环境特征推理和导航行为规划。以低维度的深度特征矢量代替高维度的无人车视野深度数据进行网络训练,通过矢量形式的状态表征,减轻了网络参数对于环境、无人车成像稳定性的依赖,提高了基于深度强化学习的无人车局部导航算法的泛化性能,使得能够轻易的迁移到新的仿真环境或实物环境,保持较好的导航能力,环境适应性较强。
通过连续多个时刻的深度特征矢量和连续多个时刻的目标位置信息融合并输入到网络中,使得无人车当前时刻的行为决策能够兼顾过去时刻的障碍物和目标位置分布情况,即使当前视野内没有障碍物也能够继续以往时刻的避障行为,持续完成避障,有效地克服了无人车感知范围局限的问题。此外,包含了目标趋近奖励、避障奖励和优化能量奖励的综合奖励机制,能够加速基于深度强化学习的无人车导航神经网络的训练,促进无人车快速学会跟随和避障行为,优化能量奖励能够引导无人车产生更短的运动轨迹。同时,所提出的综合奖励机制设计方法对于深度强化学习在其他无人车规划和控制领域的应用具有一定的参考价值。
应该理解的是,虽然图1至图3流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其他的顺序执行。而且图1至图3的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图7,在一个实施例中,还提供了一种基于深度图的无人车局部自主控制装置100,包括深度矢量模块11、矢量融合模块13、综合奖励模块15、网络训练模块17和导航应用模块19。其中,深度矢量模块11用于获取无人车视野拍摄的深度图并提取深度图的深度特征矢量。矢量融合模块13用于将当前时刻到过去
Figure 883275DEST_PATH_IMAGE098
个连续时刻的深度特征矢量与
Figure 869686DEST_PATH_IMAGE099
个连续时刻的无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
Figure 35088DEST_PATH_IMAGE100
为正整数。综合奖励模块15用于将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数。网络训练模块17用于利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练。导航应用模块19用于将训练好的导航神经网络迁移至真实物理环境中,对无人车进行局部自主导航。
上述基于深度图的无人车局部自主控制装置100,通过各模块的协作,仿真训练建立深度感知数据到最佳导航行为的数据模型,避免了基于大范围距离感知传感器的地图构建和路径规划,可以仅依靠局部的感知数据进行环境特征推理和导航行为规划。以低维度的深度特征矢量代替高维度的无人车视野深度数据进行网络训练,通过矢量形式的状态表征,减轻了网络参数对于环境、无人车成像稳定性的依赖,提高了基于深度强化学习的无人车局部导航算法的泛化性能,使得能够轻易的迁移到新的仿真环境或实物环境,保持较好的导航能力,环境适应性较强。
通过连续多个时刻的深度特征矢量和连续多个时刻的目标位置信息融合并输入到网络中,使得无人车当前时刻的行为决策能够兼顾过去时刻的障碍物和目标位置分布情况,即使当前视野内没有障碍物也能够继续以往时刻的避障行为,持续完成避障,有效地克服了无人车感知范围局限的问题。此外,包含了目标趋近奖励、避障奖励和优化能量奖励的综合奖励机制,能够加速基于深度强化学习的无人车导航神经网络的训练,促进无人车快速学会跟随和避障行为,优化能量奖励能够引导无人车产生更短的运动轨迹。同时,所提出的综合奖励机制设计方法对于深度强化学习在其他无人车规划和控制领域的应用具有一定的参考价值。
在一个实施例中,上述深度矢量模块11可以包括背景减除子模块和矢量采样子模块。背景减除子模块用于对深度图进行地面背景减除,得到障碍物深度图。矢量采样子模块用于对障碍物深度图进行深度特征降维采样,得到深度特征矢量。
在一个实施例中,上述背景减除子模块具体可以用于获取深度图中开阔地带的地面深度图;获取无人车在工作过程中当前视野的当前深度图;计算当前深度图与地面深度图的相似度矩阵;根据相似度矩阵和当前深度图的像素矩阵进行矩阵元素乘积计算,得到障碍物深度图。
在一个实施例中,上述矢量采样子模块具体可以用于将障碍物深度图的下半幅沿水平方向分割为N个条状子图;分别将每个条状子图的最大像素值设为每个条状子图的特征采样值;将各特征采样值进行反归一化变换,得到深度特征矢量。
在一个实施例中,上述基于深度图的无人车局部自主控制装置100各模块及其子模块,还可以用于实现上述基于深度图的无人车局部自主控制方法各实施例中其他的相应子步骤。
关于基于深度图的无人车局部自主控制装置100的具体限定,可以参见上文中基于深度图的无人车局部自主控制方法的相应限定,在此不再赘述。上述基于深度图的无人车局部自主控制装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型导航规划控制的微处理器、单片机或树莓派等设备。
又一方面,还提供一种无人车,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时可以实现以下步骤:获取无人车视野拍摄的深度图并提取深度图的深度特征矢量;将当前时刻到过去
Figure 509188DEST_PATH_IMAGE101
个连续时刻的深度特征矢量与
Figure 76436DEST_PATH_IMAGE102
个连续时刻的无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
Figure 843535DEST_PATH_IMAGE103
为正整数数;将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练;将训练好的导航神经网络迁移至真实物理环境中,对无人车进行局部自主导航。
需要说明的是,本实施例中的无人车除上述列出的存储器和处理器之外,还可以包括其他必要组成构件,例如但不限于行走机构、抓取机构、收纳机构和/或躯干本体,具体可以根据实际应用场景中的无人车的型号确定。
在一个实施例中,处理器执行计算机程序时还可以实现上述基于深度图的无人车局部自主控制方法各实施例中增加的步骤或者子步骤。
再一方面,还提供一种计算机可读存储设备,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取无人车视野拍摄的深度图并提取深度图的深度特征矢量;将当前时刻到过去
Figure 761812DEST_PATH_IMAGE104
个连续时刻的深度特征矢量与
Figure 131613DEST_PATH_IMAGE105
个连续时刻的无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;
Figure 428734DEST_PATH_IMAGE106
为正整数数;将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;利用融合特征矢量和综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练;将训练好的导航神经网络迁移至真实物理环境中,对无人车进行局部自主导航。
在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于深度图的无人车局部自主控制方法各实施例中增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储设备中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他设备的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于深度图的无人车局部自主控制方法,其特征在于,包括步骤:
将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;所述深度图像通过无人车视野拍摄获取;所述深度特征矢量通过对所述深度图像进行处理提取得到;所述历史时刻连续拍摄是指当前时刻到过去
Figure 831875DEST_PATH_IMAGE001
个连续时刻连续拍摄;
将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;
利用所述融合特征矢量和所述综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练;
在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将当前时刻到过去
Figure 305581DEST_PATH_IMAGE002
个连续时刻无人车视野连续拍摄的深度图像对应的深度特征矢量,与拍摄深度图像时无人车的导航目标点位置坐标进行拼接融合得到的融合特征矢量,输入至训练好的所述导航神经网络,输出无人车控制指令。
2.根据权利要求1所述的基于深度图的无人车局部自主控制方法,其特征在于,对所述深度图像进行处理,提取得到深度特征矢量,包括:
对所述深度图像进行地面背景减除,得到障碍物深度图;
对所述障碍物深度图进行深度特征降维采样,得到所述深度特征矢量。
3.根据权利要求2所述的基于深度图的无人车局部自主控制方法,其特征在于,对所述深度图像进行地面背景减除,得到障碍物深度图的步骤,包括:
获取所述深度图像中开阔地带的地面深度图像;
获取所述无人车在工作过程中当前视野的当前深度图像;
计算所述当前深度图像与所述地面深度图像的相似度矩阵;
根据所述相似度矩阵和所述当前深度图像的像素矩阵进行矩阵元素乘积计算,减除背景深度信息,得到所述障碍物深度图。
4.根据权利要求2所述的基于深度图的无人车局部自主控制方法,其特征在于,对所述障碍物深度图进行深度特征降维采样,得到所述深度特征矢量的步骤,包括:
将所述障碍物深度图的下半幅沿水平方向分割为N个条状子图;
分别将每个所述条状子图的最大像素值设为每个所述条状子图的特征采样值;
将各所述特征采样值进行反归一化变换,得到所述深度特征矢量。
5.根据权利要求1至4任一所述的基于深度图的无人车局部自主控制方法,其特征在于,所述目标趋近奖励为
Figure 9095DEST_PATH_IMAGE003
Figure 836237DEST_PATH_IMAGE004
其中,
Figure 574386DEST_PATH_IMAGE005
表示比例系数,
Figure 94360DEST_PATH_IMAGE006
表示
Figure 285170DEST_PATH_IMAGE007
时刻目标引导点到无人车的距离,
Figure 775057DEST_PATH_IMAGE008
表示
Figure 744543DEST_PATH_IMAGE009
时刻目标引导点到无人车的距离,
Figure 294473DEST_PATH_IMAGE010
表示所述无人车到达目标引导点的判定距离阈值。
6.根据权利要求5所述的基于深度图的无人车局部自主控制方法,其特征在于,所述避障奖励为
Figure 238159DEST_PATH_IMAGE011
Figure 407103DEST_PATH_IMAGE012
其中,
Figure 854265DEST_PATH_IMAGE013
表示比例系数,
Figure 575096DEST_PATH_IMAGE014
表示深度带状分割矢量各元素的权重矢量,
Figure 615864DEST_PATH_IMAGE015
表示
Figure 713133DEST_PATH_IMAGE016
时刻的深度特征矢量,
Figure 421326DEST_PATH_IMAGE017
表示
Figure 47480DEST_PATH_IMAGE018
时刻的深度特征矢量,
Figure 700178DEST_PATH_IMAGE019
表示深度特征向量维数,
Figure 975039DEST_PATH_IMAGE020
表示无人车到任意障碍物的距离,
Figure 131214DEST_PATH_IMAGE021
表示判定所述无人车与环境障碍物是否发生碰撞的距离阈值。
7.根据权利要求5所述的基于深度图的无人车局部自主控制方法,其特征在于,所述能量优化奖励为
Figure 193848DEST_PATH_IMAGE022
Figure 209209DEST_PATH_IMAGE023
其中,
Figure 913859DEST_PATH_IMAGE024
表示每个训练回合的设置回合内步数上限,
Figure 190120DEST_PATH_IMAGE025
表示当前步数。
8.一种基于深度图的无人车局部自主控制装置,其特征在于,包括:
矢量融合模块,用于将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合,得到融合特征矢量并作为无人车的导航神经网络的输入状态;所述深度图像通过无人车视野拍摄获取;所述深度特征矢量通过对所述深度图像进行处理提取得到;所述历史时刻连续拍摄是指当前时刻到过去
Figure 299021DEST_PATH_IMAGE026
个连续时刻连续拍摄;
综合奖励模块,用于将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算,得到综合奖励函数;
网络训练模块,用于利用所述融合特征矢量和所述综合奖励函数,在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练;
导航应用模块,用于在真实物理环境中,获取当前时刻无人车视野拍摄的深度图像,将当前时刻到过去
Figure 926312DEST_PATH_IMAGE027
个连续时刻无人车视野连续拍摄的深度图像对应的深度特征矢量,与拍摄深度图像时无人车的导航目标点位置坐标进行拼接融合得到的融合特征矢量,输入至训练好的所述导航神经网络,输出无人车控制指令。
9.一种计算机可读存储设备,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现权利要求1至7中任一项所述基于深度图的无人车局部自主控制方法的步骤。
CN202111043740.XA 2021-09-07 2021-09-07 基于深度图的无人车局部自主控制方法、装置和设备 Active CN113486871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111043740.XA CN113486871B (zh) 2021-09-07 2021-09-07 基于深度图的无人车局部自主控制方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111043740.XA CN113486871B (zh) 2021-09-07 2021-09-07 基于深度图的无人车局部自主控制方法、装置和设备

Publications (2)

Publication Number Publication Date
CN113486871A CN113486871A (zh) 2021-10-08
CN113486871B true CN113486871B (zh) 2021-11-16

Family

ID=77946496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111043740.XA Active CN113486871B (zh) 2021-09-07 2021-09-07 基于深度图的无人车局部自主控制方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113486871B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153216B (zh) * 2021-12-14 2023-10-03 浙江大学湖州研究院 基于深度强化学习和块规划的月面路径规划系统和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112762957A (zh) * 2020-12-29 2021-05-07 西北工业大学 一种基于多传感器融合的环境建模及路径规划方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11094137B2 (en) * 2012-02-24 2021-08-17 Matterport, Inc. Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications
EP3430427B1 (en) * 2016-03-14 2021-07-21 IMRA Europe S.A.S. Processing method of a 3d point cloud
CN109407676B (zh) * 2018-12-20 2019-08-02 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的机器人避障方法
KR102131414B1 (ko) * 2019-12-31 2020-07-08 한국산업기술시험원 사용자 위치정보와 거주 기후 조건하에서 심층 강화 학습 알고리즘을 적용한 공기조화기 예비 냉난방 에너지절약 학습 시스템 및 그 방법
CN112083501B (zh) * 2020-09-09 2022-07-05 中国人民解放军国防科技大学 用于水下目标探测的海水离子运动磁场仿真方法、装置
CN112857370A (zh) * 2021-01-07 2021-05-28 北京大学 一种基于时序信息建模的机器人无地图导航方法
CN112882469B (zh) * 2021-01-14 2022-04-08 浙江大学 一种融合全局训练的深度强化学习避障导航方法
CN112965081B (zh) * 2021-02-05 2023-08-01 浙江大学 基于融合行人信息的特征地图的模仿学习社交导航方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112762957A (zh) * 2020-12-29 2021-05-07 西北工业大学 一种基于多传感器融合的环境建模及路径规划方法

Also Published As

Publication number Publication date
CN113486871A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
Richter et al. Safe visual navigation via deep learning and novelty detection
CN111142557B (zh) 无人机路径规划方法、系统、计算机设备及可读存储介质
Wenzel et al. Vision-based mobile robotics obstacle avoidance with deep reinforcement learning
Palazzo et al. Domain adaptation for outdoor robot traversability estimation from RGB data with safety-preserving loss
CN113128381A (zh) 障碍物轨迹预测方法、系统及计算机存储介质
Wang et al. Multirobot coordination with deep reinforcement learning in complex environments
CN116703984B (zh) 机器人路径规划及红外光图像融合方法、系统及存储介质
Park et al. Vision-based obstacle avoidance for UAVs via imitation learning with sequential neural networks
CN113486871B (zh) 基于深度图的无人车局部自主控制方法、装置和设备
CN113467462B (zh) 机器人的行人伴随控制方法、装置、移动机器人和介质
Naveed et al. Deep introspective SLAM: Deep reinforcement learning based approach to avoid tracking failure in visual SLAM
Chen et al. Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization
Qin et al. Deep imitation learning for autonomous navigation in dynamic pedestrian environments
Guerrero et al. Adaptive visual information gathering for autonomous exploration of underwater environments
Wang et al. Deep understanding of big geospatial data for self-driving: Data, technologies, and systems
Masmoudi et al. Autonomous car-following approach based on real-time video frames processing
Guzel Mobile robot vavigation using a vision based approach
Zhang et al. Cat: Closed-loop adversarial training for safe end-to-end driving
Zheng et al. Adaptive collision avoidance decisions in autonomous ship encounter scenarios through rule-guided vision supervised learning
Abbas et al. Autonomous canal following by a micro-aerial vehicle using deep CNN
CN115373383A (zh) 一种垃圾回收无人艇的自主避障方法、装置及相关设备
CN114120653A (zh) 一种集中式车群决策控制方法、装置及电子设备
Brill et al. The effective field of view paradigm: Adding representation to a reactive system
Bromo Reinforcement Learning Based Strategic Exploration Algorithm for UAVs Fleets
Wen et al. A Hybrid Technique for Active SLAM Based on RPPO Model with Transfer Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant