CN111443701A - 基于异构深度学习的无人驾驶车辆/机器人行为规划方法 - Google Patents

基于异构深度学习的无人驾驶车辆/机器人行为规划方法 Download PDF

Info

Publication number
CN111443701A
CN111443701A CN201811646641.9A CN201811646641A CN111443701A CN 111443701 A CN111443701 A CN 111443701A CN 201811646641 A CN201811646641 A CN 201811646641A CN 111443701 A CN111443701 A CN 111443701A
Authority
CN
China
Prior art keywords
model
unmanned vehicle
robot
image
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811646641.9A
Other languages
English (en)
Inventor
石朝侠
兰潇根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201811646641.9A priority Critical patent/CN111443701A/zh
Publication of CN111443701A publication Critical patent/CN111443701A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法。本发明设计了由不同类型深度学习网络组成的异构深度学习模型:在有限行为状态机的约束下,首先将输入图像进行降维编码,并将编码空间约束为正态分布空间,再在编码空间中实现对无人驾驶车辆/机器人的行为控制。本发明充分利用了不同种类深度学习模型的优势,包含基于擅长图像建模的卷积神经网络的自编码模型、基于擅长序列数据建模的循环神经网络的道路跟踪模型以及基于全连接神经网络的控制模型与评估模型;并利用当前传感信息、现行网络输出与驾驶员实际输出的偏差,从安全性、平滑性、快速性几个方面对多个相同结构的网络进行在线学习与评估,建立自主驾驶的终身学习机制。本发明有效解决了无人驾驶车辆/机器人自主规划的自学习问题,为基于视觉的自主导航提供了廉价、可行的解决方案。

Description

基于异构深度学习的无人驾驶车辆/机器人行为规划方法
技术领域
本发明涉及无人驾驶车辆/机器人自主规划领域,特别是一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法。
背景技术
学习一个从当前环境到无人驾驶车辆/机器人控制的映射是当前众多无人驾驶车辆/机器人应用的核心问题。该映射一般是利用车载传感器来感知无人驾驶车辆/机器人周围环境,并根据所获得的环境信息,来控制无人驾驶车辆/机器人的角速度和线速度,从而完成无人驾驶车辆/机器人的行为规划。
当前无人驾驶车辆/机器人行为规划系统大多是通过预编程的方法实现,由领域内的专家对环境建模并定义控制逻辑,通过预编程已经成功的实现了在特定环境下对机器人的控制。但是由于环境的多样性,使得通过预编程使无人驾驶车辆/机器人在不同环境下都能完成行为规划变得非常复杂和困难,而且当无人驾驶车辆/机器人遇到更加复杂或者陌生的环境时,其控制将变得不稳定,即使对所有环境都能建模,但是其控制逻辑却并不一定稳定。
机器学习技术已经被成功的应用在当今世界最先进的无人驾驶车辆/机器人上。例如在2005年DARPA Grand Challenge获得冠军的无人车Stanley,其在无人车历史上具有里程碑式的意义,因为机器学习技术在户外障碍物检测和地形测绘的普遍应用,使得Stanley在比赛中表现的非常鲁棒和精确。不过由于比赛环境是静态的,Stanley在交通流中并不能实现行为规划。
基于视觉控制和强化学习的方法也取得了显著的成就,部分是依赖基于深度学习(Deep Learning,DL)的模型,机器人可对环境进行无约束访问以及对控制策略进行无限次的迭代,在这样的条件下,基于控制的人工神经网络(ANN)通过不断地训练就可以使用更好的策略重复访问并预测环境。在当前基于DL最成功的机器人应用中,大多是使用监督学习的方式训练ANN,来完成机器人的行为规划,而无监督的方式由于其理论和实践的欠缺,使得将ANN作为生成模型的成果较少。变分自编码在高斯先验分布的编码空间和原始数据空间中,成功的学习了生成模型,并给出了使用ANN训练该生成模型的方法,但是其解码使用的是均方误差代价函数,生成的图像看起来往往比较模糊、不自然,与真实图像相差较大。生成对抗网络(Generative Adversarial Networks,GAN)很好地解决了这个问题,该网络通过同时训练生成网络和鉴别网络,使得生成网络生成的图像看起来更加清晰自然。Larsen等人将VAE和GAN结合起来,从而提出将图像编码后,更好解码还原图像的方法。Hotz等人利用VAE和GAN,完成了对无人车采集的道路图像的编码、道路跟踪、道路编码图像解码的任务。
深度学习模型由于其强大的描述能力和简单的训练逻辑,近年来在诸多领域取得了显著的成功。
发明内容
本发明的目的在于提供一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法,从而解决无人驾驶车辆/机器人视觉导航的安全性与自学习性问题。
实现本发明目的的技术解决方案为:一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法,步骤如下:
(1)根据无人驾驶车辆/机器人获取的先验环境地图、全局任务路线以及无人驾驶车辆/机器人当前的位姿状态产生无人驾驶车辆/机器人的有限行为状态机。状态机的N个状态与N个异构深度学习网络模型一一对应,模型具有相同的结构和不同的参数取值。
(2)基于输入图像,采用卷积神经网络自编码模型(Auto Encoding Model,AEM)进行图像降维、图像建模与图像预测;将道路图像空间转换为正态分布空间,每一副图像都对应编码空间中一个近似的标准正态分布,从相应分布的高概率密度处采样作为该图像的编码。
(3)利用基于全连接神经网络的评估模型(Evaluation Model,EM)评估道路跟踪、控制模型的训练效果,以及在实际应用中对道路跟踪模型和控制模型的跟踪控制信号进行评估,使得模型能够对已遇到的路况进行准确的跟踪控制,并能避免对未知路况做出错误的决策。
(4)使用擅长序列数据建模的循环神经网络(Recurrent Neural Networks,RNN)建立道路跟踪模型(Road Tracking Model,RTM)来描述无人驾驶车辆/机器人在自主驾驶过程中所采集到图像序列间的关系。
(5)控制模型(Control Model,CM)通过当前道路图像的编码得到对无人驾驶车辆/机器人的控制信号。
(6)利用传感器信息对驾驶员实际控制信号和神经网络产生的控制信号性能进行评估,对M个异构神经网络进行训练,与当前使用的神经网络模型竞争上岗,实现终身学习。
(7)重复执行步骤(1)至(6),直至产生外部干预或规划任务结束。
本发明相比于现有技术,其优点在于:(1)引入有限行为状态机训练异构深度网络在不同行为状态下的参数,具有更高的准确性和安全性;(2)充分利用不同类型深度学习网络的优点,提升了异构深度网络的整体性能;(3)在应用过程中对多个网络参数进行在线训练与评估,建立了终身学习机制。
附图说明
图1是本发明自编码模型(AEM)结构图。
图2是本发明评估模型(EM)结构图。
图3是本发明评估模型(EM)损失函数的组成。
图4是本发明道路跟踪模型(RTM)结构图。
具体实施方式
本发明使用不同类型的深度学习模型对环境建模,并实现道路跟踪和无人驾驶车辆/机器人控制,完成无人驾驶车辆/机器人的行为规划。
下面结合附图对本发明作进一步描述。
本发明基于异构深度学习的无人驾驶车辆/机器人行为规划方法,包括以下步骤:
1.步骤1:基于有限行为状态机的异构深度学习网络构建
(1)在图像输入下,无人驾驶车辆/机器人行为由有限行为状态机的状态所对应的异构深度学习网络产生,即相似的传感器信息输入可能会对应不同的控制行为。
(2)无人驾驶车辆/机器人的有限行为状态机包括{道路跟踪,路口左转,路口右转,路口直行,换道,前车超越,前车跟随,越野漫游,暂停等待,紧急避险}。
2.步骤2:卷积神经网络自编码模型的构建:
(1)利用卷积神经网络自编码模型将道路图像空间转换为正态分布空间,每一副图像都对应编码空间中一个近似的标准正态分布,从相应分布的高概率密度处采样作为该图像的编码。自编码模型如下式所示:
t,σt)=AEM(It) (1)
其中It表示t时刻的道路图像,μt,σt分别表示在编码空间中与It对应的分布的均值与标准差,AEM()表示自编码模型,其结构如附图1所示。
(2)在实际利用VAE时,因为不使用解码模型,自编码模型的编码效果须要重新评估,与VAE损失函数不同的是,为了进一步加强AEM的稀疏性,尽量避免将差异较大的图像编码为相似的分布,,在训练AEM模型时,我们对均值进行了稀疏化约束,使用如下的损失函数:
Figure BDA0001932179280000041
其中
Figure BDA0001932179280000042
表示σt二范数的平方,
Figure BDA0001932179280000043
表示σt的维度,
Figure BDA0001932179280000044
表示均值的二范数平方,β是[0,1]间的实数,为正则化参数。此损失函数描述了AEM定义的编码空间与标准正态分布空间的KL散度(Kullback-Leibler Divergence)与均值二范数平方的和。
3.步骤3:基于全连接神经网络的评估模型构建:
(1)评估模型(EM)的目的是来评估道路跟踪以及控制模型的训练效果,以及在实际应用中对道路跟踪模型和控制模型的跟踪控制信号进行评估,使得模型能够对已遇到的路况进行准确的跟踪控制,并能避免对未知路况做出错误的决策。其评估值为[0,1]内的实数,越接近1表示模型训练越好或者所做出的决策越可靠,反之应对模型进行改进并加强训练或者做出即时的预警以防危险的发生。
(2)由于编码空间的维度相较于控制信号的维度过大,使得在训练中评估模型很难发现控制信号的变化,因此对编码空间中的向量进行降维,并结合控制信号构成评估模型。评估模型如下:
pt=EM(Desampling(zt),(ωt,vt)) (3)
其中zt表示t时刻道路图像It在编码空间的编码,且zt=μt,表示zt从It对应的高斯分布的最高概率密度处采样,Desampling()表示降采样网络,EM()表示将Desampling()的输出与控制信号相融合的网络,pt表示相应的评估值。(ωt,vt)分别为t时刻样本提供的无人驾驶车辆/机器人角速度和线速度(以下同)。
(3)在训练EM时,使用路况图像编码或随机编码与正确控制或随机控制交叉构成4类样本作为训练集,包括1类正样本,即路况编码与正确控制构成的样本,和3类负样本,并生成4个评估值来构成EM的损失函数。
p_post=EM(Desampling(zt),(ωt,vt)) (4)
Figure BDA0001932179280000051
Figure BDA0001932179280000052
Figure BDA0001932179280000053
式中,random_code()表示从标准正态分布采样产生与Desampling(zt)同维度向量的随机函数,random_control()表示从均匀分布采样产生与(ωt,vt)同维度向量的随机函数,在随机采样的过程中,要避免出现与Desampling(zt),(ωt,vt)相同或相近的情况,用来模拟无人驾驶车辆/机器人所未遇到的路况和采取的错误控制,p_post表示对正样本的评估值,
Figure BDA0001932179280000054
Figure BDA0001932179280000055
分别表示相应负样本的评估值。
(4)为了使得EM对正样本的评估值接近1,对负样本的评估值接近0,使用交叉熵损失构成如下损失函数:
Figure BDA0001932179280000056
如附图3所示,表示了EM的结构和计算损失函数的数据形成方式。
4.步骤:基于循环神经网络(RNN)的道路跟踪模型(RTM)通过以下方法实现:
(1)为了描述无人驾驶车辆/机器人在自主驾驶过程中所采集到图像序列间的关系,道路跟踪模型(Road Tracking Model,RTM,其架构如附图4)使用了擅长序列数据建模的循环神经网络(Recurrent Neural Networks,RNN),道路跟踪模型如下式所示:
Figure BDA0001932179280000057
道路跟踪模型公式表达如下:
Figure BDA0001932179280000058
Figure BDA0001932179280000059
其中
Figure BDA00019321792800000510
表示t时刻RTM的道路跟踪图像编码,zt表示t时刻道路图像编码,W、V、A是实矩阵,ht为t时刻隐层状态,ht+1为t+1时刻隐层状态。
(2)为了增强EM对RTM的适用性,使得EM能够更好的评估和提升RTM的性能,使用均方误差(Mean Square Error,MSE)与EM评估值结合的方式构成RTM的损失函数:
Figure BDA0001932179280000061
Figure BDA0001932179280000062
其中,lossRTM为RTM的损失值,λRTM为正则化参数,是[0,1]间的实数,p_RTMt为t时刻EM对RTM的评估值,E()表示求均值,
Figure BDA0001932179280000063
表示t时刻RTM的道路跟踪图像编码,zt表示t时刻道路图像编码,通过实验发现,将MSE与lossEM结合可以使RNN得到更好的收敛结果。使用15帧的图像来训练模型,前5帧为z1,...,z5,通过AEM(It)得到,使用
Figure BDA0001932179280000064
作为后10帧输入。
5.步骤5:控制模型(Control Model,CM)通过以下方法实现:
(1)控制模型(Control Model,CM)通过当前道路图像的编码得到对无人驾驶车辆/机器人的控制信号,控制模型如下式所示:
Figure BDA0001932179280000065
其中
Figure BDA0001932179280000066
分别表示t时刻CM输出的角速度与线速度。
(2)为了增强EM对CM的适用性,使得EM能够更好的评估CM的性能,以及提升CM的性能,使用MSE(Mean Square Error)与EM评估值结合的方式构成CM的损失函数:
Figure BDA0001932179280000067
Figure BDA0001932179280000068
其中lossCM为CM损失值,p_CMt表示t时刻EM对CM的评估值,ωt+1,vt+1分别表示t+1时刻样本所提供的无人驾驶车辆/机器人的角速度与线速度,λCM为正则化参数,是[0,1]间的实数。Desampling()表示降采样网络,EM()表示将Desampling()的输出与控制信号相融合的网络,zt表示t时刻道路图像It在编码空间的编码。
6.步骤6:异构深度学习网络的终身学习策略通过以下方法实现:
基于驾驶员实际控制信号和控制模型产生的控制信号的偏差,利用当前传感器信息、无人驾驶车辆/机器人位姿状态信息从安全性、路径平滑性、快速性几个方面进行评估,除当前使用的神经网络之外,同时对M个相同异构神经网络进行在线训练,经过N次评估结果,将性能最优的神经网络与当前使用的神经网络模型竞争上岗,实现终身学习。

Claims (7)

1.一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法,其特征在于,步骤如下:
(1)根据无人驾驶车辆/机器人获取的先验环境地图、全局任务路线以及无人驾驶车辆/机器人当前的位姿状态产生无人驾驶车辆/机器人的有限行为状态机;状态机的N个状态与N个异构深度学习网络模型一一对应,模型具有相同的结构和不同的参数取值;
(2)基于输入图像,采用卷积神经网络自编码模型AEM进行图像降维、图像建模与图像预测;将道路图像空间转换为正态分布空间,每一副图像都对应编码空间中一个近似的标准正态分布,从相应分布的高概率密度处采样作为该图像的编码;
(3)利用基于全连接神经网络的评估模型EM评估道路跟踪、控制模型的训练效果,以及在实际应用中对道路跟踪模型和控制模型的跟踪控制信号进行评估;
(4)使用擅长序列数据建模的循环神经网络RNN建立道路跟踪模型RTM来描述无人驾驶车辆/机器人在自主驾驶过程中所采集到图像序列间的关系;
(5)控制模型CM通过当前道路图像的编码得到对无人驾驶车辆/机器人的控制信号;
(6)利用传感器信息对驾驶员实际控制信号和神经网络产生的控制信号性能进行评估,对M个异构神经网络进行训练,与当前使用的神经网络模型竞争上岗,实现终身学习;
(7)重复执行步骤(1)至(6),直至产生外部干预或规划任务结束。
2.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法,其特征在于:所述步骤(1)中基于有限行为状态机的异构深度学习网络详细描述如下:
(a)在图像输入下,无人驾驶车辆/机器人行为由有限行为状态机的状态所对应的异构深度学习网络产生;
(b)无人驾驶车辆/机器人的有限行为状态机包括{道路跟踪,路口左转,路口右转,路口直行,换道,前车超越,前车跟随,越野漫游,暂停等待,紧急避险}。
3.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法,其特征在于:所述步骤(2)中采用卷积神经网络自编码模型的步骤为:
(a)利用卷积神经网络自编码模型将道路图像空间转换为正态分布空间,每一副图像都对应编码空间中一个近似的标准正态分布,从相应分布的高概率密度处采样作为该图像的编码;自编码模型如下式所示:
T,σT)=AEM(IT)
其中,IT表示t时刻的道路图像,μT、σT分别表示在编码空间中与IT对应的分布的均值与标准差,AEM()表示自编码模型;
(b)在训练AEM模型时,对均值进行稀疏化约束,使用如下的损失函数:
Figure FDA0001932179270000021
其中,
Figure FDA0001932179270000022
表示σT二范数的平方,
Figure FDA0001932179270000023
表示σT的维度,
Figure FDA0001932179270000024
表示均值的二范数平方,β是[0,1]间的实数,为正则化参数;此损失函数描述了AEM定义的编码空间与标准正态分布空间的KL散度(Kullback-Leibler Divergence)与均值二范数平方的和。
4.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法,其特征在于,所述步骤(3)中全连接神经网络的评估模型构建步骤如下:
(a)使用评估模型EM评估道路跟踪以及控制模型的训练效果,以及在实际应用中对道路跟踪模型和控制模型的跟踪控制信号进行评估,其评估值为[0,1]内的实数,越接近1表示模型训练越好或者所做出的决策越可靠,反之应对模型进行改进并加强训练或者做出即时的预警以防危险的发生;
(b)对编码空间中的向量进行降维,并结合控制信号构成评估模型,评估模型如下:
pT=EM(Desampling(zT),(ωT,vT))
其中,zT表示t时刻道路图像IT在编码空间的编码,且zT=μT,表示zT从IT对应的高斯分布的最高概率密度处采样,Desampling()表示降采样网络,EM()表示将Desampling()的输出与控制信号相融合的网络,pT表示相应的评估值,(ωT,vT)分别为t时刻样本提供的无人驾驶车辆/机器人角速度和线速度;
(c)在训练EM时,使用路况图像编码或随机编码与正确控制或随机控制交叉构成4类样本作为训练集,包括1类正样本,即路况编码与正确控制构成的样本,和3类负样本,并生成4个评估值来构成EM的损失函数;
p_posT=EM(Desampling(zT),(ωT,vT))
Figure FDA0001932179270000031
Figure FDA0001932179270000032
Figure FDA0001932179270000033
式中,random_code()表示从标准正态分布采样产生与Desampling(zT)同维度向量的随机函数,random_control()表示从均匀分布采样产生与(ωT,vT)同维度向量的随机函数,p_posT表示对正样本的评估值,
Figure FDA0001932179270000034
分别表示相应负样本的评估值;
(d)使用交叉熵损失构成如下损失函数,使得EM对正样本的评估值接近1,对负样本的评估值接近0:
Figure FDA0001932179270000035
表示EM的结构和计算损失函数的数据形成方式。
5.根据权利要求1基于异构深度学习的无人驾驶车辆/机器人行为规划方法,其特征在于:所述步骤(4)中基于循环神经网络RNN的道路跟踪模型RTM通过以下方法实现:
(a)道路跟踪模型RTM使用擅长序列数据建模的循环神经网络RNN,描述无人驾驶车辆/机器人在自主驾驶过程中所采集到图像序列间的关系,道路跟踪模型如下式所示:
Figure FDA0001932179270000036
道路跟踪模型公式表达如下:
Figure FDA0001932179270000037
Figure FDA0001932179270000038
其中,
Figure FDA0001932179270000041
表示t时刻RTM的道路跟踪图像编码,zT表示t时刻道路图像编码,W、V、A是实矩阵,hT为t时刻隐层状态,hT+1为t+1时刻隐层状态;
(b)使用均方误差MSE与EM评估值结合的方式构成RTM的损失函数:
Figure FDA0001932179270000042
Figure FDA0001932179270000043
其中,lossRTM为RTM的损失值,λRTM为正则化参数,是[0,1]间的实数,p_RTMt为t时刻EM对RTM的评估值,E()表示求均值,
Figure FDA0001932179270000044
表示t时刻RTM的道路跟踪图像编码,zt表示t时刻道路图像编码,使用15帧的图像来训练模型,前5帧为z1,…,z5,通过AEM(It)得到,使用
Figure FDA0001932179270000045
作为后10帧输入。
6.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法,其特征在于:步骤(5)中控制模型CM通过以下方法实现:
(a)控制模型CM通过当前道路图像的编码得到对无人驾驶车辆/机器人的控制信号,控制模型如下式所示:
Figure FDA0001932179270000046
其中
Figure FDA0001932179270000047
分别表示t时刻CM输出的角速度与线速度;
(b)使用MSE与EM评估值结合的方式构成CM的损失函数:
Figure FDA0001932179270000048
Figure FDA0001932179270000049
其中,lossCM为CM损失值,p_CMt表示t时刻EM对CM的评估值,ωt+1,vt+1分别表示t+1时刻样本所提供的无人驾驶车辆/机器人的角速度与线速度,λCM为正则化参数,是[0,1]间的实数;Desampling()表示降采样网络,EM()表示将Desampling()的输出与控制信号相融合的网络,zt表示t时刻道路图像It在编码空间的编码。
7.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法,其特征在于,步骤(6)中异构深度学习网络终身学习策略通过以下方法实现:
基于驾驶员实际控制信号和控制模型产生的控制信号的偏差,利用当前传感器信息、无人驾驶车辆/机器人位姿状态信息从安全性、路径平滑性、快速性几个方面进行评估,除当前使用的神经网络之外,同时对M个相同异构神经网络进行在线训练,经过N次评估结果,将性能最优的神经网络与当前使用的神经网络模型竞争上岗,实现终身学习。
CN201811646641.9A 2018-12-29 2018-12-29 基于异构深度学习的无人驾驶车辆/机器人行为规划方法 Pending CN111443701A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811646641.9A CN111443701A (zh) 2018-12-29 2018-12-29 基于异构深度学习的无人驾驶车辆/机器人行为规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811646641.9A CN111443701A (zh) 2018-12-29 2018-12-29 基于异构深度学习的无人驾驶车辆/机器人行为规划方法

Publications (1)

Publication Number Publication Date
CN111443701A true CN111443701A (zh) 2020-07-24

Family

ID=71655624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811646641.9A Pending CN111443701A (zh) 2018-12-29 2018-12-29 基于异构深度学习的无人驾驶车辆/机器人行为规划方法

Country Status (1)

Country Link
CN (1) CN111443701A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035575A (zh) * 2021-11-04 2022-02-11 南京理工大学 基于语义分割的无人驾驶车辆运动规划方法及系统
CN116048096A (zh) * 2023-02-23 2023-05-02 南京理工大学 一种基于层次化深度感知的无人车运动规划方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875511A (zh) * 2017-03-03 2017-06-20 深圳市唯特视科技有限公司 一种基于自编码正则化网络学习驾驶风格的方法
CN108520155A (zh) * 2018-04-11 2018-09-11 大连理工大学 基于神经网络的车辆行为模拟方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875511A (zh) * 2017-03-03 2017-06-20 深圳市唯特视科技有限公司 一种基于自编码正则化网络学习驾驶风格的方法
CN108520155A (zh) * 2018-04-11 2018-09-11 大连理工大学 基于神经网络的车辆行为模拟方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAOXIA SHI: "Motion planning for unmanned vehicle based on hybrid deep learning", 《 2017 INTERNATIONAL CONFERENCE ON SECURITY, PATTERN ANALYSIS, AND CYBERNETICS (SPAC)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035575A (zh) * 2021-11-04 2022-02-11 南京理工大学 基于语义分割的无人驾驶车辆运动规划方法及系统
CN114035575B (zh) * 2021-11-04 2023-03-31 南京理工大学 基于语义分割的无人驾驶车辆运动规划方法及系统
CN116048096A (zh) * 2023-02-23 2023-05-02 南京理工大学 一种基于层次化深度感知的无人车运动规划方法
CN116048096B (zh) * 2023-02-23 2024-04-30 南京理工大学 一种基于层次化深度感知的无人车运动规划方法

Similar Documents

Publication Publication Date Title
Chen et al. Model-free deep reinforcement learning for urban autonomous driving
Michelmore et al. Uncertainty quantification with statistical guarantees in end-to-end autonomous driving control
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN114194211B (zh) 一种自动驾驶方法、装置及电子设备和存储介质
CN111931902A (zh) 一种生成对抗网络模型、及利用该生成对抗网络模型的车辆轨迹预测方法
Cho et al. Deep predictive autonomous driving using multi-agent joint trajectory prediction and traffic rules
Zhao et al. Cadre: A cascade deep reinforcement learning framework for vision-based autonomous urban driving
CN110281949A (zh) 一种自动驾驶统一分层决策方法
Feher et al. Q-learning based reinforcement learning approach for lane keeping
CN115690153A (zh) 一种智能体轨迹预测方法及系统
CN116595871A (zh) 基于动态时空交互图的车辆轨迹预测建模方法与装置
CN111443701A (zh) 基于异构深度学习的无人驾驶车辆/机器人行为规划方法
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
Masmoudi et al. Autonomous car-following approach based on real-time video frames processing
CN117408406A (zh) 一种规划耦合的多目标车辆轨迹预测方法及系统
CN117523821A (zh) 基于gat-cs-lstm的车辆多模态驾驶行为轨迹预测系统及方法
CN117429461A (zh) 一种用于城市无信号路段的自动驾驶汽车通行决策方法
Shi et al. Motion planning for unmanned vehicle based on hybrid deep learning
CN115900725B (zh) 路径规划装置、电子设备、存储介质和相关方法
Ge et al. Deep reinforcement learning navigation via decision transformer in autonomous driving
CN114104005B (zh) 自动驾驶设备的决策方法、装置、设备及可读存储介质
Yoo et al. Gin: Graph-based interaction-aware constraint policy optimization for autonomous driving
Zhou et al. Sa-sgan: A vehicle trajectory prediction model based on generative adversarial networks
Anderson et al. Autonomous navigation via a deep Q network with one-hot image encoding
Hjaltason Predicting vehicle trajectories with inverse reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200724

RJ01 Rejection of invention patent application after publication