CN111443701A

CN111443701A - 基于异构深度学习的无人驾驶车辆/机器人行为规划方法

Info

Publication number: CN111443701A
Application number: CN201811646641.9A
Authority: CN
Inventors: 石朝侠; 兰潇根
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2020-07-24

Abstract

本发明公开了一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法。本发明设计了由不同类型深度学习网络组成的异构深度学习模型：在有限行为状态机的约束下，首先将输入图像进行降维编码，并将编码空间约束为正态分布空间，再在编码空间中实现对无人驾驶车辆/机器人的行为控制。本发明充分利用了不同种类深度学习模型的优势，包含基于擅长图像建模的卷积神经网络的自编码模型、基于擅长序列数据建模的循环神经网络的道路跟踪模型以及基于全连接神经网络的控制模型与评估模型；并利用当前传感信息、现行网络输出与驾驶员实际输出的偏差，从安全性、平滑性、快速性几个方面对多个相同结构的网络进行在线学习与评估，建立自主驾驶的终身学习机制。本发明有效解决了无人驾驶车辆/机器人自主规划的自学习问题，为基于视觉的自主导航提供了廉价、可行的解决方案。

Description

基于异构深度学习的无人驾驶车辆/机器人行为规划方法

技术领域

本发明涉及无人驾驶车辆/机器人自主规划领域，特别是一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法。

背景技术

学习一个从当前环境到无人驾驶车辆/机器人控制的映射是当前众多无人驾驶车辆/机器人应用的核心问题。该映射一般是利用车载传感器来感知无人驾驶车辆/机器人周围环境，并根据所获得的环境信息，来控制无人驾驶车辆/机器人的角速度和线速度，从而完成无人驾驶车辆/机器人的行为规划。

当前无人驾驶车辆/机器人行为规划系统大多是通过预编程的方法实现，由领域内的专家对环境建模并定义控制逻辑，通过预编程已经成功的实现了在特定环境下对机器人的控制。但是由于环境的多样性，使得通过预编程使无人驾驶车辆/机器人在不同环境下都能完成行为规划变得非常复杂和困难，而且当无人驾驶车辆/机器人遇到更加复杂或者陌生的环境时，其控制将变得不稳定，即使对所有环境都能建模，但是其控制逻辑却并不一定稳定。

机器学习技术已经被成功的应用在当今世界最先进的无人驾驶车辆/机器人上。例如在2005年DARPA Grand Challenge获得冠军的无人车Stanley，其在无人车历史上具有里程碑式的意义，因为机器学习技术在户外障碍物检测和地形测绘的普遍应用，使得Stanley在比赛中表现的非常鲁棒和精确。不过由于比赛环境是静态的，Stanley在交通流中并不能实现行为规划。

基于视觉控制和强化学习的方法也取得了显著的成就，部分是依赖基于深度学习(Deep Learning，DL)的模型，机器人可对环境进行无约束访问以及对控制策略进行无限次的迭代，在这样的条件下，基于控制的人工神经网络(ANN)通过不断地训练就可以使用更好的策略重复访问并预测环境。在当前基于DL最成功的机器人应用中，大多是使用监督学习的方式训练ANN，来完成机器人的行为规划，而无监督的方式由于其理论和实践的欠缺，使得将ANN作为生成模型的成果较少。变分自编码在高斯先验分布的编码空间和原始数据空间中，成功的学习了生成模型，并给出了使用ANN训练该生成模型的方法，但是其解码使用的是均方误差代价函数，生成的图像看起来往往比较模糊、不自然，与真实图像相差较大。生成对抗网络(Generative Adversarial Networks，GAN)很好地解决了这个问题，该网络通过同时训练生成网络和鉴别网络，使得生成网络生成的图像看起来更加清晰自然。Larsen等人将VAE和GAN结合起来，从而提出将图像编码后，更好解码还原图像的方法。Hotz等人利用VAE和GAN，完成了对无人车采集的道路图像的编码、道路跟踪、道路编码图像解码的任务。

深度学习模型由于其强大的描述能力和简单的训练逻辑，近年来在诸多领域取得了显著的成功。

发明内容

本发明的目的在于提供一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法，从而解决无人驾驶车辆/机器人视觉导航的安全性与自学习性问题。

实现本发明目的的技术解决方案为：一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法，步骤如下：

(1)根据无人驾驶车辆/机器人获取的先验环境地图、全局任务路线以及无人驾驶车辆/机器人当前的位姿状态产生无人驾驶车辆/机器人的有限行为状态机。状态机的N个状态与N个异构深度学习网络模型一一对应，模型具有相同的结构和不同的参数取值。

(2)基于输入图像，采用卷积神经网络自编码模型(Auto Encoding Model，AEM)进行图像降维、图像建模与图像预测；将道路图像空间转换为正态分布空间，每一副图像都对应编码空间中一个近似的标准正态分布，从相应分布的高概率密度处采样作为该图像的编码。

(3)利用基于全连接神经网络的评估模型(Evaluation Model，EM)评估道路跟踪、控制模型的训练效果，以及在实际应用中对道路跟踪模型和控制模型的跟踪控制信号进行评估，使得模型能够对已遇到的路况进行准确的跟踪控制，并能避免对未知路况做出错误的决策。

(4)使用擅长序列数据建模的循环神经网络(Recurrent Neural Networks，RNN)建立道路跟踪模型(Road Tracking Model，RTM)来描述无人驾驶车辆/机器人在自主驾驶过程中所采集到图像序列间的关系。

(5)控制模型(Control Model，CM)通过当前道路图像的编码得到对无人驾驶车辆/机器人的控制信号。

(6)利用传感器信息对驾驶员实际控制信号和神经网络产生的控制信号性能进行评估，对M个异构神经网络进行训练，与当前使用的神经网络模型竞争上岗，实现终身学习。

(7)重复执行步骤(1)至(6)，直至产生外部干预或规划任务结束。

本发明相比于现有技术，其优点在于：(1)引入有限行为状态机训练异构深度网络在不同行为状态下的参数，具有更高的准确性和安全性；(2)充分利用不同类型深度学习网络的优点，提升了异构深度网络的整体性能；(3)在应用过程中对多个网络参数进行在线训练与评估，建立了终身学习机制。

附图说明

图1是本发明自编码模型(AEM)结构图。

图2是本发明评估模型(EM)结构图。

图3是本发明评估模型(EM)损失函数的组成。

图4是本发明道路跟踪模型(RTM)结构图。

具体实施方式

本发明使用不同类型的深度学习模型对环境建模，并实现道路跟踪和无人驾驶车辆/机器人控制，完成无人驾驶车辆/机器人的行为规划。

下面结合附图对本发明作进一步描述。

本发明基于异构深度学习的无人驾驶车辆/机器人行为规划方法，包括以下步骤：

1.步骤1：基于有限行为状态机的异构深度学习网络构建

(1)在图像输入下，无人驾驶车辆/机器人行为由有限行为状态机的状态所对应的异构深度学习网络产生，即相似的传感器信息输入可能会对应不同的控制行为。

(2)无人驾驶车辆/机器人的有限行为状态机包括{道路跟踪，路口左转，路口右转，路口直行，换道，前车超越，前车跟随，越野漫游，暂停等待，紧急避险}。

2.步骤2：卷积神经网络自编码模型的构建：

(1)利用卷积神经网络自编码模型将道路图像空间转换为正态分布空间，每一副图像都对应编码空间中一个近似的标准正态分布，从相应分布的高概率密度处采样作为该图像的编码。自编码模型如下式所示：

(μ_t，σ_t)＝AEM(I_t) (1)

其中I_t表示t时刻的道路图像，μ_t，σ_t分别表示在编码空间中与I_t对应的分布的均值与标准差，AEM()表示自编码模型，其结构如附图1所示。

(2)在实际利用VAE时，因为不使用解码模型，自编码模型的编码效果须要重新评估，与VAE损失函数不同的是，为了进一步加强AEM的稀疏性，尽量避免将差异较大的图像编码为相似的分布，，在训练AEM模型时，我们对均值进行了稀疏化约束，使用如下的损失函数：

其中

表示σ_t二范数的平方，

表示σ_t的维度，

表示均值的二范数平方，β是[0，1]间的实数，为正则化参数。此损失函数描述了AEM定义的编码空间与标准正态分布空间的KL散度(Kullback-Leibler Divergence)与均值二范数平方的和。

3.步骤3：基于全连接神经网络的评估模型构建：

(1)评估模型(EM)的目的是来评估道路跟踪以及控制模型的训练效果，以及在实际应用中对道路跟踪模型和控制模型的跟踪控制信号进行评估，使得模型能够对已遇到的路况进行准确的跟踪控制，并能避免对未知路况做出错误的决策。其评估值为[0，1]内的实数，越接近1表示模型训练越好或者所做出的决策越可靠，反之应对模型进行改进并加强训练或者做出即时的预警以防危险的发生。

(2)由于编码空间的维度相较于控制信号的维度过大，使得在训练中评估模型很难发现控制信号的变化，因此对编码空间中的向量进行降维，并结合控制信号构成评估模型。评估模型如下：

p_t＝EM(Desampling(z_t)，(ω_t，v_t)) (3)

其中z_t表示t时刻道路图像I_t在编码空间的编码，且z_t＝μ_t，表示z_t从I_t对应的高斯分布的最高概率密度处采样，Desampling()表示降采样网络，EM()表示将Desampling()的输出与控制信号相融合的网络，p_t表示相应的评估值。(ω_t，v_t)分别为t时刻样本提供的无人驾驶车辆/机器人角速度和线速度(以下同)。

(3)在训练EM时，使用路况图像编码或随机编码与正确控制或随机控制交叉构成4类样本作为训练集，包括1类正样本，即路况编码与正确控制构成的样本，和3类负样本，并生成4个评估值来构成EM的损失函数。

p_pos_t＝EM(Desampling(z_t)，(ω_t，v_t)) (4)

式中，random_code()表示从标准正态分布采样产生与Desampling(z_t)同维度向量的随机函数，random_control()表示从均匀分布采样产生与(ω_t，v_t)同维度向量的随机函数，在随机采样的过程中，要避免出现与Desampling(z_t)，(ω_t，v_t)相同或相近的情况，用来模拟无人驾驶车辆/机器人所未遇到的路况和采取的错误控制，p_pos_t表示对正样本的评估值，

分别表示相应负样本的评估值。

(4)为了使得EM对正样本的评估值接近1，对负样本的评估值接近0，使用交叉熵损失构成如下损失函数：

如附图3所示，表示了EM的结构和计算损失函数的数据形成方式。

4.步骤：基于循环神经网络(RNN)的道路跟踪模型(RTM)通过以下方法实现：

(1)为了描述无人驾驶车辆/机器人在自主驾驶过程中所采集到图像序列间的关系，道路跟踪模型(Road Tracking Model，RTM，其架构如附图4)使用了擅长序列数据建模的循环神经网络(Recurrent Neural Networks，RNN)，道路跟踪模型如下式所示：

道路跟踪模型公式表达如下：

其中

表示t时刻RTM的道路跟踪图像编码，z_t表示t时刻道路图像编码，W、V、A是实矩阵，h_t为t时刻隐层状态，h_t+1为t+1时刻隐层状态。

(2)为了增强EM对RTM的适用性，使得EM能够更好的评估和提升RTM的性能，使用均方误差(Mean Square Error，MSE)与EM评估值结合的方式构成RTM的损失函数：

其中，loss_RTM为RTM的损失值，λ_RTM为正则化参数，是[0，1]间的实数，p_RTM_t为t时刻EM对RTM的评估值，E()表示求均值，

表示t时刻RTM的道路跟踪图像编码，z_t表示t时刻道路图像编码，通过实验发现，将MSE与loss_EM结合可以使RNN得到更好的收敛结果。使用15帧的图像来训练模型，前5帧为z₁，...，z₅，通过AEM(It)得到，使用

作为后10帧输入。

5.步骤5：控制模型(Control Model，CM)通过以下方法实现：

(1)控制模型(Control Model，CM)通过当前道路图像的编码得到对无人驾驶车辆/机器人的控制信号，控制模型如下式所示：

其中

分别表示t时刻CM输出的角速度与线速度。

(2)为了增强EM对CM的适用性，使得EM能够更好的评估CM的性能，以及提升CM的性能，使用MSE(Mean Square Error)与EM评估值结合的方式构成CM的损失函数：

其中loss_CM为CM损失值，p_CM_t表示t时刻EM对CM的评估值，ω_t+1，v_t+1分别表示t+1时刻样本所提供的无人驾驶车辆/机器人的角速度与线速度，λ_CM为正则化参数，是[0，1]间的实数。Desampling()表示降采样网络，EM()表示将Desampling()的输出与控制信号相融合的网络，z_t表示t时刻道路图像I_t在编码空间的编码。

6.步骤6：异构深度学习网络的终身学习策略通过以下方法实现：

基于驾驶员实际控制信号和控制模型产生的控制信号的偏差，利用当前传感器信息、无人驾驶车辆/机器人位姿状态信息从安全性、路径平滑性、快速性几个方面进行评估，除当前使用的神经网络之外，同时对M个相同异构神经网络进行在线训练，经过N次评估结果，将性能最优的神经网络与当前使用的神经网络模型竞争上岗，实现终身学习。

Claims

1.一种基于异构深度学习的无人驾驶车辆/机器人行为规划方法，其特征在于，步骤如下：

(1)根据无人驾驶车辆/机器人获取的先验环境地图、全局任务路线以及无人驾驶车辆/机器人当前的位姿状态产生无人驾驶车辆/机器人的有限行为状态机；状态机的N个状态与N个异构深度学习网络模型一一对应，模型具有相同的结构和不同的参数取值；

(2)基于输入图像，采用卷积神经网络自编码模型AEM进行图像降维、图像建模与图像预测；将道路图像空间转换为正态分布空间，每一副图像都对应编码空间中一个近似的标准正态分布，从相应分布的高概率密度处采样作为该图像的编码；

(3)利用基于全连接神经网络的评估模型EM评估道路跟踪、控制模型的训练效果，以及在实际应用中对道路跟踪模型和控制模型的跟踪控制信号进行评估；

(4)使用擅长序列数据建模的循环神经网络RNN建立道路跟踪模型RTM来描述无人驾驶车辆/机器人在自主驾驶过程中所采集到图像序列间的关系；

(5)控制模型CM通过当前道路图像的编码得到对无人驾驶车辆/机器人的控制信号；

(6)利用传感器信息对驾驶员实际控制信号和神经网络产生的控制信号性能进行评估，对M个异构神经网络进行训练，与当前使用的神经网络模型竞争上岗，实现终身学习；

2.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法，其特征在于：所述步骤(1)中基于有限行为状态机的异构深度学习网络详细描述如下：

(a)在图像输入下，无人驾驶车辆/机器人行为由有限行为状态机的状态所对应的异构深度学习网络产生；

(b)无人驾驶车辆/机器人的有限行为状态机包括{道路跟踪，路口左转，路口右转，路口直行，换道，前车超越，前车跟随，越野漫游，暂停等待，紧急避险}。

3.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法，其特征在于：所述步骤(2)中采用卷积神经网络自编码模型的步骤为：

(a)利用卷积神经网络自编码模型将道路图像空间转换为正态分布空间，每一副图像都对应编码空间中一个近似的标准正态分布，从相应分布的高概率密度处采样作为该图像的编码；自编码模型如下式所示：

(μ_T，σ_T)＝AEM(I_T)

其中，I_T表示t时刻的道路图像，μ_T、σ_T分别表示在编码空间中与I_T对应的分布的均值与标准差，AEM()表示自编码模型；

(b)在训练AEM模型时，对均值进行稀疏化约束，使用如下的损失函数：

其中，

表示σ_T二范数的平方，

表示σ_T的维度，

表示均值的二范数平方，β是[0，1]间的实数，为正则化参数；此损失函数描述了AEM定义的编码空间与标准正态分布空间的KL散度(Kullback-Leibler Divergence)与均值二范数平方的和。

4.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法，其特征在于，所述步骤(3)中全连接神经网络的评估模型构建步骤如下：

(a)使用评估模型EM评估道路跟踪以及控制模型的训练效果，以及在实际应用中对道路跟踪模型和控制模型的跟踪控制信号进行评估，其评估值为[0，1]内的实数，越接近1表示模型训练越好或者所做出的决策越可靠，反之应对模型进行改进并加强训练或者做出即时的预警以防危险的发生；

(b)对编码空间中的向量进行降维，并结合控制信号构成评估模型，评估模型如下：

p_T＝EM(Desampling(z_T)，(ω_T，v_T))

其中，z_T表示t时刻道路图像I_T在编码空间的编码，且z_T＝μ_T，表示z_T从I_T对应的高斯分布的最高概率密度处采样，Desampling()表示降采样网络，EM()表示将Desampling()的输出与控制信号相融合的网络，p_T表示相应的评估值，(ω_T，v_T)分别为t时刻样本提供的无人驾驶车辆/机器人角速度和线速度；

(c)在训练EM时，使用路况图像编码或随机编码与正确控制或随机控制交叉构成4类样本作为训练集，包括1类正样本，即路况编码与正确控制构成的样本，和3类负样本，并生成4个评估值来构成EM的损失函数；

p_pos_T＝EM(Desampling(z_T)，(ω_T，v_T))

式中，random_code()表示从标准正态分布采样产生与Desampling(z_T)同维度向量的随机函数，random_control()表示从均匀分布采样产生与(ω_T，v_T)同维度向量的随机函数，p_pos_T表示对正样本的评估值，

分别表示相应负样本的评估值；

(d)使用交叉熵损失构成如下损失函数，使得EM对正样本的评估值接近1，对负样本的评估值接近0：

表示EM的结构和计算损失函数的数据形成方式。

5.根据权利要求1基于异构深度学习的无人驾驶车辆/机器人行为规划方法，其特征在于：所述步骤(4)中基于循环神经网络RNN的道路跟踪模型RTM通过以下方法实现：

(a)道路跟踪模型RTM使用擅长序列数据建模的循环神经网络RNN，描述无人驾驶车辆/机器人在自主驾驶过程中所采集到图像序列间的关系，道路跟踪模型如下式所示：

道路跟踪模型公式表达如下：

其中，

表示t时刻RTM的道路跟踪图像编码，z_T表示t时刻道路图像编码，W、V、A是实矩阵，h_T为t时刻隐层状态，h_T+1为t+1时刻隐层状态；

(b)使用均方误差MSE与EM评估值结合的方式构成RTM的损失函数：

表示t时刻RTM的道路跟踪图像编码，z_t表示t时刻道路图像编码，使用15帧的图像来训练模型，前5帧为z₁，…，z₅，通过AEM(I_t)得到，使用

作为后10帧输入。

6.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法，其特征在于：步骤(5)中控制模型CM通过以下方法实现：

(a)控制模型CM通过当前道路图像的编码得到对无人驾驶车辆/机器人的控制信号，控制模型如下式所示：

其中

分别表示t时刻CM输出的角速度与线速度；

(b)使用MSE与EM评估值结合的方式构成CM的损失函数：

其中，loss_CM为CM损失值，p_CM_t表示t时刻EM对CM的评估值，ω_t+1，v_t+1分别表示t+1时刻样本所提供的无人驾驶车辆/机器人的角速度与线速度，λ_CM为正则化参数，是[0，1]间的实数；Desampling()表示降采样网络，EM()表示将Desampling()的输出与控制信号相融合的网络，z_t表示t时刻道路图像I_t在编码空间的编码。

7.根据权利要求1所述的基于异构深度学习的无人驾驶车辆/机器人行为规划方法，其特征在于，步骤(6)中异构深度学习网络终身学习策略通过以下方法实现：