CN111625457A

CN111625457A - 基于改进的dqn算法的虚拟自动驾驶测试优化方法

Info

Publication number: CN111625457A
Application number: CN202010458203.0A
Authority: CN
Inventors: 叶剑; 张晖; 滕婷婷; 宋智军; 刘海青
Original assignee: Duolun Technology Co Ltd
Current assignee: Duolun Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-04

Abstract

本发明公开了一种基于改进的DQN算法的虚拟自动驾驶测试优化方法，包括：生成能够激活神经元的测试输入，分析深度神经网络逻辑的不同部分，生成真实驾驶场景的图像数据；对卷积神经网络的激活函数进行改进，构建一种分段的激活函数；采用Gabor滤波器代替卷积神经网络中的可训练的滤波器，将上述生成的真实驾驶场景的图像数据和Gabor滤波器进行卷积，得到多个不同方向的图像特征，将得到的图像特征输入卷积神经网络中，经过计算后，得到一个新的特征图；利用Q‑Learning算法来训练更新卷积神经网络的网络权重，得到训练模型，从而生成各种天气场景下的路况图像数据。本发明的方法在路试的基础上进一步地提高软件测试充分性，达到提高系统可靠性和安全性的目的。

Description

基于改进的DQN算法的虚拟自动驾驶测试优化方法

技术领域

本发明涉及一种基于改进的DQN算法的虚拟自动驾驶测试优化方法，属于自动驾驶技术领域。

背景技术

自动驾驶系统是一个复杂的智能化系统，此类系统的测试与传统汽车系统测试不同，其对汽车的车-人，车-路，车-路-人等耦合系统进行检测；检验在交通环境中汽车的感知能力与应对能力，是自动驾驶汽车的测试重点。

由于自动驾驶系统这类复杂软件系统要处理海量输入的时间相关数据，并同时与其它系统进行交互，受到自动驾驶系统自身操控影响，使此类系统的测试与验证面临极大的挑战。在实际路况下的测试是必须要做的基础测试验证工作，但通过其难以做到充分，除路试道路和环境条件受限外，需要耗费大量人力时间成本，而且对于不同路况、天气、相邻静止和运动实体的复杂环境，特别对一些突发状况难以进行人工设置和复制，导致系统测试与验证不可重复，因此虚拟自动驾驶测试也越来越受到人们的关注。目前人们将深度学习系统测试技术引入到了自动驾驶测试技术中，其中代表性的有DeepTest测试工具。但DeepTest测试用例的生成技术大多都是基于基础的图像变换，如线性变换、仿射变换等，不能准确地合成模拟各种天气场景下的路况图像。

有鉴于此，实有必要开发一种能够准确合成模拟各种天气场景下的路况图像的方法。

发明内容

为了克服现有技术中存在的不足，本发明提供一种基于改进的DQN算法的虚拟自动驾驶测试优化方法，通过引入基于分段的激活函数的改进的深度Q网络(DQN)算法，以解决DeepTest生成测试用例时不能准确地合成模拟各种天气场景下的路况图像的问题。本发明的方法在路试的基础上进一步地提高软件测试充分性，从而达到提高系统可靠性和安全性的目的。

为实现上述目的，本发明采用的技术方案如下：

本发明的一种基于改进的DQN算法的虚拟自动驾驶测试优化方法，包括步骤如下：

步骤1：生成能够激活神经元的测试输入，分析深度神经网络(DNN)逻辑的不同部分，生成真实驾驶场景的图像数据；

步骤2：对卷积神经网络(CNN)的激活函数进行改进，构建一种分段的激活函数，采用构建的分段的激活函数来作为卷积神经网络全连接层的激活函数；

步骤3：采用Gabor滤波器代替卷积神经网络中的可训练的滤波器，将上述步骤1中生成的真实驾驶场景的图像数据和Gabor滤波器进行卷积，得到多个不同方向的图像特征，将得到的图像特征输入卷积神经网络中，经过卷积神经网络卷积、抽样计算后，得到一个新的特征图；通过上述步骤2中构建的分段的激活函数对得到的新的特征图进行映射；再利用Q-Learning算法来训练更新卷积神经网络的网络权重，得到训练模型，从而生成各种天气场景下的路况图像数据。

进一步地，所述步骤1具体包括：DeepTest通过在种子图像上应用不同的图像变换(包括线性变换、仿射变换和卷积变换)合成模拟各种场景下的路况图像，从而激活自动驾驶汽车深度神经网络中的不同神经元集。

进一步地，所述步骤2具体包括：基于改进的深度Q网络(DQN)算法对卷积神经网络的激活函数进行改进，构建一种分段的激活函数。

进一步地，所述卷积神经网络中的激活函数包括饱和非线性激活函数和不饱和非线性激活函数；其中，不饱和非线性激活函数包括ReLU函数和Softplus函数。

ReLU函数有两个很大的优点，一是具有很强的稀疏性，可以有效地避免训练模型过拟合。二是随机梯度下降速度快，在反向传播时能快速收敛。但ReLU也有缺点，它的过分稀疏性往往会舍弃掉一些有用的信息。所以，在神经网络中重新设计一个非饱和修正线性激活函数，使其具备ReLU的优点且弥补其缺点，当输入数据大于0时，保证其具有较快梯度下降速度；当输入数据小于0时，保证其具有较好的稀疏性。构建的分段的激活函数记为Correct-ReLU函数，公式如下：

式中，x为神经元的输入，CR(x)为经激活函数非线性映射后神经元的输出。

所述分段的激活函数Correct-ReLU不仅具有较强的稀疏性而且收敛速度更快，但是如果网络层数较多时，将CNN所有层的激活函数都换成Correct-ReLU，可能会导致输入数据过于稀疏，存在有用信息被丢弃的问题。本发明中的基于构建的分段的激活函数的DQN算法模型，卷积层和子采样层依然选择ReLU作为激活函数，全连接层使用Correct-ReLU作为激活函数。

进一步地，所述步骤3具体包括：将真实驾驶场景的图像数据和Gabor滤波器卷积后得到的特征进行特征融合，利用主成分分析法(PCA)进行降维处理，用降维后得到的特征作为CNN的输入；经过CNN中的卷积层、子采样层和全连接层的卷积、抽样计算后，得到一个新的特征图，通过构建的分段的激活函数对输出结果进行映射；再利用强化学习中的Q-Learning算法来训练更新网络权重，得到训练模型，以实现合成各种天气场景下的路况图像数据。

进一步地，针对复杂环境开展自动驾驶系统软件虚拟测试与验证，具体如下：

利用合成的各种天气场景下的路况图像数据进行测试与验证，车载测试系统在线接收当前态势并进行相似度分析，依据对应测试验证结果给出驾驶策略建议或对未曾有的态势更新存储；另一方面，在离线情况下对新的场景通过采用组合交互测试方法开展仿真测试验证，并适时采用有线或无线通讯方式与实验室测试开发系统交换信息。测试开发系统记录车载测试系统的仿真测试结果及测试验证数据库，对测试结果进行分析并将测试与验证结果传输给车载测试系统，以便在自动驾驶过程中提供安全决策信息。

本发明的有益效果：

本发明提出的优化方法，在路试的基础上进一步地提高软件测试充分性，从而达到提高系统可靠性和安全性的目的。首先沿用DeepTest测试的核心思想，自动地为自动驾驶系统合成大量的真实驾驶场景的图像，然后基于改进的深度Q网络(DQN)算法，先对卷积神经网络(CNN)的激活函数进行改进，考虑ReLU这种激活函数的优缺点，设计并且构造一种分段的激活函数，用改进以后的激活函数来作为CNN全连接层的激活函数。其次用Gabor滤波器代替CNN中原有的可训练的滤波器。将利用DeepTest合成大量的真实驾驶场景的图像和Gabor滤波器进行卷积，得到多个不同方向的特征，把得到的图像特征送入CNN中，经过CNN中的卷积层、子采样层和全连接层的卷积、抽样计算后，得到一个新的特征图，通过构建的分段的激活函数对输出结果进行映射。再利用强化学习中的Q-Learning算法来训练更新网络权重，得到训练模型，以实现合成一些很难由人工采集到的各种天气场景下的路况图像。针对复杂环境下开展虚拟自动驾驶软件测试优化方法，给出了车载和实验室仿真测试与验证系统的组成结构和相关实现方法，以克服在实际路况下测试的局限性。

附图说明

图1为本发明中基于改进激活函数的DQN算法模型示意图；

图2为示例中的自动驾驶系统及虚拟测试验证组成结构示意图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

本发明的一种基于改进DQN算法的虚拟自动驾驶测试优化方法，示例中，如图1所示，基于分段的激活函数的深度Q网络算法，包括以下步骤：

步骤S101：DeepTest自动驾驶系统合成大量的真实驾驶场景的图像；

深度神经网络的每一层都由一系列称为神经元的独立计算单元组成。不同层的神经元通过边缘相互连接。每个边缘都有相应的权重。每个神经元对其输入应用一个非线性激活函数，并将输出发送给随后的神经元。DeepTest的思想是通过生成最大化激活神经元数量的测试输入，系统地探索DNN逻辑的不同部分。DeepTest通过生成能最大化激活神经元数量的测试输入，分析DNN逻辑的不同部分，自动地为自动驾驶系统合成大量的真实驾驶场景的图像；

步骤S102：构建分段的激活函数；

CNN中的激活函数可以分为饱和非线性激活函数和不饱和非线性激活函数两类，不饱和非线性激活函数中最常用的是ReLU函数和Softplus函数。

所述分段的激活函数Correct-ReLU不仅具有较强的稀疏性而且收敛速度更快，但是如果网络层数较多时，将CNN所有层的激活函数都换成Correct-ReLU，可能会导致输入数据过于稀疏，存在有用信息被丢弃的问题。示例中提出的基于构建的分段的激活函数的DQN算法模型，卷积层和子采样层依然选择ReLU作为激活函数，全连接层使用Correct-ReLU作为激活函数。

步骤S103：用Gabor滤波器代替CNN中原有的可训练的滤波器；

k帧真实驾驶场景的图像和Gabor滤波器做卷积，得到0°、60°、120°和180°方向梯度的四组特征图X1，X2，X3和X4。将得到的四个方向特征图X1，X2，X3和X4进行特征融合。这里采用串行特征融合，将得到的四组特征图X1，X2，X3和X4首尾相连，串成一个高维的矩阵，然后利用主成分分析法(PCA)进行降维，具体地：计算样本数据的协方差矩阵，并通过计算协方差矩阵的特征值，把特征值按照从大到小排序，计算前ε个特征值对应的特征向量，得到训练样本数据的投影矩阵，通过该矩阵把样本数据映射到低维度空间。最后得到特征图X5。

步骤S104：基于分段的激活函数的DQN算法；

1)将特征图X5和若干个可训练学习的滤波器进行卷积，通过ReLU激活函数映射到卷积层C1的特征图X6；

2)将卷积得到的特征图X6采用均值采样的方式进行抽样，通过ReLU激活函数映射得到子采样层S2的特征图X7；

3)将特征图X7以全连接的方式输出，通过构建的Correct-ReLU激活函数映射得到样本的实际输出Q值，然后根据当前模型的最优方案选择一个动作a；

4)将经验数据(s,a,r,s’)放入历史经验队列并随后从历史经验队列中采样出mini-batch大小的经验样本；

5)步骤S105：利用强化学习中的Q-Learning算法来训练更新卷积神经网络的网络权重；

将上述采样出的经验样本转化为网络训练的元组。DQN中用到了两个CNN，其中一个CNN用来逼近动作值函数Q(s，a|θ_i)，另一个CNN用来计算目标Q值，目标值网络的输出用Q(s′，a|θ′_i)表示，目标Q值通常用如下公式来近似表示：

在迭代了N次后，把实际输出Q值的网络传递给目标值网络，通过最小化实际输出Q值和目标Q值之间的均方误差来更新网络权值，网络权值的更新公式为：

从而利用权值更新公式更新权值得到训练模型，以实现合成一些很难由人工采集到的各种天气场景下的路况图像。

示例中，如图2所示，提供的自动驾驶系统及虚拟测试验证组成结构，包括以下步骤：

步骤S201：利用合成的各种天气场景下的路况图像进行测试与验证，车载测试系统在线接收当前态势并进行相似度分析，依据对应测试验证结果给出驾驶策略建议或对未曾有的态势更新存储；在离线情况下对新的场景通过采用组合交互测试方法开展仿真测试验证，并适时采用有线或无线通讯方式与实验室测试开发系统交换信息。

组合交互测试(Combinatorial Interaction Testing)方法是针对软件系统中多个因素(参数)及它们之间相互作用的情况所采取的一种科学有效的测试方法，旨在使用尽可能少的测试用例达到较高的错误检测效果。

对于一个具有k个参数的待测系统，如果每个参数有n个取值，则完全测试需要n的k次方个测试用例，而采用t维组合测试，即其中任意t个参数的所有取值组合至少被一个测试用例覆盖，也称为t维组合覆盖测试，由此生成的测试用例数比枚举的方法大幅度减少，实践证明其所需要的测试用例数是按照k的对数而不是指数增长。

步骤S202：测试开发系统面向仿真测试开发和测试与验证；

测试开发系统记录车载测试系统的仿真测试结果及测试验证数据库，对测试结果进行分析并将测试与验证结果传输给车载测试系统，以便在自动驾驶过程中提供安全决策信息。

尽管以上本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下，在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于改进的DQN算法的虚拟自动驾驶测试优化方法，其特征在于，包括步骤如下：

步骤1：生成能够激活神经元的测试输入，分析深度神经网络逻辑的不同部分，生成真实驾驶场景的图像数据；

步骤2：对卷积神经网络的激活函数进行改进，构建一种分段的激活函数，采用构建的分段的激活函数来作为卷积神经网络全连接层的激活函数；

步骤3：采用Gabor滤波器代替卷积神经网络中的可训练的滤波器，将上述步骤1中生成的真实驾驶场景的图像数据和Gabor滤波器进行卷积，得到多个不同方向的图像特征，将得到的图像特征输入卷积神经网络中，经过计算后，得到一个新的特征图；通过上述步骤2中构建的分段的激活函数对得到的新的特征图进行映射；再利用Q-Learning算法来训练更新卷积神经网络的网络权重，得到训练模型，从而生成各种天气场景下的路况图像数据。

2.根据权利要求1所述的基于改进的DQN算法的虚拟自动驾驶测试优化方法，其特征在于，所述步骤1具体包括：DeepTest通过在种子图像上应用不同的图像变换合成模拟各种场景下的路况图像，从而激活自动驾驶汽车深度神经网络中的不同神经元集。

3.根据权利要求1所述的基于改进的DQN算法的虚拟自动驾驶测试优化方法，其特征在于，所述步骤2具体包括：基于改进的深度Q网络算法对卷积神经网络的激活函数进行改进，构建一种分段的激活函数。

4.根据权利要求3所述的基于改进的DQN算法的虚拟自动驾驶测试优化方法，其特征在于，所述卷积神经网络中的激活函数包括饱和非线性激活函数和不饱和非线性激活函数。

5.根据权利要求1所述的基于改进的DQN算法的虚拟自动驾驶测试优化方法，其特征在于，所述步骤2中构建的分段的激活函数记为Correct-ReLU函数，公式如下：

6.根据权利要求1所述的基于改进的DQN算法的虚拟自动驾驶测试优化方法，其特征在于，所述步骤3具体包括：将真实驾驶场景的图像数据和Gabor滤波器卷积后得到的特征进行特征融合，利用主成分分析法进行降维处理，用降维后得到的特征作为CNN的输入；经过CNN中的卷积层、子采样层和全连接层的卷积、抽样计算后，得到一个新的特征图，通过构建的分段的激活函数对输出结果进行映射；再利用强化学习中的Q-Learning算法来训练更新网络权重，得到训练模型，以实现合成各种天气场景下的路况图像数据。