CN106295637A

CN106295637A - 一种基于深度学习与强化学习的车辆识别方法

Info

Publication number: CN106295637A
Application number: CN201610609437.4A
Authority: CN
Inventors: 孟继成; 丁乐乐
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2017-01-04
Anticipated expiration: 2036-07-29
Also published as: CN106295637B

Abstract

本发明公开了一种基于深度学习与强化学习的车辆识别方法，在利用深度网络的结构特点上，提供一种深度学习与强化学习结合的方法，将强化学习中的Q‑学习算法应用到深度学习网络中，训练过程仍然使用随机梯度下降算法，提高了深度网络对车辆的识别的能力；其次，加入了基于错分样本学习的强化学习技术，克服了深度学习网络在车辆识别领域现有的技术不足，提升车辆识别性能的同时，也提高了网络的训练效率。

Description

一种基于深度学习与强化学习的车辆识别方法

技术领域

本发明属于模式识别技术领域，更为具体地讲，涉及一种基于深度学习与强化学习的车辆识别方法。

背景技术

车辆识别是智能交通领域的一个重要课题，设计一个可靠的车辆识别系统主要难点在于车辆间的差异性。深度学习网络由于模拟人的大脑，相比传统的方法对车辆部分遮挡有更强的识别鲁棒性。

在现有技术中，常用的方法是通过深层结构来提取抽象特征，再通过抽象特征对车辆进行识别。然而在深度学习网络的训练过程中，常常有如下的问题：与训练传统的三层神经网络相比，深度学习网络由于计算量大以及需要更新的参数更多，导致时间成本增加。其次，深度学习网络在输出误差变化不大时，训练过程会变慢，需要时间过长。

本发明针对上述问题，引入强化学习的相关技术，克服这些缺点，实现更快速、更高准确率的车辆识别。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度学习与强化学习的车辆识别方法，通过加入基于错分样本学习的强化学习技术，提升车辆识别的性能，同时也加快了网络的训练速度

为实现上述发明目的，本发明一种基于深度学习与强化学习的车辆识别方法，其特征在于，包括以下步骤：

(1)、图像预处理

从车辆样本库中提取车辆图像样本，再将提取的车辆图像样本转换为灰度图，并归一化，再对归一化后的每一幅车辆图像样本添加数值标签，即：不含车辆的图像添加数值“0”、含小汽车的图像添加数值“1”、含卡车的图像添加数值“2”、含大巴车的图像添加数值“3”；

(2)、计算第t个车辆图像样本的期望最大回报值

(2.1)、将第t个车辆图像样本按照原始像素值组成的行向量x_t，对应的数值标签表述为a_t，a_t∈[0,3]；

(2.2)、按照Q-学习理论，计算出第t个车辆图像样本的未来回报r_t为：

r_{t} = Σ_{t^{'} = t}^{T} γ^{t^{'} - t} r_{t^{'}}

其中，T是车辆图像样本的总量，γ^t′-t表示第t个样本对t′个样本的奖励折扣系数；

(2.3)、利用最优动作-值函数Q^*(x,a)计算出第t个车辆图像样本的期望最大回报值；

Q_t ^*(x_t,a_t)＝max_πE[r_t|x_t＝x,a_t＝a,π]

其中，x泛指车辆图像样本，a泛指数值标签，π是车辆图像样本和数值标签的映射函数，通过选择不同的数值标签a_t∈a来计算奖励的期望，期望值最大时对应的数值标签即为该车辆图像样本的数值标签；

(3)、构建深度学习网络的权值更新方程

(3.1)、计算第t个车辆图像样本的目标输出y_t

y_{t} = E [r_{t} + {γmax}_{a_{t - 1}} Q_{t - 1}^{*} (x_{t - 1}, a_{t - 1}; θ_{t - 1}) | x, a]

其中，θ_t-1表示第t-1个图像样本时的权值参数，γ为折扣系数；

(3.2)、通过最小化损失函数L_t(θ_t)来更新深度学习网络的权值参数

L_{t} (θ_{t}) = E_{x_{t}, a_{t} ~ ρ (\cdot)} [{(y_{t} - Q_{t}^{*} (x_{t}, a_{t}; θ_{t}))}^{2}]

其中，ρ(x,a)是图像样本x和标签a的概率分布，E[·]为求期望；

(3.3)、损失函数L_t(θ_t)对权重θ_t求导，得到深度学习网络的权值更新方程，并更新权值

{&dtri;}_{θ_{t}} L_{t} (θ_{t}) = E_{x_{t}, a_{t} ~ ρ (\cdot)} [(r_{t} + {γmax}_{a_{t - 1}} Q_{t - 1}^{*} (x_{t - 1}, a_{t - 1}; θ_{t - 1}) - Q_{t}^{*} (x_{t}, a_{t}; θ_{t})) {&dtri;}_{θ_{t}} Q_{t}^{*} (x_{t}, a_{t}; θ_{t})]

其中，表示括号内式子对权重θ_t的求导数；

(4)、训练深度学习网络

(4.1)、将车辆样本库中的车辆图像样本作为训练样本，将训练样本分为N份，且每一个训练样本均处理成行向量x_t，并作为深度学习网络的输入，设置四个输出神经元；

(4.2)、根据先验知识确定出训练样本中车辆类别，再以第一份训练样本的行向量x_t为输入，输出分别为“1000”，样本中不含车辆；输出为“0100”，样本中为小汽车；输出为“0010”，样本中为卡车；输出为“0001”，样本中为大巴车；通过权值更新方程调节深度学习网络模型中的权值，第一次训练深度学习网络；

(4.3)、找出第一份训练样本中实际输出与先验知识不同的训练样本，设共找出n个不同的训练样本，再将该n个训练样本分别进行逆时针旋转2^°以及加入σ＝0.2的高斯噪音；

(4.4)、在第二份训练样本中随机抽取出n个训练样本，并用步骤(4.3)中处理后的n个训练样本补齐到第二份训练样本中，再用新得到的第二份训练样本按照步骤(4.2)所述方法进行第二次深度学习网络的训练；

(4.5)、以此类推，直到第N份训练样本完成深度学习网络的训练，得到最终的深度学习网络；

(5)、利用训练好的深度学习网络来识别车辆

将待检测的车辆样本图像处理成行向量x_t，再输入到训练完毕的深度学习网络，根据深度学习网络的输出结果识别出图像中的车辆情况。

本发明的发明目的是这样实现的：

本发明一种基于深度学习与强化学习的车辆识别方法，在利用深度网络的结构特点上，提供一种深度学习与强化学习结合的方法，将强化学习中的Q-学习算法应用到深度学习网络中，训练过程仍然使用随机梯度下降算法，提高了深度网络对车辆的识别的能力；其次，加入了基于错分样本学习的强化学习技术，克服了深度学习网络在车辆识别领域现有的技术不足，提升车辆识别性能的同时，也提高了网络的训练效率。

附图说明

图1是本发明基于深度学习与强化学习的车辆识别方法流程图；

图2是图像预处理好的车辆样本；

图3是深度学习网络的结构模型；

图4是对错分样的处理示意图；

图5是本发明方法与传统三层网络识别效果均方误差对比曲线；

图6是利用本发明进行车辆识别实例图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于深度学习与强化学习的车辆识别方法流程图。

在本实施例中，如图1所示，本发明一种基于深度学习与强化学习的车辆识别方法，包括以下步骤：

(1)、图像预处理

在本实施例中，车辆样本库中保存的车辆图像样本主要是使用数码相机以及互联网搜集两种方法得来，采集的车辆图像样本包括多种类型车的不同视角图像，其大小缩放为统一大小28×28。

从车辆样本库中提取的车辆图像样本转换为灰度图，并归一化，再对归一化后的每一幅车辆图像样本添加数值标签，即：不含车辆的图像添加数值“0”、含小汽车的图像添加数值“1”、含卡车的图像添加数值“2”、含大巴车的图像添加数值“3”；

如图2所示，按上述方法处理制作好的车辆图像样本，图中左侧三列表示小汽车、卡车、大巴车的图片；右侧三列是不包含车辆的图片；

(2)、计算第t个车辆图像样本的期望最大回报值

r_{t} = Σ_{t^{'} = t}^{T} γ^{t^{'} - t} r_{t^{'}}

Q_{t}^{*} (x_{t}, a_{t}) = \max_{π} E [r_{t} | x_{t} = x, a_{t} = a, π]

其中，x泛指车辆图像样本，a泛指数值标签，π是车辆图像样本和数值标签的映射函数；上面的式子为一个条件期望的计算，在某一图像样本x的条件下，通过选择不同的数值标签a_t∈a来计算奖励的期望，期望值最大时对应的数值标签即为该车辆图像样本的数值标签；

(3)、构建深度学习网络的权值更新方程

(3.1)、计算第t个车辆图像样本的目标输出y_t

y_{t} = E [r_{t} + {γmax}_{a_{t - 1}} Q_{t - 1}^{*} (x_{t - 1}, a_{t - 1}; θ_{t - 1}) | x, a]

L_{t} (θ_{t}) = E_{x_{t}, a_{t} ~ ρ (\cdot)} [{(y_{t} - Q_{t}^{*} (x_{t}, a_{t}; θ_{t}))}^{2}]

{&dtri;}_{θ_{t}} L_{t} (θ_{t}) = E_{x_{t}, a_{t} ~ ρ (\cdot)} [(r_{t} + {γmax}_{a_{t - 1}} Q_{t - 1}^{*} (x_{t - 1}, a_{t - 1}; θ_{t - 1}) - Q_{t}^{*} (x_{t}, a_{t}; θ_{t})) {&dtri;}_{θ_{t}} Q_{t}^{*} (x_{t}, a_{t}; θ_{t})]

其中，表示括号内式子对权重θ_t的求导数；

根据梯度值使用梯度下降法来更新深度学习网络的权值，而梯度下降法是现有方法，使用的深度网络模型的结构如图3所示，包括输入层、卷积层、采样层、全连接层以及输出层，其中输入层的神经元个数为784个，两个卷积层的特征图数分别是6和50，两个全连接层的神经元个数为100和80，最后面是一个有4个神经元的输出层，分别表示非车、小汽车、卡车、大巴车四类。

在本实施例中，以基于奖励的梯度计算来代替传统的基于误差梯度计算，使得深度学习网络拥有了Q-学习的特性，训练效果得到提升。

(4)、训练深度学习网络

(4.3)、找出第一份训练样本中实际输出与先验知识不同的训练样本，标记为错分样本，设共找出n个错分样本，再将该n个错分样本分别进行逆时针旋转2^°以及加入σ＝0.2的高斯噪音，处理后的结果如图4所示；

(4.4)、在第二份训练样本中随机抽取出n个训练样本，并用步骤(4.3)中处理后的n个错分样本补齐到第二份训练样本中，再用新得到的第二份训练样本按照步骤(4.2)所述方法进行第二次深度学习网络的训练；

在本实施例中，采用基于错分样本的强化学习训练技术后，使得被错误分类的样本重要性得到提升，对训练后期加快网络收敛速度有帮助，减少训练总长，同时也有益于提高网络的识别性能。

(5)、利用训练好的深度学习网络来识别车辆

图5是本发明方法与传统三层网络识别效果均方误差对比曲线。

如图5所示，由图中可以看出传统三层神经网络在训练过程中的均方误差始终要高与本发明的深度神经网络，在迭代次数25000到35000区间，本发明的深度神经网络早已稳定在5.7％，而传统三层神经网络一直在小幅度的波动。反映了两个主要点：首先，本发明的车辆识别性能要好于传统三层神经网络，体现在均方误差低上；其次，本发明的深度神经网络在迭代次数为15000左右便达到5.8％，说明网络训练过程中达到预期误差所需的时间将会大大的减小。本发明的深度神经网络最终在车辆识别上的测试错误率为5.4％％，而传统的三层神经网络测试错误率是10.2％，表明本发明的深度神经网络在车辆识别上效果更好，时间效率更高。其中传统三层神经网络是已有理论，不再详述。

图6是利用本发明进行车辆识别实例图。

在本实施例中，如图6所示，按照本发明所述方法，识别道路中的车辆，判断属于小汽车、卡车、大巴车三类中的哪一类，其识别精准度高达98％，进一步提升车辆识别的性能。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于深度学习与强化学习的车辆识别方法，其特征在于，包括以下步骤：

(1)、图像预处理

(2)、计算第t个车辆图像样本的期望最大回报值

r_{t} = Σ_{t^{'} = t}^{T} γ^{t^{'} - t} r_{t^{'}}

Q_t ^*(x_t,a_t)＝max_πE[r_t|x_t＝x,a_t＝a,π]

其中，x泛指车辆图像样本，a泛指数值标签，π是车辆图像样本和数值标签的映射函数，通过选择不同的数值标签a_t∈a来计算奖励的期，期望值最大时对应的数值标签即为该车辆图像样本的数值标签；

(3)、构建深度学习网络的权值更新方程

(3.1)、计算第t个车辆图像样本的目标输出y

y_{t} = E [r_{t} + {γmax}_{a_{t - 1}} Q_{t - 1}^{*} (x_{t - 1}, a_{t - 1}; θ_{t - 1}) | x, a]

L_{t} (θ_{t}) = E_{x_{t}, a_{t} ~ ρ (\cdot)} [{(y_{t} - Q_{t}^{*} (x_{t}, a_{t}; θ_{t}))}^{2}]

{&dtri;}_{θ_{t}} L_{t} (θ_{t}) = E_{x_{t}, a_{t} ~ ρ (\cdot)} [(r_{t} + {γmax}_{a_{t - 1}} Q_{t - 1}^{*} (x_{t - 1}, a_{t - 1}; θ_{t - 1}) - Q_{t}^{*} (x_{t}, a_{t}; θ_{t})) {&dtri;}_{θ_{t}} Q_{t}^{*} (x_{t}, a_{t}; θ_{t})]

其中，表示括号内式子对权重θ_t的求导数；

(4)、训练深度学习网络

(5)、利用训练好的深度学习网络来识别车辆

2.基于深度学习与强化学习的车辆识别方法，其特征在于，所述步骤(4)中，深度网络输出层的神经元个数可以根据识别的车型类别设置更多。