CN107563274A

CN107563274A - 一种基于对抗网络学习的视频的车辆检测方法和计数方法

Info

Publication number: CN107563274A
Application number: CN201710556593.3A
Authority: CN
Inventors: 任子晖; 李铮; 张丽君; 张兆义; 高洪昌; 胡俊; 孙林
Original assignee: Anhui Sun Create Electronic Co Ltd
Current assignee: Anhui Sun Create Electronic Co Ltd
Priority date: 2017-07-10
Filing date: 2017-07-10
Publication date: 2018-01-09

Abstract

本发明公开了一种基于对抗网络学习的视频的车辆检测方法和计数方法，该方法包括以下步骤：S1、车辆视频图像的获取；S2、获得车辆视频图像检测模型；S3、待检测车辆视频图像的获取；S4、车辆在车辆视频图像中具体位置的标记。该方法的优点在于：通过视频图像生成网络G(z,l)的设定，不仅增加了大量车辆视频图像训练样本，解决了车辆复杂情况下特征采集困难的问题，还通过其自身对抗训练，提高视频图像判别网络D(x,l)的识别能力，实现车辆的准确定位检测。

Description

一种基于对抗网络学习的视频的车辆检测方法和计数方法

技术领域

本发明涉及图像检测技术领域，尤其涉及一种基于对抗网络学习的视频的车辆检测方法和计数方法。

背景技术

视频中车辆的检测与自动计数一直困扰智能交通的流量分析统计，由于视频环境下，车辆的种类、形态各异，此外视频中图像受各种噪声干扰严重，人工无法完成大规模的车辆统计分析。现行的视频车辆的检测与计数工作主要是依靠常规机器学习算法完成的，但视频中图像背景复杂，处理信息规模大，致使视频车辆难以准确的分析与统计。

同时，由于视频中的车辆视频图像背景复杂，外观、姿态等影响，使得传统的车辆自动检测与计数方法效率低、鲁棒性差，且只能存在于实验阶段难以实际应用。

因此，如何能够提高视频中车辆的检测与自动计数的准确性已经成为急需解决的技术问题。

发明内容

本发明为了克服上述现有技术的不足，本发明提供了一种基于对抗网络学习的视频的车辆检测方法和计数方法，本发明能够有效地提高视频中的车辆检测与自动技术的准确性。

为实现上述目的，本发明采用以下技术方案：

一种基于对抗网络学习的视频的车辆检测方法，包括以下步骤：

S1、车辆视频图像的获取；收集若干幅未处理的车辆视频图像作为训练图像，将训练图像归一化处理，得到多幅归一化后的车辆视频图像，作为车辆视频图像训练样本；

S2、获得车辆视频图像检测模型；对条件约束下的视频图像判别网络D(x,l)、视频图像生成网络G(z,l)进行构造与对抗训练；另外获取车辆视频图像负样本，所述车辆视频图像负样本为若干幅归一化后的非车辆视频图像；将车辆视频图像负样本与车辆视频图像训练样本输入到对抗训练后的视频图像判别网络D(x,l)中，从对抗训练后的视频图像判别网络D(x,l)中提取车辆视频图像对抗特征，组成对抗特征向量，将对抗特征向量经过分类器训练，获得车辆视频图像检测模型；

S3、待检测车辆视频图像的获取；收集若干幅未处理的待检测车辆视频图像，并将未处理的待检测车辆视频图像的大小归一化，得到多幅归一化后的待检测车辆视频图像；

S4、车辆在车辆视频图像中具体位置的标记；将待检测车辆视频图像输入到所述的车辆视频图像检测模型，进行车辆的检测，定位并标记出车辆在视频图像中的具体位置。

进一步地，步骤S2包括以下步骤：

S21、构造带条件约束的视频图像判别网络D(x,l)和构造l～pl(l)表示条件约束分布N(α，δ^2)；l～pl(l)的公式为：其中x表示图像数据，l表示的是服从高斯分布的条件参数；α、δ^2为分布的参数，设定为车辆姿态或车辆运动状态；

S22、构造带条件约束的视频图像生成网络G(z,l)和构造z～pz(z)表示高斯噪声分布N(μ，σ^2)；z～pz(z)的公式为：其中z表示高斯噪声分布，l表示条件约束分布且设定为车辆姿态分布或车辆运动状态分布；μ、σ^2为分布的参数，分别为高斯分布的期望和方差；

S23、条件约束下视频图像判别网络D(x,l)和视频图像生成网络G(z,l)的对抗训练,得到对抗训练后的待条件的约束的视频图像判别网络D(x,l)；

S24、获取车辆视频图像负样本；收集若干幅非车辆视频图像作为未处理的车辆视频图像负样本，收集的未处理的车辆视频图像负样本的焦点集中在视频中车辆之外的图像区域，将所有未处理的车辆视频图像负样本的大小归一化处理，得到多幅归一化后的车辆视频图像负样本；

S25、提取车辆视频图像对抗特征；将车辆视频图像训练样本及车辆视频图像负样本作为输入，输入到训练后的带条件约束的视频图像判别网络D(x,l)，并将带条件约束的视频图像判别网络D(x,l)的深度卷积神经网络的其中一层作为车辆视频图像对抗特征输出；

S26、收集车辆视频图像对抗特征,组成对抗特征向量；

S27、将对抗特征向量经过分类器训练，得到车辆视频图像检测模型。

进一步地，条件约束下视频图像判别网络D(x,l)和视频图像生成网络G(z,l)的对抗训练，其具体步骤如下：

S231、将视频图像判别网络D(x,l)和视频图像生成网络G(z,l)进行对抗训练，其训练模型如下：[logD(x,l)]+[log(1-D(G(z,l),l))]；

其中：log()为对数函数，x为多幅车辆视频图像训练样本；

S232、调整D(x,l)的参数；

设有m个随机抽取的车辆视频图像训练样本与噪声样本分布，所述噪声样本为计算机随机生成的一组数值，x_i为第i个车辆视频图像样本，其中，i＝1,2,……m；l_i为第i个车辆视频图像样本对应的第i个噪声分布；

在训练的过程中，D(xi,l_i)被显示为一个真实的车辆视频检测图像，通过调整其参数D(x_i,l_i)使得视频图像判别网络D(x,l)输出误差ε_D达到设定的阈值范围；

视频图像判别网络D(x,l)输出误差ε_D的公式如下：

通过调整D(x,l)的参数使得视频图像生成网络G(z,l)输出误差ε_G达到设定的阈值范围，视频图像生成网络G(z,l)输出误差ε_G公式如下：

进一步地，所述视频图像判别网络D(x,l)以深度卷积神经网络为基础，设置网络层数为多层，与最后一层相邻的倒数第二层作为全链接层，最后一层作为输出层，其他层作为卷基层，输出层的节点数为1。

进一步地，所述视频图像生成网络G(z,l)以深度卷积神经网络为基础，设置网络层数为多层，其中最后一层为全链接层，其它层均为反卷积层，全链接层的节点个数为归一化处理的像素大小的数量，其输入符合条件约束分布的多维随机数。

进一步地，在步骤S1中，将车辆视频图像归一化为32×32像素。

进一步地，在步骤S1中，收集未处理的车辆视频图像的焦点在车辆，包括车辆的前部、后部、侧面。

进一步地，步骤S4包括以下步骤：

S41、以车辆视频图像训练样本的像素大小为图像块模板，逐行和逐列对归一化后的待检测的车辆视频图像进行扫描，将从归一化后的待检测的车辆视频图像中所取得每一个图像块作为输入，输入到训练后的带条件约束的视频图像判别网络D(x,l)中，得到该图像块样本的车辆视频图像对抗特征；

S42、将该图像块样本的车辆视频图像对抗特征输入到车辆视频图像检测模型，如果预测值小于0.5则判断为该图像为车辆，否则不是车辆，并记录该图像块在整个待检测的视频图像中位置。

进一步地，在步骤S3中，将获取的待测视频图像大小归一化为512×512像素。

一种基于对抗网络学习的视频的车辆计数方法，包括上述任意一项所述的步骤，在其后还包括以下步骤：

设针对检测后的车辆视频图像，包含有N个等同于车辆视频图像训练样本的像素大小为图像块大小的检测结果，每个检测结果在原始图像中区域记为R₁、R₂...、R_N，车辆个数计算公式如下：

其中，表示最终车辆个数，α是阈值，设为0.8，若两个车辆视频图像区域在检测后的视频图像中位置重叠大于0.8，则视为同一个车辆，计数不增加，否则车辆个数增加1。

本发明的优点在于：

(1)本发明通过视频图像生成网络G(z,l)的设定，不仅增加了大量车辆视频图像训练样本，解决了车辆复杂情况下特征采集困难的问题，还通过其自身对抗训练，提高车辆视频图像判别网络D(x,l)的识别能力，实现车辆的准确定位检测。

(2)由于车辆视频图像中车辆的多样性，因此检测比较困难，若使用传统的车辆视频图像训练样本进行一般的视频图像判别网络的训练，其无法起到训练模型的目的。特别是在实时车辆视频图像中检测车辆过程中，且车辆在运动过程中图像背景情况极复杂、姿态变换、车辆视频图像中相互严重遮挡、重叠等因素，常规算法难以处理与分析。针对上述的特性，在此构造视频图像生成网络G(z,l)。视频图像生成网络G(z,l)用于生成虚拟的车辆视频图像，同时结合视频图像判别网络D(x,l)进行共同训练，提高视频图像判别网络D(x,l)的辨识能力，从而提高车辆在视频中的检测率与自动计数的鲁棒性。

(3)本发明基于车辆的准确定位检测和通过公式的计算，可以实现车辆数的精确统计。

附图说明

图1是本发明一种基于对抗网络学习的视频的车辆检测方法的流程图。

图2是本发明一种基于对抗网络学习的视频的车辆检测方法中获得车辆视频图像检测模型的流程图。

具体实施方式

为使对本发明的方法步骤及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

实施例1

如图1-2所示，一种基于对抗网络学习的视频的车辆检测方法，包括以下步骤：

S1、车辆视频图像的获取。在现有的项目“智慧城市”中收集若干幅车辆视频图像作为训练图像，收集车辆视频图像的焦点在车辆，包括车辆的前部、后部、侧面。将训练图像归一化处理，得到多幅归一化后的车辆视频图像，作为车辆视频图像训练样本。为了方便计算机快速检测和计算，减少计算复杂度，将所有训练图像的大小归一化为32×32像素。

S2、获得车辆视频图像检测模型；对条件约束下的视频图像判别网络D(x,l)、视频图像生成网络G(z,l)进行构造与对抗训练；另外获取车辆视频图像负样本，所述车辆视频图像负样本为若干幅归一化后的非车辆视频图像；将车辆视频图像负样本与车辆视频图像训练样本输入到对抗训练后的视频图像判别网络D(x,l)中，从对抗训练后的视频图像判别网络D(x,l)中提取车辆视频图像对抗特征，组成对抗特征向量，将对抗特征向量经过分类器训练，获得车辆视频图像检测模型。其中视频图像生成网络G(z,l)的构造，进一步提高了视频图像判别网络D(x,l)对车辆特征的训练与学习的判识能力。

该步骤包括以下步骤：

S21、构造带条件约束的视频图像判别网络D(x,l)和构造l～pl(l)表示条件约束分布N(α，δ^2)；l～pl(l)的公式为：其中x表示图像数据，l表示的是服从高斯分布的条件参数；α、δ^2为分布的参数，设定为车辆姿态或车辆运动状态。

视频图像判别网络D(x,l)以深度卷积神经网络为基础，设置网络层数为多层，与最后一层相邻的倒数第二层作为全链接层，最后一层作为输出层，其他层作为卷基层，输出层的节点数为1。在该实施例中，根据实际视频车辆检测的效果，提供一种最优的网络层数，网络层数为5层，其中前3层为卷基层，其输入一幅图像，输入图像的大小为32×32像素。图像经过对抗训练后的视频图像判别网络D(x,l)的最后一层提取特征，然后通过分类器输出图像的类别概率。其中类别包括两类，一类是车辆视频图像，一类是背景图像。在本实施例中分类器为SVM分类器，除此之外，还可以利用其他传统分类器，比如线性回归分类器、逻辑回归分类器、贝叶斯分类器、K近邻分类器。

S22、构造带条件约束的视频图像生成网络G(z,l)，z～pz(z)表示高斯噪声分布N(μ，σ^2)；z～pz(z)的公式为：其中z表示高斯噪声分布，l表示条件约束分布且设定为车辆姿态分布或车辆运动状态分布；μ、σ^2为分布的参数，分别为高斯分布的期望和方差。

视频图像生成网络以深度卷积神经网络为基础，设置网络层数为多层，在该实施例中，根据实际视频车辆检测的效果，提供一种最优的网络层数，网络层数为5层，其中前4层为反卷积层，其中最后一层为全链接层，全链接层的节点个数为归一化处理的像素大小的数量，其输入符合条件约束分布的多维随机数。本实施例中全链接层的节点个数为32×32。

S23、条件约束下视频图像判别网络D(x,l)和视频图像生成网络G(z,l)的对抗训练；其具体步骤如下：

其中：log()为对数函数，x为多个车辆视频图像训练样本；

S232、调整D(x,l)的参数；

设有m个随机抽取的车辆视频图像样本与噪声样本分布，所述噪声样本为计算机随机生成的一组数值，x_i为第i个车辆视频图像样本，其中，i＝1,2,……m；l_i为第i个车辆视频图像样本对应的第i个噪声分布；

在训练的过程中，D(x_i,l_i)被显示为一个真实的车辆视频检测图像，通过调整其参数D(x_i,l_i)使得视频图像判别网络D(x,l)输出误差ε_D达到设定的阈值范围；

视频图像判别网络D(x,l)输出误差ε_D的公式如下：

S24、获取车辆视频图像负样本。收集若干幅非车辆视频图像作为未处理的车辆视频图像负样本，收集的未处理的车辆视频图像的焦点集中在视频中车辆之外图像区域，将所有未处理的车辆视频图像负样本的大小归一化处理，得到多幅归一化后的车辆视频图像负样本。在本实施例中归一化为32×32像素。

S25、提取车辆视频图像对抗特征。将车辆视频图像训练样本及车辆视频图像负样本作为输入，输入到训练后的带条件约束的视频图像判别网络D(x,l)，并将带条件约束的视频图像判别网络D(x,l)的深度卷积神经网络的其中一层作为车辆视频图像对抗特征输出；在本实施例中选择第4层作为车辆视频图像对抗特征输出，在此时第5层作为全链接层，此时的视频图像判别网络D(x,l)为经过与视频图像生成网络G(z,l)进行对抗训练后的模型。

S26、收集车辆视频图像对抗特征，组成对抗特征向量，利用视频图像判别网络D(x,l)在其第4层输出的特征为车辆视频图像对抗特征，组成对抗特征向量。

在此，车辆视频图像对抗特征进行SVM分类器训练学习后为一个二类分类器，包含是和否两种状态，车辆视频图像训练样本表示(x，1)，车辆视频图像负样本表示(x，-1)，这里x表示的是车辆或者非车辆所提取的车辆视频图像对抗特征。现要检测视频图像中车辆区域，但还存在很多非车辆区域，因此在此把视频图像判别网络D(x,l)的前一层作为特征输入到SVM分类器训练。

S3、待检测车辆视频图像的获取；收集若干幅未处理的待检测车辆视频图像，并将未处理的待检测视频图像归一化，得到多幅归一化后的待检测车辆视频图像。待测视频图像的像素各有不同，比如1080×720、1920x1080，本方案中将未处理的待检测车辆视频图像归一化为512x512像素。

S4、车辆在车辆视频图像中具体位置的标记；将待检测车辆视频图像输入到所述的车辆视频图像检测模型，进行车辆的检测，定位并标记出车辆在视频图像中的具体位置，具体步骤如下：

S41、以车辆视频图像训练样本的像素大小为图像块模板，即以32x32像素大小为图像块模板，逐行和逐列对归一化后的待检测的车辆视频图像进行扫描，将从归一化后的待检测的车辆视频图像中所取得每一个图像块作为输入，输入到训练后的带条件约束的视频图像判别网络D(x,l)中，得到该图像块样本的车辆视频图像对抗特征；

实施例2

一种基于对抗网络学习的视频的车辆计数方法，实施实施例1中的基于对抗网络学习的视频中车辆检测的方法步骤，由于检测是针对每一个32×32的图像块作为输入的，对一幅图像已经形成了图像块划分，因此能够实现针对一个图像中多个车辆进行计数统计，实施实施例1中的步骤后，继续实施以下步骤：

设针对检测后的车辆视频图像，包含有N个，N是检测后的视频图像中含有预测的车辆数量，等同于车辆视频图像训练样本的像素大小为图像块大小的检测结果，在该实施例中归一化处理后的像素大小为32×32像素，每个检测结果在原始图像中区域记为R₁、R₂...、R_N，车辆个数计算公式如下：

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种基于对抗网络学习的视频的车辆检测方法，包括以下步骤：

2.根据权利要求1所述的一种基于对抗网络学习的视频的车辆检测方法，其特征在于，步骤S2包括以下步骤：

S22、构造带条件约束的视频图像生成网络G(z,l)，z～pz(z)表示高斯噪声分布N(μ，σ^2)；z～pz(z)的公式为：其中z表示高斯噪声分布，l表示条件约束分布且设定为车辆姿态分布或车辆运动状态分布；μ、σ^2为分布的参数，分别为高斯分布的期望和方差；

S23、条件约束下视频图像判别网络D(x,l)和视频图像生成网络G(z,l)的对抗训练，得到对抗训练后的待条件的约束的视频图像判别网络D(x,l)；

S26、收集车辆视频图像对抗特征，组成对抗特征向量；

3.根据权利要求2所述的一种基于对抗网络学习的视频的车辆检测方法，其特征在于，步骤S23包括如下步骤：

其中：log()为对数函数，x为多幅车辆视频图像训练样本；

S232、调整D(x,l)的参数；

设有m个随机抽取的车辆视频图像训练样本与噪声样本分布，所述噪声样本为计算机随机生成的一组数值，x_i为第i个车辆视频图像训练样本，其中，i＝1,2,……m；l_i为第i个车辆视频图像训练样本对应的第i个噪声分布；

在训练的过程中，D(x_i,l_i)被显示为一个真实的车辆视频检测图像，通过调整其参数D(x_i,l_i)使得视频图像判别网络D(x,l)输出误差ε_D达到设定的阈值范围；视频图像判别网络D(x,l)输出误差ε_D的公式如下：

<mrow> <msub> <mi>&epsiv;</mi> <mi>D</mi> </msub> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>log</mi> <mi> </mi> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>log</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>D</mi> <mo>(</mo> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mi>&epsiv;</mi> <mi>G</mi> </msub> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>D</mi> <mrow> <mo>(</mo> <mi>G</mi> <mo>(</mo> <mrow> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>,</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

4.根据权利要求1所述的一种基于对抗网络学习的视频的车辆检测方法，其特征在于，所述视频图像判别网络D(x,l)以深度卷积神经网络为基础，设置网络层数为多层，与最后一层相邻的倒数第二层作为全链接层，最后一层作为输出层，其他层作为卷基层，输出层的节点数为1。

5.根据权利要求1所述的一种基于对抗网络学习的视频的车辆检测方法，其特征在于，所述视频图像生成网络G(z,l)以深度卷积神经网络为基础，设置网络层数为多层，其中最后一层为全链接层，其它层均为反卷积层，全链接层的节点个数为归一化处理的像素大小的数量，其输入符合条件约束分布的多维随机数。

6.根据权利要求1所述的一种基于对抗网络学习的视频的车辆检测方法，其特征在于，在步骤S1中，将车辆视频图像归一化为32×32像素。

7.根据权利要求1所述的一种基于对抗网络学习的视频的车辆检测方法，其特征在于，在步骤S1中，收集未处理的车辆视频图像的焦点在车辆，包括车辆的前部、后部、侧面。

8.根据权利要求1所述的一种基于对抗网络学习的视频的车辆检测方法，其特征在于，步骤S4包括以下步骤：

9.根据权利要求1所述的一种基于对抗网络学习的视频的车辆检测方法，其特征在于，在步骤S3中，将获取的待检测车辆视频图像大小归一化为512×512像素。

10.一种基于对抗网络学习的视频的车辆计数方法，其特征在于，包括权利要求1-9任意一项所述的步骤，在其后还包括以下步骤：

<mrow> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> <mo>,</mo> <mfrac> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&cup;</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </mfrac> <mo>&le;</mo> <mi>&alpha;</mi> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> <mo>,</mo> <mfrac> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&cup;</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </mfrac> <mo>></mo> <mi>&alpha;</mi> </mtd> </mtr> </mtable> </mfenced> </mrow>