CN104504395A

CN104504395A - 基于神经网络实现人车分类的方法和系统

Info

Publication number: CN104504395A
Application number: CN201410788518.6A
Authority: CN
Inventors: 冷斌; 贺庆; 官冠; 胡欢; 蒋东国
Original assignee: Guangzhou Institute of Advanced Technology of CAS
Current assignee: Guangzhou Institute of Advanced Technology of CAS
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2015-04-08

Abstract

本发明涉及人车分类技术领域，公开了基于神经网络实现人车分类的方法和系统，通过搜集若干张训练样本，利用卷积神经网络对所述训练样本进行分类，得到包含标签结果的分类器，在对人车进行分类时，读入待测视频图像，检测图像中的运动目标，根据运动目标对图像进行分块处理；再使用所述分类器对每块图像进行分类处理得出检测结果，从而可以简便的构造出神经网络系统作为分类器，使用不同的人、车样本对该系统进行训练，让系统自动学习样本复杂的类条件密度，避免了人为假设类条件密度函数所带来的问题。本发明基于卷积神经网络相对于现有的人车分类方面的方法优势在于，提高了分类的精度，并且在分类的速度上得到了提高。

Description

基于神经网络实现人车分类的方法和系统

技术领域

本发明涉及汽车分类技术领域，特别涉及基于神经网络实现人车分类的方法和系统。

背景技术

交通事故是导致行人死亡的一个主要因素之一，由于自行车骑车人和行人在交通事故中常常处于弱势地位，一旦与机动车发生交通事故，很容易受到伤害。因此，行人检测技术成为近年来智能分析领域研究中备受关注的研究方向，尤其对于智能交通视频分析领域，对目标的分类和检测，对道路的管理和交通安全有至关重要的作用。

目前，目标分类的主要方法有基于形状模型匹配的方法、基于分类器的方法和利用梯度方向直方图的方法。

其中，基于背景提取和形状模型匹配的方法，该方法主要是通过对当前图像与参考背景的像素进行逐个做差来得到运动目标，通过运动目标与相应已知目标的形状模型进行匹配来进行判别。这种方法的缺陷在于：行人具有的多态性和人和车辆的多样性决定了通过模型匹配不能达到较理想的结果。

应用Harr型特征的方法，该方法通过从大量训练样本中提取Haar型特征，对这些特征进行训练得到强分类器，最后通过强分类器来进行目标的识别和分类。Harr型特征检测方法成功的应用在人脸检测，速度很快，精度较高，已经广泛应用，但是行人检测不同于人脸检测，Harr特征主要是基于灰度分布的区域特征，人脸在这方面非常稳定，所以有很高的检测精度，但应用于户外公路行人和人和车辆时，由于色彩多样，光线、天气变化等因素影响，行人和人和车辆图像在灰度分布的区域上并没有明显的特征，因此利用Harr特征进行分类也不能达到很好的效果。

利用梯度方向直方图特征的方法，它提取了图像中局部区域的梯度方向直方图特征，通过对样本中该特征进行训练，然后用模式识别中的方法形成分类器，从而实现目标检测和分类。利用梯度直方图的方法，它提取了图像中局部区域的梯度方向直方图特征，通过对样本中该特征进行训练，然后用模式识别中的方法形成分类器，从而实现行人检测。它的独特之处在于，HOG特征描述了图像局部区域的梯度强度和梯度方向的分布情况，该分布情况能对局部对象外观和形状进行很好的表征，事实证明能够很好的应用在行人检测中，已经成为目前主流的方法。但在实际应用中，根据不同的场景，不同的相机架设的高度、角度，往往需要训练相应的训练器；在实际监控中需要实时对视频序列进行处理，并且需要对目标进行跟踪，利用分类器并不能很好的满足实时的要求，并且不同视频场景不同，无法确定统一的检测区域，在使用上带来不便。

人车分类的目的就是在输入的图像中把将人和汽车进行分类，

在对人车检测性能进行评价的时候，引入四个指标：检测正确率(correct.rate)，错误报警率(false.alarm-rate)，检测速度(detectingspeed)以及鲁棒性(robustness)。

检测正确率，也即精度，就是被正确检测到的人和车辆数目除以原图像中包含的人和车辆数目。检测正确率越高，说明检测系统对人和车辆的接受能力越强。

检测速度，大部分应用领域需要在线实时地检测人和车辆，如人和车辆跟踪、可编程视频监控等。在检测率和误检率达到满意的前提下，检测速度越快越好。目前，人车分类技术还不十分成熟，影响人车分类结果的不确定因素很多，比如说姿态的交化以及背景情况等等。虽然这些因素对于人类的视觉系统并不构成太大的障碍，但是对现有的人车分类系统就提出了一定的挑战，因为对于人车分类系统来说，它只能在一定的限制条件下才能取得较好的检测效果，而且在检测速度方面还有待于提高。

在实际应用中，由于大多数都是面向实时性处理，这要求人车分类算法便于实现，精度要高，而且具有较快的检测速度。目前的人车分类算法还不能较好地处理任意环境、光照和遮挡等变化条件，而且在检测精度，检测速度方面存在不足。

神经网络方法进行人车分类的优点是可以简便的构造出神经网络系统作为分类器，使用不同人和车辆样本对该系统进行训练，让系统自动学习样本复杂的类条件密度，这样就避免了人为假设类条件密度函数所带来的问题。

国内对人车分类问题的研究很多，多个大学、研究机构的人员已经投入到人车分类这一领域的研究当中，并且也取得了一定的研究成果。

南京邮电大学的孙宁，吴秦龙等，提出了一种基于深信度网络的人车分类方法，该方法将训练图像归一化为灰度图像,提取HOG算子,得到HOG特征直方图,将灰度图像拉直后与HOG特征直方图串联,训练DBN,构造基于DBN的人车分类网络；将待分类图像进行归一化和HOG特征提取后,输入基于DBN的人车分类网络中分类。发明方法的深信度网络具有多个隐含层,拥有比浅层网络更加优异的特征表达能力；将原始图像和特征直方图相结合作为输入数据,在保留图像外观信息的基础上突出了局部梯度方向的统计信息；本发明对于光照、外观大幅变化的人车图像,仍可以获得优良的分类性能。

中国科学院计算技术研究所的许涛，刘宏等，发明了一种运动目标分类方法和系统。该方法包括下列步骤：提取运动目标灰度图像中的运动目标的边缘信息；根据所述边缘信息,提取运动目标边缘上的直线信息；根据所述运动目标的特点,结合所述直线信息构造分类特征；根据所述分类特征,对所述运动目标进行分类,确定运动目标类型。其能够对检测出的运动目标进行正确分类,并获得输出结果,为智能监控系统的后续处理提供基础。

浙江捷尚视觉科技有限公司的尚凌辉等，发明了一种用于视频侦查的快速视频检索系统和方法，目前的视频检索技术没有充分挖掘智能技术的优势,没有发挥出应有的功能,不适合实际的应用。该发明具体是获取视频,包括视频文件或视频流,并进行解码；对解码后的每帧图像进行分析预处理,提取运动目标和目标特征信息,存入数据库；根据用户的请求查询数据库,根据颜色、纹理、规则或拌线条件进行特征匹配,检索出感兴趣目标,并将结果目标列表进行排序；将检索出的目标以浓缩视频的形式进行展示。该发明采用视频运动目标检测、视频浓缩和特征匹配等智能视频分析技术,完成对指定目标或特征的检索。

河海大学的王敏提出一种视频监控中的人车自动分类方法，该方法通过三帧差分法和背景消减法相结合的运动目标检测方法检测视频中运动的人和车；对视频中的每帧源图像进行预处理和定位分割后对其进行特征提取；用支持向量机对人车进行学习和分类,最终达到人车分类的目的。发明方法既避免了采用三帧差分法造成运动对象的空洞现象,又可以解决背景消减法中的动态背景更新问题,减少背景噪声的干扰,可有效区别通道上的行人和人和车辆,减轻交通视频监控人员的工作负担,同时也提高了工作效率；对道路监控,交警派遣等工作都有着重要意义。

北京环境特性研究所的柴智，李香祯等，提出一种基于多特征融合的快速人车目标分类方法，该方法包括以下步骤：获取监控视频图像,得到相邻两帧图像的差分图像并进行图像分割、去除噪点、填补空洞,形成目标图像；在目标图像上确定目标区域,计算每个目标区域的面积、外接矩形的面积、质心坐标和矩形饱和度；将相邻两帧图像中面积差异小、质心坐标欧氏距离最近的两个目标区域判定为同一目标；若同一目标稳定出现若干帧以上,依据该目标的面积、速度和矩形饱和度,判断该目标为人员或人和车辆。发明实现了运动目标人车属性的快速判别,分类准确高、实时性好。

然而，现有的人车分类方法在分类的精度或速度上仍存在一定的不足，现有技术有待改进和提高。

发明内容

有鉴于此，有必要针对现有人车分类中存在的问题，提供一种基于神经网络实现人车分类的方法和系统，能提高分类精度和分类的速度。

为了达到上述目的，本发明采取了以下技术方案：

一种基于神经网络实现人车分类的方法，其中，包括如下步骤：

A、搜集若干张训练样本，利用卷积神经网络对所述训练样本进行分类，得到包含标签结果的分类器；

B、在对人车进行分类时，读入待测视频图像，检测图像中的运动目标，根据运动目标对图像进行分块处理；再使用所述分类器对每块图像进行分类处理得出检测结果。

所述的基于神经网络实现人车分类的方法，其中，所述步骤B包括：

B1、读入视频图像，当检测到有运动物体的时候，提取出运动物体区域；

B2、采用固定大小的块对该运动物体区域进行分块处理；

B3、利用卷积神经网络进行分类得到分类结果。

所述的基于神经网络实现人车分类的方法，其中，所述步骤B2中具体包括：

用n*n大小的块对运动物体区域进行分块处理，然后依次移动一个像素，得到若干图片，再对所述若干图片进行缩放，转换为像素值为44*44大小的图片；其中，n为自然数，其取值范围在50--70之间。

所述的基于神经网络实现人车分类的方法，其中，所述步骤B中分类结果包括：用于表示人的第一类分类结果、用于表示车的第二类分类结果和用于表示非人非车的第三类分类结果。

所述的基于神经网络实现人车分类的方法，其中，所述步骤A包括：

A1、采用固定大小的卷积核去感知输入图像中的每一个神经元、并对每个神经元进行第一加偏置处理，得到第一卷积层；

A2、将第一卷积层的神经元分组，对每组神经元分别求和，并对求和后的神经元进行第一加权、第二加偏置处理后，使用sigmoid函数作为卷积网络的激活函数，得到第一特征映射图，即第一下采样层；

A3、对第一特征映射图进行卷积处理获取第二卷积层；

A4、将第二卷积层的神经元与输入图像中的神经元连接形成神经网络输出。

所述的基于神经网络实现人车分类的方法，其中，所述步骤A1包括：

A11、采用可训练的滤波器f_x卷积一个输入的图像得到卷积特征map；

A12、将卷积特征map加一个偏置b_x，得到第一卷积层C_x。

所述的基于神经网络实现人车分类的方法，其中，所述步骤A2包括：

A21、对第一卷积层中每邻域四个像素求和变为一个像素得到标量W_x+1；

A22、对标量W_x+1加权、增加偏置b_x+1处理；

A23、使用sigmoid函数作为卷积网络的激活函数，得到缩小四倍的第一特征映射图S_x+1。

一种基于神经网络实现人车分类的系统，其中，包括：

处理单元，用于搜集若干张训练样本，利用卷积神经网络对所述训练样本进行分类，得到包含标签结果的分类器；

输出单元，用于在对人车进行分类时，读入待测视频图像、检测图像中的运动目标，根据运动目标对图像进行分块处理，并使用所述分类器对每块图像进行分类处理得出检测结果。

所述的基于神经网络实现人车分类的系统，其中，所述输出单元进一步包括：

提取子单元，用于读入视频图像，当检测到有运动物体的时候，提取出运动物体区域；

分块子单元，用于采用固定大小的块对该运动物体区域进行分块处理；

分类子单元，用于利用卷积神经网络进行分类得到分类结果。

所述的基于神经网络实现人车分类的系统，其中，所述输出单元中分类结果包括：用于表示人的第一类分类结果、用于表示车的第二类分类结果和用于表示非人非车的第三类分类结果。

有益效果：本发明基于神经网络实现人车分类的方法和系统，通过搜集若干张训练样本，利用卷积神经网络对所述训练样本进行分类，得到包含标签结果的分类器，在对人车进行分类时，读入待测视频图像，检测图像中的运动目标，根据运动目标对图像进行分块处理；再使用所述分类器对每块图像进行分类处理得出检测结果，从而可以简便的构造出神经网络系统作为分类器，使用不同的人、车样本对该系统进行训练，让系统自动学习样本复杂的类条件密度，避免了人为假设类条件密度函数所带来的问题。本发明基于卷积神经网络相对于现有的人车分类方面的方法优势在于，提高了分类的精度，并且在分类的速度上得到了提高。

附图说明

图1为本发明基于神经网络实现人车分类的方法的流程图。

图2为本发明基于神经网络实现人车分类的方法中神经网络的示意图。

图3为本发明基于神经网络实现人车分类的方法中步骤S100的过程示意图。

图4为本发明基于神经网络实现人车分类系统的结构框图。

具体实施方式

本发明提供基于神经网络实现人车分类的方法和系统，针对在复杂环境下，对人车进行有效且精准的分类，从而提高分类的精度和分类的速度。本发明可以应用于大量的场合，交通监控系统，安防设备系统等。在人车分类方面有较高的精度，在检测速度方面更快，这对于有些实时性的系统而言是至关重要的，具有巨大的应用前景。

如图1所示，本发明提供的基于神经网络实现人车分类的方法包括如下步骤：

S100、搜集若干张训练样本，利用卷积神经网络对所述训练样本进行分类，得到包含标签结果的分类器；

S200、在对人车进行分类时，读入待测视频图像，检测图像中的运动目标，根据运动目标对图像进行分块处理；再使用所述分类器对每块图像进行分类处理得出检测结果。

其中，步骤S100为训练过程，在训练时搜集30万个样本，其中10万张车辆图片，10万张人图片，10万张非人非车图片，将这30万张图片经过卷积神经网络进行分类，得到标签结果，即包括：人、车、非人非车。

步骤S200为测试过程，用来测试所使用的神经网络用于人车分类的精度、速度是否可靠。其过程包括：读入视频图像，将读入的视频用基于光流方法的运动目标检测方法进行检测，检测提取出感兴趣区域、并对图像进行分块、分类器分类、得出检测结果。本发明通过对经过运动检测以后的图像进行分块处理，这样可以加快测试的速度，对于降低测试时间有着至关重要的作用。

具体地，所述步骤S200包括：读入视频图像，当检测到有运动物体的时候，提取出运动物体区域；之后、采用固定大小的块对该运动物体区域进行分块处理；再、利用卷积神经网络进行分类得到分类结果。

其中，在对图像进行分块时，使用n*n大小的块对运动物体区域进行分块处理，然后依次移动一个像素，得到若干图片，再对所述若干图片进行缩放，转换为像素值为44*44大小的图片；其中，n为自然数，其取值范围在50-70之间。然后，将这些得到的图片当做输入，利用卷积神经网络进行分类，分类的结果包括：用于表示人的第一类分类结果、用于表示车的第二类分类结果和用于表示非人非车的第三类分类结果。

卷积神经网络也是本发明的一重点，卷积神经网络(CNN)是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。

所述步骤S100包括：a1、采用固定大小的卷积核去感知输入图像中的每一个神经元、并对每个神经元进行第一加偏置处理，得到第一卷积层；a2、将第一卷积层的神经元分组，对每组神经元分别求和，并对求和后的神经元进行第一加权、第二加偏置处理后，使用sigmoid函数作为卷积网络的激活函数，得到第一特征映射图，即第一下采样层；a3、对第一特征映射图进行卷积处理获取第二卷积层；a4、将第二卷积层的神经元与输入图像中的神经元连接形成神经网络输出。

其中，所述步骤a1为卷积过程，其包括：采用可训练的滤波器f_x卷积一个输入的图像(第一阶段是输入的图像，后面的阶段就是卷积特征map了)得到卷积特征map，将卷积特征map加一个偏置bx，得到第一卷积层C_x。

所述步骤a2为子采样过程包括：每邻域四个像素求和变为一个像素得到标量W_x+1，然后通过标量W_x+1加权，再增加偏置b_x+11，然后通过一个sigmoid激活函数作为卷积网络的激活函数，产生一个大概缩小四倍的第一特征映射图S_x+1。所以从一个平面到下一个平面的映射可以看作是做卷积运算，S-层可看作是模糊滤波器，起到二次特征提取的作用。隐层与隐层之间空间分辨率递减，而每层所含的平面数递增，这样可用于检测更多的特征信息。

以下结合图2和图3对卷积过程和子采样过程进行详细说明：

用一个固定大小的卷积核去感知输入图像中的每一个神经元(即每个像素)，卷积后在第一卷积层C1产生特征map，之后，使特征map中每组的四个像素再进行求和，加权值，加偏置，通过一个Sigmoid函数得到第一下采样层S2的特征map；这些map再经过卷积得到第二卷积层C3；这个层级结构再和第一下采样层S2一样产生到第二下采样层S4；之后再将第二下采样层S4的每一个特征map与卷积层C中的每一个神经元连接，这样可以防止过拟合的发生。最终，这些像素值被光栅化，并连接成一个向量输入到传统的神经网络，得到输出。

一般地，卷积层C为特征提取层，用一个由权值组成的卷积核去感知前面一层的每个特征map，这就提取出了图像的特征，并且生成该卷积层的特征map；S层是下采样层，网络的每个计算层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。特征映射结构采用影响核函数小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。值得注意的是，在每一层使用的卷积核是完全一样的，这样就达到了权值共享的效果，使得整个网络的复杂度大大降低。

本发明的卷积神经网络共有6层(不包含输入层input)，每层都包含可训练参数(连接权重)，并且每个层有多个特征map，每个特征Map通过一种卷积核提取输入的一种特征，然后每个特征Map有多个神经元。

在本发明中，设定输入图像为44*44大小，第一卷积层C1由6个特征map组成，特征map中每个神经元与输入中5*5的邻域相连，特征map的大小为40*40，第一卷积层C1有(40*40+1)*6＝9606个可训练参数(权值和偏置值)，与输入层共有5*5*6*44*44＝290400个连接。

S2层是一个下采样层，有6个20*20大小的特征map。特征map中的每个单元与C1中相对应特征map的2*2邻域相连接。S2层每个单元的4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。通过sigmoid函数计算出结果。可训练系数和偏置控制着sigmoid函数的非线性程度。每个单元的2*2感受野并不重叠，因此S2中每个特征图的大小是C1中特征图大小的1/4(行和列各1/2)。S2层有(20*20+1)*6＝2406个可训练参数，与C1层有6*40*40*5*5＝240000个连接。

第二卷积层C3也是一个卷积层，它同样通过5x5的卷积核去卷积层S2，然后得到的特征map就只有16*16个神经元，每一个特征map对应一种卷积核，所以它有16种不同的卷积核。这里需要注意的一点是：C3中的每个特征map是连接到S2中的所有6个或者几个特征map的，表示本层的特征map是上一层提取到的特征map的不同组合。

最后，C3层与卷积层全连接，该卷积层由一个个的神经元组成，本实验用200个神经元，C3层中的每一个特征map都与该卷积层的每一个神经元全连接。最后，将卷积层的200个神经元与输出层每一个标签全连接，加入一个卷积层的目的在于，防止过拟合的情况发生。

如图2所示，在图2中，Input大小为44*44的图片；C1卷积层有6个40*40大小的特征map，S2下采样层有6个20*20大小的特征map，C3层有16个16*16大小的特征map，卷积层有200个神经元，最后的输出层有三个标签：人(用1表示)、车(用2表示)、非人非车(用3表示)；最后一层为Output层(输出层)，与前面的卷积层是全连接的，输出即为Hw,b(X).

综上，本发明通过步骤S100的实施例提供的神经网络训练分类器，神经网络用于模式识别的主流是有监督学习，无监督学习更多的是用于聚类分析。对于有监督的模式识别，由于任一样本的类别是已知的，样本在空间的分布不再是依据其自然分布倾向来划分，而是要根据同类样本在空间的分布及不同类样本之间的分离程度找一种适当的空间划分方法，或者找到一个分类边界，使得不同类样本分别位于不同的区域内。这就需要一个长时间且复杂的学习过程，不断调整用以划分样本空间的分类边界的位置，使尽可能少的样本被划分到非同类区域中。

卷积网络在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确数学表达式，只要用已知的模式对卷积网络加以训练，网络就具有输入输出对之间的映射能力。卷积网络执行的是有监督训练，所以其样本集是由形如：(输入向量，理想输出向量)的向量对构成的。所有这些向量对，都应该是来源于网络即将模拟的系统的实际“运行”结果。它们可以是从实际运行系统中采集来的。在开始训练前，所有的权都应该用一些不同的小随机数进行初始化，比如[0,1]之间分布的随机数。“小随机数”用来保证网络不会因权值过大而进入饱和状态，从而导致训练失败；“不同”用来保证网络可以正常地学习。实际上，如果用相同的数去初始化权矩阵，则具有对称性，导致每一层的卷积核都相同，则网络无能力学习。

如图4所示，本发明还相应提供一种利用神经网络实现人车分类的系统，其包括：

处理单元10，用于搜集若干张训练样本，利用卷积神经网络对所述训练样本进行分类，得到包含标签结果的分类器；

输出单元20，用于在对人车进行分类时，读入待测视频图像、检测图像中的运动目标，根据运动目标对图像进行分块处理，并使用所述分类器对每块图像进行分类处理得出检测结果。

其中，在本实施例中，所述输出单元20进一步包括：

提取子单元201，用于读入视频图像，当检测到有运动物体的时候，提取出运动物体区域；

分块子单元202，用于采用固定大小的块对该运动物体区域进行分块处理；

分类子单元203，用于利用卷积神经网络进行分类得到分类结果。

进一步地，所述输出单元20中分类结果包括：用于表示人的第一类分类结果、用于表示车的第二类分类结果和用于表示非人非车的第三类分类结果。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于神经网络实现人车分类的方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于神经网络实现人车分类的方法，其特征在于，所述步骤B包括：

B2、采用固定大小的块对该运动物体区域进行分块处理；

B3、利用卷积神经网络进行分类得到分类结果。

3.根据权利要求2所述的基于神经网络实现人车分类的方法，其特征在于，所述步骤B2中具体包括：

4.根据权利要求2所述的基于神经网络实现人车分类的方法，其特征在于：所述步骤B中分类结果包括：用于表示人的第一类分类结果、用于表示车的第二类分类结果和用于表示非人非车的第三类分类结果。

5.根据权利要求1所述的基于神经网络实现人车分类的方法，其特征在于：所述步骤A包括：

A3、对第一特征映射图进行卷积处理获取第二卷积层；

6.根据权利要求5所述的基于神经网络实现人车分类的方法，其特征在于：所述步骤A1包括：

A12、将卷积特征map加一个偏置b_x，得到第一卷积层C_x。

7.根据权利要求5所述的基于神经网络实现人车分类的方法，其特征在于，所述步骤A2包括：

A22、对标量W_x+1加权、增加偏置b_x+1处理；

8.一种基于神经网络实现人车分类的系统，其特征在于，包括：

9.根据权利要求8所述的基于神经网络实现人车分类的系统，其特征在于，所述输出单元进一步包括：

10.根据权利要求9所述的基于神经网络实现人车分类的系统，其特征在于：所述输出单元中分类结果包括：用于表示人的第一类分类结果、用于表示车的第二类分类结果和用于表示非人非车的第三类分类结果。