CN110096962A

CN110096962A - 基于区域卷积网络的车辆细节识别二次结构化方法及装置

Info

Publication number: CN110096962A
Application number: CN201910273353.1A
Authority: CN
Inventors: 王思远; 张斯尧; 谢喜林; 张�诚; 黄晋; 蒋杰
Original assignee: Suzhou Vision Polytron Technologies Inc
Current assignee: Suzhou Vision Polytron Technologies Inc
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-06

Abstract

本发明公开了一种基于区域全卷积网络的车辆细节识别二次结构化方法及装置，该方法包括如下步骤：S1、对目标车辆图像进行数据增强处理；S2、对数据增强后的车辆图像做基于R‑FCN的车窗细节图像检测模型训练；S3、对基于R‑FCN训练好的车窗细节图像检测模型进行训练改进，增加多个分支，同时调整算法中对输入图片动态长宽比的实际需求模型，训练出判别驾驶员与副驾驶员是否存在影响交通安全行为的模型。本发明提出的技术方案可以辅助相关部门检测车辆违规行为与提高搜索车辆的效率。

Description

基于区域卷积网络的车辆细节识别二次结构化方法及装置

技术领域

本发明涉及计算机视觉与智慧交通领域，具体涉及一种基于区域全卷积网络的车辆细节识别二次结构化方法及装置。

背景技术

随着现代化交通、安防等行业的迅速发展，目标识别技术越来越多的被应用于各种领域，是近年来计算机视觉与模式识别技术在智能交通领域的重要研究课题之一。

车辆识别二次结构化是计算机视觉领域的一个重要研究方向，主要目的在对已经识别出的车辆前脸车窗进行二次识别和细分类。随着交通安全越来越收到人们的重视。自动的对违规车辆与违规驾驶行为进行检测，如检测出车辆是否贴有年检标、驾驶员是否打电话和未系安全带等行为；以及通过如纸巾盒、摆件、挂件等多维度的特征组合对车辆进行智能检索。能很好的帮组有关部门提高工作效率，提升道路交通安全，保证广大群众的生命安全。

伴随着最近几年深度学习的兴起，基于深度学习的方法在图像分类领域也取得了优异的成绩。很多研究者基于此也尝试将深度学习应用于目标检测领域。虽然R-FCN方法在通用的目标检测取得了较好的结果，但是在实际应用过程中，也存在着一些问题，比如不能同时实现复杂背景车辆监控场景中对目标车辆的检测与具体细分类功能，所以并不直接适用于复杂车辆监控场景智能系统中的算法应用。

发明内容

本发明的主要目的是提供一种基于区域全卷积网络的车辆细节识别二次结构化方法及装置，旨在解决不能同时实现复杂背景车辆监控场景中对目标车辆的检测与具体细分类功能，所以并不直接适用于复杂车辆监控场景智能系统中的算法应用的问题。

为实现上述目的，本发明提供一种基于区域全卷积网络的车辆细节识别二次结构化方法，包括如下步骤：

S1、对目标车辆图像进行数据增强处理，具体步骤如下：

S1.1、对目标车辆图像的数据进行镜面对称，增强数据集；

S1.2、对于刮痕这一个系列的数据集，进行背景分割；

S1.3、对通过变换的图像进行PCA处理，将经过数据增强预处理图像的最终结果输出；

S2、对数据增强后的车辆图像做基于R-FCN的车窗细节图像检测模型训练，具体分为以下两个步骤：

S2.1、先定位目标车辆，利用RPN区域建议网络进行目标候选区域搜索，同时调整算法中对输入图片动态长宽比的实际需求模型参数，利用ResNet50网络生成特征映射图，并利用区域建议网络对生成的特征映射图进行全图的前后景目标搜索和筛选，以确定目标框；

S2.2、R-FCN中的分类检测，在S2.1的基础上，利用R-FCN的分类网络，对目标框进行分类识别，即对目标车辆车窗细节具体类别的分类；

S3、对基于R-FCN训练好的车窗细节图像检测模型进行训练改进，增加多个分支，同时调整算法中对输入图片动态长宽比的实际需求模型，训练出判别驾驶员与副驾驶员是否存在影响交通安全行为的模型，利用对ResNet50网络进行位置敏感区域池化，从而对R-FCN检测输出的结果进行二次分类。

优选地，所述步骤S1.1中，对目标车辆图像的数据进行镜面对称的方式为：左右对称和上下对称，将数据集数量翻两番。

优选地，所述步骤S1.3中，对通过变换的图像进行PCA处理方法具体为：

首先根据RGB三色对样本阵元进行如下标准化：变换色通道计算均值和标准差，对网络的输入数据进行规范化，其公式如下：

随后在整个训练集上计算协方差矩阵：

解相关矩阵R的特征方程|R-λI_P|＝0得到p个特征根，确定主成分的每个λ_j，j＝1,2,…m解方程组Rb＝λ_jb得到单位特征向量j＝1,2,…m将标准化后的指标变量变换为主成分：

将求出的特征向量按照特征值的大小进行组合形成一个映射矩阵，并根据指定的PCA保留的特征个数，取出映射矩阵的前n行或者前n列作为最终的映射矩阵，用映射矩阵对原始数据进行映射；

最后将上述经过数据增强预处理的图像的最终结果输出。

优选地，所述步骤S2.2中，R-FCN网络使用ResNet50网络对图片进行卷积池化操作。

优选地，所述步骤S2.2中，R-FCN中的分类检测具体步骤如下：基于ResNet50网络生成的特征映射图，利用卷积操作在整幅图像上为每类生成k×k个位置敏感分数图，用于描述对应位置的空间网格；每个位置敏感图有C个通道输出，代表C-1类物体外加一个背景，对于一个w×h大小的候选目标框，此目标框由RPN网络获得，将目标框划分为k×k个子区域，则每个子区域为w×h/k²大小，对于任意一个子区域bin(i,j),0≤i,j≤k-1，定义一个位置敏感池化操作：

rc(i,j|Θ)是子区域bin(i,j)对C个类别的池化响应，z_i,j,c是子区域bin(i,j)所对应的位置敏感分数图，(x₀,y₀)代表目标候选框左上角的坐标，n是子区域bin(i,j)中的像素数，Θ代表网络的所有学习得到的参数，计算k×k个子区域的池化响应输出rc(i,j|Θ)的均值，利用Softmax回归分类方法获得其属于每个类别的概率。

优选地，所述步骤S3中，对R-FCN检测输出的结果进行二次分类时，二次分类网络与位置敏感区域池化相结合，其输入为R-FCN的目标检测框的图片信息，输出为相应的类别信息。

优选地，所述步骤S3中，对R-FCN检测输出的结果进行二次分类时，

采用了复制扩充训练集的方法，具体检测与分类过程如下：

S3.1、将待识别图像输入训练模型，检测出驾驶员、副驾驶员、年检标、纸巾盒、摆件、挂件的个数与具体位置；

采用区域候选框的交叉熵损失值作为候选区域选矿的分类损失值L_cls，L_s(s,t_x,y,w,h)为R-FCN的价值函数，具体计算公式如下：

L_cls(sc*)是分类的交叉熵价值函数，判断为类别C的概率,t_x,y,w,h是目标框的顶点坐标以及长和宽，以下t_cwd、t_cw、都是t_x,y,w,h的形式，λ₁、λ₂是超参数，是对车窗目标框位置信息的回归，L1指L1范数，t_cw是目标框的位置信息，是车窗真实的位置信息，是对车窗具体细节目标框位置信息的回归，t_cwd是此类车窗物品细节的目标框位置信息，是此类车窗物品细节真实目标框信息；

S3.2、根据上述训练出的判别驾驶员与副驾驶员是否存在影响交通安全行为的细节检测模型，对驾驶员与副驾驶员是否有未系安全带与打电话等影响交通安全的行为进行分类判定。

优选地，本发明中提出的方法可嵌入视频监控系统中，运用于具有实时输出图像功能的目标检测与分类的监控系统中。

为实现上述目的，本发明提供一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述任一项所述的基于区域全卷积网络的车辆细节识别二次结构化方法的步骤。

本发明提出的一种基于区域全卷积网络的车辆细节识别二次结构化方法，对算法进行了进一步改进，使得算法模型除了原有的准确检测，分类需要特征具有评议不变性之外，还使得车辆识别的算法模型同时实现了检测与二级分类的功能，目的在于辅助相关部门检测车辆违规行为与提高搜索车辆的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明整体算法流程图。

图2为本发明车窗检测的二次结构化区域。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，为本发明一种基于区域全卷积网络的车辆细节识别二次结构化方法的一实施例，所述一种基于区域全卷积网络的车辆细节识别二次结构化方法包括如下步骤：

S1、对目标图像进行基于PCA的数据增强预处理，具体步骤如下：

S1.1、对数据进行镜面对称增强数据集：分为左右和上下对称，这样将会使数据集数量翻两番；

S1.2、对于刮痕这一个系列的数据集，进行背景分割，因为刮痕系列数据集的主要语义只占全部图像的10％左右，且大部分集中在中部区域，所以为了突出特征，进行背景分割；

S103、对通过变换的图像进行PCA处理，处理方法具体为：

首先根据RGB三色对样本阵元进行如下标准化，变换色通道计算均值和标准差，对网络的输入数据进行规范化，其公式如下：

随后在整个训练集上计算协方差矩阵：

将求出的特征向量按照特征值的大小进行组合形成一个映射矩阵，并根据指定的PCA保留的特征个数，取出映射矩阵的前n行或者前n列作为最终的映射矩阵，用映射矩阵对原始数据进行映射，达到数据降维的目的；

将上述经过数据增强预处理的图像的最终结果输出；

S2、对数据增强后的车辆图像做基于R-FCN的车窗细节图像检测模型训练；

基于区域的全卷积网络(R-FCN)的目标车辆图像进行车窗细节图像检测模型训练分为两个步骤，先定位目标车辆，再进行目标车辆车窗细节具体类别的分类；首先利用ResNet50网络生成特征映射图，并利用区域建议网络(Region Proposal Networks，RPN)对生成的特征映射图进行全图的前后景目标搜索和筛选，以确定目标框；在此基础上，利用分类网络对目标框进行分类识别，具体的图像R-FCN检测模型训练处理步骤如下：

S2.1、利用区域建议网络(RPN)进行目标候选区域搜索，同时调整算法中对输入图片动态长宽比的实际需求模型参数；

R-FCN网络使用ResNet50网络对图片进行卷积池化等操作，ResNet50网络的输出层为一个1×2048×63×38的张量，RPN在ResNet50输出层上完成候选区域的搜索；具体的形式是在输出层上利用512个，尺寸为3×3的卷积核进行卷积操作，获得一个512×63×38的张量；将该张量作为两个独立卷积层的输入，从而将特征映射图里的信息转换为候选区域的位置信息和其为前后景的概率信息；RPN默认用9个搜索框来搜索一块区域，尺度为642、1282、2562，长宽比为1：1、1：2、2：1，以上搜索框的默认属性是针对ImageNet，VOC数据集中的通用目标的；

考虑到实际应用中目标检测的需要，本发明在将搜索区域的尺度设置图片的长宽比可变，总体图片大小不变；这不仅有利于增加视频图像的处理需求，也大大减少了计算量；对于原始的输入图片，RPN网络会得到约两万个搜索框；在实际应用时，一些超出图片边界的搜索框会被剔除；同时，对于同一目标重叠覆盖的搜索框，采用非极大值抑制(Non-Maximum Suppression，NMS)方法来处理，以达到去除重叠搜索框的目的；

S2.2、R-FCN中的分类检测

R-FCN的分类网络基于ResNet50网络生成的特征映射图，利用卷积操作在整幅图像上为每类生成k×k个位置敏感分数图，用于描述对应位置的空间网格；每个位置敏感图有C个通道输出(代表C-1类物体外加一个背景)，对于一个w×h大小的候选目标框，此目标框由RPN网络获得，将目标框划分为k×k个子区域，则每个子区域为w×h/k²大小，对于任意一个子区域bin(i,j),0≤i,j≤k-1，定义一个位置敏感池化操作：

rc(i,j|Θ)是子区域bin(i,j)对C个类别的池化响应，z_i,j,c是子区域bin(i,j)所对应的位置敏感分数图，(x₀,y₀)代表目标候选框左上角的坐标，n是子区域bin(i,j)中的像素数，Θ代表网络的所有学习得到的参数，计算k×k个子区域的池化响应输出rc(i,j|Θ)的均值，利用Softmax回归分类方法获得其属于每个类别的概率；

S3、对基于R-FCN训练好的车窗细节图像检测模型进行训练改进，增加多个分支，同时调整算法中对输入图片动态长宽比的实际需求模型，训练出判别驾驶员与副驾驶员是否存在影响交通安全行为的模型。

原有策略在加强了对复杂样本学习的同时，也带来了误报率增高的问题。为了进一步改善网络的性能，本发明引入二次分类思想，利用对ResNet50网络进行位置敏感区域池化(Psroi pooling)，从而对R-FCN检测输出的结果进行二次分类；

二次分类网络(ResNet50)与位置敏感区域池化(Psroi pooling)相结合，其输入为R-FCN的目标检测框的图片信息，输出为相应的类别信息，在训练二次分类器时，为了增大负样本(R-FCN目标检测网络的误报样本)的数量，本发明采用了复制扩充训练集的方法，加强二次分类网络(ResNet50)对位置敏感区域池化(Psroi pooling)后原始R-FCN网络中误报样本特征的学习，从而降低误报率，在实际应用中，也能保证系统实时性，具体检测与分类过程如下：

S3.1将待识别图像输入训练模型，检测出驾驶员、副驾驶员、年检标、纸巾盒、摆件、挂件的个数与具体位置；

本发明中，采用区域候选框的交叉熵损失值作为候选区域选矿的分类损失值L_cls，L_s(s,t_x,y,w,h)为R-FCN的价值函数，具体计算公式如下：

根据两个价值函数公式，可以很清晰的进行车窗细节的识别检测，建立训练后的细节检测模型，如图2所示，图中方框区域即为搜索的二次结构化区域，图中只画出了需要的目标框；

本发明中提出的方法实际上可嵌入视频监控系统实现，运用于具有实时输出图像功能的目标检测与分类的监控系统中。

本发明还提供一种计算机装置，在一实施例中，该计算机装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例中的基于区域全卷积网络的车辆细节识别二次结构化方法的步骤。可以理解，该计算机装置可以为电视、IPAD、PC、手机等。

在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于区域全卷积网络的车辆细节识别二次结构化方法，其特征在于，包括如下步骤：

S1、对目标车辆图像进行基于PCA的数据增强处理；

S2.1、定位目标车辆：利用RPN区域建议网络进行目标候选区域搜索，同时调整算法中对输入图片动态长宽比的实际需求模型参数，利用ResNet50网络生成特征映射图，并利用区域建议网络对生成的特征映射图进行全图的前后景目标搜索和筛选，以确定目标框；

S2.2、R-FCN中的分类检测：在S2.1的基础上，利用R-FCN的分类网络，对目标框进行分类识别，即对目标车辆车窗细节具体类别的分类；

2.如权利要求1所述的一种基于区域全卷积网络的车辆细节识别二次结构化方法，其特征在于，所述步骤S1包括：

S1.1、对目标车辆图像的数据进行镜面对称，增强数据集；

S1.2、对于刮痕这一个系列的数据集，进行背景分割；

S1.3、对数据集中的图像进行PCA处理。

3.如权利要求2所述的一种基于区域全卷积网络的车辆细节识别二次结构化方法，其特征在于，所述步骤S1.1中，对目标车辆图像的数据进行镜面对称的方式为：左右对称和上下对称，将数据集数量翻两番。

4.如权利要求2所述的一种基于区域全卷积网络的车辆细节识别二次结构化方法，其特征在于，所述步骤S1.3包括：

随后在整个训练集上计算协方差矩阵：

解相关矩阵R的特征方程|R-λI_P|＝0得到p个特征根，确定主成分的每个λ_j，j＝1,2,…m解方程组Rb＝λ_jb得到单位特征向量将标准化后的指标变量变换为主成分：

最后将上述经过数据增强预处理的图像的最终结果输出。

5.如权利要求1所述的一种基于区域全卷积网络的车辆细节识别二次结构化方法，其特征在于，所述步骤S2.1中，R-FCN网络使用ResNet50网络对图片进行卷积池化操作。

6.如权利要求5所述的一种基于区域全卷积网络的车辆细节识别二次结构化方法，其特征在于，所述步骤S2.2中，R-FCN中的分类检测具体步骤如下：基于ResNet50网络生成的特征映射图，利用卷积操作在整幅图像上为每类生成k×k个位置敏感分数图，用于描述对应位置的空间网格；每个位置敏感图有C个通道输出，代表C-1类物体外加一个背景，对于一个w×h大小的候选目标框，此由目标框RPN网络获得，将目标框划分为k×k个子区域，则每个子区域为w×h/k²大小，对于任意一个子区域bin(i,j),0≤i,j≤k-1，定义一个位置敏感池化操作，具体公式为：

r_c(i,j|Θ)是子区域bin(i,j)对C个类别的池化响应，z_i,j,c是子区域bin(i,j)所对应的位置敏感分数图，(x₀,y₀)代表目标候选框左上角的坐标，n是子区域bin(i,j)中的像素数，Θ代表网络的所有学习得到的参数，计算k×k个子区域的池化响应输出rc(i,j|Θ)的均值，利用Softmax回归分类方法获得其属于每个类别的概率。

7.如权利要求6所述的一种基于区域全卷积网络的车辆细节识别二次结构化方法，其特征在于，所述步骤S3中，对R-FCN检测输出的结果进行二次分类时，二次分类网络与位置敏感区域池化相结合，其输入为R-FCN的目标检测框的图片信息，输出为相应的类别信息。

8.如权利要求1所述的一种基于区域全卷积网络的车辆细节识别二次结构化方法，其特征在于，所述步骤S3中，对R-FCN检测输出的结果进行二次分类时，采用了复制扩充训练集的方法，具体检测与分类过程如下：

9.一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的基于区域全卷积网络的车辆细节识别二次结构化方法的步骤。