CN110084284A

CN110084284A - 基于区域卷积神经网络的目标检测与二级分类算法及装置

Info

Publication number: CN110084284A
Application number: CN201910273365.4A
Authority: CN
Inventors: 张斯尧; 谢喜林; 王思远; 黄晋; 蒋杰; 张�诚
Original assignee: Suzhou Vision Polytron Technologies Inc
Current assignee: Suzhou Vision Polytron Technologies Inc
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-02

Abstract

本发明公开了一种基于区域全卷积神经网络的目标检测与二级分类算法及装置，该算法包括对目标图像进行数据增强处理；进行数据增强后的图像做目标检测与分类的R‑FCN算法处理；对基于R‑FCN训练好的图像检测模型进行训练改进三个步骤。针对现存算法的这些特定问题，本发明提出的算法进行了进一步改进，使得算法模型除了原有的准确检测，分类需要特征具有评议不变性之外，还使得算法模型同时实现了检测与二级分类的功能，相比于现有的算法，本算法可靠性高，目标识别度高，鲁棒性好，同时步骤计算简单，大大减少了计算量，能保持高效率，实际应用性能也能满足需求。

Description

基于区域卷积神经网络的目标检测与二级分类算法及装置

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于区域全卷积神经网络的目标检测与二级分类算法及装置。

背景技术

随着现代化交通、安防等行业的迅速发展，目标识别技术越来越多的被应用于各种领域，是近年来计算机视觉与模式识别技术在智能交通领域的重要研究课题之一。

伴随着最近几年深度学习的兴起，基于深度学习的方法在图像分类领域也取得了优异的成绩。很多研究者基于此也尝试将深度学习应用于目标检测领域。从目前的情况来看，现在的大部分CNN在分类上可以做的很好，但用在检测上效果不佳。传统的SPP，FasterR-CNN类的方法在感兴趣的目标区域池化(ROI pooling)前都是卷积，是具备平移不变性的，但一旦插入感兴趣的目标区域池化(ROI pooling)之后，后面的网络结构就不再具备平移不变性了。在目标检测算法中，通常分类需要特征具有平移不变性，检测则要求对目标的平移做出准确响应，基于区域的全卷积神经网络(R-FCN)由输入层、卷积层、激活函数、池化层等组成，即I NPUT-CONV-RELU-POOL-FC，R-FCN可以用于解决复杂的计算机视觉问题，并取得很好的效果。

虽然R-FCN方法在通用的目标检测取得了较好的结果，但是在实际应用过程中，也存在着一些问题，比如不能同时实现复杂监控场景中对检测目标的检测与具体细分类功能，不能直接适用于复杂场景智能系统中的算法应用，无法满足计算简便以及实时性需求。

发明内容

本发明的主要目的是提供一种基于区域全卷积神经网络的目标检测与二级分类算法及装置，旨在提高目标视频检测系统的准确性与可靠性，使其能满足实时性需求，通过对现有算法进一步改进，使得算法模型除了原有的准确检测，分类需要特征具有评议不变性之外，还使得算法模型同时实现了检测与二级分类的功能，相比于现有的算法，本算法可靠性高，目标识别度高，鲁棒性好，同时步骤计算简单，大大减少了计算量，能保持高效率，实际应用性能也能满足需求。

为实现上述目的，本发明提供一种基于区域全卷积神经网络的目标检测与二级分类算法，包括以下步骤：

S1：采集目标图像并进行基于PCA的数据增强处理；

S2：对数据增强后的图像做目标检测的R-FCN算法处理，具体步骤如下:

S2.1：定位并确定目标：利用ResNet网络生成特征映射图，并利用区域建议网络对生成的特征映射图进行全图的前后景目标搜索和筛选，以确定目标框；

S2.2：进行目标具体类别的分类：在确定的目标框的基础上利用R-FCN的分类网络对目标框进行分类识别；

S3：对基于R-FCN训练好的图像检测模型进行训练改进，具体步骤如下:

S3.1：增加多个分支，同时调整算法中对输入图片动态长宽比的实际需求模型；

S3.2：训练出需要的目标模型，对目标模型进行二级细分类。

优选的，所述步骤S1包括：

S1.1：对目标图像进行镜面对称，获得翻倍的数据集；

S1.2：在获得的数据集中对于目标系列的数据集进行背景分割；

S1.3：对数据集中的图像进行PCA处理。

优选的，所述步骤S1.1中对目标图像的数据进行镜面对称的方式为：左右对称和上下对称，将数据集数量翻两番。

优选的，所述步骤S1.3包括：

首先根据RGB三色对样本阵元进行标准化处理，变换色通道计算均值和标准差，对网络的输入数据进行规范化，其公式具体如下：

随后在整个训练集上计算协方差矩阵，其公式具体如下：

解相关矩阵R的特征方程|R-λI_p|＝0得到p个特征根，确定主成分的每个λ_j，j＝1,2,...m，解方程组Rb＝λ_jb得到单位特征向量j＝1,2,...m，将标准化后的指标变量变换为主成分；

将求出的特征向量按照特征值的大小进行组合形成一个映射矩阵，并根据指定的PCA保留的特征个数取出映射矩阵的前n行或者前n列作为最终的映射矩阵，用映射矩阵对原始数据进行映射，并将上述经过数据增强预处理的图像输出最终结果。

优选的，所述S2.1具体为使用ResNet50网络对图片进行卷积池化操作，将特征映射图里的信息转换为候选区域的位置信息和其为前后景的概率信息，RPN默认用9个搜索框来搜索一块区域，通用目标的其中搜索区域的尺度设置图片的长宽比可变，总体图片大小不变。

优选的，所述S2.2具体为基于ResNet50网络生成的特征映射图，利用卷积操作在整幅图像上为每类生成k×k个位置敏感分数图；每个位置敏感图有C个通道输出，代表C-1类物体外加一个背景，对于一个w×h大小的候选目标框，此由RPN网络获得，将目标框划分为k×k个子区域，则每个子区域为w×h/k²大小，对于任意一个子区域bin(i,j),0≤i,j≤k-1，定义一个位置敏感池化操作，具体公式为：

r_c(i,j|Θ)是子区域bin_(i,j)对C个类别的池化响应，z_i,j,C是子区域bin_(i,j)所对应的位置敏感分数图，(x₀，y₀)代表目标候选框左上角的坐标，n是子区域bin_(i,j)中的像素数，Θ代表网络的所有学习得到的参数，计算k×k个子区域的池化响应输出r_c(i,j|Θ)的均值，利用Softmax回归分类方法获得其属于每个类别的概率。

优选的，所述S3中，对R-FCN检测输出的结果进行二次分类时，二次分类网络与位置敏感区域池化相结合，其输入为R-FCN的目标检测框的图片信息，输出为相应的类别信息。

为实现上述目的，本发明提供一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述任一项所述的基于区域全卷积神经网络的目标检测与二级分类算法的步骤。

本发明提出的一种基于区域全卷积神经网络的目标检测与二级分类算法，针对现存算法的这些特定问题，本算法进行了进一步改进，使得算法模型除了原有的准确检测，分类需要特征具有评议不变性之外，还使得算法模型同时实现了检测与二级分类的功能，相比于现有的算法，本算法可靠性高，目标识别度高，鲁棒性好，同时步骤计算简单，大大减少了计算量，能保持高效率，实际应用性能也能满足需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明一实施例所述整体算法流程图。

图2是本发明一实施例所述R-FCN目标检测框图。

图3是本发明一实施例所述RPN网络整体结构图。

图4是本发明一实施例所述目标检测效果图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1-4，为本发明一种基于区域全卷积神经网络的目标检测与二级分类算法的一实施例，所述基于区域全卷积神经网络的目标检测与二级分类算法包括以下步骤：

S1：对目标图像进行数据增强处理；

S2：进行数据增强后的图像做目标检测与分类的R-FCN算法处理；

S3：对基于R-FCN训练好的图像检测模型进行训练改进，增加多个分支，同时调整算法中对输入图片动态长宽比的实际需求模型，训练出需要的目标模型并能对目标模型进行二级细分类。

进一步地，所述S1中对目标图像进行基于PCA的数据增强预处理，其具体步骤如下：

S1.1：对数据进行镜面对称增强数据集:分为左右和上下对称，将数据集数量翻两番；

S1.2：对于一个系列的数据集，进行背景分割，数据集主要语义只占全部图像的10％左右，且大部分集中在中部区域，增加其突出特征；

S1.3：对通过变换的图像进行PCA处理：

首先根据RGB三色对样本阵元进行如下标准化，变换色通道计算均值和标准差，对网络的输入数据进行规范化，其公式具体如下：

随后在整个训练集上计算协方差矩阵，其公式具体如下：

将求出的特征向量按照特征值的大小进行组合形成一个映射矩阵，并根据指定的PCA保留的特征个数取出映射矩阵的前n行或者前n列作为最终的映射矩阵，用映射矩阵对原始数据进行映射，达到数据降维的目的；

将上述经过数据增强预处理的图像输出最终结果。

进一步地，S2中进行数据增强后的图像做目标检测的R-FCN算法处理，首先利用ResNet网络生成特征映射图，并利用区域建议网络(Region Proposal Networks，RPN)对生成的特征映射图进行全图的前后景目标搜索和筛选，以确定目标框，在此基础上，利用分类网络对目标框进行分类识别；

整个网络可以通过端到端学习，一个底层的卷积(conv)网络如ResNet，一个RPN，一个位置敏感(position sensitive)的预测(prediction)层，最后的兴趣区域的池化层(ROI pooling)加上投票的决策层(vote)，具体的图像R-FCN算法处理步骤如下：

S2.1：利用区域建议网络(RPN)进行目标候选区域搜索，同时调整算法中对输入图片动态长宽比的实际需求模型参数；

R-FCN网络使用ResNet50网络对图片进行卷积池化等操作，ResNet50网络的输出层为一个1×2048×63×38的张量，RPN在ResNet50输出层上完成候选区域的搜索，具体的形式是在输出层上利用512个，尺寸为3x3的卷积核进行卷积操作，获得一个512×63×38的张量，将该张量作为两个独立卷积层的输入，从而将特征映射图里的信息转换为候选区域的位置信息和其为前后景的概率信息，RPN默认用9个搜索框来搜索一块区域，尺度为642、1282、2562，长宽比为1:1、1：2、2：1，以上搜索框的默认属性是针对ImageNet和VOC数据集中的通用目标的；

考虑到实际应用中目标检测的需要，本发明在将搜索区域的尺度设置图片的长宽比可变，总体图片大小不变，这不仅有利于增加视频图像的处理需求，也大大减少了计算量，对于原始的输入图片，RPN网络会得到约两万个搜索框，在实际应用时，一些超出图片边界的搜索框会被剔除，同时，对于同一目标重叠覆盖的搜索框，采用非极大值抑制(Non-Maximum Suppression，NMS)方法来处理，以达到去除重叠搜索框的目的，上述策略可显著提高候选目标框的搜索效率；

S2.2：对R-FCN进行分类检测，R-FCN的分类网络基于ResNet50网络生成的特征映射图，利用卷积操作在整幅图像上为每类生成k×k个位置敏感分数图，用来描述对应位置的空间网格；

每个位置敏感图有C个通道输出(代表C-1类物体外加一个背景)，对于一个w×h大小的候选目标框(由RPN网络获得)，将目标框划分为k×k个子区域，则每个子区域为w×h/k²大小，对于任意一个子区域bin(i,j),0≤i,j≤k-1，定义一个位置敏感池化操作，具体公式为：

r_c(i,j|Θ)是子区域bin_(i,j)对C个类别的池化响应，z_i,j,C是子区域bin_(i,j)所对应的位置敏感分数图，(x₀，y₀)代表目标候选框左上角的坐标，n是子区域bin_(i,j)中的像素数，Θ代表网络的所有学习得到的参数，计算k×k个子区域的池化响应输出r_c(i,j|Θ)的均值，利用Softmax回归分类方法获得其属于每个类别的概率；

在实际测试中，经过处理后的图像，用50层的Residual Net，R-FCN取得了83.6％的mAP在VOC2007上，2012上取得了82.0，同时时间170ms每张图片，是Faster RCNN的2.5倍以上。

进一步地，S3中引入二次分类思想，利用对ResNet-50网络进行位置敏感区域池化(Psroi pooling)，对R-FCN检测输出的结果进行二次分类，二次分类网络(ResNet-50)与位置敏感区域池化(Psroi pooling)相结合，输入为R-FCN的目标检测框的图片信息，输出为相应的类别信息，降低误报率，进一步改善网络的性能；

在训练二次分类器时，为了增大负样本(R-FCN目标检测网络的误报样本)的数量，本发明采用了复制扩充训练集的方法，加强二次分类网络(ResNet-50)对位置敏感区域池化(Psroi pooling)后原始R-FCN网络中误报样本特征的学习，从而降低误报率，在实际应用中，也能保证系统实时性。

进一步地，本发明中提出的方法实际上可嵌入视频监控系统实现，运用于具有实时输出图像功能的目标检测与分类的监控系统中。

本发明还提供一种计算机装置，在一实施例中，该计算机装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例中的基于区域全卷积神经网络的目标检测与二级分类算法的步骤。可以理解，该计算机装置可以为电视、IPAD、PC、手机等。

在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于区域全卷积神经网络的目标检测与二级分类算法，其特征在于，包括以下步骤：

S1：采集目标图像并进行基于PCA的数据增强处理；

S3.2：训练出需要的目标模型，对目标模型进行二级细分类。

2.如权利要求1所述的基于区域全卷积神经网络的目标检测与二级分类算法，其特征在于，所述步骤S1包括：

S1.1：对目标图像进行镜面对称，获得翻倍的数据集；

S1.3：对数据集中的图像进行PCA处理。

3.如权利要求2所述的基于区域全卷积神经网络的目标检测与二级分类算法，其特征在于，所述步骤S1.1中对目标图像的数据进行镜面对称的方式为：左右对称和上下对称，将数据集数量翻两番。

4.如权利要求2所述的基于区域全卷积神经网络的目标检测与二级分类算法，其特征在于，所述步骤S1.3包括：

随后在整个训练集上计算协方差矩阵，其公式具体如下：

解相关矩阵R的特征方程|R-λI_p|＝0得到p个特征根，确定主成分的每个λ_j，j＝1,2,...m，解方程组Rb＝λ_jb得到单位特征向量将标准化后的指标变量变换为主成分；

5.如权利要求1所述的基于区域全卷积神经网络的目标检测与二级分类算法，其特征在于，所述S2.1具体为使用ResNet50网络对图片进行卷积池化操作，将特征映射图里的信息转换为候选区域的位置信息和其为前后景的概率信息，RPN默认用9个搜索框来搜索一块区域，通用目标的其中搜索区域的尺度设置图片的长宽比可变，总体图片大小不变。

6.如权利要求5所述的基于区域全卷积神经网络的目标检测与二级分类算法，其特征在于，所述S2.2具体为基于ResNet50网络生成的特征映射图，利用卷积操作在整幅图像上为每类生成k×k个位置敏感分数图；每个位置敏感图有C个通道输出，代表C-1类物体外加一个背景，对于一个w×h大小的候选目标框，此由RPN网络获得，将目标框划分为k×k个子区域，则每个子区域为w×h/k²大小，对于任意一个子区域bin(i,j),0≤i,j≤k-1，定义一个位置敏感池化操作，具体公式为：

7.如权利要求6所述的基于区域全卷积神经网络的目标检测与二级分类算法，其特征在于，所述S3中，对R-FCN检测输出的结果进行二次分类时，二次分类网络与位置敏感区域池化相结合，其输入为R-FCN的目标检测框的图片信息，输出为相应的类别信息。

8.一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于区域全卷积神经网络的目标检测与二级分类算法的步骤。