CN107944442B

CN107944442B - 基于改进卷积神经网络的对象检测装置及方法

Info

Publication number: CN107944442B
Application number: CN201711096143.7A
Authority: CN
Inventors: 曾建平; 王军; 王正; 余旭; 李党
Original assignee: Beijing Zhi Xinyuandong Science And Technology Ltd
Current assignee: Beijing Zhi Xinyuandong Science And Technology Ltd
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2019-08-13
Anticipated expiration: 2037-11-09
Also published as: CN107944442A

Abstract

本发明提供了的基于改进卷积神经网络的对象检测方法，该方法包括：采集已标记对象的标记图像；采用随机采样法，对改进卷积神经网络进行初步训练，获取初步分类的正样本和负样本，以及对应的分类概率值，再根据分类概率值，选择一定比例的正样本和负样本，对改进卷积神经网络进行训练，获取训练好的对象检测模型；输入待检测图像；采用对象检测模型对待检测图像进行对象检测，输出检测结果。与现有技术相比，本发明能快速准确地实现图像中的对象检测。

Description

基于改进卷积神经网络的对象检测装置及方法

技术领域

本发明涉及图像处理、视频监控以及安防，特别涉及对象检测装置及方法。

背景技术

对象检测是一种利用计算机对图像进行处理、分析和理解，以检测各种不同模式的对象的技术。目前对象检测技术在智能交通、图像搜索、商品推荐、用户行为分析以及人脸检测等互联网应用产品中具有巨大的商业市场和良好的应用前景，同时在智能机器人、无人自动驾驶和无人机等高新科技产业以及生物学、医学和地质学等众多学科领域具有广阔的应用前景。

早期的对象检测技术主要采用尺度不变特征变换(Scale-invariant featuretransform,SIFT)和方向梯度直方图(Histogram of oriented gradients,HOG)等特征提取方法，将提取到的特征输入至分类器中进行分类检测。这些特征是人工选取的，针对不同的识别问题，提取到的特征好坏直接影响系统性能。因此，这类识别技术只能针对某一特定的识别任务，范化能力较差，难以实际推广应用。

深度学习是机器学习的一个分支，自2006年由Geoffrey Hinton和他的学生提出以来，受到了极大的关注。2011年以来，研究人员首先在语音识别问题上应用深度学习技术，将准确率提高了20％～30％，取得了十多年来最大的突破性进展。2012年后，基于卷积神经网络的深度学习模型再大规模图像分类任务上取得了非常大的性能提高，掀起了深度学习研究的热潮。

“Rich Feature Hierarchies for Accurate Object Detection and SemanticSegmentation.R Girshick，J Donahue，T Darrell，J Malik.Computer Vision&PatternRecognition,2013:580-587”公开了一种基于R-CNN的精确对象检测和分割方法，但计算量很大，无法实时进行检测。“Spatial Pyramid Pooling in Deep Convolutional Networksfor Visual Recognition.K He，X Zhang，S Ren，J Sun. 《IEEE Transactions onPattern Analysis&Machine Intelligence》,2014, 37(9):1904-16”公开了一种基于SPP-net(空间金字塔池化卷积神经网络)的图像识别方法，该方法降低了训练过程中过拟合的可能性，但实现过程较复杂，时间成本和空间代价较高。“Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks.S Ren，K He，R Girshick，JSun.《IEEE Transactions on Pattern Analysis&Machine Intelligence》,2016:1-1”公开了一种基于Faster R-CNN 的对象检测方法，该方法通过多任务损失学习方式提高了算法的准确率，但是训练耗时较大。

综上所述，目前迫切需要提出一种快速且识别准确率高的对象检测装置及方法。

发明内容

有鉴于此，本发明的主要目的在于实现对象的快速检测，且检测准确率高。

为达到上述目的，按照本发明的第一个方面，提供了基于改进卷积神经网络的对象检测装置，该装置包括：

标记图像采集模块，用于采集已标记对象的标记图像；

对象检测模型训练模块，用于采用随机采样法，对改进卷积神经网络进行初步训练，获取初步分类的正样本和负样本，以及对应的分类概率值，再根据分类概率值，选择一定比例的正样本和负样本，对改进卷积神经网络进行训练，获取训练好的对象检测模型；

待检测图像输入模块，用于输入待检测图像；以及

对象检测模块，用于采用对象检测模型对待检测图像进行对象检测，输出检测结果。

进一步地，所述已标记对象可以包括但不限于以下一种或者多种的组合：车辆、行人、自行车、车型、车款、人脸等。

进一步地，所述对象检测模型训练模块包括：

随机采样处理模块，用于分别将标记图像内的每个标记对象缩放到设定的尺度范围内，并根据该缩放比例对标定图像进行采样处理，以获取该标记对象的尺度图像；

样本获取模块，用于根据不同的尺度图像，对改进卷积神经网络进行训练，获取一系列标记对象的正样本和负样本，以及对应窗口的分类概率值；

样本选取模块，用于将所有正样本和负样本对应窗口的分类概率值进行排序，选取分类概率值高的前Num₁个正样本和分类概率值高的前Num₂个负样本；

二次训练模块，用于将选取的Num₁个正样本和Num₂个负样本输入改进卷积神经网络中，以进行二次训练，获得对象检测模型。

进一步地，所述随机采样处理模块包括：用于计算标记对象的宽度W_TO，若 T₁≤W_TO*R_S≤T₂，R_S为缩放比例，获取标记对象的尺度图像，该尺度图像的宽度是标记图像宽度的该尺度图像的高度是标记图像高度的

进一步地，所述改进卷积神经网络包括：

图像输入模块，用于输入图像；

特征子网络模块，用于对不同尺度的分辨率图像分别进行卷积、非线性单元和池化处理，以获得不同尺度的分辨率特征图像；

建议子网络模块，用于对不同尺度的分辨率特征图像进行锚子网络处理和分析，获取图像内对象的建议窗口的位置坐标和分类概率值。

进一步地，所述特征子网络模块包括10个卷积层和9个池化层。

进一步地，所述特征子网络模块包括：输入层、第一卷积层第一输出层 conv1_1、第一卷积层第二输出层conv1_2、第一池化层pool1、第二卷积层第一输出层conv2_1、第二卷积层第二输出层conv2_2、第二池化层pool2、第三卷积层第一输出层conv3_1、第三卷积层第二输出层conv3_2、第三卷积层第三输出层conv3_3、第三池化层pool3、第四卷积层第一输出层conv4_1、第四卷积层第二输出层conv4_2、第四卷积层第三输出层conv4_3、第四池化层pool4、第五卷积层第一输出层conv5_1、第五卷积层第二输出层conv5_2、第五卷积层第三输出层conv5_3、第五池化层pool5、第六卷积层第一输出层conv6_1、第六卷积层第二输出层conv6_2、第六池化层pool6、第七卷积层第一输出层 conv7_1、第七卷积层第二输出层conv7_2、第七池化层pool7、第八卷积层第一输出层conv8_1、第八卷积层第二输出层conv8_2、第八池化层pool8、第九卷积层第一输出层conv9_1、第九卷积层第二输出层conv9_2、第九池化层 pool1、第十卷积层第一输出层conv10_1、第十卷积层第二输出层conv10_2。

进一步地，所述卷积层的卷积核的大小为CKS_i*CKS_i、步长为Th_CS_i，i表示第i个卷积层，i∈{1，2，3，…，10}。所述池化层的核的大小为PKS_j*PKS_j、步长为Th_PS_j，j表示第j个池化层，j∈{1，2，3，…，9}。其中，所述 CKS_i∈{3，5，7，9，11}，Th_CS_i∈{1，2}，i∈{1，2，3，…，10}；所述PKS_j∈{2，3，4}， Th_PS_j∈{1，2，3}，j∈{1，2，3，…，9}，池化层采用最大池化法或者平均池化法。

进一步地，所述建议子网络模块包括：

特征图像输入模块，用于输入第三卷积层第三输出层conv3_3、第四卷积层第三输出层conv4_3、第五卷积层第三输出层conv5_3、第六卷积层第二输出层 conv6_2、第七卷积层第二输出层conv7_2、第八卷积层第二输出层conv8_2、第九卷积层第二输出层conv9_2、第十卷积层第二输出层conv10_2的特征图像；

锚子网络处理模块，用于采用8个锚子网络对输入的8个特征图像分别进行处理，输出8个对应特征图像的锚窗口的先验位置坐标、分类概率值和修正位置坐标；

锚子网络分析模块，用于根据锚窗口的先验位置坐标计算锚窗口的先验长度和先验宽度，根据锚窗口的修正位置坐标计算锚窗口的修正长度和修正宽度，按照修正公式对锚窗口进行修正，获取锚窗口的预测窗口，并对锚窗口的预测窗口做非极大值抑制，获取建议窗口的位置坐标和分类概率值并输出。

进一步地，所述锚子网络分析模块中修正公式为：xp＝Wa*xc+xa、 yp＝Ha*yc+ya、W_p＝exp(W_c)*W_a、H_p＝exp(H_c)*H_a。其中，(xa,ya)为锚窗口的先验位置坐标，W_a和H_a为锚窗口的先验长度和宽度，(xc,yc)为锚窗口的修正，W_c和H_c为锚窗口的修正长度和宽度，(xp,yp)为锚窗口的预测位置坐标，W_p和H_p为锚窗口的预测长度和预测宽度。

所述改进卷积神经网络还可以包括：检测子网络模块，用于融合多个尺度的分辨率特征图像，根据建议窗口提取感兴趣区域的特征图像，并提取感兴趣区域的特征向量，根据特征向量对建议窗口进行分类和回归，输出检测窗口的位置坐标和分类概率值。

进一步地，所述检测子网络模块包括：

特征图像上采样模块，用于输入第三卷积层第三输出层conv3_3、第四卷积层第三输出层conv4_3、第五卷积层第三输出层conv5_3的特征图像，并对第四卷积层第三输出层conv4_3和第五卷积层第三输出层conv5_3的特征图像进行图像上采样处理，使第四卷积层第三输出层conv4_3和第五卷积层第三输出层 conv5_3的特征图像的尺度和第三卷积层第三输出层conv3_3特征图像的尺度相同；

特征图像融合模块，用于将第三卷积层第三输出层conv3_3的特征图像、上采样后的第四卷积层第三输出层conv4_3的特征图像以及上采样后的第五卷积层第三输出层conv5_3的特征图像进行图像融合处理，获得融合特征图像；

卷积处理模块，用于对融合特征图像进行卷积处理，获取卷积后的融合特征图像；

感兴趣区域特征图像提取模块，用于根据建议子网络输出的建议窗口，从卷积后的融合特征图像中提取感兴趣区域的特征图像；

感兴趣区域的特征向量提取模块，用于两层全连接层，从感兴趣区域的特征图像中提取感兴趣区域的特征向量；

分类回归模块，用于根据感兴趣区域的特征向量，对建议窗口进行分类和回归，输出检测窗口的位置坐标和分类概率值。

所述对象检测模块用于通过训练好的对象检测模型，融合待检测图像的多个尺度的分辨率特征图像，根据建议窗口提取感兴趣区域的特征图像，并提取感兴趣区域的特征向量，根据特征向量对建议窗口进行分类和回归，输出待检测图像中对象的位置坐标和分类概率值。

按照本发明的另一个方面，提供了基于改进卷积神经网络的对象检测方法，该方法包括：

第一步骤，采集已标记对象的标记图像；

第二步骤，采用随机采样法，对改进卷积神经网络进行初步训练，获取初步分类的正样本和负样本，以及对应的分类概率值，再根据分类概率值，选择一定比例的正样本和负样本，对改进卷积神经网络进行训练，获取训练好的对象检测模型；

第三步骤，输入待检测图像；以及

第四步骤，采用对象检测模型对待检测图像进行对象检测，输出检测结果。

进一步地，所述第二步骤包括：

随机采样处理步骤，分别将标记图像内的每个标记对象缩放到设定的尺度范围内，并根据该缩放比例对标定图像进行采样处理，以获取该标记对象的尺度图像；

样本获取步骤，根据不同的尺度图像，对改进卷积神经网络进行训练，获取一系列标记对象的正样本和负样本，以及对应窗口的分类概率值；

样本选取步骤，将所有正样本和负样本对应窗口的分类概率值进行排序，选取分类概率值高的前Num₁个正样本和分类概率值高的前Num₂个负样本；

二次训练步骤，将选取的Num₁个正样本和Num₂个负样本输入改进卷积神经网络中，以进行二次训练，获得图像识别模型。

所述随机采样处理步骤中设定的尺度范围可以限定标记对象的宽度或者高度位于T₁和T₂之间。

进一步地，所述随机采样处理步骤包括：计算标记对象的宽度W_TO，若 T₁≤W_TO*R_S≤T₂，R_S为缩放比例，获取标记对象的尺度图像，该尺度图像的宽度是标记图像宽度的该尺度图像的高度是标记图像高度的

与现有的对象检测技术相比，本发明的基于改进卷积神经网络的对象检测装置及方法一方面对现有的卷积神经网络的网络架构进行了改进，使得网络检测性能更佳；另一方面通过对样本图像的权衡选取和筛选，使改进卷积神经网络经过样本图像训练后获取的对象检测模型更可靠。

附图说明

图1示出了按照本发明的基于改进卷积神经网络对象检测装置的框架图。

图2示出了按照本发明的改进卷积神经网络5的第一实施例框架图。

图3示出了按照本发明的改进卷积神经网络5的第二实施例框架图。

图4示出了按照本发明的基于改进卷积神经网络的对象检测方法的流程图。

具体实施方式

为进一步了解本发明的结构、特征及其他目的，现结合所附较佳实施例详细说明如下，所说明的较佳实施例仅用于说明本发明的技术方案，并非限定本发明。

图1给出了按照本发明的基于改进卷积神经网络的对象检测装置的框架图。如图1所示，按照本发明的基于改进卷积神经网络的对象检测装置包括：

标记图像采集模块1，用于采集已标记对象的标记图像；

对象检测模型训练模块2，用于采用随机采样法，对改进卷积神经网络5进行初步训练，获取初步分类的正样本和负样本，以及对应的分类概率值，再根据分类概率值，选择一定比例的正样本和负样本，对改进卷积神经网络5进行训练，获取训练好的对象检测模型；

待检测图像输入模块3，用于输入待检测图像；以及

对象检测模块4，用于采用对象检测模型对待检测图像进行对象检测，输出检测结果。

所述标记图像采集模块1中已标记对象的标记图像为含有已标记对象的图像。

进一步地，所述已标记对象可以包括但不限于以下一种或者多种的组合：车辆、行人、自行车、车型、车款、人脸等。实施例，选取已标记人脸作为已标记对象。实施例，选取车辆、行人、自行车等三个对象用不同编号矩形框标记的图像。

进一步地，所述对象检测模型训练模块2包括：

随机采样处理模块21，用于分别将标记图像内的每个标记对象缩放到设定的尺度范围内，并根据该缩放比例对标定图像进行采样处理，以获取该标记对象的尺度图像；

样本获取模块22，用于根据不同的尺度图像，对改进卷积神经网络5进行训练，获取一系列标记对象的正样本和负样本，以及对应窗口的分类概率值；

样本选取模块23，用于将所有正样本和负样本对应窗口的分类概率值进行排序，选取分类概率值高的前Num₁个正样本和分类概率值高的前Num₂个负样本；

二次训练模块24，用于将选取的Num₁个正样本和Num₂个负样本输入改进卷积神经网络中，以进行二次训练，获得对象检测模型。

进一步地，所述随机采样处理模块21中设定的尺度范围可以限定标记对象的宽度或者高度位于T₁和T₂之间。

进一步地，所述随机采样处理模块21包括：用于计算标记对象的宽度W_TO，若T₁≤W_TO*R_S≤T₂，R_S为缩放比例，获取标记对象的尺度图像，该尺度图像的宽度是标记图像宽度的该尺度图像的高度是标记图像高度的

进一步地，所述T₁的取值范围为15～25，T₂的取值范围为35～45。实施例，可以选取T₁为20，可以选取T₂为40。

进一步地，所述正样本的数量Num₁和负样本的数量Num₂不小于5。实施例，所述样本选取模块23中可以分类概率值高的前50个正样本和分类概率值高的前 50个负样本。

图2给出了按照本发明的改进卷积神经网络5的第一实施例框架图。如图2 所示，按照本发明的改进卷积神经网络5包括：

图像输入模块51，用于输入图像；

特征子网络模块52，用于对不同尺度的分辨率图像分别进行卷积、非线性单元和池化处理，以获得不同尺度的分辨率特征图像；

建议子网络模块53，用于对不同尺度的分辨率特征图像进行锚子网络处理和分析，获取图像内对象的建议窗口的位置坐标和分类概率值。

所述图像输入模块51中输入宽度为Width、高度为Height的彩色图像。

进一步地，所述Width∈[300,1200]，Height∈[300,1200]。实施例，可以选取Width为600，Height为600。

所述特征子网络模块52可以通过VGG网络或者Inception网络中的特征子网络实现。优选地，通过VGG网络来实现，VGG网络来自于国际会议论文“VERY DEEP CONVOLUTIONALNETWORKS FOR LARGE-SCALE IMAGE RECOGNITION.Karen Simonyan,AndrewZisserman.ICLR 2015”。

进一步地，所述特征子网络模块52包括10个卷积层和9个池化层。

进一步地，所述特征子网络模块52包括：输入层、第一卷积层第一输出层 conv1_1、第一卷积层第二输出层conv1_2、第一池化层pool1、第二卷积层第一输出层conv2_1、第二卷积层第二输出层conv2_2、第二池化层pool2、第三卷积层第一输出层conv3_1、第三卷积层第二输出层conv3_2、第三卷积层第三输出层conv3_3、第三池化层pool3、第四卷积层第一输出层conv4_1、第四卷积层第二输出层conv4_2、第四卷积层第三输出层conv4_3、第四池化层pool4、第五卷积层第一输出层conv5_1、第五卷积层第二输出层conv5_2、第五卷积层第三输出层conv5_3、第五池化层pool5、第六卷积层第一输出层conv6_1、第六卷积层第二输出层conv6_2、第六池化层pool6、第七卷积层第一输出层 conv7_1、第七卷积层第二输出层conv7_2、第七池化层pool7、第八卷积层第一输出层conv8_1、第八卷积层第二输出层conv8_2、第八池化层pool8、第九卷积层第一输出层conv9_1、第九卷积层第二输出层conv9_2、第九池化层 pool1、第十卷积层第一输出层conv10_1、第十卷积层第二输出层conv10_2。

实施例，CKS_i选为3，Th_CS_i选为1，i∈{1，2，3，…，10}；PKS_j选为2，Th_PS_j选为2，j∈{1，2，3，…，8}，PKS₉选为3，Th_PS₉选为3。第一层池化层到第八层池化层均采用最大池化法，第九层池化层采用平均池化法。

实施例，所述图像输入模块51中输入3×600×600的图像，特征子网络模块 52中输入层输入3×600×600的图像，第三卷积层第三输出层conv3_3输出为 256×150×150的特征图像，第四卷积层第三输出层conv4_3输出为512×75×75的特征图像，第五卷积层第三输出层conv5_3输出为512×38×38的特征图像，第六卷积层第二输出层conv6_2输出为512×19×19的特征图像，第七卷积层第二输出层conv7_2输出为512×10×10的特征图像，第八卷积层第二输出层conv8_2输出为512×5×5的特征图像，第九卷积层第二输出层conv9_2输出为512×3×3的特征图像，第十卷积层第二输出层conv10_2输出为512×1×1的特征图像。

进一步地，所述建议子网络模块53包括：

特征图像输入模块531，用于输入第三卷积层第三输出层conv3_3、第四卷积层第三输出层conv4_3、第五卷积层第三输出层conv5_3、第六卷积层第二输出层conv6_2、第七卷积层第二输出层conv7_2、第八卷积层第二输出层 conv8_2、第九卷积层第二输出层conv9_2、第十卷积层第二输出层conv10_2的特征图像；

锚子网络处理模块532，用于采用8个锚子网络对输入的8个特征图像分别进行处理，输出8个对应特征图像的锚窗口的先验位置坐标、分类概率值和修正位置坐标；

锚子网络分析模块533，用于根据锚窗口的先验位置坐标计算锚窗口的先验长度和先验宽度，根据锚窗口的修正位置坐标计算锚窗口的修正长度和修正宽度，按照修正公式对锚窗口进行修正，获取锚窗口的预测窗口，并对锚窗口的预测窗口做非极大值抑制，获取建议窗口的位置坐标和分类概率值并输出。

所述锚子网络处理模块532中的锚子网络可以通过区域建议网络(regionproposal network，简称RPN网络)实现。RPN网络可以参见“Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks. Shaoqing Ren,Kaiming He,Ross Girshick,Jian Sun.《IEEE Transactions on Pattern Analysis&MachineIntelligence》,2016:1-1”。

进一步地，所述锚子网络分析模块533中修正公式为：xp＝Wa*xc+xa、 yp＝Ha*yc+ya、W_p＝exp(W_c)*W_a、H_p＝exp(H_c)*H_a。其中，(xa,ya)为锚窗口的先验位置坐标，W_a和H_a为锚窗口的先验长度和宽度，(xc,yc)为锚窗口的修正，W_c和H_c为锚窗口的修正长度和宽度，(xp,yp)为锚窗口的预测位置坐标，W_p和H_p为锚窗口的预测长度和预测宽度。

所述锚子网络分析模块533中非极大值抑制(Non-maximum suppression，简称NMS)为现有技术，可以通过“Efficient Non-Maximum Suppression.A Neubeck， LVGool.International Conference on Pattern Recognition,2006,3:850-855”实现。

图3给出了按照本发明的改进卷积神经网络5的第二实施例框架图。如图3 所示，按照本发明的改进卷积神经网络5包括：

输入模块51，用于输入图像；

建议子网络模块53，用于对不同尺度的分辨率特征图像进行锚子网络处理和分析，获取图像内对象的建议窗口的位置坐标和分类概率值；

检测子网络模块54，用于融合多个尺度的分辨率特征图像，根据建议窗口提取感兴趣区域的特征图像，并提取感兴趣区域的特征向量，根据特征向量对建议窗口进行分类和回归，输出检测窗口的位置坐标和分类概率值。

所述对象检测模型训练模块2中对应窗口是指对应的检测窗口。

所述输入模块51、特征子网络模块52、建议子网络模块53与所述改进卷积神经网络5的第一实施例相同。

进一步地，所述检测子网络模块54包括：

特征图像上采样模块541，用于输入第三卷积层第三输出层conv3_3、第四卷积层第三输出层conv4_3、第五卷积层第三输出层conv5_3的特征图像，并对第四卷积层第三输出层conv4_3和第五卷积层第三输出层conv5_3的特征图像进行图像上采样处理，使第四卷积层第三输出层conv4_3和第五卷积层第三输出层conv5_3的特征图像的尺度和第三卷积层第三输出层conv3_3特征图像的尺度相同；

特征图像融合模块542，用于将第三卷积层第三输出层conv3_3的特征图像、上采样后的第四卷积层第三输出层conv4_3的特征图像以及上采样后的第五卷积层第三输出层conv5_3的特征图像进行图像融合处理，获得融合特征图像；

卷积处理模块543，用于对融合特征图像进行卷积处理，获取卷积后的融合特征图像；

感兴趣区域特征图像提取模块544，用于根据建议子网络53输出的建议窗口，从卷积后的融合特征图像中提取感兴趣区域的特征图像；

感兴趣区域的特征向量提取模块545，用于两层全连接层，从感兴趣区域的特征图像中提取感兴趣区域的特征向量；

分类回归模块546，用于根据感兴趣区域的特征向量，对建议窗口进行分类和回归，输出检测窗口的位置坐标和分类概率值。

进一步地，所述特征图像上采样模块541中图像上采样处理可以通过现有的图像上采样(upsampling)或图像插值(interpolating)算法实现。例如，“图像插值技术综述.符祥，郭宝龙.《计算机工程与设计》,2009,30(1):141-144”。

进一步地，所述特征图像融合模块542中图像融合处理可以通过现有的图像融合算法实现。例如，“图像融合.敬忠良.高等教育出版社,2007”。

进一步地，所述卷积处理模块543中卷积处理采用Faster-RCNN网络中的感兴趣区域池化层(RoI pooling)实现。Faster R-CNN网络可以参见国际文献“Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks.S Ren，K He，RGirshick，J Sun.《IEEE Transactions on Pattern Analysis&Machine Intelligence》,2016:1-1”。

进一步地，所述感兴趣区域的特征向量提取模块545中两层全连接层包括：第一层全连接层，采用ReLU作为激活函数，输出Th_Neur1个神经元；第二层全连接层，输出Th_Neur2个分类类别。

进一步地，Th_Neur1∈[160,10000]，Th_Neur2为TONum或者TONum+1， TONum表示标记图像采集模块1中已标记对象的数量。实施例，标记图像采集模块1中采集的已标记对象的数量为1000，Th_Neur2可选为1000或者1001，其中前1000类别为已标记的分类类别，第1001类别为其他类别。

进一步地，所述分类回归模块546通过VGG网络中的分类层和回归层实现。

所述对象检测模块4用于通过训练好的对象检测模型，融合待检测图像的多个尺度的分辨率特征图像，根据建议窗口提取感兴趣区域的特征图像，并提取感兴趣区域的特征向量，根据特征向量对建议窗口进行分类和回归，输出待检测图像中对象的位置坐标和分类概率值。

图4给出了按照本发明的基于改进卷积神经网络的对象检测方法的流程图。如图4所示，按照本发明的基于改进卷积神经网络的对象检测方法包括：

第一步骤S1，采集已标记对象的标记图像；

第二步骤S2，采用随机采样法，对改进卷积神经网络5进行初步训练，获取初步分类的正样本和负样本，以及对应的分类概率值，再根据分类概率值，选择一定比例的正样本和负样本，对改进卷积神经网络进行训练，获取训练好的对象检测模型；

第三步骤S3，输入待检测图像；以及

第四步骤S4，采用对象检测模型对待检测图像进行对象检测，输出检测结果。

进一步地，所述标记图像采集步骤1中已标记对象的标记图像为含有已标记对象的图像。

进一步地，所述已标记对象可以包括车辆、行人、自行车等对象，也可以包括车辆的标志、自行车的标志、人脸、车辆的款式等，可以根据需求设置。

进一步地，所述第二步骤2包括：

随机采样处理步骤21，分别将标记图像内的每个标记对象缩放到设定的尺度范围内，并根据该缩放比例对标定图像进行采样处理，以获取该标记对象的尺度图像；

样本获取步骤22，根据不同的尺度图像，对改进卷积神经网络5进行训练，获取一系列标记对象的正样本和负样本，以及对应窗口的分类概率值；

样本选取步骤23，将所有正样本和负样本对应窗口的分类概率值进行排序，选取分类概率值高的前Num₁个正样本和分类概率值高的前Num₂个负样本；

二次训练步骤24，将选取的Num₁个正样本和Num₂个负样本输入改进卷积神经网络中，以进行二次训练，获得图像识别模型。

所述随机采样处理步骤21中设定的尺度范围可以限定标记对象的宽度或者高度位于T₁和T₂之间。

进一步地，所述随机采样处理步骤21包括：计算标记对象的宽度W_TO，若 T₁≤W_TO*R_S≤T₂，R_S为缩放比例，获取标记对象的尺度图像，该尺度图像的宽度是标记图像宽度的该尺度图像的高度是标记图像高度的

所述T₁∈[15,25]，T₂∈[35,45]。优选地，T₁选为20，T₂选为40。

进一步地，所述正样本的数量Num₁和负样本的数量Num₂不小于5。实施例，所述样本选取步骤23中可以分类概率值高的前50个正样本和分类概率值高的前 50个负样本。

进一步地，所述改进卷积神经网络5包括：

图像输入模块51，用于输入图像；

进一步地，所述改进卷积神经网络5还包括：检测子网络模块54，用于融合多个尺度的分辨率特征图像，根据建议窗口提取感兴趣区域的特征图像，并提取感兴趣区域的特征向量，根据特征向量对建议窗口进行分类和回归，输出检测窗口的位置坐标和分类概率值。

进一步地，所述检测子网络模块54包括：

进一步地，所述第四步骤S4包括：通过训练好的对象检测模型，融合待检测图像的多个尺度的分辨率特征图像，根据建议窗口提取感兴趣区域的特征图像，并提取感兴趣区域的特征向量，根据特征向量对建议窗口进行分类和回归，输出待检测图像中对象的位置坐标和分类概率值。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，应当理解，本发明并不限于这里所描述的实现方案，这些实现方案描述的目的在于帮助本领域中的技术人员实践本发明。任何本领域中的技术人员很容易在不脱离本发明精神和范围的情况下进行进一步的改进和完善，因此本发明只受到本发明权利要求的内容和范围的限制，其意图涵盖所有包括在由所附权利要求所限定的本发明精神和范围内的备选方案和等同方案。

Claims

1.基于改进卷积神经网络的对象检测装置，其特征在于，该装置包括：

标记图像采集模块，用于采集已标记对象的标记图像；

待检测图像输入模块，用于输入待检测图像；以及

对象检测模块，用于采用对象检测模型对待检测图像进行对象检测，输出检测结果；

其中，所述改进卷积神经网络包括：

图像输入模块，用于输入图像；

建议子网络模块，用于对不同尺度的分辨率特征图像进行锚子网络处理和分析，获取图像内对象的建议窗口的位置坐标和分类概率值；

进一步地，所述建议子网络模块包括：

特征图像输入模块，用于输入第三卷积层第三输出层conv3_3、第四卷积层第三输出层conv4_3、第五卷积层第三输出层conv5_3、第六卷积层第二输出层conv6_2、第七卷积层第二输出层conv7_2、第八卷积层第二输出层conv8_2、第九卷积层第二输出层conv9_2、第十卷积层第二输出层conv10_2的特征图像；锚子网络处理模块，用于采用8个锚子网络对输入的8个特征图像分别进行处理，输出8个对应特征图像的锚窗口的先验位置坐标、分类概率值和修正位置坐标；锚子网络分析模块，用于根据锚窗口的先验位置坐标计算锚窗口的先验长度和先验宽度，根据锚窗口的修正位置坐标计算锚窗口的修正长度和修正宽度，按照修正公式对锚窗口进行修正，获取锚窗口的预测窗口，并对锚窗口的预测窗口做非极大值抑制，获取建议窗口的位置坐标和分类概率值并输出。

2.如权利要求1所述的装置，其特征在于，所述对象检测模型训练模块进一步包括：

3.如权利要求2所述的装置，其特征在于，所述随机采样处理模块进一步包括：用于计算标记对象的宽度W_TO，若T₁≤W_TO*R_S≤T₂，R_S为缩放比例，获取标记对象的尺度图像，该尺度图像的宽度是标记图像宽度的该尺度图像的高度是标记图像高度的

4.如权利要求3所述的装置，所述T₁的取值范围为15～25，T₂的取值范围为35～45。

5.如权利要求1所述的装置，其特征在于，所述特征子网络模块包括10个卷积层和9个池化层。

6.如权利要求5所述的装置，其特征在于，所述特征子网络模块进一步包括：输入层、第一卷积层第一输出层conv1_1、第一卷积层第二输出层conv1_2、第一池化层pool1、第二卷积层第一输出层conv2_1、第二卷积层第二输出层conv2_2、第二池化层pool2、第三卷积层第一输出层conv3_1、第三卷积层第二输出层conv3_2、第三卷积层第三输出层conv3_3、第三池化层pool3、第四卷积层第一输出层conv4_1、第四卷积层第二输出层conv4_2、第四卷积层第三输出层conv4_3、第四池化层pool4、第五卷积层第一输出层conv5_1、第五卷积层第二输出层conv5_2、第五卷积层第三输出层conv5_3、第五池化层pool5、第六卷积层第一输出层conv6_1、第六卷积层第二输出层conv6_2、第六池化层pool6、第七卷积层第一输出层conv7_1、第七卷积层第二输出层conv7_2、第七池化层pool7、第八卷积层第一输出层conv8_1、第八卷积层第二输出层conv8_2、第八池化层pool8、第九卷积层第一输出层conv9_1、第九卷积层第二输出层conv9_2、第九池化层pool1、第十卷积层第一输出层conv10_1、第十卷积层第二输出层conv10_2。

7.如权利要求1所述的装置，其特征在于，所述锚子网络分析模块中修正公式为：xp＝Wa*xc+xa、yp＝Ha*yc+ya、W_p＝exp(W_c)*W_a、H_p＝exp(H_c)*H_a；其中，(xa,ya)为锚窗口的先验位置坐标，W_a和H_a为锚窗口的先验长度和宽度，(xc,yc)为锚窗口的修正，W_c和H_c为锚窗口的修正长度和宽度，(xp,yp)为锚窗口的预测位置坐标，W_p和H_p为锚窗口的预测长度和预测宽度。

8.如权利要求1所述的装置，其特征在于，所述改进卷积神经网络进一步包括：检测子网络模块，用于融合多个尺度的分辨率特征图像，根据建议窗口提取感兴趣区域的特征图像，并提取感兴趣区域的特征向量，根据特征向量对建议窗口进行分类和回归，输出检测窗口的位置坐标和分类概率值。

9.如权利要求8所述的装置，其特征在于，所述检测子网络模块进一步包括：特征图像上采样模块，用于输入第三卷积层第三输出层conv3_3、第四卷积层第三输出层conv4_3、第五卷积层第三输出层conv5_3的特征图像，并对第四卷积层第三输出层conv4_3和第五卷积层第三输出层conv5_3的特征图像进行图像上采样处理，使第四卷积层第三输出层conv4_3和第五卷积层第三输出层conv5_3的特征图像的尺度和第三卷积层第三输出层conv3_3特征图像的尺度相同；

卷积处理模块，用于对融合特征图像进行卷积处理，获取卷积后的融合特征图像；感兴趣区域特征图像提取模块，用于根据建议子网络输出的建议窗口，从卷积后的融合特征图像中提取感兴趣区域的特征图像；

10.基于改进卷积神经网络的对象检测方法，其特征在于，该方法包括：

第一步骤，采集已标记对象的标记图像；

第三步骤，输入待检测图像；以及

第四步骤，采用对象检测模型对待检测图像进行对象检测，输出检测结果；

其中，所述改进卷积神经网络包括：

图像输入模块，用于输入图像；

进一步地，所述建议子网络模块包括：

11.如权利要求10所述的方法，其特征在于，所述第二步骤进一步包括：

随机采样处理步骤，分别将标记图像内的每个标记对象缩放到设定的尺度范围内，并根据该缩放比例对标定图像进行采样处理，以获取该标记对象的尺度图像；样本获取步骤，根据不同的尺度图像，对改进卷积神经网络进行训练，获取一系列标记对象的正样本和负样本，以及对应窗口的分类概率值；

12.如权利要求11所述的方法，其特征在于，所述随机采样处理步骤进一步包括：计算标记对象的宽度W_TO，若T₁≤W_TO*R_S≤T₂，R_S为缩放比例，获取标记对象的尺度图像，该尺度图像的宽度是标记图像宽度的该尺度图像的高度是标记图像高度的

13.如权利要求12所述的方法，所述T₁的取值范围为15～25，T₂的取值范围为35～45。

14.如权利要求10所述的方法，其特征在于，所述改进卷积神经网络进一步包括：检测子网络模块，用于融合多个尺度的分辨率特征图像，根据建议窗口提取感兴趣区域的特征图像，并提取感兴趣区域的特征向量，根据特征向量对建议窗口进行分类和回归，输出检测窗口的位置坐标和分类概率值。