CN109886286B

CN109886286B - 基于级联检测器的目标检测方法、目标检测模型及系统

Info

Publication number: CN109886286B
Application number: CN201910005486.0A
Authority: CN
Inventors: 张胜森; 林宏志; 郑增强; 白翔; 刘荣华; 沈亚非
Original assignee: Huazhong University of Science and Technology; Wuhan Jingce Electronic Group Co Ltd
Current assignee: Huazhong University of Science and Technology; Wuhan Jingce Electronic Group Co Ltd
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2021-07-23
Anticipated expiration: 2039-01-03
Also published as: CN109886286A

Abstract

本发明公开了一种基于级联检测器的目标检测方法、目标检测模型及系统，该检测方法包括以下步骤：S1：采用带有目标标注的训练数据集对目标检测模型进行训练；S2：将待测图片输入训练好的目标检测模型中，通过特征提取、上采样、特征融合后得到不同尺寸的特征图P₂、P₃、…、P_n；S3：根据特征图P_n预测得到目标位置B_n和类别C_n；根据目标位置Bi从对应的特征图P_i‑1中提取相应的特征进行目标预测，得到目标位置B_i‑1和类别C_i‑1，i＝3～n；S4：以目标位置B₂作为最终预测结果；本发明通过对目标候选框的多次迭代回归预测，得到预测更加准确的目标位置，提高了目标检测精度，检测准确度更高。

Description

基于级联检测器的目标检测方法、目标检测模型及系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于级联检测器的高精度目标检测模型、目标检测系统及方法。

背景技术

在计算机视觉领域中，目标检测是一个非常活跃的、具有挑战性的研究方向，与分类任务不同，目标检测除了需要识别目标的类别以外，还要定位目标的位置，从而实现定位和识别的任务，在很多现实生活中的应用都与它息息相关，例如交通安防领域的车牌的检测和识别、无人驾驶汽车交通信号灯以及交通信号标志的检测和识别、相机人脸定位的算法等等。目标检测通常分为两个步骤：第一步是定位目标区域，第二部是对目标区域内的内容进行识别，获取目标类别信息。其中第一部目标定位是非常重要的环节，因为目标定位的准确度直接影响第二步的目标识别的结果。

Region-CNN(简称RCNN)是第一个成功将深度学习应用到目标检测上的算法，RCNN遵循传统目标检测的思路，同样采用候选框，对每个候选框提取特征、图像分类、非极大值抑制四个步骤进行目标检测。只不过在提取特征这一步，将传统的特征(如SIFT、HOG特征等)换成了深度卷积网络提取的特征。对于一张图片，RCNN基于selective search方法大约生成2000个候选区域，然后每个候选区域被resize成固定大小，并送入一个CNN模型中，最后得到一个特征向量。然后这个特征向量被送入一个多类别SVM分类器中，预测出候选区域中所含物体的属于每个类的概率值。每个类别训练一个SVM分类器，从特征向量中推断其属于该类别的概率大小。为了提升定位准确性，RCNN最后又训练了一个边界框回归模型，通过边框回归模型对框的准确位置进行修正。

近年来RCNN目标检测技术对于一般正常物体的检测已经取得了巨大成功，通常一般的目标检测包含目标类别预测(即分类)和标注包围盒回归定位两个任务，这两个任务既有相似性又有区别性；RCNN已经能够很好的实现物体分类的任务，而现在RCNN目标检测网络存在的主要缺陷是包围盒定位的精度不高，这是因为目标定位受长宽比变化范围大、尺度变化范围大、背景复杂等因素的影响，所以高精度的目标检测仍然具有很大的挑战性。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于级联检测器的目标检测方法、目标检测模型及系统，预测时在不同尺度的特征图上进行目标包围盒的多次回归，以此得到定位更加准确的包围盒，其目的在于解决现有的目标检测方法存在的目标定位精度不高的问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于级联检测器的目标检测方法，包括以下步骤：

S1：将待测图片输入训练好的目标检测模型中，通过特征提取、上采样、特征融合后得到不同尺寸的特征图P₂、P₃、…、P_n，其中，n为大于2的自然数；

S2：根据特征图P_n预测得到目标位置B_n和类别C_n；根据目标位置B_i从特征图P_i-1中提取相应的特征进行目标预测，得到目标位置B_i-1和类别C_i-1，i＝3～n；

S3：以目标位置B₂作为位置预测结果。

优选的，上述目标检测方法，其步骤S2包括以下子步骤：

S21：根据特征图P_n预测得到目标候选框，以及所述目标候选框的分类得分和位置偏移量Y_n，根据所述位置偏移量Y_n对目标候选框的位置进行调整，得到目标位置B_n和类别C_n；

S22：根据目标的位置B_i从对应的特征图P_i-1中取出位置B_i对应的区域特征并预测分类得分和位置偏移量Y_i-1，根据所述位置偏移量Y_i-1对位置B_i进行调整，得到目标位置B_i-1和类别C_i-1。

优选的，上述目标检测方法，其步骤S3中还包括：以类别C_n或类别C_n、C_n-1、…、C₂的平均值作为类别预测结果。

优选的，上述目标检测方法，其步骤S21中还包括：对目标位置B_n进行非最大值抑制，删除所述分类得分小于预设的得分阈值的目标位置B_n；按照分类得分从大到小的顺序对属于同一目标类别C_n的目标位置B_n进行排序，依次计算排序后相邻两个位置Bn的IoU，若IoU小于预设的IoU阈值，则保留两个目标框，否则去掉分类得分较小的目标框。

优选的，上述目标检测方法，其步骤S1中包括以下子步骤：

S21：从待测图片中提取出不同尺度的特征图A₂、A₃、…、A_n，对第n个特征图A_n进行通道数调整，得到特征图P_n；

S22：通过上采样调整特征图P_i的空间尺寸以使其与特征图A_i-1的尺寸相匹配，并通过一个3x3的卷积消除上采样的混叠效应；通过BN层对特征图P_i进行批规范化处理，调整均值和方差，得到P_i’；

S23：通过3x3的卷积调整特征图A_i-1的通道数并提取高级特征，通过BN层进行批规范化处理，调整均值和方差；通过Relu层进行非线性激活，得到A_i-1’；

S24：通过像素相加对A_i-1’与P_i’进行融合，再通过一个3x3的卷积提取融合后的敏感特征，得到融合后的特征图P_i-1。

优选的，上述目标检测方法，其步骤S1之前还包括对目标检测模型进行训练的步骤：

S0：对样本图片进行目标标注，标签为标注包围盒G_d的左上角顶点的坐标(x，y)、包围盒的宽度w、高度h，以及目标的类别c，得到训练数据集；通过所述训练数据集对基于级联检测器的目标检测模型进行训练，计算训练标签和损失函数，利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化。

优选的，上述目标检测方法，其步骤S0中包括以下子步骤：

S01：将训练数据集中的样本图片输入目标检测模型中，通过特征提取、上采样、特征融合后得到不同尺寸的特征图；

S02：以每张特征图上的每个像素按照不同大小及长宽比对应到样本图片，产生多尺度的初始包围盒Q₀；

S03：计算初始包围盒Q₀相对于样本图片上的标注包围盒G_d的位置偏移量和类别，生成区域建议网络的训练标签gt_rpn＝(Δx_rpn，Δy_rpn，Δh_rpn，Δw_rpn，C_rpn)；其中，Δx_rpn，Δy_rpn，Δh_rpn，Δw_rpn分别为初始包围盒Q₀的左上角顶点相对于标注包围盒G_d的左上角顶点的横、纵坐标、高度、宽度的位置偏移量，C_rpn是类别标签；

S04：预测所述初始包围盒Q₀的前景概率P_rpn和位置回归偏移量Y_rpn，根据所述位置回归偏移量Y_rpn调整初始包围盒Q₀的位置；根据初始包围盒Q₀生成候选目标区域R_rcnn，计算候选目标区域R_rcnn相对于样本图片上的标注包围盒G_d的位置偏移量和类别，生成分类回归分支网络的训练标签gt_rcnn＝(Δx_rcnn，Δy_rcnn，Δh_rcnn，Δw_rcnn，C_rcnn)；其中，Δx_rcnn，Δy_rcnn，Δh_rcnn，Δw_rcnn分别为初始包围盒Q₀的左上角顶点相对于标注包围盒G_d的左上角顶点的横、纵坐标、高度、宽度的位置偏移量，C_rcnn是类别标签；

S05：通过分类和回归分支网络预测所述候选目标区域R_rcnn的分类得分P_rcnn和预测回归偏移量Y_rcnn，得到预测标签

S06：以训练标签gt为目标检测模型的期望输出，以预测标签

为目标检测模型的预测输出，计算期望输出和预测输出之间的目标损失函数；

S07：利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化，得到最优的目标检测模型。

优选的，上述目标检测方法，其步骤S03中还包括：

计算初始包围盒Q₀相对于标注包围盒G_d的IoU，当所有的标注包围盒G_d与初始包围盒Q₀的IoU均小于设定的IoU阈值时，该初始包围盒Q₀的类别标签C_rpn为0；否则，该初始包围盒Q₀的类别标签C_rpn为1；并以IoU最大的标注包围盒G_d计算初始包围盒Q₀的位置偏移量。

优选的，上述目标检测方法，其步骤S04中还包括：

计算候选目标区域R_rcnn相对于标注包围盒G_d的IoU，当所有的标注包围盒G_d与候选目标区域R_rcnn的IoU均小于设定的IoU阈值时，该候选目标区域R_rcnn的类别标签C_rcnn为0；否则，该候选目标区域R_rcnn的类别为最大IoU所对应的标注包围盒G_d的类别，并以该标注包围盒G_d计算候选目标区域R_rcnn的位置偏移量。

优选的，上述目标检测方法，其步骤S05中，所述目标损失函数的表达式如下：

L(P_rpn，Y_rpn，P_rcnn，Y_rcnn)＝L_rpn(P_rpn，Y_rpn)+α₁L_rcnn(P_rcnn，Y_rcnn)

其中，L_rpn(P_rpn，Y_rpn)为区域建议网络的损失函数，L_rcnn(P_rcnn，Y_rcnn)为分类回归分支网络的损失函数，α₁为损失函数L_rcnn的权重系数。

按照本发明的另一个方面，还提供了一种基于级联检测器的目标检测模型，包括特征提取单元、结果输出单元和多个级联连接的检测单元D₂、D₃、…、D_n；

所述特征提取单元用于对输入的待测图片进行特征提取、上采样、特征融合，得到不同尺寸的特征图P₂、P₃、…、P_n；

第n级检测单元D_n用于根据特征图P_n预测得到目标位置B_n和类别C_n；

第i-1级检测单元D_(i-1)用于根据目标位置B_i从对应的特征图P_i-1中提取相应的特征进行目标预测，得到目标位置B_i-1和类别C_i-1，其中，i＝3～n，n为大于2的自然数；

所述结果输出单元用于将目标位置B₂作为位置预测结果输出。

优选的，上述目标检测模型，每一级检测单元包括预测模块和调整模块；

第n级预测模块用于根据特征图P_n预测得到目标候选框，以及所述目标候选框的分类得分和位置偏移量Y_n；第n级调整模块用于根据所述位置偏移量Y_n对目标候选框进行调整，得到目标位置B_n和类别C_n；

第i-1级预测模块用于根据目标位置B_i从对应的特征图P_i-1中取出位置B_i对应的区域特征并预测分类得分和位置偏移量Y_i-1；第i-1级调整模块用于根据所述位置偏移量Y_i-1对位置B_i进行调整，得到目标位置B_i-1和类别C_i-1。

优选的，上述目标检测模型，其结果输出单元还用于将目标类别C_n或目标类别C_n、C_n-1、…、C₂的平均值作为类别预测结果输出。

优选的，上述目标检测模型，还包括抑制单元；

所述抑制单元用于对第n级检测单元输出的目标位置B_n进行非最大值抑制，删除分类得分小于预设的得分阈值的目标位置Bn；并按照分类得分从大到小的顺序对属于同一目标类别C_n的目标位置B_n进行排序，依次计算排序后相邻两个位置Bn的IoU，若IoU小于预设的IoU阈值，则保留两个目标框，否则去掉分类得分较小的目标框。

优选的，上述目标检测模型，其特特征提取单元包括特征提取模块和特征融合模块；

所述特征提取模块用于从待测图片中提取出不同尺度的特征图A₂、A₃、…、A_n，对第n个特征图A_n进行通道数调整，得到特征图P_n；

所述特征融合模块用于通过上采样调整特征图P_i的空间尺寸以使其与特征图A_i-1的尺寸相匹配，并通过一个3x3的卷积消除上采样的混叠效应；通过BN层对特征图P_i进行批规范化处理，调整均值和方差，得到P_i’；

并通过3x3的卷积调整特征图A_i-1的通道数并提取高级特征，通过BN层进行批规范化处理，调整均值和方差；通过Relu层进行非线性激活，得到A_i-1’；

并通过像素相加对A_i-1’与P_i’进行融合，再通过一个3x3的卷积提取融合后的敏感特征，得到融合后的特征图P_i-1。

优选的，上述目标检测模型，在训练阶段，所述特征提取单元用于对输入的带目标标注的样本图片进行特征提取、上采样、特征融合，得到不同尺寸的特征图；所述样本图片的标签为标注包围盒G_d的左上角顶点的坐标(x，y)、包围盒的长度w、宽度h，以及目标的类别c；

所述预测模块用于以每张特征图上的每个像素对应到样本图片中按照不同大小及长宽比产生多尺度的初始包围盒Q₀，预测所述初始包围盒Q₀的前景概率P_rpn、位置回归偏移量Y_rpn；并用于根据所述初始包围盒Q₀生成候选目标区域R_rcnn，预测所述候选目标区域R_rcnn的分类得分P_rcnn和预测回归偏移量Y_rcnn。

按照本发明的另一个方面，还提供了一种基于上述目标检测模型的目标检测系统，还包括标签生成单元、计算单元和训练单元；

所述标签生成单元用于获取检测单元生成的初始包围盒Q₀，计算初始包围盒Q₀相对于样本图片上的标注包围盒G_d的位置偏移量和类别，生成区域建议网络的训练标签gt_rpn＝(Δx_rpn，Δy_rpn，Δh_rpn，Δw_rpn，C_rpn)；其中，Δx_rpn，Δy_rpn，Δh_rpn，Δw_rpn分别为初始包围盒Q₀的左上角顶点相对于标注包围盒G_d的左上角顶点的横、纵坐标、宽度、高度的位置偏移量，C_rpn是类别标签；并用于计算候选目标区域R_rcnn相对于样本图片上的标注包围盒G_d的位置偏移量和类别，生成分类回归分支网络的训练标签gt_rcnn＝(Δx_rcnn，Δy_rcnn，Δh_rcnn，Δw_rcnn，C_rcnn)；其中，Δx_rcnn，Δy_rcnn，Δh_rcnn，Δw_rcnn分别为初始包围盒Q₀的左上角顶点相对于标注包围盒G_d的左上角顶点的横、纵坐标、宽度、高度的位置偏移量，C_rcnn是类别标签；

所述标签生成单元还用于根据前景概率P_rpn、偏移量Y_rpn、分类得分P_rcnn和回归偏移量Y_rcnn生成预测标签

所述计算单元用于以训练标签gt为目标检测模型的期望输出，以预测标签

所述训练单元用于利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化，得到最优的目标检测模型。

优选的，上述目标检测系统，其标签生成单元还用于计算初始包围盒Q₀相对于标注包围盒G_d的IoU，当所有的标注包围盒G_d与初始包围盒Q₀的IoU均小于设定的IoU阈值时，将初始包围盒Q₀的类别标签C_rpn置为0；否则，将该初始包围盒Q₀的类别标签C_rpn置为1；并以IoU最大的标注包围盒G_d计算初始包围盒Q₀的位置偏移量；

并用于计算候选目标区域R_rcnn相对于标注包围盒G_d的IoU，当所有的标注包围盒G_d与候选目标区域R_rcnn的IoU均小于设定的IoU阈值时，该候选目标区域R_rcnn的类别标签C_rcnn为0；否则，该候选目标区域R_rcnn的类别为最大IoU所对应的标注包围盒G_d的类别，并以该标注包围盒G_d计算候选目标区域R_rcnn的位置偏移量。

优选的，上述目标检测系统，其目标损失函数的表达式如下：

优选的，上述目标检测系统，其训练标签gt包括区域建议网络的训练标签gt_rpn和分类回归分支网络的训练标签gt_rcnn；

其中，gt_rpn＝(Δx_rpn，Δy_rpn，Δh_rpn，Δw_rpn，P_rpn)；

gt_rcnn＝(Δx_rcnn，Δy_rcnn，Δh_rcnn，Δw_rcnn，P_rcnn)。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)准确度高：本发明针对目标检测问题，创新性地利用了级联回归的预测方式来回归目标包围盒，更为精细地检测目标的位置和类别；每一级检测单元均根据上一级检测单元输出的目标候选框而非各自的区域建议网络预测的目标候选框作为分类和分支模块的预测对象，通过多个级联的检测单元对目标候选框的多次迭代回归预测，以此得到预测更加准确的目标候选框位置，提高了目标检测精度，检测准确度高；

(2)速度较快：本发明对最高一级检测单元预测的目标位置进行非极大值抑制操作，从最高一级检测单元开始就过滤了很多重复、冗余的边框，减少后面各级检测单元的计算量，在往下级联回归的过程中不会消耗太多时间，在保证检测和识别精度的同时，预测速度比较快，提高检测速度；

(3)通用性强：本发明提供的是一个端到端可训练的目标检测模型，模型中的级联检测单元可以方便的移植到其他具有多尺度特征图的目标检测网络；

(4)鲁棒性强：本发明可以克服目标尺度的变化，对大尺寸的目标和小尺寸的目标都有很高的检测精度。

附图说明

图1是本实施例提供的基于级联检测器的目标检测系统的逻辑框图，其中，检测单元D5、D4、D3、D2之间的虚线箭头代表测试时才会连接，训练时并不会连接；

图2是本发明实施例提供的基于级联检测器的目标检测模型的网络结构示意图；

图3是本实施例提供的目标检测模型在检测过程中的逻辑框图；

图4是本实施例提供的预测模块的结构示意图；

图5是本发明实施例提供的基于级联检测器的目标检测方法的流程图，其中，实线箭头表示训练，虚线箭头表示测试。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

卷积神经网络(Convolutional Neural Network，简称CNN)是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理。卷积神经网络包括卷积层和池化层。RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑，借助CNN良好的特征提取和分类性能，通过RegionProposal方法实现目标检测问题的转化。

VGG16：2014年ILSVRC的亚军是VGGNet，包含16个CONV/FC层，具有非常均匀的架构，从开始到结束只执行3x3卷积和2x2池化层，成为经典的卷积神经网络模型。他们的预训练模型可用于Caffe开发框架下的即插即用，通常被现有的多数计算机视觉任务采用为网络模型的基本结构。

区域提取网络(Region Proposal Network，RPN)：一种用于生成候选目标区域的网络，通过使用一个滑动窗口在提取特征图上生成高度为特定维度的全连接特征，并据此生成两个全连接分支分类和回归候选目标区域，最终根据不同的锚点和比例为后续网络生成不同尺度比例的候选目标区域。

非最大值抑制(Non-Maximum Suppression，NMS)：非最大值抑制是一种在计算机视觉检测领域中被广泛应用的后处理算法，它按照设定的阈值，通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤，去掉冗余的检测框，得到最终的检测结果。

图1是本实施例提供的基于级联检测器的目标检测系统的逻辑框图，如图1所示，该目标检测系统包括基于级联检测器的目标检测模型、标签生成单元、计算单元和训练单元；

图2是本发明实施例提供的基于级联检测器的目标检测模型的网络结构示意图；该目标检测模型包括特征提取单元、四个级联连接的检测单元D2～D5、结果输出单元；检测单元的级数与特征提取单元提取出来的特征图的层数相对应，每一级检测单元对应处理一层特征图；

特征提取单元包括特征提取模块和特征融合模块；本实施例中，特征提取单元以VGG16为基本网络，主要由两个子分支(路径)组成，分别为自下而上(特征提取模块)和自上而下(特征融合模块)的路径，其中自下而上的路径就是VGG16的前向过程，在前向过程中，经过四个卷积层(Layer)和池化层(pooling)得到一系列特征图构成四层特征金字塔，越高层的特征图具有越高级的语义特征，但是分辨率会逐层降低，在VGG16的网络结构中，以网络中不改变特征图大小的卷积层单元定义为一个层级，本实施例中使用第2、3、4、5层级各自最后的特征图进行后续的特征融合；自上而下的路径是采用横向连接的结构将高层的特征图与低层特征图通过特征融合模块进行特征融合，以此得到具有高分辨率以及高层语义特征的特征图；

特征提取单元中还嵌入了attention机制，待提取特征层之后通过注意力机制来对特征图进行优化，主要是加强对缺陷部分的注意力程度；其主要包含两条支路，一条支路用来传输特征图，另一条支路通过全局池化层、1×1卷积层、BN、sigmoid之后，得到特征信息的权重向量，最后再将两条支路的输出结果相乘，这里的注意力机制体现在权重向量会将原先缺陷部位的特征变得更加明显。

图3是本实施例提供的目标检测模型在检测过程中的逻辑框图；图4是本实施例提供的预测模块的结构示意图；如图3、4所示，检测单元包括预测模块和调整模块，其中，预测模块包括区域建议网络(RPN网络和RoI Pooling)、分类分支和回归分支。

基于级联检测器的目标检测模型搭建完成后，首先通过标准训练数据集对该目标检测模型进行训练，对标准训练数据集Itr中的样本图片进行目标级别的标注，标注的标签为标注包围盒的位置和目标的类别c，包围盒为水平的矩形框，其位置通过左上角顶点的坐标(x，y)、包围盒的宽度w和高度h表示，一个标注包围盒可以由(x，y，h，w)唯一的确定。

对模型初始化网络的权重和偏置，将带有目标标注的标准训练数据集Itr输入目标检测模型；在训练过程中，特征提取单元对标准训练数据集Itr中的样本图片进行特征提取、上采样、特征融合，得到不同尺寸的特征图；特征提取模块通过四个卷积层单元Conv 2～Conv 5对样本图片进行特征提取，得到不同尺寸的特征图T2～T5，先通过1x1的卷积将特征图T5的通道数调整为256，得到特征图F5；然后将F5与T4输入特征融合模块进行特征融合，得到融合后的特征图F4；特征融合模块的工作原理如下：

如图2所示，首先对特征图F5进行上采样(反卷积Deconv2×2)以将F5的空间尺寸扩大一倍，使特征图F5的尺寸与特征图T4相匹配；然后通过一个3×3的卷积Conv3×3对上采样后的特征图F5进行调整，消除上采样后产生的混叠效应；最后通过BN层对特征图F5进行批规范化操作，调整均值和方差，以防止梯度爆炸并加快网络收敛，得到特征图F5’；通过一个卷积块(包含3x3卷积和BN层以及Relu层)对特征图T4进行处理，具体为：首先通过一个3×3的卷积Conv3×3调整特征图T4的通道数为256(若其通道数本身即为256，则无需调整)，并卷积提取高级特征；通过BN层对提取得到的高级特征进行批规范化操作，调整均值和方差；然后通过一个非线性函数Relu作非线性激活，得到特征图T4’；将特征图T4’与F5’进行像素相加，再通过一个3x3的卷积Conv3×3提取相加之后的特征图中的敏感特征，得到最终的融合了F5和T4的特征图F4。

同理，将F4与T3输入特征融合模块进行特征融合得到F3，将F3与T2输入特征融合模块进行特征融合得到F2，特征融合后得到的特征图F5、F4、F3、F2为四个待提取特征层，用于提取特征进行检测。

每一层级的检测单元的对应处理同一层级的特征图，以检测单元D5为例进行说明：检测单元D5用于对特征图F5进行目标预测，其预测模块中的区域建议网络以特征图F5上的每个像素对应到样本图片中按照不同大小及长宽比产生多尺度的初始包围盒Q₀；定义初始包围盒Q₀在特征图F2、F3、F4、F5上的尺度分别为{16²，32²，64²}、{32²，64²，128²}、{64²，128²，256²}、{128²，256²，512²}，而每个尺度层都有长宽比{1:2，1:1，2:1}；因此每个特征图上的每个像素点在原图上对应9中不同尺寸的初始包围盒Q₀；

区域建议网络中的RPN分支用于预测初始包围盒Q₀的前景概率P_rpn和位置回归偏移量Y_rpn，Y_rpn＝(Δx_rpn，Δy_rpn，Δh_rpn，Δw_rpn)，根据位置回归偏移量Yrpn对属于前景的初始包围盒Q₀进行位置调整，并筛选出一定数量的属于前景的初始包围盒Q₀作为目标候选框proposal，区域建议网络中的ROI Pooling通过池化操作根据目标候选框proposal从特征图上提取出固定分辨率为7x7的候选区域特征，得到候选目标区域R_rcnn并将其送入分类分支和回归分支，进一步预测更为具体的目标类别和更为精细的目标回归系数；

将大小为7x7的候选目标区域R_rcnn输入预测模块中的分类分支中，分类分支通过卷积操作输出预测目标包围盒的分类得分P_rcnn，即预测包围盒为某个类别的概率，取值是一个1xC_k的向量，向量中第i个元素取值为[0，1]之间的小数，代表该包围盒为类别i的概率；

将大小为7x7的候选目标区域R_rcnn输入预测模块中的回归分支中，回归分支输出4个[0，1]之间的小数组成的预测回归偏移量Y_rcnn＝(Δx_rcnn，Δy_rcnn，Δh_rcnn，Δw_rcnn)，作为初始包围盒Q₀被预测为正类文本框时中心点的横坐标、纵坐标、文本框的高度和宽度相对于标注包围盒G_d中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。

标签生成单元根据预测模块预测得到的初始包围盒Q₀的前景概率P_rpn、位置回归偏移量Y_rpn、分类得分P_rcnn和预测回归偏移量Y_rcnn生成预测标签

并用于获取预测模块生成的初始包围盒Q₀，计算初始包围盒Q₀相对于样本图片上的标注包围盒G_d的IoU、位置偏移量和类别，当所有的标注包围盒G_d与初始包围盒Q₀的IoU均小于0.5，那么，初始包围盒Q₀被标记为负样本(背景)，类别标签C_rpn取值为0；否则，即至少存在一个标注包围盒G_d与Q₀的IoU不小于0.5，Q₀被标注为正样本(前景)，类别标签C_rpn取值为1，并以IoU最大的标注包围盒G_d来计算初始包围盒Q₀位置偏移量，公式如下：

x＝x₀+w₀Δx

y＝y₀+h₀Δy

w＝w₀exp(Δw)

h＝h₀exp(Δh)

其中，Δx、Δy、Δw、Δh分别为初始包围盒Q₀的左上角顶点相对于标注包围盒G_d的左上角顶点的横、纵坐标、宽度、高度的位置偏移量，C_rpn是类别标签，exp为指数运算；即可得到区域建议网络的训练标签为：

gt_rpn＝(Δx_rpn，Δy_rpn，Δh_rpn，Δw_rpn，C_rpn)

对于分类和回归分支网络，同理，计算候选目标区域R_rcnn相对于样本图片上的标注包围盒G_d的IoU、位置偏移量和类别，当所有的标注包围盒G_d与候选目标区域R_rcnn的IoU均小于0.5，那么，候选目标区域R_rcnn被标记为负样本，类别标签C_rcnn取值为0，代表背景类，无位置偏移量；否则，即至少存在一个标注包围盒G_d与Q₀的IoU不小于0.5，候选目标区域R_rcnn被标注为正样本，并以IoU最大的标注包围盒G_d来计算候选目标区域R_rcnn位置偏移量，以IoU最大的标注包围盒G_d的类别作为候选目标区域R_rcnn的类别标签C_rcnn，得到分类和回归分支网络的训练标签为：gt_rcnn＝(Δx_rcnn，Δy_rcnn，Δh_rcnn，Δw_rcnn，C_rcnn)。

根据以上步骤，可以分别得到检测单元D5、D4、D3、D2各自的区域建议网络的训练标签gt_rpn和分类回归分支网络的训练标签gt_rcnn。

计算单元以训练标签gt为目标检测模型的期望输出，以预测标签

为目标检测模型的预测输出，计算期望输出和预测输出之间的目标损失函数；整体目标损失函数由区域建议模块、分类和回归分支模块损失函数共同组成，整体目标损失函数表达式如下：

其中，L_rpn(P_rpn，Y_rpn)为区域建议网络的损失函数，L_rcnn(P_rcnn，Y_rcnn)为分类回归分支网络的损失函数，α₁为损失函数L_rcnn的权重系数；α₁值一般取1。在区域建议网络的损失函数中，对于背景类的初始包围盒Q₀仅计算其分类损失，不计算位置回归损失；对于前景类的初始包围盒Q₀计算分类损失和位置回归损失；在分类回归分支网络的损失函数中，对于背景类的候选目标区域R_rcnn只计算分类损失，无位置回归损失，对于前景类的候选目标区域R_rcnn计算分类损失和位置回归损失。

得到目标损失函数后，训练单元利用反向传播算法对目标检测模型进行迭代训练以使目标损失函数最小化，得到最优的目标检测模型。

将待测图片输入训练好的目标检测模型中，特征提取模块对输入的待测图片进行特征提取，得到不同尺寸的特征图A2、A3、A4、A5；特征融合模块通过上采样迭代地将每个层级的特征与上一级已经融合的特征再次进行融合，得到不同尺寸的特征图P2、P3、P4、P5；特征融合的过程同训练过程，此处不再赘述。

检测单元D5根据特征图P5预测得到目标位置B5和类别C5，具体的：将特征图P5输入检测单元D5中，检测单元D5中的区域建议网络从特征图P5中产生初始包围盒Q₀，预测初始包围盒Q₀的前景概率P_rpn和位置回归偏移量Y_rpn，并根据预测出的位置回归偏移量Y_rpn对初始包围盒Q₀进行位置调整，筛选初始包围盒Q₀得到目标候选框porposal，通过RoIPooling从特征图P5上取出目标候选框proposal对应的候选目标区域R_rcnn并输入到分类和回归分支，分类分支输出预测的分类得分P_rcnn，作为目标候选框porposal被预测为某个类别的概率；回归分支输出由4个小数组成的预测回归偏移量Y_rcnn(Δx_rcnn，Δy_rcnn，Δh_rcnn，Δw_rcnn)，作为目标候选框porposal被预测为前景某个类别目标的左上角顶点坐标和高度宽度相对于标注包围盒G_d的左上角顶点坐标、高度和宽度的位置偏移量；

调整模块根据预测得到的位置偏移量调整目标候选框proposal的位置，得到检测单元D5预测的目标候选框porposal的位置B5和类别C5；

将目标候选框porposal的位置B5输入到检测单元D4中，检测单元D4根据目标位置B5从对应的特征图P4中提取相应的特征进行目标预测，得到分类得分P_rcnn和位置偏移量Y_rcnn；检测单元D4中的调整模块根据预测的位置偏移量Y_rcnn对目标候选框porposal的位置B5进行调整，得到检测单元D4预测的目标候选框porposal的位置B4和类别C5；

同理，检测单元D3根据检测单元D4输出的目标候选框porposal的位置B4进行目标预测，根据预测得到的位置偏移量对位置B4进行调整，输出预测的位置B3和类别C4；检测单元D2根据检测单元D3输出的目标候选框porposal的位置B3进行目标预测，根据预测得到的位置偏移量对位置B3进行调整，输出预测的位置B2和类别C2；

结果输出单元以检测单元D2预测的目标位置B2作为最终的位置预测结果，以检测单元D5预测的类别C5或者类别C2～C5的平均值作为最终的类别预测结果。由于检测单元D5预测的类别C5相比检测单元D2预测的类别C2的准确性更高，因此本实施例优选以类别C5作为最终的类别预测结果，此时检测单元D4～D2中的分类分支无需再进行目标类别的预测。

除了检测单元D5，其他每一级检测单元均根据上一级检测单元输出的目标候选框porposal而非各自的区域建议网络预测的目标候选框porposal作为分类和分支模块的预测对象，即每一级的检测单元的目标候选框proposal均来自上一级检测单元的预测输出，而不是使用自身区域建议网络预测得到的目标候选框proposal，最后一级检测单元D2能够得到更准确的目标包围盒的位置；本实施例通过4个级联的检测单元对目标候选框porposal的多次迭代回归预测，以此得到预测更加准确的目标候选框位置，提高了目标检测精度，并且能够适应多尺度的目标。

为了减少检测过程中目标检测模型的计算量，对检测单元D5预测的目标候选框porposal的位置B5进行非极大值抑制操作进行过滤：目标检测模型对特征图上每个预测为正类的目标候选框porposal都会回归出水平矩形框位置，同一张检测图片的每个特征图上回归出的正类目标候选框porposal通常会出现彼此重叠的情况，因此要对所有正类目标候选框porposal位置做非极大值抑制操作，具体步骤是：1)对预测得到的目标候选框porposal，当且仅当类别分类得分P_rcnn≥0.5时，该目标候选框porposal才被保留；2)对上一步保留的目标候选框porposal，按照IoU0.5进行非最大值抑制操作，得到最后保留的分类得分P_rcnn较高的正类目标候选框porposal。通过非极大值抑制去除冗余的目标检测框，提升检测精度，并可减少检测单元D4～D2的计算量。

图5是本实施例提供的基于级联检测器的目标检测方法的流程图；如图5所示，该目标检测方法包括以下步骤：

S1：采用带有目标标注的训练数据集对基于级联检测器的目标检测模型进行训练，目标标注包括目标的位置和类别；具体包括以下子步骤：

S11：对样本图片进行目标标注，标签为标注包围盒G_d的左上角顶点的坐标(x，y)、包围盒的长度w、宽度h，以及目标的类别c，得到训练数据集；

S12：将训练数据集中的样本图片输入目标检测模型中，通过特征提取、上采样、特征融合后得到不同尺寸的特征图；

S13：以每张特征图上的每个像素按照不同大小及长宽比对应到样本图片，产生多尺度的初始包围盒Q₀；

S14：计算初始包围盒Q₀相对于样本图片上的标注包围盒G_d的IoU、位置偏移量和类别，当所有的标注包围盒G_d与初始包围盒Q₀的IoU均小于0.5，那么，初始包围盒Q₀被标记为负样本，类别标签C_rpn取值为0；否则，即至少存在一个标注包围盒G_d与Q₀的IoU不小于0.5，初始包围盒Q₀被标注为正样本，类别标签C_rpn取值为1，并以IoU最大的标注包围盒G_d来计算初始包围盒Q₀位置偏移量，生成区域建议网络的训练标签gt_rpn；其中，Δx、Δy、Δw、Δh分别为初始包围盒Q₀的左上角顶点相对于标注包围盒G_d的左上角顶点的横、纵坐标、宽度、高度的位置偏移量，C_rpn是类别标签，分为前景类别和背景类别；

S15：预测初始包围盒Q₀的前景概率P_rpn和位置回归偏移量Y_rpn，并根据位置回归偏移量Y_rpn调整初始包围盒Q₀的位置，根据前景概率P_rpn取出前景目标框，通过ROI Pooling由前景目标框在特征图上取出候选目标区域R_rcnn，计算候选目标区域R_rcnn与标注包围盒G_d的IoU确定候选目标区域R_rcnn的标签，得到分类和回归分支网络的训练标签gt_rcnn；

目标检测模型的训练标签gt包括区域建议网络的训练标签gt_rpn和分类回归分支网络的训练标签gt_rcnn。

S16：通过分类和回归分支网络预测所述候选目标区域R_rcnn的分类得分P_rcnn和预测回归偏移量Y_rcnn，得到目标检测网络的预测标签

S17：以训练标签gt为目标检测模型的期望输出，以预测标签

该目标损失函数的表达式如下：

其中，L_rpn(P_rpn，Y_rpn)为区域建议网络的损失函数，L_rcnn(P_rcnn，Y_rcnn)为分类回归分支网络的损失函数，α₁为损失函数L_rcnn的权重系数。在区域建议网络的损失函数中，对于背景类的初始包围盒Q0仅计算其分类损失，不计算位置回归损失；对于前景类的初始包围盒Q₀计算分类损失和位置回归损失；在分类回归分支网络的损失函数中，对于背景类的候选目标区域R_rcnn只计算分类损失，无位置回归损失，对于前景类的候选目标区域R_rcnn计算分类损失和位置回归损失。

S18：利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化，得到最优的目标检测模型。

S2：将待测图片输入训练好的目标检测模型中，通过特征提取得到不同尺寸的特征图conv5、conv4、conv3、conv2，将特征conv2、conv3、conv4、conv5输入到自上而下网络中通过上采样提取融合的特征，得到不同尺寸的特征图P2、P3、P4、P5；

首先对特征图conv5进行卷积，调整通道数得到特征图P5；将特征图conv4与特征图P5进行特征融合得到特征图P4，将特征图conv3与特征图P4进行特征融合得到特征图P3；将特征图conv2与特征图P3进行特征融合得到特征图P2。

S3：检测单元D5中的区域建议网络根据特征图P5预测得到目标候选框porposal，从特征图P5上取出目标候选框proposal对应的候选目标区域R_rcnn，分类分支输出预测的分类得分P_rcnn，作为目标候选框porposal被预测为某个类别的概率；回归分支输出预测回归偏移量Y_rcnn，作为目标候选框porposal被预测为前景某个类别目标的左上角顶点坐标和高度宽度相对于标注包围盒G_d的左上角顶点坐标、高度和宽度的位置偏移量；根据预测得到的位置偏移量调整目标候选框proposal的位置，得到检测单元D5预测的目标候选框porposal的位置B5和类别C5；

对目标候选框porposal的位置B5进行非最大值抑制，首先删除分类得分P_rcnn＜0.5的目标位置B5；计算保留的目标位置B5中相邻的两个位置之间的IoU，按照IoU0.5进行非最大值抑制操作(NMS)，当两个位置B5之间的IoU小于等于0.5时，两个位置B5均保留；当两个位置B5之间的IoU大于0.5时，删除分类得分P_rcnn较小的位置B5，得到最后保留的正类包围盒。

其他每一级检测单元D4～D2均根据上一级检测单元输出的目标候选框porposal预测目标的位置和类别；通过目标位置的多次迭代回归预测得到更加准确的目标位置；

S4：以最后一级检测单元D2得到的目标位置B2作为最终的位置预测结果输出，以检测单元D5预测得到的类别C5或者各级检测单元预测得到的类别C2～类别C5的平均值作为最终的类别预测结果输出。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于级联检测器的目标检测方法，其特征在于，包括以下步骤：

S2：根据特征图P_n预测得到目标位置B_n和类别C_n；根据目标位置B_i从特征图P_i-1中提取所述目标位置B_i对应的区域特征并预测分类得分和位置偏移量Y_i-1，根据所述位置偏移量Y_i-1对目标位置B_i进行调整，得到目标位置B_i-1和类别C_i-1，i＝3～n；

S3：以目标位置B₂作为位置预测结果。

2.如权利要求1所述的目标检测方法，其特征在于，所述根据特征图P_n预测得到目标位置B_n和类别C_n包括：

根据特征图P_n预测得到目标候选框，以及所述目标候选框的分类得分和位置偏移量Y_n，根据所述位置偏移量Y_n对目标候选框的位置进行调整，得到目标位置B_n和类别C_n。

3.如权利要求1或2所述的目标检测方法，其特征在于，步骤S3中还包括：以类别C_n或类别C_n、C_n-1、…、C₂的平均值作为类别预测结果。

4.如权利要求2所述的目标检测方法，其特征在于，还包括：对目标位置B_n进行非最大值抑制，删除所述分类得分小于预设的得分阈值的目标位置B_n；

按照分类得分从大到小的顺序对属于同一目标类别C_n的目标位置B_n进行排序，依次计算排序后相邻两个位置Bn的IoU，若IoU小于预设的IoU阈值，则保留两个目标框，否则去掉分类得分较小的目标框。

5.如权利要求1或4所述的目标检测方法，其特征在于，步骤S1中包括以下子步骤：

S22：通过上采样调整特征图P_i的空间尺寸以使其与特征图A_i-1的尺寸相匹配，并对调整后的特征图P_i进行批规范化处理；

S23：调整特征图A_i-1的通道数，提取高级特征并进行批规范化处理；

S24：对批规范化处理后的特征图P_i和特征图A_i-1进行像素相加，得到融合后的特征图P_i-1。

6.如权利要求1或4所述的目标检测方法，其特征在于，步骤S1之前还包括对目标检测模型进行训练的步骤：

7.如权利要求6所述的目标检测方法，其特征在于，步骤S0中包括以下子步骤：

S03：计算初始包围盒Q₀相对于样本图片上的标注包围盒G_d的位置偏移量和类别，生成区域建议网络的训练标签gt_rpn；

S04：预测所述初始包围盒Q₀的前景概率P_rpn和位置回归偏移量Y_rpn，根据所述位置回归偏移量Y_rpn调整初始包围盒Q₀的位置；根据初始包围盒Q₀生成候选目标区域R_rcnn，计算候选目标区域R_rcnn相对于样本图片上的标注包围盒G_d的位置偏移量和类别，生成分类回归分支网络的训练标签gt_rcnn；

S05：预测所述候选目标区域R_rcnn的分类得分P_rcnn和预测回归偏移量Y_rcnn，得到预测标签

S06：以训练标签gt为目标检测模型的期望输出，以预测标签

8.如权利要求7所述的目标检测方法，其特征在于，步骤S03中还包括：

计算初始包围盒Q₀相对于标注包围盒G_d的IoU，当所有的标注包围盒G_d与初始包围盒Q₀的IoU均小于设定的IoU阈值时，该初始包围盒Q₀的类别为0；否则，该初始包围盒Q₀的类别为1；并以IoU最大的标注包围盒G_d计算初始包围盒Q₀的位置偏移量。

9.如权利要求7所述的目标检测方法，其特征在于，步骤S04中还包括：

计算候选目标区域R_rcnn相对于标注包围盒G_d的IoU，当所有的标注包围盒G_d与候选目标区域R_rcnn的IoU均小于设定的IoU阈值时，该候选目标区域R_rcnn的类别为0；否则，该候选目标区域R_rcnn的类别为最大IoU所对应的标注包围盒G_d的类别，并以该标注包围盒G_d计算候选目标区域R_rcnn的位置偏移量。

10.如权利要求7所述的目标检测方法，其特征在于，步骤S05中，所述目标损失函数的表达式如下：

11.一种基于级联检测器的目标检测模型，其特征在于，包括特征提取单元、结果输出单元和多个级联连接的检测单元D₂、D₃、…、D_n；

第i-1级检测单元D_(i-1)用于根据目标位置B_i从对应的特征图P_i-1中提取所述目标位置B_i对应的区域特征并预测分类得分和位置偏移量Y_i-1，根据所述位置偏移量Y_i-1对目标位置B_i进行调整，得到目标位置B_i-1和类别C_i-1，其中，i＝3～n，n为大于2的自然数；

12.如权利要求11所述的目标检测模型，其特征在于，每一级检测单元包括预测模块和调整模块；

第n级预测模块用于根据特征图P_n预测得到目标候选框，以及所述目标候选框的分类得分和位置偏移量Y_n；第n级调整模块用于根据所述位置偏移量Y_n对目标候选框进行调整，得到目标位置B_n和类别C_n。

13.如权利要求11所述的目标检测模型，其特征在于，所述结果输出单元还用于将目标类别C_n或目标类别C_n、C_n-1、…、C₂的平均值作为类别预测结果输出。

14.如权利要求12所述的目标检测模型，其特征在于，还包括抑制单元；

所述抑制单元用于对第n级检测单元输出的目标位置B_n进行非最大值抑制，删除分类得分小于预设的得分阈值的目标位置B_n；并按照分类得分从大到小的顺序对属于同一目标类别C_n的目标位置B_n进行排序，依次计算排序后相邻两个位置Bn的IoU，若IoU小于预设的IoU阈值，则保留两个目标框，否则去掉分类得分较小的目标框。

15.如权利要求14所述的目标检测模型，其特征在于，所述特征提取单元包括特征提取模块和特征融合模块；

所述特征提取模块用于从待测图片中提取出不同尺度的特征图A₂、A₃、…、A_n，对特征图A_n进行通道数调整，得到特征图P_n；

所述特征融合模块用于通过上采样调整特征图P_i的空间尺寸以使其与特征图A_i-1的尺寸相匹配，并对调整后的特征图P_i进行批规范化处理；

并用于调整特征图A_i-1的通道数，提取高级特征并进行批规范化处理；对批规范化处理后的特征图P_i和特征图A_i-1进行像素相加，得到融合后的特征图P_i-1。

16.如权利要求11～15任一项所述的目标检测模型，其特征在于，在训练阶段，所述特征提取单元用于对输入的带目标标注的样本图片进行特征提取、上采样、特征融合，得到不同尺寸的特征图；所述样本图片的标签为标注包围盒G_d的左上角顶点的坐标(x，y)、包围盒的长度w、宽度h，以及目标的类别c；

所述检测单元用于以每张特征图上的每个像素对应到样本图片中按照不同大小及长宽比产生多尺度的初始包围盒Q₀，预测所述初始包围盒Q₀的前景概率P_rpn、位置回归偏移量Y_rpn；并用于根据所述初始包围盒Q₀生成候选目标区域R_rcnn，预测所述候选目标区域R_rcnn的分类得分P_rcnn和预测回归偏移量Y_rcnn。

17.一种基于权利要求16所述的目标检测模型的目标检测系统，其特征在于，还包括标签生成单元、计算单元和训练单元；

所述标签生成单元用于获取检测单元生成的初始包围盒Q₀，计算初始包围盒Q₀相对于样本图片上的标注包围盒G_d的位置偏移量和类别，生成区域建议网络的训练标签gt_rpn；并用于计算候选目标区域R_rcnn相对于样本图片上的标注包围盒G_d的位置偏移量和类别，生成分类回归分支网络的训练标签gt_rcnn；并用于根据前景概率P_rpn、偏移量Y_rpn、分类得分P_rcnn和回归偏移量Y_rcnn生成预测标签

18.如权利要求17所述的目标检测系统，其特征在于，所述标签生成单元还用于计算初始包围盒Q₀相对于标注包围盒G_d的IoU，当所有的标注包围盒G_d与初始包围盒Q₀的IoU均小于设定的IoU阈值时，将初始包围盒Q₀的类别置为0；否则，将该初始包围盒Q₀的类别置为1；并以IoU最大的标注包围盒G_d计算初始包围盒Q₀的位置偏移量；

并用于计算候选目标区域R_rcnn相对于标注包围盒G_d的IoU，当所有的标注包围盒G_d与候选目标区域R_rcnn的IoU均小于设定的IoU阈值时，该候选目标区域R_rcnn的类别为0；否则，该候选目标区域R_rcnn的类别为最大IoU所对应的标注包围盒G_d的类别，并以该标注包围盒G_d计算候选目标区域R_rcnn的位置偏移量。