CN114332754A

CN114332754A - 基于多度量检测器的Cascade R-CNN行人检测方法

Info

Publication number: CN114332754A
Application number: CN202111523181.2A
Authority: CN
Inventors: 区文雄; 林小泸; 林军杰; 谢广耀
Original assignee: CHANGXUN COMMUNICATION SERVICE CO LTD
Current assignee: CHANGXUN COMMUNICATION SERVICE CO LTD
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-12

Abstract

本发明公开了一种基于多度量检测器的Cascade R‑CNN行人检测方法，包括对行人图片进行尺寸标准化和归一化处理，得到行人图片集，图片集中含有标注，划分训练集和测试集，并设置迭代次数和学习步长；将图片和标注通过多度量检测器的Cascade R‑CNN模型进行迭代训练，训练完所有训练数据后完成一个轮次的训练；重复执行上述步骤，直至达到设定的迭代轮次，把网络中的参数输出并保存，得到行人检测模型；将待检测的行人图片输入行人检测模型，输出待检测行人图片的位置和置信度信息。本发明可以更准确地描述预测框与真实框的位置关系和拟合程度，可有效提高行人检测回归框的准确率，提高检测精度，减少误检率。

Description

基于多度量检测器的Cascade R-CNN行人检测方法

技术领域

本发明涉及计算机视觉的行人检测技术领域，尤其涉及一种基于多度量检测器的Cascade R-CNN行人检测方法。

背景技术

行人检测技术具有很强的应用价值，它可以与行人跟踪、行人重识别等技术相结合，广泛应用于自动驾驶、道路监控、视频安防和智慧城市等领域。传统的行人检测方法依靠人体自身的外观属性进行特征提取和分类，该类方法往往受限于特定环境条件，导致特征表达能力不足，无法满足实际场景应用要求。基于深度学习学到的特征具有较好的层次表达能力和鲁棒性，可以比较好地解决这类视觉问题。但是，由于行人大小、位置、背景和遮挡等因素的影响，基于深度学习的行人检测方法还没有很好的解决漏检和误检的问题。

深度学习中的行人检测可以采用两阶段的深度神经网络来学习和建模。由卷积神经网络对图像进行特征提取，提取出来的特征图对光照、位移等变化不敏感，鲁棒性较好。由区域提议网络(Region Proposal Network)和分类回归网络组成了一个两阶段目标检测器，区域提议网络负责生成目标可能所在区域的建议，分类回归网络对建议的区域进行分类，并对标注框进行微调。网络的函数由分类损失和回归损失加权组成，并采用随机梯度下降法进行反向传播迭代。

现有的两阶段深度学习目标检测器精度较高，通用性也较好，但在行人检测中仍然存在中小尺寸行人的检测结果仍不理想，行人与背景相似度高，遮挡严重，检测难度大，造成漏检和误检等问题。

现有技术方案如下：

如图1所示，首先，输入图片，通过卷积神经网络提取出图片的特征，并引入FPN特征图像金字塔进行特征信息融合；其次，将提取的特征经过RPN网络，产生一定数量的候选框；最后则是预测的分类与回归结果，采用级联的分类与回归网络，其中改进了目标检测任务中的评价指标IoU，引入目标检测任务的直接评价指标GIoU指导定位任务，完成模型训练。

将GIoU作为一种新的评价指标损失函数替代原有评价指标IoU引入到了级联RCNN中，由Loss-GIoU计算公式可知，Loss-GIoU能保证损失函数目标检测框回归具有尺度不变性，同时使检测框的优化目标和损失函数保持一致。

IoU和GIoU的计算公式为：

式中:A为预测框；B为真实框；C为两者的最小闭包(包含A、B的最小包围框)。

上述技术存在的缺点如下：

针对级联的分类与回归网络，用评价指标GIoU替代了目标检测任务中的评价指标IoU。该技术在三级级联网络中都是采用的同一评价指标GIoU，从而无法从三个级联网络递进地获取更加有效的样本信息。另外，评价指标GIoU的公式没有考虑到建议框的高宽比对正负样本选择的影响。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于多度量检测器的Cascade R-CNN行人检测方法，避免采用传统的行人检测方法的缺陷，基于深度学习学到的特征具有较好的层次表达能力和鲁棒性；在本发明方法提出的神经网络模型中，对多个级联的检测器分别采用不同的评价指标函数，使得模型可以更准确地描述预测框与真实框的位置关系和拟合程度，可提高行人检测回归框的准确率。

本发明的目的通过以下的技术方案来实现：

一种基于多度量检测器的Cascade R-CNN行人检测方法，包括：

步骤A对行人图片进行尺寸标准化和归一化处理，划分训练集和测试集，并设置迭代次数和学习步长；

步骤B将带标注的行人图片训练集输入卷积神经网络构成的特征提取网络进行特征图提取，即通过多度量检测器的Cascade R-CNN算法进行迭代训练，训练完所有训练数据后完成一个轮次的训练；

步骤C重复执行上述步骤B，直至达到设定的迭代轮次，把网络中的参数输出并保存，得到行人检测模型；

步骤D将待检测的行人图片输入行人检测模型，输出待检测行人图片的位置和置信度信息。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

(1)采用深度学习算法来建立整体的行人检测框架，避免采用传统的行人检测方法常常出现的受限于特定环境条件、特征表达能力不足和无法满足实际场景应用要求等问题。基于深度学习学到的特征具有较好的层次表达能力和鲁棒性，可以比较好地解决行人检测这类视觉问题。

(2)提出了一种Cascade RCNN深度学习神经网络模型，该网络模型在是在FasterRCNN网络模型的基础上，通过级联多个检测器来实现对检测结果的不断优化，每个检测器都基于不同的阈值来界定正负样本，这种网络模型可有效提升行人检测的准确度。

(3)本发明方法提出的基于多度量检测器的Cascade RCNN神经网络模型中，对多个级联的检测器分别采用不同的度量方式，使得模型可以更准确地描述预测框与真实框的位置关系和拟合程度，可提高行人检测回归框的准确率。

(4)本发明方法提出的一种基于多度量检测器的Cascade RCNN深度学习神经网络模型，具有通用性，该方法可以推广到其他计算机视觉的目标检测领域，具有较好的推广性。

附图说明

图1是现有技术提供的级联RCNN网络结构示例图；

图2是基于多度量检测器的Cascade R-CNN行人检测方法流程图；

图3是本发明方法中基于多度量检测器的级联分类回归网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

实例可以采用Caltech数据集。Caltech是一个10小时左右车载视频库，分辨率640×480，将视频切分成帧进行训练和测试，训练数据集共42782幅图像，标准测试集中的4024幅图像用于在不同的设置下进行评估。

如图2和图3所示，基于多度量检测器的Cascade R-CNN的行人检测方法，包括以下步骤：

1)对行人图片集进行尺寸标准化操作，对所有图片尺寸统一缩放，设行人图片集为X，其含有标注，每一条行人的标注为一个矩形标注框，其格式为(name,category,x_min,y_min,x_max,y_max)，name表示图片名称，category表示种类，(x_min,y_min)表示矩形标注框左上角的横纵坐标，(x_max,y_max)表示矩形标注框右下角的横纵坐标，对行人图片集X进行尺寸标准化和归一化处理，使所有图片均为640×480的RGB图片。

2)将步骤1)得到的图片和标注，使用多度量检测器的Cascade R-CNN算法进行迭代训练，训练完所有训练数据后完成一个轮次的训练。基于多度量检测器的Cascade-RCNN算法包括特征提取主干网络、RPN模块、RoI Pooling模块与级联分类回归模块四个部分，分别用来完成提取特征图、生成较好的建议框、特征图和建议框池化综合以及预测RoI的分类和精修边框位置的功能。其中，使用卷积神经网络ResNet-101作为主干网络进行特征提取，级联分类回归模块使用基于多度量检测器的级联分类回归网络。

特征提取的主干网络采用卷积神经网络ResNet-101来搭建。ResNet网络中的Bottleneck即瓶颈层，它的一条支路经过卷积核大小为1x1的卷积层、归一化BN层、relu激活函数、卷积核大小为3x3的卷积层、归一化BN层、relu激活函数、卷积核大小为1x1的卷积层、归一化BN层，它的另一条恒等映射支路为原输入经过卷积核大小为1x1的卷积层、归一化BN层，两支路相加，再经过一个relu激活函数得到输出。ResNet101的第二至五个卷积网络层分别是由3、4、23、3个Bottleneck组成。特征提取主干网络的输出为特征图F_o。

RPN模块生成候选框，完成候选框的正负样本分类和候选框微调。首先，生成anchors，对所有的anchors做回归；按照输入的positive soft-max scores由大到小排序anchors，提取前6000个anchors，即提取修正位置后的positive anchors；限定超出图像边界的positive anchors为图像边界；剔除非常小的positive anchors；进行非极大值抑制处理生成2000个Proposal；最后筛选Proposal得到RoIs。

其中，RPN首先对特征提取网络得到的特征图进行一个3×3卷积以融合特征图信息；然后，它在特征图的每个anchor上预先人为地设置了一组9个anchor boxes，通常是3种不同的长宽比和3种不同的面积组合得到9种不同的anchor box，9种Anchors，具体Scale为{8,16,32}，Ratio为{0.5,1,2}；再设置了两组并联的1×1卷积，对特征图分别进行分类和回归；分类层将每个anchor box进行二分类，判断anchor box属于前景还是背景，对于特征图上的每个anchor输出18维度的结果；回归层对于每个anchor box预测它和真实标注框之间的偏移量，包括了中心坐标的偏移量Δx和Δy，宽度和高度的偏移量Δw和Δh，因此其对于特征图上的每个anchor输出36维度的结果；最后，将这两个分支的结果进行整合，选取分类层预测结果为前景的anchor box，并使用回归层计算得到的偏移量对anchor box的中心点及长宽进行调整。

RPN中分类层的损失函数使用交叉熵损失(Cross Entropy Loss)，其计算公式如下：

其中，p_i为分类层预测的候选框标签，

为候选框的真实标签，其真实标签由候选框与真实标注框的IoU得到，若一候选框与真实标注框的IoU大于设定的阈值，则认为该候选框的真实标签为目标，反之则认为是无关背景，该阈值通常设置为0.5。

RPN中回归层的损失函数使用平滑L1损失(SmoothL1 Loss)，其公式如下：

其中

表示的是真实的候选框与标记框之间的变换，t_i表示的是回归层预测的候选框与标记框之间的变换，smooth_L1的具体计算公式为：

在回归层使用平滑L1损失的好处是：在训练初期，候选框和真实框差距过大时，相比L1损失，平滑L1损失的梯度上限为1，不会出现梯度过大的情况；在训练后期，候选框和真实框差距较小时，相比L2损失，平滑L1损失的梯度下限足够小，使得网络收敛效果更优。

RPN层的损失函数由分类损失和回归损失加权得到，其公式为：

其中，N_cls为参与分类的anchor box数量，N_reg为参与回归的anchor box数量，λ为分类和回归损失的加权系数，一般设置为1。

RoI Pooling模块中，把各种维度不同的RoI变换到维度相同的特征，以满足后续全连接网络的要求。它连接了区域提议网络和分类回归网络，统一化RPN的输出结果并输入分类回归网络进行下一步处理。感兴趣区域RoI即为RPN中得到的候选框映射回特征图上的区域，由于目标的尺寸大小不一，感兴趣区域的尺寸也大小不一。然而由于全连接层的存在，分类回归层中输入的特征图尺寸必须是固定的，因此需要使用RoI Pooling将不同尺寸的感兴趣区域从特征图中提取出来，并统一为相同的尺寸。RoI Pooling的过程为：首先将候选框映射回原图，进行一次取整，得到特征图上的感兴趣区域；其次，根据后续网络的尺寸要求，将感兴趣区域平分为7x7的网格，并进行一次取整操作；最后对每个网格进行极大池化(Max Pool)处理，将最高的像素值作为该格的输出。通过感兴趣区域池化，每个候选框的尺寸均为7x7，方便于后续分类回归网络的处理。

多度量检测器的级联分类回归网络是级联分类回归网络上的改进，级联分类回归网络是由三个相同结构的分类归回归网络N₁、N₂、N₃串联而成；每个分类回归网络由全连接层H、分类层C和回归层B组成。多度量检测器的级联分类回归网络通过级联多个检测器来不断优化结果，每个检测器都基于不同的度量方式来界定正负样本，前一个检测器的输出作为后一个检测器的输入，并且检测器越靠后，度量方式越严格。三个分类归回归网络N₁、N₂、N₃的区别在于，每个网络设定的判断该RoI是正样本还是负样本的度量方式不同，根据度量值的阈值选择正负样本，阈值可根据需求进行设定和调整。三个分类归回归网络N₁、N₂、N₃的度量方式分别定义为：

其中，A为候选框，B为矩形标注框，C为两者的最小闭包，IoU₁、IoU₂和IoU₃分别是网络N₁、N₂、N₃的度量值，α是权重，(x^A _max,y^A _max)和(x^A _min,y^A _min)分别表示候选框A的左上角横纵坐标和右下角横纵坐标；(x^B _max,y^B _max)和(x^B _min,y^B _min)分别表示矩形标注框B左上角横纵坐标和右下角横纵坐标；分类回归网络N₁的输入为特征图F_o和候选框B₀，输出为候选框B₁和它的分类结果与置信度；分类回归网络N₂的输入为特征图F_o和候选框B₁，输出为候选框B₂和它的分类结果与置信度；分类回归网络N₃的输入为特征图F_o和候选框B₂，输出为预测框B₃和它的分类结果与置信度；级联分类归回网络的输出为预测框B₃和它的分类结果cls与置信度score。

将待检测的行人图片输入行人检测模型，即可输出待检测行人图片的位置和置信度信息。检测过程如下：

对于一张待检测的行人图片，使用得到的行人检测模型在待检测图片上进行检测，再将结果映射回原图的区域上，得到每一条目标的标注格式为(B₃,cls,score)，cls表示预测的目标类别，B₃表示目标的预测框，score表示目标判断的置信度，置信度取值为(0,1)之间；

对得到的目标进行过滤，对于每一条目标，若它的置信度score大于设定阈值t，则予以保留，否则删除；

对得到的待检测的行人图片上的结果，输出行人图片的位置和置信度信息。

上述实施例提供的多度量检测器的Cascade R-CNN算法，在级联分类回归网络部分提出的正负样本度量方式既考虑到正负样本的平衡性问题，也顾及到预测框与真实框的位置关系和拟合程度，可提高行人检测回归框的准确率，提高检测精度。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.基于多度量检测器的Cascade R-CNN行人检测方法，其特征在于，包括以下步骤：

步骤B将带标注的行人图片训练集输入卷积神经网络，通过多度量检测器的CascadeR-CNN算法进行迭代训练，训练完所有训练数据后完成一个轮次的训练；

2.根据权利要求1所述的基于多度量检测器的Cascade R-CNN行人检测方法，其特征在于，所述步骤A中，设行人图片集为X，含每一条行人的标注为一个矩形标注框，其格式为(name,category,x_min,y_min,x_max,y_max)，name表示图片名称，category表示种类，(x_min,y_min)表示矩形标注框左上角的横纵坐标，(x_max,y_max)表示矩形标注框右下角的横纵坐标，对行人图片集X进行尺寸标准化和归一化处理，使所有图片均为H*W的RGB图片，H和W为图片的高和宽。

3.根据权利要求1所述的基于多度量检测器的Cascade R-CNN行人检测方法，其特征在于，所述步骤B中：基于多度量检测器的Cascade-RCNN算法包括特征提取主干网络、RPN模块、RoI Pooling模块与级联分类回归模块四个部分，分别用来完成提取特征图、生成较好的建议框、特征图和建议框池化综合以及预测RoI的分类和精修边框位置的功能；其中，特征提取主干网络采用卷积神经网络ResNet-101来搭建，RPN模块生成候选框，完成候选框的正负样本分类和候选框微调；RoI Pooling模块，把各种维度不同的RoI变换到维度相同的特征，以满足后续全连接网络的要求；级联分类回归模块使用基于多度量检测器的级联分类回归网络。

4.根据权利要求3所述的基于多度量检测器的Cascade R-CNN行人检测方法，其特征在于，所述多度量检测器的级联分类回归网络是级联分类回归网络上的改进，级联分类回归网络由三个相同结构的分类回归网络N₁、N₂、N₃串联而成；；每个分类回归网络由全连接层H、分类层C和回归层B组成；三个分类归回归网络N₁、N₂、N₃的度量方式分别定义为：

5.根据权利要求1所述的基于多度量检测器的Cascade R-CNN行人检测方法，其特征在于，所述步骤B、C中：

将训练样本集输入主干网络，即卷积神经网络ResNet-101，提取特征，输出特征图F_o；

将特征图F_o输入RPN区域生成网络进行训练，输出候选框B₀；

将候选框B₀和特征图F_o进行池化后输入基于多度量检测器的级联分类回归网络，进行三层串联网络的学习和训练，输出预测框B₃和它的分类结果cls与置信度score。

6.根据权利要求1所述的基于多度量检测器的Cascade R-CNN行人检测方法，其特征在于，所述步骤D具体包括：

使用行人检测模型在待检测图片上进行检测，将检测结果映射回原图的区域上，得到每一条目标的标注格式(B₃,cls,score)；cls表示预测的目标类别，B₃表示目标的预测框，score表示目标判断的置信度，置信度取值为(0,1)之间；

对目标进行过滤，对于每一条目标，若它的置信度score大于设定阈值t，则予以保留，否则删除；

通过得到的待检测的行人图片上的结果，输出行人图片的位置和置信度信息。