CN115731517A

CN115731517A - 一种基于Crowd-RetinaNet网络的拥挤人群检测方法

Info

Publication number: CN115731517A
Application number: CN202211464101.5A
Authority: CN
Inventors: 喻春雨; 朱月明; 张俊; 童亦新
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-03
Anticipated expiration: 2042-11-22
Also published as: CN115731517B

Abstract

本发明公开了一种基于Crowd‑RetinaNet网络的拥挤人群检测方法，属于人工智能技术领域，对采集到的行人图像进行预处理，生成样本数据集；将样本数据集导入基于Crowd‑RetinaNet网络构建的拥挤人群检测模型中，对模型进行训练；拥挤人群检测模型检测模型包括目标识别模块和优化模块；采用目标识别模块识别导入样本中的行人，并对识别到的行人添加完整框和可见框；通过在完整框预测和训练中增加可见框V‑box辅助预测及训练，在不增加过多的模型参量的前提下，有效提高了模型精度，同时在特征提取模块中加入了通道‑空间注意力机制模块，不仅可以控制模型参数量，还使网络更好地提取场景中行人的特征，提升了模型的检测性能。

Description

一种基于Crowd-RetinaNet网络的拥挤人群检测方法

技术领域

本发明涉及一种基于Crowd-RetinaNet网络的拥挤人群检测方法，属于人工智能技术领域。

背景技术

基于深度学习的目标检测技术在稳步发展，该技术主要基于卷积神经网络进行，主要分成单阶段One-stage和两阶段Two-stage两大类。Two-stage算法出现得较早，其原理是在图像中通过搜索算法对可能存在目标的区域生成候选框，再对候选区域提取特征并计算出其精确的位置信息和分类信息。由于在生成候选框时采用了两个阶段，因此被称为Two-stage目标检测算法。该类别算法的优点在于检测精度高，但检测速度慢。其代表有区域卷积神经网络RCNN(Regional Convolutional Neural Networks)系列、空间金字塔池化网络SPP-Net(Spatial Pyramid Pooling Network)和基于区域的全卷积网络R-FCN(Region-based Fully Convolutional Networks)等。

One-stage目标检测算法是在Two-stage目标检测算法发展过程中出现的一种新的目标检测框架，其主要原理是将边界框预测和类别预测同时进行，不需要额外的候选框生成步骤，只需要提取一次特征，其检测速度比Two-stage目标检测的方法更快，但检测精度会偏低。其代表算法有YOLO(You Only Look Once)系列、单步多框目标检测SSD(SingleShot MultiBox Detector)系列、Retina-Net等。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于Crowd-RetinaNet网络的拥挤人群检测方法，解决了现有技术中网络模型复杂程度高、检测效率低的问题。

为解决上述技术问题，本发明是采用下述技术方案实现的：

一种基于Crowd-RetinaNet网络的拥挤人群检测方法，包括：

对采集到的行人图像进行预处理，生成样本数据集；

将样本数据集导入基于Crowd-RetinaNet网络构建的拥挤人群检测模型中，对模型进行训练；拥挤人群检测模型检测模型包括目标识别模块和优化模块；

采用目标识别模块识别导入样本中的行人，并对识别到的行人添加完整框和可见框；

采用优化模块对完整框和可见框进行处理后得到优化后的预测框。

进一步地，所述目标识别模块包括特征提取模块、通道-空间注意力机制模块、预测器、抑制模块和融合模块；

所述特征提取模块用于对导入的样本图像进行图像特征提取；

所述通道-空间注意力机制模块包括通道注意力模块和空间注意力模块，用于将提取到的图像特征进行处理得到细化特征图；

所述预测器用于对细化特征图进行预测处理，得到完整框预测和可见框预测；

所述抑制模块用于对被预测的可见框区域进行代表性区域非极大值抑制算法处理；

所述融合模块用于对特征层进行卷积连接。

进一步地，所述特征提取模块包括自下而上的五层卷积层，除第一层卷积层外，其他四层卷积层均为残差结构，所述通道-空间注意力机制模块与第四层卷积层相连接。

进一步地，所述通道-空间注意力机制模块对提取到的图像特征进行处理的方法步骤包括：

通道注意力模块对输入的图像特征F使用平均池化和最大池化，分别生成两个二维映射

和

将

和

送入一个共享的包含一个隐藏层的多层感知机中生成通道注意力图，其中，隐藏的激活大小设置为R^C/r×1×1，r为衰减率；

使用式(1)计算通道注意力的权重矩阵M_C(F)，

输出通道细化特征图F'，

空间注意力模块对通道细化特征图F'使用平均池化和最大池化，分别生成两个二维映射

和

将

和

连接生成一个特征描述符，对该特征描述符进行卷积并使用式(2)计算空间注意力权重矩阵M_S(F)，并生成空间注意力图，

输出细化特征图F”，

进一步地，所述预测器包括边界框回归预测分支和分类预测分支；所述边界框回归预测分支与分类预测分支均包括四个用于特征提取的卷积核为3×3的卷积层和一个用于分类预测或边界框回归参数预测的卷积核大小为3×3的卷积层。

进一步地，所述预测器对细化特征图进行预测处理的方法步骤包括：

边界框回归预测分支其中的一个卷积层对细化特征图进行边界框回归参数预测；

分类预测分支其中的一个卷积层对细化特征图进行分类预测；

增加可见框预测，优化模块将边界框回归预测分支的最后一层卷积层的输出通道进行拓展，将可见框的回归参数加入到完整框预测中同时预测。

进一步地，所述可见框预测使用BV-EMD Loss函数计算损失，损失函数L_bvemd(b_j)为：

其中，

代表完整框的ground truth；

代表可见框的ground truth；

α，β分别是完整框回归损失和可见框回归损失所占比重，即α+β＝1，通过调整α，β可以分析可见框标注辅助训练对于检测模型性能的影响，当α＝1，β＝0时，检测模型退化为没有可见框辅助训练时的模型。

进一步地，所述抑制模块对被预测的可见框区域进行处理具体包括：

求取被预测可见框区域的交并比IOU；

根据基于集合的代表性区域非极大值抑制对交并比IOU大于预设阈值的针对同一类别目标预测框的两个预测，抑制其中置信度较小的一个；

对所有预测框进行两两比较之后，得到重合程度小于预设阈值，且得分最高的一系列目标框，将其作为最终的预测结果。

与现有技术相比，本发明所达到的有益效果：

1、本发明通过在完整框预测和训练中增加可见框V-box辅助预测及训练，在不增加过多的模型参量的前提下，有效改善了模型的训练过程、有效提高了模型精度，同时在特征提取模块中加入了通道-空间注意力机制模块，不仅可以控制模型参数量，还使网络更好地提取场景中行人的特征，使网络更加关注检测目标，提升了模型的检测性能。

2、本发明在预测可见框的基础上使用R²-SetNMS后处理，以被预测的可见框间交并比IOU求得的重叠度为判据，当被抑制的预测框和可见框来自同一提案时，则跳过此抑制，有效避免了后处理过程对于正确预测框的错误抑制，减少假阳性错误。

附图说明

图1为本发明一种基于Crowd-RetinaNet网络的拥挤人群检测方法的Crowd-RetinaNet网络模型结构示意图；

图2为本发明一种基于Crowd-RetinaNet网络的拥挤人群检测方法的预测器结构示意图；

图3为本发明一种基于Crowd-RetinaNet网络的拥挤人群检测方法的ResNet50网络结构示意图；

图4为本发明一种基于Crowd-RetinaNet网络的拥挤人群检测方法的通道-空间注意力机制模块(CBAM)结构示意图；

图5为本发明一种基于Crowd-RetinaNet网络的拥挤人群检测方法的通道注意力机制模块结构示意图；

图6为本发明一种基于Crowd-RetinaNet网络的拥挤人群检测方法的空间注意力机制模块结构示意图；

图7为加入可见框预测对模型预测结果图；

图8为EMD Loss和BV-EMD Loss随Epoch数量变化曲线图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例

如图1所示，一种基于Crowd-RetinaNet网络的拥挤人群检测方法，包括：

对采集到的行人图像进行预处理，生成样本数据集；

将样本数据集导入基于Crowd-RetinaNet网络构建的拥挤人群检测模型中，对模型进行训练；拥挤人群检测模型检测模型包括目标识别模块和优化模块；目标识别模块包括特征提取模块、通道-空间注意力机制模块(CBAM)、预测器、抑制模块和融合模块；

特征提取模块包括自下而上的五层卷积层，除第一层卷积层外，其他四层卷积层均为残差结构；需要说明的是，由于由于ResNet包含5层结构，但这里仅画了4层，这是因为第1层是预处理层，也是一层卷积层，但由于不主要用于产生特征图，通常不被用于FPN进行融合，故省略没有画出；

如图3所示，融合模块是以特征金字塔为基础结构，对每一层的特征图分别进行预测，将小尺寸的深层信息使用最近邻值插值法进行2倍上采样，与上一层大尺寸的浅层信息逐元素地相加，得到更强的语义信息，将该信息通过1x1卷积进行侧向连接拥有更强的位置信息，最后通过加运算进行特征整合；具体的，按尺寸不同的stage划分，输入C加编号标记，编号等于stage编号，代表分辨率减半的次数；对应的输出特征以P加编号标记。利用C3-C7五个stage的特征，其中C6是从C5直接施加3x3/2的Conv操作得到，C7是从C6直接施加3x3/2的Conv操作得到。C3-C7融合后得到P3-P7，其中P6、P7分别等于C6、C7，P5是先经过1x1Conv，再经过3x3Conv得到，P3-P4均是先经过1x1Conv，再融合上一层2倍上采样的特征，再经过3x3Conv得到；

如图4所示，通道-空间注意力机制模块与特征提取模块的第四层卷积层相连接，通道-空间注意力机制模块包括通道注意力模块和空间注意力模块，用于将提取到的图像特征进行处理得到细化特征图；

如图5和图6所示，通道-空间注意力机制模块对提取到的图像特征进行处理的方法步骤包括：

和

将

和

使用式(1)计算通道注意力的权重矩阵M_C(F)，

输出通道细化特征图F'，

和

将

和

输出细化特征图F”，

如图2所示，预测器用于对细化特征图进行预测处理，得到完整框预测和可见框预测；预测器包括边界框回归预测分支和分类预测分支；边界框回归预测分支与分类预测分支均包括四个用于特征提取的卷积核为3×3的卷积层和一个用于分类预测或边界框回归参数预测的卷积核大小为3×3的卷积层；具体的：

边界框回归预测分支其中的一个卷积核为3×3的卷积层对细化特征图进行边界框回归参数预测；

分类预测分支其中的一个卷积核为3×3的卷积层对细化特征图进行分类预测；

增加可见框预测，将边界框回归预测分支的最后一层卷积层的输出通道进行拓展，将可见框的回归参数加入到完整框预测中同时预测；具体的，优化模块分别将当前分类预测分支和边界框回归预测分支各自的第四层与最后一层进行卷积得到预测结果，再将预测结果拼接后送到一个新卷积层中进行新预测，得到一组优化后的预测框；

可见框预测使用BV-EMD Loss函数计算损失，损失函数L_bvemd(b_j)为：

其中，

代表完整框的ground truth；

代表可见框的ground truth；

通过在完整框预测和训练中增加可见框V-box辅助预测及训练，在不增加过多的模型参量的前提下，有效改善了模型的训练过程、有效提高了模型精度，同时在特征提取模块中加入了通道-空间注意力机制模块，不仅可以控制模型参数量，还使网络更好地提取场景中行人的特征，使网络更加关注检测目标，提升了模型的检测性能。

抑制模块用于对被预测的可见框区域进行代表性区域非极大值抑制(NMS byrepresentative region，R²NMS)算法处理，具体的：

求取被预测可见框区域的交并比(Intersection over Union，IOU)；

IOU的计算公式为：

其中，A为其中一个预测可见框区域大小；B为另一个预测可见框区域大小；

通过基于集合的代表性区域非极大值抑制(Set NMS by representativeregion，R²-SetNMS)对交并比IOU大于预设阈值的针对同一类别目标预测框的两个预测，抑制其中置信度较小的一个；

对所有预测框两两比较之后，就能得到重合程度小于预设阈值，且得分最高的一系列目标框，将其作为最终的预测结果；

在预测可见框的基础上使用R²-SetNMS后处理，以被预测的可见框间交并比IOU求得的重叠度为判据，当被抑制的预测框和可见框来自同一提案时，则跳过此抑制，有效避免了后处理过程对于正确预测框的错误抑制，减少假阳性错误。

如图7所示，由对比可见：在完整框预测在加入可见框预测后，模型可以预测出拥挤情况下每个人物目标的可见部分，且预测出的可见框间重叠部分小，这有利于鉴别被抑制的预测框是否属于不同目标。

如图8所示，在加入可见框预测及辅助训练后，模型的损失收敛速度明显提升；并且相较于改进前模型的EMD损失变化，改进后模型的BV-EMD损失更加稳定，收敛到的损失值也明显下降，这说明采用可见框标注进行辅助训练可以有效改善模型的训练过程，在有限的训练周期内可以使模型迭代过程更稳定。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于Crowd-RetinaNet网络的拥挤人群检测方法，其特征在于，包括：

对采集到的行人图像进行预处理，生成样本数据集；

2.根据权利要求1所述的一种基于Crowd-RetinaNet网络的拥挤人群检测方法，其特征在于，所述目标识别模块包括特征提取模块、通道-空间注意力机制模块、预测器、抑制模块和融合模块；

所述融合模块用于对特征层进行卷积连接。

3.根据权利要求2所述的一种基于Crowd-RetinaNet网络的拥挤人群检测方法，其特征在于，所述特征提取模块包括自下而上的五层卷积层，除第一层卷积层外，其他四层卷积层均为残差结构，所述通道-空间注意力机制模块与第四层卷积层相连接。

4.根据权利要求2所述的一种基于Crowd-RetinaNet网络的拥挤人群检测方法，其特征在于，所述通道-空间注意力机制模块对提取到的图像特征进行处理的方法步骤包括：

和

将

和

使用式(1)计算通道注意力的权重矩阵M_C(F)，

输出通道细化特征图F′，

空间注意力模块对通道细化特征图F′使用平均池化和最大池化，分别生成两个二维映射

和

将

和

输出细化特征图F″，

5.根据权利要求2所述的一种基于Crowd-RetinaNet网络的拥挤人群检测方法，其特征在于，所述预测器包括边界框回归预测分支和分类预测分支；所述边界框回归预测分支与分类预测分支均包括四个用于特征提取的卷积核为3×3的卷积层和一个用于分类预测或边界框回归参数预测的卷积核大小为3×3的卷积层。

6.根据权利要求5所述的一种基于Crowd-RetinaNet网络的拥挤人群检测方法，其特征在于，所述预测器对细化特征图进行预测处理的方法步骤包括：

7.根据权利要求6所述的一种基于Crowd-RetinaNet网络的拥挤人群检测方法，其特征在于，所述可见框预测使用BV-EMD Loss函数计算损失，损失函数L_bvemd(b_j)为：

其中，

代表完整框的ground truth；

代表可见框的ground truth；

8.根据权利要求2所述的一种基于Crowd-RetinaNet网络的拥挤人群检测方法，其特征在于，所述抑制模块对被预测的可见框区域进行处理具体包括：

求取被预测可见框区域的交并比IOU；