CN114882440A

CN114882440A - 一种人头检测方法和系统

Info

Publication number: CN114882440A
Application number: CN202210599635.2A
Authority: CN
Inventors: 邱芬鹏; 邱述洪; 童荪; 梁华宇; 甘海华
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-09
Anticipated expiration: 2042-05-30
Also published as: CN114882440B

Abstract

本发明涉及计算机视觉领域，更具体地，涉及一种人头检测方法和系统。本发明通过将Swin Transformer模块引入yolov5算法，使检测模型能更好地关注和融合特征图的全局信息以及上下文信息，挖掘出特征表示的潜能，提取出更有用的特征，提高了拥挤的场景下人头检测的准确率。在此基础上，还对yolov5的检测头分支进行改造，在检测模型的计算量基本不变的同时，提升了对小目标的检测能力，进一步提高人头检测的准确率。此外，选取Alpha‑IoU Loss作为构建检测模型的损失函数，提高检测模型的检测框精度以及增强检测模型的鲁棒性。

Description

一种人头检测方法和系统

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种人头检测方法和系统。

背景技术

随着城市人口的不断增多，在车站、商场等公共场所中，人数统计是维护秩序和安全的一种有效手段，通过人数统计可以预估隐患发生的可能性以便做出管理的决策。在地铁、车站等交通场所，可以通过人数统计来进行安全防范、客流量控制以及车辆调度；在超市和商场，可以通过人数统计来商业分析和经营决策。目前常用的人数统计方法是人工计数、红外人数检测技术、计算机视觉检测技术等。

人工计数是安排工作人员在进出口或者在监控视频中采取目测统计的方式进行人数统计，该方法在人数不多的时候比较精准，但是人工成本较大，而且当某时刻发生拥挤时，难以快速得到精确的人数。

红外检测技术是使用红外传感器对通过的人体进行检测，当行人之间存在一定的间隔时，能比较准确地检测，但当间隔较小时，检测效果就会很差。

计算机视觉检测技术是将计算机视觉里面的目标检测技术应用到视频监控中，自动检测出视频中的人的头部，从而实现人数统计。传统的目标检测技术是提取目标的HOG、SIFT等特征，接着使用AdaBoost、SVM等算法来分类，该方法准确率比较低，而且泛化能力不强。目前效果比较好的是目标检测技术是基于深度学习的检测方法，深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，在计算机视觉领域取得了很多成果。然而随着基于深度学习的检测方法应用逐渐增多，检测方法的缺陷也纷纷涌现，其中尤为突出的就是当发生人群拥挤、人头相互遮挡的情况时，现有的深度学习的目标检测方法准确率不高，致使人头检测的效果不佳。面对人群拥挤和人头相互遮挡这种情况，只有增强检测模型提取有用特征的能力，令检测模型对于图像的识别更精确，才能使目标检测准确率低的现状得以改善。现有的人头检测方法无法适用于复杂的实际场景，在发生人群拥挤、人头相互遮挡的情况下，人头检测的准确率下降，已成了计算机视觉领域迫切要解决的问题之一。因此，目前亟需一种适用于复杂的实际场景，并且能够实时、准确地检测出图像中的人头，从而实现精确的人数统计的人头检测方法和系统。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷，提供一种人头检测方法和系统，用于解决现有的人头检测方法在复杂的实际场景下，人头检测准确率低的问题。

本发明采取的技术方案是：

一种人头检测方法，包括：

采集监控图像，建立监控图像样本集；所述监控图像包括：人的头部和肩部图像以及对应的标注框；所述监控图像样本集包括：监控图像训练集和监控图像测试集；

对所述监控图像样本集进行预处理；

基于yolov5算法和SwinTransformer模块建立初始检测模型，利用预处理后的所述监控图像样本训练检测模型，得到目标检测模型；

获取监控图像集，并输入所述目标检测模型；

利用所述目标检测模型对所述监控图像集进行人头检测，得到人头检测结果。

作为本发明的进一步方案，基于yolov5算法和SwinTransformer模块建立初始检测模型，利用预处理后的所述监控图像样本训练检测模型，得到目标检测模型，包括：

利用所述监控图像训练集对所述初始检测模型进行迭代训练，得到训练后的检测模型；

利用所述监控图像测试集对所述训练后的检测模型进行测试，根据测试结果调整检测模型中相应的模型参数，得到所述目标检测模型。

作为本发明的进一步方案，所述初始检测模型包括：骨干网络、颈部网络和检测头网络；所述骨干网络包括依次相连的Focus层、第一卷积层、第一CSP瓶颈层、第二卷积层、第二CSP瓶颈层、第三卷积层、第三CSP瓶颈层、第四卷积层、池化层和第一Swin Transformer模块；所述颈部网络包括依次相连的第五卷积层、第一上采样层、第一连接层、第四CSP瓶颈层、第二Swin Transformer模块、第六卷积层、第二上采样层、第二连接层、第五CSP瓶颈层、第三Swin Transformer模块、第七卷积层、第三上采样层、第三连接层、第六CSP瓶颈层、第四Swin Transformer模块、第八卷积层、第四连接层、第七CSP瓶颈层、第五SwinTransformer模块、第九卷积层、第五连接层和第八CSP瓶颈层；所述检测头网络包括：第一检测头、第二检测头和第三检测头；所述第一CSP瓶颈层与所述第三连接层连接；所述第二CSP瓶颈层与第二连接层连接；所述第三CSP瓶颈层与第一连接层连接；所述第一SwinTransformer模块与第五卷积层连接；所述第六卷积层与第五连接层连接；所述第七卷积层与第四连接层连接；所述第六CSP瓶颈层与第一检测头连接；所述第七CSP瓶颈层与第二检测头连接；所述第八CSP瓶颈层与第三检测头连接。

作为本发明的进一步方案，利用所述目标检测模型对所述监控图像集进行人头检测，得到人头检测结果，包括：

对所述监控图像集进行切片操作，得到切片特征图；

对所述切片特征图进行多次第一特征提取，得到第一特征图、第二特征图、第三特征图和第四特征图；所述第一特征提取为利用CSP瓶颈层进行的特征提取；

对所述第四特征图进行池化处理、第二特征提取和上采样操作，并且与所述第三特征图进行特征融合，得到第五特征图；所述第二特征提取为利用Swin Transformer模块进行的特征提取；

对所述第五特征图进行第二特征提取，得到第六特征图；

对所述第六特征图进行上采样操作，并且与所述第二特征图进行特征融合，得到第七特征图；

对所述第七特征图进行第二特征提取，得到第八特征图；

对所述第八特征图进行上采样操作，并且和所述第一特征图进行特征融合，得到第九特征图；

对所述第九特征图进行第二特征提取，并且与所述第八特征图进行特征融合，得到第十特征图；

对所述第十特征图进行第二特征提取，并且与所述第六特征图进行特征融合，得到第十一特征图；

将所述第九特征图、所述第十特征图和所述第十一特征图输入相应的检测头，检测头进行中目标、小目标和特小目标的检测，得到人头检测结果。

作为本发明的进一步方案，所述检测模型的损失函数为：

其中，Loss_α-DIoU为引入了alpha参数的DIoULoss，IoU为预测框与真实框的交并比，α为参数，ρ为欧氏距离，b为预测框的中心点坐标，b^gt为真实框的中心点坐标，c为预测框和真实框最小外界矩形的对角线距离。

本方案还提供一种人头检测系统，包括：

样本模块，用于采集监控图像，建立监控图像样本集；所述监控图像包括：人的头部和肩部图像以及对应的标注框；所述监控图像样本集包括：监控图像训练集和监控图像测试集；

预处理模块，用于对所述监控图像样本集进行预处理；

训练模块，用于基于yolov5算法和SwinTransformer模块建立初始检测模型，利用预处理后的所述监控图像样本训练检测模型，得到目标检测模型；

图像模块，用于获取监控图像集，并输入所述目标检测模型；

检测模块，用于利用所述目标检测模型对所述监控图像集进行人头检测，得到人头检测结果。

作为本发明的进一步方案，训练模块包括：

迭代单元，用于利用所述监控图像训练集对所述初始检测模型进行迭代训练，得到训练后的检测模型；

测试单元，用于利用所述监控图像测试集对所述训练后的检测模型进行测试，根据测试结果调整检测模型中相应的模型参数，得到所述目标检测模型。

作为本发明的进一步方案，所述检测模块包括：

切片单元，用于对所述监控图像集进行切片操作，得到切片特征图；

第一提取单元，用于对所述切片特征图进行多次第一特征提取，得到第一特征图、第二特征图、第三特征图和第四特征图；所述第一特征提取为利用CSP瓶颈层进行的特征提取；

第一融合单元，用于对所述第四特征图进行池化处理、第二特征提取和上采样操作，并且与所述第三特征图进行特征融合，得到第五特征图；所述第二特征提取为利用SwinTransformer模块进行的特征提取；

第二提取单元，用于对所述第五特征图进行第二特征提取，得到第六特征图；

第二融合单元，用于对所述第六特征图进行上采样操作，并且与所述第二特征图进行特征融合，得到第七特征图；

第三提取单元，用于对所述第七特征图进行第二特征提取，得到第八特征图；

第三融合单元，用于对所述第八特征图进行上采样操作，并且和所述第一特征图进行特征融合，得到第九特征图；

第四融合单元，用于对所述第九特征图进行第二特征提取，并且与所述第八特征图进行特征融合，得到第十特征图；

第五融合单元，用于对所述第十特征图进行第二特征提取，并且与所述第六特征图进行特征融合，得到第十一特征图；

检测单元，用于将所述第九特征图、所述第十特征图和所述第十一特征图输入相应的检测头，检测头进行中目标、小目标和特小目标的检测，得到人头检测结果。

作为本发明的进一步方案，所述检测模型的损失函数为：

与现有技术相比，本发明的有益效果为：本发明通过将Swin Transformer模块引入yolov5算法，使检测模型能更好地关注和融合特征图的全局信息以及上下文信息，挖掘出特征表示的潜能，提取出更有用的特征，提高了拥挤的场景下人头检测的准确率。在此基础上，还对yolov5的检测头分支进行改造，在检测模型的计算量基本不变的同时，提升了对小目标的检测能力，进一步提高人头检测的准确率。此外，选取Alpha-IoU Loss作为构建检测模型的损失函数，提高检测模型的检测框精度以及增强检测模型的鲁棒性。

附图说明

图1为本发明的方法流程图；

图2为本发明的算法结构图；

图3为本发明的瓶颈层示意图；

图4为本发明的CSP瓶颈层示意图；

图5为本发明的池化层示意图；

图6为本发明的Swin Trans模块示意图；

附图标记说明：骨干网络100、Focus层101、第一卷积层102、第一CSP瓶颈层103、第二卷积层104、第二CSP瓶颈层105、第三卷积层106、第三CSP瓶颈层107、第四卷积层108、池化层109、第一Swin Transformer模块110、颈部网络200、第五卷积层201、第一上采样层202、第一连接层203、第四CSP瓶颈层204、第二Swin Transformer模块205、第六卷积层206、第二上采样层207、第二连接层208、第五CSP瓶颈层209、第三Swin Transformer模块210、第七卷积层211、第三上采样层212、第三连接层213、第六CSP瓶颈层214、第四SwinTransformer模块215、第八卷积层216、第四连接层217、第七CSP瓶颈层218、第五SwinTransformer模块219、第九卷积层220、第五连接层221、第八CSP瓶颈层222、检测头网络300、第一检测头301、第二检测头302、第三检测头303。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例

如图1所示，本实施例提供一种人头检测方法，包括以下步骤：

S100.采集监控图像，建立监控图像样本集；所述监控图像包括：人的头部和肩部图像以及对应的标注框；所述监控图像样本集包括：监控图像训练集和监控图像测试集；

为保证数据的多样性，使得检测模型更具有泛化能力，数据的来源也需要多样性。在本实施例中，监控图像样本分别从公交车站、地铁站、大街、商场等地方的监控视频中收集数据。在数据标注时，监控图像中的标注框包含人的头部以及肩部。标注完数据后，按照8:2的比例将监控图像样本集中的图像划分训练集与测试集。

S200.对所述监控图像样本集进行预处理；

采集的监控图像数量是有限的，并且大多数的监控图像往往会受到光照等天气因素的影响，导致图像本身质量的下降。为了提高训练数据的多样性，增强模型的鲁棒性，对监控图像样本集进行预处理。所述预处理包括：Mosaic数据增强、自适应锚框计算、自适应图片缩放、增加噪声和调整图像对比度。所述Mosaic数据增强包括：随机缩放、随机裁剪、随机排布的方式进行拼接。作为本发明优选的实施方式，预处理选取增加噪声和调整图像对比度，以此模拟不同天气的光照对监控数据的影响。

S300.基于yolov5算法和SwinTransformer模块建立初始检测模型，利用预处理后的所述监控图像样本训练检测模型，得到目标检测模型；

为了在人群高密度拥挤的情况下提取更有效的特征，在本实施例中，分别在yolov5算法的骨干(Backbone)网络和颈部(neck)网络的中引入Swin Transformer模块。本发明通过将Swin Transformer模块引入yolov5算法，使检测模型能更好地关注和融合特征图的全局信息以及上下文信息，挖掘出特征表示的潜能，提取出更有用的特征，提高了拥挤的场景下人头检测的准确率。

作为本发明的进一步方案，S300包括以下步骤：

S310.利用所述监控图像训练集对所述初始检测模型进行迭代训练，得到训练后的检测模型；

S320.利用所述监控图像测试集对所述训练后的检测模型进行测试，根据测试结果调整检测模型中相应的模型参数，得到所述目标检测模型。

S400.获取监控图像集，并输入所述目标检测模型；

S500.利用所述目标检测模型对所述监控图像集进行人头检测，得到人头检测结果。

作为本发明的进一步方案，S500包括以下步骤：

S510.对所述监控图像集进行切片操作，得到切片特征图；

S520.对所述切片特征图进行多次第一特征提取，得到第一特征图、第二特征图、第三特征图和第四特征图；所述第一特征提取为利用CSP瓶颈层进行的特征提取；

对所述第五特征图进行第二特征提取，得到第六特征图；

对所述第七特征图进行第二特征提取，得到第八特征图；

S530.将所述第九特征图、所述第十特征图和所述第十一特征图输入相应的检测头，检测头进行中目标、小目标和特小目标的检测，得到人头检测结果。

原始的yolov5算法具有三个检测头输出分支，分别对应大、中、小目标的检测，在面向监控图像的人头检测中，需要关注的是小目标的检测。为了检测到较小的人头，在本实施例中，将yolov5的骨干网络的浅层处引出一个检测分支用于特小目标的检测，同时去掉原有的大目标的检测分支，这样检测模型在计算量基本不变的同时加强了对小目标的检测，提高了人头检测的准确率。本发明通过对yolov5的检测头分支进行改造，在检测模型的计算量基本不变的同时，提升了对小目标的检测能力，令人数统计更加精确。

如图2所示，作为本发明的进一步方案，S300所述初始检测模型包括：骨干网络100、颈部网络200和检测头网络300；所述骨干网络包括依次相连的Focus层101、第一卷积层102、第一CSP瓶颈层103、第二卷积层104、第二CSP瓶颈层105、第三卷积层106、第三CSP瓶颈层107、第四卷积层108、池化层109和第一Swin Transformer模块110；所述颈部网络200包括依次相连的第五卷积层201、第一上采样层202、第一连接层203、第四CSP瓶颈层204、第二Swin Transformer模块205、第六卷积层206、第二上采样层207、第二连接层208、第五CSP瓶颈层209、第三Swin Transformer模块210、第七卷积层211、第三上采样层212、第三连接层213、第六CSP瓶颈层214、第四Swin Transformer模块215、第八卷积层216、第四连接层217、第七CSP瓶颈层218、第五Swin Transformer模块219、第九卷积层220、第五连接层221和第八CSP瓶颈层222；所述检测头网络300包括：第一检测头301、第二检测头302和第三检测头303；所述第一CSP瓶颈层103与所述第三连接层218连接；所述第二CSP瓶颈层105与第二连接层208连接；所述第三CSP瓶颈层107与第一连接层203连接；所述第一SwinTransformer模块110与第五卷积层201连接；所述第六卷积层206与第五连接层221连接；所述第七卷积层211与第四连接层217连接；所述第六CSP瓶颈层214与第一检测头301连接；所述第七CSP瓶颈层218与第二检测头302连接；所述第八CSP瓶颈层222与第三检测头303连接。

作为本发明优选的实施方式，第一卷积层102、第二卷积层104、第三卷积层106、第四卷积层108、第八卷积层216和第九卷积层220选取2×3的卷积层，第五卷积层214、第六卷积层102和第七卷积层102选取1×1的卷积层。

如图3所示，所述检测模型的瓶颈层由一个1×1的卷积层和一个3×1的卷积层组成。

如图4所示，所述检测模型的CSP瓶颈层由三个1×1的卷积层、N个瓶颈层和一个连接层组成。

如图5所示，所述检测模型的池化层由两个1×1的卷积层、三个最大池化层和一个连接层组成。

如图6所示，所述检测模型的Swin Trans模块由两个连续的Swin TransformerBlock组成。每个Swin Transformer Block具有MLP、MSA模块和LayerNorm(LN)层。

由于人头检测存在相互遮挡、噪声等问题，为提高检测模型的检测框精度以及增强检测模型的鲁棒性。在本实施例中，选取Alpha-IoU Loss作为构建检测模型的损失函数，基于DIoU Loss来引入alpha参数。S300所述检测模型的损失函数为：

其中，Loss_α-DIou为引入了alpha参数的DIoU Loss，IoU为预测框与真实框的交并比，α为参数，ρ为欧氏距离，b为预测框的中心点坐标，b^gt为真实框的中心点坐标，c为预测框和真实框最小外界矩形的对角线距离。

本实施例还提供一种人头检测系统，包括：

预处理模块，用于对所述监控图像样本集进行预处理；

作为本发明的进一步方案，训练模块包括：

作为本发明的进一步方案，所述检测模块包括：

作为本发明的进一步方案，在训练模块中所述初始检测模型包括：骨干网络、颈部网络和检测头网络；所述骨干网络包括依次相连的Focus层、第一卷积层、第一CSP瓶颈层、第二卷积层、第二CSP瓶颈层、第三卷积层、第三CSP瓶颈层、第四卷积层、池化层和第一SwinTransformer模块；所述颈部网络包括依次相连的第五卷积层、第一上采样层、第一连接层、第四CSP瓶颈层、第二Swin Transformer模块、第六卷积层、第二上采样层、第二连接层、第五CSP瓶颈层、第三Swin Transformer模块、第七卷积层、第三上采样层、第三连接层、第六CSP瓶颈层、第四Swin Transformer模块、第八卷积层、第四连接层、第七CSP瓶颈层、第五Swin Transformer模块、第九卷积层、第五连接层和第八CSP瓶颈层；所述检测头网络包括：第一检测头、第二检测头和第三检测头；所述第一CSP瓶颈层与所述第三连接层连接；所述第二CSP瓶颈层与第二连接层连接；所述第三CSP瓶颈层与第一连接层连接；所述第一SwinTransformer模块与第五卷积层连接；所述第六卷积层与第五连接层连接；所述第七卷积层与第四连接层连接；所述第六CSP瓶颈层与第一检测头连接；所述第七CSP瓶颈层与第二检测头连接；所述第八CSP瓶颈层与第三检测头连接。

作为本发明的进一步方案，在训练模块中所述检测模型的损失函数为：

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种人头检测方法，其特征在于，包括：

对所述监控图像样本集进行预处理；

获取监控图像集，并输入所述目标检测模型；

2.根据权利要求1所述的一种人头检测方法，其特征在于，基于yolov5算法和SwinTransformer模块建立初始检测模型，利用预处理后的所述监控图像样本训练检测模型，得到目标检测模型，包括：

3.根据权利要求1所述的一种人头检测方法，其特征在于，所述初始检测模型包括：骨干网络、颈部网络和检测头网络；所述骨干网络包括依次相连的Focus层、第一卷积层、第一CSP瓶颈层、第二卷积层、第二CSP瓶颈层、第三卷积层、第三CSP瓶颈层、第四卷积层、池化层和第一Swin Transformer模块；所述颈部网络包括依次相连的第五卷积层、第一上采样层、第一连接层、第四CSP瓶颈层、第二Swin Transformer模块、第六卷积层、第二上采样层、第二连接层、第五CSP瓶颈层、第三Swin Transformer模块、第七卷积层、第三上采样层、第三连接层、第六CSP瓶颈层、第四Swin Transformer模块、第八卷积层、第四连接层、第七CSP瓶颈层、第五Swin Transformer模块、第九卷积层、第五连接层和第八CSP瓶颈层；所述检测头网络包括：第一检测头、第二检测头和第三检测头；所述第一CSP瓶颈层与所述第三连接层连接；所述第二CSP瓶颈层与第二连接层连接；所述第三CSP瓶颈层与第一连接层连接；所述第一Swin Transformer模块与第五卷积层连接；所述第六卷积层与第五连接层连接；所述第七卷积层与第四连接层连接；所述第六CSP瓶颈层与第一检测头连接；所述第七CSP瓶颈层与第二检测头连接；所述第八CSP瓶颈层与第三检测头连接。

4.根据权利要求1所述的一种人头检测方法，其特征在于，利用所述目标检测模型对所述监控图像集进行人头检测，得到人头检测结果，包括：

对所述监控图像集进行切片操作，得到切片特征图；

对所述第五特征图进行第二特征提取，得到第六特征图；

对所述第七特征图进行第二特征提取，得到第八特征图；

5.根据权利要求1所述的一种人头检测方法，其特征在于，所述检测模型的损失函数为：

6.一种人头检测系统，其特征在于，包括：

预处理模块，用于对所述监控图像样本集进行预处理；

7.根据权利要求6所述的一种人头检测系统，其特征在于，训练模块包括：

8.根据权利要求6所述的一种人头检测系统，其特征在于，所述初始检测模型包括：骨干网络、颈部网络和检测头网络；所述骨干网络包括依次相连的Focus层、第一卷积层、第一CSP瓶颈层、第二卷积层、第二CSP瓶颈层、第三卷积层、第三CSP瓶颈层、第四卷积层、池化层和第一Swin Transformer模块；所述颈部网络包括依次相连的第五卷积层、第一上采样层、第一连接层、第四CSP瓶颈层、第二Swin Transformer模块、第六卷积层、第二上采样层、第二连接层、第五CSP瓶颈层、第三Swin Transformer模块、第七卷积层、第三上采样层、第三连接层、第六CSP瓶颈层、第四Swin Transformer模块、第八卷积层、第四连接层、第七CSP瓶颈层、第五Swin Transformer模块、第九卷积层、第五连接层和第八CSP瓶颈层；所述检测头网络包括：第一检测头、第二检测头和第三检测头；所述第一CSP瓶颈层与所述第三连接层连接；所述第二CSP瓶颈层与第二连接层连接；所述第三CSP瓶颈层与第一连接层连接；所述第一Swin Transformer模块与第五卷积层连接；所述第六卷积层与第五连接层连接；所述第七卷积层与第四连接层连接；所述第六CSP瓶颈层与第一检测头连接；所述第七CSP瓶颈层与第二检测头连接；所述第八CSP瓶颈层与第三检测头连接。

9.根据权利要求6所述的一种人头检测系统，其特征在于，所述检测模块包括：

10.根据权利要求6所述的一种人头检测系统，其特征在于，所述检测模型的损失函数为：