CN114882440A - 一种人头检测方法和系统 - Google Patents
一种人头检测方法和系统 Download PDFInfo
- Publication number
- CN114882440A CN114882440A CN202210599635.2A CN202210599635A CN114882440A CN 114882440 A CN114882440 A CN 114882440A CN 202210599635 A CN202210599635 A CN 202210599635A CN 114882440 A CN114882440 A CN 114882440A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature map
- detection
- csp
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 248
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000012544 monitoring process Methods 0.000 claims description 95
- 238000000605 extraction Methods 0.000 claims description 69
- 230000004927 fusion Effects 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉领域,更具体地,涉及一种人头检测方法和系统。本发明通过将Swin Transformer模块引入yolov5算法,使检测模型能更好地关注和融合特征图的全局信息以及上下文信息,挖掘出特征表示的潜能,提取出更有用的特征,提高了拥挤的场景下人头检测的准确率。在此基础上,还对yolov5的检测头分支进行改造,在检测模型的计算量基本不变的同时,提升了对小目标的检测能力,进一步提高人头检测的准确率。此外,选取Alpha‑IoU Loss作为构建检测模型的损失函数,提高检测模型的检测框精度以及增强检测模型的鲁棒性。
Description
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种人头检测方法和系统。
背景技术
随着城市人口的不断增多,在车站、商场等公共场所中,人数统计是维护秩序和安全的一种有效手段,通过人数统计可以预估隐患发生的可能性以便做出管理的决策。在地铁、车站等交通场所,可以通过人数统计来进行安全防范、客流量控制以及车辆调度;在超市和商场,可以通过人数统计来商业分析和经营决策。目前常用的人数统计方法是人工计数、红外人数检测技术、计算机视觉检测技术等。
人工计数是安排工作人员在进出口或者在监控视频中采取目测统计的方式进行人数统计,该方法在人数不多的时候比较精准,但是人工成本较大,而且当某时刻发生拥挤时,难以快速得到精确的人数。
红外检测技术是使用红外传感器对通过的人体进行检测,当行人之间存在一定的间隔时,能比较准确地检测,但当间隔较小时,检测效果就会很差。
计算机视觉检测技术是将计算机视觉里面的目标检测技术应用到视频监控中,自动检测出视频中的人的头部,从而实现人数统计。传统的目标检测技术是提取目标的HOG、SIFT等特征,接着使用AdaBoost、SVM等算法来分类,该方法准确率比较低,而且泛化能力不强。目前效果比较好的是目标检测技术是基于深度学习的检测方法,深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,在计算机视觉领域取得了很多成果。然而随着基于深度学习的检测方法应用逐渐增多,检测方法的缺陷也纷纷涌现,其中尤为突出的就是当发生人群拥挤、人头相互遮挡的情况时,现有的深度学习的目标检测方法准确率不高,致使人头检测的效果不佳。面对人群拥挤和人头相互遮挡这种情况,只有增强检测模型提取有用特征的能力,令检测模型对于图像的识别更精确,才能使目标检测准确率低的现状得以改善。现有的人头检测方法无法适用于复杂的实际场景,在发生人群拥挤、人头相互遮挡的情况下,人头检测的准确率下降,已成了计算机视觉领域迫切要解决的问题之一。因此,目前亟需一种适用于复杂的实际场景,并且能够实时、准确地检测出图像中的人头,从而实现精确的人数统计的人头检测方法和系统。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供一种人头检测方法和系统,用于解决现有的人头检测方法在复杂的实际场景下,人头检测准确率低的问题。
本发明采取的技术方案是:
一种人头检测方法,包括:
采集监控图像,建立监控图像样本集;所述监控图像包括:人的头部和肩部图像以及对应的标注框;所述监控图像样本集包括:监控图像训练集和监控图像测试集;
对所述监控图像样本集进行预处理;
基于yolov5算法和SwinTransformer模块建立初始检测模型,利用预处理后的所述监控图像样本训练检测模型,得到目标检测模型;
获取监控图像集,并输入所述目标检测模型;
利用所述目标检测模型对所述监控图像集进行人头检测,得到人头检测结果。
作为本发明的进一步方案,基于yolov5算法和SwinTransformer模块建立初始检测模型,利用预处理后的所述监控图像样本训练检测模型,得到目标检测模型,包括:
利用所述监控图像训练集对所述初始检测模型进行迭代训练,得到训练后的检测模型;
利用所述监控图像测试集对所述训练后的检测模型进行测试,根据测试结果调整检测模型中相应的模型参数,得到所述目标检测模型。
作为本发明的进一步方案,所述初始检测模型包括:骨干网络、颈部网络和检测头网络;所述骨干网络包括依次相连的Focus层、第一卷积层、第一CSP瓶颈层、第二卷积层、第二CSP瓶颈层、第三卷积层、第三CSP瓶颈层、第四卷积层、池化层和第一Swin Transformer模块;所述颈部网络包括依次相连的第五卷积层、第一上采样层、第一连接层、第四CSP瓶颈层、第二Swin Transformer模块、第六卷积层、第二上采样层、第二连接层、第五CSP瓶颈层、第三Swin Transformer模块、第七卷积层、第三上采样层、第三连接层、第六CSP瓶颈层、第四Swin Transformer模块、第八卷积层、第四连接层、第七CSP瓶颈层、第五SwinTransformer模块、第九卷积层、第五连接层和第八CSP瓶颈层;所述检测头网络包括:第一检测头、第二检测头和第三检测头;所述第一CSP瓶颈层与所述第三连接层连接;所述第二CSP瓶颈层与第二连接层连接;所述第三CSP瓶颈层与第一连接层连接;所述第一SwinTransformer模块与第五卷积层连接;所述第六卷积层与第五连接层连接;所述第七卷积层与第四连接层连接;所述第六CSP瓶颈层与第一检测头连接;所述第七CSP瓶颈层与第二检测头连接;所述第八CSP瓶颈层与第三检测头连接。
作为本发明的进一步方案,利用所述目标检测模型对所述监控图像集进行人头检测,得到人头检测结果,包括:
对所述监控图像集进行切片操作,得到切片特征图;
对所述切片特征图进行多次第一特征提取,得到第一特征图、第二特征图、第三特征图和第四特征图;所述第一特征提取为利用CSP瓶颈层进行的特征提取;
对所述第四特征图进行池化处理、第二特征提取和上采样操作,并且与所述第三特征图进行特征融合,得到第五特征图;所述第二特征提取为利用Swin Transformer模块进行的特征提取;
对所述第五特征图进行第二特征提取,得到第六特征图;
对所述第六特征图进行上采样操作,并且与所述第二特征图进行特征融合,得到第七特征图;
对所述第七特征图进行第二特征提取,得到第八特征图;
对所述第八特征图进行上采样操作,并且和所述第一特征图进行特征融合,得到第九特征图;
对所述第九特征图进行第二特征提取,并且与所述第八特征图进行特征融合,得到第十特征图;
对所述第十特征图进行第二特征提取,并且与所述第六特征图进行特征融合,得到第十一特征图;
将所述第九特征图、所述第十特征图和所述第十一特征图输入相应的检测头,检测头进行中目标、小目标和特小目标的检测,得到人头检测结果。
作为本发明的进一步方案,所述检测模型的损失函数为:
其中,Lossα-DIoU为引入了alpha参数的DIoULoss,IoU为预测框与真实框的交并比,α为参数,ρ为欧氏距离,b为预测框的中心点坐标,bgt为真实框的中心点坐标,c为预测框和真实框最小外界矩形的对角线距离。
本方案还提供一种人头检测系统,包括:
样本模块,用于采集监控图像,建立监控图像样本集;所述监控图像包括:人的头部和肩部图像以及对应的标注框;所述监控图像样本集包括:监控图像训练集和监控图像测试集;
预处理模块,用于对所述监控图像样本集进行预处理;
训练模块,用于基于yolov5算法和SwinTransformer模块建立初始检测模型,利用预处理后的所述监控图像样本训练检测模型,得到目标检测模型;
图像模块,用于获取监控图像集,并输入所述目标检测模型;
检测模块,用于利用所述目标检测模型对所述监控图像集进行人头检测,得到人头检测结果。
作为本发明的进一步方案,训练模块包括:
迭代单元,用于利用所述监控图像训练集对所述初始检测模型进行迭代训练,得到训练后的检测模型;
测试单元,用于利用所述监控图像测试集对所述训练后的检测模型进行测试,根据测试结果调整检测模型中相应的模型参数,得到所述目标检测模型。
作为本发明的进一步方案,所述初始检测模型包括:骨干网络、颈部网络和检测头网络;所述骨干网络包括依次相连的Focus层、第一卷积层、第一CSP瓶颈层、第二卷积层、第二CSP瓶颈层、第三卷积层、第三CSP瓶颈层、第四卷积层、池化层和第一Swin Transformer模块;所述颈部网络包括依次相连的第五卷积层、第一上采样层、第一连接层、第四CSP瓶颈层、第二Swin Transformer模块、第六卷积层、第二上采样层、第二连接层、第五CSP瓶颈层、第三Swin Transformer模块、第七卷积层、第三上采样层、第三连接层、第六CSP瓶颈层、第四Swin Transformer模块、第八卷积层、第四连接层、第七CSP瓶颈层、第五SwinTransformer模块、第九卷积层、第五连接层和第八CSP瓶颈层;所述检测头网络包括:第一检测头、第二检测头和第三检测头;所述第一CSP瓶颈层与所述第三连接层连接;所述第二CSP瓶颈层与第二连接层连接;所述第三CSP瓶颈层与第一连接层连接;所述第一SwinTransformer模块与第五卷积层连接;所述第六卷积层与第五连接层连接;所述第七卷积层与第四连接层连接;所述第六CSP瓶颈层与第一检测头连接;所述第七CSP瓶颈层与第二检测头连接;所述第八CSP瓶颈层与第三检测头连接。
作为本发明的进一步方案,所述检测模块包括:
切片单元,用于对所述监控图像集进行切片操作,得到切片特征图;
第一提取单元,用于对所述切片特征图进行多次第一特征提取,得到第一特征图、第二特征图、第三特征图和第四特征图;所述第一特征提取为利用CSP瓶颈层进行的特征提取;
第一融合单元,用于对所述第四特征图进行池化处理、第二特征提取和上采样操作,并且与所述第三特征图进行特征融合,得到第五特征图;所述第二特征提取为利用SwinTransformer模块进行的特征提取;
第二提取单元,用于对所述第五特征图进行第二特征提取,得到第六特征图;
第二融合单元,用于对所述第六特征图进行上采样操作,并且与所述第二特征图进行特征融合,得到第七特征图;
第三提取单元,用于对所述第七特征图进行第二特征提取,得到第八特征图;
第三融合单元,用于对所述第八特征图进行上采样操作,并且和所述第一特征图进行特征融合,得到第九特征图;
第四融合单元,用于对所述第九特征图进行第二特征提取,并且与所述第八特征图进行特征融合,得到第十特征图;
第五融合单元,用于对所述第十特征图进行第二特征提取,并且与所述第六特征图进行特征融合,得到第十一特征图;
检测单元,用于将所述第九特征图、所述第十特征图和所述第十一特征图输入相应的检测头,检测头进行中目标、小目标和特小目标的检测,得到人头检测结果。
作为本发明的进一步方案,所述检测模型的损失函数为:
其中,Lossα-DIou为引入了alpha参数的DIoULoss,IoU为预测框与真实框的交并比,α为参数,ρ为欧氏距离,b为预测框的中心点坐标,bgt为真实框的中心点坐标,c为预测框和真实框最小外界矩形的对角线距离。
与现有技术相比,本发明的有益效果为:本发明通过将Swin Transformer模块引入yolov5算法,使检测模型能更好地关注和融合特征图的全局信息以及上下文信息,挖掘出特征表示的潜能,提取出更有用的特征,提高了拥挤的场景下人头检测的准确率。在此基础上,还对yolov5的检测头分支进行改造,在检测模型的计算量基本不变的同时,提升了对小目标的检测能力,进一步提高人头检测的准确率。此外,选取Alpha-IoU Loss作为构建检测模型的损失函数,提高检测模型的检测框精度以及增强检测模型的鲁棒性。
附图说明
图1为本发明的方法流程图;
图2为本发明的算法结构图;
图3为本发明的瓶颈层示意图;
图4为本发明的CSP瓶颈层示意图;
图5为本发明的池化层示意图;
图6为本发明的Swin Trans模块示意图;
附图标记说明:骨干网络100、Focus层101、第一卷积层102、第一CSP瓶颈层103、第二卷积层104、第二CSP瓶颈层105、第三卷积层106、第三CSP瓶颈层107、第四卷积层108、池化层109、第一Swin Transformer模块110、颈部网络200、第五卷积层201、第一上采样层202、第一连接层203、第四CSP瓶颈层204、第二Swin Transformer模块205、第六卷积层206、第二上采样层207、第二连接层208、第五CSP瓶颈层209、第三Swin Transformer模块210、第七卷积层211、第三上采样层212、第三连接层213、第六CSP瓶颈层214、第四SwinTransformer模块215、第八卷积层216、第四连接层217、第七CSP瓶颈层218、第五SwinTransformer模块219、第九卷积层220、第五连接层221、第八CSP瓶颈层222、检测头网络300、第一检测头301、第二检测头302、第三检测头303。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例
如图1所示,本实施例提供一种人头检测方法,包括以下步骤:
S100.采集监控图像,建立监控图像样本集;所述监控图像包括:人的头部和肩部图像以及对应的标注框;所述监控图像样本集包括:监控图像训练集和监控图像测试集;
为保证数据的多样性,使得检测模型更具有泛化能力,数据的来源也需要多样性。在本实施例中,监控图像样本分别从公交车站、地铁站、大街、商场等地方的监控视频中收集数据。在数据标注时,监控图像中的标注框包含人的头部以及肩部。标注完数据后,按照8:2的比例将监控图像样本集中的图像划分训练集与测试集。
S200.对所述监控图像样本集进行预处理;
采集的监控图像数量是有限的,并且大多数的监控图像往往会受到光照等天气因素的影响,导致图像本身质量的下降。为了提高训练数据的多样性,增强模型的鲁棒性,对监控图像样本集进行预处理。所述预处理包括:Mosaic数据增强、自适应锚框计算、自适应图片缩放、增加噪声和调整图像对比度。所述Mosaic数据增强包括:随机缩放、随机裁剪、随机排布的方式进行拼接。作为本发明优选的实施方式,预处理选取增加噪声和调整图像对比度,以此模拟不同天气的光照对监控数据的影响。
S300.基于yolov5算法和SwinTransformer模块建立初始检测模型,利用预处理后的所述监控图像样本训练检测模型,得到目标检测模型;
为了在人群高密度拥挤的情况下提取更有效的特征,在本实施例中,分别在yolov5算法的骨干(Backbone)网络和颈部(neck)网络的中引入Swin Transformer模块。本发明通过将Swin Transformer模块引入yolov5算法,使检测模型能更好地关注和融合特征图的全局信息以及上下文信息,挖掘出特征表示的潜能,提取出更有用的特征,提高了拥挤的场景下人头检测的准确率。
作为本发明的进一步方案,S300包括以下步骤:
S310.利用所述监控图像训练集对所述初始检测模型进行迭代训练,得到训练后的检测模型;
S320.利用所述监控图像测试集对所述训练后的检测模型进行测试,根据测试结果调整检测模型中相应的模型参数,得到所述目标检测模型。
S400.获取监控图像集,并输入所述目标检测模型;
S500.利用所述目标检测模型对所述监控图像集进行人头检测,得到人头检测结果。
作为本发明的进一步方案,S500包括以下步骤:
S510.对所述监控图像集进行切片操作,得到切片特征图;
S520.对所述切片特征图进行多次第一特征提取,得到第一特征图、第二特征图、第三特征图和第四特征图;所述第一特征提取为利用CSP瓶颈层进行的特征提取;
对所述第四特征图进行池化处理、第二特征提取和上采样操作,并且与所述第三特征图进行特征融合,得到第五特征图;所述第二特征提取为利用Swin Transformer模块进行的特征提取;
对所述第五特征图进行第二特征提取,得到第六特征图;
对所述第六特征图进行上采样操作,并且与所述第二特征图进行特征融合,得到第七特征图;
对所述第七特征图进行第二特征提取,得到第八特征图;
对所述第八特征图进行上采样操作,并且和所述第一特征图进行特征融合,得到第九特征图;
对所述第九特征图进行第二特征提取,并且与所述第八特征图进行特征融合,得到第十特征图;
对所述第十特征图进行第二特征提取,并且与所述第六特征图进行特征融合,得到第十一特征图;
S530.将所述第九特征图、所述第十特征图和所述第十一特征图输入相应的检测头,检测头进行中目标、小目标和特小目标的检测,得到人头检测结果。
原始的yolov5算法具有三个检测头输出分支,分别对应大、中、小目标的检测,在面向监控图像的人头检测中,需要关注的是小目标的检测。为了检测到较小的人头,在本实施例中,将yolov5的骨干网络的浅层处引出一个检测分支用于特小目标的检测,同时去掉原有的大目标的检测分支,这样检测模型在计算量基本不变的同时加强了对小目标的检测,提高了人头检测的准确率。本发明通过对yolov5的检测头分支进行改造,在检测模型的计算量基本不变的同时,提升了对小目标的检测能力,令人数统计更加精确。
如图2所示,作为本发明的进一步方案,S300所述初始检测模型包括:骨干网络100、颈部网络200和检测头网络300;所述骨干网络包括依次相连的Focus层101、第一卷积层102、第一CSP瓶颈层103、第二卷积层104、第二CSP瓶颈层105、第三卷积层106、第三CSP瓶颈层107、第四卷积层108、池化层109和第一Swin Transformer模块110;所述颈部网络200包括依次相连的第五卷积层201、第一上采样层202、第一连接层203、第四CSP瓶颈层204、第二Swin Transformer模块205、第六卷积层206、第二上采样层207、第二连接层208、第五CSP瓶颈层209、第三Swin Transformer模块210、第七卷积层211、第三上采样层212、第三连接层213、第六CSP瓶颈层214、第四Swin Transformer模块215、第八卷积层216、第四连接层217、第七CSP瓶颈层218、第五Swin Transformer模块219、第九卷积层220、第五连接层221和第八CSP瓶颈层222;所述检测头网络300包括:第一检测头301、第二检测头302和第三检测头303;所述第一CSP瓶颈层103与所述第三连接层218连接;所述第二CSP瓶颈层105与第二连接层208连接;所述第三CSP瓶颈层107与第一连接层203连接;所述第一SwinTransformer模块110与第五卷积层201连接;所述第六卷积层206与第五连接层221连接;所述第七卷积层211与第四连接层217连接;所述第六CSP瓶颈层214与第一检测头301连接;所述第七CSP瓶颈层218与第二检测头302连接;所述第八CSP瓶颈层222与第三检测头303连接。
作为本发明优选的实施方式,第一卷积层102、第二卷积层104、第三卷积层106、第四卷积层108、第八卷积层216和第九卷积层220选取2×3的卷积层,第五卷积层214、第六卷积层102和第七卷积层102选取1×1的卷积层。
如图3所示,所述检测模型的瓶颈层由一个1×1的卷积层和一个3×1的卷积层组成。
如图4所示,所述检测模型的CSP瓶颈层由三个1×1的卷积层、N个瓶颈层和一个连接层组成。
如图5所示,所述检测模型的池化层由两个1×1的卷积层、三个最大池化层和一个连接层组成。
如图6所示,所述检测模型的Swin Trans模块由两个连续的Swin TransformerBlock组成。每个Swin Transformer Block具有MLP、MSA模块和LayerNorm(LN)层。
由于人头检测存在相互遮挡、噪声等问题,为提高检测模型的检测框精度以及增强检测模型的鲁棒性。在本实施例中,选取Alpha-IoU Loss作为构建检测模型的损失函数,基于DIoU Loss来引入alpha参数。S300所述检测模型的损失函数为:
其中,Lossα-DIou为引入了alpha参数的DIoU Loss,IoU为预测框与真实框的交并比,α为参数,ρ为欧氏距离,b为预测框的中心点坐标,bgt为真实框的中心点坐标,c为预测框和真实框最小外界矩形的对角线距离。
本实施例还提供一种人头检测系统,包括:
样本模块,用于采集监控图像,建立监控图像样本集;所述监控图像包括:人的头部和肩部图像以及对应的标注框;所述监控图像样本集包括:监控图像训练集和监控图像测试集;
预处理模块,用于对所述监控图像样本集进行预处理;
训练模块,用于基于yolov5算法和SwinTransformer模块建立初始检测模型,利用预处理后的所述监控图像样本训练检测模型,得到目标检测模型;
作为本发明的进一步方案,训练模块包括:
迭代单元,用于利用所述监控图像训练集对所述初始检测模型进行迭代训练,得到训练后的检测模型;
测试单元,用于利用所述监控图像测试集对所述训练后的检测模型进行测试,根据测试结果调整检测模型中相应的模型参数,得到所述目标检测模型。
图像模块,用于获取监控图像集,并输入所述目标检测模型;
检测模块,用于利用所述目标检测模型对所述监控图像集进行人头检测,得到人头检测结果。
作为本发明的进一步方案,所述检测模块包括:
切片单元,用于对所述监控图像集进行切片操作,得到切片特征图;
第一提取单元,用于对所述切片特征图进行多次第一特征提取,得到第一特征图、第二特征图、第三特征图和第四特征图;所述第一特征提取为利用CSP瓶颈层进行的特征提取;
第一融合单元,用于对所述第四特征图进行池化处理、第二特征提取和上采样操作,并且与所述第三特征图进行特征融合,得到第五特征图;所述第二特征提取为利用SwinTransformer模块进行的特征提取;
第二提取单元,用于对所述第五特征图进行第二特征提取,得到第六特征图;
第二融合单元,用于对所述第六特征图进行上采样操作,并且与所述第二特征图进行特征融合,得到第七特征图;
第三提取单元,用于对所述第七特征图进行第二特征提取,得到第八特征图;
第三融合单元,用于对所述第八特征图进行上采样操作,并且和所述第一特征图进行特征融合,得到第九特征图;
第四融合单元,用于对所述第九特征图进行第二特征提取,并且与所述第八特征图进行特征融合,得到第十特征图;
第五融合单元,用于对所述第十特征图进行第二特征提取,并且与所述第六特征图进行特征融合,得到第十一特征图;
检测单元,用于将所述第九特征图、所述第十特征图和所述第十一特征图输入相应的检测头,检测头进行中目标、小目标和特小目标的检测,得到人头检测结果。
作为本发明的进一步方案,在训练模块中所述初始检测模型包括:骨干网络、颈部网络和检测头网络;所述骨干网络包括依次相连的Focus层、第一卷积层、第一CSP瓶颈层、第二卷积层、第二CSP瓶颈层、第三卷积层、第三CSP瓶颈层、第四卷积层、池化层和第一SwinTransformer模块;所述颈部网络包括依次相连的第五卷积层、第一上采样层、第一连接层、第四CSP瓶颈层、第二Swin Transformer模块、第六卷积层、第二上采样层、第二连接层、第五CSP瓶颈层、第三Swin Transformer模块、第七卷积层、第三上采样层、第三连接层、第六CSP瓶颈层、第四Swin Transformer模块、第八卷积层、第四连接层、第七CSP瓶颈层、第五Swin Transformer模块、第九卷积层、第五连接层和第八CSP瓶颈层;所述检测头网络包括:第一检测头、第二检测头和第三检测头;所述第一CSP瓶颈层与所述第三连接层连接;所述第二CSP瓶颈层与第二连接层连接;所述第三CSP瓶颈层与第一连接层连接;所述第一SwinTransformer模块与第五卷积层连接;所述第六卷积层与第五连接层连接;所述第七卷积层与第四连接层连接;所述第六CSP瓶颈层与第一检测头连接;所述第七CSP瓶颈层与第二检测头连接;所述第八CSP瓶颈层与第三检测头连接。
作为本发明的进一步方案,在训练模块中所述检测模型的损失函数为:
其中,Lossα-DIoU为引入了alpha参数的DIoULoss,IoU为预测框与真实框的交并比,α为参数,ρ为欧氏距离,b为预测框的中心点坐标,bgt为真实框的中心点坐标,c为预测框和真实框最小外界矩形的对角线距离。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种人头检测方法,其特征在于,包括:
采集监控图像,建立监控图像样本集;所述监控图像包括:人的头部和肩部图像以及对应的标注框;所述监控图像样本集包括:监控图像训练集和监控图像测试集;
对所述监控图像样本集进行预处理;
基于yolov5算法和SwinTransformer模块建立初始检测模型,利用预处理后的所述监控图像样本训练检测模型,得到目标检测模型;
获取监控图像集,并输入所述目标检测模型;
利用所述目标检测模型对所述监控图像集进行人头检测,得到人头检测结果。
2.根据权利要求1所述的一种人头检测方法,其特征在于,基于yolov5算法和SwinTransformer模块建立初始检测模型,利用预处理后的所述监控图像样本训练检测模型,得到目标检测模型,包括:
利用所述监控图像训练集对所述初始检测模型进行迭代训练,得到训练后的检测模型;
利用所述监控图像测试集对所述训练后的检测模型进行测试,根据测试结果调整检测模型中相应的模型参数,得到所述目标检测模型。
3.根据权利要求1所述的一种人头检测方法,其特征在于,所述初始检测模型包括:骨干网络、颈部网络和检测头网络;所述骨干网络包括依次相连的Focus层、第一卷积层、第一CSP瓶颈层、第二卷积层、第二CSP瓶颈层、第三卷积层、第三CSP瓶颈层、第四卷积层、池化层和第一Swin Transformer模块;所述颈部网络包括依次相连的第五卷积层、第一上采样层、第一连接层、第四CSP瓶颈层、第二Swin Transformer模块、第六卷积层、第二上采样层、第二连接层、第五CSP瓶颈层、第三Swin Transformer模块、第七卷积层、第三上采样层、第三连接层、第六CSP瓶颈层、第四Swin Transformer模块、第八卷积层、第四连接层、第七CSP瓶颈层、第五Swin Transformer模块、第九卷积层、第五连接层和第八CSP瓶颈层;所述检测头网络包括:第一检测头、第二检测头和第三检测头;所述第一CSP瓶颈层与所述第三连接层连接;所述第二CSP瓶颈层与第二连接层连接;所述第三CSP瓶颈层与第一连接层连接;所述第一Swin Transformer模块与第五卷积层连接;所述第六卷积层与第五连接层连接;所述第七卷积层与第四连接层连接;所述第六CSP瓶颈层与第一检测头连接;所述第七CSP瓶颈层与第二检测头连接;所述第八CSP瓶颈层与第三检测头连接。
4.根据权利要求1所述的一种人头检测方法,其特征在于,利用所述目标检测模型对所述监控图像集进行人头检测,得到人头检测结果,包括:
对所述监控图像集进行切片操作,得到切片特征图;
对所述切片特征图进行多次第一特征提取,得到第一特征图、第二特征图、第三特征图和第四特征图;所述第一特征提取为利用CSP瓶颈层进行的特征提取;
对所述第四特征图进行池化处理、第二特征提取和上采样操作,并且与所述第三特征图进行特征融合,得到第五特征图;所述第二特征提取为利用Swin Transformer模块进行的特征提取;
对所述第五特征图进行第二特征提取,得到第六特征图;
对所述第六特征图进行上采样操作,并且与所述第二特征图进行特征融合,得到第七特征图;
对所述第七特征图进行第二特征提取,得到第八特征图;
对所述第八特征图进行上采样操作,并且和所述第一特征图进行特征融合,得到第九特征图;
对所述第九特征图进行第二特征提取,并且与所述第八特征图进行特征融合,得到第十特征图;
对所述第十特征图进行第二特征提取,并且与所述第六特征图进行特征融合,得到第十一特征图;
将所述第九特征图、所述第十特征图和所述第十一特征图输入相应的检测头,检测头进行中目标、小目标和特小目标的检测,得到人头检测结果。
6.一种人头检测系统,其特征在于,包括:
样本模块,用于采集监控图像,建立监控图像样本集;所述监控图像包括:人的头部和肩部图像以及对应的标注框;所述监控图像样本集包括:监控图像训练集和监控图像测试集;
预处理模块,用于对所述监控图像样本集进行预处理;
训练模块,用于基于yolov5算法和SwinTransformer模块建立初始检测模型,利用预处理后的所述监控图像样本训练检测模型,得到目标检测模型;
图像模块,用于获取监控图像集,并输入所述目标检测模型;
检测模块,用于利用所述目标检测模型对所述监控图像集进行人头检测,得到人头检测结果。
7.根据权利要求6所述的一种人头检测系统,其特征在于,训练模块包括:
迭代单元,用于利用所述监控图像训练集对所述初始检测模型进行迭代训练,得到训练后的检测模型;
测试单元,用于利用所述监控图像测试集对所述训练后的检测模型进行测试,根据测试结果调整检测模型中相应的模型参数,得到所述目标检测模型。
8.根据权利要求6所述的一种人头检测系统,其特征在于,所述初始检测模型包括:骨干网络、颈部网络和检测头网络;所述骨干网络包括依次相连的Focus层、第一卷积层、第一CSP瓶颈层、第二卷积层、第二CSP瓶颈层、第三卷积层、第三CSP瓶颈层、第四卷积层、池化层和第一Swin Transformer模块;所述颈部网络包括依次相连的第五卷积层、第一上采样层、第一连接层、第四CSP瓶颈层、第二Swin Transformer模块、第六卷积层、第二上采样层、第二连接层、第五CSP瓶颈层、第三Swin Transformer模块、第七卷积层、第三上采样层、第三连接层、第六CSP瓶颈层、第四Swin Transformer模块、第八卷积层、第四连接层、第七CSP瓶颈层、第五Swin Transformer模块、第九卷积层、第五连接层和第八CSP瓶颈层;所述检测头网络包括:第一检测头、第二检测头和第三检测头;所述第一CSP瓶颈层与所述第三连接层连接;所述第二CSP瓶颈层与第二连接层连接;所述第三CSP瓶颈层与第一连接层连接;所述第一Swin Transformer模块与第五卷积层连接;所述第六卷积层与第五连接层连接;所述第七卷积层与第四连接层连接;所述第六CSP瓶颈层与第一检测头连接;所述第七CSP瓶颈层与第二检测头连接;所述第八CSP瓶颈层与第三检测头连接。
9.根据权利要求6所述的一种人头检测系统,其特征在于,所述检测模块包括:
切片单元,用于对所述监控图像集进行切片操作,得到切片特征图;
第一提取单元,用于对所述切片特征图进行多次第一特征提取,得到第一特征图、第二特征图、第三特征图和第四特征图;所述第一特征提取为利用CSP瓶颈层进行的特征提取;
第一融合单元,用于对所述第四特征图进行池化处理、第二特征提取和上采样操作,并且与所述第三特征图进行特征融合,得到第五特征图;所述第二特征提取为利用SwinTransformer模块进行的特征提取;
第二提取单元,用于对所述第五特征图进行第二特征提取,得到第六特征图;
第二融合单元,用于对所述第六特征图进行上采样操作,并且与所述第二特征图进行特征融合,得到第七特征图;
第三提取单元,用于对所述第七特征图进行第二特征提取,得到第八特征图;
第三融合单元,用于对所述第八特征图进行上采样操作,并且和所述第一特征图进行特征融合,得到第九特征图;
第四融合单元,用于对所述第九特征图进行第二特征提取,并且与所述第八特征图进行特征融合,得到第十特征图;
第五融合单元,用于对所述第十特征图进行第二特征提取,并且与所述第六特征图进行特征融合,得到第十一特征图;
检测单元,用于将所述第九特征图、所述第十特征图和所述第十一特征图输入相应的检测头,检测头进行中目标、小目标和特小目标的检测,得到人头检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210599635.2A CN114882440B (zh) | 2022-05-30 | 2022-05-30 | 一种人头检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210599635.2A CN114882440B (zh) | 2022-05-30 | 2022-05-30 | 一种人头检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882440A true CN114882440A (zh) | 2022-08-09 |
CN114882440B CN114882440B (zh) | 2024-10-18 |
Family
ID=82680140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210599635.2A Active CN114882440B (zh) | 2022-05-30 | 2022-05-30 | 一种人头检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882440B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035119A (zh) * | 2022-08-12 | 2022-09-09 | 山东省计算中心(国家超级计算济南中心) | 一种玻璃瓶底瑕疵图像检测剔除装置、系统及方法 |
CN116433431A (zh) * | 2023-04-14 | 2023-07-14 | 华中师范大学 | 一种基于图像处理技术的教师教学状态自动评价方法及系统 |
CN116645502A (zh) * | 2023-07-27 | 2023-08-25 | 云南大学 | 输电线路图像检测方法、装置及电子设备 |
CN116664558A (zh) * | 2023-07-28 | 2023-08-29 | 广东石油化工学院 | 一种钢铁表面缺陷检测方法、系统及计算机设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819804A (zh) * | 2021-02-23 | 2021-05-18 | 西北工业大学 | 一种基于改进YOLOv5卷积神经网络的绝缘子缺陷检测方法 |
CN113743260A (zh) * | 2021-08-23 | 2021-12-03 | 北京航空航天大学 | 一种地铁站台密集人流情况下的行人跟踪方法 |
CN113781469A (zh) * | 2021-09-24 | 2021-12-10 | 南方科技大学嘉兴研究院 | 基于yolo改进模型的安全头盔佩戴检测的方法及系统 |
CN114170494A (zh) * | 2021-12-09 | 2022-03-11 | 深圳力维智联技术有限公司 | 目标检测算法模型、目标检测方法、装置及存储介质 |
CN114220015A (zh) * | 2021-12-21 | 2022-03-22 | 一拓通信集团股份有限公司 | 一种基于改进YOLOv5的卫星图像小目标检测方法 |
CN114359789A (zh) * | 2021-12-15 | 2022-04-15 | 深圳力维智联技术有限公司 | 视频图像的目标检测方法、装置、设备及介质 |
CN114445789A (zh) * | 2022-01-24 | 2022-05-06 | 上海宏景智驾信息科技有限公司 | 一种基于半监督transformer检测的自动驾驶场景挖掘方法 |
US20220156534A1 (en) * | 2020-11-17 | 2022-05-19 | Ubtech Robotics Corp Ltd | Target object detection model |
-
2022
- 2022-05-30 CN CN202210599635.2A patent/CN114882440B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220156534A1 (en) * | 2020-11-17 | 2022-05-19 | Ubtech Robotics Corp Ltd | Target object detection model |
CN112819804A (zh) * | 2021-02-23 | 2021-05-18 | 西北工业大学 | 一种基于改进YOLOv5卷积神经网络的绝缘子缺陷检测方法 |
CN113743260A (zh) * | 2021-08-23 | 2021-12-03 | 北京航空航天大学 | 一种地铁站台密集人流情况下的行人跟踪方法 |
CN113781469A (zh) * | 2021-09-24 | 2021-12-10 | 南方科技大学嘉兴研究院 | 基于yolo改进模型的安全头盔佩戴检测的方法及系统 |
CN114170494A (zh) * | 2021-12-09 | 2022-03-11 | 深圳力维智联技术有限公司 | 目标检测算法模型、目标检测方法、装置及存储介质 |
CN114359789A (zh) * | 2021-12-15 | 2022-04-15 | 深圳力维智联技术有限公司 | 视频图像的目标检测方法、装置、设备及介质 |
CN114220015A (zh) * | 2021-12-21 | 2022-03-22 | 一拓通信集团股份有限公司 | 一种基于改进YOLOv5的卫星图像小目标检测方法 |
CN114445789A (zh) * | 2022-01-24 | 2022-05-06 | 上海宏景智驾信息科技有限公司 | 一种基于半监督transformer检测的自动驾驶场景挖掘方法 |
Non-Patent Citations (1)
Title |
---|
ZE LIU: ""Swin transformer: Hierarchical vision transformer using shifted windows"", 《PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 17 October 2021 (2021-10-17), pages 10012 - 10022 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035119A (zh) * | 2022-08-12 | 2022-09-09 | 山东省计算中心(国家超级计算济南中心) | 一种玻璃瓶底瑕疵图像检测剔除装置、系统及方法 |
CN116433431A (zh) * | 2023-04-14 | 2023-07-14 | 华中师范大学 | 一种基于图像处理技术的教师教学状态自动评价方法及系统 |
CN116645502A (zh) * | 2023-07-27 | 2023-08-25 | 云南大学 | 输电线路图像检测方法、装置及电子设备 |
CN116645502B (zh) * | 2023-07-27 | 2023-10-13 | 云南大学 | 输电线路图像检测方法、装置及电子设备 |
CN116664558A (zh) * | 2023-07-28 | 2023-08-29 | 广东石油化工学院 | 一种钢铁表面缺陷检测方法、系统及计算机设备 |
CN116664558B (zh) * | 2023-07-28 | 2023-11-21 | 广东石油化工学院 | 一种钢铁表面缺陷检测方法、系统及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114882440B (zh) | 2024-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114882440B (zh) | 一种人头检测方法和系统 | |
Wu et al. | Detection of bird nests in overhead catenary system images for high-speed rail | |
CN104504377B (zh) | 一种公交车乘客拥挤程度识别系统及方法 | |
CN110852179B (zh) | 基于视频监控平台的可疑人员入侵的检测方法 | |
CN111008600B (zh) | 一种车道线检测方法 | |
CN110516636A (zh) | 一种工序的监测方法、装置、计算机设备和存储介质 | |
CN110765833A (zh) | 一种基于深度学习的人群密度估计方法 | |
CN112183313A (zh) | 一种基于SlowFast的电力作业现场动作识别方法 | |
CN114332473B (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN109740590A (zh) | 基于目标跟踪辅助的roi精确提取方法及系统 | |
Liu et al. | An efficient method for high-speed railway dropper fault detection based on depthwise separable convolution | |
CN112668375B (zh) | 景区内游客分布分析系统及方法 | |
CN111008574A (zh) | 一种基于形体识别技术的重点人员轨迹分析方法 | |
CN109360188A (zh) | 一种高铁接触网等电位线不良状态的检测方法 | |
Tomar et al. | Crowd analysis in video surveillance: A review | |
CN114627526A (zh) | 基于多摄像头抓拍图像的融合去重方法、装置及可读介质 | |
US20230095533A1 (en) | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling | |
CN115719475A (zh) | 一种基于深度学习的三阶段轨旁设备故障自动检测方法 | |
CN115661932A (zh) | 一种垂钓行为检测方法 | |
Bhardwaj et al. | Machine Learning-Based Crowd Behavior Analysis and Forecasting | |
CN111914830B (zh) | 一种图像中的文本行定位方法、装置、设备及系统 | |
Chen et al. | WLR-Net: An Improved YOLO-V7 With Edge Constraints and Attention Mechanism for Water Leakage Recognition in the Tunnel | |
KR20200010658A (ko) | 동일인 인식 방법, 이를 이용하는 컴퓨팅 시스템, 및 프로그램 | |
CN117475353A (zh) | 基于视频的异常烟雾识别方法及系统 | |
CN110490170A (zh) | 一种人脸候选框提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |