CN114862837A - 基于改进YOLOv5s的人体安检图像检测方法及系统 - Google Patents

基于改进YOLOv5s的人体安检图像检测方法及系统 Download PDF

Info

Publication number
CN114862837A
CN114862837A CN202210620330.5A CN202210620330A CN114862837A CN 114862837 A CN114862837 A CN 114862837A CN 202210620330 A CN202210620330 A CN 202210620330A CN 114862837 A CN114862837 A CN 114862837A
Authority
CN
China
Prior art keywords
human body
yolov5s
body security
improved
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210620330.5A
Other languages
English (en)
Inventor
黄文准
石钏
赵正阳
黄磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xijing University
Original Assignee
Xijing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xijing University filed Critical Xijing University
Priority to CN202210620330.5A priority Critical patent/CN114862837A/zh
Publication of CN114862837A publication Critical patent/CN114862837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了基于改进YOLOv5s的人体安检图像检测方法,包括如下步骤:采集实时的太赫兹人体安检图像;利用中值滤波算法和对数非线性变换算法,对太赫兹人体安检图像进行预处理;对预处理后的太赫兹人体安检图像进行标注,基于标注后的太赫兹人体安检图像,获取数据集;构建改进YOLOv5s网络模型;基于数据集对改进YOLOv5s网络模型进行训练;基于训练后的改进YOLOv5s网络模型,获得太赫兹人体安检图像检测结果。本发明具有较好的准确率和实时性,满足太赫兹人体安检系统对可疑目标检测的要求。

Description

基于改进YOLOv5s的人体安检图像检测方法及系统
技术领域
本发明属于太赫兹成像技术领域,尤其涉及基于改进YOLOv5s的人体安检图像检测方法及系统。
背景技术
太赫兹波,是一种介于红外线与微波之间的频率范围在0.1THz~10THz内的电磁波,现阶段普遍研究0.1THz~0.4THz频段。太赫兹成像技术可以获取更高成像精度,在生物医学、无线通信、环境监测以及安全检查等各个领域都有广泛应用。在安检领域,太赫兹成像系统具有能穿透衣物、塑料和纸张等材料,探测金属、液体、陶瓷和粉末等材质物品的独特优势,可用于隐蔽目标的可视化且不涉及隐私问题。相较于传统的X射线,太赫兹辐射的光子能量低,而且被动式太赫兹系统仅接收外界的电磁波能量,不会在生物组织中产生电离而造成人体伤害,逐渐开始被运用到机场、火车站、地铁或重要会议入口等场所的人体安全检测。被动太赫兹成像目前的速度可达每秒10帧,未来甚至会更快,这对人体安全检查的速度和准确性提出了更高的要求。
近年来,在计算机视觉领域,深度学习技术已取得显著成果。相较于传统目标检测算法,基于深度学习进行太赫兹人体安检图像目标检测,不仅满足安检系统实时性的要求,还能自适应学习目标特征。目前,将深度学习算法应用于太赫兹人体安检图像的识别检测任务研究起步较晚,大多数都是借鉴光学图像的目标检测算法,如Xiao H等提出一种经过分层裁剪的Faster R-CNN检测框架,并添加去噪和增强模块提高太赫兹图像质量;侯冰基等提出采用在线困难样本挖掘(Online Hard Example Mining)优化Faster R-CNN的损失函数,解决太赫兹图像中正负样本失衡的问题;Pang L等利用YOLOv3算法进行毫米波图像人体金属违禁品实时检测,提出数据扩展的方法解决图像数据少的问题。以上方法较大提高了检测算法的性能,在太赫兹安全检测领域展现出较好的结果,但由于太赫兹图像质量和隐匿物体未知的位置、形状和大小等因素,在检测速度和检测精度之间难以达到较好的平衡。为满足大客流应用场景中高精度目标识别和实时检测的要求,仍需进一步提升模型性能。
发明内容
为解决上述技术问题,本发明提出基于改进YOLOv5s的人体安检图像检测方法及系统,本发明使用中值滤波结合对数非线性变换算法,增强太赫兹人体安检图像质量,建立样本数据集;添加坐标注意力机制和更换深度可分离卷积改进主干网络,增强网络对可疑物目标的精确定位能力并降低网络参数带来的计算负担;利用加权双向特征金字塔网络改进特征融合模块,实现多尺度输入特征快速有效融合;使用α-CIoU作为边框回归损失函数,提升预测框的回归精度;具有较好的准确率和实时性,满足太赫兹人体安检系统对可疑目标检测的要求。
一方面为实现上述目的,本发明提供了基于改进YOLOv5s的人体安检图像检测方法,包括如下步骤:
采集实时的太赫兹人体安检图像;
利用中值滤波算法和对数非线性变换算法,对所述太赫兹人体安检图像进行预处理;
对预处理后的所述太赫兹人体安检图像进行标注,基于标注后的所述太赫兹人体安检图像,获取数据集;
构建改进YOLOv5s网络模型;
基于所述数据集对所述改进YOLOv5s网络模型进行训练;
基于训练后的所述改进YOLOv5s网络模型,获得所述太赫兹人体安检图像检测结果。
可选地,对所述太赫兹人体安检图像进行预处理的方法为:
利用所述中值滤波算法,对所述太赫兹人体安检图像进行去噪处理;
利用所述对数非线性变换算法,对去噪处理后的所述太赫兹人体安检图像进行增强处理。
可选地,对预处理后的所述太赫兹人体安检图像进行标注的方法为:
使用LabelImg软件制作标签;
基于所述标签,对预处理后的所述太赫兹人体安检图像进行手工标注。
可选地,所述改进YOLOv5s网络模型的构建方法为:
以YOLOv5s网络模型为基础模型;
在所述YOLOv5s网络模型的主干网络中引入坐标注意力机制,更换深度可分离卷积网络;
在所述YOLOv5s网络模型的连接网络中引入加权双向特征金字塔网络;
在所述YOLOv5s网络模型中,使用α-CIoU作为边框回归损失函数;
最终获得所述改进YOLOv5s网络模型。
另一方面为实现上述目的,本发明提供了基于改进YOLOv5s的人体安检图像检测系统,包括:
采集模块、预处理模块、标注模块、构建模块、训练模块和检测模块;
所述采集模块用于采集实时的太赫兹人体安检图像;
所述预处理模块用于利用中值滤波算法和对数非线性变换算法,对所述太赫兹人体安检图像进行预处理;
所述标注模块用于对预处理后的所述太赫兹人体安检图像进行标注,基于标注后的所述太赫兹人体安检图像,获取数据集;
所述构建模块用于构建改进YOLOv5s网络模型;
所述训练模块用于基于所述数据集对所述改进YOLOv5s网络模型进行训练;
所述检测模块用于基于训练后的所述改进YOLOv5s网络模型,获得所述太赫兹人体安检图像检测结果。
可选地,对所述太赫兹人体安检图像进行预处理的过程为:
利用所述中值滤波算法,对所述太赫兹人体安检图像进行去噪处理;
利用所述对数非线性变换算法,对去噪处理后的所述太赫兹人体安检图像进行增强处理。
可选地,对预处理后的所述太赫兹人体安检图像进行标注的过程为:
使用LabelImg软件制作标签;
基于所述标签,对预处理后的所述太赫兹人体安检图像进行手工标注。
可选地,所述改进YOLOv5s网络模型的构建过程为:
以YOLOv5s网络模型为基础模型;
在所述YOLOv5s网络模型的主干网络中引入坐标注意力机制,更换深度可分离卷积网络;
在所述YOLOv5s网络模型的连接网络中引入加权双向特征金字塔网络;
在所述YOLOv5s网络模型中,使用α-CIoU作为边框回归损失函数;
最终获得所述改进YOLOv5s网络模型。
与现有技术相比,本发明具有如下优点和技术效果:
本发明提出了基于改进YOLOv5s的人体安检图像检测方法及系统。通过引入坐标注意力机制(CA)模块来增强模型对目标区域的精确定位,并替换深度可分离网络来解决网络参数冗余的问题,将特征融合方式修改为加权双向特征金字塔网络(BiFPN)来增强多尺度特征的有效表达,改变边框回归损失函数获得更精准的边界框回归。相较于原始模型,改进后的YOLOv5s网络减少了可疑目标的漏检误检情况,在保证检测速度的前提下得到更高检测精度,有利于在安检过程中对人体携带的隐匿物体快速并准确的警报,提高太赫兹人体安检系统的可靠性和准确性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例一的基于改进YOLOv5s的人体安检图像检测方法流程示意图;
图2为本发明实施例一的太赫兹人体安检图像预处理示意图,其中(a)为原图,(b)为图像去噪示意图,(c)为图像增强示意图;
图3为本发明实施例一的CSP模块结构图;
图4为本发明实施例一的SPP结构图;
图5为本发明实施例一的YOLOv5s-THS网络结构示意图;
图6为本发明实施例一的CA模块结构示意图;
图7为本发明实施例一的深度可分离卷积示意图,其中(a)为逐通道卷积示意图,(b)为逐点卷积示意图;
图8为本发明实施例一的BiFPN网络结构示意图;
图9为本发明实施例一的BiFPN_min网络结构示意图;
图10为本发明实施例一的Box_Loss曲线对比图;
图11为本发明实施例一的YOLOv5s改进前后检测结果对比示意图,其中(a)为YOLOv5s算法检测效果图,(b)为YOLOv5s-THS算法检测效果图;
图12为本发明实施例二的基于改进YOLOv5s的人体安检图像检测系统结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本发明提供基于改进YOLOv5s的人体安检图像检测方法,包括如下步骤:
采集实时的太赫兹人体安检图像;
利用中值滤波算法和对数非线性变换算法,对太赫兹人体安检图像进行预处理;
对预处理后的太赫兹人体安检图像进行标注,基于标注后的太赫兹人体安检图像,获取数据集;
构建改进YOLOv5s网络模型;
基于数据集对改进YOLOv5s网络模型进行训练;
基于训练后的改进YOLOv5s网络模型,获得太赫兹人体安检图像检测结果。
进一步地,本实施例数据来源于自主采集,人员将被检物体包含手枪、刀具(金属或陶瓷)、可疑物体(打火机、炸药粉、手机),放置于衣物口袋和用胶带缠绑于大臂、大腿、腰部等,通过太赫兹安检设备采集实时的太赫兹人体安检图像,保存为304×140的JPG图像。
由于成像环境和成像硬件的限制,太赫兹人体安检图像的空间分辨率和对比度往往较低,需要对图像进行预处理来提高精度。本实施例中使用中值滤波算法对太赫兹图像使用进行去噪处理,消除安检设备带来的噪声,再采用对数非线性变换进行增强预处理提高图像对比度值,经过两步预处理后的太赫兹人体安检图像如图2(a)、图2(b)、图2(c)所示。使用LabelImg软件制作标签,对预处理后的太赫兹人体安检图像进行手工标注,包含Pistol(手枪)、Knife(刀具)、Other(其他物体)共3类标签以及目标的外围框,获得数据集,并将标注完成的2500张样本数据集按8:1:1的比例分为训练集、验证集和测试集。
关于YOLOv5s网络部分
YOLOv5是YOLO系列最新的较先进的目标检测网络,具有模型尺寸小、检测速度高、灵活性强等特点,包含四个版本,根据模型的大小,分别为YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,其网络深度和宽度依次增加。考虑到被动式太赫兹人体安检系统对可疑物体的检测精度和速度都有较高要求,本实施例选择实时性和准确性俱佳的YOLOv5s作为基础模型进行研究,模型主要包括四个部分:由输入端(Input)、主干网络(Backbone)、连接网络(Neck)和预测端(Prediction)。
输入端通过Mosaic(马赛克)数据增强操作,将四幅图像随机缩放、裁剪、排布组合成一张图像,并通过自适应图片缩放将尺寸不一的原始图像变换为标准尺寸再送入网络。在训练过程中,采用自适应锚框(anchors)算法,在初始锚框上计算输出预测框,通过对比计算预测框和真实框之间的差值,然后进行反向更新网络参数。
Backbone部分主要包括Focus层、卷积块(CBL)、跨阶段局部网络(Cross StagePartial Network,CSPNet)和空间金字塔池化(Spatial Pyramid Pooling,SPP)模块。Focus模块通过切片操作对输入图像进行裁剪和堆叠,将图片长宽缩小到原始的一半,通道数为原来的4倍,可减少模型计算量,且不会带来信息损失。在YOLOv5s中有两种CSP结构,其中CSP1_X在Backbone网络中实现特征提取,在Neck结构中使用CSP2_X进行预测,二者结构如图3所示。SPP使用内核k={1×1,5×5,9×9,13×13}的最大池化采样方式,在几乎不影响训练速度的情况下提高了网络感受野,并能实现多尺度融合,有利于多尺度可疑物体的检测,模块结构如图4所示。
Neck部分利用了特征金字塔网络(Feature Pyramid Networks,FPN)将深层的语义特征传到浅层,而路径聚合网络(Path Aggregation Network,PAN)则可以将浅层的位置信息传递到更深层,从而提高了定位能力。FPN+PAN结构不仅获得了丰富的语义特征,还获得了较强的定位特征,增强特征融合效果。
预测端经过8倍下采样、16倍下采样和32倍下采样输出三个尺寸的特征图,并通过非极大值抑制(Non Maximum Suppression,NMS)输出置信度最高的预测框信息,从而获得检测结果。
改进的YOLOv5s网络部分
YOLOv5s算法在目前各类目标检测任务中凭借其优越的检测速度和精度被广泛应用,但由于太赫兹人体安检图像存在噪声大、对比度低、边缘模糊等问题,影响了可疑物体特别是体积较小目标的识别效果,原有算法不能达到高精度、实时性的要求。因此,本实施例以YOLOv5s为基础网络,引入坐标注意力机制(Coordinate Attention,CA)和双向特征金字塔网络(Bidirectional Feature Pyramid Network,BiFPN)提高检测准确率,并使用深度可分离卷积(Depthwise Separable Convolution,DSConv)减少引入的模块参数带来的计算压力,最后通过修改损失函数得到更好的预测框,YOLOv5s-THS(Terahertz HumanSecurity)网络结构如图5所示。
关于坐标注意力机制部分
对于太赫兹人体安检图像存在条纹背景、对比度低、特征信息模糊的问题,原YOLOv5s算法在进行采样时容易丢失部分目标的信息,特别是所占像素较小的可疑物目标,故本实施例在该模型的Backbone部分引入了CA模块,提高网络对多类目标重要特征的关注度,从而提升检测精度。SE(Squeeze-and-Excitation Attention)模块只关注通道信息而忽略位置信息,CBAM(Convolutional Block Attention Module Attention)模块采用局部卷积只能捕获局部的信息,无法获得长程依赖。Hou Q等学者针对前两者的局限性在CVPR2021中提出CA模块,在通道注意中嵌入位置信息,把通道注意力分解为纵向和横向的一维特征编码过程,在两个方向上对特征进行聚合,在不增加运算代价的情况下,得到更多的区域信息。
CA模块的结构如图6所示,其具体操作包括两个步骤:坐标信息嵌入(CoordinateInformation Embedding)和坐标注意力生成(Coordinate Attention Generation)。第一个步骤是针对维度为C×H×W的特征图X,其中C为通道数,H和W表示为输入图像的高度和宽度,采用(H,1)和(1,W)的池化核,将通道沿着横向和纵向进行一维特征编码,从而获得在高度和宽度两个方向的特征图Zh和Zw,大小为C×H×1和C×1×W。第二个步骤是将前一步骤所产生的特征图进行拼接,再利用1×1的卷积和非线性激活函数获得一个中间特征图f∈RC /r×1×(H+W),其中r为下采样比例,然后将f沿空间维度分解为fh∈RC/r×H×1和fw∈RC/r×1×W两个单独的张量,通过两个1×1卷积变换得到fh∈RC×H×1和fw∈RC×1×W,用激活函数Sigmoid(x)求得两个方向的注意力权重gh和gw,最后将两个权重与输入特征相乘作为输出特征图。
CA模块可灵活运用于移动网络中,作者表示在MobileNetV2、EfficientNet等网络插入该模块后在各类任务中的表现结果均优于其他注意力机制。为了提高网络在更大范围内准确定位并识别可疑物,增强模型对小体积可疑物品的检测能力,并考虑安检系统的准确率和实时性,本实施例在特征提取网络中引入2个CA模块。
关于深度可分离卷积部分
深度可分离卷积的操作过程如图7(a)、图7(b)所示,以3通道图像输出4通道的特征图为例。首先,通过逐通道卷积(Depthwise Convolution,DWConv)操作,3个通道各自卷积生成3张特征图,卷积核的数目、生成的特征图数量和通道数一致;其次,通过逐点卷积(Pointwise Convolution,PWConv)操作,实现1×1×3卷积对上一步生成的特征图进行加权组合,最后生成的特征图与标准卷积具有相同维度的特征图。在输入输出相同的情况下,深度可分离卷积的参数量仅为标准卷积的1/3,本实施例建议用较少的参数和操作的深度可分离卷积代替网络中的标准卷积,该卷积不仅可以降低网络参数,减少引入CA模块带来的计算压力,而且更能满足太赫兹安检系统的实时需求。
关于加权双向特征金字塔网络部分
YOLOv5s网络的Neck部分采用FPN+PAN结构对多尺度特征进行融合,虽然得到的预测特征图具有较高的语义信息和位置信息,但是该结构只是把不同的输入特征叠加在一起,无法充分利用不同尺度的特征。谷歌大脑团队在此基础上,提出了一种加权双向特征金字塔网络(BiFPN),该网络可以方便快速地进行多尺度的特征融合,其结构如图8所示。
BiFPN跨尺度连接的优化方法包括三步。第一,删除只有一个输入边且没有特征融合的节点,因为它对特征网络的影响较小还可简化网络;第二,在同一级的输入节点与输出节点之间添加一个跳跃连接,可融合更多特征且不用增加太多计算成本;第三,将BiFPN看作一个特征网络层,可以重复堆叠多次使用以实现更高级别的特征融合。BiFPN使用快速归一化融合(Fast Normalized Fusion)机制,用每个可学习的权重比上所有权值加和实现归一化,将范围放缩到[0,1]之间,由于没有每个权重应用归一化指数函数(Softmax)具有较高的训练效率,如公式(1)所示,其中,In和Out分别表示输入和输出特征,wi是可学习的权重且wi≥0,ε=0.0001确保数值稳定。
Figure BDA0003676346330000131
BiFPN引入了权值能够有效学习不同输入特征的重要性,对获取的特征信息进行高效融合,本实施例基于此思想,将BiFPN简化为3个输入层,记为BiFPN_min,网络结构如图9所示。使用BiFPN_min对网络的三个特征层进行特征提取,降低了计算量,实现了对各种特征快速、高效的融合,提高了对太赫兹人体安检图像可疑物的检测精度。
关于损失函数部分
YOLOv5s的损失函数包括置信度损失(Objectness Loss)、分类损失(Classification Loss)和边框回归损失(Bounding Box Regeression Loss),其中的Objectness Loss和Classification Loss由二元交叉熵损失函数(BCE Loss)计算得出,边框坐标损失由GIoU(Generalized Intersection over Union)计算。总损失公式定义为:
Loss=λ1Lobj2Lcla3Lbbox (2)
其中λ1、λ2、λ3为权重系数。
原始网络中使用GIoU来进行边框回归预测,通过预测框和真实框的交并比计算获得损失。假设A为预测框,B为真实框,引入C作为预测框和真实框的最小外接矩形框,GIoULoss计算公式如(3)~(5):
Figure BDA0003676346330000141
Figure BDA0003676346330000142
LGIoU=1-GIoU(5)
GIoU虽然解决了预测框和真实框的重合度大小以及在完全没有重叠的情况下距离情况,但是当两个框属于包含关系时无法确认相对位置,并且两个框相交时在水平和垂直方向误差较大,很难收敛。基于上述问题,天津大学的Zheng Z等人在2020AAAI中提出完全交比损失函数(Complete Intersection over Union Loss,CIoU Loss),根据中心点之间的距离归一化并增加对长宽比的惩罚项,从而使预测框更加接近真实框。CIoU Loss公式如下:
Figure BDA0003676346330000143
其中ρ()是指预测框与目标框两个中心点之前的欧式距离,a和b分别表示A和B两个框的中心点,c是最小外接矩形框的对角距离。β是权重函数,v用于衡量长宽比的相似度,其表达式为:
Figure BDA0003676346330000151
Figure BDA0003676346330000152
其中w和wgt分别代表了预测框和真实框的宽度,h和hgt分别表示预测框和真实框的高度。
该损失函数考虑了两个框的重合面积、中心点的距离和长宽比的相似性,使预测框更加符合真实框,达到收敛速度更快、精度更高的目的。He J等学者在CVPR2021中提出了Alpha-IoU(α-IoU)损失函数,仅在现有的IoU Loss中引入幂变换得到新的IoU及惩罚项,能够概括现有的基于IoU的损失获得更精准的边界框回归。基于CIoU采取幂变换得到的α-CIoU损失函数公式如下:
Figure BDA0003676346330000153
其中参数α作为α-CIoU损失的超参数,可以满足不同水平的方框回归精度,实验证明在大多数情况下α为3时可得到最好效果。相较于GIoU和CIoU,α-CIoU损失不会引入额外的参数,也不增加训练和推理时间,可以得到更高的回归精度,因此本实施例选择具有更优性能的α-CIoU作为边框回归损失函数。
对改进YOLOv5s网络模型进行训练和测试,得出改进前后的YOLOv5s网络模型在太赫兹人体安检图像中目标检测结果。
为评估改进后的算法性能,选取平均精度(Average Precision,AP)、平均精度均值(mean Average Precision,mAP)和帧率(Frames Per Second,FPS)作为模型性能评价指标。AP表示单个类别的平均准确率,mAP是数据集中所有类别的平均精度的均值,以上两个指标值越大则检测效果越好。FPS表示网络每秒能处理的图片数量,其值越大模型的处理速度越快。其中,AP与mAP通过模型训练样本的准确度(Precision)和召回率(Recall)计算,其表达式为:
Figure BDA0003676346330000161
Figure BDA0003676346330000162
其中,TP表示目标被正确预测的数目,FP表示被误检的个数,FN表示未被检测的目标个数。AP是以Recall为横轴和以Precision为纵轴组成的曲线与坐标轴围成的区域面积,对各类别的AP取均值可得所有类别的mAP,计算公式如下所示:
Figure BDA0003676346330000163
Figure BDA0003676346330000164
式中
Figure BDA0003676346330000165
是所有类别的平均准确率,N是目标类别数量。
将改进前后的YOLOv5s模型在太赫兹人体安检图像数据集上进行对比实验,以此验证引入注意力机制和修改特征融合网络后的YOLOv5s-THS网络的有效性,在相同参数配置下分别训练300轮,两个模型训练的Loss曲线对比如图10所示。由训练过程的边框回归损失曲线显示,损失值在前50个epoch迅速下降,在250轮之后趋于稳定。相较于原始模型,YOLOv5s-THS网络损耗收敛速度更快,且损失值一直都小于原算法的损失值。以Precision、Recall、mAP(IoU=0.5)和FPS作为模型评价指标,对比结果如表1YOLOv5s改进前后性能指标对比表所示。
表1
Figure BDA0003676346330000171
由表1可知,改进后的网络mAP值达到了84.29%,相比于原模型提高了1.7%,并且在手枪、刀具、其他三个类别均有较好的检测效果,准确率最高可达到89.17%。另外,使用深度可分离卷积的YOLOv5s-THS网络检测速度相比原模型只慢了1.02帧/s,在检测速率没有明显降低的情况下,换来了检测精度大幅提升,这表明本实施例提出的算法能够满足太赫兹人体安检图像中各类物体准确并快速检测的要求,改进策略是有效的。
为了更直观地反映网络检测效果,将YOLOv5s算法和改进后的YOLOv5s-THS算法检测预测结果进行对比,预测结果由边框标记目标位置,并显示该目标的类别和置信度,对比如图11所示,其中图11(a)是YOLOv5s算法检测效果图,图11(b)是YOLOv5s-THS算法检测效果图。很显然,由于太赫兹人体图像中各类目标与人体的亮度相近,对比度低且边缘特征模糊,导致原模型算法检测出的结果置信度相对较低,YOLOv5s-THS算法引入CA模块提高了对目标特征的学习能力,能更好区分人体和人体携带的物品,能够将可疑物体正确检出且提高了检测的置信度。结果证明,改进后的模型能够更准确检测太赫兹人体安检图像中各类被检目标,表现出了更优越的性能。
关于改进的YOLOv5s网络模型先进性的验证
为验证本实施例提出方法的先进性,在相同参数配置下以太赫兹人体安检图像中目标的分类和定位为基础,选取4种主流网络进行对比实验,包含Faster R-CNN、SSD、YOLOv4、YOLOv5s和改进的YOLOv5s模型,为了满足实际安检过程中对识别精度和速度的要求,以平均精度、检测速度和模型大小作为评估指标,实验结果如表2不同算法的检测结果综合对比所示。
表2
Figure BDA0003676346330000181
由表2可以得知,本实施例提出的改进算法在太赫兹人体安检图像数据集中,取得了最好的检测精度,mAP值达到84.29%,与Faster R-CNN、SSD、YOLOv4和YOLOv5s相比,分别提高了5.21%、5.62%、4.69%和1.7%。对于检测速度,在工程应用上一般以30帧/s为合格标准,在此基数上帧率越高表示实时检测的效果越好,本实施例所提方法在预测速度上可达到31.58帧/s,相比于同系列的YOLOv4提高1.38帧/s,虽然检测速度比原模型降低了1.02帧/s,但仍然可以满足安检系统实时检测的需求。考虑到检测算法需要部署在太赫兹安检系统中,模型越小则更容易部署并达到更便利、快捷、稳定的标准,YOLOv5s-THS模型权重为15.9MB,虽然比原模型的权重多了1.1MB,但相比于其他主流模型仍然具有较小的规模,说明YOLOv5s-THS在保证原模型实时快速的检测速度的前提下,能够取得更高的预测精度,还能具有更小的规模便于部署,可以满足高密度人群中安全检查的需求。
综上所示,本实施例提出的改进算法在太赫兹人体安检图像检测任务中具有更优的预测精度、检测速度和模型大小,相较于其他对比算法拥有更好的综合性能,验证了改进模型的可行性和先进性。
消融实验
为了进一步探讨各个改进模块的优化作用,以原始YOLOv5s网络为基线模型进行了消融实验,结果如表3消融实验结果所示,其中序号1使用基线模型YOLOv5s。从实验结果来看,引入CA模块后,平均精度均值提高了1.39%,能够更加精准地定位和识别被检物体,但检测速度降低了0.7帧/s;替换深度可分离卷积网络会损失少量准确率,相比原模型下降了0.82%,但检测速度明显提升了2.22帧/s,修改特征金字塔结构使mAP值提高了1.62%,增强目标特征的表达提高检测准确率,但速度下降1.85帧/s;修改边框损失函数在检测速度影响不大的情况下整体提高了检测效果。将四个改进点同时加入基础模型,精确度和检测速度都有提升,实验证明本实施例提出的改进方法可以更好实现太赫兹人体安检图像检测与识别,满足安检系统实时检测的要求。
表3
Figure BDA0003676346330000201
实施例二
如图12所示,本发明公开了基于改进YOLOv5s的人体安检图像检测系统,包括:
采集模块、预处理模块、标注模块、构建模块、训练模块和检测模块;
采集模块用于采集实时的太赫兹人体安检图像;
预处理模块用于利用中值滤波算法和对数非线性变换算法,对太赫兹人体安检图像进行预处理;
标注模块用于对预处理后的太赫兹人体安检图像进行标注,基于标注后的太赫兹人体安检图像,获取数据集;
构建模块用于构建改进YOLOv5s网络模型;
训练模块用于基于数据集对改进YOLOv5s网络模型进行训练;
检测模块用于基于训练后的改进YOLOv5s网络模型,获得太赫兹人体安检图像检测结果。
进一步地,对太赫兹人体安检图像进行预处理的过程为:
利用中值滤波算法,对太赫兹人体安检图像进行去噪处理;
利用对数非线性变换算法,对去噪处理后的太赫兹人体安检图像进行增强处理。
进一步地,对预处理后的太赫兹人体安检图像进行标注的过程为:
使用LabelImg软件制作标签;
基于标签,对预处理后的太赫兹人体安检图像进行手工标注。
进一步地,数据集包括:训练集、验证集和测试集。
进一步地,改进YOLOv5s网络模型的构建过程为:
以YOLOv5s网络模型为基础模型;
在YOLOv5s网络模型的主干网络中引入坐标注意力机制,更换深度可分离卷积网络;
在YOLOv5s网络模型的连接网络中引入加权双向特征金字塔网络;
在YOLOv5s网络模型中,使用α-CIoU作为边框回归损失函数;
最终获得改进YOLOv5s网络模型。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.基于改进YOLOv5s的人体安检图像检测方法,其特征在于,包括以下步骤:
采集实时的太赫兹人体安检图像;
利用中值滤波算法和对数非线性变换算法,对所述太赫兹人体安检图像进行预处理;
对预处理后的所述太赫兹人体安检图像进行标注,基于标注后的所述太赫兹人体安检图像,获取数据集;
构建改进YOLOv5s网络模型;
基于所述数据集对所述改进YOLOv5s网络模型进行训练;
基于训练后的所述改进YOLOv5s网络模型,获得所述太赫兹人体安检图像检测结果。
2.根据权利要求1所述的基于改进YOLOv5s的人体安检图像检测方法,其特征在于,对所述太赫兹人体安检图像进行预处理的方法为:
利用所述中值滤波算法,对所述太赫兹人体安检图像进行去噪处理;
利用所述对数非线性变换算法,对去噪处理后的所述太赫兹人体安检图像进行增强处理。
3.根据权利要求1所述的基于改进YOLOv5s的人体安检图像检测方法,其特征在于,对预处理后的所述太赫兹人体安检图像进行标注的方法为:
使用LabelImg软件制作标签;
基于所述标签,对预处理后的所述太赫兹人体安检图像进行手工标注。
4.根据权利要求1所述的基于改进YOLOv5s的人体安检图像检测方法,其特征在于,所述改进YOLOv5s网络模型的构建方法为:
以YOLOv5s网络模型为基础模型;
在所述YOLOv5s网络模型的主干网络中引入坐标注意力机制,更换深度可分离卷积网络;
在所述YOLOv5s网络模型的连接网络中引入加权双向特征金字塔网络;
在所述YOLOv5s网络模型中,使用α-CIoU作为边框回归损失函数;
最终获得所述改进YOLOv5s网络模型。
5.基于改进YOLOv5s的人体安检图像检测系统,其特征在于,包括:采集模块、预处理模块、标注模块、构建模块、训练模块和检测模块;
所述采集模块用于采集实时的太赫兹人体安检图像;
所述预处理模块用于利用中值滤波算法和对数非线性变换算法,对所述太赫兹人体安检图像进行预处理;
所述标注模块用于对预处理后的所述太赫兹人体安检图像进行标注,基于标注后的所述太赫兹人体安检图像,获取数据集;
所述构建模块用于构建改进YOLOv5s网络模型;
所述训练模块用于基于所述数据集对所述改进YOLOv5s网络模型进行训练;
所述检测模块用于基于训练后的所述改进YOLOv5s网络模型,获得所述太赫兹人体安检图像检测结果。
6.根据权利要求5所述的基于改进YOLOv5s的人体安检图像检测系统,其特征在于,对所述太赫兹人体安检图像进行预处理的过程为:
利用所述中值滤波算法,对所述太赫兹人体安检图像进行去噪处理;
利用所述对数非线性变换算法,对去噪处理后的所述太赫兹人体安检图像进行增强处理。
7.根据权利要求5所述的基于改进YOLOv5s的人体安检图像检测系统,其特征在于,对预处理后的所述太赫兹人体安检图像进行标注的过程为:
使用LabelImg软件制作标签;
基于所述标签,对预处理后的所述太赫兹人体安检图像进行手工标注。
8.根据权利要求5所述的基于改进YOLOv5s的人体安检图像检测系统,其特征在于,所述改进YOLOv5s网络模型的构建过程为:
以YOLOv5s网络模型为基础模型;
在所述YOLOv5s网络模型的主干网络中引入坐标注意力机制,更换深度可分离卷积网络;
在所述YOLOv5s网络模型的连接网络中引入加权双向特征金字塔网络;
在所述YOLOv5s网络模型中,使用α-CIoU作为边框回归损失函数;
最终获得所述改进YOLOv5s网络模型。
CN202210620330.5A 2022-06-02 2022-06-02 基于改进YOLOv5s的人体安检图像检测方法及系统 Pending CN114862837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210620330.5A CN114862837A (zh) 2022-06-02 2022-06-02 基于改进YOLOv5s的人体安检图像检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210620330.5A CN114862837A (zh) 2022-06-02 2022-06-02 基于改进YOLOv5s的人体安检图像检测方法及系统

Publications (1)

Publication Number Publication Date
CN114862837A true CN114862837A (zh) 2022-08-05

Family

ID=82640594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210620330.5A Pending CN114862837A (zh) 2022-06-02 2022-06-02 基于改进YOLOv5s的人体安检图像检测方法及系统

Country Status (1)

Country Link
CN (1) CN114862837A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471729A (zh) * 2022-11-03 2022-12-13 青岛科技大学 一种基于改进YOLOv5的舰船目标识别方法及系统
CN115497056A (zh) * 2022-11-21 2022-12-20 南京华苏科技有限公司 基于深度学习的区域内遗失物品检测方法
CN115564320A (zh) * 2022-12-06 2023-01-03 成都智元汇信息技术股份有限公司 一种面向多智能算法的调度管理方法及装置及介质
CN116894102A (zh) * 2023-06-26 2023-10-17 珠海微度芯创科技有限责任公司 毫米波成像视频流的过滤方法、装置、设备、存储介质
CN117095158A (zh) * 2023-08-23 2023-11-21 广东工业大学 一种基于多尺度分解卷积的太赫兹图像危险品检测方法
CN117115583A (zh) * 2023-08-09 2023-11-24 广东工业大学 基于交叉融合注意力机制的危险品检测方法及装置
CN117197787A (zh) * 2023-08-09 2023-12-08 海南大学 基于改进YOLOv5的智能安检方法、装置、设备及介质
CN117237752A (zh) * 2023-08-09 2023-12-15 北京城建智控科技股份有限公司 一种基于改进的pp-yoloe模型的安全帽佩戴检测方法
CN117576597A (zh) * 2024-01-15 2024-02-20 深圳市金飞杰信息技术服务有限公司 一种基于无人机驾驶的视觉识别方法及其系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471729A (zh) * 2022-11-03 2022-12-13 青岛科技大学 一种基于改进YOLOv5的舰船目标识别方法及系统
CN115471729B (zh) * 2022-11-03 2023-08-04 青岛科技大学 一种基于改进YOLOv5的舰船目标识别方法及系统
CN115497056A (zh) * 2022-11-21 2022-12-20 南京华苏科技有限公司 基于深度学习的区域内遗失物品检测方法
CN115564320A (zh) * 2022-12-06 2023-01-03 成都智元汇信息技术股份有限公司 一种面向多智能算法的调度管理方法及装置及介质
CN115564320B (zh) * 2022-12-06 2023-04-07 成都智元汇信息技术股份有限公司 一种面向多智能算法的调度管理方法及装置及介质
CN116894102A (zh) * 2023-06-26 2023-10-17 珠海微度芯创科技有限责任公司 毫米波成像视频流的过滤方法、装置、设备、存储介质
CN116894102B (zh) * 2023-06-26 2024-02-20 珠海微度芯创科技有限责任公司 毫米波成像视频流的过滤方法、装置、设备、存储介质
CN117237752A (zh) * 2023-08-09 2023-12-15 北京城建智控科技股份有限公司 一种基于改进的pp-yoloe模型的安全帽佩戴检测方法
CN117197787A (zh) * 2023-08-09 2023-12-08 海南大学 基于改进YOLOv5的智能安检方法、装置、设备及介质
CN117115583A (zh) * 2023-08-09 2023-11-24 广东工业大学 基于交叉融合注意力机制的危险品检测方法及装置
CN117115583B (zh) * 2023-08-09 2024-04-02 广东工业大学 基于交叉融合注意力机制的危险品检测方法及装置
CN117095158A (zh) * 2023-08-23 2023-11-21 广东工业大学 一种基于多尺度分解卷积的太赫兹图像危险品检测方法
CN117095158B (zh) * 2023-08-23 2024-04-26 广东工业大学 一种基于多尺度分解卷积的太赫兹图像危险品检测方法
CN117576597A (zh) * 2024-01-15 2024-02-20 深圳市金飞杰信息技术服务有限公司 一种基于无人机驾驶的视觉识别方法及其系统
CN117576597B (zh) * 2024-01-15 2024-04-12 深圳市金飞杰信息技术服务有限公司 一种基于无人机驾驶的视觉识别方法及其系统

Similar Documents

Publication Publication Date Title
CN114862837A (zh) 基于改进YOLOv5s的人体安检图像检测方法及系统
EP3869459B1 (en) Target object identification method and apparatus, storage medium and electronic apparatus
WO2020134848A1 (zh) 应用于毫米波安检仪的智能检测方法、装置以及存储装置
CN110462633A (zh) 一种人脸识别的方法、装置和电子设备
CN111505632B (zh) 基于功率谱和多普勒特征的超宽带雷达动作姿态识别方法
EP3696725A1 (en) Tool detection method and device
CN109766755A (zh) 人脸识别方法及相关产品
CN109740522B (zh) 一种人员检测方法、装置、设备及介质
CN106559749A (zh) 一种基于射频层析成像的多目标被动式定位方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
Yu et al. Design and performance evaluation of an ai-based w-band suspicious object detection system for moving persons in the iot paradigm
Zheng et al. Human posture reconstruction for through-the-wall radar imaging using convolutional neural networks
CN110520865A (zh) 人脸识别的方法、装置和电子设备
CN110728213A (zh) 一种基于无线射频信号的细粒度人体姿态估计方法
CN111598028A (zh) 一种基于遥感成像原理识别地表植被分布方法
CN106447634A (zh) 一种基于有源毫米波成像的隐私部位定位与保护方法
CN106897999A (zh) 基于尺度不变特征变换的苹果图像融合方法
CN112528811A (zh) 行为识别方法和装置
CN115422962A (zh) 一种基于毫米波雷达和深度学习算法的姿态和手势识别方法及装置
Yuenyong et al. Automatic detection of knives in infrared images
CN116453160A (zh) 基于毫米波成像的可疑物品无停留式检测方法及系统
Zhang et al. Cross-domain gesture recognition via learning spatiotemporal features in Wi-Fi sensing
Zhu Image quality assessment model based on multi-feature fusion of energy Internet of Things
CN116778214A (zh) 一种行为检测方法、装置、设备及其存储介质
Liu et al. Salient object detection fusing global and local information based on nonsubsampled contourlet transform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination