CN114821032A - 基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法 - Google Patents
基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法 Download PDFInfo
- Publication number
- CN114821032A CN114821032A CN202210236225.1A CN202210236225A CN114821032A CN 114821032 A CN114821032 A CN 114821032A CN 202210236225 A CN202210236225 A CN 202210236225A CN 114821032 A CN114821032 A CN 114821032A
- Authority
- CN
- China
- Prior art keywords
- network
- abnormal state
- target
- state detection
- bounding box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000004913 activation Effects 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 45
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 10
- 230000006872 improvement Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000779 smoke Substances 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,包括:(1)输入待检测目标的视频数据,生成视频流,解码成图片序列;(2)等比例压缩或拉伸;(3)对图像进行去模糊处理;(4)利用改进的YOLOv5的检测模型即训练好的特殊目标异常状态检测模型,将图像序列进行分割,对每个方格都给出多个预测框,输出所有的预测边界框和及其对应的类别;(5)筛除重复的预测边界框,输出最终的识别结果;(6)返回待检测的目标的位置,发出警告,并进行跟踪。本发明采用Swish函数作为YOLOv5网络的激活函数,优化了训练过程,修改了Anchor组提升对小目标检测效果,使用CIOU修改代价函数,加快训练过程。
Description
技术领域
本发明涉及深度学习、计算机视觉,特别涉及一种基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法。
背景技术
快速准确地进行特殊目标异常状态检测与跟踪对国家的安全有十分重要的意义。由于特定场景条件复杂干扰较多,个别特殊目标与非特殊目标类别间差异较小,发生异常时,图形存在各种光影误差,丛林或者烟雾遮挡,图像模糊以及背景影响等复杂问题。选择快速准确的特定场景的检测与跟踪算法对于维护一个国家的安全、预警并做出快速反应等都有有着十分重要的作用。因此,快速准确进行特殊目标异常状态检测与跟踪的方法就显得尤为重要。
在2016年YOLO网络提出前,目标检测算法主要是以两步检测法为主,通过重用分类器来执行检测;生成一个边界框,然后在边界框中进行分类,分类后消除部分重复边界框,并根据场景中的其他目标对边界框重新评估,过程极其复杂,每一部分都必须单独训练,在端到端设计中很难对如此复杂的网络进行优化。而YOLO网络通过重新利用分类器对目标进行检测,将目标检测问题看作是回归问题,在预测边界的同时进行分类给出类别的置信度,在整个的检测过程中只用了一个神经网络结构。因此,十分易于对目标检测性能进行端到端的优化,并大幅度提高检测效率。但YOLO系列网络同其他的检测网络一样都存在着多类别检测效果较差的现象,此外YOLO网络由于激活函数以及IOU的设置,其收敛速率相对较慢,也在一定程度上影响了模型的优化。在特定场景下对图像进行预处理,以及选改进YOLO网络后处理,对精确检测特殊目标的异常状态,以及准确地对目标跟踪都有着重要意义。
发明内容
针对现有技术的不足,本发明提出了一种基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,对特定场景下的检测难点进行针对性的改进。
本发明从YOLOv5网络的激活函数、网络结构以及非极大值抑制算法进行创新,使用Swish函数来代替YOLOv5原激活函数Leaky ReLU函数,Swish函数在表现上功能更稳定,拟合效果更好;本发明改进了Anchor的设置,优化模型对小目标的检测;并使用了CIOU来代替IOU与GIOU提高YOLOv5在训练使得收敛速率,并对各种预测框和真实框的相交情况进行了区分,从而更好的训练模型参数。为了让YOLOv5在特定场景中表现更良好,特别在输入YOLO网络前对图像进行预处理,利用DeblurGAN网络对图像进行修复去模糊,提高对不清晰目标的检测效果。最后,在目标检测完成后使用小型的ResNet-18网络改进的Deep SORT算法来进行目标的跟踪,加深了对目标外观信息的特征提取,优化了跟踪性能。
为了实现上述目的,本发明的技术方案为:
基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,包括以下步骤:
(1)输入待检测目标的视频数据,生成视频流,并将视频流解码成图片序列;
(2)对步骤(1)中的图片序列的尺寸进行等比例压缩或者等比例拉伸;
(3)对步骤(2)中的缩放后的图片进行预处理,对图像进行去模糊处理;
(4)对步骤(3)中预处理完成的图像,利用改进的YOLOv5的检测模型即训练好的特殊目标异常状态检测模型,将图像序列进行分割,对每一个方格都给出多个预测框,输出所有的预测边界框和及其对应的类别;
(5)对步骤(4)中得到的边界框数据,筛除一些置信度不符合要求的边界框,并筛除重复的预测边界框,输出最终的识别结果;如果正常,结束,否则,进入步骤(6);
(6)返回待检测的目标的位置,发出警告,并对步骤(5)中得到的目标进行跟踪,返回跟踪信息。
根据本发明优选的,训练好的特殊目标异常状态检测模型的训练过程如下:
从网络上获取图片,并进行人工标注,作为数据集;
对数据集中的图片进行平移、旋转、添加随机噪声方式来扩充数据集;
把数据集分为作训练集与测试集;
将训练集输入至改进后的YOLOv5进行训练;
采用测试集对训练好的特殊目标异常状态检测模型验证检测结果的精度,最终得到训练好的特殊目标异常状态检测模型。
根据本发明优选的,步骤(3)中,使用DeblurGAN网络对图像进行去模糊处理。
根据本发明优选的,步骤(4)中,使用改进的YOLOv5网络将图像序列进行分割,对每一个方格都给出多个预测框并输出所有的框信息,改进的YOLOv5网络的激活函数为Swish函数,如式(I)所示:
fswish(x)=x·sigmoid(x) (I)
根据本发明优选的,步骤(5)中,对获取的预测边界框信息筛除置信度不满足要求的部分,并使用CIOU-NMS算法对预测边界框去重;
CIOU代价函数如式(II)、式(III)所示:
其中,ρ(bp,bg)是指预测边界框和真实边界框两个中心点bp、bg间的欧式距离,l是指能够同时包括预测边界框和真实边界框的最小封闭区域的对角线距离,α是指权重参数,υ用来度量纵横比的相似性,这里,(wp,hp)和(wg,hg)分别代表预测边界框和真实边界框的宽和高;IOU是指预测框和真实框之间的交集与并集之比,CIOU是一种优化的IOU,相比IOU增加了惩罚项,LossCIOU是检测框的代价函数。
进一步优选的,使用CIOU-NMS算法对预测边界框去重,包括步骤如下:
a、根据置信度得分对边界框排序;
b、选择置信度最高的边界框添加到最终输出列表中,将其从边界框列表中删除;
c、计算置信度最高的边界框与其它候选框的CIOU,并判定CIOU与阈值的大小关系;
d、删除CIOU大于阈值的边界框;
e、重复步骤,直至边界框列表为空。
根据本发明优选的,步骤(6)中,如果发出了警告,使用改进的Deep SORT跟踪算法对检测到的目标进行进一步的跟踪,包括:
f、通过卡尔曼滤波预测计算预测状态和新获得的测量值之间的马氏距离来表征运动特征;马氏距离小于阈值时,表明运动状态成功匹配,否则进入步骤g;
g、通过ResNet-18网络提取外观信息计算最小余弦距离来表征外观特征,最小余弦距离,小于阈值时,则匹配成功,否则进入步骤h;
h、根据跟踪器对应目标被遮挡的时间长短来划分,对目标进行优先级排序,先匹配丢失时间短的轨迹,直至匹配成功或到达最大丢失时间;
i、匹配完成后,使用卡尔曼滤波更新公式对已经匹配上的跟踪器参数进行更新,对下一时刻目标进行预测;当更新后的参数预测出来的结果无法匹配时,说明当前目标可能已经丢失,此时将该跟踪器删除;对未完成匹配的目标分配新的跟踪器来对运动状态进行预测,并将所有跟踪器得到的信息进行更新用于下一帧的计算。
进一步优选的,马氏距离的计算公式如式(IV)所示:
式(IV)中,使用(yi,Si)来表示第i个轨迹分布到测量空间的投影;用dj表示第j个边界框检测;在(yi,Si)中Si是轨迹由卡尔曼滤波器预测得到地在当前时刻观测空间的协方差矩阵,而yi是轨迹在当前时刻的测观测量。
ResNet-18网络接受Reshape的检测框内的物体作为输入并返回特征向量,对于每一个检测框中的物体dj计算出一个外观信息特征向量rj,此外,对每一个追踪目标k,建立Gallery Rk用来存储在不同帧中的外观特征。
求解获得的检测框与一致的Gallery中外观特征之间的最小余弦距离来表征外观信息,如式(V)所示:
式(V)中,rj是检测目标的外观信息特征向量,rk是每一个追踪目标的外观特征,Rk用来存储在不同帧中的外观特征的Gallery;
使用加权和将运动特征和外观特征这两个度量组合在一起,如式(VI)所示:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j) (VI)
其中,λ是权重系数,当遮挡情况严重时要减小λ的大小。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法的步骤。
与现有技术相比,本发明的有益效果为:
1、本发明对YOLOv5网络进行了改进,采用Swish函数作为YOLOv5网络的激活函数,优化了训练过程,修改了Anchor组提升对小目标检测效果,使用CIOU修改代价函数,加快训练过程。
2、本发明利用CIOU完成非极大值抑制,可以区分各种预测框与真实框的相交状况相离以及包含等复杂关系,提升了非极大值抑制的效果。
3、本发明基于特定场景,针对场景下的检测困难,利用DeblurGAN对图像进行去模糊处理,并通过改进YOLOv5的结构针对小目标检测进行了改进。在检测完成后使用ResNet-18改进的Deep SORT算法对目标做了实时跟踪,ResNet-18相比于原算法中的小型CNN网络,加深了对目标外观信息的获取,提升了跟踪精度,对预警和救援都有着指导意义。
附图说明
图1为基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法整体流程示意图;
图2为DeblurGAN网络原理示意图;
图3为DeblurGAN网络的生成器的结构示意图;
图4为改进的YOLOv5网络的结构示意图;
图5为Swish函数示意图;
图6为使用改进的Deep SORT跟踪算法对检测到的目标进行进一步的跟踪的流程示意图;
图7为ResNet-18网络的结构示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,如图1所示,包括以下步骤:
(1)输入待检测目标的视频数据,生成视频流,并将视频流解码成图片序列;
(2)对步骤(1)中的图片序列的尺寸进行等比例压缩或者等比例拉伸;以满足神经网络输入的需要。
(3)对步骤(2)中的缩放后的图片进行预处理,通过DeblurGAN网络对图像进行去模糊处理;
(4)对步骤(3)中预处理完成的图像,利用改进的YOLOv5的检测模型即训练好的特殊目标异常状态检测模型,将图像序列进行分割,对每一个方格都给出多个预测框,输出所有的预测边界框和及其对应的类别;
(5)对步骤(4)中得到的边界框数据,筛除一些置信度不符合要求的边界框,并通过CIOU-NMS算法筛除重复的预测边界框,输出最终的识别结果;如果正常,结束,否则,进入步骤(6);
(6)返回待检测的目标的位置,发出警告,并对步骤(5)中得到的目标使用改进的Deep SORT算法进行跟踪,返回跟踪信息。
实施例2
根据实施例1所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,其区别在于:
训练好的特殊目标异常状态检测模型的训练过程如下:
从网络上获取图片,并进行人工标注,每张图片采用正矩形框的形式对其所含各类型的特殊目标以及烟雾,火焰和爆炸等类别进行分别标注,作为数据集;
由于特殊目标异常状态的图片数量较少,为了得到足够的样本,对数据集中的图片进行平移、旋转、添加随机噪声等方式来扩充数据集;以补充数据集的不足。
为了更好的测试系统,因此把数据集以3:1的比例分为作训练集与测试集;
将训练集输入至改进后的YOLOv5进行训练;
采用测试集对训练好的特殊目标异常状态检测模型验证检测结果的精度,最终得到训练好的特殊目标异常状态检测模型。
在步骤(1)中,输入视频数据,视频帧数25FPS,使用RTSP建立视频服务器,并将视频解码成JPEG格式的图像序列,保存每一帧的帧信息。
在步骤(2)中,为了保证原图像符合网络输入要求,需要对图像进行等比例拉伸或者缩放保证图像与原图像比例相同。
步骤(3)中,使用DeblurGAN网络对图像进行去模糊处理。
在特殊场景下,很难捕捉到非常清晰的图像,图像可能存在图像模糊、烟雾遮挡等多重障碍。DeblurGAN通过学习正常环境下地图像以及特定战场环境下存在各种遮挡、干扰、模糊的图像,学习到多种复杂环境下的模糊核,通过生成与对抗将图像变得更便于识别。
对于非均匀的去模糊模型一般如下:
IB=k(M)*Is+N
IB是模糊图像,k(M)是未知模糊核由运动M决定,Is是潜在清晰图像,*表示卷积操作,N是加入的噪声。
DeblurGAN网络的原理如图2所示。DeblurGAN网络把模糊图像经过生成器重建后得到模拟的清晰图片G(B),同时将生成后的图片和对应的清晰图片送到判别器得到一个0~1之间的概率值,该值越接近于1,说明越接近于清晰图像。使用判别器的判别结果反向指导生成器不断生成和清晰图像接近的分布。当生成器生成的图像接近于真实图片,判别器依然能够很好地判别真假,两者达到平衡的时候说明网络达到最优状态,从而训练生成器来把模糊图像变得清晰。
DeblurGAN网络的生成器的结构如图3所示,头部采用7×7的卷积提取特征,使用9个残差单元提取残差特征,使用两个转置卷积进行上采样,最后使用7×7的卷积还原3通道用于输出图像G(B)。
步骤(4)中,使用Swish函数替换激活函数,然后修改了Anchor组,对小目标的检测进行了改进。此外,利用CIOU优化代价函数改进了YOLOv5的特定场景的目标检测模型。使用改进的YOLOv5网络将图像序列进行分割,对每一个方格都给出多个预测框并输出所有的框信息,改进的YOLOv5网络的激活函数为Swish函数,如式(I)所示:
fswish(x)=x·sigmoid(x) (I)
步骤(4)中使用了改进的YOLOv5网络,对特殊目标的异常状态进行检测,例如,坦克、飞机、舰队、火炮、装甲车等发生爆炸、开火、着火、冒烟等。改进的YOLOv5网络的结构如图4所示。Backbone模块用来提取一些通用的特征表示。YOLOv5中不仅使用了SPDarknet53结构,而且使用了Focus结构作为基准网络。Neck网络位于基准网络和输出端的中间位置,负责提取更多的特征信息,利用它可以进一步提升特征的多样性及鲁棒性。输出端用来完成目标检测结果的输出。利用CIOU_Loss来代替GIOU Loss函数,从而进一步提升算法的检测精度。
为了更好的适应小目标检测,本发明对默认的Anchor进行修改,默认的Anchor有三组,分别对应着大图像、中图像以及小图像。如表1和表2,表1为修改前的Anchors,增加后小目标检测组后的Anchor如表2所示,表2为修改后的Anchor;针对更小的目标,本发明增加了一组更小的Anchor。
表1
表2
本发明使用Swish函数来代替YOLOv5网络的Leaky ReLU函数作为网络的激活函数,相比于Leaky ReLU激活函数,Swish稳定性高等优点,且在深层次的网络结构中表现更好。Swish激活函数对负值的处理更加优秀,函数曲线在零点处更加平滑,其梯度下降的效果要明显优于Leaky ReLU函数,可以加速训练过程。Swish激活函数如下,函数图像如图5所示,横坐标是输入,纵坐标是输出:
Leaky ReLU函数:
fLeaky ReLU(x)=max(ax,x)
其中,a是参数,它的大小一般很小,默认0.01。
Swish函数:
fswish(x)=x·sigmoid(x)
此外,本发明优化了Bounding Box的损失函数,使用CIOU来代替GIOU构成代价函数,加速了YOLO网络的收敛,优化网络结构。CIOU要比GIOU更加符合目标边界框框的回归机制,将目标与Anchor之间的距离,重叠率,尺度以及纵横比都考虑在内,使得目标框的回归变得更加稳定,解决了GIOU在水平垂直两个方向上不易收敛的问题。
步骤(5)中,对获取的预测边界框信息筛除置信度不满足要求的部分,并使用CIOU-NMS算法(基于CIOU的非极大值抑制算法)对预测边界框去重;
CIOU代价函数如式(II)、式(III)所示:
其中,ρ(bp,bg)是指预测边界框和真实边界框两个中心点bp、bg间的欧式距离,l是指能够同时包括预测边界框和真实边界框的最小封闭区域的对角线距离,α是指权重参数,υ用来度量纵横比的相似性,这里,(wp,hp)和(wg,hg)分别代表预测边界框和真实边界框的宽和高;IOU是指预测框和真实框之间的交集与并集之比,CIOU是一种优化的IOU,相比IOU增加了惩罚项,LossCIOU是检测框的代价函数。
使用CIOU-NMS算法对预测边界框去重,包括步骤如下:
a、根据置信度得分对边界框排序;
b、选择置信度最高的边界框添加到最终输出列表中,将其从边界框列表中删除;
c、计算置信度最高的边界框与其它候选框的CIOU,并判定CIOU与阈值的大小关系;
d、删除CIOU大于阈值的边界框(即删除重复的边界框);
e、重复步骤,直至边界框列表为空。
在步骤(5)中,CIOU相对于GIOU与IOU考虑了边界框相交的状态,并对包含关系以及相离关系都做出了区分,因此能更好选出最符合要求的边界框。
IOU定义:
其中,U是预测边界框与真实边界框的并集,A是预测边界框与真实边界框的交集。IOU代表着两个边界框的交并比,用来表征预测边界框与真实边界框的重合程度。
CIOU代价函数:
其中,ρ(bp,bg)是预测边界框和真实边界框两个中心点bp、bg间的欧式距离,l代表的是能够同时包含预测框和真实框的最小封闭区域的对角线距离,α是权重参数,υ用来度量纵横比的相似性,这里,(wp,hp)和(wg,hg)分别代表预测框和真实框的宽和高。
步骤(6)中,如果发出了警告,使用改进的Deep SORT跟踪算法对检测到的目标进行进一步的跟踪,改进的Deep SORT算法结构如图6所示。包括:
f、将通过YOLOv5以及NMS计算得到的数据作为起始数据,通过卡尔曼滤波预测计算预测状态和新获得的测量值之间的马氏距离(Mahalanobis Distance)来表征运动特征(Motion Characteristics);马氏距离小于阈值时,表明运动状态成功匹配,否则进入步骤g;阈值是卡方分布的0.95分位点;
g、通过ResNet-18网络提取外观信息计算最小余弦距离来表征外观特征,最小余弦距离,小于阈值时,则匹配成功,否则进入步骤h;通过与阈值比较,完成对运动信息和外观信息的关联;ResNet-18网络更深,提取到的外观特征更丰富,但对性能损失较小,优化了跟踪效果。
h、根据跟踪器对应目标被遮挡的时间长短来划分,对目标进行优先级排序,先匹配丢失时间短的轨迹,直至匹配成功或到达最大丢失时间;所述匹配是指匈牙利匹配,把检测框与跟踪轨迹对应起来;
i、匹配完成后,使用卡尔曼滤波更新公式对已经匹配上的跟踪器参数进行更新,对下一时刻目标进行预测;当更新后的参数预测出来的结果无法匹配时,说明当前目标可能已经丢失,此时将该跟踪器删除;对未完成匹配的目标分配新的跟踪器来对运动状态进行预测,并将所有跟踪器得到的信息进行更新用于下一帧的计算。
式(IV)中,使用(yi,Si)来表示第i个轨迹分布到测量空间的投影;用dj表示第j个边界框检测;在(yi,Si)中Si是轨迹由卡尔曼滤波器预测得到地在当前时刻观测空间的协方差矩阵,而yi是轨迹在当前时刻的测观测量。
当运动不确定性较低时,马氏距离是一个非常合适的关联度量,但运动的不确定性高即出现遮挡等问题时,马氏距离就不能很好的解决匹配问题了。因此引入第二个度量表征外观信息(Appearance Characteristics)集成到分配问题中,弥补运动特征信息的不足。
Deep SORT引入了一个小型的残差网络(ResNet网络)作为外观信息的特征提取网络;但是,在复杂的特殊场景下,图像存在多种干扰,个别特殊目标与非特殊目标类别间差异较小,本发明使用网络层数更深的ResNet-18网络来代替原来的小型残差网络,提升特征提取的效果。相比原算法中的小型CNN网络,ResNet-18网络层数加深,使得系统可以提取到更多的特征。ResNet-18网络结构如图7所示,它有18层有权重层,其中有17层是卷积层,并构成了8个残差块,最后一层为全连接层。
ResNet-18网络接受Reshape的检测框内的物体作为输入并返回特征向量,对于每一个检测框中的物体dj计算出一个外观信息特征向量rj,此外,对每一个追踪目标k,建立Gallery Rk用来存储在不同帧中的外观特征;Reshape的检测框内的物体是指:ResNet接受经过YOLOv5网络预测出的检测框,对检测框内进行Reshape。
求解获得的检测框与一致的Gallery中外观特征之间的最小余弦距离(SmallestCosine Distance)来表征外观信息,如式(V)所示:
式(V)中,rj是检测目标的外观信息特征向量,rk是每一个追踪目标的外观特征,Rk用来存储在不同帧中的外观特征的Gallery;
为了构建关联问题,使用加权和将运动特征和外观特征这两个度量组合在一起,如式(VI)所示:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j) (VI)
其中,λ是权重系数,当遮挡情况严重时要减小λ的大小。
在复杂的特殊场景下,图像存在多种干扰,个别特殊目标与非特殊目标类别间差异较小,本发明使用网络层数更深的ResNet-18网络来代替原来的小型残差网络,提升特征提取的效果。相比原算法中的小型CNN网络,ResNet-18网络层数加深,使得系统可以提取到更多的特征。ResNet-18网络结构如图7所示,它有18层有权重层,其中有17层是卷积层,并构成了8个残差块,最后一层为全连接层。
实施例3
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1或2所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1或2所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法的步骤。
本发明提出了一种基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,具体实现该技术方案的方法和途径很多,以上所述仅作为本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来讲,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,其特征在于,包括以下步骤:
(1)输入待检测目标的视频数据,生成视频流,并将视频流解码成图片序列;
(2)对步骤(1)中的图片序列的尺寸进行等比例压缩或者等比例拉伸;
(3)对步骤(2)中的缩放后的图片进行预处理,对图像进行去模糊处理;
(4)对步骤(3)中预处理完成的图像,利用改进的YOLOv5的检测模型即训练好的特殊目标异常状态检测模型,将图像序列进行分割,对每一个方格都给出多个预测框,输出所有的预测边界框和及其对应的类别;
(5)对步骤(4)中得到的边界框数据,筛除一些置信度不符合要求的边界框,并筛除重复的预测边界框,输出最终的识别结果;如果正常,结束,否则,进入步骤(6);
(6)返回待检测的目标的位置,发出警告,并对步骤(5)中得到的目标进行跟踪,返回跟踪信息。
2.根据权利要求1所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,其特征在于,训练好的特殊目标异常状态检测模型的训练过程如下:
从网络上获取图片,并进行人工标注,作为数据集;
对数据集中的图片进行平移、旋转、添加随机噪声方式来扩充数据集;
把数据集分为作训练集与测试集;
将训练集输入至改进后的YOLOv5进行训练;
采用测试集对训练好的特殊目标异常状态检测模型验证检测结果的精度,最终得到训练好的特殊目标异常状态检测模型。
3.根据权利要求1所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,其特征在于,步骤(3)中,使用DeblurGAN网络对图像进行去模糊处理。
5.根据权利要求1所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,其特征在于,步骤(5)中,对获取的预测边界框信息筛除置信度不满足要求的部分,并使用CIOU-NMS算法对预测边界框去重;
CIOU代价函数如式(II)、式(III)所示:
6.根据权利要求5所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,其特征在于,使用CIOU-NMS算法对预测边界框去重,包括步骤如下:
a、根据置信度得分对边界框排序;
b、选择置信度最高的边界框添加到最终输出列表中,将其从边界框列表中删除;
c、计算置信度最高的边界框与其它候选框的CIOU,并判定CIOU与阈值的大小关系;
d、删除CIOU大于阈值的边界框;
e、重复步骤,直至边界框列表为空。
7.根据权利要求1所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,其特征在于,步骤(6)中,如果发出了警告,使用改进的Deep SORT跟踪算法对检测到的目标进行进一步的跟踪,包括:
f、通过卡尔曼滤波预测计算预测状态和新获得的测量值之间的马氏距离来表征运动特征;马氏距离小于阈值时,表明运动状态成功匹配,否则进入步骤g;
g、通过ResNet-18网络提取外观信息计算最小余弦距离来表征外观特征,最小余弦距离,小于阈值时,则匹配成功,否则进入步骤h;
h、根据跟踪器对应目标被遮挡的时间长短来划分,对目标进行优先级排序,先匹配丢失时间短的轨迹,直至匹配成功或到达最大丢失时间;
i、匹配完成后,使用卡尔曼滤波更新公式对已经匹配上的跟踪器参数进行更新,对下一时刻目标进行预测;当更新后的参数预测出来的结果无法匹配时,说明当前目标可能已经丢失,此时将该跟踪器删除;对未完成匹配的目标分配新的跟踪器来对运动状态进行预测,并将所有跟踪器得到的信息进行更新用于下一帧的计算。
8.根据权利要求7所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法,其特征在于,马氏距离的计算公式如式(IV)所示:
式(IV)中,使用(yi,Si)来表示第i个轨迹分布到测量空间的投影;用dj表示第j个边界框检测;在(yi,Si)中Si是轨迹由卡尔曼滤波器预测得到地在当前时刻观测空间的协方差矩阵,而yi是轨迹在当前时刻的测观测量;
求解获得的检测框与一致的Gallery中外观特征之间的最小余弦距离来表征外观信息,如式(V)所示:
式(V)中,rj是检测目标的外观信息特征向量,rk是每一个追踪目标的外观特征,Rk用来存储在不同帧中的外观特征的Gallery;
使用加权和将运动特征和外观特征这两个度量组合在一起,如式(VI)所示:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j) (VI)
其中,λ是权重系数,当遮挡情况严重时要减小λ的大小。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任一所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一所述的基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210236225.1A CN114821032A (zh) | 2022-03-11 | 2022-03-11 | 基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210236225.1A CN114821032A (zh) | 2022-03-11 | 2022-03-11 | 基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114821032A true CN114821032A (zh) | 2022-07-29 |
Family
ID=82529879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210236225.1A Pending CN114821032A (zh) | 2022-03-11 | 2022-03-11 | 基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821032A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294556A (zh) * | 2022-09-28 | 2022-11-04 | 西南石油大学 | 基于改进YOLOv5的密闭振动筛上异常流态流体检测方法 |
CN115410140A (zh) * | 2022-11-02 | 2022-11-29 | 中国船舶集团有限公司第七〇七研究所 | 基于海上目标的图像检测方法、装置、设备及介质 |
CN115731533A (zh) * | 2022-11-29 | 2023-03-03 | 淮阴工学院 | 一种基于改进YOLOv5的车载目标检测方法 |
CN115953430A (zh) * | 2022-12-21 | 2023-04-11 | 贵州财经大学 | 基于改进的批量样本损失函数的视频单目标跟踪方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288773A (zh) * | 2020-10-19 | 2021-01-29 | 慧视江山科技(北京)有限公司 | 基于Soft-NMS的多尺度人体跟踪方法及装置 |
CN113947589A (zh) * | 2021-10-26 | 2022-01-18 | 北京理工大学 | 一种基于对抗生成网络的弹载图像去模糊方法 |
CN113962282A (zh) * | 2021-08-19 | 2022-01-21 | 大连海事大学 | 一种基于改进YOLOv5L+DeepSort的船舶机舱火灾实时检测系统及方法 |
WO2022021739A1 (zh) * | 2020-07-30 | 2022-02-03 | 国网智能科技股份有限公司 | 一种语义智能变电站机器人仿人巡视作业方法及系统 |
-
2022
- 2022-03-11 CN CN202210236225.1A patent/CN114821032A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022021739A1 (zh) * | 2020-07-30 | 2022-02-03 | 国网智能科技股份有限公司 | 一种语义智能变电站机器人仿人巡视作业方法及系统 |
CN112288773A (zh) * | 2020-10-19 | 2021-01-29 | 慧视江山科技(北京)有限公司 | 基于Soft-NMS的多尺度人体跟踪方法及装置 |
CN113962282A (zh) * | 2021-08-19 | 2022-01-21 | 大连海事大学 | 一种基于改进YOLOv5L+DeepSort的船舶机舱火灾实时检测系统及方法 |
CN113947589A (zh) * | 2021-10-26 | 2022-01-18 | 北京理工大学 | 一种基于对抗生成网络的弹载图像去模糊方法 |
Non-Patent Citations (1)
Title |
---|
李倩倩 等: "基于混合卷积神经网络的花卉种类识别研究", 《洛阳理工学院学报( 自然科学版)》, 30 June 2020 (2020-06-30), pages 77 - 82 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294556A (zh) * | 2022-09-28 | 2022-11-04 | 西南石油大学 | 基于改进YOLOv5的密闭振动筛上异常流态流体检测方法 |
CN115294556B (zh) * | 2022-09-28 | 2022-12-13 | 西南石油大学 | 基于改进YOLOv5的密闭振动筛上异常流态流体检测方法 |
CN115410140A (zh) * | 2022-11-02 | 2022-11-29 | 中国船舶集团有限公司第七〇七研究所 | 基于海上目标的图像检测方法、装置、设备及介质 |
CN115731533A (zh) * | 2022-11-29 | 2023-03-03 | 淮阴工学院 | 一种基于改进YOLOv5的车载目标检测方法 |
CN115731533B (zh) * | 2022-11-29 | 2024-04-05 | 淮阴工学院 | 一种基于改进YOLOv5的车载目标检测方法 |
CN115953430A (zh) * | 2022-12-21 | 2023-04-11 | 贵州财经大学 | 基于改进的批量样本损失函数的视频单目标跟踪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114821032A (zh) | 基于改进YOLOv5网络的特殊目标异常状态检测与跟踪方法 | |
CN107563433B (zh) | 一种基于卷积神经网络的红外小目标检测方法 | |
CN106778595B (zh) | 基于高斯混合模型的人群中异常行为的检测方法 | |
CN112308881B (zh) | 一种基于遥感图像的舰船多目标跟踪方法 | |
CN107909027B (zh) | 一种具有遮挡处理的快速人体目标检测方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN108846826A (zh) | 物体检测方法、装置、图像处理设备及存储介质 | |
CN112288773A (zh) | 基于Soft-NMS的多尺度人体跟踪方法及装置 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN107067413A (zh) | 一种时空域统计匹配局部特征的运动目标检测方法 | |
CN110716792B (zh) | 一种目标检测器及其构建方法和应用 | |
CN110633727A (zh) | 基于选择性搜索的深度神经网络舰船目标细粒度识别方法 | |
CN111582091A (zh) | 基于多分支卷积神经网络的行人识别方法 | |
CN112288700A (zh) | 一种铁轨缺陷检测方法 | |
CN109815943B (zh) | 一种危化品仓储堆垛图片样本生成方法及系统 | |
CN107748885B (zh) | 一种对模糊字符进行识别的方法 | |
CN114332444A (zh) | 一种基于增量漂移聚类的复杂星空背景目标识别方法 | |
Liu et al. | Container-code recognition system based on computer vision and deep neural networks | |
CN116824345A (zh) | 基于计算机视觉的弹孔检测方法及装置 | |
Zhang et al. | Research on ship detection method of optical remote sensing image based on deep learning | |
CN113657196B (zh) | Sar图像目标检测方法、装置、电子设备和存储介质 | |
CN113658217B (zh) | 一种自适应目标跟踪方法、装置及存储介质 | |
CN113554685A (zh) | 遥感卫星运动目标检测方法、装置、电子设备及存储介质 | |
Liu et al. | Remote sensing image object detection based on improved SSD | |
Wu et al. | RetinaNet-based visual inspection of flexible materials |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |