CN115410060B - 面向公共安全视频的全局感知小目标智能检测方法 - Google Patents

面向公共安全视频的全局感知小目标智能检测方法 Download PDF

Info

Publication number
CN115410060B
CN115410060B CN202211353463.7A CN202211353463A CN115410060B CN 115410060 B CN115410060 B CN 115410060B CN 202211353463 A CN202211353463 A CN 202211353463A CN 115410060 B CN115410060 B CN 115410060B
Authority
CN
China
Prior art keywords
multiplied
loss
detection
layer
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211353463.7A
Other languages
English (en)
Other versions
CN115410060A (zh
Inventor
高赞
纪威
李传森
郝敬全
刘大扬
张蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Zhonglian Audio Visual Information Technology Co ltd
Qingdao Haier Smart Technology R&D Co Ltd
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Original Assignee
Shandong Zhonglian Audio Visual Information Technology Co ltd
Qingdao Haier Smart Technology R&D Co Ltd
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Zhonglian Audio Visual Information Technology Co ltd, Qingdao Haier Smart Technology R&D Co Ltd, Taihua Wisdom Industry Group Co Ltd, Shandong Institute of Artificial Intelligence filed Critical Shandong Zhonglian Audio Visual Information Technology Co ltd
Priority to CN202211353463.7A priority Critical patent/CN115410060B/zh
Publication of CN115410060A publication Critical patent/CN115410060A/zh
Application granted granted Critical
Publication of CN115410060B publication Critical patent/CN115410060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明属于目标检测与识别技术领域,本发明提供了一种面向公共安全视频的全局感知小目标智能检测方法,包括以下步骤:图像线下预处理,样本平衡数据增强;构建模型网络结构;构建模型损失函数:在分类损失和置信度损失采用交叉熵损失,在回归损失中对于原有的回归损失基础上加入角点距离损失;使用SC非极大值抑制方法保留有效检测框;输入待检测图像检验本方法模型有效性。本发明利用全局信息提高检测小目标物体的准确率和召回率,通过多重非极大值抑制保留有效锚框,解决了目前基于锚框目标检测中小目标物体难以检测,锚框难以匹配等诸多问题。

Description

面向公共安全视频的全局感知小目标智能检测方法
技术领域
本发明涉及一种面向公共安全视频的全局感知小目标智能检测方法,属于目标检测与识别技术领域。
背景技术
对于小目标的定义有很多,目前尚未有统一的标准,主要分为绝对尺度和相对尺度两种定义。绝对尺度小目标定义为像素值小于32×32像素的目标,相对尺度小目标定义为目标边界框的宽高与图像的宽高小于一定的比值,通常认为该比值为0.1。目标检测通用数据集COCO定义小目标为小于32×32个像素点的目标。
小目标检测在监控、空对地目标分析、行人检测、自动驾驶中交通信号检测等多种场景中具有重要的理论和现实意义。目前基于深度学习目标检测算法普遍对小目标不友好,小目标像素占比小、可利用特征少、样本数量不平衡、语义信息少、定位精度要求高、易聚集遮挡等问题,导致小目标检测一直是目标检测领域中的一大难点问题。
发明内容
本发明目的是提供了一种面向公共安全视频的全局感知小目标智能检测方法,通过全局特征与局部特征上下文信息解决小目标检测难题。
本发明为实现上述目的,通过以下技术方案实现:
一种面向公共安全视频的全局感知小目标智能检测方法,包括以下步骤:
步骤S1. 图像线下预处理,样本平衡数据增强:
S11.输入训练图像之前线下计算每个类别样本数量,找到最多样本数量的类,数 量记为
Figure DEST_PATH_IMAGE001
S12.对除去
Figure 726986DEST_PATH_IMAGE001
所有类图像样本做复制后随机增强,增强方法包括随机缩放后加入 椒盐噪声、随机缩放后高斯模糊或随机缩放后直方图变换,将增强后的图像写到标注文件 中;
步骤S2.构建模型网络结构:
需要搭建全局注意力网络与原方法骨干网络做特征融合,再添加P2检测层专用于检测小目标;
步骤S3.构建模型损失函数:
在分类损失和置信度损失采用交叉熵损失,在回归损失中对于原有的回归损失基础上加入角点距离损失;
步骤S4.使用SC非极大值抑制方法保留有效检测框;
步骤S5.输入待检测图像检验本方法模型有效性:
将测试图片输入到本方法模型中,再与标准标注信息做对比,指标采用目标检测通用评价指标mAP@0.5:0.95。
所述面向公共安全视频的全局感知小目标智能检测方法优选方案,样本平衡数据增强具体公式如下:
Figure DEST_PATH_IMAGE002
式中:
Figure DEST_PATH_IMAGE003
代表所有样本数量,
Figure DEST_PATH_IMAGE004
)代表随机在
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
区间取个数,用于 随机改变图像大小,
Figure DEST_PATH_IMAGE007
代表类为n的样本数量,
Figure DEST_PATH_IMAGE008
表示三种随机方法中的一种数据增强方 法。
所述面向公共安全视频的全局感知小目标智能检测方法优选方案,构建模型网络结构具体过程如下:
(1)搭建全局特征骨干网络提取全局特征
利用步骤S1数据增强后的图像裁剪或扩张成1536×1536×3大小,RGB图像经过Focus卷积将原图像通道数扩张到64,图像变为B×64×W/2×H/2,其中B为BatchSize大小;将经过Focus卷积的特征图再经过一次Conv卷积得到B×128×W/4×H/4特征图,再使用全局注意力GAM方法减少空间维度和通道维度的信息损失,放大全局维度交互特征,最终得到B×128×W/4×H/4特征图,将原方法骨干网络中卷积替换为空洞卷积,进一步增大感受野,提取全局特征;
(2)增加P2检测层
将得到包含全局信息的特征图,特征图经过4次普通卷积会形成多个特征图减小但通道维度增加的特征图,此时特征图为四层倒三角特征金字塔,利用第一个四层正三角金字塔得到的特征图再经过4次上采样和多次卷积会形成多个宽高逐步增加,通道信息逐步减小的特征图,此时形成4层正三角特征金字塔,分别连接特征图大小相同的4层正三角特征金字塔特征图和4层倒三角金字塔特征图,特征图大小分别为B×512×W/4×H/4、B×128×W/8×H/8、B×256×W/16×H/16、B×512×W/32×H/32,其中B×512×W/4×H/4特征图经过一层卷积得B×45×W/4×H/4特征图,该特征图作为检测网络中的P2层。
所述面向公共安全视频的全局感知小目标智能检测方法优选方案, 采用二元交叉熵损失函数BCEWithLogitsLoss计算分类损失和置信度损失,具体计算公式如下:
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
上式中
Figure DEST_PATH_IMAGE012
代表模型预测出物体的数量
Figure DEST_PATH_IMAGE013
就表示每一个预测物体的置信度,
Figure DEST_PATH_IMAGE014
代 表本方法模型预测是物体的概率,经过
Figure DEST_PATH_IMAGE015
函数可以将
Figure DEST_PATH_IMAGE016
映射到0到1区间,
Figure DEST_PATH_IMAGE017
代表是否为 真实物体,如果不是真实物体
Figure DEST_PATH_IMAGE018
取0,否则
Figure 516563DEST_PATH_IMAGE017
取1;
Figure DEST_PATH_IMAGE019
作用是算出预测是物 体概率与真实物体之间差异;
定位损失采用本方法
Figure DEST_PATH_IMAGE020
损失,当预测框与真实框两中心点重合且两框宽高比 例相同时也能反映两框之间的损失,它的基础原型是
Figure DEST_PATH_IMAGE021
损失,具体公式计算如下:
Figure DEST_PATH_IMAGE022
其中IoU为两个预测框的交并比,
Figure DEST_PATH_IMAGE023
为两框中心点的欧氏距离,
Figure DEST_PATH_IMAGE024
分别预测框左上、右上、左下、右下顶点,
Figure DEST_PATH_IMAGE025
分别代表真实框左上、右 上、左下、右下顶点,考虑到了两框之间重叠面积、中心点距离、尺度对比,
最终Loss如下所示:
Figure DEST_PATH_IMAGE026
所述面向公共安全视频的全局感知小目标智能检测方法优选方案,步骤S4具体如下:
由步骤S4得到P2检测层,加上原方法的P3、P4、P5检测层共有四层检测层,在每个检测层分别预测,预测结果输入SC非极大值抑制方法中,
SC函数具体如下:
Figure DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
式中:
Figure DEST_PATH_IMAGE030
为经过SC非极大值抑制后的预测框得分,
Figure DEST_PATH_IMAGE031
为预测框初始得分,
Figure DEST_PATH_IMAGE032
为自然数,
Figure DEST_PATH_IMAGE033
为两个预测框的交并比,
Figure 732518DEST_PATH_IMAGE023
为两框中心点的欧氏距离,
Figure DEST_PATH_IMAGE034
分 别代表分数较低锚框左上、右上、左下、右下顶点,
Figure DEST_PATH_IMAGE035
分别代表得分较高预测框 左上、右上、左下、右下顶点,考虑到了两框之间重叠面积、中心点距离、尺度对比。
所述面向公共安全视频的全局感知小目标智能检测方法优选方案,步骤S5具体过程如下:
a)训练得出最优权重,保存权重参数;
b)采集待检测图像,将图像拉伸或缩小到长为1536大小;
c)将图像输入到全局特征网络中,全局特征网络包括GAM注意力层、Conv卷积层、C3卷积层、上采样层以及SPP层;
d)按照全局特征网络结构顺序,GAM注意力层提取空间维度、通道维度、空间维度以及通道维度的特征,再将提取到的特征经过多个Conv与C3卷积层的模块形成多个长宽信息逐步变小的特征图,在经过上采样放大特征信息;
e)连接上采样和下采样长宽信息相同特征图,形成P2、P3、P4、P5检测层;
f)使用不同大小的锚框在每个检测层用滑动窗口的形式检测有无目标信息,若有给出目标类别信息、位置信息、得分信息,如果某个位置出现大量位置相近重复框,采用SC非极大值抑制算法保留有效框;
g)与标准标注信息做对比,指标采用目标检测通用评价指标mAP@0.5:0.95。
本发明的优点在于:
1)样本均衡数据增强平衡各类别图像数量差异,解决了训练偏差问题,提高模型的鲁棒性和泛化能力。
2)全局注意力机制提取图像全局特征,充分利用全局特征,提高小目标被检测到概率。
3)增加P2检测层检测小目标物体,不影响其他中、大目标的检测。
4)构建分类损失、置信度损失、定位损失,其中定位损失充分考虑到预测框与真实框形状和位置信息。
5)使用SC非极大值抑制方法保留有效检测框,过滤无效检测框。
6)本文发明的面向公共安全视频的全局感知小目标智能检测方法,在相关的小目标数据集中达到了优异的效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制;
图1为本方法的简要结构图;
图2中a、b、c为训练阶段边框损失、分类损失、物体得分损失曲线图, d、e、f为验证阶段的边框损失、分类损失、物体得分损失曲线图;
图3为原始模型与本方法的模型检测效果对比图,其中, a、b是原始模型检测的图片, c、d是本方法模型检测的图片;
图4中a、b、c、d分别为验证阶段准确率变化曲线、召回率变化曲线、mAP0.5变化曲线以及mAP0.5:0.95变化曲线;
图5为Baseline方法验证阶段PR曲线图;
图6为本方法验证阶段PR曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种面向公共安全视频的全局感知小目标智能检测方法,包括以下步骤:
S1. 图像线下预处理,样本平衡数据增强各类别图像数量差异:
本发明创造了一种线下数据增强方式:样本平衡数据增强,在模型训练中,增加训练样本的数据量能够使模型的泛化能力和鲁棒性上升,现实中训练数据集样本数量往往不能满足实际训练的要求,针对这一缺点,本方法创造一种线下数据增强方式,具体过程如下:
S11.输入训练图像之前线下计算每个类别样本数量,找到最多样本数量的类,数 量记为
Figure 65411DEST_PATH_IMAGE001
S12.对除去
Figure 614204DEST_PATH_IMAGE001
所有类图像样本做复制后随机增强,增强方法包括随机缩放后加入 椒盐噪声、随机缩放后高斯模糊或随机缩放后直方图变换,将增强后的图像写到标注文件 中;
S2.构建模型网络结构:
需要搭建全局注意力网络与原方法骨干网络做特征融合,再添加P2检测层专用于检测小目标;
S3.构建模型损失函数:
在分类损失和置信度损失采用交叉熵损失,在回归损失中对于原有的回归损失基础上加入角点距离损失;
S4.使用SC非极大值抑制方法保留有效检测框;
S5.输入待检测图像检验本方法模型有效性:
将测试图片输入到本方法模型中,再与标准标注信息做对比,指标采用目标检测通用评价指标mAP@0.5:0.95。
本实施例中,样本平衡数据增强具体公式如下:
Figure DEST_PATH_IMAGE036
式中:
Figure 889196DEST_PATH_IMAGE003
代表所有样本数量,
Figure 890650DEST_PATH_IMAGE004
)代表随机在
Figure 886288DEST_PATH_IMAGE005
Figure 961692DEST_PATH_IMAGE006
区间取个数,用于 随机改变图像大小,
Figure 689476DEST_PATH_IMAGE007
代表类为n的样本数量,
Figure 240543DEST_PATH_IMAGE008
表示三种随机方法中的一种数据增强方 法。
本实施例中,为减少信息的损失和提高全局特征的交互,提高模型的性能构,建模型网络结构具体过程如下:
(1)搭建全局特征骨干网络提取全局特征
利用步骤S1数据增强后的图像裁剪或扩张成1536×1536×3大小,RGB图像经过Focus卷积将原图像通道数扩张到64,图像变为B×64×W/2×H/2,其中B为BatchSize大小;将经过Focus卷积的特征图再经过一次Conv卷积得到B×128×W/4×H/4(P2层)特征图,再使用全局注意力GAM方法减少空间维度和通道维度的信息损失,放大全局维度交互特征,最终得到B×128×W/4×H/4特征图,将原方法骨干网络中卷积替换为空洞卷积,进一步增大感受野,提取全局特征;
(2)增加P2检测层
针对AnchorBase目标检测器中检测层分辨率过低,缺失小目标特征信息问题设计P2检测层保留小目标特征信息,用来预测小目标物体,具体操作如下:将得到包含全局信息的特征图,特征图经过4次普通卷积会形成多个特征图减小但通道维度增加的特征图,此时特征图为四层倒三角特征金字塔,利用第一个四层正三角金字塔得到的特征图再经过4次上采样和多次卷积会形成多个宽高逐步增加,通道信息逐步减小的特征图,此时形成4层正三角特征金字塔,分别连接特征图大小相同的4层正三角特征金字塔特征图和4层倒三角金字塔特征图,特征图大小分别为B×512×W/4×H/4、B×128×W/8×H/8(P3层)、B×256×W/16×H/16(P4层)、B×512×W/32×H/32(P5层),其中B×512×W/4×H/4特征图经过一层卷积得B×45×W/4×H/4特征图,该特征图作为检测网络中的P2层。
本实施例中, 采用二元交叉熵损失函数BCEWithLogitsLoss计算分类损失和置信度损失,具体计算公式如下:
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
上式中
Figure 400391DEST_PATH_IMAGE012
代表模型预测出物体的数量
Figure 595880DEST_PATH_IMAGE013
就表示每一个预测物体的置信度,
Figure 556883DEST_PATH_IMAGE014
代 表本方法模型预测是物体的概率,经过
Figure DEST_PATH_IMAGE040
函数可以将
Figure 188722DEST_PATH_IMAGE016
映射到0到1区间,
Figure 995004DEST_PATH_IMAGE017
代表是否为 真实物体,如果不是真实物体
Figure 310579DEST_PATH_IMAGE018
取0,否则
Figure 380166DEST_PATH_IMAGE017
取1;
Figure DEST_PATH_IMAGE041
作用是算出预测是物 体概率与真实物体之间差异;
定位损失采用本方法
Figure DEST_PATH_IMAGE042
损失,当预测框与真实框两中心点重合且两框宽高比例 相同时也能反映两框之间的损失,它的基础原型是
Figure DEST_PATH_IMAGE043
损失,具体公式计算如下:
Figure DEST_PATH_IMAGE044
其中IoU为两个预测框的交并比,
Figure 997835DEST_PATH_IMAGE023
为两框中心点的欧氏距离,
Figure DEST_PATH_IMAGE045
分别预测框左上、右上、左下、右下顶点,
Figure DEST_PATH_IMAGE046
分别代表真实框左上、 右上、左下、右下顶点,考虑到了两框之间重叠面积、中心点距离、尺度对比,
最终Loss如下所示:
Figure DEST_PATH_IMAGE047
本实施例中,步骤S4具体如下:
由步骤S4得到P2检测层,加上原方法的P3、P4、P5检测层共有四层检测层,在每个检测层分别预测,预测结果输入SC非极大值抑制方法中,
SC函数具体如下:
Figure 998021DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE049
式中:
Figure 433682DEST_PATH_IMAGE030
为经过SC非极大值抑制后的预测框得分,
Figure 2066DEST_PATH_IMAGE031
为预测框初始得分,
Figure 687126DEST_PATH_IMAGE032
为自然数,
Figure 992467DEST_PATH_IMAGE033
为两个预测框的交并比,
Figure 876110DEST_PATH_IMAGE023
为两框中心点的欧氏距离,
Figure 553079DEST_PATH_IMAGE034
分别代表分数较低锚框左上、右上、左下、右下顶点,
Figure 663117DEST_PATH_IMAGE035
分别代表得分较高预 测框左上、右上、左下、右下顶点,考虑到了两框之间重叠面积、中心点距离、尺度对比。
本实施例中,步骤S5具体过程如下:
a)训练得出最优权重,保存权重参数;
b)采集待检测图像,将图像拉伸或缩小到长为1536大小;
c)将图像输入到全局特征网络中,全局特征网络包括GAM注意力层、Conv卷积层、C3卷积层、上采样层以及SPP层;
d)按照全局特征网络结构顺序,GAM注意力层提取空间维度、通道维度、空间维度以及通道维度的特征,再将提取到的特征经过多个Conv与C3卷积层的模块形成多个长宽信息逐步变小的特征图,在经过上采样放大特征信息;
e)连接上采样和下采样长宽信息相同特征图,形成P2、P3、P4、P5检测层;
f)使用不同大小的锚框在每个检测层用滑动窗口的形式检测有无目标信息,若有给出目标类别信息、位置信息、得分信息,如果某个位置出现大量位置相近重复框,采用SC非极大值抑制算法保留有效框;
g)与标准标注信息做对比,指标采用目标检测通用评价指标mAP@0.5:0.95。
经过步骤一到五模型完成了训练,将模型的最优权重保存下来,为了证明本方法 的有效性,在空地小目标数据集VisDrone2019上进行了实验,测试数据采用的是
Figure DEST_PATH_IMAGE050
,只有在最终1536×1536分辨率 下采用的
Figure DEST_PATH_IMAGE051
,其余均采用
Figure DEST_PATH_IMAGE052
部分。实验的 评价指标采用的是
Figure DEST_PATH_IMAGE053
。其中,
Figure DEST_PATH_IMAGE054
表示在不同IoU阈值(从0.5到 0.95,步长0.05)(0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均准确率。在 图2、图3中可看出,训练在第
Figure DEST_PATH_IMAGE055
验证损失接近最小,此时本方法已经收敛,取最优的 权重测试。验证阶段PR曲线如图5所示,通过观察曲线可得知最终在1536×1536分辨率下 mAP0.5:0.95在
Figure DEST_PATH_IMAGE056
中可以到达35.72。在图3中可以看出本方法的模型对比
Figure DEST_PATH_IMAGE057
可以检测到更多的小目标,对比图5、图6中曲线约凸代表该类效果越好,比较可以说明了本 方法的有效性。
表1为各种不同方法对整个模型的贡献,测试数据集采用
Figure DEST_PATH_IMAGE058
中的
Figure DEST_PATH_IMAGE059
部分,上述方法结合数据集采用的
Figure DEST_PATH_IMAGE060
中的
Figure DEST_PATH_IMAGE061
部分;
表一
Figure DEST_PATH_IMAGE062
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种面向公共安全视频的全局感知小目标智能检测方法,其特征在于,包括以下步骤:
步骤S1. 图像线下预处理,样本平衡数据增强:
S11.输入训练图像之前线下计算每个类别样本数量,找到最多样本数量的类,数量记 为
Figure 686398DEST_PATH_IMAGE001
S12.对除去
Figure 197013DEST_PATH_IMAGE001
所有类图像样本做复制后随机增强,增强方法包括随机缩放后加入椒盐 噪声、随机缩放后高斯模糊或随机缩放后直方图变换,将增强后的图像写到标注文件中;
步骤S2.构建模型网络结构:
需要搭建全局特征骨干网络与原方法骨干网络做特征融合,再添加P2检测层专用于检测小目标;
步骤S3.构建模型损失函数:
在分类损失和置信度损失采用交叉熵损失,在回归损失中对于原有的回归损失基础上加入角点距离损失;
步骤S4.使用SC非极大值抑制方法保留有效检测框;
步骤S5.输入待检测图像检验本方法模型有效性:
将测试图片输入到本方法模型中,再与标准标注信息做对比,指标采用目标检测通用评价指标mAP@0.5:0.95;
其中样本平衡数据增强具体公式如下:
Figure 445592DEST_PATH_IMAGE002
式中:
Figure 434277DEST_PATH_IMAGE003
代表所有样本数量,
Figure 451911DEST_PATH_IMAGE004
)代表随机在
Figure 133428DEST_PATH_IMAGE005
Figure 603724DEST_PATH_IMAGE006
区间取个数,用于随机 改变图像大小,
Figure 661679DEST_PATH_IMAGE007
代表类为n的样本数量,
Figure 799399DEST_PATH_IMAGE008
表示三种随机方法中的一种数据增强方法;
步骤S4具体如下:
由步骤S2得到P2检测层,加上原方法的P3、P4、P5检测层共有四层检测层,在每个检测层分别预测,预测结果输入SC非极大值抑制方法中,
SC函数具体如下:
Figure 120659DEST_PATH_IMAGE009
Figure 609409DEST_PATH_IMAGE010
Figure 939896DEST_PATH_IMAGE011
式中:
Figure 932123DEST_PATH_IMAGE012
为经过SC非极大值抑制后的预测框得分,
Figure 955443DEST_PATH_IMAGE013
为预测框初始得分,
Figure 665910DEST_PATH_IMAGE014
为自然 数,
Figure 268929DEST_PATH_IMAGE015
为两个预测框的交并比,
Figure 381242DEST_PATH_IMAGE016
为两框中心点的欧氏距离,𝜎为默认参数0.5,
Figure 575463DEST_PATH_IMAGE017
为两个 预测框四个顶点的欧氏距离的平方,
Figure 507647DEST_PATH_IMAGE018
为高斯加权,
Figure 179937DEST_PATH_IMAGE019
分别代表分数较低 锚框左上、右上、左下、右下顶点,
Figure 146756DEST_PATH_IMAGE020
分别代表得分较高预测框左上、右上、左 下、右下顶点,考虑到了两框之间重叠面积、中心点距离、尺度对比;
构建模型网络结构具体过程如下:
(1)搭建全局特征骨干网络提取全局特征
利用步骤S1数据增强后的图像裁剪或扩张成1536×1536×3大小,RGB图像经过Focus卷积将原图像通道数扩张到64,图像变为B×64×W/2×H/2,其中B为BatchSize即批尺寸大小;将经过Focus卷积的特征图再经过一次Conv卷积得到B×128×W/4×H/4特征图,再使用全局注意力GAM方法减少空间维度和通道维度的信息损失,放大全局维度交互特征,最终得到B×128×W/4×H/4特征图,将原方法骨干网络中卷积替换为空洞卷积,进一步增大感受野,提取全局特征;
(2)增加P2检测层
将得到包含全局信息的特征图,特征图经过4次普通卷积会形成多个特征图减小但通道维度增加的特征图,此时特征图为四层倒三角特征金字塔,利用第一个四层正三角金字塔得到的特征图再经过4次上采样和多次卷积会形成多个宽高逐步增加,通道信息逐步减小的特征图,此时形成4层正三角特征金字塔,分别连接特征图大小相同的4层正三角特征金字塔特征图和4层倒三角金字塔特征图,特征图大小分别为B×512×W/4×H/4、B×128×W/8×H/8、B×256×W/16×H/16、B×512×W/32×H/32,其中B×512×W/4×H/4特征图经过一层卷积得B×45×W/4×H/4特征图,该特征图作为检测网络中的P2层,B×128×W/8×H/8特征图对应于检测网络中的P3层、B×256×W/16×H/16特征图对应于P4层、B×512×W/32×H/32特征图对应于P5层;
采用二元交叉熵损失函数BCEWithLogitsLoss计算分类损失和置信度损失,具体计算公式如下:
Figure 511878DEST_PATH_IMAGE021
Figure 931358DEST_PATH_IMAGE022
Figure 141759DEST_PATH_IMAGE023
上式中
Figure 87719DEST_PATH_IMAGE024
代表模型预测出物体的数量
Figure 499108DEST_PATH_IMAGE025
就表示每一个预测物体的置信度,
Figure 530518DEST_PATH_IMAGE026
代表本 方法模型预测是物体的概率,经过
Figure 419977DEST_PATH_IMAGE027
函数可以将
Figure 486022DEST_PATH_IMAGE028
映射到0到1区间,
Figure 802734DEST_PATH_IMAGE029
代表是否为真实 物体,如果不是真实物体
Figure 321440DEST_PATH_IMAGE030
取0,否则
Figure 14589DEST_PATH_IMAGE029
取1;
Figure 669562DEST_PATH_IMAGE031
作用是算出预测是物体概 率与真实物体之间差异;
定位损失采用本方法
Figure 422754DEST_PATH_IMAGE032
损失,当预测框与真实框两中心点重合且两框宽高比例相 同时也能反映两框之间的损失,它的基础原型是
Figure 428756DEST_PATH_IMAGE033
损失,具体公式计算如下:
Figure 925596DEST_PATH_IMAGE034
其中IoU为两个预测框的交并比,
Figure 700654DEST_PATH_IMAGE016
为两框中心点的欧氏距离,
Figure 218223DEST_PATH_IMAGE035
分 别预测框左上、右上、左下、右下顶点,
Figure 586888DEST_PATH_IMAGE036
分别代表真实框左上、右上、左下、 右下顶点,考虑到了两框之间重叠面积、中心点距离、尺度对比,最终Loss如下所示:
Figure 480895DEST_PATH_IMAGE038
Figure 251404DEST_PATH_IMAGE039
为分类损失,
Figure 205454DEST_PATH_IMAGE040
为置信度损失。
2.根据权利要求1所述的面向公共安全视频的全局感知小目标智能检测方法,其特征在于,步骤S5具体过程如下:
a)训练得出最优权重,保存权重参数;
b)采集待检测图像,将图像拉伸或缩小到长为1536大小;
c)将图像输入到全局特征网络中,全局特征网络包括GAM注意力层、Conv卷积层、C3卷积层、上采样层以及SPP层;
d)按照全局特征网络结构顺序,GAM注意力层提取空间维度、通道维度、空间维度以及通道维度的特征,再将提取到的特征经过多个Conv与C3卷积层的模块形成多个长宽信息逐步变小的特征图,在经过上采样放大特征信息;
e)连接上采样和下采样长宽信息相同特征图,形成P2、P3、P4、P5检测层;
f)使用不同大小的锚框在每个检测层用滑动窗口的形式检测有无目标信息,若有给出目标类别信息、位置信息、得分信息,如果某个位置出现大量位置相近重复框,采用SC非极大值抑制算法保留有效框;
g)与标准标注信息做对比,指标采用目标检测通用评价指标mAP@0.5:0.95。
CN202211353463.7A 2022-11-01 2022-11-01 面向公共安全视频的全局感知小目标智能检测方法 Active CN115410060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211353463.7A CN115410060B (zh) 2022-11-01 2022-11-01 面向公共安全视频的全局感知小目标智能检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211353463.7A CN115410060B (zh) 2022-11-01 2022-11-01 面向公共安全视频的全局感知小目标智能检测方法

Publications (2)

Publication Number Publication Date
CN115410060A CN115410060A (zh) 2022-11-29
CN115410060B true CN115410060B (zh) 2023-02-28

Family

ID=84167474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211353463.7A Active CN115410060B (zh) 2022-11-01 2022-11-01 面向公共安全视频的全局感知小目标智能检测方法

Country Status (1)

Country Link
CN (1) CN115410060B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113567984A (zh) * 2021-07-30 2021-10-29 长沙理工大学 一种sar图像中人造小目标的检测方法及系统
CN114821246A (zh) * 2022-06-28 2022-07-29 山东省人工智能研究院 基于多层次残差网络感知和注意力机制的小目标检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309792B (zh) * 2019-07-04 2022-07-01 电子科技大学 基于部件模板的室内人物检测方法
CN110674733A (zh) * 2019-09-23 2020-01-10 厦门金龙联合汽车工业有限公司 多目标检测识别方法和辅助驾驶方法、系统
CN110781819A (zh) * 2019-10-25 2020-02-11 浪潮电子信息产业股份有限公司 一种图像目标检测方法、系统、电子设备及存储介质
CN113591734B (zh) * 2021-08-03 2024-02-20 中国科学院空天信息创新研究院 一种基于改进nms算法的目标检测方法
CN114022432B (zh) * 2021-10-28 2024-04-30 湖北工业大学 基于改进的yolov5的绝缘子缺陷检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113567984A (zh) * 2021-07-30 2021-10-29 长沙理工大学 一种sar图像中人造小目标的检测方法及系统
CN114821246A (zh) * 2022-06-28 2022-07-29 山东省人工智能研究院 基于多层次残差网络感知和注意力机制的小目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于全局注意力的多级特征融合目标检测算法》;吴稳稳 等;《科学技术与工程》;20201130;摘要,全文第2-4页 *

Also Published As

Publication number Publication date
CN115410060A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN110084095B (zh) 车道线检测方法、车道线检测装置和计算机存储介质
CN111444809B (zh) 一种基于改进YOLOv3的输电线路异常目标检测方法
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
CN110363104B (zh) 一种柴油黑烟车的检测方法
CN110956094A (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN111310862A (zh) 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN107977620A (zh) 一种基于全卷积网络的多方向场景文本单次检测方法
CN107609470A (zh) 野外火灾早期烟雾视频检测的方法
Zhang et al. A dense u-net with cross-layer intersection for detection and localization of image forgery
CN112633231B (zh) 一种火灾识别的方法和装置
CN110033040B (zh) 一种火焰识别方法、系统、介质和设备
CN110544251A (zh) 基于多迁移学习模型融合的大坝裂缝检测方法
CN112489054A (zh) 一种基于深度学习的遥感图像语义分割方法
CN111027511B (zh) 基于感兴趣区块提取的遥感图像舰船检测方法
CN112418165B (zh) 基于改进型级联神经网络的小尺寸目标检测方法与装置
CN109740485B (zh) 基于光谱分析和深度卷积神经网络的水库或塘坝识别方法
CN111611861B (zh) 一种基于多尺度特征关联的图像变化检测方法
CN112287983B (zh) 一种基于深度学习的遥感图像目标提取系统和方法
CN111738114B (zh) 基于无锚点精确采样遥感图像车辆目标检测方法
CN111507416B (zh) 一种基于深度学习的吸烟行为实时检测方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN113158954B (zh) 交通非现场的基于ai技术的斑马线区域自动检测方法
CN115410060B (zh) 面向公共安全视频的全局感知小目标智能检测方法
CN112308040A (zh) 一种基于高清图像的河流排污口检测方法及系统
CN116543308A (zh) 一种基于多模型融合的滑坡检测预警模型及预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant