CN112801169B - 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 - Google Patents
一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN112801169B CN112801169B CN202110097503.5A CN202110097503A CN112801169B CN 112801169 B CN112801169 B CN 112801169B CN 202110097503 A CN202110097503 A CN 202110097503A CN 112801169 B CN112801169 B CN 112801169B
- Authority
- CN
- China
- Prior art keywords
- module
- feature map
- convolution
- input
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 claims description 66
- 238000000034 method Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000017105 transposition Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000001931 thermography Methods 0.000 description 2
- 241000408529 Libra Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进YOLO算法的伪装目标检测方法,所述方法包括:获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;利用非对称卷积融合网络对提取到的特征图进行融合,融合得到伪装目标的增强特征图;对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。本发明能够有效、快速地检测伪装目标。
Description
技术领域
本发明涉及一种基于改进YOLO算法的伪装目标检测方法、系统、装置及存储介质,属于计算机视觉及机器学习技术领域。
背景技术
目标发现与定位是战场指挥作战的重要依据。实现对战场上伪装目标的可靠检测与定位,是复杂战场环境下进行决策的重要依据。目前,一般采用热成像技术作为伪装目标的首选检测手段,其成本高昂。相比于热成像,可见光伪装目标检测技术的实现成本有较大优势。
伪装目标具有与周围环境高度近似的特点,且目标的视觉尺寸相对较小,所以伪装目标的检测较一般检测任务更具挑战性。
现有的一些算法将目标上伪装纹理看作一类物体,对其纹理进行检测;或是根据图像的统计信息区分是否存在伪装物体。随着深度学习的兴起,目标检测算法获得了显著的发展。深度学习将目标检测任务建模为对目标候选区域进行分类与回归两个问题。使用CNN提取目标特征,提出了双阶段检测算法Faster R-CNN,在第一阶段利用基于锚框(Anchor)机制的RPN(Region Proposal Network)在提取网络输出的特征图上生成目标候选区域。之后对提取出的候选区域进行回归,并对包含的目标分类,完成检测。其衍生算法Cascade R-CNN、Libra R-CNN等对Faster R-CNN的精度与速度进行了改进。单阶段算法针对双阶段算法检测速度慢的问题,摒弃了使用RPN生成候选区域的步骤,通过滑动窗口的方式在特征图上放置Anchor,对其进行回归与分类。典型的算法有SSD、YOLO v2、YOLO v3、RetinaNet、YOLO v5等。这些使用了Anchor机制的算法被统称为Anchor-Based算法。
之后相继出现了在检测性能上可与Anchor-Based算法媲美的Anchor-Free算法。这类算法将检测目标划分为确定目标关键点和对目标位置进行回归两个问题。代表性的算法有FCOS、RepPoints、CenterNet等。
对于伪装目标的检测任务来说,这两类算法均有一定的缺陷。Anchor-Free算法利用关键点确定目标,但检测的关键点(如目标中心点)通常覆有迷彩伪装纹理,这与算法出发点相违背,且此类算法对目标位置的回归效果欠佳。
由于加入了Anchor这一先验信息,Anchor-Based算法对目标位置的回归性能有所提升,随之面临Anchor尺寸和比例的设置、计算量骤升等问题。为减轻计算量,一般在尺寸较低的特征图(如最大尺寸为输入的1/8)上生成Anchor。经过多次下采样,伪装目标的特征信息大量丢失,背景与伪装纹理间的差异性进一步降低。同时,普通卷积对伪装纹理这一特定信息的提取效果并不出众,背景与伪装纹理间差异性的降低和特征图尺寸的减小加剧了这一现象。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于改进YOLO算法的伪装目标检测方法、系统、装置及存储介质,能够有效、快速地检测伪装目标。为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于改进YOLO算法的伪装目标检测方法,所述方法包括如下步骤:
获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;
利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;
对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。
结合第一方面,进一步地,预设的提取网络提取原始图像的特征图中伪装目标的特征包括如下步骤:
根据预设的提取网络输出特征图的尺度,将预设的提取网络分为5个模块,同一模块中不同层输出的特征图尺度相同;
原始图像的特征图依次经过5个模块,包括:
第1个模块的输入为原始图像的特征图,依次经过1个卷积层、1个SE层和2个卷积层处理后,输出特征图,将其作为第2个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/2;
第2个模块的输入为第1个模块输出的特征图,依次经过2个卷积层、2个SE层、1个TA层和1个卷积层处理后,输出特征图,将其第3个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/4;
第3个模块的输入为第2个模块的输出特征图,依次经过2个卷积层、3个SE层、1个TA层和1个卷积层处理后,输出特征图,将其第4个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/8;
第4个模块的输入为第3个模块的输出特征图,依次经过2个卷积层、4个SE层和2个卷积层处理后,输出特征图,将其第5个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/16;
第5个模块的输入为第4个模块的输出特征图,依次经过3个卷积层、5个SE层和1个卷积层处理后,输出特征图,该输出特征图为包含原始图像中更多的伪装目标的特征图,其中输出特征图的尺度为原始图像的特征图尺度的1/32。
结合第一方面,优选地,所述TA层表示三维注意力层。
结合第一方面,进一步地,所述TA层是通过如下步骤计算得到的:
初始化一个尺度为H*W*C特征图X,分别从H、W和C的3个维度上对特征图X进行转置,得到特征图X1、特征图X2和特征图X3,3个特征图的尺度分别为H*W*C、W*H*C和C*H*W;
将3个特征图输入处理模块,输出不同的特征图;
将输出的不同特征图进行转置,转置后3个特征图的尺度均为H*W*C;
转置后的特征图均乘以系数1/3,该运算过程表示为:
公式(1)中,y表示TA层的输出结果,表示特征图X1对应的处理模块,/>表示特征图X2对应的处理模块,/>表示特征图X3对应的处理模块,P表示转置操作。
结合第一方面,进一步地,所述处理模块包括Z-Pool和卷积-标准化-Sigmod激活层,其中Z-Pool的表达式为:
Z-Pool(X)=Concat[MaxPool0d(X),AvgPool0d(X)] (2)
公式(2)中,Pool0d(X)表示Z-Pool函数在输入特征图的第1维拼接,MaxPool和AvgPool分别表示最大池化层和平均池化层。
结合第一方面,进一步地,所述利用非对称卷积融合网络对提取得到的特征图进行融合,包括:
初始化提取得到的特征图的尺度为原始图像的特征图分辨率的1/4、1/8、1/16和1/32;
非对称卷积融合网络包含3个非对称卷积模块,每个模块包含两路输入,将提取得到的特征图依次输入各模块,包括:
第1个非对称卷积模块的输入分别为分辨率1/32和1/16两个特征图,尺度较小的特征图经过非对称卷积模块的处理后作为第2个非对称卷积模块的一路输入;
第2个非对称卷积模块的输入分别为第1个非对称卷积模块处理后输出的特征图和分辨率1/8的特征图,尺度较小的特征图经过非对称卷积模块的处理后作为第3个非对称卷积模块的一路输入;
第3个非对称卷积模块的输入分别为第2个非对称卷积模块处理后输出的特征图和分辨率1/4的特征图,输出为伪装目标的增强特征图。
结合第一方面,进一步地,非对称卷积模块的处理,包括如下步骤:
输入特征图经过1×3和3×1两组卷积-标准化-ReLU激活层后的结果与输入特征图相加后,输入1×1卷积降低通道数;1×1卷积输出的结果经2倍上采样后与另一路的输入特征图相加,作为下一非对称卷积模块的输入。
第二方面,本发明提供了一种基于改进YOLO算法的伪装目标检测系统,包括:
特征提取模块:用于获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;
特征融合模块:用于利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;
目标检测模块:用于对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。
第三方面,本发明提供了一种基于改进YOLO算法的伪装目标检测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。
与现有技术相比,本发明实施例所提供的一种基于改进YOLO算法的伪装目标检测方法、系统、装置及存储介质所达到的有益效果包括:
本发明获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;能够有效提取伪装目标的特征图,更好的分辨伪装目标的区域与背景区域;
本发明利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;能够有效融合输入特征图不同通道间的信息,提升对通道信息的敏感性,增强对伪装目标特征的获取能力;
对融合得到的伪装目标的增强特征图进行检测,能够准确得到伪装目标在原始图像中的位置信息。
附图说明
图1是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的流程图;
图2是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的网络结构;
图3是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的预设的提取网络的参数图;
图4是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的SE层和TA层的结构图;
图5是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的非对称卷积融合网络的结构图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
如图1、图2所示,本发明实施例提供了一种基于改进YOLO算法的伪装目标检测方法,包括:
获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;
利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;
对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。
具体步骤如下:
步骤1:提取特征。
构建由SE层、卷积层和TA层组成的提取网络。将输入数据的尺度约定为P,则P/2代表数据的长、宽为输入尺度的1/2,以此类推。特征提取网络输出尺度包含P、P/2、P/4、P/8、P/16和P/32共6种。将特征图在三种维度的大小称为尺寸,如算法原始输入尺寸为512×512×3。
提取网络的具体结构如下:
(1)对于通道数为3的输入数据,经过卷积核大小为3的卷积层,输出尺度不变,通道数增至24。
(2)通道数为24的特征图经过4层网络(卷积×2、SE层、卷积层)得到特征图,各层输出尺度为P/2,通道数为48。
(3)通道数为48的特征图经过6层网络(卷积×2、SE层×2、TA层、卷积层)得到特征图,各层输出尺度为P/4,通道数为256。
(4)通道数为256的特征图经过7层网络(卷积×2、SE层×3、TA层、卷积层)得到特征图,各层输出尺度为P/8,通道数为512。
(5)通道数为512的特征图经过7层网络(卷积×2、SE层×4、卷积层)得到特征图,各层输出尺度为P/16,通道数为1024。
(6)通道数为512的特征图经过10层网络(卷积×3、SE层×5、卷积层)得到特征图,各层输出尺度为P/16,通道数为1024。
如图3所示为提取网络的参数图。如P/4-256-2,表示该层输出尺度为P/4,通道数256,卷积步长为2。若无标注步长,则该卷积层的卷积步长为1。卷积-标准化-ReLU激活层包含卷积操作层、标准化操作层和ReLU激活操作层。提取网络使用到的卷积核大小均为3×3。
如图4所示为SE层和TA层的结构图。
具体地,SE层为在普通残差卷积的短接结构中加入SE结构。对于输入尺寸为H×W×C的特征图,经平均池化层处理后输出尺寸为1×1×C的张量。张量依次经过全连接层、ReLU激活层、全连接层和Sigmod激活层后输出1×1×C的张量。其中在第一个全连接层后输出张量的尺度变为1×1×C/r,r为C的整除数。
具体地,TA层共3路分支,分别计算H与W、H与C和W与C间的联系。以一路分支为例,输入X的尺寸为C×H×W,经过转置后得到的特征图X1尺寸为W×H×C。X1经过函数后得到的张量再与特征图X1进行元素级乘法。包含三个子函数,分别为Z-Pool和卷积-标准化-Sigmod激活层。Z-Pool函数在输入特征图的第0维进行操作,表达式为:
Z-Pool(X)=Concat[MaxPool0d(X),AvgPool0d(X)] (1)
公式(1)中,Pool0d(X)表示Z-Pool函数在输入特征图的第1维拼接,MaxPool和AvgPool分别表示最大池化层和平均池化层。最大池化层MaxPool与平均池化层AvgPool分别在第0维进行计算,之后将得到的两个张量进行拼接,作为Z-Pool的输出结果。通过两次池化操作,模块能够获取丰富的特征信息,并大幅降低特征图的深度(C×H×W→2×H×W),且对参数量的增加微乎其微。
TA层是的运算过程表示为:
公式(2)中,y表示TA层的输出结果,表示特征图X1对应的处理模块,/>表示特征图X2对应的处理模块,/>表示特征图X3对应的处理模块,P表示转置操作。
步骤2:特征融合。
利用非对称卷积融合网络对步骤1提取到的特征图进行融合,融合得到伪装目标的增强特征图。步骤1中提取到的特征图的尺度分别为P/2、P/4、P/8、P/16和P/32。
如图5所示,非对称卷积融合网络包含上采样与下采样两个方向。在上采样操作中,分别提取大小为输入1/32、1/16、1/8、1/4和1/2的特征层。所选特征层为轻量化网络输出的所有相同大小特征图中的最后一层输出。低尺度特征图经双线性插值完成2倍上采样后,与下一尺度的特征图相加,之后使用卷积核尺寸为3×3的卷积对其进行运算。
上采样操作输出结果分为两路:一路重复前述低尺度特征图进行过的操作,进行下一阶段上采样;侧路送入双向金字塔结构的下采样方向。上采样阶段得到的特征图尺度为输入尺度的1/16、1/8、1/4和1/2,将得到的4种尺度特征图进行下采样操作。在下采样操作中,依次对1/2、1/4、1/8和1/16的特征图进行2倍下采样,所得特征图与侧路输入的特征图相加,之后使用卷积核尺寸为3×3的卷积对其进行运算。最终得到尺度为输入尺度1/4、1/8和1/16的特征图。在上采样与下采样过程中,3×3卷积所得特征图的通道数与其对应下一阶段的特征图通道数相同。同时,本发明算法中特征尺度相同的特征图对应通道数也相同。
步骤3:目标检测。
步骤3.1:模型训练时,将原始图像调整为512×512×3。设置批处理大小为32,训练迭代次数为200轮,初始学习率设置为0.01,衰减系数设置为0.0005。
步骤3.2:定义损失函数。YOLO算法将特征图分为S×S个网格,若目标的中心点位于某一网格,则由该网格负责对目标进行检测。对于每一个网格,在其上预测B个锚框(Anchor Box)。具体而言,对于每一个锚框,预测(5+C)个值。前5个值用于锚框的位置与尺寸并判定框内是否存在目标,它们分别是:框中心坐标距网格左上坐标的距离tx和ty、与真实目标宽和高的比例tw、th及评判是否存在目标的置信度Conf。预测值与输出目标位置之间的转换公式为:
公式(3)中,aw和ah表示锚框的宽与高,cx和cy表示锚框所处网格的左上点坐标,σ表示Sigmod激活函数,e为自然对数。
c是目标类别,Classes是类别的集合,若框内含有目标,则对提取出的目标进行分类。损失函数表达式Loss为:
Loss=lbox+lcls+lobj (4)
公式(4)中,lbox表示锚框回归损失,lcls表示分类损失,lobj表示目标损失。λcoord表示位置损失系数,λcls表示类别损失系数,和/>表示目标真实的中心坐标,/>和/>表示目标的宽与高。若在(i,j)处的锚框包含目标,则/>的值为1,否则为0。pi(c)表示目标的类别概率,/>表示类别的真实值,两者长度等于类别总数C。ci表示模块输出的类别,/>表示该目标的真实类别。
实施例二:
本实施例将本发明提供的一种基于改进YOLO算法的伪装目标检测方法与采用Cascade R-CNN、Faster R-CNN、RetinaNet、RepPoints、SSD300、CenterNet和YOLO v5算法在同一数据集上进行比较,验证本发明对伪装目标检测性能的效果。
实验数据集为公开数据集:CPD(Fang Z.,et al.Camouflage people detectionvia strong semantic dilation network[C].The ACM Turing CelebrationConference-China,2019)是一个迷彩伪装单兵数据集,包含了2600副迷彩伪装单兵图像。模型训练与测试按照0.6、0.4的比例分割数据集获得训练数据与测试数据。
本发明使用目标检测任务中常用的mAP(mean Average Precision)评价不同模型的检测性能。对于检测出的结果,可以有四种情况,分别是真阳性(True Positive,TP)、假阳性(False Positive,FP)、真阴性(True Negative,TN)和假阴性(False Negative,FN)。其定义如下:
表1检测结果定义
类别 | 缩写 | 定义 |
真阳性 | TP | 正确,预测为正的正样本 |
假阳性 | FP | 误检,预测为正的负样本 |
真阴性 | TN | 正确,预测为负的负样本 |
假阴性 | FN | 漏检,预测为负的正样本 |
对于类别c,其在单一图像上准确率为图像上检测出的正确样本数与该类别样本总数之比,计算公式为:
在多张图像上,类别c的准确率为:
对于整个数据集而言,存在多个类别,mAP即为所有类别的准确率的平均值:
实验结果如表2所示。
表2不同算法的mAP比较
算法 | 提取网络 | 召回率 | mAP |
Faster R-CNN | ResNet50 | 0.862 | 0.829 |
Cascade R-CNN | ResNet50 | 0.868 | 0.860 |
SSD300 | VGG16 | 0.910 | 0.870 |
RetinaNet | ResNet50 | 0.869 | 0.803 |
RepPoints | ResNet50 | 0.926 | 0.872 |
CenterNet | ResDCN18 | 0.852 | 0.797 |
YOLO v5s | CSPDarkNet | 0.881 | 0.908 |
本文算法 | 改进网络 | 0.909 | 0.952 |
从表2能够看出,本发明提供的一种基于改进YOLO算法的伪装目标检测方法能够准确得到伪装目标在原始图像中的位置信息。
实施例三:
本发明实施例提供了一种基于改进YOLO算法的伪装目标检测系统,包括:
特征提取模块:用于获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;
特征融合模块:用于利用非对称卷积融合网络对提取到的特征图进行融合,融合得到伪装目标的增强特征图;
目标检测模块:用于对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。
实施例四:
本发明实施例提供一种基于改进YOLO算法的伪装目标检测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。
实施例五:
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种基于改进YOLO算法的伪装目标检测方法,其特征在于,所述方法包括如下步骤:
获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;预设的提取网络提取原始图像的特征图中伪装目标的特征包括如下步骤:
根据预设的提取网络输出特征图的尺度,将预设的提取网络分为5个模块,同一模块中不同层输出的特征图尺度相同;
原始图像的特征图依次经过5个模块,包括:
第1个模块的输入为原始图像的特征图,依次经过1个卷积层、1个SE层和2个卷积层处理后,输出特征图,将其作为第2个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/2;
第2个模块的输入为第1个模块输出的特征图,依次经过2个卷积层、2个SE层、1个TA层和1个卷积层处理后,输出特征图,将其第3个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/4;
第3个模块的输入为第2个模块的输出特征图,依次经过2个卷积层、3个SE层、1个TA层和1个卷积层处理后,输出特征图,将其第4个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/8;
第4个模块的输入为第3个模块的输出特征图,依次经过2个卷积层、4个SE层和2个卷积层处理后,输出特征图,将其第5个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/16;
第5个模块的输入为第4个模块的输出特征图,依次经过3个卷积层、5个SE层和1个卷积层处理后,输出特征图,该输出特征图为包含原始图像中更多的伪装目标的特征图,其中输出特征图的尺度为原始图像的特征图尺度的1/32;
利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;所述利用非对称卷积融合网络对提取得到的特征图进行融合,包括:
初始化提取得到的特征图的尺度为原始图像的特征图分辨率的1/4、1/8、1/16和1/32;
非对称卷积融合网络包含3个非对称卷积模块,每个模块包含两路输入,将提取得到的特征图依次输入各模块,包括:
第1个非对称卷积模块的输入分别为分辨率1/32和1/16两个特征图,尺度较小的特征图经过非对称卷积模块的处理后作为第2个非对称卷积模块的一路输入;
第2个非对称卷积模块的输入分别为第1个非对称卷积模块处理后输出的特征图和分辨率1/8的特征图,尺度较小的特征图经过非对称卷积模块的处理后作为第3个非对称卷积模块的一路输入;
第3个非对称卷积模块的输入分别为第2个非对称卷积模块处理后输出的特征图和分辨率1/4的特征图,输出为伪装目标的增强特征图;
其中,非对称卷积模块的处理,包括如下步骤:
输入特征图经过1×3和3×1两组卷积-标准化-ReLU激活层后的结果与输入特征图相加后,输入1×1卷积降低通道数;1×1卷积输出的结果经2倍上采样后与另一路的输入特征图相加,作为下一非对称卷积模块的输入;
对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。
2.根据权利要求1所述的基于改进YOLO算法的伪装目标检测方法,其特征在于,所述TA层是通过如下步骤计算得到的:
初始化一个尺度为H*W*C特征图X,分别从H、W和C的3个维度上对特征图X进行转置,得到特征图X1、特征图X2和特征图X3,3个特征图的尺度分别为H*W*C、W*H*C和C*H*W;
将3个特征图输入处理模块,输出不同的特征图;
将输出的不同特征图进行转置,转置后3个特征图的尺度均为H*W*C;
转置后的特征图均乘以系数1/3,该运算过程表示为:
(1)
公式(1)中,y表示TA层的输出结果,表示特征图X1对应的处理模块,/>表示特征图X2对应的处理模块,/>表示特征图X3对应的处理模块,P表示转置操作。
3.根据权利要求2所述的基于改进YOLO算法的伪装目标检测方法,其特征在于,所述处理模块包括Z-Pool和卷积-标准化-Sigmod激活层,其中Z-Pool的表达式为:
(2)
公式(2)中,Pool 0d (X)表示Z-Pool函数在输入特征图的第1维拼接,MaxPool和AvgPool分别表示最大池化层和平均池化层。
4.一种基于改进YOLO算法的伪装目标检测系统,其特征在于,包括:
特征提取模块:用于获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;预设的提取网络提取原始图像的特征图中伪装目标的特征包括如下步骤:
根据预设的提取网络输出特征图的尺度,将预设的提取网络分为5个模块,同一模块中不同层输出的特征图尺度相同;
原始图像的特征图依次经过5个模块,包括:
第1个模块的输入为原始图像的特征图,依次经过1个卷积层、1个SE层和2个卷积层处理后,输出特征图,将其作为第2个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/2;
第2个模块的输入为第1个模块输出的特征图,依次经过2个卷积层、2个SE层、1个TA层和1个卷积层处理后,输出特征图,将其第3个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/4;
第3个模块的输入为第2个模块的输出特征图,依次经过2个卷积层、3个SE层、1个TA层和1个卷积层处理后,输出特征图,将其第4个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/8;
第4个模块的输入为第3个模块的输出特征图,依次经过2个卷积层、4个SE层和2个卷积层处理后,输出特征图,将其第5个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/16;
第5个模块的输入为第4个模块的输出特征图,依次经过3个卷积层、5个SE层和1个卷积层处理后,输出特征图,该输出特征图为包含原始图像中更多的伪装目标的特征图,其中输出特征图的尺度为原始图像的特征图尺度的1/32;
特征融合模块:用于利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;所述利用非对称卷积融合网络对提取得到的特征图进行融合,包括:
初始化提取得到的特征图的尺度为原始图像的特征图分辨率的1/4、1/8、1/16和1/32;
非对称卷积融合网络包含3个非对称卷积模块,每个模块包含两路输入,将提取得到的特征图依次输入各模块,包括:
第1个非对称卷积模块的输入分别为分辨率1/32和1/16两个特征图,尺度较小的特征图经过非对称卷积模块的处理后作为第2个非对称卷积模块的一路输入;
第2个非对称卷积模块的输入分别为第1个非对称卷积模块处理后输出的特征图和分辨率1/8的特征图,尺度较小的特征图经过非对称卷积模块的处理后作为第3个非对称卷积模块的一路输入;
第3个非对称卷积模块的输入分别为第2个非对称卷积模块处理后输出的特征图和分辨率1/4的特征图,输出为伪装目标的增强特征图;
其中,非对称卷积模块的处理,包括如下步骤:
输入特征图经过1×3和3×1两组卷积-标准化-ReLU激活层后的结果与输入特征图相加后,输入1×1卷积降低通道数;1×1卷积输出的结果经2倍上采样后与另一路的输入特征图相加,作为下一非对称卷积模块的输入;
目标检测模块:用于对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。
5.一种基于改进YOLO算法的伪装目标检测装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行权利要求1~3任一项所述方法的步骤。
6.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~3任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110097503.5A CN112801169B (zh) | 2021-01-25 | 2021-01-25 | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110097503.5A CN112801169B (zh) | 2021-01-25 | 2021-01-25 | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801169A CN112801169A (zh) | 2021-05-14 |
CN112801169B true CN112801169B (zh) | 2024-02-06 |
Family
ID=75811612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110097503.5A Active CN112801169B (zh) | 2021-01-25 | 2021-01-25 | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801169B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361397B (zh) * | 2021-06-04 | 2022-07-12 | 重庆邮电大学 | 一种基于深度学习的人脸口罩佩戴情况检测方法 |
CN113536978B (zh) * | 2021-06-28 | 2023-08-18 | 杭州电子科技大学 | 一种基于显著性的伪装目标检测方法 |
CN113469100A (zh) * | 2021-07-13 | 2021-10-01 | 北京航科威视光电信息技术有限公司 | 一种复杂背景下目标检测方法、装置、设备及介质 |
CN113469278B (zh) * | 2021-07-22 | 2022-05-20 | 湖北省气象信息与技术保障中心 | 一种基于深度卷积神经网络的强天气目标识别方法 |
CN114419410A (zh) * | 2022-01-25 | 2022-04-29 | 中国农业银行股份有限公司 | 一种目标检测方法、装置、设备及存储介质 |
CN114332083A (zh) * | 2022-03-09 | 2022-04-12 | 齐鲁工业大学 | 一种基于PFNet的工业品伪装瑕疵识别方法 |
CN114495176B (zh) * | 2022-03-30 | 2022-12-06 | 北京字节跳动网络技术有限公司 | 组织图像的识别方法、装置、可读介质和电子设备 |
CN114882586A (zh) * | 2022-04-19 | 2022-08-09 | 北京昭衍新药研究中心股份有限公司 | 一种群体猴运动活跃状态监测系统和方法 |
CN114596314A (zh) * | 2022-05-09 | 2022-06-07 | 合肥联亚制衣有限公司 | 一种布匹瑕疵的检测模型的训练方法、装置、设备及介质 |
CN116091781B (zh) * | 2022-11-18 | 2023-07-25 | 中国人民解放军军事科学院系统工程研究院 | 一种用于图像识别的数据处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
CN110738100A (zh) * | 2019-09-04 | 2020-01-31 | 沈阳工业大学 | 一种基于深度学习的伪装军事目标识别方法及系统 |
CN111274980A (zh) * | 2020-01-23 | 2020-06-12 | 天津大学 | 基于yolov3和非对称卷积的小尺寸交通标志识别方法 |
CN111428550A (zh) * | 2019-11-29 | 2020-07-17 | 长沙理工大学 | 一种基于改进YOLOv3的车辆检测方法 |
CN111553406A (zh) * | 2020-04-24 | 2020-08-18 | 上海锘科智能科技有限公司 | 基于改进yolo-v3的目标检测系统、方法及终端 |
CN111626208A (zh) * | 2020-05-27 | 2020-09-04 | 北京百度网讯科技有限公司 | 用于检测小目标的方法和装置 |
CN112101434A (zh) * | 2020-09-04 | 2020-12-18 | 河南大学 | 基于改进YOLO v3的红外图像弱小目标检测方法 |
CN112132844A (zh) * | 2020-11-12 | 2020-12-25 | 福建帝视信息科技有限公司 | 基于轻量级的递归式非局部自注意力的图像分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106327526B (zh) * | 2016-08-22 | 2020-07-07 | 杭州保新科技有限公司 | 图像目标跟踪方法与系统 |
-
2021
- 2021-01-25 CN CN202110097503.5A patent/CN112801169B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
CN110738100A (zh) * | 2019-09-04 | 2020-01-31 | 沈阳工业大学 | 一种基于深度学习的伪装军事目标识别方法及系统 |
CN111428550A (zh) * | 2019-11-29 | 2020-07-17 | 长沙理工大学 | 一种基于改进YOLOv3的车辆检测方法 |
CN111274980A (zh) * | 2020-01-23 | 2020-06-12 | 天津大学 | 基于yolov3和非对称卷积的小尺寸交通标志识别方法 |
CN111553406A (zh) * | 2020-04-24 | 2020-08-18 | 上海锘科智能科技有限公司 | 基于改进yolo-v3的目标检测系统、方法及终端 |
CN111626208A (zh) * | 2020-05-27 | 2020-09-04 | 北京百度网讯科技有限公司 | 用于检测小目标的方法和装置 |
CN112101434A (zh) * | 2020-09-04 | 2020-12-18 | 河南大学 | 基于改进YOLO v3的红外图像弱小目标检测方法 |
CN112132844A (zh) * | 2020-11-12 | 2020-12-25 | 福建帝视信息科技有限公司 | 基于轻量级的递归式非局部自注意力的图像分割方法 |
Non-Patent Citations (3)
Title |
---|
Multi-Scale Feature Integrated Attention-Based Rotation Network for Object Detection in VHR Aerial Images;Feng Yang;《sensors》;第1-21页 * |
Rotate to Attend: Convolutional Triplet Attention Module;Diganta Misra;《https://arxiv.org/abs/2010.03045》;第1-13页 * |
卫星可见光图像迷彩目标检测及算法优化研究;刘毅;《中国优秀硕士学位论文全文数据库(信息科技辑)》(第02期);I138-1558 * |
Also Published As
Publication number | Publication date |
---|---|
CN112801169A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801169B (zh) | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 | |
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN112861729B (zh) | 一种基于伪深度图引导的实时深度补全方法 | |
CN111209921A (zh) | 基于改进的YOLOv3网络的车牌检测模型及构建方法 | |
CN109784283A (zh) | 基于场景识别任务下的遥感图像目标提取方法 | |
CN114495029B (zh) | 一种基于改进YOLOv4的交通目标检测方法及系统 | |
CN112541532B (zh) | 基于密集连接结构的目标检测方法 | |
CN115439694A (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
CN111241326B (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
CN116310850B (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN114494812A (zh) | 一种基于改进CenterNet的图像小目标检测方法 | |
CN114067075A (zh) | 基于生成对抗网络的点云补全方法及装置 | |
CN114565842A (zh) | 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统 | |
CN115222998A (zh) | 一种图像分类方法 | |
CN116597326A (zh) | 一种基于改进YOLOv7算法的无人机航拍小目标检测方法 | |
CN116977844A (zh) | 一种轻量级水下目标实时检测方法 | |
CN117274774A (zh) | 一种基于YOLOv7的X射线安检图像危险品检测算法 | |
CN116071331A (zh) | 一种基于改进ssd算法的工件表面缺陷检测方法 | |
CN117593514B (zh) | 一种基于深层主成分分析辅助的图像目标检测方法及系统 | |
CN118154843A (zh) | 一种基于频域特征重建的遥感图像目标检测方法及系统 | |
CN117894065A (zh) | 一种基于骨骼关键点的多人场景行为识别方法 | |
CN116543295A (zh) | 一种基于退化图像增强的轻量化水下目标检测方法及系统 | |
CN116311004A (zh) | 基于稀疏光流提取的视频运动目标检测方法 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 | |
CN114241470A (zh) | 一种基于注意力机制的自然场景文字检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |