CN113177503A - 基于yolov5的任意朝向目标十二参数检测方法 - Google Patents
基于yolov5的任意朝向目标十二参数检测方法 Download PDFInfo
- Publication number
- CN113177503A CN113177503A CN202110520927.8A CN202110520927A CN113177503A CN 113177503 A CN113177503 A CN 113177503A CN 202110520927 A CN202110520927 A CN 202110520927A CN 113177503 A CN113177503 A CN 113177503A
- Authority
- CN
- China
- Prior art keywords
- horizontal
- yolov5
- frame
- parameter
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000010586 diagram Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 238000011897 real-time detection Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 27
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 5
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 240000007651 Rubus glaucus Species 0.000 description 1
- 235000011034 Rubus glaucus Nutrition 0.000 description 1
- 235000009122 Rubus idaeus Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000019239 indanthrene blue RS Nutrition 0.000 description 1
- UHOKSCJSTAHBSO-UHFFFAOYSA-N indanthrone blue Chemical compound C1=CC=C2C(=O)C3=CC=C4NC5=C6C(=O)C7=CC=CC=C7C(=O)C6=CC=C5NC4=C3C(=O)C2=C1 UHOKSCJSTAHBSO-UHFFFAOYSA-N 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 229920005862 polyol Polymers 0.000 description 1
- 150000003077 polyols Chemical class 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- OLBCVFGFOZPWHH-UHFFFAOYSA-N propofol Chemical compound CC(C)C1=CC=CC(C(C)C)=C1O OLBCVFGFOZPWHH-UHFFFAOYSA-N 0.000 description 1
- 229960004134 propofol Drugs 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于YOLOV5的任意朝向目标十二参数检测方法,利用YOLOV5特有的特征提取网络提取遥感图像特征。在输出特征图上做第一阶段检测,得到目标类别和精度较高的水平边界框;利用特征图和水平边界框,回归出旋转边界框相对于水平边界框的偏移值。利用此偏移值与一阶段检测出的水平边界框进行解码,最终实现带角度目标的检测。此方法采用4+8参数回归法,回归精度更高。此外,根据不同的卷积层数设计由大到小由重到轻4种模型,分别代表不同的计算量、精度和检测速度,可针对不同任务选择不同的网络结构。网络结构最深的模型经过训练后,精度可以达到SOTA,而层数最少模型可以在较高精度上实现实时检测的效果。
Description
技术领域
本发明涉及目标检测、图像处理技术、算法与神经网络应用技术领域,尤其涉及一种基于YOLOV5的任意朝向目标十二参数检测方法。
背景技术
随着硬件设备的提升和遥感技术的不断成熟,基于卫星、雷达、无人机拍摄的遥感图像质量与分辨率已经达到自然图像的水平。然而,遥感图像中的目标有着鲜明的特点:目标均以俯视图的视角展现;目标尺度变化大;车辆、飞机、轮船等特殊物体存在排列方向等信息。采用通用的水平框检测方法检测旋转目标,具有三大缺点:图2a为大小和宽高比无法反映目标对象的真实形状图;图2b为对象和背景像素没有有效分离图;图2c密集物体之间很难分开图。图2d、2e、2f为采用任意方向矩形框对目标进行检测定位,能更好反映物体位置信息,在地理、农业以及军事上具有重要意义。旋转框检测方法起源于基于深度学习的任意方向的场景文本检测,代表性的算法有:
1、以SWT、Selective Search、EdgeBox为代表的传统算法
在深度学习方法诞生之前,旋转目标检测、场景倾斜文本检测主要采用SWT、MSER、ER、Selective Search、EdgeBox等传统算法,其基本思想是:先二值化图片如自适应二值化,如果有噪声可以采用高斯滤波来简单过滤掉,然后通过腐蚀、膨胀等形态学操作来获取目标的区域,之后再使用查找轮廓的函数来获取轮廓上的点,最后再取出最小外接矩形即可。如SWT算法,通过canny算子提取边缘和梯度,然后通过梯度方向去搜索相反方向的边缘;Edge Boxes算法,利用边缘信息(Edge),确定边框内的轮廓个数和与边框边缘重叠的轮廓个数,并基于此对边框进行评分,进一步根据得分的高低顺序确定proposal信息(由大小,长宽比,位置构成)。而后续工作就是在proposal内部运行相关检测算法。selectivesearch算法,首先通过简单的区域划分算法,将图片划分成很多小区域,再通过像素相似度和区域大小(小的区域先聚合,这样是防止大的区域不断的聚合小区域,导致层次关系不完全)不断的聚合相邻小区域,类似于聚类的思路。待得到目标大致区域后,再画出最大外接矩形(如场景文本中的任意角度矩形)
2、RRPN倾斜文本检测方法
RRPN算法诞生于2018年,主要用于倾斜文本检测。该方法基于Faster Rcnn的区域提取方法,用中心点、宽高、旋转角度的五参数方法表示一个旋转矩形。检测过程中预先产生带角度的锚框,将RRoI(Rotation Region-of-Interest)和旋转兴趣区域学习相结合。训练时将与GT(真实)框的IoU(交并比)大于0.7且与GT框的角度夹角小于π/12的预测框作为正样本,与GT框的IoU小于0.3,或是GT框的IoU大于0.7但是与GT框的角度夹角大于π/12的预测框作为负样本,回归损失采用Smmoth L1,类别损失采用交叉熵损失。此外,该方法提出了一种计算斜交矩形交叠面积的方法(三角形分割法),取得了较好的效果。
3、ROI Transformer
Roi Transformer发表于CVPR2019,其核心思想是引入了一个Roi Transformer模块,以实现把RPN阶段输出的水平锚框转换为旋转锚框,减少引入大量的旋转锚框导致的巨大计算量。Roi Transformer模块分为两部分,第一部分为RRoI Learner,主要负责从HRoIs(水平感兴趣区域)中学习得到RRoIs(旋转感兴趣区域):通过将特征图输入五维的全连接层生成偏移量(x,y,w,h,⊙)。第二部分RroI Warping通过输入特征图和RroIs提取旋转不变的深度特征,进一步回归出细化的偏移量,解码得到输出旋转框。在理想情况下,每个HroI都是RroI的外接矩形。该方法通过引入Roi Transforme,大大减少了计算消耗,并取得了很好的效果。
4、Gliding Vertex
《Gliding vertex on the horizontal bounding box for multi-orientedobject detection》发表于CVPR2020.该方法主要是通过学习目标四个点在非旋转矩形上的偏移来定位出一个四边形,从而表示一个目标。采用的网络结构也是基于Faster Rcnn,在最后的全链接层分别做以分类和回归。最终的位置回归采用九参数回归方法,其中除水平框坐标(x,y,w,h)与四个点偏移值(α1,α2,α3,α4)外,还引入了旋转因子r(计算方式为旋转矩形面积与外接水平矩形面积之比),用以判断该矩形是水平还是旋转。对于水平目标来说,α都设置为1,r大于0.95即判断为水平矩形。
5、P-RSDet
该方法全名为《Object Detection for Remote Sensing Image Based on PolarCoordinates》,发表于CVPR2020。该方法首次引入极坐标做旋转目标检测,具有更少参数和更快速度的特点。其旋转框表示方法参考Cornor Net,回归极点(x,y)和两个角点(ρ,⊙1,⊙2)。特征提取网络提供了ResNet101、DLA34、Hourglass等不同网络结构,代表不同的规模与速度。检测头中,极值点的回归采用与CenterNet一样的高斯热图方式,输出极值点所在位置的概率图,类别损失采用Focal Loss。回归损失中,中心点坐标采用Smmoth L1损失,而极值点坐标的损失作者引入了Polar Ring Area Loss,具体展开为:
Lpr(ρ,θ)=Smooth L1(|[ρ2-(ρ*)2](θ-θ*)|,0)。
上述的第一种方法,即传统检测方法,需要针对不同目标做人工的特征提取算子,鲁棒性较差,且只能提取浅层特征,语义表达能力较差。如SWT算法,通过canny算子提取边缘和梯度,然后通过梯度方向去搜索相反方向的边缘。但即使在边缘都被准确提取到的情况下,在查找边缘计算目标宽度仍然有问题。而Edge Boxes算法,不是基于“学习”的算法,没有训练过程。如果训练了单独人体,那么最高评分的proposal(感兴趣区域)肯定就是单独的人体,训练了汽车,那么最高评分的proposal肯定就是单独的汽车等等,不能表达出针对不同种类的泛化能力。第二种方法是对水平Faster Rcnn的直接改进,需要设计大量的anchor(锚框)来涵盖所有目标可能存在的尺度、宽高比和角度,计算量巨大。第三种方法的特征提取网络效果较差,后接FPN输出五层特征图导致计算量增大,且每个HRoI都要接一个通道数相同的五维全连接,参数量较大影响了推理速度。方法四的八参数回归方法,精度依赖于第一阶段产生的水平检测框。若第一阶段回归不准,则第二阶段预测的四个偏移值也绝对不准。方法五与前四种方法不同,直接开拓了一种新的思路来进行旋转目标检测。但由于该方法是anchor-free(无锚框)的,在提升速度的同时必然带来精度的降低(预测中不产生anchor而直接进行回归,可以节省大量时间。但anchor在一定程度上代表着一些先验信息。若完全不考虑这些先验信息,就会导致检测精度的降低。这也是所有anchor-free检测模型精度低于anchor-base(基于锚框)检测模型的原因之一)。
因此设计一种anchor-base且速度较快、精度又能够达到SOTA的的非角度回归旋转目标检测模型,对于遥感图像中旋转目标检测具有重要意义。
发明内容
本发明目的就是为了弥补已有技术的缺陷,提供一种基于YOLOV5的任意朝向目标十二参数检测方法。首先利用YOLOV5特有的特征提取网络提取遥感图像特征,随后利用FPN+PAN结构实现特征融合,并输出三种尺度特征图,在输出特征图上进一步做分类和回归从而得到图像中目标的位置和类别信息。本方法为两阶段检测方法,首先进行水平框检测,而后在此基础上回归出目标的旋转框相对于水平边界框偏移值,解码得到旋转边界框。考虑到第一阶段回归出的水平检可能不准,在最后的旋转框偏移值检测阶段采用了八偏移值回归,最终实现旋转框预测。此方法采用4+8参数回归,回归精度更高。此外,根据不同的卷积层数设计由大到小由重到轻4种模型,分别代表不同的计算量、精度和检测速度,可针对不同任务选择不同的网络结构。与现有方法相比,可以在保证较高精度的前提下获得较快的检测速度。
本发明是通过以下技术方案实现的:
一种基于YOLOV5的任意朝向目标十二参数检测方法,具体步骤如下:
(1)将得到的遥感图像输入到Yolov5特征提取网络进行特征提取,得到三个不同尺度的特征图;
(2)将步骤(1)中得到的特征图进行分类和水平框回归;
(3)将步骤(2)中得到的水平框作为感兴趣区域,从步骤(1)中得到的特征图上生成旋转框的八参数偏移;
(4)将步骤(3)产生的旋转框八参数偏移值与步骤(2)产生的水平框进行解码输出。
步骤(1)中在进行Yolov5特征提取网络进行特征提取之前,将遥感图像进行随机翻转、拉手和色域变换数据增强操作,并做随机转为灰度图处理,再统一缩放到一个标准尺寸进行Focus切片操作,而后输入到Yolov5特征提取网络进行特征提取。
所述步骤(2)的具体内容如下:将步骤(1)产生的三个不同尺度的特征图分别进行不同通道数的卷积操作用以分类和水平框回归,产生最终旋转检测框的外接矩形,在训练过程中,计算一次损失:分类损失采用Focal Loss,回归损失采取四参数Smmoth L1。
所述的步骤(3)的具体内容如下:将步骤(2)得到的水平框作为水平感兴趣区域,与步骤(1)中得到的特征图结合进行八参数偏移值预测。
所述步骤(4)的具体内容如下:将步骤(3)产生的八参数偏移值与步骤(2)产生的水平框进行解码操作,生成最终的旋转检测框,进行非极大值抑制操作并做输出;训练阶段再进行一次损失计算:分类损失采用Focal Loss,回归损失采取八参数Smmoth L1。
所述的旋转框八参数,具体内容如下:八参数标签为(x,y,w,h,α1,α2,α3,α4),Bh为水平矩形,O为非水平四边形,水平矩形Bh表示非水平四边形O对应的外接水平矩形,水平矩形使用Bh=(v′1,v′2,v′3,v′4)=(x,y,w,h)表示,而O则用(x,y,w,h,α1,α2,α3,α4)表示;一个水平矩形Bh的四个点v′i,i∈{1,2,3,4}与非水平四边形O四个点,也就是非水平四边形O的上右下左vi,i∈{1,2,3,4}四点对应;使用(x,y,w,h)表示的水平矩形,(x,y)表示矩形中心,(w,h)表示矩形的宽和高;对于四边形O中的αi,i∈{1,2,3,4}:α{1,3}=||s{1,3}||/w,α{2,4}=||s{2,4}||/w,对于水平矩形,αi设为0。本方法在此基础上额外添加四个偏移值:(β1,β2,β3,β4),分别代表旋转框顶点v1的垂直偏移值、旋转框最右点v2的水平偏移值、旋转框底点v3的垂直偏移值、旋转框最左点v4的水平偏移值。考虑到第一阶段水平框回归误差不大,这四个值相对较小,因此在计算损失时应乘以较大的权重因子。新添加的四个偏移值,同样需要除以宽高做归一化。
所述的损失函数Smooth L1具体计算方法如下:
L1损失函数即求两数值差异的绝对值,其函数图像为折线形,损失函数Smooth L1为平滑后的L1损失函数,其表达式如下:
所述的损失函数Focal Loss具体计算方法如下:
交叉熵损失函数表达式为:L=-ylogy′-(1-y)log(1-y′),y′是经过激活函数的输出,在0-1之间;Focal loss损失函数表达式为:
本发明的优点是:本发明针对现有的几种主流旋转目标检测方法的不足,进行了针对性改进。使用YOLOV5特有的CSPNet模块同时增加了特征提取的速度与精度,FPN与PAN相结合的结构进一步增加了不同尺度特征融合能力;考虑到五参数角度回归检测方法中角度回归较难的问题,设计了4+8偏移值回归的两阶段检测方法:在输出特征图上做第一阶段检测,得到目标类别和精度较高的水平边界框;在此基础上,利用特征图和水平边界框,进一步回归出旋转边界框相对于水平边界框的偏移值;利用此偏移值与一阶段检测出的水平边界框进行解码,最终实现带角度目标的检测;最后,考虑到不同的任务需求与硬件瓶颈,设计了代表不同速度与精度的轻量化加速模型,其卷积层最小的轻量化模型,可以在高精度上实现实时检测的效果,便于搭载在无人机、树莓派等移动端,其应用前景非常广阔。
附图说明
图1是一种基于YOLOV5的任意朝向目标十二参数检测方法流程图。
图2是遥感图像目标检测中采用水平框与旋转框检测对比示意图(图2a代表大小和宽高比无法反映目标对象的真实形状图;图2b代表对象和背景像素没有有效分离图;图2c密集物体之间很难分开图;图2d、2e、2f代表采用任意方向矩形框对目标进行检测定位图)。
图3是本方法四种不同模型在不同数据集上训练后的测试结果对比。图3a是八种不同模型在DOTA数据集(15类目标)上测试结果对比图,名称的缩写定义如下:Pl:Plane,Bd:Baseball diamond,Br:Bridge,Gft:Ground field track,Sv:Small vehicle,Lv:Large vehicle,Sh:Ship,Tc:Tennis court,Bc:Basketball court,St:Storage tank,Sbf:Soccer-ball field,Ra:Roundabout,Ha:Harbor,Sp:Swimming pool,He:Helicopter;图3b是八种不同模型在UCAS-AOD数据集(2类目标)上测试结果对比图。
图4是本文模型与其他检测方法在DOTA数据集与UCAS-AOD数据集上测试结果对比图。
图5为八参数检测方法的标签标识图。
图6为十二参数检测方法的第二阶段回归标签图。
图7为三种不同损失函数走向图。
具体实施方式
本发明主要采用主流数据集进行验证,测试用的计算机CPU为英特尔酷睿i910900k ubuntu 18.04+(3.7GHz),内存为16G,GPU型号为英伟达2080ti,显存为12G。所有步骤、结论都在编程软件Python3.8与深度学习框架Pytorch1.7.0上验证正确。如图3所示,图3a是八种不同模型在DOTA数据集(15类目标)上测试结果对比图;图3b是八种不同模型在UCAS-AOD数据集(2类目标)上测试结果对比图。可以看出最大模型yolov5-12X有着最高的检测精度,但模型参数量较大,检测速度较慢;最小模型yolov5-12S有着超实时的检测效果和不低的精度(测试图像均按原图宽高比裁剪为最大边608像素的图片)。图4是本文模型与其他检测方法在DOTA数据集与UCAS-AOD数据集上测试结果对比。可以看出在相同的训练条件下(特征提取网络在ImageNet上预训练后,从头开始训练模型100个epoch)训练得到的不同检测方法模型,其中本文模型在精度和速度上达到了最大。下面结合附图和具体实施例对本发明的方法做进一步的阐述。
本发明提供的基于YOLOV5的任意朝向目标十二参数检测方法的流程示意图如图1所示,具体实施例如下:
为了方便描述,首先做以下术语定义:
定义1十二参数回归方法
常用的的八参数标签(x,y,w,h,α1,α2,α3,α4)表示方法如图5。图中,Bh为水平矩形,蓝色O为非水平四边形,Bh表示非水平O对应的外接水平矩形(即图像标注)。矩形可以使用Bh=(v′1,v′2,v′3,v′4)=(x,y,w,h)表示,而O则用(x,y,w,h,α1,α2,α3,α4)表示。对于一个水平矩形Bh来说,它的四个点v′i,i∈{1,2,3,4}与四边形。O四个点,也就是非水平四边形O的上右下左vi,i∈{1,2,3,4}四点对应。使用(x,y,w,h)表示的水平矩形,(x,y)表示矩形中心,(w,h)表示矩形的宽和高。对于O中的αi,i∈{1,2,3,4}:α{1,3}=||s{1,3}||/w,α{2,4}=||s{2,4}||/w,对于水平矩形,αi设为0。然而,考虑到第一阶段得到的水平框,如图6所示,第一阶段回归四参数为目标外接水平框的(x,y,w,h),该阶段得到的水平框(图中左下角水平框)可能不是理想水平框的(图中右上角水平框)。因此第二阶段需要回归一阶段水平框四个点坐标与真实框四个点坐标的八个偏移值,可能不是理想水平框,存在垂直与水平方向偏差。因此在回归偏移量时将四偏移值改为八偏移值(即一阶段产生水平框的四个顶点与真实框四顶点的差值)可以得到更高的精度。
定义2Smooth L1损失函数
如图7所示,L1损失函数即求两数值差异的绝对值,其函数图像为折线形。smoothL1损失函数为平滑后的L1损失函数,其表达式如下:
L1损失函数的缺点是有折点,不光滑,导致训练不稳定。Smooth L1损失函数对于离群点更加鲁棒,相比于L2损失函数,其对离群点(距离原点较远的点)、异常值(outlier)不敏感,可控制梯度的量级使模型优化过程更加稳定。
定义3Focal Loss损失函数
Focal loss是在交叉熵损失函数基础上进行的修改,交叉熵损失函数表达式为:L=-ylogy′-(1-y)log(1-y′)。y′是经过激活函数的输出,在0-1之间。普通的交叉熵对于正样本而言,输出概率越大损失越小。对于负样本而言,输出概率越小则损失越小。此损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。Focal loss损失将交叉熵损失函数改进为:
在原有的基础上加了一个因子γ>0减少易分类样本的损失,使模型更关注于困难的、错分的样本。如γ为2,对于正类样本而言,预测结果为0.95肯定是简单样本,所以(1-0.95)的γ次方就会很小,这时损失函数值就变得更小。而预测概率为0.3的样本其损失相对很大。对于负类样本而言同样,预测0.1的结果应当远比预测0.7的样本损失值要小得多。对于预测概率为0.5时,损失只减少了0.25倍,所以更加关注于这种难以区分的样本,这样减少了简单样本的影响,大量预测概率很小的样本叠加起来后的效应才可能比较有效。而加入平衡因子α用来平衡正负样本本身的比例不均。实验中α取0.25,即正样本要比负样本占比小,这是因为负例易分。
参见图1,通过如下的步骤实现基于YOLOV5的任意朝向目标十二参数检测方法过程:
步骤1.输入图像进行特征提取,得到特征图
对输入图像进行随机翻转、拉伸、色域变换等数据增强操作(只有训练过程包含此操作,检测过程不执行此操作)后,并做随机转为灰度图处理,统一缩放到一个标准尺寸(如608*608),进行Focus切片操作,而后输入到Yolov5特征提取网络。该特征提取网络由若干CSP(Cross Stage Partial Network:跨阶段局部网络)和CBL(卷积+BatchNormalization+leakyRelu)、SPP模块组成。CSP模块为特征提取的主干结构:每个CSP模块先将基础层的特征映射划分为两部分,一部分由若干残差模块进行卷积,然后通过跨阶段层次结构与另一部分合并,避免了由于网络优化中的梯度信息重复导致的推理计算过高的问题,在减少了计算量的同时可以保证准确率。CBL为卷积、批归一化、激活函数组成的常规特征提取操作。SPP将同一特征图分别进行四次不同尺度最大池化,池化后四个特征图进行叠加,以保留不同尺度级别目标信息。在经过特征提取之后,将不同层特征图输入FPN与PAN模块。FPN为自顶向下结构,将高层特征图的语义信息通过上采样的方式进行向下传递融合,得到进行预测的特征图。而PAN是一个自底向上的特征金字塔。FPN自顶向下传达强语义特征,而PAN则自底向上传达强定位特征,以实现从不同的主干层对不同的检测层进行特征融合。最后输出三个不同尺度特征图。
步骤2.将步骤1特征图进行分类和水平框回归
首先进行第一阶段检测。将步骤1产生的三种尺度特征图分别进行不同通道数的卷积操作做以分类和回归,其回归为水平框回归,理想情况下会产生最终旋转检测框的外接矩形。在训练过程中,此处计算一次损失:分类损失采用Focal Loss,回归损失采取Smmoth L1;
步骤3.由步骤4水平框和步骤1特征图,生成旋转框八参数偏移
将步骤2得到的水平检测框,作为HRoI(水平感兴趣区域),与特征图结合进行八偏移值预测。不同于RSDet、Gliding Vertex等八参数回归方法,此处考虑到第一阶段产生的水平框可能存在垂直方向上的偏移(即非理想情况下的旋转框外接矩形),因此对一阶段产生的水平框四个顶点预测出水平、垂直方向上的八个偏移值;
步骤4.解码进行后处理,输出并计算损失
将步骤3产生的八偏移值与步骤2产生的水平框进行解码操作,生成最终的旋转检测框,进行NMS(非极大值抑制)操作并做输出。训练阶段此处再进行一次损失计算:分类损失采用Focal Loss,回归损失采取Smmoth L1。
Claims (8)
1.一种基于YOLOV5的任意朝向目标十二参数检测方法,其特征在于:具体步骤如下:
(1)将得到的遥感图像输入到Yolov5特征提取网络进行特征提取,得到三个不同尺度的特征图;
(2)将步骤(1)中得到的特征图进行分类和水平框回归;
(3)将步骤(2)中得到的水平框作为感兴趣区域,从步骤(1)中得到的特征图上生成旋转框的八参数偏移;
(4)将步骤(3)产生的旋转框八参数偏移值与步骤(2)产生的水平框进行解码输出。
2.根据权利要求1所述的一种基于YOLOV5的任意朝向目标十二参数检测方法,其特征在于:步骤(1)中在进行Yolov5特征提取网络进行特征提取之前,将遥感图像进行随机翻转、拉伸和色域变换数据增强操作,并做随机转为灰度图处理,而后统一缩放到一个标准尺寸进行Focus切片操作,切片后输入到Yolov5特征提取网络进行特征提取。
3.根据权利要求1所述的一种基于YOLOV5的任意朝向目标十二参数检测方法,其特征在于:所述步骤(2)的具体内容如下:将步骤(1)产生的三个不同尺度的特征图分别进行不同通道数的卷积操作用以分类和水平框回归,产生最终旋转检测框的外接矩形,在训练过程中,计算一次损失:分类损失采用Focal Loss,回归损失采取四参数Smmoth L1。
4.根据权利要求3所述的一种基于YOLOV5的任意朝向目标十二参数检测方法,其特征在于:所述的步骤(3)的具体内容如下:将步骤(2)得到的水平框作为水平感兴趣区域,与步骤(1)中得到的特征图结合进行八参数偏移值预测。
5.根据权利要求4所述的一种基于YOLOV5的任意朝向目标十二参数检测方法,其特征在于:所述步骤(4)的具体内容如下:将步骤(3)产生的八参数偏移值与步骤(2)产生的水平框进行解码操作,生成最终的旋转检测框,进行非极大值抑制操作并做输出;训练阶段再进行一次损失计算:分类损失采用Focal Loss,回归损失采取八参数Smmoth L1。
6.根据权利要求1所述的一种基于YOLOV5的任意朝向目标十二参数检测方法,其特征在于:所述的旋转框八参数,具体内容如下:八参数标签为(x,y,w,h,α1,α2,α3,α4),Bh为水平矩形,O为非水平四边形,水平矩形Bh表示非水平四边形O对应的外接水平矩形,水平矩形使用Bh=(v′1,v′2,v′3,v′4)=(x,y,w,h)表示,而O则用(x,y,w,h,α1,α2,α3,α4)表示;一个水平矩形Bh的四个点v′i,i∈{1,2,3,4}与四边形O四个点,也就是非水平四边形O的上右下左vi,i∈{1,2,3,4}四点对应;使用(x,y,w,h)表示的水平矩形,(x,y)表示矩形中心,(w,h)表示矩形的宽和高;对于四边形O中的αi,i∈{1,2,3,4}:α{1,3}=||s{1,3}||/w,α{2,4}=||s{2,4}||/h,对于水平矩形,αi设为0;另外添加四个偏移值:(β1,β2,β3,β4),分别代表旋转框顶点v1的垂直偏移值、旋转框最右点v2的水平偏移值、旋转框底点v3的垂直偏移值、旋转框最左点v4的水平偏移值;将所述的四个偏移值除以宽高做归一化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110520927.8A CN113177503A (zh) | 2021-05-13 | 2021-05-13 | 基于yolov5的任意朝向目标十二参数检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110520927.8A CN113177503A (zh) | 2021-05-13 | 2021-05-13 | 基于yolov5的任意朝向目标十二参数检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113177503A true CN113177503A (zh) | 2021-07-27 |
Family
ID=76929093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110520927.8A Pending CN113177503A (zh) | 2021-05-13 | 2021-05-13 | 基于yolov5的任意朝向目标十二参数检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177503A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408510A (zh) * | 2021-08-23 | 2021-09-17 | 中科方寸知微(南京)科技有限公司 | 基于深度学习与one-hot编码的输电线路目标纠偏方法和系统 |
CN113591810A (zh) * | 2021-09-28 | 2021-11-02 | 湖南大学 | 基于边界紧约束网络的车辆目标位姿检测方法、装置及存储介质 |
CN113744220A (zh) * | 2021-08-25 | 2021-12-03 | 中国科学院国家空间科学中心 | 一种基于pynq的无预选框检测系统 |
CN113887455A (zh) * | 2021-10-11 | 2022-01-04 | 东北大学 | 一种基于改进fcos的人脸口罩检测系统及方法 |
CN114898306A (zh) * | 2022-07-11 | 2022-08-12 | 浙江大华技术股份有限公司 | 一种检测目标朝向的方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091105A (zh) * | 2019-12-23 | 2020-05-01 | 郑州轻工业大学 | 基于新的边框回归损失函数的遥感图像目标检测方法 |
CN111476167A (zh) * | 2020-04-09 | 2020-07-31 | 北京中科千寻科技有限公司 | 一种基于学生-t分布辅助的一阶段方向遥感图像目标检测方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN112085018A (zh) * | 2020-08-27 | 2020-12-15 | 南京佑驾科技有限公司 | 基于神经网络的车牌识别系统 |
-
2021
- 2021-05-13 CN CN202110520927.8A patent/CN113177503A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN111091105A (zh) * | 2019-12-23 | 2020-05-01 | 郑州轻工业大学 | 基于新的边框回归损失函数的遥感图像目标检测方法 |
CN111476167A (zh) * | 2020-04-09 | 2020-07-31 | 北京中科千寻科技有限公司 | 一种基于学生-t分布辅助的一阶段方向遥感图像目标检测方法 |
CN112085018A (zh) * | 2020-08-27 | 2020-12-15 | 南京佑驾科技有限公司 | 基于神经网络的车牌识别系统 |
Non-Patent Citations (3)
Title |
---|
XUE YANG 等: "R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object", 《ARXIV》 * |
YONGCHAO XU 等: "Gliding vertex on the horizontal bounding box for multi-oriented object detection", 《ARXIV》 * |
范红超等: "基于Anchor-free的交通标志检测", 《地球信息科学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408510A (zh) * | 2021-08-23 | 2021-09-17 | 中科方寸知微(南京)科技有限公司 | 基于深度学习与one-hot编码的输电线路目标纠偏方法和系统 |
CN113744220A (zh) * | 2021-08-25 | 2021-12-03 | 中国科学院国家空间科学中心 | 一种基于pynq的无预选框检测系统 |
CN113744220B (zh) * | 2021-08-25 | 2024-03-26 | 中国科学院国家空间科学中心 | 一种基于pynq的无预选框检测系统 |
CN113591810A (zh) * | 2021-09-28 | 2021-11-02 | 湖南大学 | 基于边界紧约束网络的车辆目标位姿检测方法、装置及存储介质 |
CN113591810B (zh) * | 2021-09-28 | 2021-12-07 | 湖南大学 | 基于边界紧约束网络的车辆目标位姿检测方法、装置及存储介质 |
CN113887455A (zh) * | 2021-10-11 | 2022-01-04 | 东北大学 | 一种基于改进fcos的人脸口罩检测系统及方法 |
CN113887455B (zh) * | 2021-10-11 | 2024-05-28 | 东北大学 | 一种基于改进fcos的人脸口罩检测系统及方法 |
CN114898306A (zh) * | 2022-07-11 | 2022-08-12 | 浙江大华技术股份有限公司 | 一种检测目标朝向的方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Deep learning-based object detection techniques for remote sensing images: A survey | |
Wang et al. | Multiscale visual attention networks for object detection in VHR remote sensing images | |
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
Cheng et al. | FusionNet: Edge aware deep convolutional networks for semantic segmentation of remote sensing harbor images | |
CN113177503A (zh) | 基于yolov5的任意朝向目标十二参数检测方法 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN111914698B (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN113191296A (zh) | 一种基于yolov5的任意朝向目标五参数检测方法 | |
CN111783523B (zh) | 一种遥感影像旋转目标检测方法 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
Lu et al. | A cnn-transformer hybrid model based on cswin transformer for uav image object detection | |
CN114429457A (zh) | 一种基于双模态融合的风机叶片缺陷智能检测方法 | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
Zhao et al. | CRAS-YOLO: A novel multi-category vessel detection and classification model based on YOLOv5s algorithm | |
Xing et al. | Traffic sign recognition using guided image filtering | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN113159215A (zh) | 一种基于Faster Rcnn的小目标检测识别方法 | |
Ren et al. | Infrared small target detection via region super resolution generative adversarial network | |
Liu et al. | SLPR: A deep learning based Chinese ship license plate recognition framework | |
Chai et al. | Enhanced Cascade R-CNN for Multi-scale Object Detection in Dense Scenes from SAR Images | |
Chen et al. | Coupled global–local object detection for large vhr aerial images | |
Shi et al. | RAOD: refined oriented detector with augmented feature in remote sensing images object detection | |
Rocha et al. | Beyond Land: A Review of Benchmarking Datasets, Algorithms, and Metrics for Visual-Based Ship Tracking | |
Liu | TS2Anet: Ship detection network based on transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210727 |