CN109858530B - 一种基于复合金字塔的旋转目标检测方法 - Google Patents

一种基于复合金字塔的旋转目标检测方法 Download PDF

Info

Publication number
CN109858530B
CN109858530B CN201910031679.3A CN201910031679A CN109858530B CN 109858530 B CN109858530 B CN 109858530B CN 201910031679 A CN201910031679 A CN 201910031679A CN 109858530 B CN109858530 B CN 109858530B
Authority
CN
China
Prior art keywords
target
frame
prior
prediction
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910031679.3A
Other languages
English (en)
Other versions
CN109858530A (zh
Inventor
杭涛
祁伟
张婷婷
曹峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Changfeng Aviation Electronics Co Ltd
Original Assignee
Suzhou Changfeng Aviation Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Changfeng Aviation Electronics Co Ltd filed Critical Suzhou Changfeng Aviation Electronics Co Ltd
Priority to CN201910031679.3A priority Critical patent/CN109858530B/zh
Publication of CN109858530A publication Critical patent/CN109858530A/zh
Application granted granted Critical
Publication of CN109858530B publication Critical patent/CN109858530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明揭示了一种基于复合金字塔的旋转目标检测方法,在标定目标样本时加入了旋转标定的功能,对于目标的位置通过增加目标框的旋转角度来准确标定目标;在训练网络模型时通过加入旋转角度的计算,将目标角度误差反馈到网络中,使得网络能够学习到目标的角度信息。本发明通过加入角度信息的误差计算,对损失函数进行约束,使得网络能够输出带有角度信息的目标框,能实现在复杂的环境场景下对旋转目标的检测。利用复合金字塔特征对目标进行分析,提高了远小目标的识别率。

Description

一种基于复合金字塔的旋转目标检测方法
技术领域
本发明涉及一种基于复合金字塔的旋转目标检测方法,属于视觉识别的技术领域。
背景技术
目标识别是计算机视觉领域内一个长期存在的基础性难题,几十年来也一直都是一个活跃的研究领域。目标识别的目标是确定某张给定图像中是否存在给定类别的目标实例;如果存在,就返回每个目标实例的空间位置和覆盖范围。
作为图像理解和计算机视觉的基石,目标识别是解决分割、场景理解、目标追踪、图像描述、事件检测和活动识别等更复杂更高层次的视觉任务的基础。
近来迅猛发展的深度学习技术是一类能自动从数据中学习特征表示的强大方法。特别需要指出,这些技术已经显著改善了目标识别的表现,这个问题在过去五年中得到了很大的关注,许多基于深度学习的目标识别方法取得了很大的研究进展。
大多数现有的识别方法使用目标框去定位目标在图像中的位置,这些目标框不支持旋转标注,当处理带有旋转信息的目标时,没有旋转信息的目标框会引入大量的背景信息,从而导致训练样本失真,影响算法的整体识别效果。
发明内容
本发明的目的是解决上述现有技术的不足,针对现有视觉检测不支持旋转标注从而导致整体识别效果差的问题,提出一种基于复合金字塔的旋转目标检测方法。
为了达到上述目的,本发明所采用的技术方案为:
一种基于复合金字塔的旋转目标检测方法,包括以下步骤:
S1对训练样本进行目标标定,标定结果存为[x,y,w,h,a],
其中(x,y)是目标中心坐标,(w,h)是目标宽高,(a)是目标的旋转角度,
预定义KL个先验框[pw,ph,pa],L为特征金字塔的层数,先验框以宽高(pw,ph)信息从小到大进行排序,pa为先验框的角度;
S2将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络得到预测特征图ZL,预测特征图大小为NL×WL×HL×KL×(6+C),其中NL为训练图像的批处理数量,(WL,HL)为预测特征图的大小,KL为先验框个数,L为特征金字塔的层数,C为识别的类别数;
S3在预测特征图ZL的每个位置对每个先验框预测5个坐标[tx,ty,tw,th,ta]和to,to判断当前先验框是否是目标,目标框的预测通过如下函数计算:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
Figure BDA0001944445040000021
Figure BDA0001944445040000022
ba=tan-1(ta)+pa(5)
Pr(object)*ArIOU(b,object)=σ(to) (6)
其中,[bx,by,bw,bh,ba]为预测的实际目标位置坐标,(cx,cy)为预测特征图的坐标位置,σ为sigmoid函数,ArIOU(b,object)计算先验框和目标框的交集,其计算公式如下:
Figure BDA0001944445040000023
其中
Figure BDA0001944445040000024
除了角度参数和B相同,其他坐标参数和A相同,∪和∩是计算两个框并集和交集的布尔运算;
S3根据公式(1)~公式(6)推倒计算训练误差,误差采用均方差函数计算得到,并反馈到网络中,对网络中的权重参数进行梯度下降优化,误差计算公式如下所示:
Figure BDA0001944445040000025
其中,N为所有匹配的先验框的个数,
Figure BDA0001944445040000026
为特征金字塔的每层误差值,其计算如下:
Figure BDA0001944445040000031
其中,xij∈{0,1},当先验框中包含目标时为1,反之为0,通过公式(7)进行计算先验框和目标框的ArIOU(b,object)值,当ArIOU(b,object)>thArIOU时认为先验框包含目标,反之不包含;i为先验框的下标数,j为预测目标框的下标数,
Figure BDA0001944445040000032
由公式(1-5)计算得到,
Figure BDA0001944445040000033
为网络预测得到的值;smoothL2代表L2损失计算函数;
S5重复步骤S2~步骤S4直至总体误差Lall达到一个较为稳定的值,则停止训练。
S6将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络中得到预测特征图ZL,根据预测特征图中的每个位置对先验框预测的5个坐标[tx,ty,tw,th,ta],通过公式(1)~公式(5)算相应的实际预测目标框的坐标位置[bx,by,bw,bh,ba]以及置信度σ(to),当σ(to)>tho时,认为该预测框含有目标,反之剔除该预测框,将特征金字塔得到的所有预测目标框的坐标位置进行合并;
S7将所有的预测目标框的坐标位置信息进行非极大值抑制处理,此时计算重叠目标框的距离时采用如下公式:
Figure BDA0001944445040000034
其中,IOU的计算不考虑目标框的角度因素,只考虑宽高以及位置信息,当IOU的值大于0.5时,认为当前两个目标框表示的是同一个物体,因此删除置信度较低的预测框;
S8经过步骤S6和步骤S7计算,将剩余的预测目标框进行输出绘制到原始图像中。
本发明的有益效果主要体现在:
1.通过加入角度信息的误差计算,对损失函数进行约束,使得网络能够输出带有角度信息的目标框,能实现在复杂的环境场景下对旋转目标的检测。
2.利用复合金字塔特征对目标进行分析,提高了远小目标的识别率。
附图说明
图1是本发明旋转目标检测方法的一个具体实施例的原理示意图。
具体实施方式
本发明提供一种基于复合金字塔的旋转目标检测方法。以下结合附图对本发明技术方案进行详细描述,以使其更易于理解和掌握。
首先进行视觉检测训练,具体地:
对训练样本进行目标标定,标定结果存为[x,y,w,h,a],其中(x,y)是目标中心坐标,(w,h)是目标宽高,(a)是目标的旋转角度;预定义KL个先验框[pw,ph,pa],L为特征金字塔的层数,先验框以宽高(pw,ph)信息从小到大进行排序,pa为先验框的角度。
在一个具体实施例中,如图1所示,定义KL为18,L为3,其中(pw,ph)∈{(10,13),(16,30),(33,23),(30,61),(62,45),(59,119),(116,90),(156,198),(373,326)},pa∈{0,30,60,90,120,150}(角度)。
将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络Darknet-53,得到预测特征图ZL,预测特征图大小为NL×WL×HL×KL×(6+C),其中NL为训练图像的批处理数量,(WL,HL)为预测特征图的大小,KL为先验框个数,L为特征金字塔的层数,C为识别的类别数。
在一个具体实施例中,I的值为416。
在预测特征图ZL的每个位置对每个先验框预测5个坐标[tx,ty,tw,th,ta]和to,to判断当前先验框是否是目标,目标框的预测通过如下函数计算:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
Figure BDA0001944445040000051
Figure BDA0001944445040000052
ba=tan-1(ta)+pa (5)
Pr(object)*ArIOU(b,object)=σ(to) (6)
其中,[bx,by,bw,bh,ba]为预测的实际目标位置坐标,(cx,cy)为预测特征图的坐标位置,σ为sigmoid函数,ArIOU(b,object)计算先验框和目标框的交集,其计算公式如下:
Figure BDA0001944445040000053
其中
Figure BDA0001944445040000054
除了角度参数和B相同,其他坐标参数和A相同,∪和∩是计算两个框并集和交集的布尔运算。
根据公式(1-6)推倒计算训练误差,误差采用均方差函数计算得到,并反馈到网络中,对网络中的权重参数进行梯度下降优化,误差计算公式如下所示:
Figure BDA0001944445040000055
其中,N为所有匹配的先验框的个数,
Figure BDA0001944445040000056
为特征金字塔的每层误差值,其计算如下:
Figure BDA0001944445040000057
其中,xij∈{0,1},当先验框中包含目标时为1,反之为0,通过公式(7)进行计算先验框和目标框的ArIOU(b,object)值,当ArIOU(b,object)>thArIOU时认为先验框包含目标,反之不包含;i为先验框的下标数,j为预测目标框的下标数,
Figure BDA0001944445040000061
由公式(1-5)计算得到,
Figure BDA0001944445040000062
为网络预测得到的值;smoothL2代表L2损失计算函数;本发明中thArIOU的值为0.5。
重复(2)、(3)、(4)直至总体误差Lall达到一个较为稳定的值,则停止训练。
进行视觉预测作业,具体如下:
将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络Darknet-53,得到预测特征图ZL,根据预测特征图中的每个位置对先验框预测的5个坐标[tx,ty,tw,th,ta],通过公式(1-5)计算相应的实际预测目标框的坐标位置[bx,by,bw,bh,ba]以及置信度σ(to),当σ(to)>tho时,认为该预测框含有目标,反之剔除该预测框,将特征金字塔得到的所有预测目标框的坐标位置进行合并;本发明中tho的值为0.1。
将所有的预测目标框的坐标位置信息进行NMS(non-maximum suppression,非极大值抑制)处理,此时计算重叠目标框的距离时采用如下公式:
Figure BDA0001944445040000063
其中,IOU的计算不考虑目标框的角度因素,只考虑宽高以及位置信息,当IOU的值大于0.5时,认为当前两个目标框表示的是同一个物体,因此删除置信度较低的预测框。
经过上述两步计算,将剩余的预测目标框进行输出绘制到原始图像中。
通过以上描述可以发现,本发明一种基于复合金字塔的旋转目标检测方法,通过加入角度信息的误差计算,对损失函数进行约束,使得网络能够输出带有角度信息的目标框,能实现在复杂的环境场景下对旋转目标的检测。利用复合金字塔特征对目标进行分析,提高了远小目标的识别率。
以上对本发明的技术方案进行了充分描述,需要说明的是,本发明的具体实施方式并不受上述描述的限制,本领域的普通技术人员依据本发明的精神实质在结构、方法或功能等方面采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。

Claims (1)

1.一种基于复合金字塔的旋转目标检测方法,其特征在于包括以下步骤:
S1对训练样本进行目标标定,标定结果存为[x,y,w,h,a],
其中(x,y)是目标中心坐标,(w,h)是目标宽高,(a)是目标的旋转角度,
预定义KL个先验框[pw,ph,pa],L为特征金字塔的层数,先验框以宽高(pw,ph)信息从小到大进行排序,pa为先验框的角度;
S2将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络得到预测特征图ZL,预测特征图大小为NL×WL×HL×KL×(6+C),其中NL为训练图像的批处理数量,(WL,HL)为预测特征图的大小,KL为先验框个数,L为特征金字塔的层数,C为识别的类别数;
S3在预测特征图ZL的每个位置对每个先验框预测5个坐标[tx,ty,tw,th,ta]和to,to判断当前先验框是否是目标,目标框的预测通过如下函数计算:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
Figure FDA0003560366130000011
Figure FDA0003560366130000012
ba=tan-1(ta)+pa (5)
Pr(object)*ArIOU(b,object)=σ(to) (6)
其中,[bx,by,bw,bh,ba]为预测的实际目标位置坐标,(cx,cy)为预测特征图的坐标位置,σ为sigmoid函数,ArIOU(b,object)计算先验框和目标框Pr(object)的交集,其计算公式如下:
Figure FDA0003560366130000013
其中
Figure FDA0003560366130000014
除了角度参数和B相同,其他坐标参数和A相同,∪和∩是计算两个框并集和交集的布尔运算;
S3根据公式(1)~公式(6)推倒计算训练误差,误差采用均方差函数计算得到,并反馈到网络中,对网络中的权重参数进行梯度下降优化,误差计算公式如下所示:
Figure FDA0003560366130000021
其中,N为所有匹配的先验框的个数,
Figure FDA0003560366130000022
为特征金字塔的每层误差值,其计算如下:
Figure FDA0003560366130000023
其中,xij∈{0,1},当先验框中包含目标时为1,反之为0,通过公式(7)进行计算先验框和目标框的ArIOU(b,object)值,当ArIOU(b,object)>thArIOU时认为先验框包含目标,反之不包含;i为先验框的下标数,j为预测目标框的下标数,
Figure FDA0003560366130000024
由公式(1-5)计算得到,
Figure FDA0003560366130000025
为网络预测得到的值;smoothL2代表L2损失计算函数;
S5重复步骤S2~步骤S4直至总体误差Lall达到一个较为稳定的值,则停止训练;
S6将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络中得到预测特征图ZL,根据预测特征图中的每个位置对先验框预测的5个坐标[tx,ty,tw,th,ta],通过公式(1)~公式(5)算相应的实际预测目标框的坐标位置[bx,by,bw,bh,ba]以及置信度σ(to),当σ(to)>tho时,认为该预测框含有目标,反之剔除该预测框,将特征金字塔得到的所有预测目标框的坐标位置进行合并;
S7将所有的预测目标框的坐标位置信息进行非极大值抑制处理,此时计算重叠目标框的距离时采用如下公式:
Figure FDA0003560366130000031
其中,IOU的计算不考虑目标框的角度因素,只考虑宽高以及位置信息,当IOU的值大于0.5时,认为当前两个目标框表示的是同一个物体,因此删除置信度较低的预测框;
S8经过步骤S6和步骤S7计算,将剩余的预测目标框进行输出绘制到原始图像中。
CN201910031679.3A 2019-01-14 2019-01-14 一种基于复合金字塔的旋转目标检测方法 Active CN109858530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910031679.3A CN109858530B (zh) 2019-01-14 2019-01-14 一种基于复合金字塔的旋转目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910031679.3A CN109858530B (zh) 2019-01-14 2019-01-14 一种基于复合金字塔的旋转目标检测方法

Publications (2)

Publication Number Publication Date
CN109858530A CN109858530A (zh) 2019-06-07
CN109858530B true CN109858530B (zh) 2022-06-28

Family

ID=66894595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910031679.3A Active CN109858530B (zh) 2019-01-14 2019-01-14 一种基于复合金字塔的旋转目标检测方法

Country Status (1)

Country Link
CN (1) CN109858530B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242122B (zh) * 2020-01-07 2023-09-08 浙江大学 一种轻量级深度神经网络旋转目标检测方法和系统
CN112966587B (zh) * 2021-03-02 2022-12-20 北京百度网讯科技有限公司 目标检测模型的训练方法、目标检测方法及相关设备
CN113408429B (zh) * 2021-06-22 2023-06-09 深圳市华汉伟业科技有限公司 一种具有旋转适应性的目标检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101966A (zh) * 2018-06-08 2018-12-28 中国科学院宁波材料技术与工程研究所 基于深度学习的工件识别定位和姿态估计系统和方法
CN109165538A (zh) * 2018-07-18 2019-01-08 北京飞搜科技有限公司 基于深度神经网络的条形码检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101966A (zh) * 2018-06-08 2018-12-28 中国科学院宁波材料技术与工程研究所 基于深度学习的工件识别定位和姿态估计系统和方法
CN109165538A (zh) * 2018-07-18 2019-01-08 北京飞搜科技有限公司 基于深度神经网络的条形码检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning a Rotation Invariant Detector with Rotatable Bounding Box;Lei Liu等;《arXiv:1711.09405v1》;20171126;全文 *
YOLO9000:Better, Faster, Stronger;Joseph Redmon等;《CVPR2017》;20170726;全文 *

Also Published As

Publication number Publication date
CN109858530A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109685152B (zh) 一种基于dc-spp-yolo的图像目标检测方法
CN109829893B (zh) 一种基于注意力机制的缺陷目标检测方法
CN110298298B (zh) 目标检测及目标检测网络的训练方法、装置及设备
CN112966587B (zh) 目标检测模型的训练方法、目标检测方法及相关设备
CN109870983B (zh) 处理托盘堆垛图像的方法、装置及用于仓储拣货的系统
CN107833209B (zh) 一种x光图像检测方法、装置、电子设备及存储介质
CN109858530B (zh) 一种基于复合金字塔的旋转目标检测方法
CN113052109A (zh) 一种3d目标检测系统及其3d目标检测方法
CN110633661A (zh) 一种融合语义分割的遥感图像目标检测方法
WO2022227770A1 (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
CN115797736B (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
CN110889399A (zh) 基于深度学习的高分辨率遥感影像弱小目标检测方法
CN114089330B (zh) 一种基于深度图像修复的室内移动机器人玻璃检测与地图更新方法
CN113469025A (zh) 应用于车路协同的目标检测方法、装置、路侧设备和车辆
CN115719436A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
CN111553914A (zh) 基于视觉的货物检测方法、装置、终端及可读存储介质
CN111524113A (zh) 提升链异常识别方法、系统、设备及介质
CN115100741B (zh) 一种点云行人距离风险检测方法、系统、设备和介质
CN116681894A (zh) 一种结合大核卷积的相邻层特征融合Unet多器官分割方法、系统、设备及介质
CN116844124A (zh) 三维目标检测框标注方法、装置、电子设备和存储介质
CN112861940A (zh) 双目视差估计方法、模型训练方法以及相关设备
CN113887455B (zh) 一种基于改进fcos的人脸口罩检测系统及方法
CN115187879A (zh) 一种基于YOLOv5的楼栋检测与楼层定位方法及装置
CN112884755B (zh) 违禁品的检测方法及装置
CN114140612A (zh) 电力设备隐患检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant