CN109858530B - 一种基于复合金字塔的旋转目标检测方法 - Google Patents
一种基于复合金字塔的旋转目标检测方法 Download PDFInfo
- Publication number
- CN109858530B CN109858530B CN201910031679.3A CN201910031679A CN109858530B CN 109858530 B CN109858530 B CN 109858530B CN 201910031679 A CN201910031679 A CN 201910031679A CN 109858530 B CN109858530 B CN 109858530B
- Authority
- CN
- China
- Prior art keywords
- target
- frame
- prior
- prediction
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明揭示了一种基于复合金字塔的旋转目标检测方法,在标定目标样本时加入了旋转标定的功能,对于目标的位置通过增加目标框的旋转角度来准确标定目标;在训练网络模型时通过加入旋转角度的计算,将目标角度误差反馈到网络中,使得网络能够学习到目标的角度信息。本发明通过加入角度信息的误差计算,对损失函数进行约束,使得网络能够输出带有角度信息的目标框,能实现在复杂的环境场景下对旋转目标的检测。利用复合金字塔特征对目标进行分析,提高了远小目标的识别率。
Description
技术领域
本发明涉及一种基于复合金字塔的旋转目标检测方法,属于视觉识别的技术领域。
背景技术
目标识别是计算机视觉领域内一个长期存在的基础性难题,几十年来也一直都是一个活跃的研究领域。目标识别的目标是确定某张给定图像中是否存在给定类别的目标实例;如果存在,就返回每个目标实例的空间位置和覆盖范围。
作为图像理解和计算机视觉的基石,目标识别是解决分割、场景理解、目标追踪、图像描述、事件检测和活动识别等更复杂更高层次的视觉任务的基础。
近来迅猛发展的深度学习技术是一类能自动从数据中学习特征表示的强大方法。特别需要指出,这些技术已经显著改善了目标识别的表现,这个问题在过去五年中得到了很大的关注,许多基于深度学习的目标识别方法取得了很大的研究进展。
大多数现有的识别方法使用目标框去定位目标在图像中的位置,这些目标框不支持旋转标注,当处理带有旋转信息的目标时,没有旋转信息的目标框会引入大量的背景信息,从而导致训练样本失真,影响算法的整体识别效果。
发明内容
本发明的目的是解决上述现有技术的不足,针对现有视觉检测不支持旋转标注从而导致整体识别效果差的问题,提出一种基于复合金字塔的旋转目标检测方法。
为了达到上述目的,本发明所采用的技术方案为:
一种基于复合金字塔的旋转目标检测方法,包括以下步骤:
S1对训练样本进行目标标定,标定结果存为[x,y,w,h,a],
其中(x,y)是目标中心坐标,(w,h)是目标宽高,(a)是目标的旋转角度,
预定义KL个先验框[pw,ph,pa],L为特征金字塔的层数,先验框以宽高(pw,ph)信息从小到大进行排序,pa为先验框的角度;
S2将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络得到预测特征图ZL,预测特征图大小为NL×WL×HL×KL×(6+C),其中NL为训练图像的批处理数量,(WL,HL)为预测特征图的大小,KL为先验框个数,L为特征金字塔的层数,C为识别的类别数;
S3在预测特征图ZL的每个位置对每个先验框预测5个坐标[tx,ty,tw,th,ta]和to,to判断当前先验框是否是目标,目标框的预测通过如下函数计算:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
ba=tan-1(ta)+pa(5)
Pr(object)*ArIOU(b,object)=σ(to) (6)
其中,[bx,by,bw,bh,ba]为预测的实际目标位置坐标,(cx,cy)为预测特征图的坐标位置,σ为sigmoid函数,ArIOU(b,object)计算先验框和目标框的交集,其计算公式如下:
S3根据公式(1)~公式(6)推倒计算训练误差,误差采用均方差函数计算得到,并反馈到网络中,对网络中的权重参数进行梯度下降优化,误差计算公式如下所示:
其中,xij∈{0,1},当先验框中包含目标时为1,反之为0,通过公式(7)进行计算先验框和目标框的ArIOU(b,object)值,当ArIOU(b,object)>thArIOU时认为先验框包含目标,反之不包含;i为先验框的下标数,j为预测目标框的下标数,由公式(1-5)计算得到,为网络预测得到的值;smoothL2代表L2损失计算函数;
S5重复步骤S2~步骤S4直至总体误差Lall达到一个较为稳定的值,则停止训练。
S6将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络中得到预测特征图ZL,根据预测特征图中的每个位置对先验框预测的5个坐标[tx,ty,tw,th,ta],通过公式(1)~公式(5)算相应的实际预测目标框的坐标位置[bx,by,bw,bh,ba]以及置信度σ(to),当σ(to)>tho时,认为该预测框含有目标,反之剔除该预测框,将特征金字塔得到的所有预测目标框的坐标位置进行合并;
S7将所有的预测目标框的坐标位置信息进行非极大值抑制处理,此时计算重叠目标框的距离时采用如下公式:
其中,IOU的计算不考虑目标框的角度因素,只考虑宽高以及位置信息,当IOU的值大于0.5时,认为当前两个目标框表示的是同一个物体,因此删除置信度较低的预测框;
S8经过步骤S6和步骤S7计算,将剩余的预测目标框进行输出绘制到原始图像中。
本发明的有益效果主要体现在:
1.通过加入角度信息的误差计算,对损失函数进行约束,使得网络能够输出带有角度信息的目标框,能实现在复杂的环境场景下对旋转目标的检测。
2.利用复合金字塔特征对目标进行分析,提高了远小目标的识别率。
附图说明
图1是本发明旋转目标检测方法的一个具体实施例的原理示意图。
具体实施方式
本发明提供一种基于复合金字塔的旋转目标检测方法。以下结合附图对本发明技术方案进行详细描述,以使其更易于理解和掌握。
首先进行视觉检测训练,具体地:
对训练样本进行目标标定,标定结果存为[x,y,w,h,a],其中(x,y)是目标中心坐标,(w,h)是目标宽高,(a)是目标的旋转角度;预定义KL个先验框[pw,ph,pa],L为特征金字塔的层数,先验框以宽高(pw,ph)信息从小到大进行排序,pa为先验框的角度。
在一个具体实施例中,如图1所示,定义KL为18,L为3,其中(pw,ph)∈{(10,13),(16,30),(33,23),(30,61),(62,45),(59,119),(116,90),(156,198),(373,326)},pa∈{0,30,60,90,120,150}(角度)。
将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络Darknet-53,得到预测特征图ZL,预测特征图大小为NL×WL×HL×KL×(6+C),其中NL为训练图像的批处理数量,(WL,HL)为预测特征图的大小,KL为先验框个数,L为特征金字塔的层数,C为识别的类别数。
在一个具体实施例中,I的值为416。
在预测特征图ZL的每个位置对每个先验框预测5个坐标[tx,ty,tw,th,ta]和to,to判断当前先验框是否是目标,目标框的预测通过如下函数计算:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
ba=tan-1(ta)+pa (5)
Pr(object)*ArIOU(b,object)=σ(to) (6)
其中,[bx,by,bw,bh,ba]为预测的实际目标位置坐标,(cx,cy)为预测特征图的坐标位置,σ为sigmoid函数,ArIOU(b,object)计算先验框和目标框的交集,其计算公式如下:
根据公式(1-6)推倒计算训练误差,误差采用均方差函数计算得到,并反馈到网络中,对网络中的权重参数进行梯度下降优化,误差计算公式如下所示:
其中,xij∈{0,1},当先验框中包含目标时为1,反之为0,通过公式(7)进行计算先验框和目标框的ArIOU(b,object)值,当ArIOU(b,object)>thArIOU时认为先验框包含目标,反之不包含;i为先验框的下标数,j为预测目标框的下标数,由公式(1-5)计算得到,为网络预测得到的值;smoothL2代表L2损失计算函数;本发明中thArIOU的值为0.5。
重复(2)、(3)、(4)直至总体误差Lall达到一个较为稳定的值,则停止训练。
进行视觉预测作业,具体如下:
将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络Darknet-53,得到预测特征图ZL,根据预测特征图中的每个位置对先验框预测的5个坐标[tx,ty,tw,th,ta],通过公式(1-5)计算相应的实际预测目标框的坐标位置[bx,by,bw,bh,ba]以及置信度σ(to),当σ(to)>tho时,认为该预测框含有目标,反之剔除该预测框,将特征金字塔得到的所有预测目标框的坐标位置进行合并;本发明中tho的值为0.1。
将所有的预测目标框的坐标位置信息进行NMS(non-maximum suppression,非极大值抑制)处理,此时计算重叠目标框的距离时采用如下公式:
其中,IOU的计算不考虑目标框的角度因素,只考虑宽高以及位置信息,当IOU的值大于0.5时,认为当前两个目标框表示的是同一个物体,因此删除置信度较低的预测框。
经过上述两步计算,将剩余的预测目标框进行输出绘制到原始图像中。
通过以上描述可以发现,本发明一种基于复合金字塔的旋转目标检测方法,通过加入角度信息的误差计算,对损失函数进行约束,使得网络能够输出带有角度信息的目标框,能实现在复杂的环境场景下对旋转目标的检测。利用复合金字塔特征对目标进行分析,提高了远小目标的识别率。
以上对本发明的技术方案进行了充分描述,需要说明的是,本发明的具体实施方式并不受上述描述的限制,本领域的普通技术人员依据本发明的精神实质在结构、方法或功能等方面采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。
Claims (1)
1.一种基于复合金字塔的旋转目标检测方法,其特征在于包括以下步骤:
S1对训练样本进行目标标定,标定结果存为[x,y,w,h,a],
其中(x,y)是目标中心坐标,(w,h)是目标宽高,(a)是目标的旋转角度,
预定义KL个先验框[pw,ph,pa],L为特征金字塔的层数,先验框以宽高(pw,ph)信息从小到大进行排序,pa为先验框的角度;
S2将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络得到预测特征图ZL,预测特征图大小为NL×WL×HL×KL×(6+C),其中NL为训练图像的批处理数量,(WL,HL)为预测特征图的大小,KL为先验框个数,L为特征金字塔的层数,C为识别的类别数;
S3在预测特征图ZL的每个位置对每个先验框预测5个坐标[tx,ty,tw,th,ta]和to,to判断当前先验框是否是目标,目标框的预测通过如下函数计算:
bx=σ(tx)+cx (1)
by=σ(ty)+cy (2)
ba=tan-1(ta)+pa (5)
Pr(object)*ArIOU(b,object)=σ(to) (6)
其中,[bx,by,bw,bh,ba]为预测的实际目标位置坐标,(cx,cy)为预测特征图的坐标位置,σ为sigmoid函数,ArIOU(b,object)计算先验框和目标框Pr(object)的交集,其计算公式如下:
S3根据公式(1)~公式(6)推倒计算训练误差,误差采用均方差函数计算得到,并反馈到网络中,对网络中的权重参数进行梯度下降优化,误差计算公式如下所示:
其中,xij∈{0,1},当先验框中包含目标时为1,反之为0,通过公式(7)进行计算先验框和目标框的ArIOU(b,object)值,当ArIOU(b,object)>thArIOU时认为先验框包含目标,反之不包含;i为先验框的下标数,j为预测目标框的下标数,由公式(1-5)计算得到,为网络预测得到的值;smoothL2代表L2损失计算函数;
S5重复步骤S2~步骤S4直至总体误差Lall达到一个较为稳定的值,则停止训练;
S6将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络中得到预测特征图ZL,根据预测特征图中的每个位置对先验框预测的5个坐标[tx,ty,tw,th,ta],通过公式(1)~公式(5)算相应的实际预测目标框的坐标位置[bx,by,bw,bh,ba]以及置信度σ(to),当σ(to)>tho时,认为该预测框含有目标,反之剔除该预测框,将特征金字塔得到的所有预测目标框的坐标位置进行合并;
S7将所有的预测目标框的坐标位置信息进行非极大值抑制处理,此时计算重叠目标框的距离时采用如下公式:
其中,IOU的计算不考虑目标框的角度因素,只考虑宽高以及位置信息,当IOU的值大于0.5时,认为当前两个目标框表示的是同一个物体,因此删除置信度较低的预测框;
S8经过步骤S6和步骤S7计算,将剩余的预测目标框进行输出绘制到原始图像中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031679.3A CN109858530B (zh) | 2019-01-14 | 2019-01-14 | 一种基于复合金字塔的旋转目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031679.3A CN109858530B (zh) | 2019-01-14 | 2019-01-14 | 一种基于复合金字塔的旋转目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109858530A CN109858530A (zh) | 2019-06-07 |
CN109858530B true CN109858530B (zh) | 2022-06-28 |
Family
ID=66894595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910031679.3A Active CN109858530B (zh) | 2019-01-14 | 2019-01-14 | 一种基于复合金字塔的旋转目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109858530B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242122B (zh) * | 2020-01-07 | 2023-09-08 | 浙江大学 | 一种轻量级深度神经网络旋转目标检测方法和系统 |
CN112966587B (zh) * | 2021-03-02 | 2022-12-20 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、目标检测方法及相关设备 |
CN113408429B (zh) * | 2021-06-22 | 2023-06-09 | 深圳市华汉伟业科技有限公司 | 一种具有旋转适应性的目标检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101966A (zh) * | 2018-06-08 | 2018-12-28 | 中国科学院宁波材料技术与工程研究所 | 基于深度学习的工件识别定位和姿态估计系统和方法 |
CN109165538A (zh) * | 2018-07-18 | 2019-01-08 | 北京飞搜科技有限公司 | 基于深度神经网络的条形码检测方法及装置 |
-
2019
- 2019-01-14 CN CN201910031679.3A patent/CN109858530B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101966A (zh) * | 2018-06-08 | 2018-12-28 | 中国科学院宁波材料技术与工程研究所 | 基于深度学习的工件识别定位和姿态估计系统和方法 |
CN109165538A (zh) * | 2018-07-18 | 2019-01-08 | 北京飞搜科技有限公司 | 基于深度神经网络的条形码检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
Learning a Rotation Invariant Detector with Rotatable Bounding Box;Lei Liu等;《arXiv:1711.09405v1》;20171126;全文 * |
YOLO9000:Better, Faster, Stronger;Joseph Redmon等;《CVPR2017》;20170726;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109858530A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685152B (zh) | 一种基于dc-spp-yolo的图像目标检测方法 | |
CN109829893B (zh) | 一种基于注意力机制的缺陷目标检测方法 | |
CN110298298B (zh) | 目标检测及目标检测网络的训练方法、装置及设备 | |
CN112966587B (zh) | 目标检测模型的训练方法、目标检测方法及相关设备 | |
CN109870983B (zh) | 处理托盘堆垛图像的方法、装置及用于仓储拣货的系统 | |
CN107833209B (zh) | 一种x光图像检测方法、装置、电子设备及存储介质 | |
CN109858530B (zh) | 一种基于复合金字塔的旋转目标检测方法 | |
CN113052109A (zh) | 一种3d目标检测系统及其3d目标检测方法 | |
CN110633661A (zh) | 一种融合语义分割的遥感图像目标检测方法 | |
WO2022227770A1 (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
CN115797736B (zh) | 目标检测模型的训练和目标检测方法、装置、设备和介质 | |
CN110889399A (zh) | 基于深度学习的高分辨率遥感影像弱小目标检测方法 | |
CN114089330B (zh) | 一种基于深度图像修复的室内移动机器人玻璃检测与地图更新方法 | |
CN113469025A (zh) | 应用于车路协同的目标检测方法、装置、路侧设备和车辆 | |
CN115719436A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN111553914A (zh) | 基于视觉的货物检测方法、装置、终端及可读存储介质 | |
CN111524113A (zh) | 提升链异常识别方法、系统、设备及介质 | |
CN115100741B (zh) | 一种点云行人距离风险检测方法、系统、设备和介质 | |
CN116681894A (zh) | 一种结合大核卷积的相邻层特征融合Unet多器官分割方法、系统、设备及介质 | |
CN116844124A (zh) | 三维目标检测框标注方法、装置、电子设备和存储介质 | |
CN112861940A (zh) | 双目视差估计方法、模型训练方法以及相关设备 | |
CN113887455B (zh) | 一种基于改进fcos的人脸口罩检测系统及方法 | |
CN115187879A (zh) | 一种基于YOLOv5的楼栋检测与楼层定位方法及装置 | |
CN112884755B (zh) | 违禁品的检测方法及装置 | |
CN114140612A (zh) | 电力设备隐患检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |