CN112560675A

CN112560675A - Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法

Info

Publication number: CN112560675A
Application number: CN202011479175.7A
Authority: CN
Inventors: 徐光柱; 朱泽群; 屈金山; 刘高飞; 雷帮军; 石勇涛
Original assignee: China Three Gorges University CTGU
Current assignee: Dongtu Science And Technology Yichang Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-26
Anticipated expiration: 2040-12-15
Also published as: CN112560675B

Abstract

YOLO与旋转‑融合策略相结合的鸟类视觉目标检测方法，准备好鸟类数据集及其标记信息；将鸟类数据集及其标记信息进行多角度的旋转处理，得到对应的旋转后的数据集及其标记信息；将旋转后的数据集及其标记信息输入到YOLOv3网络进行训练，得到YOLOv3鸟类目标检测模型；将待检测的鸟类图像进行多角度的旋转处理，将旋转后的多角度鸟类图像输入到训练好的YOLOv3鸟类目标检测模型中进行检测，得到多角度的检测结果；对多角度的检测结果进行反旋转处理，使其全部旋转回原角度，利用NMS融合筛选出置信度最高的检测结果。本发明提升了基于深度学习的鸟类目标检测精度与识别率。

Description

YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法

技术领域

本发明涉及鸟类图像识别技术领域，具体涉及一种YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法。

背景技术

近年来，地球的生态环境持续恶化，特别是随着人类活动、乱砍乱伐以及外来物种入侵等影响，鸟类的生存状况日益受到更大威胁，全球40％的鸟类数量正在减少，一些稀有种群甚至面临灭绝的威胁。目前国际环保组织以及各国政府都在为保护濒危鸟类做出努力。有效统计鸟类目前的数量、种类及出现的地点在鸟类保护中具有决定性作用，但是由于鸟类众多，若用人类肉眼去判断，需要具有专门的鸟类学知识并接受训练的专家才能对鸟的类型给出准确辨识。但这类人员资源紧缺，并且费时费力，无法全天候进行。且鸟类出没的环境多样，有许多地点人类无法长期值守，甚至难以涉足，如悬崖峭壁、深山老林等，此时依靠人力来进行鸟类数量、种类及分布的统计困难巨大。

随着计算机与人工智能技术的进步，计算机图像识别技术逐渐被应用到各个智能识别领域，基于计算机视觉的鸟类图像识别技术也得到了长足的发展。通过摄像头捕捉图像，通过计算机进行智能识别与统计在鸟类数量、种类及分布的统计上有着很高的应用价值，因此，构建自动鸟类图像识别系统对于保护鸟类与地球物种多样性有着重大意义。

早期的鸟类图像识别技术，大多基于人工提取的多级分类特征，如文献[1]BeryT,Belhumeur P N.POOF:Part-Based One-vs.-One Features for Fine-GrainedCategorization,Face Verification,and Attribute Estimation[C].IEEE Conferenceon Computer Vision and Pattern Recognition,2013.中提出POOF特征，这是一种基于局部区域的特征编码算法，可以自动发现对分类起重要作用的图像信息，但对关键点的定位精度要求较高，在标准鸟类图像数据库CUB200-2011上仅得到73.3％的识别准确率。此类方法不仅工作量巨大、需要专业的人员，耗费大量的人力物力，而且往往达不到预期的分类准确率。随着人工智能信息化时代的到来，计算机视觉技术逐渐走进大家的视野，随着深度学习与卷积神经网络的兴起，目标识别与分类技术得到了长足的发展。

2012年AlexNet的提出标志着深度卷积神经网络在通用图像识别领域的巨大成功，体现出了卷积神经网络在特征学习上的强大力量，于是不少研究者也将深度学习技术应用到鸟类的分类与检测中来。文献[2]Donahue J,Jia Y,Vinyals O,et al.DeCAF:ADeepConvolutional Activation Feature for Generic Visual Recognition[C].Internationaol Conference on Machine Learning,2014.试图将CNN迁移到细粒度图像识别，从实验上证明CNN特征的强大泛化能力，并将该特征命名为DeCAF，该方法对在ImageNet数据集上训练得到的CNN模型进行分析，使用AlexNet第一个全连接层的输出作为图像特征，发现CNN提取的特征具有更强的语义信息，比人工特征具有更高的区分度。从此之后，几乎所有的鸟类图像识别算法均转向了CNN特征。

文献[3]智绪晔.基于深度学习的鸟类图像识别研究[D].大连理工大学,2019.运用强监督目标检测模型单次多目标框检测器实现鸟类目标和关键部位的检测定位,通过目标定位获取鸟类目标前景,剔除背景干扰,通过部位定位获取对分类起重要作用的局部区域,实现特征的精确提取，同时使用基于高斯分布建模的图像二阶信息实现图像特征提取,将鲁棒近似无穷维高斯描述子和具有端到端训练特性的矩阵幂归一化协方差引入识别系统,以获取具有更强的表征能力的图像高阶信息，引入集成学习的思想采用平均法和Stacking算法实现多分支子系统的决策级别分类融合，在CUB200-2011取得89.7％的识别准确率。

文献[4]汪洋.基于深度学习的细粒度鸟类识别方法研究与系统实现[D].南昌大学,2020.提出的CF-CNN算法通过将鸟类细粒度类别作为子类,鸟类整体归为父类,利用预训练的分割网络模型获取父类标记信息,将标记信息作为目标信息对分类网络特征进行特定区域增强，并利用底层信息再利用的方式加强模型效果，准确率较高且内存占用相对较少。

文献[5]朱阳光,刘瑞敏,黄琼桃.基于深度神经网络的弱监督信息细粒度图像识别[J].电子测量与仪器学报,2020,34(02):115-122.提出两种基于弱监督信息图像识别方法，一是联合残差网络和Inception网络，通过优化卷积神经网络的网络结构提高捕捉细粒度特征的能力。二是对双线性CNN模型进行改进,选取Google提出的Inception-v3模组和Inception-v4模组提取特征,最后把不同的局部特征汇集起来进行分类。在CUB200-2011分类精度分别到达了88.3％和94.2％。

也有专利文献提出基于深度学习的鸟类图像识别方法，如“一种基于深度学习的鸟类识别方法”[申请号：2018103484156]通过微调与扩充鸟类数据集，利用分类网络实现快速的鸟类识别；“一种基于卷积神经网络的鸟类识别方法和装置”[申请号：2019108756857]通过优化的卷积神经网络MobileNetv2根据原始图像的像素，将图像进行具有重叠区域的分割、特征提取、特征选择和特征分类，然后进行识别并将结果按照切割大小和步长，拼接成原始图像的位置，对切割图像的重叠区域的识别结果做出融合处理。

文献[6]J.Redmon,S.Divvala,R.Girshick,and A.Farhadi.Youonly look once:Unified,real-time object detection.arXivpreprint arXiv:1506.02640,2015.4,5.

文献[7]REDMON J，FARHADI A.YOLO9000：Better，faster，stronger[C]//2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Washington：IEEE Computer Society，2017：6517-6525.文献[8]REDMON J,FARHADIA.Yolov3：an incremental improvement[EB/OL].[2019-04-25].http：//arxiv.org/PDF/1804.02767.pdf.提出YOLO系列算法，其单步目标检测思想给深度学习带来了一个新的方法，避免了大量不必要的计算，使得算法速度得到了明显的提升，但是在精度上略显不足。

如今，深度学习已经成为计算机视觉领域的主流研究方法，通过神经网络让计算机自己学习待检测目标的特征在极大地减少人工工作量的同时还能具有很好地鲁棒性，但是不管是精度高速度慢的R-CNN系列，还是牺牲精度最求速度的单步检测YOLO系列网络，在目标检测领域都存在目标尺度的问题。

为了解决目标尺度变化对检测结果造成的负面影响，研究者们在不断寻找有效的方法，传统的图像金字塔通过人工提取多尺度特征，费时费力。文献[9]Cai Zhaowei,FanQuanfu,Feris R S,et al.A unified multi-scale deep convolutional neuralnetwork for fast object detection[C]//European Conference on Computer Vision,2016.文献[10]Kong Tao,Yao Anbang,Chen Yurong,et al.Hyper-net:towards accurateregion proposal generation and joint object detection[C]//IEEE Conference onComputer Vision and Pattern Recognition,2016.在一定程度上解决了尺度问题，但对于低层次的语义信息无法有效表达。

文献[11]Lin T Y,Dollar P,Girshick R,et al.Feature pyramid networksfor object detection[C]//IEEE Conference on Computer Vision and PatternRecognition,2017.提出的FPN[11](特征金字塔网络)通过融合特征金字塔不同层次的特征图，实现了多尺度的高质量检测。YOLOv3为了进一步提高精度，引入FPN的思想，采用多尺度特征融合策略，在三个尺度上进行预测，从而解决YOLOv3在目标检测上的尺度问题。

人们在不断改进网络结构的同时，却忽略了事物本身带来的影响。在对鸟类目标进行检测时，不仅存在拍摄的距离造成图像中鸟类尺度问题，而且在拍摄空中飞行的鸟类时，相比于拍摄地面物体，存在更多的拍摄角度，使得其不仅会存在着特征尺度问题，也会造成更加巨大的特征角度差异，同时在摄像机捕捉鸟类目标时，也会存在更加复杂的背景与光照的变化，这些因素都会对检测结果造成影响，特别是图像旋转问题。图像旋转角度问题在目标检测的各个领域广泛存在，如高空拍摄的船舶、车辆，遥感等图像，由于存在着拍摄角度的不固定性，导致图像中的目标会存在不同角度的倾斜，使用通用的目标检测算法得到的目标区域中会包含较多的冗余背景信息，不利于目标的分辨。目前也有专利文献提出解决深度学习中目标旋转的问题，如：“一种航拍图像中旋转目标检测方法”[申请号：2020108237650]采用深度学习方法，设计目标检测模型，用于检测高空航拍图像中的车辆、船舶、飞机等目标，同时进行目标旋转框的定位预测。还有“一种遥感影像旋转目标检测方法”[申请号：2020104272458]也通过旋转来降低背景噪声的干扰，提高检测结果的精度。

发明内容

针对鸟类图像的角度问题，本发明提出一种YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，使用旋转预测框对带有角度的鸟类图像进行定位，直接作用于数据集来提升深度学习网络对目标特征的提取，改善模型多角度识别缺陷；从原有的基础上提升基于深度学习的鸟类目标检测精度与识别率。

本发明采取的技术方案为：

YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，包括以下步骤：

S1：准备好鸟类数据集及其标记信息；

S2：将S1中鸟类数据集及其标记信息进行多角度的旋转处理，得到对应的旋转后的数据集及其标记信息；

S3：将旋转前的数据集及其标记信息与若干组旋转后的数据集及其标记信息输入到YOLOv3网络进行训练，得到YOLOv3鸟类目标检测模型；

S4：将待检测的鸟类图像进行多角度的旋转处理，将旋转后的多角度鸟类图像输入到S3中训练好的YOLOv3鸟类目标检测模型中进行检测，得到多角度的检测结果；

S5：对S4多角度的检测结果进行反旋转处理，使其全部旋转回原角度，利用NMS融合筛选出置信度最高的检测结果。

所述S1中，鸟类数据集选自标准鸟类图像数据库CUB200-2011，并对鸟类数据集进行标记得到其标记信息。

所述S3中，在训练之前，对目标进行标记，标记信息包含目标的类别信息label、标记框的中心点坐标(x,y)、宽w、高h；

标记之后将标记信息保存到文本文件中，如下：

image label，x，y，w，h。

所述S3包括以下步骤：

S3.1：对旋转后的数据集的鸟类图像进行中心点旋转，旋转角度为θ，即将图像的所有像素点逆时针旋转角度θ，如公式(1)所示：

S3.2：以其旋转后的鸟类图像四角顶点为基准，对其进行填充操作，填充部分采用漫水填充算法，将图像背景区域像素填充到扩展区域。

S3.3：通过旋转的角度，对标记信息进行更新：

原始标签中心点为(x,y)，长宽分别为w，h，旋转角度为θ，新的标记信息中心点坐标为(x’,y’)，长宽分别变为w’,h’，中心点坐标计算公式如公式(1)所示，宽高计算如公式(2)所示。

所述S4中：将待检测的鸟类图像进行不同角度的旋转处理，然后将不同角度的鸟类图像分别输入YOLOv3鸟类目标检测模型进行检测，得到的不同旋转角度下的预测框。

所述S5中：将图像与不同旋转角度下的预测框逆旋转处理，回到原始角度，得到对应的原始角度下检测框，最后利用NMS对原始角度下检测框进行融合，筛选出置信度最高的结果，并计算出此角度下的旋转预测框。

所述S5包括以下步骤：

S5.1、逆旋转处理：

将旋转后的检测图像分别按照其旋转的角度，旋转回原来的世界，旋转过程仍然按照中心点不变原则，通过角度反转来返回原图的像素点，其计算方式如公式(3)所示，图像长宽的计算方式如公式(4)所示。

根据中心点与长宽，确定图像的位置，并裁剪掉多余的部分，对预测框同样采用公式(3)反算出中心点坐标，并根据公式(4)还原出预测框的位置。

S5..2、NMS融合：

利用经典NMS算法，筛选保留IOU最高的预测框作为最终检测结果，流程如下：

1)、将输入候选预测边界框列表B按照置信度降序排列；

2)、选取得分最高的预测边界框A添加到输出列表D，并将框A从候选框列表B中去除；

3)、计算框A与B中其他所有框的IOU值，并去除大于阈值的候选框；

4)、重复上述步骤直到候选列表B为空，返回输出列表D。

IOU的计算如公式(5)所示：

S5.3、反算得到旋转预测框：

在将待检测图像输入模型进行检测之前，设旋转三种角度θ₁，θ₂，θ₃，包括未旋转的原图θ₀，一共四张图像，模型输出四种检测结果，分别为θ₀'，θ₁'，θ₂'，θ₃'，将三种旋转检测结果θ₁'，θ₂'，θ₃'进行逆旋转处理，得到原图角度下的四种检测结果，分别记为θ₀”，θ₁”，θ₂”，θ₃”，利用NMS算法，筛选出θ₀”，θ₁”，θ₂”，θ₃”中最佳的检测结果，最佳筛选结果设为θ₁”，就可以通过θ₁”反算出其对应的旋转预测框。

本发明一种YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，技术效果如下：

1)针对CNN神经网络训练得到的模型无法有效应对带有各种旋转角度的视觉目标，本发明设计了一种利用旋转-融合策略提升深层卷积神经网络检测旋转目标能力的方法。通过将图像、标注框及预测框进行旋转、逆旋转处理，利用NMS融合筛选最佳结果，实现使用旋转预测框对带有角度的鸟类图像进行精确定位。

2)针对YOLO这一具体卷积神经网络，本发明采用旋转输入的方法来训练模型，以提升模型本身对多角度的适应性，并采用旋转与融合结合的检测方法，旋转待检测图像进行多角度检测，对检测结果包括其标注框做逆旋转变换，得到多个角度的标注框，通过最小外接矩形方法，将其变换到同一角度下，利用NMS筛选出最佳的旋转检测框，实现了一种能够应对旋转目标的鸟类目标检测算法。

3)针对最大外接矩形旋转框计算方法造成的标记框内包含过多的冗余信息，本发明提出一种基于标记框与目标切点的旋转标记框改进算法。本发明通过标记出标记框与目标的四个切点，在标记框旋转时，通过四个切点，根据公式(1)、(6)，计算出改进后的标记框，改进后的标记框比外接最小矩形更加贴合目标，有效去除了冗余的部分，避免因标记框内包含过多的冗余信息使得深度学习网络将更多的非鸟类特征判定为鸟类，达到提升模型精度的目的。

附图说明

图1(a)为本发明的建模流程图；

图1(b)为本发明的检测方法流程图。

图2为YOLO输出结果示意图图。

图3为YOLO标记示意图。

图4为图像旋转示意图。

图5(a)为标记框旋转示意图一；

图5(b)为标记框旋转示意图二；

图5(c)为标记框旋转示意图三。

图6(a)为经典NMS方案中的IOU计算方法示意图一；

图6(b)为经典NMS方案中的IOU计算方法示意图二。

图7为融合筛选方法的示意图。

图8为旋转后标记框改进示意图。

图9(a)为改进标注框Bbox_3的具体计算方式示意图一；

图9(b)为改进标注框Bbox_3的具体计算方式示意图二。

具体实施方式

本发明一种YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，使用旋转预测框对带有角度的鸟类图像进行定位，直接作用于数据集来提升深度学习网络对目标特征的提取，从而提升检测精度。其主要流程是：首先准备好鸟类数据集、深度学习网络(以YOLOv3为例)及对应网络的标记信息；然后将准备好的鸟类数据集及其标记信息进行多角度的旋转处理，生成新的数据集和标记信息，并输入YOLOv3网络进行训练得到YOLOv3鸟类目标检测模型；再将待检测的鸟类图片进行同步骤2中一样的旋转处理，并将旋转后的多角度鸟类图像输入到训练好的YOLOv3鸟类目标检测模型中进行检测，得到多角度的检测结果。上述做法虽然能够检测到不同角度的目标，但带来的问题也很明显，就是不同角度下，目标可能发生了重复检测。为了解决这个问题本发明采用基于交并比(IOU)的非极大值抑制(NMS)算法筛选出重复检测中最佳的检测结果，即对多角度的检测结果进行反旋转处理，使其全部旋转回原角度，利用NMS融合筛选出置信度最高的检测结果。

本发明一种YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，包括以下步骤：

步骤一：一种基于深度学习与旋转-融合策略的鸟类检测方法，通过在深度学习模型训练与检测阶段实施旋转-融合策略来提升检测精度；

步骤二：针对步骤一中训练阶段数据集旋转过程中标记信息的计算方法上存在的不足，提出一种新的计算方法；

每一步的详细内容如下：

步骤一：一种YOLO与旋转-融合策略相结合的鸟类检测方法，其流程图如图1所示，主要分为两个阶段：第一是训练阶段，第二是检测阶段。

(一)训练阶段：

如图1(a)所示，首先，在训练开始前，需要准备好鸟类数据集及其标记信息，此处选自标准鸟类图像数据库CUB200-2011，并对数据集进行标记得到其标记信息；进行标记。每幅图像中鸟目标所在区域手动标记出能够包围其的矩形框的中心坐标及其宽、高值，这个过程称为数据集的标注。

然后，将鸟类数据集及标记信息进行旋转处理，设定多个旋转角度θ1、θ2、θ3等，得到对应的旋转后数据集及标记信息；最后，将旋转前的数据集及标记信息与若干组旋转后的数据集及标记信息一起，输入到YOLOv3网络深度学习网络中进行训练，得到一个YOLOv3鸟类目标检测模型。

1：YOLO网络介绍：

Yolo系列算法是一种分类/定位回归式视觉目标检测算法，采用单步检测方式，是目前深度学习领域被广泛使用的一种深层全卷积神经网络。它的核心思想是将原始图片分割成互不重合的小方块，通过卷积产生其对应的特征图，如图2所示。特征图的每个元素用来预测其对应的每一个方块，如将图片分割为S×S个单元格，每个单元格负责检测那些中心点落在该单元格内的目标，每个单元格会绘制B个边界框(bounding box)及边界框的置信度(confidence score)，而置信度包含两个内容，一是这个边界框含有目标的可能性大小Pr(object)，当边界框内不包含目标对象，则Pr(object)＝0，反之Pr(object)＝1；二是此边界框的准确度(IOU)，它是判断检测算法运作好坏的标准，是检测框与标记框的重合度，计算方式是标记框与检测框的交集与并集的商；confidence score＝Pr(object)*IOU,即置信度C为0或者IOU本身。每个边界框的预测值包含五个元素：(x,y,w,h,c)，其中(x,y)是中心坐标的预测值，(w,h)代表宽和高，实际值是相对于整个图片宽高的比例，大小在[0,1]范围，最后一个值是置信度。而每一个单元格需要预测的就是(5*B+C)个值，这里的C是类别数，所以最终预测值是S×S×(5*B+C)大小的张量。

在训练之前，需要对目标进行标记，标记信息包含目标的类别信息label、标记框的中心点坐标(x,y)及宽w和高h，如图3所示。

标记之后将标记信息保存到文本文件中，如下：

image label，x，y，w，h

将准备好的数据集及标记信息输入到YOLOv3网络进行训练，最终得到YOLOv3鸟类目标检测模型。

在检测阶段，将待检测的图片输入到训练好的YOLOv3鸟类目标检测模型中，返回如上所述的边界框的预测值。

2：训练阶段的旋转处理：

如图1(a)中，在将数据集及标记信息输入到YOLOv3网络之前，对数据集及标记信息分别进行同步的旋转处理。在旋转后，若采用裁剪的方式来初始化旋转数据集，可能会造成特征缺失，对网络的训练效果造成直接的影响，所以本发明对旋转后的图像进行如图4所示操作。

对图像进行中心点旋转，旋转角度为θ，即将图像的所有像素点逆时针旋转角度θ，如公式(1)。

式(1)中x'、y'表示点(x,y)旋转θ角度后的新值。

公式(1)为旋转后像素点坐标计算方式。

为使图片能够按照深度学习网络的要求输入网络,以其旋转后的四角顶点为基准，对其进行填充操作，填充部分可利用漫水填充算法将图像背景区域像素填充到扩展区域。图像旋转之后，对应的中心点坐等标记信息位置也同样改变了，如图4中的蓝色标记框，所以需要通过旋转的角度对标记信息进行更新，其具体操作如图5(a)、图5(b)、图5(c)所示。

原始标签中心点为(x,y)，长宽分别为w，h，旋转角度为θ，新的标记信息中心点坐标为(x’,y’)，长宽分别变为w’,h’，中心点坐标计算公式如公式(1)，宽高计算公式如公式(2)。

公式(2)为旋转后图像宽高计算方式。

(二)检测阶段：

通过训练阶段，可以得到一个YOLOv3鸟类目标检测模型，利用此模型对待检测的鸟类图像进行检测，其流程图如图1(b)所示。

将待检测的鸟类图像按照训练阶段中的旋转方法，进行不同角度的旋转处理，然后将不同角度的图像分别输入YOLOv3鸟类目标检测模型进行检测，得到的不同旋转角度下的预测框，再将图像与不同角度下的预测框逆旋转回原始角度，得到对应的原始角度下检测框，最后利用对NMS原始角度下检测框进行融合筛选出置信度最高的结果，并计算出此角度下的旋转预测框。

1：逆旋转处理：

逆旋转处理将旋转后的检测图像分别按照其旋转的角度，旋转回原来的世界，旋转过程仍然按照中心点不变原则，通过角度反转来返回原图的像素点，其计算方式如公式(3)，图像长宽的计算方式如公式(4)。

T表示对矩阵进行转置操作。

公式(3)为逆旋转后像素点坐标计算方式。

公式(4)为逆旋转后图像宽高计算方式。

2：NMS融合：

NMS算法是目标检测领域中对目标进行定位时用于去除多余预测边界框的常用方法。将检测结果逆旋转处理后，会在同一目标位置生成多个不同的预测框，利用经典NMS算法，筛选保留IOU最高的预测框作为最终检测结果。经典NMS算法的流程如下：

1)、将输入候选预测边界框列表B按照置信度降序排列；

4)、重复上述步骤直到候选列表B为空，返回输出列表D。

IOU的计算如公式(5)所示：

B_BOX1、B_BOX2表示进行NMS融合的输入候选预测边界框。

∩表示取交集、∪表示取并集。

公式(5)为经典NMS算法中IOU的计算方式。

图6(a)、图6(b)是经典NMS算法中IOU的两种边界框的情况。

3：反算得到旋转预测框：

融合筛选示意图如图7所示。在将待检测图像输入模型进行检测之前，假设旋转三种角度θ₁，θ₂，θ₃，包括未旋转的原图θ₀，一共四张图像，模型输出四种检测结果，如图中蓝色框，分别为θ₀'，θ₁'，θ₂'，θ₃'，将三种旋转检测结果θ₁'，θ₂'，θ₃'进行逆旋转处理，得到原图角度下的四种检测结果，如图中红色框，分别记为θ₀”，θ₁”，θ₂”，θ₃”，利用NMS算法，筛选出θ₀”，θ₁”，θ₂”，θ₃”中最佳的检测结果，最佳筛选结果假设为θ₁”，那么就可以通过θ₁”反算出其对应的旋转预测框。

步骤二：在步骤一的训练阶段，数据集与标记信息旋转过程中，标记框的旋转过程如图5所示，其计算方式与图像旋转相同，但是图像的旋转中，进行了填充处理，基本上对图像的特征提取不会造成大的影响，而标记框旋转后，新的标记框与框内目标的契合度发生了改变，如图8所示，Bbox_1是原图的标记框，Bbox_2是按照步骤1计算得到的旋转后的标记框，此时可以发现Bbox_2中明显会多出来一部分不含目标的空间，而旋转后契合目标大小的标记框是Bbox_3，若是按照Bbox_2作为标记框对其进行训练，会使得深度学习网络将更多的非鸟类特征判定为鸟类，降低模型的精度。

基于此问题，本发明提出一种新的标记框旋转计算方式，使旋转后的标记框Bbox_2向Bbox_3转换，具体方式如图9(a)、图9(b)所示，在原始的标记框上，标注出目标的中心点与标记框的四个切点，根据公式(1)，计算出旋转后对应的四个切点坐标A(xa,ya),B(xb,yb),C(xc,yc),D(xd,yd),Bbox_3的宽W、高H以及中心点O坐标为：

公式(6)中，ya为A点的纵坐标，xb为B点的横坐标，yc为C点的纵坐标，xd为D点的横坐标，W、H分别表示Bbox_3的宽、高，O表示Bbox_3的中心点。

公式(6)为改进算法中旋转标记框的宽高中心点坐标计算方式。

针对图像标记框旋转方法的不足，上述提出一种基于切点的标记框旋转改进方法，改进后的标记框比外接最小矩形更加贴合目标，有效去除了冗余的部分，避免了深度学习网络将更多的非鸟类特征判定为鸟类，能进一步提升模型的识别精度。

Claims

1.YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，其特征在于包括以下步骤：

S1：准备好鸟类数据集及其标记信息；

S3：将旋转前的数据集及其标记信息与旋转后的数据集及其标记信息输入到YOLOv3网络进行训练，得到YOLOv3鸟类目标检测模型；

2.根据权利要求1所述YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，其特征在于：所述S1中，鸟类数据集选自标准鸟类图像数据库CUB200-2011，并对鸟类数据集进行标记得到其标记信息。

3.根据权利要求1所述YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，其特征在于：所述S3中，在训练之前，对目标进行标记，标记信息包含目标的类别信息label、标记框的中心点坐标(x,y)、宽w、高h；

标记之后将标记信息保存到文本文件中，如下：

image label，x，y，w，h。

4.根据权利要求1所述YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，其特征在于：所述S3包括以下步骤：

S3.2：以其旋转后的鸟类图像四角顶点为基准，对其进行填充操作，填充部分采用漫水填充算法，将图像背景区域像素填充到扩展区域；

S3.3：通过旋转的角度，对标记信息进行更新：

原始标签中心点为(x,y)，长宽分别为w，h，旋转角度为θ，新的标记信息中心点坐标为(x’,y’)，长宽分别变为w’,h’，中心点坐标计算公式如公式(1)所示，宽高计算如公式(2)所示；

5.根据权利要求1所述YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，其特征在于：所述S4中：将待检测的鸟类图像进行不同角度的旋转处理，然后将不同角度的鸟类图像分别输入YOLOv3鸟类目标检测模型进行检测，得到的不同旋转角度下的预测框。

6.根据权利要求1所述YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，其特征在于：所述S5中：将图像与不同旋转角度下的预测框逆旋转处理，回到原始角度，得到对应的原始角度下检测框，最后利用NMS对原始角度下检测框进行融合，筛选出置信度最高的结果，并计算出此角度下的旋转预测框。

7.根据权利要求6所述YOLO与旋转-融合策略相结合的鸟类视觉目标检测方法，其特征在于：所述S5包括以下步骤：

S5.1、逆旋转处理：

将旋转后的检测图像分别按照其旋转的角度，旋转回原来的世界，旋转过程仍然按照中心点不变原则，通过角度反转来返回原图的像素点，其计算方式如公式(3)所示，图像长宽的计算方式如公式(4)所示；

根据中心点与长宽，确定图像的位置，并裁剪掉多余的部分，对预测框同样采用公式(3)反算出中心点坐标，并根据公式(4)还原出预测框的位置；

S5.2、NMS融合：

1)、将输入候选预测边界框列表B按照置信度降序排列；

4)、重复上述步骤直到候选列表B为空，返回输出列表D；

IOU的计算如公式(5)所示：

S5.3、反算得到旋转预测框：

8.基于切点的标记框旋转方法，其特征在于：

Bbox_1是原图的标记框，Bbox_2是计算得到的旋转后的标记框；使旋转后的标记框Bbox_2向Bbox_3转换；具体方式是：

在原始的标记框上，标注出目标的中心点与标记框的四个切点，根据公式(1)，计算出旋转后对应的四个切点坐标A(xa,ya),B(xb,yb),C(xc,yc),D(xd,yd),Bbox_3的宽W、高H以及中心点O坐标为：