CN115578602A

CN115578602A - 一种基于改进YOLOv7的自然树种识别方法

Info

Publication number: CN115578602A
Application number: CN202211397515.0A
Authority: CN
Inventors: 朱敏玲; 许治新; 胡博宇
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-01-06

Abstract

本发明公开了一种基于改进YOLOv7的自然树种识别方法，本发明属于林业树种类识别领域，包括：获取自然树种图像，所述自然树种图像包括：训练图像和测试图像；使用Mosaic‑8数据增强手段对所述训练图像进行数据增强，得到增强训练图像；构建YOLOv7网络，对YOLOv7网络结构进行改进，得到改进YOLOv7模型；其中改进YOLOv7模型包括骨干网络、检测头层网络、注意力机制模块、Rep和Conv，通过检测头层网络输出四层不同尺寸的特征图；基于训练图像训练改进YOLOv7模型，从而得到更好的效果；将测试集图像输入至训练好的改进YOLOv7模型，得到自然树种的识别结果。本发明能够对树木种类进行准确识别。

Description

一种基于改进YOLOv7的自然树种识别方法

技术领域

本发明属于林业树种类识别领域，特别是涉及一种基于改进YOLOv7的自然树种识别方法。

背景技术

树木种类的智能识别是人工智能领域的一个重要的研究方向，它可以应用于植物保护，树木识别等林业领域。

近年人工智能发展快速，基于深度学习的算法在图像分类识别方面表现出巨大的优势，可以快速而有效地提取和分析图像中复杂深层次的特征，对于图像分类识别具有很好的效果。这些技术包括增加数据集原始数据量，增添图像转换在测试时可以生成更多的测试数据，或者是使用应用分辨率更高的图像的模型。但是现有技术中，智能识别方法前期处理繁杂，算法识别精度较低，无法对树木种类进行准确识别。

发明内容

本发明的目的是提供一种基于改进YOLOv7的自然树种识别方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于改进YOLOv7的自然树种识别方法，包括：

获取自然树种图像，所述自然树种图像包括：训练图像和测试图像；使用Mosaic-8数据增强手段对所述训练图像进行数据增强，得到增强训练图像；

构建YOLOv7网络，对所述YOLOv7网络进行结构改进，得到改进YOLOv7模型；其中所述改进YOLOv7模型包括骨干网络、检测头层网络、注意力机制模块、Rep和Conv，通过所述检测头层网络输出四层不同尺寸的特征图；

基于所述增强训练图像，训练所述改进YOLOv7模型，得到训练好的改进YOLOv7模型；将所述测试图像输入至训练好的改进YOLOv7模型，得到自然树种的识别结果。

优选地，对所述训练图像进行数据增强的过程包括：

选取若干张训练图像，对若干张训练图像进行随机裁剪、缩放、排列和拼接，得到增强训练图像。

优选地，对所述YOLOv7网络进行结构改进的过程包括：

将采样倍数增加至YOLOv7网络的特征金字塔结构中，对自然树种图像的小尺寸目标进行识别，得到新尺寸特征图，其中所述新尺寸特征图为位置信息。

优选地，所述改进YOLOv7模型中采用CIoU损失函数。

优选地，训练所述改进YOLOv7模型之前还包括：

对所述增强训练图像进行归一化预处理，得到预处理图像，通过划分所述预处理图像的长度和宽度，将预处理图像的特征尺度特定到预设区间。

优选地，训练所述改进YOLOv7模型的过程包括：

基于所述增强训练图像，训练所述改进YOLOv7模型，直至达到设定的学习迭代次数时完成训练，得到训练好的改进YOLOv7模型。

优选地，训练所述改进YOLOv7模型还包括：

基于所述CIoU损失函数，对锚点的长宽和位置进行回归，并预测锚点的类别，最终输出回归分类好的锚点。

优选地，通过所述注意力机制模块，得到每个特征通道的重要程度，基于所述重要程度，得到自然树种图像的局部信息。

本发明的技术效果为：

本发明提供了一种基于改进YOLOv7的树木种类识别方法，在模型优化方面，该方法通过对YOLOv7的网络结构进行改进，新增特征图来提高在自然条件下，复杂背景中较小目标的检出挖掘能力，并且引入注意力机制模块，更好的聚焦于局部信息。在数据增强方面，在数据处理阶段对自然树种图像进行数据增强，增加训练图像数量，防止过拟合，同时提高了模型泛化能力。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的改进YOLOv7模型的整体结构示意图；

图2为本发明实施例中的CBS结构示意图；

图3为本发明实施例中的数据增强示意图；

图4为本发明实施例中的特征金字塔结构；

图5为本发明实施例中的YOLOv7的坐标回归示意图；

图6为本发明实施例中的模型实验结果分析示意图；

图7为本发明实施例中的测试集树种图像识别的混淆矩阵示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例一

本实施例中提供一种基于改进YOLOv7的自然树种识别方法，包括：

本实施例提出一种改进的YOLOv7网络。在YOLOv7网络的基础上进行改进，在原有的网络结构上新增加尺寸较小的特征图来提高对小目标的检出挖掘能力，并引入注意力机制模块SE，更好的聚焦于局部信息。同时使用数据增强技术，采用相对于Mosaic数据增强方式效果更好的Mosaic-8。Mosaic数据增强的原理是将4张图片进行随机裁剪、缩放以及排列之后拼接成一张新的图片，Mosaic-8则采用8张图片进行上述操作，随机性更强，数据增强效果更好。

改进YOLOv7模型的整体结构

首先对输入图片resize为640×640大小，输入到骨干网络(Backbone网络)中，然后经过检测头层网络(Head层网络)输出四层不同尺寸的特征图，经过Rep和Conv输出预测的结果。在本网络结构图中以coco数据集为例。在输出特征图部分，coco数据集的输出类别为80，每个输出(x，y，w，h，o)即坐标位置以及前后背景，锚点的数量为4，因此每一层的的输出为(80+5)×4＝340再与特征图的大小相乘，得到的就是最终的输出，如图1所示。

改进YOLOv7模型backbone结构

首先，通过四层卷积层，根据图2，CBS主要由Conv(Convolution)+BN(BatchNormalization)+SiLU(Sigmoid线性单元)组成，并选择不同的颜色代表不同的大小和步长，如(3、1)表示卷积核大小为3，步长为1。

经过4个CBS之后，随后会经过YOLOv7作者所提出的ELEN模块。ELEN由多个CBS组成，经过ELEN输入输出的特征大小保持不变。通道数会在前两个CBS中发生变化，在之后输入和输出的通道数保持一致。之后在从Backbone输出之前进入SE模块。SE通过学习的方式自动获取每个特征通道的重要程度，并且利用得到的重要程度来提升特征。

数据增强

增强效果的Mosaic-8的基本实现原理，如图3所示：

在Mosaic的基础上增加随机去除的图片张数，采用随机裁剪、随机排序、随机组合的原则生成数据增强后的图片。经过数据增强之后可以增加训练的数据量，提高模型的泛化能力，增加噪声数据，提升模型的鲁棒性，减少过拟合的发送。

特征提取

在改进前的YOLOv7网络结构中，存在3种不同尺度的特征图来检测大小不同的目标。通过不同的采样倍数得到不同尺度的特征图，将其输入到后续网络结构中。YOLOv7所使用的特征金字塔结构是PaFPN。特征金字塔主要是用来提高模型对不同输入图像及目标检测问题中不同的大小物体的鲁棒性，如图4所示。

在自然界中复杂背景下，树种的一些特征因为尺寸较小或环境嘈杂等因素难以被很好的识别，所以在原本YOLOv7网络基础上新增一个采样倍数，对小尺寸目标更好的进行识别，从而得到新尺寸的特征图。新尺寸特征图相对于其他三个尺寸特征图有着更加丰富的位置信息，所以对于小尺寸目标有着更好的检出效果。

在最小尺寸的特征图上，感知视野最大，对大目标的检测可以获得较好的效果。因此，大特征图应使用小尺度先验框，以获得更丰富的位置信息。一个小尺度的特征图使用一个大尺度的先验框回归预测框可以得到最好的结果。本实施例在原有三尺度特征检测结构的基础上，增加了一个新的特征检测尺度。四个尺度的特征图大小与先验框大小之间的对应关系，如表1所示：

表1

改进的损失函数

作为YOLOv7的优化，本实施例使用CIoU(Complete-IoU)作为损失函数。由于bbox回归的三个要素中的纵横比没有被考虑在内，研究者提出了CIoU。损失函数如下：

ρ--两个中心点之间的欧氏距离。

c--包含预测框和真实框的最小重合区域的对角线距离。

b,b^gt--预测框和真实框的中心点。

α--加权函数

v是用来度量长宽比的一致性，定义如下：

完整的CIoU损失函数定义如下：

CIoU loss的梯度类似于DIoU loss，但是在应用中还要考虑v的梯度。在长宽[0，1]的情况下w²+h²的值通常很小，会导致梯度爆炸。CIoU解决了回归重叠一致性问题，长宽比尽可能向真值。

YOLOv7的坐标回归方式

YOLOv7的坐标回归方式是基于锚框的。产生密集的锚框，使得网络可直接在此基础上进行目标分类及边界框坐标回归；密集的锚框可有效提高网络的目标召回能力，对于小目标检测来说提升非常明显。基于锚框的方式，YOLOv7有着更高的精度，所提取到的特征更丰富。YOLOv7将YOLOv5和YOLOX中的正负样本分配策略进行结合。通过聚类或手动的方式设定好具有不同尺寸、宽高比的方框。在模型训练中，根据锚点与真值的交并比损失对锚点的长宽以及位置进行回归，使其越来越接近真值，在回归的同时预测锚点的类别，最终输出这些回归分类好的锚点。

YOLOv7中有aux_head和lead_head两个head，aux_head做为辅助。aux_head指使用网络中间层进行损失计算来辅助网络训练。YOLOv7的作者将负责最终预测的head称为lead_head，用于辅助训练的head称为aux_head。aux_head筛选正样本的策略和lead_head相同，但更宽松。如在第一步筛选时，lead_head取中心点所在网格和与之接近的两个网格对应的预测框做正样本，如图5竖状阴影的网格。aux_head则取中心点以及周围的4个预测框为正样本，如图5中竖状阴影+斜状阴影区域的网格。

本实施例使用的数据集是由Ho Chi Minh City Open University在2020年制作的BarkVN-50。该数据集由50类树木的树皮纹理图像组成。共有5578张分辨率为303×404图片构成。通过Labellmg对数据集图片进行标签标注。由于数据集的图片数量并不是很大，所以数据增强工作尤为重要。通过进行数据增强可以减少过拟合的发生。

本实施例随机选取4000张图片作为训练集，分别随机选取789张图片作为训练集和测试集。本实施例在实验开始前对数据采用归一化的方法进行预处理，通过划分图像的长度和宽度，将特征尺度特定到[0，1]区间，从而消除奇异样本数据导致的不良影响。

实验结果分析，如图6所示，与其他模型相比，改进的YOLOv7模型在迭代周期为50时收敛速度较快，并逐渐趋于稳定。这意味着可以尽快找到全局最优解，并具有良好的泛化能力。同时，其mAP@0.5高达99.8％，比排名第二的YOLOv7x高0.21％，收敛速度远快于YOLOv7x。

损失率是指模型训练过程中的学习效果。由图6可知，损失率越小，曲线收敛越多，代表学习效果越好。从图6可以看出，改进的YOLOv7算法曲线收敛性最好，损失率最低，学习效果最好，模型鲁棒性最好。

未作修改的YOLOv7模型在检测过程中出现了漏检。改进后的YOLOv7网络几乎没有漏检或误检。可以看出，改进后的YOLOv7在检测率上也有所提高。

利用改进的YOLOv7算法进行训练和测试时，可以看出其准确率和损失率的变化趋势。当使用YOLOv7和YOLOv7x时，出现了剧烈的振荡现象。YOLOv7和YOLOv7-e6e中的ELEN结构可以有效减少振荡的发生。根据准确率和损失率曲线可以看出，在相同条件下，改进后的YOLOv7比其他算法准确率更高，学习效果更好。

泛化性能力测试，本实施例选取每种树种的50幅图像作为固定的测试数据集，测试数据集的所有图像均不参与模型的训练和识别。通过识别准确率来检验本实施例模型的泛化能力。测试集树种图像识别的混淆矩阵，如图7所示。实验结果表明，利用未参与模拟训练的新图像对模型的识别能力进行了测试，仍然取得了理想的识别率。一些树种，如锐棱玉蕊和夷兰，树皮纹理相似，容易出现误检。

从图7可以看出，改进的YOLOv7算法对树种图像取得了较高的准确率，说明将深度学习方法应用于林业树种图像识别是可行的。

消融测试，为了验证不同改进的有效性，本实施例在BarkVN-50数据集上进行了消融实验。由于本实施例提出的算法是由YOLOv7改进的，所以实验是基于YOLOv7的。与YOLOv7相比，该算法主要有三点改进：增加了一个新的尺度特征层；添加SE注意力机制；使用CIoU作为损失函数，如表2所示。

表2

从表2可以看出，在YOLOv7的不同变化下，原有的测试性能都有所提高。在单一条件下，加入新尺寸特征层对检测效果的改善最为明显。类似地，增加了注意力机制、增加新特征层并替换损失函数的改进，基于数据集的模型性能提高了2.29％

改进的YOLOv7算法在训练过程中有着很好的学习效果以及很快的收敛速度，并且实验精度可达到99.8％，可为森林保护，林业邻域做出贡献。由于卷积神经网络的复杂结构和参数组合的多样性，在未来将继续改进树木种类识别算法来适合林业领域的使用。

树木种类的智能识别是人工智能领域的一个重要的研究方向，它可以应用于植物保护，树木识别等林业领域。针对目前智能识别方法前期处理繁杂，算法识别精度较低等不足，本实施例研究了一种基于改进YOLOv7的树木种类识别方法。在模型优化方面，该方法通过对YOLOv7的网络结构进行改进，新增尺寸较小的特征图来提高在自然条件下，复杂背景中较小目标的检出挖掘能力。并且引入注意力机制模块SE，更好的聚焦于局部信息。在数据增强方面，在数据处理阶段采用Mosaic-8对8张图片进行随机裁剪，进行效果更强的数据增强。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于改进YOLOv7的自然树种识别方法，其特征在于，包括以下步骤：

获得自然树种图像，所述自然树种图像包括：训练图像和测试图像；使用Mosaic-8数据增强手段对所述训练图像进行数据增强，得到增强训练图像；

基于所述增强训练图像，训练所述改进YOLOv7模型，得到训练好的改进YOLOv7模型；将所述测试集图像输入至训练好的改进YOLOv7模型，得到自然树种的识别结果。

2.根据权利要求1所述的基于改进YOLOv7的自然树种识别方法，其特征在于，对所述训练图像进行数据增强的过程包括：

3.根据权利要求1所述的基于改进YOLOv7的自然树种识别方法，其特征在于，对所述YOLOv7网络进行结构改进的过程包括：

4.根据权利要求1所述的基于改进YOLOv7的自然树种识别方法，其特征在于，所述改进YOLOv7模型中采用CIoU损失函数。

5.根据权利要求1所述的基于改进YOLOv7的自然树种识别方法，其特征在于，训练所述改进YOLOv7模型之前还包括：

6.根据权利要求1所述的基于改进YOLOv7的自然树种识别方法，其特征在于，训练所述改进YOLOv7模型的过程包括：

7.根据权利要求4所述的基于改进YOLOv7的自然树种识别方法，其特征在于，训练所述改进YOLOv7模型还包括：

8.根据权利要求1所述的基于改进YOLOv7的自然树种识别方法，其特征在于，通过所述注意力机制模块，得到每个特征通道的重要程度，基于所述重要程度，得到自然树种图像的局部信息。