CN116129291A - 一种面向无人机畜牧的图像目标识别方法及其装置 - Google Patents
一种面向无人机畜牧的图像目标识别方法及其装置 Download PDFInfo
- Publication number
- CN116129291A CN116129291A CN202310047220.9A CN202310047220A CN116129291A CN 116129291 A CN116129291 A CN 116129291A CN 202310047220 A CN202310047220 A CN 202310047220A CN 116129291 A CN116129291 A CN 116129291A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature map
- image
- image data
- cut
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4007—Interpolation-based scaling, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/70—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in livestock or poultry
Abstract
本发明公开了一种面向无人机畜牧的图像目标识别方法,包括构建原始牲畜图像数据集,基于被裁剪图像的宽高对所在的原始牲畜图像数据进行自适应裁剪和插值缩放得到多个裁剪图像和对应的裁剪标签,将裁剪图像数据集进行数据增强得到数据增强图像数据集;构建改进的YOLOv5m网络,将FPN架构改进为高层上采样模块、中层上采样模块和低层上采样模块,通过改进的YOLOv5m网络得到不同维度的特征图,通过检测头网络得到被裁剪图像的预测结果;采用总损失函数训练改进的YOLOv5m网络得到图像目标识别模型。该方法能够较为准确且高效的识别被裁剪图像。本发明还公开了一种面向无人机畜牧的图像目标识别装置。
Description
技术领域
本发明属于图像识别技术领域,具体涉及一种面向无人机畜牧的图像目标识别方法及其装置。
背景技术
目标识别是计算机视觉中最常见的问题之一。其本质是一种基于目标几何和统计特征的图像分割,它将目标的检测和识别合二为一,其准确性和实时性是整个系统的一项重要能力,近年来,目标识别在人工智能,人脸识别,无人驾驶等领域都得到了广泛的应用。
现有的目标识别算法有机器学习的算法和基于深度学习的算法。传统的机器学习算法,多是基于滑动窗口的框架或是根据特征点进行匹配。而近年来卷积神经网络在目标识别领域获得了巨大成功,优秀模型层出不穷,常见的模型包括单阶段模型(YOLO、FCOS、DETR、EfficientDet等)和两阶段模型(R-CNN、VFNet、CenterNet2等)。
当前公开的涉及目标识别的大型数据集主要包括PASCALVOC、MS COCO、ImageNet等,然而PASCALVOC和MS COCO涉及类别太少,不能涵盖畜牧业中常见牲畜种类,而ImageNet涉及类别太多,需要的计算量较大,造成目标检测难度大,不符合畜牧业目标识别应用的实际需求。另外,现有的数据集中目标以大目标和中目标为主,不符合畜牧业中无人机拍摄视频中目标多为小目标的实际情况,导致小目标识别困难。
针对小目标识别,现有的数据增强方法包括传统的全局像素增强方法,如色相、饱和度、裁剪、平移等,还包括将多幅图像组合拼接在一起进行数据增强的方法,如MixUp、CutMix和Mosaic。已经有学者针对无人机视频图像小目标较多的特点,提出了一些专门为无人机设计的目标识别网络,如TPH-YOLOv5、RRNet、PENet、CenterNet。尽管如此,上述目标识别网络在无人机拍摄的畜牧业视频图像时识别繁多的小目标时仍然存在较大的进步空间。
因此,如何对畜牧业数据集进行有效的筛选补充、数据增强,如何对现有模型结构进行改进使其更符合畜牧业视频图像中小目标较多的实际,如何搭建一个集数据处理、训练、云端推理为一体的系统,是畜牧业目标识别亟待解决的问题。
发明内容
本发明提供了一种面向无人机畜牧的图像目标识别方法,该方法能够较为准确且高效的识别被裁剪图像。
一种面向无人机畜牧的图像目标识别方法,包括:
筛选多种类别牲畜的无人机图像作为自建数据集,从MS COCO数据集中筛选出多个与无人机图像中牲畜类别相同的图像数据补入自建数据集得到原始牲畜图像数据集和对应标签,基于被裁剪图像的宽高对所在的原始牲畜图像数据进行自适应裁剪得到多个初始裁剪图像数据,对多个初始裁剪图像数据进行插值缩放得到尺寸一致的多个裁剪图像和对应的裁剪标签,将每一个原始牲畜图像数据依次进行自适应裁剪和插值缩放得到裁剪图像数据集,将裁剪图像数据集进行数据增强得到数据增强图像数据集,将数据增强图像数据集作为训练样本集;
构建改进的YOLOv5m网络,所述改进的YOLOv5m网络包括主干网络、改进的特征提取网络和检测头网络,其中:将训练样本输入至主干网络得到由低层到高层的5个阶段特征图,所述改进的特征提取网络包括改进的FPN架构和PAN架构,改进的FPN架构包括依次连接的高层上采样模块、中层上采样模块和低层上采样模块,将低层上采样模块输出的上采样结果与主干网络输出的第二阶段特征图进行融合得到上采样融合特征图,通过低层上采样模块中的卷积层得到低层特征图,通过中层上采样模块中的卷积层得到中层特征图,将上采样融合特征图、低层特征图和中层特征图依次输入至PAN架构得到三个不同维度的特征图,将所述三个不同维度的特征图输入至检测头网络进行被裁剪图像的检测识别得到被裁剪图像的预测框和预测框类别;
通过训练样本集采用总损失函数训练改进的YOLOv5m网络得到图像目标识别模型,所述总的损失函数包括通过目标牲畜的预测框和真实框构建的边界框回归损失函数,以及通过预测框类别和标签构建的置信度和类别预测损失函数;
应用时,将静态图片、静态视频或直播视频输入至图像目标识别模型得到包含预测框和预测框类别的静态图片、静态视频或直播视频。
其中,wavg为被裁剪图像的平均宽度,wmax为被裁剪图像的最大宽度,wimg为当前被裁剪图像的原始宽度,i1,i2为超参数;
其中,havg为被裁剪图像的平均高度,hmax为被裁剪图像的最大高度,himg为当前被裁剪图像的原始高度,i3,i4为超参数。
所述将裁剪图像数据集进行数据增强得到数据增强图像数据集,包括:从裁剪图像数据集中筛选多张裁剪图像数据通过随机缩放、随机裁剪或随机排布的方式进行拼接,然后按照设定的概率对拼接之后的裁剪图像数据进行亮度增强、饱和度增强、翻折或缩放从而得到数据增强图像数据集。
所述将训练样本输入至主干网络得到由低层到高层的5个阶段特征图,包括:所述主干网络包括依次连接的四层BottleneckCSP层和SPP层,将训练样本依次通过四层BottleneckCSP层和SPP层分别得到第一、第二、第三、第四和第五阶段特征图。
所述将低层上采样模块输出的上采样结果与主干网络输出的第二阶段特征图进行融合得到上采样融合特征图,包括:
将所述第五阶段特征图输入至高层上采样模块进行第一次上采样,将第一次上采样结果与第四阶段特征图进行融合得到第一融合特征图;
将第一融合特征图输入至中层上采样模块进行第二次上采样,将第二次上采样结果与第三阶段特征图进行融合得到第二融合特征图;
将第二融合特征图输入至低层上采样模块进行第三次上采样,将第三次上采样结果与第二阶段特征图进行融合得到上采样融合特征图。
所述通过低层上采样模块中的卷积层得到低层特征图,包括:所述低层上采样模块包括BottleneckCSP层、卷积层和上采样层,将第二融合特征图依次输入至BottleneckCSP层和卷积层得到低层特征图;
所述通过中层上采样模块中的卷积层得到中层特征图,包括:所述中层上采样模块包括BottleneckCSP层、卷积层和上采样层,将第一融合特征图依次输入至BottleneckCSP层和卷积层得到中层特征图。
所述将上采样融合特征图、高层特征图和中层特征图依次输入至PAN架构得到三个不同维度的特征图,包括:
所述PAN架构包括低层PAN模块、中层PAN模块和BottleneckCSP层,其中:所述低层PAN模块和中层PAN模块均包括BottleneckCSP层和卷积层,将上采样融合特征图输入至低层PAN模块的BottleneckCSP层得到第一维度特征图,将第一维度特征图通过低层PAN模块的卷积层进行卷积,将卷积结果和低层特征图进行融合得到第三融合特征图;
将第三融合特征图输入至中层PAN模块的BottleneckCSP层得到第二维度特征图,将第二维度特征图通过中层PAN模块的卷积层进行卷积,将卷积结果与中层特征图进行融合得到第四融合特征图;
将第四融合特征图输入至BottleneckCSP层得到第三维度特征图。
本实施例提供的总损失函数L为:
L=Loss1+Loss2
其中,IoU表示交并比,即模型产生的预测框类别C与真实框U的交叠率,b和bgt分别为预测框中心点和真实框中心点,ρ表示为两点之间的欧式距离,c代表能够同时包含预测框和真实框的最小闭包区域的对角线距离,α是权重系数,ν是宽高比的相似性,w和wgt分别是预测框的宽度和真实框的宽度,h和hgt分别是预测框的高度和真实框的高度,yn表示预测框真实标签,若真实标签是第n类,则yn=1,否则yn=0;xn表示模型输出的预测框类别,用Sigmoid函数σ()将xn映射到区间[0,1]上,N为类别的总数。
一种面向无人机畜牧的图像目标识别装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中采用权利要求1~8任一项所述的图像目标识别模型;
所述计算机处理器执行所述计算机程序时实现以下步骤:将静态图片、静态视频或直播视频输入至图像目标识别模型得到包含预测框和预测框类别的静态图片、静态视频或直播视频。
与现有技术相比,本发明的有益效果为:
利用自建数据集与MS COCO公开数据集相结合补充的方式,获得更适合畜牧业目标识别的优质数据集;通过数据自适应裁剪解决无人机拍摄畜牧业视频图像中目标尺寸差异悬殊的问题;改进YOLOv5模型的特征提取网络和检测头网络,在保证模型尺寸不增的同时,使模型更适应畜牧业视频图像中小目标繁多的情况,使mAP_0.5提升0.74%。
附图说明
图1为本发明实施例提供的面向无人机畜牧的图像目标识别方法流程图;
图2为本发明实施例提供的自建数据集实例位置尺寸分布情况示意图;
图3为本发明实施例提供的数据补充后数据类别分布情况示意图;
图4为本发明实施例提供的数据集自适应裁剪后实例位置尺寸分布情况示意图;
图5为本发明实施例提供的本发明数据增强效果示意图;
图6为本发明实施例提供的YOLOv5m原模型结构示意图;
图7为本发明实施例提供的改进后YOLOv5m模型结构示意图;
图8为本发明实施例提供的精确识别滑动窗口裁剪识别流程示意图;
图9为本发明实施例提供的YOLOv5m原模型与本发明改进后模型识别效果对比图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清晰,下结合说明书附图和实施例对本发明作进一步详细说明。
本发明提供了一种面向无人机畜牧的图像目标识别方法,如图1的a所示,包括:
(1)构建数据集,本实施提供的数据集包括自建数据集和向自建数据集进行补充的MS COCO数据集,该自建数据集包括668张图片,共涉及牛、羊、马、人、车、狗、骆驼7个类别,包含实例超20000个(其中包含羊16408头、马2292头、牛1982头、骆驼662头等),可见自建数据集中各个类别数据集数量不均衡。如图2所示,真实框位置分布和大小分布,可见自建数据集中小目标多,目标大小不均匀,此外还存在各类别目标大小平均值有较大差异的问题,需要进一步补充并处理数据以满足模型训练需求。
利用MS COCO数据集对自建数据集进行补充得到原始牲畜图像数据集和对应标签,使得原始牲畜图像数据集中的各牲畜类别的样本量达到YOLOv5模型官方建议的样本量,即10000以上。
本实施例中从MS COCO公开数据集中初始筛选出和自建数据集类别相同的图像,MS COCO数据集中包含大量日常生活的图像数据,不加以筛选会导致场景和环境与自建数据集有较大差异,为保证图像符合畜牧业目标识别的需求,对从MS COCO数据集中初始筛选的图像中进一步排出只含人、车而不含其他牲畜的图像,以确保图像场景、语境与畜牧业实际应用场景的差异在可接受范围内;将筛选出的图像纳入自建数据集;并将筛选出的图像的.json格式转换为YOLOv5模型可识别的.txt格式的标注文件,只保留MS COCO数据集80个类别中所需6个类别(MS COCO数据集不包含骆驼)的标注信息,且基于自建数据集,修改MSCOCO数据集标注序号与类别的对应关系。如图3所示,扩充后的数据集实例数增加,类别不均衡的情况得到一定程度的改善。
将获得的原始牲畜图像数据集按照7:3比例分为训练数据集和验证数据集,将部分未打标签的原始航拍视频作为测试数据集。
(2)对数据进行预处理:如图2所示,步骤(1)得到的原始牲畜图像数据集中目标大小不均匀,为提高数据质量,降低训练难度,对原始牲畜图像数据集,根据被裁剪图像的当前实际宽高、所在牲畜图像数据的平均宽高和最大宽高的最大值对每一个原始牲畜图像数据进行剪裁得到多个初始裁剪图像数据,被裁剪图像的具体裁剪尺寸为,被裁剪图像的裁剪宽度为:
其中,wavg为被裁剪图像的平均宽度,wmax为被裁剪图像的最大宽度,wimg为当前被裁剪图像的原始宽度,i1,i2为超参数;用于确保裁剪尺寸在能涵盖每一个原始牲畜图像数据中最大目标的前提下,每一个原始牲畜图像数据中小目标平均尺寸的比例基本一致。在本例的特定数据集中,通过网格搜索,确定超参数取i1=8,i2=4。计算公式对于图片高度同理,高度与宽度共享超参数。被裁剪图像的裁剪高度为:
其中,havg为被裁剪图像的平均高度,hmax为小目标牲畜的最大高度,himg为当前被裁剪图像的原始高度,i3,i4为超参数。确定超参数取i3=8,i4=4。以计算出的宽高作为滑动窗口对原始图像进行裁剪。
本实施例通过对多个初始裁剪图像数据进行插值缩放得到尺寸一致,即宽和高均为640,得到多个裁剪图像,因而能在保证大目标少被截断的同时确保目标尺寸和图像尺寸的相对大小基本一致,避免小目标识别困难、目标大小差异悬殊等问题。自适应裁剪后实例的位置分布和大小分布如图4所示,目标尺寸更加一致,目标分布更加均匀。本实施例同时对标签进行裁剪得到裁剪标签,即将一个原始牲畜图像数据对应的.txt标注文件转换为裁剪后多个裁剪图像对应的多个.txt标注文件,裁剪标签包括小目标牲畜的预测标框和对应类别。将每一个原始牲畜图像数据依次进行自适应裁剪和插值缩放得到裁剪图像数据集。
本实施例将裁剪图像数据集进行数据增强:通过Mosaic数据增强,将裁剪图像数据集中的任意四张裁剪图像以随机缩放、随机裁剪、随机排布的方式进行拼接,增加训练集中被裁剪图像的数量,然后以一定概率对图像进行亮度增强、饱和度增强、翻折、缩放等等,具体概率为色相0.015、饱和度0.7、亮度0.4、缩放0.5、左右翻折0.5、Mosaic 1。经过上述处理的数据示例如图5所示。
(3)构建模型,并对模型进行训练:原始的YOLOv5m网络,如图6所示,包括主干提取网络、特征提取网络和检测头网络:YOLOv5m模型采用CSPNet作为主干网络,CSPNet即跨阶段局部网络,其基本原理是将特征图分成两部分,然后通过一个跨阶段的层次结构将两部分合并,将梯度的变化从头到尾地集成到特征图中,在减少了计算量的同时可以提高推理速度,保证准确率。CSPNet中的基本组成单元是BottleneckCSP,BottleneckCSP由一系列残差结构组成,通过求和的方式将特征图的两部分信息结合起来向下传递,在CSPNet中被用于提取图像的深度语义信息。CSPNet中的SPP架构即为Spartial Pyramid Pooling,其核心在于使用多个不同尺寸的滑动窗口对特征图进行池化,最后将结果拼接得到固定长度的输出。CSPNet从输入图像中提取特征映射,输出五个阶段的特征,分别记为C1-C5,如图6中所示。特征提取网络接收主干网络输出的第三阶段特征图C3(76*76)、第四阶段特征图C4(38*38)、第五阶段特征图C5(19*19),采用FPN+PAN的架构聚合信息。其中FPN即FeaturePyramid Network,其自上而下,将高层特征通过上采样和低层特征做融合得到特征图,从而把高层的语义特征传到低层,从而增强多个尺度上的语义表达。FPN的重要组成单元也是BottleneckCSP,用于融合不同尺度的特征图来丰富语义信息。PAN即Path AggregationNetwork,以FPN输出的多阶段特征图作为输入,自下向上将低层特征图和高层特征图融合,从而将低层位置信息传导到高层,增强多个尺度上的定位能力;PAN输出三个维度的特征图传入检测头网络。检测头网络接收特征提取网络输出的特征图,进行目标检测识别。
本实施例提供的改进的YOLOv5m网络,如图7所示,包括主干网络、改进的特征提取网络和检测头网络,其中:
本实施例提供的主干网络包括依次连接的四层BottleneckCSP层和SPP层,将训练样本依次通过四层BottleneckCSP层和SPP层分别得到第一阶段特征图C1、第二阶段特征图C2(152*152)、第三阶段特征图C3、第四阶段特征图C4和第五阶段特征图C5。
本实施例提供的改进的特征提取网络包括改进的FPN架构和PAN架构,改进的FPN架构包括依次连接的高层上采样模块、中层上采样模块和低层上采样模块,将所述第五阶段特征图C5输入至高层上采样模块进行第一次上采样,将第一次上采样结果与第四阶段特征图C4进行融合得到第一融合特征图;将第一融合特征图输入至中层上采样模块进行第二次上采样,将第二次上采样结果与第三阶段特征图C3进行融合得到第二融合特征图;将第二融合特征图输入至低层上采样模块进行第三次上采样,将第三次上采样结果与第二阶段特征图C2进行融合得到上采样融合特征图。由于第二阶段特征图C2包含小目标信息更多,如此调整特征提取网络能有效提高模型对小目标检测的性能。
该低层上采样模块包括BottleneckCSP层、卷积层和上采样层,将第二融合特征图依次输入至低层上采样模块的BottleneckCSP层和卷积层得到低层特征图;该中层上采样模块包括BottleneckCSP层、卷积层和上采样层,将第一融合特征图依次输入至中层上采样模块的BottleneckCSP层和卷积层得到中层特征图。
本实施例提供了将上采样融合特征图、高层特征图和中层特征图依次输入至PAN架构得到三个不同维度的特征图,具体步骤为:
该PAN架构包括低层PAN模块、中层PAN模块和BottleneckCSP层,其中:该低层PAN模块和中层PAN模块均包括BottleneckCSP层和卷积层,将上采样融合特征图输入至低层PAN模块的BottleneckCSP层得到第一维度特征图,将第一维度特征图通过低层PAN模块的卷积层进行卷积,将卷积结果和低层特征图进行融合得到第三融合特征图;
将第三融合特征图输入至中层PAN模块的BottleneckCSP层得到第二维度特征图,将第二维度特征图通过中层PAN模块的卷积层进行卷积,将卷积结果与中层特征图进行融合得到第四融合特征图;
将第四融合特征图输入至BottleneckCSP层得到第三维度特征图。
将该三个不同维度的特征图输入至检测头网络进行被裁剪图像的检测识别得到被裁剪图像的预测框和预测框类别;用特征提取网络中高分辨率的特征图取代原模型检测头网络中最低分辨率的特征图,从而在保证小目标检测效果的同时避免扩大特征图导致推理时间过长的问题。
为第一、第二、第三维度特征图设置不同的默认锚框尺寸,从而在不同特征图上检测不同尺寸的目标。首先对(2)中预处理后的数据集中锚框尺寸进行k-means聚类,取聚类中心作为锚框尺寸的设定值,本例中聚类中心数量k设定为9。第一维度特征图尺寸最大,包含小目标信息最多,因此锚框应取所有聚类中心内的较小值,本例取为[5,7,9,14,14,12];第二维度特征图尺寸适中,锚框尺寸取所有聚类中心内大小适中值,本例取为[10,13,16,30,33,23];第三维度特征图尺寸最小,用于检测较大目标,同理将锚框尺寸取较大值,本例取为[30,61,62,45,59,119]。
训练模型时,使用SGD作为优化函数,初始学习率为0.01,SGD动量取为0.937,批大小为16,共训练300个epochs,通过训练样本集采用总损失函数训练改进的YOLOv5m网络得到图像目标识别模型,该总的损失函数包括通过目标牲畜的预测框和真实框构建的边界框回归损失函数,以及通过预测框类别和标签构建的置信度和类别预测损失函数。
该总损失函数L为:
L=Loss1+Loss2
其中,IoU表示交并比,即模型产生的预测框类别C与真实框U的交叠率,b和bgt分别为预测框中心点和真实框中心点,ρ表示为两点之间的欧式距离,c代表能够同时包含预测框和真实框的最小闭包区域的对角线距离,α是权重系数,v是宽高比的相似性,w和wgt分别是预测框的宽度和真实框的宽度,h和hgt分别是预测框的高度和真实框的高度,yn表示预测框真实标签,若真实标签是第n类,则yn=1,否则yn=0;xn表示模型输出的预测框类别,用Sigmoid函数σ()将xn映射到区间[0,1]上,N为类别的总数。
对YOLOv5(from scratch),YOLOv5(finetune),YOLOv5_Animal和TPH-YOLOv5四种模型的训练结果如下表1所示。
表1四种模型的训练结果
其中,YOLOv5(from scratch)是用相同参数从头训练的YOLOv5m模型,YOLOv5(finetune)是以在MS COCO数据集上预训练的YOLOv5m模型为基础进行finetune得到的模型,YOLOV5_Animal是本发明根据畜牧业实际需求改进的YOLOv5m模型,TPH-YOLOv5是Xingkui Zhu等人提出的YOLOv5改进模型,其将Transformer Prediction Heads(TPH)集成到YOLOv5中,以提高YOLOv5在无人机拍摄视频图像中的表现,该模型可以在高密度场景中准确定位目标。
表1中的mAP是衡量目标检测模型效果的一个重要指标,以MS COCO官方定义,AP是PR曲线下面积,mAP则是在不同IoU阈值下AP的平均值。mAP的值越高,说明该目标检测模型效果越好。GFLOPS指的是网络进行的浮点运算总量,Parameters指的是网络包含参数数量。
从识别效果、运行速度和模型体积多角度衡量,本发明改进后的YOLOv5_Animal模型在畜牧业的数据集上的表现超越了其他几个模型,模型体积也明显小于其他几个模型,而在运算量上相比YOLOv5m仅有小幅度上升,远低于TPH-YOLOv5模型。
本实施例还提供一种面向无人机畜牧的图像目标识别装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中采用图像目标识别模型;
所述计算机处理器执行所述计算机程序时实现以下步骤:将静态图片、静态视频或直播视频输入至图像目标识别模型得到包含预测框和预测框类别的静态图片、静态视频或直播视频。
本实施例面对需要进行精确识别被裁剪图像时,提供了一种面向无人机畜牧服务的图像目标识别方法,包括:
(1)如图8所示,对静态图片进行重叠裁剪得到多个区域,通过重叠裁剪使得每个区域具有20%的重叠部分,避免截断对象;
(2)将裁剪后的区域输入至该面向无人机畜牧的图像目标识别装置得到每个区域中被裁剪图像的预测框和预测类别;
(3)合并各个区域的预测结果,对于重叠部分使用NMS非极大值抑制去除重叠部分中重叠的预测框得到需要识别图像的最终预测结果,最终预测结果为需要识别图像中被裁剪图像的预测框和预测类别。
本实施例面对需要保证推理速度,实现在线实时推理,进而进行粗略识别被裁剪图像,当输入对象为静态图片、静态视频或直播视频时,本实施例提供了一种面向无人机畜牧服务的实时在线视频图像目标识别方法,如图1的b所示,模型云端推理,包括:
将改进的YOLOv5m部署在服务端,对获得的无人机图像进行数据预处理得到图像数据类型,将输入信息传入该面向无人机畜牧的图像目标识别装置,输出推理结果,该推理结果包含预测框信息的直播视频流,并输出计数结果、以文本形式输出的各帧标注,将推理结果展现在网页控制台;该输入信息包括静态图片、静态视频和直播视频。从而实现畜牧业视频流的在线目标识别。
将测试数据集中的测试图像以原始分辨率作为静态图像,将该静态图像作为输入信息通过本实施例提供的面向无人机畜牧服务的实时在线视频图像目标识别方法得到被裁剪图像的预测框和预测类别,如图9所示,其中,如图9的a为YOLOv5m官方模型预测结果,如图9的b为改进后YOLOv5m模型的实时推理预测结果,本发明模型对畜牧业视频图像中小目标的识别明显优于原模型。本实施例实现一个集数据处理、训练、云端推理为一体的系统,包含两种预测方案,符合精确计数与实时监测等多种场景的不同需求。
本发明利用自建数据集与MS COCO公开数据集相结合补充的方式,弥补了畜牧业目标识别领域数据稀缺的不足;通过数据自适应裁剪解决无人机拍摄畜牧业视频图像中目标尺寸差异悬殊的问题;改进的YOLOv5m模型的特征提取网络和检测头网络,在保证模型尺寸不增的同时,使模型更适应畜牧业视频图像中小目标繁多的情况,使mAP_0.5提升0.74%;实现一个集数据处理、训练、云端推理为一体的系统,包含两种预测方案,符合精确计数与实时监测等多种场景的不同需求,充分体现出本发明的实际效益与应用价值。
Claims (9)
1.一种面向无人机畜牧的图像目标识别方法,其特征在于,包括:
筛选多种类别牲畜的无人机图像作为自建数据集,从MS COCO数据集中筛选出多个与无人机图像中牲畜类别相同的图像数据补入自建数据集得到原始牲畜图像数据集和对应标签,基于被裁剪图像的宽高对所在的原始牲畜图像数据进行自适应裁剪得到多个初始裁剪图像数据,对多个初始裁剪图像数据进行插值缩放得到尺寸一致的多个裁剪图像和对应的裁剪标签,将每一个原始牲畜图像数据依次进行自适应裁剪和插值缩放得到裁剪图像数据集,将裁剪图像数据集进行数据增强得到数据增强图像数据集,将数据增强图像数据集作为训练样本集;
构建改进的YOLOv5m网络,所述改进的YOLOv5m网络包括主干网络、改进的特征提取网络和检测头网络,其中:将训练样本输入至主干网络得到由低层到高层的5个阶段特征图,所述改进的特征提取网络包括改进的FPN架构和PAN架构,改进的FPN架构包括依次连接的高层上采样模块、中层上采样模块和低层上采样模块,将低层上采样模块输出的上采样结果与主干网络输出的第二阶段特征图进行融合得到上采样融合特征图,通过低层上采样模块中的卷积层得到低层特征图,通过中层上采样模块中的卷积层得到中层特征图,将上采样融合特征图、低层特征图和中层特征图依次输入至PAN架构得到三个不同维度的特征图,将所述三个不同维度的特征图输入至检测头网络进行被裁剪图像的检测识别得到被裁剪图像的预测框和预测框类别;
通过训练样本集采用总损失函数训练改进的YOLOv5m网络得到图像目标识别模型,总的损失函数包括通过目标牲畜的预测框和真实框构建的边界框回归损失函数,以及通过预测框类别和标签构建的置信度和类别预测损失函数;
应用时,将静态图片、静态视频或直播视频输入至图像目标识别模型得到包含预测框和预测框类别的静态图片、静态视频或直播视频。
3.根据权利要求1所述的面向无人机畜牧的图像目标识别方法,其特征在于,所述将裁剪图像数据集进行数据增强得到数据增强图像数据集,包括:从裁剪图像数据集中筛选多张裁剪图像数据通过随机缩放、随机裁剪或随机排布的方式进行拼接,然后按照设定的概率对拼接之后的裁剪图像数据进行亮度增强、饱和度增强、翻折或缩放从而得到数据增强图像数据集。
4.根据权利要求1所述的面向无人机畜牧的图像目标识别方法,其特征在于,所述将训练样本输入至主干网络得到由低层到高层的5个阶段特征图,包括:所述主干网络包括依次连接的四层BottleneckCSP层和SPP层,将训练样本依次通过四层BottleneckCSP层和SPP层分别得到第一、第二、第三、第四和第五阶段特征图。
5.根据权利要求4所述的面向无人机畜牧的图像目标识别方法,其特征在于,所述将低层上采样模块输出的上采样结果与主干网络输出的第二阶段特征图进行融合得到上采样融合特征图,包括:
将所述第五阶段特征图输入至高层上采样模块进行第一次上采样,将第一次上采样结果与第四阶段特征图进行融合得到第一融合特征图;
将第一融合特征图输入至中层上采样模块进行第二次上采样,将第二次上采样结果与第三阶段特征图进行融合得到第二融合特征图;
将第二融合特征图输入至低层上采样模块进行第三次上采样,将第三次上采样结果与第二阶段特征图进行融合得到上采样融合特征图。
6.根据权利要求5所述的面向无人机畜牧的图像目标识别方法,其特征在于,所述通过低层上采样模块中的卷积层得到低层特征图,包括:所述低层上采样模块包括BottleneckCSP层、卷积层和上采样层,将第二融合特征图依次输入至BottleneckCSP层和卷积层得到低层特征图;
通过以下方式通过中层上采样模块中的卷积层得到中层特征图:
所述中层上采样模块包括BottleneckCSP层、卷积层和上采样层,将第一融合特征图依次输入至BottleneckCSP层和卷积层得到中层特征图。
7.根据权利要求1或6所述的面向无人机畜牧的图像目标识别方法,其特征在于,所述将上采样融合特征图、高层特征图和中层特征图依次输入至PAN架构得到三个不同维度的特征图,包括:
所述PAN架构包括低层PAN模块、中层PAN模块和BottleneckCSP层,其中:所述低层PAN模块和中层PAN模块均包括BottleneckCSP层和卷积层,将上采样融合特征图输入至低层PAN模块的BottleneckCSP层得到第一维度特征图,通过低层PAN模块的卷积层将第一维度特征图进行卷积,将卷积结果和低层特征图进行融合得到第三融合特征图;
将第三融合特征图输入至中层PAN模块的BottleneckCSP层得到第二维度特征图,通过中层PAN模块的卷积层将第二维度特征图进行卷积,将卷积结果与中层特征图进行融合得到第四融合特征图;
将第四融合特征图输入至BottleneckCSP层得到第三维度特征图。
8.根据权利要求1或6所述的面向无人机畜牧的图像目标识别方法,其特征在于,总损失函数L为:
L=Loss1+Loss2
其中,IoU表示交并比,即模型产生的预测框类别C与真实框U的交叠率,b和bgt分别为预测框中心点和真实框中心点,ρ表示为两点之间的欧式距离,c代表能够同时包含预测框和真实框的最小闭包区域的对角线距离,α是权重系数,v是宽高比的相似性,w和wgt分别是预测框的宽度和真实框的宽度,h和hgt分别是预测框的高度和真实框的高度,yn表示预测框真实标签,若真实标签是第n类,则yn=1,否则yn=0;xn表示模型输出的预测框类别,用Sigmoid函数σ()将xn映射到区间[0,1]上,N为类别的总数。
9.一种面向无人机畜牧的图像目标识别装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器中采用权利要求1~8任一项所述的图像目标识别模型;
所述计算机处理器执行所述计算机程序时实现以下步骤:将静态图片、静态视频或直播视频输入至图像目标识别模型得到包含预测框和预测框类别的静态图片、静态视频或直播视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310047220.9A CN116129291A (zh) | 2023-01-31 | 2023-01-31 | 一种面向无人机畜牧的图像目标识别方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310047220.9A CN116129291A (zh) | 2023-01-31 | 2023-01-31 | 一种面向无人机畜牧的图像目标识别方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129291A true CN116129291A (zh) | 2023-05-16 |
Family
ID=86294002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310047220.9A Pending CN116129291A (zh) | 2023-01-31 | 2023-01-31 | 一种面向无人机畜牧的图像目标识别方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129291A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597287A (zh) * | 2023-07-17 | 2023-08-15 | 云南省交通规划设计研究院有限公司 | 一种基于深度学习方法的遥感影像滑坡识别方法 |
CN116824551A (zh) * | 2023-08-30 | 2023-09-29 | 山东易图信息技术有限公司 | 一种基于视觉注意力的轻量化停车位状态检测方法 |
CN117576521A (zh) * | 2024-01-16 | 2024-02-20 | 广州市易鸿智能装备股份有限公司 | 一种提高工业图像检测模型准确率的方法 |
-
2023
- 2023-01-31 CN CN202310047220.9A patent/CN116129291A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597287A (zh) * | 2023-07-17 | 2023-08-15 | 云南省交通规划设计研究院有限公司 | 一种基于深度学习方法的遥感影像滑坡识别方法 |
CN116824551A (zh) * | 2023-08-30 | 2023-09-29 | 山东易图信息技术有限公司 | 一种基于视觉注意力的轻量化停车位状态检测方法 |
CN117576521A (zh) * | 2024-01-16 | 2024-02-20 | 广州市易鸿智能装备股份有限公司 | 一种提高工业图像检测模型准确率的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022000426A1 (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
CN110728200B (zh) | 一种基于深度学习的实时行人检测方法及系统 | |
CN109543695B (zh) | 基于多尺度深度学习的泛密度人群计数方法 | |
CN112101175A (zh) | 基于局部图像的高速公路车辆检测及多属性特征提取方法 | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN110263786B (zh) | 一种基于特征维度融合的道路多目标识别系统及方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN112132156A (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN110765833A (zh) | 一种基于深度学习的人群密度估计方法 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
CN110555420A (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111368845B (zh) | 基于深度学习的特征字典构建及图像分割方法 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN116229452B (zh) | 一种基于改进的多尺度特征融合的点云三维目标检测方法 | |
Tsutsui et al. | Distantly supervised road segmentation | |
CN114494786A (zh) | 一种基于多层协调卷积神经网络的细粒度图像分类方法 | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
CN115410131A (zh) | 一种用于短视频智能分类的方法 | |
CN115063831A (zh) | 一种高性能行人检索与重识别方法及装置 | |
CN113837062A (zh) | 一种分类方法、装置、存储介质及电子设备 | |
Das et al. | Object Detection on Scene Images: A Novel Approach | |
CN117036895B (zh) | 基于相机与激光雷达点云融合的多任务环境感知方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |