CN115330833A

CN115330833A - 一种改进多目标跟踪的果实产量估算方法

Info

Publication number: CN115330833A
Application number: CN202210632880.9A
Authority: CN
Inventors: 涂淑琴; 黄琼; 曾钱涛; 黄正鑫; 刘晓龙; 黄磊
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-11-11

Abstract

本发明提出一种改进多目标跟踪的果实产量估算方法。该方法包括以下过程：获取自然场景下的农作物的视频数据；基于改进YOLOv5s模型识别视频数据中的目标农作物；将所述改进YOLOv5s模型识别的结果作为跟踪算法的输入；所述采用卡尔曼滤波、匈牙利匹配算法以及改进多目标跟踪算法构建产量估算算法，并采用所述产量估算算法统计所述目标农作物的数量。本发明提供的改进多目标跟踪的果实产量估算方法，可以实现果实产量估算的需求，为实现果园智能化管理提供技术支持。

Description

一种改进多目标跟踪的果实产量估算方法

技术领域

本发明涉及农业计算机视觉的果实检测跟踪领域，更具体的，涉及一种改进多目标跟踪的果实产量估算方法。

背景技术

当前，果园果实准确估产对种植户实现智能化管理具有重要的作用。但是，不同果实(椭圆型)其生长环境复杂，果实密集，采用人工进行果园果实估产费时费力，并具有主观性，影响果园估产的准确性。利用价格低廉及无接触式的计算机视觉系统，实现果园产量自动估算，是实现果园精准管理的重要手段。其中，百香果作为绿色水果的经典代表之一，主要分布在热带与亚热带。百香果丰富的营养价值和药用价值使其在当前市场上有着很好的发展前景。目前，在我国广东，广西，福建，台湾和海南等地得到大规模的种植。同时，百香果的形状和大小类似柑橘、苹果和沃柑等，应用于百香果估算产量的技术，可以推广到这些类似水果中。然而，在果园自然场景下，由于光线变化、果实之间相互严重的遮挡和果实与叶片的相似等问题，使得利用计算机视觉技术准确识别跟踪果实及进行其产量估算成为当前的研究难点。因此，开发稳定高效的目标跟踪技术，实现果园果实精准检测和多目标跟踪，能为果园果实产量准确估算和智慧种植提供重要的技术支持。

在果实产量估算方法方面，目前技术主要采用传统的机器学习方法和深度卷积神经网络。公开号CN112233121A公开一种基于双目空间定位和智能分割的果实产量估算方法，利用将双目相机、位姿采集装置和定位装置安装在一起，相互进行位置标定，在果园中按照设定的路径，同步采集图像、位姿信息和物体姿态信息；然后通过采集的图像、位姿信息和位置信息，开始双目空间定位，构建出整个果园场景中所有事物的坐标，形成完整的果园场景；最后，分割图像中的果实，记录图像中已识别的果实像素投影到三维场景的位置，统计果实数量。公开号CN111504275A公开一种双目摄影测量苹果增产趋势估算方法，通过定点定时观测获取目标苹果树的影像信息，进而通过立体影像解算和算法设计，确定待观测区苹果树果实的增产趋势及关键时间节点。授权专利CN107169940B公开一种基于电子识别的单株梨树产量获取方法。利用检测系统包括CCD视觉传感器、清晰化处理器、单侧产量识别器和嵌入式处理器实现单株梨树的全部产量。目前，在视频监控中，利用多目标跟踪技术，实现自然场景下果实的快速准确检测和多目标跟踪的研究较少，因此，设计基于多目标跟踪的果实产量估算模型，对大规模果园种植智能化管理具有重要的研究意义。

发明内容

本发明为克服现有技术中，存在缺乏对果实遮挡等复杂场景导致ID错误变换和产量估算准确率不高的技术缺陷，提供一种基于一种改进多目标跟踪的果实产量估算方法。

为解决上述技术问题，本发明的技术方案如下：获取自然场景下的农作物的视频数据；基于改进YOLOv5s模型识别视频数据中的目标农作物；采用卡尔曼滤波、匈牙利匹配算法以及改进多目标跟踪算法构建产量估算算法，并采用所述产量估算算法统计所述目标农作物的数量；所述采用卡尔曼滤波、匈牙利匹配算法以及改进多目标跟踪算法构建产量估算算法，并采用所述产量估算算法统计所述目标农作物的数量具体为：将所述改进YOLOv5s模型识别的结果作为跟踪算法的输入；利用卡尔曼滤波方法预测目标农作物在下一帧视频中的位置；利用匈牙利匹配算法对预测框和检测框进行匹配，所述匈牙利匹配算法包括级联匹配和IOU匹配融合；匹配完毕后更新所述目标农作物的轨迹；并更新卡尔曼滤波的参数；基于k+1帧检测到的所述目标农作物的检测框，校正与目标农作物关联的轨迹的跟踪框的状态，包括轨迹位置和速度，根据卡尔曼滤波进行参数更新；根据所述目标农作物的位置，设置改进多目标跟踪策略，并改进产量估算方法，并采用所述产量估算算法统计所述目标农作物的数量。

优选地，所述基于改进YOLOv5s模型识别视频数据中的目标农作物具体为：

对输入的视频数据做预处理，将图像进行压缩，并进行归一化操作；

利用四种深度学习网络结构Focus、CBS、C3和SPP依次融合，构建主干网络提取基本特征；

构建Neck网络，采用特征金字塔和路径聚合网络结构，融合高层与低层特征，生成两种不同尺度的特征映射；

构建头部网络，实现多个所述目标农作物的检测与分类。

优选地，所述基于改进YOLOv5s模型识别视频数据中的目标农作物包括：

当目标农作物的尺寸大于预设值时，将对32个卷积核特征输入CBS、C3和SPP网络，以获得特征信息P1，P2，P3，P4和P5，其中，生成P3，P4和P5三种特征映射将送入到Neck网络；

当目标农作物的尺寸小于或者等于预设值时，将对32个卷积核特征输入CBS、C3和SPP网络，以获得特征信息P1，P2，P3，P4，其中，生成P3和P4特征映射将送入到Neck网络。

优选地，所述构建头部网络，实现多个所述目标农作物的检测与分类具体包括以下步骤：

以Neck网络中融合后的两种尺寸的特征图P3和P4作为输入，进行目标农作物分类与检测；

YOLOv5s的损失函数由分类损失函数和回归损失函数两部分组成；其中所述分类损失函数公式如下：

Loss(x_i,y_i)＝-w_i[y_ilog(sigmoid(x_i))+(1-y_i)log(1-sigmoid(x_i))]

其中，x_i表示预测值，y_i表示真实值，w_i为权重，i为标签类别；

所述回归损失函数公式如下：

其中，A与B为两目标框，C代表包围A、B的最小体积或面积。

优选地，所述将所述改进YOLOv5s模型识别的结果作为跟踪算法的输入；利用卡尔曼滤波方法预测目标农作物在下一帧视频中的位置具体包括以下步骤：

将YOLOv5第一帧目标农作物的检测框初始化为跟踪框；设置x为上一视频帧的跟踪框，所述跟踪框的轨迹的位置、长宽及速度信息[u,v,r,h,x′,y′,r′,h′]，其中u,v对应目标农作物的中心坐标，r为长宽比，h为高，x′,y′,r′,h′分别代表前四个参数的运动速度设置；卡尔曼滤波作用是预测目标农作物的横坐标x在当前视频帧中的位置及速度组成的均值和协方差矩阵；

所述目标农作物的横坐标x跟踪框的均值预测公式为：

其中，x′是x的卡尔滤波预测均值，F为状态转移矩阵；x跟踪框的协方差预测公式为：

P′＝FPF′+Q

其中，P′是当前视频帧的目标的协方差矩阵，P则是上一视频帧的目标农作物的协方差矩阵，Q则是噪声矩阵。

优选地，所述利用匈牙利匹配算法对预测框和检测框进行匹配，所述匈牙利匹配算法包括级联匹配和IOU匹配融合具体包括以下步骤：

将所述跟踪框的数据集分为已确认的跟踪框和未确认的跟踪框；以运动匹配度和外观匹配度构建衡量当前检测框与预测框是否匹配的成本矩阵；其中所述运动匹配度和所述外观匹配度的计算公式分别为：

d⁽¹⁾(i,j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)

d⁽²⁾(i,j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}

其中，d⁽¹⁾(i,j)指第j个检测框和第i个预测框的马氏距离，d_j则是当前检测框的轨迹信息(u,v,r,h)，S_i是预测阶段所输入的协方差矩阵，y_i代表预测阶段输入的均值；d⁽²⁾(i,j)指外观特征向量的最小余弦值，r_j为检测框的特征，r_k ⁽ⁱ⁾指第k个预测框的在第i帧中的特征，R_i表示该预测框的最后100个特征；

取得基于外观信息和马氏距离的成本矩阵，在所述成本矩阵的基础上使用匈牙利匹配算法得到最优解，即输出为未匹配的轨迹、未匹配的检测框、匹配的轨迹；其中，外观信息和马氏距离的计算公式为：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

其中，λ是固定参数，取值为[0,1]；

将级联匹配中未匹配成功的检测框、轨迹及卡尔曼滤波预测中未确认的预测框作为输入，以IoU值作为成本矩阵，进行匈牙利匹配进一步筛选出匹配的轨迹；IoU计算公式为：

其中，A和B表示其中的检测框或者预测轨迹框。

优选地，所述匹配完毕后更新所述目标农作物的轨迹；并更新卡尔曼滤波的参数；基于k+1帧检测到的所述目标农作物的检测框，校正与目标农作物关联的轨迹的跟踪框的状态，包括轨迹位置和速度，根据卡尔曼滤波进行参数更新具体包括以下步骤：

计算卡尔曼增益K，卡尔曼增益用于估计误差的重要程度；其计算公式为：

K＝P′H^T(HP′H^T+R)^-1

其中，H为4*4的测量矩阵，R为检测器的噪声矩阵，P′为协方差矩阵；

根据卡尔曼滤波增益K，进行均值x和协方差矩阵P的更新。其计算公式为：

x＝x′+K(z-Hx′)

P＝P′-KHP′

其中，z为当前视频帧的检测目标农作物的观测值(u,v,r,h)，x′为均值向量，P′为协方差矩阵。

优选地，所述根据所述目标农作物的位置，设置改进多目标跟踪策略，并改进产量估算方法，并采用所述产量估算算法统计所述目标农作物的数量具体为：

若匹配结束后未匹配的检测框处于图像的中央区域，不为其生成跟踪框，否则对所述未匹配的检测框初始化跟踪框并赋予ID；

若所述未匹配的检测框在图像边界；不为其生成跟踪框，否则所述未匹配的检测框其初始化跟踪框并赋予ID。

设视频中目标农作物的产量值为Total，分三种情况根据跟踪框进行改进产量估算；若存在跟踪框的初始化，则total加1；对于未匹配的跟踪框，若其状态为不确定，则total减1；若所述跟踪框的卡尔曼滤波更新后的次数大于30，则total不变。

本发明提供的基于一种改进多目标跟踪的果实产量估算方法，通过利用卡尔曼滤波方法预测目标农作物在下一帧视频中的位置；利用匈牙利匹配算法对预测框和检测框进行匹配，匈牙利匹配算法包括级联匹配和IOU匹配融合；可以提高目标农作物检测的辨识精度和准确度，即使在光线变化、果实之间相互严重的遮挡和果实与叶片的相似的情况下，仍然能准确的识别单个目标农作物的位置和类别，另外，通过匹配完毕后更新目标农作物的轨迹；并更新卡尔曼滤波的参数；基于k+1帧检测到的所述目标农作物的检测框，校正与目标农作物关联的轨迹的跟踪框的状态，包括轨迹位置和速度，根据卡尔曼滤波进行参数更新；根据所述目标农作物的位置，设置改进多目标跟踪策略，并改进产量估算方法，并采用所述产量估算算法统计所述目标农作物的数量，从而有效改进目标农作物的位置频繁错误变换，提升跟踪器的准确度，保持优秀的检测跟踪速度，实现果实准确跟踪和产量估算。

附图说明

图1为本发明所述方法的流程示意图；

图2为部分数据集图；

图3为改进的轻量级YOLO v5s结构；

图4为DarkLabel标注视频数据集；

图5为改进的YOLO v5s中Neck结构；

图6为多目标跟踪DeepSORT的流程图；

图7为创建匹配跟踪框的范围设定策略；

图8为YOLO v5s融合Deepsort模型建立过程；

图9(a)为YOLO v5s融合DeepSORT的多目标跟踪测试视频第50帧的结果；

图9(b)为YOLO v5s融合DeepSORT的多目标跟踪测试视频的100帧结果；

图10(a)为YOLO v5s融合改进的DeepSORT的多目标跟踪测试视频第50帧的结果；

图10(b)为YOLO v5s融合改进的DeepSORT的多目标跟踪测试视频第100帧的结果；

图11(a)为基于YOLO v5s融合改进的DeepSORT表示采用最高ID作为产量估算结果产量估算结果；

图11(b)为YOLO v5s融合改进的DeepSORT表示利用改进产量估算获得的产量结果。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，基于一种改进多目标跟踪的果实产量估算方法，包括以下步骤：S1，获取自然场景下的农作物的视频数据；

部分数据集如图2所示，采用数据增广技术增加检测与重识别的数据集。

S2，基于改进YOLOv5s模型识别视频数据中的目标农作物；

其结构图如图3所示。检测模型包括输入端、主干网络提取(Backbone)、多尺度中间网络(Neck网络)和目标检测定位和类别分类网络(Prediction head)三部分。

S3，采用卡尔曼滤波、匈牙利匹配算法以及改进多目标跟踪算法构建产量估算算法，并采用所述产量估算算法统计所述目标农作物的数量；

步骤S3，采用卡尔曼滤波、匈牙利匹配算法以及改进多目标跟踪算法构建产量估算算法，并采用所述产量估算算法统计所述目标农作物的数量具体为：S31，将所述改进YOLOv5s模型识别的结果作为跟踪算法的输入，利用卡尔曼滤波方法预测目标农作物在下一帧视频中的位置；

S32，利用匈牙利匹配算法对预测框和检测框进行匹配，所述匈牙利匹配算法包括级联匹配和IOU匹配融合；

S33，匹配完毕后更新所述目标农作物的轨迹，并更新卡尔曼滤波的参数；基于k+1帧检测到的所述目标农作物的检测框，校正与目标农作物关联的轨迹的跟踪框的状态，包括轨迹位置和速度，根据卡尔曼滤波进行参数更新；

S34，根据所述目标农作物的位置，设置改进多目标跟踪策略，并改进产量估算方法，并采用所述产量估算算法统计所述目标农作物的数量。

更具体的，所述步骤S1具体为：

S11：采集自然场景下的果园果实数据，利用RGB摄像机拍摄自然场景下视频数据，为进行产量估算，一般相机与果实树间隔2-4米。其中，视频数据包括果实光照不同、遮挡和重叠三种情况下的果园果实数据；

S12：将获取的视频进行切割，分成多个小视频段，通过DarkLabel软件对视频段进行检测与跟踪数据集标注，如图4所示。构建出检测分类和重识别跟踪标注文件；

S13：将检测标注数据集分为训练集、验证集和测试集，将跟踪中的重识别标注数据集分为训练集和测试集；

S14：对跟踪训练集中的图像进行高斯噪声、高斯模糊、明度调节、饱和度调节和色调随机调整五种操作扩充数据集。

更具体的，所述步骤S2具体为：

S21：对输入的视频数据做预处理，将图像进行压缩，并进行归一化操作；

在本实施例中，对输入的图像做预处理，将图像大小压缩至640×640，并进行归一化操作；另外，图像大小压缩的尺寸可以设置为320×640或者320×320，其具体大小可以根据实际情况来选择。

S22：利用四种深度学习网络结构Focus、CBS、C3和SPP依次融合，构建主干网络提取基本特征；

S23：构建Neck网络，采用特征金字塔和路径聚合网络结构，融合高层与低层特征，生成两种不同尺度的特征映射；

S24：构建头部网络，实现多个所述目标农作物的检测与分类；

更具体的，在所述步骤S21包括以下步骤：

S211：采用Mosaic技术进行数据增强；为提升训练速度并降低内存需求，Mosaic利用随机裁剪、随机分布、随机缩放的方法，将4张图像拼接为1张。

S212：采用自适应设置初始化锚框；利用数据集中的标签，通过K-means聚类和遗传学习算法，来对锚框大小进行自适应分析及初始化设置，加快学习效率。

S213：采用自适应缩放图像大小；针对原始输入的图像大小不统一，利用自适应方法对图像空白地方填充最少的灰边，加快推理速度。

更具体的，所述步骤S22包括以下步骤：

S221：利用Focus基准网络，获得输入图像(640*640*3)的32个卷积核特征(320*320*32)，实现输入图像在纵向和横向间隔切片拼接功能。

S222：对32个卷积核特征输入CBS、C3和SPP网络获得丰富的特征信息(P1，P2，P3，P4和P5)，其中，生成P5(20*20*512)，P4(40*40*256)和P3(80*80*128)三种特征映射将送入到Neck网络。

S223：CBS结构由卷积层(Conv)、批归一化层(BN)和激活函数层(SiLU)构成。C3包含C3_1,C3_x和C3_x，其中x表示残差结构，由2个CBS融合若干个残差结构构成。SPP采用5×5，9×9，13×13三种最大池化，进行多尺度特征融合，将特征图进行融合后送入到Neck网络。

更具体的，所述步骤S23包括以下步骤：

S231：基于主干网络的特征映射(P3和P4)，FPN采用上采样操作，将深层的语义特征和浅层位置特征进行融合，增强多尺度特征的语义能力；

S232：基于多尺度语义特征，PAN把浅层的定位信息传导到深层，增强多尺度特征的定位能力；

S233：通过Neck网络，生成40*40*256，80*80*128两种特征映射。

当农作物的尺寸比较大时，需要考虑识别的精度，则需要保留P5层；

在视频跟踪中，针对百香果果实目标普遍较小，P5层特征适应大目标检测，去掉P5层特征。其结构图如5所示。

更具体的，所述步骤S24包括以下步骤：

S241：以Neck网络中融合后的两种尺寸的特征图(P3和P4)作为输入，进行果实分类与检测。

S242：YOLOv5s的损失函数由分类损失函数(BCEWithLogitsLoss)和回归损失函数(GIoU_Loss)两部分组成。BCEWithLogitsLoss公式如下：

Loss(x_i,y_i)＝-w_i[y_ilog(sigmoid(x_i))+(1-y_i)log(1-sigmoid(x_i))]

其中，x_i表示预测值，y_i表示真实值，w_i为权重，i为标签类别。

GIoU_Loss公式如下：

其中，A与B为两目标框，，C代表包围A、B的最小体积(或面积)。

更具体的，所述步骤S31具体为：

S311：将YOLOv5第一帧目标农作物的检测框初始化为跟踪框；设置x为上一视频帧的跟踪框，跟踪框的轨迹的位置、长宽及速度信息[u,v,r,h,x′,y′,r′,h′]，其中u,v对应目标农作物的中心坐标，r为长宽比，h为高，x′,y′,r′,h′分别代表前四个参数的运动速度设置；卡尔曼滤波作用是预测目标农作物的横坐标x在当前视频帧中的位置及速度组成的均值和协方差矩阵。

S312：目标农作物的横坐标x跟踪框的均值预测公式为：

其中，x′是x的卡尔滤波预测均值，F为状态转移矩阵。

x跟踪框的协方差预测公式为：

P′＝FPF′+Q

其中，P′是当前视频帧的目标的协方差矩阵，P则是上一视频帧的目标的协方差矩阵，Q则是噪声矩阵。

更具体的，所述步骤S32，利用匈牙利匹配算法对预测框和检测框进行匹配，匈牙利匹配算法包括级联匹配和IOU匹配融合具体为：

S321：将所述跟踪框的数据集分为已确认的跟踪框和未确认的跟踪框；以运动匹配度和外观匹配度构建衡量当前检测框与预测框是否匹配的成本矩阵；其中运动匹配度和所述外观匹配度的计算公式分别为：

d⁽¹⁾(i,j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)

d⁽²⁾(i,j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}

其中，d⁽¹⁾(i,j)指第j个检测框和第i个预测框的马氏距离，d_j则是当前检测框的轨迹信息(u,v,r,h)，S_i是预测阶段所输入的协方差矩阵，y_i代表预测阶段输入的均值。d⁽²⁾(i,j)指外观特征向量的最小余弦值，r_j为检测框的特征，r_k ⁽ⁱ⁾指第k个预测框的在第i帧中的特征，R_i表示该预测框的最后100个特征。

S322：级联匹配。取得基于外观信息和马氏距离的成本矩阵之后，在此矩阵的基础上使用匈牙利匹配算法得到最优解，即输出为未匹配的轨迹、未匹配的检测框、匹配的轨迹。其中，外观信息和马氏距离的计算公式为：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

其中，λ是固定参数，取值为[0,1]。

S323:IoU匹配。将级联匹配中未匹配成功的检测框、轨迹及卡尔曼滤波预测中未确认的预测框作为输入，以IoU值作为成本矩阵，进行匈牙利匹配进一步筛选出匹配的轨迹。IoU计算公式为：

其中，A和B表示其中的检测框或者预测轨迹框。

更具体的，所述步骤S33具体为：

S331：计算卡尔曼增益K，卡尔曼增益用于估计误差的重要程度。其计算公式为：

K＝P′H^T(HP′H^T+R)^-1

其中，H为4*4的测量矩阵，R为检测器的噪声矩阵，

S332：根据卡尔曼滤波增益K，进行均值x和协方差矩阵P的更新。其计算公式为：

x＝x′+K(z-Hx′)

P＝P′-KHP′

其中，z为当前视频帧的检测目标的观测值(u,v,r,h)，x′为均值向量，P′为协方差矩阵。

更具体的，所述步骤S34具体为：

S341：将匹配结束后未匹配的检测框，若其处于图像的中央区域，不为其生成跟踪框，否则对其初始化跟踪框并赋予ID；

S342：为防止边界的叶片被误认果实，若未匹配的检测框在图像边界(根据果实大小设置边界值，本专利为25)，不为其生成跟踪框，否则对其初始化跟踪框并赋予ID。通过实验测试，产量估算的小目标百香果大小都在70像素内，因此将ID增加范围限定为70像素。设计创建跟踪框的策略如图7所示。其中红色区域为不允许跟踪框创建的区域，蓝色区域则可以初始化跟踪框。

S343：设视频中果实产量值为Total，分三种情况根据跟踪框进行改进产量估算。若存在跟踪框的初始化，则total加1；对于未匹配的跟踪框，若其状态为不确定，total减1；若跟踪框的最近卡尔曼滤波更新后的次数(time_since_update)参数大于30，则total不变。

更具体的，根据验证集从训练好的模型中选取最佳的模型进行测试。在读取测试视频时，模型会把图像的尺寸统一缩放至640×640。在测试视频集上进行基于多目标跟踪的果实估算结果分析。其中包括自然场景下改进的DeepSORT跟踪模型和基本的DeepSORT跟踪结果对比明。

上述方案中，对改进YOLOv5s的检测网络进行参数设置，包括将网络输出类别数从81更改为1；epoch为250次，batch-size为16，IoU为0.45，置信度为0.4，优化器为SGD，训练批次为64；模型的初始学习率设置为0.01；模型在读取训练图像时将尺寸统一缩放至640*640。

上述方案中，在DeepSORT跟踪重识别实验中，在公开数据集上预训练得到的权重文件，学习率采用默认的0.1，batch大小设置为64，本实验迭代次数为120次。

实施例2

更具体的，在实施例1的基础上，实验以自然条件下生长的百香果为研究对象，通过采集自然场景下的百香果视频数据，数据采集地点位于广东省河源市和广州市花都区的百香果种植园。图像采集设备为华为Mate30手机，采用横拍的方法，以4-6s左右的时间进行拍摄。在图像采集过程中，手机与百香果植株的距离保持在5-8m的距离，该距离能有效的拍摄到多株百香果植株，视频采用MP4格式存储，帧率为25fps。

获得视频数据后，通过FFMPEG程序完成对视频段的剪辑，然后利用DarkLabel软件对多目标跟踪视频标注，完成12个时长为1分钟，帧率为一秒5帧的小视频段标注。为得到足够的实验数据，实验中采用数据增广技术对原始数据进行扩增，将原先用于YOLOv5训练的900张图像扩增到6000张，扩增时采用色彩调整、加入噪点、高斯模糊等方式模拟多种场景下的果实特征。另外，DeepSORT数据集也将扩增到原先的3倍，通过大量的数据来迭代出最合适的模型。数据集的分布情况如表1所示。当完成所有的数据标注后，按照6：2：2的比例转化数据为YOLOv5的训练集、测试集和验证集。按照7：3：1的比例转化数据为DeepSORT跟踪数据，当进行实验时，需通过python语言脚本对此文件进行相关转化以达到算法模型的数据格式要求。检测目标训练数据为COCO的JSON文件；目标跟踪的数据格式为DeepSORT的对象图像文件。

表1数据集的具体分布情况

在具体实施过程中，采用基于改进DeepSORT跟踪算法实现群养生猪行为识别和多目标跟踪。训练模型的软件环境包括：Windows 10操作系统，Pycharm、Python3.8.8、Pytorch1.7.1、CUDA10.1和cudnn7.6。硬件环境包括处理器为：CPU：AMD Ryzen 52600X；显卡：GeForce GTX Titan X；12GB显存；安装内存：64.0GB；磁盘：160.0GB；系统类型：64位操作系统。

视频跟踪模型评价主要包括(1)IDSW(ID Switch，ID交换次数)，同一个目标的ID发生变换时加1，IDSW数值越小越好。(2)FM，指一个不完整的片段，当一个目标在第1、2帧中都被跟踪，但在第3帧中找不到目标，则认为发生中断，FM加1，FM越小越好。(3)MOTA(Multiple Object Tracking Accuracy，多目标跟踪精确率)是跟踪指标中最重要的一个参数，计算公式如下：

其中，t表示帧号，分母GT_t表示第t帧的真实标注信息，分子表示所有错误总和；FP表示当前帧中预测的detection和track未成功匹配，错误的track数量称为FP；FN表示当前帧中预测的detection和track未成功匹配时未匹配的ground truth数量。MOTA越接近1表示跟踪模型越好。

在具体实施过程中，基于改进DeepSORT的跟踪模型建立主要涉及数据集标注、网络模型训练、模型验证这三大步骤，如图8所示。模型建立主要包括三个阶段：准备数据集、构建改进DeepSORT的多目标跟踪模型和模型优化。首先对12个视频文件进行标注和切图操作，然后根据标注文件完成YOLO v5s和DeepSORT的数据集，在训练过程中，分别将YOLOv5s、DeepSORT数据集分别送入各自的训练网络中得到检测模型和跟踪模型，最后对检测模型、跟踪模型及其组合完成最终优化。

目标检测数据集是在YOLO v5s目录下创建data文件夹，分为labels和images两个文件夹，分别存放txt标注文件和对应的图片，在这两个文件夹下再分成训练集、测试集和验证集。百香果多目标跟踪数据集在Deepsort目录下的deep目录中创建data文件夹，其中分为test、val和train三个文件夹，其中test和train文件夹中是Reid数据集，val中为测试的视频文件和标注文件。

本次实验测试中，采用的检测模型是按照3:1的比例划分训练集和测试集。其中，训练视频为9个，测试视频为3个(分两个时间段)。将采用MOT16评价该检测模型与跟踪模型组合后对视频实时检测跟踪的效果。

改进的YOLO v5s模型与原始的YOLO v5(YOLO v5s，YOLO v5m，YOLO v5l和YOLOv5x)四种模型在测试集的结果如表2所示，数据集共6000张，其中训练集为4500张，测试集为1500张。表2展示不同检测器在相同数据集下的检测准确率和时间开销。其中各类别的准确率均超过97％，召回率均超过95％，平均准确率达到98.43％，平均召回率达到99.23％。当IoU阈值为0.5时，各类别的AP均超过99.0％，mAP达到99.6％。当IoU阈值从0.5到0.95每间隔0.05取一次AP时，各类别的mAP均大于83.7％，平均mAP达到86.0％。在输入图像压缩到640*640时，YOLO v5四种模型中，YOLO v5s模型最小，参数最少，检测性能稍弱其他三种模型，但是，其平均检测时间在四种模型中为最短，为0.0127s，可以做到实时检测运行。对比YOLO v5s模型，改进的YOLO v5s能取得更好的检测性能，并检测时间更短，只需要0.0097s。因此，改进型YOLO v5s作为多目标跟踪的检测模型进行。

表2改进YOLO v5s和YOLO v5其他四种模型的检测结果

在具体实施过程中，基于YOLO v5+DeepSORT的多目标跟踪测试结果如表3所示。较小的检测模型YOLOv5s跟踪时间较短，但跟踪准确度较低。YOLOv5s是YOLOv5系列中最小的模型，处理单张图片用时0.079s，速度较快，但相对YOLOv 5m、YOLOv 5l等较大模型则准确率较低。从表中四行数据可以看出，随着YOLOv5系列模型网络的加深，跟踪准确度逐渐增加，时间开销也逐渐增长。

表3四种YOLO v5融合DeepSORT模型的测试结果

在具体实施过程中，利用四种YOLO v5模型融合改进Deepsort模型的测试结果如表4所示。在MOTA中，四种YOLO v5融合改进DeepSORT模型的跟踪器都有提升，对比DeepSORT未改进前的情况，YOLOv5s融合改进DeepSORT模型有4％的显著涨幅(第一行的第五列与第三列)；在IDs中，改进方法能够有效地减少ID交换的情况(每行第四列与第二列)。这两个指标结果说明，改进DeepSORT模型对多目标跟踪提升具有显著提升。

表4四种YOLO v5模型融合改进DeepSORT模型的测试结果

在具体实施过程中，改进产量估算算法如表5所示。测试3个视频，每个视频包括4s和60s两个时间段，从表5发现，采用最高ID作为产量估算(第三列)，与真实产量(第二列)的误差更大，误差在20％；采用改进估产算法，其产量数量(第四列)与真实产量(第二列)更接近，误差在10％以内。因此，改进后的产量估算算法比直接以最高ID号作为产量结果更加准确。

表5两种产量估算对比图

在具体实施过程中，YOLO v5s融合DeepSORT模型的多目标跟踪部分结果如图9所示。图9表示某个测试视频第50帧和100帧结果。从图9(a)和(b)中发现，视频数据中中央区域的果实特征(光泽、大小、遮挡情况等)会发生一定的变化，同一果实原先的ID被丢失，模型会用新的ID去表示这个果实，就会导致ID数目远超实际果实个数，如图9(a)(b)中红色框中果实所示，特别地，图9(a)中14号果实在图9(b)中变成26号。但是，在实际视频数据中，果实目标频繁变换通常发生在左右或上下边界部分，如图9(a)(b)中黄色框果实所示。这种ID错误增加的情况，导致最高ID值大于果实真实数目。原始产量估算算法是将视频跟踪之后得到的最高ID值作为估算结果，采用这种方法得到的果实数量比实际产量值大，造成错误的产量预测，影响果园智能化生产管理。

在具体实施过程中，YOLO v5s融合改进的DeepSORT模型的多目标跟踪部分结果如图10所示。在图10(a)(b)中，发现这两个视频中跟踪的每个果实ID与实际的ID完全一致，说明改进算法能够准确地跟踪多目标；在图10(b)中看到最大ID限制在47，而在未优化的图9(b)中达到95，远远高于真实的果实数。因此，从跟踪效果图片中，改进方法能够有效地减少ID switch的情况，YOLO v5s融合改进的DeepSORT模型对果实多目标跟踪性能具有显著提升。

在具体实施过程中，YOLO v5s融合改进的DeepSORT的产量估算结果如图11所示。图11(a)表示采用最高ID作为产量估算结果，为49，图11(b)表示利用改进产量估算获得的产量结果，为43。这个短视频真实的果实产量为33，由此可见，改进产量估算更接近真实值。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于一种改进多目标跟踪的果实产量估算方法，其特征在于，包括以下步骤：获取自然场景下的农作物的视频数据；

基于改进YOLOv5s模型识别视频数据中的目标农作物；

采用卡尔曼滤波、匈牙利匹配算法以及改进多目标跟踪算法构建产量估算算法，并采用所述产量估算算法统计所述目标农作物的数量；

所述采用卡尔曼滤波、匈牙利匹配算法以及改进多目标跟踪算法构建产量估算算法，并采用所述产量估算算法统计所述目标农作物的数量具体为：

将所述改进YOLOv5s模型识别的结果作为跟踪算法的输入，利用卡尔曼滤波方法预测目标农作物在下一帧视频中的位置；

利用匈牙利匹配算法对预测框和检测框进行匹配，所述匈牙利匹配算法包括级联匹配和IOU匹配融合；

匹配完毕后更新所述目标农作物的轨迹，并更新卡尔曼滤波的参数；基于k+1帧检测到的所述目标农作物的检测框，校正与目标农作物关联的轨迹的跟踪框的状态，包括轨迹位置和速度，根据卡尔曼滤波进行参数更新；

根据所述目标农作物的位置，设置改进多目标跟踪策略，并改进产量估算方法，并采用所述产量估算算法统计所述目标农作物的数量。

2.根据权利要求1所述的基于一种改进多目标跟踪的果实产量估算方法，其特征在于，所述基于改进YOLOv5s模型识别视频数据中的目标农作物具体为：

构建头部网络，实现多个所述目标农作物的检测与分类。

3.根据权利要求2所述的基于一种改进多目标跟踪的果实产量估算方法，其特征在于，所述基于改进YOLOv5s模型识别视频数据中的目标农作物包括：

4.根据权利要求3所述的基于一种改进多目标跟踪的果实产量估算方法，其特征在于，所述构建头部网络，实现多个所述目标农作物的检测与分类具体包括以下步骤：

Loss(x_i,y_i)＝-w_i[y_ilog(sigmoid(x_i))+(1-y_i)log(1-sigmoid(x_i))]

所述回归损失函数公式如下：

其中，A与B为两目标框，C代表包围A、B的最小体积或面积。

5.根据权利要求1所述的基于一种改进多目标跟踪的果实产量估算方法，其特征在于，所述将所述改进YOLOv5s模型识别的结果作为跟踪算法的输入；利用卡尔曼滤波方法预测目标农作物在下一帧视频中的位置具体包括以下步骤：

所述目标农作物的横坐标x跟踪框的均值预测公式为：

P′＝FPF′+Q

6.根据权利要求1所述的基于一种改进多目标跟踪的果实产量估算方法，其特征在于，所述利用匈牙利匹配算法对预测框和检测框进行匹配，所述匈牙利匹配算法包括级联匹配和IOU匹配融合具体包括以下步骤：

d⁽¹⁾(i,j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)

d⁽²⁾(i,j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

其中，λ是固定参数，取值为[0,1]；

其中，A和B表示其中的检测框或者预测轨迹框。

7.根据权利要求5所述的基于一种改进多目标跟踪的果实产量估算方法，其特征在于，所述匹配完毕后更新所述目标农作物的轨迹；并更新卡尔曼滤波的参数；基于k+1帧检测到的所述目标农作物的检测框，校正与目标农作物关联的轨迹的跟踪框的状态，包括轨迹位置和速度，根据卡尔曼滤波进行参数更新具体包括以下步骤：

K＝P′H^T(HP′H^T+R)^-1

x＝x′+K(z-Hx′)

P＝P′-KHP′

8.根据权利要求1所述的基于一种改进多目标跟踪的果实产量估算方法，其特征在于，所述根据所述目标农作物的位置，设置改进多目标跟踪策略，并改进产量估算方法，并采用所述产量估算算法统计所述目标农作物的数量具体为：