CN117036238A - 基于视频目标跟踪的田间水果计数方法及系统 - Google Patents
基于视频目标跟踪的田间水果计数方法及系统 Download PDFInfo
- Publication number
- CN117036238A CN117036238A CN202310629182.8A CN202310629182A CN117036238A CN 117036238 A CN117036238 A CN 117036238A CN 202310629182 A CN202310629182 A CN 202310629182A CN 117036238 A CN117036238 A CN 117036238A
- Authority
- CN
- China
- Prior art keywords
- fruit
- detection
- tracking
- counting
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 235000013399 edible fruits Nutrition 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 claims abstract description 156
- 230000001976 improved effect Effects 0.000 claims abstract description 58
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000002420 orchard Substances 0.000 description 2
- 239000003381 stabilizer Substances 0.000 description 2
- 238000000137 annealing Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30242—Counting objects in image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及农业计算机视觉技术领域,为基于视频目标跟踪的田间水果计数方法及系统。其方法包括:采集田间水果的图片和视频作为数据集,对数据集的水果目标进行标注,并对数据集进行数据增强;构建改进的YOLOV5检测模型、改进的ByteTrack跟踪计数模型;将水果视频输入改进的YOLOV5检测模型,经过逐帧处理得到水果目标检测结果,检测结果具体包括水果目标检测框与位置信息;将水果目标检测结果作为改进的ByteTrack跟踪计数模型的输入,得出水果的目标跟踪与计数结果。本发明对于水果目标检测,能增强模型表达能力,对遮挡、重叠等场景具有更强的鲁棒性;对于水果跟踪计数,能减少由水果ID切换引起的误差,提升跟踪算法的关联精度。
Description
技术领域
本发明涉及农业计算机视觉技术领域,具体涉及基于视频目标跟踪的田间水果计数方法及系统。
背景技术
准确的产量估计是智慧农业的重要应用,也是水果生产过程中的一项关键任务,它可以帮助管理者在水果生产的不同阶段做出必要的调整与决策,从而提高果园的经济效益。树上果实的数量是决定水果产量的首要条件,传统的果实数量统计依靠人工计数完成,但人工统计的方式是劳动密集型、高人力成本、低效率的。
目前水果计数的相关文献中,基于计数网络、激光雷达、热成像等方法存在重复计数与漏计现象较多、设备成本较高、实时性较低的问题,难以在实际田间环境中快速完成水果计数工作。另外,田间环境中存在大量的水果密集遮挡现象,这是实现水果准确检测与跟踪的难点之一。因此,研究一种具有高精度、快速的水果视频自动计数方法,对于提高果园利润和促进智慧农业的发展是非常重要的。
发明内容
本发明针对现有技术所存在的问题,提供一种基于视频目标跟踪的田间水果计数方法及系统,对于水果目标检测,能增强模型的表达能力,对遮挡、重叠等场景具有更强的鲁棒性;对于水果跟踪计数,能减少由水果ID切换引起的误差,提升跟踪算法的关联精度,并有效减少田间视频序列中不同场景变化下的漏计、重复计数现象,实现田间环境下水果的高精度检测与快速计数。
本发明采用的技术方案为:一种基于视频目标跟踪的田间水果计数方法,包括以下步骤:
采集田间水果的图片和视频作为数据集,对数据集的水果目标进行标注,并对数据集进行数据增强;
构建改进的YOLOV5检测模型,包括依次连接的主干网络、颈部网络和检测层;
构建改进的ByteTrack跟踪计数模型;
将水果视频输入改进的YOLOV5检测模型,经过逐帧处理得到水果目标检测结果,检测结果具体包括水果目标检测框与位置信息;
将水果目标检测结果作为改进的ByteTrack跟踪计数模型的输入,得出水果的目标跟踪与计数结果。
优选地,构建改进的YOLOV5检测模型,包括:
将大目标检测层替换为微小目标检测层,形成新的检测尺度,提升田间水果的密集遮挡小目标的检测精度;
将YOLOV5原主干网络的第2、4、6层的C3模块替换为聚合网络ELANB,用于获得更多的梯度流信息,提升模型特征信息提取和学习能力;
将YOLOV5原主干网络的第8层与颈部网络的C3模块替换为DFC-C3Ghost轻量级注意力模块,用于捕捉长距离空间依赖特征;
其中,轻量级注意力模块包括卷积模块和GhostnetV2模块,GhostnetV2模块包括Ghost模块和DFC注意力机制两个分支,输入特征将被送到所述两个分支,Ghost模块用于生成输出特征,DFC注意力机制用于生成注意力矩阵;DFC注意力机制设有全连接层,且全连接层被分解为水平全连接层和垂直全连接层以聚焦卷积神经网络的二维特征图中的像素,同时水平全连接层和垂直全连接层关注各自方向的长距离像素,通过堆叠长距离像素产生全局感受野,来增强Ghost模块的输出特征。
进一步优选地,水平方向的长距离像素a′hw和垂直方向的长距离像素ahw,其计算公式分别为:
其中⊙表示数组元素依次相乘,F是全连接层中的可学习权重,A={a11,a12,...,aHW}是生成的注意力图;是高度由h到h′w的变换权重,/>是宽度由w到hw′的变换权重,zh′w是水平坐标下的原始输入Z,a′hw′是垂直坐标下的水平方向长距离像素。
本发明还提出一种基于视频目标跟踪的田间水果计数系统,包括以下模块:
数据采集与增强模块,用于采集田间水果的图片和视频作为数据集,对数据集的水果目标进行标注,并对数据集进行数据增强;
检测模型构建模块,用于构建改进的YOLOV5检测模型,包括依次连接的主干网络、颈部网络和检测层;
跟踪计数模型构建模块,用于构建改进的ByteTrack跟踪计数模型;
目标检测模块,用于将水果视频输入改进的YOLOV5检测模型,经过逐帧处理得到水果目标检测结果,检测结果具体包括水果目标检测框与位置信息;
跟踪计数模块,用于将水果目标检测结果作为改进的ByteTrack跟踪计数模型的输入,得出水果的目标跟踪与计数结果;
所述构建改进的YOLOV5检测模型,包括:
将大目标检测层替换为微小目标检测层,形成新的检测尺度,提升田间水果的密集遮挡小目标的检测精度;
将YOLOV5原主干网络的第2、4、6层的C3模块替换为聚合网络ELANB,用于获得更多的梯度流信息,提升模型特征信息提取和学习能力;
将YOLOV5原主干网络的第8层与颈部网络的C3模块替换为DFC-C3Ghost轻量级注意力模块,用于捕捉长距离空间依赖特征;
其中,轻量级注意力模块包括卷积模块和GhostnetV2模块,GhostnetV2模块包括Ghost模块和DFC注意力机制两个分支,输入特征将被送到所述两个分支,Ghost模块用于生成输出特征,DFC注意力机制用于生成注意力矩阵;DFC注意力机制设有全连接层,且全连接层被分解为水平全连接层和垂直全连接层以聚焦卷积神经网络的二维特征图中的像素,同时水平全连接层和垂直全连接层关注各自方向的长距离像素,通过堆叠长距离像素产生全局感受野,来增强Ghost模块的输出特征。
总体而言,本发明对于水果目标检测,能增强模型表达能力,对遮挡、重叠等场景具有更强的鲁棒性;对于水果跟踪计数,能减少由水果ID切换引起的误差,提升跟踪算法的关联精度,并有效减少田间视频序列中不同场景变化下的漏计、重复计数现象,实现田间环境下水果的高精度检测与快速计数。本发明所采用的技术方案与现有技术相比,取得的有益效果至少包括:
1、为了提升田间水果的检测性能,本发明采用改进的YOLOV5模型FruitDet,通过融入微小目标检测层、高效聚合网络、轻量级注意力模块,以综合田间水果的局部与全局信息,获取丰富的梯度流信息,增强模型的多尺度特征信息提取和学习能力,进而提升了田间密集遮挡小目标水果的检测性能。在兼顾检测性能与速度的前提下,本发明改进的检测模型超越了Faster R-CNN、Nanodet、yolov6、yolov7、yolov8。
2、本发明采用改进的ByteTrack跟踪计数模型FruitTrack,其中基于门控机制的DG-GM关联度量,考虑了两框相交之外的空间,扩大了匹配搜索范围,减少了水果ID切换现象,提高了遮挡、速度变化下的水果连续跟踪能力;通过设定区域计数策略,有效解决了田间水果视频计数的重复计算与漏计问题;总体跟踪计数效果在速度和性能上领先于基于Deep Sort的跟踪计数方法。
3、本发明采用的检测模型改进方案主要围绕硬件、轻量、高效进行,跟踪计数模型FruitTrack为纯运动模型,不需要额外的神经网络计算,因此可以在边缘设备、移动端高效运行。
附图说明
图1是本发明实施例中基于视频目标跟踪的田间水果计数方法的流程图;
图2是本发明提供的基于改进YOLOV5算法FruitDet的田间水果检测模型的网络示意图;
图3是本发明提供的高效聚合网络ELANB的结构原理图;
图4是本发明提供的轻量级注意力模块的结构原理图,其中(a)为GhostNetV2的结构图,(b)为DFC attention module的结构图,(c)为DFC-C3Ghost的结构图;
图5是本发明提供的基于改进ByteTrack跟踪计数模型FruitTrack的工作流程图;
图6是本发明提供的关联度量原理示意图,其中(a)为IoU,(b)为GIoU,(c)为DIoU;
图7是本发明提供的基于门控机制的DG-GM关联度量的算法流程图;
图8是本发明提供的DG-GM关联度量的改进前效果图;其中(a)为370帧的图片,(b)为390帧的图片,(c)为410帧的图片;
图9是本发明提供的DG-GM关联度量的改进后效果图;其中(a)为370帧的图片,(b)为390帧的图片,(c)为410帧的图片。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供一种基于视频目标跟踪的田间水果计数方法,包括以下步骤:
S1、采集田间水果的图片和视频作为数据集,对数据集的水果目标进行标注,并对数据集进行数据增强。
本实施例中,数据集是采用云台稳定器辅助智能手机距离果树0.5-2m地方进行拍摄采集的,其中包括不同大小、光照度、遮挡度、密集度的果实图片与视频,采集设备移动速度约为0.3-0.5米/秒,视频捕获的帧速率为30FPS,视频分辨率为1080p。
对数据集的水果目标进行标注采用的软件为labelImg,图片数据标注完成后运用Python程序脚本将标注好的数据集划分为训练集和测试集,比例分别为70%和30%。
标注和划分完成后,再对数据集中的训练集进行运动模糊、椒盐噪声、亮度变化、模拟雨天、左右翻转等数据增强,获得增强后的图像数据集,用于提升检测模型的鲁棒性和防止训练过拟合。
S2、构建改进的YOLOV5检测模型FruitDet,减少模型占用的内存,提升田间水果目标的检测精度,检测模型的网络结构如图2所示。
YOLOV5检测模型包括依次连接的主干网络、颈部网络和检测层。本实施例中检测模型的构建过程包括:
S21、将大目标检测层替换为微小目标检测层,形成新的检测尺度,提升田间水果的密集遮挡小目标的检测精度。
具体的,综合考虑田间水果小目标偏多与网络计算成本的情况,将对模型影响较小的原大目标检测层剔除;同时引入微小目标检测层,最终得到新的三个特征检测尺度,分别为160×160、80×80、40×40,其中160×160用于检测微小目标,80×80用于检测小目标,40×40用于检测中等目标。
S22、将YOLOV5原主干网络的第2、4、6层的C3模块替换为高效聚合网络ELANB,用于获得更多的梯度流信息,提升模型特征信息提取和学习能力,结构如图3所示。聚合网络ELANB是基于梯度路径设计策略的网络结构,它通过控制最短最长的梯度路径,可以引导不同特征组的计算块学习更多样化的特征,使更深的网络仍可以有效学习和收敛,从而实现更高的参数利用效率与泛化能力。
S23、将YOLOV5原主干网络的第8层与颈部网络的C3模块替换为DFC-C3Ghost轻量级注意力模块,用于捕捉长距离空间依赖特征,突出水果的细节特征,增强模型的表达能力。
具体的,DFC-C3Ghost轻量级注意力模块如图4所示,主要包括卷积模块和GhostnetV2模块。它可以减少模型参数,在实现模型轻量化的同时捕获长距离的空间信息,以更好地结合局部和全局信息,增强复杂背景下对目标的关注度,保持较高的水果小目标检测性能。GhostnetV2模块则主要由Ghost模块和DFC注意力机制这两个分支组成,输入特征X∈RH*W*C将被送到这两个分支。其中Ghost模块负责生成输出特征,首先通过传统卷积生成通道较小的特征图,再通过廉价操作来生成更多的特征图,从而减少模型参数量。DFC注意力机制负责生成注意力矩阵,先通过下采样,在较小的特征上进行操作,再将得到的特征图通过上采样得到原始大小。其中DFC注意力机制设有全连接(FC)层,且全连接(FC)层被分解为水平全连接层FC和垂直全连接层FC以聚焦卷积神经网络的二维特征图中的像素;同时关注各自方向(即水平方向和垂直方向)的长距离像素,通过堆叠长距离像素产生全局感受野,来增强Ghost模块的输出特征。另外,全连接(FC)层通过共享部分变换权重F,省去了对推理速度影响较大的张量重塑和转置操作。
水平方向的长距离像素a′hw和垂直方向的长距离像素ahw,其计算公式分别为:
其中⊙表示数组元素依次相乘,F是全连接层中的可学习权重,A={a11,a12,...,aHW}是生成的注意力图;是高度由h到h′w的变换权重,/>是宽度由w到hw′的变换权重,zh′w是水平坐标下的原始输入Z,a′hw′是垂直坐标下的水平方向长距离像素。对于原始输入Z∈RH*W*C,按顺序执行公式即可获得水平方向上的长距离空间信息和垂直方向上的长距离空间信息。
最终,将GhostnetV2模块两个分支的结果进行点乘,得到轻量级注意力模块的输出θ:
θ=Sigmoid(A)⊙V(X)
其中A为DFC注意力机制得到的注意力图,V(X)为Ghost模块输出特征,Sigmoid函数用于将注意力矩阵的输出结果标准化到(0,1)。
在本实施例中,检测模型的训练参数包括迭代批量、训练周期、学习率、图像输入尺寸,其中迭代批量设为8,训练周期为200,学习率为0.01,图像输入尺寸为640×640;学习率采用Warmup训练预热,利用余弦退火学习算法对学习率更新。
为了评价改进的检测模型FruitDet在性能上的优越性,采用经典模型Faster R-CNN、轻量级模型Nanodet、主流模型yolov6、yolov7、yolov8在相同数据集下进行测试,对比如表1所示。可以发现,检测模型FruitDet的平均精度均值达到89.14%,领先于上述对比模型;实时帧率FPS达到20.2,比Faster R-CNN、yolov6、yolov7、yolov8更快。本实施例改进的检测模型,能让更多的水果目标被检测出来;即FruitDet检测模型可以实现高精度、快速的田间水果检测。
表1检测模型FruitDet与其它检测模型的对比
S3、构建改进的ByteTrack跟踪计数模型FruitTrack,提升跟踪算法的关联精度,减少重复计数、漏计现象。计数模型FruitTrack的工作过程如图5所示。本实施例中,步骤S3构建的过程具体包括:
S31、将IoU关联匹配替换为基于门控机制的DG-GM关联度量匹配。
本实施例中,DG-GM关联度量匹配是指使用DIoU作为门控的GIoU关联度量,即当DIoU小于门控阈值时,相似度度量采用GIoU,反之采用IoU。传统IoU匹配只能进行简单的重叠面积比较,如图6的(a)图所示,GIoU匹配如图6的(b)图所示,DIoU匹配如图6的(c)图所示;DG-GM匹配可以扩大目标匹配范围。基于门控机制的DG-GM关联度量匹配的算法流程如图7所示,其中DIoU的门控阈值为0.34。
S32、设置田间水果区域计数策略用于计数,减少田间复杂场景下的水果重复计数与漏计现象。
在本实施例中,计数区域设置在视频的中部区域,即横向、纵向宽度的60%和95%。该区域内水果大部分处于较稳定的状态,ID频繁切换的现象不多;同时考虑到对视频的高效利用,在减少重复计数的同时尽可能地保证大的计数区域。
S4、将水果视频输入改进的YOLOV5检测模型FruitDet,经过逐帧处理得到水果目标检测结果,检测结果具体包括水果目标检测框与位置信息。
S5、将水果目标检测结果作为改进的ByteTrack跟踪计数模型FruitTrack的输入,得出水果的目标跟踪与计数结果。其中,目标跟踪与计数结果的获取包括以下步骤:
S51、将上述改进的检测模型FruitDet得到的水果目标检测结果按照置信度的不同,分为高分检测框和低分检测框,然后创建初始轨迹。步骤S51进一步包括:
S511、根据输出的不同置信度检测框,设置目标检测框的高分框阈值和低分框阈值。
S512、按照设定的阈值,将置信度大于阈值的框放入高分检测框集合,将置信度小于阈值的框放入低分检测框集合,从而挖掘出更多遮挡的水果目标。
S52、运用卡尔曼滤波预测下一帧图像中水果检测框的位置,得到水果预测框。
进一步地,S52中卡尔曼滤波预测与更新方程为:
Pm=FPm-1FT+Qm-1
M=LPtLT+R
Km+1=PmLTM-1
Pm+1=(I-Km+1L)Pm
其中,是m帧的先验状态估计,/>是m-1帧的后验状态估计,Pm是m帧的先验估计协方差,Pm-1是m-1帧的后验估计协方差,Qm-1是m-1帧系统噪声协方差。Km+1是卡尔曼增益,L是观察矩阵,R是观测噪声矩阵,um+1是m+1帧的检测和跟踪的平均误差,Zm+1是m+1帧的检测结果,I是单位矩阵。
S53、运用基于门控机制的DG-GM关联度量和匈牙利算法对视频序列中的每一帧图像中水果检测框与当前存在轨迹进行跟踪匹配,并为每个水果分配唯一的ID号。本实施例中,步骤S53的跟踪匹配过程包括:
S531、第一次对高分检测框和之前的跟踪轨迹进行匹配,关联度量采用基于门控机制的DG-GM相似度度量,然后利用匈牙利算法进行匹配。对于成功匹配的轨迹,更新其卡尔曼滤波,并放入当前帧轨迹集合中;而未成功匹配的轨迹与高分检测框分别放入第一次关联未成功匹配的轨迹集合T1和第一次关联未匹配的高分检测框集合D1中。
在本实施例中,具体的DG-GM关联度量的匹配计算公式如下:
其中ρ(A,B)表示两个检测框的欧氏距离,c表示最小边界框的对角线长度。
其中C为包含检测框A和检测框B的最小边界框。
S532、第二次对低分检测框和第一次没有匹配上的高分检测框的跟踪轨迹进行匹配,即根据DG-GM相似度度量进行匈牙利算法匹配。对于被成功匹配的轨迹,更新其卡尔曼滤波,并放入当前帧轨迹集合中,而未成功匹配的轨迹放入失追轨迹集合T2(将被下一帧用来追踪),低分检测框则直接删除。
S54、根据匹配结果对水果ID进行更新,并进行跟踪轨迹的新建、删除与返回。步骤S54中跟踪轨迹的新建、删除与返回的过程为:
S541、对于新建轨迹,当集合T1中检测框的得分大于跟踪得分阈值,则新建一个新的轨迹。
S542、对于删除轨迹,当集合T2中的失追轨迹,超过30帧仍然未被匹配,则将该失追轨迹删除。
S543、对于返回轨迹,即返回当前帧的所有轨迹集合,为卡尔曼滤波预测提供已有的轨迹集合。
S55、当每一个连续跟踪的水果目标经过特定的计数区域,统计数量加1,计数结果实时显示。
具体的,步骤S55中计数过程的核心是判断水果目标检测框中心点与特定区域的位置关系,当检测框中心点位于特定区域内,则计数加1,使模型可在边缘设备端高效运行。
为了验证本实施例的有效性,使用采集到的水果视频数据集进行两组计数实验。本实施例数据集包含6个田间水果视频,检测器采用改进的检测模型FruitDet。视频序列中水果的计数性能的评价指标为平均绝对百分比误差(MAPE)、平均误差(ME)、平均实时帧率FPS。当MAPE、ME越小,计数准确度越高;FPS值越大,模型检测速度越快。人工计数值是由5个不同人员从视频中手动计数获得的平均值。
所述平均绝对百分比误差(MAPE)、平均误差(ME)计算公式分别为:
其中Algorithm Counti和Manual Counti分别是水果视频的算法计数值和人工计数值,i取值范围为[1,n]。
在本实施例中,第一组验证本实施例中跟踪计数方案的改进效果,故分别在未做任何改进的ByteTrack中应用DG-GM关联度量和区域计数策略,以进行消融试验。该消融试验的测试结果如表2所示。可以发现,区域计数策略对于跟踪计数算法的影响最大,MAPE减少到14.06%;加入DG-GM门控关联度量,可以更进一步优化跟踪计数性能,最终MAPE减少到2.31%。综上所述,本方法可以优化跟踪计数性能,减少重复计数、漏计现象,实现很好的田间水果视频计数效果。另外,DG-GM门控关联度量加入的前后效果如图8、图9所示。可以发现,DG-GM关联度量改进前,水果在经历40帧且中间发生叶片遮挡的情况下,水果ID发生了变化,即产生了水果ID切换现象,水果ID从161切换到179;而DG-GM关联度量改进后,水果在经历40帧且中间发生叶片遮挡的情况下,水果ID并未发生更新,水果ID依然为123,说明连续跟踪能力得到提升,这对减少重复计数现象是很关键的。
表2FruitTrack的改进消融试验
进一步的,为了突出本方法的先进性,第二组跟踪计数模型采用FruitTrack和DeepSort,以进行跟踪计数的性能对比实验。本组跟踪计数实验的对比结果如表3所示。可以发现,FruitTrack方法得到的MAPE更小,平均实时帧率FPS比Deep Sort快8倍,且对密集遮挡环境下的水果跟踪有更高的鲁棒性,重复计数与漏计现象明显减少,更加符合田间水果视频计数的实时性要求。即本实施例的计数方法在计数精度和运行速度都优于基于DeepSort的方法。
表3FruitTrack与其它跟踪方法的对比
实施例2
与实施例1基于相同的发明构思,本实施例提供一种基于视频目标跟踪的田间水果计数系统,包括以下模块:
数据采集与增强模块,用于采集田间水果的图片和视频作为数据集,对数据集的水果目标进行标注,并对数据集进行数据增强;
检测模型构建模块,用于构建改进的YOLOV5检测模型,包括依次连接的主干网络、颈部网络和检测层;
跟踪计数模型构建模块,用于构建改进的ByteTrack跟踪计数模型;
目标检测模块,用于将水果视频输入改进的YOLOV5检测模型,经过逐帧处理得到水果目标检测结果,检测结果具体包括水果目标检测框与位置信息;
跟踪计数模块,用于将水果目标检测结果作为改进的ByteTrack跟踪计数模型的输入,得出水果的目标跟踪与计数结果;
所述构建改进的YOLOV5检测模型,包括:
将大目标检测层替换为微小目标检测层,形成新的检测尺度,提升田间水果的密集遮挡小目标的检测精度;
将YOLOV5原主干网络的第2、4、6层的C3模块替换为聚合网络ELANB,用于获得更多的梯度流信息,提升模型特征信息提取和学习能力;
将YOLOV5原主干网络的第8层与颈部网络的C3模块替换为DFC-C3Ghost轻量级注意力模块,用于捕捉长距离空间依赖特征;
其中,轻量级注意力模块包括卷积模块和GhostnetV2模块,GhostnetV2模块包括Ghost模块和DFC注意力机制两个分支,输入特征将被送到所述两个分支,Ghost模块用于生成输出特征,DFC注意力机制用于生成注意力矩阵;DFC注意力机制设有全连接层,且全连接层被分解为水平全连接层和垂直全连接层以聚焦卷积神经网络的二维特征图中的像素,同时水平全连接层和垂直全连接层关注各自方向的长距离像素,通过堆叠长距离像素产生全局感受野,来增强Ghost模块的输出特征。
本实施例的各模块分别用于实现实施例1的相应步骤,其详细过程参见实施例1,不赘述。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制;应当指出的是,本领域技术人员在不背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于视频目标跟踪的田间水果计数方法,其特征在于,包括以下步骤:
采集田间水果的图片和视频作为数据集,对数据集的水果目标进行标注,并对数据集进行数据增强;
构建改进的YOLOV5检测模型,包括依次连接的主干网络、颈部网络和检测层;
构建改进的ByteTrack跟踪计数模型;
将水果视频输入改进的YOLOV5检测模型,经过逐帧处理得到水果目标检测结果,检测结果具体包括水果目标检测框与位置信息;
将水果目标检测结果作为改进的ByteTrack跟踪计数模型的输入,得出水果的目标跟踪与计数结果。
2.根据权利要求1所述的田间水果计数方法,其特征在于,构建改进的YOLOV5检测模型,包括:
将大目标检测层替换为微小目标检测层,形成新的检测尺度,提升田间水果的密集遮挡小目标的检测精度;
将YOLOV5原主干网络的第2、4、6层的C3模块替换为聚合网络ELANB,用于获得更多的梯度流信息,提升模型特征信息提取和学习能力;
将YOLOV5原主干网络的第8层与颈部网络的C3模块替换为DFC-C3Ghost轻量级注意力模块,用于捕捉长距离空间依赖特征;
其中,轻量级注意力模块包括卷积模块和GhostnetV2模块,GhostnetV2模块包括Ghost模块和DFC注意力机制两个分支,输入特征将被送到所述两个分支,Ghost模块用于生成输出特征,DFC注意力机制用于生成注意力矩阵;DFC注意力机制设有全连接层,且全连接层被分解为水平全连接层和垂直全连接层以聚焦卷积神经网络的二维特征图中的像素,同时水平全连接层和垂直全连接层关注各自方向的长距离像素,通过堆叠长距离像素产生全局感受野,来增强Ghost模块的输出特征。
3.根据权利要求2所述的田间水果计数方法,其特征在于,水平方向的长距离像素a′hw和垂直方向的长距离像素ahw,其计算公式分别为:
其中⊙表示数组元素依次相乘,F是全连接层中的可学习权重,A={a 11,a 12,...,aHW}是生成的注意力图;是高度由h到h′w的变换权重,/>是宽度由w到hw′的变换权重,zh′w是水平坐标下的原始输入Z,a′hw′是垂直坐标下的水平方向长距离像素。
4.根据权利要求2所述的田间水果计数方法,其特征在于,将GhostnetV2模块两个分支的结果进行点乘,得到轻量级注意力模块的输出θ:
θ=Sigmoid(A)⊙V(X)
其中⊙表示数组元素依次相乘,A为DFC注意力机制得到的注意力图,V(X)为Ghost模块输出特征,Sigmoid函数用于将注意力矩阵的输出结果标准化到(0,1)。
5.根据权利要求1所述的田间水果计数方法,其特征在于,构建改进的ByteTrack跟踪计数模型,包括:
将IoU关联匹配替换为基于门控机制的DG-GM关联度量匹配;DG-GM关联度量匹配指使用DIoU作为门控的GIoU关联度量,即当DIoU小于门控阈值时,相似度度量采用GIoU,反之采用IoU;
设置田间水果区域计数策略用于计数。
6.根据权利要求1所述的田间水果计数方法,其特征在于,目标跟踪与计数结果的获取包括以下步骤:
将改进的YOLOV5检测模型得到的水果目标检测结果按照置信度的不同,分为高分检测框和低分检测框,然后创建初始轨迹;
运用卡尔曼滤波预测下一帧图像中水果检测框的位置,得到水果预测框;
运用基于门控机制的DG-GM关联度量和匈牙利算法对视频序列中的每一帧图像中水果检测框与当前存在轨迹进行跟踪匹配,并为每个水果分配唯一的ID号;
根据匹配结果对水果ID进行更新,并进行跟踪轨迹的新建、删除与返回;
当每一个连续跟踪的水果目标经过特定的计数区域,统计数量加1。
7.根据权利要求6所述的田间水果计数方法,其特征在于,卡尔曼滤波预测与更新方程为:
Pm=FPm-1FT+Qm-1
M=LPtLT+R
Km+1=PmLTM-1
Pm+1=(I-Km+1L)Pm
其中,是m帧的先验状态估计,/>是m-1帧的后验状态估计,Pm是m帧的先验估计协方差,Pm-1是m-1帧的后验估计协方差,Qm-1是m-1帧系统噪声协方差;Km+1是卡尔曼增益,L是观察矩阵,R是观测噪声矩阵,um+1是m+1帧的检测和跟踪的平均误差,Zm+1是m+1帧的检测结果,I是单位矩阵。
8.根据权利要求6所述的田间水果计数方法,其特征在于,所述跟踪匹配过程包括:
第一次对高分检测框和之前的跟踪轨迹进行匹配,关联度量采用基于门控机制的DG-GM相似度度量,然后利用匈牙利算法进行匹配;对于成功匹配的轨迹,更新其卡尔曼滤波,并放入当前帧轨迹集合中;而未成功匹配的轨迹与高分检测框分别放入第一次关联未成功匹配的轨迹集合T1和第一次关联未匹配的高分检测框集合D1中;
第二次对低分检测框和第一次没有匹配上的高分检测框的跟踪轨迹进行匹配,即根据DG-GM相似度度量进行匈牙利算法匹配;对于被成功匹配的轨迹,更新其卡尔曼滤波,并放入当前帧轨迹集合中,而未成功匹配的轨迹放入失追轨迹集合T2;
所述跟踪轨迹的新建、删除与返回的过程为:
对于新建轨迹,当集合T1中检测框的得分大于跟踪得分阈值,则新建一个新的轨迹;
对于删除轨迹,当集合T2中的失追轨迹,超过30帧仍然未被匹配,则将该失追轨迹删除;
对于返回轨迹,即返回当前帧的所有轨迹集合,为卡尔曼滤波预测提供已有的轨迹集合。
9.根据权利要求8所述的田间水果计数方法,其特征在于,DG-GM关联度量的匹配计算公式如下:
其中ρ(A,B)表示两个检测框的欧氏距离,c表示最小边界框的对角线长度;
其中C为包含检测框A和检测框B的最小边界框。
10.一种基于视频目标跟踪的田间水果计数系统,其特征在于,包括以下模块:
数据采集与增强模块,用于采集田间水果的图片和视频作为数据集,对数据集的水果目标进行标注,并对数据集进行数据增强;
检测模型构建模块,用于构建改进的YOLOV5检测模型,包括依次连接的主干网络、颈部网络和检测层;
跟踪计数模型构建模块,用于构建改进的ByteTrack跟踪计数模型;
目标检测模块,用于将水果视频输入改进的YOLOV5检测模型,经过逐帧处理得到水果目标检测结果,检测结果具体包括水果目标检测框与位置信息;
跟踪计数模块,用于将水果目标检测结果作为改进的ByteTrack跟踪计数模型的输入,得出水果的目标跟踪与计数结果;
所述构建改进的YOLOV5检测模型,包括:
将大目标检测层替换为微小目标检测层,形成新的检测尺度,提升田间水果的密集遮挡小目标的检测精度;
将YOLOV5原主干网络的第2、4、6层的C3模块替换为聚合网络ELANB,用于获得更多的梯度流信息,提升模型特征信息提取和学习能力;
将YOLOV5原主干网络的第8层与颈部网络的C3模块替换为DFC-C3Ghost轻量级注意力模块,用于捕捉长距离空间依赖特征;
其中,轻量级注意力模块包括卷积模块和GhostnetV2模块,GhostnetV2模块包括Ghost模块和DFC注意力机制两个分支,输入特征将被送到所述两个分支,Ghost模块用于生成输出特征,DFC注意力机制用于生成注意力矩阵;DFC注意力机制设有全连接层,且全连接层被分解为水平全连接层和垂直全连接层以聚焦卷积神经网络的二维特征图中的像素,同时水平全连接层和垂直全连接层关注各自方向的长距离像素,通过堆叠长距离像素产生全局感受野,来增强Ghost模块的输出特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310629182.8A CN117036238A (zh) | 2023-05-31 | 2023-05-31 | 基于视频目标跟踪的田间水果计数方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310629182.8A CN117036238A (zh) | 2023-05-31 | 2023-05-31 | 基于视频目标跟踪的田间水果计数方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036238A true CN117036238A (zh) | 2023-11-10 |
Family
ID=88634232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310629182.8A Pending CN117036238A (zh) | 2023-05-31 | 2023-05-31 | 基于视频目标跟踪的田间水果计数方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036238A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117253229A (zh) * | 2023-11-17 | 2023-12-19 | 浙江大学海南研究院 | 基于深度学习的海洋贻贝微核细胞识别与计数方法及应用 |
-
2023
- 2023-05-31 CN CN202310629182.8A patent/CN117036238A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117253229A (zh) * | 2023-11-17 | 2023-12-19 | 浙江大学海南研究院 | 基于深度学习的海洋贻贝微核细胞识别与计数方法及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816689B (zh) | 一种多层卷积特征自适应融合的运动目标跟踪方法 | |
Liu et al. | Crowd counting using deep recurrent spatial-aware network | |
Guo et al. | Object tracking on satellite videos: A correlation filter-based tracking method with trajectory correction by Kalman filter | |
CN110490907B (zh) | 基于多目标特征和改进相关滤波器的运动目标跟踪方法 | |
CN110473231B (zh) | 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法 | |
CN104680559B (zh) | 基于运动行为模式的多视角室内行人跟踪方法 | |
CN110009060B (zh) | 一种基于相关滤波与目标检测的鲁棒性长期跟踪方法 | |
CN111161309B (zh) | 一种车载视频动态目标的搜索与定位方法 | |
CN107633226A (zh) | 一种人体动作跟踪识别方法及系统 | |
CN112132856A (zh) | 一种基于自适应模板更新的孪生网络跟踪方法 | |
Zhou et al. | Object tracking via spatial-temporal memory network | |
CN113763427B (zh) | 一种基于从粗到精遮挡处理的多目标跟踪方法 | |
CN117036238A (zh) | 基于视频目标跟踪的田间水果计数方法及系统 | |
CN116402850A (zh) | 一种面向智能驾驶的多目标跟踪方法 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
Mocanu et al. | Single object tracking using offline trained deep regression networks | |
CN112489088A (zh) | 一种基于记忆单元的孪生网络视觉跟踪方法 | |
CN115565130A (zh) | 一种无人值守系统及其基于光流的监控方法 | |
CN114689038A (zh) | 基于机器视觉的果实检测定位与果园地图构建方法 | |
Li et al. | Fish trajectory extraction based on object detection | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN116777956A (zh) | 基于多尺度航迹管理的运动目标筛选方法 | |
CN114820712B (zh) | 一种自适应目标框优化的无人机跟踪方法 | |
CN116523957A (zh) | 一种多目标跟踪方法、系统、电子设备及存储介质 | |
Dai et al. | Data augmentation using mixup and random erasing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |