CN115761510A - 一种果实计数方法 - Google Patents

一种果实计数方法 Download PDF

Info

Publication number
CN115761510A
CN115761510A CN202211569739.5A CN202211569739A CN115761510A CN 115761510 A CN115761510 A CN 115761510A CN 202211569739 A CN202211569739 A CN 202211569739A CN 115761510 A CN115761510 A CN 115761510A
Authority
CN
China
Prior art keywords
fruit
neural network
attention
counting
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211569739.5A
Other languages
English (en)
Inventor
牛太阳
郭靖宇
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinochem Agriculture Holdings
Original Assignee
Sinochem Agriculture Holdings
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinochem Agriculture Holdings filed Critical Sinochem Agriculture Holdings
Priority to CN202211569739.5A priority Critical patent/CN115761510A/zh
Publication of CN115761510A publication Critical patent/CN115761510A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请涉及人工智能的图像识别的技术领域,具体涉及一种果实计数方法,包括以下步骤:使用手持拍摄设备拍摄果实图片并处理为果实图片数据集;建立果实计数神经网络模型,使用所述果实图片数据集训练所述果实计数神经网络模型;使用训练完成的果实识别神经网络模型,进行果实计数。本申请基于手持设备拍摄果实图片,拍摄的图片内果实图像更大,图像噪音低;结合分组注意力机制网络VIT和faster‑RCNN模型中模块特点构造结合其中分组注意力机制网络和改进的区域生成网络RPN网络进行果实小目标识别,识别精度得到明显提高;在区域生成网络RPN网络中添加卷积块注意模块CBAM注意力机制模块,提高了识别效率和速度。

Description

一种果实计数方法
技术领域
本申请涉及基于人工智能的图像识别的技术领域,具体涉及一种果实计数方法。
背景技术
随着农业机械化与信息化的兴起,计算机视觉以及深度学习技术的不断突破,果实识别、机器人自动采摘、果实产量预测是近年来的研究热点。在智慧农业方面,人们通过对果实的识别来实现果树的精细化管理。柑橘产业是我国南方水果产业的重要支柱,由于我国柑橘果园环境复杂,果实密集度高、叶片遮挡严重,且柑橘果树树冠较低,果实阴影程度较高,为实现柑橘果树的自动采摘和产量预估,柑橘果 统机器视觉技术提出了多种解决方法。Hussin等和谢忠红等分别使用圆形Hough变换进行柑橘目标检测,检测精度较低,且在柑橘密集、重叠的情况下,容易导致错误检测。熊俊涛等提出利用K-means聚类分割法结合优化Hough圆拟合方法实现柑橘果实分割,利用直线检测确定柑橘采摘点,但误检率会随目标密集度变化而增加。卢军等提出遮挡轮廓恢复的方法进行柑橘识别,利用LBP特征的识别准确率可达82.3%,之后利用水果表面光照分布的分层轮廓特征进行树上绿色柑橘的检测,但在图像采集过程中需要人工采集光源且场景适应性不高。Zhao等提出一种SATD匹配方法对潜在的水果像素点进行检测,使用支持向量机(supportvectormachine,SVM)进行分类,识别准确率达到83%以上,但该方法随着目标数的增加,检测的复杂度和难度随之增加,从而影响检测精度。Dorj等提出利用颜色特征来预测柑橘产量,首先将RGB图像转换为HSV图像,再对图像进行橙色检测,利用分水岭分割法对柑橘进行计数,但该方法的检测准确率受距离和背景变化的影响较大。
传统算法Hough变换进行柑橘目标检测,检测精度低,且在柑橘密集、重叠的情况下,容易导致错误检测。K-means聚类分割法结合优化Hough圆拟合方法实现柑橘果实分割,但误检率会随目标密集度变化而增加。利用遮挡轮廓恢复的方法进行柑橘识别,利用水果表面光照分布的分层轮廓特征进行树上绿色柑橘的检测,在采集过程中对光源依赖性强且场景适应性不高。SATD匹配法对潜在的水果像素点进行检测,使用支持向量机(supportvectormachine,SVM)进行分类该方法随着目标数的增加,检测的复杂度和难度随之增加,从而影响检测精度。
由于传统机器视觉方法在复杂场景下鲁棒性差,自然场景下目标识别正确率低,很难满足柑橘目标识别和计数任务要求。近年来,卷积神经网络在目标检测领域不断完善,体现出巨大的优越性,其主要分为两类,一类是先由算法生成一系列作为样本的候选框,再通过卷积神经网络进行样本分类,代表有RCNN、Fast-RCNN和Faster-RCNN;一类直接将目标边框定位的问题转化为回归问题处理,不需要产生候选框,标志性算法包括SSD、YOLO系列等。傅隆生等提出基于卷积神经网络的田间多簇猕猴桃图像识别方法,该方法对相邻果实和独立果实的识别率分别为91.01%和94.78%,但对遮挡、重叠果实识别准确率较低。Sa等和熊俊涛等分别采用Faster-RCNN深度卷积神经网络来识别甜椒和柑橘,但模型训练速度较慢,检测时间较长。彭红星等提出基于SSD深度学习模型对4种不同水果进行识别,平均检测精度可达89.53%,有较好的泛化性和鲁棒性。薛月菊等提出基于YOLOv2的未成熟芒果识别方法,识别速度和识别精度可显著提升。
中国专利公开号“CN114120155A”公开了一种柑橘识别与计数方法,使用YOLOv3目标检测方法对柑橘进行计数;该专利主要在YOLOv3中的每个卷积层后添加BN层,并对模型进行剪枝以获取柑橘目标,分析柑橘成熟度对柑橘进行计数,该专利由于使用无人机拍摄图片使得图片内柑橘目标较小,但是YOLOv3存在对小目标敏感度低,识别物体位置精度较差,召回率低等固有缺陷;所以该专利仍存在柑橘小目标识别中存在柑橘漏检率高,定位不准等缺陷。
发明内容
本申请是使用可提升物体位置定位精度的分组注意力机制做特征提取,结合改进的对小目标敏感的区域生成网络RPN网络做果实的计数。
该发明主要是基于手持设备拍摄的图片,通过分组注意力机制做特征提取,结合改进的区域生成网络RPN网络做目标识别计数;主要实现步骤是首先收集手持设备拍摄的不同成长期的果实图片,然后标记图片范围内果实,将标记好的图片带入模型进行训练,然后将待识别的图片进行识别,统计识别出的果实个数;
本申请技术的技术方案是:一种果实计数方法,包括以下步骤:将使用手持拍摄设备拍摄的果实图片并处理为果实图片数据集;建立果实计数神经网络模型,使用所述果实图片数据集训练所述果实计数神经网络模型;使用训练完成的果实识别神经网络模型,进行果实计数测试;其中,所述果实计数神经网络模型包括分组注意力机制网络VIT和区域生成网络RPN,所述果实图片数据集通过分组注意力机制网络VIT提取图片特征后经区域生成网络RPN提取候选区域。
进一步地,所述手持拍摄设备包括移动终端和相机。
进一步地,所述区域生成网络RPN网络中包括卷积块注意模块CBAM注意力机制模块。
进一步地,所述分组注意力机制网络VIT网络将所述果实图片数据集中的图片按固定大小进行切分为多个图块,每个图块与其位置信息相加,经过随机失活Dropout层、分组自注意力机制模块、链接层标准化层、多层感知器MLPHead层输出图片特征。
进一步地,所述分组注意力机制网络VIT包括自注意力机制TransformerEncode模块和多层感知器MLP模块。
进一步地,所述自注意力机制TransformerEncode模块的分组注意力机制公式如下:
Figure 308155DEST_PATH_IMAGE001
其中,
Figure 204436DEST_PATH_IMAGE002
Figure 420654DEST_PATH_IMAGE003
Figure 568738DEST_PATH_IMAGE004
其中,i=1,…,8,表示分组数;Q、K、V表示不同维度的注意力权重矩阵;
Figure 921222DEST_PATH_IMAGE005
表示该网络层中的可训练变量;
Figure 129350DEST_PATH_IMAGE006
Figure 567284DEST_PATH_IMAGE007
表示第1到第8个分组自注意力机制分支;Concact表示将
Figure 394426DEST_PATH_IMAGE006
Figure 866996DEST_PATH_IMAGE007
合并操作;
Figure 246024DEST_PATH_IMAGE008
表示对应注意力权重的矩阵;
Figure 171255DEST_PATH_IMAGE009
表示表示k的长度;T表示转置操作;softmax表示归一化指数函数。
进一步地,果实计数神经网络的提取层ProposalLayer根据区域生成网络RPN的输出结果,提取出目标框roi以实现目标定位。
进一步地,所述训练完成的果实识别神经网络包括两个并列的卷积块注意模块CBAM。
进一步地,所述区域生成网络RPN模块的损失函数是由分类损失和边界框回归损失组合而成,公式如下:
Figure 661142DEST_PATH_IMAGE010
,其中
Figure 988218DEST_PATH_IMAGE011
表示第i个候选框预测为真实标签的概率;
Figure 272569DEST_PATH_IMAGE012
当为正样本时为,负样本时为0;
Figure 308265DEST_PATH_IMAGE013
表示预测第i个候选框的边界框回归参数;
Figure 336264DEST_PATH_IMAGE014
表示第i个候选框对应的GTBOX的边界框回归参数;
Figure 49005DEST_PATH_IMAGE015
表示一个mini-batch中的所有样本数量;
Figure 504257DEST_PATH_IMAGE016
表示候选框位置的个数;
Figure 669659DEST_PATH_IMAGE017
为权重系数;
Figure 235770DEST_PATH_IMAGE018
为分类损失;
Figure 412804DEST_PATH_IMAGE019
为边界框回归损失。
进一步地,果实识别神经网络模型的总损失函数:
Figure 304537DEST_PATH_IMAGE020
;其中,
Figure DEST_PATH_IMAGE021
,其中,
Figure 691656DEST_PATH_IMAGE022
Figure 61457DEST_PATH_IMAGE023
表示边界框回归器预测的对应类别u的回归参数;v表示真实目标的边界框回归参数;p为分类正确的概率;x为带入的参数。
进一步地,通过总损失函数和优化函数对果实计数神经网络模型进行优化。
进一步地,若计数测试合格,则使用训练完成的果实计数神经网络模型进行果实识别。
本申请还提供一种果实计数系统,其特征在于,包括:数据处理模块,
用于使用手持拍摄设备拍摄果实图片并处理为果实图片数据集;训练模块,用于建立果实计数神经网络模型,使用所述果实图片数据集训练所述果实计数神经网络模型;计数模块,用于使用训练完成的果实识别神经网络模型,进行果实计数测试;其中,所述果实计数神经网络模型包括分组注意力机制网络VIT和区域生成网络RPN,所述果实图片数据集通过分组注意力机制网络VIT提取图片特征后经区域生成网络RPN提取候选区域。
本申请还提供一种电子设备,所述电子设备包括处理器和存储器;所述处理器执行所述存储器中的指令,使得所述电子设备实现所述的果实计数方法。
本申请还提供一种非易失性存储器,包括指令,该指令执行果实计数方法。
本申请的有益效果在于:
(1)基于手持设备拍摄果实图片进行果实计数,拍摄的图片内果实图像更大,图像噪音低;
(2)结合分组注意力机制网络VIT和faster-RCNN模型中模块特点构造结合其中分组注意力机制网络和改进的区域生成网络RPN网络进行柑橘这类小目标识别,对柑橘这样的小目标敏感度高,识别精度得到明显提高;
(3)在区域生成网络RPN网络中添加卷积块注意模块CBAM注意力机制模块,增加区域生成网络RPN网络对目标区域的关注,尤其是像柑橘果实这样的小目标区域,利用有限的注意力资源从大量信息中快速筛选出高价值的信息,提高了识别效率和速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一些实施例中的柑橘计数方法的流程图;
图2为本申请一些实施例中的柑橘计数神经网络模型整体结构图;
图3为本申请一些实施例中的柑橘计数神经网络模型的分组注意力机制网络VIT结构;
图4为本申请一些实施例中的分组注意力机制网络VIT结构自注意力机制TransformerEncode结构图(左)和自注意力机制TransformerEncode结构的多层感知器MLPBlock结构图(右);
图5为本申请一些实施例中的分组组自注意力机制的缩放点积注意力ScaledDot-ProductAttention结构图(左)和分组自注意力机制结构图(右);
图6为本申请一些实施例中的更改后的柑橘计数神经网络的区域生成网络RPN网络结构图;
图7为本申请一些实施例中的果实计数系统的示意图;
图8为本申请一些实施例中的电子设备示意图;
图9为本申请一些实施例中的非易失性存储器示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
该发明主要是基于手持设备拍摄的图片,通过分组注意力机制做特征提取,结合改进的区域生成网络RPN(Region提取层ProposalNetwork,区域生成网络)网络做目标识别计数;主要实现步骤是首先收集手持设备拍摄的不同成长期的柑橘图片,然后标记图片范围内柑橘,将标记好的图片带入模型进行训练,然后将待识别的图片进行识别,统计识别出的柑橘个数。
图1为本申请中一些实施例中的柑橘计数方法的流程图。如图1所示:
步骤S100:使用手持拍摄设备拍摄柑橘图片并处理为柑橘图片数据集。
使用手机、数码相机等手持拍摄设备进行平角、俯角和仰角等多种角度拍摄柑橘图片,获取手持设备拍摄不同柑橘成熟期的图片,对不同成熟期的柑橘图片进行标注,对标注后的图片进行翻转、移动、随机截取、增加噪点等数据增强。获取并分析柑橘园图像数据,记录柑橘数量和柑橘成熟度,将得到了柑橘数量和柑橘成熟度的柑橘园图像数据作为训练集。在发明的一些实施例中,经过预处理的照片修改为了416×416的大小的正方形图片。
柑橘树目标小、分布密集、遮挡情况较为严重,且每棵柑橘树有成百颗柑橘,通过手持设备进行柑橘图像的拍摄,拍摄的图片内柑橘图像更大,图像噪音低,还可以现场查看拍摄的效果,作为训练基础的原始图像相片质量高,模型训练效果好。
步骤S200:建立柑橘计数神经网络模型,使用柑橘图片数据集训练柑橘计数神经网络模型。
建立柑橘计数神经网络模型,用于根据柑橘图像,处理得到柑橘数量;将步骤S100中标记好的图片带入建立柑橘计数神经网络模型进行训练,然后将待识别的图片进行识别,统计识别出的柑橘个数。
图2为本申请一些实施例中的柑橘计数神经网络模型整体结构图。
1)如图2所示,首先将处理后的柑橘图片带入分组注意力机制网络VIT(分组注意力机制网络VIT(VisionTransformer,分组注意力机制网络)做图片特征提取,然后经过改进的区域生成网络RPN做候选区域提取,再将候选区域映射回原始图片的特征图中经过ROI-Align做柑橘目标边框提取,将特征图映射为同样大小的特征,最后经过全连接层和归一化指数函数softmax层的到柑橘的位置信息。
借鉴分组注意力机制网络VIT(VisionTransformer,分组注意力机制网络)和faster-RCNN(fasterRegionConvolutionalneuralnetwork,更快速的区域卷积神经网络)模型结构,结合模型特点,取分组注意力机制网络VIT模型作为faster-RCNN的特征提取模型,然后借鉴faster-RCNN中的区域生成网络RPN模块提取出候选框,最后使用ROI-Align做柑橘目标边框提取。
图3为本申请一些实施例中的柑橘计数神经网络模型的分组注意力机制网络VIT结构。
2)如图3所示,首先将图片经过切分PatchEmbedding处理,即将图片按固定大小进行切分,将切分后的小图片当做一个patch(斑点,图块)进行处理;然后与每个小图像的位置信息(PositionEmbedding,位置编码)相加,经过随机失活Dropout层,然后是多个分组自注意力机制模块自注意力机制TransformerEncode,链接层标准化层LayerNorm,最后是多层感知器MLPHead层输出图像特征。
图4为本申请一些实施例中的分组注意力机制网络VIT结构自注意力机制TransformerEncode结构图(左)和自注意力机制TransformerEncode结构的多层感知器MLPBlock结构图(右)
(a)如图4左图所示,自注意力机制TransformerEncode模块:输入数据连接一个层标准化层,然后连接分组自注意力机制层,连接随机失活Dropout层,然后将输入和随机失活Dropout层输出相加连接层标准化层,连接多层感知器MLP(Multi-LayerPerceptron,多层感知器)模块连接随机失活Dropout层,然后将输出与上个层标准化层的输入相加输出;其中分组自注意力机制为引入Q(Query)、K(Key)、V(Value)特征向量,
①信息输入:将Q,K,V输入模型,用
Figure 873424DEST_PATH_IMAGE024
表示输入权重向量。
②计算注意力分布
Figure 670479DEST_PATH_IMAGE025
:为了从n个输入向量
Figure 544894DEST_PATH_IMAGE026
中选择出和某个特定任务相关的信息,需要引入一个和任务相关的表示查询向量q,通过一个打分函数来计算每个输入向量和查询向量之间的相关性。
通过计算Q和K进行点积计算相关度,并通过归一化指数函数softmax计算分数
Figure 718387DEST_PATH_IMAGE027
,通过归一化指数函数softmax计算注意力权重,
Figure 729068DEST_PATH_IMAGE028
,我们将
Figure 962603DEST_PATH_IMAGE029
称之为注意力概率分布,
Figure 199681DEST_PATH_IMAGE030
为注意力打分机制
Figure 911285DEST_PATH_IMAGE031
;其中W、U、v为可学习的参数。
③信息加权平均:注意力分布
Figure 42052DEST_PATH_IMAGE029
来解释在上下文查询
Figure 446488DEST_PATH_IMAGE032
时,第i个信息受到关注程度,
Figure 764337DEST_PATH_IMAGE033
图5为本申请一些实施例中的分组组自注意力机制的缩放点积注意力ScaledDot-ProductAttention结构图(左)和分组组自注意力机制结构图(右)。
图5左图为缩放点积注意力ScaledDot-ProductAttention结构,如图5左图所示,本文使用缩放点积注意力ScaledDot-ProductAttention,通过query和key的相似性程度来确定value的权重分布。
Figure 810791DEST_PATH_IMAGE034
图5右图是分组自注意力机制结构图,如图5右图所示,
分组注意力机制公式如下:
Figure 796064DEST_PATH_IMAGE001
其中,
Figure 997501DEST_PATH_IMAGE002
Figure 68225DEST_PATH_IMAGE003
Figure 121631DEST_PATH_IMAGE004
其中,i=1,…,8,表示分组数;Q、K、V表示不同维度的注意力权重矩阵;
Figure 961411DEST_PATH_IMAGE005
表示该网络层中的可训练变量;
Figure 707651DEST_PATH_IMAGE006
Figure 265671DEST_PATH_IMAGE007
表示第1到第8个分组自注意力机制分支;Concact表示将
Figure 263714DEST_PATH_IMAGE006
Figure 223580DEST_PATH_IMAGE007
合并操作;
Figure 140720DEST_PATH_IMAGE008
表示对应注意力权重的矩阵;
Figure 186036DEST_PATH_IMAGE009
表示表示k的长度,可根据欧式距离方程获得;T表示转置操作;softmax表示归一化指数函数。
(b)如图4右图所示,多层感知器MLP模块:先由线性层,连接GELU激活层,连接随机失活Dropout层,连接线性层,再连接随机失活Dropout然后输出;
3)图6为本申请一些实施例中的更改后的柑橘计数神经网络的区域生成网络RPN网络结构图。如图6所示,区域生成网络RPN模块:基本可以分成两条线上边通过归一化指数函数softmax给候选区分类,获取positive和negative的分类;下面计算对候选框的边框回归偏移量,来获取精确的候选框。而最后的候选区层则负责综合正向候选框和对应边框回归偏移量获取候选区域,同时剔除太小和超出边界的候选区域。
随后,柑橘计数神经网络的提取层Proposal根据区域生成网络RPN的输出结果,提取出所需的目标框(roi),就完成了相当于目标定位的功能。在两条线中分别加入卷积块注意模块CBAM(ConvolutionalBlockAttentionModule,卷积块注意模块)增加区域生成网络RPN网络对目标区域的关注度;如图6;区域生成网络RPN模块的损失函数是由分类损失和边界框回归损失组合而成,其损失函数如下:
Figure 581246DEST_PATH_IMAGE035
,其中
Figure 395618DEST_PATH_IMAGE011
表示第i个候选框预测为真实标签的概率;
Figure 873873DEST_PATH_IMAGE012
当为正样本时为,负样本时为0;
Figure 140906DEST_PATH_IMAGE013
表示预测第i个候选框的边界框回归参数;
Figure 605385DEST_PATH_IMAGE014
表示第i个候选框对应的GTBOX的边界框回归参数;
Figure 539843DEST_PATH_IMAGE036
表示一个mini-batch中的所有样本数量;
Figure 533207DEST_PATH_IMAGE037
表示候选框位置的个数。
4)目标框对齐ROIAlign模块:该模块的主要工作将不同size的候选框规整为相同大小方便模型后面的分类和框的回归计算;主要步骤是:
(1)将bbox区域按输出要求的size进行等分,很可能等分后各顶点落不到真实的像素点上;
(2)在每落框个中再取固定的4个点;
(3)针对每一个点,距离它最近的4个真实像素点的值加权(双线性插值),求得该点的值;
(4)一个落框内会算出4个新值,在这些新值中取max,作为这个落框的输出值,然后输出,即得到每个不同大小候选框的相同输出。
5)最后经过全连接层FC+激活函数RELU层计算每个候选框的分类和候选框的偏移量。
6)损失函数:该模型的损失函数分为两部分,一部分为区域生成网络RPN的损失函数,另一部分为最后一步的分类损失和边界框瞬时,最后部分的边界框损失函数为:
Figure 553116DEST_PATH_IMAGE038
,其中:
Figure 696652DEST_PATH_IMAGE039
表示边界框回归器预测的对应类别u的回归参数;v表示真实目标的边界框回归参数;
Figure 485617DEST_PATH_IMAGE040
综上,整体损失函数
Figure 649882DEST_PATH_IMAGE020
在计算出模型的损失值之后,接下来需要利用损失值进行模型参数的优化。在实践操作最常用到的是一阶优化函数。包括GD,SGD,BGD,Adam等。一阶优化函数在优化过程中求解的是参数的一阶导数,这些一阶导数的值就是模型中参数的微调值。
优化函数采用亚当(Adam)算法,Adam(Adaptive Moment Estimation,自适应时刻估计方法)是一种将动量和RMSprop结合使用的算法,它通过使用梯度分量V,梯度的指数移动平均值(如动量)和将学习率
Figure 891507DEST_PATH_IMAGE041
除以S的平方根,平方梯度的指数移动平均值(如在RMSprop中)来学习率分量而起作用。
Figure 432210DEST_PATH_IMAGE042
其中:
Figure 341260DEST_PATH_IMAGE043
是偏差修正,并有
Figure 942006DEST_PATH_IMAGE044
Figure 294096DEST_PATH_IMAGE045
V和S初始值均为0,
Figure 638490DEST_PATH_IMAGE046
为0.001,
Figure 402047DEST_PATH_IMAGE047
为0.9,
Figure 173694DEST_PATH_IMAGE048
为0.999,
Figure 389911DEST_PATH_IMAGE049
Figure 413362DEST_PATH_IMAGE050
;通过采用亚当算法,模型训练需要资源更少、模型收敛更快,从根本上加速机器的学习速度和效果,
Figure 765846DEST_PATH_IMAGE051
为需要求解(更新)的参数;L表示损失值;
Figure 973973DEST_PATH_IMAGE052
表示梯度
Figure 411908DEST_PATH_IMAGE053
的二阶矩,
Figure 363683DEST_PATH_IMAGE054
的期望;
Figure 570674DEST_PATH_IMAGE055
表示梯度
Figure 339916DEST_PATH_IMAGE053
的一阶矩,
Figure 265146DEST_PATH_IMAGE053
的期望。
进一步地,通过总损失函数和优化函数对果实计数神经网络模型进行优化。将数据集输入深度神经网络模型中,根据预设损失函数进行多轮迭代优化训练,最终得到最优深度神经网络模型及对应最优深度神经网络模型中所有网络参数的最佳权值。
步骤S300:使用训练完成的柑橘识别神经网络模型,进行柑橘计数测试。
通过训练完成的柑橘识别神经网络,进行柑橘计数测试,以验证模型训练效果。在本申请的一些实施例中,图片传入柑橘计数神经网络后会分成三个网格图片(13×13,26×26,52×52),每个网格有3个先验框,通过先验框识别柑橘,以实现柑橘计数。
进一步地,若计数测试合格,则使用训练完成的果实计数神经网络模型进行果实识别。
参见附图7,本申请还提供一种果实计数系统,包括:数据处理模块,用于使用手持拍摄设备拍摄果实图片并处理为果实图片数据集;训练模块,用于建立果实计数神经网络模型,使用所述果实图片数据集训练所述果实计数神经网络模型;计数模块,用于使用训练完成的果实识别神经网络模型,进行果实计数测试;其中,所述果实计数神经网络模型包括分组注意力机制网络VIT和区域生成网络RPN,所述果实图片数据集通过分组注意力机制网络VIT提取图片特征后经区域生成网络RPN提取候选区域。
参见附图8,本申请还提供一种电子设备,所述电子设备包括处理器31和存储器30;所述处理器31执行所述存储器30中的指令,使得所述电子设备实现所述的果实计数方法。本申请实施例还提供了一种电子设备,还可以包括可选组件:显示器32。处理器31、存储器30、显示器32之间通过总线36通信。
总线36可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
对于电子设备,处理器31可以为中央处理器(Central Processing Unit,CPU),此外,还可以有图形处理器(graphics processing unit,GPU)等其他处理器芯片。存储器30可以为随机存取存储器(random access memory,RAM)或者固态驱动器(solid-statedrive,SSD)等其它具有存储能力的设备或者内存实例。在一些可能的实现方式中,处理器31还可以控制其他接口接收数据。其中,其他接口可以是摄像头等。
存储器30的可以为随机存取存储器(random access memory,RAM)或者固态驱动器(solid-state drive,SSD)等其它具有存储能力的设备或者实例。存储器30中存储有可执行的程序代码,处理器31执行该可执行的程序代码以实现前述电子设备的功能,或者执行前述实施例描述的方法中由电子设备执行的步骤。可选的,对于电子设备,处理器31控制显示器32向用户呈现有关结果。
显示器32是一种输入输出(input/output,I/O)设备。该设备可以将电子文件如图像、文字显示到屏幕上,以供用户查看。根据制造材料不同,显示器32可以分为液晶显示器(liquid crystal display,LCD)、有机电激光(organic light emitting diode,OLED)显示器等。
参见附图9,本申请还提供一种非易失性存储器,包括指令,该指令执行果实计数方法。
本申请通过结合分组注意力机制网络VIT和faster-RCNN网络模型的结构特点,将分组自注意力机制模块与区域生成网络RPN单元模块进行结合,并在区域生成网络RPN网络中添加卷积块注意模块CBAM,在区域生成网络RPN的基础上更加关注目标区域,能提高区域生成网络RPN对候选框正负样本的判断,并且由于融入了自注意力机制模块,能够有效获取目标各个部分之间的依赖关系,更加能关注到小的目标区域,在遮挡目标识别上能够获取更高的准确率,对柑橘这种小目标的识别精度有不小的提升;在收集到了多个成熟悉的柑橘图片进行模型训练后,在测试集中柑橘识别并计数的误差在5%左右。
综上,本申请通过柑橘识别神经网络,实现高精确地柑橘果实计数,本申请输出可靠度高,获得更可靠的识别结果,能帮助指导柑橘的施肥、疏果、打药、采摘等多个环节,替代部分或全部人工操作,降低安全生产风险,提高产品收率,降低生产成本。本领域技术人员可以理解的是,柑橘果实的识别和计数仅为本申请一些实施例中应用场景,本申请中的柑橘计数方法并不仅限于柑橘的识别和计数,对于苹果、核桃、柠檬、黄瓜、西红柿等瓜果的果实也可以应用本方法,本方法尤其适用于小目标果实的识别,对于冬瓜、西瓜等大目标同样可以识别,只是该类果实的目标大,识别难度低,因此本申请着重于小目标果实的识别和计数。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本申请的原理,应被理解为本申请的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本申请公开的这些技术启示做出各种不脱离本申请实质的其它各种具体变形和组合,这些变形和组合仍然在本申请的保护范围内。

Claims (10)

1.一种果实计数方法,其特征在于,包括以下步骤:
S100:将使用手持拍摄设备拍摄的果实图片处理为果实图片数据集;
S200:建立果实计数神经网络模型,使用所述果实图片数据集训练所述果实计数神经网络模型;
S300:使用训练完成的果实识别神经网络模型,进行果实计数测试;
其中,所述果实计数神经网络模型包括分组注意力机制网络VIT和区域生成网络RPN,所述果实图片数据集通过分组注意力机制网络VIT提取图片特征后经区域生成网络RPN提取候选区域。
2.根据权利要求1所述的一种果实计数方法,其特征在于,所述手持拍摄设备包括移动终端和相机。
3.根据权利要求1所述的一种果实计数方法,其特征在于,所述区域生成网络RPN中包括卷积块注意模块CBAM注意力机制模块。
4.根据权利要求1所述的一种果实计数方法,其特征在于,所述分组注意力机制网络VIT将所述果实图片数据集中的图片按固定大小进行切分为多个图块,每个图块与其位置信息相加,经过随机失活Dropout层、分组自注意力机制模块、链接层标准化层、多层感知器MLPHead层输出图片特征。
5.根据权利要求1所述的一种果实计数方法,其特征在于,所述分组注意力机制网络VIT包括自注意力机制TransformerEncode模块和多层感知器MLP模块。
6.根据权利要求5所述的一种果实计数方法,其特征在于,所述自注意力机制TransformerEncode模块的分组注意力机制公式如下:
Figure 351647DEST_PATH_IMAGE001
其中,
Figure 80569DEST_PATH_IMAGE002
Figure 893804DEST_PATH_IMAGE003
Figure 391781DEST_PATH_IMAGE004
其中,i=1,…,8,表示分组数;Q、K、V表示不同维度的注意力权重矩阵;
Figure 569953DEST_PATH_IMAGE005
表示该网络层中的可训练变量;
Figure 520591DEST_PATH_IMAGE006
Figure 403097DEST_PATH_IMAGE007
表示第1到第8个分组自注意力机制分支;Concact表示将
Figure 552318DEST_PATH_IMAGE006
Figure 150659DEST_PATH_IMAGE007
合并操作;
Figure 588593DEST_PATH_IMAGE008
表示对应注意力权重的矩阵;
Figure 743631DEST_PATH_IMAGE009
表示表示k的长度;T表示转置操作;softmax表示归一化指数函数。
7.根据权利要求1所述的一种果实计数方法,其特征在于,果实计数神经网络的提取层ProposalLayer根据区域生成网络RPN的输出结果,提取出目标框roi以实现目标定位。
8.根据权利要求1-3中任一项所述的一种果实计数方法,其特征在于,所述训练完成的果实识别神经网络包括两个并列的卷积块注意模块CBAM。
9.根据权利要求1所述的一种果实计数方法,其特征在于,所述区域生成网络RPN的损失函数是由分类损失和边界框回归损失组合而成,公式如下:
Figure 216201DEST_PATH_IMAGE010
其中,
Figure 126388DEST_PATH_IMAGE011
表示第i个候选框预测为真实标签的概率;
Figure 786039DEST_PATH_IMAGE012
当为正样本时为,负样本时为0;
Figure 10347DEST_PATH_IMAGE013
表示预测第i个候选框的边界框回归参数;
Figure 743948DEST_PATH_IMAGE014
表示第i个候选框对应的GTBOX的边界框回归参数;
Figure 762720DEST_PATH_IMAGE015
表示一个mini-batch中的所有样本数量;
Figure 175247DEST_PATH_IMAGE016
表示候选框位置的个数;
Figure 999983DEST_PATH_IMAGE017
为权重系数;
Figure 181566DEST_PATH_IMAGE018
为分类损失;
Figure 371239DEST_PATH_IMAGE019
为边界框回归损失。
10.根据权利要求9所述的一种果实计数方法,其特征在于,果实识别神经网络模型的总损失函数:
Figure 428319DEST_PATH_IMAGE020
;其中,
Figure 994429DEST_PATH_IMAGE021
其中,
Figure 30518DEST_PATH_IMAGE022
Figure 391092DEST_PATH_IMAGE023
表示边界框回归器预测的对应类别u的回归参数;v表示真实目标的边界框回归参数;p为分类正确的概率;x为带入的参数。
CN202211569739.5A 2022-12-08 2022-12-08 一种果实计数方法 Pending CN115761510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211569739.5A CN115761510A (zh) 2022-12-08 2022-12-08 一种果实计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211569739.5A CN115761510A (zh) 2022-12-08 2022-12-08 一种果实计数方法

Publications (1)

Publication Number Publication Date
CN115761510A true CN115761510A (zh) 2023-03-07

Family

ID=85344353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211569739.5A Pending CN115761510A (zh) 2022-12-08 2022-12-08 一种果实计数方法

Country Status (1)

Country Link
CN (1) CN115761510A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083770A (zh) * 2019-04-29 2019-08-02 苏州市职业大学 一种基于特征层面更深的自注意力网络的序列推荐方法
CN111783942A (zh) * 2020-06-08 2020-10-16 北京航天自动控制研究所 一种基于卷积循环神经网络的脑认知过程模拟方法
CN113392775A (zh) * 2021-06-17 2021-09-14 广西大学 一种基于深度神经网络的甘蔗幼苗自动识别与计数方法
CN114372951A (zh) * 2021-11-03 2022-04-19 中山大学附属第一医院 基于图像分割卷积神经网络的鼻咽癌定位分割方法和系统
CN114511636A (zh) * 2022-04-20 2022-05-17 科大天工智能装备技术(天津)有限公司 一种基于双滤注意力模块的果实计数方法及系统
CN114612520A (zh) * 2022-03-18 2022-06-10 北京航空航天大学 一种多目标跟踪方法、装置及系统
CN114663707A (zh) * 2022-03-28 2022-06-24 中国科学院光电技术研究所 基于Faster RCNN改进的少样本目标检测方法
CN114677687A (zh) * 2022-04-14 2022-06-28 大连大学 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法
CN115019322A (zh) * 2022-05-31 2022-09-06 阿里巴巴(中国)有限公司 字体检测方法、装置、设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083770A (zh) * 2019-04-29 2019-08-02 苏州市职业大学 一种基于特征层面更深的自注意力网络的序列推荐方法
CN111783942A (zh) * 2020-06-08 2020-10-16 北京航天自动控制研究所 一种基于卷积循环神经网络的脑认知过程模拟方法
CN113392775A (zh) * 2021-06-17 2021-09-14 广西大学 一种基于深度神经网络的甘蔗幼苗自动识别与计数方法
CN114372951A (zh) * 2021-11-03 2022-04-19 中山大学附属第一医院 基于图像分割卷积神经网络的鼻咽癌定位分割方法和系统
CN114612520A (zh) * 2022-03-18 2022-06-10 北京航空航天大学 一种多目标跟踪方法、装置及系统
CN114663707A (zh) * 2022-03-28 2022-06-24 中国科学院光电技术研究所 基于Faster RCNN改进的少样本目标检测方法
CN114677687A (zh) * 2022-04-14 2022-06-28 大连大学 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法
CN114511636A (zh) * 2022-04-20 2022-05-17 科大天工智能装备技术(天津)有限公司 一种基于双滤注意力模块的果实计数方法及系统
CN115019322A (zh) * 2022-05-31 2022-09-06 阿里巴巴(中国)有限公司 字体检测方法、装置、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
荆伟斌;李存军;竞霞;赵叶;程成;: "基于深度学习的苹果树侧视图果实识别" *
荆伟斌;胡海棠;程成;李存军;竞霞;郭治军;: "基于深度学习的地面苹果识别与计数" *
蔡兴泉;涂宇欣;葛亚坤;杨哲;: "基于CNN网络和多任务损失函数的实时叶片识别" *

Similar Documents

Publication Publication Date Title
Jia et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot
Li et al. A high-precision detection method of hydroponic lettuce seedlings status based on improved Faster RCNN
Chen et al. Weed detection in sesame fields using a YOLO model with an enhanced attention mechanism and feature fusion
Wang et al. Fast and precise detection of litchi fruits for yield estimation based on the improved YOLOv5 model
Lv et al. A visual identification method for the apple growth forms in the orchard
Chen et al. An improved Yolov3 based on dual path network for cherry tomatoes detection
Wang et al. Precision detection of dense plums in orchards using the improved YOLOv4 model
CN111178177A (zh) 一种基于卷积神经网络的黄瓜病害识别方法
Sun et al. Noise-tolerant RGB-D feature fusion network for outdoor fruit detection
CN114972208A (zh) 一种基于YOLOv4的轻量化小麦赤霉病检测方法
CN115050021A (zh) 基于改进YOLOv4的非结构环境下葡萄识别方法
Xu et al. Real-time and accurate detection of citrus in complex scenes based on HPL-YOLOv4
Lei et al. Bayberry segmentation in a complex environment based on a multi-module convolutional neural network
Wei et al. Novel green-fruit detection algorithm based on D2D framework
Qiang et al. Detection of citrus pests in double backbone network based on single shot multibox detector
Gai et al. Cherry detection algorithm based on improved YOLOv5s network
Wang et al. A transformer-based mask R-CNN for tomato detection and segmentation
Jia et al. YOLOF-Snake: An efficient segmentation model for green object fruit
Hu et al. Automatic detection of pecan fruits based on Faster RCNN with FPN in orchard
CN115995017A (zh) 一种果实识别与定位方法、装置及介质
CN115761510A (zh) 一种果实计数方法
Zhang et al. An improved target detection method based on YOLOv5 in natural orchard environments
CN114663791A (zh) 一种非结构化环境下面向剪枝机器人的枝条识别方法
Lawal Real-time cucurbit fruit detection in greenhouse using improved YOLO series algorithm
Wang et al. Strawberry ripeness classification method in facility environment based on red color ratio of fruit rind

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230307