CN114494151A

CN114494151A - 一种复杂果园环境下的果实检测方法及系统

Info

Publication number: CN114494151A
Application number: CN202111652706.2A
Authority: CN
Inventors: 贾伟宽; 刘杰; 赵瑞娜; 徐莹; 张琦
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-05-13

Abstract

本发明公开一种复杂果园环境下的果实检测方法及系统，包括：获取不同干扰环境下的果实图像，标注果实图像中的目标果实；提取果实图像的图像特征，并进行多尺度特征融合，对得到的融合特征图以逐像素方式进行重构，得到重构特征图；标注目标果实所在真实框在重构特征图上对应的正采样区域，根据真实框的标注信息确定正采样区域中每个空间位置的训练目标，由训练目标对果实检测模型进行训练；对待测果实图像采用训练后的果实检测模型得到目标果实识别结果。解决同色系背景及其它各种干扰而导致模型的识别难度大等问题，平衡果实检测时在时间和精度之间的关系，在保证检测精度的前提下，提高实时性。

Description

一种复杂果园环境下的果实检测方法及系统

技术领域

本发明涉及果实识别技术领域，特别是涉及一种复杂果园环境下的果实检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目前，在果实识别领域大多采用机器学习算法与深度学习算法。其中，基于机器学习的果实识别算法中，通常会有对图像进行预处理、人工提取选择图像特征等操作，当果实由于光照强度、角度或自然环境变化等因素出现纹理特征不明显；枝干、树叶遮挡或果实间相互重叠等因素出现形状缺失；目标果实与同色系叶片背景相似出现颜色干扰等问题时，上述问题都会干扰模型对果实的检测精度，从而影响采摘机器人的实际操作，影响工作效率。

基于深度学习算法的模型相较于机器学习的算法在精度、鲁棒性和效率方面已经有一定的进步，但是大部分方法还是基于锚框，因此算法的计算量大，不能保证采摘机器人的工作效率，且在部署到真实环境时还需要综合考虑功耗及稳定问题。

发明内容

为了解决上述问题，本发明提出了一种复杂果园环境下的果实检测方法及系统，解决同色系背景及其它各种干扰而导致模型的识别难度大等问题，平衡果实检测时在时间和精度之间的关系，在保证检测精度的前提下，提高实时性。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种复杂果园环境下的果实检测方法，包括：

获取不同干扰环境下的果实图像，标注果实图像中的目标果实；

提取果实图像的图像特征，并进行多尺度特征融合，对得到的融合特征图以逐像素方式进行重构，得到重构特征图；

标注目标果实所在真实框在重构特征图上对应的正采样区域，根据真实框的标注信息确定正采样区域中每个空间位置的训练目标，由训练目标对果实检测模型进行训练；

对待测果实图像采用训练后的果实检测模型得到目标果实识别结果。

作为可选择的实施方式，提取果实图像的图像特征的过程包括：采用优化的残差网络提取图像特征，所述优化的残差网络为将残差网络中的每个卷积层替换为可切换空洞卷积，所述可切换空洞卷积为在卷积层之间引入扩张率参数，且利用添加空洞扩大感受野。

作为可选择的实施方式，多尺度特征融合的过程包括：对图像特征采用递归特征金字塔按自顶向下与横向连接的方式进行融合，所述递归特征金字塔为在特征金字塔上加入反馈连接和汇集空间金字塔而构建。

作为可选择的实施方式，对得到的融合特征图以逐像素方式进行重构的过程包括：通过双向卷积添加特征地图，对每个特征点标注包围盒，根据包围盒的坐标得到包围盒在特征地图上对应的特征向量，采用双线性插值方法更新特征向量，遍历特征点后重构特征图。

作为可选择的实施方式，所述训练目标包括分类训练目标和边框回归训练目标。

作为可选择的实施方式，所述分类训练目标为与对应的真实框的类别标签，所述边框回归训练目标为在果实图像上对应的坐标与真实框之间的正则化偏移。

作为可选择的实施方式，对果实检测模型进行训练的过程中采用多损失函数，多损失函数包括分类分支产生的类别置信度与分类目标之间的损失函数、正样本预测的正则化边框偏移与回归目标之间的损失函数以及中心度损失函数。

第二方面，本发明提供一种复杂果园环境下的果实检测系统，包括：

图像获取模块，被配置为获取不同干扰环境下的果实图像，标注果实图像中的目标果实；

特征提取模块，被配置为提取果实图像的图像特征，并进行多尺度特征融合，对得到的融合特征图以逐像素方式进行重构，得到重构特征图；

目标训练模块，被配置为标注目标果实所在真实框在重构特征图上对应的正采样区域，根据真实框的标注信息确定正采样区域中每个空间位置的训练目标，由训练目标对果实检测模型进行训练；

果实识别模块，被配置为对待测果实图像采用训练后的果实检测模型得到目标果实识别结果。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提出的一种复杂果园环境下的果实检测方法及系统，解决同色系背景及其它各种干扰而导致模型的识别难度大等问题，平衡果实检测时在时间和精度之间的关系，在保证检测精度的前提下，提高实时性。

本发明提出的一种复杂果园环境下的果实检测方法及系统，在不损失基于锚框的检测精度前提下，压缩模型容量，减少计算和存储资源，加快模型的训练和检测速度，解决以往果蔬检测方法中速度和精度的矛盾。

本发明提出的一种复杂果园环境下的果实检测方法及系统，摆脱了主流检测算法对锚框的依赖，使得算法在复杂度、检测速度、占用存储、适应能力等方面均有显著提升，有效改善模型部署到各智能化农业应用时的稳定性与适用性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的复杂果园环境下的果实检测方法流程示意图；

图2(a)-2(i)为本发明实施例1提供的不同干扰环境下的果实图像；

图3为本发明实施例1提供的优化ResNet的框架图；

图4为本发明实施例1提供的递归特征金字塔RFP的结构图；

图5为本发明实施例1提供的精细化模块FRM结构图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提供一种复杂果园环境下的果实检测方法，包括：

S1：获取不同干扰环境下的果实图像，标注果实图像中的目标果实；

S2：提取果实图像的图像特征，并进行多尺度特征融合，对得到的融合特征图以逐像素方式进行重构，得到重构特征图；

S3：标注目标果实所在真实框在重构特征图上对应的正采样区域，根据真实框的标注信息确定正采样区域中每个空间位置的训练目标，由训练目标对果实检测模型进行训练；

S4：对待测果实图像采用训练后的果实检测模型得到目标果实识别结果。

在步骤S1中，在同色系背景下，获取包含不同干扰场景的果实图像，以果实图像中目标果实的最小外接矩阵进行标注。

本实施例所采集到的数据集均包含有在不同时间段、不同天气、不同光照角度、不同遮挡情况等各种环境下拍摄到的果实图像，如图2(a)-2(i)所示，分别列举了部分不同情况下的实际画面。

在标注之前将果实图像分辨率缩小至600×400像素，使用labelme软件人工标注图像中的目标果实，标注果实图像中每个果实的最小外接矩阵作为真实框，生成对应的json文件，并统一转化成MS COCO数据集格式。

在步骤S2中，提取果实图像的图像特征，并进行多尺度特征融合的过程包括：将果实图像以batch为单位采用优化的残差网络(Residual Network，ResNet)提取图像特征，通过卷积和池化操作逐渐丰富深层特征图所包含的特征表达能力；将ResNet中各残差块输出的不同尺寸的特征图，采用特征金字塔(Feature PyramidNetworks,FPN)按照自顶向下与横向连接的方式进行融合，使深层特征图与浅层特征图具有相同水平的语义容量，提升模型对于不同尺度尤其是小尺度目标果实的分割效果；对特征金字塔上加入反馈连接和Atrous Spatial Pyramid Pooling(ASPP)构造递归特征金字塔(Recursive FeaturePyramid,RFP)，在抗环境背景因素干扰的情况下突出其特征的有效信息，减少不利因素(重叠、遮挡)所造成的干扰，侧重于关注有信息的特征像素。

在本实施例中，选取ResNet50作为基础网络提取图像特征，为缓解随着网络深度增加带来的梯度消失和爆炸问题，对ResNet进行优化，将ResNet中的每个普通卷积层替换为可切换空洞卷积(Switchable Atrous Convolution，SAC)，有效改善因预处理图像信息时降低图像分辨率带来的特征信息损失问题。

空洞卷积又名为扩张卷积，实际为在卷积层之间处理数据时，为更好的实现卷积计算，在卷积之间引入了扩张率参数，用来表示不同卷积层之间的间距，在卷积内核中表示为各个内核点之间间隔的单位数。利用添加空洞扩大感受野，让原本3×3的卷积核，在相同参数量和计算量下拥有或者更大的感受野，而无需下采样。

本实施例应用的SAC架构如图3所示，该架构包含全局上模块、SAC组件和全局下模块，全局上模块和全局下模块分别附加在SAC组件的前后，进而实现不同速率间的卷积计算的软切换，从而更好的提取图像标签信息，更好的表示图像特征，提高较深层网络的判别能力。

在本实施例中，在FPN上加入反馈连接和Atrous Spatial Pyramid Pooling(ASPP)，构造RFP，以更多地关注有信息的像素，同时也抑制不利因素(遮挡、重叠)造成的噪声干扰；添加反馈连接后的FPN的公式如下所示：

n_l＝N_l(n_l+1,j_l),j_l＝D_l(j_l-1,K_l(n_l))

其中，K_l表示反馈到backbone前的进一步特征提取操作，使得RFP成为递归操作，当将其展开为顺序网络时，展开后的公式如下所示：

其中，

为0，且

和

在不同步骤中是共享的，在本实施例中，默认情况下

在每个步骤中是不同的，且T＝2，图4是RFP在T＝2的展开图。

在步骤S2中，对得到的融合特征图以逐像素方式进行重构的过程包括：如图5所示，利用特征精细化模块(Feature Refine Module,FRM)对融合特征图进行精细化处理，将当前预测边框的图像特征信息，重新编码到对应的实际边框点，从而以逐像素的方式重构特征图，实现特征对齐，提高在同色系背景下对果实的检测精度。

具体地，通过双向卷积来添加特征地图，得到新的特征(large kerner,LK)，细化阶段只保留每个特征点得分最高的包围盒，以提高box filtering(BF)，同时保证每个特征点对应一个细化的包围盒；

对特征地图中的每个特征点，根据提炼后的包围盒的五个坐标(一个中心点和四个角点)得到包围盒在特征地图上对应的特征向量；

增加五个特征向量并替换当前的特征向量，即通过双线性插值方式得到更准确的特征向量；

遍历特征点后重构特征图，将重构后的特征图添加到原始特征图中。

在本实施例中，对重构特征图中的每一层特征图分别进行预测，通过分类与回归两个分支，以全卷积的方式生成模型预测值，即预测一个类别敏感的语义图作为果实存在的概率，以及一个正样本对应原图中心点与边框坐标的映射关系；

每一层特征图分别接以分类、中心度、回归三个分支，分别负责预测特征图上每一个空间位置属于果实的置信度、距离果实中心的偏移程度及对应在原图坐标到真实框四条边的距离；

其中，分类和回归分支分别使用两条不同的全卷积通道解耦预测，使其更专注于各自的训练任务，中心度的预测相对简单，因此和分类共享同一部分全卷积网络，最后分别通过1个1×1卷积核和C个1×1卷积核得到中心度与分类输出。

所述步骤S3中，根据目标果实真实框的面积，将其分配给特征金字塔中对应的特征图负责预测，得到该真实框在重构特征图上的正采样区域，并由其所对应的真实框的标注信息生成每个空间位置的训练目标；训练目标包括分类训练目标和边框回归训练目标；具体包括：

(1)正负样本判定：获取当前层级的特征图负责预测的真实框在特征图上的对应区域，再以收缩因子进行收缩后得到正采样区域，正采样区域内的每一个空间位置为正样本，其它均为负样本；

对于特征图F_i上的每个位置A:(x,y)，按照当前层次的下采样数S_l可得其在输入图片上对应感受野区域的中心左边为：

如果A'落在了真实标注框G:(x₁,y₁,x₂,y₂)内，则将空间位置A视为训练阶段的正样本点；反之，即A'落在了G之外，则全部视为负样本点。

(2)中心度计算：将中心度的预测值与分类分支对应位置的预测值相乘作为最后预测框的置信度，从而有效地抑制远离果实中心的正样本点预测的边界框。

中心度为从具体位置(x,y)到该位置负责的对象中心的标准化距离，当给定一个未知的回归目标l^*,t^*,r^*,b^*，则中心度目标定义为：

在centerness中用根号来减缓中心的衰减，centerness的取值范围为[0,1]，当映射坐标位于真实框正中心时，centerness取值为1，随着映射坐标朝着真实框四周偏移而逐渐衰减。

(3)分类与回归目标：按照正采样点所对应的标注框信息，正样本对应的分类训练目标为与其对应的真实框的类别标签，正样本对应的边框回归训练目标为其在输入图片上的对应坐标与真实框四条边之间的正则化偏移。

在本实施例中，在对果实检测模型进行训练的过程中，通过迭代训练预估经过模型训练得到的预测边框与真实框之间的损失，并按照损失值反向传播梯度来更新模型参数，直至损失减少并收敛至一个取值区间，得到一个最优的模型训练的损失函数。即，采用Focal Loss计算分类分支产生的类别置信度与分类目标之间的损失，采用IoU Loss计算正样本预测的正则化边框偏移与回归目标之间的损失，采用BCE Loss计算中心度产生的损失，通过梯度反向传播及模型的迭代训练，拟合训练数据，得到最优模型。

在FRS-Det模型中的损失中依据模型各分支的预测目标、任务类型、正负样本占比等因素，其损失函数由L_cl、L_reg和L_cen三部分组成，其损失函数如下所示：

L({cl_x,y},{reg_x,y},{cen_x,y})＝L_cl+L_reg+L_cen

式中，cl_x,y，reg_x,y，cen_x,y分别为模型在分类分支、回归分支、中心度分支在空间位置(x,y)处的预测值，

分别对应空间位置(x,y)处的训练目标；L_class、L_regression和L_centerness分别对应分类、回归、中心度分支的损失函数，分别采用Focal Loss、IoU Loss和BCE Loss计算，且L_regression和L_centerness仅针对正样本而言；N_pos表示正样本数量；α、β为各损失项的平衡系数。

其中，分类分支的损失函数L_class，如下式所示：

其中：

上式中，γ负责平衡正负样本之间的重要性，θ负责调节简单样本权重降低的速率。

回归分支的损失函数L_regression，如下式所示：

上式中，

与

分别为预测框与真实框之间的相交面积与合并面积。

中心度分支的损失函数L_centerness，如下式所示：

本实施例方法具有简单高效性，对目标果实的检测在保证检测精度的前提下，大幅度提高实时性，满足采摘机器人对精度和鲁棒性的要求。

实施例2

本实施例提供一种复杂果园环境下的果实检测系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种复杂果园环境下的果实检测方法，其特征在于，包括：

2.如权利要求1所述的一种复杂果园环境下的果实检测方法，其特征在于，提取果实图像的图像特征的过程包括：采用优化的残差网络提取图像特征，所述优化的残差网络为将残差网络中的每个卷积层替换为可切换空洞卷积，所述可切换空洞卷积为在卷积层之间引入扩张率参数，且利用添加空洞扩大感受野。

3.如权利要求1所述的一种复杂果园环境下的果实检测方法，其特征在于，多尺度特征融合的过程包括：对图像特征采用递归特征金字塔按自顶向下与横向连接的方式进行融合，所述递归特征金字塔为在特征金字塔上加入反馈连接和汇集空间金字塔而构建。

4.如权利要求1所述的一种复杂果园环境下的果实检测方法，其特征在于，对得到的融合特征图以逐像素方式进行重构的过程包括：通过双向卷积添加特征地图，对每个特征点标注包围盒，根据包围盒的坐标得到包围盒在特征地图上对应的特征向量，采用双线性插值方法更新特征向量，遍历特征点后重构特征图。

5.如权利要求1所述的一种复杂果园环境下的果实检测方法，其特征在于，所述训练目标包括分类训练目标和边框回归训练目标。

6.如权利要求5所述的一种复杂果园环境下的果实检测方法，其特征在于，所述分类训练目标为与对应的真实框的类别标签，所述边框回归训练目标为在果实图像上对应的坐标与真实框之间的正则化偏移。

7.如权利要求1所述的一种复杂果园环境下的果实检测方法，其特征在于，对果实检测模型进行训练的过程中采用多损失函数，多损失函数包括分类分支产生的类别置信度与分类目标之间的损失函数、正样本预测的正则化边框偏移与回归目标之间的损失函数以及中心度损失函数。

8.一种复杂果园环境下的果实检测系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。