CN113343749A

CN113343749A - 基于D2Det模型的果实识别方法及系统

Info

Publication number: CN113343749A
Application number: CN202110394851.9A
Authority: CN
Inventors: 魏金梦; 贾伟宽; 丁艳辉; 马晓慧; 张琦
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-09-03

Abstract

本发明公开了基于D2Det模型的果实识别方法及系统，包括：获取待识别图像；对所述待识别图像进行预处理；对预处理后的待识别图像进行特征提取；基于提取的特征，得到感兴趣区域特征；采用训练后的D2Det模型，对感兴趣区域特征进行目标定位和目标分类；基于目标定位和目标分类结果，完成目标检测，在目标检测完成的基础上对待识别图像的果实进行分割，得到只包含果实的图像。本发明在回归偏移量上做出了很好的创新，能够有效的提高果实识别的准确率，即使是严重遮挡到的果实也能够被识别出来，进而提高机器采摘的准确性，并且能够降低背景的干扰。

Description

基于D2Det模型的果实识别方法及系统

技术领域

本发明涉及果实识别技术领域，特别是涉及基于D2Det模型的果实识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

果实采摘中最核心的问题是果实的识别问题，为了不断的优化果实的识别精度，科研人员一直在进行优化改进算法。但是果实识别容易受到客观条件的影响，比如天气，温度，光线，角度等，还有树叶枝干对果实的遮挡，以及果实容易出现的粘连重叠现象，都会影响机器人识别的效率，导致识别的精度不够准确，效率不够高。因此，机器人果实识别还是存在着各种各样的问题。

为了更好的解决这个问题，很多科研人员不断的做着努力，不断对算法进行优化和创新。大多数的模型都是在回归和特征提取方面做出了优化，以达到更高效的识别效率。目前，比较流行的方法有Faster R-CNN、Mask R-CNN等等，都在目标识别领域表现出优异的效果。但是对于严重遮挡和模糊的果实仍然难以识别，识别效果还有很大的提升空间。

发明内容

为了解决现有技术的不足，本发明提供了基于D2Det模型的果实识别方法及系统；在回归偏移量上做出了很好的创新，能够有效的提高果实识别的准确率，即使是严重遮挡到的果实也能够被识别出来，进而提高机器采摘的准确性。

第一方面，本发明提供了基于D2Det模型的果实识别方法；

基于D2Det模型的果实识别方法，包括：

获取待识别图像；对所述待识别图像进行预处理；

对预处理后的待识别图像进行特征提取；基于提取的特征，得到感兴趣区域特征；

采用训练后的D2Det模型，对感兴趣区域特征进行目标定位和目标分类；

基于目标定位和目标分类结果，完成目标检测，在目标检测完成的基础上对待识别图像的果实进行分割，得到只包含果实的图像。

第二方面，本发明提供了基于D2Det模型的果实识别系统；

基于D2Det模型的果实识别系统，包括：

获取模块，其被配置为：获取待识别图像；对所述待识别图像进行预处理；

特征提取模块，其被配置为：对预处理后的待识别图像进行特征提取；基于提取的特征，得到感兴趣区域特征；

目标定位和分类模块，其被配置为：采用训练后的D2Det模型，对感兴趣区域特征进行目标定位和目标分类；

图像分割模块，其被配置为：基于目标定位和目标分类结果，完成目标检测，在目标检测完成的基础上对待识别图像的果实进行分割，得到只包含果实的图像。

第三方面，本发明还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本发明还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

本发明在回归偏移量上做出了很好的创新，能够有效的提高果实识别的准确率，即使是严重遮挡到的果实也能够被识别出来，进而提高机器采摘的准确性，并且能够降低背景的干扰。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一的网络模型测试的整体流程图；

图2(a)～图2(i)为本发明实施例一的果园内采集到的不同形态的果实；

图3为本发明实施例一的主干网络MobileNet v2的网络结构图；

图4为本发明实施例一的FPN的网络结构图；

图5为本发明实施例一的D2Det模型的整体结构图；

图6为本发明实施例一的定位分支的结构图；

图7(a)～图7(f)为本发明实施例一的D2Det模型对苹果的检测效果。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于D2Det模型的果实识别方法；

如图1所示，基于D2Det模型的果实识别方法，包括：

S101：获取待识别图像；对所述待识别图像进行预处理；

S102：对预处理后的待识别图像进行特征提取；基于提取的特征，得到感兴趣区域特征；

S103：采用训练后的D2Det模型，对感兴趣区域特征进行目标定位和目标分类；

S104：基于目标定位和目标分类结果，完成目标检测，在目标检测完成的基础上对待识别图像的果实进行分割，得到只包含果实的图像。

进一步地，所述S101：获取待识别图像；具体包括：

在不同的天气和时间段条件下，使用相机或其他图像采集设备对自然环境下的苹果果树进行果实图像的采集。不同的天气和时间段，包括晴天，阴天，雨天，早上，中午和晚上等等。拍摄的角度要有远景和近景，正面和侧面。要尽可能的包含多种形态的果实。

进一步地，所述S101：对所述待识别图像进行预处理；具体包括：

S1011：对图像进行灰度化处理，减少所需处理的数据量；

S1012：用双线性插值法对图像进行空间变换，通过平移、旋转、缩放、镜像等几何变换处理图像；

S1013：用图像平滑和锐化等方法进行图像增强，改善图像的视觉效果，增强图像的有用信息。

进一步地，所述S102：对预处理后的待识别图像进行特征提取；具体包括：

基于改进的MobileNet v2主干网络，对预处理后的待识别图像进行特征提取。

所述改进的MobileNet v2主干网络，具体结构包括：依次连接的轻量级网络MobileNet v2和特征金字塔网络(Feature Pyramid Networks,FPN)；

轻量级网络MobileNet v2网络，包括：由左到右依次连接的

Expansion layer-Batch Normalization-ReLU6、Depthwise convolution-BatchNormalization-ReLU6和Project layer-Batch Normalization，所述参差块的输出端与特征金字塔网络(Feature Pyramid Networks,FPN)的输入端连接。

应理解的，所述基于MobileNet v2网络，对预处理后的待识别图像进行特征提取，MobileNet v2在数据输入之后使用Expansion Layer来扩展维度，得到高维度的数据，然后使用深度可分离卷积来提取高维度特征，最后使用Projection Layer将扩展后的数据压缩，让网络重新变成轻量级的网络。

应理解的，特征金字塔网络(Feature Pyramid Networks,FPN)的网络结构大体上分为三个部分，即buttom-up自底向上的特征抽取，自顶向下的上采样，以及侧边融合通道(lateral coonnection)。通过这三个结构网络的每一层均会具有较强的语义信息，且能很好的满足速度和内存的要求。

MobileNet v2网络采取先升维后降维的方式，能够有效的减少计算和参数量。MobileNet v2的翻转残差结构如图3所示，残差块将通过三个卷积层所得到的输出加上输入x,就输出最终的结果。

使用特征金字塔网络(Feature Pyramid Networks,FPN)来提取图像特征，FPN的网络结构如图4所示，FPN整体结构可以看作是自底向上的特征抽取和自顶向下的上采样。

进一步地，所述S102：基于提取的特征，得到感兴趣ROI区域；具体包括：

通过区域生成网络RPN(Region Proposal Network)对提取的特征进行处理，得到感兴趣ROI区域。

进一步地，所述S103：采用训练后的D2Det模型，对ROI特征进行目标定位和目标分类；具体包括：

采用训练后的D2Det模型的回归分支，对ROI特征进行目标定位；

采用训练后的D2Det模型的分类分支，对ROI特征进行目标分类。

进一步地，所述对ROI特征进行目标定位；具体包括：

S103a1：将ROI特征，划分为k*k维的空间相邻的局部特征；

S103a2：将局部特征与已标注目标框ground-truth重叠占比大于0.5的局部特征视为阳性样本，阳性样本即为正样本，正样本即为目标果实区域，将正样本到已标注目标框的偏移量视为有效偏移量，最后计算有效偏移量的平均值，根据有效偏移量的平均值，对每一个局部特征进行偏移，得到目标定位结果。

对每一层的特征图分别进行测试，通过分类与回归两个分支，计算每个局部特征与已标注目标框ground-truth四边的偏移矢量，再通过正负样本去掉无效的偏移量，并求出有效偏移量的平均值。

如图5所示，是D2Det模型的整体结构。如图5右上角所示，上面的分支用来回归目标，计算偏移矢量。

在回归分支中，将RPN产生的这k*k维的RoI特征视为k²个局部空间相邻的局部特征，把k*k大小的RoI特征上的每一个局部特征都进行一次偏移量计算。

如图6所示，是回归计算的结构图。偏移量计算了每一个局部特征p_i在点(x_i,y_i)到G(ground-truth)的左上角和右下角的距离。(x_l,y_t)代表G左上角的点，(x_r,y_b)代表G右下角的点。并且在该框架中，局部RoI特征p_i在左、上、右、下方向的稠密框偏移预测分别用

表示。与此相对应的，l_i,t_i,r_i,b_i代表在G，即ground-truth上左、上、右、下的偏移量预测。

最后可以获得k²个在四个方向上的位置偏移量。

公式为：l_i＝(x_i-x_l)/w_P，t_i＝(y_i-y_t)/h_P

r_i＝(x_r-x_i)/w_P，b_i＝(y_b-y_i)/h_P

计算有效的偏移矢量：在上一步中计算的偏移量，并不是每一个局部特征都属于有效的目标果实区域，为了去除背景的干扰，本发明引入了矢量

即候选区域(记为P)和ground truth区域(记为G)重合的部分才算做是有效区域，为了标记有效和无效的局部特征，引入了矢量

进行标记。

在进行训练时，m_i使用sigmoid函数归一化，当

时，m＝1,否则m＝0。这就相当于给计算过的偏移量加了一个过滤掩膜，将p_i＝1的局部特征视为是有效的，去掉p_i＝0的偏移量，最后将这些计算出来的小于k*k个有效偏移量求平均值，得到一个预测的目标检测位置。

最终，回归分支预测出五个输出

其中

该方法有效的减少了背景区域对最终偏移量预测的影响。

进一步地，对ROI特征进行目标分类；具体包括：

S103b1：通过一个

大小的RoI Align，将感兴趣区域特征图RoI feature分割成

个单元；

S103b2：通过全连接层来学习偏移，将感兴趣区域特征图RoI feature的每个单元按照目标区域框的长宽比例进行水平、竖直偏移，偏移是给特征图卷积核上的采样点增加偏移量，从而改变感受野的大小，使感受野成一个多边形；

S103b3：将感兴趣ROI区域特征图和带偏移的采样点共同作为卷积层的输入；然后对卷积层的输出采用加权池化操作，给采样点分配权值；

分配权值之后，通过哈达玛积处理，得到池化后的k*k大小的RoI feature；

S103b4：对池化后的k*k大小的RoI feature，经过两层全连接层进行分类，得到目标分类结果。

D2Det方法在分类上受到了可变性卷积的启发，为了能够更精确的提取到我们想要的特征，可变形卷积的卷积位置是可以变化的，并非在传统的N×N的网格上做卷积，而是在每一个卷积核的采样点上加入了一个偏移量，做尺度变换，从而能够根据目标的不规则形状，尽可能的采样更准确的特征。

如图5所示的下半部分，是分类分支的结构图，分别从第一阶段和第二阶段提取准确的目标候选区域获得相应性能的提升。具体地，分类分支从以下两个方面提高了分类的性能。

一方面，由RPN产生的候选区域，经过

大小的RoI Align将候选区域分割成

个单元，参数只有可变形RoI池化的标准偏移量预测的1/4大小。接着接入全连接层来学习偏移，然后通过一个RoI Pooling层使每一个单元按照RoI的长宽比例进行水平、竖直偏移。

另一方面，在偏移量预测之后，将原始的候选区域和偏移之后的采样点共同作为卷积层的输入。加权池化(weighted pooling)给更具备判别性的采样点分配更高的权重。原始采样点中的RoIAlign特征，即F∈R^2k×2k，被用来预测其相应的权重W(F)∈R^2k×2k，该权重代表了k×k个空间子区域内四个采样点的辨别能力。

如图4所示，展示了一个单元内的四个采样点

及其相应的自适应权重

候选区域的加权RoI特征通过以下方法获得：

其中⊙被称为哈达玛积，F表示四个采样点的位置值。本发明使用卷积操作，从F中计算权重W(F)，并使用一个步长为2的平均池化对F～操作，就能得到k*k大小的RoI特征。

标准的可形变兴趣区域池化使用k*k大小的RoIAlign，从每个单元内得到四个采样点，然后给他们分配相同的权重再进行平均计算。

相比之下，D2Det的方法能够自适应的给更具有特征信息的采样点，分配更高的权值，这使得采样点的特征信息更具有区分度，使D2Det方法更有效精确。

该模型最后的预测结果如图7(a)～图7(f)所示，在果实的各种形态场景下，都有良好的检测效果。

进一步地，所述训练后的D2Det模型，训练步骤包括：

构建训练集，所述训练集为已知果实位置坐标的图像；

将训练集输入到D2Det模型中，对D2Det模型进行训练，当损失函数达到最小值或迭代次数满足设定要求时，停止训练，得到训练后的D2Det模型。

使用交叉熵损失函数，以及Smooth L1 Loss计算正样本预测的正则化边框偏移与回归目标之间的损失。稠密局部回归分支只使用正样本进行训练。通过梯度反向传播及模型的迭代训练，拟合训练数据，得到最优模型。在训练期间，调整输入图像的大小，使较短的边缘为800像素。

进一步地，所述构建训练集，具体包括：

采集图像；对采集到的图像用labelme软件进行标注，标注出果实的形状，并且标记类别，制作成数据集。

采集到的图像要尽可能包含果实在不同天气和角度下的状态，以尽可以代表真实的采摘会遇到的困难，如图2(a)～图2(i)所示。将采集的图像统一尺寸至600×400，并借助labelme图像标注软件，按照MS COCO数据集的格式生成标注文件，方便后续生成模型的训练目标。

进一步地，所述S104：基于目标定位和目标分类结果，对待识别图像的果实进行分割，得到只包含果实的图像；具体包括：

分割过程中基于检测框的像素进行分割，使用二值掩膜预测，对每一个像素进行正负样本的判断，正样本就是待分割的区域；

随后，连接两个反卷积层把输出分辨率放大到q倍，增加空间分辨率。

q的取值为4。

本发明对拍摄的苹果图片进行采样得到原始的果实图片；对这些原始图片进行预处理，处理成D2Det模型输入所要求的格式，增强图像的有用信息；将果实图像训练集输入到D2Det模型中；输入到该模型的特征图通过区域生成网络RPN提取候选框。这些候选框被送入到两个不同的分支，分别是检测和定位分支，这是一个两阶段的方法；最后对检测完的果实进行实例分割。通过D2Det模型实现目标果实的精准识别，精确度十分高。本发明对即使是被严重遮挡的果实也能实现很好的效果，并且能够降低背景的干扰。

将采集到的图像用图像标注工具Labelme进行果实标注，标注出果实的位置形状和种类名称等。

基于主干网络ResNet，用FPN来提取图像特征，FPN是一种高效的CNN特征提取方法。

本发明提出了新颖的计算偏移量的方法，是D2Det模型的核心回归分支。

在目标检测之后，需要对果实目标进行分割。将回归分支中的矢量

对正负样本进行训练，筛选出来的正样本由回归分支计算的偏移量进行偏移之后，就可以进行分割。

实施例二

本实施例提供了基于D2Det模型的果实识别系统；

基于D2Det模型的果实识别系统，包括：

此处需要说明的是，上述获取模块、特征提取模块、目标定位和分类模块和图像分割模块对应于实施例一中的步骤S101至S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于D2Det模型的果实识别方法，其特征是，包括：

获取待识别图像；对所述待识别图像进行预处理；

2.如权利要求1所述的基于D2Det模型的果实识别方法，其特征是，对预处理后的待识别图像进行特征提取；具体包括：

基于改进的MobileNet v2主干网络，对预处理后的待识别图像进行特征提取；所述改进的MobileNet v2主干网络，具体结构包括：依次连接的轻量级网络MobileNet v2和特征金字塔网络FPN。

3.如权利要求1所述的基于D2Det模型的果实识别方法，其特征是，基于提取的特征，得到感兴趣ROI区域；具体包括：

通过区域生成网络RPN对提取的特征进行处理，得到感兴趣ROI区域。

4.如权利要求1所述的基于D2Det模型的果实识别方法，其特征是，采用训练后的D2Det模型，对感兴趣ROI区域进行目标定位和目标分类；具体包括：

采用训练后的D2Det模型的回归分支，对感兴趣ROI区域进行目标定位；

采用训练后的D2Det模型的分类分支，对感兴趣ROI区域进行目标分类。

5.如权利要求4所述的基于D2Det模型的果实识别方法，其特征是，所述对感兴趣ROI区域进行目标定位；具体包括：

将感兴趣ROI区域，划分为k*k维的空间相邻的局部特征；

将局部特征与已标注目标框ground-truth重叠占比大于0.5的局部特征视为阳性样本，阳性样本即为正样本，正样本即为目标果实区域，将正样本到已标注目标框的偏移量视为有效偏移量，最后计算有效偏移量的平均值，根据有效偏移量的平均值，对每一个局部特征进行偏移，得到目标定位结果。

6.如权利要求4所述的基于D2Det模型的果实识别方法，其特征是，对感兴趣ROI区域进行目标分类；具体包括：

通过一个

大小的RoI Align，将感兴趣区域特征图RoI feature分割成

个单元；

通过全连接层来学习偏移，将感兴趣区域特征图RoI feature的每个单元按照目标区域框的长宽比例进行水平、竖直偏移，偏移是给特征图卷积核上的采样点增加偏移量，从而改变感受野的大小，使感受野成一个多边形；

将感兴趣ROI区域特征图和带偏移的采样点共同作为卷积层的输入；然后对卷积层的输出采用加权池化操作，给采样点分配权值；分配权值之后，通过哈达玛积处理，得到池化后的k*k大小的RoI feature；

对池化后的k*k大小的RoI feature，经过两层全连接层进行分类，得到目标分类结果。

7.如权利要求1所述的基于D2Det模型的果实识别方法，其特征是，基于目标定位和目标分类结果，对待识别图像的果实进行分割，得到只包含果实的图像；具体包括：

8.基于D2Det模型的果实识别系统，其特征是，包括：

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。