CN112906780A

CN112906780A - 一种果蔬图像分类系统及方法

Info

Publication number: CN112906780A
Application number: CN202110171006.5A
Authority: CN
Inventors: 闵巍庆; 王致岭; 蒋树强
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-06-04

Abstract

本发明公开了一种果蔬图像分类系统，包括用于提取输入果蔬图像特征图的卷积神经网络、用于识别果蔬图像的低维特征图中的低维关键特征图的低维SCA注意力模块、用于识别果蔬图像的中维特征图中的中维关键特征图的中维SCA注意力模块、用于识别果蔬图像的高维特征图中的高维关键特征图的高维SCA注意力模块、与每一个SCA注意力模块链接的池化层；所述果蔬图像分类系统还包括：多尺度特征融合模块，用于对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理，生成统一的特征表示；全连接层，用于根据统一的特征表示对果蔬图像进行分类。

Description

一种果蔬图像分类系统及方法

技术领域

本发明涉及图像处理领域，具体来说，涉及果蔬图像分类领域，更具体地说，涉及果蔬识别技术，即一种果蔬图像分类系统及方法。

背景技术

食品计算技术推动了食品工业的迅猛发展，作为食品计算的一个重要分支，果蔬识别在现实场景中有着非常广泛的应用，例如水果采摘机器人使用果蔬识别技术进一步提高采摘效率，超市中利用果蔬识别技术进行智能称重与结账，家庭中的冰箱使用果蔬识别技术进行果蔬品质管理等。但是，果蔬图像分类也存在着三大难点：(1)同一种水果包含多种多样的视觉信息，例如在根据菠萝的图片对其进行描述时，我们可以观察到的视觉信息包括：黄色的果体，绿色的叶子，果体表面粗糙不平，叶子为锯齿形条状等等，所有这些视觉信息构成了菠萝图像的主要特征，并帮助我们将菠萝和其他水果进行区分，如果只选择采用其中的一种视觉信息则无法很好地区别出菠萝这种水果。(2)果蔬图像存在着非常大的视觉差异，对于同一种水果而言，可能它的图像在视觉上差别非常大，这既取决于图像中水果的成熟程度，也取决于果蔬在图像中的呈现方式(有些水果是一个整体，有些被切片或者切开，甚至有些果蔬被包装起来)，此外，果蔬在图像中的数目也会造成图像上巨大的视觉差异。(3)果蔬图像的背景变化不一且存在较大噪声，部分果蔬图像的背景上经常存在着大量与果蔬本体无关的信息，如其生长的枝叶或者盛放的容具，而且，图像中的果蔬会由于光照角度或阴影遮挡产生巨大的视觉变化，这进一步加大了识别的难度。为了解决以上问题，有些研究者基于专业的传感器去获得果蔬的高光谱图像去对其进行分类；有些研究者设计了深层次的神经网络结构去捕获果蔬图像的特征，这种方法能够捕捉到果蔬主体显著性区域，从而提升分类性能。也有些研究用数据增强的手段去进一步获得利于分类的有效图像信息，进而提高果蔬识别的准确率。

从上述描述可知，现有部分方法是依靠专业设备仪器去进行识别，例如近红外呈像仪与触觉传感器等，但是这些设备比较昂贵，不利于该技术的普遍应用。还有一大部分方法是通过卷积神经网络(CNN)直接提取深度视觉特征用于果蔬图像分类，但是他们忽略了果蔬图像本身的特点，因此难以实现最佳性能。另外，这些方法大多直接将识别其他物体的模型迁移到果蔬识别任务中，没有考虑果蔬识别的任务特点。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种新的基于多尺度特征融合机制的果蔬图像分类系统及方法。

根据本发明的第一方面，提供一种果蔬图像分类系统，包括卷积神经网络，所述卷积神经网络包括：前层，用于提取输入果蔬图像的低维特征图；中层，用于提取果蔬图像的中维特征图；后层，用于提取果蔬图像的高维特征图；所述果蔬图像分类系统还包括：低维SCA注意力模块，用于识别所述前层提取的果蔬图像的低维特征图中的低维关键特征图；低维池化层，用于对所述低维关键特征图进行池化处理；中维SCA注意力模块，用于识别所述中层提取的果蔬图像的中维特征图中的中维关键特征图；中维池化层，用于对所述中维关键图特征进行池化处理；高维SCA注意力模块，用于识别所述高层提取的果蔬图像的高维特征图中的高维关键特征图；高维池化层，用于对所述高维关键特征图进行池化处理；多尺度特征融合模块，用于对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理，生成统一的特征表示；全连接层，用于根据统一的特征表示对果蔬图像进行分类。

在本发明的一些实施例中，所述神经网络的前层包含3个卷积层，分别为第1层、第2层、第3层；所述神经网络的中层包括1个卷积层，为第4层；所述神经网络的后层包括1个卷积层，为第5层。

优选的，所述低维池化层、中维池化层、高维池化层均为全局平均池化层。

优选的，所述低维SCA注意力模块、中维SCA注意力模块、高维SCA注意力模块均分别包括：空间注意力模块，用于从空间维度识别对应输入特征图的空间注意力特征图；通道注意力模块，用于从通道维度识别对应输入特征图的通道注意力特征图；融合注意力模块，用于将从空间维度识别到的空间注意力特征图和从通道维度识别到的通道注意力特征图进行融合以得到输入特征对应的显著性权重特征图并与原始输入特征图进行乘积操作得到新的特征图。在本发明的一些实施例中，所述空间注意力模块包括依次连接的全局平均池化层、卷积核为3x3的卷积层、双线性层、卷积核为1x1的卷积层；其中，全局平均池化层将输入的特征图转化为通道数为1的新的特征图，卷积核为3×3的卷积层对新的特征图进行卷积求出空间上关键信息，双线性层和卷积核为1×1的卷积层一起将前层输出的特征图缩放生成至和原先输入特征图尺寸相同的空间注意力特征图；所述通道注意力模块包括：包括依次链接的全局平均池化层、卷积核为1x1的卷积层、卷积核为1x1的卷积层；其中，全局平均池化层发对输入的特征图的每个通道进行滤波以将分布在空间上的特征信息融合到一个通度信号上，两个卷积核为1X1的卷积层对滤波后的特征图进行激活操作得到和原先输入特征图尺寸相同的通道注意力特征图；所述融合模块包括卷积核为1x1的卷积层。

优选的，所述多尺度特征融合模块被配置为按照如下方式对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理：

其中，F表示多尺度特征融合模块的输出，Agg()表示特征融合手段对应的特征融合函数，k表示网络层尺度，N表示最底层的尺度，

表示经全局平均池化层处理后的第k层特征图的平均值。

根据本发明的第二方面，提供一种训练果蔬图像分类系统的方法，用于训练如本发明第一方面所述的果蔬图像分类系统，包括：T1、获取果蔬图像数据集，将其划分为训练集和测试集；T2、用训练集对果蔬图像分类系统按照预设的方式进行多次训练至收敛，其中，每次训练时用验证集验证系统的分类准确率并将其与上一次训练后的系统的分类准确率进行对比，保留分类准确率高的系统进入下一次训练。

根据本发明的第三方面，提供一种果蔬图像分类方法，采用本发明第二方面所述方法训练的果蔬图像分类系统对果蔬图像进行分类，包括如下步骤：S1、获取果蔬原始图像，采用神经网络分别获取其低维特征图、中维特征图、高维特征图；S2、分别采用独立的SCA注意力模块分别识别低维特征图、中维特征图、高维特征图中的果蔬关键特征以得到低维关键特征图、中维关键特征图、高维关键特征图；S3、将步骤S2得到的低维关键特征图、中维关键特征图、高维关键特征图分别进行池化处理获得每个特征图的平均值；S4、采用多尺度特征融合模块将步骤S3中获得的每个特征图的平均值进行融合以生成一个统一的特征表示；S5、基于步骤S4生成的统一的特征表示对果蔬进行分类。

与现有技术相比，本发明的优点在于：本发明的果蔬图像分类系统中将通道注意力与空间注意力融合起来，进而有效去识别果蔬图像中的最关键特征，克服了同一类别下图像视觉差异巨大的问题，同时可以有效降低枝叶遮挡和光照明暗对识别精度的影响，进而提升了分类性能；本发明提出了多尺度特征融合机制，可以探索不同尺度的果蔬图像，将不同尺度的图像合成多尺度的特征表示，这种表示更具有鲁棒性，区分性，且能够更为全面地描述果蔬的特征，由此可以提升果蔬分类的性能；本发明将多尺度特征融合手段与注意力机制有机融合起来，从果蔬图像中挖掘出更具有判别性，更为全面的视觉特征，这种特征更佳利于识别，可以高效地提高果蔬图像识别的精度。相比于现有技术，本发明的系统模型更加针对果蔬图像的特点，不仅考虑了果蔬图像所特有的多种关键信息，而且考虑了果蔬图像的类内差异大和背景噪声大的问题。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的果蔬图像分类系统框架示意图；

图2为根据本发明实施例的SCA注意力模块结构示意图；

图3为根据本发明实施例的相似水果可视化后的关键区域示意图；

图4为根据本发明实施例的一些水果在不同分类网络下的可视化结果示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的目的是解决上述现有技术并没有针对果蔬图像本身特点进行识别的问题，提出了一种基于注意力机制与融合多尺度特征方法的果蔬图像分类系统及方法。

发明人在进行果蔬图像分类领域的研究时发现，果蔬图像分类和其他图像分类一样，最主要的关键点是提取最具有判别性的特征，然而，果蔬图像却面临不同于其他图像识别任务的挑战。首先，与一般的物体分类任务不同，许多类型的果蔬包含不止一个关键特征信息，常见的物体分类方法在果蔬图像上性能不佳。其次，同一类别的果蔬图像的内容可能差别很大，这和它的成熟度，呈放位置，以及是否被切开都有着密切的关系，而且同一种果蔬在切开和未被切开的情况下视觉差异非常大。另外，类似于主体识别(objectrecognition)，果蔬图像还具有各种几何变体，例如不同的视角，旋转和比例。此外，很多果蔬图像来自于现实场景实际拍摄，因此图像的光照明暗，枝叶的遮挡程度等因素都会给图像带来大量的噪声，进一步加剧了识别的难度。现有的果蔬识别方法通常使用CNN直接从整个果蔬图像中提取视觉特征，并且没有考虑果蔬图像的特性。基于此，本发明利用了时空注意力机制去从果蔬图像中提取最关键的区域，进而去提取出果蔬的最具判别性的模式，从而有效克服了背景噪声和同一类别下不同图像视觉差异巨大的影响。此外，本发明还探索了不同尺度的果蔬图像，这种方式可以探索出同一果蔬图像中的多个不同关键信息，并将它们融合成多尺度的特征表示。这种表示更具有鲁棒性，区分性，且能够更为全面地描述果蔬的特征。基于以上研究发现，本发明提出了一种基于融合注意力机制的多尺度果蔬图像分类系统及方法。

本发明提供一种果蔬图像分类系统，所示果蔬图像分类系统包括神经网络、多个SCA注意力模块、多个与SCA注意力模块一一对应的池化层、多尺度特征融合模块、全连接层。根据本发明的一个实施例，如图1所示，所示果蔬图像分类系统包括一个5层卷积层的神经网络，其中第1层、第2层、第3层为前层，用于提取输入的果蔬图像的低维特征图；第4层为中层，用于提取输入果蔬图像的中维特征图；第5层为后层，用于提取输入果蔬图像的高维特征图；在前层处配置低维SCA注意力模块去提取低维特征图中的关键特征，中层处配置中维SCA注意力模块去提取中维特征图中的关键特征、后层处配置高维SCA注意力模块去提取高维特征图中的关键特征，在每个SCA注意力模块后配置池化层用于分别将提取到的关键特征进行池化层处理，经池化处理后的特征图由多尺度融合模块进行融合以生成统一的特征表示，全连接层基于统一的特征表示对输入果蔬图像进行分类识别。

根据本发明的一个实施例，神经网络可以是现有技术下的CNN，例如VGG，ResNet和DenseNet等。可以根据实际应用需求，选择不同的神经网络结构，其中，随着网络的加深，图像的尺度也会不断地变小，图像中关注的信息也在逐渐变化。因此，本发明中采用SCA注意力模块对不同维度的特征进行进一步的识别，提取更具判别性的果蔬特征，例如，以上述实施例中的5层卷积神经网络为例，第3层卷积层获取的低维特征更加关注果蔬的边缘信息，而第5层卷积层获取的特征则更关注果蔬的语义模式，本发明我们将每层后面经过SCA注意力模块得到的显著性的果蔬图像特征送入池化层，第3层卷积层对应的池化层输出的是一个512维的向量，第4层卷积层对应的池化层输出的是一个1024维的向量，第5层卷积层对应的池化层输出的是一个2048维的向量，根据本发明的一个实施例，此处池化的方式均为全局平均池化，然后我们将三个维度的池化层的输出通过多尺度特征融合模块融合起来，这种融合后的多尺度特征能够将不同的果蔬图像的有效信息结合起来，从而更加有利于果蔬的识别。

注意力机制在图像识别领域得到了广泛应用，因为它能够从图像中提取出最具有判别性的区域。因此，我们探索将这种方法应用到果蔬识别的任务中去，在我们的框架中，设计了一种SCA注意力模块去联合学习果蔬图像的关键特征。根据本发明的一个实施例，低维SCA注意力模块、中维SCA注意力模块、高维SCA注意力模块均采用相同的结构，均包含空间注意力模块、通道注意力模块、融合注意力模块，其中，根据本发明的一个实施例，如图2所示，空间注意力模块用于从空间维度识别对应输入特征图的空间注意力特征图；通道注意力模块用于从通道维度识别对应输入特征图的通道注意力特征图；融合注意力模块用于将从空间维度识别到的空间注意力特征图和从通道维度识别到的通道注意力特征图进行融合以得到输入特征对应的显著性权重特征图并与原始输入特征图进行乘积操作得到新的特征图。从图2可以看出，SCA注意力模块是空间注意力和通道注意力两个模块融合组成的，它能够从不同维度连贯地捕获果蔬主体的最显著特征，进而学习到该维度的最佳特征。在本发明中，输入到SCA注意力模块的是一个3-D张量

其中w表示其宽度，h表示高度，b表示通道数，

表示网络的层数，R是实数空间，该模块旨在生成一个显著性的权重特征图

它和

的大小尺寸一致，我们采用如下公式获得：

其中，

和

分别表示空间注意力模块和通道注意力模块得到的特征图。

对于空间注意力模块，根据本发明的一个实施例，由一个全局平均池化层、一个卷积核为3×3的卷积层、一个双线性层和一个卷积核为1×1的卷积层组成，对于输入张量

(

表示的是整个神经网络的第几层，根据输入张量的不同即低维特征图、中维特征图、高维特征图，

也不同)，其中，全局平均池化层将输入的特征图转化为通道数为1的新的特征图，卷积核为3×3的卷积层对此新的特征图进行卷积求出空间上关键信息，双线性层和卷积核为1×1的卷积层一起用于将上一层输出的特征图缩放生成至和最原先输入特征图尺寸相同的特征图。对于输入的张量，本发明中将其输入到空间注意力模块中的层中进行计算，该过程的计算过程可通过如下公式表示：

对于通道注意力模块，本发明使用的是压缩-激励的操作,首先对于输入的张量，将其输入到池化层中，如下所示：

这个公式表示对整个图像的每个通道进行滤波，它能够将分布在空间上的特征信息融合到一个通度信号上，因此为后续的操作中的通道间相关性建模提供了完整的信息。接着将该输出输入到两个卷积核为1X1的卷积层进行激活操作，即

上述公式中

和

分别表示2个卷积层的参数矩阵，r表示瓶颈衰减率，得到这个通道注意力特征图

后，将其与空间注意力特征图

相乘，将得到的输出经过一个1X1的卷积层和sigmoid函数后得到原输入每个位置上对应的权重，然后将这个权重与原输入相乘，进而得到了经过注意力加权后的显著性权重特征图

当获得了显著性的权重特征图

之后，将其与原特征图做乘积操作的到一个新的特征图X_out，并将其送到一个全局平均池化层去获得每个特征图的平均值X_avg∈R^1×1×b,由于在神经网络的前层、中层、后层均采用了SCA注意力模块去分别识别低维特征图、中维特征图、高维特征图中的关键特征，并将识别到的关键特征送入对应的池化层进行池化处理，这可以使每个特征图理解为类别置信度图，且可以有效避免模型的过拟合，然后将每层的X_avg送入到多尺度特征融合模块中。

本发明中所述的多尺度特征融合机制是一种能够有效表达图像特征的先进手段，它表达的特征更具有鲁棒性，能够更为全面地描图像主体的关键信息。仍旧以图1中的实施例为例，如图1所示，本发明可以从网络的不同层中获得不同尺度的特征，包含来自第三层的低维特征、来自第四层的中维特征、以及来自第五层的高维特征。这些不同维度的特征由于具有不同的尺度，因此描述果蔬主体的不同的关键信息，涉及纹理、形状、以及颜色等。不同类型的特征从不同的粒度描述水果图像，所有的这些关键信息对于识别出果蔬而言都是非常重要的。因此，本发明将融合这些具有判别性的特征生成一个统一的特征表示，假设k表示尺度，当k＝1表示整个图像，当k＝N表示最底层的尺度，即最小尺度。最终本发明可以获得来自网络不同层的特征表示

然后将这些特征融合成一个统一的特征表示，公式如下：

此处的特征融合函数Agg()可以使用各种有用的融合手段，比如级联操作或者是前馈神经网络的方法。通过这种方法融合出来的统一特征更具有鲁棒性、判别性、全面性，然后将融合后的特征F送入到分类器(全连接层)中去获得对果蔬图像的预测结果。

通过上述实施例可以看出，本发明的果蔬图像分类系统中的SCA注意力模块，将通道注意力与空间注意力融合起来，进而有效去识别果蔬图像中的最关键特征，克服了同一类别下图像视觉差异巨大的问题，同时可以有效降低枝叶遮挡和光照明暗对识别精度的影响，进而提升了分类性能；本发明提出了多尺度特征融合机制，可以探索不同尺度的果蔬图像，将不同尺度的图像合成多尺度的特征表示，这种表示更具有鲁棒性，区分性，且能够更为全面地描述果蔬的特征，由此可以提升果蔬分类的性能；本发明将多尺度特征融合手段与注意力机制有机融合起来，从果蔬图像中挖掘出更具有判别性，更为全面的视觉特征，这种特征更佳利于识别，可以高效地提高果蔬图像识别的精度。相比于现有技术，本发明的系统模型更加针对果蔬图像的特点，不仅考虑了果蔬图像所特有的多种关键信息，而且考虑了果蔬图像的类内差异大和背景噪声大的问题。通过融合注意力机制的多尺度方式，最大可能地提高了分类性能，在多个公共数据集(Fru92、Fruits-360、FruitVeg-81、Hierarchical Grocery Store(Fru))都达到最好分类性能。

为了更好的说明本发明的技术效果，下面结合在不同数据集上的实验数据来说明本发明。根据本发明的一个施例，采用以下四个数据来进行实验：

Fru92:它一共包含涵盖92类水果，共计69,614张图像。在Fru92中，每个类别至少包含200张以上的图像。在每个类别下，选出前100张图像进行训练，然后再选择50张图像作为验证集，其余的图片当作测试集。本数据集的图片是通过在不同的网站上(例如Google和Flicker)进行搜索获得的。

Fruits-360:它包含来自107种水果的73,410张图像。这是迄今为止最大的果蔬图像数据集，训练集和测试集分别有54,963张图像和18,447张图像。

FruitVeg-81：它包含来自81种果蔬的15,737张图像，这些图像是通过手机拍摄SPAR杂货店得到的，训练集和测试集分别有9,378张图像和6,359张图像。

Hierarchical Grocery Store(Fru):它包含3480张果蔬图像，涉及50个类别，这些图像都是通过一部智能手机相机拍摄的。对于每个类别，将随机选择60％的图像进行训练，选择10％进行验证，其余30％进行测试。

在使用过程中，本发明使用的Pytorch框架去训练本发明的网络，将本发明的模型部署在16GB的Tesla V100显卡上，每张输入图像的尺寸设置为224*224，整个模型使用随机梯度下降的方法进行参数优化，批大小设置为32，模型动量为0.9，权重衰减设置为0.0001，初始学习率设置为0.01，每经过20次训练epoch,学习率降低一次，降低比率为10倍。然后使用4个数据集中的训练集去训练本发明的系统，使用TOP-1准确率和TOP-5准确率去评价本发明的系统模型，在训练过程中，对于训练得到模型使用验证集去测试该模型的准确率，选择验证集上准确率最高的模型作为最佳模型(如果没有验证集则选择在训练集上准确率最高的模型)，使用该最佳模型在测试集上进行测试。

将本发明的方法分别与经典的分类网络(AlexNet[9]，VGG-16[10],ResNet-152,WRN-50,Desnet-161,SENet-154)在四个果蔬数据集上进行了测评，这些算法的参数设置和本文方法保持一致，本发明使用TOP-1准确率和TOP-5准确率作为评价指标，实验结果如下表1所示：

表1

根据表1中的数据可以看出本发明的系统和方法在公开数据集上的性能优于其他方法。

为了进一步说明本发明的有效性，使用GradCAM做进一步的可视化分析，选择去可视化一些视觉上非常相似的水果图像去验证本发明的模型系统是否能够提取到最关键的特征。从Fru92中随机选取了一些水果种类进行可视化。如图3所示，可以看到：(1)本发明的模型系统可以提取水果图像中表面和内部的关键区域。图3中的关键区域是水果表面的顶部和水果内部的中间。(2)对于两个看起来极为相似的水果，例如Flat pea ch(蟠桃)和Juicy peach(水蜜桃)，本发明的方法可以根据其表面的顶部形状轻松地对其进行分类。此外，本发明还选取了一些水果图像输入到不同的分类网络中进行可视化，如图4所示的一些水果在不同分类网络下的可视化结果，水果的原始图像和真值被标注在了最上边，本发明通过对某一类别的正向梯度反向传播获得了对应的注意力区域。根据图4我们可以发现：(1)对于每个输入图像，我们给出了不同的分类网络下相应的注意力遮掩。可以观察到，本发明模型系统的注意遮掩比所有其他模型都更好地覆盖了目标对象区域。换句话说，本发明的模型系统具有更强大的能力，可以很好地理解各种水果的视觉模式，这一点主要是由于本发明的模型系统可以学习丰富的语义信息并使用多尺度和空间通道注意机制对其进行融合。(2)随着模型精度的提高，它更加关注于一些显著性的的特征，同时可以获得更多有用的区域。(3)还可以发现，ResNet-50，ResNet-152和DenseNet-161专注于对象区域的部分以及背景信息，这表明它们挖掘目标水果信息的能力较弱。相比之下，本发明的模型系统对目标对象区域的激活能力更强，这表明本发明的模型系统可以很好地从多尺度和SCA注意力机制中受益。例如，AlexNet和VGG-16主要关注菠萝的叶子，而ResNet-50，ResNet-101和ResNet-152则关注叶子及其背景。因此，所有这些模型都没有掌握菠萝识别的关键信息，即椭圆形状和规则纹理，而本发明的模型能够捕获这些信息，因此实现了高于其他方法的识别准确率。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种果蔬图像分类系统，包括卷积神经网络，所述卷积神经网络包括：前层，用于提取输入果蔬图像的低维特征图；中层，用于提取果蔬图像的中维特征图；后层，用于提取果蔬图像的高维特征图；其特征在于，所述果蔬图像分类系统还包括：

低维SCA注意力模块，用于识别所述前层提取的果蔬图像的低维特征图中的低维关键特征图；

低维池化层，用于对所述低维关键特征图进行池化处理；

中维SCA注意力模块，用于识别所述中层提取的果蔬图像的中维特征图中的中维关键特征图；

中维池化层，用于对所述中维关键图特征进行池化处理；

高维SCA注意力模块，用于识别所述高层提取的果蔬图像的高维特征图中的高维关键特征图；

高维池化层，用于对所述高维关键特征图进行池化处理；

多尺度特征融合模块，用于对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理，生成统一的特征表示；

全连接层，用于根据统一的特征表示对果蔬图像进行分类。

2.根据权利要求1所述的果蔬图像分类系统，其特征在于，所述神经网络的前层包含3个卷积层，分别为第1层、第2层、第3层；所述神经网络的中层包括1个卷积层，为第4层；所述神经网络的后层包括1个卷积层，为第5层。

3.根据权利要求1所述的果蔬图像分类系统，其特征在于，所述低维池化层、中维池化层、高维池化层均为全局平均池化层。

4.根据权利要求3所述的一种果蔬图像分类系统，其特征在于，所述低维SCA注意力模块、中维SCA注意力模块、高维SCA注意力模块均分别包括：

空间注意力模块，用于从空间维度识别对应输入特征图的空间注意力特征图；

通道注意力模块，用于从通道维度识别对应输入特征图的通道注意力特征图；

融合注意力模块，用于将从空间维度识别到的空间注意力特征图和从通道维度识别到的通道注意力特征图进行融合以得到输入特征对应的显著性权重特征图并与原始输入特征图进行乘积操作得到新的特征图。

5.根据权利要求4所述的一种果蔬图像分类系统，其特征在于，

所述空间注意力模块包括依次连接的全局平均池化层、卷积核为3x3的卷积层、双线性层、卷积核为1x1的卷积层；其中，全局平均池化层将输入的特征图转化为通道数为1的新的特征图，卷积核为3×3的卷积层对新的特征图进行卷积求出空间上关键信息，双线性层和卷积核为1×1的卷积层一起将前层输出的特征图缩放生成至和原先输入特征图尺寸相同的空间注意力特征图；

所述通道注意力模块包括：包括依次链接的全局平均池化层、卷积核为1x1的卷积层、卷积核为1x1的卷积层；其中，全局平均池化层发对输入的特征图的每个通道进行滤波以将分布在空间上的特征信息融合到一个通度信号上，两个卷积核为1X1的卷积层对滤波后的特征图进行激活操作得到和原先输入特征图尺寸相同的通道注意力特征图；

所述融合模块包括卷积核为1x1的卷积层。

6.根据权利要求5所述的一种果蔬图像分类系统，其特征在于，所述多尺度特征融合模块被配置为按照如下方式对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理：

表示经全局平均池化层处理后的第k层特征图的平均值。

7.一种训练果蔬图像分类系统的方法，用于训练如权利要求1-6任一所述的果蔬图像分类系统，其特征在于，包括：

T1、获取果蔬图像数据集，将其划分为训练集和测试集

T2、用训练集对果蔬图像分类系统按照预设的方式进行多次训练至收敛，其中，每次训练时用验证集验证系统的分类准确率并将其与上一次训练后的系统的分类准确率进行对比，保留分类准确率高的系统进入下一次训练。

8.一种果蔬图像分类方法，采用权利要求7所述方法训练的果蔬图像分类系统对果蔬图像进行分类，其特征在于，包括如下步骤：

S1、获取果蔬原始图像，采用神经网络分别获取其低维特征图、中维特征图、高维特征图；

S2、分别采用独立的SCA注意力模块分别识别低维特征图、中维特征图、高维特征图中的果蔬关键特征以得到低维关键特征图、中维关键特征图、高维关键特征图；

S3、将步骤S2得到的低维关键特征图、中维关键特征图、高维关键特征图分别进行池化处理获得每个特征图的平均值；

S4、采用多尺度特征融合模块将步骤S3中获得的每个特征图的平均值进行融合以生成一个统一的特征表示；

S5、基于步骤S4生成的统一的特征表示对果蔬进行分类。

9.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求8所述方法的步骤。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求8中所述方法的步骤。