CN117152162B

CN117152162B - 一种用于食品分拣的图像处理方法、设备和存储介质

Info

Publication number: CN117152162B
Application number: CN202311435251.8A
Authority: CN
Inventors: 许粟; 陶光灿; 费强; 吴思瑶; 陈光静; 扶胜; 胡艳; 李勇; 陈海江; 马风伟; 吴文能
Original assignee: Guizhou Jianyitest Technology Co ltd; Guiyang University
Current assignee: Guizhou Jianyitest Technology Co ltd; Guiyang University
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2023-12-26
Anticipated expiration: 2043-11-01
Also published as: CN117152162A

Abstract

本发明公开了一种用于食品分拣的图像处理方法、设备和存储介质，属于食品和图像处理领域。图像处理方法包括拍摄获得待分拣食品的数字图像，预处理层对数字图像进行卷积运算后，预处理层生成基础特征图；将基础特征图输入至训练后的信息挖掘层，信息挖掘层对基础特征图进行特征提取后，信息挖掘层生成成品特征图；将成品特征图输入至训练后的构建层，构建层重构得到特制图像。本发明在信息挖掘层中创造性地设计了递进交互式的注意力模块来生成调制信息，提升处理后图像的质量。预处理层、信息挖掘层、调制层和构建层构成的神经网络能够很好地理解输入信息的多样化特征，泛化能力强。

Description

一种用于食品分拣的图像处理方法、设备和存储介质

技术领域

本发明属于食品和图像处理领域，具体地说，涉及一种用于食品分拣的图像处理方法、设备和存储介质。

背景技术

在现代化的食品加工技术中，人工智能正在逐步与传统的自动化系统深入融合，实现食品加工系统的智能化升级。在以往的加工体系中，食品（比如水果）的分拣大多依靠人工目视进行区分，并不能严格地对食品的品质进行量化分类，导致分选标准带有很强的主观性，分拣结果不稳定，对产品的可靠性带来了很大的不利影响。通过引入图像分类技术，计算机利用采集到的数字图像自动对食品进行分选，可以很好地解决上述问题。对于一些食品（例如李子、樱桃等）而言，其表面是否存在裂口、疤痕等缺陷是一项非常重要的分选标准，而这些缺陷有时存在视觉表现不明显的特点。从实际应用的效果来看，现有的基于数字图像的目标检测和分类技术对裂口、疤痕等缺陷还存在较大的误判概率。

发明内容

针对现有技术中上述的不足，本发明提供了一种用于食品分拣的图像处理方法、设备和存储介质，通过该图像处理方法构建出更高质量的数字图像，降低食品分选过程中的误判率。

为了达到上述目的，本发明采用的解决方案是：一种用于食品分拣的图像处理方法，包括以下步骤：

步骤100、拍摄获得待分拣食品的数字图像，将所述数字图像输入至训练后的预处理层，所述预处理层对所述数字图像进行卷积运算后，所述预处理层生成基础特征图；预处理层的卷积核尺寸优选3×3，滑动步长通常为1；

步骤200、将所述基础特征图输入至训练后的信息挖掘层，所述信息挖掘层对所述基础特征图进行特征提取后，所述信息挖掘层生成成品特征图；

步骤300、将所述成品特征图输入至训练后的构建层，所述构建层重构得到与步骤100中待分拣食品的数字图像对应的特制图像，所述特制图像的分辨率高于所述数字图像的分辨率。

所述信息挖掘层提取特征的过程表示为如下数学模型：

；

其中，表示输入至所述信息挖掘层的特征图，/>、/>和/>均表示卷积层，且、/>、/>的卷积核大小各不相同，/>、/>和/>均表示第一类激活函数，/>、、/>分别为/>、/>、/>激活后输出的特征图；

表示元素对应乘积运算，/>表示对特征图进行最大池化运算，且/>的池化操作对象为特征图的各个图层，/>、/>、/>和/>均表示第二类激活函数，/>、/>和/>均表示滑动步长为2的普通池化操作，/>、/>和/>均表示第三类激活函数，/>表示/>激活输出特征图与/>激活输出特征图做元素对应乘积后得到的特征图，/>表示/>活输出特征图与/>激活输出特征图做元素对应乘积后得到的特征图，/>表示/>激活输出特征图与/>激活输出特征图做元素对应乘积后得到的特征图；

表示对特征图进行平均池化运算，且/>的池化操作对象为特征图的各个图层，/>表示特征整合组件，所述特征整合组件用于将特征图/>、/>和/>整合，表示所述信息挖掘层经过特征提取操作后生成并输出的特征图。

由于食品表面裂口、疤痕等缺陷的图像同时具有细微和形状复杂多变的特点，为了使重构得到的特制图像中能够很好地突出食品表面缺陷的本征特点，避免出现失真的情况，本发明在信息挖掘层中创造性地设计了递进交互式的注意力模块来生成调制信息（保存在激活后生成的特征图中），将该调制信息与整合组件/>输出的特征图做元素对应乘积后，提高了信息挖掘层输出的/>特征图中图像特征的质量，进一步提升后续目标检测和分类的准确性。

进一步地，的卷积核尺寸小于/>的卷积核尺寸，/>的卷积核尺寸小于/>的卷积核尺寸。

进一步地，卷积层的卷积核尺寸为3×3，/>卷积层的卷积核尺寸为5×5，/>卷积层的卷积核尺寸为7×7，/>、/>和/>的池化窗口尺寸均为3×3。

进一步地，所述第一类激活函数为ReLU函数，所述第二类激活函数为sigmoid函数，所述第三类激活函数为tanh函数。

进一步地，所述特征整合组件内部包括依次设置的拼接层、整合卷积层和整合激活层。

进一步地，步骤300中，先利用训练后的调制层对所述成品特征图进行调制，再将调制后的成品特征图输入至构建层。

进一步地，所述调制层调制所述成品特征图的过程表示为如下数学模型：

；

其中，表示所述基础特征图，/>表示调制前的成品特征图，/>表示经过所述调制层调制后的成品特征图，/>表示对特征图在其长度方向（也叫通道方向）做全局性的方差池化操作，/>表示对/>特征图在长度方向做全局性方差池化操作后生成的特征图，/>表示tanh激活函数，/>表示/>激活后输出的特征图，/>表示元素对应乘积运算，/>表示sigmoid激活函数，/>表示/>激活后输出的特征图。调制层以基础特征图/>和调制前的成品特征图/>作为输入，经过运算，生成/>，然后利用/>与特征图做元素对应乘积运算，实现对/>的调制，得到调制后的成品特征图/>，然后将/>作为构建层的输入。

本发明还提供了一种用于食品分拣的图像处理设备，包括处理器和存储器，所述存储器储存有计算机程序，所述处理器通过加载所述计算机程序，用于执行如上所述的用于食品分拣的图像处理方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的用于食品分拣的图像处理方法。

本发明的有益效果是：

（1）利用有监督的人工智能技术，对采集到的待分拣食品的数字图像进行处理，提高图像的分辨率数值，从而提升食品外表在数字图像中表现的细腻度，在不改变现有系统软硬件的基础上，提升计算机对食品表面缺陷的检测和分类识别精度，可以方便地嵌入已有的系统中，适应性强；

（2）在上述递进交互式注意力模块中，采用递进式的池化操作（、/>、/>和/>）来逐步压缩特征图空间维度的信息，并在这个过程中，依次将各个支路的信息（特征图、/>、/>）输入注意力模块，这样注意力模块实现了对多通道特征提取结构中间信息的逐层处理，可以更好地捕捉不同尺度下（/>、/>、/>的卷积核大小各不相同）特征之间的内在关系，使得信息挖掘层具有一定的动态调整对输入信息关注度的能力，这种自适应的关注度调整可以更好地适应不同的图像信息输入；

（3）根据实际的输入图像和任务目标的特点，本发明还可以设置调制层，采用本发明提供的调制层对成品特征图进行处理后，可以去除一些冗余和噪声信息，而且使得整个算法模型更加关注输入信息的不同方面，从而更好地理解输入信息的多样化特征，进而提高神经网络的泛化能力。

附图说明

图1示出了本申请提供的用于食品分拣的图像处理方法的流程图；

图2示出了实施例1的神经网络模型示意性流程框图；

图3示出了信息挖掘层的一种示意性流程框图；

图4示出了调制层的一种示意性流程框图；

图5示出了构建层的一种示意性流程框图；

图6示出了对比例1中神经网络模型的示意性流程框图；

图7示出了对比例2中信息挖掘层的示意性流程框图；

附图中：1-数字图像，2-特制图像，3-预处理层，4-信息挖掘层，41-注意力模块，42-特征整合组件，5-构建层，51第一构建运算层，52-上采样层，53-第二构建运算层，6-调制层。

具体实施方式

实施例1：下面结合附图对本发明提供的用于食品分拣的图像处理方法进行较为详细的示例性说明。

如图1所示，本发明提供的方法包括如下步骤：

步骤100、拍摄获得待分拣食品的数字图像1，将数字图像1输入至训练后的预处理层3，预处理层3对数字图像1进行卷积运算后，预处理层3生成基础特征图；

步骤200、将基础特征图输入至训练后的信息挖掘层4，信息挖掘层4对基础特征图进行特征提取后，信息挖掘层4生成成品特征图；

步骤300、先利用训练后的调制层6对成品特征图进行调制，再将调制后的成品特征图输入至训练后的构建层5，构建层5重构得到与步骤100中待分拣食品的数字图像1对应的特制图像2，特制图像2的分辨率高于数字图像1的分辨率。

如图2所示，预处理层3、信息挖掘层4、调制层6和构建层5依次连接构成一个完整的神经网络模型。根据实际情况，信息挖掘层4可以设置为一个或多个。在本实施例中，神经网络模型中设置了四个顺次连接的信息挖掘层4，第一个信息挖掘层4的输入特征图就是预处理层3输出的基础特征图，成品特征图为最后一个信息挖掘层4输出的/>特征图。对于相邻的两个信息挖掘层4，上游信息挖掘层4的输出特征图为其下游信息挖掘层4的输入。

训练时，上述神经网络模型作为一个完整的模型进行训练，训练过程为现有的常规方法。训练时，依次将训练集中的低分辨率图像和对应的高清图像同时作为输入，通过反向传播以更新模型中预处理层3、多个信息挖掘层4、构建层5和调制层6中的参数。当损失函数收敛时，完成训练。

具体地，设输入的数字图像1的尺寸为3×K×G（长×宽×高），则该数字图像1的通道数为3，每个图层的尺寸为K×G。在处理过程中，基础特征图的尺寸为64×K×G，每个信息挖掘层4的输入特征图和输出特征图/>的尺寸均为64×K×G，调制前后的成品特征图尺寸均为64×K×G，特制图像2的尺寸为3×MK×MG。其中，M表示神经网络模型将数字图像1分辨率增大的倍数。

图3示出了信息挖掘层4的示意性流程框图；、/>和/>的步长均为1，/>卷积层的卷积核尺寸为3×3，/>卷积层的卷积核尺寸为5×5，/>卷积层的卷积核尺寸为7×7，特征图/>、/>和/>的尺寸均为64×K×G。信息挖掘层4中设有递进交互式注意力模块41。结合上述数学模型和图3可知，递进交互式注意力模块41以特征图/>和/>、、/>作为输入，/>激活后得到的特征图作为递进交互式注意力模块41的输出。因此，在上述的信息挖掘层4数学模型中，递进交互式注意力模块41包括了以下部分的计算过程：

；

其中，表示递进交互式注意力模块41输出的特征图。

表示对特征图沿着空间方向进行最大池化运算（也就是对特征图的各个图层进行最大池化运算），则，/>、/>和/>激活后输出特征图尺寸均为64×1×1（即长度为64的向量）。/>、/>和/>均表示池化窗口沿着特征图空间方向滑动的普通池化操作，/>、/>和/>的池化窗口尺寸均为3×3，滑动步长均为2，则/>、/>和/>池化后，特征图的宽度和高度尺寸均减半，长度保持不变。因此/>特征图的尺寸为64×K/2×G/2，/>特征图的尺寸为64×K/4×G/4，/>特征图的尺寸为64×K/8×G/8，/>池化后得到的特征图尺寸为64×1×1。/>激活后输出的/>特征图与特征整合组件42输出特征图做元素对应乘积运算，为特征整合组件42输出特征图各个图层分配不同大小的权重参数，实现了注意力模块41对特征整合组件42输出特征图的调制。

特征整合组件42为现有的常规技术，能够将多个特征图整合的模块均可。在本实施例中，特征整合组件42内部包括依次设置的拼接层、整合卷积层和整合激活层。其中整合卷积层的卷积核长宽尺寸均为1，卷积运算时滑动步长为1，整合激活层为ReLU函数，特征整合组件42输出特征图尺寸为64×K×G。

图4示出了调制层6的一种示意性流程框图；经过全局池化操作后，得到的特征图/>、/>和/>尺寸均为1×K×G。/>与成品特征图做元素对应乘积运算，成品特征图不同空间位置的特征信息乘以不同大小的权重后，得到调制后的成品特征图（尺寸为64×K×G）。

构建层5采用现有算法实现，如图5所示，本实施例中构建层5中包括依次设置的第一构建运算层51（卷积核大小为3×3的卷积运算）、上采样层52（采用pixelshuffle层实现）和第二构建运算层53（卷积核大小为3×3的卷积运算）。第一构建运算层输出特征图尺寸为64M²×K×G，上采样层52输出特征图尺寸为64×MK×MG，第二构建运算层53输出特制图像2。其中，M表示神经网络模型将数字图像1分辨率增大的倍数。

对比实验：删除调制层6对成品特征图的调制操作，网络的其他部分均与实施例1一致，作为对比例1，其网络结构如图6所示。删除所有信息挖掘层4中的递进交互式注意力模块41，网络的其他部分均与实施例1一致，作为对比例2，修改后的信息挖掘层内部结构如图7所示。

采用相同的数据集对现有的模型MDCN和对比例1、对比例2、实施例1中的神经网络模型进行训练，训练完成后均在同一个食品数字图像测试集上进行测试。其中，MDCN模型出自文章MDCN: Multi-scale Dense Cross Network for Image Super-Resolution。表1展示了四个模型将图像分辨率提升4倍情况下的定量测试结果（峰值信噪比/结构相似性）。

表1 MDCN、对比例1、对比例2和实施例1的图像重建结果

；

对比表中的指标数据，实施例1的重建效果明显优于MDCN、对比例1、对比例2，有力地证明了本申请的图像处理方法相比现有技术取得了实质性的进步，同时也证明了注意力模块41和调制层6的设计能够有效提升图像处理结果。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种用于食品分拣的图像处理方法，其特征是：包括以下步骤：

步骤100、拍摄获得待分拣食品的数字图像，将所述数字图像输入至训练后的预处理层，所述预处理层对所述数字图像进行卷积运算后，所述预处理层生成基础特征图；

所述信息挖掘层提取特征的过程表示为如下数学模型：

；

其中，表示输入至所述信息挖掘层的特征图，/>、/>和/>均表示卷积层，且/>、/>、/>的卷积核大小各不相同，/>、/>和/>均表示第一类激活函数，/>、/>、/>分别为/>、/>、/>激活后输出的特征图；

表示对特征图进行平均池化运算，且/>的池化操作对象为特征图的各个图层，表示特征整合组件，所述特征整合组件用于将特征图/>、/>和/>整合，/>表示所述信息挖掘层经过特征提取操作后生成并输出的特征图；

2.根据权利要求1所述的用于食品分拣的图像处理方法，其特征是：的卷积核尺寸小于/>的卷积核尺寸，/>的卷积核尺寸小于/>的卷积核尺寸。

3.根据权利要求2所述的用于食品分拣的图像处理方法，其特征是：卷积层的卷积核尺寸为3*3，/>卷积层的卷积核尺寸为5*5，/>卷积层的卷积核尺寸为7*7，/>、/>和的池化窗口尺寸均为3*3。

4.根据权利要求1所述的用于食品分拣的图像处理方法，其特征是：所述第一类激活函数为ReLU函数，所述第二类激活函数为sigmoid函数，所述第三类激活函数为tanh函数。

5.根据权利要求1所述的用于食品分拣的图像处理方法，其特征是：所述特征整合组件内部包括依次设置的拼接层、整合卷积层和整合激活层。

6.根据权利要求1所述的用于食品分拣的图像处理方法，其特征是：步骤300中，先利用训练后的调制层对所述成品特征图进行调制，再将调制后的成品特征图输入至构建层。

7.根据权利要求6所述的用于食品分拣的图像处理方法，其特征是：所述调制层调制所述成品特征图的过程表示为如下数学模型：

；

其中，表示所述基础特征图，/>表示调制前的成品特征图，/>表示经过所述调制层调制后的成品特征图，/>表示对特征图在其长度方向做全局性的方差池化操作，表示对/>特征图在长度方向做全局性方差池化操作后生成的特征图，/>表示tanh激活函数，/>表示/>激活后输出的特征图，/>表示元素对应乘积运算，/>表示sigmoid激活函数，/>表示/>激活后输出的特征图。

8.一种用于食品分拣的图像处理设备，其特征是：包括处理器和存储器，所述存储器储存有计算机程序，所述处理器通过加载所述计算机程序，用于执行如权利要求1-7任一项所述的用于食品分拣的图像处理方法。

9.一种存储介质，其特征是：所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的用于食品分拣的图像处理方法。