CN116958711B

CN116958711B - 铅锌矿石图像分类模型构建方法、系统、存储介质及设备

Info

Publication number: CN116958711B
Application number: CN202311204119.6A
Authority: CN
Inventors: 王杉; 刘卫东; 刘云祥; 刘三铸; 邹倩
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-15
Anticipated expiration: 2043-09-19
Also published as: CN116958711A

Abstract

本发明提供一种铅锌矿石图像分类模型构建方法、系统、存储介质及设备，方法包括：获取原始图像分类模型；结合SE嵌入方法、ECA嵌入方法、P‑CBAM嵌入方法、SimAM嵌入方法、以及CA嵌入方法更新原始图像分类模型而构建铅锌矿石图像分类模型。本申请往原始图像分类模型中分别嵌入SE模块、ECA模块、P‑CBAM模块、SimAM模块以及CA模块，使得更新得到的铅锌矿石图像分类模型能够满足不同矿斑类型的矿石图像的精准度。

Description

铅锌矿石图像分类模型构建方法、系统、存储介质及设备

技术领域

本发明涉及图像识别技术领域，特别涉及一种铅锌矿石图像分类模型构建方法、系统、存储介质及设备。

背景技术

铅锌矿石分选能提高矿石利用率，分选技术越来越受关注。随之出现了一些新型的预分选方法，把X射线透视成像、图像处理技术、深度学习理论应用在矿石预分选上能够为企业降低人工成本，提前富集矿石，提高金属回收率，增加经济效益。

深度学习在矿石图像上自动分类领域具有良好的应用前景，通过分析矿石图像特征，利用机器视觉方法更优、成本更低且操作简单。之前在机器学习的过程中，都是人工提取图像的相应特征，现在通过利用卷积神经网络的学习特性，能提取到的图像特征也是更加丰富，减少了人工特取的局限性，使得识别准确率有了很大的提高。矿石在成像过程中，X射线穿透矿石，由于矿石内部的密度和厚度不同，不同物质的原子序数不同，X射线被吸收的程度也不同，所以在成像时，屏幕上就形成了不同矿斑类型的铅锌矿石图像，包括强矿斑、弱矿斑、无矿斑。而其中最难区分的属于弱矿斑图像，它包括以下特点：第一低对比度，斑块与背景之间的灰度或颜色差异较小，使得其辨识和提取变得更加困难；第二空间分布不均匀，以点状、线状或块状不规则的形状和分布出现，这使得它们的定位和提取变得更加具有挑战性；第三噪声干扰，弱矿斑图像中常常在数据采集过程、传感器或环境因素存在噪声，降低了图像的质量和可读性；第四尺寸和形状变化大；第五光照变化，光照条件导致图像的亮度和对比度发生变化。

目前，通过卷积神经网络提取图像特征的方法包括选取对应的原始图像分类模型；再结合矿石图像对原始图像分类模型进行模型训练以获得满足要求的图像分类模型，而后通过训练好的图像分类模型对需要分类的矿石图像进行图像分类。利用传统卷积神经网络对存在不同矿斑的X射线成像的铅锌矿石原图分选模型仍存在一种缺陷：高含矿量矿石经过X射线成像后呈现强矿斑，容易识别；低含矿量矿石经过X射线成像后呈现弱矿斑特性，同时一些泥土碎矿石等杂质也会形成类似的弱矿斑点，弱矿斑矿石与尾矿具有较高的视觉相似性，提取矿石特征难度较大，分选精度很难达到实际需求，容易造成低品位矿石损失。因此，现有技术中的铅锌矿石原图分选模型的精准度较低，不能很好的满足实际的分选要求。

发明内容

基于此，本发明的目的是提供一种铅锌矿石图像分类模型构建方法、系统、存储介质及设备，用于解决现有技术中的弱矿斑矿石图像分类模型的精准度较低的技术问题。

本发明一方面提供一种铅锌矿石图像分类模型构建方法，包括：

获取原始图像分类模型，所述原始图像分类模型包括依次连接的第一阶段、第二阶段、第三阶段以及第四阶段，所述第一阶段包括第一卷积模块，所述第二阶段包括第二卷积模块，所述第三阶段包括第三卷积模块，所述第四阶段包括第四卷积模块，所述第一卷积模块、所述第二卷积模块、所述第三卷积模块以及所述第四卷积模块均分别包括深度可分离卷积、第一Conv、第二Conv以及缩放层；

结合SE嵌入方法、ECA嵌入方法、P-CBAM嵌入方法、SimAM嵌入方法分别向所述第一卷积模块、所述第二卷积模块、所述第三卷积模块以及所述第四卷积模块中嵌入SE模块、ECA模块、P-CBAM模块、以及SimAM模块而分别得到SE-ConvBlock层、ECA-ConvBlock层、P-ConvBlock层、以及Sim-ConvBlock层；

将所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层分别替换所述第一卷积模块、所述第二卷积模块、所述第三卷积模块以及所述第四卷积模块，并在所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层的输出端分别嵌入CA模块以分别更新所述原始图像分类模型的第一阶段、第二阶段、第三阶段以及第四阶段，从而构建铅锌矿石图像分类模型；

其中：

所述SE模块设于所述第一卷积模块中的第二Conv以及缩放层之间；所述ECA模块设于所述第二卷积模块中的第二Conv以及缩放层之间；所述P-CBAM模块设于所述第三卷积模块中的深度可分离卷积与第一Conv之间；所述SimAM模块设于第四卷积模块中的深度可分离卷积与第一Conv之间。

上述铅锌矿石图像分类模型构建方法，通过分别向原始图像分类模型中的第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块中嵌入SE模块、ECA模块、P-CBAM模块以及SimAM模块，并在每个ConvBlock与下采样层之间嵌入CA模块以更新原始图像分类模型而构建得到铅锌矿石图像分类模型，使得构建得到的铅锌矿石图像分类模型的精准度能同时满足使用需求，具体的：

在铅锌矿石图像分类模型中，首先，将SE模块插入在第一卷积模块中的缩放层操作前，能够提升网络对铅锌矿图像特征的提取能力；另一方面，SE-ConvBlock层采用深度卷积替换传统卷积，一个卷积核负责一个通道，深度卷积完成后的特征矩阵数量与输入层的通道数相同，无法扩展特征矩阵，使得对输入层的每个通道独立进行卷积运算以使SE模块能加强在通道上的注意力；

其次，将ECA模块嵌入到第二卷积模块中的第二Conv以及缩放层之间，利用一维卷积来确定通道之间的相互作用，形成一种新的模块结构的重校验，即多个相邻通道参与某一个通道的关键特征预测；并且由于其局部的覆盖交互，避免了跨所有通道所带来的计算复杂性，有效提高网络性能，提高识别效率；

然后，由于第三卷积模块的循环次数为九次，与其他ConvBlock循环三次相比，网络深度更深，如果在网络浅层卷积模块中添加P-CBAM模块，无法提取铅锌矿石重要信息，且计算量大，因此本发明将P-CBAM模块集成到第三卷积模块中；此外，深度卷积可以增加网络的宽度，学习到更多特征，将P-CBAM加到深度卷积后面，即加入到第三卷积模块中的深度可分离卷积与第一Conv之间，可使P-CBAM从前面的特征中提取出更加复杂且关键的铅锌矿石特征，提高分类精准度；

再者，本发明引入SimAM模块对铅锌矿石的原始图像分类模型的神经元进行建模，一方面对判别能力最强的神经元赋予更高的权重，SimAM模块定义的能量函数，其最小化过程等效于度量每个通道中铅锌矿石特征与其他特征的线性可分性，通过激活判别特征来抑制无效背景信息，进而寻找出最优铅锌矿石图像特征，在保持运算高效性的同时，进一步提高矿石图像分类的性能；且嵌入SimAM模块无需对网络结构进行过多的调整使得SimAM模块也有利于本发明铅锌矿石图像分类模型的灵活性、模块化和轻量化。

另外，根据本发明上述的铅锌矿石图像分类模型构建方法，还可以具有如下附加的技术特征：

进一步地，所述SE嵌入方法应用于所述SE模块，所述SE嵌入方法包括：

获取经层归一化后的铅锌矿石图片，并通过所述第一卷积模块中的第二Conv输出得到第一特征矩阵H×W×C，通过卷积特征映射操作对所述第一特征矩阵H×W×C映射得到一输出特征矩阵U，并对所述输出特征矩阵U进行全局平均池化以压缩所述输出特征矩阵U得到全局特征；

通过两全连接层对压缩得到的全局特征进行激励操作以得到各个通道的权重系数；

将所述权重系数与第一特征矩阵H×W×C相乘，得到SE模块的输出矩阵，所述SE模块的输出矩阵输入至第一卷积模块中的缩放层中以构建得到SE-ConvBlock层。

进一步地，获取经所述第二卷积模块中的第二Conv输出的第二特征矩阵H×W×C，通过全局平均池化，将第二特征矩阵H×W×C的空间信息压缩至对应通道中以形成1×1×C特征矩阵，所述1×1×C特征矩阵为一向量矩阵，所述空间信息包括H和W，其中，H表示第二特征矩阵H×W×C的长，W表示第二特征矩阵H×W×C的宽，C表示通道数目；

通过一卷积核尺寸为k的一维卷积对所述向量矩阵进行特征提取以得到权重信息；

将带有权重信息的1×1×C特征矩阵与第二特征矩阵H×W×C进行逐元素相乘得到具有通道注意力的特征矩阵，将具有通道注意力的特征矩阵输入至第二卷积模块中的缩放层中以构建得到ECA-ConvBlock层。

进一步地，所述P-CBAM嵌入方法应用于所述P-CBAM模块，所述P-CBAM模块包括CAM模块和SAM模块，所述CAM模块为通道注意力模块，用于关注每个通道的重要性，捕捉图像中重要特征；所述SAM模块为空间注意力模块，用于对每个空间位置进行挑选，捕捉图像中有意义的局部区域；在所述CAM模块中，所述P-CBAM嵌入方法包括：

获取经所述第三卷积模块中的深度可分离卷积输出的第三特征矩阵H×W×C，通过通道注意力结构将第三特征矩阵H×W×C分别经过基于宽度高度的最大池化层及平均池化层以得到大小为1×1×C 的两特征矩阵；

将两1×1×C特征矩阵分别送入一个两层的多层感知机构得到维度一致的特征矩阵并进行加和操作；

通过激活函数将加和操作后的特征矩阵得到一维通道权重矩阵，所述通道权重矩阵与输入的第三特征矩阵H×W×C相乘得到新的通道注意力特征矩阵。

进一步地，在所述SAM模块中，所述P-CBAM嵌入方法还包括：

获取经所述第三卷积模块中的深度可分离卷积输入的第三特征矩阵H×W×C，并通过基于通道的最大池化层及平均池化层以得到大小为H×W×1的两特征矩阵；

将两H×W×1特征矩阵基于通道进行通道拼接，并通过一7×7卷积操作将两H×W×1特征矩阵降维为1个通道，并通过激活函数生成空间注意力的权重矩阵；

将所述权重矩阵与第三特征矩阵H×W×C相乘得到新的空间注意力特征矩阵，将新的通道注意力特征矩阵与新的空间注意力特征矩阵相加得到最终输出特征矩阵，将最终输出特征矩阵输入至所述第三卷积模块中的第一Conv中以构建得到P-ConvBlock层。

进一步地，所述最终输出特征矩阵的计算公式为：

式中，F _s表示特征矩阵；σ为Sigmiod函数激活操作；Conv表示卷积操作函数；Cat表示连接处理函数；F _avg表示通过平均池化层生成的空间特征矩阵；F _max表示通过最大池化层生成的空间特征矩阵；表示逐元素乘运算；F _X表示通道注意力模块输出的特征矩阵与最初特征矩阵F拼接得到特定特征矩阵；f _7×7表示7×7卷积运算；F_s,avg表示空间注意力模块的平均池化层运输；F_s,max表示空间注意力模块的最大池化运算。

进一步地，SimAM嵌入方法应用于所述SimAM模块，所述SimAM嵌入方法包括：

获取经所述第四卷积模块中的深度可分离卷积输出的第四特征矩阵H×W×C，所述第四特征矩阵大小为7×7×768特征矩阵；

将7×7×768特征矩阵产生3D关注权；

将7×7×768特征矩阵产生的3D关注权与7×7×768特征矩阵进行融合以输出融合特征矩阵，将输出的融合特征矩阵输入到第四卷积模块中的第一Conv以构建得到Sim-ConvBlock层。

进一步地，在将所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层分别替换所述第一卷积模块、所述第二卷积模块、所述第三卷积模块以及所述第四卷积模块，并在所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层的输出端分别嵌入CA模块以分别更新所述原始图像分类模型的第一阶段、第二阶段、第三阶段以及第四阶段，从而构建铅锌矿石图像分类模型的步骤中；

CA嵌入方法应用于CA模块，CA嵌入方法包括：

获取SE-ConvBlock层/ECA-ConvBlock层/P-ConvBlock层/Sim-ConvBlock层输出的特征矩阵C×H×W；

从宽度和高度两个维度分别对输出的特征矩阵C×H×W进行全局平均池化以分别得到宽度和高度方向的两特征矩阵；

拼接两所述特征矩阵的同一通道数并进行非线性处理以得到特征矩阵C×1×（W+H）；

提取特征矩阵C×1×（W+H）的特征并输出对应的类别指数，结合类别指数将宽度和高度的注意力特征融合至特征矩阵，并将融合后的特征矩阵输入至下采样层中。

本发明另一方面提供一种铅锌矿石图像分类模型构建系统，包括：

获取模块，用于获取原始图像分类模型，所述原始图像分类模型包括依次连接的第一阶段、第二阶段、第三阶段以及第四阶段，所述第一阶段包括第一卷积模块，所述第二阶段包括第二卷积模块，所述第三阶段包括第三卷积模块，所述第四阶段包括第四卷积模块，所述第一卷积模块、所述第二卷积模块、所述第三卷积模块以及所述第四卷积模块均分别包括深度可分离卷积、第一Conv、第二Conv以及缩放层；

更新模块，用于结合SE嵌入方法、ECA嵌入方法、P-CBAM嵌入方法、SimAM嵌入方法分别向所述第一卷积模块、所述第二卷积模块、所述第三卷积模块以及所述第四卷积模块中嵌入SE模块、ECA模块、P-CBAM模块、以及SimAM模块而分别得到SE-ConvBlock层、ECA-ConvBlock层、P-ConvBlock层、以及Sim-ConvBlock层；

构建模块，用于将所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层分别替换所述第一卷积模块、所述第二卷积模块、所述第三卷积模块以及所述第四卷积模块，并在所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层的输出端分别嵌入CA模块以分别更新所述原始图像分类模型的第一阶段、第二阶段、第三阶段以及第四阶段，从而构建铅锌矿石图像分类模型；

其中：

本发明另一方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的铅锌矿石图像分类模型构建方法。

本发明另一方面还提供一种数据处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述的铅锌矿石图像分类模型构建方法。

附图说明

图1为本发明第一实施例中铅锌矿石图像分类模型构建方法的流程图；

图2为SE模块结构；

图3为SE-ConvBlock结构图；

图4为ECA结构图；

图5为ECA-ConvBlock结构图；

图6为P-ConvBlock结构图；

图7为SimAM-ConvBlock结构图；

图8为IOCnet网络结构图；

图9为本发明第三实施例中铅锌矿石图像分类模型构建系统的系统框图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

为了解决现有技术中的图像分类模型无法精准地实现不同矿斑的矿石图像分类的技术问题，本申请提供一种铅锌矿石图像分类模型构建方法、系统、存储介质及设备。具体的，针对铅锌矿石图像分类，本发明提出一种IOCnet算法。该算法在ConvNeXt-Tiny网络结构的基础上，从达到区分铅锌矿石不同含矿量的角度出发，对网络结构进行优化和改进。本发明首先在网络第一阶段循环块中引入SE，该机制能对铅锌矿石特征矩阵进行通道特征加强；其次在网络第二阶段循环块中结合ECA，解决了降维操作导致重要特征的关注程度丢失的问题，且平衡了模型复杂度和模型性能之间的矛盾，从而进一步提升通道上提取特征性能；然后针对多尺度特征，用并行处理代替串行处理得到P-CBAM双线性注意力机制，并将它集成到网络第三阶段循环块中，提供通道和空间权重，有效地提高本发明在铅锌矿石分类上的精度；接着，在网络第四阶段循环块中嵌入SimAM，在不向原有网络添加参数的情况下，提高网络性能；然后引入Hardswish激活函数和数据增强，克服网络过拟合，加强模型鲁棒性；最后在模型循环块之外添加CA，将CA插入到嵌入到每个ConvBlock循环之外，此种方式称为OCA（out of ConvBlock Attention），能够获取目标感知的位置敏感数据，并有助于提高目标位置定位和辨识感兴趣目标的精确度，有助于矿石有效位置定位以及提高辨识感兴趣目标的精确度。

即可理解的，本发明提出的IOCnet算法框架结构，有效地结合多种注意机制的优势，最大限度地发挥注意机制的作用，使图像中信息量占比最高的部分得到最大化利用，实现多尺度、全方位、多角度的注意参数训练。通过将SE模块插入在第一卷积模块中的缩放层操作前，能够提升网络对铅锌矿图像特征的提取能力；将ECA模块嵌入到第二卷积模块中的第二Conv以及缩放层之间，避免了跨所有通道所带来的计算复杂性，有效提高网络性能，提高识别效率；将P-CBAM模块集成到第三卷积模块中，有利于本申请的图像分类模型提取铅锌矿石更加复杂且关键的铅锌矿石特征，提高分类精准度；引入SimAM模块对铅锌矿石的原始图像分类模型的神经元进行建模，通过激活判别特征来抑制无效背景信息，进而寻找出最优铅锌矿石图像特征，在保持运算高效性的同时，进一步提高矿石图像分类的性能，将CA模块嵌入在每个ConvBlock结束后，通过对矿斑特征有效位置定位，提高辨识目标的精确度。

进一步地，本发明将原网络中的GELU激活函数替换为Hardswish激活函数，有效解决GELU中出现的“神经元坏死”问题。Hardswish函数求导简单，且能够有效防止训练时梯度逐渐接近零时导致的饱和现象发生，进一步提升网络模型的表达能力。Hardswish函数用分段线性模拟代替了GELU中计算成本更高的高斯累积分布处理，具有数值稳定性好和计算速度快的优点，同时使模型具有丰富的表达能力。其中，Hardswish激活函数公式定义如公式(0)，它分别考虑3种输入情况，x是输入值。

（0）

为了便于理解本发明，下面将给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

实施例一

请参阅图1，所示为本发明第一实施例中的铅锌矿石图像分类模型构建方法，方法包括步骤S101至S103：

S101、获取原始图像分类模型。

原始图像分类模型包括依次连接的第一阶段、第二阶段、第三阶段以及第四阶段，所述第一阶段包括第一卷积模块，所述第二阶段包括第二卷积模块，所述第三阶段包括第三卷积模块，所述第四阶段包括第四卷积模块，第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块均分别包括深度可分离卷积、第一Conv、第二Conv以及缩放层，在本申请的技术方案中，缩放层为Layer Scale层。进一步地，关于深度可分离卷积，如图3所示，k7代表卷积核大小为7，s1代表步距为1，p3代表内边距为3。

S102、结合SE嵌入方法、ECA嵌入方法、P-CBAM嵌入方法、SimAM嵌入方法分别向第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块中嵌入SE模块、ECA模块、P-CBAM模块、以及SimAM模块而分别得到SE-ConvBlock层、ECA-ConvBlock层、P-ConvBlock层、以及Sim-ConvBlock层。

SE（squeeze-and-excitation,SE）模块，主要贡献为压缩-激励，该模块能让模型关注通道与通道之间的关系，自动学习到不同通道特征的重要程度，SE依据所构建的特征通道间的相互依赖关系，从全局角度构建特征通道间的重要性关系网；

ECA模块是一种高效通道注意力机制，它包括一个用于聚合全局空间信息的挤压模块和一个用于跨通道相互作用建模的有效激励模块，引入ECA模块可在只引入少量参数的情况下获得明显的性能提升；

P-CBAM模块是本发明专门针对铅锌矿石图像特征提取改进的一种注意力机制。在P-CBAM模块中，采用并行加工方法；在原始的CBAM机制中，采用串行加工方法。在改进算法的过程中，随着铅锌矿石图像分类的实现，要求网络在提取特征的注意力方面更加准确。因此，用并行处理代替串行处理，同时进行通道和空间注意训练。可以保证在获得目标的多尺度特征的同时，保留足够的语义信息；

SimAM模块在不向原有网络添加参数的情况下，提出了3D关注权。具体的，它定义了一个基于神经科学理论的能量函数，并推导出一个可以快速收敛的解决方案。与SE、ECA以及P-CBAM关注于通过池化、全连接层手工设计注意力模块不同，SimAM模块依据神经科学理论中的能量函数评估各处特征的重要性。

其中：SE模块设于第一卷积模块中的第二Conv以及缩放层之间；ECA模块设于第二卷积模块中的第二Conv以及缩放层之间；P-CBAM模块设于第三卷积模块中的深度可分离卷积与第一Conv之间；SimAM模块设于第四卷积模块中的深度可分离卷积与第一Conv之间。

S103、将SE-ConvBlock层、ECA-ConvBlock层、P-ConvBlock层以及Sim-ConvBlock层分别替换第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块，并在所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层的输出端分别嵌入CA模块以分别更新原始图像分类模型的第一阶段、第二阶段、第三阶段以及第四阶段，从而构建铅锌矿石图像分类模型。

其中，CA（Coordinate attention）注意力机制旨在增强网络学习特征的表达能力够获取跨通道数据信息，而且能够获取目标感知的位置敏感数据，并有助于提高目标位置定位和辨识感兴趣目标的精确度。

综上，本发明上述实施例当中的铅锌矿石图像分类模型构建方法，将SE模块插入在第一卷积模块中的缩放层操作前，能够提升网络对铅锌矿图像特征的提取能力；另一方面，SE-ConvBlock层采用深度卷积替换传统卷积，一个卷积核负责一个通道，深度卷积完成后的特征矩阵数量与输入层的通道数相同，无法扩展特征矩阵，使得对输入层的每个通道独立进行卷积运算以使SE模块能加强在通道上的注意力；

实施例二

本发明第二实施例中的铅锌矿石图像分类模型构建方法，方法包括步骤S201至S203：

S201、获取原始图像分类模型。

具体的，原始图像分类模型包括依次连接的第一阶段、第二阶段、第三阶段以及第四阶段，所述第一阶段包括第一卷积模块，所述第二阶段包括第二卷积模块，所述第三阶段包括第三卷积模块，所述第四阶段包括第四卷积模块，第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块均分别包括深度可分离卷积、第一Conv、第二Conv以及缩放层。

S202、结合SE嵌入方法、ECA嵌入方法、P-CBAM嵌入方法、SimAM嵌入方法分别向第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块中嵌入SE模块、ECA模块、P-CBAM模块、以及SimAM模块而分别得到SE-ConvBlock层、ECA-ConvBlock层、P-ConvBlock层、以及Sim-ConvBlock层。

在本实施例中，SE嵌入方法应用于SE模块，SE嵌入方法包括：

获取经层归一化后的铅锌矿石图片，并通过第一卷积模块中的第二Conv输入的输出得到第一特征矩阵H×W×C，通过卷积特征映射操作对第一特征矩阵H×W×C映射得到一输出特征矩阵U，并对输出特征矩阵U进行全局平均池化以压缩输出特征矩阵U得到全局特征；通过两全连接层对压缩得到的全局特征进行激励操作以得到各个通道的权重系数；将权重系数与第一特征矩阵H×W×C相乘，得到SE模块的输出矩阵，SE模块的输出矩阵输入至第一卷积模块中的缩放层中以构建得到SE-ConvBlock层。

原始图像分类模型中的第一阶段、第二阶段以及第三阶段还分别包括下采样层，CA模块连接SE-ConvBlock层与第一阶段中的下采样层，通过SE-ConvBlock层和CA模块更新原始图像分类模型中的第一阶段。

注意力机制能够合理的分配计算资源，使图像中信息量占比最高的部分得到最大化利用，它能够更好地聚集网络模型对待识别目标的注意力，减少无关背景的影响。SENet依据所构建的特征通道间的相互依赖关系，从全局角度构建特征通道间的重要性关系网。SE（squeeze-and-excitation，SE）模块主要的贡献为压缩-激励，该模块能让模型关注通道与通道之间的关系，自动学习到不同通道特征的重要程度。

SE结构见图2，图中X为输入矩阵，F _tr为对应层输入特征矩阵；U为该层最终的输出矩阵；H’，W’，C’，H，W，C分别为X和U的高度、宽度和通道数，得到输出特征映射U后，接着是压缩（squeeze）操作，图中F _sq(·)为压缩操作得到的结果处，采用全局平均池化来实现，压缩操作得到全局特征，接着是激励操作，表现在图2中的Fex(·,W)处，Fex(·,W)为激励操作得到的结果，采用2个全连接层，第1个是降维的作用，第2个是恢复到原本的维度。最后将激励操作得到的权重系数与原始特征U相乘，表现在图2中F _scale()处，完成加权操作，计算公式如公式（1）：

（1）

式中：X和F _scale()代表整个SE模块的输出矩阵，S代表激励后的结果，U为原始矩阵。

将SE注意机制集成到ConvNeXt-Tiny网络中的第一卷积模块中。将注意机制嵌入到每种ConvBlock的内部循环中，这种嵌入方式被称为ICA（即：in the ConvBlockAttention）。当注意权值应用于带有倒残差的特征矩阵时，注意力参数在每个块中循环训练。然后每个块循环对象形成一个具有注意力权重的特征矩阵，实现了注意力参数的重复训练。本方案在第一卷积模块中的第二Conv后面插入SE模块：一方面在ConvBlock中，存在着一个缩放层操作。缩放层操作是让特征矩阵乘上一个可学习的参数，最终实现特征矩阵通道的缩放，由于SE也是在通道方向上进行操作，于是将SE插入在缩放层操作前，能够提升网络的性能。另一方面，SE-ConvBlock层采用了深度可分离卷积一个卷积核负责一个通道，特征矩阵的一个通道只被一个卷积核卷积，深度可分离卷积完成后的特征矩阵数量与输入层的通道数相同，无法扩展特征矩阵。而且这种运算对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的特征信息，而利用SE能加强在通道上的注意力。对于修改后的SE-ConvBlock层的具体结构，请参见图3。

作为一个具体示例，ECA嵌入方法应用于ECA模块，ECA嵌入方法包括：

获取经第二卷积模块中的第二Conv输出的第二特征矩阵H×W×C，通过全局平均池化，将第二特征矩阵H×W×C的空间信息压缩至对应通道中以形成1×1×C特征矩阵，1×1×C特征矩阵为一向量矩阵，空间信息包括H和W，其中，H表示第二特征矩阵H×W×C的长，W表示第二特征矩阵H×W×C的宽，C表示通道数目；通过一卷积核尺寸为k的一维卷积对向量矩阵进行特征提取以得到权重信息；将带有权重信息的1×1×C特征矩阵与第二特征矩阵H×W×C进行逐元素相乘得到具有通道注意力的特征矩阵，将具有通道注意力的特征矩阵输入至第二卷积模块中的缩放层中以构建得到ECA-ConvBlock层。CA模块连接ECA-ConvBlock层与第二阶段中的下采样层，通过ECA-ConvBlock层和CA模块更新原始图像分类模型中的第二阶段。

ECA是一种高效通道注意力机制，它包括一个用于聚合全局空间信息的挤压模块和一个用于跨通道相互作用建模的有效激励模块，引入该模块可在只引入少量参数的情况下获得明显的性能提升，如图4所示。通过全局平均池化，将每个通道上对应的空间信息（H*W）压缩到对应通道中变为1个具体数值，此时一个像素表示一个通道，最终变为1×1×C，形成一个向量。随后，通过一个卷积核尺寸为k的一维卷积对该向量进行特征提取，得到权重信息。最后将带有权重信息的1×1×C的特征矩阵和第二特征矩阵H×W×C进行逐元素相乘，得到具有通道注意力的特征矩阵，将具有通道注意力的特征矩阵输入至第二卷积模块中的缩放层中以构建得到ECA-ConvBlock层。其卷积核自适应函数定义如公式（2）：

（2）

k和ψ(C)表示卷积核的大小，C表示通道数目，odd表示k只能取奇数；b和γ分别取1和2，其表示通道数C和卷积核大小之间的比例。

为了避免更高的模型复杂性，SE注意力机制减少了通道的数量。然而，这并没有直接对权重向量和输入之间的对应关系进行建模，为了改善这一缺点，本方案将ECA模块嵌入到第二卷积模块的内部模块中，利用一维卷积来确定通道之间的相互作用，形成一种新的模块结构的重校验，即多个相邻通道参与某一个通道的关键特征预测。并且由于其局部的覆盖交互，避免了跨所有通道所带来的计算复杂性，有效提高网络性能。该模块能对输入特征矩阵进行通道特征加强，且平衡了模型复杂度和模型性能之间的矛盾。对于修改后的ECA-ConvBlock层的具体结构，请参见图5。

在本实施例中，P-CBAM嵌入方法应用于P-CBAM模块，P-CBAM是一种通用且轻量级的卷积注意力模块，该模块具有即插即用的特性，可集成到任意CNN架构中进行端到端训练。从通道维度和空间维度计算特征的混合注意力机制，将注意力映射与输入特征映射相乘，自适应学习特征。P-CBAM核心思想是利用卷积操作对跨通道信息和空间信息进行混合，并提取信息特征。P-CBAM模块包括CAM模块和SAM模块，CAM模块为通道注意力模块，用于关注每个通道的重要性，捕捉图像中重要特征；SAM模块为空间注意力模块，用于对每个空间位置进行挑选，捕捉图像中有意义的局部区域；其特征矩阵计算公式如公式（3）：

（3）

在本实施例中，在CAM模块中，P-CBAM嵌入方法包括：

获取经第三卷积模块中的深度可分离卷积输出的第三特征矩阵H×W×C，通过通道注意力结构将第三特征矩阵H×W×C分别经过基于宽度高度的最大池化层及平均池化层以得到大小为C×1×1的两特征矩阵；将两C×1×1特征矩阵分别送入一个两层的多层感知机构得到维度一致的特征矩阵并进行加和操作；通过激活函数将加和操作后的特征矩阵得到一维通道权重矩阵，通道权重矩阵与输入的第三特征矩阵H×W×C相乘得到新的通道注意力特征矩阵。

具体地，作为一个具体示例，在SAM模块中，P-CBAM嵌入方法还包括：

获取经第三卷积模块中的深度可分离卷积输入的特征矩阵14×14×384，通过基于通道的最大池化层及平均池化层以得到大小为14×14×1的两特征矩阵；将两14×14×1特征矩阵基于通道进行通道拼接，并通过一7×7卷积操作将两14×14×1特征矩阵降维为1个通道，并通过激活函数生成空间注意力的权重矩阵；将权重矩阵与14×14×384特征矩阵相乘得到新的空间注意力特征矩阵，将新的通道注意力特征矩阵与新的空间注意力特征矩阵相加得到最终输出特征矩阵，将最终输出特征矩阵输入至第三卷积模块中的第一Conv中以构建得到P-ConvBlock层。CA模块连接P-ConvBlock层与第三阶段中的下采样层，通过P-ConvBlock层和CA模块更新原始图像分类模型中的第三阶段。

本发明将P-CBAM嵌入到第三卷积模块的内部模块中，称之为P-ConvBlock层，如图6所示。P-CBAM可以在几乎不增加模型参数数量的情况下，有效地提高模型的分类精度。由于P-ConvBlock层循环次数为九次，与其他ConvBlock循环三次相比，网络深度更深，如果在网络浅层卷积模块中添加P-CBAM模块，无法提取重要信息，且计算量大，因此本发明将P-CBAM加在第三卷积模块中。此外，DwConv2d卷积可以增加网络的宽度，学习到更多特征，故将P-CBAM加到DwConv2d后面，可使P-CBAM从前面的特征中提取出复杂且关键特征。在本方案中，在第三卷积模块中使用P-CBAM注意力机制，获得了更全面且可靠的注意力信息，强化对计算资源分配进行合理指导。

在本实施例中，SimAM嵌入方法应用于SimAM模块，与SE、P-CBAM关注于通过池化、全连接层手工设计注意力模块不同，依据神经科学理论中的能量函数评估各处特征的重要性提出的SimAM更具有可解释性，无需引入可学习参数。且SimAM是一种3D注意力机制与SE关注于通道维度重要性、P-CBAM依次关注于通道、空间维度重要性相比直接评估了各个独立神经元的重要性，在保持运算高效性的同时能够更全面地评估各神经元的重要性进行加权。在本实施例汇总，SimAM模块为一计算单元，旨在增强卷积神经网络中的特征表达能力，可以将任何中间特征张量作为输入，并转换输出具有相同大小、同时具有增强表征作用的特征张量，该模块最大的优点是：无需增加额外的参数，基于所定义的能量函数选择。

在本实施例中，SimAM嵌入方法包括：获取经第四卷积模块中的深度可分离卷积输出的第四特征矩阵H×W×C，第四特征矩阵H×W×C大小为7×7×768特征矩阵；将7×7×768特征矩阵产生3D关注权；将7×7×768特征矩阵产生的3D关注权与7×7×768特征矩阵进行融合以输出融合特征矩阵，将输出的融合特征矩阵输入到第四卷积模块中的第一Conv中以构建得到Sim-ConvBlock层。CA模块设于第四阶段的输出端且连接Sim-ConvBlock层，具体的，CA模块设于Sim-ConvBlock层之后，下采样层之前。

SimAM模块寻找重要的神经元并定义能量函数。它使用二进制标签并添加常规项。能量函数可由公式（4）计算：

（4）

其中e ^* _t指能量；λ为正则化系数；σ²指所有神经元的方差；t指输入特征的目标神经元；u指所有神经元的均值。

本发明将SimAM插入到第四卷积模块中，称为Sim-ConvBlock层，如图7所示。该模块在不向原有网络添加参数的情况下，提出了3D关注权。具体来说，它定义了一个基于神经科学理论的能量函数，并推导出一个可以快速收敛的解决方案。SimAM的另一个优点是避免对网络结构进行过多的调整。因此，SimAM更加灵活、模块化和轻量级。本方案引入SimAM注意机制对网络模型的神经元进行建模，并对判别能力最强的神经元赋予更高的权重，以进一步提高矿石图像分类的性能。

S203、将SE-ConvBlock层、ECA-ConvBlock层、P-ConvBlock层以及Sim-ConvBlock层分别替换第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块，并在所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层的输出端分别嵌入CA模块以分别更新原始图像分类模型的第一阶段、第二阶段、第三阶段以及第四阶段，从而构建铅锌矿石图像分类模型。

作为一个具体示例，CA嵌入方法包括：

具体的，CA（Coordinate attention）注意力机制旨在增强网络学习特征的表达能力够获取跨通道数据信息，本发明将CA插入到嵌入到每个ConvBlock循环之外，能够获取目标感知的位置敏感数据，并有助于提高目标位置定位和辨识感兴趣目标的精确度。将注意力机制嵌入ConvBlock循环之外的方式称为OCA（out of ConvBlock Attention）。

请参阅图8，作为一个具体示例，输入数据为长宽为224×224的三通道铅锌矿石图片。数据首先通过卷积块4×4的步长为4的卷积层进行下采样，长宽被缩小到56×56，同时通道数增加到96，随后进行层归一化。接着，数据经过SE-ConvBlock和CA模块，被层归一化后，通过卷积块2×2的步长为2的卷积层再次下采样，长宽被缩小到28×28，通道数增加到192。之后，数据经过ECA-ConvBlock卷积块和CA模块，被层归一化后，通过卷积块2×2的步长为2的卷积层进行第三次下采样，长宽被缩小到14×14，通道数增加到384。然后，数据经过P-ConvBlock卷积块和CA模块，被层归一化后，通过卷积块2×2的步长为2的卷积层进行最后一次下采样，长宽被缩小到7×7，通道数增加到768。此后，数据经过一个P-ConvBlock卷积块和CA模块，输出为长宽7×7，通道数为768。最后经过线性层通过全连接输出铅锌矿石类别。

在本申请中，SE、P-CBAM、ECA、SimAM忽略了图像任务中位置信息和空间结构，无法有效获取特征图上的长范围依赖信息。而CA有效解决位置信息在视觉空间结构中很难被保留的问题。

同时CA不会干扰任何一个ConvBlock循环过程。而是在每一阶段Block循环结束后再作用于特征图，使注意力权重的训练依赖于整个循环的特征图而不是单个ConvBlock。这样可以减少注意参数训练的次数。

铅锌矿石图像含有丰富的目标与背景信息，包括受空气、环境和电流影响，原始图像的背景会有噪声，还有的图像中可能有泥土尘埃的噪声点。CA能够获取铅锌矿石感知的位置敏感数据，有助于有效矿石位置定位以及提高辨识感兴趣目标的精确度。

需要指出的是，本发明第二实施例所提供的方法，其实现原理及产生的一些技术效果和第一实施例相同，为简要描述，本实施例未提及之处，可参考第一实施例中相应内容。

综上，本发明上述实施例当中的铅锌矿石图像分类模型构建方法，通过分别向原始图像分类模型中的第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块中嵌入SE模块、ECA模块、P-CBAM模块、以及SimAM模块，并在每个ConvBlock与下采样层之间嵌入CA模块以更新原始图像分类模型而构建得到铅锌矿石图像分类模型，使得构建得到的铅锌矿石图像分类模型的精准度满足使用需求，具体的：

实施例三

请参阅图9，所示为本发明第三实施例中的铅锌矿石图像分类模型构建系统，包括：

构建模块，用于将所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层分别替换所述第一卷积模块、所述第二卷积模块、所述第三卷积模块以及所述第四卷积模块，并在所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层的输出端分别嵌入CA模块以分别更新所述原始图像分类模型的第一阶段、第二阶段、第三阶段以及第四阶段，从而构建铅锌矿石图像分类模型。

综上，本发明上述实施例当中的铅锌矿石图像分类模型构建系统，通过分别向原始图像分类模型中的第一卷积模块、第二卷积模块、第三卷积模块以及第四卷积模块中嵌入SE模块、ECA模块、P-CBAM模块、以及SimAM模块，并在每个ConvBlock与下采样层之间嵌入CA模块以更新原始图像分类模型而构建得到铅锌矿石图像分类模型，使得构建得到的铅锌矿石图像分类模型的精准度满足使用需求，具体的：

此外，本发明的实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例中方法的步骤。

此外，本发明的实施例还提出一种数据处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述实施例中方法的步骤。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种铅锌矿石图像分类模型构建方法，其特征在于，包括：

其中：

所述SE模块设于所述第一卷积模块中的第二Conv以及缩放层之间；所述ECA模块设于所述第二卷积模块中的第二Conv以及缩放层之间；所述P-CBAM模块设于所述第三卷积模块中的深度可分离卷积与第一Conv之间；所述SimAM模块设于第四卷积模块中的深度可分离卷积与第一Conv之间；

其中，所述P-CBAM嵌入方法应用于所述P-CBAM模块，所述P-CBAM模块包括CAM模块和SAM模块，所述CAM模块为通道注意力模块，用于关注每个通道的重要性，捕捉图像中重要特征；所述SAM模块为空间注意力模块，用于对每个空间位置进行挑选，捕捉图像中有意义的局部区域；在所述CAM模块中，所述P-CBAM嵌入方法包括：

将两1×1×C 特征矩阵分别送入一个两层的多层感知机构得到维度一致的特征矩阵并进行加和操作；

通过激活函数将加和操作后的特征矩阵得到一维通道权重矩阵，所述通道权重矩阵与输入的第三特征矩阵H×W×C相乘得到新的通道注意力特征矩阵；

在所述SAM模块中，所述P-CBAM嵌入方法还包括：

2.根据权利要求1所述的铅锌矿石图像分类模型构建方法，其特征在于，所述SE嵌入方法应用于所述SE模块，所述SE嵌入方法包括：

3.根据权利要求1所述的铅锌矿石图像分类模型构建方法，其特征在于，所述ECA嵌入方法应用于所述ECA模块，所述ECA嵌入方法包括：

获取经所述第二卷积模块中的第二Conv输出的第二特征矩阵H×W×C，通过全局平均池化，将第二特征矩阵H×W×C的空间信息压缩至对应通道中以形成1×1×C特征矩阵，所述1×1×C特征矩阵为一向量矩阵，所述空间信息包括H和W，其中，H表示第二特征矩阵H×W×C的长，W表示第二特征矩阵H×W×C的宽，C表示通道数目；

4.根据权利要求1所述的铅锌矿石图像分类模型构建方法，其特征在于，所述最终输出特征矩阵的计算公式为：

5.根据权利要求1所述的铅锌矿石图像分类模型构建方法，其特征在于，SimAM嵌入方法应用于所述SimAM模块，所述SimAM嵌入方法包括：

将7×7×768特征矩阵产生3D关注权；

将7×7×768特征矩阵产生的3D关注权与7×7×768特征矩阵进行融合以输出融合特征矩阵，将输出的融合特征矩阵输入到第四卷积模块中的第一Conv中以构建得到Sim-ConvBlock层。

6.根据权利要求1所述的铅锌矿石图像分类模型构建方法，其特征在于，将所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层分别替换所述第一卷积模块、所述第二卷积模块、所述第三卷积模块以及所述第四卷积模块，并在所述SE-ConvBlock层、所述ECA-ConvBlock层、所述P-ConvBlock层以及所述Sim-ConvBlock层的输出端分别嵌入CA模块以分别更新所述原始图像分类模型的第一阶段、第二阶段、第三阶段以及第四阶段，从而构建铅锌矿石图像分类模型的步骤中；

CA嵌入方法应用于CA模块，CA嵌入方法包括：

7.一种铅锌矿石图像分类模型构建系统，其特征在于，所述系统包括：

其中：

在所述SAM模块中，所述P-CBAM嵌入方法还包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1－6任一所述的铅锌矿石图像分类模型构建方法。

9.一种数据处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1－6任一所述的铅锌矿石图像分类模型构建方法。