CN116403021A

CN116403021A - 一种基于卷积神经网络和自注意力机制的智能矿物分选方法

Info

Publication number: CN116403021A
Application number: CN202310084004.1A
Authority: CN
Inventors: 邓方; 刘洋; 王雪旖; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-07-07

Abstract

本发明公开了一种基于卷积神经网络和自注意力机制的智能矿物分选方法，实现了高精度、高效率、低体积、低计算复杂度的智能矿物分选。该架构通过结合卷积运算中局部性、平移不变性的归纳偏执和自注意力机制的全局性及长距离依赖性，建立了识别能力更强、特征捕获能力更优的矿物图像分类模型，相较于单一基于卷积神经网络或基于自注意力机制的网络，本发明提出的架构有着更高的分类精度和更低的计算复杂度。其次，本发明所提供的架构适用于多种类、多类别矿物图像的细粒度分类任务，对表观特征差异较小的矿物图像有着优异的判别能力。

Description

一种基于卷积神经网络和自注意力机制的智能矿物分选方法

技术领域

本发明涉及一种基于卷积神经网络和自注意力机制的智能矿物分选方法，名为OreFormer，属于矿物分选和计算机视觉技术领域。

背景技术

矿产资源是现代工业生产的中流砥柱，对经济发展、基础建设、国防安全等作出了巨大贡献。合理、高效且可持续化的矿产资源分配是当前矿业领域发展的第一要务。随着发展速度的不断加快，矿产保有量呈明显下降趋势，且具有贫、细、杂、难选的矿产资源特质。同时，矿物开采过程中围岩量剧增也导致运输、破碎、磨矿能耗居高不下，因此亟须在开采后和洗选前进行矿物快速识别与分选，以达到预先排矸和降本增效的目的。

近年来，基于射线传感器的智能矿物分选技术备受关注，可实现两产品(矿石排矸)乃至多产品的高效率、批量化分选。同时，随着传感器设备的快速更新，基于γ射线,罗曼光谱分析、X射线衍射(XRD)分析和X射线荧光(XRF)分析的射线分选设备在智能矿物分选领域的应用前景日益广阔，具有精度高、操作简单、用户友好等优点，且在大块矿物的分选任务中效果突出。然而，该类智能矿物分选设备仍受制于价格昂贵、设备成本高、辐射危害性大和设备体积庞大等问题，故不适合于作为一种通用矿物分选技术被应用在实践作业场景。

成像技术和计算机视觉技术的快速发展为上述问题的解决提供了一种新的解决方案，其借助光学仪器(如工业相机、高光谱成像仪、显微成像系统和扫描电镜)采集矿物图像，并采用图像处理与分析方法对矿物的颜色、光泽、条痕、沟壑、纹理等表观特征进行分析，有效地替代了基于射线传感器的矿物分选设备。早期，基于视觉的矿物分选设备多以传统机器学习算法为核心，如决策树、朴素贝叶斯、K最近邻、人工神经网络、主成分分析、支持向量机等，具有识别速度快、分类精度高、无辐射、无污染、低成本、易部署等优势。然而，图像像素需求高、提取特征有限、推理速度慢且无法充分利用大批量图像数据等缺点仍然限制了该类技术的进一步发展。

深度学习技术的出现为计算机视觉在选矿领域的交叉整合提供了新的技术发展方向。作为一种数据驱动的技术(即数据量越大或数据分析越充足就能得到越高的精度)，其能够充分利用静态或动态场景下采集的大批量矿物图像数据中提取具有代表性、一般性和差异性的特征来完成矿物分选任务。一方面，基于深度学习技术的矿物分选方法继承了传统机器学习方法的高精度、高效率、低成本、低复杂度等应用优势，另一方面又有效地降低了对输入图像分辨率的依赖和推理速度上的局限性。上述因素共同促进了深度学习技术在智能矿物分选领域的发展潜力。现阶段，矿物分选研究人员已经就模型的选择与搭建、多尺度特征的提取与优化、模型的部署与轻量化，以及复杂严峻情景下深度学习技术的应用问题展开了充分探索，这为后续技术的创新奠定了基础。然而，现有研究多基于单一卷积神经网络架构展开。该类网络虽通过卷积运算为特征的提取过程引入了局部性和平移不变性的归纳偏执，但其仍未充分地利用矿物图像的全局性信息，这为分选精度的进一步提升带来阻碍。此外，全局信息的缺失也使得卷积神经网络架构在矿物图像特征表征层面存在瓶颈。以上问题均需要在架构设计层面进行解决，以有效提高智能矿物分选技术的工业应用性能。

发明内容

有鉴于此，本发明提供了一种基于卷积神经网络和自注意力机制的智能矿物分选方法，名为OreFormer，该架构在经过模型训练后可以直接被部署在矿物分选现场，实现矿物的高精度、快速分选。

一种基于卷积神经网络和自注意力机制的智能矿物分选方法，包括以下步骤：

步骤1：获取待处理的矿物图像数据，按照比例8:2划分训练集和验证集；

步骤2：采用人工标注的方法对所述的步骤1获得的矿物图像数据进行标注，以获取矿物图像数据的标签；

步骤3：搭建步骤1获得的矿物图像数据和步骤2获取的矿物图像数据标签的基于卷积神经网络和自注意力机制的矿物图像分类模型；

步骤4：对步骤3搭建的基于卷积神经网络和自注意力机制的矿物图像分类模型进行训练；

步骤5：终止所述矿物图像分类模型的训练过程，得到所述训练后的基于卷积神经网络和自注意力机制的矿物图像分类模型；

步骤6:通过步骤5获得的基于卷积神经网络和自注意力机制的矿物图像分类模型对新采集的矿物图像数据进行预测，完成矿物分选任务。

所述的步骤1中，获取矿物图像数据时，搭建矿物图像数据采集平台；所述的矿物图像数据是在工业相机在传送带正上方拍摄的，按照比例8:2划分训练集和验证集；

所述步骤3中，基于卷积神经网络和自注意力机制的矿物图像分类模型包括卷积颈、下采样层、自注意力编码器、均值池化层、投影层和分类器；

其中，卷积颈由3个卷积层构成，负责引入卷积运算的归纳偏执；

下采样层由1个卷积层构成，负责降低特征图像维度并生成用于自注意力编码器特征运算的特征数据；

自注意力编码器由1个卷积层、2个层归一化层、1个卷积多头自注意力模块(包含1个深度卷积层、3个线性投影层和1个多头自注意力层)、1个倒置瓶颈前馈神经网络(包含3个卷积层)和3条残差连接构成，负责计算输入图像中各区域的注意力权重；

投影层由1个卷积层构成，负责整合前序网络所提取到的矿物图像特征信息，并将输出传输给分类器；

分类器由1个全连接层构成，负责建立特征信息与类别之间的关系，进而完成矿物图像分类任务。

卷积颈包含1个步长为2、卷积核大小为3×3的卷积层和2个步长为1、卷积核大小为3×3的卷积层；

下采样层由一个步长为2、卷积核大小为2×2的卷积层构成；

自注意力编码器包含一个步长为1、卷积核大小为3×3的深度卷积层及深度卷积层前后的残差连接；1个层归一化层和1个卷积多头自注意力模块及层归一化层之前至卷积多头自注意力之后的残差连接；1个层归一化层和1个倒置瓶颈前馈神经网络及层归一化层之前至倒置瓶颈前馈神经网络之后的残差连接；

深度卷积层中每一个卷积核负责在输入图像中的一个通道内进行卷积运算且卷积核数量与输入图像通道数量相等；

层归一化层将输入特征值按照层级结构进行归一化处理；

卷积多头自注意力结构包括步长为k、卷积核大小为k×k的深度卷积层、线性投影层和多头自注意力层，负责计算输入图像中各区域的注意力权重；

倒置瓶颈前馈神经网络包括1个步长为1、卷积核大小为1×1的卷积层，1个步长为1、卷积核大小为3×3的深度卷积层和1个步长为1、卷积核大小为1×1的卷积层，负责对输入特征值进行交互与融合；

均值池化层对输入特征值进行平均池化运算，负责汇聚重要的矿物图像特征信息；

投影层由1个步长为1、卷积核大小为1×1的卷积层构成，负责整合前序网络所提取到的矿物图像特征信息，并将输出传输给分类器；

分类器由1个全连接层构成，负责建立特征信息与类别信息之间的关系，进而完成矿物图像分类任务。

卷积多头自注意力模块以线性投影计算Query矩阵，以步长为k、卷积核大小为k×k的深度卷积层及线性投影计算Key矩阵和Value矩阵，并依据如下公式计算注意力权重：

式中，Q为线性投影计算后的Query矩阵,K′和V′为分别为步长为k、卷积核大小为k×k的深度卷积层及线性投影计算Key矩阵和Value矩阵，d_k为Key矩阵的维度，Softmax()为激活函数，B为初始为随机值的额外添加的相对位置矩阵且能够随网络一同进行训练调节。

所述的步骤4中，进行训练的过程包括：

确定所述基于卷积神经网络和自注意力机制的矿物图像分类模型的损失Loss：

式中，N,为样本的总个数，M为分类任务的类别个数，i＝1,2,3...,N，c＝1,2,..,M，y_ic为指示函数，当i属于类别c时为1，其余为0，p_ic为第i个样本属于c类别的概率；

所述步骤5中，根据确定的分类损失Loss，确定基于卷积神经网络和自注意力机制的矿物图像分类模型的损失值，在训练过程中能够获得学习速率，终止训练时，根据损失值和学习速率的阈值，确定终止训练时间，得到训练后的基于卷积神经网络和自注意力机制的矿物图像分类模型。

本发明具有如下有益效果：

(1)本发明所提供的架构通过结合卷积运算中局部性、平移不变性的归纳偏执和自注意力机制的全局性及长距离依赖性，建立了识别能力更强、特征捕获能力更优的矿物图像分类模型，相较于单一基于卷积神经网络或基于自注意力机制的网络，本发明提出的架构有着更高的分类精度和更低的计算复杂度。因此，本发明更易于实现矿物智能分选任务。

(2)本发明所提供的架构适用于多种类、多类别矿物图像的细粒度分类任务，对表观特征差异较小的矿物图像有着优异的判别能力。同时，通过增加动态的增加网络深度与宽度，提出架构的矿物图像特征表征能力还能够得到进一步提升，即有效地解决了现有技术在组间差异较小的矿物图像中识别与分类效果较弱的问题。

(3)本发明所提供的框架通过使用深度卷积和倒置瓶颈结构降低了模型的参数量与计算复杂度，获得了优秀的识别性能与模型复杂度平衡。因此，本发明具有更强的工业实践意义，满足于智能选矿设备的部署需求。

(4)本发明所提供的框架有着更好的特征提取能力，能够快速捕获并汇聚矿物图像中对类别判定贡献更大的重要信息，且训练后的模型在分类权重分布上较为均匀，分类权重大小较为适中。

(5)本发明公开了一种基于卷积神经网络和自注意力机制的智能矿物分选方法，实现了高精度、高效率、低体积、低计算复杂度的智能矿物分选。该架构通过结合卷积运算中局部性、平移不变性的归纳偏执和自注意力机制的全局性及长距离依赖性，建立了识别能力更强、特征捕获能力更优的矿物图像分类模型，相较于单一基于卷积神经网络或基于自注意力机制的网络，本发明提出的架构有着更高的分类精度和更低的计算复杂度。其次，本发明所提供的架构适用于多种类、多类别矿物图像的细粒度分类任务，对表观特征差异较小的矿物图像有着优异的判别能力。同时，本发明所提供的框架通过使用深度卷积和倒置瓶颈结构降低了模型的参数量与计算复杂度，获得了优秀的识别性能与模型复杂度平衡。此外，本发明所提供的框架有着更好的特征提取能力，能够快速捕获并汇聚矿物图像中对类别判定贡献更大的重要信息。

附图说明

图1为本发明所提供的架构的流程图；

图2为本发明的矿物图像数据采集平台示意图；

图3为本发明的基于卷积神经网络和自注意力机制的矿物图像分类架构示意图；

图4为本发明的各层级的设置细节参数示意图；

图5为本发明采集的矿物图像示例图；

图6为本发明的判别能力检验混淆矩阵示例图；

图7为本发明的特征提取可视化示例图。

具体实施方式

下面结合附图，对本发明进行详细描述。

如图1所示，本发明提供了基于卷积神经网络和自注意力机制的矿物图像分类架构，具体包括以下步骤：

步骤1：搭建如图2所示的矿物图像数据采集平台，平台主要包含振动筛分系统、除尘系统、矿物传送系统、图像采集系统、计算机控制系统和电磁喷吹系统六部分。采集过程中，振动筛分系统负责对原始矿料进行振动筛分，并将小于筛分孔目的物料均匀的散落在传送带头部。同时，除尘系统会采用高频风量对矿物表面进行除尘，以减少表面粉尘对后续采集图像质量的影响。图像采集系统由4K彩色3CCD线阵工业相机及配套的图像处理软件，可实现在定速运转条件下样品图像的连续拍摄与存储，线性灯带光照强度可根据实际需求进行调节。经由矿物传送系统运输，矿物样品将在图像采集系统中依次进行拍摄，并将采集数据实时地上传至计算机控制系统，以实现矿物类别判断。在图像采集平台尾部，根据控制端返回的信息，电磁喷吹系统会将矿料分选至对应区域。

步骤2：采用人工标注的方法对所述的步骤1获得的矿物图像数据进行标注，以获取矿物图像数据的标签。

步骤3：搭建如图3所示的基于卷积神经网络和自注意力机制的矿物图像分类架构，基于卷积神经网络和自注意力机制的矿物图像分类架构包括卷积颈、下采样层、自注意力编码器、均值池化层、投影层和分类器。如图3所示，在该架构中，卷积颈包含1个步长为2、卷积核大小为3×3的卷积层和2个步长为1、卷积核大小为3×3的卷积层。下采样层由一个步长为2、卷积核大小为2×2的卷积层构成。自注意力编码器包含一个步长为1、卷积核大小为3×3的深度卷积层及深度卷积层前后的残差连接；1个层归一化层和1个卷积多头自注意力模块及层归一化层之前至卷积多头自注意力之后的残差连接；1个层归一化层和和1个倒置瓶颈前馈神经网络及层归一化层之前至倒置瓶颈前馈神经网络之后的残差连接三部分。其中，深度卷积层中每一个卷积核负责在输入图像中的一个通道内进行卷积运算且卷积核数量与输入图像通道数量相等；层归一化层将输入特征值按照层级结构进行归一化处理；卷积多头自注意力结构包括步长为k、卷积核大小为k×k的深度卷积层、线性投影层和多头自注意力层，负责计算输入图像中各区域的注意力权重。倒置瓶颈前馈神经网络包括1个步长为1、卷积核大小为1×1的卷积层，1个步长为1、卷积核大小为3×3的深度卷积层和1个步长为1、卷积核大小为1×1的卷积层，负责对输入特征值进行交互与融合。均值池化层对输入特征值进行平均池化运算，负责汇聚重要的矿物图像特征信息。投影层由1个步长为1、卷积核大小为1×1的卷积层构成，负责整合前序网络所提取到的矿物图像特征信息，并将输出传输给分类器。分类器由1个全连接层构成，负责建立特征信息与类别信息之间的关系，进而完成矿物图像分类任务。

所述的步骤3中，卷积多头自注意力模块以线性投影计算Query矩阵，以步长为k、卷积核大小为k×k的深度卷积层及线性投影计算Key矩阵和Value矩阵，并依据如下公式计算注意力权重：

基于卷积神经网络和自注意力机制的矿物图像分类架构各层级的设置细节参数如图4所示。在该参数图中，H_i,(i＝1,2,3,4)表示卷积多头自注意力模块中计算头的数量，k_i,(i＝1,2,3,4)表示卷积多头自注意力模块中深度卷积核的大小与步长，R_i,(i＝1,2,3,4)表示倒置瓶颈前馈神经网络的中通道维度的扩充倍数，3×3、2×2、1×1卷积层中卷积核的尺寸，38、76、152、304、608、1280、N表示当前层的通道维度，×2、×4、×20表示当前模块的重复次数。对于给定224×224大小的输入矿物图像而言，其经过卷积颈后的特征图维度为112×112×38，经过下采样1和自注意力编码器1(重复4次)后特征图维度为56×56×76，经过下采样2和自注意力编码器2(重复4次)后特征图维度为28×28×152，经过下采样3和自注意力编码器3(重复20次)后特征图维度为14×14×304，经过下采样4和自注意力编码器4(重复4次)后特征图维度为7×7×608，经过投影层后特征为度为1×1×1280，分类器将采用1个全连接层建立1280维特征与N个类别之间的联系，进而完成最终的分类任务。

步骤4：基于矿物图像分类模型的损失函数Loss(公式2)，使用矿物图像数据和矿物图像数据的标签对基于卷积神经网络和自注意力机制的矿物图像分类模型进行训练。训练过程中，损失值将实时反馈至网络各层，以优化网络权重。最终，根据训练是否达到预设轮次、损失值或学习率是否满足预设阈值终止模型训练，获取训练后的基于卷积神经网络和自注意力机制的矿物图像分类模型。

步骤5：通过训练后的基于卷积神经网络和自注意力机制的矿物图像分类模型对新采集的矿物图像数据进行预测，完成矿物分选任务。

实施例

本实例采用中国安徽、宁夏地区煤田的无烟煤为矿物样本。样品采用人工筛分选取13-50mm最终实验样品，并依照密度级划分为<1.4g/cm³、1.4-1.6g/cm³、1.6g-1.8g/cm³和>1.8g/cm³四类，矿物样本的质量百分比与灰分含量可见表1，显微组分分析结果可见表2。

表1各密度集矿物样本的质量百分比与灰分含量(单位：百分比)

表2各密度集矿物样本的显微组分分析(单位：百分比)

搭建如步骤1所述的矿物图像数据采集平台，实施例选取工业相机为4K彩色3CCD线阵相机(JAI 3CCD Datasheet_LT-400CL)，可实现在定速运转条件下样品图像的连续拍摄与存储，传送带转轴处嵌有内置传感器，能够将皮带机转速转化为数字信号，以用于工业相机自适应调节，实施例选取光源为线性灯带，长度为500毫米，照度均匀，色温为5800-7000k，皮带在拍摄过程中的表面亮度约为250klux，由于外部环境光的亮度仅为130lx，因此可以完全屏蔽环境光影响。实验中传送带转速为1m/s，采集煤料图像大小为4096×3000pixel，精度为0.098mm/pixel。使用矿物图像数据采集平台循环采集多批次矿物图像数据在矿物图像数据采集平台下共收集到20000张矿物图像(各类别5000张)，按照比例8:2划分训练集和验证集，并令采集2000张图像(各类别500张)作为测试集，各数据集数据量细节可见表3。

表3实施例矿物图像数据集(单位：张)

采用如步骤2所述的标注方法对矿物图像进行标注，获取矿物图像数据的标签，各类别矿物图像的示例图如图5所示。

搭建结构如图3所示的基于卷积神经网络和自注意力机制的矿物图像分类架构，名为OreFormer。其中，架构包含卷积颈、下采样层、自注意力编码器、均值池化层、投影层和分类器。架构中各层级的具体设置细节参数如图4所示，在当前实验中分类器的输出维度N为4。

确定所述基于卷积神经网络和自注意力机制的矿物图像分类模型的损失函数，并根据所确定的损失函数使用采集到的矿物图像数据和矿物图像数据的标签对矿物图像分类模型进行训练。训练过程中，模型将自动进行损失值计算和损失值反馈，并自动调整权重。最终，根据训练是否达到预设轮次、损失值或学习率是否满足预设阈值终止模型训练，获取训练后的基于卷积神经网络和自注意力机制的矿物图像分类模型。

实施例搭建了额外搭建了4种常见的基于单一卷积神经网络或单一自注意力机制的矿物图像分类模型，用以进行检测性能对比试验，包括ResNet 152、EfficientNet-B6、ViT和Swin Transformer-B(Swin-B)。实施例以Accuracy(Acc)、Precision和Recall来评价模型分类精度，以#Params和#FLOPs来评价模型体积和计算复杂度。经相同环境训练后，本发明提出的基于卷积神经网络和自注意力机制的矿物图像分类模型和4种常见图像分类模型在无烟煤图像分类任务中的性能比较可见表4。实施例性能比较结果指出，提出的基于卷积神经网络和自注意力机制的矿物图像分类架构(OreFormer)相较其他常见模型有着更高的Acc、Precision和Recall，分别达到了93.3％、93.5％和93.3％。实施例模型体积和计算复杂度的对比结果指出，提出架构在模型计算复杂度上相较其他对比模型更低，仅为9.3G，其模型体积相较于参数量最少的EfficientNet-B6模型也仅略微高出2.9M，但这带来了0.7％的分类精度提升。上述实验结果均有效证明了提出架构在多类别细粒度矿物图像分类任务中的优异性能。

表4提出矿物图像轻量级目标检测模型和10种常见目标检测模型在无烟煤检测任务中的性能比较(单位：mAP(百分比)、#Params(百万)、Resolution(像素)、#FLOPs(10亿次浮点数运算))

为检验提出基于卷积神经网络和自注意力机制的矿物图像分类模型在多类别矿物图像分类任务中的判别能力，实施例对无烟煤测试集图像进行预测，并绘制混淆矩阵，如图6所示。实验结果表明，提出架构能够准确的判断无烟煤测试集中各图像所属的类别，且<1.4g/cm³和>1.8g/cm³两类别无烟煤的判别效果要相对优于1.4-1.6g/cm³和1.6-1.8g/cm³两类别。因此，测试结果有效地证明了提出架构在多类别矿物图像分类任务中的应用性能。

此外，为清晰展示提出架构对矿物图像特征的表征能力和特征提取效果，实验对模型的分类权重以热力图梯度类别激活映射的形式进行展示，如图7所示。可视化结果表明，提出架构能够快速捕获并汇聚矿物图像中对类别判定贡献更大的重要信息，且训练后的模型在分类权重分布上较为均匀，分类权重大小较为适中。

综上所述，本发明提供了一种基于卷积神经网络和自注意力机制的矿物分选架构，能够适用于大多数矿物的分选任务。主要流程包括矿物图像数据采集平台搭建、矿物图像采集与标注、基于卷积神经网络和自注意力机制的矿物图像分类模型搭建与训练、训练后矿物图像分类模型的预测应用等步骤。分类性能对比实验指出，提出架构通过结合卷积运算中局部性、平移不变性的归纳偏执和自注意力机制的全局性及长距离依赖性，达到了更高的分类精度和更低的计算复杂度。同时，混淆矩阵结果指出，提出架构对组间类别差异较小的矿物图像同样有着较好的判别能力，能够对不同种类的矿石进行精准判别。此外，分类权重可视化结果指出，提出架构在矿物图像特征提取与表征方面有着良好的效果，证明了提出架构的有效性。

应当理解的是，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于包括以下步骤：

步骤1：获取待处理的矿物图像数据，并将获取的矿物图像数据划分为训练集和验证集；

步骤2：对步骤1获得的矿物图像数据进行标注，获取矿物图像数据的标签；

步骤3：根据步骤1获得的矿物图像数据和步骤2获取的矿物图像数据标签，构建基于卷积神经网络和自注意力机制的矿物图像分类模型；

步骤4：使用步骤1中划分的训练集和验证集对步骤3构建的基于卷积神经网络和自注意力机制的矿物图像分类模型进行训练；

步骤6:通过步骤5获得的基于卷积神经网络和自注意力机制的矿物图像分类模型对新采集的矿物图像数据进行预测，完成矿物分选。

2.根据权利要求1所述的一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于：

所述的步骤1中，获取矿物图像数据时，搭建矿物图像数据采集平台；所述的矿物图像数据是在工业相机在传送带正上方拍摄的，按照比例8:2划分训练集和验证集。

3.根据权利要求1或2所述的一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于：

所述步骤3中，基于卷积神经网络和自注意力机制的矿物图像分类模型包括卷积颈、下采样层、自注意力编码器、均值池化层、投影层和分类器。

4.根据权利要求3所述的一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于：

所述卷积颈由3个卷积层构成，负责引入卷积运算的归纳偏执，其中一个卷积层的步长为2、卷积核大小为3×3，另外两个卷积层的步长为1、卷积核大小为3×3；

所述下采样层由1个卷积层构成，负责降低特征图像维度并生成用于自注意力编码器特征运算的特征数据，其中卷积层的步长为2、卷积核大小为2×2；

所述自注意力编码器由1个卷积层、2个层归一化层、1个卷积多头自注意力模块、1个倒置瓶颈前馈神经网络和3条残差连接构成，负责计算输入图像中各区域的注意力权重；

所述均值池化层对输入特征值进行平均池化运算，负责汇聚重要的矿物图像特征信息；

所述投影层由1个卷积层构成，负责整合前序网络所提取到的矿物图像特征信息，并将输出传输给分类器，其中卷积层的步长为1、卷积核大小为1×1；

所述分类器由1个全连接层构成，负责建立特征信息与类别信息之间的关系。

5.根据权利要求4所述的一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于：

所述自注意力编码器中的卷积多头自注意力模块包含1个深度卷积层、3个线性投影层和1个多头自注意力层；卷积多头自注意力模块负责计算输入图像中各区域的注意力权重；

所述自注意力编码器中的3条残差连接分别为深度卷积层前后的残差连接、层归一化层之前至卷积多头自注意力之后的残差连接、层归一化层之前至倒置瓶颈前馈神经网络之后的残差连接；

所述自注意力编码器中的层归一化层用于将输入特征值按照层级结构进行归一化处理。

6.根据权利要求5所述的一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于：

所述深度卷积层的步长为1、卷积核大小为3×3，深度卷积层中每一个卷积核负责在输入图像中的一个通道内进行卷积运算且卷积核数量与输入图像通道数量相等。

7.根据权利要求6所述的一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于：

所述倒置瓶颈前馈神经网络包含3个卷积层，其中一个卷积层为步长为1、卷积核大小为3×3的深度卷积层，另外两个卷积层的步长为1、卷积核大小为1×1，倒置瓶颈前馈神经网络负责对输入特征值进行交互与融合。

8.根据权利要求7所述的一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于：

所述卷积多头自注意力模块以线性投影计算Query矩阵，以步长为k、卷积核大小为k×k的深度卷积层及线性投影计算Key矩阵和Value矩阵，并依据如下公式计算注意力权重：

9.根据权利要求8所述的一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于：

所述的步骤4中，进行训练的过程包括：

式中，N,为样本的总个数，M为分类任务的类别个数，i＝1,2,3………,N，c＝1,2,...,M，y_ic为指示函数，当i属于类别c时为1，其余为0，p_ic为第i个样本属于c类别的概率。

10.根据权利要求9所述的一种基于卷积神经网络和自注意力机制的智能矿物分选方法，其特征在于：