CN114219988A - 基于ViT框架的多类目岩矿快速分类方法、设备及存储介质 - Google Patents

基于ViT框架的多类目岩矿快速分类方法、设备及存储介质 Download PDF

Info

Publication number
CN114219988A
CN114219988A CN202111409265.3A CN202111409265A CN114219988A CN 114219988 A CN114219988 A CN 114219988A CN 202111409265 A CN202111409265 A CN 202111409265A CN 114219988 A CN114219988 A CN 114219988A
Authority
CN
China
Prior art keywords
layer
module
rock
vit
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111409265.3A
Other languages
English (en)
Inventor
林伟华
刘福江
黎卓武
郭艳
李鹏
周季
唐家玉
孙煜文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Toolgeo Information Technology Co ltd
China University of Geosciences
Original Assignee
Wuhan Toolgeo Information Technology Co ltd
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Toolgeo Information Technology Co ltd, China University of Geosciences filed Critical Wuhan Toolgeo Information Technology Co ltd
Priority to CN202111409265.3A priority Critical patent/CN114219988A/zh
Publication of CN114219988A publication Critical patent/CN114219988A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于ViT框架的多类目岩矿快速分类方法、设备及存储介质,通过构建自然岩矿图像识别模型,其中自然岩矿图像识别模型的预处理模块对岩矿图像数据进行特征预提取和抑制过拟合处理,并输入至数据处理模块中进行参数训练和Token提取,再输入至结果处理模块根据所述参数训练和Token提取结果进行Token分离和类别映射并输出分类结果。本发明在构建自然岩矿图像识别模型时,在采用迁移卷积联合ViT框架的基础上,加入了STFE模块、ECTG模块、Mlti‑Head P‑Attention模块以及RCLinaer层,从而减缓过拟合,提升映射的容错率,更加精确完整地提取图像数据的特征,实现了减少岩矿图像数据中干扰因素对分类结果的影响,在大容量多类目的情况下实现对岩矿图像的快速精准识别的目的。

Description

基于ViT框架的多类目岩矿快速分类方法、设备及存储介质
技术领域
本发明涉及自然岩矿图像识别技术领域,尤其涉及一种基于ViT框架的多类目岩矿快速分类方法、设备及存储介质。
背景技术
自然岩矿识别与分类能提高野外岩矿勘探提供更高效的辅助,对不同环境下对岩矿样本的类别识别以及非专业人士了解岩矿知识有重要意义。
一般来讲,传统的自然岩矿识别需要专业人员通过实物或者多方面图像信息进行识别与分类,这种人工识别的方式,一方面需要耗费大量时间,另一方面对鉴定人员的相关知识也有较高的要求。
近年来自然岩矿图像领域的识别技术进展有卓越的成果,引入深度学习方法后进一步提高了自动化识别岩矿类别的效率,可以更具图像特征对自然岩矿图像进行类别判别。但自然岩矿图像与其他图像不同,自然岩矿来源于自然环境,存在更加复杂多变的干扰因素,比如光照亮度、拍摄角度、目标在图像中的占比、图像的清晰程度、样本表面杂质的覆盖比例等等,相对比专业的岩矿切片图像,存在更多的冗余与干信息,进而导致在多较多类别的岩矿自然图像进行分类时结果不够精确。
另外,对自然岩矿的识别,更加依赖数据集的支持,需要基于大量的数据进行特征学习,同时要求数据的真实可靠性,以保证学习结果的可靠性。
因此,当前还没有一个普遍适用的方法,能够解决无法在大容量多类目的情况下实现对岩矿图像的快速精准识别的问题。
发明内容
有鉴于此,本发明提出了一种基于ViT框架的多类目岩矿快速分类方法,用于解决无法在大容量多类目的情况下实现对岩矿图像的快速精准识别的问题。
本发明的技术方案是这样实现的:
本发明第一方面,公开一种基于ViT框架的多类目岩矿快速分类方法,建立自然岩矿图像识别模型进行多类目岩矿快速分类,所述方法包括:
S1,采集岩矿图像数据集样本输入至自然岩矿图像识别模型的预处理模块,进行特征预提取和抑制过拟合处理,所述数据集样本包括图像数据以及与其对应的类别标签,继续执行步骤S2;
S2,将经过预处理模块的数据集样本输入至自然岩矿图像识别模型的数据处理模块中进行参数训练和Token提取,继续执行步骤S3;
S3,自然岩矿图像识别模型的结果处理模块根据所述参数训练和Token提取结果进行Token分离和类别映射并输出分类结果,完成对所述自然岩矿图像识别模型的训练;继续执行步骤S4;
S4,获取待识别图像数据并输入至所述自然岩矿图像识别模型,完成对所述待识别图像数据的分类并输出结果。
本发明通过上述方法,建立自然岩矿图像识别模型,获取图像数据中的重要特征,减小识别过程中干扰因素对识别结果的影响,以获得精准可靠的分类结果。
在以上技术方案的基础上,优选的,自然岩矿图像识别模型中,
预处理模块包括:顺次连接的输入层、图像统一格式预处理模块、迁移模型、ECTG模块、Dropout层;
数据处理模块包括:顺次连接的参数正则化层、Mlti-Head Attention模块、Linear层、ECTG模块、Linear+Dropout层、参数正则化层、Linear+GeLU层、Dropout+Linear层、Dropout+Linear层、STFE模块、Linear层;
结果处理模块包括:顺次连接的参数正则化层、ECTG模块、RCLinear+Softmax层。
本发明通过上述方法,构建自然岩矿图像识别模型的内部结构,在采用迁移卷积联合ViT框架的同时,加入了STFE模块、ECTG模块以及Mlti-Head Attention模块,从而减缓过拟合,更加精确完整地提取图像数据的特征。
在以上技术方案的基础上,优选的,步骤S1具体包括:
S1-1,所述数据集样本进入自然岩矿图像识别模型的输入层后,所述图像统一格式预处理模块对所述图像数据进行统一尺寸和色彩空间的处理,并输入到迁移模型进行特征预提取,继续执行步骤S1-2;
S1-2,所述迁移模型的输出映射层输出所述图像数据的特征,输入至ECTG模块进行类标志Token提取,通过Dropout层抑制过拟合,输出与图像数据对应的标志Token,记为Token T;
所述ECTG模块,包括顺次连接的Linear层、Dropout层以及Linear层,第一层Linear层用于映射所述特征,使用GeLU函数激活,再通过Dropout层抑制过拟合,第二层Linear层将所述特征映射为Patch Number倍编码长度后输出,其中Patches Number表示通过预设分割Patches大小计算得出的实际Patches数目。
本发明通过上述方法,使得图像数据经过ECTG模块的处理,及时保留其中的特征,实现对图像数据的特征预提取和初步抑制过拟合处理,生成与图像数据对应的Token T,在最终使用Class Token进行类别映射时,有更好的泛化能力和识别精度。
在以上技术方案的基础上,优选的,Token T具体包括:
所述Token为通过ECTG模块将n个Patches的特征融合到第0个Patch中,生成与Patch同等大小的Token T:
Figure BDA0003373619630000031
其中,F为特征值序列矩阵,fi为矩阵F的第i个向量,W为训练后的权重参数矩阵,Wj为矩阵W的第j个向量,B为偏置参数矩阵,Bi为矩阵B的第i个向量,dim为Patch的尺寸。
本发明通过上述方法,生成与图像数据的特征对应的Token T,便于最终的分类识别。
在以上技术方案的基础上,优选的,步骤S2具体包括:
S2-1,所述预处理模块输出的映射为Patch Number倍编码长度的特征经过所述数据处理模块中的参数正则化层进行归一化处理,输入至多个P-Attention组成的Mlti-HeadAttention模块,得到输出数据,不同的P-Attention为识别提供一种图像注意力的侧重区域,继续执行步骤S2-2;
S2-2,通过Linear层进行参数形状的重新排列,得到每一个图像数据中每一个Patch的特征值,通过ECTG模块执行与步骤S1-2相同的处理以更新Token T,继续执行步骤S2-3;
S2-3,所述特征值通过Linear+Dropout层对所述特征还原并抑制过拟合,通过下一层参数正则化层进行层参数正则化,再进入Linear+GeLU层激活函数,经过两层Dropout+Linear层,继续执行步骤S2-4;
S2-4,所述特征值进入STFE模块进行更显著的抑制过拟合,再经过一层Linear层将特征值还原为与S1-2相同维度的特征。
本发明通过上述方法,将步骤S1中预处理模块的输出数据与步骤S2中数据处理模块中的Mlti-Head Attention模块的输出数据进行残差连接,并将结果输出至数据处理模块中的ECTG模块,通过一个卷积核尺寸为1的卷积层,将每张图像的特征进行提取得到Token;数据处理模块进行参数训练和Token提取,其中参数正则化层维持了数据分布的一致性与稳定性,STFE模块在一定程度上延缓训练速度,以此让自然岩矿图像识别模型充分学习到更多细节特征。
在以上技术方案的基础上,优选的,步骤S2-1具体包括:
P-Attention中通过参数生成四个矩阵:Query、Key、Filter、Value,其中Value矩阵表示从输入数据继承来的特征,Query表示从输入数据中感知的查询向量组,Key表示从输入数据中感知的特征位置信息向量组,Filter表示从输入数据中感知的概率掩码矩阵;
通过Query和Key得到注意力矩阵:
Figure BDA0003373619630000041
通过Value和Filter得到余留矩阵:
Figure BDA0003373619630000042
通过attention和remnant点乘,最终得到输出数据:
out=attention.×remnant
此处的Multi-Head Attention表示有多组Query、Key、Filter、Value在进行计算。
本发明通过上述方法,依赖源自输入图像数据X经过全连接网络生成的四组辅助数据,即查询矩阵Query,键位矩阵Key,过滤矩阵Filter,特征值矩阵Value;生成这四个矩阵的网络,通过训练过程中对参数的调整,将原始输入图像数据X的四类信息置于这四个矩阵中,通过Query和Key的矩阵乘运算,Query中的每一个向量于Key中的每一个向量对应乘积,将得到同于Value矩阵特征域的注意力位置信息,即告知模型需要注意的区域位置;通过Filter和Value的乘积,可以将Value中原本孤立的一个个数值,进行过滤融合,从而使每一个数值都包含了Value的全局信息;借此分别从Query和Key得到attention矩阵以及Filter和Value得到remnant矩阵,意味着一个attention矩阵包含需要注意的位置信息,另一个remnant矩阵包含所有位置上的特征信息,再将二者进行点对点乘积,以使attention中突出位置的信息,在remnant中得以体现。
在以上技术方案的基础上,优选的,步骤S2-4具体包括:
STFE模块采用相似性特征提取,原理为:
Figure BDA0003373619630000051
其中M为作为掩码图像的实对称矩阵,X是输入数据即所述特征值,dim是Patch的尺寸,除以dim是为了保证数据的分布一致性。
本发明通过上述方法,使用基于相似矩阵变换理论的STFE模块,将原始输入图像数据X,经过网络生成,得到一个掩码图像,通过基于掩码图像的相似变换得到的数据,受限于掩码中概率值分布的影响,使得在保留原有特征的前提下,突出图像中部分特征区域,淡化图像中不希望被感知的区域,从而达到减缓过拟合发生的目的。
在以上技术方案的基础上,优选的,步骤S3具体包括:
S3-1,所述特征输入至结果处理模块,通过参数正则化层,经过ECTG模块剥离所述特征对应的Token T,并通过RCLinear+Softmax层将分类结果映射为概率值;
RCLinear层采用区间压缩映射的方式,原理为:
Figure BDA0003373619630000061
E(xi)=-xi 2+(ai+bi)xi-aibi
其中yj是RCLinear层的输出,xi是RCLinear层的输入,e为常数,ai和bi表示压缩区间的左端点和右端点,通过处理增强区间(ai,bi)内的输出,抑制区间外的输出,随着模型的训练调整区间的位置和长度;
将所述概率值输入到自然岩矿图像识别模型的输出端,此时根据设定的深度值,决定回到步骤S2-1或者继续执行步骤S3-2,所述深度值为重复步骤S2-1至S3-1的次数;
S3-2,自然岩矿图像识别模型的输出端将所述概率值处理成预设样式,展示在对应输入的图片上。
本发明通过上述方法,得到图像数据对多个类别的预测概率值并输出,实现通过自然岩矿图像数据的识别完成自然岩矿的分类。
本发明第二方面,公开一种电子设备,所述设备包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的一种基于ViT框架的多类目岩矿快速分类方法程序,一种基于ViT框架的多类目岩矿快速分类方法程序配置为实现如本发明第一方面所述的一种基于ViT框架的多类目岩矿快速分类方法。
本发明第三方面,公开一种计算机可读存储介质,所述存储介质上存储有一种基于ViT框架的多类目岩矿快速分类方法程序,所述一种基于ViT框架的多类目岩矿快速分类方法程序被执行时实现如本发明第一方面所述的一种基于ViT框架的多类目岩矿快速分类方法。
本发明的一种基于ViT框架的多类目岩矿快速分类方法相对于现有技术具有以下有益效果:
(1)通过自然岩矿图像识别模型,获取图像数据中的重要特征,减小识别过程中干扰因素对识别结果的影响,以获得精准可靠的分类结果;
(2)在采用迁移卷积联合ViT框架的同时,加入了STFE模块、ECTG模块以及Mlti-Head Attention模块,以最大程度保留图像数据原有特征的同时,减缓过拟合,提升了映射的容错率,注意图像数据的不同信息特征,从而减少干扰因素,实现在大容量多类目的情况下实现对岩矿图像的快速精准识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于ViT框架的多类目岩矿快速分类方法的工作流程图;
图2为本发明一种基于ViT框架的多类目岩矿快速分类方法的自然岩矿图像识别模型结构示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例
本发明一种基于ViT框架的多类目岩矿快速分类方法工作流程见图1,处理步骤说明如下:
第一步,建立自然岩矿图像识别模型用以处理岩矿图像数据,采集岩矿图像数据集样本输入至自然岩矿图像识别模型的预处理模块,进行特征预提取和抑制过拟合处理,所述数据集样本包括图像数据以及与其对应的类别标签。转第二步。
应当理解的是,自然岩矿图像识别模型包括预处理模块、数据处理模块和结果处理模块;如图2所示的本发明一种基于ViT框架的多类目岩矿快速分类方法的自然岩矿图像识别模型结构示意图,所述预处理模块包括:顺次连接的输入层、图像统一格式预处理模块、迁移模型、ECTG(Epitome Class Token Generator)模块、Dropout层;所述数据处理模块包括:顺次连接的参数正则化层、Mlti-Head Attention模块、Linear层、ECTG(EpitomeClass Token Generator)模块、Linear+Dropout层、参数正则化层、Linear+GeLU层、Dropout+Linear层、Dropout+Linear层、STFE(Similar Transform Feature Extraction)模块、Linear层;所述结果处理模块包括:顺次连接的参数正则化层、ECTG(Epitome ClassToken Generator)模块、RCLinear(Regional Compress Linear)+Softmax层。
应当理解的是,在以上技术方案的基础上,所述数据集样本进入自然岩矿图像识别模型的输入层后,所述图像统一格式预处理模块对所述图像数据进行统一尺寸和色彩空间的处理,并输入到迁移模型进行特征预提取;在进行色彩空间统一规范时,经过实验认为在RGB、LAB、HSV三种色彩空间中,LAB空间具有更加清晰的分割边界,更适合应用于分类,因而可以统一将色彩空间转换为LAB,但此不局限仅使用LAB。
应当理解的是,在以上技术方案的基础上,迁移模型对图像数据进行特征预提取,并在迁移模型的输出映射层输出所述图像数据的特征,输入至ECTG模块进行类别映射处理,提取类标志Token,通过Dropout层抑制过拟合,输出与图像数据对应的标志Token,记为Token T;所述迁移模型包括但不限于MobileNet、ShuffleNet、GhostNet、SqueezeNet;
所述ECTG模块,包括顺次连接的Linear层、Dropout层以及Linear层,第一层Linear层用于映射所述特征,使用GeLU函数激活,再通过Dropout层抑制过拟合,第二层Linear层将所述特征映射为Patch Number倍编码长度后输出,其中Patches Number表示通过预设分割Patches大小计算得出的实际Patches数目。
应当理解的是,在以上技术方案的基础上,Token T具体包括:
所述Token为通过ECTG模块将n个Patches的特征融合到第0个Patch中,生成与Patch同等大小的Token T:
Figure BDA0003373619630000091
其中,F为特征值序列矩阵,fi为矩阵F的第i个向量,W为训练后的权重参数矩阵,Wj为矩阵W的第j个向量,B为偏置参数矩阵,Bi为矩阵B的第i个向量,dim为Patch的尺寸。
第二步,将经过预处理模块的数据集样本输入至自然岩矿图像识别模型的数据处理模块中进行参数训练和Token提取。转第三步。
应当理解的是,在以上技术方案的基础上,数据集样本经过预处理模块得到映射为Patch Number倍编码长度的特征,接下来经过数据处理模块中的参数正则化层进行归一化处理,维持数据分布的一致性与稳定性,避免数值差异性导致梯度过大,再进入多个P-Attention组成的Mlti-Head Attention模块,得到输出数据,不同的P-Attention为识别提供一种图像注意力的侧重区域。
应当理解的是,所述P-Attention中通过参数生成四个矩阵:Query、Key、Filter、Value,其中Value矩阵表示从输入数据继承来的特征,Query表示从输入数据中感知的查询向量组,Key表示从输入数据中感知的特征位置信息向量组,Filter表示从输入数据中感知的概率掩码矩阵;
通过Query和Key得到注意力矩阵:
Figure BDA0003373619630000092
通过Value和Filter得到余留矩阵:
Figure BDA0003373619630000093
通过attention和remnant点乘,最终得到输出数据:
out=attention.×remnant
此处的Multi-Head Attention表示有多组Query、Key、Filter、Value在进行计算。
应当理解的是,经过Mlti-Head Attention模块后,Linear层进行参数形状的重新排列,得到每一个图像数据中每一个Patch的特征值,在ECTG模块通过一个卷积核尺寸为1的卷积层,将每张图像的特征进行提取得到Token,并用新的Token更新原本数据中的Token,实现Token T的更新。
应当理解的是,更新Token T后,通过Linear+Dropout层对所述特征还原并抑制过拟合,通过下一层参数正则化层进行层参数正则化,再进入Linear+GeLU层激活函数,经过两层Dropout+Linear层,来到STFE模块进行更显著的抑制过拟合,再经过一层Linear层将特征值还原为与第一步相同维度的特征,将数据重编码成特征数据,这样每一个Patch都还原为了统一维度的特征图。
应当理解的是,所述STFE模块基于相似矩阵变换理论,将原始输入图像数据X,经过网络生成,得到一个掩码图像,通过基于掩码图像的相似变换得到的数据,受限于掩码中概率值分布的影响,使得在保留原有特征的前提下,突出图像中部分特征区域,淡化图像中不希望被感知的区域,从而达到减缓过拟合发生的目的;在进行相似变换的同时,为了保证原始数据分布方差的一致性,将变换结果除以编码维度,以使变换结果数值分布方差不变。因此加入STFE模块,可以有效的抑制过拟合的发生,但其具有特定适用性,即适用于含有干扰信息的输入数据;
STFE模块原理为:
Figure BDA0003373619630000101
其中M为作为掩码图像的实对称矩阵,X是输入数据即所述特征值,dim是Patch的尺寸,除以dim是为了保证数据的分布一致性。
第三步,自然岩矿图像识别模型的结果处理模块根据所述参数训练和Token提取结果进行Token分离和类别映射,完成对所述自然岩矿图像识别模型的训练。转第四步。
应当理解的是,第三步输出的图像数据的特征及对应的Token T输入到结果处理模块,通过参数正则化层,经过ECTG模块剥离所述特征对应的Token T,并通过RCLinear+Softmax层将分类结果映射为概率值;
RCLinear层采用区间压缩映射的方式,提高映射的泛化能力和容错率,原理为:
Figure BDA0003373619630000102
E(xi)=-xi 2+(ai+bi)xi-aibi
其中yj是RCLinear层的输出,xi是RCLinear层的输入,e为常数,ai和bi表示压缩区间的左端点和右端点,通过处理增强区间(ai,bi)内的输出,抑制区间外的输出,随着模型的训练调整区间的位置和长度,以让模型有更好的泛化能力;
将所述概率值输入到自然岩矿图像识别模型的输出端,此时判断深度值是否达到预设深度值,所述深度值即为重复第二步到第三步的次数,若满足则完成对自然岩矿图像识别模型的训练,继续执行第四步;若不满足则返回执行第二步,继续对自然岩矿图像识别模型的训练。
应当理解的是,经过STFE模块进行干扰抑制处理过的图像数据的特征,为了及时保留其含有的特征,ECTG模块此处先将特征还原为二维特征,从而增广了二维的位置信息,再采用一维的卷积层,将n个Patches的特征融合到第0个Patch中,即Class Token中,再进行一次GeLU激活,最后将二维的特征信息扁平化为一维的特征编码;通过ECTG模块能在最终使用Class Token进行类别映射时,有更好的泛化能力和识别精度。
第四步,输出岩矿图像数据集样本中图像数据对多个类别的预测概率值作为输出结果,并将结果处理成预先设计的样式,文字标注或者图标等形式,展示在输入的图像上。转第五步。
例如,将图像数据的特征输入ECTG模块,ECTG模块将输入的[100,50,128]数据通过一个卷积核尺寸为1的卷积层,将每张图像的特征进行提取得到Token T,形状为[100,1,128],并将此Token T输入到RCLinear+Softmax层;通过RCLinear+Softmax层中将原本数据[100,1,128]映射为隐藏层编码,假设隐藏层编码维度等于最终类别数为10,则第一步将输入数据重映射编码为[100,1,10],再经过SoftMax层,那么就得到了每一张图像对十个类别的预测概率值;将这十个概率值作为输出结果,以预设的文字标注形式展示在图像上输出。
第五步,完成对自然岩矿图像识别模型的构建及训练后,采集待识别的图像数据,并输入至完成训练的自然岩矿图像识别模型,所述自然岩矿图像识别模型中的预处理模块、数据处理模块以及结果处理模块进行分类识别并输出待识别图像的分类结果
本发明还公开一种电子设备,所述设备包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的一种基于ViT框架的多类目岩矿快速分类方法程序,一种基于ViT框架的多类目岩矿快速分类方法程序配置为实现如本发明实施例所述的一种基于ViT框架的多类目岩矿快速分类方法。
本发明还公开一种计算机可读存储介质,所述存储介质上存储有一种基于ViT框架的多类目岩矿快速分类方法程序,所述一种基于ViT框架的多类目岩矿快速分类方法程序被执行时实现如本发明实施例所述的一种基于ViT框架的多类目岩矿快速分类方法。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,建立自然岩矿图像识别模型进行多类目岩矿快速分类,所述方法包括以下步骤:
S1,采集岩矿图像数据集样本输入至自然岩矿图像识别模型的预处理模块,进行特征预提取和抑制过拟合处理,所述数据集样本包括图像数据以及与其对应的类别标签,继续执行步骤S2;
S2,将经过预处理模块的数据集样本输入至自然岩矿图像识别模型的数据处理模块中进行参数训练和Token提取,继续执行步骤S3;
S3,自然岩矿图像识别模型的结果处理模块根据所述参数训练和Token提取结果进行Token分离和类别映射并输出分类结果,完成对所述自然岩矿图像识别模型的训练;继续执行步骤S4;
S4,获取待识别图像数据并输入至所述自然岩矿图像识别模型,完成对所述待识别图像数据的分类并输出结果。
2.如权利要求1所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述自然岩矿图像识别模型中,
所述预处理模块包括:顺次连接的输入层、图像统一格式预处理模块、迁移模型、ECTG模块、Dropout层;
所述数据处理模块包括:顺次连接的参数正则化层、Mlti-Head Attention模块、Linear层、ECTG模块、Linear+Dropout层、参数正则化层、Linear+GeLU层、Dropout+Linear层、Dropout+Linear层、STFE模块、Linear层;
所述结果处理模块包括:顺次连接的参数正则化层、ECTG模块、RCLinear+Softmax层。
3.如权利要求2所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述步骤S1具体包括:
S1-1,所述数据集样本进入自然岩矿图像识别模型的输入层后,所述图像统一格式预处理模块对所述图像数据进行统一尺寸和色彩空间的处理,并输入到迁移模型进行特征预提取,继续执行步骤S1-2;
S1-2,所述迁移模型的输出映射层输出所述图像数据的特征,输入至ECTG模块进行类标志Token提取,通过Dropout层抑制过拟合,输出与图像数据对应的标志Token,记为TokenT;
所述ECTG模块,包括顺次连接的Linear层、Dropout层以及Linear层,第一层Linear层用于映射所述特征,使用GeLU函数激活,再通过Dropout层抑制过拟合,第二层Linear层将所述特征映射为Patch Number倍编码长度后输出,其中Patches Number表示通过预设分割Patches大小计算得出的实际Patches数目。
4.如权利要求3所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述Token T具体包括:
所述Token为通过ECTG模块将n个Patches的特征融合到第0个Patch中,生成与Patch同等大小的Token T:
Figure FDA0003373619620000021
其中,F为特征值序列矩阵,fi为矩阵F的第i个向量,W为训练后的权重参数矩阵,Wj为矩阵W的第j个向量,B为偏置参数矩阵,Bi为矩阵B的第i个向量,dim为Patch的尺寸。
5.如权利要求3所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述步骤S2具体包括:
S2-1,所述预处理模块输出的映射为Patch Number倍编码长度的特征经过所述数据处理模块中的参数正则化层进行归一化处理,输入至多个P-Attention组成的Mlti-HeadAttention模块,得到输出数据,不同的P-Attention为识别提供一种图像注意力的侧重区域,继续执行步骤S2-2;
S2-2,通过Linear层进行参数形状的重新排列,得到每一个图像数据中每一个Patch的特征值,通过ECTG模块执行与步骤S1-2相同的处理以更新Token T,继续执行步骤S2-3;
S2-3,所述特征值通过Linear+Dropout层对所述特征还原并抑制过拟合,通过下一层参数正则化层进行层参数正则化,再进入Linear+GeLU层激活函数,经过两层Dropout+Linear层,继续执行步骤S2-4;
S2-4,所述特征值进入STFE模块进行更显著的抑制过拟合,再经过一层Linear层将特征值还原为与S1-2相同维度的特征。
6.如权利要求5所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述步骤S2-1具体包括:
P-Attention中通过参数生成四个矩阵:Query、Key、Filter、Value,其中Value矩阵表示从输入数据继承来的特征,Query表示从输入数据中感知的查询向量组,Key表示从输入数据中感知的特征位置信息向量组,Filter表示从输入数据中感知的概率掩码矩阵;
通过Query和Key得到注意力矩阵:
Figure FDA0003373619620000031
通过Value和Filter得到余留矩阵:
Figure FDA0003373619620000032
通过attention和remnant点乘,最终得到输出数据:
out=attention.×remnant
此处的Multi-Head Attention表示有多组Query、Key、Filter、Value在进行计算。
7.如权利要求6所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述步骤S2-4具体包括:
STFE模块采用相似性特征提取,原理为:
Figure FDA0003373619620000033
其中M为作为掩码图像的实对称矩阵,X是输入数据即所述特征值,dim是Patch的尺寸,除以dim是为了保证数据的分布一致性。
8.如权利要求5所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述步骤S3具体包括:
S3-1,所述特征输入至结果处理模块,通过参数正则化层,经过ECTG模块剥离所述特征对应的Token T,并通过RCLinear+Softmax层将分类结果映射为概率值。
RCLinear层采用区间压缩映射的方式,原理为:
Figure FDA0003373619620000041
E(xi)=-xi 2+(ai+bi)xi-aibi
其中yj是RCLinear层的输出,xi是RCLinear层的输入,e为常数,ai和bi表示压缩区间的左端点和右端点,通过上述处理增强区间(ai,bi)内的输出,抑制所述区间外的输出,模型训练时,调整所述区间的位置和长度;
将所述概率值输入到自然岩矿图像识别模型的输出端,此时根据设定的深度值,决定回到步骤S2-1或者继续执行步骤S3-2,所述深度值为重复步骤S2-1至S3-1的次数;
S3-2,自然岩矿图像识别模型的输出端将所述概率值处理成预设样式,展示在对应输入的图片上。
9.一种电子设备,其特征在于,包括至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的一种基于ViT框架的多类目岩矿快速分类方法程序,一种基于ViT框架的多类目岩矿快速分类方法程序配置为实现如权利要求1至8任一项的一种基于ViT框架的多类目岩矿快速分类方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有一种基于ViT框架的多类目岩矿快速分类方法程序,所述一种基于ViT框架的多类目岩矿快速分类方法程序被执行时实现如权利要求1至8中任一项的一种基于ViT框架的多类目岩矿快速分类方法。
CN202111409265.3A 2021-11-25 2021-11-25 基于ViT框架的多类目岩矿快速分类方法、设备及存储介质 Pending CN114219988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111409265.3A CN114219988A (zh) 2021-11-25 2021-11-25 基于ViT框架的多类目岩矿快速分类方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111409265.3A CN114219988A (zh) 2021-11-25 2021-11-25 基于ViT框架的多类目岩矿快速分类方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114219988A true CN114219988A (zh) 2022-03-22

Family

ID=80698221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111409265.3A Pending CN114219988A (zh) 2021-11-25 2021-11-25 基于ViT框架的多类目岩矿快速分类方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114219988A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842307A (zh) * 2022-07-04 2022-08-02 中国科学院自动化研究所 掩码图像模型训练方法、掩码图像内容预测方法和设备
CN114898080A (zh) * 2022-04-19 2022-08-12 杭州电子科技大学 一种基于ViT网络的图像成像设备识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898080A (zh) * 2022-04-19 2022-08-12 杭州电子科技大学 一种基于ViT网络的图像成像设备识别方法
CN114898080B (zh) * 2022-04-19 2024-05-31 杭州电子科技大学 一种基于ViT网络的图像成像设备识别方法
CN114842307A (zh) * 2022-07-04 2022-08-02 中国科学院自动化研究所 掩码图像模型训练方法、掩码图像内容预测方法和设备
CN114842307B (zh) * 2022-07-04 2022-10-28 中国科学院自动化研究所 掩码图像模型训练方法、掩码图像内容预测方法和设备

Similar Documents

Publication Publication Date Title
CN111191583B (zh) 基于卷积神经网络的空间目标识别系统及方法
CN111127631B (zh) 基于单图像的三维形状和纹理重建方法、系统及存储介质
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
CN109740686A (zh) 一种基于区域池化和特征融合的深度学习图像多标记分类方法
CN114219988A (zh) 基于ViT框架的多类目岩矿快速分类方法、设备及存储介质
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN114529707B (zh) 三维模型分割方法、装置、计算设备及可读存储介质
CN108764361B (zh) 基于集成学习的游梁式抽油机示功图的工况识别方法
CN107506792B (zh) 一种半监督的显著对象检测方法
CN111242026B (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN105528575A (zh) 基于上下文推理的天空检测算法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN113537180B (zh) 树障的识别方法、装置、计算机设备和存储介质
CN112861917A (zh) 基于图像属性学习的弱监督目标检测方法
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN111368775A (zh) 一种基于局部上下文感知的复杂场景密集目标检测方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN116188999A (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN114283326A (zh) 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN112784722B (zh) 基于YOLOv3和词袋模型的行为识别方法
CN112488135A (zh) 一种变电站bim三维图像特征的分类方法
CN112330639A (zh) 一种用于彩色-热红外图像的显著性检测方法
CN114241150A (zh) 一种倾斜摄影建模中的水域数据预处理方法
CN113011506A (zh) 一种基于深度重分形频谱网络的纹理图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination