CN114418003B - 基于注意力机制及多尺寸信息提取的双图像识别分类方法 - Google Patents

基于注意力机制及多尺寸信息提取的双图像识别分类方法 Download PDF

Info

Publication number
CN114418003B
CN114418003B CN202210066369.7A CN202210066369A CN114418003B CN 114418003 B CN114418003 B CN 114418003B CN 202210066369 A CN202210066369 A CN 202210066369A CN 114418003 B CN114418003 B CN 114418003B
Authority
CN
China
Prior art keywords
features
images
channel
fusion
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210066369.7A
Other languages
English (en)
Other versions
CN114418003A (zh
Inventor
张桃红
郭徐徐
范素丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202210066369.7A priority Critical patent/CN114418003B/zh
Publication of CN114418003A publication Critical patent/CN114418003A/zh
Application granted granted Critical
Publication of CN114418003B publication Critical patent/CN114418003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于注意力机制及多尺寸信息提取的双图像识别分类方法,包括:获取待分类物体的两幅图像;其中,两幅图像为同一位置不同情况下所拍摄的图像;并行的多尺寸特征提取网络融合了不同尺寸的信息以同时提取两幅图像的不同尺寸的特征;利用双图像空间注意力模块将两幅图像的特征从空间的角度进行融合,得到空间融合特征信息;利用双图像通道注意力模块将两幅图像的特征从通道的角度进行融合,得到通道融合特征信息;多种方法提取的特征相互交互融合,形成的融合信息输入到分类网络,得到待分类物体的类别。本发明结合了不同情况下的相同物体的两幅图像,克服了单幅图像的特征信息不全面的问题,提高了分类的准确率。

Description

基于注意力机制及多尺寸信息提取的双图像识别分类方法
技术领域
本发明涉及图像分类和人工智能技术领域,尤其涉及基于注意力机制及多尺寸信息提取的双图像识别分类方法。
背景技术
在相机拍摄物体表面的图像过程中,不同的拍摄角度、不同波长的光源和位置所成的像是不同的。受到拍摄角度、光源的影响,单独一种情况下拍摄的图像不能完全反映物体的真实状况。如果两种物体在相同的角度或光源下拍摄的图像是相似的,但是在不同角度或光源下拍摄的图像是不同的。神经网络将相似的图像作为输入很容易将不同的物体的类别预测为同一类。
由于深度学习的快速发展,基于卷积神经网络的图像分类方法得到广泛的应用。图像分类通常只输入图像的某个角度或者某个光源下拍摄的图像。单一角度或光源下拍摄的物体图像可能会相似,导致模型对物体识别准确率低。因此,为了更好的反映物体表面的特征信息,考虑多种情况下拍摄的物体图像是一个很好的解决方案。
发明内容
为了解决上述技术问题,本发明的目的是提供基于注意力机制及多尺寸信息提取的双图像识别分类方法,以解决现有的图像分类方法由于只输入物体表面的一幅图像,忽略了物体其他情况下的特征导致了特征不全面,图像分类准确率低的问题。
为了实现上述技术目的,本发明提供了基于注意力机制及多尺寸信息提取的双图像识别分类方法,包括以下步骤:
采集待分类物体的同一位置处具有不同表征的两幅图像;
构建多尺寸特征提取网络,多尺寸特征提取网络用于提取两幅图像的图像特征,其中,
多尺寸特征提取网络包括:
双图像空间注意力模块,用于将两幅图像的特征从空间的角度进行融合,得到空间融合特征信息;
双图像通道注意力模块,将两幅图像的特征从通道的角度进行融合,得到通道融合特征信息;
特征融合交互模块,用于将空间融合特征信息和通道融合特征信息进行特征融合,并提取两幅图像的图像特征。
优选地,在采集两幅图像的过程中,保持待分类物体的位置不变,基于不同情况,获取待分类物体的两幅图像,其中,不同情况包括角度不同和/或光源不同。
优选地,在构建多尺寸特征提取网络的过程中,多尺寸特征提取网络为并行网络,通过两个结构相同的多尺寸分支网络同时提取两幅图像的特征。
优选地,在构建多尺寸特征提取网络的过程中,多尺寸分支网络由多个多尺寸并行卷积模块组成,其中,多尺寸并行卷积模块用于对输入的特征使用点卷积进行升维,并按照通道维度对特征进行切分得到四个子特征;将四个子特征分别被输入到不同尺寸的深度可分离卷积进行特征提取,得到不同尺寸的特征,并按照通道维度进行拼接后,使用点卷积对拼接后的特征进行降维,输入到下一个多尺寸并行卷积模块。
优选地,在提取两幅图像的特征的过程中,提取的具体方法如下:
Figure BDA0003480224490000031
Figure BDA0003480224490000032
Figure BDA0003480224490000033
Figure BDA0003480224490000034
Figure BDA0003480224490000035
Y=f1×1(Concat(Y1,Y2,Y3,Y4))+X
其中,X表示输入的特征;Split表示按通道维度进行切分操作;Xi表示切分得到的第i块特征;f1x1表示卷积核尺寸为1的点卷积;
Figure BDA0003480224490000036
表示间隔尺寸为1,卷积核尺寸为1的深度可分离卷积;BN表示归一化操作;PRelu表示非线性激活函数;Yi表示经过不同尺寸的卷积得到的子特征;Concat表示按通道维度进行特征信息拼接;Y表示输出的两幅图像的特征。
优选地,在获取空间融合特征信息的过程中,将两幅图像的特征进行点卷积降维,通过外积得到空间注意力掩膜,其中,空间注意力掩膜用于反映不同情况下的物体特征图中任意两个像素点之间的相关性;
将空间注意力掩膜分别与初始的两幅图像的特征,进行外积得到融合后的特征;
将融合后的特征与两幅图像的特征相加,得到融合特征,将融合特征输入到双图像通道注意力模块。
优选地,在获取空间融合特征信息的过程中,获取空间融合特征信息的具体方法如下:
XS_Mask=softmax(|f1×1(XA1)|2×|f1×1(XA2)|2 T)
XA1_SA=XS_Mask×f1×1(XA1)+XA1
XA2_SA=XS_Mask×f1×1(XA2)+XA2
其中,XA1和XA2分别表示情况为A1和A2的两幅图像的特征;T表示按特征的长和宽进行转置操作;||2表示L2正则化;softmax为激活函数;XS_Mask表示空间注意力掩膜;XA1_SA和XA2_SA分别表示与空间注意力掩膜融合得到的空间融合特征信息。
优选地,在得到通道融合特征信息的过程中,将融合特征经过全局平均池化将特征压缩到通道维度,通过通道维度特征拼接成融合通道特征;
将融合通道特征经过两层卷积块进行特征融合得到通道注意力掩膜,通道注意力掩膜用于调整不同通道间的权重;
将通道注意力掩膜进行切分后,重新分配给两幅图像的特征进行融合,获取通道融合特征信息。
优选地,在获取通道融合特征信息的过程中,获取通道融合特征信息的具体方法如下:
XC_A=Concat(GAP(XA1),GAP(XA2))
XC_Mask=f1×1(f1×1(XC_A))
XC_Mask_A1,XC_Mask_A2=Split(XC_Mask)
XA1_CA=Sigmoid(f1×1(XC_Mask_A1))·XA1
XA2_CA=Sigmoid(f1×1(XC_Mask_A2))·XA2
其中,XA1和XA2分别表示情况为A1和A2的两幅图像的特征;XC_A表示融合后的特征信息;XC_Mask表示经过特征融合得到的通道注意力掩膜;XC_Mask_A1和XC_Mask_A2分别表示角度为A1和A2的通道注意力掩膜;XA1_CA和XA2_CA表示融合了不同角度特征的通道融合特征信息。
优选地,在提取两幅图像的图像特征的过程中,将通道融合特征信息和通道融合特征信息按照通道维度进行特征拼接;
将特征拼接得到的特征通过两层全连接层进行分类输出得到图像特征。
本发明还公开了用于实现双图像识别分类方法的双图像识别分类系统,包括:
数据采集模块,用于采集待分类物体的同一位置处具有不同表征的两幅图像;
数据分析模块,用于通过构建多尺寸特征提取网络,提取两幅图像的图像特征,其中,
多尺寸特征提取网络包括:
双图像空间注意力模块,用于将两幅图像的特征从空间的角度进行融合,得到空间融合特征信息;
双图像通道注意力模块,将两幅图像的特征从通道的角度进行融合,得到通道融合特征信息;
特征融合交互模块,用于将空间融合特征信息和通道融合特征信息进行特征融合,并提取两幅图像的图像特征。
本发明公开了以下技术效果:
本发明的上述技术方案中相机可以在不同的情况下分别拍摄同一位置物体的表面图像;利用并行多尺寸特征提取网络同时提取两个不同情况的特征信息;利用多尺寸分支网络提取不同尺度的物体特征,大尺度的卷积核适合提取图像中物体尺寸比较大的图像,小尺度的卷积核适合提取图像中物体尺寸比较小的图像;利用双图像空间注意力模块将两个不同情况的特征从空间的维度进行融合;利用双图像通道注意力模块将两个不同情况的特征从通道的维度进行融合;利用两个不同情况之间的特征相互融合可以增强特征的表示能力,提高模型的分类准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于注意力机制及多尺寸信息提取的双图像识别分类方法的执行流程示意图;
图2是本发明实施例提供的基于注意力机制及多尺寸信息提取的双图像识别分类方法所采用的网络模型的结构示意图;
图3是本发明实施例提供的加工件表面粗糙度多角度图像采集装置示意图;
图4是本发明实施例提供的不同角度拍摄的样片表面图像;
图5是本发明实施例提供的不同光源拍摄的样片表面图像。
具体实施方式
下为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1-5所示,本发明提供了
实施例1:一方面,本发明提供了一种基于注意力机制及多尺寸信息提取的双图像识别分类方法,包括:
获取待分类物体的两幅图像;其中,所述两幅图像为同一位置下不同情况下所拍摄的图像;
并行的多尺寸特征提取网络融合不同尺寸的信息来提取两幅图像的特征;
利用双图像空间注意力模块将所述两幅图像的特征从空间的角度进行融合,得到空间融合特征信息;
利用双图像通道注意力模块将所述两幅图像的特征从通道的角度进行融合,得到通道融合特征信息;
所述多种方法提取的特征融合交互,形成的融合信息输入到分类网络,得到所述待分类物体的类别。
进一步地,所述获取待分类物体的两幅图像,包括:
保持待分类物体的位置不发生变化,相机分别从两种不同的情况下来获取待分类物体两幅图像。
进一步地,所述并行的多尺寸特征提取网络融合不同尺寸的信息来提取两幅图像的特征,包括:
两幅相同物体不同情况的图像同时输入到并行的多尺寸特征提取网络来提取不同情况下的两幅图像的特征。并行的多尺寸特征提取网络有两个结构相同的多尺寸分支网络来同时提取两个相同大小的图片的特征,得到两个不同情况下的图像特征。
进一步地,所述多尺寸分支网络,包括:
多尺寸分支网络由多个多尺寸并行卷积模块组成。多尺寸并行卷积模块对输入的特征使用点卷积进行升维,并按照通道维度对特征进行切分得到四个子特征。四个子特征分别被输入到不同空洞速率的深度可分离卷积进行特征提取得到不同尺寸的特征。不同尺寸的特征按照通道维度进行拼接,并使用点卷积对特征进行降维输入到下一个多尺寸并行卷积模块。具体的方法如下:
Figure BDA0003480224490000091
Figure BDA0003480224490000092
Figure BDA0003480224490000093
Figure BDA0003480224490000094
Figure BDA0003480224490000095
Y=f1×1(Concat(Y1,Y2,Y3,Y4))+X
其中,X表示输入的特征;Split表示按通道维度进行切分操作;Xi表示切分得到的第i块特征;f1x1表示卷积核尺寸为1的点卷积;
Figure BDA0003480224490000096
表示间隔尺寸为1,卷积核尺寸为1的深度可分离卷积;BN表示归一化操作;PRelu表示非线性激活函数;Yi表示经过不同尺寸的卷积得到的子特征;Concat表示按通道维度进行特征信息拼接;Y表示输出的特征。
进一步地,利用双图像空间注意力模块将所述两幅图像的特征从空间的角度进行融合,得到空间融合特征信息,包括:
两个不同情况下的物体图像特征经过点卷积降维之后进行外积得到空间注意力掩膜。空间注意力掩膜可以反映不同情况下的物体特征图中任意两个像素点之间的相关性。空间注意力掩膜分别与初始的不同情况的特征进行外积得到融合后的两个不同情况的特征。融合后的特征与初始的特征相加被输入到双图像通道注意力模块。具体的方法如下:
XS_Mask=softmax(|f1×1(XA1)|2×|f1×1(XA2)|2 T)
XA1_SA=XS_Mask×f1×1(XA1)+XA1
XA2_SA=XS_Mask×f1×1(XA2)+XA2
其中,XA1和XA2分别表示情况为A1和A2的两幅图像的特征;T表示按特征的长和宽进行转置操作;||2表示L2正则化;softmax为激活函数;XS_Mask表示空间注意力掩膜;XA1_SA和XA2_SA分别表示与空间注意力掩膜融合得到的空间融合特征信息。
进一步地,利用双图像通道注意力模块将所述两幅图像的特征从通道的角度进行融合,得到通道融合特征信息,包括:
两个不同情况的物体图像特征首先经过全局平均池化将特征压缩到通道维度;不同情况的通道维度特征拼接成融合通道特征;融合通道特征经过两层卷积块进行特征融合得到通道注意力掩膜,通道注意力掩膜可以调整不同通道间的权重;通道注意力掩膜经过切分重新分配给不同情况下的特征进行融合。具体的方法如下:
XC_A=Concat(GAP(XA1),GAP(XA2))
XC_Mask=f1×1(f1×1(XC_A))
XC_Mask_A1,XC_Mask_A2=Split(XC_Mask)
XA1_CA=Sigmoid(f1×1(XC_Mask_A1))·XA1
XA2_CA=Sigmoid(f1×1(XC_Mask_A2))·XA2
其中,XA1和XA2分别表示情况为A1和A2的两幅图像的特征;XC_A表示融合后的特征信息;XC_Mask表示经过特征融合得到的通道注意力掩膜;XC_Mask_A1和XC_Mask_A2分别表示角度为A1和A2的通道注意力掩膜;XA1_CA和XA2_CA表示融合了不同角度特征的特征信息。
进一步地,所述多种方法提取的特征融合交互,形成的融合信息输入到分类网络,得到所述待分类物体的类别,包括:
经过多尺寸特征提取网络、双图像空间注意力模块和双图像通道注意力模块融合得到不同情况的特征按照通道维度进行特征拼接。拼接得到的特征被输入到两层全连接层进行分类输出得到最后的图像的类别
实施例2:如图1所示,本发明实施例提供了一种基于注意力机制及多尺寸信息提取的双图像识别分类方法,该方法包括:
S1,获取待分类物体的两幅图像;其中,所述两幅图像为同一位置不同情况下所拍摄的图像;
需要说明的是,由于不同情况下相机拍摄相同的物体表面各不相同,所以不同的图像所表现的特征有所不同。因此,本实例为了解决单幅图像表征物体特征不明显的问题,使用两幅不同情况下相同的物体的图片来预测物体的类别。不同情况下的图片特征可以相互补充,提高分类模型的识别准确率。
S2,并行的多尺寸特征提取网络融合不同尺寸的信息来提取两幅图像的特征;
需要说明的是,本实施例是利用两个相同结构的多尺寸特征提取网络来提取不同情况的相同物体的特征。具体地,不同情况的图像同时输入到两个多尺寸特征提取网络。多尺寸特征提取网络由五个多尺寸模块组成。不同大小的物体所需要的感受野不同,物体的尺寸越大,需要的感受野越大。为了适应不同情况的物体尺寸,多尺寸模块被用来提取丰富的特征。
S3,利用双图像空间注意力模块将所述两幅图像的特征从空间的角度进行融合,得到空间融合特征信息;
具体地,在本实施例中,得到空间融合特征信息的方式为:将提取到的两个尺寸相同的不同情况的图像特征同时输入到双图像空间注意力模块。双图像空间注意力模块通过计算两个特征图的余弦相似度注意力掩膜,可以得出两个特征图中任意两个相似点之间的相关性。空间注意力掩膜以矩阵外积的形式与初始的两个特征图进行融合得到空间融合信息。
S4,利用双图像通道注意力模块将所述两幅图像的特征从通道的角度进行融合,得到通道融合特征信息;
具体地,在本实施例中,得到通道融合特征信息地方式为:将提取到的两个尺寸相同的不同角度的图像特征同时输入到双图像通道注意力模块。双图像通道注意力模块使用全局平均池化提取通道维度的特征,并沿通道维度进行特征拼接。全连接层计算不同通道之间的相关性,进行特征权重调整得到通道注意力掩膜。通道注意力掩膜再分别与不同情况的特征进行融合得到通道融合特征信息。
S5,所述多种方法提取的特征融合交互,形成的融合信息输入到分类网络,得到所述待分类物体的类别;
具体地,在本实施例中,经过多尺寸特征提取网络、双图像空间注意力模块和双图像通道注意力模块融合得到不同情况的特征按照通道维度进行特征拼接。拼接得到的特征被输入到两层全连接层进行分类输出得到最后的图像的类别。
进一步地,本实施例的基于注意力机制的多角度工件表面粗糙度预测方法所采用的网络模型的网络结构如图2所示。
实施例一
在本实施例中,使用不同目的砂纸打磨抛光类型的粗糙度样品来验证基于注意力机制及多尺寸信息提取的双图像识别分类模型的效果。设置不同的拍摄角度对砂纸打磨抛光的样品表面的粗糙度图像进行采集。数据集按照不同的砂纸类型将粗糙度分为四个等级。表1显示了不同的粗糙度等级所对应的粗糙度范围和每个角度的图像数量。粗糙度类别为320-60s中的320表示砂纸的目数,60s表示打磨60秒。每个角度拍摄的图片数量都为160,拍摄的角度为0度、15度、30度和45度。使用交叉熵损失函数和Adam优化器来迭代更新模型的参数,迭代20次训练,每个批次的大小为32,学习速率为0.001。训练集、验证集和测试集之间的比例为8:1:1。
表1
Figure BDA0003480224490000131
Figure BDA0003480224490000141
具体的实施步骤为:
(1)获取不同角度的样品表面粗糙度图像。图像采集装置如图3所示,相同结构的相机调整不同的角度来拍摄不同角度的样品表面粗糙度图像。将粗糙度图像随机的划分为训练集、验证集和测试集。数据集总共包括2560张图片,每个粗糙度类型中的每个角度的图片数量为160。图片被处理成224x224像素大小,处理后的图片如图4所示,图4中从左到右的角度依次为0°、15°、30°、45°。
(2)使用两个相同的多尺度特征提取网络来分别提取两个不同尺度的特征。
(3)两个不同尺度的特征分别被输入到双图像空间注意力模块和双图像通道注意力模块从空间和通道的维度对两个不同角度之间的特征进行相互融合。
(4)将融合后的特征输入到分类网络,输出每个粗糙度图像的预测结果。当模型训练的损失趋向于收敛时,得到训练好的粗糙度分类模型。
(5)将测试集中的图像输入到训练好的分类模型中,得到输入图像的粗糙度等级。
进一步地,将本实施例的基于注意力机制及多尺寸信息提取的双图像识别分类方法记为AMS-Net。为了证明本实施例提出的方法在提升粗糙度分类准确率上的有效性,对单图像粗糙度图像训练模型(MSP-Net)、双图像粗糙度图像训练模型(AMS-Net)进行了实验对比,评估了每个角度对粗糙度分类的平均分类准确率。
表2
Figure BDA0003480224490000151
如表2所示,不同角度的样品表面粗糙度的图像预测准确率不同,0度的准确率最高,达到了91.55%。0度是垂直拍摄的粗糙度图像,有较丰富的特征信息。15度的粗糙度图像的1000目识别准确率最低。30度的粗糙度图像的320目识别准确率最低,而1000和1200目的识别准确率最高。45度粗糙度图像在800、1000和1200目识别准确率相当。通过对比可以发现不同角度拍摄的粗糙度图像在预测不同目的样品准确率不同,不同角度得到的特征相互补充。
为了比较多角度特征融合与单角度特征之间的效果,本实施例选择单角度准确率最高的0度和其他的角度作为对比实验。从表2中可以看出,虽然0和15度的粗糙度特征提升了320和800目的准确率,但是导致了其他1000目类别的准确率降低。而0和30度的粗糙度特征,显著提升了30度的320目和800目的识别准确率。0和45度的粗糙度特征提升了320和800目的粗糙度特征,其他的粗糙度类别也达到较高的准确率。准确率最高的角度组合是0度和45度。
综上,本实施例的方法同时将两个不同角度的粗糙度图像输入到网络模型中来预测粗糙度类别。不同角度拍摄的样品表面的粗糙度,所包含的粗糙度特征不相同。多角度特征之间的相互融合,可以更好的提升单角度特征的准确率。
实施例二
在本实施例中,使用不同光源下拍摄的粗糙度样品图像来验证基于注意力机制及多尺寸信息提取的双图像识别分类模型的效果。设置白光和红激光两种光源的相机来拍摄样品表面的图像。保持相机垂直于待测样品,切换白光和红激光两种不同的光源分别拍摄待测样品表面的粗糙度图像。按照不同的加工类型将粗糙度数据集分为六个类别。表3显示了不同的加工类型所对应的粗糙度范围和每个加工类型的图像数量。训练参数与实施例一相同。
表3
Figure BDA0003480224490000161
Figure BDA0003480224490000171
表4
Figure BDA0003480224490000172
如表4所示,不同光源的样品表面粗糙度的图像预测准确率不同,白光和红激光结合的预测准确率达到97.43%,比单独使用白光检测的粗糙度预测准确率提高4.6%。通过对比可以发现两种光源的图像分类识别准确率要比单独使用一种光源的准确率要高,不同光源的特征可以相互补充,增强粗糙度分类模型的识别准确率。
综上,本实施例的方法同时将两个不同光源的粗糙度图像输入到网络模型中来预测粗糙度类别。不同光源拍摄的样品表面的粗糙度,所包含的粗糙度特征不相同。多光源特征之间的相互融合,可以更好的提升单光源特征的准确率。
还需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (7)

1.基于注意力机制及多尺寸信息提取的双图像识别分类方法,其特征在于,包括以下步骤:
采集待分类物体的同一位置处具有不同表征的两幅图像;
构建多尺寸特征提取网络,所述多尺寸特征提取网络用于通过提取所述两幅图像的图像特征,获取所述待分类物体的类别,其中,
所述多尺寸特征提取网络包括:
双图像空间注意力模块,用于将所述两幅图像的特征从空间的角度进行融合,得到空间融合特征信息,其中,获取提取到的两个尺寸相同的不同情况的图像特征的余弦相似度注意力掩膜,得出两个特征图中任意两个相似点之间的相关性,空间注意力掩膜以矩阵外积的形式与初始的两个特征图进行融合得到所述空间融合特征信息;
双图像通道注意力模块,将所述两幅图像的特征从通道的角度进行融合,得到通道融合特征信息,其中,
在得到通道融合特征信息的过程中,将所述融合特征经过全局平均池化将特征压缩到通道维度,通过通道维度特征拼接成融合通道特征;
将所述融合通道特征经过两层卷积块进行特征融合得到通道注意力掩膜,所述通道注意力掩膜用于调整不同通道间的权重;
将所述通道注意力掩膜进行切分后,重新分配给所述两幅图像的特征进行融合,获取所述通道融合特征信息;
特征融合交互模块,用于将所述空间融合特征信息和所述通道融合特征信息进行特征融合,将融合得到的特征输入到两层全连接层进行分类输出得到所述待分类物体的类别。
2.根据权利要求1所述基于注意力机制及多尺寸信息提取的双图像识别分类方法,其特征在于:
在采集两幅图像的过程中,保持所述待分类物体的位置不变,基于不同情况,获取所述待分类物体的两幅图像,其中,所述不同情况包括角度不同和/或光源不同。
3.根据权利要求2所述基于注意力机制及多尺寸信息提取的双图像识别分类方法,其特征在于:
在构建多尺寸特征提取网络的过程中,所述多尺寸特征提取网络为并行网络,通过两个结构相同的多尺寸分支网络同时提取所述两幅图像的特征。
4.根据权利要求3所述基于注意力机制及多尺寸信息提取的双图像识别分类方法,其特征在于:
在构建多尺寸特征提取网络的过程中,所述多尺寸分支网络由多个多尺寸并行卷积模块组成,其中,所述多尺寸并行卷积模块用于对输入的特征使用点卷积进行升维,并按照通道维度对特征进行切分得到四个子特征;将四个所述子特征分别被输入到不同尺寸的深度可分离卷积进行特征提取,得到不同尺寸的特征,并按照通道维度进行拼接后,使用点卷积对拼接后的特征进行降维,输入到下一个多尺寸并行卷积模块。
5.根据权利要求4所述基于注意力机制及多尺寸信息提取的双图像识别分类方法,其特征在于:
在提取所述两幅图像的特征的过程中,提取的具体方法如下:
Figure FDA0003780309770000031
Figure FDA0003780309770000032
Figure FDA0003780309770000033
Figure FDA0003780309770000034
Figure FDA0003780309770000035
Y=f1×1(Concat(Y1,Y2,Y3,Y4))+X
其中,X表示输入的特征;Split表示按通道维度进行切分操作;Xi表示切分得到的第i块特征;f1x1表示卷积核尺寸为1的点卷积;
Figure FDA0003780309770000036
表示间隔尺寸为1,卷积核尺寸为1的深度可分离卷积;BN表示归一化操作;PRelu表示非线性激活函数;Yi表示经过不同尺寸的卷积得到的子特征;Concat表示按通道维度进行特征信息拼接;Y表示输出的所述两幅图像的特征,Xi表示切分得到的第i块特征。
6.根据权利要求5所述基于注意力机制及多尺寸信息提取的双图像识别分类方法,其特征在于:
在获取空间融合特征信息的过程中,获取所述空间融合特征信息的具体方法如下:
XS_Mask=softmax(|f1×1(XA1)|2×|f1×1(XA2)|2 T)
XA1_SA=XS_Mask×f1×1(XA1)+XA1
XA2_SA=XS_Mask×f1×1(XA2)+XA2
其中,XA1和XA2分别表示情况为A1和A2的两幅图像的特征;T表示按特征的长和宽进行转置操作;| |2表示L2正则化;softmax为激活函数;XS_Mask表示空间注意力掩膜;XA1_SA和XA2_SA分别表示与空间注意力掩膜融合得到的空间融合特征信息。
7.根据权利要求6所述基于注意力机制及多尺寸信息提取的双图像识别分类方法,其特征在于:
在获取所述通道融合特征信息的过程中,获取所述通道融合特征信息的具体方法如下:
XC_A=Concat(GAP(XA1),GAP(XA2))
XC_Mask=f1×1(f1×1(XC_A))
XC_Mask_A1,XC_Mask_A2=SPlit(XC_Mask)
XA1_CA=Sigmoid(f1×1(XC_Mask_A1))·XA1
XA2_CA=Sigmoid(f1×1(XC_Mask_A2))·XA2
其中,XA1和XA2分别表示情况为A1和A2的两幅图像的特征;XC_A表示融合后的特征信息;XC_Mask表示经过特征融合得到的通道注意力掩膜;XC_Mask_A1和XC_Mask_A2分别表示角度为A1和A2的通道注意力掩膜;XA1_CA和XA2_CA表示融合了不同角度特征的通道融合特征信息。
CN202210066369.7A 2022-01-20 2022-01-20 基于注意力机制及多尺寸信息提取的双图像识别分类方法 Active CN114418003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210066369.7A CN114418003B (zh) 2022-01-20 2022-01-20 基于注意力机制及多尺寸信息提取的双图像识别分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210066369.7A CN114418003B (zh) 2022-01-20 2022-01-20 基于注意力机制及多尺寸信息提取的双图像识别分类方法

Publications (2)

Publication Number Publication Date
CN114418003A CN114418003A (zh) 2022-04-29
CN114418003B true CN114418003B (zh) 2022-09-16

Family

ID=81276006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210066369.7A Active CN114418003B (zh) 2022-01-20 2022-01-20 基于注意力机制及多尺寸信息提取的双图像识别分类方法

Country Status (1)

Country Link
CN (1) CN114418003B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272776B (zh) * 2022-09-26 2023-01-20 山东锋士信息技术有限公司 基于双路卷积与双注意的高光谱图像分类方法及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN111275643A (zh) * 2020-01-20 2020-06-12 西南科技大学 基于通道和空间注意力的真实噪声盲去噪网络模型及方法
CN111401436A (zh) * 2020-03-13 2020-07-10 北京工商大学 一种融合网络和双通道注意力机制的街景图像分割方法
CN111598108A (zh) * 2020-04-22 2020-08-28 南开大学 基于立体注意力控制的多尺度神经网络的快速显著性物体检测方法
CN111915487A (zh) * 2020-08-04 2020-11-10 武汉工程大学 基于分层多尺度残差融合网络的人脸超分辨率方法及装置
CN112016574A (zh) * 2020-10-22 2020-12-01 北京科技大学 一种基于特征融合的图像分类方法
CN112101318A (zh) * 2020-11-17 2020-12-18 深圳市优必选科技股份有限公司 基于神经网络模型的图像处理方法、装置、设备及介质
CN112784856A (zh) * 2021-01-29 2021-05-11 长沙理工大学 胸部x射线图像的通道注意力特征提取方法和识别方法
CN112836773A (zh) * 2021-04-08 2021-05-25 河海大学 一种基于全局注意力残差网络的高光谱图像分类方法
CN112990391A (zh) * 2021-05-20 2021-06-18 四川大学 基于特征融合的卷积神经网络的缺陷分类识别系统
CN113283529A (zh) * 2021-06-08 2021-08-20 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN113591795A (zh) * 2021-08-19 2021-11-02 西南石油大学 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统
CN113780147A (zh) * 2021-09-06 2021-12-10 西安电子科技大学 一种轻量化动态融合卷积网的高光谱地物分类方法及系统
CN113850339A (zh) * 2021-09-30 2021-12-28 北京科技大学 一种基于多光源表面图像的粗糙度等级预测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832620A (zh) * 2020-06-11 2020-10-27 桂林电子科技大学 一种基于双注意力多层特征融合的图片情感分类方法
CN112465828B (zh) * 2020-12-15 2024-05-31 益升益恒(北京)医学技术股份公司 一种图像语义分割方法、装置、电子设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN111275643A (zh) * 2020-01-20 2020-06-12 西南科技大学 基于通道和空间注意力的真实噪声盲去噪网络模型及方法
CN111401436A (zh) * 2020-03-13 2020-07-10 北京工商大学 一种融合网络和双通道注意力机制的街景图像分割方法
CN111598108A (zh) * 2020-04-22 2020-08-28 南开大学 基于立体注意力控制的多尺度神经网络的快速显著性物体检测方法
CN111915487A (zh) * 2020-08-04 2020-11-10 武汉工程大学 基于分层多尺度残差融合网络的人脸超分辨率方法及装置
CN112016574A (zh) * 2020-10-22 2020-12-01 北京科技大学 一种基于特征融合的图像分类方法
CN112101318A (zh) * 2020-11-17 2020-12-18 深圳市优必选科技股份有限公司 基于神经网络模型的图像处理方法、装置、设备及介质
CN112784856A (zh) * 2021-01-29 2021-05-11 长沙理工大学 胸部x射线图像的通道注意力特征提取方法和识别方法
CN112836773A (zh) * 2021-04-08 2021-05-25 河海大学 一种基于全局注意力残差网络的高光谱图像分类方法
CN112990391A (zh) * 2021-05-20 2021-06-18 四川大学 基于特征融合的卷积神经网络的缺陷分类识别系统
CN113283529A (zh) * 2021-06-08 2021-08-20 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN113591795A (zh) * 2021-08-19 2021-11-02 西南石油大学 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统
CN113780147A (zh) * 2021-09-06 2021-12-10 西安电子科技大学 一种轻量化动态融合卷积网的高光谱地物分类方法及系统
CN113850339A (zh) * 2021-09-30 2021-12-28 北京科技大学 一种基于多光源表面图像的粗糙度等级预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Two-Exposure Image Fusion Based on Cross Attention Fusion》;Sha-Wo Huang等;《2021 55th Asilomar Conference on Signals, Systems, and Computers》;20211231;第867-872页 *
《基于卷积神经网络的多尺度注意力图像分类模型》;陈琳琳等;《南京理工大学学报》;20201231;第44卷(第6期);第669-675页 *

Also Published As

Publication number Publication date
CN114418003A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN108960141B (zh) 基于增强型深度卷积神经网络的行人再识别方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN108154133B (zh) 基于非对称联合学习的人脸画像-照片识别方法
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN112507853B (zh) 一种基于互注意力机制的跨模态行人重识别方法
CN114067444A (zh) 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统
CN112233129A (zh) 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN104408692A (zh) 一种基于深度学习的图像模糊模型参数分析方法
Zhu et al. A-pixelhop: A green, robust and explainable fake-image detector
CN113034506A (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
CN114418003B (zh) 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
CN112329771A (zh) 一种基于深度学习的建筑材料样本识别方法
CN117789293A (zh) 基于多特征分离的行人重识别方法、系统与计算机可读介质
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
CN113688856A (zh) 基于多视角特征融合的行人重识别方法
CN116975828A (zh) 一种人脸融合攻击检测方法、装置、设备及存储介质
Singh et al. Performance analysis of ELA-CNN model for image forgery detection
CN116012709A (zh) 一种高分辨率遥感影像建筑物提取方法及系统
CN113537032B (zh) 一种基于图片分块丢弃的分集多支路行人重识别方法
CN115937121A (zh) 基于多维度特征融合的无参考图像质量评价方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant