CN114118199A - 一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统 - Google Patents

一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统 Download PDF

Info

Publication number
CN114118199A
CN114118199A CN202111022588.7A CN202111022588A CN114118199A CN 114118199 A CN114118199 A CN 114118199A CN 202111022588 A CN202111022588 A CN 202111022588A CN 114118199 A CN114118199 A CN 114118199A
Authority
CN
China
Prior art keywords
feature
channel
attention mechanism
attention
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111022588.7A
Other languages
English (en)
Inventor
程一飞
董国庆
李玉道
王玉建
李志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jining Antai Mine Equipment Manufacturing Co ltd
Original Assignee
Jining Antai Mine Equipment Manufacturing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jining Antai Mine Equipment Manufacturing Co ltd filed Critical Jining Antai Mine Equipment Manufacturing Co ltd
Priority to CN202111022588.7A priority Critical patent/CN114118199A/zh
Publication of CN114118199A publication Critical patent/CN114118199A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统,在结构上结合残差多尺度特征提取模块,采用跳跃连接的方式,保证特征完整的同时减少计算量,增强了网络模型对于输入图像特征信息的表达能力;对于当前面向场景的内窥镜图像质量低的问题,加入可插播的超分辨率模型来改善图像的质量,以提升低质量、模糊图片的故障分类结果;对于输入的特征矩阵,一方面使用通道注意力机制过滤多余的特征信息,另一方面使用空间注意力机制去掉冗余的背景特征信息,从而准确的进行分类。

Description

一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统
技术领域
本发明属于智能泵腔体内窥镜领域,尤其涉及一种用于智能泵腔 体内窥镜故障诊断的图像分类方法及系统。
背景技术
在人工智能高速发展的时代,智能泵已经广泛应用于工业、农业 生产以及能源、石化、航空、钢铁、军工等重要领域,在国民经济发 展中有着十分重要的作用。而作为一个制造业大国,我国的智能泵制 造技术仍存在诸多问题,如研发资金投入不足、自主创新能力薄弱、 基础配套元器件薄弱等造成的智能泵故障问题,而对于智能泵出现的 开裂、腐蚀、生锈等泵腔内部故障缺陷,通过人眼观察往往难以诊断, 因此导致智能泵的使用寿命短,制造技术发展滞后,难以实现技术创 新。
内窥镜是集成了传统光学、人体工程学、精密机械、现代电子、 软件于一体的,具有图像传感器、光学照明、机械装置的检测仪器, 其功能是对弯曲的管道内部进行探查,观察到人眼不能直视的部位。 工业中常用内窥镜进行无损检测,无需拆卸被检测体,直接观察到物 体内部的表面情况,如裂纹、焊缝、生锈等,并且在检测的同时,对 整个检测过程进行动态的录影或者拍照记录,以便于对故障诊断并进 行后续的定量分析。
目前,内窥镜采集的检测图像在分类过程中深度卷积神经网络存 在着梯度消失、网络退化等问题,针对网络退化许多学者提出改进的 网络模型。源于门控结构的思路,提出Highway网络,融合二维卷积 神经网络以及记忆机制。Highway网络通过解决网络深度加深过程中 产生的特征反向传播受阻问题以达到缓解网络退化的目的。残差网络 ResNet是在Highway网络的基础上进行改进,通过跳跃连接结构使深 层的网络同样可以提取到有效的特征信息。FractalNet是一种分形网 络结构,通过连接不同尺寸的子模块结构提升了模型的分类性能,但 与ResNet相比模型增加了大量参数,过多的参数提高了网络计算量和复杂度,同时也降低训练速率,相比之下ResNet的性能更优。因此, 围绕着残差网络结构的相关改进被不断提出,在图像分类领域残差网 络一枝独秀表现出良好的性能,逐渐形成一个ResNet为核心的残差网 络结构群,在图像分类精度上均取得了不错的成绩。残差网络在图像 分类任务中表现出明显的优势。
当前的工业用智能泵,人眼难以直接观察到泵腔的内部缺陷,在 使用内窥镜得到检测图像后,图像分类难以实现对图像判别性区域特 征的精确提取,已有的残差网络算法在特征提取方面仍有不足,同时 分类准确率仍有待提升;在内窥镜检测图像分类过程中,网络对图像 特征的表达能力存在不足。
因此需要设计一种用于智能泵腔体内窥镜故障诊断的图像分类 方法及系统来解决上述问题。
发明内容
本发明的目的在于提供一种能够解决上述问题的一种用于智能 泵腔体内窥镜故障诊断的图像分类方法及系统。
本发明采用的技术方案如下:
一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统,分 类方法如下:
第一部分:多尺度特征提取与融合,包括多尺度特征提取以及跨 尺度特征融合;
第二部分:通过可插播的超分辨率单元PSRU改善模糊图片特征 提取质量;
第三部分:通道注意力与空间注意力机制;
第四部分:通过卷积模块的注意力机制模CBAM输出分类结果。
进一步的,多尺度特行提取的步骤如下:
步骤一,在前端对输入图像采取多特征提取,将3×3卷积核对应 的滤波器数量设为64,5×5卷积核对应的滤波器数量设为96以及7×7 卷积核对应的滤波器数量设为128,在三个不同尺度的多尺度特征提 取并行网络中,每一层都用到了批量归一化以及ReLU激活函数;
步骤二,对不同尺寸的特征提取网络并行训练;
步骤三,对不同尺寸提取到的特征进行融合拼接。
进一步的,步骤一中采用了三种不同尺寸的卷积核,分别是3×3, 5×5以及7×7。
进一步的,可插播的超分辨率单元PSRU从特征层解决退化图像, 改善图片的质量;
首先对于多尺度特征提取生成的融合区域D,使用高斯模糊与4 倍上下采样的两种特征增强的方法,改善特征表达,以得到更好的融 合特征图DP;然后再使用主干网络ResNet中的超分辨率基础单元和 上采样单元,将融合特征图DP恢复成超分辨率融合特征F;其中生成 表达式为:
Figure BDA0003242067980000041
F=fsr(DP)
其中fgau指高斯模糊,fd-u指4倍上下采样,fsr指超分辨率恢复; 区域F中的随机像素值p1,p2∈[0,1],α为随机参数,令α=0.5。
进一步的,通道注意力机制模块的步骤如下:
步骤一,输入特征图分别经过最大池化和平均池化,通过使用平 均池化和最大池化操作来聚合特征图的空间信息,生成两个不同的平 均池化特征和最大池化特征;
步骤二,通过多层感知器拼接之后进入全连接层,接着通过激活 函数之后输出最后的通道注意力;
步骤三,再将其通过乘法加权到先前的特征图通道上,完成图像 分类特征重新的提取与选择。
进一步的,通道注意力计算如下:
Figure BDA0003242067980000042
其中σ为激活函数sigmoid函数,W0∈RC/r×C,W1∈RC×C/r,MLP 权重W0和W1对于两个输入都是共享的。
进一步的,空间注意力机制的步骤如下:
步骤一,输入特征图F'分别经过最大池化和平均池化;
步骤二,将经过池化之后的特征描述符聚集在一起生成一个有效 的特征描述符,并通过卷积层生成空间注意图MS(F)∈RH×W
步骤三,通过最大池化和平均池化操作对特征图的维数进行压缩, 生成两个空间注意力机制通道中的平均池化特征和最大池化特征的
Figure BDA0003242067980000051
Figure BDA0003242067980000052
步骤四,通过卷积层进行卷积操作,就产生了最终的空间注意力 机制特征图,空间注意力机制计算公式如下:
Figure BDA0003242067980000053
其中σ为sigmoid函数,f7×7表示卷积核大小为7×7的卷积运算。
进一步的,卷积模块的注意力机制模块CBAM结合空间和通道的 双通道注意力机制模块,在ResNet的下采样模块后面加入CBAM双 通道注意力模块,对提取到的特征进一步在两个通道进行特征提取并 输出分类结果;
双通道注意力机制将经过ResNet的下采样模块的特征矩阵X,分 别通过通道和空间注意力,分别得到通道和空间特征矩阵;特征矩阵 X与通道特征矩阵相加;在此基础上,与空间特征矩阵相乘,使网络 能够学习到每张特征图显著性区域的位置信息,以去除无关背景的干 扰,在此过程中,将两条支路的注意力支路结果先后作用于输入特征 矩阵上,这一过程中,注意力机制的双通道操作网络按重要程度,对 输入图像的不同特征图进行权重赋值,重要的特征图具有较大的权重 值;具体操作通过公式表示为:
Figure BDA0003242067980000065
其中X代表输入特征矩阵;Fa和Fb分别代表通道和空间特征矩阵; Wa和Wb分别代表通道和空间权重矩阵;σ代表Softmax函数;对该维 度分配0~1的权重参数,保证该维度上所有权重之和为1;
Figure BDA0003242067980000061
Figure BDA0003242067980000062
Figure BDA0003242067980000063
Figure BDA0003242067980000064
其中参数c代表通道数;h×w为每幅特征图大小。
本发明达到的有益效果为:提出了一种多尺度特征提取的可插播 超分辨率机制与双通道注意力机制的ResNet图像分类网络,在结构 上结合残差多尺度特征提取模块,采用跳跃连接的方式,保证特征完 整的同时减少计算量,增强了网络模型对于输入图像特征信息的表达 能力;对于当前面向场景的内窥镜图像质量低的问题,加入可插播的 超分辨率模型来改善图像的质量,以提升低质量、模糊图片的故障分 类结果;对于输入的特征矩阵,一方面使用通道注意力机制过滤多余 的特征信息,另一方面使用空间注意力机制去掉冗余的背景特征信息, 从而准确的进行分类。
附图说明
图1是本发明实施例中的框架图。
图2是本发明实施例中的多特征提取原理。
图3是本发明实施例中的通道注意力模块结构。
图4是本发明实施例中的空间注意力机制网络结构。
图5是本发明实施例中的卷积模块的注意力机制模块。
图6是本发明实施例中的双通道注意力机制示意图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明实施例中,主要描述基于多尺度与双通道注意力机制的分 类网络模型。首先,多尺度主要考虑到高、低层级分别具有丰富的语 义特征和纹理信息,在此基础上,本发明设计了多尺度特征提取模块, 采用不同尺度的卷积核使得更多的图像信息被提取出来,采用跳跃连 接的方式,减小模型参数量,加速模型训练的速度。其次注意力机制 是对输入的特征矩阵先通过通道注意力机制然后再通过空间注意力 机制,从而对输入特征图进行权重分配,其中空间注意力机制以矩阵 对应元素相乘的方式,而通道注意力以求和的形式将注意力作用于输 入特征矩阵。模型连接的分类器由全连接层以及Softmax-Center分类器组成,对提取到的特征信息进行分类。通过多尺度特征提取、双通 道注意力机制使得网络对特征提取更加专注,可以让网络重点关注某 幅特征图以及某部分特征,有助于提高图像分类的准确率。具体分类 网络模型如图1所示。
第一部分:多尺度特行提取。
卷积神经网络进行学习训练的首要部分就是特征提取,图像准确 的分类是建立在有效的特征提取之上的。如今的分类模型中普遍使用 使用3×3的卷积核来提取特征,许多的实验结果也表明3×3的卷积核 能够在维持较小计算量的同时并提取有效的特征信息。但是,单一尺 度的卷积核在提取特征时的能力是受到限制的,当图像的尺寸比较大时,随着网络层数的加深,获取图像的有效特征需要用到更大的感受 野。因此,本发明设计了多尺度特征提取方式,多尺度特征提取为了 保留更多的图像信息使用了不同尺寸的卷积核。多尺度特征提取包括 多尺度特征提取以及跨尺度特征融合。图像分类的准确率与卷积神经 网络前端对于输入图像的处理紧密相关。本发明的多尺度特征提取原 理如图2所示,主要采用了三种不同尺寸的卷积核,分别是3×3,5×5 以及7×7,对于尺寸大的卷积核设置较多数量的滤波器,为了方便较 大尺寸的滤波器可以获取更多的图像特征。因此,本发明的多尺度特 征提取首先在前端对输入图像采取多特征提取,将3×3卷积核对应的 滤波器数量设为64,5×5卷积核对应的滤波器数量设为96以及7×7 卷积核对应的滤波器数量设为128,在三个不同尺度的多尺度特征提 取并行网络中,每一层都用到了批量归一化以及ReLU激活函数。之 后对不同尺寸的特征提取网络并行训练,最后再对不同尺寸提取到的 特征进行融合拼接。
参照图1,其中包括尺寸大小为3×3的卷积核滤波器、5×5的卷 积核滤波器、7×7的卷积核滤波器、输入的分类图像,浅色部分表示 对这三种尺寸的卷积核对图像信息进行的边界填充。因为每个卷积核 的大小尺寸不同,所在图像区域的感受野大小也不同,因此在相同的 像素点这些卷积核滤波器提取到的特征也是不相同的,这就是多尺度 特征提取相对于单一尺度卷积核滤波器在提取特征时的优势,使得网 络能够提取到更多的像素分不信息来更好地完成图像分类任务。
不同的卷积核滤波器对相同位置的像素进行不同区域大小的特 征提取,使得分类网络在网络前端可以学习到丰富的特征信息,对于 提取到的在特征在不同尺寸的卷积网络进行训练,最后进行多尺度特 征串联技术,得到的特征融合输出为288个大小相同的特征映射图D, 对多尺度特征进行串联拼接能够获得更多的图像特征信息,更加有利 于图像分类任务,同时也使得网络能够加速收敛并且更加稳定。
第二部分:PSRU改善模糊图片特征提取质量。
PSRU(Pluggable Super-resolution Unit)可插播的超分辨率单元,由 于内窥镜获取的场景图像中不可能都是清晰的,很多图像在灰暗环境 中获取,会存在模糊、像素低等问题,针对这些图像的故障分类,会 出现不准确、分类精确度低的问题,因此需要从特征层解决退化图像, 改善图片的质量。
首先对于第一部分多尺度特征提取生成的融合区域D,使用高斯 模糊与4倍上下采样这两种特征增强的方法,去改善特征表达,以得 到更好的融合特征图DP。然后再使用主干网络ResNet中的超分辨率 基础单元和上采样单元,将融合特征图DP恢复成超分辨率融合特征F。 其中生成表达式为:
Figure BDA0003242067980000091
F=fsr(DP)
其中fgau指高斯模糊,fd-u指4倍上下采样,fsr指超分辨率恢复。 区域F中的随机像素值p1,p2∈[0,1],α为随机参数,令α=0.5。 PSRU可以解决低质量图像的问题,使得后续的故障分类更加准确。
第三部分:通道注意力机制与空间注意力机制。
通道注意力机制更关注图像输入的通道信息,通过对通道信息的 特征提取来提高图像分类的精度。通道注意力机制模块首先输入特征 图分别经过最大池化和平均池化,之后通过多层感知器拼接之后进入 全连接层,接着通过激活函数之后输出最后的通道注意力,然后再将 其通过乘法加权到先前的特征图通道上,完成图像分类特征重新的提 取与选择。通道注意力机制结构如图3所示。
通道注意力机制根据特征间的通道关系来生成通道注意力特征 图,特征图的每个通道都被认为是一个特征检测器。在以往的研究中, 对空间信息的维数进行压缩,通常使用的方法是对特征图进行平均池 化操作,可以明显提高通道注意力的计算速度。但是随着注意力机制 模型的不断改进,引入了最大池化层,研究表明使用最大池化可以更 加精确的提取有效信息,从而可以得出更精细的通道关注。
在注意力机制模型中同时使用平均池化以及最大池化,实验结果 表明与单独使用相比,同时使用两种池化方式提高网络的特征表现能 力。图3将会描述通道注意力机制详细的操作过程。
通道注意力机制首先通过使用平均池化和最大池化操作来聚合 特征图的空间信息,生成两个不同的平均池化特征
Figure BDA0003242067980000101
和最大池化特 征
Figure BDA0003242067980000102
然后,这两个特征通过多层感知器拼接之后进入全连接层, 接着通过激活函数,产生信道注意映射MC∈RC×1×1。共享网络由多层感 知器组成,其中包含一个隐含层。为了减少参数开销,隐藏的激活大 小设置为RC /r×1×1,其中r为缩减比。当共享网络作用于每个特征之后, 我们使用元素的求和来合并输出的特征向量。简而言之,通道关注度 计算如下:
Figure BDA0003242067980000111
其中σ为激活函数sigmoid函数,W0∈RC/r×C,W1∈RC×C/r。MLP 权重W0和W1对于两个输入都是共享的。
空间注意力机制通过空间特征的加权和来选择性的融合每个空 间的特征,同时使用膨胀卷积扩大了分类模型的感受野,无论距离长 短,都可以提取到相关特征信息。通过引入空间注意力机制来使分类 模型学习对扭转、缩放等图像的分类,进一步提升分类网络模型的分 类性能与准确率。
空间注意力机制通过特征间的空间关系生成空间注意力特征图, 空间注意力侧重的是有价值的信息在哪里,这是对通道注意机制的补 充。空间注意力机制首先输入特征图F'分别经过最大池化和平均池化, 特征图F'可知是经过通道注意力之后的特征图,并将经过池化之后的 特征描述符聚集在一起生成一个有效的特征描述符,并通过卷积层生 成空间注意图MS(F)∈RH×W。在下面将会描述空间注意力机制详细的操 作过程。
通过最大池化和平均池化操作对特征图的维数进行压缩,生成两 个空间注意力机制通道中的平均池化特征和最大池化特征的
Figure BDA0003242067980000121
Figure BDA0003242067980000122
然后通过卷积层进行卷积操作,就产生了 最终的空间注意力机制特征图。总的来说,空间注意力机制计算公式 如下:
Figure BDA0003242067980000123
其中σ为sigmoid函数,f7×7表示卷积核大小为7×7的卷积运算。
对比通道注意力机制,空间注意力模块是先在通道维度上使用最 大池化和平均池化,然后将两个聚合了通道信息的W×H×1的特征图 串联为一个W×H×2的特征图。再使用一个大小为7×7×2×1卷积核的 卷积层进一步提取特征,此时的特征图变为W×H×1。最后经过 sigmoid函数激活,得到空间注意力特征图。空间注意力特征图可以 理解为一个通道上每个像素的权重,包含重要信息的像素权重大,包 含不重要信息的像素权重小。将空间注意力特征图以广播的形式乘到 最开始输入空间注意力模块的特征图上,即得到了整个卷积注意力模 块的最终特征图。空间注意力机制如图4所示。
第四部分:CBAM注意力机制输出分类结果。
CBAM(Convolutional Block Attention Module)表示卷积模块的注 意力机制模块。是一种结合了空间和通道的双通道注意力机制模块。 在ResNet的下采样模块后面加入CBAM双通道注意力模块,对提取 到的特征进一步在两个通道进行特征提取并输出分类结果。
双通道注意力机制将经过ResNet的下采样模块的特征矩阵X, 分别通过通道和空间注意力,分别得到通道和空间特征矩阵;特征矩 阵X与通道特征矩阵相加;在此基础上,与空间特征矩阵相乘,使 网络能够学习到每张特征图显著性区域的位置信息,以去除无关背景 的干扰,在此过程中,将两条支路的注意力支路结果先后作用于输入 特征矩阵上,这一过程体现了本发明注意力机制的双通道操作网络能 够按重要程度,对输入图像的不同特征图进行权重赋值,重要的特征 图具有较大的权重值。具体操作可通过公式表示为:
Figure BDA0003242067980000131
其中X代表输入特征矩阵;Fa和Fb分别代表通道和空间特征矩阵; Wa和Wb分别代表通道和空间权重矩阵;σ代表Softmax函数。对该维 度分配0~1的权重参数,保证该维度上所有权重之和为1。
Figure BDA0003242067980000132
Figure BDA0003242067980000133
Figure BDA0003242067980000134
Figure BDA0003242067980000135
其中参数c代表通道数;h×w为每幅特征图大小。
双通道注意力机制对输入特征图先后采取通道和空间注意获取 不同尺度的特征信息,最后将双通道注意力机制产生的特征结果与原 始特征相结合送入全连接层,原始特征是指经过多尺度特征提取融合 并通过ResNet的下采样模块的特征,在没有增加计算量的同时提高 分类的准确率。为了更加准确地提取和筛选图像特征信息,同时进一 步提升网络模型的分类性能,本发明在已有的一些注意力机制的基础 上提出了一种双通道注意力机制,具体如图5所示。
本发明首先在结构上结合多尺度特征提取模块,采用跳跃连接的 方式,保证特征完整的同时减少计算量,增强了网络对图像特征的表 达能力;其次,对于输入的特征矩阵,使用通道注意力机制与空间注 意力机制去除冗余的特征信息。实验结果表明,不管是在公开数据集 还是矿井数据集上本发明的图像分类网络模型均取得了较好图像分 类效果,与其他经典算法相比,准确率有了明显的提升。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以 上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容 所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (9)

1.一种用于智能泵腔体内窥镜故障诊断的图像分类方法,其特征在于:分类方法如下:
第一部分:多尺度特征提取与融合,包括多尺度特征提取以及跨尺度特征融合;
第二部分:通过可插播的超分辨率单元PSRU改善模糊图片特征提取质量;
第三部分:通道注意力与空间注意力机制;
第四部分:通过卷积模块的注意力机制模CBAM输出分类结果。
2.根据权利要求1所述的一种用于智能泵腔体内窥镜故障诊断的图像分类方法,其特征在于:多尺度特行提取的步骤如下:
步骤一,在前端对输入图像采取多特征提取,将3×3卷积核对应的滤波器数量设为64,5×5卷积核对应的滤波器数量设为96以及7×7卷积核对应的滤波器数量设为128,在三个不同尺度的多尺度特征提取并行网络中,每一层都用到了批量归一化以及ReLU激活函数;
步骤二,对不同尺寸的特征提取网络并行训练;
步骤三,对不同尺寸提取到的特征进行融合拼接。
3.根据权利要求2所述的一种用于智能泵腔体内窥镜故障诊断的图像分类方法,其特征在于:步骤一中采用了三种不同尺寸的卷积核,分别是3×3,5×5以及7×7。
4.根据权利要求2所述的一种用于智能泵腔体内窥镜故障诊断的图像分类方法,其特征在于:可插播的超分辨率单元PSRU从特征层解决退化图像,改善图片的质量;
首先对于多尺度特征提取生成的融合区域D,使用高斯模糊与4倍上下采样的两种特征增强的方法,改善特征表达,以得到更好的融合特征图DP;然后再使用主干网络ResNet中的超分辨率基础单元和上采样单元,将融合特征图DP恢复成超分辨率融合特征F;其中生成表达式为:
Figure FDA0003242067970000021
F=fsr(DP)
其中fgau指高斯模糊,fd-u指4倍上下采样,fsr指超分辨率恢复;区域F中的随机像素值p1,p2∈[0,1],α为随机参数,令α=0.5。
5.根据权利要求1所述的一种用于智能泵腔体内窥镜故障诊断的图像分类方法,其特征在于:通道注意力机制模块的步骤如下:
步骤一,输入特征图分别经过最大池化和平均池化,通过使用平均池化和最大池化操作来聚合特征图的空间信息,生成两个不同的平均池化特征和最大池化特征;
步骤二,通过多层感知器拼接之后进入全连接层,接着通过激活函数之后输出最后的通道注意力;
步骤三,再将其通过乘法加权到先前的特征图通道上,完成图像分类特征重新的提取与选择。
6.根据权利要求5所述的一种用于智能泵腔体内窥镜故障诊断的图像分类方法,其特征在于:通道注意力计算如下:
Figure FDA0003242067970000031
其中σ为激活函数sigmoid函数,W0∈RC/r×C,W1∈RC×C/r,MLP权重W0和W1对于两个输入都是共享的。
7.根据权利要求1所述的一种用于智能泵腔体内窥镜故障诊断的图像分类方法,其特征在于:空间注意力机制的步骤如下:
步骤一,输入特征图F'分别经过最大池化和平均池化;
步骤二,将经过池化之后的特征描述符聚集在一起生成一个有效的特征描述符,并通过卷积层生成空间注意图MS(F)∈RH×W
步骤三,通过最大池化和平均池化操作对特征图的维数进行压缩,生成两个空间注意力机制通道中的平均池化特征和最大池化特征的
Figure FDA0003242067970000032
Figure FDA0003242067970000033
步骤四,通过卷积层进行卷积操作,就产生了最终的空间注意力机制特征图,空间注意力机制计算公式如下:
Figure FDA0003242067970000034
其中σ为sigmoid函数,f7×7表示卷积核大小为7×7的卷积运算。
8.根据权利要求1所述的一种用于智能泵腔体内窥镜故障诊断的图像分类方法,其特征在于:卷积模块的注意力机制模块CBAM结合空间和通道的双通道注意力机制模块,在ResNet的下采样模块后面加入CBAM双通道注意力模块,对提取到的特征进一步在两个通道进行特征提取并输出分类结果;
双通道注意力机制将经过ResNet的下采样模块的特征矩阵X,分别通过通道和空间注意力,分别得到通道和空间特征矩阵;特征矩阵X与通道特征矩阵相加;在此基础上,与空间特征矩阵相乘,使网络能够学习到每张特征图显著性区域的位置信息,以去除无关背景的干扰,在此过程中,将两条支路的注意力支路结果先后作用于输入特征矩阵上,这一过程中,注意力机制的双通道操作网络按重要程度,对输入图像的不同特征图进行权重赋值,重要的特征图具有较大的权重值;具体操作通过公式表示为:
Figure FDA0003242067970000041
其中X代表输入特征矩阵;Fa和Fb分别代表通道和空间特征矩阵;Wa和Wb分别代表通道和空间权重矩阵;σ代表Softmax函数;对该维度分配0~1的权重参数,保证该维度上所有权重之和为1;
Figure FDA0003242067970000042
Figure FDA0003242067970000043
Figure FDA0003242067970000044
Figure FDA0003242067970000045
其中参数c代表通道数;h×w为每幅特征图大小。
9.使用权利要求1-8中任一项的用于智能泵腔体内窥镜故障诊断的图像分类方法的系统,其特征在于:所述系统包括依次连接的多尺度特征提取与融合模块、超分辨率单元PSRU、通道注意力与空间注意力机制模块和卷积模块的注意力机制模CBAM。
CN202111022588.7A 2021-09-01 2021-09-01 一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统 Pending CN114118199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111022588.7A CN114118199A (zh) 2021-09-01 2021-09-01 一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111022588.7A CN114118199A (zh) 2021-09-01 2021-09-01 一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统

Publications (1)

Publication Number Publication Date
CN114118199A true CN114118199A (zh) 2022-03-01

Family

ID=80441160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111022588.7A Pending CN114118199A (zh) 2021-09-01 2021-09-01 一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统

Country Status (1)

Country Link
CN (1) CN114118199A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677412A (zh) * 2022-03-18 2022-06-28 苏州大学 一种光流估计的方法、装置以及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309880A (zh) * 2019-07-01 2019-10-08 天津工业大学 一种基于注意力机制cnn的5天和9天孵化鸡蛋胚胎图像分类方法
CN110992275A (zh) * 2019-11-18 2020-04-10 天津大学 一种基于生成对抗网络的细化单幅图像去雨方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
CN112270347A (zh) * 2020-10-20 2021-01-26 西安工程大学 一种基于改进ssd的医疗废弃物分类检测方法
CN112348766A (zh) * 2020-11-06 2021-02-09 天津大学 一种用于监控视频增强的渐进式特征流深度融合网络
CN112529878A (zh) * 2020-12-15 2021-03-19 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN112633287A (zh) * 2020-12-25 2021-04-09 中国矿业大学 一种面向矿井多源异构图文信息的文本识别方法及装置
CN112906699A (zh) * 2020-12-23 2021-06-04 深圳市信义科技有限公司 一种车牌放大号的检测识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309880A (zh) * 2019-07-01 2019-10-08 天津工业大学 一种基于注意力机制cnn的5天和9天孵化鸡蛋胚胎图像分类方法
CN110992275A (zh) * 2019-11-18 2020-04-10 天津大学 一种基于生成对抗网络的细化单幅图像去雨方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
CN112270347A (zh) * 2020-10-20 2021-01-26 西安工程大学 一种基于改进ssd的医疗废弃物分类检测方法
CN112348766A (zh) * 2020-11-06 2021-02-09 天津大学 一种用于监控视频增强的渐进式特征流深度融合网络
CN112529878A (zh) * 2020-12-15 2021-03-19 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN112906699A (zh) * 2020-12-23 2021-06-04 深圳市信义科技有限公司 一种车牌放大号的检测识别方法
CN112633287A (zh) * 2020-12-25 2021-04-09 中国矿业大学 一种面向矿井多源异构图文信息的文本识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677412A (zh) * 2022-03-18 2022-06-28 苏州大学 一种光流估计的方法、装置以及设备

Similar Documents

Publication Publication Date Title
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
CN112949565B (zh) 基于注意力机制的单样本部分遮挡人脸识别方法及系统
CN112507997B (zh) 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统
CN113284054B (zh) 图像增强方法以及图像增强装置
CN113673590B (zh) 基于多尺度沙漏密集连接网络的去雨方法、系统和介质
CN111402146B (zh) 图像处理方法以及图像处理装置
CN112184577B (zh) 基于多尺度自注意生成对抗网络的单幅图像去雾方法
CN116071243B (zh) 一种基于边缘增强的红外图像超分辨率重建方法
CN112581379A (zh) 图像增强方法以及装置
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN111754438A (zh) 基于多分支门控融合的水下图像复原模型及其复原方法
CN111861894A (zh) 基于生成式对抗网络的图像去运动模糊方法
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN111951195A (zh) 图像增强方法及装置
CN115131503A (zh) 一种虹膜三维识别的健康监测方法及其系统
CN115423685A (zh) 用于智能泵腔体内窥镜故障诊断的图像超分辨率重建方法
CN114782298A (zh) 一种具有区域注意力的红外与可见光图像融合方法
CN116739899A (zh) 基于saugan网络的图像超分辨率重建方法
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN114118199A (zh) 一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统
CN117237796A (zh) 一种基于特征增强和采样偏移的海产品检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination