CN117078528A - 基于大核注意力机制的锂电池运动模糊图像质量复原方法 - Google Patents
基于大核注意力机制的锂电池运动模糊图像质量复原方法 Download PDFInfo
- Publication number
- CN117078528A CN117078528A CN202310853160.XA CN202310853160A CN117078528A CN 117078528 A CN117078528 A CN 117078528A CN 202310853160 A CN202310853160 A CN 202310853160A CN 117078528 A CN117078528 A CN 117078528A
- Authority
- CN
- China
- Prior art keywords
- convolution
- image
- attention
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 title claims abstract description 40
- 229910052744 lithium Inorganic materials 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000007246 mechanism Effects 0.000 title claims abstract description 29
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 230000000379 polymerizing effect Effects 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 108091006146 Channels Proteins 0.000 claims description 35
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 230000007547 defect Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000011084 recovery Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 239000011800 void material Substances 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明公开基于大核注意力机制的锂电池运动模糊图像质量复原方法,获取运动模糊图像B1,并利用一差分卷积提取关键边缘特征进行聚合得到聚合特征;将聚合特征输入到大核注意力模块。该模块首先采用大核卷积捕获全局空间信息,然后利用1×1卷积进行通道信息交互,最后,采用注意力形式使AKAM模块聚焦于其中重要的空间特征,得到高维注意力特征;将高维的注意力特征送入到嵌入多尺度输出策略MOS的解码器中,经过两次图像上采样和PDC卷积的重建后,在不同图像尺度上重建得到复原的清晰运动图像。本发明实现对锂电池运动模糊图像的图像质量复原。
Description
技术领域
本发明涉及运动模糊图像复原领域,尤其涉及基于大核注意力机制的锂电池运动模糊图像质量复原方法。
背景技术
在锂电池表面缺陷检测时,为追求最佳检测准确度,往往要求锂电池图像是清晰无损的。然而,由于较快的传送带速度、操作台振动等原因,容易拍摄到质量不佳的图像,这类图像被叫做运动模糊图像。图像复原技术是计算机视觉领域的一个重要分支,其目的是实现运动模糊图像的图像质量复原。具体来说,图像复原技术可以分为基于模型优化的算法和基于深度学习的算法。目前,基于模型优化的主要有暗通道先验(Dark ChannelPrior,DPR)等算法,基于深度学习的主要有分层堆叠多切片网络(Deep StackedHierarchical Multi-Patch Network,DMPHN)等算法。
DPR算法是基于模型优化的经典算法之一,该算法受到模糊图像的暗通道具有低稀疏性这一观察启发。具体来说,虽然清晰图像中的大多数图像区域中包含一些暗像素,但是与相邻的高亮度像素进行平均时,这些像素并不暗。因此,暗通道稀疏性是模糊和清晰图像的固有属性。换言之,图像发生模糊退化时,图像的暗通道稀疏性是固定不变的。基于这一观察,DPR算法将通道稀疏性问题转为数学上的非凸非线性优化问题,并引入线性近似最小算子以隔绝暗通道信息。然后,通过不断迭代求解,最终将运动模糊图像复原成潜在的清晰图像。
然而,在曝光亮度较高的工业检测场景下,该算法的效果受到限制,因为暗通道的亮度值可能不准确,从而导致图像复原效果较差。此外,该算法仅考虑了图像中的暗通道信息,因此其对锂电池中其他细节信息的复原效果不佳。
DMPHN是经典的基于深度学习的算法之一。与DPR算法不同的是,DMPHN算法利用卷积神经网络(Convolution Neural Network,CNN)来拟合模糊图像与清晰图像之间的函数映射关系。具体来说,DMPHN算法分为三部分:图像切块、特征提取和图像合并。首先,算法将模糊图像切成N个相互不相交的图像块。然后,这些图像块被送入一个CNN中进行特征提取。接着,将这N个图像块合并成N/2个图像块。送入到第二个CNN中。以此类推,直至输出最终完整的图像即为复原图像。为平衡性能和时间成本,DMPHN将N设置为8,并利用了三个堆叠CNN实现图像复原。然而,这种算法由于堆叠了多个CNN,导致时间成本高。此外,由于将图像切成多个小块进行处理,仅考虑了图像的局部信息,图像复原效果并不理想。
发明内容
本发明的目的在于提供基于大核注意力机制的锂电池运动模糊图像质量复原方法,以实现对锂电池运动模糊图像的图像质量复原。
本发明采用的技术方案是:
基于大核注意力机制的锂电池运动模糊图像质量复原方法,其包括以下步骤:
步骤1,获取运动模糊图像B1,并利用差分卷积(PDC卷积)提取运动模糊图像B1中水平垂直和对角线两个方向的关键边缘特征;
步骤2,对水平垂直边缘特征和对角线边缘特征进行聚合得到聚合特征,实现高效的模糊边缘提取;
步骤3,将聚合特征输入到大核注意力模块(AKAM)。该模块首先采用大核卷积捕获全局空间信息,然后利用1×1卷积进行通道信息交互,最后,采用注意力形式使AKAM模块聚焦于其中重要的空间特征,以得到高维注意力特征Fout;
具体地,步骤3中大核注意力模块对聚合特征扩充通道数后拆分为两个特征,即用于生成注意力权重图的X1和保留原空间信息的X2,X1,X2∈RC×H×W。其中,特征X1首先使用三个连续的大核感受野的卷积核逐级捕获局部信息、区域信息和全局信息;接着,采用1×1卷积进行通道交互以得到注意力图(Attention Map,AP),最后将注意力图与特征X2相乘得到高维注意力特征Fout;
步骤4,将高维注意力特征Fout送入到嵌入多尺度输出策略MOS的解码器中,经两次图像上采样和PDC卷积的重建后,在不同图像尺度上重建得到复原的清晰运动图像。
进一步地,步骤1中引入PDC卷积替换CNN中的普通卷积作为图像特征提取的基础模块;标准卷积与PDC卷积的计算公式如式(1)和(2)所示:
式中,P={(x1,x′1),(x2,x′2),…,(xm,x′m)}是像素对的集合,其中m≤K×K,xm和x′m表示输入的第m个像素对的两个像素,ωi表示K×K卷积的权重,y1表示普通卷积的输出,y2表示差分卷积的输出。
进一步地,步骤3的具体步骤如下:
步骤3-1,将聚合特征Fin∈RC×H×W使用1×1卷积进行通道数扩增为聚合特征的两倍通道数;
步骤3-2,为完成注意力操作,将扩充后的聚合特征拆分得到特征X1和X2,X1,X2∈RC ×H×W,X1用于捕获全局感受野以生成注意力权重图,X2保留原空间信息,H、W和C分别表示输出特征图的高、宽和通道数;
步骤3-3,将对特征X1使用三个连续的大核感受野的卷积核逐级捕获局部信息、区域信息和全局信息;
步骤3-4,对提取完全局信息的特征X1采用1×1卷积进行通道交互以得到注意力图(Attention Map,AP);
步骤3-5,注意力图与保留原空间信息的特征X2相乘后得到大核注意力(AKAM)模块的注意力特征Fout。
进一步地,步骤3-3中对特征X1依次采用3×3卷积学习局部信息、卷积核为5×5大小的深度可分离卷积(Depthwise Convolution,DWConv)学习区域信息、卷积核为11×11大小且空洞率为3的深度可分离卷积(Dilated Depthwise Convolution,DDWConv)学习全局信息。
进一步地,步骤3-2的具体公式表达式如下:
X1,X2=Split(Conv1(Fin)) (3)
式中,Fin表示输入特征,即聚合特征Fin;Conv1表示1×1卷积,Split表示将通道数分成两部分。
进一步地,步骤3-4的注意力特征Fout具体公式表达式如下:
Fout=X2×Conv1(DDWonv(DWonv(Conv(X1)))) (4)
式中,Conv1表示1×1卷积,Conv表示3×3卷积,DWonv表示深度可分离卷积,DDWonv表示深度可分离卷积。
进一步地,步骤4具体包括以下步骤:
步骤4-1,将注意力特征Fout输入到解码器第三层(即最底层,原图1/4大小)(n=3);经一差分卷积后(Pixel Difference Convolution,PDC),一部分上采样送入解码器第二层(即中间层,原图1/2大小,n=2),另一部分输出该层的复原结果其作用是用以约束解空间;同时将模糊图像B1下采样两次得到第一模糊图像B3;第一模糊图像B3和/>相加后得到最小尺度的复原图像S3,对应表达式如下:
B1∈R3×H×W (6)
B3∈R3×H/4×W/4 (7)
S3∈R3×H/4×W/4 (8);
步骤4-2,解码器最底层上采样后输入到解码器第二层(n=2)的特征图与跳跃连接(Skip Connection)的特征图相加并经过一差分卷积后,一部分上采样送入解码器第一层(最高层,原图大小,n=1),另一部分输出该层的复原结果其作用是用以约束解空间;将模糊图像B1下采样两次得到第二模糊图像B2,第二模糊图像B2和/>相加后得到较小尺度的复原图像S2,对应表达式如下:
B2∈R3×H/2×W/2 (10)
S2∈R3×H/2×W/2 (11)
步骤4-3,解码器最二层上采样后输入到解码器第一层(n=1)的特征图与跳跃连接(Skip Connection)的来自编码器第一层的特征图相加并经过一差分卷积后,与模糊图像B1相加得到原尺度的复原图像S1。
本发明采用以上技术方案,以大核注意力机制(Large Kernel AttentionMechanism,AKAM)为核心,与DMPHN算法相比,本发明的优势在于它通过大核注意力机制有效地提高了锂电池图像的质量复原效果和缺陷检测准确度,并且减小了算法的局限性。并且,针对于DMPHN、DPR等算法存在的图像伪影现象,本发明的多尺度输出策略(MultiOutput Strategy,MOS),有效缓解该类问题的产生。此外,本发明引入差分卷积(PixelDifference Convolution,PDC)来替代CNN中的普通卷积作为特征提取的基础模块。普通卷积平等对待所有空间特征,而PDC卷积专注于捕捉水平垂直、对角线等关键边缘信息,显著提高了网络针对边缘特征的提取能力,从而有助于提升锂电池表面缺陷(如划痕、刮伤等)区域的图像质量恢复,从而提升图像复原性能。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明基于大核注意力机制的锂电池运动模糊图像质量复原网络的结构示意图
图2为差分卷积结构示意图;
图3为AKAM模块结构示意图;
图4为锂电池模糊图像类型对比图。
实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
如图1至图4之一所示,本发明公开了基于大核注意力机制的锂电池运动模糊图像质量复原方法,其包括以下步骤:
步骤1,获取运动模糊图像B1,并利用差分卷积(PDC卷积)提取运动模糊图像B1中水平垂直和对角线两个方向的关键边缘特征;
步骤2,对水平垂直边缘特征和对角线边缘特征进行聚合得到聚合特征,实现高效的模糊边缘提取;
步骤3,将聚合特征输入到大核注意力模块(AKAM)。该模块首先采用大核卷积捕获全局空间信息,然后利用1×1卷积进行通道信息交互,最后,采用注意力形式使AKAM模块聚焦于其中重要的空间特征,以得到高维注意力特征Fout;
具体地,步骤3中大核注意力模块对聚合特征扩充通道数后拆分为两个特征,即用于生成注意力权重图的X1和保留原空间信息的X2,X1,X2∈RC×H×W。其中,特征X1首先使用三个连续的大核感受野的卷积核逐级捕获局部信息、区域信息和全局信息;接着,采用1×1卷积进行通道交互以得到注意力图(Attention Map,AP),最后将注意力图与特征X2相乘得到高维注意力特征Fout;
步骤4,将高维的注意力特征Fout送入到嵌入多尺度输出策略MOS的解码器中,经两次图像上采样和PDC卷积的重建后,在不同图像尺度上重建得到复原的清晰运动图像。
进一步地,步骤1中引入PDC卷积替换CNN中的普通卷积作为图像特征提取的基础模块;标准卷积与PDC卷积的计算公式如式(1)和(2)所示:
式中,P={(x1,x′1),(x2,x′2),…,(xm,x′m)}是像素对的集合,其中m≤K×K,xm和x′m表示输入像素,ωi表示K×K卷积的权重,y1表示普通卷积的输出,y2表示差分卷积的输出。
进一步地,步骤3的具体步骤如下:
步骤3-1,将聚合特征Fin∈RC×H×W使用1×1卷积进行通道数扩增为聚合特征的两倍通道数;
步骤3-2,为完成注意力操作,将扩充后的聚合特征拆分得到特征X1和X2,X1,X2∈RC ×H×W,X1用于捕获全局感受野以生成注意力权重图,X2保留原空间信息,H、W和C分别表示输出特征图的高、宽和通道数;
步骤3-3,将对特征X1使用三个连续的大核感受野的卷积核逐级捕获局部信息、区域信息和全局信息;
步骤3-4,对提取完全局信息的特征X1采用1×1卷积进行通道交互以得到注意力图(Attention Map,AP);
步骤3-5,注意力图与保留原空间信息的特征X2相乘后得到大核注意力(AKAM)模块的注意力特征Fout。
进一步地,步骤3-3中对特征X1依次采用3×3卷积学习局部信息、卷积核为5×5大小的深度可分离卷积(Depthwise Convolution,DWConv)学习区域信息、卷积核为11×11大小且空洞率为3的深度可分离卷积(Dilated Depthwise Convolution,DDWConv)学习全局信息。
进一步地,步骤3-2的具体公式表达式如下:
X1,X2=Split(Conv1(Fin)) (3)
式中,Fin表示输入特征,即聚合特征Fin;Conv1表示1×1卷积,Split表示将通道数分成两部分。
进一步地,步骤3-4的注意力特征Fout具体公式表达式如下:
Fout=X2×Conv1(DDwonv(DWonv(Conv(X1)))) (4)
式中,Conv1表示1×1卷积,Conv表示3×3卷积,DWonv表示深度可分离卷积,DDWonv表示深度可分离卷积。
进一步地,步骤4具体包括以下步骤:
步骤4-1,将注意力特征Fout输入到解码器最底层(n=3);经一差分卷积后(PixelDifferenceConvolution,PDC),一部分上采样送入解码器第二层(n=2),另一部分输出该层的复原结果其作用是用以约束解空间;同时将模糊图像B1下采样两次得到第一模糊图像B2;第一模糊图像B3和/>相加后得到最小尺度的复原图像S3,对应表达式如下:
B1∈R2×H×W (6)
B3∈R3×H/4×W/4 (7)
S3∈R3×H/4×W/4 (8);
步骤4-2,解码器最底层上采样后输入到解码器第二层(n=2)的特征图与跳跃连接(SkipConnection)的来自于编码器第二层的特征图相加并经过一差分卷积后,一部分上采样送入解码器第一层(n=1),另一部分输出该层的复原结果其作用是用以约束解空间;将模糊图像B1下采样两次得到第二模糊图像B2,第二模糊图像B2和/>相加后得到较小尺度的复原图像S2,对应表达式如下:
B2∈R3×H/2×W/2 (10)
S2∈R3×H/2×W/2 (11)
步骤4-3,解码器最二层上采样后输入到解码器第一层(n=1)的特征图与跳跃连接(Skip Connection)的来自于编码器第一层的特征图相加并经过一差分卷积后,与模糊图像B1相加得到原尺度的复原图像S1。
下面就本发明的具体原理做详细说明:
本发明为了实现基于大核注意力机制的锂电池运动模糊图像质量复原方法提出一种基于大核注意力机制的锂电池运动模糊图像质量复原网络(A Large KernelAttention Mechanism Based Lithium Battery Motion Blurry Image QualityRestoration Network,LKM-Net);如图1所示,LKM-Net网络以编码-解码结构为基础,包括特征提取、大核注意力机制、图像重建三部分。
基于差分卷积的特征提取:通常情况下,锂电池表面的缺陷(如划痕、刮伤等)在图像中以锐利边缘的形式显现。为了准确检测缺陷,边缘信息的清晰度是至关重要的。然而,当图像发生模糊退化时,边缘往往会变得模糊不清或者消失,从而导致缺陷检测的可靠性下降。基于以上观察,本发明引入PDC卷积替换CNN中的普通卷积作为图像特征提取的基础模块。
标准卷积与PDC卷积的计算公式如式(1)和(2)所示:
式中,P={(x1,x′1),(x2,x′2),…,(xm,x′m)}是像素对的集合,其中m≤K×K,xm和x′m表示输入像素,ωi表示K×K卷积的权重,y1表示普通卷积的输出,y2表示差分卷积的输出。不同于普通卷积对所有的特征和像素点赋予相同的权重,PDC卷积专注于提取图像中的水平垂直和对角线两个方向的关键边缘特征,然后对这两种边缘特性进行聚合,从而实现高效的模糊边缘提取,显著提升网络性能。
大核注意力机制:高速传送带时的动态成像条件下,拍摄的模糊图像往往具有全局相关性,这会导致整张图像出现模糊不清的现象。因此,为了能够有效地复原这种情况下产生的运动模糊图像,本发明设计一种大核注意力(AKAM)模块以捕捉全局空间信息。
AKAM模块如图3所示。首先,对输入特征Fin使用1×1卷积进行通道数扩增为2C,然后拆分得到特征X1和X2∈RC×H×W。接着,对特征X1采用3×3卷积学习局部信息、卷积核为5×5大小的深度可分离卷积(Depthwise Convolution,DWConv)学习区域信息、卷积核为11×11大小且空洞率为3的深度可分离卷积(Dilated Depthwise Convolution,DDWConv)学习全局信息。之后,采用1×1卷积进行通道交互以得到注意力图(Attention Map,AP)。注意力图与X2相乘后,得到AKAM的注意力特征Fout。具体公式如下所示:
X1,X2=Split(Conv1(Fin)) (3)
Fout=X2×Conv1(DDWonv(DWonv(Conv(X1)))) (4)
式中,Conv1表示1×1卷积,Split表示将通道数分成两部分,Conv表示3×3卷积。
基于多尺度输出策略的图像重建:AKAM模块输出高维特征后,送入到解码器进行清晰图像重建。在图像重建时,通常会遭遇不适定性问题,这种问题导致复原后的图像出现振铃效应、梯形效应等图像伪影和伪细节现象。为解决这个问题,本发明在解码器中加入设计的多尺度输出策略(MOS)。
MOS通过逐步学习从AKAM模块输出的高维特征到清晰图像的重建过程,并在不同图像尺度上输出重建结果。因此,MOS可以约束解码器的解空间,以抑制振铃效应等伪影问题。具体来说,设运动模糊图像为B1,将B1下采样得到B2和B3,然后B2和B3再与解码器每个子层级的输出特征和/>汇聚,得到每个层级的复原图像。MOS具体表达式为:
式中,表示解码器每个子层级的输出特征,Bn表示不同尺度的运动模糊图像,n表示解码器所在层级。此外,在每个解码器层级中引入跳跃连接(Skip Connection)以加快网络收敛速度。
效果验证:不失一般性,作为一种可行的效果实验,实验所使用的深度学习配置显卡为GPU NVIDIA GeForce RTX 3060,操作系统为Ubuntu 20.04。利用Pytorch 1.10.1框架下构建网络模型用以训练和预测。
实验图像采集于自制搭建的锂电池图像采集平台,得到213张锂电池清晰图像。然后,构建“模糊-清晰”图像对用于训练网络。根据对实际锂电池模糊图片的观察,采用一种或多种模糊的组合来得到模糊图像。具体来说,平移模糊滤波器用于模拟相机和锂电池之间的平移运动模糊(Translational Motion Blur,TMB),旋转模糊滤波器用于模拟相机振动模糊(Shake Motion Blur,SMB),高斯模糊滤波器用于模拟相机失焦模糊(DefocusBlur,DB)。最终得到2556个“模糊-清晰”图像对以构建锂电池模糊图像数据集(SurfaceImages of Lithium Batteries,SILB),各类型模糊图像具体情况见表1,不同模糊图像效果如图4所示。
本实验在训练过程中对输入图像像素设置为128×128,采用7∶3比例划分为训练集+验证集和测试集,再用7∶3比例划分训练集和验证集,其中1791张作为训练集、233张作为验证集、532张作为测试集。
表1锂电池模糊图像数据集
模糊类型 | 功能 | 图像对数量 |
平移模糊 | TMB | 213 |
旋转模糊 | SMB | 213 |
高斯模糊 | DB | 213 |
平移模糊+旋转模糊 | RMB+SMB | 426 |
平移模糊+高斯模糊 | RMB+DB | 426 |
旋转模糊+高斯模糊 | SMB+DB | 426 |
平移模糊+旋转模糊+高斯模糊 | RMB+SMB+DB | 639 |
总计 | - | 2556 |
为评估图像复原算法的性能,采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)、结构相似指标(Structure Similarity Index Measure,SSIM)作为评价指标。PSNR衡量两张图像在每一个像素值上的差异平均值,PSNR指标数值越大,代表图像模糊程度越小。SSIM比较两张图像的亮度、对比度和结构以衡量相似程度,SSIM越大,代表两张图像越接近。PSNR、SSIM公式分别如下:
式中,其中K(i,j)和x表示复原图像,I(i,j)和y表示清晰图像,图像的宽和高为m和n。μ和σ表示图像的像素均值和像素方差,C1和C2用于避免分母接近0时的不稳定性。与PSNR测量的绝对误差不同,SSIM是一个感性指标,更符合人眼的直观感受。SSIM值的范围从0到1,值越大表示图像越相似。如果两张图片完全相同,则SSIM值为1。
综上,本发明针对锂电池动态成像条件,拍摄的模糊图像往往存在全局相关性,导致整张图像模糊不清的问题提出一种大核注意力机制(Large Kernel AttentionMechanism,AKAM)来捕捉全局感受野下的空间信息。AKAM模块采用大核卷积来提取全局空间信息,并以注意力形式不平等对待其中的重要空间特征,从而强化网络的图像复原能力。针对图像重建过程中存在的振铃效应、梯形效应等图像伪影问题,本发明提出一种多尺度输出策略(Multi Output Strategy,MOS)帮助解码器约束图像重建的解空间,以消除重建过程中的伪影现象,从而提升锂电池图像复原质量。针对锂电池图像质量退化时,边缘信息往往变得模糊或丢失,导致缺陷检测的不可靠性的问题,本发明引入差分卷积(PixelDifference Convolution,PDC)来替代CNN中的普通卷积作为特征提取的基础模块。普通卷积平等对待所有空间特征,PDC卷积专注于捕捉水平垂直、对角线等关键边缘信息,从而提升图像复原性能。
本发明采用以上技术方案,以大核注意力机制(Large Kernel AttentionMechanism,AKAM)为核心,与DMPHN算法相比,本发明的优势在于它通过大核注意力机制有效地提高了锂电池图像的质量复原效果和缺陷检测准确度,并且减小了算法的局限性。并且,针对于DMPHN、DPR等算法存在的图像伪影现象,本发明的多尺度输出策略(MultiOutput Strategy,MOS),有效缓解该类问题的产生。此外,本发明还引入差分卷积以替代CNN中的普通卷积,显著提高了网络针对边缘特征的提取能力,从而有助于提升锂电池表面缺陷(如划痕、刮伤等)区域的图像质量恢复。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
Claims (8)
1.基于大核注意力机制的锂电池运动模糊图像质量复原方法,其特征在于:其包括以下步骤:
步骤1,获取运动模糊图像B1,并利用一差分卷积提取运动模糊图像B1中水平垂直和对角线两个方向的关键边缘特征;
步骤2,对水平垂直边缘特征和对角线边缘特征进行聚合得到聚合特征;
步骤3,将聚合特征输入到大核注意力模块AKAM,大核注意力模块AKAM首先采用大核卷积捕获全局空间信息,然后利用1×1卷积进行通道信息交互,最后,采用注意力形式使AKAM模块聚焦于其中重要的空间特征,得到高维注意力特征Fout;
步骤4,将高维注意力特征Fout送入到嵌入多尺度输出策略MOS的解码器中,经两次图像上采样和PDC卷积的重建后,在不同图像尺度上重建得到复原的清晰运动图像。
2.根据权利要求1所述的基于大核注意力机制的锂电池运动模糊图像质量复原方法,其特征在于:步骤1中引入PDC卷积替换CNN中的普通卷积作为图像特征提取的基础模块;标准卷积与PDC卷积的计算公式如式(1)和(2)所示:
式中,P={(x1,x1 ′),(x2,x′ 2),…,(xm,x′ m)}是像素对的集合,其中m≤K×K,xm和x′ m表示输入的第m对像素对的两个像素,ωi表示K×K卷积的权重,y1表示普通卷积的输出,y2表示差分卷积的输出。
3.根据权利要求1所述的基于大核注意力机制的锂电池运动模糊图像质量复原方法,其特征在于:步骤3中大核注意力模块先对聚合特征扩充通道数后拆分为两个特征,即利用大核卷积生成注意力权重图的X1和保留原空间信息的X2,X1,X2∈RC×H×W;再将特征X1使用三个连续的大核感受野的卷积核逐级捕获局部信息、区域信息和全局信息;接着采用1×1卷积进行通道交互以得到注意力图,最后将注意力图与特征X2相乘得到大核注意力模块的高维的注意力特征Fout。
4.根据权利要求1所述的基于大核注意力机制的锂电池运动模糊图像质量复原方法,其特征在于:步骤3的具体步骤如下:
步骤3-1,将聚合特征Fin∈RC×H×W使用1×1卷积进行通道数扩增为聚合特征的两倍通道数;步骤3-2,为完成注意力操作,将扩充后的聚合特征拆分得到特征X1和X2,X1,X2∈RC×H×W,X1用于捕获全局感受野以生成注意力权重图,X2保留原空间信息,H、W和C分别表示输出特征图的高、宽和通道数;
步骤3-3,将对特征X1使用三个连续的大核感受野的卷积核逐级捕获局部信息、区域信息和全局信息;
步骤3-4,对提取完全局信息的特征X1采用1×1卷积进行通道交互以得到注意力图(Attention Map,AP);
步骤3-5,注意力图与保留原空间信息的特征X2相乘后得到大核注意力模块AKAM的注意力特征Fout。
5.根据权利要求4所述的基于大核注意力机制的锂电池运动模糊图像质量复原方法,其特征在于:步骤3-2的具体公式表达式如下:
X1,X2=Split(Conv1(Fin)) (3)
式中,Fin表示输入特征,即聚合特征Fin;Conv1表示1×1卷积,Split表示将通道数分成两部分。
6.根据权利要求4所述的基于大核注意力机制的锂电池运动模糊图像质量复原方法,其特征在于:步骤3-3中对特征X1依次采用3×3卷积学习局部信息、卷积核为5×5大小的深度可分离卷积学习区域信息、卷积核为11×11大小且空洞率为3的深度可分离卷积学习全局信息。
7.根据权利要求4所述的基于大核注意力机制的锂电池运动模糊图像质量复原方法,其特征在于:步骤3-4的注意力特征Fout的具体公式表达式如下:
Fout=X2×Conv1(DDWonv(DWonv(Conv(X1)))) (4)
式中,Conv1表示1×1卷积,Conv表示3×3卷积,DWonv表示深度可分离卷积,DDWonv表示深度可分离卷积。
8.根据权利要求1所述的基于大核注意力机制的锂电池运动模糊图像质量复原方法,其特征在于:步骤4具体包括以下步骤:
步骤4-1,将注意力特征Fout输入到解码器第三层并经一差分卷积后,一部分上采样送入解码器第二层(n=2),另一部分输出对应层的复原结果表示解码器在第三层时的输出结果,用以约束解空间;同时将模糊图像B1下采样两次得到第一模糊图像B3;第一模糊图像B3和/>相加后得到最小尺度的复原图像S3,对应表达式如下:
B1∈R3×H×W (6)
B3∈R3×H/4×W/4 (7)
S3∈R3×H/4×W/4 (8)
式中,R表示实数集,H和W分别表示特征图的高和宽,C表示特征图的通道数;
步骤4-2,解码器最底层上采样后输入到解码器第二层的特征图与跳跃连接的来自编码器第二层的特征图相加并经过一差分卷积后,一部分上采样送入解码器第一层,另一部分输出为将模糊图像B1下采样两次得到第二模糊图像B2,第二模糊图像B2和/>相加后得到较小尺度的复原图像S2,对应表达式如下:
B2∈R3×H/2×W/2(10)
S2∈R3×H/2×W/2(11)
式中,R表示实数集,H和W分别表示特征图的高和宽,C表示特征图的通道数;
步骤4-3,解码器第二层上采样后输入到解码器第一层的特征图与跳跃连接的来自编码器第一层的特征图相加并经过一差分卷积后,与模糊图像B1相加得到原尺度的复原图像S1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310853160.XA CN117078528A (zh) | 2023-07-12 | 2023-07-12 | 基于大核注意力机制的锂电池运动模糊图像质量复原方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310853160.XA CN117078528A (zh) | 2023-07-12 | 2023-07-12 | 基于大核注意力机制的锂电池运动模糊图像质量复原方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117078528A true CN117078528A (zh) | 2023-11-17 |
Family
ID=88706937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310853160.XA Pending CN117078528A (zh) | 2023-07-12 | 2023-07-12 | 基于大核注意力机制的锂电池运动模糊图像质量复原方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078528A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934473A (zh) * | 2024-03-22 | 2024-04-26 | 成都信息工程大学 | 一种基于深度学习的公路隧道表观裂缝检测方法 |
-
2023
- 2023-07-12 CN CN202310853160.XA patent/CN117078528A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934473A (zh) * | 2024-03-22 | 2024-04-26 | 成都信息工程大学 | 一种基于深度学习的公路隧道表观裂缝检测方法 |
CN117934473B (zh) * | 2024-03-22 | 2024-05-28 | 成都信息工程大学 | 一种基于深度学习的公路隧道表观裂缝检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033410B (zh) | 图像重建模型训练方法、图像超分辨率重建方法及装置 | |
CN111681166B (zh) | 一种堆叠注意力机制编解码单元的图像超分辨率重建方法 | |
Amirkhani et al. | An objective method to evaluate exemplar‐based inpainted images quality using Jaccard index | |
Liu et al. | A multi-metric fusion approach to visual quality assessment | |
CN117078528A (zh) | 基于大核注意力机制的锂电池运动模糊图像质量复原方法 | |
CN111612741A (zh) | 一种基于失真识别的精确无参考图像质量评价方法 | |
CN114266957B (zh) | 一种基于多降质方式数据增广的高光谱图像超分辨率复原方法 | |
CN111369548A (zh) | 一种基于生成对抗网络的无参考视频质量评价方法及装置 | |
CN108830829B (zh) | 联合多种边缘检测算子的无参考质量评价算法 | |
CN105631890B (zh) | 基于图像梯度和相位一致性的失焦图片质量评价方法 | |
Li et al. | Recent advances and challenges in video quality assessment | |
CN117575915B (zh) | 一种图像超分辨率重建方法、终端设备及存储介质 | |
Susladkar et al. | ClarifyNet: A high-pass and low-pass filtering based CNN for single image dehazing | |
CN110910347A (zh) | 一种基于图像分割的色调映射图像无参考质量评价方法 | |
Luo et al. | Bi-GANs-ST for perceptual image super-resolution | |
CN116468625A (zh) | 基于金字塔高效通道注意力机制的单幅图像去雾方法和系统 | |
CN117994167B (zh) | 融合并行多卷积注意力的扩散模型去雾方法 | |
CN111932456B (zh) | 一种基于生成对抗网络的单幅图像超分辨率重建方法 | |
CN115018723A (zh) | 基于卷积神经网络且用于对模糊图像进行处理的方法 | |
CN105516716B (zh) | 闭环安防系统视频画质的现场测试方法 | |
CN114565511A (zh) | 基于全局单应性估计的轻量级图像配准方法、系统及装置 | |
Zeng et al. | Single image motion deblurring based on modified denseNet | |
Mou et al. | Reduced reference image quality assessment via sub-image similarity based redundancy measurement | |
Preedanan et al. | Image quality assessment for medical images based on gradient information | |
CN106530259B (zh) | 一种基于多尺度散焦信息的全聚焦图像重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |