CN111598860B - 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法 - Google Patents
基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法 Download PDFInfo
- Publication number
- CN111598860B CN111598860B CN202010402197.7A CN202010402197A CN111598860B CN 111598860 B CN111598860 B CN 111598860B CN 202010402197 A CN202010402197 A CN 202010402197A CN 111598860 B CN111598860 B CN 111598860B
- Authority
- CN
- China
- Prior art keywords
- convolution
- stage
- features
- feature
- output characteristics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E60/00—Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02E60/10—Energy storage using batteries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法,包括采集含有待检测缺陷的锂电池图像,并将采集的图像统一缩放至合适大小;利用嵌入自注意力门模块的yolov3网络进行特征提取;其中,自注意力门模块包括多尺度特征融合模块和自注意力机制模块两部分;以yolov3网络模型的darknet‑53网络作为主干网络进行特征提取。该方法深层特征和浅层特征首先通过自注意力门模块集成,可以捕获在空间维度上的上下文信息并抑制浅层特征的复杂背景的冗余信息,然后自注意力门模块采用空间注意力计算每个像素的权重得到注意力映射图,充分利用了上下文信息,在处理一些相似的目标缺陷时,上下文信息可以更好地将它们区别开。
Description
技术领域
本发明属于工业缺陷检测技术领域,具体涉及一种基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法。
背景技术
锂电池是一类由锂金属或锂合金为负极材料、使用非水电解质溶液的电池。锂电池具有高容量、长寿命、环保等诸多优点,被广泛应用于水力、火力、风力和太阳能电站等储能电源系统,以及电动工具、电动自行车、电动摩托车、电动汽车、军事装备、航空航天等多个领域。
锂电池电极表面存在缺陷,则会降低锂电池的性能和使用寿命,还可能会带来安全隐患。目前常规的锂电池检测基本通过全人工目测检查,人工的检测可靠性、稳定性和效率无法有效控制,并且现有的人工成本高昂,劳动力密集也直接制约了锂电池的低成本生产。
赵晓云等人(赵晓云,郑治华,韩洪伟等.锂电池极片表面缺陷特征提取方法研究[J].河南科技,2017(05):137-139.)分析了一些锂电池缺陷的特点,提出了一种用于锂电池缺陷检测的传统机器学习方法,主要包括采用中值滤波和Sobel算子进行边缘提取,对图像进行预处理,然后对预处理后的图像以粗检的方式进行第一道检测,粗检以模板匹配的方法实现,最后再以灰度分类阈值与对比度对通过粗检的图像检测分类;该方法检测具有相似结构特点的目标特征的能力较弱,例如颗粒与气孔都是点状缺陷,在纹理特征与灰度特征上有一定的相似之处,如果采用灰度分类阈值与对比度来检测的话,这些特征可能混淆,影响检测结果。而深度学习提出了一种让计算机自动学习出模式特征的方法,并将特征学习融入到了建立模型的过程中,从而减少了人为设计特征造成的不完备性,具有更好的适应性,检测精度也更高。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法,能对常见不同类型的锂电池表面缺陷进行实时检测并进行缺陷定位,提高不同种类以及相似结构缺陷识别的准确率,能满足实际锂电池工业生产的实时性和准确性要求。
本发明解决上述技术问题采用的技术方案是:
一种基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法,其特征在于,该方法包括采集含有待检测缺陷的锂电池图像,并将采集的图像统一缩放至合适大小;利用嵌入自注意力门模块的yolov3网络进行特征提取;其中,自注意力门模块包括多尺度特征融合模块和自注意力机制模块两部分;以yolov3网络模型的darknet-53网络作为主干网络进行特征提取;
多尺度特征融合模块:darknet-53网络第五阶段的输出特征依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m1,特征m1同时侧向连接一个卷积核大小为1*1、步长为1的卷积层后得到特征p,将特征p经过一次上采样放到与darknet-53网络第四阶段的第三个卷积块层的输出特征q相同大小,得到上采样后的特征p’;特征q和特征p’分别经过卷积操作后相加,再通过LeakRelu激活函数得到特征x;其中,
x=LeakPelu(e(p')+f(q)),x∈RC×W×H (3)
式中,R表示特征空间;W、H分别表示特征图的宽度和高度;C、Cp、Cq分别表示特征x、p、q的通道数量,其中C=Cp+Cq;e(p’)、f(q)表示对特征p’和q的卷积操作;
自注意力机制模块:将特征x分别通过三个卷积核大小为1x1、步长为1的卷积后生成三个新的特征g、h和k,再分别将特征g、h和k进行重组,得到重组后的特征g’、h’和k’;其中,
{g,h,k}∈RC×H×W (4)
g'∈RC×N,h'∈RC×N,k'∈RC×N (5)
式中,N=H×W;
将特征g’的转置与特征h’相乘生成注意力映射图A,其中,
A∈RN×N (6)
再将注意力映射图A与特征k’相乘得到特征B;最后将特征B进行重组后再与特征x进行逐元素相加,得到经过自注意力门模块操作后的特征o。
嵌入自注意力门模块的yolov3网络的具体结构为:
以yolov3网络模型的darknet-53网络作为主干网络进行特征提取,darknet-53网络主要分为五个阶段,每个阶段包括一个或多个卷积块层,每个卷积块层均两个卷积层和一个残差连接;除第五阶段外,其余四个阶段还包括一个位于所有卷积块层之后的下采样层;
将darknet-53网络第五阶段的输出特征依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m1,特征m1依次侧向连接卷积核大小分别为3*3、1*1,步长均为1的两个卷积层后得到特征y1,特征y1作为检测层的第一层;
特征m1同时侧向连接一个卷积核大小为1*1、步长为1的卷积层后得到特征p,特征p再通过一次上采样放大到与darknet-53网络第四阶段的第三个卷积块层的输出特征q同等大小,得到特征m2;特征p与darknet-53网络第四阶段的第三个卷积块层的输出特征q经过自注意力门模块后,再与特征m2拼接在一起形成特征m3;特征m3依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m4,特征m4依次经过卷积核大小分别为3*3、1*1,步长均为1的两次卷积后得到特征y2,特征y2作为检测层的第二层;
特征m4同时经过卷积核大小为1*1、步长为1的卷积后得到特征m5,特征m5通过一次上采样放大到与darknet-53网络第三阶段的第三个卷积块层的输出特征T相同大小,得到特征m6;特征m5与darknet-53网络第三阶段的第三个卷积块层的输出特征T经过自注意力门模块后,再与特征m6拼接在一起形成特征m7;特征m7依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m8,特征m8依次经过卷积核大小为3*3、1*1,步长均为1的两次卷积后得到特征y3,特征y3作为检测层的第三层。
上述方法的具体步骤是:
第一步:利用工业相机采集锂电池图像,作为缺陷检测的原始图像;原始图像包括无缺陷的图像和含有待检测缺陷的图像;
第二步:对采集到的所有含有待检测缺陷的原始图像进行标注形成标签,并将所有的标签分为不同的数据集;
第三步:嵌入自注意力门模块的yolov3网络进行特征提取;
第四步:首先设置模型训练参数和初始权重,然后读取训练集中的图像并将训练图像缩放至608*608像素,缩放后的图像通过嵌入自注意力门模块的yolov3网络进行特征提取,并利用K-means聚类方法对训练图像自动生成锚框,以锚框的尺寸作为先验框通过边框回归预测得到边界框,然后使用logistic分类器对边界框进行分类,获得每个边界框对应的缺陷类别分类概率;再通过非极大值抑制法对所有边界框的缺陷类别分类概率进行排序,确定每个边界框对应的缺陷类别,得到预测值;然后通过损失函数计算预测值和真实值之间的训练损失;
再根据训练损失的变化来动态调整学习率与迭代次数,训练分为两个阶段,第一阶段是训练开始的前100个周期,初始学习率固定为0.001;第二阶段是指100个周期之后的训练周期,初始学习率设置为0.0001,当训练损失趋于稳定的时候,学习率依次变为原来的十分之一,设置最终学习率为0.00001,直到学习率减小到最终学习率0.00001时训练停止;
第五步:将测试用的图像缩放至608像素*608像素并输入嵌入自注意力门模块的yolov3网络进行特征提取中进行检测。
darknet-53网络的具体结构为:输入的目标图像依次经过一个卷积核大小为3*3、步长为1、通道数为32的卷积层和一个卷积核大小为3*3、步长为2、通道数为64的下采样层后得到第一阶段的输入特征;第一阶段的输入特征依次经过一个卷积核大小为1*1、步长为1、通道数为32和一个卷积核大小为3*3、步长为1、通道数为64的两个卷积层、一个残差连接以及一个卷积核大小为3*3、步长为2、通道数为128的下采样层后得到第一阶段的输出特征;第一阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为64、128的两个卷积和一个残差连接后得到第二阶段第一卷积块层的输出特征;第二阶段第一卷积块层的输出特征重复第一阶段输出特征的操作后得到第二阶段第二卷积块层的输出特征,第二阶段第二卷积块层的输出特征经过一个卷积核大小为3*3、步长为2、通道数为256的下采样层后得到第二阶段的输出特征;第二阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为128、256的两次卷积和一个残差连接后得到第三阶段第一卷积块层的输出特征,第三阶段第一卷积块层的输出特征重复第二阶段输出特征的操作,重复七次后得到第三阶段第八卷积块层的输出特征,第三阶段第八卷积块层的输出特征经过一个卷积核大小为3*3、步长为2、通道数为512的下采样层后得到第三阶段的输出特征;第三阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为256、512的两次卷积和一个残差连接后得到第四阶段第一卷积块层的输出特征,第四阶段第一卷积块层的输出特征重复第三阶段输出特征的操作,重复七次后得到第四阶段第八卷积块层的输出特征,第四阶段第八卷积块层的输出特征经过一个卷积核大小为3*3、步长为2、通道数为1024的下采样层后得到第四阶段的输出特征;第四阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为512、1024的两次卷积核一个残差连接后得到第五阶段第一卷积块层的输出特征,第五阶段第一卷积块层的输出特征重复第四阶段输出特征的操作,重复三次后得到第五阶段的输出特征。
与现有技术相比,本发明的有益效果是:
为了适应多尺度目标检测的需求,yolov3网络中分别将第五阶段的输出特征与第四阶段的输出特征以及第四阶段的输出特征与第三阶段的输出特征进行融合,即实现深层特征与浅层特征相融合,然后在再进行多尺度检测,这样浅层特征的纹理信息与深层特征的语义信息都得到了很好地运用,识别的准确性更高;但是,直接将浅层特征与深层特征相融合的时候会产生其他问题,由于融合过程中引入了浅层特征中冗余的背景信息,这些多余的背景信息会对目标检测产生影响,因此本发明提出一种自注意力门模块,将多尺度融合模块与自注意力门模块结合到一起来引导yolov3网络的多尺度融合。注意力机制可以使神经网络在学习过程中获取需要重点关注的目标区域,得到注意力焦点,而后对这一区域投入更多注意力,以获取更多所需要关注目标的细节信息,从而抑制其他无用信息,这样就可以抑制背景,突出缺陷目标。
本发明的自注意力门模块在原有注意力机制的基础上又做了进一步的改进,具体来说,深层特征和浅层特征首先通过自注意力门模块集成,可以捕获在空间维度上的上下文信息并抑制浅层特征的复杂背景的冗余信息,然后自注意力门模块采用空间注意力计算每个像素的权重得到注意力映射图A,注意力映射图A反应了每个像素与其他像素之间的关系,每个像素权重就是相当于神经网络对每个像素的关注度,权重越大的就越受网络关注,充分利用了上下文信息,在处理一些相似的目标缺陷时,上下文信息可以更好地将它们区别开,例如有些缺陷虽然纹理特征相似,但缺陷的在锂电池表面的位置分布不同,这时空间上的上下文信息就可以帮助区别这些缺陷。
将自注意力机制与多尺度融合模块结合在一起组成一个门控结构,即自注意力门模块,通过先将浅层特征与深层特征融合在一起再进行注意力运算,这样由于深层包含有更多的高级语义信息与更少的背景信息,浅层特征与深层特征融合之后的目标信息得到强化,在做注意力运算时可以让网络更多的关注目标缺陷,抑制背景信息,从而可以更好地引导多尺度融合,提高检测精度,解决了在复杂场景及背景下的特征提取难题。
本发明以yolov3网络模型为基础,引入自注意力门模块,充分发挥了深度学习方法提取特征的优势,能够不依赖人工的特征工程,从大量数据集中先学习简单的浅层特征,再逐渐学习到更为复杂抽象的深层特征,性能更好,缺陷种类识别精度更高,且锂电池的缺陷的精确率、召回率高,识别速度快。
附图说明
图1为本发明的整体流程图;
图2为本发明的网络结构图;
图3为本发明的自注意力门模块的流程图。
具体实施方式
下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明提供一种基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法(简称方法,参见图1-3),该方法包括以下步骤:
第一步:图像获取
利用工业相机采集锂电池图像,作为缺陷检测的原始图像;原始图像包括无缺陷的图像和含有待检测缺陷的图像;含有待检测缺陷的图像既可以是包含单一缺陷的图像也可以是包含多种待检测缺陷的图像,必须包含所有待检测缺陷种类;
第二步:制作数据集:
制作数据集,具体以Pascal VOC2007的标准格式为模板,包含以下步骤:
2-1:建立数据集存放文件夹
新建VOCdevkit文件夹,在VOCdevkit文件夹下建立VOC2007文件夹,在VOC2007文件夹下分别建立Annotations文件夹、JPEGImages文件夹以及ImageSets文件夹;在ImageSets文件夹下建立Main文件夹,在Main文件夹下建立train.txt、val.txt、test.txt以及trainval.txt四个文件,分别用于存放训练集、验证集、测试集和训练验证集;Annotations文件夹用于存放标注后的图像的xml文件;JPEGImages文件夹用于存放训练用的图像;
2-2:标注图像
使用Labelimg软件对第一步中采集到的含有待检测缺陷的图像进行手动标注,将其中的缺陷部分标注出来;标注后的每张图像都对应一个包含有图像名称、缺陷种类和缺陷位置坐标的xml文件,一个xml文件即为一个标签,并将所有的xml文件保存到Annotations文件夹中;
2-3:对数据集进行分组
将所有的xml文件按照比例分成进行分组,首先提取所有的xml文件,将所有的xml文件按照4:1的比例随机分为2组,分别为训练集和验证集,训练验证集为训练集和验证集的总和,并将各个数据集对应的xml文件的文件名保存至相应的txt文件中;
第三步:改进yolov3网络模型
3-1darknet-53网络
以yolov3网络模型的darknet-53网络作为主干网络进行特征提取,darknet-53网络主要分为五个阶段,每个阶段包括一个或多个卷积块层(Conv block),每个卷积块层均为两个卷积层和一个残差连接(residual);其中,第一阶段包括一个卷积块层,第二阶段包含两个卷积块层,第三、四阶段均包含八个卷积块层,第五阶段包含四个卷积块层;除第五阶段外,其余四个阶段还包括一个位于所有卷积块层之后的用于改变特征图尺寸的下采样层;
输入的目标图像被逐层计算提取特征,输入的目标图像大小为608*608*3(图像大小的选取既满足对硬件及实时性的要求,又要避免由于图像太小而不能检测到小缺陷的弊端;图像的大小为32的整数倍,优选576~704),其中宽高都是608,通道数为3,依次经过一个卷积核大小为3*3、步长为1、通道数为32的卷积层和一个卷积核大小为3*3、步长为2、通道数为64的下采样层后得到第一阶段的输入特征,第一阶段输入特征的尺寸为304*304*64;第一阶段的输入特征依次经过一个卷积核大小为1*1、步长为1、通道数为32和一个卷积核大小为3*3、步长为1、通道数为64的两个卷积层、一个残差连接以及一个卷积核大小为3*3、步长为2、通道数为128的下采样层后得到第一阶段的输出特征,其尺寸为152*152*128;第一阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为64、128的两个卷积和一个残差连接后得到第二阶段第一卷积块层的输出特征;第二阶段第一卷积块层的输出特征重复第一阶段输出特征的操作后得到第二阶段第二卷积块层的输出特征,第二阶段第二卷积块层的输出特征经过一个卷积核大小为3*3、步长为2、通道数为256的下采样层后得到第二阶段的输出特征,其尺寸为76*76*256;第二阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为128、256的两次卷积和一个残差连接后得到第三阶段第一卷积块层的输出特征,第三阶段第一卷积块层的输出特征重复第二阶段输出特征的操作,重复七次后得到第三阶段第八卷积块层的输出特征,第三阶段第八卷积块层的输出特征经过一个卷积核大小为3*3、步长为2、通道数为512的下采样层后得到第三阶段的输出特征,其尺寸为38*38*512;第三阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为256、512的两次卷积和一个残差连接后得到第四阶段第一卷积块层的输出特征,第四阶段第一卷积块层的输出特征重复第三阶段输出特征的操作,重复七次后得到第四阶段第八卷积块层的输出特征,第四阶段第八卷积块层的输出特征经过一个卷积核大小为3*3、步长为2、通道数为1024的下采样层后得到第四阶段的输出特征;第四阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为512、1024的两次卷积核一个残差连接后得到第五阶段第一卷积块层的输出特征,第五阶段第一卷积块层的输出特征重复第四阶段输出特征的操作,重复三次后得到第五阶段的输出特征,其尺寸为19*19*1024;
表1 darknet-53网络的具体参数
表中,Convblock×1表示经过一个卷积块层Convblock操作;
3-2darknet-53网络的特征重组
将步骤3-1获得的第五阶段的输出特征依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m1,特征m1依次侧向连接卷积核大小分别为3*3、1*1,步长均为1的两个卷积层后得到特征y1,特征y1作为检测层的第一层;
特征m1同时侧向连接一个卷积核大小为1*1、步长为1的卷积层后得到特征p,特征p再通过一次上采样(upsample)放大到与darknet-53网络的第152层(darknet-53网络第四阶段的第三个卷积块层的输出特征q)同等大小,得到上采样后的特征m2;特征p与darknet-53网络第四阶段的第三个卷积块层的输出特征q经过自注意力门模块后,再与特征m2拼接(concatente)在一起形成特征m3;特征m3依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m4,特征m4依次经过卷积核大小分别为3*3、1*1,步长均为1的两次卷积后得到特征y2,特征y2作为检测层的第二层;
特征m4同时经过卷积核大小为1*1、步长为1的卷积后得到特征m5,特征m5通过一次上采样放大到与darknet-53网络的第92层(darknet-53网络第三阶段的第三个卷积块层的输出特征T)相同大小,得到特征m6;特征m5与darknet-53网络第三阶段的第三个卷积块层的输出特征T经过自注意力门模块后,再与特征m6拼接(concatente)在一起形成特征m7;特征m7依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m8,特征m8依次经过卷积核大小为3*3、1*1,步长均为1的两次卷积后得到特征y3,特征y3作为检测层的第三层;至此获得改进的yolov3网络模型;
其中,以特征p与darknet-53网络第四阶段的第三个卷积块层的输出特征q经过自注意力门模块的操作为例说明自注意力门模块的具体实施过程;自注意力门模块包括多尺度特征融合模块和自注意力机制模块两部分;
多尺度特征融合模块:首先将特征p经过一次上采样放到与特征q相同大小,得到上采样后的特征p’;特征q和特征p’分别经过一个卷积核大小为1*1、步长为1的卷积操作后相加,再通过LeakRelu激活函数得到特征x;其中,
x=LeakPelu(e(p')+f(q)),x∈RC×W×H (3)
式中,R表示特征空间;W、H分别表示特征图的宽度和高度;C、Cp、Cq分别表示特征x、p、q的通道数量,其中C=Cp+Cq;e(p’)、f(q)表示对特征p’和q的卷积操作;
自注意力机制模块:首先将特征x分别通过三个卷积核大小为1x1、步长为1的卷积后生成三个新的特征g、h和k,再分别将特征g、h和k进行重组(reshape),得到重组后的特征g’、h’和k’;其中,
{g,h,k}∈RC×H×W (4)
g'∈RC×N,h'∈RC×N,k'∈RC×N (5)
式中,N=H×W;
将特征g’的转置(tranpose)与特征h’相乘生成注意力映射图A,再将注意力映射图A与特征k’相乘得到经自注意力机制改进后的特征B;最后将特征B进行重组后再与特征x进行逐元素相加,得到经过自注意力门模块操作后的特征o,特征o与特征m2拼接在一起形成特征m3;其中,
A∈RN×N (6)
例如输入锂电池图像的大小为608*608*3,其中图像的宽和高都是608,通道数为3,经过改进的yolov3网络模型后的特征T、q和m1的尺寸分别为76*76*256、38*38*512、19*19*1024;特征m1经过两次卷积后的特征y1的尺寸为19*19*36;特征m7、m3的尺寸分别为76*76*384、38*38*768;特征y2、y3的尺寸分别为38*38*36、76*76*36;
第四步:模型训练
4-1、设置模型训练参数
根据训练集中待检测缺陷的种类数和待检测缺陷名称修改改进的yolov3网络模型的类别数和类别标签;
4-2、设置模型初始权重
将ImageNet数据集上预先训练好的Darknet模型文件作为改进的yolov3网络模型的初始权重,以加快收敛减少训练时间;
4-3、计算训练损失
根据darknet-53网络的特征重组后的输出特征的数量确定锚框的数量,利用K-means聚类方法对训练图像自动生成锚框(anchorbox),并且把锚框的尺寸保存下来;读取训练集中的图像,读入图像数据,包括图像名称、缺陷类别和缺陷位置坐标信息;将训练图像缩放至608*608像素,缩放后的图像通过改进的yolov3网络模型进行特征提取;以锚框的尺寸(锚框尺寸会根据图像缩放尺寸等比缩放)作为先验框通过边框回归预测得到边界框,然后使用logistic分类器对边界框进行分类,获得每个边界框对应的缺陷类别分类概率;再通过非极大值抑制法(NMS)对所有边界框的缺陷类别分类概率进行排序,确定每个边界框对应的缺陷类别,得到预测值,预测值包括缺陷类别和缺陷位置信息,非极大抑制阈值为0.5;然后通过损失函数计算预测值和真实值之间的训练损失(loss);
4-4、训练阶段
根据训练损失的变化来动态调整学习率与迭代次数,以更新整个网络的参数;训练分为两个阶段,第一阶段是训练开始的前100个周期,初始学习率固定为0.001,以加快收敛;第二阶段是指100个周期之后的训练周期,初始学习率设置为0.0001,当训练损失趋于稳定的时候,学习率依次变为原来的十分之一,设置最终学习率为0.00001,直到学习率减小到最终学习率0.00001时训练停止;
第五步:在线测试
在线测试,电脑CPU为酷睿i7系列,内存为16GB,显卡为双GTX1080显卡,在Windows10的平台下完成,基于keras程序实现;首先将测试用的图像(测试用的图像中取每类缺陷图像400张)缩放至608像素*608像素并输入改进的yolov3网络模型中进行检测;单张图像检测时间为0.2s,能满足生产效率的要求。
本实施例对锂电池表面气孔、污迹、鼓包、褶皱、极片划痕,颗粒以及暗斑一共7种缺陷图像进行了实验,其中对污迹的识别准确率在87%左右,其余所有缺陷识别率均达到90%以上,对于颗粒、气孔这两个具有相似结构的缺陷的识别率较高,说明本申请方法对于这两类相似缺陷区别度高,检测精度高。此外本申请所输出的结果包括缺陷所处在整个锂电池图像中的位置,有利于后续对不同种类缺陷进行相应后处理。
本发明未述及之处适用于现有技术。
Claims (3)
1.一种基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法,其特征在于,该方法包括采集含有待检测缺陷的锂电池图像,并将采集的图像统一缩放至合适大小;利用嵌入自注意力门模块的yolov3网络进行特征提取,嵌入自注意力门模块的yolov3网络以yolov3网络模型的darknet-53网络作为主干网络进行特征提取,darknet-53网络主要分为五个阶段,每个阶段包括一个或多个卷积块层,每个卷积块层均两个卷积层和一个残差连接;除第五阶段外,其余四个阶段还包括一个位于所有卷积块层之后的下采样层;
将darknet-53网络第五阶段的输出特征依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m1,特征m1依次侧向连接卷积核大小分别为3*3、1*1,步长均为1的两个卷积层后得到特征y1,特征y1作为检测层的第一层;
特征m1同时侧向连接一个卷积核大小为1*1、步长为1的卷积层后得到特征p,特征p再通过一次上采样放大到与darknet-53网络第四阶段的第三个卷积块层的输出特征q同等大小,得到特征m2;特征p与darknet-53网络第四阶段的第三个卷积块层的输出特征q经过自注意力门模块后,再与特征m2拼接在一起形成特征m3;特征m3依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m4,特征m4依次经过卷积核大小分别为3*3、1*1,步长均为1的两次卷积后得到特征y2,特征y2作为检测层的第二层;
特征m4同时经过卷积核大小为1*1、步长为1的卷积后得到特征m5,特征m5通过一次上采样放大到与darknet-53网络第三阶段的第三个卷积块层的输出特征T相同大小,得到特征m6;特征m5与darknet-53网络第三阶段的第三个卷积块层的输出特征T经过自注意力门模块后,再与特征m6拼接在一起形成特征m7;特征m7依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m8,特征m8依次经过卷积核大小为3*3、1*1,步长均为1的两次卷积后得到特征y3,特征y3作为检测层的第三层;
其中,自注意力门模块包括多尺度特征融合模块和自注意力机制模块两部分;以yolov3网络模型的darknet-53网络作为主干网络进行特征提取;
多尺度特征融合模块:darknet-53网络第五阶段的输出特征依次经过卷积核大小分别为1*1、3*3、1*1、3*3、1*1,步长均为1的五次卷积后生成特征m1,特征m1同时侧向连接一个卷积核大小为1*1、步长为1的卷积层后得到特征p,将特征p经过一次上采样放到与darknet-53网络第四阶段的第三个卷积块层的输出特征q相同大小,得到上采样后的特征p’;特征q和特征p’分别经过卷积操作后相加,再通过LeakRelu激活函数得到特征x;其中,
p∈RCp×W/2×H/2 (1)
q∈RCq×W×H (2)
x=LeakPelu(e(p')+f(q)),x∈RC×H×W (3)
式中,R表示特征空间;W、H分别表示特征图的宽度和高度;C、Cp、Cq分别表示特征x、p、q的通道数量,其中C=Cp+Cq;e(p')、f(q)表示对特征p’和q的卷积操作;
自注意力机制模块:将特征x分别通过三个卷积核大小为1x1、步长为1的卷积后生成三个新的特征g、h和k,再分别将特征g、h和k进行重组,得到重组后的特征g’、h’和k’;其中,
{g,h,k}∈RC×H×W (4)
g'∈RC×N,h'∈RC×N,k'∈RC×N (5)
式中,N=H×W;
将特征g’的转置与特征h’相乘生成注意力映射图A,其中,
A∈RN×N (6)
再将注意力映射图A与特征k’相乘得到特征B;最后将特征B进行重组后再与特征x进行逐元素相加,得到经过自注意力门模块操作后的特征o。
2.根据权利要求1所述的检测方法,其特征在于,该方法的具体步骤是:
第一步:利用工业相机采集锂电池图像,作为缺陷检测的原始图像;原始图像包括无缺陷的图像和含有待检测缺陷的图像;
第二步:对采集到的所有含有待检测缺陷的原始图像进行标注形成标签,并将所有的标签分为不同的数据集;
第三步:嵌入自注意力门模块的yolov3网络进行特征提取;
第四步:首先设置模型训练参数和初始权重,然后读取训练集中的图像并将训练图像缩放至608*608像素,缩放后的图像通过嵌入自注意力门模块的yolov3网络进行特征提取,并利用K-means聚类方法对训练图像自动生成锚框,以锚框的尺寸作为先验框通过边框回归预测得到边界框,然后使用logistic分类器对边界框进行分类,获得每个边界框对应的缺陷类别分类概率;再通过非极大值抑制法对所有边界框的缺陷类别分类概率进行排序,确定每个边界框对应的缺陷类别,得到预测值;然后通过损失函数计算预测值和真实值之间的训练损失;
再根据训练损失的变化来动态调整学习率与迭代次数,训练分为两个阶段,第一阶段是训练开始的前100个周期,初始学习率固定为0.001;第二阶段是指100个周期之后的训练周期,初始学习率设置为0.0001,当训练损失趋于稳定的时候,学习率依次变为原来的十分之一,设置最终学习率为0.00001,直到学习率减小到最终学习率0.00001时训练停止;
第五步:将测试用的图像缩放至608像素*608像素并输入嵌入自注意力门模块的yolov3网络进行特征提取中进行检测。
3.根据权利要求1所述的检测方法,其特征在于,darknet-53网络的具体结构为:输入的目标图像依次经过一个卷积核大小为3*3、步长为1、通道数为32的卷积层和一个卷积核大小为3*3、步长为2、通道数为64的下采样层后得到第一阶段的输入特征;第一阶段的输入特征依次经过一个卷积核大小为1*1、步长为1、通道数为32和一个卷积核大小为3*3、步长为1、通道数为64的两个卷积层、一个残差连接以及一个卷积核大小为3*3、步长为2、通道数为128的下采样层后得到第一阶段的输出特征;第一阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为64、128的两个卷积和一个残差连接后得到第二阶段第一卷积块层的输出特征;第二阶段第一卷积块层的输出特征重复第一阶段输出特征的操作后得到第二阶段第二卷积块层的输出特征,第二阶段第二卷积块层的输出特征经过一个卷积核大小为3*3、步长为2、通道数为256的下采样层后得到第二阶段的输出特征;第二阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为128、256的两次卷积和一个残差连接后得到第三阶段第一卷积块层的输出特征,第三阶段第一卷积块层的输出特征重复第二阶段输出特征的操作,重复七次后得到第三阶段第八卷积块层的输出特征,第三阶段第八卷积块层的输出特征经过一个卷积核大小为3*3、步长为2、通道数为512的下采样层后得到第三阶段的输出特征;第三阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为256、512的两次卷积和一个残差连接后得到第四阶段第一卷积块层的输出特征,第四阶段第一卷积块层的输出特征重复第三阶段输出特征的操作,重复七次后得到第四阶段第八卷积块层的输出特征,第四阶段第八卷积块层的输出特征经过一个卷积核大小为3*3、步长为2、通道数为1024的下采样层后得到第四阶段的输出特征;第四阶段的输出特征依次经过卷积核大小分别为1*1、3*3,步长均为1,通道数分别为512、1024的两次卷积核一个残差连接后得到第五阶段第一卷积块层的输出特征,第五阶段第一卷积块层的输出特征重复第四阶段输出特征的操作,重复三次后得到第五阶段的输出特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010402197.7A CN111598860B (zh) | 2020-05-13 | 2020-05-13 | 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010402197.7A CN111598860B (zh) | 2020-05-13 | 2020-05-13 | 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598860A CN111598860A (zh) | 2020-08-28 |
CN111598860B true CN111598860B (zh) | 2022-11-18 |
Family
ID=72187237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010402197.7A Active CN111598860B (zh) | 2020-05-13 | 2020-05-13 | 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598860B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132031B (zh) * | 2020-09-23 | 2024-04-16 | 平安国际智慧城市科技股份有限公司 | 车款识别方法、装置、电子设备及存储介质 |
CN112241693A (zh) * | 2020-09-25 | 2021-01-19 | 上海荷福人工智能科技(集团)有限公司 | 基于YOLOv3实现的违规焊接动火图像识别方法 |
CN112419232A (zh) * | 2020-10-16 | 2021-02-26 | 国网天津市电力公司电力科学研究院 | YOLOv3结合注意力模块的低压断路器状态检测方法 |
CN112232232B (zh) * | 2020-10-20 | 2022-09-27 | 城云科技(中国)有限公司 | 一种目标检测方法 |
CN113129284B (zh) * | 2021-02-26 | 2023-04-07 | 山东大学 | 一种基于5g云边协同的外观检测方法及实现系统 |
CN113177937B (zh) * | 2021-05-24 | 2022-09-13 | 河南大学 | 基于改进YOLOv4-tiny的布匹缺陷检测方法 |
CN114332473A (zh) * | 2021-09-29 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、计算机设备、存储介质及程序产品 |
CN113989267B (zh) * | 2021-11-12 | 2024-05-14 | 河北工业大学 | 基于轻量级神经网络的电池缺陷检测方法 |
CN114078230B (zh) * | 2021-11-19 | 2023-08-25 | 西南交通大学 | 一种自适应特征融合冗余优化的小目标检测方法 |
CN115375677B (zh) * | 2022-10-24 | 2023-04-18 | 山东省计算中心(国家超级计算济南中心) | 基于多路径和多尺度特征融合的酒瓶缺陷检测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
-
2020
- 2020-05-13 CN CN202010402197.7A patent/CN111598860B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
基于YOLO改进算法的轨道扣件状态检测研究;王兵水等;《智能计算机与应用》;20200102(第01期);正文第1-4部分 * |
引入Self-Attention的电力作业违规穿戴智能检测技术研究;莫蓓蓓等;《计算机与现代化》;20200215(第02期);摘要,第1-2部分 * |
Also Published As
Publication number | Publication date |
---|---|
CN111598860A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598860B (zh) | 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法 | |
CN111612751B (zh) | 基于嵌入分组注意力模块的Tiny-yolov3网络的锂电池缺陷检测方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN112837315B (zh) | 一种基于深度学习的输电线路绝缘子缺陷检测方法 | |
CN112801146B (zh) | 一种目标检测方法及系统 | |
CN113379699A (zh) | 基于深度学习的输电线路绝缘子缺陷检测方法 | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
US11783474B1 (en) | Defective picture generation method and apparatus applied to industrial quality inspection | |
CN111832615A (zh) | 一种基于前景背景特征融合的样本扩充方法及系统 | |
CN114170144A (zh) | 一种输电线路销钉缺陷检测方法、设备及介质 | |
CN115439694A (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
CN112419268A (zh) | 一种输电线路图像缺陷检测方法、装置、设备及介质 | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
CN115830399A (zh) | 分类模型训练方法、装置、设备、存储介质和程序产品 | |
CN116579992A (zh) | 一种用于无人机巡检的小目标螺栓缺陷检测方法 | |
CN114694130A (zh) | 基于深度学习的铁路沿线电线杆及杆号检测方法和装置 | |
CN112163447B (zh) | 基于Attention和SqueezeNet的多任务实时手势检测和识别方法 | |
Yin et al. | Automated classification of piping components from 3D LiDAR point clouds using SE-PseudoGrid | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN106373121A (zh) | 模糊图像识别方法和装置 | |
CN114998866A (zh) | 一种基于改进YOLOv4的交通标志识别方法 | |
CN113269052A (zh) | 价签识别方法、终端、存储装置 | |
CN111858341A (zh) | 一种基于神经元覆盖的测试数据度量方法 | |
CN114998609B (zh) | 一种基于密集特征提取与轻量级网络的多类商品目标检测方法 | |
CN117934338B (zh) | 一种图像修复方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |