CN116452848A - 一种基于改进注意力机制的金具分类检测方法 - Google Patents

一种基于改进注意力机制的金具分类检测方法 Download PDF

Info

Publication number
CN116452848A
CN116452848A CN202310204536.4A CN202310204536A CN116452848A CN 116452848 A CN116452848 A CN 116452848A CN 202310204536 A CN202310204536 A CN 202310204536A CN 116452848 A CN116452848 A CN 116452848A
Authority
CN
China
Prior art keywords
attention
hardware
swin
self
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310204536.4A
Other languages
English (en)
Inventor
张珂
赵士玮
李星宽
石超君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN202310204536.4A priority Critical patent/CN116452848A/zh
Publication of CN116452848A publication Critical patent/CN116452848A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进注意力机制的金具分类检测方法,选取改进的Swin Transformer架构作为主干网络;引入基于自注意力的卷积的框架模块,利用浅层卷积网络和移动窗口多头注意机制,提取了含有丰富的金具特征信息的区域以提高目标分类的准确率;其中改进的Swin Transformer网络包含两个独立的区域,即基于自注意力的卷积和Swin Transformer。基于自注意力的卷积利用浅层卷积网络和移动窗口多头注意机制,提取了含有丰富的金具特定信息的区域。随后,基于自注意力的卷积获得的特征与经过Swin Transformer中linear embedding处理后的原始图像进行拼接,然后输入Swin Transformer来识别金具的类型,更准确的识别金具。

Description

一种基于改进注意力机制的金具分类检测方法
技术领域
本发明涉及图像分析技术领域,尤其涉及一种基于改进注意力机制的金具分类检测方法。
背景技术
随着我国新一代电力系统建设的快速发展,发输变电设备作为电力系统的重要组成部分,实现其的智能检测与分析变得愈发重要。输电线路是电力系统重要的生命线路,由于其通常直接暴露在户外自然环境中,易受到风雨雪雷等外界因素的影响而发生故障,因此定期巡检输电线路的可靠性及运行情况,对维护电力系统安全起着至关重要的作用。传统的人工巡检方式已不能满足智能电网建设的需求,通过搭载的无人机对输电线路进行巡检获取图片,利用人工智能与计算机视觉技术逐渐成为主流。在输电环节中,电力视觉技术的主要研究对象包括绝缘子、导线、金具、杆塔、拉线和基础接地装置等部件。
对巡检图片进行视觉处理和分析的巡检模式已经紧输电线路故障是造成电网大面积停电事故的重要原因之一,线路运维是保证电力系统安全的重要环节。金具是输电线路上广泛使用的铁制或铝制金属附件,种类繁多,主要用于支持、固定、接续裸导线、导体及绝缘子等,输电线路因接触环境复杂很可能出现电气闪络、材料老化、机械张力等情况,一旦发现及时将造成重大电路损坏事故。目前使用飞行器进行输电线路巡线已成为常规巡检方式,使用计算机视觉和图像处理技术对航拍图像和航拍视频自动化处理,实现对输电线路金具故障自动定位和识别,将极大地提高电力维护和检修的效率。金具目标精确识别是实现金具故障判断的前提,输电线路航拍图像金具检测由于其场景及目标的特殊性,与通用目标检测有一定差异。因此,对金具目标精确识别是确保输电线路正常运行的必要工作。
近年来,随着人工智能技术发展,利用无人机对输电线路进行巡检,然后采用计算机视觉和图像处理技术对输电线路的航拍图像进行自动化处理已成为当下的主要手段。
然而利用深度学习方法对输电线路中的金具进行分类识别存在以下两个难题:
1.金具的尺寸与种类众多,因此人工很难对图中的金具进行快速准确的目标分类检测。这是影响金具缺陷检测精度的关键因素。因此,在金具分了检测与检修中,首使该模型具有精确识别目标种类的能力。
2.现有的大多数金具分类检测方法仍存在识别能力不足的问题。会出现不能准确识别金具的问题。然而,输电线路中每一类金具都有对应的检测程序。如果将目标金具识别错误可能会导致后续流程没有找到潜在缺陷的问题。所以,金具的分类识别还需要引入识别能力更强的模型进行金具种类的判别。
因此,在上述背景下,将电力领域相关知识引入深度学习模型中,解决当前输电线路金具识别分类存在的问题,使其进一步提高金具种类检测精度的同时符合工业化需求成为重中之重。
发明内容
本发明的目的是提供一种基于改进注意力机制的金具分类检测方法,解决现有的大多数金具分类检测方法识别能力不足的问题,设计一种新的模型来进一步提高金具进行分类识别的精确度。
为实现上述目的,本发明提供了如下方案:
一种基于改进注意力机制的金具分类检测方法,包括以下步骤:
构建金具数据集,所述金具数据集中包含不同类别、不同尺度的金具图像。
将构建的金属数据集输入到改进注意力机制的金具分类检测模型中,得到金具的分类结果。
其中,改进注意力机制的金具分类检测模型包含基于自注意力的卷积(Attention-based Convolution,ABC)的框架模块、Swin Transformer模型和第二softmax函数。
ABC框架模块包括两个区域,浅层卷积区域和移动窗口多头自注意力区域,通过浅层图像卷积区域对金具图像进行初步特征提取和细化,并通过移动窗口多头自注意力区域提取一些含有丰富金具特征信息的区域。
将原始金具图像输入到ABC框架模块得到的特征与将原始金具图像输入到SwinTransformer模型的linear embedding层后输出的特征在通道维度上进行拼接,随后将拼接后的结果输入到Swin Transformer模型的剩余部分中,将Swin Transformer的输出端结果输入到第二softmax函数得到每个金具的概率,选取最大的概率所对应的金具类型作为金具的分类结果。
本申请提出了ABC框架模块,以提高基于金具分类识别任务的性能,并将ABC框架与Swin Transformer相结合,以获得更好的预测性能。
其中ABC框架模块的浅层卷积区域包含八个卷积层,使用具有3×3感受野的卷积核,卷积步长被固定为1像素;卷积层输入的空间填充是为了在卷积后保留相同维度大小,3×3卷积层的填充是1像素;在第2、5层卷积层后加入了空间池化,空间池化是由两个最大池化层进行的,最大池化层是在一个像素窗口2×2上进行的,步长为2;所有的隐藏层都配备非线性校正的功能,移动窗口多头自注意力区域则是包含了多头自注意力机制和移动窗口机制。
首先将原始金具图像输入到ABC框架模块中的卷积的区域,然后将ABC框架模块中的卷积的区域的输出结果再输入到移动窗口多头自注意力区域;具体地,将金具原始图像作为输入张量X,设输入张量X的维度为h×w×c,其中h表示高度,w表示宽度,c表示通道的数量,ABC框架模块的输入是一个固定224×224大小的RGB图像,卷积层的输出X1被用作移动窗口多头自注意力机制的输入,输入张量X经过卷积区域后变为X1,维度为56×56×16,再将该张量X1输入到自注意力机制的区域得到张量X2,在自注意力机制的区域中,设一个输入张量X1,其维度为h×w×c,其中h表示高度,w表示宽度,c并表示通道的数量,X1被卷积成三个独立的张量:Q维度为h×w×cQ,K维度为h×w×cK,V维度为h×w×cV,其中cQ,cK,cV和表示相应张量中的通道数量;自注意力的目的是计算这些值的加权和乘V,其中权重被计算为查询Q和相应的键K之间的相似性,因此,为了计算出相似度,Q和K通常具有相同的形状,即cQ=cV,单一自注意力机制的输出被计算为:
其中Q′,K′和是用于进行点乘的扁平化张量。
经过缩放操作,即把相似性矩阵Q′·K′T除以一个系数并应用第一softmax函数,在归一化的相似性矩阵和V之间进行点乘,生成维度为h×w×cK的自注意力力图Sn,n是多头注意力机制中的注意力探头头数,ni为第i个多头自注意力探头。
由于在公式(1)中把二维特征图展平为一维向量,因此原始图像张量的原始结构被破坏,为了在处理图像和多维特征等结构化数据时提高效率,采用了相对位置编码,相对位置编码由li,j表示,它表示Q′相对于K′的相对位置,其中i,j表示张量Q′中的坐标,注意力逻辑计算如下:
其中,qi是表示像素Q′的特征向量i:=(ix,iy)的第i行,kj是表示像素K′的特征向量j:=(jx,jy)的第j行,和/>分别是编码相对宽度jx-ix和相对高度jy-iy内的位置信息的可学习参数,有了相对位置编码,单个多头自注意力机制的输出可以重新表述为
其中和/>是相对位置的矩阵,多头注意机制中注意探头的头数可以根据实际情况调整,例如可以设定为4。
ABC框架模块的一个关键设计元素是它在连续的自注意力层之间的窗口分区的转移,移位后的窗口与前一层的窗口相衔接,提供了它们之间的联系信息,大大增强了建模能力,第一个模块采用了从左上角像素开始的常规窗口划分策略,56×56个特征图被均匀地划分为8×8个大小为7×7(M=7)的窗口,然后,将窗口从常规分区的窗口中向在上移出使之与前一层的窗口发生偏移,再将移动后的窗口重新排列为7×7个窗口再进行自注意力机制的计算。
采用移动窗口分区的方法,整个多头自注意力区域的计算方法如下:
其中表示ABC框架模块的输出特征。
其中,所述选取Swin Transformer网络作为基础架构,采用ABC框架模块+SwinTransformer模型作为主干网络,具体包括:
将金具原始图像的张量X输入到ABC框架模块后,再次使用该金具原始图像的张量X作为Swin Transformer的输入,首先,输入的样本图像的张量X经过Swin Transformer的patch partition层,其维度变成了56×56×48,然后,再次被Swin Transformer的linearembedding层映射到指定的维度X3,X3维度为56×56×128,patch partition层的作用是通过conv2d裁剪输入原始图像为16个图像块。
在公式(4)中自注意力机制的输出中,也就是ABC框架模块的输出,输出张量X2的维度为56×56×16,而Swin Transformer的linear embedding层的输出X3的维度也为56×56×128,所以将这两个张量沿通道维度进行拼接,将ABC框架模块输出的特征张量与SwinTransformer的linear embedding层的输出的特征张量在通道维度的进行拼接,得到Y维度为56×56×144,然后用拼接后的张量Y进行替换X3,继续作为输入进行Swin Transformer中linear embedding层后面的网络层,最后在Swin Transformer的输出端通过第二softmax函数得到每个金具的概率,选取最大的概率所对应的金具类型作为最终的金具分类结果。
本申请加入了新的损失函数来防止移动窗口多头注意力机制关注的区域重叠所造成的冗余和提高网络的性能;
为了缓解重叠问题,引入了多样性损失来学习不同的和不重叠的区域,通过最小化两个注意力探头中相应输出的乘积,和/>多样性损失被表述为:
移动窗口多头注意机制中的每个探头都会产生一个Sn(h′,w′),其中Sn(h′,w′)代表所对应的探头所关注的区域,(h′,w′)代表在自注意力中相应探头的位置,ni为第i个多头自注意力探头,Sn(h′,w′)可被视为一个维度为56×56×16的权重矩阵,在Sn(h′,w′)中,具有金具特征信息的区域越丰富,对应于该区域的权重矩阵就越大,当两个注意探头所代表的Sn(h′,w′)相乘的结果为0时,两个注意力探头所关注的区域没有重叠,当不同探头彼此两两相乘后得到的重叠损失为0时,不同探头所注意的区域之间没有重叠,这就防止了多个注意力探头同时注意同一区域所引起的学习的冗余性。
用于分类任务的是交叉熵损失函数(Cross Entropy,CE),其表达式如下所示:
LCE=-∑nq(n)logp(n) (6)
其中q(n)为真实的概率分布,p(n)预测概率分布,n为金具的种类;
训练这个网络的总体损失是两个损失函数的总和,即交叉熵损失函数和多样性学习损失函数的和;
L=LCE+10LOverlap (7)
在网络训练过程中,通过损失函数指导网络的训练,损失函数使用主要是在模型的训练阶段,每个批次的训练数据送入模型后,通过前向传播输出预测值,然后损失函数会计算出预测值和真实值之间的差异值,也就是损失值,得到损失值之后,模型通过反向传播去更新各个参数,来降低真实值与预测值之间的损失,使得模型生成的预测值往真实值方向靠拢,从而达到学习的目的,当损失函数为0时,此时说明网络的输出为理想的输出。
本发明公开了以下技术效果:
本发明提供一种基于改进注意力机制的金具分类检测方法,选取SwinTransformer模型作为主干网络,引入基于自注意力的卷积(ABC)的框架模块,它使用了浅层卷积和移动窗口多头自注意力机制。通过浅层图像卷积对图像进行初步提取和细化,并通过多头自注意力机制提取一些含有丰富金具特征信息的区域;将ABC得到的特征与SwinTransformer的linear embedding层的输出在通道维度上进行拼接,随后输入到SwinTransformer的剩余部分,这样模型可以更好地捕捉图像的全局和局部信息,通过学习图像的不同特征之间的关系达到更好的效果;引入了一个新的损失函数,使多头自注意力机制的每个探针都显示出不同的金具特征区域,并防止多头特征提取器的重叠特征提取。本发明将改进注意力机制的金具分类检测方法应用于金具种类的检测,通过结合SwinTransformer和基于自注意力的卷积(Attention-based Convolution)的框架模块,提高了金具分类检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种基于改进注意力机制的金具分类检测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于改进注意力机制的金具分类检测方法,本发明将改进注意力机制的金具分类检测方法应用于金具种类的检测,解决了金具分类精确度不足的问题,实现在提高金具分类检测精度的同时满足工业化需求的目的。
具体地,本发明公开了一种基于改进注意力机制的金具分类检测方法,选取改进的Swin Transformer架构作为主干网络;引入基于自注意力的卷积(Attention-basedConvolution,ABC)的框架模块,利用浅层卷积网络和移动窗口多头注意机制,提取了含有丰富的金具特征信息的区域以提高目标分类的准确率;其中改进的Swin Transformer实现了两个独立的区域,即基于自注意力的卷积和Swin Transformer。基于自注意力的卷积利用浅层卷积网络和移动窗口多头注意机制,提取了含有丰富的金具特定信息的区域。随后,基于自注意力的卷积获得的特征与经过Swin Transformer中linear embedding处理后的原始图像进行拼接,然后输入Swin Transformer来识别金具的类型,更准确的识别金具。基于自注意力的卷积还引入了多样性损失来指导自注意力机制的训练,减少斑块之间的重叠,从而发现多样性的重要斑块,进一步提高金具分类的准确率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的一种基于改进注意力机制的金具分类检测方法,包含以下步骤:
构建金具数据集,所述金具数据集中包含不同类别、不同尺度的金具图像。
将构建的金属数据集输入到改进注意力机制的金具分类检测模型中,得到金具的分类结果。
其中,所述构建金具据集具体包括:
深度学习模型在训练时需要大量的数据集图像样本作为支撑,由于无人机航拍图像采集到的大多为输电线路全局图像,需要按照模型输入图像尺寸对其进行裁剪。将航拍图像中输电线路及杆塔中包含金具的区域裁剪下来,进行清洗,选取其中图像清晰、含有金具的种类及数目较多的图像。将数据集按照COCO数据集格式进行标注,并在此基础上为每个目标金具标注出类别。
本申请中,考虑到解决输电线路中金具分类识别存在的准确率低的问题,需要将电力领域相关知识引入到深度学习模型中,同时需要对金具目标分类检测有更高的精度。本申请选取Swin Transformer网络作为基础架构,采用ABC+Swin Transformer模型作为主干网络来提高金具分类检测器的准确性。其中,选取Swin Transformer模型作为主干网络,引入一种名为ABC的新模块,改进注意力机制的金具分类检测模型包含基于自注意力的卷积(Attention-based Convolution,ABC)的框架模块、Swin Transformer模型和第二softmax函数。
具体地,本申请将构建的金属数据集输入到未训练的改进注意力机制的金具分类检测模型中,将模型的输出端结果输入到softmax函数得到每个金具的概率,选取最大的概率所对应的金具类型作为金具的分类结果来训练模型,得到训练好的金具分类检测模型,即改进注意力机制的金具分类检测模型。将需要检测的原始金具图片输入到训练好的金具分类检测模型中,选取模型输出结果中最大的概率所对应的金具类型作为金具的分类结果。
ABC框架模块包括两个区域,浅层卷积区域和移动窗口多头自注意力区域,通过浅层图像卷积区域对金具图像进行初步特征提取和细化,并通过移动窗口多头自注意力区域提取一些含有丰富金具特征信息的区域。
将原始金具图像输入到ABC框架模块得到的特征与将原始金具图像输入到SwinTransformer模型的linear embedding层后输出的特征在通道维度上进行拼接,随后将拼接后的结果输入到Swin Transformer模型的剩余部分中,将Swin Transformer的输出端结果输入到第二softmax函数得到每个金具的概率,选取最大的概率所对应的金具类型作为金具的分类结果。
本申请提出了ABC框架模块,以提高基于金具分类识别任务的性能,并将ABC框架与Swin Transformer相结合,以获得更好的预测性能,具体如下:
ABC框架模块的浅层卷积区域包含八个卷积层,使用具有非常小的3×3感受野的卷积核,卷积步长被固定为1像素;卷积层输入的空间填充是为了在卷积后保留相同维度大小,3×3卷积层的填充是1像素;在第2、5层卷积层后加入了空间池化,空间池化是由两个最大池化层进行的,最大池化层是在一个像素窗口2×2上进行的,步长为2;所有的隐藏层都配备非线性校正的功能,移动窗口多头自注意力区域则是包含了多头自注意力机制和移动窗口机制。
首先将原始金具图像输入到ABC框架模块中的卷积的区域,然后将ABC框架模块中的卷积的区域的输出结果再输入到移动窗口多头自注意力区域;具体地,将金具原始图像作为输入张量X,设输入张量X的维度为h×w×c,其中h表示高度,w表示宽度,c表示通道的数量,ABC框架模块的输入是一个固定224×224大小的RGB图像,卷积层的输出X1被用作移动窗口多头自注意力机制的输入,输入张量X经过卷积区域后变为X1,维度为56×56×16,再将该张量X1输入到自注意力机制的区域得到张量X2,在自注意力机制的区域中,设一个输入张量X1,其维度为h×w×c,其中h表示高度,w表示宽度,c并表示通道的数量,X1被卷积成三个独立的张量:Q维度为h×w×cQ,K维度为h×w×cK,V维度为h×w×cV,其中cQ,cK,cV和表示相应张量中的通道数量;自注意力的目的是计算这些值的加权和乘V,其中权重被计算为查询Q和相应的键K之间的相似性,因此,为了计算出相似度,Q和K通常具有相同的形状,即cQ=cV,单一自注意力机制的输出被计算为:
其中Q′,K′和是用于进行点乘的扁平化张量。
经过缩放操作,即把相似性矩阵Q′·K′T除以一个系数并应用第一softmax函数,在归一化的相似性矩阵和V之间进行点乘,生成维度为h×w×cK的自注意力力图Sn,n是多头注意力机制中的注意力探头头数,ni为第i个多头自注意力探头。
由于在公式(1)中把二维特征图展平为一维向量,因此原始图像张量的原始结构被破坏,为了在处理图像和多维特征等结构化数据时提高效率,采用了相对位置编码,相对位置编码由li,j表示,它表示Q′相对于K′的相对位置,其中i,j表示张量Q′中的坐标,注意力逻辑计算如下:
其中,qi是表示像素Q′的特征向量i:=(ix,iy)的第i行,kj是表示像素K′的特征向量j:=(jx,jy)的第j行,和/>分别是编码相对宽度jx-ix和相对高度jy-iy内的位置信息的可学习参数,有了相对位置编码,单个多头自注意力机制的输出可以重新表述为
其中和/>是相对位置的矩阵,多头注意机制中注意探头的头数可以根据实际情况调整,例如可以设定为4。
ABC框架模块的一个关键设计元素是它在连续的自注意力层之间的窗口分区的转移。移位后的窗口与前一层的窗口相衔接,提供了它们之间的联系信息,大大增强了建模能力,第一个模块采用了从左上角像素开始的常规窗口划分策略,56×56个特征图被均匀地划分为8×8个大小为7×7(M=7)的窗口,然后,将窗口从常规分区的窗口中向在上移出使之与前一层的窗口发生偏移,再将移动后的窗口重新排列为7×7个窗口再进行自注意力机制的计算。
采用移动窗口分区的方法,整个多头自注意力区域的计算方法如下:
其中表示ABC框架模块的输出特征。
其中,所述选取Swin Transformer网络作为基础架构,采用ABC框架模块+SwinTransformer模型作为主干网络,具体包括:
将ABC得到的特征与Swin Transformer的linear embedding层的输出在通道维度上进行拼接,随后输入到Swin Transformer的剩余部分,这样模型可以更好地捕捉图像的全局和局部信息,通过学习图像的不同特征之间的关系达到更好的效果。
将金具原始图像的张量X输入到ABC框架模块后,再次使用该金具原始图像的张量X作为Swin Transformer的输入,首先,输入的样本图像的张量X经过Swin Transformer的patch partition层,其维度变成了56×56×48,然后,再次被Swin Transformer的linearembedding层映射到指定的维度X3,X3维度为56×56×128,patch partition层的作用是通过conv2d裁剪输入原始图像为16个图像块。
在公式(4)中自注意力机制的输出中,也就是ABC框架模块的输出,输出张量X2的维度为56×56×16,而Swin Transformer的linear embedding层的输出X3的维度也为56×56×128,所以将这两个张量沿通道维度进行拼接,将ABC框架模块输出的特征张量与SwinTransformer的linear embedding层的输出的特征张量在通道维度的进行拼接,得到Y维度为56×56×144,然后用拼接后的张量Y进行替换X3,继续作为输入进行Swin Transformer中linear embedding层后面的网络层,最后在Swin Transformer的输出端通过第二softmax函数得到每个金具的概率,选取最大的概率所对应的金具类型作为最终的金具分类结果。
本申请加入了新的损失函数来防止移动窗口多头注意力机制关注的区域重叠所造成的冗余和提高网络的性能。由于ABC框架模块包含金具信息的区域数量是由ABC框架模块中的移动窗口多头自注意力中探头的数量决定的,然而,在实施过程中发现多头探头关注的区域有重叠的趋势,特别是在特征信息丰富的区域,这种关注区域的重叠可能会导致多余的学习源,使其他包含特定金具信息的区域无法被发现,为了缓解这种重叠问题,引入了多样性损失来学习不同的和不重叠的区域,通过最小化两个注意力探头中相应输出的乘积,和/>多样性损失被表述为:
移动窗口多头注意机制中的每个探头都会产生一个Sn(h′,w′),其中Sn(h′,w′)代表所对应的探头所关注的区域,(h′,w′)代表在自注意力中相应探头的位置,ni为第i个多头自注意力探头,Sn(h′,w′)可被视为一个维度为56×56×16的权重矩阵,在Sn(h′,w′)中,具有金具特征信息的区域越丰富,对应于该区域的权重矩阵就越大,当两个注意探头所代表的Sn(h′,w′)相乘的结果为0时,两个注意力探头所关注的区域没有重叠,当不同探头彼此两两相乘后得到的重叠损失为0时,不同探头所注意的区域之间没有重叠,这就防止了多个注意力探头同时注意同一区域所引起的学习的冗余性。
用于分类任务的是交叉熵损失函数(Cross Entropy,CE),其表达式如下所示:
LCE=-∑nq(n)logp(n) (6)
其中q(n)为真实的概率分布,p(n)预测概率分布,n为金具的种类;
训练这个网络的总体损失是两个损失函数的总和,即交叉熵损失函数和多样性学习损失函数的和;
L=LCE+10LOverlap (7)
在网络训练过程中,通过损失函数指导网络的训练,损失函数使用主要是在模型的训练阶段,每个批次的训练数据送入模型后,通过前向传播输出预测值,然后损失函数会计算出预测值和真实值之间的差异值,也就是损失值,得到损失值之后,模型通过反向传播去更新各个参数,来降低真实值与预测值之间的损失,使得模型生成的预测值往真实值方向靠拢,从而达到学习的目的,当损失函数为0时,此时说明网络的输出为理想的输出。
本申请提出了一种改进注意力机制的金具分类检测方法,即改进的SwinTransformer模型。ABC框架来提高金具的分类任务的性能,并将ABC与Swin Transformer相结合,以获得更好的预测性能。我们的框架结合了浅层卷积和多头注意力机制,使用了移动窗口的方法。浅层卷积使用几层卷积网络的少数卷积核来凝练信息,增强图像的特征,并将输入的信息处理成相同大小,以便与后面的注意力网络计算和Swin变换器的信息进行拼接。多头注意力机制使网络能够学习并找到包含丰富的金具特征信息的区域,并显示这些区域。最后,由ABC框架获得的富含金具信息特征的区域与Swin Transformer中linearembedding层初步处理的图像沿通道维度进行拼接,并将拼接后的图像张量进行到SwinTransformer的后续网络,共同计算出最终的金具种类预测。通过ABC得到的重要金具特征区域与原始输入图像进行缝合,然后通过Swin Transformer进行金具的分类任务,这很好地利用了Swin Transformer挖掘长距离依赖关系的能力和平行计算来学习重要金具特征之间的更多依赖关系。ABC框架的加入很好地弥补了Swin Transformer的图像局部敏感性和平移不变性。ABC框架将包含丰富的金具特征信息的重要区域拼接到原始图像中,这可以充分调动Swin Transformer的长依赖性,即通过学习不同特征之间的依赖关系来提取更强的特征。因此,整个网络不仅可以提取重要的金具特征信息区域,还可以利用SwinTransformer学习特征之间的相互关系的能力进一步提高预测精度。可见,本申请所述的方法在保证有效的提高了金具分类识别的识别率低的问题,满足了实际工业的需求。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种基于改进注意力机制的金具分类检测方法,其特征在于,所述方法包括:
构建金具数据集,所述金具数据集中包含不同类别、不同尺度的金具图像;
将构建的金属数据集输入到改进注意力机制的金具分类检测模型中,得到金具的分类结果;
其中,改进注意力机制的金具分类检测模型包含基于自注意力的卷积(Attention-based Convolution,ABC)的框架模块、Swin Transformer模型和第二softmax函数;
ABC框架模块包括两个区域,浅层卷积区域和移动窗口多头自注意力区域,通过浅层图像卷积区域对金具图像进行初步特征提取和细化,并通过移动窗口多头自注意力区域提取一些含有丰富金具特征信息的区域;
将原始金具图像输入到ABC框架模块得到的特征与将原始金具图像输入到SwinTransformer模型的linear embedding层后输出的特征在通道维度上进行拼接,随后将拼接后的结果输入到Swin Transformer模型的剩余部分中,将Swin Transformer的输出端结果输入到第二softmax函数得到每个金具的概率,选取最大的概率所对应的金具类型作为金具的分类结果。
2.根据权利要求1所述的一种基于改进注意力机制的金具分类检测方法,其特征在于,提出了ABC框架模块,以提高基于金具分类识别任务的性能,并将ABC框架与SwinTransformer相结合,以获得更好的预测性能;
其中ABC框架模块的浅层卷积区域包含八个卷积层,使用具有3×3感受野的卷积核,卷积步长被固定为1像素;卷积层输入的空间填充是为了在卷积后保留相同维度大小,3×3卷积层的填充是1像素;在第2、5层卷积层后加入了空间池化,空间池化是由两个最大池化层进行的,最大池化层是在一个像素窗口2×2上进行的,步长为2;所有的隐藏层都配备非线性校正的功能,移动窗口多头自注意力区域则是包含了多头自注意力机制和移动窗口机制;
首先将原始金具图像输入到ABC框架模块中的卷积的区域,然后将ABC框架模块中的卷积的区域的输出结果再输入到移动窗口多头自注意力区域;具体地,将金具原始图像作为输入张量X,设输入张量X的维度为h×w×c,其中h表示高度,w表示宽度,c表示通道的数量,ABC框架模块的输入是一个固定224×224大小的RGB图像,卷积层的输出X1被用作移动窗口多头自注意力机制的输入,输入张量X经过卷积区域后变为X1,维度为56×56×16,再将该张量X1输入到自注意力机制的区域得到张量X2,在自注意力机制的区域中,设一个输入张量X1,其维度为h×w×c,其中h表示高度,w表示宽度,c并表示通道的数量,X1被卷积成三个独立的张量:Q维度为h×w×cQ,K维度为h×w×cK,V维度为h×w×cV,其中cQ,cK,cV和表示相应张量中的通道数量;自注意力的目的是计算这些值的加权和乘V,其中权重被计算为查询Q和相应的键K之间的相似性,因此,为了计算出相似度,Q和K通常具有相同的形状,即cQ=cV,单一自注意力机制的输出被计算为:
其中Q′,K′和是用于进行点乘的扁平化张量;
经过缩放操作,即把相似性矩阵Q′·K′T除以一个系数并应用第一softmax函数,在归一化的相似性矩阵和V之间进行点乘,生成维度为h×w×cK的自注意力力图Sn,n是多头注意力机制中的注意力探头头数,ni为第i个多头自注意力探头;
由于在公式(1)中把二维特征图展平为一维向量,因此原始图像张量的原始结构被破坏,为了在处理图像和多维特征等结构化数据时提高效率,采用了相对位置编码,相对位置编码由li,j表示,它表示Q′相对于K′的相对位置,其中i,j表示张量Q′中的坐标,注意力逻辑计算如下:
其中,qi是表示像素Q′的特征向量i:=(ix,iy)的第i行,kj是表示像素K′的特征向量j:=(jx,jy)的第j行,和/>分别是编码相对宽度jx-ix和相对高度jy-iy内的位置信息的可学习参数,有了相对位置编码,单个多头自注意力机制的输出可以重新表述为
其中和/>是相对位置的矩阵,多头注意机制中注意探头的头数可以根据实际情况调整,例如可以设定为4;
ABC框架模块的一个关键设计元素是它在连续的自注意力层之间的窗口分区的转移,移位后的窗口与前一层的窗口相衔接,提供了它们之间的联系信息,大大增强了建模能力,第一个模块采用了从左上角像素开始的常规窗口划分策略,56×56个特征图被均匀地划分为8×8个大小为7×7(M=7)的窗口,然后,将窗口从常规分区的窗口中向在上移出使之与前一层的窗口发生偏移,再将移动后的窗口重新排列为7×7个窗口再进行自注意力机制的计算;
采用移动窗口分区的方法,整个多头自注意力区域的计算方法如下:
其中表示ABC框架模块的输出特征。
3.根据权利要求1所述的一种基于改进注意力机制的金具分类检测方法,其特征在于,所述选取Swin Transformer网络作为基础架构,采用ABC框架模块+Swin Transformer模型作为主干网络,具体包括:
将金具原始图像的张量X输入到ABC框架模块后,再次使用该金具原始图像的张量X作为Swin Transformer的输入,首先,输入的样本图像的张量X经过Swin Transformer的patch partition层,其维度变成了56×56×48,然后,再次被Swin Transformer的linearembedding层映射到指定的维度X3,X3维度为56×56×128,patch partition层的作用是通过conv2d裁剪输入原始图像为16个图像块;
在公式(4)中自注意力机制的输出中,也就是ABC框架模块的输出,输出张量X2的维度为56×56×16,而Swin Transformer的linear embedding层的输出X3的维度也为56×56×128,所以将这两个张量沿通道维度进行拼接,将ABC框架模块输出的特征张量与SwinTransformer的linear embedding层的输出的特征张量在通道维度的进行拼接,得到Y维度为56×56×144,然后用拼接后的张量Y进行替换X3,继续作为输入进行Swin Transformer中linear embedding层后面的网络层,最后在Swin Transformer的输出端通过第二softmax函数得到每个金具的概率,选取最大的概率所对应的金具类型作为最终的金具分类结果。
4.根据权利要求1所述的一种基于改进注意力机制的金具分类检测方法,其特征在于,加入了新的损失函数来防止移动窗口多头注意力机制关注的区域重叠所造成的冗余和提高网络的性能;
为了缓解重叠问题,引入了多样性损失来学习不同的和不重叠的区域,通过最小化两个注意力探头中相应输出的乘积,和/>多样性损失被表述为:
移动窗口多头注意机制中的每个探头都会产生一个Sn(h′,w′),其中Sn(h′,w′)代表所对应的探头所关注的区域,(h′,w′)代表在自注意力中相应探头的位置,ni为第i个多头自注意力探头,Sn(h′,w′)可被视为一个维度为56×56×16的权重矩阵,在Sn(h′,w′)中,具有金具特征信息的区域越丰富,对应于该区域的权重矩阵就越大,当两个注意探头所代表的Sn(h′,w′)相乘的结果为0时,两个注意力探头所关注的区域没有重叠,当不同探头彼此两两相乘后得到的重叠损失为0时,不同探头所注意的区域之间没有重叠,这就防止了多个注意力探头同时注意同一区域所引起的学习的冗余性;
用于分类任务的是交叉熵损失函数(Cross Entropy,CE),其表达式如下所示:
LCE=-∑nq(n)logp(n) (6)
其中q(n)为真实的概率分布,p(n)预测概率分布,n为金具的种类;
训练这个网络的总体损失是两个损失函数的总和,即交叉熵损失函数和多样性学习损失函数的和;
L=LCE+10LOverlap (7)
在网络训练过程中,通过损失函数指导网络的训练,损失函数使用主要是在模型的训练阶段,每个批次的训练数据送入模型后,通过前向传播输出预测值,然后损失函数会计算出预测值和真实值之间的差异值,也就是损失值,得到损失值之后,模型通过反向传播去更新各个参数,来降低真实值与预测值之间的损失,使得模型生成的预测值往真实值方向靠拢,从而达到学习的目的,当损失函数为0时,此时说明网络的输出为理想的输出。
CN202310204536.4A 2023-03-06 2023-03-06 一种基于改进注意力机制的金具分类检测方法 Pending CN116452848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310204536.4A CN116452848A (zh) 2023-03-06 2023-03-06 一种基于改进注意力机制的金具分类检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310204536.4A CN116452848A (zh) 2023-03-06 2023-03-06 一种基于改进注意力机制的金具分类检测方法

Publications (1)

Publication Number Publication Date
CN116452848A true CN116452848A (zh) 2023-07-18

Family

ID=87124562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310204536.4A Pending CN116452848A (zh) 2023-03-06 2023-03-06 一种基于改进注意力机制的金具分类检测方法

Country Status (1)

Country Link
CN (1) CN116452848A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117527444A (zh) * 2023-12-29 2024-02-06 中智关爱通(南京)信息科技有限公司 用于训练检测登录数据风险值的模型的方法、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117527444A (zh) * 2023-12-29 2024-02-06 中智关爱通(南京)信息科技有限公司 用于训练检测登录数据风险值的模型的方法、设备和介质
CN117527444B (zh) * 2023-12-29 2024-03-26 中智关爱通(南京)信息科技有限公司 用于训练检测登录数据风险值的模型的方法、设备和介质

Similar Documents

Publication Publication Date Title
CN114283117A (zh) 一种基于改进YOLOv3卷积神经网络的绝缘子缺陷检测方法
CN112750125B (zh) 一种基于端到端关键点检测的玻璃绝缘子片定位方法
CN111027539A (zh) 一种基于空间位置信息的车牌字符分割方法
CN116883801A (zh) 基于注意力机制与多尺度特征融合的YOLOv8目标检测方法
CN114140480A (zh) 基于边缘辅助学习的热红外电气设备图像语义分割方法
CN113344852A (zh) 一种电力场景通用物品的目标检测方法、装置及存储介质
CN116452848A (zh) 一种基于改进注意力机制的金具分类检测方法
CN114862768A (zh) 基于改进YOLOv5-LITE轻量级的配电组件缺陷识别方法
CN114612741A (zh) 缺陷识别模型的训练方法、装置、电子设备及存储介质
CN114627044A (zh) 一种基于深度学习的太阳能光伏组件热斑检测方法
CN116485802B (zh) 一种绝缘子闪络缺陷检测方法、装置、设备及存储介质
CN115984672B (zh) 基于深度学习的高清图像内小目标的检测方法和装置
CN117197530A (zh) 一种基于改进YOLOv8模型及余弦退火学习率衰减法的绝缘子缺陷识别方法
CN116385950A (zh) 一种小样本条件下电力线路隐患目标检测方法
CN116052149A (zh) 一种基于CS-ABCNet的电力塔牌检测识别方法
CN113689399B (zh) 一种用于电网识别遥感图像处理方法及系统
CN115393747A (zh) 一种基于深度学习的光伏故障检测方法
CN117651976A (zh) 缺陷检测方法和装置
CN114648736A (zh) 基于目标检测的鲁棒工程车辆识别方法及系统
CN114418968A (zh) 一种基于深度学习的输电线路小目标缺陷检测方法
CN113901868A (zh) 一种变电现场安全监控方法及系统
Chen et al. Accurate object recognition for unmanned aerial vehicle electric power inspection using an improved yolov2 algorithm
CN117557775B (zh) 基于红外和可见光融合的变电站电力设备检测方法及系统
CN115526840A (zh) 一种输电线路典型导地线线夹红外图像分割方法及系统
CN117409237A (zh) 一种配电网导线绝缘套损坏的识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination