CN114863236A - 基于双重注意力机制的图像目标检测方法 - Google Patents

基于双重注意力机制的图像目标检测方法 Download PDF

Info

Publication number
CN114863236A
CN114863236A CN202210614509.XA CN202210614509A CN114863236A CN 114863236 A CN114863236 A CN 114863236A CN 202210614509 A CN202210614509 A CN 202210614509A CN 114863236 A CN114863236 A CN 114863236A
Authority
CN
China
Prior art keywords
attention
information
network
channel
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210614509.XA
Other languages
English (en)
Inventor
高扬华
陆海良
王毅君
郁钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Zhejiang Industrial Co Ltd
Original Assignee
China Tobacco Zhejiang Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Zhejiang Industrial Co Ltd filed Critical China Tobacco Zhejiang Industrial Co Ltd
Priority to CN202210614509.XA priority Critical patent/CN114863236A/zh
Publication of CN114863236A publication Critical patent/CN114863236A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双重注意力机制的图像目标检测方法,包括:对多张训练图片进行CutMix操作,得到预处理数据;基于卷积神经网络,提取预处理数据中的图像特征,构成自下而上的金字塔结构,得到多尺度特征图;基于双重注意力机制,将多尺度特征图嵌入到目标检测模型的检测模块网络中,得到双重注意力信息特征图;根据双重注意力信息特征图生成输入样本的候选区域。本发明的基于双重注意力机制的图像目标检测方法,通过多向特征融合机制,使包含丰富上下文信息的多向融合特征送入检测网络;将注意力机制部署在通道和空间维度上,使不同分支根据训练目标自主从特征图中筛选有效信息,提高网络关注有用信息的能力,提高泛化能力和检测性能。

Description

基于双重注意力机制的图像目标检测方法
技术领域
本发明涉及深度学习的图像处理技术领域,尤其涉及一种基于双重注意力机制的图像目标检测方法。
背景技术
传统的图像目标检测方法中,研究人员通常是通过手工的方式提取特征,然后利用机器学习算法对手工特征进行分类以达到目标检测的目的。大多数传统的检测系统主要基于目标的轮廓、颜色、纹理以及图像关键点特征(SIFT)等信息对图像物体进行识别。虽然,传统方法目前在目标识别任务上已经取得一定的研究成果,但是,传统的图像目标检测方法仍然存在两个主要问题:一是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;二是传统方法获取的手工特征不够丰富,对于背景复杂的目标检测并没有很好的鲁棒性。然而,目前大多方法并没有考虑到图像复杂多样的背景环境以及目标检测的实时性要求等问题。因此,如何选取检测模型、优化检测效果、同时保证目标检测的实时性是目标检测算法研究的关键技术难点。
因此,亟需一种基于双重注意力机制的图像目标检测方法。
发明内容
本发明的目的是提供一种基于双重注意力机制的图像目标检测方法,以解决上述现有技术中的问题,能够提高网络在回归、分类不同任务下对有用信息的关注能力,从而提高模型的泛化能力和检测性能,准确识别目标。
本发明提供了一种基于双重注意力机制的图像目标检测方法,其中,包括:
对多张训练图片进行CutMix操作,得到预处理数据;
基于卷积神经网络,提取所述预处理数据中的图像特征,构成一个自下而上的金字塔结构,得到多尺度特征图;
基于双重注意力机制,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图;
根据所述双重注意力信息特征图生成输入样本的候选区域。
如上所述的基于双重注意力机制的图像目标检测方法,其中,优选的是,所述对多张训练图片进行CutMix操作,得到预处理数据,具体包括:
从训练集中一次读取四张训练图片和四张训练图片对应的标注信息;
对所读取的四张训练图片进行随机裁剪,保留裁剪区域内的标签信息,并对边缘处的目标位置信息进行相应的裁剪操作;
将得到的四个图片区域按读入的顺序分别在左上、左下、右上和右下四个位置重新组合成新的图片,同时调整标注信息中的目标位置,使其与新图片中的坐标对齐;
将重组图片和对应的标注信息组合成新的数据集。
如上所述的基于双重注意力机制的图像目标检测方法,其中,优选的是,所述基于卷积神经网络,提取所述预处理数据中的图像特征,构成一个自下而上的金字塔结构,得到多尺度特征图,具体包括:
通过特征提取网络提取所述预处理数据中的图像特征,输出三层由不同网络层输出的多尺度特征;
通过由卷积核尺寸为1x1的卷积神经网络对三层的多尺度特征进行通道压缩,作为特征金字塔网络的输入;
利用特征金字塔网络通过一条自顶向下的路径和同级特征相加的方式对来自横向连接的特征进行融合,得到最终的第一融合特征P3、第二融合特征P4和第三融合特征P5;
对所述第三融合特征进行两次上采样操作,得到更抽象的第一高级特征P6和第二高级特征P7;
将第一融合特征P3、第二融合特征P4和第三融合特征P5、第一高级特征P6和第二高级特征P7作为所述多尺度特征图,直接作为检测模块网络的最终输入。
如上所述的基于双重注意力机制的图像目标检测方法,其中,优选的是,所述基于双重注意力机制,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图,具体包括:
利用双重注意力模块,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图,其中,所述双重注意力模块包括三条支路网络,分别为空间注意力支路、通道注意力支路和原始特征传输支路。
如上所述的基于双重注意力机制的图像目标检测方法,其中,优选的是,所述利用双重注意力模块,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图,具体包括:
对所述多尺度特征图分别在空间和通道两个维度上进行注意力机制网络的学习,其中,空间维度对应的空间注意力支路和通道维度对应的通道注意力支路包括平均池化和最大池化的组合结构,在所述空间注意力支路和所述通道注意力支路对应的网络结构中,Pl表示来自所述特征金字塔网络的第l层的输出特征,作为双重注意力模块的输入,输入特征的维度表示为H×W×C,H表示多尺度特征图的长,W表示多尺度特征图的宽,C表示多尺度特征图的通道数;
对于空间注意力支路,在空间维度上分别对输入特征Pl进行最大池化和平均池化计算,分别得到H×W×1的权重矩阵,然后对通过最大池化和平均池化两种池化操作得到的矩阵进行拼接,得到包含多重特征信息的权重矩阵,维度为H×W×2,再使用卷积操作对拼接的结果进行通道的压缩,最终得到维度为H×W×1的空间注意力权重矩阵,该过程可以表示为式(1),
Ws=Conv1×1(concat(Smaxpool(Pl),Savgpool(Pl))) (1)
其中,Ws表示包含空间注意力信息的权重矩阵,Conv1×1表示卷积核尺寸为1×1的卷积操作,Smaxpool为空间维度上的最大池化,Savgpool为空间维度上的平均池化;
对于通道注意力支路,在通道维度上分别对输入特征Pl进行最大池化和平均池化计算,通过不同的池化操作将每个通道上的维度为H×W×C的矩阵压缩为一个维度为1×1×C的矩阵,然后对通过最大池化和平均池化两种池化操作得到的的两个权重矩阵进行拼接,得到维度为1×1×2C的矩阵,再使用卷积操作进行降维,最终得到维度为1×1×C的通道注意力权重矩阵,该过程如式(2)所示,
Wc=Conv1×1(concat(Cmaxpool(Pl),Cavgpool(Pl))) (2)
其中,Wc表示包含通道注意力信息的权重矩阵,Conv1×1表示卷积核尺寸为1×1的卷积操作,Cmaxpool为通道维度上的最大池化,Cavgpool为通道维度上的平均池化;
将包含空间注意力信息的权重矩阵和包含通道注意力信息的权重矩阵相乘,得到最终的双重注意力权重矩阵WMatrix,如式(3),
Figure BDA0003667263610000041
将得到的双重注意力权重矩阵经过Sigmoid函数进行激活,Sigmoid定义如式(4),
Figure BDA0003667263610000042
将激活后的双重注意力权重矩阵与原始输入特征进行加权求和操作,得到带有丰富的注意力信息的特征图,如式(5),
Figure BDA0003667263610000043
如上所述的基于双重注意力机制的图像目标检测方法,其中,优选的是,所述根据所述双重注意力信息特征图生成输入样本的候选区域,具体包括:
利用RPN网络将输入样本输出为多个候选区域;
利用目标检测模型的损失函数对多个候选区域进行分类概率和边框回归联合训练,确定输入样本最终的位置和类别信息。
如上所述的基于双重注意力机制的图像目标检测方法,其中,优选的是,所述目标检测模型的损失函数包括分类损失和回归损失,定义如下:
Figure BDA0003667263610000051
其中,px,y表示像素点(x,y)的分类概率,tx,y表示像素点(x,y)的回归框预测值,具体为像素点(x,y)到回归框四个边界的距离值,t* x,y表示像素点(x,y)到标定图像框四个边界的距离值,Lcls表示分类损失,Lreg表示回归损失,Npos表示正样本的个数,c* x,y表示分类类别,c* x,y=1为图像目标,c* x,y=0为背景,λ表示回归损失Lreg的权重因子,为可调参数,用于平衡两种不同的损失函数,默认为1,τ{c* x,y>0}表示指示函数,当c* x,y>0时该函数值为1,当c* x,y≤0时该函数值为0。
如上所述的基于双重注意力机制的图像目标检测方法,其中,优选的是,所述利用RPN网络将输入样本输出为多个候选区域,具体包括:
利用RPN网络将输入样本映射成一个概率值和四个坐标值,其中,概率值用于表示anchors层中有物体的概率,四个坐标值用于回归定义物体的位置;
根据概率值和四个坐标值,得到固定尺寸的特征图;
将固定尺寸的特征图送入全连接层,以判定候选区域的目标类别。
如上所述的基于双重注意力机制的图像目标检测方法,其中,优选的是,所述利用目标检测模型的损失函数对多个候选区域进行分类概率和边框回归联合训练,确定输入样本最终的位置和类别信息,具体包括:
对于所述候选区域,通过全连接层和归一化函数计算每个正样本所属的类别并输出所属类别的概率向量;
通过回归网络,利用边界框回归得到每个正样本的位置偏移量;
使用非极大值抑制方法去除冗余的预测框,保留结果最好的一个,得到最终的检测结果。
本发明提供一种基于双重注意力机制的图像目标检测方法,在特征金字塔网络的基础之上,设计了一种新的多向特征融合机制,使得原来送入检测网络的单层特征变成了包含丰富上下文信息的多向融合特征,从而获取更好的图像目标特征表示;通过基于双重注意力机制的检测模块网络,将注意力机制部署在通道和空间不同的特征维度上,构成双重注意力机制,再分别应用到检测模块的不同分支上,使得不同分支能够根据各网络的训练目标自主地从特征图中筛选有效的信息,提高了网络在回归、分类不同任务下对有用信息的关注能力,从而提高模型的泛化能力和检测性能,准确识别目标;本发明通过数据增强方式解决图像中所处的环境、背景复杂多样,而参与训练的目标样本不充足的问题,从而导致网络无法充分学习到复杂多变的场景特征、检测精度低等等这些缺点。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的基于双重注意力机制的图像目标检测方法的实施例的流程图;
图2为本发明提供的基于双重注意力机制的图像目标检测方法的实施例的算法逻辑图;
图3为特征金字塔网络结构;
图4为双重注意力模块的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现,不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整,并且向本领域技术人员充分表达本公开的范围。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分、数字表达式和数值应被解释为仅仅是示例性的,而不是作为限制。
本公开中使用的“第一”、“第二”:以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的部分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素,并不排除也涵盖其他要素的可能。“上”、“下”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
在本公开中,当描述到特定部件位于第一部件和第二部件之间时,在该特定部件与第一部件或第二部件之间可以存在居间部件,也可以不存在居间部件。当描述到特定部件连接其它部件时,该特定部件可以与所述其它部件直接连接而不具有居间部件,也可以不与所述其它部件直接连接而具有居间部件。
本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
如图1和图2所示,本实施例提供的基于双重注意力机制的图像目标检测方法在实际执行过程中,具体包括如下步骤:
步骤S1、对多张训练图片进行CutMix操作,得到预处理数据。
本发明通过对四张训练图片进行随机裁剪再拼接的方式,即对多张图片进行CutMix操作,使得模型每次从一张图片中学习的过程变成了同时从四张图片中学习的过程,这就相当于模型一次学习了四种不同的背景环境,从而使得模型学习到更加丰富的图像特征。在本发明的基于双重注意力机制的图像目标检测方法的一种实施方式中,所述步骤S1具体可以包括:
步骤S11、从训练集中一次读取四张训练图片和四张训练图片对应的标注信息。
其中,所述标注信息包括类别和位置信息。
步骤S12、对所读取的四张训练图片进行随机裁剪,保留裁剪区域内的标签信息,并对边缘处的目标位置信息进行相应的裁剪操作。
步骤S13、将得到的四个图片区域按读入的顺序分别在左上、左下、右上和右下四个位置重新组合成新的图片,同时调整标注信息中的目标位置,使其与新图片中的坐标对齐。
步骤S14、将重组图片和对应的标注信息组合成新的数据集。
步骤S2、基于卷积神经网络,提取所述预处理数据中的图像特征,构成一个自下而上的金字塔结构,得到多尺度特征图。
在步骤S2中,对经过步骤S1预处理之后的数据,使用基于卷积神经网络的特征提取模块对原始的图片提取特征,构成一个自下而上的金字塔结构,输出具有多尺度的特征,并构建一个横向连接模块,负责特征尺度的统一和传递。如图3所示,在本发明的基于双重注意力机制的图像目标检测方法的一种实施方式中,所述步骤S2具体可以包括:
步骤S21、通过特征提取网络提取所述预处理数据中的图像特征,输出三层由不同网络层(C3、C4和C5)输出的多尺度特征。
步骤S22、通过由卷积核尺寸为1x1的卷积神经网络对三层的多尺度特征进行通道压缩,作为特征金字塔网络的输入。
其中,本发明在一种实施方式中,三层的多尺度特征统一被压缩到256维。
步骤S23、利用特征金字塔网络通过一条自顶向下的路径和同级特征相加的方式对来自横向连接的特征进行融合,得到最终的第一融合特征P3、第二融合特征P4和第三融合特征P5。
步骤S24、对所述第三融合特征进行两次上采样操作,得到更抽象的第一高级特征P6和第二高级特征P7。
其中,两次上采样操作通过两次卷积实现。
步骤S25、将第一融合特征P3、第二融合特征P4和第三融合特征P5、第一高级特征P6和第二高级特征P7作为所述多尺度特征图,直接作为检测模块网络的最终输入。
步骤S3、基于双重注意力机制,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图。
在步骤S3中,对于经过步骤S2得到的特征,设计了一种双重注意力模块(DAM),并将该模块嵌入到目标检测模型的检测模块网络中。具体地,在本发明中,利用双重注意力模块,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图,其中,所述双重注意力模块包括三条支路网络,分别为空间注意力支路、通道注意力支路和原始特征传输支路。在本发明的基于双重注意力机制的图像目标检测方法的一种实施方式中,所述步骤S3具体可以包括:
步骤S31、对所述多尺度特征图分别在空间和通道两个维度上进行注意力机制网络的学习,其中,空间维度对应的空间注意力支路和通道维度对应的通道注意力支路包括平均池化和最大池化的组合结构,在所述空间注意力支路和所述通道注意力支路对应的网络结构(如图4所示)中,Pl表示来自所述特征金字塔网络的第l层的输出特征,作为双重注意力模块的输入,输入特征的维度表示为H×W×C,H表示多尺度特征图的长,W表示多尺度特征图的宽,C表示多尺度特征图的通道数。
对于这两种注意力机制网络,本发明均选用了平均池化和最大池化的组合结构。
步骤S32、对于空间注意力支路,在空间维度上分别对输入特征Pl进行最大池化和平均池化计算,分别得到H×W×1的权重矩阵,然后对通过最大池化和平均池化两种池化操作得到的矩阵进行拼接,得到包含多重特征信息的权重矩阵,维度为H×W×2,再使用卷积操作对拼接的结果进行通道的压缩,最终得到维度为H×W×1的空间注意力权重矩阵,该过程可以表示为式(1),
Ws=Conv1×1(concat(Smaxpool(Pl),Savgpool(Pl))) (1)
其中,Ws表示包含空间注意力信息的权重矩阵,Conv1×1表示卷积核尺寸为1×1的卷积操作,Smaxpool为空间维度上的最大池化,Savgpool为空间维度上的平均池化。
步骤S33、对于通道注意力支路,在通道维度上分别对输入特征Pl进行最大池化和平均池化计算,通过不同的池化操作将每个通道上的维度为H×W×C的矩阵压缩为一个维度为1×1×C的矩阵,然后对通过最大池化和平均池化两种池化操作得到的的两个权重矩阵进行拼接,得到维度为1×1×2C的矩阵,再使用卷积操作进行降维,最终得到维度为1×1×C的通道注意力权重矩阵,该过程如式(2)所示,
Wc=Conv1×1(concat(Cmaxpool(Pl),Cavgpool(Pl))) (2)
其中,Wc表示包含通道注意力信息的权重矩阵,Conv1×1表示卷积核尺寸为1×1的卷积操作,Cmaxpool为通道维度上的最大池化,Cavgpool为通道维度上的平均池化。
步骤S34、将包含空间注意力信息的权重矩阵和包含通道注意力信息的权重矩阵相乘,得到最终的双重注意力权重矩阵WMatrix,如式(3),
Figure BDA0003667263610000101
步骤S35、将得到的双重注意力权重矩阵经过Sigmoid函数进行激活,Sigmoid定义如式(4),
Figure BDA0003667263610000102
通过激活操作可以提升网络的非线性表达能力。
步骤S36、将激活后的双重注意力权重矩阵与原始输入特征进行加权求和操作,得到带有丰富的注意力信息的特征图,如式(5),
Figure BDA0003667263610000103
通过步骤S36,可以使得网络能够在通道和空间双重维度下自主地完成对感兴趣区域的学习。
步骤S4、根据所述双重注意力信息特征图生成输入样本的候选区域。
在本发明的基于双重注意力机制的图像目标检测方法的一种实施方式中,所述步骤S4具体可以包括:
步骤S41、利用RPN网络将输入样本输出为多个候选区域。
在本发明的基于双重注意力机制的图像目标检测方法的一种实施方式中,所述步骤S41具体可以包括:
步骤S411、利用RPN网络将输入样本映射成一个概率值和四个坐标值,其中,概率值用于表示anchors层中有物体的概率,四个坐标值用于回归定义物体的位置。
其中,anchors层通过softmax判断anchor是否包含目标,这是一个二分类问题。
步骤S412、根据概率值和四个坐标值,得到固定尺寸的特征图。
步骤S413、将固定尺寸的特征图送入全连接层,以判定候选区域的目标类别。
在综合概率值和四个坐标值这些信息后,得到固定尺寸的特征图,然后送入后续全连接层判定目标类别。
步骤S42、利用目标检测模型的损失函数对多个候选区域进行分类概率和边框回归联合训练,确定输入样本最终的位置和类别信息。
其中,所述目标检测模型的损失函数包括分类损失(Softmax Loss)和回归损失(Smooth L1 Loss),定义如下:
Figure BDA0003667263610000111
其中,px,y表示像素点(x,y)的分类概率,tx,y表示像素点(x,y)的回归框预测值,具体为像素点(x,y)到回归框四个边界的距离值,t* x,y表示像素点(x,y)到标定图像框四个边界的距离值,Lcls表示分类损失,Lreg表示回归损失,Npos表示正样本的个数,c* x,y表示分类类别,c* x,y=1为图像目标,c* x,y=0为背景,λ表示回归损失Lreg的权重因子,为可调参数,用于平衡两种不同的损失函数,默认为1,τ{c* x,y>0}表示指示函数,当c* x,y>0时该函数值为1,当c* x,y≤0时该函数值为0。
在本发明的基于双重注意力机制的图像目标检测方法的一种实施方式中,所述步骤S42具体可以包括:
步骤S421、对于所述候选区域,通过全连接层和归一化函数计算每个正样本所属的类别并输出所属类别的概率向量。
步骤S422、通过回归网络,利用边界框回归得到每个正样本的位置偏移量。
通过步骤S422,可以得到更加精确的目标检测框。
步骤S423、使用非极大值抑制方法去除冗余的预测框,保留结果最好的一个,得到最终的检测结果。
本发明实施例提供的基于双重注意力机制的图像目标检测方法,在特征金字塔网络的基础之上,设计了一种新的多向特征融合机制,使得原来送入检测网络的单层特征变成了包含丰富上下文信息的多向融合特征,从而获取更好的图像目标特征表示;通过基于双重注意力机制的检测模块网络,将注意力机制部署在通道和空间不同的特征维度上,构成双重注意力机制,再分别应用到检测模块的不同分支上,使得不同分支能够根据各网络的训练目标自主地从特征图中筛选有效的信息,提高了网络在回归、分类不同任务下对有用信息的关注能力,从而提高模型的泛化能力和检测性能,准确识别目标;本发明通过数据增强方式解决图像中所处的环境、背景复杂多样,而参与训练的目标样本不充足的问题,从而导致网络无法充分学习到复杂多变的场景特征、检测精度低等等这些缺点。
至此,已经详细描述了本公开的各实施例。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

Claims (9)

1.一种基于双重注意力机制的图像目标检测方法,其特征在于,包括:
对多张训练图片进行CutMix操作,得到预处理数据;
基于卷积神经网络,提取所述预处理数据中的图像特征,构成一个自下而上的金字塔结构,得到多尺度特征图;
基于双重注意力机制,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图;
根据所述双重注意力信息特征图生成输入样本的候选区域。
2.根据权利要求1所述的基于双重注意力机制的图像目标检测方法,其特征在于,所述对多张训练图片进行CutMix操作,得到预处理数据,具体包括:
从训练集中一次读取四张训练图片和四张训练图片对应的标注信息;
对所读取的四张训练图片进行随机裁剪,保留裁剪区域内的标签信息,并对边缘处的目标位置信息进行相应的裁剪操作;
将得到的四个图片区域按读入的顺序分别在左上、左下、右上和右下四个位置重新组合成新的图片,同时调整标注信息中的目标位置,使其与新图片中的坐标对齐;
将重组图片和对应的标注信息组合成新的数据集。
3.根据权利要求1所述的基于双重注意力机制的图像目标检测方法,其特征在于,所述基于卷积神经网络,提取所述预处理数据中的图像特征,构成一个自下而上的金字塔结构,得到多尺度特征图,具体包括:
通过特征提取网络提取所述预处理数据中的图像特征,输出三层由不同网络层输出的多尺度特征;
通过由卷积核尺寸为1x1的卷积神经网络对三层的多尺度特征进行通道压缩,作为特征金字塔网络的输入;
利用特征金字塔网络通过一条自顶向下的路径和同级特征相加的方式对来自横向连接的特征进行融合,得到最终的第一融合特征P3、第二融合特征P4和第三融合特征P5;
对所述第三融合特征进行两次上采样操作,得到更抽象的第一高级特征P6和第二高级特征P7;
将第一融合特征P3、第二融合特征P4和第三融合特征P5、第一高级特征P6和第二高级特征P7作为所述多尺度特征图,直接作为检测模块网络的最终输入。
4.根据权利要求3所述的基于双重注意力机制的图像目标检测方法,其特征在于,所述基于双重注意力机制,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图,具体包括:
利用双重注意力模块,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图,其中,所述双重注意力模块包括三条支路网络,分别为空间注意力支路、通道注意力支路和原始特征传输支路。
5.根据权利要求4所述的基于双重注意力机制的图像目标检测方法,其特征在于,所述利用双重注意力模块,将所述多尺度特征图嵌入到目标检测模型的检测模块网络中,得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图,具体包括:
对所述多尺度特征图分别在空间和通道两个维度上进行注意力机制网络的学习,其中,空间维度对应的空间注意力支路和通道维度对应的通道注意力支路包括平均池化和最大池化的组合结构,在所述空间注意力支路和所述通道注意力支路对应的网络结构中,Pl表示来自所述特征金字塔网络的第l层的输出特征,作为双重注意力模块的输入,输入特征的维度表示为H×W×C,H表示多尺度特征图的长,W表示多尺度特征图的宽,C表示多尺度特征图的通道数;
对于空间注意力支路,在空间维度上分别对输入特征Pl进行最大池化和平均池化计算,分别得到H×W×1的权重矩阵,然后对通过最大池化和平均池化两种池化操作得到的矩阵进行拼接,得到包含多重特征信息的权重矩阵,维度为H×W×2,再使用卷积操作对拼接的结果进行通道的压缩,最终得到维度为H×W×1的空间注意力权重矩阵,该过程可以表示为式(1),
Ws=Conv1×1(concat(Smaxpool(Pl),Savgpool(Pl))) (1)
其中,Ws表示包含空间注意力信息的权重矩阵,Conv1×1表示卷积核尺寸为1×1的卷积操作,Smaxpool为空间维度上的最大池化,Savgpool为空间维度上的平均池化;
对于通道注意力支路,在通道维度上分别对输入特征Pl进行最大池化和平均池化计算,通过不同的池化操作将每个通道上的维度为H×W×C的矩阵压缩为一个维度为1×1×C的矩阵,然后对通过最大池化和平均池化两种池化操作得到的的两个权重矩阵进行拼接,得到维度为1×1×2C的矩阵,再使用卷积操作进行降维,最终得到维度为1×1×C的通道注意力权重矩阵,该过程如式(2)所示,
Wc=Conv1×1(concat(Cmaxpool(Pl),Cavgpool(Pl))) (2)
其中,Wc表示包含通道注意力信息的权重矩阵,Conv1×1表示卷积核尺寸为1×1的卷积操作,Cmaxpool为通道维度上的最大池化,Cavgpool为通道维度上的平均池化;
将包含空间注意力信息的权重矩阵和包含通道注意力信息的权重矩阵相乘,得到最终的双重注意力权重矩阵WMatrix,如式(3),
Figure FDA0003667263600000031
将得到的双重注意力权重矩阵经过Sigmoid函数进行激活,Sigmoid定义如式(4),
Figure FDA0003667263600000032
将激活后的双重注意力权重矩阵与原始输入特征进行加权求和操作,得到带有丰富的注意力信息的特征图,如式(5),
Figure FDA0003667263600000033
6.根据权利要求1所述的基于双重注意力机制的图像目标检测方法,其特征在于,所述根据所述双重注意力信息特征图生成输入样本的候选区域,具体包括:
利用RPN网络将输入样本输出为多个候选区域;
利用目标检测模型的损失函数对多个候选区域进行分类概率和边框回归联合训练,确定输入样本最终的位置和类别信息。
7.根据权利要求6所述的基于双重注意力机制的图像目标检测方法,其特征在于,所述目标检测模型的损失函数包括分类损失和回归损失,定义如下:
Figure FDA0003667263600000041
其中,px,y表示像素点(x,y)的分类概率,tx,y表示像素点(x,y)的回归框预测值,具体为像素点(x,y)到回归框四个边界的距离值,t* x,y表示像素点(x,y)到标定图像框四个边界的距离值,Lcls表示分类损失,Lreg表示回归损失,Npos表示正样本的个数,c* x,y表示分类类别,c* x,y=1为图像目标,c* x,y=0为背景,λ表示回归损失Lreg的权重因子,为可调参数,用于平衡两种不同的损失函数,默认为1,τ{c* x,y>0}表示指示函数,当c* x,y>0时该函数值为1,当c* x,y≤0时该函数值为0。
8.根据权利要求6所述的基于双重注意力机制的图像目标检测方法,其特征在于,所述利用RPN网络将输入样本输出为多个候选区域,具体包括:
利用RPN网络将输入样本映射成一个概率值和四个坐标值,其中,概率值用于表示anchors层中有物体的概率,四个坐标值用于回归定义物体的位置;
根据概率值和四个坐标值,得到固定尺寸的特征图;
将固定尺寸的特征图送入全连接层,以判定候选区域的目标类别。
9.根据权利要求7所述的基于双重注意力机制的图像目标检测方法,其特征在于,所述利用目标检测模型的损失函数对多个候选区域进行分类概率和边框回归联合训练,确定输入样本最终的位置和类别信息,具体包括:
对于所述候选区域,通过全连接层和归一化函数计算每个正样本所属的类别并输出所属类别的概率向量;
通过回归网络,利用边界框回归得到每个正样本的位置偏移量;
使用非极大值抑制方法去除冗余的预测框,保留结果最好的一个,得到最终的检测结果。
CN202210614509.XA 2022-05-27 2022-05-27 基于双重注意力机制的图像目标检测方法 Pending CN114863236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210614509.XA CN114863236A (zh) 2022-05-27 2022-05-27 基于双重注意力机制的图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210614509.XA CN114863236A (zh) 2022-05-27 2022-05-27 基于双重注意力机制的图像目标检测方法

Publications (1)

Publication Number Publication Date
CN114863236A true CN114863236A (zh) 2022-08-05

Family

ID=82641314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210614509.XA Pending CN114863236A (zh) 2022-05-27 2022-05-27 基于双重注意力机制的图像目标检测方法

Country Status (1)

Country Link
CN (1) CN114863236A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187603A (zh) * 2022-09-13 2022-10-14 国网浙江省电力有限公司 一种基于深度神经网络的电力设备检测方法及装置
CN115577242A (zh) * 2022-10-14 2023-01-06 成都信息工程大学 一种基于注意力机制及神经网络的脑电信号分类方法
CN116129129A (zh) * 2022-10-09 2023-05-16 南京恩博科技有限公司 一种人物交互检测模型及检测方法
CN116863358A (zh) * 2023-08-18 2023-10-10 华大天元(北京)科技股份有限公司 电网无人机巡检图像绝缘子缺陷识别方法及系统
CN117237830A (zh) * 2023-11-10 2023-12-15 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117689880A (zh) * 2024-02-01 2024-03-12 东北大学 基于机器学习用于生物医学图像中目标识别的方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187603A (zh) * 2022-09-13 2022-10-14 国网浙江省电力有限公司 一种基于深度神经网络的电力设备检测方法及装置
CN116129129A (zh) * 2022-10-09 2023-05-16 南京恩博科技有限公司 一种人物交互检测模型及检测方法
CN116129129B (zh) * 2022-10-09 2023-11-03 南京恩博科技有限公司 一种人物交互检测模型及检测方法
CN115577242A (zh) * 2022-10-14 2023-01-06 成都信息工程大学 一种基于注意力机制及神经网络的脑电信号分类方法
CN116863358A (zh) * 2023-08-18 2023-10-10 华大天元(北京)科技股份有限公司 电网无人机巡检图像绝缘子缺陷识别方法及系统
CN117237830A (zh) * 2023-11-10 2023-12-15 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117237830B (zh) * 2023-11-10 2024-02-20 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117689880A (zh) * 2024-02-01 2024-03-12 东北大学 基于机器学习用于生物医学图像中目标识别的方法及系统
CN117689880B (zh) * 2024-02-01 2024-04-16 东北大学 基于机器学习用于生物医学图像中目标识别的方法及系统

Similar Documents

Publication Publication Date Title
CN114863236A (zh) 基于双重注意力机制的图像目标检测方法
Anwar et al. Image colorization: A survey and dataset
CN111612763B (zh) 手机屏幕缺陷检测方法、装置及系统、计算机设备及介质
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN111523521B (zh) 一种双支路融合多尺度注意神经网络的遥感图像分类方法
CN115331087B (zh) 融合区域语义与像素特征的遥感影像变化检测方法及系统
CN107330453B (zh) 基于分步识别和融合关键部位检测的色情图像识别方法
WO2021164234A1 (zh) 图像处理方法以及图像处理装置
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN113822951A (zh) 图像处理方法、装置、电子设备及存储介质
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN113139896A (zh) 基于超分辨重建的目标检测系统及方法
CN115359370A (zh) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN113901928A (zh) 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及系统
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN115147644A (zh) 图像描述模型的训练和描述方法、系统、设备及存储介质
CN114218613A (zh) 图像篡改检测方法、装置以及计算机可读存储介质
CN113284153A (zh) 卫星云层图像处理方法、装置、计算机设备和存储介质
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN115861922B (zh) 一种稀疏烟火检测方法、装置、计算机设备及存储介质
CN116469172A (zh) 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统
CN116452900A (zh) 一种基于轻量级神经网络的目标检测方法
CN116363518A (zh) 一种基于分焦平面偏振成像的伪装目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination