CN114386531A - 基于双级注意力的图像识别方法及装置 - Google Patents

基于双级注意力的图像识别方法及装置 Download PDF

Info

Publication number
CN114386531A
CN114386531A CN202210085821.4A CN202210085821A CN114386531A CN 114386531 A CN114386531 A CN 114386531A CN 202210085821 A CN202210085821 A CN 202210085821A CN 114386531 A CN114386531 A CN 114386531A
Authority
CN
China
Prior art keywords
feature map
new
calculating
background
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210085821.4A
Other languages
English (en)
Other versions
CN114386531B (zh
Inventor
张凯
徐卿
袭肖明
杨光远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Liju Robot Technology Co ltd
Original Assignee
Shandong Liju Robot Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Liju Robot Technology Co ltd filed Critical Shandong Liju Robot Technology Co ltd
Priority to CN202210085821.4A priority Critical patent/CN114386531B/zh
Publication of CN114386531A publication Critical patent/CN114386531A/zh
Application granted granted Critical
Publication of CN114386531B publication Critical patent/CN114386531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明是关于一种基于双级注意力的图像识别方法和装置,其中,方法包括:获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;从预处理后的原始图像中提取抽象特征图;根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。通过该技术方案,提高网络训练效率,提升预测的准确率。

Description

基于双级注意力的图像识别方法及装置
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于双级注意力的图像识别方法和装置。
背景技术
图像分类是根据图像中的目标的语义信息,判断目标所属的类别的工作,是计算机视觉领域中的重要研究方向。在实际应用的各个领域中,图像分类都有重要的作用,例如生物识别技术中的人脸识别,自动驾驶技术中的交通场景识别,临床医学领域中的医学图像识别等。
目前,深度学习方法在图像分类工作中得到了广泛的应用。卷积神经网络能高效地识别图片的语义信息,判断图片中物体所属的分类。一般来说,位于目标区域的像素点能提供较多的有利于识别语义的特征信息,而背景像素点能提供的特征信息相对较少。但目前的方法通常对图片全图进行同等的特征提取,不考虑物体与背景的差异性,降低了模型的训练效率。此外,也有通过裁剪背景等方式,只对目标进行特征提取的方法,但这些方法完全舍弃了背景信息,使模型提取到的可用特征信息减少,降低了分类器的准确率。
发明内容
为克服相关技术中存在的问题,本发明提供一种基于双级注意力的图像识别方法和装置,从而实现保留背景信息的同时,提高网络训练效率,提升预测的准确率。
根据本发明实施例的第一方面,提供一种基于双级注意力的图像识别方法,所述方法包括:
获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;
从预处理后的原始图像中提取抽象特征图;
根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;
使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;
使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;
使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
在一个实施例中,优选地,根据所述二值目标定位图和抽象特征图,计算得到物体特征图和背景特征图,包括:
使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜;
将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算,以得到所述物体特征图和背景特征图。
在一个实施例中,优选地,使用空间注意力机制处理所述物体特征图,以得到新的物体特征图,包括:
使用空间注意力机制计算空间像素权重分布;
将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算,以得到更新物体像素权重的新的物体特征图。
在一个实施例中,优选地,使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图,包括:
将所述新的物体特征图和背景特征图融合,以得到所述总特征图;
使用通道注意力机制计算通道权重向量;
将所述通道权重向量与所述总特征图进行逐元素相乘计算,以得到所述新的总特征图。
在一个实施例中,优选地,使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果,包括:
使用全连接层计算所述新的总特征图的特征映射向量;
通过所述分类器确定所述特征映射向量对应的概率分布;
将最大概率对应的类别确定为所述原始图像所属的图像类别。
根据本发明实施例的第二方面,提供一种基于双级注意力的图像识别装置,所述装置包括:
数据获取模块,用于获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;
特征提取模块,用于从预处理后的原始图像中提取抽象特征图;
计算模块,用于根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;
第一注意力模块,用于使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;
第二注意力模块,用于使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;
分类模块,用于使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
在一个实施例中,优选地,计算模块包括:
第一计算单元,用于使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜;
第二计算单元,用于将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算,以得到所述物体特征图和背景特征图。
在一个实施例中,优选地,第一注意力模块包括:
第三计算单元,用于使用空间注意力机制计算空间像素权重分布;
第四计算单元,用于将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算,以得到更新物体像素权重的新的物体特征图。
在一个实施例中,优选地,第二注意力模块包括:
融合单元,用于将所述新的物体特征图和背景特征图融合,以得到所述总特征图;
第五计算单元,用于使用通道注意力机制计算通道权重向量;
第六计算单元,用于将所述通道权重向量与所述总特征图进行逐元素相乘计算,以得到所述新的总特征图。
在一个实施例中,优选地,所述分类模块包括:
第七计算单元,用于使用全连接层计算所述新的总特征图的特征映射向量;
第一确定单元,用于通过所述分类器确定所述特征映射向量对应的概率分布;
第二确定单元,用于将最大概率对应的类别确定为所述原始图像所属的图像类别。
根据本发明实施例的第三方面,提供一种基于双级注意力的图像识别装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;
从预处理后的原始图像中提取抽象特征图;
根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;
使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;
使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;
使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项所述方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,将二值目标定位图作为分类器的输入使用,而不是将二值定位图作为图像的预处理工具,通过利用定位图进行并行的局部卷积计算,将物体与背景分离到不同的通道中,通过channel attention(通道注意力)机制调整网络对于物体与背景的偏好,保留了背景信息的同时,提高了网络训练效率,提升了预测的准确率;另一方面,本发明通过提取物体特征图,配合spatial attention(空间注意力)机制,更有效地增强了位于物体区域的重要像素点的重要性,减少了常规空间注意力机制中用于背景像素点的梯度计算,提升了网络训练效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种基于双级注意力的图像识别方法的流程图。
图2是根据一示例性实施例示出的一种基于双级注意力的图像识别方法的具体流程图。
图3是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S103的流程图。
图4是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S104的流程图。
图5是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S105的流程图。
图6是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S106的流程图。
图7是根据一示例性实施例示出的一种基于双级注意力的图像识别装置的框图。
图8是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中计算模块的框图。
图9是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中第一注意力模块的框图。
图10是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中第二注意力模块的框图。
图11是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中第二注意力模块的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种基于双级注意力的图像识别方法的流程图,如图1所示,该方法包括:
步骤S101,获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;其中,对原始图像进行的预处理包括将原始图像处理为规定尺寸,单通道,并进行归一化处理。
步骤S102,从预处理后的原始图像中提取抽象特征图;
步骤S103,根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;
步骤S104,使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;
步骤S105,使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;
步骤S106,使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
在该实施例中,具体地,如图2所示,构建了包含两层注意力机制的网络结构,首先以Resnet50作为基网络,在最后的特征图后添加并行的特殊卷积操作,两个卷积操作分别以物体和背景区域作为感兴趣区域,对特征图进行局部的卷积计算得到两个特殊特征图。对于感兴趣区域为物体的特征图,添加spatial attention(空间注意力)模块来提高模型对于关键像素的注意力。对感兴趣区域为背景的特征图不作处理。将这两个特征图叠加,添加channel attention(通道注意力)模块来为不同的通道进行权重分配,划分物体与背景的重要性,实现模型的高效训练。本发明使用了并行的局部卷积计算将特征图中的物体与背景进行分离,便于进行不同的特征提取,在包含物体信息的特征图中,通过spatialattention来进行更有效的特征提取。而channel attention则是通过重新划分通道的权重,间接为像素点的重要性进行了重新划分,使模型训练时自适应的根据物体与背景的重要性差别进行调整,同时提升了训练的效率与预测的准确率。
图3是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S103的流程图。
如图3所示,在一个实施例中,优选地,上述步骤S103包括:
步骤S301,使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜;
步骤S302,将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算,以得到所述物体特征图和背景特征图。
图4是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S104的流程图。
如图4所示,在一个实施例中,优选地,上述步骤S104包括:
步骤S401,使用空间注意力机制计算空间像素权重分布;
步骤S402,将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算,以得到更新物体像素权重的新的物体特征图。
图5是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S105的流程图。
如图5所示,在一个实施例中,优选地,上述步骤S105包括:
步骤S501,将所述新的物体特征图和背景特征图融合,以得到所述总特征图;
步骤S502,使用通道注意力机制计算通道权重向量;
步骤S503,将所述通道权重向量与所述总特征图进行逐元素相乘计算,以得到所述新的总特征图。
图6是根据一示例性实施例示出的一种基于双级注意力的图像识别方法中步骤S106的流程图。
如图6所示,在一个实施例中,优选地,上述步骤S106包括:
步骤S601,使用全连接层计算所述新的总特征图的特征映射向量;
步骤S602,通过所述分类器确定所述特征映射向量对应的概率分布;
步骤S603,将最大概率对应的类别确定为所述原始图像所属的图像类别。
图7是根据一示例性实施例示出的一种基于双级注意力的图像识别装置的框图。
如图7所示,根据本发明实施例的第二方面,提供一种基于双级注意力的图像识别装置,所述装置包括:
数据获取模块71,用于获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;
特征提取模块72,用于从预处理后的原始图像中提取抽象特征图;
计算模块73,用于根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;
第一注意力模块74,用于使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;
第二注意力模块75,用于使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;
分类模块76,用于使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
图8是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中计算模块的框图。
如图8所示,在一个实施例中,优选地,计算模块73包括:
第一计算单元81,用于使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜;
第二计算单元82,用于将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算,以得到所述物体特征图和背景特征图。
图9是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中第一注意力模块的框图。
如图9所示,在一个实施例中,优选地,第一注意力模块74包括:
第三计算单元91,用于使用空间注意力机制计算空间像素权重分布;
第四计算单元92,用于将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算,以得到更新物体像素权重的新的物体特征图。
图10是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中第二注意力模块的框图。
如图10所示,在一个实施例中,优选地,第二注意力模块75包括:
融合单元1001,用于将所述新的物体特征图和背景特征图融合,以得到所述总特征图;
第五计算单元1002,用于使用通道注意力机制计算通道权重向量;
第六计算单元1003,用于将所述通道权重向量与所述总特征图进行逐元素相乘计算,以得到所述新的总特征图。
图11是根据一示例性实施例示出的一种基于双级注意力的图像识别装置中第二注意力模块的框图。
如图11所示,在一个实施例中,优选地,所述分类模块76包括:
第七计算单元1101,用于使用全连接层计算所述新的总特征图的特征映射向量;
第一确定单元1102,用于通过所述分类器确定所述特征映射向量对应的概率分布;
第二确定单元1103,用于将最大概率对应的类别确定为所述原始图像所属的图像类别。
根据本发明实施例的第三方面,提供一种基于双级注意力的图像识别装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;
从预处理后的原始图像中提取抽象特征图;
根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;
使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;
使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;
使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项所述方法的步骤。
进一步可以理解的是,本发明中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于双级注意力的图像识别方法,其特征在于,所述方法包括:
获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;
从预处理后的原始图像中提取抽象特征图;
根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;
使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;
使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;
使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
2.根据权利要求1所述的方法,其特征在于,根据所述二值目标定位图和抽象特征图,计算得到物体特征图和背景特征图,包括:
使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜;
将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算,以得到所述物体特征图和背景特征图。
3.根据权利要求1所述的方法,其特征在于,使用空间注意力机制处理所述物体特征图,以得到新的物体特征图,包括:
使用空间注意力机制计算空间像素权重分布;
将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算,以得到更新物体像素权重的新的物体特征图。
4.根据权利要求1所述的方法,其特征在于,使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图,包括:
将所述新的物体特征图和背景特征图融合,以得到所述总特征图;
使用通道注意力机制计算通道权重向量;
将所述通道权重向量与所述总特征图进行逐元素相乘计算,以得到所述新的总特征图。
5.根据权利要求1所述的方法,其特征在于,使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果,包括:
使用全连接层计算所述新的总特征图的特征映射向量;
通过所述分类器确定所述特征映射向量对应的概率分布;
将最大概率对应的类别确定为所述原始图像所属的图像类别。
6.一种基于双级注意力的图像识别装置,其特征在于,所述装置包括:
数据获取模块,用于获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;
特征提取模块,用于从预处理后的原始图像中提取抽象特征图;
计算模块,用于根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;
第一注意力模块,用于使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;
第二注意力模块,用于使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;
分类模块,用于使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
7.根据权利要求6所述的装置,其特征在于,计算模块包括:
第一计算单元,用于使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜;
第二计算单元,用于将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算,以得到所述物体特征图和背景特征图。
8.根据权利要求6所述的装置,其特征在于,第一注意力模块包括:
第三计算单元,用于使用空间注意力机制计算空间像素权重分布;
第四计算单元,用于将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算,以得到更新物体像素权重的新的物体特征图。
9.根据权利要求6所述的装置,其特征在于,第二注意力模块包括:
融合单元,用于将所述新的物体特征图和背景特征图融合,以得到所述总特征图;
第五计算单元,用于使用通道注意力机制计算通道权重向量;
第六计算单元,用于将所述通道权重向量与所述总特征图进行逐元素相乘计算,以得到所述新的总特征图。
10.根据权利要求6所述的装置,其特征在于,所述分类模块包括:
第七计算单元,用于使用全连接层计算所述新的总特征图的特征映射向量;
第一确定单元,用于通过所述分类器确定所述特征映射向量对应的概率分布;
第二确定单元,用于将最大概率对应的类别确定为所述原始图像所属的图像类别。
CN202210085821.4A 2022-01-25 2022-01-25 基于双级注意力的图像识别方法及装置 Active CN114386531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210085821.4A CN114386531B (zh) 2022-01-25 2022-01-25 基于双级注意力的图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210085821.4A CN114386531B (zh) 2022-01-25 2022-01-25 基于双级注意力的图像识别方法及装置

Publications (2)

Publication Number Publication Date
CN114386531A true CN114386531A (zh) 2022-04-22
CN114386531B CN114386531B (zh) 2023-02-14

Family

ID=81203311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210085821.4A Active CN114386531B (zh) 2022-01-25 2022-01-25 基于双级注意力的图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN114386531B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385789A (zh) * 2023-04-07 2023-07-04 北京百度网讯科技有限公司 图像处理方法、训练方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866938A (zh) * 2019-11-21 2020-03-06 北京理工大学 一种全自动视频运动目标分割方法
CN111627038A (zh) * 2020-05-27 2020-09-04 杭州王道控股有限公司 一种背景去除方法、装置、设备及可读存储介质
CN113221639A (zh) * 2021-04-01 2021-08-06 山东大学 一种基于多任务学习的代表性au区域提取的微表情识别方法
US20210326638A1 (en) * 2020-04-20 2021-10-21 Adobe Inc. Video panoptic segmentation
CN113962893A (zh) * 2021-10-27 2022-01-21 山西大学 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866938A (zh) * 2019-11-21 2020-03-06 北京理工大学 一种全自动视频运动目标分割方法
US20210326638A1 (en) * 2020-04-20 2021-10-21 Adobe Inc. Video panoptic segmentation
CN111627038A (zh) * 2020-05-27 2020-09-04 杭州王道控股有限公司 一种背景去除方法、装置、设备及可读存储介质
CN113221639A (zh) * 2021-04-01 2021-08-06 山东大学 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN113962893A (zh) * 2021-10-27 2022-01-21 山西大学 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385789A (zh) * 2023-04-07 2023-07-04 北京百度网讯科技有限公司 图像处理方法、训练方法、装置、电子设备及存储介质
CN116385789B (zh) * 2023-04-07 2024-01-23 北京百度网讯科技有限公司 图像处理方法、训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114386531B (zh) 2023-02-14

Similar Documents

Publication Publication Date Title
CN108304835B (zh) 文字检测方法和装置
CN111612008A (zh) 基于卷积网络的图像分割方法
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
CN109829353B (zh) 一种基于空间约束的人脸图像风格化方法
CN111046858B (zh) 一种基于图像的动物物种细分类方法、系统及介质
CN108960331A (zh) 一种基于行人图像特征聚类的行人再识别方法
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN113657409A (zh) 车辆损失检测方法、装置、电子设备及存储介质
CN111461039A (zh) 基于多尺度特征融合的地标识别方法
CN111612024A (zh) 特征提取方法、装置、电子设备及计算机可读存储介质
CN114386531B (zh) 基于双级注意力的图像识别方法及装置
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
Kim et al. Robust facial landmark extraction scheme using multiple convolutional neural networks
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN113255429A (zh) 一种视频中人体姿态估计与跟踪方法及系统
CN113780040A (zh) 唇部关键点的定位方法及装置、存储介质、电子设备
CN113705630B (zh) 一种皮肤病变图像分类方法
CN114241202A (zh) 着装分类模型的训练方法及装置、着装分类方法及装置
CN113888567A (zh) 一种图像分割模型的训练方法、图像分割方法及装置
CN112750124A (zh) 模型生成、图像分割方法、装置、电子设备及存储介质
CN112614092A (zh) 脊柱检测方法和装置
CN111930989B (zh) 一种以图搜图方法
CN117174261B (zh) 一种用于医学影像的多类型标注流程集成系统
WO2024099026A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
CN112862761B (zh) 一种基于深度神经网络的脑瘤mri图像分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 1409, Floor 14, Building 1, High tech Zone Entrepreneurship Center, No. 177, Gaoxin 6th Road, Rizhao, Shandong 276801

Patentee after: Shandong Liju Robot Technology Co.,Ltd.

Address before: 276808 No.99, Yuquan 2nd Road, antonwei street, Lanshan District, Rizhao City, Shandong Province

Patentee before: Shandong Liju Robot Technology Co.,Ltd.