CN112101456B - 注意力特征图获取方法及装置、目标检测的方法及装置 - Google Patents

注意力特征图获取方法及装置、目标检测的方法及装置 Download PDF

Info

Publication number
CN112101456B
CN112101456B CN202010967846.8A CN202010967846A CN112101456B CN 112101456 B CN112101456 B CN 112101456B CN 202010967846 A CN202010967846 A CN 202010967846A CN 112101456 B CN112101456 B CN 112101456B
Authority
CN
China
Prior art keywords
attention
feature map
channel
profile
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010967846.8A
Other languages
English (en)
Other versions
CN112101456A (zh
Inventor
谭卫雄
张荣国
李新阳
王少康
陈宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infervision Medical Technology Co Ltd
Original Assignee
Infervision Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infervision Medical Technology Co Ltd filed Critical Infervision Medical Technology Co Ltd
Priority to CN202010967846.8A priority Critical patent/CN112101456B/zh
Publication of CN112101456A publication Critical patent/CN112101456A/zh
Application granted granted Critical
Publication of CN112101456B publication Critical patent/CN112101456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种注意力特征图获取方法,其特征在于,包括:对特征图进行通道注意力操作,以获得通道注意力特征图;对所述特征图进行空间注意力操作,以获得空间注意力特征图;对所述通道注意力特征图与所述空间注意力特征图进行特征融合,获得注意力融合特征图;以及基于所述注意力融合特征图和所述特征图,获得注意力特征图。通过并行进行的通道注意力操作和空间注意力操作,以及通过对通道注意力特征图与空间注意力特征图进行特征融合,增强对图片在通道上提取特征的能力和在空间上提取特征的能力。并行运算既能同时结合通道注意力和空间注意力两种注意力性能,又能节省计算时间。

Description

注意力特征图获取方法及装置、目标检测的方法及装置
技术领域
本申请涉及深度学习技术领域,具体涉及一种注意力特征图获取方法、目标检测方法、注意力特征图获取装置、目标检测装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能的不断发展,深度学习网络模型被广泛应用到各个领域。近年来,注意力机制(Attention Mechanism)由于能忽略无关信息且关注重点信息,已成为深度学习领域中关键技术,备受关注。现有注意力机制在获取注意力特征图时不能同时结合通道注意力(Spatial attention)和空间注意力(Channel attention)两种注意力机制,且计算过程参数量过大。
发明内容
有鉴于此,本申请实施例提供了一种注意力特征图获取方法、目标检测方法、注意力特征图获取装置、目标检测装置、电子设备及计算机可读存储介质,以解决现有的注意力机制在获取注意力特征图时无法结合通道注意力和空间注意力两种注意力机制且计算过程参数量过大的问题。
根据本申请的一个方面,本申请一实施例提供的一种注意力特征图获取方法,包括:对特征图进行通道注意力操作,以获得通道注意力特征图;对所述特征图进行空间注意力操作,以获得空间注意力特征图;对所述通道注意力特征图与所述空间注意力特征图进行特征融合,获得注意力融合特征图;以及基于所述注意力融合特征图和所述特征图,获得注意力特征图。
根据本申请另一个方面,本申请一实施例提供的一种目标检测方法,包括:获取待检测图像,所述待检测图像包括目标对象;对所述待检测图像进行特征提取处理,获得所述待检测图像的至少一个特征图;对所述至少一个特征图进行上述任一所述的注意力特征图获取方法,获得至少一个注意力特征图;以及基于所述至少一个注意力特征图,获取所述待检测图片中感兴趣区域的目标对象的位置和类别。
根据本申请另一个方面,本申请一实施例提供的一种注意力特征图获取装置,包括:通道注意力模块,配置为对特征图进行通道注意力操作,以获得通道注意力特征图;空间注意力模块,配置为对所述特征图进行空间注意力操作,以获得空间注意力特征图;注意力融合模块,配置为对所述通道注意力特征图与所述空间注意力特征图进行特征融合,获得注意力融合特征图;以及输出子模块,配置为基于所述注意力融合特征图和所述特征图,获得注意力特征图。
根据本申请另一个方面,本申请一实施例提供的一种目标检测装置,包括:获取模块,配置为获取待检测图像,所述待检测图像包括目标对象;特征提取模块,配置为对待检测图像进行特征提取,获得至少一个特征图;至少一个注意力模块,配置为对所述至少一个特征图进行上述任一所述的注意力特征图获取方法,获得至少一个注意力特征图;以及检测模块,配置为基于所述至少一个注意力特征图,获取所述待检测图片中感兴趣区域的目标对象的位置和类别。
根据本申请的又一个方面,本申请一实施例提供的本申请一实施例提供了一种电子设备,包括:处理器;存储器;以及存储在存储器中的计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行如上述任一项所述的方法。
根据本申请的又一方面,本申请一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如前任一所述的方法。
本申请实施例提供的一种注意力特征图获取方法,通过并行进行的通道注意力操作和空间注意力操作,以及通过对通道注意力特征图与空间注意力特征图进行特征融合,增强对图片在通道上提取特征的能力和在空间上提取特征的能力。并行运算既能同时结合通道注意力和空间注意力两种注意力性能,又能节省计算时间。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1所示为本申请一实施例提供的一种注意力特征图获取方法的流程示意图。
图2a和2b分别所示为本申请一实施例提供的一种注意力特征图获取方法中获得通道注意力特征图和空间注意力特征图的流程示意图。
图3a和3b分别所示为本申请一实施例提供的一种注意力特征图获取方法中对第一池化特征图进行卷积操作以获得通道注意力特征图和对第二池化特征图进行卷积操作以获得空间注意力特征图的流程示意图。
图4所示为本申请一实施例提供的一种注意力特征图获取方法的流程示意图。
图5所示为本申请一实施例提供的一种目标检测方法的流程示意图。
图6所示为本申请一实施例提供的一种注意力特征图获取装置的结构示意图。
图7所示为本申请一实施例提供的一种注意力特征图获取装置的结构示意图。
图8所示为本申请一实施例提供的一种目标检测装置的结构示意图。
图9所示为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
申请概述
深度学习通过建立具有阶层结构的人工神经网络,在计算系统中实现人工智能。由于阶层结构的人工神经网络能够对输入信息进行逐层提取和筛选,因此深度学习具有表征学习能力,可以实现端到端的监督学习和非监督学习。深度学习所使用的阶层结构的人工神经网络具有多种形态,其阶层的复杂度被通称为“深度”,按构筑类型,深度学习的形式包括多层感知器、卷积神经网络、循环神经网络、深度置信网络和其它混合构筑。深度学习使用数据对其构筑中的参数进行更新以达成训练目标,该过程被通称为“学习”,深度学习提出了一种让计算机自动学习出模式特征的方法,并将特征学习融入到了建立模型的过程中,从而减少了人为设计特征造成的不完备性。
神经网络是一种运算模型,由大量的节点(或称神经元)之间相互连接构成,每个节点对应一个策略函数,每两个节点间的连接代表一个对于通过该连接信号的加权值,称之为权重。神经网络一般包括多个神经网络层,上下网络层之间相互级联,第i个神经网络层的输出与第i+1个神经网络层的输入相连,第i+1个神经网络层的输出与第i+2个神经网络层的输入相连,以此类推。训练样本输入级联的神经网络层后,通过每个神经网络层输出一个输出结果,该输出结果作为下一个神经网络层的输入,由此,通过多个神经网络层计算获得输出,比较输出层的输出的预测结果与真正的目标值,再根据预测结果与目标值之间的差异情况来调整每一层的权重矩阵和策略函数,神经网络利用训练样本不断地经过上述调整过程,使得神经网络的权重等参数得到调整,直到神经网络输出的预测结果与真正的目标结果相符,该过程就被称为神经网络的训练过程。神经网络经过训练后,可得到神经网络模型。
注意力机制(Attention Mechanism)最近两年被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。注意力机制借鉴了人类的视觉注意力机制,人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。深度学习中的注意力机制从本质上讲和人类的视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。
注意力机制的本质是忽略无关信息、关注重点信息,从深度学习模型中看,注意力是由模型对特征图的不同区域或特征图之间的相同区域进行视觉关注来激发的。从原理上来说,注意力机制主要分为空间注意力机制(Spatial attention)和通道注意力(Channelattention)机制两类。对于深度学习处理图像来说,图像中不是所有的区域对任务的贡献都是同样重要的,只有任务相关的区域才是需要关心的,比如分类任务的主体,空间注意力机制就是对每个特征层中最重要的区域进行关注。对于深度学习处理图像来说,由于各个特征图之间的重要程度不同,对其各自分配权重也是不同的,通道注意力机制就是对于权重最大的特征图进行关注。
现有的注意力机制在获取注意力特征图时,不能同时结合通道注意力和空间注意力两种注意力性能且计算过程参数量过大。
针对上述的技术问题,本申请的基本构思提供:本申请实施例提供的一种注意力特征图获取方法,通过并行进行的通道注意力操作和空间注意力操作,以及通过对通道注意力特征图与空间注意力特征图进行特征融合,增强对图片在通道上提取特征的能力和在空间上提取特征的能力。并行运算既能同时结合通道注意力和空间注意力两种注意力性能,又能节省计算时间。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性注意力特征图获取方法
注意力特征图获取方法是注意力机制被应用在图像的特征提取中。注意力特征图获取方法被应用到神经网络模型中,用于辅助对神经网路模型的训练,通过神经网络模型中特征提取网络对训练样本进行特征提取,通过注意力特征图获取方法对特征图进行注意力特征提取,使得训练样本中的重点特征信息被关注,无关特征信息被忽略,基于注意力特征图获取方法的神经网路模型被训练,使得训练后的深度学习模型可以具有获取对感兴趣区域进行目标检测的能力。
图1所示为本申请一实施例提供的一种注意力特征图获取方法的流程示意图。如图1所示,该注意力特征图获取方法包括如下步骤:
步骤101:对特征图进行通道注意力操作,以获得通道注意力特征图。
例如,在该注意力特征图获取方法中,特征图可以具有3个维度,注意力操作中的运算也是基于3个维度进行的运算,最终获取的注意力特征图也是3个维度。具体地,特征图可以通过对原始图片进行卷积处理获得,原始图片具有3个维度,特征图也有3个维度。通道注意力操作中的运算也是基于3个维度进行的运算。然而应当理解,特征图的维度数量与用于特征提取的具体卷积操作以及原始图片的维度数量有关,本申请对特征图的维度数量并不做严格限定。
由于不同特征图之间的重要程度不同,在对特征图进行通道注意力操作,就是使权重大的特征图被关注,使得重要的特征图被凸显,使得不同特征图的相同区域中重要的特征信息被关注。通道注意力特征图就是使得不同特征图中权重大的特征图所代表的特征信息被凸显后的特征图。
步骤102:对特征图进行空间注意力操作,以获得空间注意力特征图。
具体地,由于同一特征图中不同区域的贡献程度不同,对特征图进行空间注意力操作,使得同一特征图中有贡献的区域被关注,获得空间注意力特征图,使得与目标对象相关的感兴趣区域被关注。空间注意力特征图就是使得多个特征图中每一个特征图中的重要区域的特征信息被凸显后的特征图。
例如:该注意力特征图获取方法被应用在医学图像上肿瘤检测的神经网络模型中,在神经网络模型中的卷积核对待检测图像进行特征提取之后获得多个特征图,每个特征图代表肿瘤的不同纹理和不同边界轮廓,对特征层进行通道注意力操作,获得通道注意力特征图,使得其中更重要的纹理或者边界轮廓被关注,同时,对特征图进行空间注意力操作,以获得空间注意力特征图,使得每个纹理特征图中更为重要的纹理被关注,使得待检测图像中与肿瘤相关的感兴趣区域被关注。
步骤103:对通道注意力特征图与空间注意力特征图进行特征融合,获得注意力融合特征图;
具体地,对通道注意力特征图与空间注意力特征图进行特征融合,获得注意力融合特征图,同时结合通道和空间两种注意力性能,突出局部感兴趣区域的信息。例如,在上述在医学图像上肿瘤检测中,关键纹理和关键边界轮廓被关注。
步骤104:基于注意力融合特征图和特征图,获得注意力特征图。
由于注意力融合特征图和特征图上每个点是对应的,注意力融合特征图反应特征图上每个特征值的权重,通过基于注意力融合特征图和特征图的连接,增强有用的特征,抑制无用的特征。
本申请实施例中,通过并行进行的通道注意力操作和空间注意力操作,以及通过对通道注意力特征图与空间注意力特征图进行特征融合,增强对图片在通道上提取特征的能力和在空间上提取特征的能力。并行运算既能同时结合通道注意力和空间注意力两种注意力性能,又能节省计算时间。
图2a和2b分别所示为本申请一实施例提供的一种注意力特征图获取方法中获得通道注意力特征图和空间注意力特征图的流程示意图。如图2a所示,对特征图进行通道注意力操作,以获得通道注意力特征图包括下列步骤:
步骤2011:对特征图在通道上进行池化操作,以获得第一池化特征图。
池化操作的目的是对特征进行降维,同时提取出特征中响应最大、最强烈的部分来输入下一个操作。对特征图在通道上进行池化操作就是在对于不同的特征图进行降维的同时,提取不同特征图中突出响应大且强烈的特征信息。
步骤2012:对第一池化特征图进行卷积操作,以获得通道注意力特征图。
通过对第一池化特征图进行卷积操作,就是使权重重的第一池化特征图被关注,使得重要的第一池化特征图被凸显,使得不同第一池化特征图的相同区域中重要的特征信息被关注。
如图2b所示,对特征图进行空间注意力操作,以获得空间注意力特征图包括下列步骤:
步骤2021:对特征图在空间上进行池化操作,以获得第二池化特征图。
对特征图在空间上进行池化操作就是在对于相同的特征图进行降维的同时,提取每个特征图中响应最大且强烈的特征信息。
步骤2022:对第二池化特征图进行卷积操作,以获得空间注意力特征图。
通过对第二池化特征图进行卷积操作,使得多个第二池化特征图中每一个第二池化特征图中的重要区域的特征信息被凸显。
本申请实施例中,通过分别对特征层在通道和空间上进行池化操作,获得第一池化特征图和第二池化特征图,在降维减少计算的同时,使得重点特征被保留,通过对第一池化特征图和第二池化特征图分别进行卷积计算,使得多个第二池化特征图中每一个第二池化特征图中的重要区域的特征信息被凸显,同时使得多个第二池化特征图中每一个第二池化特征图中的重要区域的特征信息被凸显,获得通道注意力特征图和空间注意力特征图。
在一个进一步实施例中,池化操作包括最大池化或平均池化。通过最大池化,使得在降维的同时特征图上的重要信息被保留;通过平均池化,使得在降维的同时特征图上的信息被较全面地被保留。
图3a和3b分别所示为本申请一实施例提供的一种注意力特征图获取方法中对第一池化特征图进行卷积操作以获得通道注意力特征图和对第二池化特征图进行卷积操作以获得空间注意力特征图的流程示意图。如图3a所示,特征图的维度数量为三维,特征图的通道数为C。对第一池化特征图进行卷积操作,以获得通道注意力特征图包括下列步骤。
步骤30121:通过空间维度为1×1×1、通道数为C/r的卷积核,对第一池化特征图进行卷积计算,获得第一通道注意力中间图,r为预设值。
由于r值的设定,使得对第一池化特征图进行卷积计算的计算量降低,但r值设置太低,会使得图片信息不能被完好的保留,一般将r值预设为4,既能减少对第一池化特征图进行卷积计算的计算量,又能使第一池化特征图的特征信息被完好保留。
步骤30122:通过空间维度为1×1×1、通道数为C的卷积核,对第一通道注意力中间图进行卷积计算,获得通道注意力特征图。
具体地,先通过空间维度为1×1×1、通道数为C/r的卷积核,对第一池化特征图进行卷积计算,获得第一通道注意力中间图,再通过空间维度为 1×1×1、通道数为C的卷积核对第一通道注意力中间图进行卷积计算,获得通道注意力特征图,通过两个卷积核对第一池化特征图进行卷积计算,获得通道注意力特征图,使特征图的不同区域或不同特征图之间被关注。
如图3b所示,对第二池化特征图进行卷积操作,以获得空间注意力特征图包括下列步骤。
步骤30221:通过空间维度3×1×1、通道数为C的卷积核,对第二池化特征图进行卷积计算,获得第一空间注意力中间层。
步骤30222:通过空间维度1×3×1、通道数为C的卷积核,对第一空间注意力中间层进行卷积计算,获得第二空间注意力中间层。
步骤30223:通过空间维度1×1×3、通道数为C的卷积核,对第二空间注意力中间层进行卷积计算,获得空间注意力特征层。
具体地,先通过空间维度3×1×1、通道数为C的卷积核,对第二池化特征图进行卷积计算,获得第一空间注意力中间层,再通过空间维度1×3 ×1、通道数为C的卷积核,对第一空间注意力中间层进行卷积计算,获得第二空间注意力中间层;再通过空间维度1×1×3、通道数为C的卷积核,对第二空间注意力中间层进行卷积计算,获得所述空间注意力特征层。利用上述三个卷积核替代3×3×3、通道数为C的卷积核,使得在获得注意力特征层操作中的参数量降低到原本的1/3,减少参数量,加快计算时间。
在一个实施例中,对通道注意力特征图与空间注意力特征图进行特征融合,获得注意力融合特征图具体包括:对通道注意力特征图和空间注意力特征图进行叉乘计算,获得注意力融合特征图。
本申请实施例中,由于通道注意力特征图和空间注意力特征图其实是从不同方向上对特征层进行关注的结果,通过对通道注意力特征图与空间注意力特征图进行特征融合,同时结合通道注意力和空间注意力两种注意力性能,增强对图片在通道上提取特征的能力和在空间上提取特征的能力。
在一个实施例中,基于注意力融合特征图和特征图,获得注意力特征图包括:对注意力融合特征图和特征图进行点乘计算,获得注意力特征图;或通过空间维度3×3×3、通道数为C的卷积核对注意力融合特征图进行卷积计算,将卷积计算后的注意力融合特征图和特征图相加获得注意力特征图。
本申请实施例中,通过结合注意力融合特征图和特征图,结合更多的特征信息,使感兴趣区域的特征更加突出。
图4所示为本申请一实施例提供的一种注意力特征图获取方法的流程示意图。如图4所示,首先,通过卷积计算获得特征图U(如图4中步骤 400所示)U∈RD×W×H×C,U为特征图,D×W×H为空间维度,C是通道数;对特征图U∈RD×W×H×C在通道上进行平均池化,获得第一池化特征图(如图4中步骤4011所示);通过串联的空间维度为1×1×1、通道数为C/r的卷积核,和空间维度为1×1×1、通道数为C的卷积核对第一池化特征图/>进行卷积计算,获得通道注意力特征图Zc(如图4中步骤40121和步骤40122所示);并行地,对特征图U∈RD×W×H×C在空间上进行平均池化,获得第二池化特征图/>(如图4中步骤4021所示);通过串联的空间维度为3×1× 1、通道数为C的卷积核,空间维度为1×3×1、通道数为C的卷积核和空间维度为1×1×3、通道数为C的卷积核对第二池化特征图/>进行卷积计算,获得空间注意力特征图Zs(如图4中步骤40221、步骤40222 和步骤40223所示);对通道注意力特征图Zc和空间注意力特征图Zs进行叉乘计算(如图4中步骤403所示);获得注意力融合特征图Z,对注意力融合特征图Z和特征图U进行点乘计算获得注意力特征图Uz(如图4中步骤404所示);
本申请实施例中,通过并行进行的通道注意力操作和空间注意力操作,以及通过对通道注意力特征图与空间注意力特征图进行特征融合,增强对图片在通道上提取特征的能力和在空间上提取特征的能力。并行运算既能同时结合通道注意力和空间注意力两种注意力性能,又能节省计算时间。
在本申请图4所示实施例中,由于特征层的空间维度为D×W×H,是三维的,上述注意力特征图获取方法都是在三个维度进行的,使得注意力特征图获取方法是针对三维图像的,上述注意力特征图获取方法,可以在三维度上,提高空间和通道的提取特征的能力,既能同时结合通道注意力和空间注意力两种注意力性能,又能减少计算过程中的参数量,节省计算时间。
在一个实施例中,上述注意力特征图获取方法被应用在残差结构的神经网络中,例如将上述注意力特征图获取方法应用在resnet-18深度学习网络中的卷积层和全连接层之间。
示例性目标检测方法
图5所示为本申请一实施例提供的一种目标检测方法的流程示意图。如图5所示,该目标检测方法包括以下步骤:
步骤501:获取待检测图像,待检测图像包括目标对象。
在一个实施例中,待检测图像为医学图像,目标对象为医学图像上的病灶影像,例如肿瘤影像。医学影像可以是通过计算机断层扫描摄影(Computed Tomography,CT)、计算机X线摄影(Computed Radiography,CR)、数字化X线摄影(Digital Radiography,DR)、核磁共振或超声等技术直接获得的影像。但是在拍摄医学影像的过程中,可能会引入噪声,影响图像的清楚准确的显示,所以可以对医学影像进行预处理,例如,可以利用高斯滤波器或中值滤波器去除医学影像中的噪声。图像增强处理可以包括大小调整、裁剪、旋转、归一化以及标准化等,以提高待医学图像的信噪比。在预处理过程中,可以采用其中一种或多种对医学影像进行增强处理,以便于后续的目标检测的过程。图像增强处理可以在去噪处理之前或之后进行。医学影像在经历一些处理或攻击后,例如图像增强和/或去噪处理,可以得到多种副本图像,这些副本图像在经过相同参数的图像归一化处理后能够得到相同形式的标准图像,即医学图像。
步骤502:对待检测图像进行特征提取处理,获得待检测图像的至少一个特征图。
提取待检测图像的特征信息的特征提取模型可采用如3Dresnet-18,MobileNetv2、SqueezeNet、ShuffleNet、resnet、resnext或densenent等卷积神经网络模型。
步骤503:对至少一个特征图进行如上述任一所述的注意力特征图获取方法,获得至少一个注意力特征图。
通过上述所述的注意力特征图获取方法,增强对图片在通道上提取特征的能力和在空间上提取特征的能力,使得不同特征图中重要的特征图携带的特征信息以及同一特征图中重要区域的特征信息被关注,结合通道注意力和空间注意力两种注意力性能,使感兴趣区域中的目标对象的特征被突出显示。
步骤504:基于至少一个注意力特征图,获取待检测图片中感兴趣区域的目标对象的位置和类别。
由于使感兴趣区域中的目标对象的特征被突出显示,使得感兴趣区域的目标对象的位置和类别被精准的获取与检测。
本申请实施例中,通过特征提取获得至少一个待检测图像的至少一个特征图,通过对至少一个特征图进行如上述任一所述的注意力特征图获取方法,获得至少一个注意力特征,再基于至少一个注意力特征图,获取待检测图片中感兴趣区域的目标对象的位置和类别,由于运用了上述任一所述的注意力特征图获取方法,使得不同特征图中重要的特征图携带的特征信息以及同一特征图中重要区域的特征信息被关注,结合通道注意力和空间注意力两种注意力性能,使感兴趣区域中的目标对象的特征被突出显示,使得感兴趣区域的目标对象的位置和类别被精准的获取与检测。
在一个实施例中,步骤502、步骤503和504可以由同一被训练的神经网络模型实现,将上述任一所述注意力特征图获取方法应用到神经网络模型中来训练,该神经网络模型的训练方法包括下列步骤:将训练样本输入被训练神经网络;基于应用了上述任一的注意力特征图获取方法的神经网络模型输出的识别数据,获得第一损失值;基于第一损失值,调整训练神经网络的网络参数。将上述任一的注意力特征图获取方法应用到神经网络模型中,该神经网络模型被训练,可以使训练好的神经网络模型(也就是深度学习网络模型)的识别准确率更高,识别时间更短。
示例性注意力特征图获取装置
图6所示为本申请一实施例提供的一种注意力特征图获取装置的结构示意图。如图6所示,该注意力特征图获取装置600包括:通道注意力模块 601,配置为对特征图进行通道注意力操作,以获得通道注意力特征图;空间注意力模块602,配置为对特征图进行空间注意力操作,以获得空间注意力特征图;注意力融合模块603,配置为对通道注意力特征图与空间注意力特征图进行特征融合,获得注意力融合特征图;以及输出模块604,配置为基于注意力融合特征图和特征图,获得注意力特征图。
本申请实施例中,通过并联的通道注意力模块601和空间注意力模块 602并行进行的通道注意力操作和空间注意力操作,以及通过注意力融合模块603对通道注意力特征图与空间注意力特征图进行特征融合,增强对图片在通道上提取特征的能力和在空间上提取特征的能力。并行运算既能同时结合通道注意力和空间注意力两种注意力性能,又能节省计算时间。
图7所示为本申请一实施例提供的一种注意力特征图获取装置的结构示意图。如图7所示,通道注意力模块601包括:通道池化模块6011,配置为对特征图在通道上进行池化操作,以获得第一池化特征图;第一卷积操作模块6012,配置为对第一池化特征图进行卷积操作,以获得通道注意力特征图;空间注意力模块602包括:空间池化模块6021,配置为对特征图在空间上进行池化操作,以获得第二池化特征图;第二卷积操作模块6022:配置为对第二池化特征图进行卷积操作,以获得空间注意力特征图。
本申请实施例中,通过通道池化模块6011和空间池化模块6021分别对特征层在通道和空间上进行池化操作,获得第一池化特征图和第二池化特征图,在降维减少计算的同时,使得重点特征被保留,通过第一卷积操作模块 6012和第二卷积操作模块6022对第一池化特征图和第二池化特征图分别进行卷积计算,使得多个第二池化特征图中每一个第二池化特征图中的重要区域的特征信息被凸显,同时使得多个第二池化特征图中每一个第二池化特征图中的重要区域的特征信息被凸显,获得通道注意力特征图和空间注意力特征图。
在一个实施例中,池化操作包括最大池化或平均池化。
在一个实施例中,第一卷积操作模块6012进一步配置为:通过空间维度为1×1×1、通道数为C/r的卷积核,对第一池化特征图进行卷积计算,获得第一通道注意力中间图,r为预设值;以及通过空间维度为1×1×1、通道数为C的卷积核,对第一通道注意力中间图进行卷积计算,获得通道注意力特征图;第二卷积操作模块6022进一步配置为通过空间维度3×1×1、通道数为C的卷积核,对第二池化特征图进行卷积计算,获得第一空间注意力中间层;通过空间维度1×3×1、通道数为C的卷积核,对第一空间注意力中间层进行卷积计算,获得第二空间注意力中间层;以及通过空间维度1 ×1×3、通道数为C的卷积核,对第二空间注意力中间层进行卷积计算,获得空间注意力特征层。
本申请实施例中,通过两个卷积核对第一池化特征图进行卷积计算,获得通道注意力特征图,使特征图的不同区域或不同特征图之间被关注。利用上述三个卷积核替代3×3×3、通道数为C的卷积核,使得在获得注意力特征层操作中的参数量降低到原本的1/3,减少参数量,加快计算时间。
在一个实施例中,注意力融合模块603进一步配置为对通道注意力特征图和空间注意力特征图进行叉乘计算,获得注意力融合特征图。
在一个实施例中,输出模块604进一步配置为对注意力融合特征图和特征图进行点乘计算,获得注意力特征图,或通过空间维度3×3×3、通道数为C的卷积核对注意力融合特征图进行卷积计算,将卷积计算后的注意力融合特征图和特征图相加获得注意力特征图。
在一个实施例中,注意力特征图获取装置被嵌套于深度学习网络装置中。
示例性目标检测装置
图8所示为本申请一实施例提供的一种目标检测装置的结构示意图。如图8所示,该目标检测装置800包括:获取模块801,配置为获取待检测图像,待检测图像包括目标对象;特征提取模块802,配置为对待检测图像进行特征提取,获得至少一个特征图;至少一个注意力模块803,配置为对至少一个特征图进行上述任一所述的注意力特征图获取方法,获得至少一个注意力特征图;以及检测模块804,配置为基于至少一个注意力特征图,获取待检测图片中感兴趣区域的目标对象的位置和类别。
示例性电子设备
图9所示为本申请一实施例提供的电子设备的结构示意图。如图9所示,电子设备900包括一个或多个处理器910和存储器920。
处理器910可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备900中的其他组件以执行期望的功能。
存储器920可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器910可以运行所述程序指令,以实现上文所述的本申请的各个实施例的注意力特征图获取方法和目标检测方法以及/或者其他期望的功能。在一个示例中,电子设备900还可以包括:输入装置 930和输出装置940,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置930可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置930可以是通信网络连接器。
此外,该输入设备930还可以包括例如键盘、鼠标等等。
该输出装置940可以向外部输出各种信息,包括确定出的目标对象信息等。该输出设备940可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备900中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备900还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“注意力特征图获取方法”和“示例性目标检测方法”部分中描述的根据本申请各种实施例的注意力特征图获取方法和目标检测方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“注意力特征图获取方法”和“示例性目标检测方法”部分中描述的根据本申请各种实施例的注意力特征图获取方法和目标检测方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (13)

1.一种注意力特征图获取方法,其特征在于,包括:
对特征图进行通道注意力操作,以获得通道注意力特征图;
对所述特征图进行空间注意力操作,以获得空间注意力特征图;
对所述通道注意力特征图与所述空间注意力特征图进行特征融合,获得注意力融合特征图;以及
基于所述注意力融合特征图和所述特征图,获得注意力特征图;
其中,所述对所述特征图进行空间注意力操作,以获得空间注意力特征图包括:
对所述特征图在空间上进行池化操作,以获得第二池化特征图;以及,对所述第二池化特征图进行卷积操作,以获得所述空间注意力特征图;
其中,所述特征图为三维特征图,所述对所述第二池化特征图进行卷积操作,以获得所述空间注意力特征图,包括:
通过空间维度3×1×1、通道数为C的卷积核,对所述第二池化特征图进行卷积计算,获得第一空间注意力中间层;
通过空间维度1×3×1、通道数为C的卷积核,对所述第一空间注意力中间层进行卷积计算,获得第二空间注意力中间层;以及
通过空间维度1×1×3、通道数为C的卷积核,对所述第二空间注意力中间层进行卷积计算,获得所述空间注意力特征图。
2.根据权利要求1所述的注意力特征图获取方法,其特征在于,所述对特征图进行通道注意力操作,以获得通道注意力特征图包括:
对所述特征图在通道上进行池化操作,以获得第一池化特征图;以及
对所述第一池化特征图进行卷积操作,以获得所述通道注意力特征图。
3.根据权利要求2所述的注意力特征图获取方法,其特征在于,所述池化操作包括最大池化或平均池化。
4.根据权利要求2所述的注意力特征图获取方法,其特征在于,所述特征图的通道数为C;
其中,所述对所述第一池化特征图进行卷积操作,以获得所述通道注意力特征图包括:
通过空间维度为1×1×1、通道数为C/r的卷积核,对所述第一池化特征图进行卷积计算,获得第一通道注意力中间图,r为预设值;以及
通过空间维度为1×1×1、通道数为C的卷积核,对所述第一通道注意力中间图进行卷积计算,获得所述通道注意力特征图。
5.根据权利要求4所述的注意力特征图获取方法,其特征在于,所述对所述通道注意力特征图与所述空间注意力特征图进行特征融合,获得注意力融合特征图包括:
对所述通道注意力特征图和所述空间注意力特征图进行叉乘计算,获得注意力融合特征图。
6.根据权利要求4所述的注意力特征图获取方法,其特征在于,所述基于所述注意力融合特征图和所述特征图,获得注意力特征图包括:
对所述注意力融合特征图和所述特征图进行点乘计算,获得所述注意力特征图;或
通过空间维度3×3×3、通道数为C的卷积核对所述注意力融合特征图进行卷积计算,将卷积计算后的所述注意力融合特征图和所述特征图相加获得所述注意力特征图。
7.一种目标检测方法,其特征在于,包括:
获取待检测图像,所述待检测图像包括目标对象;
对所述待检测图像进行特征提取处理,获得所述待检测图像的至少一个特征图;
对所述至少一个特征图进行如权利要求1-6中任一所述的注意力特征图获取方法,获得至少一个注意力特征图;以及
基于所述至少一个注意力特征图,获取所述待检测图像中感兴趣区域的目标对象的位置和类别。
8.根据权利要求7所述的目标检测方法,其特征在于,所述目标对象为医学图像上的病灶影像。
9.一种注意力特征图获取装置,其特征在于,包括:
通道注意力模块,配置为对特征图进行通道注意力操作,以获得通道注意力特征图;
空间注意力模块,配置为对所述特征图进行空间注意力操作,以获得空间注意力特征图;其中,所述对所述特征图进行空间注意力操作,以获得空间注意力特征图包括:对所述特征图在空间上进行池化操作,以获得第二池化特征图;以及,对所述第二池化特征图进行卷积操作,以获得所述空间注意力特征图;其中,所述特征图为三维特征图,所述对所述第二池化特征图进行卷积操作,以获得所述空间注意力特征图包括:通过空间维度3×1×1、通道数为C的卷积核,对所述第二池化特征图进行卷积计算,获得第一空间注意力中间层;通过空间维度1×3×1、通道数为C的卷积核,对所述第一空间注意力中间层进行卷积计算,获得第二空间注意力中间层;以及通过空间维度1×1×3、通道数为C的卷积核,对所述第二空间注意力中间层进行卷积计算,获得所述空间注意力特征图;
注意力融合模块,配置为对所述通道注意力特征图与所述空间注意力特征图进行特征融合,获得注意力融合特征图;以及
输出模块,配置为基于所述注意力融合特征图和所述特征图,获得注意力特征图。
10.根据权利要求9所述的注意力特征图获取装置,其特征在于,所述注意力特征图获取装置被嵌套于深度学习网络装置中。
11.一种目标检测装置,其特征在于,包括:
获取模块,配置为获取待检测图像,所述待检测图像包括目标对象;
特征提取模块,配置为对待检测图像进行特征提取,获得至少一个特征图;
至少一个注意力模块,配置为对所述至少一个特征图进行如权利要求1-6中任一所述的注意力特征图获取方法,获得至少一个注意力特征图;以及
检测模块,配置为基于所述至少一个注意力特征图,获取所述待检测图像中感兴趣区域的目标对象的位置和类别。
12.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1至8中任一所述的方法。
13.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1至8中任一所述的方法。
CN202010967846.8A 2020-09-15 2020-09-15 注意力特征图获取方法及装置、目标检测的方法及装置 Active CN112101456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010967846.8A CN112101456B (zh) 2020-09-15 2020-09-15 注意力特征图获取方法及装置、目标检测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010967846.8A CN112101456B (zh) 2020-09-15 2020-09-15 注意力特征图获取方法及装置、目标检测的方法及装置

Publications (2)

Publication Number Publication Date
CN112101456A CN112101456A (zh) 2020-12-18
CN112101456B true CN112101456B (zh) 2024-04-26

Family

ID=73759022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010967846.8A Active CN112101456B (zh) 2020-09-15 2020-09-15 注意力特征图获取方法及装置、目标检测的方法及装置

Country Status (1)

Country Link
CN (1) CN112101456B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052771B (zh) * 2021-03-19 2023-09-05 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质
CN113450366B (zh) * 2021-07-16 2022-08-30 桂林电子科技大学 基于AdaptGAN的低照度语义分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190113119A (ko) * 2018-03-27 2019-10-08 삼성전자주식회사 합성곱 신경망을 위한 주의집중 값 계산 방법
CN110458085A (zh) * 2019-08-06 2019-11-15 中国海洋大学 基于注意力增强三维时空表征学习的视频行为识别方法
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别系统及方法
CN111311490A (zh) * 2020-01-20 2020-06-19 陕西师范大学 基于多帧融合光流的视频超分辨率重建方法
CN111415342A (zh) * 2020-03-18 2020-07-14 北京工业大学 一种融合注意力机制的三维卷积神经网络肺部结节图像自动检测方法
CN111583184A (zh) * 2020-04-14 2020-08-25 上海联影智能医疗科技有限公司 图像分析方法、网络、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934397B (zh) * 2017-03-13 2020-09-01 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190113119A (ko) * 2018-03-27 2019-10-08 삼성전자주식회사 합성곱 신경망을 위한 주의집중 값 계산 방법
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别系统及方法
CN110458085A (zh) * 2019-08-06 2019-11-15 中国海洋大学 基于注意力增强三维时空表征学习的视频行为识别方法
CN111311490A (zh) * 2020-01-20 2020-06-19 陕西师范大学 基于多帧融合光流的视频超分辨率重建方法
CN111415342A (zh) * 2020-03-18 2020-07-14 北京工业大学 一种融合注意力机制的三维卷积神经网络肺部结节图像自动检测方法
CN111583184A (zh) * 2020-04-14 2020-08-25 上海联影智能医疗科技有限公司 图像分析方法、网络、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于全局时空感受野的高效视频分类方法;王辉涛,等;《小型微型计算机系统》;20200831;第41卷(第8期);第1768~1775页 *

Also Published As

Publication number Publication date
CN112101456A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
US20210183022A1 (en) Image inpainting method and apparatus, computer device, and storage medium
WO2021017372A1 (zh) 一种基于生成对抗网络的医学图像分割方法、系统及电子设备
CN111680698A (zh) 图像识别方法、装置及图像识别模型的训练方法、装置
CN112446834A (zh) 图像增强方法和装置
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN112101456B (zh) 注意力特征图获取方法及装置、目标检测的方法及装置
CN111275686B (zh) 用于人工神经网络训练的医学图像数据的生成方法及装置
CN114998210B (zh) 一种基于深度学习目标检测的早产儿视网膜病变检测系统
CN111667459B (zh) 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质
CN112668480A (zh) 头部姿态角检测方法、装置、电子设备及存储介质
CN113298718A (zh) 一种单幅图像超分辨率重建方法及系统
CN111860248B (zh) 一种基于孪生渐进注意引导融合网络的视觉目标跟踪方法
CN110705564B (zh) 图像识别的方法和装置
CN115601299A (zh) 基于图像的肝硬化状态智能评估系统及其方法
CN112488178B (zh) 网络模型的训练方法及装置、图像处理方法及装置、设备
CN113850796A (zh) 基于ct数据的肺部疾病识别方法及装置、介质和电子设备
CN113158970A (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN112967293A (zh) 一种图像语义分割方法、装置及存储介质
CN116844032A (zh) 一种海洋环境下目标检测识别方法、装置、设备及介质
CN116468702A (zh) 黄褐斑评估方法、装置、电子设备及计算机可读存储介质
Xian et al. Automatic tongue image quality assessment using a multi-task deep learning model
CN111680674B (zh) 基于自集成注意力机制的门厅人员监控方法
Zhou et al. ASFusion: Adaptive visual enhancement and structural patch decomposition for infrared and visible image fusion
CN114529828A (zh) 遥感图像居民地要素提取方法和装置及设备
CN113192085A (zh) 三维器官图像分割方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant