CN111598112B - 多任务的目标检测方法、装置、电子设备及存储介质 - Google Patents

多任务的目标检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111598112B
CN111598112B CN202010422038.3A CN202010422038A CN111598112B CN 111598112 B CN111598112 B CN 111598112B CN 202010422038 A CN202010422038 A CN 202010422038A CN 111598112 B CN111598112 B CN 111598112B
Authority
CN
China
Prior art keywords
feature
target
features
attention
multitask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010422038.3A
Other languages
English (en)
Other versions
CN111598112A (zh
Inventor
赵朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Objecteye Beijing Technology Co Ltd
Original Assignee
Objecteye Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Objecteye Beijing Technology Co Ltd filed Critical Objecteye Beijing Technology Co Ltd
Priority to CN202010422038.3A priority Critical patent/CN111598112B/zh
Publication of CN111598112A publication Critical patent/CN111598112A/zh
Priority to PCT/CN2020/137446 priority patent/WO2021232771A1/zh
Application granted granted Critical
Publication of CN111598112B publication Critical patent/CN111598112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种多任务的目标检测、装置、电子设备及存储介质,应用于图像处理技术领域,利用级联式的注意力模块,提取目标的注意力感知的卷积特征图,能够从粗到精地生成全图注意力感知的卷积特征,抑制背景噪声的干扰。基于注意力感知的卷积特征图,提取目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,基于目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现目标的检测任务、关键点检测任务、实例分割任务中的至少一个。能够有效的关联目标全局结构、局部部件以及上下文信息,形成结构化的特征表达,提高特征对遮挡、形变以及姿态等的鲁棒性,改善多任务性能。

Description

多任务的目标检测方法、装置、电子设备及存储介质
技术领域
本公开涉及图像处理技术领域,尤其涉及一种多任务的目标检测方法、装置、电子设备及存储介质。
背景技术
目标检测是计算机视觉中的一项基础任务,是很多其他任务的前提,目标检测的难点在其他任务中几乎都有体现,并且更为复杂多样,如背景噪声干扰、目标遮挡、截断、姿态变化以及形变等。在目标检测基础上进行多任务的设计也一直是个热门问题,通过一个网络同时进行多项任务的预测不仅可以节省计算量,同时还能改善模型的泛化能力。
现有多任务的框架,例如Mask R-CNN扩展性较强,受到广泛应用,但是此框架没有考虑环境以及目标本身状态带来的影响,并没有针对性的结构和学习策略,所以其表达能力还有待增强。综合来看,目前缺乏对环境干扰、目标姿态变化等多任务的整体解决方案。
发明内容
本公开的主要目的在于提供一种多任务的目标检测方法、装置、电子设备及存储介质,可解决上述至少一个技术问题。
为实现上述目的,本公开实施例第一方面提供一种多任务的目标检测方法,包括:
获取待检测目标的图像;
利用级联式的注意力模块,提取所述目标的注意力感知的卷积特征图;
基于所述注意力感知的卷积特征图,提取所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征;
基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现所述目标的检测任务、关键点检测任务、实例分割任务中的至少一个。
可选的,所述利用级联式的空间注意力模块,提取所述目标的注意力感知的卷积特征图包括:
将注意力模块插入预设基础网络下采样的多个预设倍数处,得到多个注意力图;
将所述多个注意力图分别与对应下采样倍数处的卷积特征图逐通道相乘,得到注意力感知的卷积特征图。
可选的,所述基于所述注意力感知的卷积特征图,提取所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征包括:
在所述注意力感知的卷积特征图上提取包含所述目标的候选框;
基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征。
可选的,所述基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现所述目标的检测任务包括:
将所述目标的局部部件特征、全局结构特征、空间上下文特征进行融合,得到所述目标的结构化特征;
基于所述结构化特征,实现所述目标的检测任务。
可选的,所述基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现所述目标的关键点检测任务,和/或,实例分割任务包括:
将所述结构化特征进行上采样,使所述结构化特征的分辨率与所述多任务特征的分辨率相同;
将上采样后的结构化特征与所述多任务特征进行融合,得到融合后的特征;
将融合后的特征进行关键点检测,实现所述目标的关键点检测任务,和/或,将融合后的特征进行实例分割,实现所述目标的实例分割任务。
可选的,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的局部部件特征包括:
将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层,得到部件敏感的特征图;
通过PSRoIPooling将所述候选框映射到所述部件敏感的特征图上,并将所述候选框划分为k×k个候选框块,以使每个候选框块表示一个局部部件,每个候选框形成一个k×k的部件特征;
将每个k×k的部件特征均进行平均池化,得到所述目标的局部部件特征。
可选的,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的全局结构特征包括:
将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层进行降维,得到一组降维的卷积特征图;
通过RoIPooling将所述候选框映射到所述降维的卷积特征图上,并将所述候选框划分为k×k个候选框块,以使每个候选框块形成一个k×k的全局特征;
将每个k×k的全局特征当做一个整体,通过两个大小分别为k×k和1×1的卷积层进行编码,得到所述目标的全局结构特征。
可选的,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的上下文结构特征包括:
将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降维的卷积特征图;
保持每个候选框中心点不变,将每个候选框面积扩大至预设倍数;
通过RoIPooling将面积扩大后的候选框映射到所述降维的卷积特征图上,并将面积扩大后的候选框划分为k×k个候选框块,以使每个候选框形成一个k×k的上下文特征;
将每个k×k的上下文特征当做一个整体,通过两个大小分别为k×k和1×1的卷积层进行编码,得到所述目标的上下文结构特征。
可选的,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的多任务特征包括:
将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降维的卷积特征图;
通过RoIPooling将所述候选框映射到所述降维的卷积特征图上,并将所述候选框划分为2k×2k个候选框块,以使每个候选框形成一个2k×2k的特征;
通过4个大小为3×3,通道数为256的卷积将每个2k×2k的特征进行编码;
将编码后的每个候选框的特征进行频率为预设倍数的上采样,得到所述目标的多任务特征。
可选的,其中,通过预设的损失检测模型,检测实现所述目标的检测任务、关键点检测任务、实例分割任务中的至少一个的损失;
所述预设的损失模型:
Loss=Ldet(N)+λ1Latt(N)+λ2Lmulti(N);
其中,N表示实现所述多任务的目标检测方法的检测网络,Ldet表示实现所述检测任务的损失,Latt表示所述注意力模块的损失,Lmulti表示实现所述关键点检测任务和/或实例分割任务的损失,λ1和λ2为预设的损失调节因子。
本公开实施例第二方面提供一种多任务的目标检测装置,包括:
获取模块,用于获取待检测目标的图像;
第一提取模块,用于利用级联式的空间注意力模块,提取所述目标的注意力感知的卷积特征图;
第二提取模块,用于基于所述注意力感知的卷积特征图,提取所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征;
任务实现模块,用于基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现所述目标的检测任务、关键点检测任务、实例分割任务中的至少一个。
本公开实施例第三方面提供了一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本公开实施例第一方面提供的多任务的目标检测方法。
本公开实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例第一方面提供的多任务的目标检测方法。
从上述本公开实施例可知,本公开提供的多任务的目标检测、装置、电子设备及存储介质,利用级联式的注意力模块,提取目标的注意力感知的卷积特征图,能够从粗到精地生成全图注意力感知的卷积特征,抑制背景噪声的干扰。基于注意力感知的卷积特征图,提取目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,基于目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现目标的检测任务、关键点检测任务、实例分割任务中的至少一个。能够有效的关联目标全局结构、局部部件以及上下文信息,形成结构化的特征表达,提高特征对遮挡、形变以及姿态等的鲁棒性,改善多任务性能。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一实施例提供的多任务的目标检测方法的流程示意图;
图2为本公开一实施例提供的多任务的空间注意力机制的示意图;
图3为本公开一实施例提供的多任务的目标检测方法中步骤S103的流程示意图;
图4为本公开一实施例提供的实现多任务的目标检测方法的模型的结构示意图;
图5为本公开一实施例提供的实现多任务的目标检测装置的结构示意图;
图6示出了一种电子设备的硬件结构示意图。
具体实施方式
为使得本公开的申请目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
请参阅图1,图1为本公开一实施例提供的多任务的目标检测方法的流程示意图,该方法主要包括以下步骤:
S101、获取待检测目标的图像;
S102、利用级联式的空间注意力模块,提取该目标的注意力感知的卷积特征图;
S103、基于该注意力感知的卷积特征图,提取该目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征;
S104、基于该目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现该目标的检测任务、关键点检测任务、实例分割任务中的至少一个。
在步骤S101中,该图像可以是任一图像。该目标可以是人、动物、花草等等,本实施例对此不做任何限制。
在步骤S102中,每个注意力模块用于产生逐像素的前景和/或背景注意力图,多个注意力模块之间通过级联的方式连接,可由粗到细地学习全图的空间区域,实现对前景特征的增强和对背景特征的削弱,从而不断精调基础网络特征,最后得到更加全面精准的注意力感知的基础网络特征,然后将注意力感知的基础网络特征作用于卷积特征图上,获得注意力感知的卷积特征图。因此,通过步骤S102在全图的基础上产生注意力感知的卷积特征图,可有效地过滤掉图像中背景的干扰并增强前景目标的特征表达。
在步骤S103中,显示地提取目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,增强对目标的描述力。其中,局部部件特征,比如人的眼睛、鼻子、嘴巴等特定的部件;全局结构特征,比如人体的直立结构;空间上下文特征,主要用来提取目标周围的空间上下文信息,比如人在室内环境,飞机在天空中等;多任务特征,主要用来提取关键点和/或分割特征。
其中,提取目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征的四个进程可以不并行处理或并行处理。
在步骤S104中,将目标的局部部件特征、全局结构特征、空间上下文特征通过归一化操作之后耦合在一起,可形成一个完备的目标的结构化特征,该结构化特征可用于目标的检测任务。将上述结构化特征通过上采样与多任务特征进一步耦合,耦合后得到的特征可用于目标的关键点检测任务和实例分割任务。实现端对端的多任务训练和测试。
在本申请其中一个实施例中,请参阅图2,图2为本公开一实施例提供的多任务的空间注意力机制的示意图,该多任务的空间注意力机制实现本公开的步骤S102(可理解的,图2中多任务耦合网络实现本公开的步骤S103和步骤S104),步骤S102包括:将注意力模块插入预设基础网络下采样的多个预设倍数处,得到多个注意力图;将该多个注意力图分别与对应下采样倍数处的卷积特征图逐通道相乘,得到注意力感知的卷积特征图。示例性的,在预设基础网络的每次下采样阶段都插入一个注意力模块,将下采样的预设倍数以4,8,16为例产生3个注意力图,将3个注意力图分别与对应下采样倍数处的预设的卷积特征图逐通道相乘(也即4倍处的注意力图与4倍处的卷积特征图相乘,8倍处的注意力图与8倍处的卷积特征图相乘,16倍处的注意力图与16倍处的卷积特征图相乘),可由粗到细地抑制背景噪声干扰,增强前景特征表达,以此来引导预设基础网络特征学习,并且输出最终的注意力感知的卷积特征图。
具体的,本公开并没有在Conv1后边使用注意力模块,主要是因为浅层特征缺乏足够的语义信息,此时产生的注意力图往往很不准确。对于每个注意力模块,通过预测一个注意力图A来表示该位置属于目标的置信度。注意力模块包含两个3*3的卷积层,其通道数为256,然后使用一个1*1的卷积层进行前景和背景分类,最后通过一个sigmoid激活函数来归一化到0~1产生最终注意力图。产生的注意力图与目标类别无关,其通道数为1。然后通过广播的方式将注意力图与对应下采样频率倍数处的卷积特征逐通道相乘,相乘之后特征作为下一次的输入,此过程在预设基础网络中不断重复,逐渐引导预设基础网络特征的学习,最后得到注意力感知的卷积特征图。
在本申请其中一个实施例中,请参阅图3,步骤S103包括:
S1031、在该注意力感知的卷积特征图上提取包含该目标的候选框;
S1032、基于该注意力感知的卷积特征图和该候选框,提取该目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征。
具体的,可以采用区域提取网络RPN来提取候选框,产生的包含目标的候选框为P。
在本申请其中一个实施例中,步骤S104包括:将该目标的局部部件特征、全局结构特征、空间上下文特征进行融合,得到该目标的结构化特征;基于该结构化特征,实现该目标的检测任务。
具体的,将局部部件特征、全局结构特征、空间上下文特征通过归一化操作之后耦合在一起,形成一个完备的目标的结构化特征,该结构化特征可用于目标的检测任务。
在本申请其中一个实施例中,步骤S104包括:将该结构化特征进行上采样,使该结构化特征的分辨率与该多任务特征的分辨率相同;将上采样后的结构化特征与该多任务特征进行融合,得到融合后的特征;将融合后的特征进行关键点检测,实现该目标的关键点检测任务,和/或,将融合后的特征进行实例分割,实现该目标的实例分割任务。
在本申请其中一个实施例中,请参阅图4,步骤S1032包括:将该注意力感知的卷积特征图通过一个大小为1x1的卷积层,得到部件敏感的特征图;通过PSRoIPooling将该候选框映射到该部件敏感的特征图上,并将该候选框划分为k×k个候选框块,以使每个候选框块表示一个局部部件,每个候选框形成一个k×k的部件特征;将每个k×k的部件特征均进行平均池化,得到该目标的局部部件特征。
具体的,在注意力感知的卷积特征图的基础上通过一个1×1的卷积产生部件敏感的得分图,其中卷积的滤波器个数为k2(C+1),k(通常取7)表示把目标划分成k×k个大小一致的候选框块,每一候选框块代表一个局部部件,c为总的目标种类数。也就是说,对于每个目标种类总共会产生k2个特征通道,每个特征通道负责编码目标的一个局部部件。这里采用“R-FCN:Object detection via region-based fully convolutional networks”中的PSROIPooling操作来实现局部部件特征的提取。局部部件特征的大小为k2(C+1),然后通过通道内部的加权平均得到1×1×(C+1)维的特征。
在本申请其中一个实施例中,请参阅图4,步骤S1032包括:将该注意力感知的卷积特征图通过一个大小为1×1的卷积层进行降维,得到一组降维的卷积特征图;通过RoIPooling将该候选框映射到该降维的卷积特征图上,并将该候选框划分为k×k个候选框块,以使每个候选框块形成一个k×k的全局特征;将每个k×k的全局特征当做一个整体,通过两个大小分别为k×k和1×1的卷积层进行编码,得到该目标的全局结构特征。
具体的,与提取目标的局部结构特征相同的,将候选框分成k×k个候选框块,然后每一个候选框块单独做池化操作,但与局部分支不同的是:1)所有的特征通道都需要提取k×k个特征,即这里的特征通道不区分类别和位置,所有的目标候选框也没有得分敏感和位置敏感的性质;2)所有的候选框块经过池化操作之后组合成一个整体,其特征空间分辨率为k×k,然后通过两个卷积层进一步编码成全局结构特征,两个卷积层的滤波器大小分别为k×k和1×1,最后也输出一个1×1×(C+1)的特征。
其中,由于目标往往具有不同的尺度,采用Faster R-CNN中的RoIPooling操作来提取特征,可以将全局结构特征统一为尺度归一化的特征,即不管是大目标还是小目标,其全局结构特征的大小都相同。
在本申请其中一个实施例中,请参阅图4,步骤S1032包括:将该注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降维的卷积特征图;保持每个候选框中心点不变,将每个候选框面积扩大至预设倍数;通过RoIPooling将面积扩大后的候选框映射到该降维的卷积特征图上,并将面积扩大后的候选框划分为k×k个候选框块,以使每个候选框形成一个k×k的上下文特征;将每个k×k的上下文特征当做一个整体,通过两个大小分别为k×k和1×1的卷积层进行编码,得到该目标的上下文结构特征。
具体的,上下文结构特征作为一种最基本和最重要的信息被广泛用于视觉识别任务中。例如,船只会出现在水域中而不会出现在天空,这暗示着目标周围的信息通常能帮助更好地判别目标的语义类别。此外,网络的实际感受也要远小于理论感受野,因此收集目标周围的信息能够有效地减少误识别。具体地,本公开中提取上下文结构特征和提取全局结构特征一样,只不过在提取上下文结构特征之前,需先对每个候选框保持其中心点的坐标不变,然后把面积扩大为原来的2倍。
在本申请其中一个实施例中,请参阅图4,步骤S1032包括:将该注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降维的卷积特征图;通过RoIPooling将该候选框映射到该降维的卷积特征图上,并将该候选框划分为2k×2k个候选框块,以使每个候选框形成一个2k×2k的特征;通过4个大小为3×3,通道数为256的卷积将每个2k×2k的特征进行编码;将编码后的每个候选框的特征进行频率为预设倍数的上采样,得到该目标的多任务特征。
具体的,把候选框分成了2k×2k个块,同样通过RoIPooling来提取特征,提取到的特征空间分辨率为2k×2k,然后通过4个3*3的卷积层进一步编码,卷积的通道设为256。由于关键点检测和实例分割任务对特征的空间分辨率要求较高,所以再通过一个上采样层可恢复其空间结构信息,这里的上采样率可以设置为2x或4x等等,上采样后得到的特征即为多任务特征。
在本申请其中一个实施例中,通过预设的损失检测模型,检测实现该目标的检测任务、关键点检测任务、实例分割任务中的至少一个的损失;
该预设的损失模型:
Loss=Ldet(N)+λ1Latt(N)+λ2Lmulti(N);
其中,N表示实现该多任务的目标检测方法的检测网络,Ldet表示实现该检测任务的损失,Latt表示该注意力模块的损失,Lmulti表示实现该关键点检测任务和/或实例分割任务的损失,λ1和λ2为预设的损失调节因子。
具体的,本公开采用两阶段的检测方法,先通过RPN网络来产生候选框,然后通过耦合网络来进一步分类和回归,所以检测损失包含RPN的分类、回归损失以及耦合网络的分类、回归损失。两者的回归损失使用smoothL1损失,RPN的分类损失为二分类交叉熵损失,耦合网络的分类损失为多分类交叉熵损失。Latt为空间注意力模块的损失,也是二分类(前景/背景)交叉熵损失。Lmulti为其他任务的损失,其可以是关键点损失或实例分割损失,也可以是两个损失之和(同时进行关键点检测和实例分割)。λ1和λ2为损失调节因子,其可根据需要进行设置,在一个示例中,λ1设置为0.25,λ2设置为1,检测部分正负样本选择比例为1∶4,样本阈值为0.5,即与ground truth的IOU大于0.5作为正样本,否则作为负样本。RPN部分的正负样本比例为1∶1,正样本阈值为0.7,负样本阈值为0.3。
请参阅图5,图5为本公开一实施例提供的多任务的目标检测装置的结构示意图,该装置包括:
获取模块201,用于获取待检测目标的图像;
第一提取模块202,用于利用级联式的空间注意力模块,提取该目标的注意力感知的卷积特征图;
第二提取模块203,用于基于该注意力感知的卷积特征图,提取该目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征;
任务实现模块204,用于基于该目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现该目标的检测任务、关键点检测任务、实例分割任务中的至少一个。
在本申请其中一个实施例中,第一提取模块202包括:插设子模块,用于将注意力模块插入预设基础网络下采样的多个预设倍数处,得到多个注意力图;相乘子模块,用于将该多个注意力图分别与对应下采样倍数处的卷积特征图逐通道相乘,得到注意力感知的卷积特征图。
在本申请其中一个实施例中,第二提取模块203包括:第一提取子模块,用于在该注意力感知的卷积特征图上提取包含该目标的候选框;第二提取子模块,用于基于该注意力感知的卷积特征图和该候选框,提取该目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征。
在本申请其中一个实施例中,任务实现模块204包括:第一特征融合子模块,用于将该目标的局部部件特征、全局结构特征、空间上下文特征进行融合,得到该目标的结构化特征;检测任务实现子模块,用于基于该结构化特征,实现该目标的检测任务。
在本申请其中一个实施例中,任务实现模块204包括:第一上采样子模块,用于将该结构化特征进行上采样,使该结构化特征的分辨率与该多任务特征的分辨率相同;第二特征融合子模块,用于将上采样后的结构化特征与该多任务特征进行融合,得到融合后的特征;关键点检测任务实现子模块,用于将融合后的特征进行关键点检测,实现该目标的关键点检测任务,和/或,实例分割任务实现子模块,用于将融合后的特征进行实例分割,实现该目标的实例分割任务。
在本申请其中一个实施例中,第二提取子模块包括:第一降维子模块,用于将所述注意力感知的卷积特征图通过一个大小为1x1的卷积层,得到部件敏感的特征图;第一映射划分子模块,用于通过PSRoIPooling将所述候选框映射到所述部件敏感的特征图上,并将所述候选框划分为k×k个候选框块,以使每个候选框块表示一个局部部件,每个候选框形成一个k×k的部件特征;池化子模块,用于将每个k×k的部件特征均进行平均池化,得到所述目标的局部部件特征。
在本申请其中一个实施例中,第二提取子模块包括:第二降维子模块,用于将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层进行降维,得到一组降维的卷积特征图;第二映射划分子模块,用于通过RoIPooling将所述候选框映射到所述降维的卷积特征图上,并将所述候选框划分为k×k个候选框块,以使每个候选框块形成一个k×k的全局特征;第一编码子模块,用于将每个k×k的全局特征当做一个整体,通过两个大小分别为k×k和1×1的卷积层进行编码,得到所述目标的全局结构特征。
在本申请其中一个实施例中,第二提取子模块包括:第三降维子模块,用于将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降维的卷积特征图;面积扩大子模块,用于保持每个候选框中心点不变,将每个候选框面积扩大至预设倍数;第三映射划分子模块,用于通过RoIPooling将面积扩大后的候选框映射到所述降维的卷积特征图上,并将面积扩大后的候选框划分为k×k个候选框块,以使每个候选框形成一个k×k的上下文特征;第二编码子模块,用于将每个k×k的上下文特征当做一个整体,通过两个大小分别为k×k和1×1的卷积层进行编码,得到所述目标的上下文结构特征。
在本申请其中一个实施例中,第二提取子模块包括:第四降维子模块,用于将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降维的卷积特征图;第四映射划分子模块,用于通过RoIPooling将所述候选框映射到所述降维的卷积特征图上,并将所述候选框划分为2k×2k个候选框块,以使每个候选框形成一个2k×2k的特征;第三编码子模块,用于通过4个大小为3×3,通道数为256的卷积将每个2k×2k的特征进行编码;第二上采样子模块,用于将编码后的每个候选框的特征进行频率为预设倍数的上采样,得到所述目标的多任务特征。
在本申请其中一个实施例中,还包括损失检测模块,用于,通过预设的损失检测模型,检测实现该目标的检测任务、关键点检测任务、实例分割任务中的至少一个的损失;
该预设的损失模型:
Loss=Ldet(N)+λ1Latt(N)+λ2Lmulti(N);
其中,N表示实现该多任务的目标检测方法的检测网络,Ldet表示实现该检测任务的损失,Latt表示该注意力模块的损失,Lmulti表示实现该关键点检测任务和/或实例分割任务的损失,λ1和λ2为预设的损失调节因子。
上述本公开实施例所能实现的有益效果与上述图1所示的多任务的目标检测法的有益效果相同,在此不再赘述。
请参见图6,图6示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器41、处理器42及存储在存储器41上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1所示实施例中描述的多任务的目标检测方法。
进一步地,该电子设备还包括:
至少一个输入设备43;至少一个输出设备44。
上述存储器41、处理器42输入设备43和输出设备44通过总线45连接。
其中,输入设备43具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备44具体可为显示屏。
存储器41可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器41用于存储一组可执行程序代码,处理器42与存储器41耦合。
进一步地,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子设备中,该计算机可读存储介质可以是前述图6所示实施例中的电子设备。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1所示实施例中描述的多任务的目标检测方法。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种多任务的目标检测方法、装置、电子设备及可读存储介质的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种多任务的目标检测方法,其特征在于,包括:
获取待检测目标的图像;
利用级联式的注意力模块,提取所述目标的注意力感知的卷积特征图;
基于所述注意力感知的卷积特征图,提取所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征;
基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现所述目标的检测任务、关键点检测任务、实例分割任务中的至少一个;
其中,基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现所述目标的检测任务包括:将所述目标的局部部件特征、全局结构特征、空间上下文特征进行融合,得到所述目标的结构化特征;基于所述结构化特征,实现所述目标的检测任务。
2.根据权利要求1所述的多任务的目标检测方法,其特征在于,所述利用级联式的空间注意力模块,提取所述目标的注意力感知的卷积特征图包括:
将注意力模块插入预设基础网络下采样的多个预设倍数处,得到多个注意力图;
将所述多个注意力图分别与对应下采样倍数处的卷积特征图逐通道相乘,得到注意力感知的卷积特征图。
3.根据权利要求1所述的多任务的目标检测方法,其特征在于,所述基于所述注意力感知的卷积特征图,提取所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征包括:
在所述注意力感知的卷积特征图上提取包含所述目标的候选框;
基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征。
4.根据权利要求1所述的多任务的目标检测方法,其特征在于,所述基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现所述目标的关键点检测任务,和/或,实例分割任务包括:
将所述结构化特征进行上采样,使所述结构化特征的分辨率与所述多任务特征的分辨率相同;
将上采样后的结构化特征与所述多任务特征进行融合,得到融合后的特征;
将融合后的特征进行关键点检测,实现所述目标的关键点检测任务,和/或,将融合后的特征进行实例分割,实现所述目标的实例分割任务。
5.根据权利要求3所述的多任务的目标检测方法,其特征在于,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的局部部件特征包括:
将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层,得到部件敏感的特征图;
通过PSRoIPooling将所述候选框映射到所述部件敏感的特征图上,并将所述候选框划分为k×k个候选框块,以使每个候选框块表示一个局部部件,每个候选框形成一个k×k的部件特征;
将每个k×k的部件特征均进行平均池化,得到所述目标的局部部件特征。
6.根据权利要求3所述的多任务的目标检测方法,其特征在于,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的全局结构特征包括:
将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层进行降维,得到一组降维的卷积特征图;
通过RoIPooling将所述候选框映射到所述降维的卷积特征图上,并将所述候选框划分为k×k个候选框块,以使每个候选框块形成一个k×k的全局特征;
将每个k×k的全局特征当做一个整体,通过两个大小分别为k×k和1×1的卷积层进行编码,得到所述目标的全局结构特征。
7.根据权利要求3所述的多任务的目标检测方法,其特征在于,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的上下文结构特征包括:
将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降维的卷积特征图;
保持每个候选框中心点不变,将每个候选框面积扩大至预设倍数;
通过RoIPooling将面积扩大后的候选框映射到所述降维的卷积特征图上,并将面积扩大后的候选框划分为k×k个候选框块,以使每个候选框形成一个kxk的上下文特征;
将每个k×k的上下文特征当做一个整体,通过两个大小分别为k×k和1×1的卷积层进行编码,得到所述目标的上下文结构特征。
8.根据权利要求3所述的多任务的目标检测方法,其特征在于,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的多任务特征包括:
将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降维的卷积特征图;
通过RoIPooling将所述候选框映射到所述降维的卷积特征图上,并将所述候选框划分为2k×2k个候选框块,以使每个候选框形成一个2k×2k的特征;
通过4个大小为3×3,通道数为256的卷积将每个2k×2k的特征进行编码;
将编码后的每个候选框的特征进行频率为预设倍数的上采样,得到所述目标的多任务特征。
9.根据权利要求1至4任意一项所述的多任务的目标检测方法,其特征在于,其中,通过预设的损失检测模型,检测实现所述目标的检测任务、关键点检测任务、实例分割任务中的至少一个的损失;
所述预设的损失模型:
Loss=Ldet(N)+λ1Latt(N)+λ2Lmulti(N);
其中,N表示实现所述多任务的目标检测方法的检测网络,Ldet表示实现所述检测任务的损失,Latt表示所述注意力模块的损失,Lmulti表示实现所述关键点检测任务和/或实例分割任务的损失,λ1和λ2为预设的损失调节因子。
10.一种多任务的目标检测装置,其特征在于,包括:
获取模块,用于获取待检测目标的图像;
第一提取模块,用于利用级联式的空间注意力模块,提取所述目标的注意力感知的卷积特征图;
第二提取模块,用于基于所述注意力感知的卷积特征图,提取所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征;
任务实现模块,用于基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现所述目标的检测任务、关键点检测任务、实例分割任务中的至少一个;
其中,基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,实现所述目标的检测任务包括:将所述目标的局部部件特征、全局结构特征、空间上下文特征进行融合,得到所述目标的结构化特征;基于所述结构化特征,实现所述目标的检测任务。
11.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至9中的任一项所述的多任务的目标检测方法中的各个步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至9中的任一项所述的多任务的目标检测方法中的各个步骤。
CN202010422038.3A 2020-05-18 2020-05-18 多任务的目标检测方法、装置、电子设备及存储介质 Active CN111598112B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010422038.3A CN111598112B (zh) 2020-05-18 2020-05-18 多任务的目标检测方法、装置、电子设备及存储介质
PCT/CN2020/137446 WO2021232771A1 (zh) 2020-05-18 2020-12-18 多任务的目标检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010422038.3A CN111598112B (zh) 2020-05-18 2020-05-18 多任务的目标检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111598112A CN111598112A (zh) 2020-08-28
CN111598112B true CN111598112B (zh) 2023-02-24

Family

ID=72191519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010422038.3A Active CN111598112B (zh) 2020-05-18 2020-05-18 多任务的目标检测方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN111598112B (zh)
WO (1) WO2021232771A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598112B (zh) * 2020-05-18 2023-02-24 中科视语(北京)科技有限公司 多任务的目标检测方法、装置、电子设备及存储介质
CN112149683A (zh) * 2020-09-30 2020-12-29 华宇金信(北京)软件有限公司 夜视环境下活物检测方法及装置
CN112507872B (zh) * 2020-12-09 2021-12-28 中科视语(北京)科技有限公司 人体头肩区域的定位方法、定位装置和电子设备
CN113222899B (zh) * 2021-04-15 2022-09-30 浙江大学 一种基于深度学习通过ct检测分割分类肝脏肿瘤的方法
CN113902983B (zh) * 2021-12-06 2022-03-25 南方医科大学南方医院 基于目标检测模型的腹腔镜手术组织器官识别方法及装置
CN114241277A (zh) * 2021-12-22 2022-03-25 中国人民解放军国防科技大学 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068198A1 (en) * 2016-09-06 2018-03-08 Carnegie Mellon University Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN111062438A (zh) * 2019-12-17 2020-04-24 大连理工大学 基于相关学习的图传播的弱监督细粒度图像分类算法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8406483B2 (en) * 2009-06-26 2013-03-26 Microsoft Corporation Boosted face verification
CN108647585B (zh) * 2018-04-20 2020-08-14 浙江工商大学 一种基于多尺度循环注意力网络的交通标识符检测方法
CN109886871B (zh) * 2019-01-07 2023-04-07 国家新闻出版广电总局广播科学研究院 基于通道注意力机制和多层特征融合的图像超分辨率方法
CN109948709B (zh) * 2019-03-21 2020-06-23 南京博雅集智智能技术有限公司 一种目标对象的多任务属性识别系统
CN110197182A (zh) * 2019-06-11 2019-09-03 中国电子科技集团公司第五十四研究所 基于上下文信息和注意力机制的遥感影像语义分割方法
CN111598112B (zh) * 2020-05-18 2023-02-24 中科视语(北京)科技有限公司 多任务的目标检测方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068198A1 (en) * 2016-09-06 2018-03-08 Carnegie Mellon University Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN111062438A (zh) * 2019-12-17 2020-04-24 大连理工大学 基于相关学习的图传播的弱监督细粒度图像分类算法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Attention CoupleNet: Fully Convolutional Attention Coupling Network for Object Detection";Yousong Zhu 等;《IEEE》;20180813;全文 *
"ESSN: Enhanced Semantic Segmentation Network by Residual Concatenation of Feature Maps";DONG SEOP KIM 等;《IEEE》;20200128;全文 *
"基于具有空间注意力机制的Mask R-CNN的口腔白斑分割";谢飞 等;《西北大学学报(自然科学版)》;20200229;第50卷(第1期);全文 *
"基于多级特征和混合注意力机制的室内人群检测网络";沈文祥 等;《计算机应用》;20191210;第39卷(第12期);全文 *
"基于空间与时间上下文的深度学习目标检测算法研究";付志航;《中国博士学位论文全文数据库 信息科技辑》;20200315;全文 *
《基于无人机的无线信号多点定位系统研究与设计》;赵朝阳;《中国优秀硕士学位论文全文数据库 工程科技II辑》;20200315;全文 *

Also Published As

Publication number Publication date
CN111598112A (zh) 2020-08-28
WO2021232771A1 (zh) 2021-11-25

Similar Documents

Publication Publication Date Title
CN111598112B (zh) 多任务的目标检测方法、装置、电子设备及存储介质
CN110298266B (zh) 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN109461157A (zh) 基于多级特征融合及高斯条件随机场的图像语义分割方法
CN109284670A (zh) 一种基于多尺度注意力机制的行人检测方法及装置
WO2021129181A1 (en) Portrait segmentation method, model training method and electronic device
CN109086753B (zh) 基于双通道卷积神经网络的交通标志识别方法、装置
CN110288602A (zh) 滑坡提取方法、滑坡提取系统及终端
Zhang et al. CNN cloud detection algorithm based on channel and spatial attention and probabilistic upsampling for remote sensing image
CN111898432A (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN112287983B (zh) 一种基于深度学习的遥感图像目标提取系统和方法
CN115035295B (zh) 一种基于共享卷积核和边界损失函数的遥感图像语义分割方法
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及系统
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN112016569A (zh) 基于注意力机制的目标检测方法、网络、设备和存储介质
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN114359297A (zh) 基于注意力金字塔的多分辨率语义分割方法及装置
CN112381030A (zh) 一种基于特征融合的卫星光学遥感图像目标检测方法
CN115861380A (zh) 雾天低照度场景下端到端无人机视觉目标跟踪方法及装置
CN115995042A (zh) 一种视频sar运动目标检测方法及装置
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN113569911A (zh) 车辆识别方法、装置、电子设备及存储介质
CN113408528B (zh) 商品图像的质量识别方法、装置、计算设备及存储介质
CN115205624A (zh) 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant