CN116503618A - 一种基于多模态多级特征聚合的显著目标检测方法及装置 - Google Patents

一种基于多模态多级特征聚合的显著目标检测方法及装置 Download PDF

Info

Publication number
CN116503618A
CN116503618A CN202310454178.2A CN202310454178A CN116503618A CN 116503618 A CN116503618 A CN 116503618A CN 202310454178 A CN202310454178 A CN 202310454178A CN 116503618 A CN116503618 A CN 116503618A
Authority
CN
China
Prior art keywords
layer
feature
features
heat
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310454178.2A
Other languages
English (en)
Other versions
CN116503618B (zh
Inventor
毕洪波
童婧辉
张丛
吴然万
张佳圆
付晓伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanya Offshore Oil And Gas Research Institute Of Northeast Petroleum University
Original Assignee
Sanya Offshore Oil And Gas Research Institute Of Northeast Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanya Offshore Oil And Gas Research Institute Of Northeast Petroleum University filed Critical Sanya Offshore Oil And Gas Research Institute Of Northeast Petroleum University
Priority to CN202310454178.2A priority Critical patent/CN116503618B/zh
Publication of CN116503618A publication Critical patent/CN116503618A/zh
Application granted granted Critical
Publication of CN116503618B publication Critical patent/CN116503618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种基于多模态多级特征聚合的显著目标检测方法及装置,包括:对彩色图像和热度图执行逐级多层特征提取,得到五层图像特征和五层热度特征;将五层热度特征分别进行热度信息提取,得到五层细化热度特征;将五层图像特征与相同层的细化热度特征进行融合,得到五层融合特征;将第三到五层的融合特征进行多级特征聚合处理,得到高层聚合特征;将高层聚合特征分别与第一到三层的融合特征进行指导与多级特征聚合处理,得到低层聚合特征;利用低层聚合特征检测彩色图像和热度图中的显著目标。本申请提出了一种新的热度信息提取模块,采用多级特征聚合策略,将各层特征图分为两步,由高级特征向低级特征聚合,可提高显著目标的检测精度。

Description

一种基于多模态多级特征聚合的显著目标检测方法及装置
技术领域
本申请属于图像处理技术领域,具体涉及一种基于多模态多级特征聚合的显著目标检测方法及装置。
背景技术
显著目标检测旨在识别图像中视觉上最明显的物体或区域。近年来显著目标检测引起了广泛的关注。作为一个预处理步骤,显著目标检测在许多计算机视觉任务中起着重要作用,包括视觉跟踪、目标识别、基于内容的图像压缩、图像融合等。虽然目前已经提出了许多显著性物体检测方法,但大多数仅为RGB图像设计,在光照差、背景复杂、低对比度等具有挑战性的环境条件下,可能无法区分显著物体和背景。最近,考虑到彩色图与热度图的互补优势,一些工作也尝试利用热度图像来提高显著性检测性能。Li等人提出了一种基于跨模态一致性的RGB-T显著目标排序的鲁棒多任务流形检测方法——“Aunified RGB-Tsaliencydetectionbenchmark:dataset,baselines,analysisanda novelapproach”。Ma等人提出了一种自适应的、通过学习多尺度深度CNN特征和SVM回归变量的RGB-T显著性检测方法——“Learningmultiscaledeep featuresandSVMregressorsforadaptiveRGB-Tsaliencydetection”。“RGB-Timagesaliencydetectionviacollaborativegraphlearning”提出了一种新的RGB-T图像显著性检测的协同图学习算法。具体来说,该方法以超像素作为图节点,在一个统一的优化框架下,协同使用层次深度特征,共同学习图的亲和性和节点显著性。然而,目前的算法未充分融合热度图与彩色图之间的共性特征,并缺乏对于各个特征层的信息挖掘,从而导致检测结果不完整或边缘模糊。为了解决这些问题,本申请提出一种通过融合RGB和热红外图像的多模态多级特征聚合网络实现显著目标检测方法。
发明内容
本申请提出了一种基于多模态多级特征聚合的显著目标检测方法及装置,用以解决现有技术中难以有效提取热度特征以及融合多级特征的技术问题。本申请实施例能够充分探索和利用不同模式和图像间的多模态线索的互补性潜力,可提高显著目标的检测精度。
一种基于多模态多级特征聚合的显著目标检测方法,方法包括如下步骤:
S1、对待检测目标的彩色图像和热度图分别执行逐级多层特征提取,得到五层的图像特征和五层的热度特征;
S2、对所述热度特征的每一层分别进行热度信息提取,得到五层的细化热度特征;
S3、将所述图像特征与所述细化热度特征的相同层进行融合,得到五层的融合特征;
S4、将所述融合特征的第三、四、五层进行多级特征聚合处理,得到高层聚合特征;
S5、将所述高层聚合特征分别与所述融合特征的第一、二、三层进行指导与多级特征聚合处理,得到低层聚合特征;
S6、利用所述低层聚合特征检测所述彩色图像和所述热度图中的显著目标。
可选的,所述S2得到细化热度特征的过程包括:
对每一层的热度特征执行通道注意力提取处理,得到注意力系数;
对所述注意力系数与所述热度特征执行矩阵乘法操作,得到矫正热度特征;
对所述矫正热度特征取平均值与最大值操作,并进行通道拼接;
对拼接后的热度特征进行矩阵乘法操作,得到所述细化热度特征。
可选的,所述S3具体包括;
将所述图像特征和所述细化热度特征的相同层构造为一个特征组;
将所述特征组内的图像特征和细化热度特征进行融合,对应得到融合特征。
可选的,所述S4具体包括:
将第五层的图像特征与第五层的细化热度特征进行融合,得到第五融合特征;
对所述第五融合特征执行定位信息提取,得到第五定位特征;
对所述第五定位特征依次进行取最大值操作、卷积操作与sigmoid操作,得到第五定位系数;
将所述第五定位系数与所述第五定位特征相乘,得到第五细化特征,将所述第五细化特征与第四融合特征相加,得到第四聚合特征;
对所述第四聚合特征进行定位信息提取,得到第四定位特征;
对所述第四定位特征依次进行取最大值操作、卷积操作与sigmoid操作,得到第四定位系数;
将所述第四定位系数与所述第四定位特征相乘,并与第四层融合特征相加,得到第四聚合特征;
将第三融合特征与所述第四聚合特征相加,并与第五细化特征进行通道拼接,得到高层聚合特征。
可选的,所述S5中,得到低层聚合特征的方法包括:
对所述高层聚合特征进行sigmoid操作,得到高级特征系数;
将所述高级特征系数分别与所述融合特征的第一、二、三层执行元素乘法,分别得到第一、二、三层的加权融合特征;
对所述第一、二、三层的加权融合特征进行堆积特征聚合处理,得到低层聚合特征。
可选的,所述S6中,利用所述低层聚合特征检测所述彩色图像和所述热度图中的显著目标的方法包括:
对所述低层聚合特征进行卷积操作,得到输出通道数为1的低层聚合特征;
对所述通道数为1的低层聚合特征执行上采样操作,确定显著目标。
还包括一种基于多模态多级特征聚合的显著目标检测装置,包括多层特征提取模块、热度信息提取模块、特征融合模块、高层聚合特征模块、低层聚合特征模块和检测目标模块;
所述多层特征提取模块用于对待检测目标的彩色图像和热度图分别执行逐级多层特征提取,得到五层的图像特征和五层的热度特征;
所述热度信息提取模块用于对所述热度特征的每一层分别进行热度信息提取,得到五层的细化热度特征;
所述特征融合模块用于将所述图像特征与所述细化热度特征的相同层进行融合,得到五层的融合特征;
所述高层聚合特征模块用于将所述融合特征的第三、四、五层进行多级特征聚合处理,得到高层聚合特征;
所述低层聚合特征模块用于将所述高层聚合特征分别与所述融合特征的第一、二、三层进行指导与多级特征聚合处理,得到低层聚合特征;
所述检测目标模块用于利用所述低层聚合特征检测所述彩色图像和所述热度图中的显著目标。
可选的,所述热度信息提取模块包括:
对每一层的热度特征执行通道注意力提取处理,得到注意力系数;
将所述注意力系数与所述热度特征执行矩阵乘法操作,得到矫正热度特征;
将所述矫正热度特征取平均值与最大值操作,并进行通道拼接;
将拼接后的热度特征进行矩阵乘法操作,得到细化热度特征。
与现有技术相比,本申请的有益效果为:
1.本申请所提出的模型能够实现对单模态特征的深度挖掘和跨模态信息的充分集成,提出了一种新的用于RGB-T显著性目标检测的多模态多级特征聚合网络。具体来说,提出了一种热度信息提取模块(TIEM)来挖掘热度信息并提供全局多模态信息定位。并且,本申请设计了一个多级特征聚合模块(MFAM),该模块可对多模态信息进行更深入的探索和更有效的跨模态、跨层信息融合。该模块能够以交叉引导的形式有效地集成多级特征,并逐步补充图像解码过程中的细节特征。
2.本申请可以更好地提取热度图特征,通过热度信息提取模块(TIEM)采集热度图中有价值的信息并加以有效利用,可以弥补RGB图的缺陷,提取出RGB图像中未包含的热度信息,并有益于后续的特征融合与判别,提高模型的检测精度;
3.本申请所提出的多级特征聚合模块(MFAM)分为两个阶段,首先聚合第三、四、五层的融合特征,获得高层聚合特征后再利用所述高层特征对低层融合特征进行指导,并将第一、二、三层的融合特征再次进行特征聚合,有效聚合了各个特征层的多维度信息并抑制噪音。此种方法能够充分利用有效信息。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的基于多模态多级特征聚合的显著目标检测方法及装置的流程图;
图2为本申请实施例的基于多模态多级特征聚合的显著目标检测方法的网络结构示意图;
图3为本申请实施例的热度信息提取模块的流程图;
图4为本申请实施例的热度信息提取的网络结构示意图;
图5为本申请实施例的定位信息提取模块的流程图;
图6为本申请实施例的多级特征聚合模块的网络结构示意图;
图7为本申请实施例的多级特征聚合模块的高层特征聚合部分流程图;
图8为本申请实施例的多级特征聚合模块的低层特征聚合部分流程图;
图9为本申请实施例的检测模块的流程图;
图10为本申请实施例的显著目标检测装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本实施例中,如图1与图8所示,一种基于多模态多级特征聚合的显著目标检测方法及装置,包括:
S1、对彩色图像和热度图执行逐级多层特征提取,得到五层的图像特征和五层的热度特征;
在一些可能的实施方式中,可以利用图像采集器获得热度图像,该热度图像可以包括RGB三通道的彩色图像以及对应的热度图,其中,彩色图像和热度图中的像素点是一一对应的。本申请对具有映射关系的彩色图像和热度图进行处理,得到其中显著目标的位置。
将步骤S10得到的得到五层的热度特征和图像特征分别用符号F1 T,F2 T,F3 T,F4 T,F5 T与F1 R,F2 R,F3 R,F4 R,F5 R表示,其中,T与R分别代表热红外图或RGB图;
本申请实施例可以对彩色图像和相应的热度图执行特征提取处理,通过设置多层特征提取,可以得到不同层次的特征信息。在一个示例中,可以利用多个卷积块对彩色图像和深度图分别依次进行特征提取,得到五层图像特征和热度特征。
S2、将所述五层的热度特征分别进行热度信息提取,得到五层细化热度特征;其中,相同层的图像特征和细化热度特征构造为一个特征组;
在一些可能的实施方式中,热度信息提取操作包括全局最大池化(GMP)、基础卷积操作(CBR)以及ReLU激活函数。全局最大池化用于提取热度图中最显著的像素特征,卷积操作用于将图像通道数降为原来的16倍,提取图像通道特征信息,并使用ReLU防止梯度爆炸,后再利用卷积操作将通道数还原。
S3、将所述五层的图像特征与相同层的所述细化热度特征进行融合,得到五层融合特征;
在一些可能的实施方式中,可以对一组特征组的图像特征和细化热度特征执行融合处理,融合方式为元素加法。具体地说,第一层的图像特征与细化热度特征的尺寸分别为352×352×1,第二层的图像特征与细化热度特征的尺寸分别为256×256×64,第三层的图像特征与细化热度特征的尺寸分别为88×88×256,第四层的图像特征与细化热度特征的尺寸为44×44×512,第五层的图像特征与细化热度特征的尺寸为22×22×1024。在各个层,图像特征与细化热度特征的尺寸都相同,因此能够执行逐元素加法操作进行特征融合。
S4、将第三、四、五层的融合特征进行多级特征聚合处理,得到高层聚合特征;
在一些可能的实施方式中,多级特征聚合处理的方式包括定位信息提取模块,卷积,池化,Sigmoid操作等。具体地说,先将第五融合特征进行定位信息的提取,得到第五定位信息后分别经过基础卷积层、最大池化、Sigmoid操作后再与第四融合特征执行元素加法,再次经过定位信息提取模块以及基础卷积层、最大池化、Sigmoid操作,并与第三融合特征执行元素加法操作,最后得到所述高层聚合特征。
S5、将所述高层聚合特征分别与第一、二、三层的融合特征进行指导与多级特征聚合处理,得到低层聚合特征;
在一些可能的实施方式中,将高层聚合特征分别经过定位信息提取模块以及基础卷积层、最大池化、Sigmoid操作,并与第一、二层的融合特征执行元素加法,得到所述低层聚合特征。
S6、利用所述低层聚合特征检测所述彩色图像和所述热度图中的显著目标。
在一些可能的实施方式中,利用对低层聚合特征的卷积处理和归一化处理可以得到显著目标的位置信息,实现显著目标的准确检测。其中,显著目标可以为一个,也可以为多个,本申请可实现多显著目标的检测。
基于上述配置,本申请实施例将彩色图特征和热度图特征融合到一个统一的框架中进行精确的显著性检测,通过热度信息提取可以得到热度特征的空间结构信息,进而与彩色RGB特征进行融合从而得到融合特征,然后通过多级特征聚合处理分别聚合第五、第四、第三层的融合特征和第三、第二、第一层的融合特征,对应得到高层聚合特征与低层聚合特征,并最后由低层聚合特征得到预测结果图,有效实现热度特征提取以及多级特征的融合,提高显著目标的检测精度。本申请提出的多级特征聚合模块可以提取多种类型的线索,包括模式、空间细节和全局背景之间的相关性。本申请实施例能够充分探索和利用不同模式和图像间的多模态线索的互补性潜力,可提高显著目标的检测精度。
下面结合附图对本申请实施例进行详细说明。首先,本申请实施例获取热度图像的方式可以包括以下方式中的至少一种:
直接利用热度相机采集热度图像;
B)通过电子设备传送并接收热度图像;
本申请实施例可以通过通信的方式接收其他电子设备传送的深度图像,通信方式可以包括有线通信和/或无线通信;
C)读取数据库中存储的热度图像;
本申请实施例可以根据接收到的数据读取指令读取本地存储的热度图像或者服务器内存储的热度图像,本申请对此不做具体限定。
在获得热度图像之后,可以对热度图像执行显著目标检测。其中,首先对彩色图像和热度图执行特征提取,得到多尺度特征(本申请实施例的多层特征)。本申请实施例可以利用Res2Net-50骨干网络执行该多层特征的提取。图2表示出根据本申请实施例中的目标检测网络的结构示意图。在一个示例中,本申请实施例中的特征提取模块可以包括Res2Net-50的5个卷积块,该5个卷积块依次用于分别提取彩色图和热度图不同尺度的特征信息,分别得到热度图的第一热度基础特征、第二热度基础特征、第三热度基础特征、第四热度基础特征、第五热度基础特征,以及彩色图的第一RGB基础特征、第二RGB基础特征、第三RGB基础特征、第四RGB基础特征、第五RGB基础特征,为后续特征的融合和交互提供基础。
图3表示出根据本申请实施例的热度信息提取模块的流程图。其中,将所述五层的热度基础特征分别执行热度信息提取,对应得到五层细化热度特征,其中,相同层的图像特征和细化热度特征构造为一个特征组,包括:
对所述每一层热度特征执行通道注意力提取处理,得到注意力系数;
将所述注意力系数与所述热度特征执行矩阵乘法操作,得到矫正热度特征;
将所述矫正热度特征执行取平均值与取最大值操作,并进行通道拼接,并与矫正热度特征执行矩阵乘法操作,得到细化热度特征。
图4表示出根据本申请实施例的热度信息提取的网络结构示意图。在一个实施例中,将来自骨干网络的五层热度特征作为输入特征,输入到热度信息提取模块进行热度信息提取。
下面以输入特征为例说明提取过程。首先,对输入特征执行核为1的全局最大池化操作,而后依次执行2次卷积核为3的基础卷积操作,得到注意力系数,并与所述热度特征执行矩阵乘法操作,得到矫正热度特征/>
将矫正热度特征分为三个分支,第一分支进行取平均值操作,第二分支进行取最大值操作,第三分支为残差连接。将第一第二分支进行通道拼接后与第三分支执行矩阵乘法操作,得到细化热度特征。
通过取平均值操作和取最大值操作能够实现多样化的特征融合与增强,有助于提高显著目标检测精度。该用于热度信息提取的计算模型可以表示为:
其中,表示热度特征,/>表示矫正热度特征,表示细化热度特征,GMP表示全局最大池化,CBR表示先进行基础卷积,再进行批量归一化、Relu操作。Mean表示取平均值操作,Max表示取最大值操作,Cat表示通道拼接操作。
基于上述配置,可以通过五层热度基础特征得到细化热度特征,继而可以利用元素加法执行细化热度特征与RGB基础特征的特征交互融合,并对第五融合特征进行定位信息的提取,包括:
将来自同一层的图像特征与细化热度特征融合,得到融合特征;
对第五层融合特征执行定位信息提取,得到第五定位特征;
在一些可能的方式中,特征交互融合可以进一步有效利用多模态特征。首先利用逐元素加法对五层的图像特征与细化特征进行融合,得到五层融合特征。然后对第五融合特征执行定位信息提取。
图5表示出根据本申请实施例的定位信息提取模块的流程图。具体地,定位信息提取的目的是获取语义增强的深层次特征,并进一步生成物体位置信息。定位信息提取模块由通道注意力模块和空间注意力模块组成。这两个模块都是以全局方式实现的,以获取通道和空间位置方面的长范围的依赖关系,从全局角度增强最深层次特征的语义表示。
具体来说,给定输入特性F∈RC×H×W,其中C、H和W分别表示通道数量、特征的高度和宽度,本实例先分别改变F的形状以分别得到查询Q、键K和值V,其中{Q,K,V}∈RC×N,N=H×W是像素个数。然后本实例在Q和K的转置之间执行矩阵乘法,并应用Softmax层来得到通道注意图X∈RC×C。然后,本实例在X和V之间执行矩阵乘法,并将整合的注意特征的形状改变为RC ×H×W。最后,为了提高容错能力,本实例将结果乘以一个可学习的比例参数γ并执行跳跃连接操作以获得最终输出第五定位特征FP'M=RC×H×W
本申请实施例利用多级特征聚合模块对第五、第四、第三融合特征执行特征聚合,得到高层聚合特征,并再次对高层聚合特征与第二、第一融合特征执行多级特征聚合,得到低层聚合特征。图7表示出根据本申请实施例的多级特征聚合模块的高级特征聚合部分的流程,包括:
对所述第五定位特征依次执行卷积操作、取最大值操作、与Sigmoid操作,得到第五定位系数;
将所述第五定位系数与所述第五定位特征相乘,得到第五细化特征,将所述第五细化特征与第四层融合特征相加,得到第四聚合特征;
对第四聚合特征执行定位信息提取,得到第四定位特征;
对所述第四定位特征重复执行S42,得到第四定位系数;
将所述第四定位系数与所述第四定位特征相乘,并与第四层融合特征相加,得到第四聚合特征;
将第三层融合特征与所述第四聚合特征相加,并与第五细化特征进行通道拼接,得到高层聚合特征。
图6表示出根据本申请实施例的多级特征聚合模块的网络结构示意图;在一个实施例中,将第五定位特征作为输入特征,并对第五特征依次执行取最大值操作、卷积操作与Sigmoid操作,得到第五定位系数;对第五定位系数与第五定位特征执行逐元素乘法,得到第五细化特征,并将第五细化特征与第四层融合特征执行逐元素乘法,得到第四聚合特征;对第四聚合特征执行定位信息提取,得到第四定位特征。通过重复调用定位信息提取模块,能够进一步深化增强目标的语义信息。
将所述第四定位系数与所述第四定位特征相乘,并引入残差学习的思想,与第四层融合特征相加,得到第四聚合特征。通过残差学习,可以更好地保留原始信息,避免模型过拟合。将第三层融合特征与所述第四聚合特征相加,并与第五细化特征进行通道拼接,得到高层聚合特征。
通过不同层之间的信息融合,模型可以学习到各个尺度的特征,提高对于显著性目标的辨别能力。该用于多级特征聚合的计算模型可以表示为:
其中,表示第五融合特征,/>表示第五细化特征,/>表示第四融合特征,表示第四聚合特征,/>表示第四细化特征,/>表示高层聚合特征,δ表示Sigmid操作,PM表示定位信息提取模块,Con表示基础卷积操作,Mean表示取取平均值操作,Max表示取最大值操作。
图8表示出本申请实例的多级特征聚合模块的低层特征聚合部分流程图。在一些可能的实施方式中,将所述高层聚合特征分别与第一、二、三层的融合特征进行指导,并再次执行多级特征聚合处理,得到低层聚合特征,包括:
对高级聚合特征执行Sigmoid操作,得到高级特征系数;
将高级特征系数分别与第一、二、三层的融合特征执行元素乘法,分别得到第一、二、三层的加权融合特征;
对所述第一、二、三层的加权融合特征执行多级特征聚合处理,得到低层聚合特征。
其中,图像的低层信息指的是轮廓、边缘、颜色、纹理和形状特征。图像的高层信息指的是目标位置等粗略信息。“指导”是一个由训练得到的自适应权重,主要包含高层语义信息。“指导”是利用高层信息与低层信息相融合,融合方式为逐元素乘法,从而得到图像的全部特征信息。
图9表示出本申请实例的检测模块的流程图。在一些可能的实施方式中,利用所述低层聚合特征确定所述彩色图像和热度图中显著目标,包括:
对所述低层聚合特征执行卷积操作,得到输出通道数为1的低层聚合特征;
对所述通道数为1的低层聚合特征执行上采样操作,确定所述显著目标。
本申请实施例可以将特征图中概率大于阈值的像素点的取值调整为1,其余为0,从而分类出显著目标。其中,阈值可以为0.5,但不作为本申请具体限定。
另外,本申请实施例的基于多模态多级特征聚合的显著目标检测过程可以通过深度学习神经网络实现,该网络结构如图2所示,在训练该网络时,可以采用多类数据集以增加网络的鲁棒性,其中,本申请利用3个公开的RGB-T显著性检测基准数据集(VT821、VT5000、VT1000)进行网络的训练和测试,对来自VT5000数据集的2500个样本进行训练,使用来自VT5000数据集的其余图像和VT821和VT1000数据集的全部图像进行测试。本申请使用四种评价指标全面评价网络,评价指标包括S-measure(Sα),最大E-measure(Eξ),最大F-measure(Fβ),平均绝对误差(MAE)。表1示出评价结果。
表1为本申请实施例的网络模型及现有网络的在三个数据集上针对评价指标的结果对比。其中,加粗字体表示为最优数据。从表1中可以看出,本申请所提出的方法具有优异的性能。
表1
实施例二:
本实施例还包括一种基于多模态多级特征聚合的显著目标检测装置,如图10所示,具体包括多层特征提取模块、热度信息提取模块、特征融合模块、高层聚合特征模块、低层聚合特征模块和检测目标模块;
多层特征提取模块用于对待检测目标的彩色图像和热度图分别执行逐级多层特征提取,得到五层的图像特征和五层的热度特征;
热度信息提取模块用于对热度特征的每一层分别进行热度信息提取,得到五层的细化热度特征;
特征融合模块用于将图像特征与细化热度特征的相同层进行融合,得到五层的融合特征;
高层聚合特征模块用于将融合特征的第三、四、五层进行多级特征聚合处理,得到高层聚合特征;
低层聚合特征模块用于将高层聚合特征分别与融合特征的第一、二、三层进行指导与多级特征聚合处理,得到低层聚合特征;
检测目标模块用于利用低层聚合特征检测彩色图像和热度图中的显著目标。
将五层的热度特征分别执行热度信息提取,对应得到五层细化热度特征,相同层的图像特征和细化热度特征特征构造为一个特征组;
将特征组内的图像特征和细化热度特征进行融合,对应得到五层融合特征。
得到细化热度特征的过程包括:
对每一层的热度特征执行通道注意力提取处理,得到注意力系数;
将注意力系数与热度特征执行矩阵乘法操作,得到矫正热度特征;
将矫正热度特征取平均值与最大值操作,并进行通道拼接;
将拼接后的热度特征进行矩阵乘法操作,得到细化热度特征。
得到高层聚合特征的过程包括:
将同一层的图像特征与细化热度特征进行融合,得到融合特征;
基于融合特征获取定位特征;
根据定位特征得到定位系数;
根据定位特征与定位系数,得到聚合特征;
将融合特征与聚合特征相加,然后进行通道拼接,得到高层聚合特征。
将同一层的图像特征与细化热度特征进行融合,得到融合特征;
对第五层融合特征执行定位信息提取,得到第五定位特征;
对第五定位特征依次进行取最大值操作、卷积操作与sigmoid操作,得到第五定位系数;
将第五定位系数与第五定位特征相乘,得到第五细化特征,将第五细化特征与第四层融合特征相加,得到第四聚合特征;
对第四聚合特征进行定位信息提取,得到第四定位特征;
对第四定位特征依次进行取最大值操作、卷积操作与sigmoid操作,得到第四定位系数;
将第四定位系数与第四定位特征相乘,并与第四层融合特征相加,得到第四聚合特征;
将第三层融合特征与第四聚合特征相加,并与第五细化特征进行通道拼接,得到高层聚合特征。
得到低层聚合特征的方法包括:
高层聚合特征进行sigmoid操作,得到高级特征系数;
高级特征系数分别与第一、二、三层的融合特征执行元素乘法,分别得到第一、二、三层的加权融合特征;
对第一、二、三层的加权融合特征进行堆积特征聚合处理,得到低层聚合特征。
利用低层聚合特征检测彩色图像和热度图中的显著目标的方法包括:
对低层聚合特征进行卷积操作,得到输出通道数为1的低层聚合特征;
对通道数为1的低层聚合特征执行上采样操作,确定显著目标。
实施例三:
本申请实施例还提供一种电子设备与存储介质,电子设备包括:处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为调用存储器存储的指令,以执行第一方面中任意一项的方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面中任意一项的方法。
在本公开实施例中,首先对对彩色图像和热度图执行逐级多层特征提取,对应得到五层的图像特征和热度特征;将五层的热度特征分别执行热度信息提取,对应得到五层细化热度特征,其中,相同层的图像特征和细化热度特征构造为一个特征组;将至少两个特征组内的图像特征和细化热度特征进行融合,对应得到五层融合特征,并将第三、四、五层的融合特征执行多级特征聚合处理,得到高层聚合特征;将高层聚合特征分别与第一、二、三层的融合特征进行指导,并再次执行多级特征聚合处理,得到低层聚合特征;利用低层聚合特征确定彩色图像和热度图中显著目标。本公开实施例通过对多模态特征的融合以及高层特征与低层特征之间的交互,实现了RBG图像与热度图的细节特征的提取和融合,提高了显著目标的检测精度。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

Claims (8)

1.一种基于多模态多级特征聚合的显著目标检测方法,其特征在于,方法包括如下步骤:
S1、对待检测目标的彩色图像和热度图分别执行逐级多层特征提取,得到五层的图像特征和五层的热度特征;
S2、对所述热度特征的每一层分别进行热度信息提取,得到五层的细化热度特征;
S3、将所述图像特征与所述细化热度特征的相同层进行融合,得到五层的融合特征;
S4、将所述融合特征的第三、四、五层进行多级特征聚合处理,得到高层聚合特征;
S5、将所述高层聚合特征分别与所述融合特征的第一、二、三层进行指导与多级特征聚合处理,得到低层聚合特征;
S6、利用所述低层聚合特征检测所述彩色图像和所述热度图中的显著目标。
2.根据权利要求1所述的基于多模态多级特征聚合的显著目标检测方法,其特征在于,所述S2得到细化热度特征的过程包括:
对每一层的热度特征执行通道注意力提取处理,得到注意力系数;
对所述注意力系数与所述热度特征执行矩阵乘法操作,得到矫正热度特征;
对所述矫正热度特征取平均值与最大值操作,并进行通道拼接;
对拼接后的热度特征进行矩阵乘法操作,得到所述细化热度特征。
3.根据权利要求2所述的基于多模态多级特征聚合的显著目标检测方法,其特征在于,所述S3具体包括;
将所述图像特征和所述细化热度特征的相同层构造为一个特征组;
将所述特征组内的图像特征和细化热度特征进行融合,对应得到融合特征。
4.根据权利要求3所述的基于多模态多级特征聚合的显著目标检测方法,其特征在于,所述S4具体包括:
将第五层的图像特征与第五层的细化热度特征进行融合,得到第五融合特征;
对所述第五融合特征执行定位信息提取,得到第五定位特征;
对所述第五定位特征依次进行取最大值操作、卷积操作与sigmoid操作,得到第五定位系数;
将所述第五定位系数与所述第五定位特征相乘,得到第五细化特征,将所述第五细化特征与第四融合特征相加,得到第四聚合特征;
对所述第四聚合特征进行定位信息提取,得到第四定位特征;
对所述第四定位特征依次进行取最大值操作、卷积操作与sigmoid操作,得到第四定位系数;
将所述第四定位系数与所述第四定位特征相乘,并与第四层融合特征相加,得到第四聚合特征;
将第三融合特征与所述第四聚合特征相加,并与第五细化特征进行通道拼接,得到高层聚合特征。
5.根据权利要求3所述的基于多模态多级特征聚合的显著目标检测方法,其特征在于,所述S5中,得到低层聚合特征的方法包括:
对所述高层聚合特征进行sigmoid操作,得到高级特征系数;
将所述高级特征系数分别与所述融合特征的第一、二、三层执行元素乘法,分别得到第一、二、三层的加权融合特征;
对所述第一、二、三层的加权融合特征进行堆积特征聚合处理,得到低层聚合特征。
6.根据权利要求5所述的基于多模态多级特征聚合的显著目标检测方法,其特征在于,所述S6中,利用所述低层聚合特征检测所述彩色图像和所述热度图中的显著目标的方法包括:
对所述低层聚合特征进行卷积操作,得到输出通道数为1的低层聚合特征;对所述通道数为1的低层聚合特征执行上采样操作,确定显著目标。
7.一种基于多模态多级特征聚合的显著目标检测装置,其特征在于,包括多层特征提取模块、热度信息提取模块、特征融合模块、高层聚合特征模块、低层聚合特征模块和检测目标模块;
所述多层特征提取模块用于对待检测目标的彩色图像和热度图分别执行逐级多层特征提取,得到五层的图像特征和五层的热度特征;
所述热度信息提取模块用于对所述热度特征的每一层分别进行热度信息提取,得到五层的细化热度特征;
所述特征融合模块用于将所述图像特征与所述细化热度特征的相同层进行融合,得到五层的融合特征;
所述高层聚合特征模块用于将所述融合特征的第三、四、五层进行多级特征聚合处理,得到高层聚合特征;
所述低层聚合特征模块用于将所述高层聚合特征分别与所述融合特征的第一、二、三层进行指导与多级特征聚合处理,得到低层聚合特征;
所述检测目标模块用于利用所述低层聚合特征检测所述彩色图像和所述热度图中的显著目标。
8.根据权利要求7所述的基于多模态多级特征聚合的显著目标检测装置,其特征包括,所述热度信息提取模块包括:
对每一层的热度特征执行通道注意力提取处理,得到注意力系数;
将所述注意力系数与所述热度特征执行矩阵乘法操作,得到矫正热度特征;
将所述矫正热度特征取平均值与最大值操作,并进行通道拼接;
将拼接后的热度特征进行矩阵乘法操作,得到细化热度特征。
CN202310454178.2A 2023-04-25 2023-04-25 一种基于多模态多级特征聚合的显著目标检测方法及装置 Active CN116503618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310454178.2A CN116503618B (zh) 2023-04-25 2023-04-25 一种基于多模态多级特征聚合的显著目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310454178.2A CN116503618B (zh) 2023-04-25 2023-04-25 一种基于多模态多级特征聚合的显著目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN116503618A true CN116503618A (zh) 2023-07-28
CN116503618B CN116503618B (zh) 2024-02-02

Family

ID=87324189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310454178.2A Active CN116503618B (zh) 2023-04-25 2023-04-25 一种基于多模态多级特征聚合的显著目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN116503618B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229531A (zh) * 2017-09-29 2018-06-29 北京市商汤科技开发有限公司 对象特征处理方法、装置、存储介质和电子设备
CN110334708A (zh) * 2019-07-03 2019-10-15 中国科学院自动化研究所 跨模态目标检测中的差异自动校准方法、系统、装置
CN111104943A (zh) * 2019-12-17 2020-05-05 西安电子科技大学 基于决策级融合的彩色图像感兴趣区域提取方法
CN112801164A (zh) * 2021-01-22 2021-05-14 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备及存储介质
CN114066899A (zh) * 2021-11-11 2022-02-18 深圳市人工智能与机器人研究院 图像分割模型训练、图像分割方法、装置、设备及介质
CN114067273A (zh) * 2021-11-23 2022-02-18 江苏科技大学 一种夜间机场航站楼热成像显著人体分割检测方法
CN114154563A (zh) * 2021-11-16 2022-03-08 北京航空航天大学 基于混合监督训练的目标检测方法
CN114373110A (zh) * 2021-12-09 2022-04-19 深圳云天励飞技术股份有限公司 对输入图像进行目标检测的检测方法、设备及其相关产品
CN115049923A (zh) * 2022-05-30 2022-09-13 北京航空航天大学杭州创新研究院 Sar图像舰船目标实例分割训练方法、系统及装置
CN115661482A (zh) * 2022-11-11 2023-01-31 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229531A (zh) * 2017-09-29 2018-06-29 北京市商汤科技开发有限公司 对象特征处理方法、装置、存储介质和电子设备
CN110334708A (zh) * 2019-07-03 2019-10-15 中国科学院自动化研究所 跨模态目标检测中的差异自动校准方法、系统、装置
CN111104943A (zh) * 2019-12-17 2020-05-05 西安电子科技大学 基于决策级融合的彩色图像感兴趣区域提取方法
CN112801164A (zh) * 2021-01-22 2021-05-14 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备及存储介质
CN114066899A (zh) * 2021-11-11 2022-02-18 深圳市人工智能与机器人研究院 图像分割模型训练、图像分割方法、装置、设备及介质
CN114154563A (zh) * 2021-11-16 2022-03-08 北京航空航天大学 基于混合监督训练的目标检测方法
CN114067273A (zh) * 2021-11-23 2022-02-18 江苏科技大学 一种夜间机场航站楼热成像显著人体分割检测方法
CN114373110A (zh) * 2021-12-09 2022-04-19 深圳云天励飞技术股份有限公司 对输入图像进行目标检测的检测方法、设备及其相关产品
CN115049923A (zh) * 2022-05-30 2022-09-13 北京航空航天大学杭州创新研究院 Sar图像舰船目标实例分割训练方法、系统及装置
CN115661482A (zh) * 2022-11-11 2023-01-31 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毕洪波等: ""多层次特征融合的视频显著目标检测系统设计"", 《实验宝研究与探索》, vol. 41, no. 3, pages 94 - 98 *

Also Published As

Publication number Publication date
CN116503618B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN111444826B (zh) 视频检测方法、装置、存储介质及计算机设备
CN111582178B (zh) 基于多方位信息和多分支神经网络车辆重识别方法及系统
CN113988147B (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、系统
CN111275694B (zh) 一种注意力机制引导的递进式划分人体解析系统及方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN115965968A (zh) 基于知识引导的小样本目标检测识别方法
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN111178370B (zh) 车辆检索方法及相关装置
CN112926667A (zh) 深度融合边缘与高层特征的显著性目标检测方法及装置
CN116503618B (zh) 一种基于多模态多级特征聚合的显著目标检测方法及装置
CN114387489A (zh) 电力设备识别方法、装置和终端设备
Pei et al. FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction
CN114445618A (zh) 一种跨模态交互rgb-d图像显著区域检测方法
CN117218720B (zh) 一种复合注意力机制的足迹识别方法、系统及相关装置
CN114998702B (zh) 基于BlendMask的实体识别、知识图谱生成方法及系统
CN116486101B (zh) 一种基于窗口注意力的图像特征匹配方法
CN116977754A (zh) 图像处理方法、装置及计算机设备、存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant