CN115439726A - 一种图像检测方法、装置、设备及存储介质 - Google Patents

一种图像检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115439726A
CN115439726A CN202211383465.0A CN202211383465A CN115439726A CN 115439726 A CN115439726 A CN 115439726A CN 202211383465 A CN202211383465 A CN 202211383465A CN 115439726 A CN115439726 A CN 115439726A
Authority
CN
China
Prior art keywords
image
features
feature
fusion
fusing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211383465.0A
Other languages
English (en)
Other versions
CN115439726B (zh
Inventor
姚舜禹
杨继超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211383465.0A priority Critical patent/CN115439726B/zh
Publication of CN115439726A publication Critical patent/CN115439726A/zh
Application granted granted Critical
Publication of CN115439726B publication Critical patent/CN115439726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像检测方法、装置、设备及存储介质,可应用于人工智能、云技术、智慧交通、车载等各种场景,该方法包括:在对待检测图像进行特征提取过程中,迭代注入空间定位图像对应的原始辅助特征,获得多个判别图像特征。将多个判别图像特征进行融合后联合待检测图像的初步图像特征,预测待检测图像包含的显著性区域。由于在显著性目标检测过程中,既使用了外观信息,又使用了空间定位信息,因此在复杂场景下也能获得较高的准确性。采用注射的方式将原始辅助特征与待检测图像的图像特征进行融合,没有采用编码器来提取辅助特征,这样既获得了更好的融合效果,提高显著性目标检测过程的准确性,同时降低了模型架构的模型参数量。

Description

一种图像检测方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种图像检测方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,越来越多的计算机视觉任务可以获得较好的准确性,显著性目标检测(Salient Object Detection,简称SOD)作为计算机视觉任务的预处理步骤,也发挥着越来越重要的作用,其中,显著性目标检测指检测图像中最吸引视觉注意的区域。
相关技术下,将待检测图像输入由编码器和解码器组成的网络架构进行处理,输出待检测图像对应的显著性图像,实现对待检测图像的显著性目标检测。
然而,在实际应用中,很多待检测图像的图像前景和图像背景之间的对比度较低。由于待检测图像中主要包含外观信息,而缺乏空间定位信息,因此,采用上述方法对待检测图像进行显著性目标检测时,会导致检测的准确性较低。
发明内容
本申请实施例提供了一种图像检测方法、装置、设备及存储介质,用于提高显著性目标检测的准确性。
一方面,本申请实施例提供了一种图像检测方法,该方法包括:
针对目标场景,分别获取待检测图像和空间定位图像;
对所述待检测图像进行特征提取,获得初步图像特征;
对所述空间定位图像对应的原始辅助特征和所述初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征;
将获得的多个判别图像特征进行融合,获得目标图像特征,并基于所述初步图像特征和所述目标图像特征,预测所述待检测图像包含的显著性区域。
一方面,本申请实施例提供了一种图像检测装置,该装置包括:
获取单元,用于针对目标场景,分别获取待检测图像和空间定位图像;
提取单元,用于对所述待检测图像进行特征提取,获得初步图像特征;
处理单元,用于对所述空间定位图像对应的原始辅助特征和所述初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征;
预测单元,用于将获得的多个判别图像特征进行融合,获得目标图像特征,并基于所述初步图像特征和所述目标图像特征,预测所述待检测图像包含的显著性区域。
可选地,所述处理单元具体用于:
针对初次迭代融合过程,执行以下步骤:对所述空间定位图像进行特征提取,获得所述空间定位图像的原始辅助特征;向所述初步图像特征注入所述原始辅助特征,获得融合尺度特征;将融合尺度特征与所述原始辅助特征融合,并对融合获得的图像特征进行特征提取,获得初次迭代输出的判别图像特征;
针对每个非初次迭代融合过程,执行以下步骤:对所述空间定位图像进行特征提取,获得所述空间定位图像的原始辅助特征;向距离本次迭代时间最近的一次迭代输出的判别图像特征注入所述原始辅助特征,获得融合尺度特征;将所述融合尺度特征与所述最近的一次迭代输出的判别图像特征融合,并对融合获得的图像特征进行特征提取,获得本次迭代输出的判别图像特征。
可选地,所述处理单元具体用于:
对所述空间定位图像进行转置卷积处理,并对获得的图像特征进行像素反混洗操作,获得候选图像特征;
对所述候选图像特征进行转置卷积处理,获得所述原始辅助特征。
可选地,所述处理单元具体用于:
对所述最近的一次迭代输出的判别图像特征进行转置处理,获得转置图像特征;
将所述转置图像特征和所述原始辅助特征融合,获得中间辅助特征;
将所述转置图像特征和所述中间辅助特征融合,获得所述融合尺度特征。
可选地,所述处理单元具体用于:
将所述转置图像特征和所述原始辅助特征合并,并对合并获得的图像特征进行全连接处理,获得第一候选融合特征;
对所述第一候选融合特征进行转置卷积处理,生成第一类卷积核;
将所述原始辅助特征和所述第一类卷积核融合,并对融合获得的图像特征进行卷积处理,获得所述中间辅助特征。
可选地,所述处理单元具体用于:
将所述转置图像特征和所述中间辅助特征合并,并对合并获得的图像特征进行全连接处理,获得第二候选融合特征;
对所述第二候选融合特征进行转置卷积处理,生成第二类卷积核;
将所述中间辅助特征和所述第二类卷积核融合,并对融合获得的图像特征进行卷积处理,获得所述融合尺度特征。
可选地,所述预测单元具体用于:
针对所述多个判别图像特征中的每个判别图像特征,执行以下操作:提取一个判别图像特征的全局上下文信息,并结合所述全局上下文信息和所述一个判别图像特征,获得一个全局图像特征;
将获得的多个全局图像特征调整为相同尺度后融合,获得所述目标图像特征。
可选地,所述预测单元具体用于:
对所述目标图像特征进行扩展卷积处理,获得扩展图像特征;
将所述扩展图像特征与所述初步图像特征融合,并对融合获得的图像特征依次进行卷积处理和上采样处理,获得所述待检测图像包含的显著性区域。
可选地,所述预测单元具体用于:
针对预设的多个扩展率中的每个扩展率,执行以下操作:采用一个扩展率对所述目标图像特征进行扩展卷积处理,获得一个候选卷积特征;
将获得的多个候选卷积特征融合,获得所述扩展图像特征。
可选地,所述空间定位图像为深度图像或红外图像。
一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述图像检测方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述图像检测方法的步骤。
一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行上述图像检测方法的步骤。
本申请实施例中,结合目标场景的空间定位图像,对目标场景的待检测图像进行显著性目标检测,故在显著性目标检测过程中,既使用了外观信息,又使用了空间定位信息,因此,在图像前景和图像背景之间的对比度较低,或者待检测图像中的显著性物体的外观相似等复杂场景下,均能获得较高的准确性。其次,在对待检测图像进行特征提取过程中,注入空间定位图像对应的原始辅助特征,加强了原始辅助特征与待检测图像的图像特征之间的互动,从而调和了两种模态的特征,获得了更好的融合效果,进而提高显著性目标检测的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种单流模型的结构示意图;
图2为本申请实施例提供的一种双流模型的结构示意图;
图3为本申请实施例提供的一种图像检测框架的结构示意图;
图4为本申请实施例提供的一种系统架构的结构示意图;
图5为本申请实施例提供的一种直播画面的示意图;
图6为本申请实施例提供的一种深度图像的示意图;
图7为本申请实施例提供的一种显著性图像的示意图;
图8为本申请实施例提供的一种图像检测方法的流程示意图一;
图9为本申请实施例提供的一种辅助特征注入模块的结构示意图;
图10为本申请实施例提供的一种第一融合模块的结构示意图;
图11为本申请实施例提供的一种第二融合模块的结构示意图;
图12为本申请实施例提供的一种聚合模块的结构示意图;
图13为本申请实施例提供的一种解码器的结构示意图;
图14A为本申请实施例提供的一种深度注射框架的结构示意图一;
图14B为本申请实施例提供的一种图像检测方法的流程示意图二;
图14C为本申请实施例提供的一种深度注射模块的结构示意图二;
图15为本申请实施例提供的一种实验结果的示意图;
图16为本申请实施例提供的一种图像检测装置的结构示意图;
图17为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV):是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。在本申请中,采用计算机视觉技术,结合目标场景的空间定位图像,对目标场景的待检测图像进行显著性目标检测,获得待检测图像包含的显著性区域。
像素洗牌:也可以叫像素混洗(Pixel Shuffle),其主要功能是将低分辨的特征图,通过卷积和多通道间的重组得到高分辨率的特征图。
ImageNet:一个用于视觉对象识别软件研究的大型可视化数据库。
SOD(Salient Object Detection):显著性目标检测。
RGB-D SOD:以RGB图和深度图像为输入的显著性目标检测。
RGB-T SOD:以RGB图和红外图像为输入的显著性目标检测。
DIF(Depth Injection Framework):深度注射框架。
DIM(Depth Injection Module):深度注射模块。
Pytorch:一个开源的Python机器学习库,底层由C++实现,应用于人工智能领域。
Adam:是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。
RFB(Receptive Field Block):感受野区块。
下面对本申请实施例的设计思想进行介绍。
随着人工智能技术的发展,越来越多的计算机视觉任务可以获得较好的准确性,显著性目标检测作为计算机视觉任务的预处理步骤,也发挥着越来越重要的作用,其中,显著性目标检测指检测图像中最吸引视觉注意的区域。举例来说,当计算机视觉任务为目标识别时,可以先对待检测图像进行显著性目标检测,获得显著性区域。然后对显著性区域进行目标识别,而不需要对整张待检测图像进行目标识别。也就是说,准确可靠的显著性目标检测方法不仅可以降低视觉任务的计算量,同时可以提高视觉任务的准确性,使许多视觉图形学中的图像识别处理任务受益。
相关技术下,将待检测图像输入由编码器和解码器组成的网络架构进行处理,输出待检测图像包含的显著性区域,实现对待检测图像的显著性目标检测。然而,在实际应用中,很多待检测图像的图像前景和图像背景之间的对比度较低,或者待检测图像中的显著性物体的外观相似。由于待检测图像中主要包含外观信息,而缺乏空间定位信息,因此,采用上述方法对待检测图像进行显著性目标检测时,会导致检测的准确性较低。
通过分析发现,深度图像或红外图像等可以提供空间定位信息,若以待检测图像和空间定位图像(深度图像或红外图像)作为输入进行显著性目标检测,则可以有效适应图像前景和图像背景之间的对比度较低,或者待检测图像中的显著性物体的外观相似等复杂场景,从而有效提高显著性目标检测的准确性。
鉴于此,本申请实施例中提供了一种图像检测方法,该方法包括:针对目标场景,分别获取待检测图像和空间定位图像。然后对待检测图像进行特征提取,获得初步图像特征。对空间定位图像对应的原始辅助特征和初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征。再将获得的多个判别图像特征进行融合,获得目标图像特征,并基于初步图像特征和目标图像特征,预测待检测图像包含的显著性区域。
本申请实施例中,结合目标场景的空间定位图像,对目标场景的待检测图像进行显著性目标检测,故在显著性目标检测过程中,既使用了外观信息,又使用了空间定位信息,因此,在图像前景和图像背景之间的对比度较低,或者待检测图像中的显著性物体的外观相似等复杂场景下,均能获得较高的准确性。
在实际应用中,可以采用单流模型和双流模型两种形式的模型架构,进行显著性目标检测。参见图1,为本申请实施例提供的一种单流模型的结构示意图,单流模型包括编码器(Encoder)和解码器(Decoder)。单流模型将级联的RGB图像和深度图像输入ImageNet预训练的主干网络作为编码器来提取具有分辨能力的特征。考虑到RGB图像包括大量的外观信息(颜色、纹理和轮廓),而深度图像在三维布局中具有很大的判别能力,因此RGB图像和深度图像之间存在着巨大的分布差异。为此,在单流模型中同时使用RGB图像和深度图像可能会引起融合的不协调,从而导致次优的性能。
参见图2,为本申请实施例提供的一种双流模型的结构示意图,单流模型包括编码器1、编码器2和解码器。采用编码器1和编码器2分别对RGB图像和深度图像进行特征提取,再将提取的图像特征输入解码器,获得显著性区域。相较于单流模型来说,上述双流模型虽然取得了更好的性能,但其具有更多的模型参数。
为了在保持单流模型具备的计算友好性的情况下,同时拥有双流模型的计算性能,本申请实施例提出向编码器输入待检测图像进行特征提取,然后通过注射的方式将空间定位图像(深度图像或红外图像)的辅助特征注入编码器,并在编码器内部将辅助特征和多个层级的图像特征进行融合,以强化编码器的语义表征能力,同时能够保持单流模型的计算便捷性。
具体地,针对目标场景,分别获取待检测图像和空间定位图像。然后将待检测图像和空间定位图像输入图像检测框架进行显著性目标检测,获得待检测图像中包含的显著性区域。
参见图3,为本申请实施例提供的一种图像检测框架的结构示意图,该图像检测框架包括:编码器301、解码器302、辅助特征注入模块303和聚合模块304。采用编码器301对待检测图像进行特征提取,获得初步图像特征。联合编码器301和辅助特征注入模块303,对空间定位图像对应的原始辅助特征和初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征,其中,针对初次迭代融合过程,执行以下步骤:通过辅助特征注入模块303对空间定位图像进行特征提取,获得空间定位图像的原始辅助特征;通过辅助特征注入模块303向初步图像特征注入原始辅助特征,获得融合尺度特征。通过编码器301将融合尺度特征与原始辅助特征融合,并对融合获得的图像特征进行特征提取,获得初次迭代输出的判别图像特征。
针对每个非初次迭代融合过程,执行以下步骤:通过辅助特征注入模块303对空间定位图像进行特征提取,获得空间定位图像的原始辅助特征;通过辅助特征注入模块303向距离本次迭代时间最近的一次迭代输出的判别图像特征注入原始辅助特征,获得融合尺度特征;通过编码器301将融合尺度特征与最近的一次迭代输出的判别图像特征融合,并对融合获得的图像特征进行特征提取,获得本次迭代输出的判别图像特征。
通过聚合模块304将获得的多个判别图像特征进行融合,获得目标图像特征,并通过解码器302基于初步图像特征和所述目标图像特征,预测待检测图像包含的显著性区域。
本申请实施例中,结合目标场景的空间定位图像,对目标场景的待检测图像进行显著性目标检测,故在显著性目标检测过程中,既使用了外观信息,又使用了空间定位信息,因此,在图像前景和图像背景之间的对比度较低,或者待检测图像中的显著性物体的外观相似等复杂场景下,均能获得较高的准确性。其次,在对待检测图像进行特征提取过程中,注入空间定位图像对应的原始辅助特征,加强了原始辅助特征与待检测图像的图像特征之间的互动,从而调和了两种模态的特征,获得了更好的融合效果,进而提高显著性目标检测的准确性。再者,通过辅助特征注入模块,对空间定位图像进行特征提取,获得原始辅助特征,并采用注射的方式将原始辅助特征与待检测图像的图像特征进行融合,而没有采用特定的编码器来提取和生成空间定位图像的辅助特征,从而降低了模型架构的模型参数量。另外,本申请实施例中的辅助特征注入模块支持即插即用,不会影响编码器原本的结构,相比传统的级联方式来说,能够更好地提升单流模型在显著性目标检测任务上的表现。
参考图4,其为本申请实施例适用的一种系统架构图,该系统架构至少包括终端设备401和服务器402,终端设备401的数量可以是一个或多个,服务器402的数量也可以是一个或多个,本申请对终端设备401和服务器402的数量不做具体限定。
终端设备401中预先安装具备显著性目标检测功能的目标应用,其中,目标应用是客户端应用、网页版应用、小程序应用等。终端设备401可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能家电、智能语音交互设备、智能车载设备等,但并不局限于此。
服务器402是目标应用的后台服务器,服务器402中部署有图像检测框架。服务器402可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备401与服务器402可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的图像检测方法可以是终端设备401执行,也可以是服务器402执行,还也可以由终端设备401与服务器402交互执行。
以服务器402执行本申请实施例中的图像检测方法举例来说,包括以下步骤:
针对目标场景,终端设备401分别采集待检测图像和空间定位图像,并将待检测图像和空间定位图像发送至服务器402。
服务器402将待检测图像和空间定位图像输入图3所示的图像检测框架。图像检测框架对待检测图像进行特征提取,获得初步图像特征。对空间定位图像对应的原始辅助特征和初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征。再将获得的多个判别图像特征进行融合,获得目标图像特征,并基于初步图像特征和目标图像特征,预测待检测图像包含的显著性区域。
在实际应用中,本申请实施例中的图像检测方法可以应用于直播场景、游戏制作场景、购物场景等场景下的显著性目标检测,还可以应用于其他密集预测任务,如语义分割、医学图像分割、实例分割等。
下面以直播场景举例来说,终端设备401上预先安装直播应用。终端设备401通过摄像头采集同一场景的直播画面和深度图像,其中,直播画面如图5所示,相应的深度图像如图6所示。直播画面通过普通摄像头采集,深度图像通过深度摄像头采集。
终端设备将直播画面和深度图像发送至服务器402。服务器402将直播画面和深度图像输入已训练的图像检测框架进行显著性目标检测,输出直播画面对应的显著性图像,具体如图7所示,显著性图像中包括显著性区域(即图7中的白色区域)。
基于显著性区域对直播画面进行背景替换,比如,可以将直播画面中除显著性区域之外的其他区域进行模糊处理以实现背景替换或者背景虚化;也可以将直播画面中除显著性区域之外的其他区域替换为其他背景。
以下结合说明书附图对本申请实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
基于图4所示的系统架构图,本申请实施例提供了一种图像检测方法的流程,如图8所示,该方法的流程由计算机设备执行,该计算机设备可以是图4所示的终端设备401和/或服务器402,包括以下步骤:
步骤S801,针对目标场景,分别获取待检测图像和空间定位图像。
具体地,待检测图像可以是RGB图像、黑白图像等包含外观信息的图像;空间定位图像可以是深度图像、红外图像等包含空间定位信息的图像,其中,深度图像可以通过深度摄像头采集获得,红外图像可以通过红外摄像头采集获得。待检测图像和空间定位图像均对应同一目标场景。
步骤S802,对待检测图像进行特征提取,获得初步图像特征。
具体地,编码器301中包括至少一个低层次卷积块,采用至少一个低层次卷积块对待检测图像进行至少一次特征提取,获得初步图像特征,其中,初步图像特征为低层次特征。
步骤S803,对空间定位图像对应的原始辅助特征和初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征。
具体地,在对待检测图像进行特征提取的过程中,具有更多细节信息的低层次特征有助于区域完整性,具有更多语义信息的高层特征则有助于提高定位的准确性。空间定位图像包含了更多的位置信息,可以帮助处理复杂场景下的显著性目标检测。由于中高层特征和空间定位图像都有助于定位,因此,本申请实施例中提出从编码器中层开始引入空间定位图像的原始辅助特征,并在编码器内部进行特征融合,具体包括以下过程:联合编码器301和辅助特征注入模块303,对空间定位图像对应的原始辅助特征和初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征。
针对初次迭代融合过程,执行以下步骤:通过辅助特征注入模块303对空间定位图像进行特征提取,获得空间定位图像的原始辅助特征;通过辅助特征注入模块303,向待检测图像的初步图像特征注入原始辅助特征,获得融合尺度特征。然后通过编码器301将融合尺度特征与初步图像特征融合,并对融合获得的图像特征进行特征提取,获得初次迭代输出的判别图像特征。
针对每个非初次迭代融合过程,执行以下步骤:通过辅助特征注入模块303对空间定位图像进行特征提取,获得空间定位图像的原始辅助特征;通过辅助特征注入模块303,向距离本次迭代时间最近的一次迭代输出的判别图像特征注入原始辅助特征,获得融合尺度特征。通过编码器301将融合尺度特征与最近的一次迭代输出的判别图像特征融合,并对融合获得的图像特征进行特征提取,获得本次迭代输出的判别图像特征。
需要说明的是,本申请实施例中可以根据迭代次数设置多个辅助特征注入模块,每个辅助特征注入模块与编码器联合执行一次迭代过程,也可以采用一个辅助特征注入模块与编码器联合执行多次迭代过程,对此,本申请不做具体限定。
下面以一个辅助特征注入模块为例,介绍一个非初次迭代融合过程,参见图9,辅助特征注入模块303包括特征提取块901、第一转置层902、第一融合模块903和第二融合模块904,其中,特征提取块901中包括第三转置卷积块905、像素反混洗层906和第四转置卷积块907。
具体地,转置卷积块包括一个过渡层和一个3×3卷积层,像素反混洗操作是像素洗牌的一个反向操作,可用于调整特征的大小,并减少辅助特征信息的损失。在实际应用中,像素反混洗操作将辅助特征的宽度和高度重塑为特征通道的信息,使得辅助特征中的信息从空间域转移到通道域,而不是直接丢失。
在一次迭代过程中,通过第一转置层902,对最近的一次迭代输出的判别图像特征进行转置处理,获得转置图像特征,以减少通道的数量和模块的计算成本,具体如以下公式(1)表示:
Figure 658116DEST_PATH_IMAGE001
其中,
Figure 728971DEST_PATH_IMAGE002
表示编码器第i次特征提取获得的图像特征,
Figure 424395DEST_PATH_IMAGE003
表示转置图像特征,
Figure 931600DEST_PATH_IMAGE004
表示转置层。
通过特征提取块901中的第三转置卷积块905对空间定位图像进行转置卷积处理,以改变通道数量。然后将第三转置卷积块905获得的图像特征输入像素反混洗层906。通过像素反混洗层906对获得的图像特征进行像素反混洗操作,获得候选图像特征。之后再将候选图像特征输入第四转置卷积块904,通过第四转置卷积块907对候选图像特征进行转置卷积处理,以改变通道数量,获得与转置图像特征尺度相同的原始辅助特征。上述对空间定位图像进行特征提取,获得原始辅助特征的过程可以采用以下公式(2)表示:
Figure 269040DEST_PATH_IMAGE005
其中,
Figure 194402DEST_PATH_IMAGE006
表示转置卷积块,D表示空间定位图像(比如深度图像),
Figure 326306DEST_PATH_IMAGE007
表示像素反混洗操作,
Figure 851965DEST_PATH_IMAGE008
表示原始辅助特征。
本申请实施例中,通过对最近的一次迭代输出的判别图像特征进行转置处理,获得转置图像特征,减小了通道数量和计算成本;同时,通过对空间定位图像进行转置卷积处理和像素反混洗操作,获得与转置图像特征尺度相同的原始辅助特征,实现空间定位图像与判别图像特征对齐,使得辅助特征信息得到充分利用,进而提高融合的效果;另外,通过对空间定位图像进行像素反混洗操作,也有效降低了辅助特征信息的损失。
在一些实施例中,由于设备的限制,采集的空间定位图像的图像质量较低,这可能会给网络架构带来干扰。此外,前述辅助特征提取可能在减少辅助特征信息损失的同时,保留更多的空间定位图像内的干扰。鉴于此,本申请实施例提出采用多阶段的融合模块来抑制干扰并实现有效的融合。
具体地,通过特征提取块901对空间定位图像进行特征提取,获得空间定位图像的原始辅助特征;以及通过第一转置层902对最近的一次迭代输出的判别图像特征进行转置处理,获得转置图像特征之后,通过第一融合模块903,将转置图像特征和原始辅助特征融合,获得中间辅助特征。再通过第二融合模块904,将转置图像特征和中间辅助特征融合,获得融合尺度特征。
本申请实施例中,通过对空间定位图像进行转置卷积处理和像素反混洗操作,获得与转置图像特征尺度相同的原始辅助特征,实现空间定位图像与判别图像特征的对齐,后续再对原始辅助特征和转置图像特征进行多个阶段的特征融合,从而使辅助特征信息得到充分利用,同时抑制空间定位图像内的干扰,进而提高融合的效果。
在一些实施例中,第一融合模块903的结构如图10所示,包括第一密集连接层1001、第一转置卷积块1002、第一融合层1003和第一类卷积层1004。
通过第一融合层1003将转置图像特征和原始辅助特征合并,并将合并获得的图像特征输入第一密集连接层1001。通过第一密集连接层1001对合并获得的图像特征进行全连接处理,获得第一候选融合特征。通过第一转置卷积块1002,对第一候选融合特征进行转置卷积处理,生成第一类卷积核。再通过第一类卷积层1004,对原始辅助特征和第一类卷积核进行元素级融合,并对融合获得的图像特征进行卷积处理,获得中间辅助特征。
具体地,第一融合层采用Addition形式对转置图像特征和原始辅助特征进行合并后,将合并获得的图像特征输入第一密集连接层。第一转置卷积块包括转置层和卷积层。为了充分融合特征,通过第一转置卷积块,对第一候选融合特征进行转置处理和卷积处理,生成第一类卷积核,其中,第一类卷积核在空间域中是不同的,但在通道间是共享的。通过第一类卷积层,对原始辅助特征和第一类卷积核进行元素级相乘,并将相乘获得的图像特征进行卷积处理,获得中间辅助特征,实现多模态特征融合。上述第一融合模块将转置图像特征和原始辅助特征融合的过程可以采用以下公式(3)表示:
Figure 478250DEST_PATH_IMAGE010
其中,
Figure 38544DEST_PATH_IMAGE011
表示转置图像特征,
Figure 810191DEST_PATH_IMAGE012
表示原始辅助特征,
Figure 570949DEST_PATH_IMAGE013
表示第一融合模块,
Figure 250192DEST_PATH_IMAGE014
表示第一融合模块输出的中间辅助特征;
Figure 868255DEST_PATH_IMAGE015
表示第一候选融合特征,
Figure 341962DEST_PATH_IMAGE016
表示第一密 集连接层;
Figure 61787DEST_PATH_IMAGE017
表示第一类卷积核,
Figure 747984DEST_PATH_IMAGE018
表示第一转置层,
Figure 751712DEST_PATH_IMAGE019
表示卷积层;
Figure 130741DEST_PATH_IMAGE020
表示类卷 积算子,类卷积算子可以采用以下公式(4)表示:
Figure 321550DEST_PATH_IMAGE022
其中,
Figure 827749DEST_PATH_IMAGE023
表示输入的类卷积核,
Figure 420405DEST_PATH_IMAGE024
表示特征图,
Figure 235914DEST_PATH_IMAGE025
表示元素级乘法,k表 示
Figure 914020DEST_PATH_IMAGE023
的大小,
本申请实施例中,对转置图像特征和原始辅助特征合并后输入密集连接层进行处理,从而提高特征的可重复使用性,同时减少密集连接层中的卷积通道数,以减少计算成本;其次,采用类卷积核对辅助特征和转置图像特征进行融合,提高了多模态特征融合的效果。
在一些实施例中,第二融合模块904的结构如图11所示,包括第二密集连接层1101、第二转置卷积块1102、第二融合层1103和第二类卷积层1104。
通过第二融合层1103将转置图像特征和中间辅助特征合并,并将合并获得的图像特征输入第二密集连接层1101。通过第二密集连接层1101对合并获得的图像特征进行全连接处理,获得第二候选融合特征;然后通过第二转置卷积块1102,对第二候选融合特征进行转置卷积处理,生成第二类卷积核;再通过第二类卷积层1104,对中间辅助特征和第二类卷积核进行元素级融合,并对融合获得的图像特征进行卷积处理,获得融合尺度特征。
具体地,第二融合层1103采用Addition方式将转置图像特征和中间辅助特征合并,并将合并获得的图像特征输入第二密集连接层1101。第二转置卷积块1102包括转置层和卷积层。为了充分融合特征,通过第二转置卷积块1102,对第二候选融合特征进行转置处理和卷积处理,生成第二类卷积核。通过第二类卷积层1104,对中间辅助特征和第二类卷积核进行元素级相乘,并对相乘获得的图像特征进行卷积处理,获得融合尺度特征,实现多模态特征融合。上述第二融合模块将转置图像特征和中间辅助特征融合的过程可以采用以下公式(5)表示:
Figure 207598DEST_PATH_IMAGE026
其中,
Figure 671071DEST_PATH_IMAGE027
表示以转置图像特征
Figure 657482DEST_PATH_IMAGE011
和中间辅助特征
Figure 88463DEST_PATH_IMAGE014
作为输入时,第二融合模块
Figure 185732DEST_PATH_IMAGE028
输出的融合尺度特征。
通过编码器301将融合尺度特征与最近的一次迭代输出的判别图像特征融合,并对融合获得的图像特征进行特征提取,获得本次迭代输出的判别图像特征。
本申请实施例中,对转置图像特征和中间辅助特征合并后输入密集连接层进行处理,从而提高特征的可重复使用性,同时减少通道数,以减少计算成本;其次,采用类卷积核对转置图像特征和中间辅助特征进行融合,提高了多模态特征融合的效果。
需要说明的是,初次迭代融合过程与非初次迭代融合过程除了输入不相同之外,其他过程是相同的,此处不再赘述。
步骤S804,将获得的多个判别图像特征进行融合,获得目标图像特征,并基于初步图像特征和目标图像特征,预测待检测图像包含的显著性区域。
具体地,通过与编码器连接的聚合模块304对多次迭代分别输出的判别图像特征进行融合,获得目标图像特征。然后将目标图像特征和初步图像特征输入解码器302。通过解码器302对初步图像特征和目标图像特征进行解码处理,输出待检测图像对应的显著性图像,其中,显著性图像中包含显著性区域。
本申请实施例中,结合目标场景的空间定位图像,对目标场景的待检测图像进行显著性目标检测,故在显著性目标检测过程中,既使用了外观信息,又使用了空间定位信息,因此,在图像前景和图像背景之间的对比度较低,或者待检测图像中的显著性物体的外观相似等复杂场景下,均能获得较高的准确性。其次,在对待检测图像进行特征提取过程中,注入空间定位图像对应的原始辅助特征,加强了原始辅助特征与待检测图像的图像特征之间的互动,从而调和了两种模态的特征,获得了更好的融合效果,进而提高显著性目标检测的准确性。再者,通过辅助特征注入模块,对空间定位图像进行特征提取,获得原始辅助特征,并采用注射的方式将原始辅助特征与待检测图像的图像特征进行融合,而没有采用特定的编码器来提取和生成空间定位图像的辅助特征,从而降低了模型架构的模型参数量。另外,本申请实施例中的辅助特征注入模块支持即插即用,不会影响编码器原本的结构,相比传统的级联方式来说,能够更好地提升单流模型在显著性目标检测任务上的表现。
在一些实施例中,参见图12,聚合模块304包括多个感受野区块1201和一个第四融合层1202,每个感受野区块1201用于提取一个判别图像特征的全局上下文信息,并结合全局上下文信息和该判别图像特征,获得一个全局图像特征。将获得的多个全局图像特征调整为相同尺度后输入第四融合层1202,获得目标图像特征。
具体实施中,通过感受野区块丰富判别图像特征,以捕获全局上下文信息,同时修改通道数量,再结合全局上下文信息和该判别图像特征,获得全局图像特征。通过上采样处理,将获得的多个全局图像特征调整为相同尺度,其中,每个全局图像特征对应的上采样倍率可以根据实际情况进行设置。第四融合层采用Addition方式,将调整尺度后的全局图像特征融合,获得目标图像特征。
本申请实施例中,通过感受野区块丰富判别图像特征,以捕获全局上下文信息,同时修改通道数量,这样既提高了图像特征的丰富性,同时降低了计算成本。其次,迭代输出的判别图像特征均已包含辅助特征信息,因此,将多个判别图像特征融合后进行显著性目标预测时,有效提高了预测的准确性。
在一些实施例中,通过解码器,对目标图像特征进行扩展卷积处理,获得扩展图像特征,然后通过解码器将扩展图像特征与初步图像特征融合,并对融合获得的图像特征依次进行卷积处理和上采样处理,获得待检测图像包含的显著性区域。
具体地,解码器302的结构如图13所示,解码器302包括第一卷积层1301、第三融合层1302、第五融合层1303、第二卷积层1304、上采样层1305和多个对应不同扩展率的扩展卷积层1306。通过第一卷积层1301对目标图像特征进行卷积操作后,通过多个对应不同扩展率的扩展卷积层1306,分别对目标图像特征进行扩展卷积处理,获得多个候选卷积特征。然后通过第三融合层1302将多个候选卷积特征融合,获得扩展图像特征。再将扩展图像特征和初步图像特征输入第五融合层1303进行融合。第二卷积层1304和上采样层1305对融合结果进行卷积处理和上采样处理,获得待检测图像包含的显著性区域,其中,第三融合层1302采用Concatenation方式,将多个候选卷积特征融合,获得扩展图像特征,第五融合层1303采用Addition方式将扩展图像特征和初步图像特征进行融合。
本申请实施例中,结合具有更多细节信息的初步图像特征和具有更多定位信息的目标图像特征,预测待检测图像包含的显著性区域,从而提高显著性目标检测的准确性。
在一些实施例中,本申请实施例采用有监督学习的方式训练图像检测框架,在训 练过程中,采用Adam优化梯度。采用像素位置感知损失(
Figure 494923DEST_PATH_IMAGE029
)作为损失函数,它可以对困难 和容易的像素给予不同的关注,以提高性能。总体损失函数如以下公式(6)所示:
Figure 386656DEST_PATH_IMAGE030
其中,P表示预测的显著性图像,G表示真实的显著性图像。
为了更好地解释本申请实施例,下面以深度注射框架为具体实施场景介绍本申请实施例提供的一种图像检测方法,该方法的流程可以由图4所示的终端设备或服务器执行。
参见图14A,为本申请实施例提供的一种深度注射框架的结构示意图,该深度注射 框架包括编码器、解码器、深度注射模块、感受野区块,其中,编码器包括卷积块
Figure 304933DEST_PATH_IMAGE031
。下 面结合深度注射框架介绍图像检测方法的流程,如图14B所示,包括以下步骤:
将待检测图像输入编码器,卷积块
Figure 674735DEST_PATH_IMAGE032
和卷积块
Figure 362068DEST_PATH_IMAGE033
依次对待检测图像进行特征提取 后,获得初步图像特征
Figure 175434DEST_PATH_IMAGE034
。然后采用深度注射策略将深度信息整合到编码器的中高级部分, 强化编码器的语义表征能力,具体过程为:
将深度图像和初步图像特征
Figure 315429DEST_PATH_IMAGE034
输入深度注射模块1进行融合,获得融合尺度特征
Figure 754500DEST_PATH_IMAGE035
。将融合尺度特征
Figure 561919DEST_PATH_IMAGE035
与初步图像特征
Figure 795455DEST_PATH_IMAGE034
融合(Addition)后输入卷积块
Figure 173477DEST_PATH_IMAGE036
进行特征提 取,获得判别图像特征
Figure 150661DEST_PATH_IMAGE037
将深度图像和判别图像特征
Figure 547007DEST_PATH_IMAGE037
输入深度注射模块2进行融合,获得融合尺度特征
Figure 217023DEST_PATH_IMAGE038
。将融合尺度特征
Figure 66030DEST_PATH_IMAGE039
与判别图像特征
Figure 597637DEST_PATH_IMAGE037
融合(Addition)后输入卷积块
Figure 114069DEST_PATH_IMAGE040
进行特征提 取,获得判别图像特征
Figure 689407DEST_PATH_IMAGE041
将深度图像和判别图像特征
Figure 291289DEST_PATH_IMAGE042
输入深度注射模块3进行融合,获得融合尺度特征
Figure 623657DEST_PATH_IMAGE043
。将融合尺度特征
Figure 994595DEST_PATH_IMAGE043
与判别图像特征
Figure 740835DEST_PATH_IMAGE044
融合(Addition)后输入卷积块
Figure 111904DEST_PATH_IMAGE045
进行特征提 取,获得判别图像特征
Figure 828056DEST_PATH_IMAGE044
。上述深度注射策略可以表示为以下公式(7)和公式(8):
Figure 600971DEST_PATH_IMAGE046
Figure 783691DEST_PATH_IMAGE047
其中,DIM表示深度注射模块,
Figure 110898DEST_PATH_IMAGE048
表示深度图像。
进一步地,将判别图像特征
Figure 37266DEST_PATH_IMAGE037
、判别图像特征
Figure 851638DEST_PATH_IMAGE049
和判别图像特征
Figure 470838DEST_PATH_IMAGE044
分别输入感受野 区块1、感受野区块2和感受野区块3,以提取全局上下文信息并更改通道数量,获得全局图 像特征1、全局图像特征2和全局图像特征3。对全局图像特征2和全局图像特征3进行不同倍 率的上采样处理(Up),以统一全局图像特征1、全局图像特征2和全局图像特征3的尺度。然 后将全局图像特征1、全局图像特征2和全局图像特征3融合(Addition),获得目标图像特征
Figure 269030DEST_PATH_IMAGE050
将目标图像特征
Figure 487172DEST_PATH_IMAGE050
输入解码器。解码器通过卷积层(BConv)对目标图像特征
Figure 687209DEST_PATH_IMAGE050
进行 特征提取后,将特征提取结果分别输入扩张率D=1和扩张率D=2的扩展卷积层。两个扩展卷 积层分别进行扩展卷积处理后,将获得的两个候选卷积特征融合(Concatenation),获得扩 展图像特征。通过卷积层(1×1Conv)对初步图像特征进行卷积处理后,与扩展图像特征融 合(Addition),获得融合结果。通过卷积层(BConv)和卷积层(1×1Conv)对融合结果进行卷 积处理后再执行上采样(Up)处理,输出待检测图像对应的显著性图像。
为了更加清楚的介绍深度图像和待检测图像的融合过程,下面以一个深度注射模块为例进行介绍将深度特征注入待检测图像的图像特征的过程:
参见图14C,为本申请实施例提供的一种深度注射模块的结构示意图,深度注射模块包括转置层(Transition)、深度嵌入模块(Depth Embeding)、一阶段融合模块(Stage1)和二阶段融合模块(Stage2);深度嵌入模块包括转置卷积块(TransBConv)、像素反混洗层(PUS)和转置卷积块(TransBConv);一阶段融合模块(Stage1)包括密集连接层(DenseLayer)、卷积层(BConv)、转置层(Transition),二阶段融合模块(Stage1)与一阶段融合模块(Stage2)的结构相同。
将图像特征
Figure 477310DEST_PATH_IMAGE002
输入转置层(Transition)进行转置处理,获得转置图像特征
Figure 497219DEST_PATH_IMAGE003
,以 减少通道的数量和模块的计算成本,其中,i=2,3,4。
将深度图像输入深度嵌入模块(Depth Embeding),深度嵌入模块通过转置卷积块 (TransBConv)、像素反混洗层(PUS)和转置卷积块(TransBConv)依次对深度图像进行处理, 输出与转置图像特征
Figure 781701DEST_PATH_IMAGE003
对齐的原始辅助特征
Figure 101824DEST_PATH_IMAGE051
将转置图像特征
Figure 79138DEST_PATH_IMAGE003
和原始辅助特征
Figure DEST_PATH_IMAGE052
输入一阶段融合模块(Stage1)。一阶段融 合模块(Stage1)将转置图像特征
Figure 179818DEST_PATH_IMAGE003
与原始辅助特征
Figure 2412DEST_PATH_IMAGE051
融合(Addition)后输入密集连接层 (Dense Layer)、卷积层(BConv)、转置层(Transition)进行处理,获得类卷积核(IK)。然后 采用类卷积算子对原始辅助特征
Figure 645883DEST_PATH_IMAGE053
和类卷积核(IK)进行融合,再通过卷积层(BConv)对融 合结果进行特征提取,输出中间辅助特征
Figure 777787DEST_PATH_IMAGE014
将转置图像特征
Figure 772288DEST_PATH_IMAGE011
和中间辅助特征
Figure 661222DEST_PATH_IMAGE014
输入二阶段融合模块(Stage2)进行融合, 获得融合尺度特征
Figure 487095DEST_PATH_IMAGE027
。二阶段融合模块(Stage2)与一阶段融合模块(Stage1)的融合过程相 同,仅仅是输入不同,此处不再赘述。
本申请实施例中,基于深度注射策略,将深度图像直接注射编码器内与待检测图像的图像特征融合,强化了编码器的语义表征能力,同时能够保持单流模型的计算便捷性。其次,通过深度注射模块中的深度嵌入模块实现深度图像特征与待检测图像特征之间的对齐,以及减少深度信息的损失;通过深度注射模块中两阶段的融合模块,抑制深度图像内的干扰,以实现图像的有效融合。再者,深度注射模块并不会破坏主干网络本身的结构,即深度注射模块即插即用,相比传统的级联方式来说,能够更好地提升单流模型在显著性目标检测任务上的表现。另外,在应用性方面,虽然提出的深度注射框架最初是由RGB-D SOD任务启发和并且在其上评估的,但由于其具有跨模态泛用性,即在红外图像中,显著对象可以呈现与RGB图像中呈现的相似的显著性特征,这与RGB-D SOD中的深度图一样,因此,本申请的方法也可以直接应用于其他密切相关的多模态SOD任务,例如RGB-T SOD。为了将本申请所提的方法应用到RGB-T SOD中,只需要改变训练数据,即从成对的RGB图像和深度图像调整为成对的RGB图像和红外图像,从而使得在以RGB图和红外图像为输入的显著性目标检测等其他场景中也可以取得了好的表现,其具有很强的应用性。
为了验证本申请中的图像检测方法在显著性目标检测上的性能,发明人对进行了相应的实验,具体实验内容如下:
实验设置方面:基于Pytorch工具箱以及12GB内存的Nvidia RTX 2080Ti GPU实现上述图像检测框架。上述图像检测框架采用ResNet-50作为的骨干网络。骨干网络用ImageNet的预训练参数进行初始化。训练图像都被统一调整为256×256。批次大小设置为十。所提出的模型由Adam优化,初始学习率为1e-4,三十个后除以十。本申请所提的网络总共训练了六十个迭代周期。任何前预处理或后处理程序都没有应用在这个网络中。本申请所提出的方法在Nvidia RTX 2080Ti上能达到90FPS的速度。
在具体实验过程中,采用4个常用的指标综合评价模型的性能,四个指标分别为:mean F-measure、平均绝对误差、weighted F-measure和E-measure,其中,F-measure用于评价整体性能,平均绝对误差表示预测的显著性图像和真实的显著性图像之间的平均绝对差异,E-measure用于联合捕获图像级别的总和数据和像素级别配对信息。weighted F-measure定义了一个加权精度,是对精确性的衡量,以及一个加权的召回率,它是对完整性的衡量,并同样遵循F-measure的形式。
采用六个公开的RGB-D数据集上进行实验,并与28种最新的RGB-D显著性目标检测方法的性能进行比较。实验结果表明,本申请中的模型在六个公开的RGB-D数据集上取得了较好的性能表现以及优秀泛化能力。相较于其他RGB-D显著性目标检测方法来说,本申请中的方法充分利用深度图提供的信息,更准确的定位显著性目标的物体的位置,同时在一些复杂场景下,也能检测出更完整的目标物体。另外,针对本申请中的方法应用于RGB-T SOD也进行了相应的实验,即将训练样本从成对的RGB图像和深度图像,调整为成对的RGB图像和红外图像后进行上述实验。实验结果表明,本申请中的方法能取得更完整的物体轮廓和更准确的定位,进一步证明了本申请所提方法在跨模态融合上的泛用性。
另外,针对预测性能和模型参数量这两方面,本申请通过实验将本申请中的模型、单流模型、双流模型进行比较,比较结果如图15所示。由图15可知,相较于双流模型,本申请中的模型的模型参数量更少,且预测性能更好;相较于单流模型来说,本申请中的模型的预测性能更好,且模型参数量相当。由此可以证明,本申请中的方法在保持单流模型具备的计算友好性的情况下,同时拥有双流模型的预测性能。
基于相同的技术构思,本申请实施例提供了一种图像检测装置的结构示意图,如图16所示,该装置1600包括:
获取单元1601,用于针对目标场景,分别获取待检测图像和空间定位图像;
提取单元1602,用于对所述待检测图像进行特征提取,获得初步图像特征;
处理单元1603,用于对所述空间定位图像对应的原始辅助特征和所述初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征;
预测单元1604,用于将获得的多个判别图像特征进行融合,获得目标图像特征,并基于所述初步图像特征和所述目标图像特征,预测所述待检测图像包含的显著性区域。
可选地,所述处理单元1603具体用于:
对所述空间定位图像进行转置卷积处理,并对获得的图像特征进行像素反混洗操作,获得候选图像特征;
对所述候选图像特征进行转置卷积处理,获得所述原始辅助特征。
可选地,所述处理单元1603具体用于:
针对初次迭代融合过程,执行以下步骤:对所述空间定位图像进行特征提取,获得所述空间定位图像的原始辅助特征;向所述初步图像特征注入所述原始辅助特征,获得融合尺度特征;将融合尺度特征与所述原始辅助特征融合,并对融合获得的图像特征进行特征提取,获得初次迭代输出的判别图像特征;
针对每个非初次迭代融合过程,执行以下步骤:对所述空间定位图像进行特征提取,获得所述空间定位图像的原始辅助特征;向距离本次迭代时间最近的一次迭代输出的判别图像特征注入所述原始辅助特征,获得融合尺度特征;将所述融合尺度特征与所述最近的一次迭代输出的判别图像特征融合,并对融合获得的图像特征进行特征提取,获得本次迭代输出的判别图像特征。
可选地,所述处理单元1603具体用于:
对所述最近的一次迭代输出的判别图像特征进行转置处理,获得转置图像特征,其中,所述转置图像特征与所述原始辅助特征的尺度相同;
将所述转置图像特征和所述原始辅助特征融合,获得中间辅助特征;
将所述转置图像特征和所述中间辅助特征融合,获得所述融合尺度特征。
可选地,所述处理单元1603具体用于:
将所述转置图像特征和所述原始辅助特征合并,并对合并获得的图像特征进行全连接处理,获得第一候选融合特征;
对所述第一候选融合特征进行转置卷积处理,生成第一类卷积核;
将所述原始辅助特征和所述第一类卷积核融合,并对融合获得的图像特征进行卷积处理,获得所述中间辅助特征。
可选地,所述处理单元1603具体用于:
将所述转置图像特征和所述中间辅助特征合并,并对合并获得的图像特征进行全连接处理,获得第二候选融合特征;
对所述第二候选融合特征进行转置卷积处理,生成第二类卷积核;
将所述中间辅助特征和所述第二类卷积核融合,并对融合获得的图像特征进行卷积处理,获得所述融合尺度特征。
可选地,所述预测单元1604具体用于:
针对所述多个判别图像特征中的每个判别图像特征,执行以下操作:提取一个判别图像特征的全局上下文信息,并结合所述全局上下文信息和所述一个判别图像特征,获得一个全局图像特征;
将获得的多个全局图像特征调整为相同尺度后融合,获得所述目标图像特征。
可选地,所述预测单元1604具体用于:
对所述目标图像特征进行扩展卷积处理,获得扩展图像特征;
将所述扩展图像特征与所述初步图像特征融合,并对融合获得的图像特征依次进行卷积处理和上采样处理,获得所述待检测图像包含的显著性区域。
可选地,所述预测单元1604具体用于:
针对预设的多个扩展率中的每个扩展率,执行以下操作:采用一个扩展率对所述目标图像特征进行扩展卷积处理,获得一个候选卷积特征;
将获得的多个候选卷积特征融合,获得所述扩展图像特征。
可选地,所述空间定位图像为深度图像或红外图像。
本申请实施例中,结合目标场景的空间定位图像,对目标场景的待检测图像进行显著性目标检测,故在显著性目标检测过程中,既使用了外观信息,又使用了空间定位信息,因此,在图像前景和图像背景之间的对比度较低,或者待检测图像中的显著性物体的外观相似等复杂场景下,均能获得较高的准确性。其次,在对待检测图像进行特征提取过程中,注入空间定位图像对应的原始辅助特征,加强了原始辅助特征与待检测图像的图像特征之间的互动,从而调和了两种模态的特征,获得了更好的融合效果,进而提高显著性目标检测的准确性。再者,通过辅助特征注入模块,对空间定位图像进行特征提取,获得原始辅助特征,并采用注射的方式将原始辅助特征与待检测图像的图像特征进行融合,而没有采用特定的编码器来提取和生成空间定位图像的辅助特征,从而降低了模型架构的模型参数量。另外,本申请实施例中的辅助特征注入模块支持即插即用,不会影响编码器原本的结构,相比传统的级联方式来说,能够更好地提升单流模型在显著性目标检测任务上的表现。
基于相同的技术构思,本申请实施例提供了一种计算机设备,该计算机设备可以是图4所示的终端设备和/或服务器,如图17所示,包括至少一个处理器1701,以及与至少一个处理器连接的存储器1702,本申请实施例中不限定处理器1701与存储器1702之间的具体连接介质,图17中处理器1701和存储器1702之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器1702存储有可被至少一个处理器1701执行的指令,至少一个处理器1701通过执行存储器1702存储的指令,可以执行上述图像检测方法的步骤。
其中,处理器1701是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1702内的指令以及调用存储在存储器1702内的数据,从而实现显著性目标检测。可选的,处理器1701可包括一个或多个处理单元,处理器1701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1701中。在一些实施例中,处理器1701和存储器1702可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1701可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1702作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1702可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机设备存取的任何其他介质,但不限于此。本申请实施例中的存储器1702还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述图像检测方法的步骤。
基于同一发明构思,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行上述图像检测方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机设备或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备或其他可编程数据处理设备上,使得在计算机设备或其他可编程设备上执行一系列操作步骤以产生计算机设备实现的处理,从而在计算机设备或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种图像检测方法,其特征在于,包括:
针对目标场景,分别获取待检测图像和空间定位图像;
对所述待检测图像进行特征提取,获得初步图像特征;
对所述空间定位图像对应的原始辅助特征和所述初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征;
将获得的多个判别图像特征进行融合,获得目标图像特征,并基于所述初步图像特征和所述目标图像特征,预测所述待检测图像包含的显著性区域。
2.如权利要求1所述的方法,其特征在于,所述对所述空间定位图像对应的原始辅助特征和所述初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征,包括:
针对初次迭代融合过程,执行以下步骤:对所述空间定位图像进行特征提取,获得所述空间定位图像的原始辅助特征;向所述初步图像特征注入所述原始辅助特征,获得融合尺度特征;将融合尺度特征与所述原始辅助特征融合,并对融合获得的图像特征进行特征提取,获得初次迭代输出的判别图像特征;
针对每个非初次迭代融合过程,执行以下步骤:对所述空间定位图像进行特征提取,获得所述空间定位图像的原始辅助特征;向距离本次迭代时间最近的一次迭代输出的判别图像特征注入所述原始辅助特征,获得融合尺度特征;将所述融合尺度特征与所述最近的一次迭代输出的判别图像特征融合,并对融合获得的图像特征进行特征提取,获得本次迭代输出的判别图像特征。
3.如权利要求2所述的方法,其特征在于,所述对所述空间定位图像进行特征提取,获得原始辅助特征,包括:
对所述空间定位图像进行转置卷积处理,并对获得的图像特征进行像素反混洗操作,获得候选图像特征;
对所述候选图像特征进行转置卷积处理,获得所述原始辅助特征。
4.如权利要求2所述的方法,其特征在于,所述向距离本次迭代时间最近的一次迭代输出的判别图像特征注入所述原始辅助特征,获得融合尺度特征,包括:
对所述最近的一次迭代输出的判别图像特征进行转置处理,获得转置图像特征;
将所述转置图像特征和所述原始辅助特征融合,获得中间辅助特征;
将所述转置图像特征和所述中间辅助特征融合,获得所述融合尺度特征。
5.如权利要求4所述的方法,其特征在于,所述将所述转置图像特征和所述原始辅助特征融合,获得中间辅助特征,包括:
将所述转置图像特征和所述原始辅助特征合并,并对合并获得的图像特征进行全连接处理,获得第一候选融合特征;
对所述第一候选融合特征进行转置卷积处理,生成第一类卷积核;
将所述原始辅助特征和所述第一类卷积核融合,并对融合获得的图像特征进行卷积处理,获得所述中间辅助特征。
6.如权利要求4所述的方法,其特征在于,所述将所述转置图像特征和所述中间辅助特征融合,获得所述融合尺度特征,包括:
将所述转置图像特征和所述中间辅助特征合并,并对合并获得的图像特征进行全连接处理,获得第二候选融合特征;
对所述第二候选融合特征进行转置卷积处理,生成第二类卷积核;
将所述中间辅助特征和所述第二类卷积核融合,并对融合获得的图像特征进行卷积处理,获得所述融合尺度特征。
7.如权利要求1所述的方法,其特征在于,所述将获得的多个判别图像特征进行融合,获得目标图像特征,包括:
针对所述多个判别图像特征中的每个判别图像特征,执行以下操作:提取一个判别图像特征的全局上下文信息,并结合所述全局上下文信息和所述一个判别图像特征,获得一个全局图像特征;
将获得的多个全局图像特征调整为相同尺度后融合,获得所述目标图像特征。
8.如权利要求1所述的方法,其特征在于,所述基于所述初步图像特征和所述目标图像特征,预测所述待检测图像包含的显著性区域,包括:
对所述目标图像特征进行扩展卷积处理,获得扩展图像特征;
将所述扩展图像特征与所述初步图像特征融合,并对融合获得的图像特征依次进行卷积处理和上采样处理,获得所述待检测图像包含的显著性区域。
9.如权利要求8所述的方法,其特征在于,所述对所述目标图像特征进行扩展卷积处理,获得扩展图像特征,包括:
针对预设的多个扩展率中的每个扩展率,执行以下操作:采用一个扩展率对所述目标图像特征进行卷积处理,获得一个候选卷积特征;
将获得的多个候选卷积特征融合,获得所述扩展图像特征。
10.如权利要求1至9任一所述的方法,其特征在于,所述空间定位图像为深度图像或红外图像。
11.一种图像检测装置,其特征在于,包括:
获取单元,用于针对目标场景,分别获取待检测图像和空间定位图像;
提取单元,用于对所述待检测图像进行特征提取,获得初步图像特征;
处理单元,用于对所述空间定位图像对应的原始辅助特征和所述初步图像特征进行多次迭代融合,获得多次迭代融合分别输出的判别图像特征;
预测单元,用于将获得的多个判别图像特征进行融合,获得目标图像特征,并基于所述初步图像特征和所述目标图像特征,预测所述待检测图像包含的显著性区域。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~10任一所述方法的步骤。
13.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~10任一所述方法的步骤。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行权利要求1-10任一项所述方法的步骤。
CN202211383465.0A 2022-11-07 2022-11-07 一种图像检测方法、装置、设备及存储介质 Active CN115439726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211383465.0A CN115439726B (zh) 2022-11-07 2022-11-07 一种图像检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211383465.0A CN115439726B (zh) 2022-11-07 2022-11-07 一种图像检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115439726A true CN115439726A (zh) 2022-12-06
CN115439726B CN115439726B (zh) 2023-02-07

Family

ID=84252413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211383465.0A Active CN115439726B (zh) 2022-11-07 2022-11-07 一种图像检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115439726B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117714862A (zh) * 2023-08-03 2024-03-15 荣耀终端有限公司 对焦方法、电子设备、芯片系统、存储介质及程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140254922A1 (en) * 2013-03-11 2014-09-11 Microsoft Corporation Salient Object Detection in Images via Saliency
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN113362307A (zh) * 2021-06-07 2021-09-07 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113902783A (zh) * 2021-11-19 2022-01-07 东北大学 一种融合三模态图像的显著性目标检测系统及方法
CN114283315A (zh) * 2021-12-17 2022-04-05 安徽理工大学 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
WO2022127814A1 (zh) * 2020-12-15 2022-06-23 影石创新科技股份有限公司 一种图像的显著性物体检测方法、装置、设备及存储介质
US20220253639A1 (en) * 2021-02-01 2022-08-11 Inception Institute of Artificial Intelligence Ltd Complementary learning for multi-modal saliency detection
CN114898106A (zh) * 2022-05-26 2022-08-12 华北水利水电大学 基于rgb-t多源图像数据的显著性目标检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140254922A1 (en) * 2013-03-11 2014-09-11 Microsoft Corporation Salient Object Detection in Images via Saliency
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
WO2022127814A1 (zh) * 2020-12-15 2022-06-23 影石创新科技股份有限公司 一种图像的显著性物体检测方法、装置、设备及存储介质
US20220253639A1 (en) * 2021-02-01 2022-08-11 Inception Institute of Artificial Intelligence Ltd Complementary learning for multi-modal saliency detection
CN113362307A (zh) * 2021-06-07 2021-09-07 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113902783A (zh) * 2021-11-19 2022-01-07 东北大学 一种融合三模态图像的显著性目标检测系统及方法
CN114283315A (zh) * 2021-12-17 2022-04-05 安徽理工大学 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
CN114898106A (zh) * 2022-05-26 2022-08-12 华北水利水电大学 基于rgb-t多源图像数据的显著性目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴乾绅: "融合多视角信息的RGB-D图像协同显著性检测", 《信息技术与网络安全》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117714862A (zh) * 2023-08-03 2024-03-15 荣耀终端有限公司 对焦方法、电子设备、芯片系统、存储介质及程序产品

Also Published As

Publication number Publication date
CN115439726B (zh) 2023-02-07

Similar Documents

Publication Publication Date Title
CN111709408B (zh) 图像真伪检测方法和装置
CN111723732B (zh) 一种光学遥感图像变化检测方法、存储介质及计算设备
CN110866509B (zh) 动作识别方法、装置、计算机存储介质和计算机设备
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
Han et al. HANet: A hierarchical attention network for change detection with bitemporal very-high-resolution remote sensing images
KR102140805B1 (ko) 위성 영상의 물체 식별을 위한 뉴럴 네트워크 학습 방법 및 장치
CN111915618B (zh) 基于峰值响应增强的实例分割算法、计算设备
CN111067522A (zh) 大脑成瘾结构图谱评估方法及装置
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN115439726B (zh) 一种图像检测方法、装置、设备及存储介质
US20230153965A1 (en) Image processing method and related device
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN113066018A (zh) 一种图像增强方法及相关装置
Kang et al. ASF-YOLO: A novel YOLO model with attentional scale sequence fusion for cell instance segmentation
CN109523570B (zh) 运动参数计算方法及装置
CN111753729B (zh) 一种假脸检测方法、装置、电子设备及存储介质
CN117496352A (zh) 基于相邻特征逐步融合的遥感变化检测方法、装置和设备
CN115619903A (zh) 文本图像合成模型的训练、合成方法、装置、设备及介质
CN115760807A (zh) 一种视网膜眼底图像配准方法及系统
CN116152334A (zh) 图像处理方法及相关设备
CN114820755A (zh) 一种深度图估计方法及系统
CN113674383A (zh) 生成文本图像的方法及装置
Chinthada et al. Deep Learning Based Dynamic Object Addition to Video Instances for Creating Synthetic Data
Lin et al. Domain adaptation with foreground/background cues and gated discriminators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant