CN113780241B - 一种显著物体检测的加速方法与装置 - Google Patents

一种显著物体检测的加速方法与装置 Download PDF

Info

Publication number
CN113780241B
CN113780241B CN202111150096.6A CN202111150096A CN113780241B CN 113780241 B CN113780241 B CN 113780241B CN 202111150096 A CN202111150096 A CN 202111150096A CN 113780241 B CN113780241 B CN 113780241B
Authority
CN
China
Prior art keywords
representing
boundary
features
encoder
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111150096.6A
Other languages
English (en)
Other versions
CN113780241A (zh
Inventor
李甲
夏长群
赵芝锐
赵沁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Peng Cheng Laboratory
Original Assignee
Beihang University
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Peng Cheng Laboratory filed Critical Beihang University
Priority to CN202111150096.6A priority Critical patent/CN113780241B/zh
Publication of CN113780241A publication Critical patent/CN113780241A/zh
Application granted granted Critical
Publication of CN113780241B publication Critical patent/CN113780241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开的实施例公开了一种显著物体检测的加速方法。该方法的一具体实施方式包括:利用摄像机采集待检测图像;将待检测图像输入至编码器进行图像编码,得到编码图像特征;将编码图像特征输入至预先训练的互补三边解码器,得到解码图像;将解码图像发送至显示终端以供显示。该实施方式在参数量更少、速度更快的情况下仍然取得了具有竞争性的性能。这证明了本公开的优越性和高效性,在效率和性能之间取得了很好的平衡。

Description

一种显著物体检测的加速方法与装置
技术领域
本公开的实施例涉及图像识别技术领域,具体涉及显著物体检测的加速方法与装置。
背景技术
人类的视觉系统具有从复杂场景中快速、准确地定位感兴趣物体或区域的能力,称为选择性注意力机制。SOD(Salient Object Detection,显著物体检测)是对该机制的一种模拟,旨在分割给定图像中最具视觉吸引力的物体或区域。现有的显著物体检测方法大致可以分为两类:传统的显著物体检测和基于深度学习的显著物体检测。现有的方法存在着一些问题。手工构建的特征主要关注低层信息,很难捕获高层的语义信息,这对于一些复杂场景来说是不够健壮;语义信息的稀释、空间信息的损失以及边界信息的缺失,导致显著物体定位不准、结构细节缺失以及边界粗糙等问题。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了显著物体检测的加速方法,来解决以上背景技术部分提到的技术问题中的一项或多项。
本公开的一些实施例提供了一种显著物体检测的加速方法,该方法包括:利用摄像机采集待检测图像;将上述待检测图像输入至编码器进行图像编码,得到编码图像特征;将上述编码图像特征输入至预先训练的互补三边解码器,得到解码图像;将上述解码图像发送至显示终端以供显示。
本公开的一些实施例提供了一种显著物体检测的加速装置,该装置包括:采集单元,被配置成利用摄像机采集待检测图像;第一输入单元,被配置成将上述待检测图像输入至编码器进行图像编码,得到编码图像特征,其中,上述编码器对图像的编码过程包括五个编码阶段,每个编码阶段提取一个层次的图像特征,提取得到由低层次到高层次共五个层次的图像特征;第二输入单元,被配置成将上述编码图像特征输入至预先训练的互补三边解码器,得到解码图像;发送单元,被配置成将上述解码图像发送至显示终端以供显示。
尽管现有的SOD(Salient Object Detection,显著物体检测)模型已经达到了最先进的性能,但这些方法往往需要较高的计算复杂度和大量的参数,导致推理速度很慢。一个更高效、更准确的SOD算法能使显著性检测更好地运用到实际生活中,如人脸检测、图像分类、照片美化等,为人们的生活带来更多的便捷。因此,建立一个具有竞争力性能的轻量级、快速的SOD模型具有重要的现实意义和研究价值。为了加快推理速度并降低计算成本,常用的解决方案是使用浅层的轻量级网络或减少特征的通道数,但是这些方法会降低模型容量和特征提取的能力,导致性能下降。所以,如何在加快速度和减少计算复杂度的同时,仍能保持较高的准确度成为显著性检测的一个具有挑战性的任务。此外,传统的U形结构存在一些缺点:语义信息的稀释、空间信息的损失以及边界信息的缺失,导致显著物体定位不准、结构细节缺失以及边界粗糙等问题。为了缓解上述问题,需要改进U形结构,充分地考虑语义、空间、边界这三种信息,并利用它们之间的互补性,从而生成更加准确精细的分割结果。总之,与其他模型相比,本公开在参数量更少、速度更快的情况下仍然取得了具有竞争性的性能。这证明了本公开的优越性和高效性,在效率和性能之间取得了很好的平衡。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的显著物体检测的加速方法的一些实施例的流程图;
图2是根据本公开的一些实施例的显著物体检测的加速方法的一个应用场景的示意图;
图3是根据本公开的交叉聚合模块和边界细调模块的示意图;
图4是不同显著物体检测算法的比较示意图;
图5是不同显著物体检测算法的可视化效果图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1是根据本公开的显著物体检测的加速方法的一些实施例的流程图。该显著物体检测的加速方法,包括以下步骤:
步骤101,利用摄像机采集待检测图像。
在一些实施例中,显著物体检测的加速方法的执行主体可以利用摄像机采集待检测图像。其中,上述待检测图像中可以包括一个物体或者多个物体。上述待检测图像中可以包括风景、人物和物体等图像区域。
SOD(Salient Object Detection,显著物体检测)作为一种高效的预处理技术,它在许多下游的计算机视觉任务中起着重要的作用,如图像检索、视觉跟踪、物体分割、目标检测等。显著物体检测能够帮助确定图像中的有用区域并且去除冗余信息,有利于图像处理算法优化、计算资源分配,减少背景等无关内容的干扰。
现有的SOD方法大致可以分为两类:传统的显著物体检测和基于深度学习的显著物体检测。早期传统的SOD方法主要依赖于启发式的先验知识(如颜色、纹理和对比度等)生成显著性图。近年来,随着深度学习尤其是FCN(Fully Convolutional Networks,全卷积网络)的发展,基于深度学习的SOD算法得到飞速发展,并且逐渐成为主流。相比于传统方法,FCN以原始的图像数据作为输入,通过特征的逐层提取,实现了从低层图像特征到高层语义特征的抽象,提供了高效的端到端分层特征学习,不需要进行繁琐、低效的人工特征设计和提取,并且有着比传统算法更卓越的表现,这主要得益于其强大的特征提取和抽象能力。
SOD作为许多下游视觉任务中的预处理步骤,快速而又准确地检测显著性区域显得尤为重要。然而,大多数现有的SOD方法更加注重性能忽略效率,导致在性能和效率之间不能取得很好的平衡。一些模型倾向于增加网络的深度和宽度以获得最先进的性能,导致巨大的计算量和慢的推理速度,这使得它们在资源有限的情况下很难应用,例如移动设备或机器人。虽然一些研究者开始考虑高效的显著性检测并试图在速度和精度之间折衷,但这些模型无法获得相当的性能。
另一方面,基于FCN的SOD方法中,U形结构最受关注并取得了良好的性能。U形结构通过利用自顶向下的路径和横向连接逐渐恢复解码器中的高分辨率特征映射,但是它也存在一些缺点并且仍有很大的改进空间:1)一个完整的U形结构会由于低层特征的分辨率大而增加计算复杂度并降低速度。2)高层特征的语义信息可能在自顶向下的路径中被逐渐稀释,全局上下文信息也被忽略,这可能会产生不完整的分割结果。3)在下采样过程中丢失的空间信息仅通过合并层次化特征不能简单地被恢复。4)U形结构缺乏边界信息,导致边界质量较差。
步骤102,将待检测图像输入至编码器进行图像编码,得到编码图像特征。
在一些实施例中,上述执行主体可以将上述待检测图像输入至编码器进行图像编码,得到编码图像特征。其中,上述编码器对图像的编码过程包括五个编码阶段,每个编码阶段提取一个层次的图像特征,提取得到由低层次到高层次共五个层次的图像特征。编码器对图像进行编码的第一个阶段,提取的是低层次的图像特征,在之后的图像编码阶段,图像特征的层次依次提高。
可选的,上述编码器可以使用残差网络ResNet-50或残差网络ResNet-18作为骨干网络。残差网络ResNet-50和残差网络ResNet-18可以在可视化数据库ImageNet上进行预训练。并在不同编码阶段,编码多层次的特征。
步骤103,将编码图像特征输入至预先训练的互补三边解码器,得到解码图像。
在一些实施例中,上述执行主体可以将上述编码图像特征输入至预先训练的互补三边解码器,得到解码图像。
可选的,上述预先训练的互补三边解码器可以包括三个分支:语义路径分支、空间路径分支和边界路径分支。语义路径分支、空间路径分支和边界路径分支的都可以进行图像特征的提取,每个分支提取的图像特征的层次不同。
如图2所示,图2是根据本公开的一些实施例的显著物体检测的加速方法的一个应用场景的示意图。上述语义路径分支、上述空间路径分支和上述边界路径分支来自预先训练的互补三边解码器的不同阶段,并且分别对应上述编码器的编码阶段。上述编码器的编码阶段包括第一编码阶段、第二编码阶段、第三编码阶段、第四编码阶段和第五编码阶段。上述语义路径分支对应上述编码器的编码阶段中的第四编码阶段和第五编码阶段。上述空间路径分支对应上述编码器的编码阶段中的第三编码阶段。上述边界路径分支对应上述编码器的编码阶段中的第二编码阶段。上述预先训练的互补三边解码器使用五个编码阶段中最后四个编码阶段的图像特征进行图像解码,最后四个阶段的图像特征相对于输入的待检测图像的空间分辨率的变化步长为{4,8,16,32}。
可选的,上述语义路径分支的设计可以是为了捕获语义上下文信息和全局上下文信息。上述语义路径分支从上述编码器的编码阶段中的第四编码阶段和第五编码阶段引出。上述语义路径分支生成一个具有精确显著物体定位的初始显著性映射。上述编码器虽然包括不同阶段固有的多尺度上下文信息,但缺乏全局上下文信息。可以在骨干网络的尾部嵌入一个全局平均池化层(GAP,Global Average Pooling)。上述全局平均池化层可以提供全局上下文信息,利用特征融合模块融合全局上下文信息与上述编码器的编码阶段中的第四编码阶段和第五编码阶段的特征信息,得到语义路径分支的输出特征。其中,上述特征融合模块(FFM,Feature Fusion Module)可以用于融合不同层次的特征。即上述特征融合模块通过乘法操作将高层特征和低层特征融合在一起,然后经过两个3×3卷积获得最终的特征表示。可以利用以下公式,得到语义路径分支的输出特征:
其中,FFM(,)表示对两个参数进行融合操作。f1表示融合操作中的第一个参数。f2表示融合操作中的第二个参数。表示3×3卷积。/>表示上述编码器的编码阶段中的第五编码阶段的特征信息与全局上下文信息的融合特征信息。/>表示1×1卷积。E(5)表示上述编码器的编码阶段中的第五编码阶段的特征信息。/>表示对E(5)进行1×1卷积。Up()表示上采样操作。GAP()表示全局平均池化操作。GAP(E(5))表示对E(5)进行全局平均池化操作。/>表示语义路径分支的输出特征。E(4)表示上述编码器的编码阶段中的第四编码阶段的特征信息。/>表示对E(4)进行1×1卷积。/>表示对/>进行上采样操作。
可选的,上述空间路径分支的设计可以是为了提供空间细节。上述空间路径分支从上述编码器的编码阶段中的第三编码阶段引出。经过一个空间注意力模块(SAM,SpatialAttention Module)从空间维度学习区分性的特征表示,并利用以下公式,通过沿着通道维度分别使用平均操作与最大操作生成两个单通道的空间映射。然后计算出一个空间注意力映射,以对特征进行加权和细调,得到空间路径分支的输出特征:
其中,Savg表示平均空间映射。E(3)表示上述编码器的编码阶段中的第三编码阶段的特征信息。表示沿着通道维度进行平均操作。/>表示对E(3)沿着通道维度进行平均操作。Smax表示最大空间映射。/>表示沿着通道维度进行最大操作。表示对E(3)沿着通道维度进行最大操作。Msa表示空间注意力映射。σ()表示激活函数sigmoid。/>表示3×3卷积。Concat(,)表示通道维度的拼接操作。/>表示空间路径分支的输出特征。
可选的,上述边界路径分支的设计可以是为了提高边界质量。上述边界路径分支从上述编码器的编码阶段中的第二编码阶段引出。上述边界路径分支可以利用浅层特征的边界信息,并利用上述编码器的编码阶段中的第五编码阶段输出的定位信息作为指导,通过额外的边缘监督,增强显著边界特征,抑制非显著的边界特征。可以利用以下公式,得到边界路径分支的输出特征:
其中,表示边界路径分支的输出特征。FFM(,)表示对两个参数进行融合操作。表示1×1卷积。E(2)表示上述编码器的编码阶段中的第二编码阶段的特征信息。表示上述编码器的编码阶段中的第五编码阶段的特征信息与全局上下文信息的融合特征信息。/>表示对/>进行上采样操作。
可选的,上述空间路径分支还可以包括交叉聚合模块。图3中的(a)是根据本公开的交叉聚合模块执行交叉聚合的示意图。上述交叉聚合模块(CAM,Cross AggregationModule)可以用于合并语义路径分支的输出特征和空间路径分支的输出特征。首先对上述语义路径分支的输出特征和上述空间路径分支的输出特征执行多尺度变换,然后在每个尺度通过乘法操作执行交叉聚合,最后再输入特征融合模块进行融合,通过交叉聚合模块将上述语义路径分支和上述空间路径分支结合起来,生成一个具有精确显著物体结构的显著性映射。可以利用以下公式,得到上述交叉聚合模块的输出特征:
其中,表示多尺度变换后的语义路径分支的输出特征。Up()表示上采样操作。表示语义路径分支的输出特征。/>表示多尺度变换后的空间路径分支的输出特征。Down()表示下采样操作。/>表示空间路径分支的输出特征。/>表示对/>进行下采样操作。C1表示交叉聚合后的语义路径分支的输出特征。/>表示3×3卷积。C2表示交叉聚合后的空间路径分支的输出特征。/>表示上述交叉聚合模块的输出特征。FFM(,)表示对两个参数进行融合操作。Up(C1)表示对C1进行上采样操作。
可选的,上述边界路径分支还可以包括边界细调模块。图3中的(b)是根据本公开的边界细调模块细化边界的示意图。上述边界细调模块(BRM,Boundary RefinementModule)可以利用边界路径分支提供的显著边界信息进一步细化边界。首先通过加法操作将交叉聚合模块的输出与边界路径分支的输出特征结合起来,然后经过通道注意力机制对特征进行加权和选择,最后经过两个3×3卷积进一步增强特征表示,通过边界细调模块生成一个具有精确显著物体边界的显著性映射。可以利用以下公式,得到上述边界细调模块的输出特征:
其中,Bf表示上述交叉聚合模块的输出特征与边界路径分支的输出特征的和。Up()表示上采样操作。表示上述交叉聚合模块的输出特征。/>表示边界路径分支的输出特征。Br表示加权选择后的特征。σ()表示激活函数sigmoid表示。/>表示1×1卷积。GAP()表示全局平均池化操作。GAP(Bf)表示对Bf进行全局平均池化操作。/>表示上述边界细调模块的输出特征。/>表示3×3卷积。/>表示对Br进行3×3卷积。
可选的,上述预先训练的互补三边解码器通过以下方式训练得到:
获取数据集。其中,上述数据集中的数据包括图像和与上述图像对应的真值标签。
基于上述数据集,执行以下训练步骤:
将上述数据集中的至少一个数据包括的图像分别输入至初始互补三边解码器,得到上述至少一个数据中的每个图像对应的显著物体检测图。
基于上述至少一个数据中的每个图像对应的真值标签和上述至少一个数据中的每个图像对应的显著物体检测图,确定上述至少一个数据对应的显著物体检测图的损失值。
响应于确定上述损失值收敛于预定阈值,将上述初始互补三边解码器作为训练完成的互补三边解码器。
响应于确定上述损失值不收敛于预定阈值,调整初始互补三边解码器的网络参数,以及使用未用过的数据集组成训练数据集,将调整后的初始互补三边解码器作为初始互补三边解码器,再次执行上述训练步骤。
步骤104,将解码图像发送至显示终端以供显示。
在一些实施例中,上述执行主体可以将上述解码图像发送至显示终端以供显示。
本公开摒弃了传统的U形结构,提出在解码器部分分别处理语义上下文、空间细节和边界信息,以达到准确率和速度之间的良好折衷。为此,本公开提出了一种高效的互补三边解码器用于显著性检测,包括三个分支:语义路径分支、空间路径分支和边界路径分支。顾名思义,这三个分支分别用来解决语义信息的稀释、空间信息的丢失和边界信息的缺失。这三个部分来自编码器的不同阶段并且共享同一个编码器,彼此互补。本公开可以按照“粗糙-精细-更精细”的策略逐步合并这三个分支。具体地说,通过引入语义路径分支来获取丰富的具有大感受野的语义上下文和全局上下文,从而形成一个具有精确的显著物体定位的初始粗糙的显著性映射。相反,空间路径分支的设计是为了保留更多的空间细节,将这两条路径结合起来构造一个全面而强大的特征表征,从而生成一个具有精确显著物体结构的相对精细的显著性映射。对于边界路径分支,利用低层的局部信息和高层的定位信息,提取具有额外边缘监督的显著边界特征。最后,利用边界路径分支提供的显著边界特征,进一步细化前两个分支的融合特征,从而生成一个具有清晰显著物体边界的最终更精细的显著性映射。
可以使用PyTorch实现本发明,并在一个显卡上进行实验,例如NVIDIA 1080Ti。PyTorch是一个开源的Python机器学习库,可以用于自然语言处理等应用程序。Python是一种计算机编程语言。本公开使用在ImageNet上预先训练过的ResNet-18和ResNet-50作为骨干网络。为了使模型具有鲁棒性,本公开采用了一些数据增强技术:随机裁剪、随机水平翻转和多尺度输入图像。在训练阶段,通过随机裁剪和随机水平翻转将所有训练图像的大小调整为352×352。本公开使用动量为0.9、权重衰减为0.0005的随机梯度下降优化器来训练本公开的模型。批大小设置为32,最大训练次数epoch设置为40。骨干网络的最大学习速率为0.005,而模型其余部分的最大学习速率为0.05,以加快收敛速度。此外,本公开采用了预热和线性衰减学习率策略。在推理过程中,本公开需将每张图像的大小调整为352×352,然后将其输入到本公开的模型中来预测显著性映射,而无需任何后处理(例如,条件随机场CRF)。
本公开与18种最先进的SOD算法进行比较,包括C2SNet、RAS、PiCANet、BMPM、BANet、EGNet、SCRN、PoolNet、PAGE、AFNet、CPD、BASNet、GateNet、U2Net、DFI、ITSDNet、GCPANet、MINet。为了公平比较,使用本公开提供的显著性结果,并用相同的代码对它们进行评估。评估结果如图4所示。F-measure是一种统计量,它是精确率和召回率的加权调和平均,可以说明试验方法的有效性。F-measure的值较大,说明试验方法比较有效。
为了更直观地展示,本公开提供了不同SOD方法的可视化结果,如图5所示。本公开的方法能够产生准确更加准确完整的分割结果。它可以处理各种具有挑战性的场景,包括多个显著物体(图5中的第1、4、5行)、精细结构(图5中的第2行和第3行)、杂乱的背景(图5中的第3行)、小物体(图5中的第4行和第5行)以及前景干扰(图5中的第6行)。最重要的是,本公开的方法不需要任何后处理就可以得到这些结果。
可以理解的是,一种显著物体检测的加速装置中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于一种显著物体检测的加速装置及其中包含的单元,在此不再赘述。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (3)

1.一种显著物体检测的加速方法,包括:
利用摄像机采集待检测图像;
将所述待检测图像输入至编码器进行图像编码,得到编码图像特征,其中,所述编码器对图像的编码过程包括五个编码阶段,每个编码阶段提取一个层次的图像特征,提取得到由低层次到高层次共五个层次的图像特征;
将所述编码图像特征输入至预先训练的互补三边解码器,得到解码图像;
将所述解码图像发送至显示终端以供显示;
其中,所述编码器使用残差网络ResNet-50或残差网络ResNet-18作为骨干网络,残差网络ResNet-50和残差网络ResNet-18在可视化数据库ImageNet上进行预训练,并在不同编码阶段,编码多层次的特征,所述预先训练的互补三边解码器使用最后四个编码阶段的图像特征进行图像解码,最后四个阶段的图像特征相对于输入的待检测图像的空间分辨率的变化步长为{4,8,16,32};
其中,所述预先训练的互补三边解码器包括三个分支:语义路径分支、空间路径分支和边界路径分支,其中,所述语义路径分支、所述空间路径分支和所述边界路径分支来自预先训练的互补三边解码器的不同阶段,并且分别对应所述编码器的编码阶段,其中,所述编码器的编码阶段包括第一编码阶段、第二编码阶段、第三编码阶段、第四编码阶段和第五编码阶段,所述语义路径分支对应所述编码器的编码阶段中的第四编码阶段和第五编码阶段,所述空间路径分支对应所述编码器的编码阶段中的第三编码阶段,所述边界路径分支对应所述编码器的编码阶段中的第二编码阶段;
其中,所述语义路径分支的设计是为了捕获语义上下文信息和全局上下文信息,所述语义路径分支从所述编码器的编码阶段中的第四编码阶段和第五编码阶段引出,所述语义路径分支生成一个具有精确显著物体定位的初始显著性映射,所述编码器虽然包括不同阶段固有的多尺度上下文信息,但缺乏全局上下文信息,在骨干网络的尾部嵌入一个全局平均池化层,所述全局平均池化层提供全局上下文信息,利用特征融合模块融合全局上下文信息与所述编码器的编码阶段中的第四编码阶段和第五编码阶段的特征信息,得到语义路径分支的输出特征,其中,所述特征融合模块用于融合不同层次的特征,即所述特征融合模块通过乘法操作将高层特征和低层特征融合在一起,然后经过两个3×3卷积获得最终的特征表示,利用以下公式,得到语义路径分支的输出特征:
其中,FFM(,)表示对两个参数进行融合操作,f1表示融合操作中的第一个参数,f2表示融合操作中的第二个参数,表示3×3卷积,/>表示所述编码器的编码阶段中的第五编码阶段的特征信息与全局上下文信息的融合特征信息,/>表示1×1卷积,E(5)表示所述编码器的编码阶段中的第五编码阶段的特征信息,/>表示对E(5)进行1×1卷积,Up()表示上采样操作,GAP()表示全局平均池化操作,GAP(E(5))表示对E(5)进行全局平均池化操作,/>表示语义路径分支的输出特征,E(4)表示所述编码器的编码阶段中的第四编码阶段的特征信息,/>表示对E(4)进行1×1卷积,/>表示对/>进行上采样操作;
其中,所述空间路径分支的设计是为了提供空间细节,所述空间路径分支从所述编码器的编码阶段中的第三编码阶段引出,经过一个空间注意力模块从空间维度学习区分性的特征表示,并利用以下公式,通过沿着通道维度分别使用平均操作与最大操作生成两个单通道的空间映射,然后计算出一个空间注意力映射,以对特征进行加权和细调,得到空间路径分支的输出特征:
其中,Savg表示平均空间映射,E(3)表示所述编码器的编码阶段中的第三编码阶段的特征信息,表示沿着通道维度进行平均操作,/>表示对E(3)沿着通道维度进行平均操作,Smax表示最大空间映射,/>表示沿着通道维度进行最大操作,表示对E(3)沿着通道维度进行最大操作,Msa表示空间注意力映射,σ()表示激活函数sigmoid,/>表示3×3卷积,Concat(,)表示通道维度的拼接操作,/>表示空间路径分支的输出特征;
其中,所述边界路径分支的设计是为了提高边界质量,所述边界路径分支从所述编码器的编码阶段中的第二编码阶段引出,所述边界路径分支利用浅层特征的边界信息,并利用所述编码器的编码阶段中的第五编码阶段输出的定位信息作为指导,通过额外的边缘监督,增强显著边界特征,抑制非显著的边界特征,利用以下公式,得到边界路径分支的输出特征:
其中,表示边界路径分支的输出特征,FFM(,)表示对两个参数进行融合操作,表示1×1卷积,E(2)表示所述编码器的编码阶段中的第二编码阶段的特征信息,表示所述编码器的编码阶段中的第五编码阶段的特征信息与全局上下文信息的融合特征信息,/>表示对/>进行上采样操作;
其中,所述空间路径分支还包括交叉聚合模块,所述交叉聚合模块用于合并语义路径分支的输出特征和空间路径分支的输出特征,首先对所述语义路径分支的输出特征和所述空间路径分支的输出特征执行多尺度变换,然后在每个尺度通过乘法操作执行交叉聚合,最后再输入特征融合模块进行融合,通过交叉聚合模块将所述语义路径分支和所述空间路径分支结合起来,生成一个具有精确显著物体结构的显著性映射,利用以下公式,得到所述交叉聚合模块的输出特征:
其中,表示多尺度变换后的语义路径分支的输出特征,Up()表示上采样操作,/>表示语义路径分支的输出特征,/>表示多尺度变换后的空间路径分支的输出特征,Down()表示下采样操作,/>表示空间路径分支的输出特征,/>表示对/>进行下采样操作,C1表示交叉聚合后的语义路径分支的输出特征,/>表示3×3卷积,C2表示交叉聚合后的空间路径分支的输出特征,/>表示所述交叉聚合模块的输出特征,FFM(,)表示对两个参数进行融合操作,Up(C1)表示对C1进行上采样操作;
其中,所述边界路径分支还包括边界细调模块,所述边界细调模块利用边界路径分支提供的显著边界信息进一步细化边界,首先通过加法操作将交叉聚合模块的输出与边界路径分支的输出特征结合起来,然后经过通道注意力机制对特征进行加权和选择,最后经过两个3×3卷积进一步增强特征表示,通过边界细调模块生成一个具有精确显著物体边界的显著性映射,利用以下公式,得到所述边界细调模块的输出特征:
其中,Bf表示所述交叉聚合模块的输出特征与边界路径分支的输出特征的和,Up()表示上采样操作,表示所述交叉聚合模块的输出特征,/>表示边界路径分支的输出特征,Br表示加权选择后的特征,σ()表示激活函数sigmoid表示,/>表示1×1卷积,GAP()表示全局平均池化操作,GAP(Bf)表示对Bf进行全局平均池化操作,/>表示所述边界细调模块的输出特征,/>表示3×3卷积,/>表示对Br进行3×3卷积。
2.根据权利要求1所述的方法,其中,所述预先训练的互补三边解码器通过以下方式训练得到:
获取数据集,其中,所述数据集中的数据包括图像和与所述图像对应的真值标签;
基于所述数据集,执行以下训练步骤:
将所述数据集中的至少一个数据包括的图像分别输入至初始互补三边解码器,得到所述至少一个数据中的每个图像对应的显著物体检测图;
基于所述至少一个数据中的每个图像对应的真值标签和所述至少一个数据中的每个图像对应的显著物体检测图,确定所述至少一个数据对应的显著物体检测图的损失值;
响应于确定所述损失值收敛于预定阈值,将所述初始互补三边解码器作为训练完成的互补三边解码器;
响应于确定所述损失值不收敛于预定阈值,调整初始互补三边解码器的网络参数,以及使用未用过的数据集组成训练数据集,将调整后的初始互补三边解码器作为初始互补三边解码器,再次执行所述训练步骤。
3.一种显著物体检测的加速装置,包括:
采集单元,被配置成利用摄像机采集待检测图像;
第一输入单元,被配置成将所述待检测图像输入至编码器进行图像编码,得到编码图像特征,其中,所述编码器对图像的编码过程包括五个编码阶段,每个编码阶段提取一个层次的图像特征,提取得到由低层次到高层次共五个层次的图像特征;
第二输入单元,被配置成将所述编码图像特征输入至预先训练的互补三边解码器,得到解码图像;
发送单元,被配置成将所述解码图像发送至显示终端以供显示;
其中,所述编码器使用残差网络ResNet-50或残差网络ResNet-18作为骨干网络,残差网络ResNet-50和残差网络ResNet-18在可视化数据库ImageNet上进行预训练,并在不同编码阶段,编码多层次的特征,所述预先训练的互补三边解码器使用最后四个编码阶段的图像特征进行图像解码,最后四个阶段的图像特征相对于输入的待检测图像的空间分辨率的变化步长为{4,8,16,32};
其中,所述预先训练的互补三边解码器包括三个分支:语义路径分支、空间路径分支和边界路径分支,其中,所述语义路径分支、所述空间路径分支和所述边界路径分支来自预先训练的互补三边解码器的不同阶段,并且分别对应所述编码器的编码阶段,其中,所述编码器的编码阶段包括第一编码阶段、第二编码阶段、第三编码阶段、第四编码阶段和第五编码阶段,所述语义路径分支对应所述编码器的编码阶段中的第四编码阶段和第五编码阶段,所述空间路径分支对应所述编码器的编码阶段中的第三编码阶段,所述边界路径分支对应所述编码器的编码阶段中的第二编码阶段;
其中,所述语义路径分支的设计是为了捕获语义上下文信息和全局上下文信息,所述语义路径分支从所述编码器的编码阶段中的第四编码阶段和第五编码阶段引出,所述语义路径分支生成一个具有精确显著物体定位的初始显著性映射,所述编码器虽然包括不同阶段固有的多尺度上下文信息,但缺乏全局上下文信息,在骨干网络的尾部嵌入一个全局平均池化层,所述全局平均池化层提供全局上下文信息,利用特征融合模块融合全局上下文信息与所述编码器的编码阶段中的第四编码阶段和第五编码阶段的特征信息,得到语义路径分支的输出特征,其中,所述特征融合模块用于融合不同层次的特征,即所述特征融合模块通过乘法操作将高层特征和低层特征融合在一起,然后经过两个3×3卷积获得最终的特征表示,利用以下公式,得到语义路径分支的输出特征:
其中,FFM(,)表示对两个参数进行融合操作,f1表示融合操作中的第一个参数,f2表示融合操作中的第二个参数,表示3×3卷积,/>表示所述编码器的编码阶段中的第五编码阶段的特征信息与全局上下文信息的融合特征信息,/>表示1×1卷积,E(5)表示所述编码器的编码阶段中的第五编码阶段的特征信息,/>表示对E(5)进行1×1卷积,Up()表示上采样操作,GAP()表示全局平均池化操作,GAP(E(5))表示对E(5)进行全局平均池化操作,/>表示语义路径分支的输出特征,E(4)表示所述编码器的编码阶段中的第四编码阶段的特征信息,/>表示对E(4)进行1×1卷积,/>表示对/>进行上采样操作;
其中,所述空间路径分支的设计是为了提供空间细节,所述空间路径分支从所述编码器的编码阶段中的第三编码阶段引出,经过一个空间注意力模块从空间维度学习区分性的特征表示,并利用以下公式,通过沿着通道维度分别使用平均操作与最大操作生成两个单通道的空间映射,然后计算出一个空间注意力映射,以对特征进行加权和细调,得到空间路径分支的输出特征:
其中,Savg表示平均空间映射,E(3)表示所述编码器的编码阶段中的第三编码阶段的特征信息,表示沿着通道维度进行平均操作,/>表示对E(3)沿着通道维度进行平均操作,Smax表示最大空间映射,/>表示沿着通道维度进行最大操作,表示对E(3)沿着通道维度进行最大操作,Msa表示空间注意力映射,σ()表示激活函数sigmoid,/>表示3×3卷积,Concat(,)表示通道维度的拼接操作,/>表示空间路径分支的输出特征;
其中,所述边界路径分支的设计是为了提高边界质量,所述边界路径分支从所述编码器的编码阶段中的第二编码阶段引出,所述边界路径分支利用浅层特征的边界信息,并利用所述编码器的编码阶段中的第五编码阶段输出的定位信息作为指导,通过额外的边缘监督,增强显著边界特征,抑制非显著的边界特征,利用以下公式,得到边界路径分支的输出特征:
其中,表示边界路径分支的输出特征,FFM(,)表示对两个参数进行融合操作,表示1×1卷积,E(2)表示所述编码器的编码阶段中的第二编码阶段的特征信息,表示所述编码器的编码阶段中的第五编码阶段的特征信息与全局上下文信息的融合特征信息,/>表示对/>进行上采样操作;
其中,所述空间路径分支还包括交叉聚合模块,所述交叉聚合模块用于合并语义路径分支的输出特征和空间路径分支的输出特征,首先对所述语义路径分支的输出特征和所述空间路径分支的输出特征执行多尺度变换,然后在每个尺度通过乘法操作执行交叉聚合,最后再输入特征融合模块进行融合,通过交叉聚合模块将所述语义路径分支和所述空间路径分支结合起来,生成一个具有精确显著物体结构的显著性映射,利用以下公式,得到所述交叉聚合模块的输出特征:
其中,表示多尺度变换后的语义路径分支的输出特征,Up()表示上采样操作,/>表示语义路径分支的输出特征,/>表示多尺度变换后的空间路径分支的输出特征,Down()表示下采样操作,/>表示空间路径分支的输出特征,/>表示对/>进行下采样操作,C1表示交叉聚合后的语义路径分支的输出特征,/>表示3×3卷积,C2表示交叉聚合后的空间路径分支的输出特征,/>表示所述交叉聚合模块的输出特征,FFM(,)表示对两个参数进行融合操作,Up(C1)表示对C1进行上采样操作;
其中,所述边界路径分支还包括边界细调模块,所述边界细调模块利用边界路径分支提供的显著边界信息进一步细化边界,首先通过加法操作将交叉聚合模块的输出与边界路径分支的输出特征结合起来,然后经过通道注意力机制对特征进行加权和选择,最后经过两个3×3卷积进一步增强特征表示,通过边界细调模块生成一个具有精确显著物体边界的显著性映射,利用以下公式,得到所述边界细调模块的输出特征:
其中,Bf表示所述交叉聚合模块的输出特征与边界路径分支的输出特征的和,Up()表示上采样操作,表示所述交叉聚合模块的输出特征,/>表示边界路径分支的输出特征,Br表示加权选择后的特征,σ()表示激活函数sigmoid表示,/>表示1×1卷积,GAP()表示全局平均池化操作,GAP(Bf)表示对Bf进行全局平均池化操作,/>表示所述边界细调模块的输出特征,/>表示3×3卷积,/>表示对Br进行3×3卷积。
CN202111150096.6A 2021-09-29 2021-09-29 一种显著物体检测的加速方法与装置 Active CN113780241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111150096.6A CN113780241B (zh) 2021-09-29 2021-09-29 一种显著物体检测的加速方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111150096.6A CN113780241B (zh) 2021-09-29 2021-09-29 一种显著物体检测的加速方法与装置

Publications (2)

Publication Number Publication Date
CN113780241A CN113780241A (zh) 2021-12-10
CN113780241B true CN113780241B (zh) 2024-02-06

Family

ID=78854295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111150096.6A Active CN113780241B (zh) 2021-09-29 2021-09-29 一种显著物体检测的加速方法与装置

Country Status (1)

Country Link
CN (1) CN113780241B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596266B (zh) * 2022-02-25 2023-04-07 烟台大学 一种基于ConcreteCrackSegNet模型的混凝土裂缝检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886986A (zh) * 2019-01-23 2019-06-14 北京航空航天大学 一种基于多分支卷积神经网络的皮肤镜图像分割方法
CN110889416A (zh) * 2019-12-13 2020-03-17 南开大学 一种基于级联改良网络的显著性物体检测方法
CN110929593A (zh) * 2019-11-06 2020-03-27 哈尔滨工业大学(威海) 一种基于细节辨别区别的实时显著性行人检测方法
CN111783523A (zh) * 2020-05-19 2020-10-16 中国人民解放军93114部队 一种遥感影像旋转目标检测方法
CN112084901A (zh) * 2020-08-26 2020-12-15 长沙理工大学 基于gcam的高分辨率sar图像机场跑道区自动检测方法及系统
CN112347859A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种光学遥感图像显著性目标检测方法
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN112651940A (zh) * 2020-12-25 2021-04-13 郑州轻工业大学 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113393434A (zh) * 2021-06-11 2021-09-14 大连理工大学 一种基于非对称双流网络架构的rgb-d显著性检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020108009A1 (en) * 2018-11-26 2020-06-04 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for improving quality of low-light images
US11763952B2 (en) * 2020-02-21 2023-09-19 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for learning semantics-enriched representations via self-discovery, self-classification, and self-restoration in the context of medical imaging

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886986A (zh) * 2019-01-23 2019-06-14 北京航空航天大学 一种基于多分支卷积神经网络的皮肤镜图像分割方法
CN110929593A (zh) * 2019-11-06 2020-03-27 哈尔滨工业大学(威海) 一种基于细节辨别区别的实时显著性行人检测方法
CN110889416A (zh) * 2019-12-13 2020-03-17 南开大学 一种基于级联改良网络的显著性物体检测方法
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN111783523A (zh) * 2020-05-19 2020-10-16 中国人民解放军93114部队 一种遥感影像旋转目标检测方法
CN112084901A (zh) * 2020-08-26 2020-12-15 长沙理工大学 基于gcam的高分辨率sar图像机场跑道区自动检测方法及系统
CN112347859A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种光学遥感图像显著性目标检测方法
CN112651940A (zh) * 2020-12-25 2021-04-13 郑州轻工业大学 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113393434A (zh) * 2021-06-11 2021-09-14 大连理工大学 一种基于非对称双流网络架构的rgb-d显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SOD-CED:salient object detection for noisy images using convolution encoder-decoder;Maheep Singh等;《IET Computer Vision》;第578-587页 *
基于深度学习的显著性目标检测方法的研究;孟令兵;《中国优秀硕士学位论文全文数据库信息科技辑》(第9期);第I138-606页 *

Also Published As

Publication number Publication date
CN113780241A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN111242238B (zh) 一种rgb-d图像显著性目标获取的方法
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN110020681A (zh) 基于空间注意力机制的点云特征提取方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN113297956B (zh) 一种基于视觉的手势识别方法及系统
CN113298018A (zh) 基于光流场和脸部肌肉运动的假脸视频检测方法及装置
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN113780241B (zh) 一种显著物体检测的加速方法与装置
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN114926734A (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN111901610B (zh) 一种基于多层编码器的并行图像描述方法
CN112926667A (zh) 深度融合边缘与高层特征的显著性目标检测方法及装置
CN113269089A (zh) 基于深度学习的实时手势识别方法及系统
CN116258756B (zh) 一种自监督单目深度估计方法及系统
CN115471901A (zh) 基于生成对抗网络的多姿态人脸正面化方法及系统
Wu et al. AMR-Net: Arbitrary-oriented ship detection using attention module, multi-scale feature fusion and rotation pseudo-label
Li et al. Group-level emotion recognition based on faces, scenes, skeletons features
CN117576245B (zh) 一种图像的风格转换方法、装置、电子设备及存储介质
Ding Scene parsing with deep neural networks
CN117274761B (zh) 图像生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant