CN117911562A

CN117911562A - 一种全景图像显著性对象检测方法、装置、终端及介质

Info

Publication number: CN117911562A
Application number: CN202410291526.3A
Authority: CN
Inventors: 王旭; 张洁; 张秋丹; 周宇; 江建民
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-04-19

Abstract

本发明公开了一种全景图像显著性对象检测方法、装置、终端及介质，所述方法包括获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像；将所述ERP全景图像和所述TP图像输入包括基于失真校正注意力机制的编码器、多尺度处理的细节细化模块和不确定性引导的空间对齐解码器的全景图像显著性对象检测模型中进行显著性进行，输出所述目标对象的显著性特征。因此，本发明实施例能够根据学习切线投影图像特征和几何信息，考虑全景图像的高分辨率和大小不一的多尺度显著性对象，感知并矫正全景图像的失真，扩大感受野并学习远程依赖，基于不确定性估计获取显著性对象可能的位置信息，以提高全景图像显著性对象检测模型预测性能的精度。

Description

一种全景图像显著性对象检测方法、装置、终端及介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种全景图像显著性对象检测方法、装置、终端及介质。

背景技术

目前，现有的全景图像显著性对象检测模型，通常利用CMP图像或多面体投影图像缓解全景图像的失真，但往往只是利用二者互补，没有充分利用全景图像中的几何信息。对于全景图像这种高分辨率的图像，也未能充分利用其语义信息，且没有考虑高分辨率全景图像中的多尺度显著对象。因此该如何解决现有的全景图像显著性对象检测模型的不足，提升全景图像显著性对象检测模型的精度。

发明内容

本发明提供一种全景图像显著性对象检测方法、装置、终端及介质，根据学习切线投影图像特征和几何信息，考虑全景图像的高分辨率和大小不一的多尺度显著性对象，感知并矫正全景图像的失真，扩大感受野并学习远程依赖，基于不确定性估计获取显著性对象可能的位置信息，以提高全景图像显著性对象检测模型预测性能的精度。

为了实现上述目的，第一方面，本发明实施例提供了一种全景图像显著性对象检测方法，包括：

获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像；

将所述ERP全景图像和所述TP图像输入全景图像显著性对象检测模型中进行显著性检测，输出所述目标对象的显著性特征；

其中，所述全景图像显著性对象检测模型包括基于失真校正注意力机制的编码器、多尺度处理的细节细化模块和不确定性引导的空间对齐解码器；

所述基于失真校正注意力机制的编码器，基于几何信息，对所述TP图像进行骨干网络特征提取以及投影变换失真校正，得到TP图像编码特征；

所述多尺度处理的细节细化模块扩大所述TP图像编码特征的感受野，获取具有远程依赖的局部特征；

所述不确定性引导的空间对齐解码器对所述ERP全景图像进行特征提取，得到ERP的高级语义特征，进行不确定性估计获取所述高级语义特征的不确定性图，基于所述局部特征、所述不确定性图以及ERP全景图像特征，获取所述目标对象的显著性特征。

作为上述方案的改进，所述基于失真校正注意力机制的编码器包括ResNet50编码器和失真校正注意力模块，

所述ResNet50编码器接收所述TP图像，通过几何嵌入网络获取几何信息；对所述TP图像进行骨干网络特征提取得到TP图像几何特征；

所述失真校正注意力模块对所述TP图像进行投影变换失真校准，得到TP图像失真校正注意力特征，结合所述TP图像几何特征，获得TP图像编码特征。

作为上述方案的改进，所述失真校正注意力模块包括可变形卷积、空间通道重建卷积和学习失真信息网络。

作为上述方案的改进，所述多尺度处理的细节细化模块包括非局部注意辅助的傅里叶卷积操作和残差结构的跳跃连接操作，

所述非局部注意辅助的傅里叶卷积操作扩大所述TP图像编码特征的感受野，捕获跨尺度特征的相关性，得到所述TP图像编码特征的全局特征；

所述残差结构的跳跃连接操作提取所述全局特征的细节信息和空间信息，得到具有远程依赖的局部特征。

作为上述方案的改进，所述不确定性引导的空间对齐解码器包括不确定性引导的空间对齐模块和前背景注意力机制解码器，

不确定性引导的空间对齐模块对所述ERP全景图像进行特征提取，得到ERP的高级语义特征，进行不确定性估计获取所述高级语义特征的不确定性图；

前背景注意力机制解码器利用所述不确定性图引导所述局部特征，得到前景显著性信息和背景显著性信息，结合ERP全景图像特征，获取所述目标对象的显著性特征。

作为上述方案的改进，所述获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像，具体为：

获取目标对象的ERP全景图像，通过E2P操作将所述ERP全景图像转换为TP图像。

作为上述方案的改进，所述ResNet50编码器的层与层之间都设置有一个所述失真校正注意力模块；

所述几何嵌入网络由一层的多层感知机构成。

第二方面，本发明实施例提供了一种全景图像显著性对象检测装置，包括：

图像信息获取模块，用于获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像；

显著性特征检测模块，用于将所述ERP全景图像和所述TP图像输入全景图像显著性对象检测模型中进行显著性检测，输出所述目标对象的显著性特征；

第三方面，本发明实施例对应提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述全景图像显著性对象检测方法。

此外，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述全景图像显著性对象检测方法。

与现有技术相比，本发明实施例公开的一种全景图像显著性对象检测方法、装置、终端及介质，通过获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像；将所述ERP全景图像和所述TP图像输入包括基于失真校正注意力机制的编码器、多尺度处理的细节细化模块和不确定性引导的空间对齐解码器的全景图像显著性对象检测模型中进行显著性进行，输出所述目标对象的显著性特征。因此，本发明实施例能够根据学习切线投影图像特征和几何信息，考虑全景图像的高分辨率和大小不一的多尺度显著性对象，感知并矫正全景图像的失真，扩大感受野并学习远程依赖，基于不确定性估计获取显著性对象可能的位置信息，以提高全景图像显著性对象检测模型预测性能的精度。

附图说明

图1是本发明实施例提供的一种全景图像显著性对象检测方法的流程示意图；

图2是本发明实施例提供的一种失真校正注意力模块的结构示意图；

图3是本发明实施例提供的一种不确定性引导的空间对齐解码器示意图；

图4是本发明实施例提供的一种E2P操作示意图；

图5是本发明实施例提供的一种全景图像显著性对象检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的术语“包括”和“具体”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本发明实施例提供的一种全景图像显著性对象检测方法的流程示意图，该全景图像显著性对象检测方法，包括步骤S1至S2：

S1：获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像；

S2：将所述ERP全景图像和所述TP图像输入全景图像显著性对象检测模型中进行显著性检测，输出所述目标对象的显著性特征；

可以理解的是，将ERP全景图像转换为TP图像后，基于失真校正注意力机制的编码器对TP图像进行骨干网络特征提取，通过失真校正注意力模块（Distortion CorrectionAttention Module，DCAM）尽可能地减少投影变换带来的失真并保留图像空间细节，最终得到TP图像编码特征。

需要说明的是，考虑到全景图像的高分辨率和大小不一的多尺度显著性对象，仅在空间域使用卷积会限制网络的感受野，容易局限于全景图像的局部特征，为此，本发明实施例在多尺度处理的细节细化模块（Multiscale Processing Detail RefinementModule，MDRM）中引入多尺度技术和非局部注意辅助的快速傅里叶卷积来扩大感受野并学习远程依赖。以基于失真校正注意力机制的编码器提取的TP图像编码特征作为输入，得到一个具有远程依赖的局部特征，在输入特征中捕获更多跨尺度特征的相关性以提升所述全景图像显著性对象检测模型的性能。

可以理解的是，不同被试者的个人偏好会给全景图像显著性任务带来了不可避免的不确定性，因此本发明实施例通过不确定性引导的空间对齐解码器（Uncertainty-Guided Spatial Alignment Decoder，UGSAD）对ERP的高级语义特征进行不确定性估计获取显著性对象可能的位置信息，在解码过程中作为显著性线索引导P2E特征使得显著性对象在空间位置上对齐；考虑到360°全景图像数据集中显著对象可能存在于背景中，还引入了一个前背景注意力机制，模拟人眼注意力机制的主观性和不确定性以提高全景图像显著性对象检测的精度。

具体的，所述基于失真校正注意力机制的编码器包括ResNet50编码器和失真校正注意力模块，

示例的，将ERP全景图像转换为TP图像后，采用ResNet50作为骨干网络接收输入的TP图像并进行特征提取，在编码过程中引入几何嵌入网络学习空间几何信息以弥补图像块之间的特征差异。将获得的几何信息与ResNet50编码器的第一层特征进行元素级加法融合，用较小的计算成本学习得到TP图像几何特征。

更具体的，所述失真校正注意力模块包括可变形卷积、空间通道重建卷积和学习失真信息网络。

需要说明的是，在传统的卷积中卷积核是固定的，这导致传统卷积无法适应全景图像中的显著性对象，特别是两极点处的对象。不同于传统卷积的固定性，所述失真校正注意力模块引入了可变形卷积（Deformable ConvNet，DCN），允许卷积核在感受野内进行形变以适应全景图像中显著性对象的非性形状，增强全景图像显著性对象检测模型对目标不规则形状的建模能力，增加感受野的有效性。由于多个TP图像块之间具有重叠区域，为减少冗余信息，在该失真校正注意力模块引入空间通道重建卷积（Spatial and Channelreconstruction Convolution，SCConv）以减少空间空余和通道冗余，提高特征的表示能力。示例的，参见图2，图2是本发明实施例提供的一种失真校正注意力模块的结构示意图，图2中“+”表示元素级加法操作。失真校正注意力模块为了尽可能的减少失真并保留空间细节，首先对全景图像球面数据的切线投影图像的失真信息作为先验知识prior学习失真自适应权重/>提供给可变形卷积（Deformable ConvNet，DCN），与/>一起输入至DCN中，其表达式为：

，

其中，是学习失真信息网络，/>为失真校正特征；其次，为了减少多个图像块重叠区域导致的冗余信息，所述失真校正注意力模块引入了空间通道重建卷积，以残差的方式添加至失真校正注意力模块中。具体操作如以下公式所示：

，

其中，是空间细化特征，/>为TP图像失真校正注意力特征；失真校正注意力模块（DCAM）能够尽可能地减少投影变换带来的失真并保留图像空间细节，最终得到TP图像编码特征/>。

具体的，所述多尺度处理的细节细化模块包括非局部注意辅助的傅里叶卷积操作和残差结构的跳跃连接操作，

值得说明的是，对所述基于失真校正注意力机制的编码器所提取的特征的利用受限于局部特征，同时仅在空间域使用卷积进行解码会限制网络的感受野，很难考虑到全景图像的高分辨率和大小不一的多尺度显著性对象。因此本发明实施例在多尺度处理的细节细化模块中同时考虑全局特征和局部特征，引入多尺度技术和非局部注意辅助的快速傅里叶卷积来扩大感受野并学习远程依赖。

示例的，在得到基于失真校正注意力机制的编码器所提取的TP图像编码特征后当i=5时，该TP图像编码特征/>为TP图像高级编码特征/>，为考虑高分辨率全景图像的全局特征，引入一个非局部注意辅助的傅里叶卷积操作（/>），/>操作如以下公式所示：

，

为了充分利用TP图像高级编码特征中包含的空间信息和语义信息，本发明实施例引入了一个残差结构的跳跃连接操作（Skip），Skip操作如以下公式所示：

，

其中，是全局特征，/>为具有远程依赖的局部特征，/>是输入变量；Skip操作将为TP图像高级编码特征带来更多的细节信息和空间信息，得到一个具有远程依赖的局部特征，在输入TP图像高级编码特征中捕获更多跨尺度特征的相关性以提升模型的性能。

具体的，所述不确定性引导的空间对齐解码器包括不确定性引导的空间对齐模块和前背景注意力机制解码器，

需要说明的是，尽管一些360°全景图像数据集，有眼动数据作为指导，但是都是通过不同被试者根据要求主观判断再进行标注的。不同被试者的个人偏好给全景图像显著性对象检测任务带来了不可避免的不确定性，相比于切线投影图像，等距柱状投影图像具有更完整、直观的全局信息，因此本发明实施例采用不确定性引导的空间对齐模块，利用等距柱状投影图像中语义信息估计了一个包含显著性对象可能的位置信息的不确定性图，并在解码过程时将不确定性作为显著性线索引导P2E特征，使得显著性对象在空间位置上对齐。此外，考虑到360°全景图像数据集中显著对象可能存在于背景中，还引入了一个前背景注意力机制，模拟人眼注意力机制的主观性和不确定性以实现全景图像显著性对象检测的全面性。

示例的，所述不确定性引导的空间对齐解码器以目标对象的ERP全景图像作为输入，利用ResNet50网络提取/>的特征，对包含位置信息的高级语义特征（后三层特征）利用一个不确定估计网络预测显著性对象可能的位置信息，过程如下所示：

，

其中，为不确定性特征，当i=5时，/>为不确定性图，与此同时为检测背景中存在的显著性对象，在解码过程中引入了前背景注意力机制。获得多尺度处理的细节细化模块的具有远程依赖的局部特征/>后，解码器/>以局部特征/>、不确定性图/>和经过P2E操转化为ERP格式的特征/>为输入，首先利用不确定性图/>引导多尺度处理的局部特征/>，二者元素级相加后分为两个分支：前景检测分支和背景检测分支，分支检测得到的前景信息和背景信息分别与ERP格式的特征/>相乘并通过卷积操作提取相应的显著性线索，最后将二者级联起来利用卷积操作获取在不确定性引导下的空间对齐特征，之后层层递进以细化显著性线索。参见图3，图3是本发明实施例提供的一种不确定性引导的空间对齐解码器示意图，图3中“-”表示元素级减法操作，“+”表示元素级加法操作，“×”表示元素级乘法操作，“C”代表连接操作，/>和/>都是卷积核大小为3×3的卷积，是卷积核大小为3×3的卷积。具体操作如下，首先获得前景显著性信息/>和背景显著性信息/>：

，

其中，当i=1,2,3,4时，局部特征为前景特征pred，矩阵E中的所有元素都是1。其次，通过卷积操作提取相应的显著性线索，特别的是在后三层高级语义特征解码时引入了空洞金字塔池化（Atrous Spatial Pyramid Pooling，ASPP）在不丢失分辨率的情况下扩大了卷积核的感受野，以获得显著性对象更精确的位置信息：

，

其中，和/>都是卷积核大小为3×3的卷积，分别获取前景区域和背景区域的显著性线索，/>为ERP格式的特征。最后，获取细化后的显著性特征/>：

，

其中是卷积核大小为3×3的卷积。不确定性引导的空间对齐解码器考虑到了全景图像数据集中显著对象可能存在于背景中的情况，模拟了人眼注意力机制的主观性和不确定性以提升模型性能。

具体的，所述获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像，具体为：

示例的，由于ERP全景图像存在的失真问题，本发明实施例使用了一个E2P操作将目标对象的ERP全景图像转化为TP图像块/>，其中/>，如图4所示，图4是本发明实施例提供的一种E2P操作示意图；将ERP全景图像转化为10个TP图像块，/>和/>均设置为256，B表示批处理大小。

更具体的，所述ResNet50编码器的层与层之间都设置有一个所述失真校正注意力模块；

所述几何嵌入网络由一层的多层感知机构成。

可以理解的是，为了适应全景图像投影至二维图像导致的失真和形变，本发明实施例在ResNet50编码器的层与层之间均设计了一个失真校正注意力模块，所述几何嵌入网络由一层多层感知机（MLP）构成。

需要说明的是，由于全景图像不可避免的投影失真问题，本发明实施例所提出的基于失真校正注意力机制的编码器主要利用360°全景图像的几何信息缓解TP投影中产生的失真。考虑到全景图像的高分辨率和大小不一的多尺度显著性对象，引入多尺度技术和非局部注意辅助的快速傅里叶卷积来扩大感受野并学习远程依赖。为模拟不同被试者的个人偏好给全景图像显著性任务带来的不可避免的不确定性，设计了一个不确定性引导的空间对齐解码器，通过对ERP的高级语义特征进行不确定性估计获取显著性对象可能的位置信息，在解码过程中作为显著性线索引导P2E特征使得显著性对象在空间位置上对齐。

图5是本发明实施例提供的一种全景图像显著性对象检测装置10的结构示意图，该全景图像显著性对象检测装置10，包括：

图像信息获取模块11，用于获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像；

显著性特征检测模块12，用于将所述ERP全景图像和所述TP图像输入全景图像显著性对象检测模型中进行显著性检测，输出所述目标对象的显著性特征；

本发明实施例所提供的一种全景图像显著性对象检测装置10能够实现上述实施例的全景图像显著性对象检测方法的所有流程，装置中的各个模块的作用以及实现的技术效果分别与上述实施例的全景图像显著性对象检测方法的作用以及实现的技术效果对应相同，这里不再赘述。

本发明实施例对应提供的一种终端设备，所述终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述全景图像显著性对象检测方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述全景图像显著性对象检测装置10实施例中各模块的功能。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例的全景图像显著性对象检测方法。

综上所述，本发明实施例公开的一种全景图像显著性对象检测方法、装置、终端及介质，通过获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像；将所述ERP全景图像和所述TP图像输入包括基于失真校正注意力机制的编码器、多尺度处理的细节细化模块和不确定性引导的空间对齐解码器的全景图像显著性对象检测模型中进行显著性进行，输出所述目标对象的显著性特征。因此，本发明实施例能够根据学习切线投影图像特征和几何信息，考虑全景图像的高分辨率和大小不一的多尺度显著性对象，感知并矫正全景图像的失真，扩大感受野并学习远程依赖，基于不确定性估计获取显著性对象可能的位置信息，以提高全景图像显著性对象检测模型预测性能的精度。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种全景图像显著性对象检测方法，其特征在于，包括：

2.如权利要求1所述的全景图像显著性对象检测方法，其特征在于，所述基于失真校正注意力机制的编码器包括ResNet50编码器和失真校正注意力模块，

3.如权利要求2所述的全景图像显著性对象检测方法，其特征在于，所述失真校正注意力模块包括可变形卷积、空间通道重建卷积和学习失真信息网络。

4.如权利要求1所述的全景图像显著性对象检测方法，其特征在于，所述多尺度处理的细节细化模块包括非局部注意辅助的傅里叶卷积操作和残差结构的跳跃连接操作，

5.如权利要求1所述的全景图像显著性对象检测方法，其特征在于，所述不确定性引导的空间对齐解码器包括不确定性引导的空间对齐模块和前背景注意力机制解码器，

6.如权利要求1所述的全景图像显著性对象检测方法，其特征在于，所述获取目标对象的ERP全景图像，将所述ERP全景图像转换为TP图像，具体为：

7.如权利要求2所述的全景图像显著性对象检测方法，其特征在于，所述ResNet50编码器的层与层之间都设置有一个所述失真校正注意力模块；

所述几何嵌入网络由一层的多层感知机构成。

8.一种全景图像显著性对象检测装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的全景图像显著性对象检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1-7中任意一项所述的全景图像显著性对象检测方法。