CN112861883A

CN112861883A - 一种图像显著性区域检测方法及装置

Info

Publication number: CN112861883A
Application number: CN202110293047.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Biren Intelligent Technology Co Ltd
Current assignee: Shanghai Bi Ren Technology Co ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-05-28
Anticipated expiration: 2041-03-18
Also published as: CN112861883B

Abstract

本发明提供一种图像显著性区域检测方法及装置。其中，该方法包括：将待检测的原始图像转换为亮度色彩通道图像，并对亮度色彩通道图像进行降采样处理；将降采样处理后的亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵；将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，得到对应的定位向量，基于所述定位向量确定图像显著性区域；其中，所述全局注意力模型是基于预设原始图像和用于预先标记的图像显著位置的定位向量作为训练样本进行训练后得到的。采用本发明方法，能够减少全局注意力模型的计算量，提升对自然图像显著性检测准确率和效率，便于快速适用于不同场景的图像显著性检测需求。

Description

一种图像显著性区域检测方法及装置

技术领域

本发明涉及计算机图像处理技术领域，具体涉及一种图像显著性区域检测方法和装置。另外，还涉及一种电子设备及非暂态计算机可读存储介质。

背景技术

近年来，随着计算机图像处理技术的迅速发展，基于深度学习的图像应用，比如图像显著性区域检测已经取得了长足的进步。图像显著性区域检测的任务是检测图像中引起人眼注意的目标对象，比如行人检测中的行人或者特定场景中的目标异常点。现有技术中，基于卷积网络的图像显著性检测方法已经得到了广泛应用。然而，此种方法直接作用在原始图像通道上，没有考虑自然图像的频域特征的分布特征，限制了对图像显著性区域检测性能的进一步提升，很难获得较好的检测效果。

随着变换器(Transformer)类模型的深入发展，如何结合全局注意力方法实现更好的图像显著性检测成为本领域研究的重要课题。

发明内容

为此，本发明提供一种图像显著性区域检测方法及装置，以解决现有技术中存在的图像显著性区域检测方案的检测效果及性能较差的问题。

本发明提供一种图像显著性区域检测方法，包括：

将待检测的原始图像转换为亮度色彩通道图像，并对亮度色彩通道图像进行降采样处理；

将降采样处理后的亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵；

将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，得到对应的定位向量，基于所述定位向量确定图像显著性区域；

其中，所述全局注意力模型是基于预设原始图像和用于预先标记的图像显著位置的定位向量作为训练样本进行训练后得到的。

进一步的，所述对亮度色彩通道图像进行降采样处理，具体为：对色彩通道进行降采样处理，使得所述色彩通道的分辨率是亮度通道分辨率的四分之一。

进一步的，所述定位向量构成的矩阵中的各个单元与所述原始图像中的各个区域一一对应，每个单元的值表示所述原始图像中对应区域的显著度均值。

进一步的，所述的图像显著性区域检测方法，还包括：

对所述原始图像进行切块，获得若干个原始图像小块；

将所述原始图像小块分别变换为对应的一维向量，基于所述一维向量构成所述原始图像对应的矩阵向量。

进一步的，所述全局注意力模型为基于注意力机制的变换器模型；

所述将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，得到对应的定位向量，具体包括：

将编码后的所述频域矩阵和所述原始图像对应的矩阵向量输入至变换器模型中的编码器部分进行处理，获得相应的编码矩阵向量；

将所述编码矩阵向量输出到所述变换器模型中的解码器部分，获得相应的定位向量。

本发明还提供一种图像显著性区域检测方法，包括：

将待检测的原始图像转换为亮度色彩通道图像；

将所述亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵；

在频域矩阵上对所述亮度色彩通道图像进行降采样处理；

将降采样处理后的所述亮度色彩通道图像对应的频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，根据生成的定位向量确定显著性区域；

相应的，本发明还提供一种图像显著性区域检测装置，包括：

图像转换及压缩单元，用于将待检测的原始图像转换为亮度色彩通道图像，并对亮度色彩通道图像进行降采样处理；

频域特征提取单元，用于将降采样处理后的亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵；

显著性区域检测单元，用于将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，得到对应的定位向量，基于所述定位向量确定图像显著性区域；

进一步的，所述图像转换及压缩单元，具体用于：对色彩通道进行降采样处理，使得所述色彩通道的分辨率是亮度通道分辨率的四分之一。

进一步的，所述的图像显著性区域检测装置，还包括：

切分单元，用于对所述原始图像进行切块，获得若干个原始图像小块；

向量变换单元，用于将所述原始图像小块分别变换为对应的一维向量，基于所述一维向量构成所述原始图像对应的矩阵向量。

所述显著性区域检测单元，具体用于：

图像转换单元，用于将待检测的原始图像转换为亮度色彩通道图像；

频域特征提取单元，用于将所述亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵；

频域压缩单元，用于在频域矩阵上对所述亮度色彩通道图像进行降采样处理；

显著性区域检测单元，用于将降采样处理后的所述亮度色彩通道图像对应的频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，根据生成的定位向量确定显著性区域；

相应的，本发明还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任意一项所述的图像显著性区域检测方法的步骤。

相应的，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述的图像显著性区域检测方法的步骤。

采用本发明所述的图像显著性区域检测方法，能够通过提取图像的频域特征实现抗形变和噪声，同时利用亮度色彩通道图像特点降低频域分辨率，减少了全局注意力模型的计算量，从而提升对自然图像显著性检测的准确率和效率，便于快速适用于不同场景的图像显著性检测需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1为本发明实施例提供的第一种图像显著性区域检测方法的流程示意图；

图2为本发明实施例提供的一种跨模态图像转换方法的流程示意图；

图3为本发明实施例提供的第一种图像显著性区域检测装置的结构示意图；

图4为本发明实施例提供的第二种图像显著性区域检测方法的流程示意图；

图5为本发明实施例提供的第二种图像显著性区域检测装置的结构示意图；

图6为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

下面基于本发明所述的图像显著性区域检测方法，对其实施例进行详细描述。如图1所示，其为本发明实施例提供的第一种图像显著性区域检测方法的流程示意图，具体实现过程包括以下步骤：

步骤101：将待检测的原始图像转换为亮度色彩通道图像，并对亮度色彩通道图像进行降采样处理。

在本发明实施例中，所述的原始图像可以是指RGB图像。RGB图像是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色，RGB即代表红、绿、蓝三个通道的颜色。所述亮度色彩通道图像是指YUV图像。其中，YUV图像中“Y”表示明亮度(Luminance或Luma)，也就是灰阶值；“U”和“V”则表示色度(Chrominance或Chroma)。

在具体实施过程中，可将待检测的原始图像(即RGB图像)转换为亮度色彩通道图像(即YUV图像)，然后再分别输入到傅里叶变换层中。

在输入傅里叶变换层之前，为了减少全局注意力模型(attention模型)的数据处理量，需要预先对亮度色彩通道图像进行降采样处理。对亮度色彩通道图像进行降采样有三种实现形式，包括：图像域降采样；频域降采样；以及在图像域降采样后，再在傅里叶变换后的频域进行降采样。具体的，对亮度色彩通道图像进行降采样后图像分辨率(矩阵尺寸)降低，比如对亮度色彩通道图像进行1/2图像域降采样后的矩阵是原矩阵的1/4；对傅里叶变换后的频域矩阵进行降采样与上述图像域降采样类似，所以在此不再重复赘述；若亮度色彩通道图像在图像域进行1/2降采样，再在傅里叶变换后的频域降进行1/2降采样，则最终获得的频域矩阵仅为原原矩阵的1/16。

需要说明的是，在图像变换与降采样过程中，既可以在傅里叶变化前进行降采样处理，也可以在傅里叶变换后的频域矩阵上对U，V通道截取低频部分，实现降采样处理。以傅里叶变化前进行降采样处理为例，将RGB图像->YUV图像：1024x1024x3->1024x1024x3；Y通道尺度可保持不变，对U，V通道进行降采样，得到Y通道：1024X1024->1024x1024；U，V通道：1024x1024–>512x512，从而实现降采样处理。

步骤102：将降采样处理后的亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵。

本发明实施例中，所述傅里叶变换层是在全局注意力模型基础上设置的，用于提取频域特征，变换后得到的频域矩阵与原始图像一起可分割为若干个小块，并作为全局注意力模型的输入。通过该全局注意力模型，根据输入产生的定位向量来定位图像的显著性区域。需要说明的是，所述原始图像和亮度色彩通道图像均为数字图像；该数字图像对应的离散数字信号经过离散傅里叶类变换后的频域矩阵与原矩阵尺寸相同。

具体的，在对频域矩阵和原始图像进行分块及编码过程中，可将频域矩阵切分成大小相同的N小块(pxp矩阵)，并变形为1维的Mx1向量(M＝pxp)；所述频域矩阵的全部小块构成一个NXM的矩阵。比如若亮度色彩通道图像对应频域矩阵共有1.5N个小块，则原始图像也产生相应的1.5N个小块。

将频域矩阵和亮度色彩通道图像对应的1维向量输入傅里叶编码层，提取频域特征。一种可能的傅里叶编码层实现方案对应的表达式(1)如下：

φE＝[sin(2πf×x)；cos(2πf×x)]^T (1)

式中，x是输入信号，f是频率，φ为输出。其中，Y、U、V三个通道的频域分辨率不同，色彩通道Y的频率分辨率是亮度通道UV频率分辨率的1/4。

步骤103：将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，得到对应的定位向量，基于所述定位向量确定图像显著性区域。其中，所述全局注意力模型是基于预设原始图像和用于预先标记的图像显著位置的定位向量作为训练样本进行训练后得到的。

在本发明实施例中，首先需要对所述原始图像进行切块处理，获得若干个原始图像小块，并将所述原始图像小块分别变换为对应的一维向量，基于所述一维向量构成所述原始图像对应的矩阵向量。然后，将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理得到相应的定位向量。该定位向量构成的矩阵中的各个单元与所述原始图像中的各个区域一一对应，每个单元的值表示所述原始图像中对应区域的显著度均值。

在本发明实施例中，所述的全局注意力模型为基于注意力机制的变换器模型(transformer模型)。如图2所示，该Transformer模型本质上是一个编码器(Encoder)-解码器(Decoder)的结构，编码器由6个编码层依次连接组成，解码器是6个解码层依次连接组成。与所有的生成模型相同的是，编码器接收原始输入的数据，并输出编码向量至解码器，解码器生成解码向量并得到最终的输出数据。编码器可用于将多帧投影数据转化为编码向量。解码器可用于将编码向量生成解码向量，并将解码向量转换为多帧影像数据。

在本步骤中，将频域矩阵和原始图像对应的矩阵向量输入至全局注意力模型中进行处理得到相应的定位向量，具体实现过程包括：预先对频域矩阵和原始图像对应的矩阵向量包含的一维向量进行嵌入编码(embedding编码)和位置编码(poistion编码)处理，得到编码处理后的所述频域矩阵和所述原始图像对应的矩阵向量；然后，将编码后的所述频域矩阵和所述原始图像对应的矩阵向量输入至变换器模型中的编码器部分进行处理，获得相应的编码矩阵向量，并将所述编码矩阵向量输出到所述变换器模型中的解码器部分，获得相应的定位向量。

需要说明的是，该定位向量作为学习显著性位置的标记向量(Mx1)，在变换器模型训练时，定位向量用预先标记的图像显著图样本来标记。该定位向量对应pxp矩阵，所述pxp矩阵中的每个单元对应原始图像一个区域。比如原始图像1024x1024，pxp矩阵为64x64，则定位向量对应的pxp矩阵的一个单元对应原始图像大小为16x16区域。将标记向量还原为pxp的矩阵，每个元素的值即代表原始图像对应区域的显著度均值，从而确定图像的显著性区域。

另外，需要说明的是，在本发明实施例中，所述的全局注意力模型包括但不限于是指基于注意力机制的变换器模型，其也可以是指其他类型的注意力模型，在此不做具体限定。

在具体实施过程中，可将训练好的模型可作为预训练模型，用于其它图像数据集的迁移。具体的，将训练好的全局注意力模型作为预训练模型，基于图像数据集对所述预训练模型的部分参数进行微调(fine-tune)后，即可得到满足预设条件的目标注意力模型。

采用本发明实施例所述的第一种图像显著性区域检测方法，能够通过提取图像的频域特征实现抗形变和噪声，同时利用亮度色彩通道图像特点降低频域分辨率，减少了全局注意力模型的计算量，从而提升对自然图像显著性检测的准确率和效率，便于快速适用于不同场景的图像显著性检测需求。

与上述提供的一种图像显著性区域检测方法相对应，本发明还提供一种图像显著性区域检测装置。由于该装置的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的图像显著性区域检测装置的实施例仅是示意性的。请参考图3所示，其为本发明实施例提供的第一种图像显著性区域检测装置的结构示意图。

本发明所述的一种图像显著性区域检测装置具体包括如下部分：

图像转换及压缩单元301，用于将待检测的原始图像转换为亮度色彩通道图像，并对亮度色彩通道图像进行降采样处理。

频域特征提取单元302，用于将降采样处理后的亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵。

显著性区域检测单元303，用于将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，得到对应的定位向量，基于所述定位向量确定图像显著性区域。

采用本发明实施例所述的第一种图像显著性区域检测装置，能够通过提取图像的频域特征实现抗形变和噪声，同时利用亮度色彩通道图像特点降低频域分辨率，减少了全局注意力模型的计算量，从而提升对自然图像显著性检测的准确率和效率，便于快速适用于不同场景的图像显著性检测需求。

本发明还提供另一种相应的图像显著性区域检测方法及装置。请参考图4所示，其为本发明实施例提供的第二种图像显著性区域检测方法的流程示意图。

步骤401：将待检测的原始图像转换为亮度色彩通道图像。

步骤402：将所述亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵。

步骤403：在频域矩阵上对所述亮度色彩通道图像进行降采样处理。

步骤404：将降采样处理后的所述亮度色彩通道图像对应的频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，根据生成的定位向量确定显著性区域。其中，所述全局注意力模型是基于预设原始图像和用于预先标记的图像显著位置的定位向量作为训练样本进行训练后得到的。

请参考图5所示，其为本发明实施例提供的第二种图像显著性区域检测装置的结构示意图。

图像转换单元501，用于将待检测的原始图像转换为亮度色彩通道图像。

频域特征提取单元502，用于将所述亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵。

频域压缩单元503，用于在频域矩阵上对所述亮度色彩通道图像进行降采样处理。

显著性区域检测单元504，用于将降采样处理后的所述亮度色彩通道图像对应的频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，根据生成的定位向量确定显著性区域。其中，所述全局注意力模型是基于预设原始图像和用于预先标记的图像显著位置的定位向量作为训练样本进行训练后得到的。

采用本发明实施例所述的第二种图像显著性区域检测方法及装置，能够通过提取图像的频域特征实现抗形变和噪声，同时利用亮度色彩通道图像特点降低频域分辨率，减少了全局注意力模型的计算量，从而提升对自然图像显著性检测的准确率和效率，便于快速适用于不同场景的图像显著性检测需求。

与上述提供的图像显著性区域检测方法相对应，本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的电子设备仅是示意性的。如图6所示，其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括：处理器(processor)601、存储器(memory)602和通信总线603，其中，处理器601，存储器602通过通信总线603完成相互间的通信。处理器601可以调用存储器602中的逻辑指令，以执行图像显著性区域检测方法，该方法包括：将待检测的原始图像转换为亮度色彩通道图像，并对亮度色彩通道图像进行降采样处理；将降采样处理后的亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵；将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，得到对应的定位向量，基于所述定位向量确定图像显著性区域；其中，所述全局注意力模型是基于预设原始图像和用于预先标记的图像显著位置的定位向量作为训练样本进行训练后得到的。

此外，上述的存储器602中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的图像显著性区域检测方法，该方法包括：将待检测的原始图像转换为亮度色彩通道图像，并对亮度色彩通道图像进行降采样处理；将降采样处理后的亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵；将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，得到对应的定位向量，基于所述定位向量确定图像显著性区域；其中，所述全局注意力模型是基于预设原始图像和用于预先标记的图像显著位置的定位向量作为训练样本进行训练后得到的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的图像显著性区域检测方法，该方法包括：将待检测的原始图像转换为亮度色彩通道图像，并对亮度色彩通道图像进行降采样处理；将降采样处理后的亮度色彩通道图像输入到傅里叶编码层提取频域特征，得到相应的频域矩阵；将所述频域矩阵和所述原始图像对应的矩阵向量输入至全局注意力模型中进行处理，得到对应的定位向量，基于所述定位向量确定图像显著性区域；其中，所述全局注意力模型是基于预设原始图像和用于预先标记的图像显著位置的定位向量作为训练样本进行训练后得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像显著性区域检测方法，其特征在于，包括：

2.根据权利要求1所述的图像显著性区域检测方法，其特征在于，所述对亮度色彩通道图像进行降采样处理，具体为：对色彩通道进行降采样处理，使得所述色彩通道的分辨率是亮度通道分辨率的四分之一。

3.根据权利要求1所述的图像显著性区域检测方法，其特征在于，所述定位向量构成的矩阵中的各个单元与所述原始图像中的各个区域一一对应，每个单元的值表示所述原始图像中对应区域的显著度均值。

4.根据权利要求1所述的图像显著性区域检测方法，其特征在于，还包括：

对所述原始图像进行切块，获得若干个原始图像小块；

5.根据权利要求1所述的图像显著性区域检测方法，其特征在于，所述全局注意力模型为基于注意力机制的变换器模型；

6.一种图像显著性区域检测方法，其特征在于，包括：

将待检测的原始图像转换为亮度色彩通道图像；

在频域矩阵上对所述亮度色彩通道图像进行降采样处理；

7.一种图像显著性区域检测装置，其特征在于，包括：

8.一种图像显著性区域检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任意一项所述的图像显著性区域检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6任意一项所述的图像显著性区域检测方法的步骤。