CN111539420A

CN111539420A - 基于注意力感知特征的全景图像显著性预测方法及系统

Info

Publication number: CN111539420A
Application number: CN202010171611.8A
Authority: CN
Inventors: 杨小康; 朱丹丹; 闵雄阔; 朱文瀚; 朱煜程; 翟广涛
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-08-14
Anticipated expiration: 2040-03-12
Also published as: CN111539420B

Abstract

本发明提供了一种基于注意力感知特征的全景图像显著性预测方法及系统，包括：预测全景图像的前景注意力图和背景注意力图；计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值，得到可视化分数；提取全景图像的全局特征，将所述全局特征与预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合，得到融合后的所述前景注意力图、所述背景注意力图；将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数加权融合，获得最终的预测结果。本发明在模拟人类视觉注意力机制方面具有较好的准确性。

Description

基于注意力感知特征的全景图像显著性预测方法及系统

技术领域

本发明涉及图像显著性预测技术领域，具体地，涉及一种基于注意力感知特征的全景图像显著性预测方法及系统，以及对应该方法的终端。

背景技术

传统图像的显著性预测已是目前研究比较深入的课题，在过去几十年中研究人员们提出了多种显著性预测模型，这些显著性预测模型可以分为两类：基于传统手动特征提取的显著性预测模型和基于深度神经网络的显著性预测模型。其中，对于传统手动特征提取的显著性预测模型是受神经生物学机制启发，利用自下而上的计算模式提取各种低层次特征进行显著性预测，该类模型是由数据驱动的，一般显著性预测准确率较低。比较具有代表性的是Itti等人提出的视觉显著性模型，通过提取多尺度上的低层次特征并利用线性加权融合的方法得到最终的显著图。基于深度神经网络的显著性预测模型是采用目前主流的各种深度神经网络模型提取高层次语义特征进行显著性预测的，该类模型是受数据量的限制，需在大规模数据的条件下进行模型训练的。与第一类显著性预测模型相比，第二类模型往往得到的显著性预测准确率较高，更符合人类视觉注意力机制。

然而，在使用基于深度神经网络的显著性预测模型对全景图像进行预测时，存在两个至关重要的问题：1)目前全景图像的数据集都是小规模的，不能支持基于深度神经网络的模型训练；2)在进行显著性预测时，由于全景图像包含有混杂的背景将会影响显著性预测的准确率。

对于全景图像的数据集，目前最广泛使用的是Rai等人在2017年《Proceedings ofthe 8th ACM on Multimedia Systems Conference》发表的“A Dataset of Head and EyeMovements for 360Degree Images”，该数据集共包含60幅全景图像，对于每一幅图像，平均有42个受试者参与观看，每幅图像观看25秒，在两幅图像之间有5秒的灰屏间隔。对于使用基于深度神经网络的模型进行训练，该数据量是不充足的。

对于使用基于深度神经网络进行显著性预测的方法中，比较具有代表性的是Monroy等人在2018年《Signal Processing:Image Communication》上发表的“SalNet360:Saliency maps for omni-directional images with CNN”，它通过微调传统2D图像的显著性预测模型解决全景图像的显著性预测问题；同时还有Pan等人在2018年《CVPR SceneUnderstanding Workshop》上发表的“Salgan:Visual saliency prediction withadversarial networks”，它通过引入对抗网络的对抗训练机制进行显著性预测，在进行训练时，应用设计的二元交叉熵和下采样显著图执行显著性预测。然而这两种方法都是启发式的，对于包含复杂背景的全景图像，不能得到准确的显著性预测结果。

发明内容

针对上述现有方法中存在的不足之处，本发明的目的是提供一种基于注意力感知特征的全景图像显著性预测方法、系统及终端。

根据本发明的第一方面，提供一种基于注意力感知特征的全景图像显著性预测方法，包括：

预测全景图像的前景注意力图和背景注意力图；

计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值，得到可视化分数；

提取全景图像的全局特征，将所述全局特征与预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合，得到融合后的所述前景注意力图、所述背景注意力图；

将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数加权融合，获得最终的预测结果。

可选地，所述预测全景图像的前景注意力图和背景注意力图，是通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图。

可选地，所述通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图，其中，

在第一阶段进行预测的公式如下：

其中，M^PA是通过ResNet50网络预测得到的特征图，

和

表示两个独立的预测网络；F¹和B¹分别表示得到的前景注意力图和背景注意力图。

在第二阶段，对第一阶段得到的前景注意力图和背景注意力图进行增强，其具体的计算如下：

通过上式计算得到预测的前景注意力图F^att和背景注意力图B^att，M是在第二阶段经过ResNet50网络得到的特征图；

和

表示第二阶段的两个独立的预测网络。

可选地，所述计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值，其中：利用所述前景注意力图、所述背景注意力图中每个像素的亮度值表示可视化分数；

定义全局可视化分数

分别表示所述前景注意力图、所述背景注意力图中每一部分的可视化分数，

计算公式如下：

其中，(x₀,y₀)和(x',y')分别表示在所述前景注意力图、所述背景注意力图中的像素点，p和q分别表示前景注意力图和背景注意力图中像素点的集合。

可选地，所述提取全景图像的全局特征，是通过带有注意力机制的ResNet50网络执行的，其中，所述带有注意力机制的ResNet50网络：

1)在ResNet50网络的最后一层添加一个16通道的1×1的卷积核；

2)将输入全景图像的大小从224×224调整为256×128。

可选地，所述将全局特征与预测的前景注意力图、背景注意力图使用逐元素乘的方式进行融合，包括：

将预测的所述前景注意力图、所述背景注意力图和提取得到的所述全局特征利用哈达玛积操作进行特征融合；

将融合后的特征送入所述带有注意力机制的ResNet50网络中得到注意力感知融合的特征向量。

可选地，所述将融合后的特征送入所述带有注意力机制的ResNet50网络中得到注意力特征，计算公式如下：

其中，μ∈{F,B}表示的是前景注意力图、背景注意力图，

表示归一化后的注意力图，max(μ)表示是μ取最大值，f表示是在全局特征提取阶段得到的16通道的全局特征图，ο表示是对两个矩阵或张量进行逐元素乘操作，f_a表示注意力感知融合的特征向量。

可选地，所述将融合后的前景注意力图、背景注意力图与所述可视化分数加权融合，包括：

将所述注意力感知融合的特征向量f_a和所述可视化分数连接起来，送入1×1的卷积层中获得权重向量w；然后利用生成的权重向量w对融合后的前景注意力图和背景注意力图进行加权融合得到最终预测的显著图f_att：

f_att＝Conv(Concat(w,f_a)),μ∈{F,B}

其中，Conv表示卷积操作，Concat表示连接操作，F和B分别表示的是全景图像的前景注意力图、背景注意力图，w表示权重向量。

根据本发明的第二方面，提供一种基于注意力感知特征的全景图像显著性预测系统，包括：

注意力图模块，该模块预测全景图像的前景注意力图和背景注意力图；

可视化分数模块，该模块计算所述注意力图模块预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值，得到可视化分数；

感知特征融合模块，该模块提取全景图像的全局特征，将所述全局特征与所述注意力模块预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合，得到融合后的所述前景注意力图、所述背景注意力图；最后将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数模块得到的可视化分数加权融合，获得最终的预测结果。

根据本发明的第三方面，提供一种基于注意力感知特征的全景图像显著性预测终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述的基于注意力感知特征融合的全景图像显著性预测。

与现有技术相比，本发明具有如下至少一种有益效果：

本发明上述方法、系统及终端，通过可视化分数模块衡量在特征学习过程中前景和背景部分所占的权重，它可以在显著性预测中提供特定图像的可视化分数来决定特征的重要性。

本发明上述方法、系统及终端，将部分注意力特征和可视化分数有机的整合到一起，既考虑了部分(前景和背景区域)注意力，同时可视化这两部分注意力特征图，能够更好地指导特征学习，消除全景图像中混杂背景的干扰。

本发明上述方法、系统及终端，基于注意力感知特征融合的全景图像显著性预测框架可扩展性强，具有灵活、易于修改和可迁移的特性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中的基于注意力感知特征融合的显著性预测方法框架图；

图2为本发明一实施例与现有最先进的方法进行可视化比较的效果图；

图3为本发明一实施例中使用不同的基准网络对显著性预测性能的比较效果图。

具体实施方式

本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作流程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明实施例提供的基于注意力感知特征的全景图像显著性预测方法，利用注意力机制捕获前景和背景部分的注意力图；然后将特征学习过程中前景和背景部分所占的权重进行可视化以更好地指导特征学习；最后通过加权融合的方法对部分注意力图和可视化分数进行融合从而能够得到最终的显著图，提出的该方法在模拟人类视觉注意力机制方面具有较好的准确性。具体的，本发明实施例中，注意力感知特征包括：前景和背景部分的注意力特征；特征融合包括：部分注意力特征和可视化分数的融合。

参照图1所示，在一较优实施例中，基于注意力感知特征的全景图像显著性预测方法包括如下步骤：

步骤1：预测前景注意力图和背景注意力图；

步骤2：计算步骤1预测的前景注意力图、背景注意力图中每一部分的逐像素的亮度值，得到可视化分数；

步骤3：基于上述结果，进行注意力感知特征融合，包括：提取全景图像的全局特征，将全局特征与预测的前景注意力图、背景注意力图使用逐元素乘的方式进行融合，得到融合后的前景注意力图、背景注意力图；将融合后的前景注意力图、背景注意力图与可视化分数加权融合，获得最终的预测结果。

如图1所示，在部分优选实施例中，步骤1中，通过基于ResNet50网络的两阶段预测分别得到部分注意力图(前景、背景注意力图)，其中，在第一阶段进行预测的公式如下：

其中，M^PA是通过ResNet50网络预测得到的特征图，

和

表示两个独立的预测网络。

在第二阶段，对第一阶段得到的注意力进行增强，其具体的计算如下：

通过上式计算可以得到前景注意力图F^att和背景注意力图B^att。

本实施例中，部分注意力图来自于2018年的《Proceedings of the IEEEConference on Computer Vision and Pattern Recognition》发表的“Attention-AwareCompositional Network for Person Re-identification”中提出的用于估计行人身体不同部位(刚体和非刚体部分)注意力的特征从而可以消除相邻区域噪声的影响。当然，在其他实施例中，也可以采用其他的方式得到。

在另一优选实施例中，利用注意力图中每个像素的亮度值表示可视化分数；步骤2包括：

定义全局可视化分数

分别表示所述前景注意力图、所述背景注意力图中每一部分的可视化分数，计算公式如下：

其中，(x₀,y₀)和(x',y')分别表示在前景注意力图和背景注意力图中的像素位置。

在另一优选实施例中，步骤3可以包括如下子步骤：

步骤3.1：提取全景图像的全局特征：

步骤3.2：将部分注意力图(前景注意力图、背景注意力图)与全局特征进行融合：

步骤3.3：将部分注意力图(前景注意力图、背景注意力图)进行特征增强，生成注意力特征向量：

步骤3.4：产生权重向量w：

步骤3.5：对特征向量进行加权融合得到显著图：

较佳地，步骤3.1中，提取全景图像的全局特征，主要是通过基于改进的ResNet50网络执行的，具体的改进点包括：1)为了降低计算成本，在ResNet50网络的最后一层添加了一个16通道的1×1的卷积核；2)为了更好地拟合全景图像的长宽比，将输入全景图像的大小从224×224调整为256×128。改进后的ResNet50网络是一种带有注意力机制的ResNet50网络。

较佳地，步骤3.2中，将部分注意力图和提取得到的全局特征利用哈达玛积操作进行特征融合；然后把融合后的特征送入上述步骤3.1改进的带有注意力机制的ResNet50网络中得到注意力特征，其计算公式如下：

其中，μ∈{F,B}表示的是前景和背景部分的注意力图，

较佳地，步骤3.3中，将得到的部分注意力图送入带有自注意力机制的ResNet50模块中能够产生增强的注意力感知融合的特征向量f_a。

较佳地，步骤3.4中，将注意力感知融合的特征向量和可视化分数连接起来，送入1×1的卷积层中获得权重向量w。

较佳地，步骤3.5中，利用生成的权重向量w对注意力感知特征进行加权融合得到最终预测的显著图f_att：

f_att＝Conv(Concat(w_ρ,f'_a)),ρ∈{F,B}

其中，Conv表示卷积操作，Concat表示连接操作；F和B分别表示的是全景图像的前景注意力图、背景注意力图，w表示权重向量。

本发明上述实施例提供的基于注意力感知特征融合的显著性预测方法，使用设计的基于ResNet50的两阶段双流网络分别预测得到前景注意力图和背景注意力图；通过计算注意力图中每一部分的逐像素的亮度值得到可视化分数；在注意力感知特征融合模块，首先利用改进的ResNet50网络提取全局特征，然后将全局特征与部分注意力图使用逐元素乘的方式进行特征融合，最后通过加权融合的方法对注意力图和可视化分数进行融合得到最终预测的显著图。该方法能够较好的模拟人类视觉注意力机制并取得了较高的准确性。

图2为本发明一实施例中的基于注意力感知特征融合的显著性预测系统模块图。参照图2所示，该实施例中基于注意力感知特征融合的全景图像显著性预测系统，包括：注意力图模块、可视化分数模块、感知特征融合模块，注意力图模块预测全景图像的前景注意力图和背景注意力图；可视化分数模块计算注意力图模块预测的前景注意力图、背景注意力图中每一部分的逐像素的亮度值，得到可视化分数；感知特征融合模块提取全景图像的全局特征，将全局特征与注意力模块预测的前景注意力图、背景注意力图使用逐元素乘的方式进行融合，得到融合后的前景注意力图、背景注意力图；最后将融合后的前景注意力图、背景注意力图与可视化分数模块得到的可视化分数加权融合，获得最终的预测结果。

本发明上述实施例中的基于注意力感知特征融合的全景图像显著性预测系统，其中每个模块中具体实现的技术与上述基于注意力感知特征融合的全景图像显著性预测方法中各步骤对应，在此不再赘述。

基于上述的基于注意力感知特征融合的全景图像显著性预测方法，本发明另一实施例中还提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时可用于执行上述实施例中的基于注意力感知特征融合的全景图像显著性预测方法。

图2为本发明一实施例与现有最先进的方法进行可视化比较的效果图，从该图可以看出本发明得到的显著图最接近真值显著图。

图3为本发明一实施例中使用不同的基准网络对显著性预测性能的比较效果图，该发明使用4种不同的评价标准进行效果对比，从该图可以看出本发明使用ResNet50网络作为基准网络进行显著性预测的效果优于其他基准网络的显著性预测效果。

由上述可见，本发明实施例在公开基准数据集上进行实验验证和消融分析可以证明该方法的优越性，同时该方法在模拟人类视觉注意力机制方面具有较好的准确性。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述装置中对应的单元等予以实现，本领域技术人员可以参照所述装置的技术方案实现所述方法的步骤流程，即，所述装置中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的装置及其各个单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上是对本发明的具体实施例进行了描述。需要注意的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于注意力感知特征融合的全景图像显著性预测方法，其特征在于，包括：

预测全景图像的前景注意力图和背景注意力图；

2.根据权利要求1所述的基于注意力感知特征融合的全景图像显著性预测方法，其特征在于，所述预测全景图像的前景注意力图和背景注意力图，是通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图。

3.根据权利要求2所述的基于注意力感知特征融合的全景图像显著性预测方法，其特征在于，所述通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图，其中，

在第一阶段进行预测的公式如下：

其中，M^PA是通过ResNet50网络预测得到的特征图，

和

表示两个独立的预测网络，F¹和B¹分别表示得到的前景注意力图和背景注意力图；

通过上式计算得到预测的前景注意力图F^att和背景注意力图B^att；M是在第二阶段经过ResNet50网络预测得到的特征图；

和

表示在第二阶段的两个预测网络。

4.根据权利要求1所述的基于注意力感知特征融合的全景图像显著性预测方法，其特征在于，所述计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值，其中：利用所述前景注意力图、所述背景注意力图中每个像素的亮度值表示可视化分数；

定义全局可视化分数

5.根据权利要求1所述的基于注意力感知特征融合的全景图像显著性预测方法，其特征在于，所述提取全景图像的全局特征，是通过改进的带有注意力机制的ResNet50网络执行的，其中，所述带有注意力机制的ResNet50网络：

在ResNet50网络的最后一层添加一个16通道的1×1的卷积核；

将输入全景图像的大小从224×224调整为256×128。

6.根据权利要求5所述的基于注意力感知特征融合的全景图像显著性预测方法，其特征在于，所述将全局特征与预测的前景注意力图、背景注意力图使用逐元素乘的方式进行融合，包括：

7.根据权利要求6所述的基于注意力感知特征融合的全景图像显著性预测方法，其特征在于，所述将融合后的特征送入所述带有注意力机制的ResNet50网络中得到注意力感知融合的特征，计算公式如下：

其中，μ∈{F,B}表示的是前景注意力图、背景注意力图，

表示归一化后的注意力图，max(μ)表示是μ取最大值，f表示是在全局特征提取阶段得到的16通道的全局特征图，

表示是对两个矩阵或张量进行逐元素乘操作，f_a表示注意力感知融合的特征向量。

8.根据权利要求6所述的基于注意力感知特征融合的全景图像显著性预测方法，其特征在于，所述将融合后的前景注意力图、背景注意力图与所述可视化分数加权融合，包括：

将所述注意力感知融合的特征向量f_a和所述可视化分数拼接起来，送入1×1的卷积层中获得权重向量w；然后利用生成的权重向量w对融合后的前景注意力图和背景注意力图进行加权融合得到最终预测的显著图f_att：

f_att＝Conv(Concat(w,f_a)),μ∈{F,B}

9.一种基于注意力感知特征融合的全景图像显著性预测系统，其特征在于，包括：

感知特征融合模块，该模块提取全景图像的全局特征，将所述全局特征与所述注意力模块预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合，得到融合后的所述前景注意力图、所述背景注意力图；最后将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数模块进行加权融合，获得最终的预测结果。

10.一种基于注意力感知特征融合的全景图像显著性预测终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-8任一所述的方法。