CN112163990B

CN112163990B - 360度图像的显著性预测方法及系统

Info

Publication number: CN112163990B
Application number: CN202010932741.9A
Authority: CN
Inventors: 李成林; 吕浩然; 杨琴; 邹君妮; 戴文睿; 熊红凯
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-10-25
Anticipated expiration: 2040-09-08
Also published as: US20230245419A1; CN112163990A; WO2022052750A1; US11823432B2

Abstract

本发明提出了一种基于图卷积神经网络的360度图像的显著性预测方法及系统首先采用测地线二十面体构图方法将等距矩形投影格式的图像构造成球面图信号，然后将球面图信号输入提出的图卷积神经网络中进行特征提取并且生成球形显著性图信号，而后使用提出的基于球冠的插值算法将球形显著性图信号重建成等距矩形投影格式的显著性图。本发明进一步提出具有稀疏一致性的KL散度损失函数。本发明可以在主观和客观上达到优秀的显著性预测性能，并且在计算复杂度上优于现有方法。

Description

360度图像的显著性预测方法及系统

技术领域

本发明涉及数字图像处理技术领域的一种图像显著性预测技术，具体地，涉及一种基于图卷积神经网络的360度图像的显著性预测方法及系统。

背景技术

在计算机视觉领域，视觉显著性预测是一个非常重要并且具备挑战性的问题。该任务的主要目标是定位场景中人类所更为关注的部分并生成视觉显著性图。近年来随着VR，AR，自动驾驶领域的发展，360度图像、视频的显著性预测任务面临巨大的挑战：在360度场景下，视觉显著性预测模型需要分析球面特征并对显著性区域进行标注。最终生成的显著性图进一步可以对智能视频编码，360度视频自动摄影，360度视频视点预测等任务提供先验支撑，促进多领域的发展。

经过对现有技术的文献检索发现，R.Monroy,S.Lutz和A.Smolic等人在2018 年的《SIGNAL PROCESSING-IMAGE COMMUNICATION》期刊上发表的“SalNet360: Saliency mapsfor omni-directional images with CNN”一文中提出了一种利用卷积神经网络的360度图像的显著性预测方法，该方法将360度图像通过立方体投影投影到6个切平面上，然后对每个切平面图像使用深度卷积网络提取特征并生成6个相应的显著性图，最后通过拼接算法将6个显著性图拼接成等距矩形投影格式的显著性图。然而将360度图像投影到欧几里得空间上无可避免地会引入失真，进而影响卷积神经网络的特征提取性能；另外，对多个切平面图像输入进神经网络会引起大量的计算开销。

经过对现有技术的文献检索还发现，Ziheng Zhang,Yanyu Xu,和Jingyi Yu等人在2018年的《European Conference on Computer Vision》会议上发表的“Saliencydetection in 360videos”一文中提出了一种定义在等距矩形投影平面上的球形CNN 以适应球面数据，其中心思想是在等距矩形网格的北极点处定义一个固定形状的卷积核，然后对球面图像进行旋转并且在卷积核位置进行重采样进而进行卷积。整个卷积操作需要对球面图像、特征图不断进行旋转和重采样，这就使得旋转后的图像、特征图的原始像素位置不一定恰好覆盖卷积核位置，即需要对图像、特征图进行插值操作以获取同卷积核位置相对齐的特征值。然而这种插值操作会对卷积引入误差，并且随着网络的加深这种误差会不断累积，最终严重影响模型性能。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种基于图卷积神经网络的 360度图像的显著性预测方法。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种基于图卷积神经网络的360度图像的显著性预测方法，包括：

对等距矩形投影格式的360度图像使用测地线二十面体投影技术进行图信号构建，生成球面图信号；

将生成的球面图信号输入至图卷积神经网络进行特征提取，并输出与输入大小一致的单通道显著性球面图信号；

将输出的单通道显著性球面图信号使用基于球冠的插值算法进行插值，实现单通道显著性球面图信号到等距矩形投影格式图像的转化，进而重建出等距矩形投影格式的360度显著性图；

根据重建得到的等距矩形投影格式的360度显著性图，对360度图像的显著性进行预测。

优选地，所述测地线二十面体投影技术采用SGCN中的测地线二十面体构图方法，包括：

首先对360度图像构造最大的内接正二十面体，则此时正二十面体的十二个顶点作为第0级的球面图信号；

然后对正二十面体的每条边取中点后延球心经过中点构造射线与球面相交，相交的节点即为新的采样点，将这些采样点与第0级的采样点相结合构成第1级的球面图信号；在得到的新的采样点的基础上，不断重复此过程，生成更高级别的球面图信号，即为生成的球面图信号。

优选地，所述图卷积神经网络包括图卷积层、图池化层和图反池化层；其中：

所述图卷积层采用切比雪夫网络中的图卷积操作，对球面图信号的特征进行提取；

所述图池化层采用SGCN中的旋转等变的池化操作，对球面图信号进行下采样；

所述图反池化层在反池化的过程中引入邻居节点的特征信息，对球面图信号进行上采样。

优选地，所述图卷积神经网络采用编码器-解码器的网络结构，其中：

所述编码器包括5层图卷积层和4层图池化层，将输入的球面图信号编码为大小是原来256分之一大小的高维图信号；

所述解码器包括5层图卷积层和4层图反池化层，将编码器编码的高维图信号解码为大小与输入球面图信号一致的一维图信号以代表显著性分布；

所述解码器的前四层图卷积层的输入分别是由前一层图卷积层的输出和解码器部分节点数一致的特征图相连接所构成。

优选地，所述图卷积神经网络采用具备稀疏一致特性的KL散度损失函数进行网络训练，所述KL散度损失函数KL_sc表达为：

其中有：

其中，G_gt(v_t)和G_s(v_t)分别代表真实显著性图构造而成的球面图信号和网络预测的球面显著性图信号，KL_s代表两者的传统KL散度损失，hist(·)代表对向量求直方图，这里即代表对球面图信号的值求直方图分布，而后对两者的直方图分布求得KL_hist，最后通过λ加权得到具备稀疏一致特性的损失函数KL_sc。

优选地，所述基于球冠的插值算法，包括：

首先对标准的等距矩形投影格式的网格点计算球面坐标，其次以每一个网格点为中心在球面构建固定大小的球冠，然后统计单通道显著性球面图信号中所有落到球冠上的节点并计算节点到球冠中心点的欧几里得距离，最后通过对单通道显著性球面图信号中所有落到球冠上的节点进行反距离加权得到球冠中心点即等距举行投影格式的网格点的像素值，重建出等距矩形投影格式的360度显著性图。

优选地，所述方法还包括：

将得到的等距矩形投影格式的360度显著性图通过高斯核进行图像平滑，得到更为平滑的显著性图。

根据本发明的另一个方面，提供了一种基于图卷积神经网络的360度图像的显著性预测系统，包括：

图信号构建模块：对等距矩形投影格式的360度图像使用测地线二十面体构图模块进行图信号构建，生成球面图信号；

图卷积网络模块：将生成的球面图信号输入至图卷积神经网络进行特征提取，并输出与输入大小一致的单通道显著性球面图信号；

插值重建模块：将输出的单通道显著性球面图信号使用基于球冠的插值算法进行插值，实现单通道显著性球面图信号到等距矩形投影格式图像的转化，进而重建出等距矩形投影格式的360度显著性图；根据重建得到的等距矩形投影格式的360度显著性图，对360度图像的显著性进行预测。

优选地，所述测地线二十面体构图模块采用SGCN中的测地线二十面体构图方法生成的球面图信号。

优选地，所述图卷积神经网络采用编码器-解码器的网络结构；其中，所述编码器包括5层图卷积层和4层图池化层，将输入的球面图信号编码为大小是原来256分之一大小的高维图信号；所述解码器包括5层图卷积层和4层图反池化层，将编码器编码的高维图信号解码为大小与输入球面图信号一致的一维图信号以代表显著性分布；所述解码器的前四层图卷积层的输入分别是由前一层图卷积层的输出和解码器部分节点数一致的特征图相连接所构成。

优选地，将所述系统定义为一个图节点层面的回归模型，显著性预测结果为所述回归模型的目标优化问题，则有：

其中，E_i和E_gt分别代表等距矩形投影格式的360度图像和其对应的真实显著性图，两者被测地线二十面体构图模块GICOPix(·)构建为节点数相同的球面图信号，而后将构建的球面图信号输入至图卷积神经网络N_G(·)中生成网络预测的显著性球面图信号，目标优化过程即为优化可学习权重θ_k以使得图卷积神经网络输出的显著性球面图信号与真实的显著性图信号之间的距离尽可能小，并以此实现对回归模型的训练。

由于采用了上述技术方案，本发明与现有技术相比，具有如下的有益效果：

本发明提供的基于图卷积神经网络的360度图像的显著性预测方法及系统，旨在提升360度图像的显著性预测效率以及性能。本发明提供的方法及系统引入图卷积进行特征提取，从根本上杜绝了360度图像投影变换带来的图像失真问题；并且避免了卷积过程中对特征图的插值操作，从而保证了方法的性能；更重要的，本发明提供的方法及系统，直接在球面图信号上处理球面数据，从而避免了现有方法中投影多个平面分别预测显著性所带来的巨额计算成本，大大提升了显著性预测效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中基于图卷积神经网络的360度图像的显著性预测方法流程图；

图2为本发明一实施例中球面图信号构建示意图；

图3为本发明一实施例中图卷积神经网络结构示意图；

图4为本发明一实施例中图池化方法示意图；

图5为本发明一实施例中图反池化方法示意图；

图6为本发明一实施例中基于球冠的插值算法示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明一实施例提供了一种基于图卷积神经网络的360度图像的显著性预测方法，该方法针对现有技术中预测性能差、计算成本高等问题，首先将360度图像通过测地线二十面体构图方法生成球面图信号，然后使用图卷积网络对球面图像进行特征提取并生成显著性球面图信号，进而通过插值算法将图信号重建成等距矩形投影格式的360度图像，最后通过高斯核平滑得到最终结果。本实施例避免了卷积过程中对特征图的插值操作以保证方法的性能，并且大大降低了计算成本，提升了预测效率。

本实施例提供的基于图卷积神经网络的360度图像的显著性预测方法，包括如下步骤：

第一步，对等距矩形投影格式的360度图像进行图信号构建以生成球面图信号；

第二步，将第一步得到的球面图信号输入图卷积神经网络中进行特征提取并生成与输入大小一致的单通道显著性球面图信号；

第三步，将第二步输出的显著性球面图信号通过基于球冠的插值算法重建成等距矩形投影格式的360度显著性图。

作为一优选实施例，第一步中，使用SGCN中的测地线二十面体投影进行球面图信号的生成，具体的构建方法为：

(1)首先对球体构造最大的内接正二十面体，则此时正二十面体的十二个顶点作为第0级的球面图信号，

(2)然后对正二十面体的每条边取中点后延球心经过中点构造射线与球面相交，相交的节点即为新的采样点，将这些采样点与第0级的采样点相结合构成第1 级的球面图信号，

(3)而后对球面图信号不断重复(2)过程可以生成更高级别的图信号，即为生成的球面图信号。

作为一优选实施例，第二步中，图卷积神经网络包括图卷积层、图池化层和图反池化层，其中：

图卷积层使用切比雪夫网络以实现对图信号的特征提取；

图池化层使用SGCN中的图池化层以实现对图信号的下采样；

图反池化层使用图反池化操作，即在反池化的过程中引入邻居节点的特征信息，以实现对图信号的上采样。

作为一优选实施例，第二步中，图卷积神经网络采用类似于U-net的编码器-解码器的网络结构，具体为：

编码器共有5层卷积层和4层图池化层最终将输入的球面图信号编码为大小是原来256分之一大小的高维图信号；

解码器共有5层图卷积层和4层图反池化层，最终将编码器编码的高维图信号解码为大小与输入图信号一致的一维图信号以代表显著性分布。

特别地，解码器的前四层图卷积层的输入是由前一层卷积层的输出和解码器部分节点数一致的特征图相连接所构成。

作为一优选实施例，在第二步中，使用具备稀疏一致特性的KL散度损失作为损失函数。KL散度损失函数KL_sc表达为：

其中有：

具体地，

损失函数包括对图信号直接计算的KL散度和图信号的直方图分布的KL散度。对于对图信号直接计算的KL散度，直接对图卷积神经网络输出的图信号与真实显著性图所构建的图信号进行KL散度的进行计算。对于图信号的直方图的KL散度，首先对网络输出的图信号和真实显著性图所构建的图信号进行直方图分布的计算，然后对计算得到的直方图分布计算KL散度。最终通过加权将两部分KL散度以得到最终的具备稀疏一致特性的KL散度损失函数，以实现在兼具空间分布相似性的同时，兼顾数值分布的相似性。

作为一优选实施例，第三步中，使用基于球冠的插值算法实现球面图信号到等距矩形投影格式图像的转化。具体而言，分为以下步骤：

(a)对等距矩形投影格式的全部网格点求球面坐标。

(b)以每个网格点为中心构建球冠区域。

(c)确定球面图信号中落到每个球冠区域上的节点。

(d)对每个球冠区域上的节点对球冠中心求解欧几里得距离。

(e)对每个球冠区域中的节点通过(d)中的距离进行反距离加权求以得球冠中心的像素值。

(f)对每个球冠中心求解等距矩形投影格式的网格位置，球冠的像素值即为对应网格点的像素值。

作为一优选实施例，该方法还包括：第四步，将第三步得到的等距矩形投影格式的显著性图通过高斯核进行图像平滑，以生成更加平滑的显著性图。

下面结合附图，对本实施例提供的方法进一步描述如下。

如图1所示，本方法具体实现包括如下步骤：

1、对球面图像构建球面图信号

如图2所示，对球面图信号构建进行实例分析，定义等距矩形投影格式的360 度图像定义为

其中3代表RGB通道；而后通过基于测地线二十面体的构图方法对E_i进行图信号构建，具体方法为：

(1)首先对球体构造最大的内接正二十面体，则此时正二十面体的十二个顶点作为第0级的球面图信号G₀；

(2)对正二十面体的每条边取中点后延球心经过中点构造射线与球面相交，相交的节点即为新的采样点，将这些采样点与G₀相结合构成第1级的球面图信号G₁；

(3)而后循环重复步骤(2)得到更高级别的图信号G₁。

特别地，G_l的节点数量与l的关系为N_l＝10×2^2l+2。

2、将球面图信号输入图卷积网络生成球面显著性图信号

如图3所示，图卷积神经网络结构使用了类似U-net的网络结构，其中图卷积层使用了切比雪夫网络，具体而言，对于1中构建的图信号

分别代表图信号的节点集，边集，邻接矩阵)，其归一化的拉普拉斯矩阵可以定义为L＝ I_N-D^-1/2WD^-1/2，其中D代表度矩阵，I_N为N阶单位矩阵。进一步切比雪夫网络的卷积操作被定义为：

其中K代表切比雪夫多项式的阶数；θ_k为切比雪夫多项式的系数；

其中λ_max代表L的最大的特征值；

其中T₀＝I_N，

如图4所示，为图卷积网络的图池化操作，这里直接采用SGCN中的图池化操作，具体而言，对于第l级的图信号G_l而言，通过图池化操作后即会舍弃G_l-1到G_l时新增加的节点，而仅仅保留G_l-1的节点位置的值；而N_l/N_l-1≈4，即大致实现了传统池化操作的缩放比例。图4表示图卷积网络中经过多次池化操作后的图信号变化关系，其中Layer h(Level l)表示卷积网络的第h层对应的第l级图信号，Layer h+1 (Level l-1)表示卷积网络的第h+1层对应的第l-1级图信号，Layer h+2(Level l-2) 表示卷积网络的第h+2层对应的第l-2级图信号。

如图5所示，为提出的图反池化操作，旨在实现图池化操作的逆操作。具体而言，使用线性插值的方法来上采样图信号，首先定义v_l为G_l的节点集，则反池化操作可以如下表示：

其中，

代表G_l中的第k个节点，而Pos(·)返回节点的直角坐标，Nei(·)返回节点

在G_l-1中的两个相邻的邻居节点，整个插值过程可以理解为保留原始节点的情况下对新增加的节点使用其邻居节点的平均值代替。

另外对于网络训练，使用具备稀疏一致特性的KL散度损失来进行网络训练。具体而言，整个损失函数分为两个部分，其中一部分是网络输出的球面图信号和真实的球面显著性图信号之间的KL散度：

其中G_s(v_t) 和G_gt(v_t)分别代表网络输出的球面图信号和真实的球面显著性图信号，然后为了使得两者在稀疏性上具备相似度，进一步计算了两者的直方图分布并计算直方图分布之间的KL散度：

其中hist(·)即为计算直方图的操作。

3、将2中输出的球面显著性图信号使用基于球冠的插值算法得到等距矩形投影格式的360度图像

如图6所示，对于插值操作，首先定义等距矩形投影格式的网格点坐标(m_i,n_i)， 1≤i≤W×H；R表示球体半径，P表示球冠边缘一任意点，α表示球冠尺寸，这里选择α＝2π/W-1；然后插值算法的输出E_o(m_i,n_i)即可代表等距矩形投影格式的 360度图像的第i个像素点。而后首先通过如下公式计算(m_i,n_i)的直角坐标(x_i,y_i,z_i)：

然后以(x_i,y_i,z_i)为中心构造一个高度为R[1-cos(α)]球冠区域，球冠区域的大小由α控制，在本实施例中取α＝2π(W-1)，则球冠底部的平面可以如下表示：

x_i(x-x_icosα)+y_i(y-y_icosα)+z_i(z-z_icosα)＝0

接着将网络输出的球面显著性图信号中所有落到球冠区域的节点加入集合

特别地，属于球冠上的节点应该满足如下关系：

(cosα-xx_i-xx_i-xx_i)cosα≤0

最后，通过反距离加权

中所有节点即可得到E_o(m_i,n_i)，此过程对E_o中的所有点遍历即可得到完整的E_o。反距离加权公式如下：

其中e＝1e-8。

实施效果：

依据上述步骤，采用本实施例中所提供的方法步骤进行实施，实验用Salient360数据集中的头+眼动数据集进行网络训练和测试，并且与SalNet360，SalGAN360， BMS360，BMS,GBVS360进行主观和客观层面的比较。

本实施例提出的方法在直观层面上处于较为优秀的水平，并且在图像的高纬度区域(顶部和底部)具有更好的显著性预测性能。同时，在客观层面上，该方法可以在计算量比性能最好的方法SalGAN360低3个数量级的条件下实现近似的客观性能表现。

本发明另一实施例提供了一种基于图卷积神经网络的360度图像的显著性预测系统，包括：

作为一优选实施例，测地线二十面体构图模块采用SGCN中的测地线二十面体构图方法生成的球面图信号。

作为一优选实施例，图卷积神经网络采用编码器-解码器的网络结构；其中，编码器包括5层图卷积层和4层图池化层，将输入的球面图信号编码为大小是原来256分之一大小的高维图信号；解码器包括5层图卷积层和4层图反池化层，将编码器编码的高维图信号解码为大小与输入球面图信号一致的一维图信号以代表显著性分布；解码器的前四层图卷积层的输入分别是由前一层图卷积层的输出和解码器部分节点数一致的特征图相连接所构成。

作为一优选实施例，将系统定义为一个图节点层面的回归模型，显著性预测结果为回归模型的目标优化问题，则有：

本发明上述实施例提供的基于图卷积神经网络的360度图像的显著性预测方法及系统，首先采用测地线二十面体构图方法将等距矩形投影格式的图像构造成球面图信号，然后将球面图信号输入提出的图卷积神经网络中进行特征提取并且生成球形显著性图信号，而后使用提出的基于球冠的插值算法将球形显著性图信号重建成等距矩形投影格式的显著性图。为了实现有效的方法及系统模型训练，还进一步提出具有稀疏一致性的KL散度损失函数。本发明上述实施例提供的360度图像的显著性预测方法及系统，可以在主观和客观上达到优秀的显著性预测性能，并且在计算复杂度上优于现有方法。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照系统的技术方案实现方法的步骤流程，即，系统中的实施例可理解为实现方法的优选例，在此不予赘述。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于图卷积神经网络的360度图像的显著性预测方法，其特征在于，包括：

根据重建得到的等距矩形投影格式的360度显著性图，对360度图像的显著性进行预测；

所述测地线二十面体投影技术采用SGCN中的测地线二十面体构图方法，包括：

然后对正二十面体的每条边取中点后沿球心经过中点构造射线与球面相交，相交的节点即为新的采样点，将这些采样点与第0级的采样点相结合构成第1级的球面图信号；在得到的新的采样点的基础上，不断重复此过程，生成更高级别的球面图信号，即为生成的球面图信号。

2.根据权利要求1所述的一种基于图卷积神经网络的360度图像的显著性预测方法，其特征在于，所述图卷积神经网络包括图卷积层、图池化层和图反池化层；其中：

3.根据权利要求2所述的一种基于图卷积神经网络的360度图像的显著性预测方法，其特征在于，所述图卷积神经网络采用编码器-解码器的网络结构，其中：

4.根据权利要求1所述的一种基于图卷积神经网络的360度图像的显著性预测方法，其特征在于，所述图卷积神经网络采用具备稀疏一致特性的KL散度损失函数进行网络训练，所述KL散度损失函数KL_sc表达为：

其中有：

5.根据权利要求1所述的一种基于图卷积神经网络的360度图像的显著性预测方法，其特征在于，所述基于球冠的插值算法，包括：

首先对标准的等距矩形投影格式的网格点计算球面坐标，其次以每一个网格点为中心在球面构建固定大小的球冠，然后统计单通道显著性球面图信号中所有落到球冠上的节点并计算节点到球冠中心点的欧几里得距离，最后通过对单通道显著性球面图信号中所有落到球冠上的节点进行反距离加权得到球冠中心点即等距矩形投影格式的网格点的像素值，重建出等距矩形投影格式的360度显著性图。

6.根据权利要求1-5任一项所述的一种基于图卷积神经网络的360度图像的显著性预测方法，其特征在于，还包括：

7.一种基于图卷积神经网络的360度图像的显著性预测系统，其特征在于，包括：

插值重建模块：将输出的单通道显著性球面图信号使用基于球冠的插值算法进行插值，实现单通道显著性球面图信号到等距矩形投影格式图像的转化，进而重建出等距矩形投影格式的360度显著性图；根据重建得到的等距矩形投影格式的360度显著性图，对360度图像的显著性进行预测；

8.根据权利要求7所述的基于图卷积神经网络的360度图像的显著性预测系统，其特征在于，还包括如下任一项或任意多项：

-所述图卷积神经网络采用编码器-解码器的网络结构；其中，所述编码器包括5层图卷积层和4层图池化层，将输入的球面图信号编码为大小是原来256分之一大小的高维图信号；所述解码器包括5层图卷积层和4层图反池化层，将编码器编码的高维图信号解码为大小与输入球面图信号一致的一维图信号以代表显著性分布；所述解码器的前四层图卷积层的输入分别是由前一层图卷积层的输出和解码器部分节点数一致的特征图相连接所构成。

9.根据权利要求7或8所述的基于图卷积神经网络的360度图像的显著性预测系统，其特征在于，将所述系统定义为一个图节点层面的回归模型，显著性预测结果为所述回归模型的目标优化问题，则有：