CN112381813B

CN112381813B - 一种基于图卷积神经网络的全景图视觉显著性检测方法

Info

Publication number: CN112381813B
Application number: CN202011335092.0A
Authority: CN
Inventors: 陈东文; 青春美; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2023-09-05
Anticipated expiration: 2040-11-25
Also published as: CN112381813A

Abstract

本发明公开了一种基于图卷积神经网络的全景图视觉显著性检测方法，包括全景图的局部显著性检测；全景图的全局显著性检测及将局部显著性检测和全局显著性检测进行融合。本发明可以充分利用全景图全局和局部场景的特点，有效地解决全景图景物扭曲程度严重，左右边界不连续对显著性检测的影响问题，从而提高对全景图显著性检测的准确度。

Description

一种基于图卷积神经网络的全景图视觉显著性检测方法

技术领域

本发明涉及图像处理领域，具体涉及一种基于图卷积神经网络的全景图视觉显著性检测方法。

背景技术

在虚拟现实技术的发展过程中，全景图起着十分关键的作用。在虚拟环境中，用户可以通过全景图观看不同方向的景物。预测用户在虚拟环境的视觉显著性能有助于研究人员更好地理解用户的视觉动作行为。另外，预测全景图的视觉显著性方法能有效地应用于虚拟环境的场景设计和计算机视觉中的图像压缩、裁剪等热门的研究方向。

近年来，图卷积神经网络已经越来越受到人们的关注。作为一种非欧空间的数据，图数据并不满足平移不变性，即每个节点都具有不同的局部结构。因此，现实生活中的多个应用方向都可以利用图数据进行表示，如论文网络中作者和参考文献的关系连接，推荐系统中用户画像和商品维度属性的有向连接等。而图卷积神经网络能够建立局部相关节点的依赖关系，从而更有效地捕捉数据的内在特性，提高模型的性能。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于图卷积神经网络的全景视觉显著性检测方法。

本发明根据全景图投影技术的特点和用户观察全景图时所产生的视觉行为特性，利用图卷积神经网络预测全景图的视觉显著性，从而有效提高模型的准确性。

本发明采用如下技术方案：

一种基于图卷积神经网络的全景图视觉显著性检测方法，包括：

全景图的局部显著性检测；

全景图的全局显著性检测；

局部显著性检测和全局显著性检测进行融合。

进一步，所述全景图的局部显著性检测，具体为：

建立三维空间坐标系，并构建以原点作为球心的球体，将全景图投影在球体表面上；

在球体外构造一个与球体相切的立方体；

分别以空间坐标系的X轴、Y轴和Z轴作为对称轴，以不同的角度旋转球体；每一次旋转，都将球面上的图像投影到立方体的六个面上，获得6张直线映射图，该立方体具有六个面。

将投影得到的所有直线映射图分别输入到编码网络中，生成对应的特征图；

构建局部图卷积神经网络，其中网络中的节点数量与特征图一致，网络的输入是特征图，输出是每个节点的权重表示，即每张直线映射图的显著性权重，再将每个节点的权重与节点对应的特征图做点积运算，从而生成多个注意特征图；

构建一个解码网络，但卷积层的排序与编码网络相反，将上述生成的注意特征图输入解码网络中，生成与输入的直线映射图尺寸相同的直线映射显著图；

利用与多立方体投影方法相反操作的反投影方法，将多个直线映射显著图重新投影回对应的显著全景图，称之为局部显著图。

进一步，所述全景图的全局显著性检测，具体包括：

以全景图中间的垂直线为界，将垂直线左右两边的图像内容相互对调，生成另一张展现同一场景但景物位置不同的反向全景图；

利用线性迭代聚类算法将原全景图和反向全景图分别切分成n_o个超像素；

将原全景图输入到另一个已经预训练好的编码网络中，生成对应的特征图，且特征图的大小与原全景图相同，根据n_o个超像素对原全景图进行划分，生成n_o个超像素的特征表示，对于反向全景图，也根据n_o个超像素生成n_o个超像素的特征表示；

为原全景图构建一个全局图卷积神经网络，其中，网络中的节点数量与超像素个数n_o相同，网络的输入是超像素的特征表示，输出是每个节点的显著性值，即节点对应的超像素的显著性值，并最终生成一张大小和输入原全景图一致的显著图；

对于反向全景图，也按照原景图生成显著图的上述操作执行，并最终生成一张反向显著图；

将反向显著图中间垂直线左右两边的图像内容对调，然后对显著图和反向显著图进行线性组合，生成一个显著图，称之为全局显著图。

进一步，所述局部显著性检测和全局显著性检测进行融合，具体为：

将全局显著图和局部显著图在通道上进行拼接，再输入一个卷积神经网络后，最终生成一张结合全景图全局和局部显著性特点的融合显著图。

进一步，所述立方体为正方体，球体内切于正方体。

进一步，所述的局部图卷积神经网络的每个节点表征特征图的特征表示，而连接不同节点之间的边表示这些节点的特征的相关系数。

进一步，全局图卷积神经网络的每个节点表征超像素的特征表示，连接不同节点之间的边表示这些超像素质心之间的空间距离。

进一步，所述利用与多立方体投影方法相反操作的反投影方法，具体为：是将生成的所有直线映射显著图分别投影到立方体的六个面上，再投影到球面上。之后按照之前所述的旋转处理方法，对坐标值进行方向相反、角度相同的旋转处理，最后再将球面上的内容投影到平面上，获得全景显著图。

本发明的有益效果：

本发明全景图视觉显著性三个阶段，分别是局部阶段的投影-图卷积网络检测-反投影的流程、全局阶段的平移-超像素分割-图卷积网络检测-反平移的流程和卷积网络对全局和局部显著图的融合检测。可以充分利用全景图全局和局部场景的特点，有效地解决全景图景物扭曲程度严重，左右边界不连续对显著性检测的影响问题，从而提高对全景图显著性检测的准确度。

附图说明

图1是本发明实施例提供的全景图投影到立方体面上的多立方体投影方法的示意图；

图2是本发明实施例提供的以全景图中间垂直线为界，对垂直线两边的图像内容进行左右平移操作的示意图；

图3及图4分别是本发明实施例提供的一种基于图卷积神经网络的全景图视觉显著性检测方法局部检测和全局检测的流程图；

图5是本发明实施例提供的对局部和全局显著图进行融合的流程图。

图6是本发明实施例提供的基于图卷积神经网络的全景图视觉显著性检测的总体实施方法的流程图；

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图6所示，一种基于图卷积神经网络的全景图视觉显著性检测方法，用于检测用户在虚拟环境下的视觉显著性，并进一步理解用户的视觉行为特性。其主要包括全景图局部显著性检测过程、全景图全局显著性检测过程、局部和全局显著图融合过程。其中所用到的全景图是放映在VR眼镜里的静态场景图像经过等矩形投影方法后获得的能够展现各个方向场景内容的二维图像。

全景图局部显著性检测的主要过程如下：

步骤1：如图1所示，首先将全景图投影在球面上。构建以球心为原点的三维空间坐标系。在球体外再构造一个正方体，并使球体内切于正方体。

步骤2：分别以坐标系中的X轴，Y轴，Z轴作为对称轴，固定正方体位置，并对球体进行45度的旋转。这样就能总共得到球体2×2×2＝8种旋转方式。

步骤3：在获得每一种旋转方式后，利用直线映射方法将球面上的全景图投影到正方体的六个面上，生成六张直线映射图。由于球体共有8种旋转方式，因此对于每张全景图，一共可以生成8×6＝48张直线映射图。

步骤4：如图3所示，将生成的直线映射图输入以VGG网络作为骨架的编码网络中，生成对应的特征图。对每个特征图实施全局平均池化操作，获得尺寸为1×1×C的向量表示。

步骤5：构建图卷积神经网络，其中输入的节点数量与生成的向量表示数量是相同的。令节点记为向量表示，即直线映射图的特征表示。而将连接节点之间的边表示为两个节点对应向量的相关系数。设图表示为G(X,A)，其中X表示节点集合，A表示关于边的邻接矩阵。网络层数为K，则通过图卷积网络的层级传播，每个隐藏层表示为：

X_k+1＝σ(AX_kΘ_k),k＝0,1...,K-1

其中σ(·)记为激活函数，如ReLU函数。Θ_k是个可训练的权重矩阵。而最后的感知层定义如下：

Z＝soft max(AX_KΘ_K)

其中Z是节点输出，即代表每张直线映射图的显著性权重。

步骤6：将图网络输出节点代表的显著性权重与对应的特征图做点积运算后，生成注意特征图。

步骤7：构建一个类似VGG网络的结构，但卷积层的排序与VGG网络相反的解码网络，其中将网络中的池化层替换为上采样层。将步骤6生成的注意特征图输入解码器中，生成与输入的直线映射图尺寸相同的直线映射显著图。

步骤8：将生成的所有直线映射显著图分别投影到图1的立方体的六个面上，再投影到球面上。再按照步骤2的旋转处理方法，对坐标值进行方向相反、角度相同的旋转处理。之后再将球面上的内容投影到平面上，获得全景显著图。最后利用线性组合方法对生成的8张全景显著图进行融合，且每张图赋予相同的权重0.125，则最终生成一张局部显著图。

全景图全局显著性检测的主要过程如下：

步骤1：如图2所示，以全景图中间的垂直线为界，将界线左边的图像内容水平移动到界线右边。同样地，将界线右边的图像内容水平移动到界线左边。这样的平移操作后，就能生成一张反向全景图。由于全景图的左右边界的场景内容具有连续性，因此即使全景图平移后，图像中间垂直线附近的内容都是连接在一起的。

步骤2：如图4所示，对于原全景图和步骤1生成的反向全景图，利用简单线性迭代聚类算法(SLIC)，分别将两张图分割出n_o和n_r个超像素。然后分别将两张图输入到另一个编码网络中，生成对应的特征图。之后通过超像素平均池化操作，分别提取原全景图和反向全景图对应特征图的超像素特征表示，分别记为和/>其中/>和/>分别表示原全景图和反向全景图的超像素对应像素集的平均特征向量。

步骤3：对于原全景图的显著性检测，生成超像素对应的平均特征向量后，构建新的图卷积神经网络。其中输入的节点数量与平均特征向量的数量是相同的。令节点记为平均特征向量的表示，即超像素的特征表示。而令连接节点之间的边表示为两个超像素的质心在全景图上的空间距离。设图表示为G(X^o,A^o)，其中A^o表示关于边的邻接矩阵。网络层数为K，则通过图卷积神经网络的层级传播，每个隐藏层表示为：

其中σ(·)记为激活函数，如ReLU函数。是个可训练的权重矩阵。而最后的感知层定义如下：

其中Z^o是节点输出表示，即代表原全景图里每个超像素的显著性值。于是就能生成原全景图对应的显著图。

同理，对于反向全景图的显著性检测，利用步骤3中SLIC算法、编码网络和其他新的图卷积神经网络可生成反向全景图对应的显著图。之后再重新按照步骤1的平移操作将反向显著图转换成正向显著图。

步骤4：利用线性组合方法将原全景图和反向全景图对应生成的显著图进行融合，从而得到全局显著图，其中两张显著图各赋予0.5的权重。

如图5所示，局部和全局显著图融合过程如下：

将全局和局部显著图按通道进行拼接后，输入一个卷积神经网络。经过卷积和上采样的操作后，结合全景图全局和局部显著性的特点，生成最终的预测融合显著图。

本发明实施例上述方案，在局部显著性检测中，利用多立方体投影方法将全景图分成多张直线映射图。再将直线映射图输入到编码网络，提取图像特征。利用图卷积神经网络生成各个直线映射图的显著性权重。再利用解码网络生成直线映射显著图，并经过反向投影方法获得局部显著图；在全局显著性检测中，利用图像平移方法获得反向全景图。之后利用SLIC算法将原全景图和反向全景图分割成多个超像素后，通过新的图卷积神经网络生成各个超像素的显著性值，并生成全局显著图。最后利用卷积神经网络，结合全局和局部显著图的特点，生成最终的融合显著图。

本发明可以有效精细地获知全景图各个区域的显著性强度，从整体上提高虚拟环境显著性检测的准确度，较好地提升模型的检测性能。

在全景图全局和局部显著性检测中都加上了图卷积神经网络，可以有效地获知全景图各个区域的显著性强度，从整体上能提高虚拟环境显著性检测的准确度，较好地提升模型的检测性能。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于图卷积神经网络的全景图视觉显著性检测方法，其特征在于，包括：

全景图的局部显著性检测；

全景图的全局显著性检测；

局部显著性检测和全局显著性检测进行融合；

所述全景图的局部显著性检测，具体为：

在球体外构造一个与球体相切的立方体；

分别以空间坐标系的X轴、Y轴和Z轴作为对称轴，以不同的角度旋转球体；每一次旋转，都将球面上的图像投影到立方体的六个面上，获得6张直线映射图；

利用与多立方体投影方法相反操作的反投影方法，将多个直线映射显著图重新投影回对应的显著全景图，称之为局部显著图；

所述全景图的全局显著性检测，具体包括：

将反向显著图中间垂直线左右两边的图像内容对调，然后对显著图和反向显著图进行线性组合，生成一个显著图，称之为全局显著图；

对于原全景图的显著性检测，生成超像素对应的平均特征向量后，构建新的图卷积神经网络，其中输入的节点数量与平均特征向量的数量是相同的，令节点记为平均特征向量的表示，即超像素的特征表示；而令连接节点之间的边表示为两个超像素的质心在全景图上的空间距离，设图表示为G(X^o,A^o)，其中A^o表示关于边的邻接矩阵，网络层数为K，则通过图卷积神经网络的层级传播，每个隐藏层表示为：

其中σ(·)记为激活函数，是个可训练的权重矩阵，而最后的感知层定义如下：

其中Z^o是节点输出表示，即代表原全景图里每个超像素的显著性值，于是就能生成原全景图对应的显著图。

2.根据权利要求1所述的全景图视觉显著性检测方法，其特征在于，所述局部显著性检测和全局显著性检测进行融合，具体为：

3.根据权利要求1所述的全景图视觉显著性检测方法，其特征在于，所述立方体为正方体，球体内切于正方体。

4.根据权利要求1所述的全景图视觉显著性检测方法，其特征在于，所述的局部图卷积神经网络的每个节点表征特征图的特征表示，而连接不同节点之间的边表示这些节点的特征的相关系数。

5.根据权利要求1所述的全景图视觉显著性检测方法，其特征在于，全局图卷积神经网络的每个节点表征超像素的特征表示，连接不同节点之间的边表示这些超像素质心之间的空间距离。

6.根据权利要求1所述的全景图视觉显著性检测方法，其特征在于，所述利用与多立方体投影方法相反操作的反投影方法，具体为：是将生成的所有直线映射显著图分别投影到立方体的六个面上，再投影到球面上，后按照之前所述的旋转处理方法，对坐标值进行方向相反、角度相同的旋转处理，最后再将球面上的内容投影到平面上，获得全景显著图。