CN109166178B

CN109166178B - 一种视觉特性与行为特性融合的全景图像显著图生成方法及系统

Info

Publication number: CN109166178B
Application number: CN201810811052.5A
Authority: CN
Inventors: 丁颖; 刘延伟; 刘科栋
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2020-10-16
Anticipated expiration: 2038-07-23
Also published as: CN109166178A

Abstract

本发明公开了一种视觉特性与行为特性融合的全景图像显著图生成方法及系统。本方法为：1)将全景图像从等矩形域转换到球面域、再从球面域转换到视角域，得到该全景图像对应的视角平面图像；2)使用高斯差分滤波处理该视角平面图像，得到图像中每个像素在视觉空间的DoG值；3)利用每个像素对应的DoG值与平均DoG值之间的欧几里德距离值表示对应像素在整幅全景图像上的视觉特征显著性，得到该全景图像对应的视觉特征显著图S_V；4)根据用户的实际头部运动数据得到用户观看全景图像的行为特性显著图S_b；5)将该视觉特征显著图S_V与该行为特性显著图S_b融合得到最终的全景图像显著图S。本发明大大提升了全景图像的显示效果。

Description

一种视觉特性与行为特性融合的全景图像显著图生成方法及系统

技术领域

本发明计算机软件技术领域，涉及一种视觉特性与行为特性融合的全景图像显著图生成方法及系统。

背景技术

近年来，全景图像因其可以捕捉周围场景的广阔视野而受到关注。通过使用头戴式显示器(HMD)，全景图像可以给观众带来身临其境的视觉体验。基于这种特征，全景图像已被广泛应用于许多虚拟现实(VR)应用中。

全景图像的空间大小比传统图像大得多，在现有条件下进行全景图像的存储和传输十分困难，然而人的视觉注意机制(Visual Attention Mechanism)是一种具有选择性的注意，用户通常只关注整个全景图像的一小部分。从整个图像区分显著区域进而对全景图像进行压缩，可以很大程度上缓解全景图像存储和传输的压力。目前，传统平面图像的显著性检测算法有很多，虽然这些显著检测算法可以直接应用于全景图像，但由于全景图像的特性，通常不能获得完美的显著性图。

首先，全景图像与传统平面图像观看方式不同。对于传统平面图像，用户直接在屏幕上观看图像，用户所看到的内容与图像完全相同。对于全景图像，用户通常通过HMD观看到全景图像的某个视角。视角是全景图像的一部分经过几何投影得到的，用户所看到的内容与全景图像上对应区域不完全相同。

其次，与传统的平面二维图像不同，全景图像的显著性还受到用户观看行为的影响。这是因为观看者的眼睛和头部方向决定了所观看到的视角的位置。一般情况下，长时间仰视或俯视是很不舒服的，因此，人们更喜欢在与人眼平行的范围内进行扫视。

为了处理上述问题，本发明提出了一种在视角域融合视觉特征和观看行为特性的全景图像显著性检测方法。

发明内容

考虑到全景图像的特殊性，本发明设计通过在视角域中融合用户视觉特征和行为特征来实现显著性图的生成方法及系统，整个全景图像的显著性检测技术框架如图1所示。本发明首先在视角域中使用高斯差分(DoG)滤波来提取视觉空间每个像素的频率差异，并计算全景图像域中每个视角中心与其它视角之间的对比度，以此生成视觉特征显著图。通过建立数学模型，根据实际头部运动数据可以得到用户观看全景图像的行为特性函数，进而生成行为特性显著图。将视觉特征显著图与行为特性显著图融合得到最终的显著性图。

本发明的技术方案为：

一种视觉特性与行为特性融合的全景图像显著图生成方法，其步骤包括：

1)将全景图像从等矩形域转换到球面域、再从球面域转换到视角域，得到该全景图像对应的视角平面图像；

2)使用高斯差分滤波处理该视角平面图像，得到该视角平面图像中每个像素在视觉空间的DoG值；

3)利用每个像素对应的DoG值与平均DoG值之间的欧几里德距离值表示对应像素在整幅全景图像上的视觉特征显著性，得到该全景图像对应的视觉特征显著图S_V；

4)根据用户的实际头部运动数据得到用户观看全景图像的行为特性显著图S_b；

5)将该视觉特征显著图S_V与该行为特性显著图S_b融合得到最终的全景图像显著图S。

进一步的，视角域中的点(m，n)的所述DoG值为

其中，σ₁和σ₂是高斯滤波器的标准差。

σ₁＝1.6σ₂。

进一步的，视觉特征显著图

其中，D_V(u,v)是全景图像中的点(u,v)对应的DoG值，

是全景图像中所有点对应的DoG值的平均DoG值。

进一步的，行为特性显著图

其中，

表示全景图像上的纬度。

进一步的，全景图像显著图S＝max(N(S_V),N(S_b))；其中，N()表示归一化操作。

进一步的，利用公式

将全景图像从等矩形域转换到球面域，然后利用公式

将球面域转换到视角域；其中，(u，v)表示等矩形域表示的全景图像中的一个点，(x，y，z)表示全景图像中的点(u，v)在球面上的笛卡尔坐标，(m，n)是全景图像中的点(u，v)在视角投影上的二维齐次坐标；(m₀,n₀)是视角域的中心点Q的坐标；f是全景图像球面的半径，

w、h分别是视角平面图像的宽度和高度，fov_x、fov_y分别为头戴式显示器中每只眼睛的水平视野和垂直视野，R为旋转矩阵。

进一步的，旋转矩阵

其中，θ为点Q的经度，

为点Q的纬度。

一种视觉特性与行为特性融合的全景图像显著图生成系统，其特征在于，包括坐标转换模块、视觉特征显著图S_V生成模块、行为特性显著图S_b生成模块和融合模块；其中，

坐标转换模块，用于将全景图像从等矩形域转换到球面域、再从球面域转换到视角域，得到该全景图像对应的视角平面图像；

视觉特征显著图S_V生成模块，利用高斯差分滤波处理该视角平面图像，得到该视角平面图像中每个像素在视觉空间的DoG值；然后利用每个像素对应的DoG值与平均DoG值之间的欧几里德距离值表示对应像素在整幅全景图像上的视觉特征显著性，得到该全景图像对应的视觉特征显著图S_V；

行为特性显著图S_b生成模块，用于根据用户的实际头部运动数据得到用户观看全景图像的行为特性显著图S_b；

融合模块，用于将该视觉特征显著图S_V与该行为特性显著图S_b融合得到最终的全景图像显著图S。

与现有技术相比，本发明的积极效果为：

从用户角度出发，在视角域进行显著性检测；解释了全景图像中赤道部分更受用户关注的原因，并给出了相应解决方案，大大提升了全景图像的显示效果。本发明与现有方法的效果对比如表所示，其中CC越大表示效果越好。

算法	本发明	SalNet360	ML_NET+EB
				线性相关系数(CC)	0.658	0.548	0.49

附图说明

图1为视觉特性与行为特性融合的全景图像显著性检测技术架构图；

图2为全景图像球面域、视角域与等矩形投影之间的关系图；

图3为全景图像纬度与用户观看概率之间的关系图。

具体实施方式

下面结合附图对本发明进行进一步描述。

全景图像的等矩形投影面、球面、视角平面之间的关系图如图2所示。左边矩形表示全景图像的等矩形投影，球体表示全景图像的球面表示，视角是与球相切于点Q的切面ABCD，其中点Q是视角对应的切面ABCD的中心。

假设E(x，y，z)表示全景图像中的一个点在球面上的笛卡尔坐标，E′(m，n)是其在视角投影上的二维齐次坐标，E″(u，v)表示其在等矩形投影上的2D齐次坐标图像。它们之间的转换关系为：

其中,(m₀,n₀)是视角域中点Q的坐标，f是全景图像球面的半径。f_x和f_y与HMD中视角的大小和每只眼睛的视野有关，如果w和h分别是视角平面图像的宽度和高度，fov_x和fov_y为HMD中每只眼睛的水平视野和垂直视野，则

R为旋转矩阵，若中心视点Q的经度和纬度为

则R的表示方式为：

为了准确捕获视觉特征，本发明使用DoG处理视角平面的图像，表示方式如下：

其中(m，n)是视角域中的点的坐标，σ₁和σ₂是高斯滤波器的标准差(σ₁＝1.6σ₂)。

本发明利用每个像素的高斯差分值(DoG值)与所有像素的平均DoG之间的欧几里德距离值表示其在整幅全景图像上的视觉特征显著性：

其中S_V是视觉特征显著图，D_V(u,v)是全景图像中点(u，v)对应的DoG值，

是全景图像中所有点对应的DoG值的平均DoG值，表示为

其中W和H分别是全景图像的宽和高。

根据用户的头部位置数据，本发明绘制了观看概率与全景图像上的纬度的关系(如图3)。在图3中，圆点表示用户的观看位置数据。从图上可以看到，在零度附近，观看概率达到最高值，-π/3和π/3之间的区域占了大部分的观看概率。从图3可以看出观看概率和纬度之间的关系大致符合数学函数，通过建模，本发明得到他们之间的关系如下：

其中

表示全景图像上的纬度，P_g表示用户观看概率,S_b是行为特征显著图。某一个区域，用户观看的概率越大说明用户越关注，即该区域显著性越高。

最后，本发明融合视觉特征显著图和观看行为特征显著图来获得最终的全景图像显著图，最终的显著图表示如下：

S＝max(N(S_V),N(S_b)) (7)

其中S_V是视觉特征显著图，S_b是行为特征显著图，N()表示归一化操作，max是取最大值操作。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的研究人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。