CN111178163B

CN111178163B - 基于立方体投影格式的立体全景图像显著区域预测方法

Info

Publication number: CN111178163B
Application number: CN201911273003.1A
Authority: CN
Inventors: 蒋刚毅; 张君君; 陈华; 宋洋; 郁梅
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-06-09
Anticipated expiration: 2039-12-12
Also published as: CN111178163A

Abstract

本发明公开了一种基于立方体投影格式的立体全景图像显著区域预测方法，其将立体全景图像处理成立方体投影格式；构建立方体投影格式的立体全景图像的水平局部面、水平全局面、垂直面；计算水平局部面、水平全局面、垂直面各自的显著图；将水平局部面的显著图加权水平全局面的显著图获取水平面显著图，将垂直面的显著图作为垂直面显著图；根据水平面显著图和垂直面显著图获取立方体投影格式的立体全景图像的显著图，将该显著图处理成等矩形投影格式，再使用纬度增强权重加权，得到待处理的立体全景图像的显著图；优点是其能够有效准确地预测出立体全景图像的显著区域，且显著区域与主观感知的一致性高。

Description

基于立方体投影格式的立体全景图像显著区域预测方法

技术领域

本发明涉及一种图像显著区域预测方法，尤其是涉及一种基于立方体投影格式的立体全景图像显著区域预测方法。

背景技术

追求沉浸式视觉体验以模拟真实世界一直是一个热门的话题，随着360°相机如Surround360相机的上市，立体全景视觉内容已逐渐吸引越来越多研究者以及消费者的关注。与传统图像相比，立体全景图像的显著特点是具有较广的视野范围，360°相机可以拍摄覆盖整个内球面的整个视场，观看者通过佩戴HMD(Head Mounted Display)以视口的形式自由地选择并观看立体全景图像的局部区域。

人类视觉系统(HVS)的视觉注意机制往往是有选择地关注较为感兴趣的内容而忽略视觉环境中的其他部分，从而有效地分配有限的视觉处理资源。显著性预测是对人眼的这一机制进行模拟，从而将后续更多的关注以及更复杂的操作应用到显著区域，近年来在图像压缩、质量评价、图像分割等领域都有较为广泛的应用。

现有的全景图像显著性预测模型大多先直接将平面全景图像处理成等矩形(Equirectangular Projection，ERP)投影格式(等矩形投影是全景视频编码中默认的投影格式)，但这种处理方法会使等矩形投影格式的平面全景图像产生严重的形变，而且与人们主观观看内容并不一致。全景视频编码中的立方体投影(Cube Map Projection，CMP)由6个面组成，具有较少的形状失真，与人眼观看到的视口图像类似，因此，对立方体投影格式的平面全景图像进行预测会大大提升预测的准确性，但是预测结果存在严重的边界效应。目前，还没有针对立体全景图像的显著区域预测方法，而现有的全景图像显著性预测模型没有考虑双目视差的影响，对立体全景图像的显著区域预测结果不准确。

发明内容

本发明所要解决的技术问题是提供一种基于立方体投影格式的立体全景图像显著区域预测方法，其能够有效准确地预测出立体全景图像的显著区域，且显著区域与主观感知的一致性高。

本发明解决上述技术问题所采用的技术方案为：一种基于立方体投影格式的立体全景图像显著区域预测方法，其特征在于包括以下步骤：

步骤1：将待处理的宽度为W且高度为H的立体全景图像处理成立方体投影格式的立体全景图像，记为I^CMP，I^CMP由6个面组成，I^CMP表述为I^CMP＝(V₁,V₂,V₃,V₄,V₅,V₆)；其中，V₁表示I^CMP的左部面，V₂表示I^CMP的前部面，V₃表示I^CMP的右部面，V₄表示I^CMP的后部面，V₅表示I^CMP的顶部面，V₆表示I^CMP的底部面；

步骤2：构建I^CMP的水平局部面，记为V_hl；并构建I^CMP的水平全局面，记为V_hg；

步骤3：计算V_hl的显著图，记为S_hl；并计算V_hg的显著图，记为S_hg；其中，S_hl和S_hg的宽度一致且高度一致；

步骤4：使用S_hl加权S_hg，得到I^CMP的水平面显著图，记为S_hv；其中，S_hv的宽度为4M且高度为M，M表示V₁、V₂、V₃、V₄、V₅、V₆的宽和高；

步骤5：构建I^CMP的垂直面，记为V_v；

步骤6：计算V_v的显著图；然后将V_v的显著图作为I^CMP的垂直面显著图，记为S_vv；其中，的宽度为M且高度为3M；

步骤7：将S_hv在宽度方向上从左往右以M个像素点为距离进行切分，获得四个面，将S_hv表述为S_hv＝(S₁,S'₂,S₃,S₄)；并将S_vv在高度方向上从上往下以M个像素点为距离进行切分，获得三个面，将S_vv表述为S_vv＝(S₅,S”₂,S₆)；然后计算I^CMP的显著图，记为S_CMP，S_CMP＝(S₁,S₂,S₃,S₄,S₅,S₆)，

其中，令(x₁,x₂)表示S_hv中的像素点的坐标位置，1≤x₁≤4M,1≤x₂≤M，S₁表示S_hv中坐标位置在1≤x₁≤M，1≤x₂≤M范围内的所有像素点构成的面，S'₂表示S_hv中坐标位置在M+1≤x₁≤2M，1≤x₂≤M范围内的所有像素点构成的面，S₃表示S_hv中坐标位置在2M+1≤x₁≤3M，1≤x₂≤M范围内的所有像素点构成的面，S₄表示S_hv中坐标位置在3M+1≤x₁≤4M，1≤x₂≤M范围内的所有像素点构成的面，令(x'₁,x'₂)表示S_vv中的像素点的坐标位置，1≤x'₁≤M,1≤x'₂≤3M，S₅表示S_vv中坐标位置在1≤x'₁≤M，1≤x'₂≤M范围内的所有像素点构成的面，S”₂表示S_vv中坐标位置在1≤x'₁≤M，M+1≤x'₂≤2M范围内的所有像素点构成的面，S₆表示S_vv中坐标位置在1≤x'₁≤M，2M+1≤x'₂≤3M范围内的所有像素点构成的面，S₁表示S_CMP的左部面，S₂表示S_CMP的前部面，S₃表示S_CMP的右部面，S₄表示S_CMP的后部面，S₅表示S_CMP的顶部面，S₆表示S_CMP的底部面；

步骤8：将S_CMP处理成等矩形投影格式的图像，记为S_ERP；然后使用纬度增强权重w加权S_ERP，得到待处理的立体全景图像的显著图，记为S_w，将S_w中坐标位置为(a,b)的像素点的像素值记为S_w(a,b)，S_w(a,b)＝S_ERP(a,b)×w(a,b)；其中，1≤a≤W,1≤b≤H，S_ERP(a,b)表示S_ERP中坐标位置为(a,b)的像素点的像素值，w(a,b)表示w中下标为(a,b)的元素的值，

所述的步骤2中，V_hl由8个面组成，V_hl表述为V_hl＝(V₁,V₂,V₃,V₄,V₁',V₂',V₃',V₄')；V_hg由2个面组成，V_hg表述为V_hg＝(V_hg1,V_hg2)；其中，V₁'表示V₁向左移动L₁个像素点距离后得到的面，V₂'表示V₂向左移动L₁个像素点距离后得到的面，V₃'表示V₃向左移动L₁个像素点距离后得到的面，V'₄表示V₄向左移动L₁个像素点距离后得到的面，

M表示V₁、V₂、V₃、V₄、V₅、V₆的宽和高，V_hg1由V₁、V₂、V₃、V₄按顺序拼接成一行而成，V_hg1的宽度为4M且高度为M，V_hg2表示V_hg1向左移动L₂个像素点距离后得到的面，/>

M'表示V_hg1的宽度，即M'＝4M。

所述的步骤3的具体过程为：

步骤3_1：将V_hl中的每个面和V_hg中的每个面均作为待处理的面；

步骤3_2：将当前待处理的面定义为当前面；

步骤3_3：对当前面进行超像素分割，分割得到多个超像素块；

步骤3_4：对当前面中的每个超像素块进行张量分解，得到当前面中的每个超像素块的张量域第一子带；然后将当前面中的每个超像素块的张量域第一子带中的所有像素点的像素值的均值作为该超像素块的颜色特征；再计算当前面中的每两个超像素块的颜色特征之间的距离，将当前面中的第i个超像素块的颜色特征与第j个超像素块的颜色特征之间的距离记为distc_i,j，distc_i,j＝||c_i-c_j||₂；其中，1≤i≤Num，1≤j≤Num，i≠j，Num表示当前面中的超像素块的个数，Num＞1，c_i表示当前面中的第i个超像素块的颜色特征，c_j表示当前面中的第j个超像素块的颜色特征，符号“|| ||₂”为求2-范数符号；

步骤3_5：计算当前面的左视图与右视图的视差图；然后将视差图中的每个超像素块中的所有像素点的像素值的均值作为当前面中的每个超像素块的深度特征，即将视差图中的第i个超像素块中的所有像素点的像素值的均值作为当前面中的第i个超像素块的深度特征；再计算当前面中的每两个超像素块的深度特征之间的距离，将当前面中的第i个超像素块的深度特征与第j个超像素块的深度特征之间的距离记为distd_i,j，distd_i,j＝||d_i-d_j||₂；其中，d_i表示当前面中的第i个超像素块的深度特征，c_j表示当前面中的第j个超像素块的深度特征；

步骤3_6：计算当前面中的每两个超像素块之间的特征距离，将当前面中的第i个超像素块与第j个超像素块之间的特征距离记为dist_i,j，dist_i,j＝λ_c×distc_i,j+λ_d×distd_i,j；其中，λ_c表示distc_i,j的权重，λ_d表示distd_i,j的权重，λ_c+λ_d＝1；

步骤3_7：计算当前面中的每两个超像素块之间的边权重，将当前面中的第i个超像素块与第j个超像素块之间的边权重记为wt_i,j，

其中，e表示自然基数，σ为常数，符号“|| ||”为求欧氏距离符号；

步骤3_8：以当前面中的每个超像素块为节点构造图模型，记为G，G＝(X,E)；其中，X表示所有节点构成的集合，即当前面中的所有超像素块构成的集合，E表示所有边构成的集合，当前面中的第i个超像素块与第j个超像素块之间的边的边权重为wt_i,j；

步骤3_9：计算G的关联矩阵和度矩阵，对应记为WT和D，WT＝[wt_i,j]_Num×Num，D＝diag{D_1,1,D_2,2,...,D_i,i,...,D_Num,Num}；其中，diag{}表示构造一个对角矩阵操作，D_i,i＝∑_jwt_i,j，D_1,1、D_2,2、D_Num,Num均根据D_i,i＝∑_jwt_i,j计算得到；

步骤3_10：采用前景先验方法，将G中的所有节点视为查询节点，计算G的指示向量，记为y，y＝[y₁,…,y_i,…,y_Num]^T；其中，y₁,…,y_i,…,y_Num对应表示y中的第1个元素、……、第i个元素、……、第Num个元素，若G中的第1个节点为查询节点则令y₁＝1，若G中的第i个节点为查询节点则令y_i＝1，若G中的第Num个节点为查询节点则令y_Num＝1，“[]^T”表示向量或矩阵的转置；

步骤3_11：计算当前面的显著图，记为f^*，f^*＝(D-α×WT)^-1y；其中，α为常数，α＝0.99，()^-1表示向量或矩阵的逆；

步骤3_12：将下一个待处理的面作为当前面，然后返回步骤3_3继续执行，直至V_hl中的所有面和V_hg中的所有面处理完毕；

步骤3_13：计算S_hl和S_hg，

其中，S_hl1由V_hl中的V₁、V₂、V₃、V₄各自的显著图按顺序拼接成一行而成，S_hl1的宽度为4M且高度为M，M表示V₁、V₂、V₃、V₄、V₅、V₆的宽和高，S_hl3表示S_hl2向右移动L₁个像素点距离后得到的图像，/>

S_hl2由V_hl中的V₁'、V₂'、V₃'、V₄'各自的显著图按顺序拼接成一行而成，S_hl2的宽度为4M且高度为M，S_hg1表示V_hg1的显著图，S_hg1的宽度为4M且高度为M，S_hg3表示S_hg2向右移动L₂个像素点距离后得到的图像，/>

M'＝4M，S_hg2表示V_hg2的显著图，S_hg2的宽度为4M且高度为M。

所述的步骤4中，将S_hv中坐标位置为(x₁,x₂)的像素点的像素值记为S_hv(x₁,x₂)，S_hv(x₁,x₂)＝S_hg(x₁,x₂)×S_hl(x₁,x₂)；其中，1≤x₁≤4M,1≤x₂≤M，4M为S_hv的宽度，M为S_hv的高度，S_hg(x,y)表示S_hg中坐标位置为(x₁,x₂)的像素点的像素值，S_hl(x,y)表示S_hl中坐标位置为(x₁,x₂)的像素点的像素值。

所述的步骤5中，V_v由V₅、V₂、V₆按顺序拼接成一列而成，V_v的宽度为M且高度为3M，M表示V₁、V₂、V₃、V₄、V₅、V₆的宽和高。

所述的步骤6的具体过程为：

步骤6_1：将V_v定义为当前面；

步骤6_2：对当前面进行超像素分割，分割得到多个超像素块；

步骤6_3：对当前面中的每个超像素块进行张量分解，得到当前面中的每个超像素块的张量域第一子带；然后将当前面中的每个超像素块的张量域第一子带中的所有像素点的像素值的均值作为该超像素块的颜色特征；再计算当前面中的每两个超像素块的颜色特征之间的距离，将当前面中的第i个超像素块的颜色特征与第j个超像素块的颜色特征之间的距离记为distc_i,j，distc_i,j＝||c_i-c_j||₂；其中，1≤i≤Num，1≤j≤Num，i≠j，Num表示当前面中的超像素块的个数，Num＞1，c_i表示当前面中的第i个超像素块的颜色特征，c_j表示当前面中的第j个超像素块的颜色特征，符号“|| ||₂”为求2-范数符号；

步骤6_4：计算当前面的左视图与右视图的视差图；然后将视差图中的每个超像素块中的所有像素点的像素值的均值作为当前面中的每个超像素块的深度特征，即将视差图中的第i个超像素块中的所有像素点的像素值的均值作为当前面中的第i个超像素块的深度特征；再计算当前面中的每两个超像素块的深度特征之间的距离，将当前面中的第i个超像素块的深度特征与第j个超像素块的深度特征之间的距离记为distd_i,j，distd_i,j＝||d_i-d_j||₂；其中，d_i表示当前面中的第i个超像素块的深度特征，c_j表示当前面中的第j个超像素块的深度特征；

步骤6_5：计算当前面中的每两个超像素块之间的特征距离，将当前面中的第i个超像素块与第j个超像素块之间的特征距离记为dist_i,j，dist_i,j＝λ_c×distc_i,j+λ_d×distd_i,j；其中，λ_c表示distc_i,j的权重，λ_d表示distd_i,j的权重，λ_c+λ_d＝1；

步骤6_6：计算当前面中的每两个超像素块之间的边权重，将当前面中的第i个超像素块与第j个超像素块之间的边权重记为wt_i,j，

步骤6_7：以当前面中的每个超像素块为节点构造图模型，记为G，G＝(X,E)；其中，X表示所有节点构成的集合，即当前面中的所有超像素块构成的集合，E表示所有边构成的集合，当前面中的第i个超像素块与第j个超像素块之间的边的边权重为wt_i,j；

步骤6_8：计算G的关联矩阵和度矩阵，对应记为WT和D，WT＝[wt_i,j]_Num×Num，D＝diag{D_1,1,D_2,2,…,D_i,i,…,D_Num,Num}；其中，diag{}表示构造一个对角矩阵操作，D_i,_i＝∑_jwt_i,j，D_1,1、D_2,2、D_Num,Num均根据D_i,i＝∑_jwt_i,j计算得到；

步骤6_9：按步骤3_2至步骤3_11的过程，以相同的方式获取当前面中的V₂部分的显著图；然后计算判定为属于当前面中的V₂部分的显著图的每个超像素块的二值化结果；再采用前景先验方法，将判定为属于当前面中的V₂部分的显著图的所有超像素块视为查询节点，计算G的指示向量，记为y'，y'＝[y'₁,…,y'_i,…,y'_Num]^T；其中，若当前面中的一个超像素块的部分或全部落于当前面中的V₂部分中，则将该超像素块判定为属于当前面中的V₂部分，y'₁,…,y'_i,…,y'_Num对应表示y'中的第1个元素、……、第i个元素、……、第Num个元素，若G中的第k个节点即当前面中的第k个超像素块被判定为属于当前面中的V₂部分，则令y'_k的值等于该超像素块的二值化结果，若G中的第k个节点即当前面中的第k个超像素块被判定为不属于当前面中的V₂部分，则令y'_k＝0，“[]^T”表示向量或矩阵的转置，k为正整数，1≤k≤Num；

步骤6_10：计算当前面的显著图，记为f^**，f^**＝(D-α×WT)^-1y'；其中，α为常数，α＝0.99，()^-1表示向量或矩阵的逆；

步骤6_11：将f^**重新记为S_vv。

与现有技术相比，本发明的优点在于：

1)本发明方法考虑到等矩形投影处理方法具有较大的几何失真，并且人眼通过头戴式设备观看到的图像是无几何失真的视口图像，因此提出使用立方体投影处理方法求取立体全景图像的显著图，同时考虑到面与面之间的边界效应，对水平全局面和水平局部面进行移动以减轻边界效应的影响，为了联系视口间的相关性，用水平局部面的显著图加权水平全局面的显著图，这样提取出的显著图的准确率高，具有较高的有效性。

2)本发明方法考虑了颜色特征内部结构信息的完整性，采用在张量域提取第一子带的方法计算颜色特征，并与深度特征结合在一起作为特征距离计算显著图，同时为了更好地抑制立体全景图像的顶部与底部的背景区域，采用前景先验方法计算显著图，因此，更好地模拟了人类视觉系统，提高了计算出的显著图与主观感知之间的一致性。

附图说明

图1为本发明方法的总体实现框图；

图2a为从ODI数据库中选取的一幅立体全景图像的左视图；

图2b为从ODI数据库中选取的一幅立体全景图像的右视图；

图2c为利用BMS方法对图2a和图2b进行处理计算出的显著图；

图2d为利用MR方法对图2a和图2b进行处理计算出的显著图；

图2e为利用Wang’s方法对图2a和图2b进行处理计算出的显著图；

图2f为利用SMAP方法对图2a和图2b进行处理计算出的显著图；

图2g为利用Hu’s方法对图2a和图2b进行处理计算出的显著图；

图2h为利用CDSR方法对图2a和图2b进行处理计算出的显著图；

图3a为对图2a和图2b进行等矩形投影处理后预测得到的显著图；

图3b为对图2a和图2b直接采用立方体投影处理后预测得到的显著图；

图3c为利用本发明方法对图2a和图2b进行处理计算出的显著图；

图3d为图2a和图2b对应的Ground-truth图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

等矩形投影是全景视频编码中默认的投影格式，但它会使图像产生严重的形变，而且与人们主观观看内容并不一致，立方体投影由6个面组成，具有较少的形状失真，为了更好地与人眼观看到的图像保持一致，同时考虑到投影格式转换之间的方便性，本发明方法聚焦于基于立方体投影格式的立体全景图像显著性预测方法。考虑到用张量提取颜色信息可以保留颜色数据内部的结构信息，提取张量域第一子带作为颜色特征，同时提取深度特征，利用颜色和深度信息计算超像素节点之间的特征距离，此外，考虑到立体全景图像的背景区域难以提取，为了更好地抑制顶部与底部的显著值，采用前景先验的方法计算显著图。

本发明提出的一种基于立方体投影格式的立体全景图像显著区域预测方法，其总体实现框图如图1所示，其包括以下步骤：

步骤1：将待处理的宽度为W且高度为H的立体全景图像处理成立方体投影格式的立体全景图像，记为I^CMP，I^CMP由6个面组成，I^CMP表述为I^CMP＝(V₁,V₂,V₃,V₄,V₅,V₆)；其中，V₁表示I^CMP的左部面，V₂表示I^CMP的前部面，V₃表示I^CMP的右部面，V₄表示I^CMP的后部面，V₅表示I^CMP的顶部面，V₆表示I^CMP的底部面。

步骤2：构建I^CMP的水平局部面，记为V_hl；并构建I^CMP的水平全局面，记为V_hg。

在本实施例中，步骤2中，V_hl由8个面组成，V_hl表述为V_hl＝(V₁,V₂,V₃,V₄,V₁',V₂',V₃',V₄')；V_hg由2个面组成，V_hg表述为V_hg＝(V_hg1,V_hg2)；其中，V₁'表示V₁向左移动L₁个像素点距离后得到的面，V₂'表示V₂向左移动L₁个像素点距离后得到的面，V₃'表示V₃向左移动L₁个像素点距离后得到的面，V₄'表示V₄向左移动L₁个像素点距离后得到的面，

M表示V₁、V₂、V₃、V₄、V₅、V₆的宽和高，即V₁、V₂、V₃、V₄、V₅、V₆的宽和高一致为M，V_hg1由V₁、V₂、V₃、V₄按顺序拼接成一行而成，V_hg1的宽度为4M且高度为M，V_hg2表示V_hg1向左移动L₂个像素点距离后得到的面，/>

M'表示V_hg1的宽度，即M'＝4M。

步骤3：计算V_hl的显著图，记为S_hl；并计算V_hg的显著图，记为S_hg；其中，S_hl和S_hg的宽度一致且高度一致。

在本实施例中，步骤3的具体过程为：

步骤3_1：将V_hl中的每个面和V_hg中的每个面均作为待处理的面。

步骤3_2：将当前待处理的面定义为当前面。

步骤3_3：利用现有的SLIC算法对当前面进行超像素分割，分割得到多个超像素块。

步骤3_4：对当前面中的每个超像素块进行张量分解，得到当前面中的每个超像素块的张量域第一子带；然后将当前面中的每个超像素块的张量域第一子带中的所有像素点的像素值的均值作为该超像素块的颜色特征；再计算当前面中的每两个超像素块的颜色特征之间的距离，将当前面中的第i个超像素块的颜色特征与第j个超像素块的颜色特征之间的距离记为distc_i,j，distc_i,j＝||c_i-c_j||₂；其中，1≤i≤Num，1≤j≤Num，i≠j，Num表示当前面中的超像素块的个数，Num＞1，c_i表示当前面中的第i个超像素块的颜色特征，c_j表示当前面中的第j个超像素块的颜色特征，符号“|| ||₂”为求2-范数符号。

步骤3_5：利用现有的光流法计算当前面的左视图与右视图的视差图；然后将视差图中的每个超像素块中的所有像素点的像素值的均值作为当前面中的每个超像素块的深度特征，即将视差图中的第i个超像素块中的所有像素点的像素值的均值作为当前面中的第i个超像素块的深度特征；再计算当前面中的每两个超像素块的深度特征之间的距离，将当前面中的第i个超像素块的深度特征与第j个超像素块的深度特征之间的距离记为distd_i,j，distd_i,j＝||d_i-d_j||₂；其中，d_i表示当前面中的第i个超像素块的深度特征，c_j表示当前面中的第j个超像素块的深度特征。

步骤3_6：计算当前面中的每两个超像素块之间的特征距离，将当前面中的第i个超像素块与第j个超像素块之间的特征距离记为dist_i,j，dist_i,j＝λ_c×distc_i,j+λ_d×distd_i,j；其中，λ_c表示distc_i,j的权重，λ_d表示distd_i,j的权重，λ_c+λ_d＝1，在本实施例中取λ_c＝λ_d＝0.5。

其中，e表示自然基数，σ为常数，在本实施例中取σ＝10，符号“|| ||”为求欧氏距离符号。

步骤3_8：以当前面中的每个超像素块为节点构造图模型，记为G，G＝(X,E)；其中，X表示所有节点构成的集合，即当前面中的所有超像素块构成的集合，E表示所有边构成的集合，当前面中的第i个超像素块与第j个超像素块之间的边的边权重为wt_i,j。

步骤3_9：计算G的关联矩阵和度矩阵，对应记为WT和D，WT＝[wt_i,j]_Num×Num，D＝diag{D_1,1,D_2,2,...,D_i,i,...,D_Num,Num}；其中，diag{}表示构造一个对角矩阵操作，D_i,_i＝∑_jwt_i,j，D_1,1、D_2,2、D_Num,Num均根据D_i,i＝∑_jwt_i,j计算得到。

步骤3_10：采用前景先验方法，将G中的所有节点视为查询节点，计算G的指示向量，记为y，y＝[y₁,…,y_i,…,y_Num]^T；其中，y₁,…,y_i,…,y_Num对应表示y中的第1个元素、……、第i个元素、……、第Num个元素，若G中的第1个节点为查询节点则令y₁＝1，若G中的第i个节点为查询节点则令y_i＝1，若G中的第Num个节点为查询节点则令y_Num＝1，“[]^T”表示向量或矩阵的转置。

步骤3_11：计算当前面的显著图，记为f^*，f^*＝(D-α×WT)^-1y；其中，α为常数，α＝0.99，()^-1表示向量或矩阵的逆。

步骤3_12：将下一个待处理的面作为当前面，然后返回步骤3_3继续执行，直至V_hl中的所有面和V_hg中的所有面处理完毕。

步骤3_13：计算S_hl和S_hg，

M'＝4M，S_hg2表示V_hg2的显著图，S_hg2的宽度为4M且高度为M，S_hl1+S_hl3即为S_hl1与S_hl3中对应像素点的像素值相加，S_hg1+S_hg3即为S_hg1与S_hg3中对应像素点的像素值相加。

步骤4：使用S_hl加权S_hg，得到I^CMP的水平面显著图，记为S_hv；其中，S_hv的宽度为4M且高度为M，M表示V₁、V₂、V₃、V₄、V₅、V₆的宽和高，即V₁、V₂、V₃、V₄、V₅、V₆的宽和高一致为M。

在本实施例中，步骤4中，将S_hv中坐标位置为(x₁,x₂)的像素点的像素值记为S_hv(x₁,x₂)，S_hv(x₁,x₂)＝S_hg(x₁,x₂)×S_hl(x₁,x₂)；其中，1≤x₁≤4M,1≤x₂≤M，4M为S_hv的宽度，M为S_hv的高度，S_hg(x,y)表示S_hg中坐标位置为(x₁,x₂)的像素点的像素值，S_hl(x,y)表示S_hl中坐标位置为(x₁,x₂)的像素点的像素值。

步骤5：构建I^CMP的垂直面，记为V_v。

在本实施例中，步骤5中，V_v由V₅、V₂、V₆按顺序拼接成一列而成，V_v的宽度为M且高度为3M，M表示V₁、V₂、V₃、V₄、V₅、V₆的宽和高。

步骤6：计算V_v的显著图；然后将V_v的显著图作为I^CMP的垂直面显著图，记为S_vv；其中，的宽度为M且高度为3M。

在本实施例中，步骤6的具体过程为：

步骤6_1：将V_v定义为当前面。

步骤6_2：利用现有的SLIC算法对当前面进行超像素分割，分割得到多个超像素块。

步骤6_3：对当前面中的每个超像素块进行张量分解，得到当前面中的每个超像素块的张量域第一子带；然后将当前面中的每个超像素块的张量域第一子带中的所有像素点的像素值的均值作为该超像素块的颜色特征；再计算当前面中的每两个超像素块的颜色特征之间的距离，将当前面中的第i个超像素块的颜色特征与第j个超像素块的颜色特征之间的距离记为distc_i,j，distc_i,j＝||c_i-c_j||₂；其中，1≤i≤Num，1≤j≤Num，i≠j，Num表示当前面中的超像素块的个数，Num＞1，c_i表示当前面中的第i个超像素块的颜色特征，c_j表示当前面中的第j个超像素块的颜色特征，符号“|| ||₂”为求2-范数符号。

步骤6_4：利用现有的光流法计算当前面的左视图与右视图的视差图；然后将视差图中的每个超像素块中的所有像素点的像素值的均值作为当前面中的每个超像素块的深度特征，即将视差图中的第i个超像素块中的所有像素点的像素值的均值作为当前面中的第i个超像素块的深度特征；再计算当前面中的每两个超像素块的深度特征之间的距离，将当前面中的第i个超像素块的深度特征与第j个超像素块的深度特征之间的距离记为distd_i,j，distd_i,j＝||d_i-d_j||₂；其中，d_i表示当前面中的第i个超像素块的深度特征，c_j表示当前面中的第j个超像素块的深度特征。

步骤6_5：计算当前面中的每两个超像素块之间的特征距离，将当前面中的第i个超像素块与第j个超像素块之间的特征距离记为dist_i,j，dist_i,j＝λ_c×distc_i,j+λ_d×distd_i,j；其中，λ_c表示distc_i,j的权重，λ_d表示distd_i,j的权重，λ_c+λ_d＝1，在本实施例中取λ_c＝λ_d＝0.5。

步骤6_7：以当前面中的每个超像素块为节点构造图模型，记为G，G＝(X,E)；其中，X表示所有节点构成的集合，即当前面中的所有超像素块构成的集合，E表示所有边构成的集合，当前面中的第i个超像素块与第j个超像素块之间的边的边权重为wt_i,j。

步骤6_8：计算G的关联矩阵和度矩阵，对应记为WT和D，WT＝[wt_i,j]_Num×Num，D＝diag{D_1,1,D_2,2,...,D_i,i,...,D_Num,Num}；其中，diag{}表示构造一个对角矩阵操作，D_i,i＝∑_jwt_i,j，D_1,1、D_2,2、D_Num,Num均根据D_i,i＝∑_jwt_i,j计算得到。

步骤6_9：按步骤3_2至步骤3_11的过程，以相同的方式获取当前面中的V₂部分的显著图；然后计算判定为属于当前面中的V₂部分的显著图的每个超像素块的二值化结果；再采用前景先验方法，将判定为属于当前面中的V₂部分的显著图的所有超像素块视为查询节点，计算G的指示向量，记为y'，y'＝[y'₁,…,y'_i,…,y'_Num]^T；其中，若当前面中的一个超像素块的部分或全部落于当前面中的V₂部分中，则将该超像素块判定为属于当前面中的V₂部分，y'₁,…,y'_i,…,y'_Num对应表示y'中的第1个元素、……、第i个元素、……、第Num个元素，若G中的第k个节点即当前面中的第k个超像素块被判定为属于当前面中的V₂部分，则令y'_k的值等于该超像素块的二值化结果，若G中的第k个节点即当前面中的第k个超像素块被判定为不属于当前面中的V₂部分，则令y'_k＝0，“[]^T”表示向量或矩阵的转置，k为正整数，1≤k≤Num。

步骤6_10：计算当前面的显著图，记为f^**，f^**＝(D-α×WT)^-1y'；其中，α为常数，α＝0.99，()^-1表示向量或矩阵的逆。

步骤6_11：将f^**重新记为S_vv。

其中，令(x₁,x₂)表示S_hv中的像素点的坐标位置，1≤x₁≤4M,1≤x₂≤M，S₁表示S_hv中坐标位置在1≤x₁≤M，1≤x₂≤M范围内的所有像素点构成的面，S'₂表示S_hv中坐标位置在M+1≤x₁≤2M，1≤x₂≤M范围内的所有像素点构成的面，S₃表示S_hv中坐标位置在2M+1≤x₁≤3M，1≤x₂≤M范围内的所有像素点构成的面，S₄表示S_hv中坐标位置在3M+1≤x₁≤4M，1≤x₂≤M范围内的所有像素点构成的面，令(x'₁,x'₂)表示S_vv中的像素点的坐标位置，1≤x'₁≤M,1≤x'₂≤3M，S₅表示S_vv中坐标位置在1≤x'₁≤M，1≤x'₂≤M范围内的所有像素点构成的面，S”₂表示S_vv中坐标位置在1≤x'₁≤M，M+1≤x'₂≤2M范围内的所有像素点构成的面，S₆表示S_vv中坐标位置在1≤x'₁≤M，2M+1≤x'₂≤3M范围内的所有像素点构成的面，S'₂+S”₂表示S'₂与S”₂中对应坐标位置的像素点的像素值相加，S₁表示S_CMP的左部面，S₂表示S_CMP的前部面，S₃表示S_CMP的右部面，S₄表示S_CMP的后部面，S₅表示S_CMP的顶部面，S₆表示S_CMP的底部面。

为进一步说明本发明方法的可行性和有效性，进行如下实验。

在本实施例中，选取ODI数据库进行实验，该数据库是一个公开的权威的数据库，由96幅立体全景图像组成，并给出了每幅立体全景图像的显著图。在此，采用6种常用指标对显著性预测方法进行定量比较，即Linear Correlation Coefficient(CC)、Kullback-Leibler(KL)、Normalized Scanpath Saliency(NSS)、Similarity、AUC_Borji、AUC_Judd，其中，KL值越小，表明显著性预测方法越好，反之越差；其他指标值越大，表示显著性预测方法的预测越准确，性能越好，反之，则越差。

对于上述ODI数据库中的所有立体全景图像，分别按本发明方法的步骤1至步骤8的过程，采用相同的方式计算得到每幅立体全景图像的显著图，然后选取6种现有的显著性算法进行对比，包括两种二维图像显著性算法BMS方法、MR方法，三种立体图像显著性算法Wang’s方法、SMAP方法、Hu’s方法，和一种普通全景显著性算法CDSR方法，分别用这6种显著性算法计算每幅立体全景图像的显著图，最后计算这6种显著性算法以及本发明方法各自计算出的显著图与Ground-truth图的性能指标值。图2a是从ODI数据库中选取的一幅立体全景图像的左视图，图2b是从ODI数据库中选取的一幅立体全景图像的右视图，图2c是利用BMS方法对图2a和图2b进行处理计算出的显著图，图2d是利用MR方法对图2a和图2b进行处理计算出的显著图，图2e是利用Wang’s方法对图2a和图2b进行处理计算出的显著图，图2f是利用SMAP方法对图2a和图2b进行处理计算出的显著图，图2g是利用Hu’s方法对图2a和图2b进行处理计算出的显著图，图2h是利用CDSR方法对图2a和图2b进行处理计算出的显著图，图3c给出了利用本发明方法计算出的显著图，图3d给出了Ground-truth图。通过比较可以发现，利用本发明方法计算出的显著图能够较好地定位显著区域。表1显示了不同显著性预测方法的客观比较结果，由表1可以看出，本发明方法的各项指标均优于其他对比方法，具有较好的性能。

为了验证本发明方法在对立方体投影格式的全景立体图像中的每个面进行处理后求取显著图的有效性，在ODI数据库上进行3组实验，分别使用等矩形投影格式处理方法、立方体投影格式处理方法和本发明方法提出的对立方体投影格式的立体全景图像中的每个面消除边界的方法计算出立体全景图像的显著图，图3a为使用等矩形投影格式方法求取立体全景图像的显著图的效果，图3b为使用立方体投影格式方法求取立体全景图像的显著图的效果，图3c为使用本发明方法求取立体全景图像的显著图的效果。表2是图3a、图3b、图3c的客观对比结果。从表2可以看出，本发明方法在对立方体投影格式的全景立体图像中的每个面消除边界后预测效果较好，如果不对立方体投影格式的全景立体图像做任何改进直接求取显著图，效果较差。

表1不同显著性预测方法的客观比较

表2在不同投影平面的性能对比

上述，BMS方法是引自Zhang J,Sclaroff S.Saliency detection:A Boolean mapapproach.IEEE International Conference on Computer Vision(ICCV),2013,1:153-160.(Zhang J，Sclaroff S等人，“显著检测：布尔映射方法”，IEEE国际计算机视觉会议，2013，1:153-160)；MR方法是引自Yang C,Zhang L,Lu H,et al.Saliency detection viagraph-based manifold ranking.IEEE Conference on Computer Vision&PatternRecognition,2013,9(4):3166-3173.(Yang C,Zhang L,Lu H等人“基于图的流形排序显著性检测”，IEEE计算机视觉与模式识别会议，2013，9(4)：3166-3173)；Wang’s方法引自WangW,Shen J,Yu Y,et al.Stereoscopic thumbnail creation via efficient stereosaliency detection.IEEE Transactions on Visualization and Computer Graphics,2017,23(8):2014-2027.(Wang W,Shen J,Yu Y等人，“通过有效的立体显著性检测创建立体缩略图”，IEEE可视化与计算机图形学业务，2017，23(8)：2014-2027)；SMAP方法引自FangY,Wang J,Narwaria M,et al.Saliency detection for stereoscopic images.IEEETransactions on Image Processing,2014,23(6):2625-2636.(Fang Y,Wang J,NarwariaM等人，“立体图像的显著性检测”，IEEE图像处理业务，2014，23(6)：2625-2636)；Hu’s方法引自Hu B,Kane-Jackson R,Niebur E.A proto-object based saliency model inthree-dimensional space.Vision Research,2016,119:42-49.(Hu B,Kane-Jackson R,Niebur E，“三维空间中基于原型对象的显著性模型”，视觉研究，2016，119:42-49)；CDSR方法是引自Ling J,Zhang K,Zhang Y,et al.A saliency prediction model on 360degreeimages using color dictionary based sparse.Signal Processing:ImageCommunication,2018,69:60-68.(Ling J,Zhang K,Zhang Y，“基于颜色字典稀疏的360度图像显著性预测模型”，信号处理：图像通信，2018，69:60-68)。

Claims

1.一种基于立方体投影格式的立体全景图像显著区域预测方法，其特征在于包括以下步骤：

所述的步骤2中，V_hl由8个面组成，V_hl表述为V_hl＝(V₁,V₂,V₃,V₄,V₁',V₂',V₃',V₄')；V_hg由2个面组成，V_hg表述为V_hg＝(V_hg1,V_hg2)；其中，V₁'表示V₁向左移动L₁个像素点距离后得到的面，V₂'表示V₂向左移动L₁个像素点距离后得到的面，V₃'表示V₃向左移动L₁个像素点距离后得到的面，V₄'表示V₄向左移动L₁个像素点距离后得到的面，

M'表示V_hg1的宽度，即M'＝4M；

所述的步骤3的具体过程为：

步骤3_2：将当前待处理的面定义为当前面；

步骤3_13：计算S_hl和S_hg，

S_hl2由V_hl中的V₁'、V₂'、V₃'、V₄'各自的显著图按顺序拼接成一行而成，S_hl2的宽度为4M且高度为M，S_hg1表示V_hg1的显著图，S_hg1的宽度为4M且高度为M，S_hg3表示S_hg2向右移动L₂个像素点距离后得到的图像，

M'＝4M，S_hg2表示V_hg2的显著图，S_hg2的宽度为4M且高度为M；

步骤5：构建I^CMP的垂直面，记为V_v；

2.根据权利要求1所述的基于立方体投影格式的立体全景图像显著区域预测方法，其特征在于所述的步骤4中，将S_hv中坐标位置为(x₁,x₂)的像素点的像素值记为S_hv(x₁,x₂)，S_hv(x₁,x₂)＝S_hg(x₁,x₂)×S_hl(x₁,x₂)；其中，1≤x₁≤4M,1≤x₂≤M，4M为S_hv的宽度，M为S_hv的高度，S_hg(x,y)表示S_hg中坐标位置为(x₁,x₂)的像素点的像素值，S_hl(x,y)表示S_hl中坐标位置为(x₁,x₂)的像素点的像素值。

3.根据权利要求1所述的基于立方体投影格式的立体全景图像显著区域预测方法，其特征在于所述的步骤5中，V_v由V₅、V₂、V₆按顺序拼接成一列而成，V_v的宽度为M且高度为3M，M表示V₁、V₂、V₃、V₄、V₅、V₆的宽和高。

4.根据权利要求3所述的基于立方体投影格式的立体全景图像显著区域预测方法，其特征在于所述的步骤6的具体过程为：

步骤6_1：将V_v定义为当前面；

其中，e表示自然基数，σ为常数，符号“||||”为求欧氏距离符号；

步骤6_8：计算G的关联矩阵和度矩阵，对应记为WT和D，WT＝[wt_i,j]_Num×Num，D＝diag{D_1,1,D_2,2,...,D_i,i,...,D_Num,Num}；其中，diag{}表示构造一个对角矩阵操作，D_i,i＝∑_jwt_i,j，D_1,1、D_2,2、D_Num,Num均根据D_i,i＝∑_jwt_i,j计算得到；

步骤6_11：将f^**重新记为S_vv。