CN115631121A

CN115631121A - 一种基于自监督学习的全景图像显著性预测方法

Info

Publication number: CN115631121A
Application number: CN202211344155.8A
Authority: CN
Inventors: 叶茂; 邹子壮
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-20

Abstract

本发明公开了一种基于自监督学习的全景图像显著性预测方法，包括以下步骤：S1、利用无标签ERP图像集训练编码器，包括以下子步骤：S11、将ERP图像投影到球面，得到图像组C_i和标签P_i；S12、对C_i进行随机打乱；S13、进行编码器训练，构建全局特征提取网络与局部特征提取网络，并通过特征融合学习这两者的特征，对全局特征提取网络的模型参数进行更新；S2、进行解码器训练；S3、将待识别的全景图像输入训练好的编码器中进行特征提取，然后将提取的特征输入解码器中，得到最终的显著性预测。本发明利用大量未标签的全景图像，对显著性模型中的编码器进行针对性训练，缓解显著性标签缺少所带来模型表现不佳的现象。

Description

一种基于自监督学习的全景图像显著性预测方法

技术领域

本发明属于图像处理技术领域，特别涉及一种基于自监督学习的全景图像显著性预测方法。

背景技术

元宇宙产业的发展带动了全景图像的制造和消费。相较于传统的2D图像，全景图像可以为用户提供全视野的景象，带来沉浸式的体验。但由于人类的视野范围有限，导致传输过来的全景信息只有一小部分能被实际使用到，造成了码率上的浪费。而显著性图像中的亮斑代表着用户可能观看的区域，使得我们可以根据显著性图像进行码率分配，到达节省码率的目的。在深度学习网络被应用于显著性预测之前，研究者将图片进行分割，根据手工设计的特征来模拟人类视觉注意机制。而深度学习网络通过对标签图像进行学习，选择出更为适合显著性预测的特征，获得了更为精确且鲁棒的结果。

现阶段大多数的预测方法都关注于2D图像，较长的研究周期使得2D显著性预测模型和数据集更为完善。但是由于将全景图像投影到平面后，势必会带来的几何扭曲，导致了直接将2D模型应用到全景图像中的效果并不理想。并且由于发展的时间较短，全景图像的显著性标签极为有限，在不使用2D模型以及数据集辅助的情况下，模型很难选择出适合全景显著性预测的特征，来获得较好的结果。所以部分方法通过将全景图像投影成扭曲程度较小的小视野图像，通过2D模型进行预测得到结果后进行多视角融合，得到最终的预测结果。这类方法虽然拥有较高的准确度，但由于预测面数较多以及投影需要耗费较多的时间，使得实时预测变得困难。

公开号为CN14998310A的专利申请公开了一种基于图像处理的显著性检测方法及系统，首先获取预处理图像对应的滤波图像和HSV图像；基于滤波图像和HSV图像的各通道分量图像，获取各通道分量图像的多个超像素块及各超像素块的通道等级分布，由超像素块之间通道等级分布的差异性和超像素块之间中心点距离得到目标特征指标；由超像素块和目标特征指标建立显著性指标模型，得到第一显著指标值，修正各超像素块的第一显著指标值得到第二显著指标值；融合各通道分量图像的第二显著指标值得到超像素块的目标显著指标值。通过计算各通道分量图像各区域的显著指标值实现增强处理，完成对预处理图像中显著区域的检测提取，提高了检测精度和效率。该方法设计了两个不同的手工特征，来模拟人类注意力机制，由于我们对于该机制的了解有限，导致仅仅通过手工特征来对显著性区域进行检测会在某些场景下有着较为明显的精度下降，并且全景图像所拥有的几何扭曲会导致针对平面设计的特征失效。

公开号为CN107274419A的专利申请公开了一种基于全局先验和局部上下文的深度学习显著性检测方法，首先对彩色图像和深度图像进行超像素分割，基于每个超像素的紧凑性、独特性和背景性等中层特征，获得每个超像素的全局先验特征图，并进一步通过深度学习模型，得到全局先验显著图；然后，结合全局先验显著图和彩色图像与深度图像中的局部上下文信息，通过深度学习模型，得到初始显著图；最后，依据空间一致性和外观相似性优化初始显著图，得到最终显著图。应用本发明，解决了传统显著性检测方法无法有效检测到复杂背景图像中的显著物体，还解决了现有的基于深度学习的显著性检测方法由于提取出的高层特征存在噪声而导致误检的问题。该方案在传统方法的基础上使用卷积神经网络对显著性特征进行提取，并且采用了不同的输入来保证所提取的特征的完整性，虽然有效的提升了预测的鲁棒性，但是其多种模型叠加的结构势必会导致误差的积累，从而使得精度下降，并且全景图像投影图在不同纬度中像素的长度并不相同，导致针对超像素的设计失效。

公开号为CN107346436A的专利申请公开了一种融合图像分类的视觉显著性检测方法，包括：利用包括图像编码网络、图像解码网络和图像辨识网络的视觉显著性检测模型，采用多尺度图像作为图像编码网络的输入，提取多分辨率下图像的特征作为编码特征向量F；固定所述图像编码网络中除最后两层外的权值，训练网络参数，得到原图像的视觉显著图；将F作为所述的图像解码网络的输入，对原图像对应的显著图做归一化处理；对图像解码网络输入F，通过上采样层和非线性sigmoid层最终得到生成的视觉显著图；利用图像辨识网络以原图像的视觉显著图和生成的视觉显著图作为输入，采用小卷积核的卷积层提取特征并池化处理，最后采用三个全连接层输出生成图的概率分布和分类标签的概率分布。实现了快速有效地对图像进行分析并做出判断的目的，在图像标注、监督和行为预测等实践中获得了节约人力物力成本、显著提高准确性等良好效果。该方案以多尺度图像为输入，采用卷积神经网络对多尺度特征进行提取，并且使用卷积神经网络对得到的特征进行解码，使得模型可以端到端的学习，但是模型并没有根据显著性进行特定的设计，导致模型精度有待提升，且直接将平面模型应用于全景图像会导致精度下降。

发明内容

本发明的目的在于克服现有技术的不足，提供一种利用大量未标签的全景图像，对显著性模型中的编码器进行针对性训练，缓解显著性标签缺少所带来模型表现不佳的现象，并且在编码器训练过程中进行了全局与局部信息的融合，使得编码器可以学习到视野不同图像的特征的基于自监督学习的全景图像显著性预测方法。

本发明的目的是通过以下技术方案来实现的：一种基于自监督学习的全景图像显著性预测方法，包括以下步骤：

S1、利用无标签ERP图像集训练编码器，包括以下子步骤：

S11、格式转换：将ERP图像投影到球面，得到CMP图像组C_i和标签P_i，i＝1，…，6；

S12、对C_i进行随机打乱得到c_i，并根据c_i的原始位置对P_i进行更新得到代理任务的标签

S13、进行编码器训练，构建全局特征提取网络

与局部特征提取网络

并将全局特征和局部特征作为输入，通过特征融合学习这两者的特征，对全局特征提取网络的模型参数进行更新；

S2、进行解码器训练：解码器g_θ：

被构造用于预测最终的显著性结果

S3、将待识别的全景图像输入训练好的编码器中进行特征提取，然后将提取的特征输入解码器中，得到最终的显著性预测。

所述步骤S13中，全局特征提取网络

与局部特征提取网络

分别为：

E-＞F_E

其中F_E是全局特征，

是局部特征，E表示ERP图像；-＞代表特征提取网路的推理过程，全局特征提取网络

与局部特征提取网络

均采用VGG16去掉尾部5层后的模型；

然后将得到的全局特征F_E和局部特征

一起联合输入到特征融合网络；

所述特征融合网络包括特征变换和点乘操作两个部分：首先将F_E和

经过两个权重不共享的全连接层得到r_E和

然后通过下面的方程进行变换：

Q_E＝r_EW_Q

其中W_Q、W_V和W_K是三类特征不共享的权重，Q_E、

和

分别代表着Query、Value和Key；

然后利用点乘操作对所得到的特征进行融合：

其中CA_i为特征融合后的结果，ReLU为激活函数，

表示函数嵌套运算符；

得到的CA_i被用于最终的位置预测：

通过下方的损失函数进行训练：

由损失函数计算预测值和标签值之间的差异，然后根据该差异进行梯度回传并根据梯度更新

模型中的参数，遍历无标签ERP图像集100次后停止，得到全局特征提取网络

显著性图像获取：以头部和眼部运动的记录文件作为解码器的训练集；首先建立一个与训练集中图像大小相同的零矩阵，头部和眼部的记录文件中会记录下不同的视点位置，如果某个点在文件中被记录了，则在矩阵中标记为1；根据记录位置，采用以下的方法对该零矩阵进行更新：

S_ij就是视点图；而视点图因其稀疏矩阵的特性，训练难度较大，因此进行下方的处理：

其中G是膨胀角为5°的高斯核，S_E表示由S_ij构成的矩阵；

进行如下更新：

其中，T代表着从ERP转换成为CMP的过程，T_back代表从CMP转换为ERP的过程；

损失函数：根据显著性图像大多数区域都为0的特性，选择以下损失函数来对解码器模型进行训练：

是预测分布，

是真实分布，ε是为了防止预测值过于接近0而导致损失趋向无穷所设定的一个常量，W_E、H_E分别为图像的宽度和高度；

由损失函数计算预测值和标签值之间的差异，然后根据该差异进行梯度回传并根据梯度更新模型中的参数，遍历训练集一百次后停止，得到解码器g_θ。

本发明的有益效果是：利用大量未标签的全景图像，对显著性模型中的编码器进行针对性训练，缓解显著性标签缺少所带来模型表现不佳的现象。并且在编码器训练过程中，进行了全局与局部信息的融合，使得编码器可以学习到视野不同图像的特征。确保预测阶段，可以仅使用一张ERP图像就可以得到高质量的预测结果。

附图说明

图1为本发明的基于自监督学习的全景图像显著性预测的流程图；

图2为本发明基于CMP和ERP的视点转换图。

具体实施方式

缩略语和关键术语定义：

ERP(Equi-Rectangular Projection)：等距柱状投影，一种将球面信息映射到单一平面的投影方法。

CMP(Cube Map Projection)：立方体映射投影，一种将球面置于立方体中，并映射到六个独立面的投影方法。

ROC(Receiver Operating characteristic Curve)：受试者工作特征曲线，通过将分类结果映射成平面上的一个点，并通过点的位置来判断分类器的好坏。

NSS(Normalized Scanpath Saliency)：标准化扫描路径显着性，用于衡量显著性图像与视点图之间的差异性。

KLD(Kullback-Leibler Divergence)：KL散度，衡量两个概率分布的差异。

SIM(Similarity)：相似性，衡量两个分布之间的相似程度。

CC(Linear Correlation)：皮尔逊相关系数，用于衡量图像之间的线性相关程度。

AUC-J(Area Under ROC Curve-Judd)：ROC曲线下面积的变体，通过给定不同的阈值得得到真阳性以及假阳性的值，来绘制ROC上的点，并计算曲面下的面积用于衡量分类器的准确度。

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种基于自监督学习的全景图像显著性预测方法，包括以下步骤：

S1、利用无标签ERP图像集训练编码器，包括以下子步骤：

S11、格式转换：将ERP图像投影到球面，不旋转球面的情况下，由该球面映射出的CMP面在ERP上的位置是固定的；利用这一特性，把ERP(E)图像进行格式转换得到CMP图像组C_i和标签P_i，i＝1，…，6；在输入C_i和ERP的情况下，模型可以通过预测C_i的位置信息P_i来进行训练；

S12、为了防止任务出现捷径导致模型停止学习，对C_i进行随机打乱得到c_i，并根据c_i的原始位置对P_i进行更新得到代理任务的标签

S13、进行编码器训练，构建全局特征提取网络

与局部特征提取网络

具体训练过程为：编码器以全局和局部信息作为输入并通过特征融合学习这两者的特征；为了提取出两类拥有不同视野图像，更好的对代理任务进行学习，需要设定全局特征提取网络与局部特征提取网络；虽然局部网络一次只能接受单个CMP面，但为了缩小其与全局网络之间的信息差，我们选择将所有的CMP面在一次训练过程中都输入，以帮构建隐式的全局信息，在特征融合时帮助全局编码器更好的学习局部特征。

所述全局特征提取网络

与局部特征提取网络

分别为：

E-＞F_E

其中F_E是全局特征，

与局部特征提取网络

均采用VGG16去掉尾部5层后的模型；VGG16网络为本领域常用的网络，具体结构可参考《Simonyan K,Zisserman A.Very DeepConvolutional Networks for Large-Scale Image Recognition[J].arXiv e-prints,2014》。

然后将得到的全局特征F_E和局部特征

一起联合输入到特征融合网络；所述特征融合网络包括特征变换和点乘操作两个部分：

首先将F_E和

经过两个权重不共享的全连接层得到r_E和

然后通过下面的方程进行变换：

Q_E＝r_EW_Q

其中W_Q、V_V和W_K是三类特征不共享的权重，Q_E、

和

分别代表着Query、Value和Key；

然后利用点乘操作对所得到的特征进行融合：

其中CA_i为特征融合后的结果，ReLU为激活函数，

表示函数嵌套运算符；可以看见在上述过程中，本发明选择了ReLU而非原始的softmax作为激活函数。采用softmax意味着Q_E需要和每个

都进行交互，这会导致模型会过多的关注于由

所得到的特征，这与想要训练

的目的不符。

得到的CA_i被用于最终的位置预测：

其中

就是模型的预测结果，之后

通过下方的损失函数进行训练：

本实施例中使用的无标签ERP图像集来源为《Djilali Y,Krishna T,McguinnessK,et al.Rethinking 360deg Image Visual Attention Modelling With UnsupervisedLearning.[C]//International Conference on Computer Vision.2021》中的无标签ERP图像。

S2、进行解码器训练：在完成了编码器

的训练后，解码器g_θ：

被构造用于预测最终的显著性结果

g_θ基于《Pan J,Canton C,Mcguinness K,et al.SalGAN:VisualSaliency Prediction with Generative Adversarial Networks[J].2017》中结构，采用了U型结构的网络，帮助解码器拥有更大的感受野，以便模拟人类在观看图像时的视野范围以对显著性区域进行更好的判断。

显著性图像获取：利用《Xu Y,Dong Y,Wu J,et al.Gaze Prediction in Dynamic360°Immersive Videos[C]//2018IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2018》数据集中所提供的头部和眼部运动的记录文件作为解码器的训练集。首先建立一个与训练集中图像大小相同的零矩阵，头部和眼部的记录文件中会记录下不同的视点位置，如果某个点在文件中被记录了，则在矩阵中标记为1；根据记录位置，采用以下的方法对该零矩阵进行更新：

其中G是膨胀角为5°的高斯核，S_E表示由S_ij构成的矩阵；使用这种方法就意味着在ERP上的每个点都被平等的对待，而ERP在不同的纬度上有着不同的像素密度，这就导致了这样得到的显著性图像和真实图像有着较大的差距。为了缓解这一问题，将方法进行如下更新：

其中，T代表着从ERP转换成为CMP的过程，T_back代表从CMP转换为ERP的过程；CMP由于在投影时使用了更多的面，导致其扭曲程度更小，更贴近真实视野中的图像。我们在保证高斯核不改变的情况下，使用CMP进行转换，得到了如图2中第二列中的结果(图2中，每个图像右侧的方形图为左侧小方块内图像的放大图)。可以看见在图2(b)和(c)之间的对比中，基于CMP的转换方法更加倾向于忽略纬度较高区域中的视点。与图2中的ERP格式的图像不同，实际情况中，高纬度区域的视点分布会更加集中。而在基于ERP转换的显著性图中，显然将这些距离相近的点转对待成了赤道附近较为分散的视点。

是预测分布，

是真实分布，ε(ε＝1e-50)是为了防止预测值过于接近0而导致损失趋向无穷所设定的一个常量，W_E、H_E分别为图像的宽度和高度。

由损失函数计算预测值和标签值之间的差异，然后根据该差异进行梯度回传并根据梯度更新模型中的参数，遍历训练集一百次后停止，得到解码器g_θ；使用KLD损失可以帮助模型关注于预测值与真实值差距较大的区域，更加贴合显著性的使用需求。

实验测试结果：使用AUC-J，NSS，CC，SIM和KLD来评估本发明的网络的性能，与UNISAL(《Droste R,Jiao J,Noble J A.Unified Image and Video Saliency Modeling[J].2020》)、SalGAN(《Pan J,Canton C,Mcguinness K,et al.SalGAN:Visual SaliencyPrediction with Generative Adversarial Networks[J].2017》)、SaltiNet(《Marc A,Xavier G,Kevin M G,et al.Scanpath and saliency prediction on 360degree images[J].Signal Processing:Image Communication,2018,69:8-14》)、MV-SalGAN360(《Chao FY,Zhang L,Hamidouche W,et al.A Multi-FoV Viewport-Based Visual Saliency ModelUsing Adaptive Weighting Losses for 360$^circ$Images[J].Institute ofElectrical and Electronics Engineers(IEEE),2021》)、ATSAL(《Dahou Y,Tliba M,Mcguinness K,et al.ATSal:An Attention Based Architecture for SaliencyPrediction in 360Videos[J].2020》)、Rethink(《Djilali Y,Krishna T,Mcguinness K,et al.Rethinking 360deg Image Visual Attention Modelling With UnsupervisedLearning.[C]//International Conference on Computer Vision.2021》)进行了指标上的评估，并且与其中五个方法比较了推理速度。

表1在Salient360！上的表现比较

表1给出了在Salient360！数据集((《Gutierrez J,David E J,Coutrot A,etal.Introducing UN Salient360！Benchmark:A platform for evaluating visualattention models for 360°contents[C]//2018Tenth International Conference onQuality of Multimedia Experience(QoMEX).2018》))中25张图在5个指标下的平均表现。表中，↑表示该指标数据越大效果越好，↓表示该指标数据越小效果越好。可以看出，本发明的模型在SIM和KLD上优于其他模型，这两个指标衡量了分布之间的相似程度，而其他方法会把非显著性区域进行错误的分类，造成表现的不佳。并且在与自监督模型的比较中，本发明的模型在所有的指标上均有提升。在与直接预测模型的比较中，除NSS(倾向于忽略假阳性)外我们的模型均达到了相近或者更高的指标。MV-SalGAN360由于其多视角融合的方法，在前三个指标中均达到了最优的表现，但是该方法会花费更多的时间在推理阶段。ATSAL因为其是视频模型的原因，在图像上并没有突出的表现。

表2使用Salient360！作为输入，各种方法预测单张图像所需的时间

表2展现了不同模型推理速度之间的差距。为了比较的公平，所有计算均在Windows环境下的i5-9400 CPU中进行。因为更加复杂的解码器，本发明的模型所需的时间比Rethink稍长了一些(Rethink+使用了与我们方法相同的解码器，在指标上并没有更好)。而MV-SalGAN360和ATSAL由于需要投影以及多视角融合，导致推理时间较长。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。