CN115631121A - 一种基于自监督学习的全景图像显著性预测方法 - Google Patents

一种基于自监督学习的全景图像显著性预测方法 Download PDF

Info

Publication number
CN115631121A
CN115631121A CN202211344155.8A CN202211344155A CN115631121A CN 115631121 A CN115631121 A CN 115631121A CN 202211344155 A CN202211344155 A CN 202211344155A CN 115631121 A CN115631121 A CN 115631121A
Authority
CN
China
Prior art keywords
image
feature extraction
training
extraction network
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211344155.8A
Other languages
English (en)
Inventor
叶茂
邹子壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211344155.8A priority Critical patent/CN115631121A/zh
Publication of CN115631121A publication Critical patent/CN115631121A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自监督学习的全景图像显著性预测方法,包括以下步骤:S1、利用无标签ERP图像集训练编码器,包括以下子步骤:S11、将ERP图像投影到球面,得到图像组Ci和标签Pi;S12、对Ci进行随机打乱;S13、进行编码器训练,构建全局特征提取网络与局部特征提取网络,并通过特征融合学习这两者的特征,对全局特征提取网络的模型参数进行更新;S2、进行解码器训练;S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。本发明利用大量未标签的全景图像,对显著性模型中的编码器进行针对性训练,缓解显著性标签缺少所带来模型表现不佳的现象。

Description

一种基于自监督学习的全景图像显著性预测方法
技术领域
本发明属于图像处理技术领域,特别涉及一种基于自监督学习的全景图像显著性预测方法。
背景技术
元宇宙产业的发展带动了全景图像的制造和消费。相较于传统的2D图像,全景图像可以为用户提供全视野的景象,带来沉浸式的体验。但由于人类的视野范围有限,导致传输过来的全景信息只有一小部分能被实际使用到,造成了码率上的浪费。而显著性图像中的亮斑代表着用户可能观看的区域,使得我们可以根据显著性图像进行码率分配,到达节省码率的目的。在深度学习网络被应用于显著性预测之前,研究者将图片进行分割,根据手工设计的特征来模拟人类视觉注意机制。而深度学习网络通过对标签图像进行学习,选择出更为适合显著性预测的特征,获得了更为精确且鲁棒的结果。
现阶段大多数的预测方法都关注于2D图像,较长的研究周期使得2D显著性预测模型和数据集更为完善。但是由于将全景图像投影到平面后,势必会带来的几何扭曲,导致了直接将2D模型应用到全景图像中的效果并不理想。并且由于发展的时间较短,全景图像的显著性标签极为有限,在不使用2D模型以及数据集辅助的情况下,模型很难选择出适合全景显著性预测的特征,来获得较好的结果。所以部分方法通过将全景图像投影成扭曲程度较小的小视野图像,通过2D模型进行预测得到结果后进行多视角融合,得到最终的预测结果。这类方法虽然拥有较高的准确度,但由于预测面数较多以及投影需要耗费较多的时间,使得实时预测变得困难。
公开号为CN14998310A的专利申请公开了一种基于图像处理的显著性检测方法及系统,首先获取预处理图像对应的滤波图像和HSV图像;基于滤波图像和HSV图像的各通道分量图像,获取各通道分量图像的多个超像素块及各超像素块的通道等级分布,由超像素块之间通道等级分布的差异性和超像素块之间中心点距离得到目标特征指标;由超像素块和目标特征指标建立显著性指标模型,得到第一显著指标值,修正各超像素块的第一显著指标值得到第二显著指标值;融合各通道分量图像的第二显著指标值得到超像素块的目标显著指标值。通过计算各通道分量图像各区域的显著指标值实现增强处理,完成对预处理图像中显著区域的检测提取,提高了检测精度和效率。该方法设计了两个不同的手工特征,来模拟人类注意力机制,由于我们对于该机制的了解有限,导致仅仅通过手工特征来对显著性区域进行检测会在某些场景下有着较为明显的精度下降,并且全景图像所拥有的几何扭曲会导致针对平面设计的特征失效。
公开号为CN107274419A的专利申请公开了一种基于全局先验和局部上下文的深度学习显著性检测方法,首先对彩色图像和深度图像进行超像素分割,基于每个超像素的紧凑性、独特性和背景性等中层特征,获得每个超像素的全局先验特征图,并进一步通过深度学习模型,得到全局先验显著图;然后,结合全局先验显著图和彩色图像与深度图像中的局部上下文信息,通过深度学习模型,得到初始显著图;最后,依据空间一致性和外观相似性优化初始显著图,得到最终显著图。应用本发明,解决了传统显著性检测方法无法有效检测到复杂背景图像中的显著物体,还解决了现有的基于深度学习的显著性检测方法由于提取出的高层特征存在噪声而导致误检的问题。该方案在传统方法的基础上使用卷积神经网络对显著性特征进行提取,并且采用了不同的输入来保证所提取的特征的完整性,虽然有效的提升了预测的鲁棒性,但是其多种模型叠加的结构势必会导致误差的积累,从而使得精度下降,并且全景图像投影图在不同纬度中像素的长度并不相同,导致针对超像素的设计失效。
公开号为CN107346436A的专利申请公开了一种融合图像分类的视觉显著性检测方法,包括:利用包括图像编码网络、图像解码网络和图像辨识网络的视觉显著性检测模型,采用多尺度图像作为图像编码网络的输入,提取多分辨率下图像的特征作为编码特征向量F;固定所述图像编码网络中除最后两层外的权值,训练网络参数,得到原图像的视觉显著图;将F作为所述的图像解码网络的输入,对原图像对应的显著图做归一化处理;对图像解码网络输入F,通过上采样层和非线性sigmoid层最终得到生成的视觉显著图;利用图像辨识网络以原图像的视觉显著图和生成的视觉显著图作为输入,采用小卷积核的卷积层提取特征并池化处理,最后采用三个全连接层输出生成图的概率分布和分类标签的概率分布。实现了快速有效地对图像进行分析并做出判断的目的,在图像标注、监督和行为预测等实践中获得了节约人力物力成本、显著提高准确性等良好效果。该方案以多尺度图像为输入,采用卷积神经网络对多尺度特征进行提取,并且使用卷积神经网络对得到的特征进行解码,使得模型可以端到端的学习,但是模型并没有根据显著性进行特定的设计,导致模型精度有待提升,且直接将平面模型应用于全景图像会导致精度下降。
发明内容
本发明的目的在于克服现有技术的不足,提供一种利用大量未标签的全景图像,对显著性模型中的编码器进行针对性训练,缓解显著性标签缺少所带来模型表现不佳的现象,并且在编码器训练过程中进行了全局与局部信息的融合,使得编码器可以学习到视野不同图像的特征的基于自监督学习的全景图像显著性预测方法。
本发明的目的是通过以下技术方案来实现的:一种基于自监督学习的全景图像显著性预测方法,包括以下步骤:
S1、利用无标签ERP图像集训练编码器,包括以下子步骤:
S11、格式转换:将ERP图像投影到球面,得到CMP图像组Ci和标签Pi,i=1,…,6;
S12、对Ci进行随机打乱得到ci,并根据ci的原始位置对Pi进行更新得到代理任务的标签
Figure BDA0003917695870000031
S13、进行编码器训练,构建全局特征提取网络
Figure BDA0003917695870000032
与局部特征提取网络
Figure BDA0003917695870000033
并将全局特征和局部特征作为输入,通过特征融合学习这两者的特征,对全局特征提取网络的模型参数进行更新;
S2、进行解码器训练:解码器gθ
Figure BDA0003917695870000034
被构造用于预测最终的显著性结果
Figure BDA0003917695870000035
S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。
所述步骤S13中,全局特征提取网络
Figure BDA0003917695870000036
与局部特征提取网络
Figure BDA0003917695870000037
分别为:
Figure BDA0003917695870000038
E->FE
Figure BDA0003917695870000039
其中FE是全局特征,
Figure BDA00039176958700000310
是局部特征,E表示ERP图像;->代表特征提取网路的推理过程,全局特征提取网络
Figure BDA00039176958700000311
与局部特征提取网络
Figure BDA00039176958700000312
均采用VGG16去掉尾部5层后的模型;
然后将得到的全局特征FE和局部特征
Figure BDA00039176958700000313
一起联合输入到特征融合网络;
所述特征融合网络包括特征变换和点乘操作两个部分:首先将FE
Figure BDA00039176958700000314
经过两个权重不共享的全连接层得到rE
Figure BDA00039176958700000315
然后通过下面的方程进行变换:
QE=rEWQ
Figure BDA00039176958700000316
Figure BDA00039176958700000317
其中WQ、WV和WK是三类特征不共享的权重,QE
Figure BDA00039176958700000318
Figure BDA00039176958700000319
分别代表着Query、Value和Key;
然后利用点乘操作对所得到的特征进行融合:
Figure BDA00039176958700000320
其中CAi为特征融合后的结果,ReLU为激活函数,
Figure BDA00039176958700000321
表示函数嵌套运算符;
得到的CAi被用于最终的位置预测:
Figure BDA0003917695870000041
Figure BDA0003917695870000042
通过下方的损失函数进行训练:
Figure BDA0003917695870000043
由损失函数计算预测值和标签值之间的差异,然后根据该差异进行梯度回传并根据梯度更新
Figure BDA0003917695870000044
模型中的参数,遍历无标签ERP图像集100次后停止,得到全局特征提取网络
Figure BDA0003917695870000045
显著性图像获取:以头部和眼部运动的记录文件作为解码器的训练集;首先建立一个与训练集中图像大小相同的零矩阵,头部和眼部的记录文件中会记录下不同的视点位置,如果某个点在文件中被记录了,则在矩阵中标记为1;根据记录位置,采用以下的方法对该零矩阵进行更新:
Figure BDA0003917695870000046
Sij就是视点图;而视点图因其稀疏矩阵的特性,训练难度较大,因此进行下方的处理:
Figure BDA0003917695870000047
其中G是膨胀角为5°的高斯核,SE表示由Sij构成的矩阵;
进行如下更新:
Figure BDA0003917695870000048
其中,T代表着从ERP转换成为CMP的过程,Tback代表从CMP转换为ERP的过程;
损失函数:根据显著性图像大多数区域都为0的特性,选择以下损失函数来对解码器模型进行训练:
Figure BDA0003917695870000049
Figure BDA00039176958700000410
是预测分布,
Figure BDA00039176958700000411
是真实分布,ε是为了防止预测值过于接近0而导致损失趋向无穷所设定的一个常量,WE、HE分别为图像的宽度和高度;
由损失函数计算预测值和标签值之间的差异,然后根据该差异进行梯度回传并根据梯度更新模型中的参数,遍历训练集一百次后停止,得到解码器gθ
本发明的有益效果是:利用大量未标签的全景图像,对显著性模型中的编码器进行针对性训练,缓解显著性标签缺少所带来模型表现不佳的现象。并且在编码器训练过程中,进行了全局与局部信息的融合,使得编码器可以学习到视野不同图像的特征。确保预测阶段,可以仅使用一张ERP图像就可以得到高质量的预测结果。
附图说明
图1为本发明的基于自监督学习的全景图像显著性预测的流程图;
图2为本发明基于CMP和ERP的视点转换图。
具体实施方式
缩略语和关键术语定义:
ERP(Equi-Rectangular Projection):等距柱状投影,一种将球面信息映射到单一平面的投影方法。
CMP(Cube Map Projection):立方体映射投影,一种将球面置于立方体中,并映射到六个独立面的投影方法。
ROC(Receiver Operating characteristic Curve):受试者工作特征曲线,通过将分类结果映射成平面上的一个点,并通过点的位置来判断分类器的好坏。
NSS(Normalized Scanpath Saliency):标准化扫描路径显着性,用于衡量显著性图像与视点图之间的差异性。
KLD(Kullback-Leibler Divergence):KL散度,衡量两个概率分布的差异。
SIM(Similarity):相似性,衡量两个分布之间的相似程度。
CC(Linear Correlation):皮尔逊相关系数,用于衡量图像之间的线性相关程度。
AUC-J(Area Under ROC Curve-Judd):ROC曲线下面积的变体,通过给定不同的阈值得得到真阳性以及假阳性的值,来绘制ROC上的点,并计算曲面下的面积用于衡量分类器的准确度。
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于自监督学习的全景图像显著性预测方法,包括以下步骤:
S1、利用无标签ERP图像集训练编码器,包括以下子步骤:
S11、格式转换:将ERP图像投影到球面,不旋转球面的情况下,由该球面映射出的CMP面在ERP上的位置是固定的;利用这一特性,把ERP(E)图像进行格式转换得到CMP图像组Ci和标签Pi,i=1,…,6;在输入Ci和ERP的情况下,模型可以通过预测Ci的位置信息Pi来进行训练;
S12、为了防止任务出现捷径导致模型停止学习,对Ci进行随机打乱得到ci,并根据ci的原始位置对Pi进行更新得到代理任务的标签
Figure BDA0003917695870000051
S13、进行编码器训练,构建全局特征提取网络
Figure BDA0003917695870000052
与局部特征提取网络
Figure BDA0003917695870000053
并将全局特征和局部特征作为输入,通过特征融合学习这两者的特征,对全局特征提取网络的模型参数进行更新;
具体训练过程为:编码器以全局和局部信息作为输入并通过特征融合学习这两者的特征;为了提取出两类拥有不同视野图像,更好的对代理任务进行学习,需要设定全局特征提取网络与局部特征提取网络;虽然局部网络一次只能接受单个CMP面,但为了缩小其与全局网络之间的信息差,我们选择将所有的CMP面在一次训练过程中都输入,以帮构建隐式的全局信息,在特征融合时帮助全局编码器更好的学习局部特征。
所述全局特征提取网络
Figure BDA0003917695870000061
与局部特征提取网络
Figure BDA0003917695870000062
分别为:
Figure BDA0003917695870000063
E->FE
Figure BDA0003917695870000064
其中FE是全局特征,
Figure BDA0003917695870000065
是局部特征,E表示ERP图像;->代表特征提取网路的推理过程,全局特征提取网络
Figure BDA0003917695870000066
与局部特征提取网络
Figure BDA0003917695870000067
均采用VGG16去掉尾部5层后的模型;VGG16网络为本领域常用的网络,具体结构可参考《Simonyan K,Zisserman A.Very DeepConvolutional Networks for Large-Scale Image Recognition[J].arXiv e-prints,2014》。
然后将得到的全局特征FE和局部特征
Figure BDA0003917695870000068
一起联合输入到特征融合网络;所述特征融合网络包括特征变换和点乘操作两个部分:
首先将FE
Figure BDA0003917695870000069
经过两个权重不共享的全连接层得到rE
Figure BDA00039176958700000610
然后通过下面的方程进行变换:
QE=rEWQ
Figure BDA00039176958700000611
Figure BDA00039176958700000612
其中WQ、VV和WK是三类特征不共享的权重,QE
Figure BDA00039176958700000613
Figure BDA00039176958700000614
分别代表着Query、Value和Key;
然后利用点乘操作对所得到的特征进行融合:
Figure BDA00039176958700000615
其中CAi为特征融合后的结果,ReLU为激活函数,
Figure BDA00039176958700000616
表示函数嵌套运算符;可以看见在上述过程中,本发明选择了ReLU而非原始的softmax作为激活函数。采用softmax意味着QE需要和每个
Figure BDA00039176958700000617
都进行交互,这会导致模型会过多的关注于由
Figure BDA00039176958700000618
所得到的特征,这与想要训练
Figure BDA0003917695870000071
的目的不符。
得到的CAi被用于最终的位置预测:
Figure BDA0003917695870000072
其中
Figure BDA0003917695870000073
就是模型的预测结果,之后
Figure BDA0003917695870000074
通过下方的损失函数进行训练:
Figure BDA0003917695870000075
由损失函数计算预测值和标签值之间的差异,然后根据该差异进行梯度回传并根据梯度更新
Figure BDA0003917695870000076
模型中的参数,遍历无标签ERP图像集100次后停止,得到全局特征提取网络
Figure BDA0003917695870000077
本实施例中使用的无标签ERP图像集来源为《Djilali Y,Krishna T,McguinnessK,et al.Rethinking 360deg Image Visual Attention Modelling With UnsupervisedLearning.[C]//International Conference on Computer Vision.2021》中的无标签ERP图像。
S2、进行解码器训练:在完成了编码器
Figure BDA0003917695870000078
的训练后,解码器gθ
Figure BDA0003917695870000079
被构造用于预测最终的显著性结果
Figure BDA00039176958700000710
gθ基于《Pan J,Canton C,Mcguinness K,et al.SalGAN:VisualSaliency Prediction with Generative Adversarial Networks[J].2017》中结构,采用了U型结构的网络,帮助解码器拥有更大的感受野,以便模拟人类在观看图像时的视野范围以对显著性区域进行更好的判断。
显著性图像获取:利用《Xu Y,Dong Y,Wu J,et al.Gaze Prediction in Dynamic360°Immersive Videos[C]//2018IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2018》数据集中所提供的头部和眼部运动的记录文件作为解码器的训练集。首先建立一个与训练集中图像大小相同的零矩阵,头部和眼部的记录文件中会记录下不同的视点位置,如果某个点在文件中被记录了,则在矩阵中标记为1;根据记录位置,采用以下的方法对该零矩阵进行更新:
Figure BDA00039176958700000711
Sij就是视点图;而视点图因其稀疏矩阵的特性,训练难度较大,因此进行下方的处理:
Figure BDA00039176958700000712
其中G是膨胀角为5°的高斯核,SE表示由Sij构成的矩阵;使用这种方法就意味着在ERP上的每个点都被平等的对待,而ERP在不同的纬度上有着不同的像素密度,这就导致了这样得到的显著性图像和真实图像有着较大的差距。为了缓解这一问题,将方法进行如下更新:
Figure BDA0003917695870000081
其中,T代表着从ERP转换成为CMP的过程,Tback代表从CMP转换为ERP的过程;CMP由于在投影时使用了更多的面,导致其扭曲程度更小,更贴近真实视野中的图像。我们在保证高斯核不改变的情况下,使用CMP进行转换,得到了如图2中第二列中的结果(图2中,每个图像右侧的方形图为左侧小方块内图像的放大图)。可以看见在图2(b)和(c)之间的对比中,基于CMP的转换方法更加倾向于忽略纬度较高区域中的视点。与图2中的ERP格式的图像不同,实际情况中,高纬度区域的视点分布会更加集中。而在基于ERP转换的显著性图中,显然将这些距离相近的点转对待成了赤道附近较为分散的视点。
损失函数:根据显著性图像大多数区域都为0的特性,选择以下损失函数来对解码器模型进行训练:
Figure BDA0003917695870000082
Figure BDA0003917695870000083
是预测分布,
Figure BDA0003917695870000084
是真实分布,ε(ε=1e-50)是为了防止预测值过于接近0而导致损失趋向无穷所设定的一个常量,WE、HE分别为图像的宽度和高度。
由损失函数计算预测值和标签值之间的差异,然后根据该差异进行梯度回传并根据梯度更新模型中的参数,遍历训练集一百次后停止,得到解码器gθ;使用KLD损失可以帮助模型关注于预测值与真实值差距较大的区域,更加贴合显著性的使用需求。
S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。
实验测试结果:使用AUC-J,NSS,CC,SIM和KLD来评估本发明的网络的性能,与UNISAL(《Droste R,Jiao J,Noble J A.Unified Image and Video Saliency Modeling[J].2020》)、SalGAN(《Pan J,Canton C,Mcguinness K,et al.SalGAN:Visual SaliencyPrediction with Generative Adversarial Networks[J].2017》)、SaltiNet(《Marc A,Xavier G,Kevin M G,et al.Scanpath and saliency prediction on 360degree images[J].Signal Processing:Image Communication,2018,69:8-14》)、MV-SalGAN360(《Chao FY,Zhang L,Hamidouche W,et al.A Multi-FoV Viewport-Based Visual Saliency ModelUsing Adaptive Weighting Losses for 360$^circ$Images[J].Institute ofElectrical and Electronics Engineers(IEEE),2021》)、ATSAL(《Dahou Y,Tliba M,Mcguinness K,et al.ATSal:An Attention Based Architecture for SaliencyPrediction in 360Videos[J].2020》)、Rethink(《Djilali Y,Krishna T,Mcguinness K,et al.Rethinking 360deg Image Visual Attention Modelling With UnsupervisedLearning.[C]//International Conference on Computer Vision.2021》)进行了指标上的评估,并且与其中五个方法比较了推理速度。
表1在Salient360!上的表现比较
Figure BDA0003917695870000091
表1给出了在Salient360!数据集((《Gutierrez J,David E J,Coutrot A,etal.Introducing UN Salient360!Benchmark:A platform for evaluating visualattention models for 360°contents[C]//2018Tenth International Conference onQuality of Multimedia Experience(QoMEX).2018》))中25张图在5个指标下的平均表现。表中,↑表示该指标数据越大效果越好,↓表示该指标数据越小效果越好。可以看出,本发明的模型在SIM和KLD上优于其他模型,这两个指标衡量了分布之间的相似程度,而其他方法会把非显著性区域进行错误的分类,造成表现的不佳。并且在与自监督模型的比较中,本发明的模型在所有的指标上均有提升。在与直接预测模型的比较中,除NSS(倾向于忽略假阳性)外我们的模型均达到了相近或者更高的指标。MV-SalGAN360由于其多视角融合的方法,在前三个指标中均达到了最优的表现,但是该方法会花费更多的时间在推理阶段。ATSAL因为其是视频模型的原因,在图像上并没有突出的表现。
表2使用Salient360!作为输入,各种方法预测单张图像所需的时间
Figure BDA0003917695870000092
Figure BDA0003917695870000101
表2展现了不同模型推理速度之间的差距。为了比较的公平,所有计算均在Windows环境下的i5-9400 CPU中进行。因为更加复杂的解码器,本发明的模型所需的时间比Rethink稍长了一些(Rethink+使用了与我们方法相同的解码器,在指标上并没有更好)。而MV-SalGAN360和ATSAL由于需要投影以及多视角融合,导致推理时间较长。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.一种基于自监督学习的全景图像显著性预测方法,其特征在于,包括以下步骤:
S1、利用无标签ERP图像集训练编码器,包括以下子步骤:
S11、格式转换:将ERP图像投影到球面,得到CMP图像组Ci和标签Pi,i=1,…,6;
S12、对Ci进行随机打乱得到ci,并根据ci的原始位置对Pi进行更新得到代理任务的标签
Figure FDA0003917695860000011
S13、进行编码器训练,构建全局特征提取网络
Figure FDA0003917695860000012
与局部特征提取网络
Figure FDA0003917695860000013
并将全局特征和局部特征作为输入,通过特征融合学习这两者的特征,对全局特征提取网络的模型参数进行更新;
S2、进行解码器训练:解码器gθ
Figure FDA0003917695860000014
被构造用于预测最终的显著性结果
Figure FDA0003917695860000015
S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。
2.根据权利要求1所述的一种基于自监督学习的全景图像显著性预测方法,其特征在于,所述步骤S13中,全局特征提取网络
Figure FDA0003917695860000016
与局部特征提取网络
Figure FDA0003917695860000017
分别为:
Figure FDA0003917695860000018
Figure FDA0003917695860000019
其中FE是全局特征,
Figure FDA00039176958600000110
是局部特征,E表示ERP图像;->代表特征提取网路的推理过程,全局特征提取网络
Figure FDA00039176958600000111
与局部特征提取网络
Figure FDA00039176958600000112
均采用VGG16去掉尾部5层后的模型;
然后将得到的全局特征FE和局部特征
Figure FDA00039176958600000113
一起联合输入到特征融合网络;
所述特征融合网络包括特征变换和点乘操作两个部分:首先将FE
Figure FDA00039176958600000114
经过两个权重不共享的全连接层得到rE
Figure FDA00039176958600000115
然后通过下面的方程进行变换:
QE=rEWQ
Figure FDA00039176958600000116
Figure FDA00039176958600000117
其中WQ、WV和WK是三类特征不共享的权重,QE
Figure FDA00039176958600000118
Figure FDA00039176958600000119
分别代表着Query、Value和Key;
然后利用点乘操作对所得到的特征进行融合:
Figure FDA00039176958600000120
其中CAi为特征融合后的结果,ReLU为激活函数,
Figure FDA00039176958600000121
表示函数嵌套运算符;
得到的CAi被用于最终的位置预测:
Figure FDA0003917695860000021
Figure FDA0003917695860000022
通过下方的损失函数进行训练:
Figure FDA0003917695860000023
由损失函数计算预测值和标签值之间的差异,然后根据该差异进行梯度回传并根据梯度更新
Figure FDA0003917695860000024
模型中的参数,遍历无标签ERP图像集100次后停止,得到全局特征提取网络
Figure FDA0003917695860000025
3.根据权利要求1所述的一种基于自监督学习的全景图像显著性预测方法,其特征在于,所述步骤S2具体实现方法为:
显著性图像获取:以头部和眼部运动的记录文件作为解码器的训练集;首先建立一个与训练集中图像大小相同的零矩阵,头部和眼部的记录文件中会记录下不同的视点位置,如果某个点在文件中被记录了,则在矩阵中标记为1;根据记录位置,采用以下的方法对该零矩阵进行更新:
Figure FDA0003917695860000026
Sij就是视点图;而视点图因其稀疏矩阵的特性,训练难度较大,因此进行下方的处理:
Figure FDA0003917695860000027
其中G是膨胀角为5°的高斯核,SE表示由Sij构成的矩阵;
进行如下更新:
Figure FDA0003917695860000028
其中,T代表着从ERP转换成为CMP的过程,Tback代表从CMP转换为ERP的过程;
损失函数:根据显著性图像大多数区域都为0的特性,选择以下损失函数来对解码器模型进行训练:
Figure FDA0003917695860000029
Figure FDA00039176958600000210
是预测分布,
Figure FDA00039176958600000211
是真实分布,ε是为了防止预测值过于接近0而导致损失趋向无穷所设定的一个常量,WE、HE分别为图像的宽度和高度;
由损失函数计算预测值和标签值之间的差异,然后根据该差异进行梯度回传并根据梯度更新模型中的参数,遍历训练集一百次后停止,得到解码器gθ
CN202211344155.8A 2022-10-31 2022-10-31 一种基于自监督学习的全景图像显著性预测方法 Pending CN115631121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211344155.8A CN115631121A (zh) 2022-10-31 2022-10-31 一种基于自监督学习的全景图像显著性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211344155.8A CN115631121A (zh) 2022-10-31 2022-10-31 一种基于自监督学习的全景图像显著性预测方法

Publications (1)

Publication Number Publication Date
CN115631121A true CN115631121A (zh) 2023-01-20

Family

ID=84908905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211344155.8A Pending CN115631121A (zh) 2022-10-31 2022-10-31 一种基于自监督学习的全景图像显著性预测方法

Country Status (1)

Country Link
CN (1) CN115631121A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116319714A (zh) * 2023-05-24 2023-06-23 北京邮电大学 基于模态转换的联邦学习方法及相关设备
CN117036154A (zh) * 2023-08-17 2023-11-10 中国石油大学(华东) 一种无头显和无失真的全景视频注视点预测方法
CN117319610A (zh) * 2023-11-28 2023-12-29 松立控股集团股份有限公司 基于高位全景相机区域增强的智慧城市道路监控方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116319714A (zh) * 2023-05-24 2023-06-23 北京邮电大学 基于模态转换的联邦学习方法及相关设备
CN116319714B (zh) * 2023-05-24 2023-07-21 北京邮电大学 基于模态转换的联邦学习方法及相关设备
CN117036154A (zh) * 2023-08-17 2023-11-10 中国石油大学(华东) 一种无头显和无失真的全景视频注视点预测方法
CN117036154B (zh) * 2023-08-17 2024-02-02 中国石油大学(华东) 一种无头显和无失真的全景视频注视点预测方法
CN117319610A (zh) * 2023-11-28 2023-12-29 松立控股集团股份有限公司 基于高位全景相机区域增强的智慧城市道路监控方法
CN117319610B (zh) * 2023-11-28 2024-01-30 松立控股集团股份有限公司 基于高位全景相机区域增强的智慧城市道路监控方法

Similar Documents

Publication Publication Date Title
Bagautdinov et al. Modeling facial geometry using compositional vaes
Tang et al. Single-camera and inter-camera vehicle tracking and 3D speed estimation based on fusion of visual and semantic features
Ke et al. Multi-dimensional traffic congestion detection based on fusion of visual features and convolutional neural network
CN109410168B (zh) 用于确定图像中的子图块类别的卷积神经网络的建模方法
CN115631121A (zh) 一种基于自监督学习的全景图像显著性预测方法
Cui et al. 3D semantic map construction using improved ORB-SLAM2 for mobile robot in edge computing environment
CN113139479B (zh) 一种基于光流和rgb模态对比学习的微表情识别方法及系统
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
Bešić et al. Dynamic object removal and spatio-temporal RGB-D inpainting via geometry-aware adversarial learning
CN110827304B (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统
Wan et al. Face image reflection removal
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
Zhou et al. Cross-weather image alignment via latent generative model with intensity consistency
Zhang et al. DuGAN: An effective framework for underwater image enhancement
Babu et al. An efficient image dahazing using Googlenet based convolution neural networks
Li et al. Two‐stage single image dehazing network using swin‐transformer
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
Zheng et al. Overwater image dehazing via cycle-consistent generative adversarial network
Jiang et al. Pseudo‐Siamese residual atrous pyramid network for multi‐focus image fusion
CN116934820A (zh) 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统
CN109064444B (zh) 基于显著性分析的轨道板病害检测方法
CN110910497A (zh) 实现增强现实地图的方法和系统
Zhang et al. Research on the algorithm of license plate recognition based on MPGAN Haze Weather
Zhang et al. Pose-Free Neural Radiance Fields via Implicit Pose Regularization
Šarić et al. Dense semantic forecasting in video by joint regression of features and feature motion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination