CN115631121A - 一种基于自监督学习的全景图像显著性预测方法 - Google Patents
一种基于自监督学习的全景图像显著性预测方法 Download PDFInfo
- Publication number
- CN115631121A CN115631121A CN202211344155.8A CN202211344155A CN115631121A CN 115631121 A CN115631121 A CN 115631121A CN 202211344155 A CN202211344155 A CN 202211344155A CN 115631121 A CN115631121 A CN 115631121A
- Authority
- CN
- China
- Prior art keywords
- image
- feature extraction
- training
- extraction network
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000004424 eye movement Effects 0.000 claims description 3
- 230000004886 head movement Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000005755 formation reaction Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- HUPFGZXOMWLGNK-UHFFFAOYSA-N diflunisal Chemical compound C1=C(O)C(C(=O)O)=CC(C=2C(=CC(F)=CC=2)F)=C1 HUPFGZXOMWLGNK-UHFFFAOYSA-N 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自监督学习的全景图像显著性预测方法,包括以下步骤:S1、利用无标签ERP图像集训练编码器,包括以下子步骤:S11、将ERP图像投影到球面,得到图像组Ci和标签Pi;S12、对Ci进行随机打乱;S13、进行编码器训练,构建全局特征提取网络与局部特征提取网络,并通过特征融合学习这两者的特征,对全局特征提取网络的模型参数进行更新;S2、进行解码器训练;S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。本发明利用大量未标签的全景图像,对显著性模型中的编码器进行针对性训练,缓解显著性标签缺少所带来模型表现不佳的现象。
Description
技术领域
本发明属于图像处理技术领域,特别涉及一种基于自监督学习的全景图像显著性预测方法。
背景技术
元宇宙产业的发展带动了全景图像的制造和消费。相较于传统的2D图像,全景图像可以为用户提供全视野的景象,带来沉浸式的体验。但由于人类的视野范围有限,导致传输过来的全景信息只有一小部分能被实际使用到,造成了码率上的浪费。而显著性图像中的亮斑代表着用户可能观看的区域,使得我们可以根据显著性图像进行码率分配,到达节省码率的目的。在深度学习网络被应用于显著性预测之前,研究者将图片进行分割,根据手工设计的特征来模拟人类视觉注意机制。而深度学习网络通过对标签图像进行学习,选择出更为适合显著性预测的特征,获得了更为精确且鲁棒的结果。
现阶段大多数的预测方法都关注于2D图像,较长的研究周期使得2D显著性预测模型和数据集更为完善。但是由于将全景图像投影到平面后,势必会带来的几何扭曲,导致了直接将2D模型应用到全景图像中的效果并不理想。并且由于发展的时间较短,全景图像的显著性标签极为有限,在不使用2D模型以及数据集辅助的情况下,模型很难选择出适合全景显著性预测的特征,来获得较好的结果。所以部分方法通过将全景图像投影成扭曲程度较小的小视野图像,通过2D模型进行预测得到结果后进行多视角融合,得到最终的预测结果。这类方法虽然拥有较高的准确度,但由于预测面数较多以及投影需要耗费较多的时间,使得实时预测变得困难。
公开号为CN14998310A的专利申请公开了一种基于图像处理的显著性检测方法及系统,首先获取预处理图像对应的滤波图像和HSV图像;基于滤波图像和HSV图像的各通道分量图像,获取各通道分量图像的多个超像素块及各超像素块的通道等级分布,由超像素块之间通道等级分布的差异性和超像素块之间中心点距离得到目标特征指标;由超像素块和目标特征指标建立显著性指标模型,得到第一显著指标值,修正各超像素块的第一显著指标值得到第二显著指标值;融合各通道分量图像的第二显著指标值得到超像素块的目标显著指标值。通过计算各通道分量图像各区域的显著指标值实现增强处理,完成对预处理图像中显著区域的检测提取,提高了检测精度和效率。该方法设计了两个不同的手工特征,来模拟人类注意力机制,由于我们对于该机制的了解有限,导致仅仅通过手工特征来对显著性区域进行检测会在某些场景下有着较为明显的精度下降,并且全景图像所拥有的几何扭曲会导致针对平面设计的特征失效。
公开号为CN107274419A的专利申请公开了一种基于全局先验和局部上下文的深度学习显著性检测方法,首先对彩色图像和深度图像进行超像素分割,基于每个超像素的紧凑性、独特性和背景性等中层特征,获得每个超像素的全局先验特征图,并进一步通过深度学习模型,得到全局先验显著图;然后,结合全局先验显著图和彩色图像与深度图像中的局部上下文信息,通过深度学习模型,得到初始显著图;最后,依据空间一致性和外观相似性优化初始显著图,得到最终显著图。应用本发明,解决了传统显著性检测方法无法有效检测到复杂背景图像中的显著物体,还解决了现有的基于深度学习的显著性检测方法由于提取出的高层特征存在噪声而导致误检的问题。该方案在传统方法的基础上使用卷积神经网络对显著性特征进行提取,并且采用了不同的输入来保证所提取的特征的完整性,虽然有效的提升了预测的鲁棒性,但是其多种模型叠加的结构势必会导致误差的积累,从而使得精度下降,并且全景图像投影图在不同纬度中像素的长度并不相同,导致针对超像素的设计失效。
公开号为CN107346436A的专利申请公开了一种融合图像分类的视觉显著性检测方法,包括:利用包括图像编码网络、图像解码网络和图像辨识网络的视觉显著性检测模型,采用多尺度图像作为图像编码网络的输入,提取多分辨率下图像的特征作为编码特征向量F;固定所述图像编码网络中除最后两层外的权值,训练网络参数,得到原图像的视觉显著图;将F作为所述的图像解码网络的输入,对原图像对应的显著图做归一化处理;对图像解码网络输入F,通过上采样层和非线性sigmoid层最终得到生成的视觉显著图;利用图像辨识网络以原图像的视觉显著图和生成的视觉显著图作为输入,采用小卷积核的卷积层提取特征并池化处理,最后采用三个全连接层输出生成图的概率分布和分类标签的概率分布。实现了快速有效地对图像进行分析并做出判断的目的,在图像标注、监督和行为预测等实践中获得了节约人力物力成本、显著提高准确性等良好效果。该方案以多尺度图像为输入,采用卷积神经网络对多尺度特征进行提取,并且使用卷积神经网络对得到的特征进行解码,使得模型可以端到端的学习,但是模型并没有根据显著性进行特定的设计,导致模型精度有待提升,且直接将平面模型应用于全景图像会导致精度下降。
发明内容
本发明的目的在于克服现有技术的不足,提供一种利用大量未标签的全景图像,对显著性模型中的编码器进行针对性训练,缓解显著性标签缺少所带来模型表现不佳的现象,并且在编码器训练过程中进行了全局与局部信息的融合,使得编码器可以学习到视野不同图像的特征的基于自监督学习的全景图像显著性预测方法。
本发明的目的是通过以下技术方案来实现的:一种基于自监督学习的全景图像显著性预测方法,包括以下步骤:
S1、利用无标签ERP图像集训练编码器,包括以下子步骤:
S11、格式转换:将ERP图像投影到球面,得到CMP图像组Ci和标签Pi,i=1,…,6;
S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。
QE=rEWQ
然后利用点乘操作对所得到的特征进行融合:
得到的CAi被用于最终的位置预测:
显著性图像获取:以头部和眼部运动的记录文件作为解码器的训练集;首先建立一个与训练集中图像大小相同的零矩阵,头部和眼部的记录文件中会记录下不同的视点位置,如果某个点在文件中被记录了,则在矩阵中标记为1;根据记录位置,采用以下的方法对该零矩阵进行更新:
Sij就是视点图;而视点图因其稀疏矩阵的特性,训练难度较大,因此进行下方的处理:
其中G是膨胀角为5°的高斯核,SE表示由Sij构成的矩阵;
进行如下更新:
其中,T代表着从ERP转换成为CMP的过程,Tback代表从CMP转换为ERP的过程;
损失函数:根据显著性图像大多数区域都为0的特性,选择以下损失函数来对解码器模型进行训练:
由损失函数计算预测值和标签值之间的差异,然后根据该差异进行梯度回传并根据梯度更新模型中的参数,遍历训练集一百次后停止,得到解码器gθ。
本发明的有益效果是:利用大量未标签的全景图像,对显著性模型中的编码器进行针对性训练,缓解显著性标签缺少所带来模型表现不佳的现象。并且在编码器训练过程中,进行了全局与局部信息的融合,使得编码器可以学习到视野不同图像的特征。确保预测阶段,可以仅使用一张ERP图像就可以得到高质量的预测结果。
附图说明
图1为本发明的基于自监督学习的全景图像显著性预测的流程图;
图2为本发明基于CMP和ERP的视点转换图。
具体实施方式
缩略语和关键术语定义:
ERP(Equi-Rectangular Projection):等距柱状投影,一种将球面信息映射到单一平面的投影方法。
CMP(Cube Map Projection):立方体映射投影,一种将球面置于立方体中,并映射到六个独立面的投影方法。
ROC(Receiver Operating characteristic Curve):受试者工作特征曲线,通过将分类结果映射成平面上的一个点,并通过点的位置来判断分类器的好坏。
NSS(Normalized Scanpath Saliency):标准化扫描路径显着性,用于衡量显著性图像与视点图之间的差异性。
KLD(Kullback-Leibler Divergence):KL散度,衡量两个概率分布的差异。
SIM(Similarity):相似性,衡量两个分布之间的相似程度。
CC(Linear Correlation):皮尔逊相关系数,用于衡量图像之间的线性相关程度。
AUC-J(Area Under ROC Curve-Judd):ROC曲线下面积的变体,通过给定不同的阈值得得到真阳性以及假阳性的值,来绘制ROC上的点,并计算曲面下的面积用于衡量分类器的准确度。
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于自监督学习的全景图像显著性预测方法,包括以下步骤:
S1、利用无标签ERP图像集训练编码器,包括以下子步骤:
S11、格式转换:将ERP图像投影到球面,不旋转球面的情况下,由该球面映射出的CMP面在ERP上的位置是固定的;利用这一特性,把ERP(E)图像进行格式转换得到CMP图像组Ci和标签Pi,i=1,…,6;在输入Ci和ERP的情况下,模型可以通过预测Ci的位置信息Pi来进行训练;
具体训练过程为:编码器以全局和局部信息作为输入并通过特征融合学习这两者的特征;为了提取出两类拥有不同视野图像,更好的对代理任务进行学习,需要设定全局特征提取网络与局部特征提取网络;虽然局部网络一次只能接受单个CMP面,但为了缩小其与全局网络之间的信息差,我们选择将所有的CMP面在一次训练过程中都输入,以帮构建隐式的全局信息,在特征融合时帮助全局编码器更好的学习局部特征。
其中FE是全局特征,是局部特征,E表示ERP图像;->代表特征提取网路的推理过程,全局特征提取网络与局部特征提取网络均采用VGG16去掉尾部5层后的模型;VGG16网络为本领域常用的网络,具体结构可参考《Simonyan K,Zisserman A.Very DeepConvolutional Networks for Large-Scale Image Recognition[J].arXiv e-prints,2014》。
QE=rEWQ
然后利用点乘操作对所得到的特征进行融合:
其中CAi为特征融合后的结果,ReLU为激活函数,表示函数嵌套运算符;可以看见在上述过程中,本发明选择了ReLU而非原始的softmax作为激活函数。采用softmax意味着QE需要和每个都进行交互,这会导致模型会过多的关注于由所得到的特征,这与想要训练的目的不符。
得到的CAi被用于最终的位置预测:
本实施例中使用的无标签ERP图像集来源为《Djilali Y,Krishna T,McguinnessK,et al.Rethinking 360deg Image Visual Attention Modelling With UnsupervisedLearning.[C]//International Conference on Computer Vision.2021》中的无标签ERP图像。
S2、进行解码器训练:在完成了编码器的训练后,解码器gθ:被构造用于预测最终的显著性结果gθ基于《Pan J,Canton C,Mcguinness K,et al.SalGAN:VisualSaliency Prediction with Generative Adversarial Networks[J].2017》中结构,采用了U型结构的网络,帮助解码器拥有更大的感受野,以便模拟人类在观看图像时的视野范围以对显著性区域进行更好的判断。
显著性图像获取:利用《Xu Y,Dong Y,Wu J,et al.Gaze Prediction in Dynamic360°Immersive Videos[C]//2018IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2018》数据集中所提供的头部和眼部运动的记录文件作为解码器的训练集。首先建立一个与训练集中图像大小相同的零矩阵,头部和眼部的记录文件中会记录下不同的视点位置,如果某个点在文件中被记录了,则在矩阵中标记为1;根据记录位置,采用以下的方法对该零矩阵进行更新:
Sij就是视点图;而视点图因其稀疏矩阵的特性,训练难度较大,因此进行下方的处理:
其中G是膨胀角为5°的高斯核,SE表示由Sij构成的矩阵;使用这种方法就意味着在ERP上的每个点都被平等的对待,而ERP在不同的纬度上有着不同的像素密度,这就导致了这样得到的显著性图像和真实图像有着较大的差距。为了缓解这一问题,将方法进行如下更新:
其中,T代表着从ERP转换成为CMP的过程,Tback代表从CMP转换为ERP的过程;CMP由于在投影时使用了更多的面,导致其扭曲程度更小,更贴近真实视野中的图像。我们在保证高斯核不改变的情况下,使用CMP进行转换,得到了如图2中第二列中的结果(图2中,每个图像右侧的方形图为左侧小方块内图像的放大图)。可以看见在图2(b)和(c)之间的对比中,基于CMP的转换方法更加倾向于忽略纬度较高区域中的视点。与图2中的ERP格式的图像不同,实际情况中,高纬度区域的视点分布会更加集中。而在基于ERP转换的显著性图中,显然将这些距离相近的点转对待成了赤道附近较为分散的视点。
损失函数:根据显著性图像大多数区域都为0的特性,选择以下损失函数来对解码器模型进行训练:
由损失函数计算预测值和标签值之间的差异,然后根据该差异进行梯度回传并根据梯度更新模型中的参数,遍历训练集一百次后停止,得到解码器gθ;使用KLD损失可以帮助模型关注于预测值与真实值差距较大的区域,更加贴合显著性的使用需求。
S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。
实验测试结果:使用AUC-J,NSS,CC,SIM和KLD来评估本发明的网络的性能,与UNISAL(《Droste R,Jiao J,Noble J A.Unified Image and Video Saliency Modeling[J].2020》)、SalGAN(《Pan J,Canton C,Mcguinness K,et al.SalGAN:Visual SaliencyPrediction with Generative Adversarial Networks[J].2017》)、SaltiNet(《Marc A,Xavier G,Kevin M G,et al.Scanpath and saliency prediction on 360degree images[J].Signal Processing:Image Communication,2018,69:8-14》)、MV-SalGAN360(《Chao FY,Zhang L,Hamidouche W,et al.A Multi-FoV Viewport-Based Visual Saliency ModelUsing Adaptive Weighting Losses for 360$^circ$Images[J].Institute ofElectrical and Electronics Engineers(IEEE),2021》)、ATSAL(《Dahou Y,Tliba M,Mcguinness K,et al.ATSal:An Attention Based Architecture for SaliencyPrediction in 360Videos[J].2020》)、Rethink(《Djilali Y,Krishna T,Mcguinness K,et al.Rethinking 360deg Image Visual Attention Modelling With UnsupervisedLearning.[C]//International Conference on Computer Vision.2021》)进行了指标上的评估,并且与其中五个方法比较了推理速度。
表1在Salient360!上的表现比较
表1给出了在Salient360!数据集((《Gutierrez J,David E J,Coutrot A,etal.Introducing UN Salient360!Benchmark:A platform for evaluating visualattention models for 360°contents[C]//2018Tenth International Conference onQuality of Multimedia Experience(QoMEX).2018》))中25张图在5个指标下的平均表现。表中,↑表示该指标数据越大效果越好,↓表示该指标数据越小效果越好。可以看出,本发明的模型在SIM和KLD上优于其他模型,这两个指标衡量了分布之间的相似程度,而其他方法会把非显著性区域进行错误的分类,造成表现的不佳。并且在与自监督模型的比较中,本发明的模型在所有的指标上均有提升。在与直接预测模型的比较中,除NSS(倾向于忽略假阳性)外我们的模型均达到了相近或者更高的指标。MV-SalGAN360由于其多视角融合的方法,在前三个指标中均达到了最优的表现,但是该方法会花费更多的时间在推理阶段。ATSAL因为其是视频模型的原因,在图像上并没有突出的表现。
表2使用Salient360!作为输入,各种方法预测单张图像所需的时间
表2展现了不同模型推理速度之间的差距。为了比较的公平,所有计算均在Windows环境下的i5-9400 CPU中进行。因为更加复杂的解码器,本发明的模型所需的时间比Rethink稍长了一些(Rethink+使用了与我们方法相同的解码器,在指标上并没有更好)。而MV-SalGAN360和ATSAL由于需要投影以及多视角融合,导致推理时间较长。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (3)
1.一种基于自监督学习的全景图像显著性预测方法,其特征在于,包括以下步骤:
S1、利用无标签ERP图像集训练编码器,包括以下子步骤:
S11、格式转换:将ERP图像投影到球面,得到CMP图像组Ci和标签Pi,i=1,…,6;
S3、将待识别的全景图像输入训练好的编码器中进行特征提取,然后将提取的特征输入解码器中,得到最终的显著性预测。
QE=rEWQ
然后利用点乘操作对所得到的特征进行融合:
得到的CAi被用于最终的位置预测:
3.根据权利要求1所述的一种基于自监督学习的全景图像显著性预测方法,其特征在于,所述步骤S2具体实现方法为:
显著性图像获取:以头部和眼部运动的记录文件作为解码器的训练集;首先建立一个与训练集中图像大小相同的零矩阵,头部和眼部的记录文件中会记录下不同的视点位置,如果某个点在文件中被记录了,则在矩阵中标记为1;根据记录位置,采用以下的方法对该零矩阵进行更新:
Sij就是视点图;而视点图因其稀疏矩阵的特性,训练难度较大,因此进行下方的处理:
其中G是膨胀角为5°的高斯核,SE表示由Sij构成的矩阵;
进行如下更新:
其中,T代表着从ERP转换成为CMP的过程,Tback代表从CMP转换为ERP的过程;
损失函数:根据显著性图像大多数区域都为0的特性,选择以下损失函数来对解码器模型进行训练:
由损失函数计算预测值和标签值之间的差异,然后根据该差异进行梯度回传并根据梯度更新模型中的参数,遍历训练集一百次后停止,得到解码器gθ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211344155.8A CN115631121A (zh) | 2022-10-31 | 2022-10-31 | 一种基于自监督学习的全景图像显著性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211344155.8A CN115631121A (zh) | 2022-10-31 | 2022-10-31 | 一种基于自监督学习的全景图像显著性预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115631121A true CN115631121A (zh) | 2023-01-20 |
Family
ID=84908905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211344155.8A Pending CN115631121A (zh) | 2022-10-31 | 2022-10-31 | 一种基于自监督学习的全景图像显著性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631121A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116319714A (zh) * | 2023-05-24 | 2023-06-23 | 北京邮电大学 | 基于模态转换的联邦学习方法及相关设备 |
CN117036154A (zh) * | 2023-08-17 | 2023-11-10 | 中国石油大学(华东) | 一种无头显和无失真的全景视频注视点预测方法 |
CN117319610A (zh) * | 2023-11-28 | 2023-12-29 | 松立控股集团股份有限公司 | 基于高位全景相机区域增强的智慧城市道路监控方法 |
-
2022
- 2022-10-31 CN CN202211344155.8A patent/CN115631121A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116319714A (zh) * | 2023-05-24 | 2023-06-23 | 北京邮电大学 | 基于模态转换的联邦学习方法及相关设备 |
CN116319714B (zh) * | 2023-05-24 | 2023-07-21 | 北京邮电大学 | 基于模态转换的联邦学习方法及相关设备 |
CN117036154A (zh) * | 2023-08-17 | 2023-11-10 | 中国石油大学(华东) | 一种无头显和无失真的全景视频注视点预测方法 |
CN117036154B (zh) * | 2023-08-17 | 2024-02-02 | 中国石油大学(华东) | 一种无头显和无失真的全景视频注视点预测方法 |
CN117319610A (zh) * | 2023-11-28 | 2023-12-29 | 松立控股集团股份有限公司 | 基于高位全景相机区域增强的智慧城市道路监控方法 |
CN117319610B (zh) * | 2023-11-28 | 2024-01-30 | 松立控股集团股份有限公司 | 基于高位全景相机区域增强的智慧城市道路监控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bagautdinov et al. | Modeling facial geometry using compositional vaes | |
Tang et al. | Single-camera and inter-camera vehicle tracking and 3D speed estimation based on fusion of visual and semantic features | |
Ke et al. | Multi-dimensional traffic congestion detection based on fusion of visual features and convolutional neural network | |
CN109410168B (zh) | 用于确定图像中的子图块类别的卷积神经网络的建模方法 | |
CN115631121A (zh) | 一种基于自监督学习的全景图像显著性预测方法 | |
Cui et al. | 3D semantic map construction using improved ORB-SLAM2 for mobile robot in edge computing environment | |
CN113139479B (zh) | 一种基于光流和rgb模态对比学习的微表情识别方法及系统 | |
CN112784736B (zh) | 一种多模态特征融合的人物交互行为识别方法 | |
Bešić et al. | Dynamic object removal and spatio-temporal RGB-D inpainting via geometry-aware adversarial learning | |
CN110827304B (zh) | 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统 | |
Wan et al. | Face image reflection removal | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
Zhou et al. | Cross-weather image alignment via latent generative model with intensity consistency | |
Zhang et al. | DuGAN: An effective framework for underwater image enhancement | |
Babu et al. | An efficient image dahazing using Googlenet based convolution neural networks | |
Li et al. | Two‐stage single image dehazing network using swin‐transformer | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
Zheng et al. | Overwater image dehazing via cycle-consistent generative adversarial network | |
Jiang et al. | Pseudo‐Siamese residual atrous pyramid network for multi‐focus image fusion | |
CN116934820A (zh) | 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统 | |
CN109064444B (zh) | 基于显著性分析的轨道板病害检测方法 | |
CN110910497A (zh) | 实现增强现实地图的方法和系统 | |
Zhang et al. | Research on the algorithm of license plate recognition based on MPGAN Haze Weather | |
Zhang et al. | Pose-Free Neural Radiance Fields via Implicit Pose Regularization | |
Šarić et al. | Dense semantic forecasting in video by joint regression of features and feature motion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |