CN113947524A - 基于全卷积图神经网络的全景图片显著性预测方法及设备 - Google Patents
基于全卷积图神经网络的全景图片显著性预测方法及设备 Download PDFInfo
- Publication number
- CN113947524A CN113947524A CN202111230705.9A CN202111230705A CN113947524A CN 113947524 A CN113947524 A CN 113947524A CN 202111230705 A CN202111230705 A CN 202111230705A CN 113947524 A CN113947524 A CN 113947524A
- Authority
- CN
- China
- Prior art keywords
- convolution
- input
- graph
- output
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 45
- 238000011176 pooling Methods 0.000 claims abstract description 110
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 230000001131 transforming effect Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000010339 dilation Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000008961 swelling Effects 0.000 claims description 6
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000153928 Aegyriana oliva Species 0.000 description 1
- 241001147107 Chanos Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/08—Projecting images onto non-planar surfaces, e.g. geodetic screens
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于全卷积图神经网络的全景图片显著性预测方法及设备,包括:将平面全景图像映射成为球面的图数据;将所述球面的图数据输入到全卷积图神经网络进行显著性预测,得到球面显著性图数据;将所述球面显著性图数据变换到平面上,得到平面的全景显著性图像。进一步的,本发明全卷积图神经网络基于残差U形网络结构,在底部采用了膨胀图卷积和注意力机制。此外,本发明使用了一种新的全卷积层,用于球面图空间中的图池化和反池化操作,以保留节点到节点的特征。本发明提出的方法在大规模数据集上优于其他较为先进的显著性预测模型。
Description
技术领域
本发明涉及图像显著性预测技术领域,具体地,涉及一种基于图的全卷积网络的全景图像显著性预测方法及设备。
背景技术
全景媒体内容能给观众带来身临其境的观看体验,广泛应用于虚拟现实、自动驾驶等领域。通过显著性预测算法,可以估计出全景内容中更容易引起注意的区域,进而降低其他区域的渲染级别,提高传输性能。
对于二维平面图像,显著性预测算法得到了广泛的研究,通常可分为自顶向下和自下而上两种框架。然而,由于非欧几里德几何特性,这些算法通常不再直接适用于全景媒体内容。因为全景视觉内容经过了等矩形投影产生了扭曲,它们的结果是不准确的。
因此,现有的全景显著性预测方法有两种趋势,一种是通过将全景图像映射到多个局部平面视图来扩展现有的2D显著性预测算法,如Lebreton等人在《P.Lebreton andA.Raake,“Gbvs360,bms360,prosal:Extending existing saliency prediction modelsfrom 2d to omnidirectional images,”Signal Processing:Image Communication,vol.69,pp.69–78,2018.》提出的GBVS360和BMS360,Chao等人在《F.-Y.Chao,L.Zhang,W.Hamidouche,and O.Deforges,“Salgan360:Visual saliency prediction on360degree images with generative adversarial networks,”in IEEE InternationalConference on Multimedia&Expo Workshops,pp.01–04,IEEE,2018.》提出的Salgan360。这些算法需要在多个平面上重复应用显著性预测算法,计算复杂度高。此外,同一对象的不同区域可能出现在不同的局部视窗中,并且在融合多个结果时存在边界不连续性。最近,Xu等人在《M.Xu,L.Yang,X.Tao,Y.Duan,and Z.Wang,“Saliency prediction onomnidirectional image with generative adversarial imitation learning,”IEEETransactions on Image Processing,vol.30,pp.2087–2102,2021.》提出了一种多流深度强化学习模型SalGAIL,该模型通过模仿人的头部轨迹来学习奖励。但是,它仍然需要每次提取30个视窗的特征。
另一个趋势是定义其他形式的卷积。其中,Khasanova等人在《R.Khasanova andP.Frossard,“Graph-based classification of omnidirectional images,”inProceedings of the IEEE International Conference on Computer VisionWorkshops,pp.869–878,2017.》设计了球面上的图结构,并应用谱域图卷积学习旋转不变特征。Cohen等人在《T.S.Cohen,M.Geiger,J.K¨ohler,and M.Welling,“Spherical cnns,”in International Conference on Learning Representations,2018.》提出了SphericalCNNs使用球面相关性将特征映射转换到谱域并使用谱域卷积。Lv等人在《H.Lv,Q.Yang,C.Li,W.Dai,J.Zou,and H.Xiong,“Salgcn:Saliency prediction for 360-degreeimages based on spherical graph convolutional networks,”in Proceedings of ACMInternational Conference on Multimedia,pp.682–690,2020.》提出的SalGCN使用了基于正二十面体像素化的图形信号构造方法和切比雪夫多项式滤波器。然而,由于去除了带有语义的方向信息,这些方法在全景图像上的准确性有限。
发明内容
针对上述现有技术中存在的上述不足,本发明的目的是提供一种基于全卷积图神经网络的全景图片显著性预测方法及设备,可以合理地将全景图像像素映射到球面图数据结构进行表示,从而提高全景图片显著性预测的准确性。
本发明的第一方面,提供一种基于全卷积图神经网络的全景图片显著性预测方法,包括:
将平面全景图像映射成为球面的图数据;
将所述球面的图数据输入到全卷积图神经网络进行显著性预测,得到球面显著性图数据;
将所述球面显著性图数据变换到平面上,得到平面的全景显著性图像。
可选地,所述将平面全景图像映射成为球面的图数据,包括:
将平面图像映射到球面全景图像;
在所述球面全景图像上采样,得到均匀分布的顶点,每个顶点都有来自所述球面全景图像上相应像素的RGB颜色值作为其特征;构造所述球面全景图像上每个顶点和K个相邻点之间的带有自循环的边,最终得到球面的图数据,其中每个顶点有3个特征和K条边。
可选地,所述全卷积图神经网络结构,为一个U形图神经网络结构,该U形图神经网络结构包括:
在底部设置膨胀图卷积和注意力机制;和/或,
全卷积层,用于球面图空间中的图池化和反池化操作,以保留顶点到顶点的特征。
可选地,所述U形图神经网络结构,包括编码部、底部和解码部,其中:
所述编码部,包括第一TAG卷积层、第二TAG卷积层、第三TAG卷积层、第四TAG卷积层、第一全卷积图池化层、第二全卷积图池化层和第三全卷积图池化层,其中:
第一TAG卷积层输入为所述球面的图数据,
第二TAG卷积层:输入为第一TAG卷积层的输出;
第一全卷积图池化层:输入为第一TAG卷积层的输出与第二TAG卷积层的输出之和;
第三TAG卷积层:输入为第一全卷积图池化层的输出;
第二全卷积图池化层:输入为第一全卷积图池化层的输出与第三TAG卷积层的输出之和;
第四TAG卷积层:输入为第二全卷积图池化层的输出;
第三全卷积图池化层:输入为第二全卷积图池化层的输出与第四TAG卷积层的输出之和;
所述底部,包含依次串联的第一膨胀注意力块、第二膨胀注意力块和第三膨胀注意力块,其中:第一膨胀注意力块输入为所述编码部的输出,所述底部的输出为第三膨胀注意力块的输出;
所述解码部,包括第五TAG卷积层、第六TAG卷积层、第七TAG卷积层、第八TAG卷积层、第九TAG卷积层、第一全卷积图反池化层、第二全卷积图反池化层,第三全卷积反池化层,其中:
第一全卷积图反池化层:输入为所述底部的输出;
第五TAG卷积层:输入为第一全卷积图反池化层的输出与第三全卷积图池化层的输入的特征拼接;
第二全卷积图反池化层:输入为第五TAG卷积层的输入与第五TAG卷积层的输出之和;
第六TAG卷积层:输入为第二全卷积图反池化层的输出与第二全卷积图池化层的输入的特征拼接;
第三全卷积图反池化层:输入为第六TAG卷积层的输入与第六TAG卷积层的输出之和;
第七TAG卷积层:输入为第三全卷积图反池化层的输出与第一全卷积图池化层的输入的特征拼接;
第八TAG卷积层:输入为第七TAG卷积层的输入与第七TAG卷积层的输出之和;
第九TAG卷积层:输入为第八TAG卷积层的输出。
可选地,所述第二TAG卷积层~第九TAG卷积层,每个TAG卷积层被配置为:
可选地,所述第一全卷积图池化层~第三全卷积图池化层,其中全卷积图池化为:
设输入球面的图数据的旧顶点数为N,采样得到1/4N个新顶点的球面位置坐标,通过KNN算法构造球面图上每个新顶点和K个相邻旧顶点之间的带有自循环的边,这种边的方向为从旧顶点指向新顶点;
将球面的图数据的旧顶点特征与构建的边信息作为图卷积方法GCN的输入,得到1/4N个新顶点位置对应的输出特征,输入特征维度与输出特征维度均为GCN对应的可控参数。
可选地,所述第一膨胀注意力块~第三膨胀注意力块,其中每个膨胀注意力块被设置为:
对于输入的球面图数据,首先使用膨胀率为R的膨胀TAG卷积进行处理,再将膨胀TAG卷积的输入和输出相加作为图Transformer的输入,最后将图Transformer的输出作为TAG卷积的输入。
可选地,所述图Transformer的步骤为:
当头参数为H时,H不等于1时,将上述步骤进行H次,得到H个输出特征进行特征拼接,将H个Dout维特征合并为Dout×H维特征作为输出。
可选地,所述第一全卷积图反池化层~第三全卷积图反池化层,每个全卷积图反池化层被配置为:
设输入球面的图数据的旧顶点数为N,采样得到4N个新顶点的球面位置坐标,通过KNN算法来构造球面图上每个旧顶点和K个相邻新顶点之间的带有自循环的边,这种边的方向为从旧顶点指向新顶点;
将球面的图数据的旧顶点特征与构建的边信息作为图卷积方法GCN的输入,得到4N个新顶点位置对应的输出特征,输入特征维度与输出特征维度均为GCN对应的可控参数。
本发明的第二方面,提供一种全景图片显著性预测设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的基于全卷积图神经网络的全景图片显著性预测方法。
与现有技术相比,本发明实施例具有如下至少一种有益效果:
本发明提出的基于全卷积图神经网络的全景图片显著性预测方法和设备,是一种直观有效的将全景图像映射到球面图网络表示的方法,这样可以消除平面全景图像中的冗余部分,同时保留信息区域,可以合理地将全景图像像素映射到球面图数据结构进行表示。
本发明提出的基于全卷积图神经网络的全景图片显著性预测方法和设备,显著性预测网络基于残差U形神经网络结构,在底部采用了膨胀图卷积和注意力机制,以提高全景图像显著性预测的性能。
本发明提出的基于全卷积图神经网络的全景图片显著性预测方法和设备,采用全卷积层对球面图空间中的图池化和反池化操作,以保留顶点到顶点的特征,在全景显著性预测任务中引入了完全卷积图池化和反池化操作,有利于使端到端的像素级预测任务更准确。
实验结果表明,在大规模数据集上,本发明提出的方法优于其他先进的显著性模型。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中基于全卷积图神经网络的全景图片显著性预测方法的整体流程图;
图2为本发明一实施例中基于全卷积图神经网络的全景图片显著性预测网络示意图;
图3为本发明一实施例中膨胀注意力块的示意图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
全景图像的非欧几里德几何特征引起的畸变严重影响了全景图像的显著性预测。传统的基于卷积神经网络的平面图像显著性预测算法不再适用于全景图像。本发明实施例提出一种基于全卷积图神经网络的全景图片显著性预测方法,可以很好解决上述问题。
图1为本发明一实施例中基于全卷积图神经网络的全景图片显著性预测方法的整体流程图。参照图1所示,本实施例的基于全卷积图神经网络的全景图片显著性预测方法,包括如下步骤:
步骤1:将平面全景图像映射成为球面的图数据,具体采用对平面的全景图像进行I2G映射;
步骤2:将上一步得到的球面的图数据输入到全卷积图神经网络进行显著性预测,得到球面显著性图数据;
步骤3:将球面显著性图数据变换到平面上,得到平面的全景显著性图像;其中,对球面显著性图数据进行G2I插值将球面显著性图数据变换到平面上。
本实施例中将全景图像映射到球面图网络表示,这样可以消除平面全景图像中的冗余部分,同时保留信息区域,提高全景图像显著性预测的性能。
在一些实施例中,为了将平面全景图像映射成为球面的图数据,执行上述步骤3时,其中包括如下子步骤:
步骤1.1:将平面图像映射到球面全景图像,表达式为:
其中,x和y即为平面全景图像在直角坐标系中的二维坐标,λ是平面全景图像直角坐标系中点(x,y)投影到球面后的经度,是平面全景图像投影到球面后的纬度,是平面全景图像水平中轴线对应的纬度,此处取值为0,λ0是平面全景图像的中央子午线对应的经度;
步骤1.2:在球面全景图像上,采用得到几乎均匀分布的球面图的顶点,采样顶点的数量设置为像素数量的球面图的每个顶点都有来自球面全景图像上相应像素的RGB颜色值作为其特征。然后,通过KNN(K-Nearest Neighbor)算法来构造球面图上每个顶点和K个相邻点之间的带有自循环的边。通过此步骤,可以获得一个球面的图数据作为之后的输入,其中每个顶点有3个特征和K条边。此步骤中,采样可以采用现有技术实现,比如本领域公知的斐波那契网格采样方法。当然,也可以是其他采样方法。每个顶点都有来自所述球面全景图像上相应像素的RGB颜色值作为其特征,RGB值即为这3个特征。K的确定方法并不指定,可为任意正数,比如,一实施例中,K可以设定为9。
为了执行步骤2,对现有的显著性预测网络进行了改进,其中全卷积图神经网络基于残差U形神经网络结构,在部分实施例中,在底部采用了膨胀图卷积和注意力机制,以提高全景图像显著性预测的性能。在另一些实施例中,全卷积图神经网络中采用全卷积层对球面图空间中的图池化和反池化操作,以保留顶点到顶点的特征,在全景显著性预测任务中引入了完全卷积图池化和反池化操作,有利于使端到端的像素级预测任务更准确。上述膨胀图卷积和注意力机制、完全卷积图池化和反池化操作可以单独选择,优选两者同时存在。这样能得到更好的全景图像显著性预测的性能。
具体的,在一优选实施例中,全卷积图神经网络结构如图2所示,为一个4层的U形图神经网络结构,每一行为一层结构。U形网络结构是层层递进的关系,由上一层特征得到下一层特征,通常认为“池化层”和“反池化层”起到不同层之间的连接作用,同一层之间的图节点数量相同。具体的,U形图神经网络结构包括编码部、底部、解码部共3个子部分,以下各个子部分的详细结构和连接、操作说明如下。
具体的,在一实施例中,编码部、底部、解码部可以采用以下具体结构和参数:
(1)编码部
网络包括4个TAG卷积层和3个全卷积图池化层,分别命名为第一TAG卷积层、第二TAG卷积层、第三TAG卷积层、第四TAG卷积层、第一全卷积图池化层,第二全卷积图池化层,第三全卷积图池化层。其中各层特征如下:
第一TAG卷积层:输入为步骤1中得到的球面的图数据,输入特征维度为3,输出特征维度为32;
第二TAG卷积层:输入为第一TAG卷积层的输出,输入特征维度为32,输出特征维度为32;
第一全卷积图池化层:输入为第一TAG卷积层的输出与第二TAG卷积层的输出之和,输入特征维度为32,输出特征维度为64;
第三TAG卷积层:输入为第一全卷积图池化层的输出,输入特征维度为64,输出特征维度为64;
第二全卷积图池化层:输入为第一全卷积图池化层的输出与第三TAG卷积层的输出之和,输入特征维度为64,输出特征维度为128;
第四TAG卷积层:输入为第二全卷积图池化层的输出,输入特征维度为128,输出特征维度为128;
第三全卷积图池化层:输入为第二全卷积图池化层的输出与第四TAG卷积层的输出之和,输入特征维度为128,输出特征维度为256;
(2)底部
网络包含3个膨胀注意力块,分别命名为第一膨胀注意力块、第二膨胀注意力块、第三膨胀注意力块。其中各块特征如下:
第一膨胀注意力块:输入为编码部的输出,输入特征维度256,输出特征维度256,膨胀率为1;
第二膨胀注意力块:输入为第一膨胀注意力块的输出,输入特征维度256,输出特征维度256,膨胀率为2;
第三膨胀注意力块:输入为第二膨胀注意力块的输出,输入特征维度256,输出特征维度256,膨胀率为3。
(3)解码部
网络包括5个TAG卷积层和3个全卷积图反池化层,分别命名为第五TAG卷积层、第六TAG卷积层、第七TAG卷积层、第八TAG卷积层、第九TAG卷积层、第一全卷积图反池化层,第二全卷积图反池化层,第三全卷积反池化层。其中各层特征如下:
第一全卷积图反池化层:输入为底部的输出,输入特征维度为256,输出特征维度为128;
第五TAG卷积层:输入为第一全卷积图反池化层的输出与第三全卷积图池化层的输入的特征拼接,具体特征拼接方式为本领域公知的维度扩展方法,将两个128维特征合并为256维特征。输入特征维度为256,输出特征维度为256;
第二全卷积图反池化层:输入为第五TAG卷积层的输入与第五TAG卷积层的输出之和,输入特征维度为256,输出特征维度为64;
第六TAG卷积层:输入为第二全卷积图反池化层的输出与第二全卷积图池化层的输入的特征拼接,具体特征拼接方式为本领域公知的维度扩展方法,将两个64维特征合并为128维特征。输入特征维度为128,输出特征维度为128;
第三全卷积图反池化层:输入为第六TAG卷积层的输入与第六TAG卷积层的输出之和,输入特征维度为128,输出特征维度为32;
第七TAG卷积层:输入为第三全卷积图反池化层的输出与第一全卷积图池化层的输入的特征拼接,具体特征拼接方式为本领域公知的维度扩展方法,将两个32维特征合并为64维特征。输入特征维度为64,输出特征维度为64;
第八TAG卷积层:输入为第七TAG卷积层的输入与第七TAG卷积层的输出之和,输入特征维度为64,输出特征维度为32;
第九TAG卷积层:输入为第八TAG卷积层的输出,输入特征维度为32,输出特征维度为1,输出即为球面显著性图数据。
上述是一较优实施例中的全卷积图神经网络结构的详细说明,当然,以上全卷积图神经网络结构中具体输入、输出维度等参数可以根据需要进行调整,并不局限于上述的32、64等具体参数。采用上述全卷积图神经网络结构的实施例,可以提高全景图像显著性预测的性能,保留更多的图像特征,并利于使端到端的像素级预测任务更准确。通过上述的编码部和解码部的跳跃连接,能增强性能,减少深度学习中神经网络层数过多带来的负面效果。
在一些实施例中,对于上述的第一TAG卷积层~第九TAG卷积层,其每个TAG卷积层的TAG卷积(英文:Tiny Anisotropic Graph Convolution)操作,具体为:
上述实施例中,第一TAG卷积层~第九TAG卷积层,每个TAG卷积层的操作是一样的,只是输入顶点的特征维度和输出顶点的特征维度这两个参数不同。
在一些实施例中,上述的第一全卷积图池化层~第三全卷积图池化层,其中全卷积图池化(英文:Fully Convolutional Graph Pooling)具体操作如下:
(1)设输入球面图数据的旧顶点数为N,通过斐波那契网格采样得到1/4N个新顶点的球面位置坐标,通过KNN算法来构造球面图上每个新顶点和K个相邻旧顶点之间的带有自循环的边,这种边的方向为从旧顶点指向新顶点。
(2)将球面图数据的旧顶点特征与构建的边信息作为图卷积方法GCN(英文:GraphConvolutional Network)的输入,可以得到1/4N个新顶点位置对应的输出特征。输入特征维度与输出特征维度均为GCN对应的可控参数。
上述实施例对整个全卷积图池化进行说明,不同的全卷积图池化层只是定义中操作前后的顶点参数N有所不同。通过全卷积图池化的操作,可以对球面图空间中的池化操作,与球面图空间中的图反池化配合,可以保留节点到节点的特征,对于提高最终的预测结果的准确性提供条件。
如图3所示,在一些实施例中,上述的第一膨胀注意力块~第三膨胀注意力块,每个膨胀注意力块(英文:Dilated Attention Block)的具体操作,步骤为:
(1)对于输入的球面图数据,首先使用膨胀率为R的膨胀TAG卷积进行处理,输入与输出特征维度均为256。
(2)将膨胀TAG卷积的输入和输出相加作为图Transformer的输入,该图Transformer的输入维度为256,头H(英文:Head)为8,输出维度为2048。
(3)最后将图Transformer的输出作为TAG卷积的输入,输入维度为2048,输出维度为256。
上述实施例中,第一膨胀注意力块~第三膨胀注意力块中,“注意力机制”体现在膨胀TAG卷积中,其“膨胀”的含义为:相对于普通TAG卷积,其选取的邻点范围更大,所以称为“膨胀”。这样相对于普通TAG卷积,可以获得更大的范围的数据特征。当然,上述实施例中的参数仅是一个优选,在其他实施例中,也可以是其他的维数。
在一优选实施例中,上述的膨胀TAG卷积(英文:Dilated Tiny AnisotropicGraph Convolution)是将TAG卷积的“K个邻点”调整为“从最近的K×R个邻点中随机选取K个邻点”,邻点的获取方法可以采用现有技术,比如本领域公知的KNN算法。
进一步地,图Transformer(英文:Graph Transformer)的步骤为:
当头参数H设置为1时,对于每个顶点特征向量其邻接点特征向量的集合设为Ni={xi,0,xi,1,…,xi,K-1},则输出特征可表示为 其中softmax(·)是本领域公知的归一化指数函数,(·)T是矩阵转置操作,W1,W2,W3,W4均为可学习的矩阵。
当头参数为H时,H不等于1时,将上述步骤进行H次,得到H个输出特征进行特征拼接,具体特征拼接方式为本领域公知的维度扩展方法,将H个Dout维特征合并为Dout×H维特征作为输出。
在一些实施例中,第一全卷积图反池化层~第三全卷积图反池化层,其中全卷积图反池化(英文:Fully Convolutional Graph Unpooling)具体操作如下:
(1)设输入球面图数据的旧顶点数为N,通过斐波那契网格采样得到4N个新顶点的球面位置坐标,通过KNN算法来构造球面图上每个旧顶点和K个相邻新顶点之间的带有自循环的边,这种边的方向为从旧顶点指向新顶点;
(2)将球面图数据的旧顶点特征与构建的边信息作为图卷积方法GCN(英文:GraphConvolutional Network)的输入,可以得到4N个新顶点位置对应的输出特征。输入特征维度与输出特征维度均为GCN对应的可控参数。
上述实施例通过全卷积图反池化的操作,可以实现针对球面图空间中的反池化处理,与前面实施例中的球面图空间中的图池化配合,可以保留节点到节点的特征,对于提高最终的预测结果的准确性提供条件。
上述优选实施例中,显著性预测网络基于残差U形网络结构,在底部采用了膨胀图卷积和注意力机制。使用全卷积层对球面图空间中的图池化和反池化操作,以保留节点到节点的特征,使得整个方法在大规模数据集上优于其他现有较为先进的显著性预测模型。
基于上述的相同技术构思,本发明另一实施例中还提供一种全景图片显著性预测设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项实施例中的基于全卷积图神经网络的全景图片显著性预测方法。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
依据上述实施例的方法步骤,使用公开数据库的600张全景图像进行测试。所使用的数据集为Xu等人在《M.Xu,L.Yang,X.Tao,Y.Duan,and Z.Wang,“Saliency predictionon omnidirectional image with generative adversarial imitation learning,”IEEETransactions on Image Processing,vol.30,pp.2087–2102,2021.》上提出的AOI数据集,该数据集是最大的全景显著性数据集,包括4个类别、500个训练图像和100个测试图像。实施例在每个卷积层后使用了本领域公知的dropout方法,dropout比率为0.1,使用的优化器为Loshchilov等人在《I.Loshchilov and F.Hutter,“Decoupled weight decayregularization,”in International Conference on Learning Representations,2019.》提出的AdamW,学习率为0.00005。所有实验均在单个Nvidia RTX 3090GPU上进行。
为客观地比较了本发明与最先进的方法的性能,实施例选取了四个指标:Kullback-Leibler散度(KL)、线性相关系数(CC)、归一化扫描路径显著性(NSS)和接收器工作特征曲线下面积(AUC),这些指标均为该领域公知的客观评价指标(《Z.Bylinskii,T.Judd,A.Oliva,A.Torralba,and F.Durand,“What do different evaluation metricstell us about saliency models?,”IEEE Transactions on Pattern Analysis andMachine Intelligence,vol.41,no.3,pp.740–757,2018.》)。实施例选取了几个先进的现有方法进行对比,包括Salicon(《X.Huang,C.Shen,X.Boix,and Q.Zhao,“Salicon:Reducing the semantic gap in saliency prediction by adapting deep neuralnetworks,”in Proceedings of the IEEE International Conference on ComputerVision,pp.262–270,2015.》)、BMS360和GBVS360(《P.Lebreton and A.Raake,“Gbvs360,bms360,prosal:Extending existing saliency prediction models from 2d toomnidirectional images,”Signal Processing:Image Communication,vol.69,pp.69–78,2018.》)、Zhu(《Y.Zhu,G.Zhai,and X.Min,“The prediction of head and eyemovement for 360degree images,”Signal Processing:Image Communication,vol.69,pp.15–25,2018.》)、Salgan360(《F.-Y.Chao,L.Zhang,W.Hamidouche,and O.Deforges,“Salgan360:Visual saliency prediction on 360degree images with generativeadversarial networks,”in IEEE International Conference on Multimedia&ExpoWorkshops,pp.01–04,IEEE,2018.》)、SalGAIL(《M.Xu,L.Yang,X.Tao,Y.Duan,and Z.Wang,“Saliency prediction on omnidirectional image with generative adversarialimitation learning,”IEEE Transactions on Image Processing,vol.30,pp.2087–2102,2021.》)。
表1
AUC↑ | CC↑ | KL↓ | NSS↑ | |
Salicon | 0.778 | 0.526 | 0.613 | 0.980 |
BMS360 | 0.839 | 0.668 | 0.546 | 1.411 |
GBVS360 | 0.799 | 0.588 | 0.563 | 1.147 |
Zhu | 0.850 | 0.729 | 0.416 | 1.450 |
Salgan360 | 0.835 | 0.653 | 0.562 | 1.429 |
SalGAIL | 0.853 | 0.742 | 0.345 | 1.556 |
SalGFCN | 0.865 | 0.853 | 0.212 | 1.659 |
相应的性能测试结果如表1所示,本发明提出的方法显示为SalGFCN。粗体数字表示最佳性能,箭头的方向指示精度更高的方向。从表中可以看出本发明上述实施例提供的基于全卷积图神经网络的全景图片显著性预测方法能够有效地预测全景图像的显著性,优于所有其他方法。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种基于全卷积图神经网络的全景图片显著性预测方法,其特征在于,包括:
将平面全景图像映射成为球面的图数据;
将所述球面的图数据输入到全卷积图神经网络进行显著性预测,得到球面显著性图数据;
将所述球面显著性图数据变换到平面上,得到平面的全景显著性图像。
2.根据权利要求1所述的基于全卷积图神经网络的全景图片显著性预测方法,其特征在于,所述将平面全景图像映射成为球面的图数据,包括:
将平面图像映射到球面全景图像;
在所述球面全景图像上采样,得到均匀分布的顶点,每个顶点都有来自所述球面全景图像上相应像素的RGB颜色值作为其特征;构造所述球面全景图像上每个顶点和K个相邻点之间的带有自循环的边,最终得到球面的图数据,其中每个顶点有3个特征和K条边。
3.根据权利要求1所述的基于全卷积图神经网络的全景图片显著性预测方法,其特征在于,所述全卷积图神经网络结构,为一个U形图神经网络结构,该U形图神经网络结构包括:
在底部设置膨胀图卷积和注意力机制;和/或,
全卷积层,用于球面图空间中的图池化和反池化操作,以保留顶点到顶点的特征。
4.根据权利要求3所述的基于全卷积图神经网络的全景图片显著性预测方法,其特征在于,所述U形图神经网络结构,包括编码部、底部和解码部,其中:
所述编码部,包括第一TAG卷积层、第二TAG卷积层、第三TAG卷积层、第四TAG卷积层、第一全卷积图池化层、第二全卷积图池化层和第三全卷积图池化层,其中:
第一TAG卷积层输入为所述球面的图数据,
第二TAG卷积层:输入为第一TAG卷积层的输出;
第一全卷积图池化层:输入为第一TAG卷积层的输出与第二TAG卷积层的输出之和;
第三TAG卷积层:输入为第一全卷积图池化层的输出;
第二全卷积图池化层:输入为第一全卷积图池化层的输出与第三TAG卷积层的输出之和;
第四TAG卷积层:输入为第二全卷积图池化层的输出;
第三全卷积图池化层:输入为第二全卷积图池化层的输出与第四TAG卷积层的输出之和;
所述底部,包含依次串联的第一膨胀注意力块、第二膨胀注意力块和第三膨胀注意力块,其中:第一膨胀注意力块输入为所述编码部的输出,所述底部的输出为第三膨胀注意力块的输出;
所述解码部,包括第五TAG卷积层、第六TAG卷积层、第七TAG卷积层、第八TAG卷积层、第九TAG卷积层、第一全卷积图反池化层、第二全卷积图反池化层,第三全卷积反池化层,其中:
第一全卷积图反池化层:输入为所述底部的输出;
第五TAG卷积层:输入为第一全卷积图反池化层的输出与第三全卷积图池化层的输入的特征拼接;
第二全卷积图反池化层:输入为第五TAG卷积层的输入与第五TAG卷积层的输出之和;
第六TAG卷积层:输入为第二全卷积图反池化层的输出与第二全卷积图池化层的输入的特征拼接;
第三全卷积图反池化层:输入为第六TAG卷积层的输入与第六TAG卷积层的输出之和;
第七TAG卷积层:输入为第三全卷积图反池化层的输出与第一全卷积图池化层的输入的特征拼接;
第八TAG卷积层:输入为第七TAG卷积层的输入与第七TAG卷积层的输出之和;
第九TAG卷积层:输入为第八TAG卷积层的输出。
6.根据权利要求4所述的基于全卷积图神经网络的全景图片显著性预测方法,其特征在于,所述第一全卷积图池化层~第三全卷积图池化层,其中全卷积图池化为:
设输入球面的图数据的旧顶点数为N,采样得到1/4N个新顶点的球面位置坐标,通过KNN算法构造球面图上每个新顶点和K个相邻旧顶点之间的带有自循环的边,这种边的方向为从旧顶点指向新顶点;
将球面的图数据的旧顶点特征与构建的边信息作为图卷积方法GCN的输入,得到1/4N个新顶点位置对应的输出特征,输入特征维度与输出特征维度均为GCN对应的可控参数。
7.根据权利要求4所述的基于全卷积图神经网络的全景图片显著性预测方法,其特征在于,所述第一膨胀注意力块~第三膨胀注意力块,其中每个膨胀注意力块被设置为:
对于输入的球面图数据,首先使用膨胀率为R的膨胀TAG卷积进行处理,再将膨胀TAG卷积的输入和输出相加作为图Transformer的输入,最后将图Transformer的输出作为TAG卷积的输入。
9.根据权利要求4所述的基于全卷积图神经网络的全景图片显著性预测方法,其特征在于,所述第一全卷积图反池化层~第三全卷积图反池化层,每个全卷积图反池化层被配置为:
设输入球面的图数据的旧顶点数为N,采样得到4N个新顶点的球面位置坐标,通过KNN算法来构造球面图上每个旧顶点和K个相邻新顶点之间的带有自循环的边,这种边的方向为从旧顶点指向新顶点;
将球面的图数据的旧顶点特征与构建的边信息作为图卷积方法GCN的输入,得到4N个新顶点位置对应的输出特征,输入特征维度与输出特征维度均为GCN对应的可控参数。
10.一种全景图片显著性预测设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111230705.9A CN113947524A (zh) | 2021-10-22 | 2021-10-22 | 基于全卷积图神经网络的全景图片显著性预测方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111230705.9A CN113947524A (zh) | 2021-10-22 | 2021-10-22 | 基于全卷积图神经网络的全景图片显著性预测方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113947524A true CN113947524A (zh) | 2022-01-18 |
Family
ID=79332029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111230705.9A Pending CN113947524A (zh) | 2021-10-22 | 2021-10-22 | 基于全卷积图神经网络的全景图片显著性预测方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947524A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546652A (zh) * | 2022-11-29 | 2022-12-30 | 城云科技(中国)有限公司 | 一种多时态目标检测模型及其构建方法、装置及应用 |
-
2021
- 2021-10-22 CN CN202111230705.9A patent/CN113947524A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546652A (zh) * | 2022-11-29 | 2022-12-30 | 城云科技(中国)有限公司 | 一种多时态目标检测模型及其构建方法、装置及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047516B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN109964222B (zh) | 用于处理具有多个点的输入点云的系统和方法 | |
CN106952338B (zh) | 基于深度学习的三维重建的方法、系统及可读存储介质 | |
CN111091123A (zh) | 文本区域检测方法及设备 | |
CN105074726A (zh) | 图像序列中的物体遮挡的确定 | |
CN115345866B (zh) | 一种遥感影像中建筑物提取方法、电子设备及存储介质 | |
CN113177592B (zh) | 一种图像分割方法、装置、计算机设备及存储介质 | |
CN115147606B (zh) | 医学图像的分割方法、装置、计算机设备和存储介质 | |
CN116071309B (zh) | 元器件的声扫缺陷检测方法、装置、设备和存储介质 | |
Bastanfard et al. | Toward image super-resolution based on local regression and nonlocal means | |
CN112419372A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112149662A (zh) | 一种基于扩张卷积块的多模态融合显著性检测方法 | |
CN113947524A (zh) | 基于全卷积图神经网络的全景图片显著性预测方法及设备 | |
CN115953330A (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
CN115564639A (zh) | 背景虚化方法、装置、计算机设备和存储介质 | |
Yang et al. | Salgfcn: Graph based fully convolutional network for panoramic saliency prediction | |
CN113298097B (zh) | 基于卷积神经网络的特征点提取方法、设备及存储介质 | |
CN112001268B (zh) | 人脸校准方法及设备 | |
WO2018120043A1 (zh) | 图像重建方法及装置 | |
CN116659520B (zh) | 基于仿生偏振视觉增强的匹配定位方法、装置和设备 | |
CN115965856B (zh) | 图像检测模型构建方法、装置、计算机设备及存储介质 | |
CN117523036A (zh) | 平面户型图结构化重建方法、装置、设备与介质 | |
CN116824181A (zh) | 一种模板匹配位姿确定方法、系统及电子设备 | |
CN117078938A (zh) | 基于马尔可夫随机场的遥感图像语义分割方法 | |
Zhang et al. | Feature Point Detection and Description Networks Based on Asymmetric Convolution and the Cross‐ResolutionImage‐Matching Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |