CN112163990B - 360度图像的显著性预测方法及系统 - Google Patents

360度图像的显著性预测方法及系统 Download PDF

Info

Publication number
CN112163990B
CN112163990B CN202010932741.9A CN202010932741A CN112163990B CN 112163990 B CN112163990 B CN 112163990B CN 202010932741 A CN202010932741 A CN 202010932741A CN 112163990 B CN112163990 B CN 112163990B
Authority
CN
China
Prior art keywords
graph
spherical
signal
image
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010932741.9A
Other languages
English (en)
Other versions
CN112163990A (zh
Inventor
李成林
吕浩然
杨琴
邹君妮
戴文睿
熊红凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010932741.9A priority Critical patent/CN112163990B/zh
Publication of CN112163990A publication Critical patent/CN112163990A/zh
Priority to PCT/CN2021/112902 priority patent/WO2022052750A1/zh
Application granted granted Critical
Publication of CN112163990B publication Critical patent/CN112163990B/zh
Priority to US18/164,610 priority patent/US11823432B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/08Projecting images onto non-planar surfaces, e.g. geodetic screens
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于图卷积神经网络的360度图像的显著性预测方法及系统首先采用测地线二十面体构图方法将等距矩形投影格式的图像构造成球面图信号,然后将球面图信号输入提出的图卷积神经网络中进行特征提取并且生成球形显著性图信号,而后使用提出的基于球冠的插值算法将球形显著性图信号重建成等距矩形投影格式的显著性图。本发明进一步提出具有稀疏一致性的KL散度损失函数。本发明可以在主观和客观上达到优秀的显著性预测性能,并且在计算复杂度上优于现有方法。

Description

360度图像的显著性预测方法及系统
技术领域
本发明涉及数字图像处理技术领域的一种图像显著性预测技术,具体地,涉及 一种基于图卷积神经网络的360度图像的显著性预测方法及系统。
背景技术
在计算机视觉领域,视觉显著性预测是一个非常重要并且具备挑战性的问题。 该任务的主要目标是定位场景中人类所更为关注的部分并生成视觉显著性图。近年 来随着VR,AR,自动驾驶领域的发展,360度图像、视频的显著性预测任务面临 巨大的挑战:在360度场景下,视觉显著性预测模型需要分析球面特征并对显著性 区域进行标注。最终生成的显著性图进一步可以对智能视频编码,360度视频自动 摄影,360度视频视点预测等任务提供先验支撑,促进多领域的发展。
经过对现有技术的文献检索发现,R.Monroy,S.Lutz和A.Smolic等人在2018 年的《SIGNAL PROCESSING-IMAGE COMMUNICATION》期刊上发表的“SalNet360: Saliency mapsfor omni-directional images with CNN”一文中提出了一种利用卷积神 经网络的360度图像的显著性预测方法,该方法将360度图像通过立方体投影投影 到6个切平面上,然后对每个切平面图像使用深度卷积网络提取特征并生成6个相 应的显著性图,最后通过拼接算法将6个显著性图拼接成等距矩形投影格式的显著 性图。然而将360度图像投影到欧几里得空间上无可避免地会引入失真,进而影响 卷积神经网络的特征提取性能;另外,对多个切平面图像输入进神经网络会引起大 量的计算开销。
经过对现有技术的文献检索还发现,Ziheng Zhang,Yanyu Xu,和Jingyi Yu等人在2018年的《European Conference on Computer Vision》会议上发表的“Saliencydetection in 360videos”一文中提出了一种定义在等距矩形投影平面上的球形CNN 以适应球面数据,其中心思想是在等距矩形网格的北极点处定义一个固定形状的卷 积核,然后对球面图像进行旋转并且在卷积核位置进行重采样进而进行卷积。整个 卷积操作需要对球面图像、特征图不断进行旋转和重采样,这就使得旋转后的图像、 特征图的原始像素位置不一定恰好覆盖卷积核位置,即需要对图像、特征图进行插 值操作以获取同卷积核位置相对齐的特征值。然而这种插值操作会对卷积引入误差, 并且随着网络的加深这种误差会不断累积,最终严重影响模型性能。
发明内容
本发明针对现有技术中存在的上述不足,提供了一种基于图卷积神经网络的 360度图像的显著性预测方法。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种基于图卷积神经网络的360度图像的显著 性预测方法,包括:
对等距矩形投影格式的360度图像使用测地线二十面体投影技术进行图信号构建,生成球面图信号;
将生成的球面图信号输入至图卷积神经网络进行特征提取,并输出与输入大小一致的单通道显著性球面图信号;
将输出的单通道显著性球面图信号使用基于球冠的插值算法进行插值,实现单通道显著性球面图信号到等距矩形投影格式图像的转化,进而重建出等距矩形投影格 式的360度显著性图;
根据重建得到的等距矩形投影格式的360度显著性图,对360度图像的显著性 进行预测。
优选地,所述测地线二十面体投影技术采用SGCN中的测地线二十面体构图方 法,包括:
首先对360度图像构造最大的内接正二十面体,则此时正二十面体的十二个顶点作 为第0级的球面图信号;
然后对正二十面体的每条边取中点后延球心经过中点构造射线与球面相交,相交的 节点即为新的采样点,将这些采样点与第0级的采样点相结合构成第1级的球面图信号;在得到的新的采样点的基础上,不断重复此过程,生成更高级别的球面图信号,即为生 成的球面图信号。
优选地,所述图卷积神经网络包括图卷积层、图池化层和图反池化层;其中:
所述图卷积层采用切比雪夫网络中的图卷积操作,对球面图信号的特征进行提取;
所述图池化层采用SGCN中的旋转等变的池化操作,对球面图信号进行下采样;
所述图反池化层在反池化的过程中引入邻居节点的特征信息,对球面图信号进行上采样。
优选地,所述图卷积神经网络采用编码器-解码器的网络结构,其中:
所述编码器包括5层图卷积层和4层图池化层,将输入的球面图信号编码为大小是原来256分之一大小的高维图信号;
所述解码器包括5层图卷积层和4层图反池化层,将编码器编码的高维图信号解码为大小与输入球面图信号一致的一维图信号以代表显著性分布;
所述解码器的前四层图卷积层的输入分别是由前一层图卷积层的输出和解码器部 分节点数一致的特征图相连接所构成。
优选地,所述图卷积神经网络采用具备稀疏一致特性的KL散度损失函数进行 网络训练,所述KL散度损失函数KLsc表达为:
Figure BDA0002670822100000031
其中有:
Figure BDA0002670822100000032
Figure BDA0002670822100000033
其中,Ggt(vt)和Gs(vt)分别代表真实显著性图构造而成的球面图信号和网络预 测的球面显著性图信号,KLs代表两者的传统KL散度损失,hist(·)代表对向量求 直方图,这里即代表对球面图信号的值求直方图分布,而后对两者的直方图分布求 得KLhist,最后通过λ加权得到具备稀疏一致特性的损失函数KLsc
优选地,所述基于球冠的插值算法,包括:
首先对标准的等距矩形投影格式的网格点计算球面坐标,其次以每一个网格点为中心在球面构建固定大小的球冠,然后统计单通道显著性球面图信号中所有落到 球冠上的节点并计算节点到球冠中心点的欧几里得距离,最后通过对单通道显著性 球面图信号中所有落到球冠上的节点进行反距离加权得到球冠中心点即等距举行 投影格式的网格点的像素值,重建出等距矩形投影格式的360度显著性图。
优选地,所述方法还包括:
将得到的等距矩形投影格式的360度显著性图通过高斯核进行图像平滑,得到 更为平滑的显著性图。
根据本发明的另一个方面,提供了一种基于图卷积神经网络的360度图像的显 著性预测系统,包括:
图信号构建模块:对等距矩形投影格式的360度图像使用测地线二十面体构图 模块进行图信号构建,生成球面图信号;
图卷积网络模块:将生成的球面图信号输入至图卷积神经网络进行特征提取, 并输出与输入大小一致的单通道显著性球面图信号;
插值重建模块:将输出的单通道显著性球面图信号使用基于球冠的插值算法进行插值,实现单通道显著性球面图信号到等距矩形投影格式图像的转化,进而重建出 等距矩形投影格式的360度显著性图;根据重建得到的等距矩形投影格式的360度 显著性图,对360度图像的显著性进行预测。
优选地,所述测地线二十面体构图模块采用SGCN中的测地线二十面体构图方 法生成的球面图信号。
优选地,所述图卷积神经网络采用编码器-解码器的网络结构;其中,所述编码器包括5层图卷积层和4层图池化层,将输入的球面图信号编码为大小是原来256分之一 大小的高维图信号;所述解码器包括5层图卷积层和4层图反池化层,将编码器编码的 高维图信号解码为大小与输入球面图信号一致的一维图信号以代表显著性分布;所述解 码器的前四层图卷积层的输入分别是由前一层图卷积层的输出和解码器部分节点数一 致的特征图相连接所构成。
优选地,将所述系统定义为一个图节点层面的回归模型,显著性预测结果为所 述回归模型的目标优化问题,则有:
Figure BDA0002670822100000041
其中,Ei和Egt分别代表等距矩形投影格式的360度图像和其对应的真实显著性图,两者被测地线二十面体构图模块GICOPix(·)构建为节点数相同的球面图信号, 而后将构建的球面图信号输入至图卷积神经网络NG(·)中生成网络预测的显著性球 面图信号,目标优化过程即为优化可学习权重θk以使得图卷积神经网络输出的显著 性球面图信号与真实的显著性图信号之间的距离尽可能小,并以此实现对回归模型 的训练。
由于采用了上述技术方案,本发明与现有技术相比,具有如下的有益效果:
本发明提供的基于图卷积神经网络的360度图像的显著性预测方法及系统,旨 在提升360度图像的显著性预测效率以及性能。本发明提供的方法及系统引入图卷 积进行特征提取,从根本上杜绝了360度图像投影变换带来的图像失真问题;并且 避免了卷积过程中对特征图的插值操作,从而保证了方法的性能;更重要的,本发 明提供的方法及系统,直接在球面图信号上处理球面数据,从而避免了现有方法中 投影多个平面分别预测显著性所带来的巨额计算成本,大大提升了显著性预测效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中基于图卷积神经网络的360度图像的显著性预测方法 流程图;
图2为本发明一实施例中球面图信号构建示意图;
图3为本发明一实施例中图卷积神经网络结构示意图;
图4为本发明一实施例中图池化方法示意图;
图5为本发明一实施例中图反池化方法示意图;
图6为本发明一实施例中基于球冠的插值算法示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。 这些都属于本发明的保护范围。
本发明一实施例提供了一种基于图卷积神经网络的360度图像的显著性预测方法,该方法针对现有技术中预测性能差、计算成本高等问题,首先将360度图像通 过测地线二十面体构图方法生成球面图信号,然后使用图卷积网络对球面图像进行 特征提取并生成显著性球面图信号,进而通过插值算法将图信号重建成等距矩形投 影格式的360度图像,最后通过高斯核平滑得到最终结果。本实施例避免了卷积过 程中对特征图的插值操作以保证方法的性能,并且大大降低了计算成本,提升了预 测效率。
本实施例提供的基于图卷积神经网络的360度图像的显著性预测方法,包括如 下步骤:
第一步,对等距矩形投影格式的360度图像进行图信号构建以生成球面图信号;
第二步,将第一步得到的球面图信号输入图卷积神经网络中进行特征提取并生成与输入大小一致的单通道显著性球面图信号;
第三步,将第二步输出的显著性球面图信号通过基于球冠的插值算法重建成等距矩形投影格式的360度显著性图。
作为一优选实施例,第一步中,使用SGCN中的测地线二十面体投影进行球面 图信号的生成,具体的构建方法为:
(1)首先对球体构造最大的内接正二十面体,则此时正二十面体的十二个顶 点作为第0级的球面图信号,
(2)然后对正二十面体的每条边取中点后延球心经过中点构造射线与球面相 交,相交的节点即为新的采样点,将这些采样点与第0级的采样点相结合构成第1 级的球面图信号,
(3)而后对球面图信号不断重复(2)过程可以生成更高级别的图信号,即为 生成的球面图信号。
作为一优选实施例,第二步中,图卷积神经网络包括图卷积层、图池化层和图 反池化层,其中:
图卷积层使用切比雪夫网络以实现对图信号的特征提取;
图池化层使用SGCN中的图池化层以实现对图信号的下采样;
图反池化层使用图反池化操作,即在反池化的过程中引入邻居节点的特征信息,以实现对图信号的上采样。
作为一优选实施例,第二步中,图卷积神经网络采用类似于U-net的编码器-解 码器的网络结构,具体为:
编码器共有5层卷积层和4层图池化层最终将输入的球面图信号编码为大小是 原来256分之一大小的高维图信号;
解码器共有5层图卷积层和4层图反池化层,最终将编码器编码的高维图信号 解码为大小与输入图信号一致的一维图信号以代表显著性分布。
特别地,解码器的前四层图卷积层的输入是由前一层卷积层的输出和解码器部分节点数一致的特征图相连接所构成。
作为一优选实施例,在第二步中,使用具备稀疏一致特性的KL散度损失作为 损失函数。KL散度损失函数KLsc表达为:
Figure BDA0002670822100000061
其中有:
Figure BDA0002670822100000071
Figure BDA0002670822100000072
其中,Ggt(vt)和Gs(vt)分别代表真实显著性图构造而成的球面图信号和网络预 测的球面显著性图信号,KLs代表两者的传统KL散度损失,hist(·)代表对向量求 直方图,这里即代表对球面图信号的值求直方图分布,而后对两者的直方图分布求 得KLhist,最后通过λ加权得到具备稀疏一致特性的损失函数KLsc
具体地,
损失函数包括对图信号直接计算的KL散度和图信号的直方图分布的KL散度。 对于对图信号直接计算的KL散度,直接对图卷积神经网络输出的图信号与真实显 著性图所构建的图信号进行KL散度的进行计算。对于图信号的直方图的KL散度, 首先对网络输出的图信号和真实显著性图所构建的图信号进行直方图分布的计算, 然后对计算得到的直方图分布计算KL散度。最终通过加权将两部分KL散度以得 到最终的具备稀疏一致特性的KL散度损失函数,以实现在兼具空间分布相似性的 同时,兼顾数值分布的相似性。
作为一优选实施例,第三步中,使用基于球冠的插值算法实现球面图信号到等 距矩形投影格式图像的转化。具体而言,分为以下步骤:
(a)对等距矩形投影格式的全部网格点求球面坐标。
(b)以每个网格点为中心构建球冠区域。
(c)确定球面图信号中落到每个球冠区域上的节点。
(d)对每个球冠区域上的节点对球冠中心求解欧几里得距离。
(e)对每个球冠区域中的节点通过(d)中的距离进行反距离加权求以得球冠 中心的像素值。
(f)对每个球冠中心求解等距矩形投影格式的网格位置,球冠的像素值即为 对应网格点的像素值。
作为一优选实施例,该方法还包括:第四步,将第三步得到的等距矩形投影格 式的显著性图通过高斯核进行图像平滑,以生成更加平滑的显著性图。
下面结合附图,对本实施例提供的方法进一步描述如下。
如图1所示,本方法具体实现包括如下步骤:
1、对球面图像构建球面图信号
如图2所示,对球面图信号构建进行实例分析,定义等距矩形投影格式的360 度图像定义为
Figure BDA0002670822100000081
其中3代表RGB通道;而后通过基于测地线二十 面体的构图方法对Ei进行图信号构建,具体方法为:
(1)首先对球体构造最大的内接正二十面体,则此时正二十面体的十二个顶 点作为第0级的球面图信号G0
(2)对正二十面体的每条边取中点后延球心经过中点构造射线与球面相交, 相交的节点即为新的采样点,将这些采样点与G0相结合构成第1级的球 面图信号G1
(3)而后循环重复步骤(2)得到更高级别的图信号G1
特别地,Gl的节点数量与l的关系为Nl=10×22l+2。
2、将球面图信号输入图卷积网络生成球面显著性图信号
如图3所示,图卷积神经网络结构使用了类似U-net的网络结构,其中图卷积 层使用了切比雪夫网络,具体而言,对于1中构建的图信号
Figure BDA0002670822100000086
分别 代表图信号的节点集,边集,邻接矩阵),其归一化的拉普拉斯矩阵可以定义为L= IN-D-1/2WD-1/2,其中D代表度矩阵,IN为N阶单位矩阵。进一步切比雪夫网络的 卷积操作被定义为:
Figure BDA0002670822100000082
其中K代表切比雪夫多项式的阶数;θk为切比雪夫多项式的系数;
Figure BDA0002670822100000083
其中λmax代表L的最大的特征值;
Figure BDA0002670822100000084
其中T0=IN
Figure BDA0002670822100000085
如图4所示,为图卷积网络的图池化操作,这里直接采用SGCN中的图池化操 作,具体而言,对于第l级的图信号Gl而言,通过图池化操作后即会舍弃Gl-1到Gl时 新增加的节点,而仅仅保留Gl-1的节点位置的值;而Nl/Nl-1≈4,即大致实现了传 统池化操作的缩放比例。图4表示图卷积网络中经过多次池化操作后的图信号变化 关系,其中Layer h(Level l)表示卷积网络的第h层对应的第l级图信号,Layer h+1 (Level l-1)表示卷积网络的第h+1层对应的第l-1级图信号,Layer h+2(Level l-2) 表示卷积网络的第h+2层对应的第l-2级图信号。
如图5所示,为提出的图反池化操作,旨在实现图池化操作的逆操作。具体而 言,使用线性插值的方法来上采样图信号,首先定义vl为Gl的节点集,则反池化操 作可以如下表示:
Figure BDA0002670822100000091
其中,
Figure BDA0002670822100000092
代表Gl中的第k个节点,而Pos(·)返回节点的直角坐标,Nei(·)返回节点
Figure BDA0002670822100000093
在Gl-1中的两个相邻的邻居节点,整个插值过程可以理解为保留原始节点的情 况下对新增加的节点使用其邻居节点的平均值代替。
另外对于网络训练,使用具备稀疏一致特性的KL散度损失来进行网络训练。 具体而言,整个损失函数分为两个部分,其中一部分是网络输出的球面图信号和真 实的球面显著性图信号之间的KL散度:
Figure BDA0002670822100000094
其中Gs(vt) 和Ggt(vt)分别代表网络输出的球面图信号和真实的球面显著性图信号,然后为了使 得两者在稀疏性上具备相似度,进一步计算了两者的直方图分布并计算直方图分布 之间的KL散度:
Figure BDA0002670822100000095
其中hist(·)即为计算直方 图的操作。
3、将2中输出的球面显著性图信号使用基于球冠的插值算法得到等距矩形投 影格式的360度图像
如图6所示,对于插值操作,首先定义等距矩形投影格式的网格点坐标(mi,ni), 1≤i≤W×H;R表示球体半径,P表示球冠边缘一任意点,α表示球冠尺寸,这里 选择α=2π/W-1;然后插值算法的输出Eo(mi,ni)即可代表等距矩形投影格式的 360度图像的第i个像素点。而后首先通过如下公式计算(mi,ni)的直角坐标(xi,yi,zi):
Figure BDA0002670822100000096
然后以(xi,yi,zi)为中心构造一个高度为R[1-cos(α)]球冠区域,球冠区域的大小由α控制,在本实施例中取α=2π(W-1),则球冠底部的平面可以如下表示:
xi(x-xicosα)+yi(y-yicosα)+zi(z-zicosα)=0
接着将网络输出的球面显著性图信号中所有落到球冠区域的节点加入集合
Figure BDA0002670822100000097
特别地,属于球冠上的节点应该满足如下关系:
(cosα-xxi-xxi-xxi)cosα≤0
最后,通过反距离加权
Figure BDA0002670822100000098
中所有节点即可得到Eo(mi,ni),此过程对Eo中的所有 点遍历即可得到完整的Eo。反距离加权公式如下:
Figure BDA0002670822100000101
其中e=1e-8。
实施效果:
依据上述步骤,采用本实施例中所提供的方法步骤进行实施,实验用Salient360数据集中的头+眼动数据集进行网络训练和测试,并且与SalNet360,SalGAN360, BMS360,BMS,GBVS360进行主观和客观层面的比较。
本实施例提出的方法在直观层面上处于较为优秀的水平,并且在图像的高纬度区域(顶部和底部)具有更好的显著性预测性能。同时,在客观层面上,该方法可 以在计算量比性能最好的方法SalGAN360低3个数量级的条件下实现近似的客观性 能表现。
本发明另一实施例提供了一种基于图卷积神经网络的360度图像的显著性预测系统,包括:
图信号构建模块:对等距矩形投影格式的360度图像使用测地线二十面体构图 模块进行图信号构建,生成球面图信号;
图卷积网络模块:将生成的球面图信号输入至图卷积神经网络进行特征提取, 并输出与输入大小一致的单通道显著性球面图信号;
插值重建模块:将输出的单通道显著性球面图信号使用基于球冠的插值算法进行插值,实现单通道显著性球面图信号到等距矩形投影格式图像的转化,进而重建出 等距矩形投影格式的360度显著性图;根据重建得到的等距矩形投影格式的360度 显著性图,对360度图像的显著性进行预测。
作为一优选实施例,测地线二十面体构图模块采用SGCN中的测地线二十面体 构图方法生成的球面图信号。
作为一优选实施例,图卷积神经网络采用编码器-解码器的网络结构;其中,编 码器包括5层图卷积层和4层图池化层,将输入的球面图信号编码为大小是原来256分 之一大小的高维图信号;解码器包括5层图卷积层和4层图反池化层,将编码器编码的 高维图信号解码为大小与输入球面图信号一致的一维图信号以代表显著性分布;解码器 的前四层图卷积层的输入分别是由前一层图卷积层的输出和解码器部分节点数一致的 特征图相连接所构成。
作为一优选实施例,将系统定义为一个图节点层面的回归模型,显著性预测结 果为回归模型的目标优化问题,则有:
Figure BDA0002670822100000111
其中,Ei和Egt分别代表等距矩形投影格式的360度图像和其对应的真实显著性图,两者被测地线二十面体构图模块GICOPix(·)构建为节点数相同的球面图信号, 而后将构建的球面图信号输入至图卷积神经网络NG(·)中生成网络预测的显著性球 面图信号,目标优化过程即为优化可学习权重θk以使得图卷积神经网络输出的显著 性球面图信号与真实的显著性图信号之间的距离尽可能小,并以此实现对回归模型 的训练。
本发明上述实施例提供的基于图卷积神经网络的360度图像的显著性预测方法及系统,首先采用测地线二十面体构图方法将等距矩形投影格式的图像构造成球面 图信号,然后将球面图信号输入提出的图卷积神经网络中进行特征提取并且生成球 形显著性图信号,而后使用提出的基于球冠的插值算法将球形显著性图信号重建成 等距矩形投影格式的显著性图。为了实现有效的方法及系统模型训练,还进一步提 出具有稀疏一致性的KL散度损失函数。本发明上述实施例提供的360度图像的显 著性预测方法及系统,可以在主观和客观上达到优秀的显著性预测性能,并且在计 算复杂度上优于现有方法。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装 置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流 程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上 述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改, 这并不影响本发明的实质内容。

Claims (9)

1.一种基于图卷积神经网络的360度图像的显著性预测方法,其特征在于,包括:
对等距矩形投影格式的360度图像使用测地线二十面体投影技术进行图信号构建,生成球面图信号;
将生成的球面图信号输入至图卷积神经网络进行特征提取,并输出与输入大小一致的单通道显著性球面图信号;
将输出的单通道显著性球面图信号使用基于球冠的插值算法进行插值,实现单通道显著性球面图信号到等距矩形投影格式图像的转化,进而重建出等距矩形投影格式的360度显著性图;
根据重建得到的等距矩形投影格式的360度显著性图,对360度图像的显著性进行预测;
所述测地线二十面体投影技术采用SGCN中的测地线二十面体构图方法,包括:
首先对360度图像构造最大的内接正二十面体,则此时正二十面体的十二个顶点作为第0级的球面图信号;
然后对正二十面体的每条边取中点后沿球心经过中点构造射线与球面相交,相交的节点即为新的采样点,将这些采样点与第0级的采样点相结合构成第1级的球面图信号;在得到的新的采样点的基础上,不断重复此过程,生成更高级别的球面图信号,即为生成的球面图信号。
2.根据权利要求1所述的一种基于图卷积神经网络的360度图像的显著性预测方法,其特征在于,所述图卷积神经网络包括图卷积层、图池化层和图反池化层;其中:
所述图卷积层采用切比雪夫网络中的图卷积操作,对球面图信号的特征进行提取;
所述图池化层采用SGCN中的旋转等变的池化操作,对球面图信号进行下采样;
所述图反池化层在反池化的过程中引入邻居节点的特征信息,对球面图信号进行上采样。
3.根据权利要求2所述的一种基于图卷积神经网络的360度图像的显著性预测方法,其特征在于,所述图卷积神经网络采用编码器-解码器的网络结构,其中:
所述编码器包括5层图卷积层和4层图池化层,将输入的球面图信号编码为大小是原来256分之一大小的高维图信号;
所述解码器包括5层图卷积层和4层图反池化层,将编码器编码的高维图信号解码为大小与输入球面图信号一致的一维图信号以代表显著性分布;
所述解码器的前四层图卷积层的输入分别是由前一层图卷积层的输出和解码器部分节点数一致的特征图相连接所构成。
4.根据权利要求1所述的一种基于图卷积神经网络的360度图像的显著性预测方法,其特征在于,所述图卷积神经网络采用具备稀疏一致特性的KL散度损失函数进行网络训练,所述KL散度损失函数KLsc表达为:
Figure FDA0003803387350000021
其中有:
Figure FDA0003803387350000022
Figure FDA0003803387350000023
其中,Ggt(vt)和Gs(vt)分别代表真实显著性图构造而成的球面图信号和网络预测的球面显著性图信号,KLs代表两者的传统KL散度损失,hist(·)代表对向量求直方图,这里即代表对球面图信号的值求直方图分布,而后对两者的直方图分布求得KLhist,最后通过λ加权得到具备稀疏一致特性的损失函数KLsc
5.根据权利要求1所述的一种基于图卷积神经网络的360度图像的显著性预测方法,其特征在于,所述基于球冠的插值算法,包括:
首先对标准的等距矩形投影格式的网格点计算球面坐标,其次以每一个网格点为中心在球面构建固定大小的球冠,然后统计单通道显著性球面图信号中所有落到球冠上的节点并计算节点到球冠中心点的欧几里得距离,最后通过对单通道显著性球面图信号中所有落到球冠上的节点进行反距离加权得到球冠中心点即等距矩形投影格式的网格点的像素值,重建出等距矩形投影格式的360度显著性图。
6.根据权利要求1-5任一项所述的一种基于图卷积神经网络的360度图像的显著性预测方法,其特征在于,还包括:
将得到的等距矩形投影格式的360度显著性图通过高斯核进行图像平滑,得到更为平滑的显著性图。
7.一种基于图卷积神经网络的360度图像的显著性预测系统,其特征在于,包括:
图信号构建模块:对等距矩形投影格式的360度图像使用测地线二十面体构图模块进行图信号构建,生成球面图信号;
图卷积网络模块:将生成的球面图信号输入至图卷积神经网络进行特征提取,并输出与输入大小一致的单通道显著性球面图信号;
插值重建模块:将输出的单通道显著性球面图信号使用基于球冠的插值算法进行插值,实现单通道显著性球面图信号到等距矩形投影格式图像的转化,进而重建出等距矩形投影格式的360度显著性图;根据重建得到的等距矩形投影格式的360度显著性图,对360度图像的显著性进行预测;
所述测地线二十面体投影技术采用SGCN中的测地线二十面体构图方法,包括:
首先对360度图像构造最大的内接正二十面体,则此时正二十面体的十二个顶点作为第0级的球面图信号;
然后对正二十面体的每条边取中点后延球心经过中点构造射线与球面相交,相交的节点即为新的采样点,将这些采样点与第0级的采样点相结合构成第1级的球面图信号;在得到的新的采样点的基础上,不断重复此过程,生成更高级别的球面图信号,即为生成的球面图信号。
8.根据权利要求7所述的基于图卷积神经网络的360度图像的显著性预测系统,其特征在于,还包括如下任一项或任意多项:
-所述图卷积神经网络采用编码器-解码器的网络结构;其中,所述编码器包括5层图卷积层和4层图池化层,将输入的球面图信号编码为大小是原来256分之一大小的高维图信号;所述解码器包括5层图卷积层和4层图反池化层,将编码器编码的高维图信号解码为大小与输入球面图信号一致的一维图信号以代表显著性分布;所述解码器的前四层图卷积层的输入分别是由前一层图卷积层的输出和解码器部分节点数一致的特征图相连接所构成。
9.根据权利要求7或8所述的基于图卷积神经网络的360度图像的显著性预测系统,其特征在于,将所述系统定义为一个图节点层面的回归模型,显著性预测结果为所述回归模型的目标优化问题,则有:
Figure FDA0003803387350000031
其中,Ei和Egt分别代表等距矩形投影格式的360度图像和其对应的真实显著性图,两者被测地线二十面体构图模块GICOPix(·)构建为节点数相同的球面图信号,而后将构建的球面图信号输入至图卷积神经网络NG(·)中生成网络预测的显著性球面图信号,目标优化过程即为优化可学习权重θk以使得图卷积神经网络输出的显著性球面图信号与真实的显著性图信号之间的距离尽可能小,并以此实现对回归模型的训练。
CN202010932741.9A 2020-09-08 2020-09-08 360度图像的显著性预测方法及系统 Active CN112163990B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010932741.9A CN112163990B (zh) 2020-09-08 2020-09-08 360度图像的显著性预测方法及系统
PCT/CN2021/112902 WO2022052750A1 (zh) 2020-09-08 2021-08-17 360度图像的显著性预测方法及系统
US18/164,610 US11823432B2 (en) 2020-09-08 2023-02-05 Saliency prediction method and system for 360-degree image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010932741.9A CN112163990B (zh) 2020-09-08 2020-09-08 360度图像的显著性预测方法及系统

Publications (2)

Publication Number Publication Date
CN112163990A CN112163990A (zh) 2021-01-01
CN112163990B true CN112163990B (zh) 2022-10-25

Family

ID=73857876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010932741.9A Active CN112163990B (zh) 2020-09-08 2020-09-08 360度图像的显著性预测方法及系统

Country Status (3)

Country Link
US (1) US11823432B2 (zh)
CN (1) CN112163990B (zh)
WO (1) WO2022052750A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163990B (zh) * 2020-09-08 2022-10-25 上海交通大学 360度图像的显著性预测方法及系统
CN115546443B (zh) * 2022-11-25 2023-03-24 西南林业大学 一种球面六边形格网的局部等距性优化方法和系统
CN117351374B (zh) * 2023-12-05 2024-03-08 山东大学 一种遥感图像显著性目标检测方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110365966A (zh) * 2019-06-11 2019-10-22 北京航空航天大学 一种基于视窗的视频质量评价方法及装置
CN110503651A (zh) * 2019-08-09 2019-11-26 北京航空航天大学 一种图像显著对象分割方法及装置
CN110516681A (zh) * 2018-05-21 2019-11-29 孙民 影像特征提取方法及其显著物体预测方法
CN111027505A (zh) * 2019-12-19 2020-04-17 吉林大学 一种基于显著性检测的分层多目标跟踪方法
CN111160436A (zh) * 2019-12-20 2020-05-15 上海交通大学 旋转等变的图卷积神经网络的球形图像分类方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7022077B2 (ja) * 2016-05-25 2022-02-17 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ 空間的にタイリングされた全方位ビデオのストリーミング
US10652553B2 (en) * 2016-12-07 2020-05-12 Qualcomm Incorporated Systems and methods of signaling of regions of interest
US10445614B2 (en) 2017-04-16 2019-10-15 Facebook, Inc. Systems and methods for evaluating content
WO2018193330A1 (en) * 2017-04-20 2018-10-25 Nokia Technologies Oy Method and apparatus for delivery of streamed panoramic images
CN108492322B (zh) * 2018-04-04 2022-04-22 南京大学 一种基于深度学习预测用户视场的方法
US11126257B2 (en) 2018-04-17 2021-09-21 Toyota Research Institute, Inc. System and method for detecting human gaze and gesture in unconstrained environments
TWI709107B (zh) 2018-05-21 2020-11-01 國立清華大學 影像特徵提取方法及包含其顯著物體預測方法
CN111127298B (zh) * 2019-06-12 2023-05-16 上海大学 一种全景图像盲质量评估方法
US11159823B2 (en) * 2019-06-20 2021-10-26 At&T Intellectual Property I, L.P. Multi-viewport transcoding for volumetric video streaming
CN110675355B (zh) * 2019-09-27 2022-06-17 深圳市商汤科技有限公司 图像重建方法及装置、电子设备和存储介质
US11620747B2 (en) * 2020-03-12 2023-04-04 Ping An Technology (Shenzhen) Co., Ltd. Method and system for image segmentation using a contour transformer network model
CN112163990B (zh) * 2020-09-08 2022-10-25 上海交通大学 360度图像的显著性预测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516681A (zh) * 2018-05-21 2019-11-29 孙民 影像特征提取方法及其显著物体预测方法
CN110365966A (zh) * 2019-06-11 2019-10-22 北京航空航天大学 一种基于视窗的视频质量评价方法及装置
CN110503651A (zh) * 2019-08-09 2019-11-26 北京航空航天大学 一种图像显著对象分割方法及装置
CN111027505A (zh) * 2019-12-19 2020-04-17 吉林大学 一种基于显著性检测的分层多目标跟踪方法
CN111160436A (zh) * 2019-12-20 2020-05-15 上海交通大学 旋转等变的图卷积神经网络的球形图像分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Salgan360: Visual saliency prediction on 360 degree images with generative adversarial networks";Fangyi Chao等;《2018 IEEE ICMEW》;20181129;第1-4页 *
"基于深度学习的三维形状显著性检测和分类分割";朱奕杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20200815;全文 *

Also Published As

Publication number Publication date
US20230245419A1 (en) 2023-08-03
CN112163990A (zh) 2021-01-01
WO2022052750A1 (zh) 2022-03-17
US11823432B2 (en) 2023-11-21

Similar Documents

Publication Publication Date Title
CN110738697B (zh) 基于深度学习的单目深度估计方法
CN112163990B (zh) 360度图像的显著性预测方法及系统
CN110443842B (zh) 基于视角融合的深度图预测方法
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
CN110909796A (zh) 一种图像分类方法及相关装置
CN111899295A (zh) 一种基于深度学习的单目场景深度预测方法
CN113450396A (zh) 基于骨骼特征的三维/二维图像配准方法及装置
CN117315169A (zh) 基于深度学习多视密集匹配的实景三维模型重建方法和系统
Shi et al. Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-cnn structure for face super-resolution
Wang et al. Paccdu: pyramid attention cross-convolutional dual unet for infrared and visible image fusion
CN117456078B (zh) 基于多种采样策略的神经辐射场渲染方法、系统和设备
Liu et al. Circle-net: An unsupervised lightweight-attention cyclic network for hyperspectral and multispectral image fusion
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
CN112906675A (zh) 一种固定场景中的无监督人体关键点检测方法及系统
CN115937429A (zh) 一种基于单张图像的细粒度3d人脸重建方法
CN112927304B (zh) 一种基于卷积神经网络的鱼眼镜头标定方法
CN115564969A (zh) 一种全景图显著性预测方法、设备及存储介质
CN115115860A (zh) 一种基于深度学习的图像特征点检测匹配网络
CN115330874A (zh) 基于超像素处理遮挡的单目深度估计方法
CN117853664B (zh) 基于双分支特征融合三维人脸重建方法
CN113688842B (zh) 一种基于解耦合的局部图像特征提取方法
Su et al. Omnidirectional Depth Estimation With Hierarchical Deep Network for Multi-Fisheye Navigation Systems
CN110428441B (zh) 一种基于ica重构误差水平集的多图协同分割方法
Le et al. ACMFNet: Asymmetric Convolutional Feature Enhancement and Multiscale Fusion Network for Change Detection
Wang et al. CasOmniMVS: Cascade Omnidirectional Depth Estimation with Dynamic Spherical Sweeping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant