CN116934647A - 基于空间角度可变形卷积网络的压缩光场质量增强方法 - Google Patents

基于空间角度可变形卷积网络的压缩光场质量增强方法 Download PDF

Info

Publication number
CN116934647A
CN116934647A CN202310989156.6A CN202310989156A CN116934647A CN 116934647 A CN116934647 A CN 116934647A CN 202310989156 A CN202310989156 A CN 202310989156A CN 116934647 A CN116934647 A CN 116934647A
Authority
CN
China
Prior art keywords
light field
compressed
global
determining
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310989156.6A
Other languages
English (en)
Inventor
安平
路勇杰
黄新彭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202310989156.6A priority Critical patent/CN116934647A/zh
Publication of CN116934647A publication Critical patent/CN116934647A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Processing (AREA)

Abstract

本公开提供一种基于空间角度可变形卷积网络的压缩光场质量增强方法,所述方法包括:获取压缩失真光场数据集;根据压缩失真光场数据集的视点位置,确定压缩失真光场数据集的局部视点和全局视点;根据局部视点和空间角度可变形卷积网络,确定压缩失真光场数据集的局部特征;将全局视点进行特征提取处理,确定压缩失真光场数据集的全局特征;将局部特征与全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。通过本公开,采用可变形卷积隐式聚合压缩光场空间特征、角度特征,采用密集残差网络引入全局的残差学习,实现对压缩光场的质量增强。

Description

基于空间角度可变形卷积网络的压缩光场质量增强方法
技术领域
本发明涉及光场处理技术领域,具体地,涉及一种基于空间角度可变形卷积网络的压缩光场质量增强方法、系统、介质及电子设备。
背景技术
光场成像是一种丰富视觉信息的技术,现有的光场成像技术采用四维光场模型,通过记录场景中的空域信息和角度域信息重建出具有沉浸感的三维场景,相比传统成像,角度信息得以利用。在光场成像中,视觉维度维度越高表示视觉数据中的光场的场景理解能力越高,一方面,光场能够完成深度/视觉估计、重聚焦的基础任务,并且,还能够应用于三维重建、图像超分辨率、图像分割、图像增强等领域。然而另一方面,由于光场捕捉额外的光线方向信息,导致光场数据量激增。
目前,对于光场的有损压缩能够实现至少80%的比特率降低,对于光场的无损压缩也能够实现至少60%的比特率降低。但是在实际应用场景中,例如:安防监控、实时视频中,由于硬件或者传输带宽的限制,广场信号需要采用较大的量化参数进行压缩,从而导致压缩失真和伪影。并且,在有损压缩框架中,残差的编码和解码在一定程度上扭曲输入4D光场结构,影响后续的光场处理,如深度估计或者超分辨率。因此,提高低码率环境下光场压缩质量,在不改变当前光场压缩系数的情况下进一步降低码率具有重要研究意义,并且,克服光场压缩与传输过程中产生的失真对于光场技术的发展至关重要。
发明内容
针对现有技术中的缺陷,本公开的目的是提供一种基于空间角度可变形卷积网络的压缩光场质量增强方法、系统、介质及电子设备。
为了实现上述目的,根据本发明的第一方面,提供一种基于空间角度可变形卷积网络的压缩光场质量增强方法,包括:
获取压缩失真光场数据集,所述压缩失真光场数据集包括多种失真等级的压缩光场;
根据所述压缩失真光场数据集的视点位置,确定所述压缩失真光场数据集的局部视点和全局视点;
根据所述局部视点和空间角度可变形卷积网络,确定所述压缩失真光场数据集的局部特征;
将所述全局视点进行特征提取处理,确定所述压缩失真光场数据集的全局特征;
将所述局部特征与所述全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。
可选地,所述根据所述压缩失真光场数据集的视点位置,确定所述压缩失真光场数据集的局部视点和全局视点,包括:
将位于待增强视点的视点位置的上方相邻视点位置、下方相邻视点位置、左侧相邻视点位置、右侧相邻视点位置、左上角相邻视点位置、右上角相邻视点位置、左下角相邻视点位置、右下角相邻视点位置处的视点,确定为局部视点;
将位于所述压缩失真光场数据集的中间行、中间列、左上角至右下角对角线、右上角至左下角对角线上的视点位置处的视点,确定为全局视点。
可选地,所述根据所述局部视点和空间角度可变形卷积网络,确定所述压缩失真光场数据集的局部特征,包括:
将所述局部视点输入空间角度可分离卷积网络,确定预测偏移量和调制系数;
将所述预测偏移量、所述调制系数以及所述局部视点输入所述空间角度可变形卷积网络中,确定所述压缩失真光场数据集的局部特征。
可选地,所述将所述全局视点进行特征提取处理,确定所述压缩失真光场数据集的全局特征,包括:
将位于所述压缩失真光场数据集的中间行上的全局视点输入预设的残差学习与残差网络中,确定第一全局分支特征;
将位于所述压缩失真光场数据集的中间列上的全局视点输入所述预设的残差学习与残差网络中,确定第二全局分支特征;
将位于所述压缩失真光场数据集的左上角至右下角对角线上的全局视点输入所述预设的残差学习与残差网络中,确定第三全局分支特征;
将位于所述压缩失真光场数据集的右上角至左下角对角线上的全局视点输入所述预设的残差学习与残差网络中,确定第四全局分支特征;
将所述第一全局分支特征、所述第二全局分支特征、所述第三全局分支特征、所述第四全局分支特征进行全局分支特征融合处理,确定所述压缩失真光场数据集的全局特征。
可选地,所述将所述局部特征与所述全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像,包括:
将位于同一通道维度上的所述局部特征和所述全局特征进行特征融合处理,确定融合特征;
将所述融合特征输入所述预设的密集残差网络中,确定质量增强的压缩光场生成图像。
可选地,所述获取压缩失真光场数据集,包括:
根据预设的多个量化参数和HEVC编码器随机访问模式,采用高效视频编码方式对光场进行第一编码压缩处理,确定所述压缩失真光场数据集。
可选地,所述获取压缩失真光场数据集,还包括:
根据预设的多个拉格朗日乘子,采用多维光场编码器对光场进行第二编码压缩处理,确定所述压缩失真光场数据集。
根据本公开的第二方面,提供一种基于空间角度可变形卷积网络的压缩光场质量增强系统,包括:
获取模块,用于获取压缩失真光场数据集,所述压缩失真光场数据集包括多种失真等级的压缩光场;
视点确定模块,用于根据所述压缩失真光场数据集的视点位置,确定所述压缩失真光场数据集的局部视点和全局视点;
局部特征确定模块,用于根据所述局部视点和空间角度可变形卷积网络,确定所述压缩失真光场数据集的局部特征;
全局特征确定模块,用于将所述全局视点进行特征提取处理,确定所述压缩失真光场数据集的全局特征;
光场质量增强模块,用于将所述局部特征与所述全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。
根据本公开的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的基于空间角度可变形卷积网络质量增强方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的基于空间角度可变形卷积网络质量增强方法的步骤。
与现有技术相比,本发明实施例具有如下至少一种有益效果:
通过上述技术方案,通过获取压缩失真光场数据集,其中,压缩失真光场数据集包括多种失真等级的压缩光场;并根据压缩失真光场数据集的视点位置,确定压缩失真光场数据集的局部视点和全局视点;根据局部视点和空间角度可变形卷积网络,确定压缩失真光场数据集的局部特征;将全局视点进行特征提取处理,确定压缩失真光场数据集的全局特征;将局部特征与全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。本公开采用空间角度可变形卷积网络隐式聚合光场的空间特征和角度特征,即聚合光场的空间和角度的上下文信息,以充分利用光场的空间信息、角度信息;并且,基于全局特征,防止在提取局部特征期间将干扰噪声引入至目标视点的位置,将局部特征和全局特征进行融合处理,以通过多角度的全局特征网络维护压缩视点的空间结构;采用密集残差网络,引入全局的残差学习,实现网络参数共享和特征重用,保留并传递细粒度的特征信息,提高网络理解能力和表达能力,以对压缩光场质量进行增强,并提升压缩光场质量的量化指标和可视化指标。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据一示例性实施例示出的一种基于空间角度可变形卷积网络的压缩光场质量增强方法的流程图。
图2是根据一示例性实施例示出的一种基于空间角度可变形卷积网络的压缩光场质量增强系统的框图。
图3是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
图1是根据一示例性实施例示出的一种基于空间角度可变形卷积网络的压缩光场质量增强方法的流程图。如图1所示,一种基于空间角度可变形卷积网络的压缩光场质量增强方法,包括S11至S15。
S11,获取压缩失真光场数据集。
其中,压缩失真光场数据集包括多种失真等级的压缩光场。获取压缩失真光场数据集为对光场数据集进行编码并确定与编码对应的相应失真类型的压缩失真光场数据集。
在一种可能的实施例中,获取压缩失真光场数据集的方法,包括:
针对高效视频编码HEVC编码(High Efficiency Video Coding,HEVC),根据预设的多个量化参数和HEVC编码器随机访问模式,采用高效视频编码方式对光场进行第一编码压缩处理,确定压缩失真光场数据集。
其中,通过针对高效视频编码HEVC编码光场,通过设置四个量化参数,可以确定四个失真等级,对原始光场进行编码,确定压缩失真光场数据集。预设的多个量化参数可以采用QP={32,37,42,47},并采用HEVC编码器的随机访问模式,从而确定四个失真等级的压缩光场,组成压缩失真光场数据集。
在另一种可能的实施例中,获取压缩失真光场数据集的方法,还包括:
多维光场编码器MULE(Multidimensional Light field Encoder,MuLE),根据预设的多个拉格朗日乘子,采用多维光场编码器对光场进行第二编码压缩处理,确定压缩失真光场数据集。
其中,针对多维光场编码器MULE,可以在率真优化过程RDO(Rate-distortionoptimization,RDO)中,通过设置四个拉格朗日乘子,确定四个失真等级,对原始光场进行编码,确定压缩失真光场数据集。预设的多个拉格朗日乘子可以为λ={103,104,105,106},从而确定四个失真等级的压缩光场,组成压缩失真光场数据集。
在本公开中,光场数据集可以采用光场数据集EPFL。
S12,根据压缩失真光场数据集的视点位置,确定压缩失真光场数据集的局部视点和全局视点。
其中,压缩失真光场数据集中包括待增强视点VLQ(p)、局部视点和全局视点/>对于每一待增强视点,压缩失真光场数据集按照视点位置划分为局部视点和全局视点。
局部视点用于确定压缩光场的局部特征,其包括压缩光场特有的角度信息,全局视点用于确定压缩光场的全局特征,还用于补充空间特征。
S13,根据局部视点和空间角度可变形卷积网络,确定压缩失真光场数据集的局部特征。
其中,空间角度可变形卷积网络中的可变形卷积用于隐式地聚合光场中的角度信息,以提取局部视点中的局部特征。
S14,将全局视点进行特征提取处理,确定压缩失真光场数据集的全局特征。
其中,特征提取处理包括全局分支特征提取处理和全局分支特征融合处理。全局视点可以包括多组全局视点阵列,将多组全局视点阵列分别输入预设的残差学习与残差网络中,确定每一组全局视点阵列对应的全局分支特征,并将每一组全局视点阵列对应的全局分支特征进行全局分支特征融合处理,确定压缩失真光场数据集的全局特征。
S15,将局部特征与全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。
其中,局部特征和全局特征进行融合处理后形成光场的浅层特征,基于浅层特征,将浅层特征输入预设的密集残差网络中,对光场进行精细化的质量增强,确定质量增强后的压缩光场,从而确定质量增强的压缩光场生成图像。
通过上述技术方案,通过获取压缩失真光场数据集,其中,压缩失真光场数据集包括多种失真等级的压缩光场;并根据压缩失真光场数据集的视点位置,确定压缩失真光场数据集的局部视点和全局视点;根据局部视点和空间角度可变形卷积网络,确定压缩失真光场数据集的局部特征;将全局视点进行特征提取处理,确定压缩失真光场数据集的全局特征;将局部特征与全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。本公开采用空间角度可变形卷积网络隐式聚合光场的空间特征和角度特征,即聚合光场的空间和角度的上下文信息,以充分利用光场的空间信息、角度信息;并且,基于全局特征,防止在提取局部特征期间将干扰噪声引入至目标视点的位置,将局部特征和全局特征进行融合处理,以通过多角度的全局特征网络维护压缩视点的空间结构;采用密集残差网络,引入全局的残差学习,实现网络参数共享和特征重用,保留并传递细粒度的特征信息,提高网络理解能力和表达能力,以对压缩光场质量进行增强,并提升压缩光场质量的量化指标和可视化指标。
在一些可能的实施例中,所述根据所述压缩失真光场数据集的视点位置,确定所述压缩失真光场数据集的局部视点和全局视点,包括S21至S22。
S21,将位于待增强视点的视点位置的上方相邻视点位置、下方相邻视点位置、左侧相邻视点位置、右侧相邻视点位置、左上角相邻视点位置、右上角相邻视点位置、左下角相邻视点位置、右下角相邻视点位置处的视点,确定为局部视点。
作为一种示例,将待增强视点的八个相邻位置的视点作为局部视点,其中,八个相邻位置包括上方相邻位置、下方相邻位置、左侧相邻位置、右侧相邻位置、左上角相邻位置、右上角相邻位置、左下角相邻视点位置、右下角相邻视点位置。
作为另一种示例,若待增强视点的位置处于光场的边缘位置,其八个相邻位置上的视点可能存在不同程度的缺失,则将待增强视点补充至存在视点缺失的相邻位置作为局部视点。
S22,将位于压缩失真光场数据集的中间行、中间列、左上角至右下角对角线、右上角至左下角对角线上的视点位置处的视点,确定为全局视点。
其中,全局视点可以包括多组全局视点阵列,中间行上的全局视点可以作为一组全局视点阵列,中间列上的全局视点可以作为一组全局视点阵列,左上角至右下角对角线上的全局视点可以作为一组全局视点阵列,右上角至左下角对角线上的全局视点可以作为一组全局视点阵列。
作为一种示例,若压缩失真光场数据集的视点阵列的总行数为奇数行,总列数为奇数列,则将压缩失真光场数据集的总行数的中位数所在行作为中间行,总列数的中位数所在列作为中间列。
作为另一种示例,若压缩失真光场数据集的视点阵列的总行数为偶数行,总列数为偶数列,则将压缩失真光场数据集的确定总行数的中位数的两行光场视点的平均值作为中间行上的视点,将确定总列数的中位数的两列光场视点的平均值作为中间列上的视点。示例地,若压缩失真光场数据集中的光场视点总行数为8行,光场视点总列数为8列,则将第四行光场视点和第五行光场视点的平均值作为中间行上的视点,将第四列光场视点和第五列光场视点的平均值作为中间列上的视点。
作为另一种示例,若压缩失真光场数据集的视点阵列的总行数为偶数行,总列数为奇数列,则将压缩失真光场数据集的确定总行数的中位数的两行光场视点的平均值作为中间行上的视点,总列数的中位数所在列作为中间列。
作为另一种示例,若压缩失真光场数据集的视点阵列的总行数为奇数行,总列数为偶数列,则将压缩失真光场数据集的总行数的中位数所在行作为中间行,确定总列数的中位数的两列光场视点的平均值作为中间列上的视点。
通过上述技术方案,基于多角度的全局特征提取,能够克服在提取局部特征期间,将与待增强视点相邻位置的噪声引入至待增强视点所处位置,通过多角度的全局特征网络维护压缩视点的空间结构。
在一些可能的实施例中,所述根据所述局部视点和空间角度可变形卷积网络,确定所述压缩失真光场数据集的局部特征,包括S31至S32。
S31,将局部视点输入空间角度可分离卷积网络,确定预测偏移量和调制系数。
其中,预测偏移量表示压缩光场在每一空间位置上的偏移信息,预测偏移量用于调节卷积核在输入特征图像上的采样位置,调制系数用于调节卷积核在不同采样位置上的采样权重。
将构建的局部视点输入空间角度可分离卷积网络中,扩大感受野并捕捉高角度动态,并通过空间卷积单元提取空间特征、通过角度卷积单元提取角度特征,并基于空间特征和角度特征交互后的特征进行偏移预测处理,确定可变形卷积的预测偏移量Δpk和调制系数Δmk
S32,将预测偏移量、调制系数以及局部视点输入空间角度可变形卷积网络中,确定压缩失真光场数据集的局部特征。
根据预测偏移量Δpk和调制系数Δmk,动态调整空间角度可变形卷积网络的卷积核的位置和尺寸,获取压缩失真光场数据集的角度变化和局部特征。
作为一种示例,通过如下公式确定压缩失真光场数据集的局部特征:
其中,FL(p)表示局部特征,表示局部视点,pk表示具有K个采样点的采样网格,wk表示每个采样位置p的权重,Δpk表示预测偏移量,Δmk表示调制系数。
通过上述技术方案,采用空间角度可变形卷积,隐式聚合光场的空间信息、角度信息,充分利用光场的空间信息、角度信息,以获取局部特征。
在一些可能的实施例中,所述将所述全局视点进行特征提取处理,确定所述压缩失真光场数据集的全局特征,包括S41至S45。
S41,将位于压缩失真光场数据集的中间行上的全局视点输入预设的残差学习与残差网络中,确定第一全局分支特征。
S42,将位于压缩失真光场数据集的中间列上的全局视点输入预设的残差学习与残差网络中,确定第二全局分支特征。
S43,将位于压缩失真光场数据集的左上角至右下角对角线上的全局视点输入预设的残差学习与残差网络中,确定第三全局分支特征。
S44,将位于压缩失真光场数据集的右上角至左下角对角线上的全局视点输入预设的残差学习与残差网络中,确定第四全局分支特征。
通过上述S41至S44,将每一组全局视点阵列分别输入至预设的残差学习与残差网络中,提取每一组全局视点阵列对应的全局分支特征。
S45,将第一全局分支特征、第二全局分支特征、第三全局分支特征、第四全局分支特征进行全局分支特征融合处理,确定压缩失真光场数据集的全局特征。
接上述示例,将每一组全局视点阵列对应的全局分支特征进行全局分支特征融合处理,以确定压缩失真光场数据集的全局特征FG(p)。
通过上述技术方案,实现基于确定的全局视点构建多角度全局特征网络,以采用全局特征网络维护压缩视点的空间结构。
在一些可能的实施例中,所述将所述局部特征与所述全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像,包括S51至S52。
S51,将位于同一通道维度上的局部特征和全局特征进行特征融合处理,确定融合特征。
将局部特征FL(p)与全局特征FG(p),在通道维度上进行特征融合处理,以将位于同一通道维度上的局部特征FL(p)与全局特征FG(p),进行特征融合,并确定融合后的融合特征F(p),即浅层特征。
S52,将融合特征输入预设的密集残差网络中,确定质量增强的压缩光场生成图像。
接上述示例,对于融合特征F(p),即浅层特征,输入预设的密集残差网络中进行压缩光场的精细化质量增强,并确定质量增强的压缩光场生成图像VEH(p)。
在一种可能的实施例中,基于融合特征对于压缩光场的精细化质量增强包括:
基于密集残差网络,结合密集链接和残差网络,获取融合特征的分层特征,并将分层特征进行分层特征融合处理,自适应地确定融合特征的局部分层特征。
将局部分层特征进行局部分层特征融合处理,以自适应地全局保留分层特征。
通过上述技术方案,密集链接能够保证充分传递并共享网络特征,残差网络能够促进梯度的快速传播和网络训练,从而引入全局的残差学习,实现网络参数共享和特征重用,保留并传递细粒度的特征信息,提高网络理解能力和表达能力,以对光场质量进行增强,进而提升光场质量的量化指标和可视化指标。
基于同一构思,本公开还提供一种基于空间角度可变形卷积网络的压缩光场质量增强系统,图2是根据一示例性实施例示出的一种基于空间角度可变形卷积网络的压缩光场质量增强系统的框图。参照图2,该基于空间角度可变形卷积网络的压缩光场质量增强系统100,包括:获取模块110、视点确定模块120、局部特征确定模块130、全局特征确定模块140、光场质量增强模块150。
获取模块110,用于获取压缩失真光场数据集,所述压缩失真光场数据集包括多种失真等级的压缩光场;
视点确定模块120,用于根据所述压缩失真光场数据集的视点位置,确定所述压缩失真光场数据集的局部视点和全局视点;
局部特征确定模块130,用于根据所述局部视点和空间角度可变形卷积网络,确定所述压缩失真光场数据集的局部特征;
全局特征确定模块140,用于将所述全局视点进行特征提取处理,确定所述压缩失真光场数据集的全局特征;
光场质量增强模块150,用于将所述局部特征与所述全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。
通过上述技术方案,通过获取压缩失真光场数据集,其中,压缩失真光场数据集包括多种失真等级的压缩光场;并根据压缩失真光场数据集的视点位置,确定压缩失真光场数据集的局部视点和全局视点;根据局部视点和空间角度可变形卷积网络,确定压缩失真光场数据集的局部特征;将全局视点进行特征提取处理,确定压缩失真光场数据集的全局特征;将局部特征与全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。本公开采用空间角度可变形卷积网络隐式聚合光场的空间特征和角度特征,即聚合光场的空间和角度的上下文信息,以充分利用光场的空间信息、角度信息;并且,基于全局特征,防止在提取局部特征期间将干扰噪声引入至目标视点的位置,将局部特征和全局特征进行融合处理,以通过多角度的全局特征网络维护压缩视点的空间结构;采用密集残差网络,引入全局的残差学习,实现网络参数共享和特征重用,保留并传递细粒度的特征信息,提高网络理解能力和表达能力,以对压缩光场质量进行增强,并提升压缩光场质量的量化指标和可视化指标。
可选地,视点确定模块120,包括:
局部视点确定子模块,用于将位于待增强视点的视点位置的上方相邻视点位置、下方相邻视点位置、左侧相邻视点位置、右侧相邻视点位置、左上角相邻视点位置、右上角相邻视点位置、左下角相邻视点位置、右下角相邻视点位置处的视点,确定为局部视点;
全局视点确定子模块,用于将位于所述压缩失真光场数据集的中间行、中间列、左上角至右下角对角线、右上角至左下角对角线上的视点位置处的视点,确定为全局视点。
可选地,局部特征确定模块130,包括:
第一确定子模块,用于将所述局部视点输入空间角度可分离卷积网络,确定预测偏移量和调制系数;
局部特征确定子模块,用于将所述预测偏移量、所述调制系数以及所述局部视点输入所述空间角度可变形卷积网络中,确定所述压缩失真光场数据集的局部特征。
可选地,全局特征确定模块140,包括:
第一全局分支特征确定子模块,用于将位于所述压缩失真光场数据集的中间行上的全局视点输入预设的残差学习与残差网络中,确定第一全局分支特征;
第二全局分支特征确定子模块,用于将位于所述压缩失真光场数据集的中间列上的全局视点输入所述预设的残差学习与残差网络中,确定第二全局分支特征;
第三全局分支特征确定子模块,用于将位于所述压缩失真光场数据集的左上角至右下角对角线上的全局视点输入所述预设的残差学习与残差网络中,确定第三全局分支特征;
第四全局分支特征确定子模块,用于将位于所述压缩失真光场数据集的右上角至左下角对角线上的全局视点输入所述预设的残差学习与残差网络中,确定第四全局分支特征;
全局特征确定子模块,用于将所述第一全局分支特征、所述第二全局分支特征、所述第三全局分支特征、所述第四全局分支特征进行全局分支特征融合处理,确定所述压缩失真光场数据集的全局特征。
可选地,光场质量增强模块150,包括:
融合特征确定子模块,用于将位于同一通道维度上的所述局部特征和所述全局特征进行特征融合处理,确定融合特征;
光场质量增强子模块,用于将所述融合特征输入所述预设的密集残差网络中,确定质量增强的压缩光场生成图像。
可选地,获取模块110,还用于根据预设的多个量化参数和HEVC编码器随机访问模式,采用高效视频编码方式对光场进行第一编码压缩处理,确定所述压缩失真光场数据集。
可选地,获取模块110,还用于根据预设的多个拉格朗日乘子,采用多维光场编码器对光场进行第二编码压缩处理,确定所述压缩失真光场数据集。
图3是根据一示例性实施例示出的一种电子设备的框图。如图3所示,该电子设备300可以包括:处理器301,存储器302。该电子设备300还可以包括多媒体组件303,输入/输出接口304,以及通信组件305中的一者或多者。
其中,处理器301用于控制该电子设备300的整体操作,以完成上述第一方面的基于空间角度可变形卷积网络质量增强方法中的全部或者部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器,用于输出音频信号。输入/输出接口304为处理器301和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件305可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在另一示例性实施例中,还提供了一种包括程序指令的非临时性计算机可读存储介质,该程序指令被处理器执行时实现上述的第一方面的基于空间角度可变形卷积网络质量增强方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由电子设备的处理器执行以完成上述基于空间角度可变形卷积网络质量增强方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的基于空间角度可变形卷积网络质量增强方法的代码部分。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

Claims (10)

1.一种基于空间角度可变形卷积网络的压缩光场质量增强方法,其特征在于,包括:
获取压缩失真光场数据集,所述压缩失真光场数据集包括多种失真等级的压缩光场;
根据所述压缩失真光场数据集的视点位置,确定所述压缩失真光场数据集的局部视点和全局视点;
根据所述局部视点和空间角度可变形卷积网络,确定所述压缩失真光场数据集的局部特征;
将所述全局视点进行特征提取处理,确定所述压缩失真光场数据集的全局特征;
将所述局部特征与所述全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述压缩失真光场数据集的视点位置,确定所述压缩失真光场数据集的局部视点和全局视点,包括:
将位于待增强视点的视点位置的上方相邻视点位置、下方相邻视点位置、左侧相邻视点位置、右侧相邻视点位置、左上角相邻视点位置、右上角相邻视点位置、左下角相邻视点位置、右下角相邻视点位置处的视点,确定为局部视点;
将位于所述压缩失真光场数据集的中间行、中间列、左上角至右下角对角线、右上角至左下角对角线上的视点位置处的视点,确定为全局视点。
3.根据权利要求1所述的方法,其特征在于,所述根据所述局部视点和空间角度可变形卷积网络,确定所述压缩失真光场数据集的局部特征,包括:
将所述局部视点输入空间角度可分离卷积网络,确定预测偏移量和调制系数;
将所述预测偏移量、所述调制系数以及所述局部视点输入所述空间角度可变形卷积网络中,确定所述压缩失真光场数据集的局部特征。
4.根据权利要求2所述的方法,其特征在于,所述将所述全局视点进行特征提取处理,确定所述压缩失真光场数据集的全局特征,包括:
将位于所述压缩失真光场数据集的中间行上的全局视点输入预设的残差学习与残差网络中,确定第一全局分支特征;
将位于所述压缩失真光场数据集的中间列上的全局视点输入所述预设的残差学习与残差网络中,确定第二全局分支特征;
将位于所述压缩失真光场数据集的左上角至右下角对角线上的全局视点输入所述预设的残差学习与残差网络中,确定第三全局分支特征;
将位于所述压缩失真光场数据集的右上角至左下角对角线上的全局视点输入所述预设的残差学习与残差网络中,确定第四全局分支特征;
将所述第一全局分支特征、所述第二全局分支特征、所述第三全局分支特征、所述第四全局分支特征进行全局分支特征融合处理,确定所述压缩失真光场数据集的全局特征。
5.根据权利要求1所述的方法,其特征在于,所述将所述局部特征与所述全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像,包括:
将位于同一通道维度上的所述局部特征和所述全局特征进行特征融合处理,确定融合特征;
将所述融合特征输入所述预设的密集残差网络中,确定质量增强的压缩光场生成图像。
6.根据权利要求1所述的方法,其特征在于,所述获取压缩失真光场数据集,包括:
根据预设的多个量化参数和HEVC编码器随机访问模式,采用高效视频编码方式对光场进行第一编码压缩处理,确定所述压缩失真光场数据集。
7.根据权利要求6所述的方法,其特征在于,所述获取压缩失真光场数据集,还包括:
根据预设的多个拉格朗日乘子,采用多维光场编码器对光场进行第二编码压缩处理,确定所述压缩失真光场数据集。
8.一种基于空间角度可变形卷积网络的压缩光场质量增强系统,其特征在于,包括:
获取模块,用于获取压缩失真光场数据集,所述压缩失真光场数据集包括多种失真等级的压缩光场;
视点确定模块,用于根据所述压缩失真光场数据集的视点位置,确定所述压缩失真光场数据集的局部视点和全局视点;
局部特征确定模块,用于根据所述局部视点和空间角度可变形卷积网络,确定所述压缩失真光场数据集的局部特征;
全局特征确定模块,用于将所述全局视点进行特征提取处理,确定所述压缩失真光场数据集的全局特征;
光场质量增强模块,用于将所述局部特征与所述全局特征进行融合处理后输入预设的密集残差网络,确定质量增强的压缩光场生成图像。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202310989156.6A 2023-08-08 2023-08-08 基于空间角度可变形卷积网络的压缩光场质量增强方法 Pending CN116934647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310989156.6A CN116934647A (zh) 2023-08-08 2023-08-08 基于空间角度可变形卷积网络的压缩光场质量增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310989156.6A CN116934647A (zh) 2023-08-08 2023-08-08 基于空间角度可变形卷积网络的压缩光场质量增强方法

Publications (1)

Publication Number Publication Date
CN116934647A true CN116934647A (zh) 2023-10-24

Family

ID=88380811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310989156.6A Pending CN116934647A (zh) 2023-08-08 2023-08-08 基于空间角度可变形卷积网络的压缩光场质量增强方法

Country Status (1)

Country Link
CN (1) CN116934647A (zh)

Similar Documents

Publication Publication Date Title
US10750179B2 (en) Decomposition of residual data during signal encoding, decoding and reconstruction in a tiered hierarchy
US11689713B2 (en) Predicted frame generation by deformable convolution for video coding
CN108028945A (zh) 通过使用单例系数更新执行变换的设备和方法
US20220303537A1 (en) Method and device for encoding/decoding video signal by using optimized conversion based on multiple graph-based model
EP4300958A1 (en) Video image encoding method, video image decoding method and related devices
US20230276063A1 (en) Npu for encoding or decoding videostream format for machine analisys
CN115552905A (zh) 用于图像和视频编码的基于全局跳过连接的cnn滤波器
CN115604485A (zh) 视频图像的解码方法及装置
US10893274B2 (en) Method for processing video signal on basis of arbitrary partition transform
JP7482232B2 (ja) 時間変形可能畳み込みによるディープループフィルタ
US11641470B2 (en) Planar prediction mode for visual media encoding and decoding
Cao et al. Oodhdr-codec: Out-of-distribution generalization for hdr image compression
US11259005B1 (en) Method for compressing light-field data
Kavitha et al. A survey of image compression methods for low depth-of-field images and image sequences
CN116934647A (zh) 基于空间角度可变形卷积网络的压缩光场质量增强方法
CN116939218A (zh) 区域增强层的编解码方法和装置
Kumar et al. A novel method for image compression using spectrum
US20240193819A1 (en) Learning-based point cloud compression via tearing transform
WO2023113917A1 (en) Hybrid framework for point cloud compression
Al-Khafaji et al. Fixed Predictor Polynomial Coding for Image Compression
KR20240107131A (ko) 적응적 포인트 생성을 통한 학습 기반 포인트 클라우드 압축
WO2024163481A1 (en) A method and an apparatus for encoding/decoding at least one part of an image using multi-level context model
WO2023081009A1 (en) State summarization for binary voxel grid coding
KR20240153692A (ko) 머신 분석을 위한 비트스트림 포맷을 인코딩 또는 디코딩하는 npu
CN118842912A (zh) 一种编码方法、解码方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination