CN116055731A - 一种面向内容感知超高清视频的编解码方法及相关装置 - Google Patents

一种面向内容感知超高清视频的编解码方法及相关装置 Download PDF

Info

Publication number
CN116055731A
CN116055731A CN202310035066.3A CN202310035066A CN116055731A CN 116055731 A CN116055731 A CN 116055731A CN 202310035066 A CN202310035066 A CN 202310035066A CN 116055731 A CN116055731 A CN 116055731A
Authority
CN
China
Prior art keywords
frame
network
image frame
current image
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310035066.3A
Other languages
English (en)
Inventor
孟现东
王诗淇
王苫社
马思伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202310035066.3A priority Critical patent/CN116055731A/zh
Publication of CN116055731A publication Critical patent/CN116055731A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了一种面向内容感知超高清视频的编解码方法及相关装置,所述编码方法包括:确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于编码块的边界划分信息确定的;基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。本申请通过基于深度神经网络的非线性预测能力,通过编码过程中的预测信息与划分信息来对重构帧进行增强,然后解码过程中基于增强后的目标重构帧确定解码视频帧,提升了解码视频帧的图像质量。

Description

一种面向内容感知超高清视频的编解码方法及相关装置
技术领域
本申请涉及视频编解码技术领域,特别涉及一种面向内容感知超高清视频的编解码方法及相关装置。
背景技术
近年来,超高清视频(如,4K/8K)的应用领域越来越广泛,除常见的电视、电影、直播等泛娱乐领域,还广泛应用于医疗健康、在线教育、工业制造、智能交通等领域。为满足8K及5G的产业需求,我国AVS工作组开展了第三代标准AVS3的制定,最新编码性能比HEVC提升超过30%。由于编码视频的最终接收方是人眼,AVS3的核心理论为编码率失真,因此不能有效反映人眼对失真的感知特性。另外,传统编码框架还存在忽视视频内容多样性、编码性能达到瓶颈等问题。因此,面向AVS3标准,结合视觉感知特性,以人眼视觉为中心的面向4K/8K超高清视频的内容感知编解码器(content aware codec,CAC)被提出,CAC框架以视频内容感知建模为基础,通过空域变分辨率编码、时域变帧率编码、动态位深编码、内容感知率失真优化、解码增强等技术进一步去除视觉信息冗余,突破超高清视频编码效率提升的瓶颈,实现在主观视觉质量相同的条件下码率的大幅节省。
由于4K/8K视频具有很大空时域冗余,变分辨率编码技术被引入AVS3框架,以降低冗余信息提升编码效率,不过,AVS3的编码分辨率改变只能通过插入带有新分辨率设置的I帧实现。而I帧通常会消耗更多的编解码时间和比特数。当需要频繁变化编码分辨率时,插入的I帧将会为编解码器带来较大的计算负担,并且I帧消耗的更多比特会使得整体编码性能有较大下降。因此,为了能够通过任意帧的变编码分辨率来获得更优的编码性能,CAC平台支持了任意帧的变分辨率编码,将原视频下采样之后进行编码,即下采样编码,在每帧图像的图像头中写入了下采样标识位(downsamp l e_f l ag),用来表示当前帧是否下采样编码。若该标识等于1,则表示当前帧使用原始分辨率进行编解码;否则,表示当前帧使用下采样编码。其中,下采样编码的滤波器为12-Tap滤波器,任意帧的分辨率切换,尤其是非I帧的分辨率切换,会对帧间预测带来较大的问题。
原有AVS3固定分辨率框架中,非I帧的参考帧都是相同分辨率的。因此,在进行运动估计和运动补偿时,很容易找到对应的参考块,且不需要额外的缩放操作。但是当非I帧支持分辨率切换之后,会导致异分辨率参考的情况出现。为实现简单,CAC在一帧编码完成之后将重构帧采用DCT插值滤波(DCT I F)方法缩放至原始分辨率大小,采用8阶对称插值滤波器实现半像素亮度插值,采用7阶非对称插值滤波器实现1/4像素亮度插值,采用4阶插值滤波器实现色度插值。这样,所有的帧都会缩放至原始分辨率,在进行帧间预测时,待编码帧和参考帧的分辨率相同,原有框架中的运动估计和运动补偿模块可以正常运行。然而,DCT I F的设计是基于信号理论,基于固定系数进行滤波操作,不能自适应低根据视频数据进行系数调整,从而影响重构帧的图像质量。
因而现有技术还有待改进和提高。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种面向内容感知超高清视频的编解码方法及相关装置。
为了解决上述技术问题,本申请实施例第一方面提供了一种面向内容感知超高清视频的编解码方法,所述编解码方法中的编码过程包括:
确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于编码块的边界划分信息确定的;
基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。
所述面向内容感知超高清视频的编解码方法,其中,所述获取当前图像帧的划分图具体包括:
获取当前图像帧的编码块的边界划分信息;
根据所述边界划分信息对各编码块的像素取均值,以得到划分图。
所述面向内容感知超高清视频的编解码方法,其中,所述环内滤波器包括特征融合子网、信息提取子网以及融合子网络;所述基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧具体包括:
将所述重构帧、划分图以及预测帧输入特征融合子网络,通过所述特征融合子网络确定融合特征;
将所述融合特征输入所述信息提取子网络,通过所述信息提取子网络输出特征图像帧;
将所述特征图像帧和所述重构帧输入融合子网络,通过融合子网络输出目标重构帧。
所述面向内容感知超高清视频的编解码方法,其中,所述信息提取子网络包括依次级联第一卷积层、第二卷积层、若干残差块、第三卷积层以及像素重组层。
所述面向内容感知超高清视频的编解码方法,其中,所述编解码方法中的解码过程包括:
获取解码图像帧,并将所述解码图像帧输入采样增强子网络,通过采样增强子网络确定当前图像帧对应的输出视频帧。
所述面向内容感知超高清视频的编解码方法,其中,所述采样增强子网络包括依次连接的卷积层、DB l ock单元、卷积单元、加法器以及上采样层,其中,所述加法器的输入项包括所述卷积层的输出项。
所述面向内容感知超高清视频的编解码方法,其中,所述DB l ock单元包括若干DB l ock块,相邻两个DB l ock块中前一DB l ock块的输出项为后一DB l ock块的输入项,各DB l ock块的输出项叠加构成DB l ock单元的输出项。
本申请实施例第二方面提供了一种面向内容感知超高清视频的编解码装置,其包含编码器和解码器,所述编码器包括至少一个存储器和耦合到所述至少一个存储器的一个或多个处理器,所述一个或多个处理器被配置为:
确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于编码块的边界划分信息确定的;
基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。
所述的面向内容感知超高清视频的编解码装置,其中,所述解码器包括至少一个存储器和耦合到所述至少一个存储器的一个或多个处理器,所述一个或多个处理器被配置为:
获取解码图像帧,并将所述解码图像帧输入采样增强子网络,通过采样增强子网络确定当前图像帧对应的输出视频帧。
本申请实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的面向内容感知超高清视频的编解码方法中的步骤。
有益效果:与现有技术相比,本申请提供了一种面向内容感知超高清视频的编解码方法及相关装置,所述编码方法包括:确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于编码块的边界划分信息确定的;基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。本申请通过基于深度神经网络的非线性预测能力,通过编码过程中的预测信息与划分信息来对重构帧进行增强,然后解码过程中基于增强后的目标重构帧确定解码视频帧,提升了解码视频帧的图像质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的面向内容感知超高清视频的编解码方法中的编码过程的流程图。
图2为下采样编码技术的流程图。
图3为本申请提供的面向内容感知超高清视频的编解码方法的原理流程图。
图4为特征融合子网络的结构原理图。
图5为信息提取子网络的结构原理图。
图6为残差块的结构原理图。
图7为采样增强子网络的结构原理图。
图8为DB l ock块的结构原理图。
图9为滤波模式决策算法的流程图。
具体实施方式
本申请提供一种面向内容感知超高清视频的编解码方法及相关装置,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
经过研究发现,超高清视频(如,4K/8K)的应用领域越来越广泛,除常见的电视、电影、直播等泛娱乐领域,还广泛应用于医疗健康、在线教育、工业制造、智能交通等领域。为满足8K及5G的产业需求,我国AVS工作组开展了第三代标准AVS3的制定,最新编码性能比HEVC提升超过30%。由于编码视频的最终接收方是人眼,AVS3的核心理论为编码率失真,因此不能有效反映人眼对失真的感知特性。另外,传统编码框架还存在忽视视频内容多样性、编码性能达到瓶颈等问题。因此,面向AVS3标准,结合视觉感知特性,以人眼视觉为中心的面向4K/8K超高清视频的内容感知编解码器(content aware codec,CAC)被提出,CAC框架以视频内容感知建模为基础,通过空域变分辨率编码、时域变帧率编码、动态位深编码、内容感知率失真优化、解码增强等技术进一步去除视觉信息冗余,突破超高清视频编码效率提升的瓶颈,实现在主观视觉质量相同的条件下码率的大幅节省。
由于4K/8K视频具有很大空时域冗余,变分辨率编码技术被引入AVS3框架,以降低冗余信息提升编码效率,不过,AVS3的编码分辨率改变只能通过插入带有新分辨率设置的I帧实现。而I帧通常会消耗更多的编解码时间和比特数。当需要频繁变化编码分辨率时,插入的I帧将会为编解码器带来较大的计算负担,并且I帧消耗的更多比特会使得整体编码性能有较大下降。因此,为了能够通过任意帧的变编码分辨率来获得更优的编码性能,CAC平台支持了任意帧的变分辨率编码,将原视频下采样之后进行编码,即下采样编码,在每帧图像的图像头中写入了下采样标识位(downsamp l e_f l ag),用来表示当前帧是否下采样编码。若该标识等于1,则表示当前帧使用原始分辨率进行编解码;否则,表示当前帧使用下采样编码。其中,下采样编码的滤波器为12-Tap滤波器,任意帧的分辨率切换,尤其是非I帧的分辨率切换,会对帧间预测带来较大的问题。
原有AVS3固定分辨率框架中,非I帧的参考帧都是相同分辨率的。因此,在进行运动估计和运动补偿时,很容易找到对应的参考块,且不需要额外的缩放操作。但是当非I帧支持分辨率切换之后,会导致异分辨率参考的情况出现。为实现简单,CAC在一帧编码完成之后将重构帧采用DCT插值滤波(DCT I F)方法缩放至原始分辨率大小,采用8阶对称插值滤波器实现半像素亮度插值,采用7阶非对称插值滤波器实现1/4像素亮度插值,采用4阶插值滤波器实现色度插值。这样,所有的帧都会缩放至原始分辨率,在进行帧间预测时,待编码帧和参考帧的分辨率相同,原有框架中的运动估计和运动补偿模块可以正常运行。然而,DCT I F的设计是基于信号理论,基于固定系数进行滤波操作,不能自适应低根据视频数据进行系数调整,从而影响重构帧的图像质量。
为了解决上述问题,在本申请实施例中,确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于编码块的边界划分信息确定的;基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。本申请通过基于深度神经网络的非线性预测能力,通过编码过程中的预测信息与划分信息来对重构帧进行增强,然后解码过程中基于增强后的目标重构帧确定解码视频帧,提升了解码视频帧的图像质量。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施例提供了一种面向内容感知超高清视频的编解码方法,如图1所示,所述方法包括:
S10、确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于编码块的边界划分信息确定的。
具体地,当前图像帧为超高清视频中的一经过下采样的图像帧,即当前图像帧为经过下采样的低分辨率图像,其中,重构帧的分辨率、预测帧的分辨率以及划分图的分辨率均等于当前图像帧的分辨率。本实施例中的编解码方法所采用的面向内容感知的空域变分辨率编码框架引入了下采样编码技术,如图2所示,在对当前图像帧进行编码时,会通过将当前图像帧的下采样编码的采样失真与预设失真阈值进行比较,当采样失真小于预设失真阈值时,认为下采样编码能够带来编码性能增益,选择低分辨率作为当前图像帧的编码分辨率(即进行下采样编码);反之,采样失真大于或者等于预设失真阈值,则下采样编码不能够带来编码性能增益,采用当前图像帧的原始分辨率进行编码(即不进行下采样编码)。
进一步,在当前图像帧进行下采样编码后,在对解码当前图像帧时需要通过上采样技术将分辨率恢复到原始分辨率。然而,对于两倍降采样编码,下采样操作会丢失3/4的编码内容,对于更高采样率的编码视频,丢失的内容会更多,这对解码端上采样操作带来巨大挑战,尤其是对中低码率编码时,这种失真会更加明显。由此,在对当前图像帧进行下采样编码后,需要对当前图像帧进行处理以提高当前图像帧的重构帧的图像质量。基于此,在获取到当前图像帧的重构帧后,通过预测帧所携带的预测信息和划分图所携带的划分信息作为辅助信息,对重构帧进行环内滤波,以提升后续得到的目标重构帧的预测精度,进而可以提高当前图像帧对应的重构帧的图像质量。
重构帧为当前图像帧编码重构出的失真图像,预测帧为基于当前图像帧和其相邻帧的时空信息(例如,运动估计等)确定的预测图像帧,划分图为基于当前图像帧对应的编码块划分信息确定的图像帧,其中,预测帧携带有当前图像帧对应的预测信息,划分图携带有当前图像帧的编码块划分信息。
在一个实现方式中,所述获取当前图像帧的划分图具体包括:
获取当前图像帧的编码块的边界划分信息;
根据所述边界划分信息对各编码块的像素取均值,以得到划分图。
具体地,编码块为采用分块编码原理对当前图像帧进行编码所形成的,即当前图像帧为基于块划分的视频编码框架进行编码,编码块为在底层对单元应用变换而产生变换单元映射(TU),其中,当前图像帧中的平滑区域对应的大尺寸TU,小尺寸TU用于物体边缘或具有纹理细节区域。由此,基于所述编码块的边界划分信息来生成划分图,可以获取到当前图像块中的物体边缘和纹理信息,从而可以实现更好的编码重构帧的质量提升。此外,编码块的边界划分信息存储于编码位流中,可以通过对编码位流进行解码得到。本实施例通过基于编码块的边界划分信息形成划分图,并基于划分图、预测图和重构帧来确定第二重构图像,这样一方面可以将编码误差的分布与每帧内具有丰富纹理和细节的对象边缘和区域联系起来,生成划分图指导环内滤波器关注这些纹理丰富及物体边界区域,从而可以提高经过环内滤波器确定第二重构图像的图像质量,另一方面即解决了无法在解码器端无法准确获取编码误差,又避免在编码器端提取编码误差所需要大量位来表示的问题。
进一步,在获取到边界信息后,基于边界信息将当前图像帧划分为若干图像块,其中,每个图像块均为一个编码块。然而,对于每个图像块,计算该图像块中的所有像素点的像素值的均值,并采用所述均值替换该图像块中的各像素点的像素值,以得到划分图。也就是说,划分图是以编码块为单位,包含编码块的边界划分信息,可以指引环内滤波器关注边界信息。
S20、基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。
具体地,所述环内滤波器为经过训练的滤波网络模型,环内滤波器的输入项为重构帧、划分图以及预测帧,输出项为目标重构帧,其中,目标重构帧的图像质量高于重构帧。在一个实现方式中,如图3所示,环内滤波器包括特征融合子网络、信息提取子网络以及融合子网络,所述特征融合子网络与所述信息提取子网络相连接,信息提取子网络与融合子网络相连接,特征融合子网络用于将重构帧、划分图和预测帧融合,信息提取子网络用于提取特征融合子网络输出的融合特征所携带的特征信息,融合子网络用于将信息提取子网络提取的特征信息与重构帧进行融合以增强重构帧。
由此,所述基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧具体包括:
将所述重构帧、划分图以及预测帧输入特征融合子网络,通过所述特征融合子网络确定融合特征;
将所述融合特征输入所述信息提取子网络,通过所述信息提取子网络输出特征图像帧;
将所述特征图像帧和所述重构帧输入融合子网络,通过融合子网络输出目标重构帧。
具体地,如图4所示,所述特征融合子网络包括三个卷积层和一连接层,三个卷积层并行且均与连接层相连接,其中,三个卷积层中一个卷积层的输入项重构帧、一个卷积层的输入项为预测帧,一个卷积层的输入项为划分图,每个卷积层的输出项均为连接层的输入项,通过连接层将三个卷积层的输出项进行连接,以得到融合特征。在一个具体实现方式中,三个卷积层的卷积参数可以均为1*72*3*3。
如图5所示,信息提取子网络包括第一卷积层、第二卷积层、若干残差块、第三卷积层以及像素重组层,其中,第一卷积层与第二卷积层相连接,第二卷积层与若干残差块中位于最前的残差块相连接,若干残差块依次级联,位于最后的残差块与第三卷积层相连接,第三卷积层与像素重组层相连接。在一个具体实现方式中,第一卷积层、第二卷积层和第三卷积层的卷积参数分别为288*72*1*1;72*72*3*3,s2;72*3*3*3;残差块采用ResB l ock块,像素重组层采用Pi xe l shuff l e,通过Pi xe l shuff l e将第三卷卷层输出的低分辨的特征图,通过卷积和多通道间的重组得到高分辨率的特征图像帧。
如图6所示,所述残差块包括三个级联的卷积层和加法器,三个级联的卷积层中位于最后的卷积层的输出项为加法器的输入项,同时,三个级联的卷积层中位于最前的卷积层的输入项为加法器的输入项。也就是说,加法器的输入项包括位于最前的卷积层的输入项和位于最后的卷积层的输出项。在一个实现方式中,三个卷积层的卷积参数分别为72*144*1*1;144*72*1*1;72*72*3*3。
如图3所示,融合子网络包括加法器,加法器的输入项为信息提取子网络的输出项和重构帧,也就是说,通过加法器将信息提取值网络提取到的特征图像帧添加至重构帧上,得到对重构帧进行增强后的第二重构图,其中,第二重构图的分辨率等于重构帧的分辨率。
本实施例通过采用基于深度学习的环内滤波器构建失真图像到原始图像的映射,同时引入编码过程中的预测信息和划分信息作为辅助信息输入环内滤波器,提升了经过环内滤波器输出的第二重构图的图像质量。同时,通过优化环内滤波器的网络结构,降低了环内滤波器的计算复杂度。
在一个实现方式中,由于当前图像帧进行下采样,从而在解码端需要对重构图进行上采样,以将重构图恢复值原始分辨率。基于此,所述编解码方法中的解码过程包括:
获取解码图像帧,并将所述解码图像帧输入采样增强子网络,通过采样增强子网络确定当前图像帧对应的输出视频帧。
具体地,解码图像帧为基于当前视频帧对应的编码码流确定得到的,所述采样增强子网络用于对解码图像帧进行上采样,其中,输出视频帧的分辨率大于解码图像帧的分辨率,解码图像帧的分辨率等于当前图像帧的分辨率,输出视频帧的分辨率等于目标图像帧的分辨率,当前图像帧为通过对目标图像帧进行下采样得到的。例如,目标图像帧为超清视频中的一个视频帧,当前图像帧为对视频帧进行下采样得到的;解码图像帧为基于当前图像帧对应的编码码流确定的,分辨率等于当前图像帧的分辨率;输出视频帧为对解码图像帧进行上采样得到的,分辨率等于视频帧的分辨率。
如图7所示,采样增强子网络包括卷积层、DB l ock单元、卷积单元、加法器以及上采样层,卷积层与DB l ock单元相连接,DB l ock单元单元与卷积单元相连接,卷积单元与加法器相连接,卷积层的输出项与加法器相连接,加法器与上采样层相连接,其中,DB lock单元的输入项为卷积层的输出项,卷积单元的输入项为DB l ock单元的输出项,加法器的输入项为卷积层的输出项和卷积单元的输出项,上采样层的输入项为加法器的输出项。此外,如图7所示,采样增强子网络的卷积层的卷积参数为64*64*3*3;采样增强子网络中的卷积单元包括两个级联的卷积层,两个级联的卷积层的卷积参数分别为64*64*1*1和64*64*3*3。
进一步,DB l ock单元包括若干DB l ock块,若干DB l ock块依次级联,按照级联顺序相邻的两个DB l ock块中前一DB l ock块的输出项为后一DB l ock块的输入项,并且各DB l ock块的输出项依次叠加为DB l ock块单元的输出项。其中,如图8所示,DB l ock块包括若干级联的第一卷积层、连接层、第二卷积层以及加法器,各第一卷积层均与连接层相连接,连接层与第二卷积层相连接,第二卷积层与加法器相连接;其中,加法器的输入项为第二卷积层的输出项为若干级联的第一卷积层中位于最前的第一卷积层的输入项;连接层的输入项为各第一卷积层的输出项。
在一个实现方式中,本实施例提供的面向内容感知超高清视频的编解码方法可以基于CAC平台,并且CAC平台部署有上述环内滤波器和采样增强子网络;通过部署有上述环内滤波器和采样增强子网络的CAC平台对超清视频进行编解码,恢复人眼视觉质量更好的解码视频。此外,考虑到不同编码视频帧对是否进行采样操作存在随机性,采样过程中帧间信息的获取也存在随机性,由此,本实施例中提供的部署有环内滤波器和采样增强子网络的CAC平台聚焦于帧内信息学习,从而提升解码帧视频质量。
此外,为了验证本实施例提供的面向内容感知超高清视频的编解码方法的效果,本实施例提供了一种滤波模式决策算法(NFMD),如图9所示,首先判断是否与8*8单元对齐,然后判断是否为PU或者RU编辑,然后分别计算三种滤波形式对应的PSNR,并基于各滤波形式各自对应的PSNR选择性能最佳的滤波模式作为该块滤波方式,以获得块边界滤波的上限性能,其中,三种滤波形式分别为强滤波、弱滤波和非滤波模式。然后,采用NFMD在通用测试条件(CTC)下测试了视频编码标准中广泛使用的18个视频,即B类,C类,D类,E类,编码模式为帧内(AI)、随机访问(RA)和低延迟(LD)。测试结果如表1所示,该结果为各测试序列60帧的平均性能,可以看出该算法在本实施例提供的面向内容感知超高清视频的编解码方法在滤波边界处AI、RA、LD模式下能为编码带来平均4.2%,8.6%,5.9%的性能增益。
表1新滤波模式决策算法性能
Figure BDA0004048977620000131
综上所述,本实施例提供了一种面向内容感知超高清视频的编解码方法及相关装置,所述编码方法包括:确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于编码块的边界划分信息确定的;基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。本申请通过基于深度神经网络的非线性预测能力,通过编码过程中的预测信息与划分信息来对重构帧进行增强,然后解码过程中基于增强后的目标重构帧确定解码视频帧,提升了解码视频帧的图像质量。
基于上述面向内容感知超高清视频的编解码方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的面向内容感知超高清视频的编解码方法中的步骤。
基于上述面向内容感知超高清视频的编解码方法,本实施例提供了一种面向内容感知超高清视频的编解码装置,其包含编码器和解码器,所述编码器包括至少一个存储器和耦合到所述至少一个存储器的一个或多个处理器,所述一个或多个处理器被配置为:
确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于变换单元映射块的边界划分信息确定的;
基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。
进一步,所述解码器包括至少一个存储器和耦合到所述至少一个存储器的一个或多个处理器,所述一个或多个处理器被配置为:
获取解码图像帧,并将所述解码图像帧输入采样增强子网络,通过采样增强子网络确定当前图像帧对应的输出视频帧。
进一步,存储器作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器通过运行存储在存储器中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-On l yMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种面向内容感知超高清视频的编解码方法,其特征在于,所述编解码方法中的编码过程包括:
确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于编码块的边界划分信息确定的;
基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。
2.根据权利要求1所述面向内容感知超高清视频的编解码方法,其特征在于,所述获取当前图像帧的划分图具体包括:
获取当前图像帧的编码块的边界划分信息;
根据所述边界划分信息对各编码块的像素取均值,以得到划分图。
3.根据权利要求1所述面向内容感知超高清视频的编解码方法,其特征在于,所述环内滤波器包括特征融合子网、信息提取子网以及融合子网络;所述基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧具体包括:
将所述重构帧、划分图以及预测帧输入特征融合子网络,通过所述特征融合子网络确定融合特征;
将所述融合特征输入所述信息提取子网络,通过所述信息提取子网络输出特征图像帧;
将所述特征图像帧和所述重构帧输入融合子网络,通过融合子网络输出目标重构帧。
4.根据权利要求3所述面向内容感知超高清视频的编解码方法,其特征在于,所述信息提取子网络包括依次级联第一卷积层、第二卷积层、若干残差块、第三卷积层以及像素重组层。
5.根据权利要求1所述面向内容感知超高清视频的编解码方法,其特征在于,所述编解码方法中的解码过程包括:
获取解码图像帧,并将所述解码图像帧输入采样增强子网络,通过采样增强子网络确定当前图像帧对应的输出视频帧。
6.根据权利要求5所述面向内容感知超高清视频的编解码方法,其特征在于,所述采样增强子网络包括依次连接的卷积层、DBlock单元、卷积单元、加法器以及上采样层,其中,所述加法器的输入项包括所述卷积层的输出项。
7.根据权利要求6所述面向内容感知超高清视频的编解码方法,其特征在于,所述DBlock单元包括若干DBlock块,相邻两个DBlock块中前一DBlock块的输出项为后一DBlock块的输入项,各DBlock块的输出项叠加构成DBlock单元的输出项。
8.一种面向内容感知超高清视频的编解码装置,其特征在于,其包含编码器和解码器,所述编码器包括至少一个存储器和耦合到所述至少一个存储器的一个或多个处理器,所述一个或多个处理器被配置为:
确定当前图像帧的重构帧,并获取当前图像帧的划分图和预测帧,其中,所述划分图为基于编码块的边界划分信息确定的;
基于所述重构帧、划分图以及预测帧,通过环内滤波器对所述重构帧进行环内滤波以得到当前图像帧的目标重构帧。
9.根据权利要求8所述的面向内容感知超高清视频的编解码装置,其特征在于,所述解码器包括至少一个存储器和耦合到所述至少一个存储器的一个或多个处理器,所述一个或多个处理器被配置为:
获取解码图像帧,并将所述解码图像帧输入采样增强子网络,通过采样增强子网络确定当前图像帧对应的输出视频帧。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任意一项所述的面向内容感知超高清视频的编解码方法中的步骤。
CN202310035066.3A 2023-01-10 2023-01-10 一种面向内容感知超高清视频的编解码方法及相关装置 Pending CN116055731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310035066.3A CN116055731A (zh) 2023-01-10 2023-01-10 一种面向内容感知超高清视频的编解码方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310035066.3A CN116055731A (zh) 2023-01-10 2023-01-10 一种面向内容感知超高清视频的编解码方法及相关装置

Publications (1)

Publication Number Publication Date
CN116055731A true CN116055731A (zh) 2023-05-02

Family

ID=86116106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310035066.3A Pending CN116055731A (zh) 2023-01-10 2023-01-10 一种面向内容感知超高清视频的编解码方法及相关装置

Country Status (1)

Country Link
CN (1) CN116055731A (zh)

Similar Documents

Publication Publication Date Title
CN111819854B (zh) 用于协调多符号位隐藏和残差符号预测的方法和装置
CN113596482B (zh) 环路滤波实现方法、装置及计算机存储介质
KR20200033331A (ko) 비디오 이미지 인코딩 및 디코딩 방법, 장치 및 디바이스
CN113747179B (zh) 环路滤波实现方法、装置及计算机存储介质
JP2010514246A (ja) 画像圧縮及び伸張
JP2014060805A (ja) ビデオ画像の刈り取り方法及び装置
KR101828096B1 (ko) 블록 기반 인터리빙
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN101399991B (zh) 一种视频解码的方法和装置
CN115150612A (zh) 图像编解码方法、编码器、解码器以及存储介质
CN115606179A (zh) 用于使用学习的下采样特征进行图像和视频编码的基于学习的下采样的cnn滤波器
CN113766247B (zh) 环路滤波的方法与装置
CN113301347A (zh) 一种hevc高清视频编码的优化方法
US11818397B2 (en) Sparse matrix representation using a boundary of non-zero coefficients
CN115552905A (zh) 用于图像和视频编码的基于全局跳过连接的cnn滤波器
CN112333446A (zh) 一种帧内块复制参考块压缩方法
CN114531952A (zh) 视频编码中的残差的量化
CN116634157A (zh) 图像编解码方法、编码器、解码器以及存储介质
WO2024078066A1 (zh) 视频解码方法、视频编码方法、装置、存储介质及设备
CN104506867A (zh) 采样点自适应偏移参数估计方法及装置
CN116055731A (zh) 一种面向内容感知超高清视频的编解码方法及相关装置
CN115150628A (zh) 具有超先验引导模式预测的由粗到细深度视频编码方法
CN112468826B (zh) 一种基于多层gan的vvc环路滤波方法及系统
US9219926B2 (en) Image encoding apparatus, image encoding method and program, image decoding apparatus, image decoding method and program
CN114615498A (zh) 视频解码方法、视频编码方法、相关设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination