CN109151475B - 一种视频编码方法、解码方法、装置及电子设备 - Google Patents

一种视频编码方法、解码方法、装置及电子设备 Download PDF

Info

Publication number
CN109151475B
CN109151475B CN201710499285.1A CN201710499285A CN109151475B CN 109151475 B CN109151475 B CN 109151475B CN 201710499285 A CN201710499285 A CN 201710499285A CN 109151475 B CN109151475 B CN 109151475B
Authority
CN
China
Prior art keywords
image
distortion
distorted image
preset
distorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710499285.1A
Other languages
English (en)
Other versions
CN109151475A (zh
Inventor
周璐璐
王莉
武晓阳
浦世亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201710499285.1A priority Critical patent/CN109151475B/zh
Priority to PCT/CN2018/083229 priority patent/WO2019001094A1/zh
Publication of CN109151475A publication Critical patent/CN109151475A/zh
Application granted granted Critical
Publication of CN109151475B publication Critical patent/CN109151475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/646Circuits for processing colour signals for image enhancement, e.g. vertical detail restoration, cross-colour elimination, contour correction, chrominance trapping filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明实施例提供了一种视频编码方法、解码方法、装置及电子设备,包括:按照预设决策策略,确定是否开启预设去失真滤波功能;当确定开启时,获得失真图像;生成失真图像对应的边信息分量;将失真图像的失真图像颜色分量以及边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;对待熵编码数据进行熵编码,得到编码后的视频比特流,待熵编码数据为对当前原始帧图像进行视频编码生成的,且包括表示是否开启预设去失真滤波功能的决策信息,以及用于生成边信息分量的边信息。采用本方案,实现了在视频编码过程中,使用卷积神经网络模型对失真图像进行去失真处理;实现了在编码性能和算法复杂度之间的折中。

Description

一种视频编码方法、解码方法、装置及电子设备
技术领域
本发明涉及视频编解码技术领域以及图像处理技术领域,特别是涉及一种视频编码方法,以及一种视频解码方法,及相关装置和电子设备。
背景技术
在视频编码系统中,原始视频数据被进行多种处理,如:预测、变换、量化、重建、滤波等,在这种处理过程中,已处理的视频数据相对原始视频数据可能已经发生像素偏移,导致视觉障碍或假象;此外,在大多数视频编码系统采用的基于块的混合编码框架下,由于相邻的编码块采用不同的编码参数(如不同的变换量化过程、不同的预测方式、不同参考图像等),各块引入的误差大小及其分布特性相互独立,相邻块边界会产生不连续性,产生块效应。这些失真不但影响重建图像的主客观质量,若重建图像作为后续编码像素的参考图像,还会影响后续编码像素的预测准确性,影响最终视频比特流的大小。
因此,视频编解码系统中,往往会在重建模块之后加入去失真滤波模块,如图1所示。
然而,传统的去失真滤波器通常是人为地去归纳失真图像的特征,人为地设计滤波器结构,以实验和经验为基础配置滤波器系数,例如视频编码标准 H.264标准、H.265标准中采用的去块滤波器(DF,Deblocking Filter)等;也有一类去失真滤波器,它们基于局部图像区域的一些统计信息,自适应地配置滤波器结构、滤波器系数等,如H.265标准里使用的样点自适应补偿技术(SAO, Sample Adaptive Offset)、视频编解码里使用的自适应环路滤波技术(ALF, Adaptive loop Filter)等,这类自适应滤波器复杂度较高,且编码端需要将依赖于局部统计信息的滤波器相关参数写入码流中以保证编解码端的一致性,这无疑增加了编码比特数。
近年来,深度学习理论迅速发展,与传统依赖先验知识的特征提取算法不同,深度神经网络可在训练数据驱动下自适应地构建特征描述,具有更高的灵活性和普适性。
深度学习在许多高层次的计算机视觉问题上已经取得很大的成功,如图像分类、目标检测和目标分割等。2015年业界已经提出了基于卷积神经网络的端到端的图像超分辨率重建算法(SRCNN,Super Resolution Convolutional Neural Network),该网络相对于当时超分辨率重建领域的最领先技术展现了明显的优势,深度学习开始在低层次计算机视觉问题上显示出巨大的潜力;又如,受卷积神经网络在超分辨率恢复中的应用启发,业界内提出使用训练得到的多层卷积神经网络ARCNN(Artifacts Reduction ConvolutionalNeural Network)对JPEG 编码后图像进行后处理滤波以去除图像失真,相对传统的滤波方法获得了明显的主、客观质量提升。
目前,业界内还提出使用训练得到的卷积神经网络VRCNN (Variable-Filter-size Residue-learning Convolutional Neural Network)替代传统的去块滤波技术和自适应样点补偿技术,对帧内编码后的图像进行后处理滤波,实验结果表明相对于上述传统的环内滤波方法,卷积神经网络使得重建图像主、客观质量获得了大幅提升。
基于卷积神经网络的端到端的图像去失真算法,避免了图像预处理、人工设计滤波器系数等过程,通过数据驱动自动学习图像失真特征及补偿方法,使用更简便、泛化性更佳、性能提升更明显,特别适用于糅合了多种失真的图像 /视频压缩领域。
在视频编解码中,基于卷积神经网络的环路/后处理滤波方法,在编解码性能上相对于其他的环路/后处理滤波方法有明显的提升,但是由于增加了算法复杂度,导致了计算量的增加。
发明内容
本发明实施例的目的在于提供一种视频编码方法、解码方法、装置及电子设备,以实现在视频编解码过程中,使用一种不同于现有技术的卷积神经网络模型对失真图像进行去失真处理,并且,实现编码性能和算法复杂度之间的折中。具体技术方案如下:
本发明实施例提供一种视频编码方法,包括:
按照预设决策策略,确定是否开启预设去失真滤波功能;
当确定开启时,获得失真图像,所述失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的;
生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前原始帧图像的失真特征;
将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量;
对待熵编码数据进行熵编码,得到编码后的视频比特流,所述待熵编码数据为对所述当前原始帧图像进行视频编码生成的,且包括表示是否开启预设去失真滤波功能的决策信息,以及用于生成所述边信息分量的边信息。
进一步的,按照预设决策策略,确定是否开启预设去失真滤波功能,包括:
当待编码视频中的当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当待编码视频中的当前原始帧图像为P帧图像或者B帧图像时,确定关闭预设去失真滤波功能;或者
对重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能,其中,所述重建图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的;或者
当可用计算资源充足时,确定开启预设去失真滤波功能,当可用计算资源不足时,确定关闭预设去失真滤波功能。
进一步的,所述失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的重建图像;或者
所述失真图像为对重建图像采用其他预设滤波方法进行滤波后得到的,所述重建图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的。
进一步的,所述边信息分量至少表示如下失真特征之一:
表示所述失真图像相对所述当前原始帧图像的失真程度;
表示所述失真图像相对所述当前原始帧图像的失真位置;
表示所述失真图像相对所述当前原始帧图像的失真类型。
进一步的,生成所述失真图像对应的边信息分量,包括:
确定所述失真图像每个像素点的失真程度值;
基于所述失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成所述失真图像对应的边信息分量,其中,所述边信息分量包括的每个分量值与所述失真图像上相同位置的像素点相对应。
进一步的,确定所述失真图像每个像素点的失真程度值,包括:
获取所述当前原始帧图像的每个编码区域的量化参数,将所述失真图像每个像素点所在编码区域的量化参数,确定为所述失真图像每个像素点的失真程度值。
进一步的,基于所述失真图像各像素点的位置,使用获取的所述各像素点的失真程度值,生成所述失真图像对应的边信息分量,包括:
基于所述失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值;或者
基于所述失真图像的像素值范围,对获取的所述各像素点的失真程度值进行标准化处理,得到处理后失真程度值,所述处理后失真程度值的取值范围与所述像素值范围相同;基于所述失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值。
本发明实施例还提供一种视频编码装置,包括:
第一开启确定模块,用于按照预设决策策略,确定是否开启预设去失真滤波功能;
第一图像获得模块,用于当确定开启时,获得失真图像,所述失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的;
第一生成模块,用于生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前原始帧图像的失真特征;
第一滤波处理模块,用于将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量;
熵编码模块,用于对待熵编码数据进行熵编码,得到编码后的视频比特流,所述待熵编码数据为对所述当前原始帧图像进行视频编码生成的,且包括表示是否开启预设去失真滤波功能的决策信息,以及用于生成所述边信息分量的边信息。
本发明实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一视频编码方法步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一视频编码方法步骤。
本发明实施例提供的视频编码方法中,所使用的卷积神经网络模型为基于预设训练集进行训练得到的,预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量,边信息分量能够表示失真图像相对原始样本图像的失真特征;在进行视频编码的过程中,针对当前原始帧图像进行视频编码的过程中生成的失真图像,首先生成失真图像对应的边信息分量,然后将失真图像的失真图像颜色分量以及边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量。从而实现了在视频编码过程中,使用一种不同于现有技术的卷积神经网络模型对失真图像进行去失真处理。并且,本方案中,是在确定开启预设去失真滤波功能之后,才使用预先建立的卷积神经网络模型进行去失真滤波,从而实现了在编码性能和算法复杂度之间的折中。
本发明实施例提供一种视频解码方法,包括:
对接收的视频比特流进行熵解码,得到当前熵解码数据;
根据所述当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能;
当确定开启时,获得失真图像,所述失真图像为对所述当前熵解码数据进行视频解码的过程中生成的;
基于所述当前熵解码数据中包括的边信息,生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前熵解码数据对应的原始帧图像的失真特征;
将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;
其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量。
进一步的,根据所述当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能,包括:
从所述当前熵解码数据中获得表示所述当前熵解码数据中对应的当前原始帧图像帧类型的类型信息,当所述类型信息表示所述当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当所述类型信息表示所述当前原始帧图像为P帧图像或者B帧图像时,确定关闭预设去失真滤波功能;或者
对所述当前熵解码数据进行视频解码,得到重建图像,对所述重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能;或者
从所述当前熵解码数据中获得表示编码端的可用计算资源的资源信息,当所述资源信息表示可用计算资源充足时,确定开启预设去失真滤波功能,当所述资源信息表示可用计算资源不足时,确定关闭预设去失真滤波功能;
从所述当前熵解码数据中获得直接表示是否开启预设去失真滤波功能的决策信息,并基于获得的所述决策信息,确定是否开启预设去失真滤波功能。
进一步的,所述失真图像为对所述当前熵解码数据进行视频解码的过程中生成的重建图像;或者
所述失真图像为对重建图像采用其他预设滤波方法进行滤波后得到的,所述重建图像为对所述当前熵解码数据进行视频解码的过程中生成的。
进一步的,得到的所述去失真图像颜色分量,用于对所述视频比特流中的后续熵解码数据进行视频解码;和/或
用于生成所述原始帧图像对应的解码后图像,作为待播放帧图像。
进一步的,所述边信息分量至少表示如下失真特征之一:
表示所述失真图像相对所述原始帧图像的失真程度;
表示所述失真图像相对所述原始帧图像的失真位置;
表示所述失真图像相对所述原始帧图像的失真类型。
进一步的,基于所述当前熵解码数据中包括的边信息,生成所述失真图像对应的边信息分量,包括:
从所述当前熵解码数据中,获得所述失真图像每个像素点的失真程度值;
基于所述失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成所述失真图像对应的边信息分量,其中,所述边信息分量包括的每个分量值与所述失真图像上相同位置的像素点相对应。
进一步的,从所述当前熵解码数据中,获得所述失真图像每个像素点的失真程度值,包括:
从所述当前熵解码数据中,获取所述当前熵解码数据对应的原始帧图像的每个编码区域的量化参数,将所述失真图像每个像素点所在编码区域的量化参数,确定为所述失真图像每个像素点的失真程度值。
进一步的,基于所述失真图像各像素点的位置,使用获取的所述各像素点的失真程度值,生成所述失真图像对应的边信息分量,包括:
基于所述失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值;或者
基于所述失真图像的像素值范围,对获取的所述各像素点的失真程度值进行标准化处理,得到处理后失真程度值,所述处理后失真程度值的取值范围与所述像素值范围相同;基于所述失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值。
本发明实施例还提供一种视频解码装置,包括:
熵解码模块,用于对接收的视频比特流进行熵解码,得到当前熵解码数据;
第二开启确定模块,用于根据所述当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能;
第二图像获得模块,用于当确定开启时,获得失真图像,所述失真图像为对所述当前熵解码数据进行视频解码的过程中生成的;
第二生成模块,用于基于所述当前熵解码数据中包括的边信息,生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前熵解码数据对应的原始帧图像的失真特征;
第二滤波处理模块,用于将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;
其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量。
本发明实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一视频解码方法步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一视频解码方法步骤。
本发明实施例提供的视频解码方法中,所使用的卷积神经网络模型为基于预设训练集进行训练得到的,预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量,边信息分量能够表示失真图像相对原始样本图像的失真特征;在进行视频解码的过程中,从接收的视频比特流中得到当前熵解码数据,并针对当前熵解码数据进行视频解码的过程中生成的失真图像,首先生成失真图像对应的边信息分量,然后将失真图像的失真图像颜色分量以及边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量。从而实现了在视频解码过程中,使用一种不同于现有技术的卷积神经网络模型对失真图像进行去失真处理。并且,本方案中,是在根据决策信息确定开启预设去失真滤波功能之后,才使用预先建立的卷积神经网络模型进行去失真滤波,从而实现了在解码性能和算法复杂度之间的折中。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有视频编码标准中视频编码系统的结构示意图;
图2为本发明实施例提供的卷积神经网络模型的结构示意图;
图3为本发明实施例提供的去失真滤波处理流程的数据流示意图;
图4为本发明实施例中获得失真图像的失真图像颜色分量的示意图;
图5A为本发明实施例中边信息分量的示意图之一;
图5B为本发明实施例中边信息分量的示意图之二;
图6为本发明实施例提供的视频编码方法的流程图;
图7为本发明实施例提供的视频编码方法的流程图;
图8为本发明实施例中视频编码系统的结构示意图;
图9为本发明实施例提供的视频解码方法的流程图;
图10为本发明实施例提供的视频解码方法的流程图;
图11为本发明实施例中视频解码系统的结构示意图;
图12为本发明实施例提供的卷积神经网络模型训练方法的流程图;
图13为本发明实施例提供的视频编码装置的结构示意图;
图14为本发明实施例提供的电子设备的结构示意图;
图15为本发明实施例提供的视频解码装置的结构示意图;
图16为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对在视频编码过程中,如何使用卷积神经网络对失真图像进行去失真处理的问题,本发明实施例提供一种视频编码解决方案,该方案中,首先按照预设决策策略,确定是否开启预设去失真滤波功能,当确定开启时,针对在对待编码视频中的当前原始帧图像进行视频编码的过程中生成的失真图像,生成对应的能够表示该失真图像相对当前原始帧图像的失真特征的边信息分量,并将生成的边信息分量与该失真图像的失真图像颜色分量,共同作为预先建立的卷积神经网络模型的输入,在经过该卷积神经网络模型进行卷积滤波处理之后,输出去失真图像颜色分量,用于生成去失真图像,该去失真图像可以作为参考图像,用于对该当前原始帧图像的后续帧图像进行视频编码,以及对待熵编码数据进行熵编码,得到编码后的视频比特流,待熵编码数据为对当前原始帧图像进行视频编码生成的,且包括表示是否开启预设去失真滤波功能的决策信息,以及用于生成边信息分量的边信息。
相应的,在视频解码过程中,本发明实施例还提供了一种视频解码解决方案,该方案中,在对接收的视频比特流进行熵解码,得到当前熵解码数据之后,根据当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能,当确定开启时,针对在对当前熵解码数据进行视频解码的过程中生成的失真图像,基于当前熵解码数据中包括的边信息,生成对应的表示该失真图像相对当前熵解码数据对应的原始帧图像的失真特征的边信息分量,并将生成的边信息分量与该失真图像的失真图像颜色分量,共同作为预先建立的卷积神经网络模型的输入,在经过该卷积神经网络模型进行卷积滤波处理之后,输出去失真图像颜色分量,用于生成去失真图像,该去失真图像可以作为参考图像,用于对该当前熵解码数据的后续熵解码数据进行视频解码,也可以作为当前熵解码数据对应的原始帧图像对应的待播放帧图像,用于视频播放。
并且,在上述视频编码解决方案以及视频解码解决方案中,卷积神经网络模型为基于预设训练集进行训练得到的,且该预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量,基于初始化的网络参数,按照预设网络结构进行多次迭代训练获得。
进一步的,训练集可以包括一个原始样本图像,针对该原始样本图像进行上述视频编解码中的图像处理,得到失真特征不同的多个失真图像,进而得到多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量;
训练集也可以包括多个原始样本图像,分别针对每个原始样本图像进行上述视频编解码中的图像处理,得到失真特征不同的多个失真图像,进而得到多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量。
在进行卷积神经网络模型的训练,以及使用训练的卷积神经网络模型对失真图像进行去失真滤波时,均将表示失真图像相对原始图像的失真特征的边信息分量作为模型的输入,即引入了能够表示失真图像的失真特征的信息,并通过针对各种边信息分量进行模型训练以及实际应用的试验,确定出在使用一些特定的边信息分量时,能够训练出具备更强泛化能力的卷积神经网络模型,即在平均意义上,对大量的具有差异性的失真图像的去失真能力会更强,进而能够对失真图像进行更好的去失真处理,得到更接近原始图像颜色分量的去失真图像颜色分量。
并且,本发明实施例提供的方案中,是在确定开启预设去失真滤波功能之后,才使用预先建立的卷积神经网络模型进行去失真滤波,从而实现了在编解码性能和算法复杂度之间的折中。
虽然目前已经存在多种基于卷积神经网络模型进行图像去失真处理的方法,但当前公开的大多数基于卷积神经网络的图像去失真滤波技术中,若使用单一预训练网络对不同失真程度的图像进行后处理滤波,在某些失真程度的图像上会存在质量提升有限或质量损失的问题,说明网络的泛化能力存在一定问题。
为了解决该问题,现有技术提出对不同失真程度的图像分别训练一套网络参数,在实际使用时根据当前应用中图像的失真程度加载相应的一套网络参数。然而,大量的参数浪费了存储空间,应用中参数的频繁加载更是一种不必要的计算资源浪费。
因此,在一种确定的视频编解码过程下,发明一种单一的,能适应不同失真程度图像的后处理滤波的卷积神经网络,具有重要的价值。
针对现有技术中仅采用一套网络参数的卷积神经网络,无法应对不同失真程度的失真图像的去失真滤波问题,进一步的,本发明实施例提出的上述解决方案中,可以生成表示失真图像相对原始图像的失真程度的边信息分量,预设训练集中可以包括多个不同失真程度的失真图像,则在进行卷积神经网络模型的训练,以及使用训练的卷积神经网络模型对失真图像进行去失真滤波时,即引入了能够准确表示失真图像的失真程度的信息,从而能够训练出适应于各种不同失真程度的失真图像的卷积神经网络模型,进而能够针对不同失真程度的失真图像,仅使用一套网络参数即可以获得较佳的去失真效果。
图2为实现上述解决方案的卷积神经网络模型的结构示意图,包括:边信息分量生成模块21,卷积神经网络22,网络训练模块23;
其中,卷积神经网络22可以包括如下三层结构:
输入层处理单元221,用于接收卷积神经网络的输入,本方案中包括失真图像的失真图像颜色分量,以及失真图像的边信息分量;并对输入的数据进行第一层的卷积滤波处理;
隐含层处理单元222,对输入层处理单元221的输出数据,进行至少一层的卷积滤波处理;
输出层处理单元223,对隐含层处理单元222的输出数据,进行最后一层的卷积滤波处理,输出结果作为去失真图像颜色分量,用于生成去失真图像。
图3为实现上述解决方案中的去失真滤波处理流程的数据流的示意图,其中,失真图像的失真图像颜色分量,以及失真图像的边信息分量作为输入数据,输入到预先训练的卷积神经网络模型中,卷积神经网络模型可以由预设结构的卷积神经网络和配置的网络参数集进行表示,输入数据经过输入层、隐含层和输出的卷积滤波处理之后,得到去失真图像数据。
本发明实施例提供的上述解决方案中,作为卷积神经网络模型的输入数据,根据实际需要,可以包括一种或多种边信息分量,也可以包括一种或多种失真图像颜色分量,例如,至少包括R颜色分量、G颜色分量和B颜色分量之一,相应的,包括一种或多种去失真图像颜色分量。
例如,在进行视频编解码的过程中,可能仅针对全部颜色分量中的一种颜色分量存在失真情况,则可以在去失真处理时,仅将失真图像的该颜色分量作为输入数据,如两种颜色分量存在失真情况,则将失真图像的该两种颜色分量均作为输入数据,相应的,均输出对应的去失真图像颜色分量。
一个图像的每个像素点的存储数据,包括该像素点的所有颜色分量的值,本发明实施例中,在获得失真图像的失真图像颜色分量时,可以根据需要,从每个像素点的存储数据中,提取出需要的一种或多种颜色分量的值,从而得到失真图像的失真图像颜色分量。
如图4所示,以RGB颜色空间为例,从中提取出每个像素点的R颜色分量的值,从而得到失真图像的R颜色分量。
对于边信息分量,其表示失真图像相对原始图像的失真特征,是一种由图像处理过程确定的失真特征的表达。
在实际应用中,上述失真特征可以至少包括如下失真特征之一:
失真程度、失真位置,失真类型:
首先,边信息分量可以表示失真图像相对原始图像的失真程度。
其次,边信息分量也可以表示失真图像相对原始图像的失真位置,例如在主流的视频编解码应用中,图像通常被划分为多个不重叠且不固定大小的编码单元,编码单元分别进行预测编码及不同程度的量化处理,编码单元之间的失真通常不具有一致性,在编码单元的边界处通常会产生像素突变,因此,编码单元的边界坐标可以作为一种先验的表征失真位置的边信息。
再次,边信息分量也可以表示失真图像相对原始图像的失真类型,例如在视频编解码应用中,图像中不同编码单元可能采用不同预测模式,不同预测模式会影响残差数据的分布,从而影响失真图像的特征,因此,编码单元的预测模式可以作为一种表征失真类型的边信息。
本发明实施例提供的上述解决方案中,边信息分量可以为上述一种或多种的组合,也可以为上述一种的多个边信息分量,例如,在视频编解码过程中,经过图像处理后,可能通过一种物理含义的参量表示失真图像的失真程度,也可能通过不同物理含义的两种参量表示失真图像的失真程度,相应的,即可以根据实际需要,将一种或多种均表示失真程度的边信息分量作为输入数据。
如图5A所示,边信息分量的矩阵结构与失真图像颜色分量的矩阵结构相同,其中,坐标[0,0]、[0,1]表示失真位置,矩阵的元素值1表示失真程度,即边信息分量同时能表示失真程度与失真位置。
又如图5B所示,坐标[0,0]、[0,1]、[2,0]、[2,4]表示失真位置,矩阵的元素值1、2表示失真类型,即边信息分量同时能表示失真类型与失真位置。
并且,本发明实施例提供的上述解决方案中,可以同时包括图5A和图5B 分别所示意的两个边信息分量。
进一步的,根据方案的实际应用情况和需要,当失真图像颜色分量包括多种时,边信息分量可以包括分别与每种失真图像颜色分量对应的边信息分量。
在本发明实施例提供的上述解决方案中,提出了一种视频编码方法,如图 6所示,具体包括如下处理步骤:
步骤61、按照预设决策策略,确定是否开启预设去失真滤波功能。
步骤62、当确定开启时,获得失真图像,失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的。
步骤63、生成失真图像对应的边信息分量,其中,边信息分量表示失真图像相对当前原始帧图像的失真特征。
边信息分量,表示失真图像相对当前原始帧图像的失真特征,是一种由图像处理过程确定的失真特征的表达。
步骤64、将失真图像的失真图像颜色分量以及生成的边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;
其中,卷积神经网络模型为基于预设训练集进行训练得到的,预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量;
步骤65、对待熵编码数据进行熵编码,得到编码后的视频比特流,待熵编码数据为对当前原始帧图像进行视频编码生成的,且包括表示是否开启预设去失真滤波功能的决策信息,以及用于生成边信息分量的边信息。
下面结合附图,以边信息分量表示失真图像相对原始图像的失真程度为例,对上述视频编码方法进行详细描述。
图7所示为本发明实施例提供的一种视频编码方法的流程图,具体包括如下处理步骤:
步骤71、按照预设决策策略,确定是否开启预设去失真滤波功能。
本步骤中,具体可以采用如下决策策略确定是否开启预设去失真滤波功能:
第一种决策策略:当待编码视频中的当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当待编码视频中的当前原始帧图像为P帧图像或者B 帧图像时,确定关闭预设去失真滤波功能。
第二种决策策略:对重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能,其中,重建图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的。
具体的,可以对重建图像进行纹理分析,得到表示图像纹理特征的特征参数,并将该特征参数与预设参数阈值进行比较,大于预设参数阈值,表示纹理平坦,不大于预设参数阈值,表示纹理复杂。
例如,首先确定出重建图像的灰度共生矩阵,并从该灰度共生矩阵中提取出特征参数能量,该灰度共生矩阵的能量能够描述重建图像的灰度空间均匀性的分布情况和重建图像整体的复杂程度。当灰度共生矩阵中元素分布较集中于主对角线附近时,能量值相应较大,说明图像的灰度分布比较均匀,从图像整体看,纹理复杂;反之,纹理平坦。
具体的,一个图像的灰度共生矩阵,以及灰度共生矩阵的能量的确定方法,可以采用各种方法,在此不再举例进行详细描述。
第三种决策策略:当可用计算资源充足时,确定开启预设去失真滤波功能,当可用计算资源不足时,确定关闭预设去失真滤波功能,其中,可用计算资源可以为执行本视频编码方法的编码设备的可用计算资源。
例如,当可用计算资源的资源数量未达到预设资源阈值时,表示可用计算资源充足,当该资源数量达到预设资源阈值时,表示可用计算资源不足。
基于实际应用的需要,以及编解码技术的改变,也可以采用其他决策策略确定是否开启预设去失真滤波功能,在此不再进行详细描述。
本步骤中,在确定是否开启预设去失真滤波功能之后,可以生成表示开启或关闭的开关信令,例如,确定开启预设去失真滤波功能,则将开关信令设置为第一取值,确定关闭预设去失真滤波功能,则将开关信令设置为第二取值,进一步的,可以如图8所示,将该开关信令输入重建模块与CNN模块之间的开关模块,以便相应的控制去失真滤波功能的开启和关闭。
步骤72、当确定开启时,获得失真图像,该失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的。
如图8所示,在基于视频编码系统,对待编码视频进行视频编码的过程中,针对当前原始帧图像进行视频编码时,将对其进行预测、变换、量化等处理,并且,为了得到用于对后续帧图像进行视频编码的参考图像,还可以进行反量化、反变换、重建和去失真滤波的处理。
本步骤中的失真图像,可以是该过程中经过重建处理后生成的重建图像;也可以是对重建图像采用其他预设滤波方法进行滤波后得到的,例如,其他预设滤波方法可以是DF滤波方法。
步骤73、针对待处理的失真图像,确定失真图像每个像素点的失真程度值。
在实际应用中,对当前原始帧图像进行不同方式的视频编码之后,表示失真程度的物理参量也可能不同,本步骤中,可以采用如下方式确定出对应的能够准确表示像素点失真程度的失真程度值:
针对通过视频编码得到的上述失真图像,每个编码区域的量化参数都是已知的,即可以获取每个编码区域的量化参数,将失真图像每个像素点所在编码区域的量化参数,确定为失真图像每个像素点的失真程度值。
步骤74、基于失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成失真图像对应的边信息分量,其中,边信息分量包括的每个分量值与失真图像上相同位置的像素点相对应。
由于边信息分量包括的每个分量值与失真图像上相同位置的像素点相对应,则边信息分量与失真图像的失真图像颜色分量的结构相同,即表示边信息分量的矩阵与表示失真图像颜色分量的矩阵是同型的。
本步骤中,可以基于失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为失真图像对应的边信息分量中该像素点相同位置的分量值,即直接将每个像素点的失真程度值,确定为该像素点对应的分量值。
当失真图像的像素值范围与像素点的失真程度值的取值范围不同时,也可以基于失真图像的像素值范围,对获取的各像素点的失真程度值进行标准化处理,得到处理后失真程度值,处理后失真程度值的取值范围与像素值范围相同;
然后基于失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为失真图像对应的边信息分量中该像素点相同位置的分量值。
本步骤中,可以采用如下公式对像素点的失真程度值进行标准化处理:
Figure DEST_PATH_GDA0001388830450000171
其中,norm(x)为标准化处理后得到的处理后失真程度值,x为像素点的失真程度值,失真图像的像素值范围为[PIEXLMIN,PIXELMAX],像素点的失真程度值的取值范围为[QPMIN,QPMAX]。
通过上述步骤72和步骤73,即生成了失真图像的边信息分量,生成边信息分量的过程,也可以理解为生成了失真图像对应的边信息引导图,该边信息引导图通过其边信息分量表示失真图像的失真程度,且该边信息引导图与失真图像是等高等宽的。
本发明实施例中,以卷积神经网络模型包括输入层、隐含层和输出层的结构为例,对方案进行描述。
步骤75、将失真图像的失真图像颜色分量以及生成的边信息分量,作为预先建立的卷积神经网络模型的输入数据,由输入层进行第一层的卷积滤波处理,具体可以如下:
在卷积神经网络模型中,输入数据可以是通过各自的通道输入到网络中,本步骤中,可以将cy通道的失真图像颜色分量Y与cm通道的边信息分量M,在通道的维度上进行合并,共同组成cy+cm通道的输入数据I,并采用如下公式对输入数据I进行多维卷积滤波和非线性映射,产生n1个以稀疏形式表示的图像块:
F1(I)=g(W1*I+B1);
其中,F1(I)为输入层的输出,I为输入层中卷积层的输入,*为卷积操作, W1为输入层的卷积层滤波器组的权重系数,B1为输入层的卷积层滤波器组的偏移系数,g()为非线性映射函数。
其中,W1对应于n1个卷积滤波器,即有n1个卷积滤波器作用于输入层的卷积层的输入,输出n1个图像块;每个卷积滤波器的卷积核的大小为c1×f1×f1,其中c1为输入通道数,f1为每个卷积核在空间上的大小。
在一个具体的实施例中,该输入层的参数可以为:c1=2,f1=5,n1=64,使用ReLU(Rectified linear unit)函数作为g(),它的函数表达式为:
g(x)=max(0,x);
则该实施例中输入层卷积处理表达式为:
F1(I)=max(0,W1*I+B1);
步骤76、隐含层对输入层输出的稀疏表示的图像块F1(I)进行进一步的高维映射。
本发明实施例中,不对隐含层中包含的卷积层层数、卷积层连接方式、卷积层属性等作限定,可以采用目前已知的各种结构,但隐含层中包含至少1个卷积层。
例如,隐含层包含N-1(N≥2)层卷积层,隐含层处理由下式表示:
Fi(I)=g(Wi*Fi-1(I)+Bi),i∈{2,3,…,N};
其中,Fi(I)表示卷积神经网络中第i层卷积层的输出,*为卷积操作,Wi为第i层卷积层滤波器组的权重系数,Bi为卷积层滤波器组的偏移系数,g()为非线性映射函数。
其中,Wi对应于ni个卷积滤波器,即有ni个卷积滤波器作用于第i层卷积层的输入,输出ni个图像块;每个卷积滤波器的卷积核的大小为ci×fi×fi,其中 ci为输入通道数,fi为每个卷积核在空间上的大小。
在一个具体的实施例中,该隐含层可以包括1个卷积层,该卷积层的卷积滤波器参数为:c2=64,f2=1,n2=32,使用ReLU(Rectified linear unit) 函数作为g(),则该实施例中隐含层的卷积处理表达式为:
F2(I)=max(0,W2*F1(I)+B2);
步骤77、输出层对隐含层输出的高维图像块FN(I)进行聚合,输出去失真图像颜色分量。
本发明实施例中不对输出层的结构作限定,输出层可以是Residual Learning结构,也可以是Direct Learning结构,或者其他的结构。
采用Residual Learning结构的处理如下:
对隐含层的输出进行卷积操作获取补偿残差,再与输入的失真图像颜色分量相加,得到去失真图像颜色分量,即得到去失真图像。输出层处理可由下式表示:
F(I)=WN+1*FN(I)+BN+1+Y;
其中,F(I)为输出层输出,FN(I)为隐含层的输出,*为卷积操作,WN+1为输出层的卷积层滤波器组的权重系数,BN+1为输出层的卷积层滤波器组的偏移系数,Y为未经过卷积滤波处理、欲进行去失真处理的失真图像颜色分量。
其中,WN+1对应于nN+1个卷积滤波器,即有nN+1个卷积滤波器作用于第 N+1层卷积层的输入,输出nN+1个图像块,nN+1为输出的去失真图像颜色分量个数,一般与输入的失真图像颜色分量的个数相等,如果只输出一种去失真图像颜色分量,则nN+1一般取值为1;每个卷积滤波器的卷积核的大小为 cN+1×fN+1×fN+1,其中cN+1为输入通道数,fN+1为每个卷积核在空间上的大小。
采用Direct Learning结构的处理如下:
对隐含层的输出进行卷积操作后直接输出去失真图像颜色分量,即得到去失真图像。输出层处理可由下式表示:
F(I)=MN+1*FN(I)+BN+1
其中,F(I)为输出层输出,FN(I)为隐含层的输出,*为卷积操作,WN+1为输出层的卷积层滤波器组的权重系数,BN+1为输出层的卷积层滤波器组的偏移系数。
其中,WN+1对应于nN+1个卷积滤波器,即有nN+1个卷积滤波器作用于第N+1层卷积层的输入,输出nN+1个图像块,nN+1为输出的去失真图像颜色分量个数,一般与输入的失真图像颜色分量的个数相等,如果只输出一种去失真图像颜色分量,则nN+1一般取值为1;每个卷积滤波器的卷积核的大小为 cN+1×fN+1×fN+1,其中cN+1为输入通道数,fN+1为每个卷积核在空间上的大小。
在一个具体的实施例中,该输出层采用Residual Learning结构,输出层包括1个卷积层,该输出层的卷积滤波器参数为:c3=32,f3=3,n3=1,则该实施例中输出层的卷积处理表达式为:
F(I)=W3*F3(I)+B3+Y。
本发明实施例中,在需要将视频编码后得到的数据传输至解码端时,还可以包括如下步骤78。
步骤78、对待熵编码数据进行熵编码,得到编码后的视频比特流。
其中,待熵编码数据为对当前原始帧图像进行视频编码生成的,且包括是否开启预设去失真滤波功能的决策信息,以及用于生成边信息分量的边信息。
本步骤中,该决策信息可以是直接表示是否开启预设去失真滤波功能的信息,则该决策信息是显式的,即可以直接表示开关信令的取值,例如,类似上述开关信令的取值,当决策信息为第一取值时,表示开启,当决策信息为第二取值时,表示关闭。
该决策信息也可以是间接表示是否开启预设去失真滤波功能的信息,则该决策信息是隐式的,即可以通过推到得出开关信令的取值,例如,针对上述第一种决策策略,决策信息可以是表示原始帧图像帧类型的类型信息,针对上述第三种决策策略,决策信息可以是表示可用计算资源的资源信息。
如果该决策信息为现有视频编解码标准中,视频比特流中携带的信息,则相比现有视频编解码标准中生成的视频比特流,本发明实施例中,不会增加额外的比特数据。
如果该决策信息在现有视频编解码标准中生成的视频比特流中不存在,则可以将该决策信息作为视频解码所需要的一种信息,添加进待熵编码数据,并对添加有该决策信息的待熵编码数据进行熵编码,得到编码后的视频比特流,从而使得解码端可以从该视频比特流中获取该决策信息,用于确定是否开启预设去失真滤波功能。
本步骤中,如果用于生成边信息分量的边信息,为现有视频编解码标准中,视频比特流中携带的信息,则相比现有视频编解码标准中生成的视频比特流,本发明实施例中,不会增加额外的比特数据。
例如,当使用失真图像每个像素点所在编码区域的量化参数作为边信息时,由于在现有视频编解码标准中生成的视频比特流即携带有该量化参数,所以,本步骤中,按照现有视频编解码标准生成视频比特流即可。
如果用于生成边信息分量的边信息,在现有视频编解码标准中生成的视频比特流中不存在,则可以将该边信息作为视频解码所需要的一种信息,添加进待熵编码数据,并对添加有该边信息的待熵编码数据进行熵编码,得到编码后的视频比特流,从而使得解码端可以从该视频比特流中获取该边信息,用于解码端的视频解码处理。
本发明实施例提供的上述视频编码方法中,当确定关闭预设去失真滤波功能时,可以如图8所示,重建模块直接与参考图像缓存器相连,即将重建图像作为参考图像,也可以重建模块与其他去失真滤波模块相连,采用其他滤波方法进行滤波,并将得到的图像作为参考图像。
相应的,本发明实施例还提供了一种视频解码方法,如图9所示,可以包括如下步骤:
步骤91、对接收的视频比特流进行熵解码,得到当前熵解码数据。
步骤92、根据当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能。
步骤93、当确定开启时,获得失真图像,该失真图像为对当前熵解码数据进行视频解码的过程中生成的。
步骤94、基于当前熵解码数据中包括的边信息,生成失真图像对应的边信息分量,边信息分量表示失真图像相对当前熵解码数据对应的原始帧图像的失真特征。
步骤95、将失真图像的失真图像颜色分量以及边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;
其中,卷积神经网络模型为基于预设训练集进行训练得到的,预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量。
下面结合附图,以边信息分量表示失真图像相对当前熵解码数据对应的原始帧图像的失真程度为例,对上述视频解码方法进行详细描述。
图10所示为本发明实施例提供的一种视频解码方法的流程图,具体包括如下处理步骤:
步骤101、解码端对接收的视频比特流进行熵解码,得到当前熵解码数据。
本步骤中,得到的当前熵解码数据与原始视频中的一帧图像相对应,基于当前熵解码数据,进行进一步的解码处理,可以得到该帧图像对应的解码后图像,为便于技术方案的描述,将该帧图像称作当前熵解码数据对应的原始帧图像。
步骤102、根据当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能。
本步骤中,如果该决策信息直接表示是否开启预设去失真滤波功能的信息,则该决策信息是显式的,即可以直接将决策信息的取值,作为开关信令的取值,例如,当决策信息为第一取值时,表示开启,并设置开关信令的取值为第一取值,当决策信息为第二取值时,表示关闭,并设置开关信令的取值为第二取值。进一步的,可以如图11所示,将该开关信令输入重建模块与CNN模块之间的开关模块,以便相应的控制去失真滤波功能的开启和关闭。
本步骤中,如果该决策信息间接表示是否开启预设去失真滤波功能的信息,则该决策信息是隐式的,即可以通过推到得出开关信令的取值,例如,可以采用如下三种方式:
第一种方式:从当前熵解码数据中获得表示当前熵解码数据中对应的当前原始帧图像帧类型的类型信息,当类型信息表示当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当类型信息表示当前原始帧图像为P帧图像或者B帧图像时,确定关闭预设去失真滤波功能。
第二种方式:对当前熵解码数据进行视频解码,得到重建图像,对重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能。
具体的,可以对重建图像进行纹理分析,得到表示图像纹理特征的特征参数,并将该特征参数与预设参数阈值进行比较,大于预设参数阈值,表示纹理平坦,不大于预设参数阈值,表示纹理复杂。
例如,首先确定出重建图像的灰度共生矩阵,并从该灰度共生矩阵中提取出特征参数能量,该灰度共生矩阵的能量能够描述重建图像的灰度空间均匀性的分布情况和重建图像整体的复杂程度。当灰度共生矩阵中元素分布较集中于主对角线附近时,能量值相应较大,说明图像的灰度分布比较均匀,从图像整体看,纹理复杂;反之,纹理平坦。
具体的,一个图像的灰度共生矩阵,以及灰度共生矩阵的能量的确定方法,可以采用各种方法,在此不再举例进行详细描述。
第三种方式:从当前熵解码数据中获得表示编码端的可用计算资源的资源信息,当资源信息表示可用计算资源充足时,确定开启预设去失真滤波功能,当资源信息表示可用计算资源不足时,确定关闭预设去失真滤波功能。
例如,当可用计算资源的资源数量未达到预设资源阈值时,表示可用计算资源充足,当该资源数量达到预设资源阈值时,表示可用计算资源不足。
针对上述三种方式,当确定开启时,设置开关信令的取值为第一取值,当确定关闭时,设置开关信令的取值为第二取值。进一步的,可以如图11所示,将该开关信令输入重建模块与CNN模块之间的开关模块,以便相应的控制去失真滤波功能的开启和关闭。
步骤103、当确定开启时,获得失真图像,该失真图像为对当前熵解码数据进行视频解码的过程中生成的。
如图11所示,对视频比特流进行熵解码得到的当前熵解码数据中,包括残差数据,对当前熵解码数据进行视频解码的过程,包括对该残差数据的反量化、反变换、重建和去失真滤波的处理。
本步骤中的失真图像,可以是该过程中经过重建处理后生成的重建图像;也可以是对重建图像采用其他预设滤波方法进行滤波后得到的,例如,其他预设滤波方法可以是DF滤波方法。
步骤104、从当前熵解码数据中,获取失真图像的边信息,具体可以为获取失真图像的每个像素点的失真程度值。
在实际应用中,对当前熵解码数据进行不同方式的视频解码之后,表示失真程度的物理参量也可能不同,本步骤中,可以采用如下方式确定出对应的能够准确表示像素点失真程度的失真程度值:
针对通过视频解码得到的上述失真图像,从当前熵解码数据中,获取当前熵解码数据对应的原始帧图像的每个编码区域的量化参数,将失真图像每个像素点所在编码区域的量化参数,确定为该像素点的失真程度值。
步骤105、基于失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成失真图像对应的边信息分量,其中,边信息分量包括的每个分量值与失真图像上相同位置的像素点相对应。
由于边信息分量包括的每个分量值与失真图像上相同位置的像素点相对应,则边信息分量与失真图像的失真图像颜色分量的结构相同,即表示边信息分量的矩阵与表示失真图像颜色分量的矩阵是同型的。
本步骤中,可以基于失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为失真图像对应的边信息分量中该像素点相同位置的分量值,即直接将每个像素点的失真程度值,确定为该像素点对应的分量值。
当失真图像的像素值范围与像素点的失真程度值的取值范围不同时,也可以基于失真图像的像素值范围,对获取的各像素点的失真程度值进行标准化处理,得到处理后失真程度值,处理后失真程度值的取值范围与像素值范围相同;
然后基于失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为失真图像对应的边信息分量中该像素点相同位置的分量值。
本步骤中,可以采用如下公式对像素点的失真程度值进行标准化处理:
Figure DEST_PATH_GDA0001388830450000261
其中,norm(x)为标准化处理后得到的处理后失真程度值,x为像素点的失真程度值,失真图像的像素值范围为[PIEXLMIN,PIXELMAX],像素点的失真程度值的取值范围为[QPMIN,QPMAX]。
通过上述步骤103和步骤104,即生成了失真图像的边信息分量,生成边信息分量的过程,也可以理解为生成了失真图像对应的边信息引导图,该边信息引导图通过其边信息分量表示失真图像的失真程度,且该边信息引导图与失真图像是等高等宽的。
本发明实施例中,以卷积神经网络模型包括输入层、隐含层和输出层的结构为例,对方案进行描述。
步骤106、将失真图像的失真图像颜色分量以及生成的边信息分量,作为预先建立的卷积神经网络模型的输入数据,由输入层进行第一层的卷积滤波处理。
本步骤可以与上述图7中的步骤75相同,在此不再进行详细描述。
步骤107、隐含层对输入层输出的稀疏表示的图像块F1(I)进行进一步的高维映射。
本步骤可以与上述图7中的步骤76相同,在此不再进行详细描述。
步骤108、输出层对隐含层输出的高维图像块FN(I)进行聚合,输出去失真图像颜色分量。
本步骤可以与上述图7中的步骤77相同,在此不再进行详细描述。
本发明实施例提供的上述视频解码方法中,得到的去失真图像颜色分量,可以用于对视频比特流中的后续熵解码数据进行视频解码;也可以用于生成当前熵解码数据对应的该原始帧图像对应的解码后图像,作为待播放帧图像。
本发明实施例提供的上述视频解码方法中,当确定关闭预设去失真滤波功能时,可以如图11所示,重建模块直接与参考图像缓存器相连,即将重建图像作为参考图像,也可以重建模块与其他去失真滤波模块相连,采用其他滤波方法进行滤波,并将得到的图像作为参考图像。
在本发明实施例提供的上述解决方案中,在视频编码和视频解码的过程中,均使用了预先建立的卷积神经网络模型对失真图像进行去失真滤波处理。视频编码和视频解码所使用的卷积神经网络模型可以相同。
下面,对本发明实施例提供的上述卷积神经网络模型的训练流程进行详细描述。
本发明实施例还提出了一种卷积神经网络模型训练方法,如图12所示,具体包括如下处理步骤:
步骤121、获取预设训练集,预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量,其中,失真图像对应的边信息分量表示该失真图像相对原始样本图像的失真特征。该多个失真图像的失真特征不同。
本步骤中,可以预先对原始样本图像(即未失真的自然图像),进行不同失真程度的一种图像处理,得到各自对应的失真图像,并按照上述去失真方法中的步骤,针对每个失真图像,生成对应的边信息分量,从而将每个原始样本图像、对应的失真图像以及对应的边信息分量组成图像对,由这些图像对组成预设训练集Ω。
进一步的,训练集可以包括一个原始样本图像,针对该原始样本图像进行上述图像处理,得到失真特征不同的多个失真图像,以及每个失真图像对应的边信息分量;
训练集也可以包括多个原始样本图像,分别针对每个原始样本图像进行上述图像处理,得到失真特征不同的多个失真图像,以及每个失真图像对应的边信息分量。
步骤122、针对预设结构的卷积神经网络CNN,初始化该卷积神经网络CNN 的网络参数集中的参数,初始化的参数集可以由Θ1表示,初始化的参数可以根据实际需要和经验进行设置。
本步骤中,还可以对训练相关的高层参数如学习率、梯度下降算法等进行合理的设置,具体可以采用现有技术中的各种方式,在此不再进行详细描述。
步骤123、进行前向计算,具体如下:
将预设训练集中的每个失真图像的失真图像颜色分量以及对应的边信息分量,输入预设结构的卷积神经网络进行卷积滤波处理,得到该失真图像对应的去失真图像颜色分量。
本步骤中,具体可以为对预设训练集Ω进行参数集为Θi的卷积神经网络 CNN的前向计算,获取卷积神经网络的输出F(Y),即每个失真图像对应的去失真图像颜色分量。
第一次进入本步骤处理时,当前参数集为Θ1,后续再次进入本步骤处理时,当前参数集Θi为对上一次使用的参数集Θi-1进行调整后得到的,详见后续描述。
步骤124、基于多个原始样本图像的原始图像颜色分量和得到的去失真图像颜色分量,确定去失真图像的损失值。
具体可以使用均方误差(MSE)公式作为损失函数,得到损失值L(Θi),详见如下公式:
Figure DEST_PATH_GDA0001388830450000281
其中,H表示单次训练中从预设训练集中选取的图像对个数,Ih表示第h个失真图像对应的由边信息分量和失真图像颜色分量合并后的输入数据,F(Ihi)表示针对第h个失真图像,卷积神经网络CNN在参数集Θi下前向计算得到的去失真图像颜色分量,Xh表示第h个失真图像对应的原始图像颜色分量,i 为当前已进行前向计算的次数计数。
步骤125、基于损失值确定采用当前参数集的该预设结构的卷积神经网络是否收敛,如果不收敛,进入步骤126,如果收敛,进入步骤127。
具体的,可以当损失值小于预设损失值阈值时,确定收敛;也可以当本次计算得到损失值与上一次计算得到的损失值之差,小于预设变化阈值时,确定收敛,本发明在此不做限定。
步骤126,对当前参数集中的参数进行调整,得到调整后的参数集,然后进入步骤123,用于下一次前向计算。
具体可以利用反向传播算法对当前参数集中的参数进行调整。
步骤127、将当前参数集作为输出的最终参数集Θfinal,并将采用最终参数集Θfinal的该预设结构的卷积神经网络,作为训练完成的卷积神经网络模型。
基于同一发明构思,根据本发明上述实施例提供的视频编码方法,相应地,本发明另一实施例还提供了一种视频编码装置,如图13所示,包括:
第一开启确定模块131,用于按照预设决策策略,确定是否开启预设去失真滤波功能;
第一图像获得模块132,用于当确定开启时,获得失真图像,所述失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的;
第一生成模块133,用于生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前原始帧图像的失真特征;
第一滤波处理模块134,用于将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量;
熵编码模块135,用于对待熵编码数据进行熵编码,得到编码后的视频比特流,所述待熵编码数据为对所述当前原始帧图像进行视频编码生成的,且包括表示是否开启预设去失真滤波功能的决策信息,以及用于生成所述边信息分量的边信息。
进一步的,所述第一开启确定模块131,具体用于当待编码视频中的当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当待编码视频中的当前原始帧图像为P帧图像或者B帧图像时,确定关闭预设去失真滤波功能;或者,对重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能,其中,所述重建图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的;或者,当可用计算资源充足时,确定开启预设去失真滤波功能,当可用计算资源不足时,确定关闭预设去失真滤波功能。
进一步的,所述失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的重建图像;或者
所述失真图像为对重建图像采用其他预设滤波方法进行滤波后得到的,所述重建图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的。
进一步的,所述边信息分量至少表示如下失真特征之一:
表示所述失真图像相对所述当前原始帧图像的失真程度;
表示所述失真图像相对所述当前原始帧图像的失真位置;
表示所述失真图像相对所述当前原始帧图像的失真类型。
进一步的,所述第一生成模块133,具体用于确定所述失真图像每个像素点的失真程度值;基于所述失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成所述失真图像对应的边信息分量,其中,所述边信息分量包括的每个分量值与所述失真图像上相同位置的像素点相对应。
进一步的,所述第一生成模块133,具体用于获取所述当前原始帧图像的每个编码区域的量化参数,将所述失真图像每个像素点所在编码区域的量化参数,确定为所述失真图像每个像素点的失真程度值。
进一步的,所述第一生成模块133,具体用于基于所述失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值;或者
基于所述失真图像的像素值范围,对获取的所述各像素点的失真程度值进行标准化处理,得到处理后失真程度值,所述处理后失真程度值的取值范围与所述像素值范围相同;基于所述失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值。
本发明实施例还提供一种电子设备,如图14所示,包括处理器141、通信接口142、存储器143和通信总线144,其中,处理器141,通信接口142,存储器143通过通信总线144完成相互间的通信;
存储器143,用于存放计算机程序;
处理器141,用于执行存储器上所存放的程序时,实现上述任一视频编码方法步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一视频编码方法步骤。
基于同一发明构思,根据本发明上述实施例提供的视频编码方法,相应地,本发明另一实施例还提供了一种视频解码装置,如图15所示,包括:
熵解码模块151,用于对接收的视频比特流进行熵解码,得到当前熵解码数据;
第二开启确定模块152,用于根据所述当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能;
第二图像获得模块153,用于当确定开启时,获得失真图像,所述失真图像为对所述当前熵解码数据进行视频解码的过程中生成的;
第二生成模块154,用于基于所述当前熵解码数据中包括的边信息,生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前熵解码数据对应的原始帧图像的失真特征;
第二滤波处理模块155,用于将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;
其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量。
进一步的,所述第二开启确定模块152,具体用于从所述当前熵解码数据中获得表示所述当前熵解码数据中对应的当前原始帧图像帧类型的类型信息,当所述类型信息表示所述当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当所述类型信息表示所述当前原始帧图像为P帧图像或者B帧图像时,确定关闭预设去失真滤波功能;或者,对所述当前熵解码数据进行视频解码,得到重建图像,对所述重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能;或者,从所述当前熵解码数据中获得表示编码端的可用计算资源的资源信息,当所述资源信息表示可用计算资源充足时,确定开启预设去失真滤波功能,当所述资源信息表示可用计算资源不足时,确定关闭预设去失真滤波功能;,从所述当前熵解码数据中获得直接表示是否开启预设去失真滤波功能的决策信息,并基于获得的所述决策信息,确定是否开启预设去失真滤波功能。
进一步的,所述失真图像为对所述当前熵解码数据进行视频解码的过程中生成的重建图像;或者
所述失真图像为对重建图像采用其他预设滤波方法进行滤波后得到的,所述重建图像为对所述当前熵解码数据进行视频解码的过程中生成的。
进一步的,得到的所述去失真图像颜色分量,用于对所述视频比特流中的后续熵解码数据进行视频解码;和/或
用于生成所述原始帧图像对应的解码后图像,作为待播放帧图像。
进一步的,所述边信息分量至少表示如下失真特征之一:
表示所述失真图像相对所述原始帧图像的失真程度;
表示所述失真图像相对所述原始帧图像的失真位置;
表示所述失真图像相对所述原始帧图像的失真类型。
进一步的,所述第二生成模块154,具体用于从所述当前熵解码数据中,获得所述失真图像每个像素点的失真程度值;基于所述失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成所述失真图像对应的边信息分量,其中,所述边信息分量包括的每个分量值与所述失真图像上相同位置的像素点相对应。
进一步的,所述第二生成模块154,具体用于从所述当前熵解码数据中,获取所述当前熵解码数据对应的原始帧图像的每个编码区域的量化参数,将所述失真图像每个像素点所在编码区域的量化参数,确定为所述失真图像每个像素点的失真程度值。
进一步的,所述第二生成模块154,具体用于基于所述失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值;或者
基于所述失真图像的像素值范围,对获取的所述各像素点的失真程度值进行标准化处理,得到处理后失真程度值,所述处理后失真程度值的取值范围与所述像素值范围相同;基于所述失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值。
本发明实施例还提供一种电子设备,如图16所示,包括处理器161、通信接口162、存储器163和通信总线164,其中,处理器161,通信接口162,存储器163通过通信总线164完成相互间的通信;
存储器163,用于存放计算机程序;
处理器161,用于执行存储器上所存放的程序时,实现上述任一视频解码方法步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一视频解码方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器 (DigitalSignal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (34)

1.一种视频编码方法,其特征在于,包括:
按照预设决策策略,确定是否开启预设去失真滤波功能;
当确定开启时,获得失真图像,所述失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的;
生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前原始帧图像的失真特征;
将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量;
对待熵编码数据进行熵编码,得到编码后的视频比特流,所述待熵编码数据为对所述当前原始帧图像进行视频编码生成的,且包括表示是否开启预设去失真滤波功能的决策信息,以及用于生成所述边信息分量的边信息。
2.如权利要求1所述的方法,其特征在于,按照预设决策策略,确定是否开启预设去失真滤波功能,包括:
当待编码视频中的当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当待编码视频中的当前原始帧图像为P帧图像或者B帧图像时,确定关闭预设去失真滤波功能;或者
对重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能,其中,所述重建图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的;或者
当可用计算资源充足时,确定开启预设去失真滤波功能,当可用计算资源不足时,确定关闭预设去失真滤波功能。
3.如权利要求1所述的方法,其特征在于,所述失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的重建图像;或者
所述失真图像为对重建图像采用其他预设滤波方法进行滤波后得到的,所述重建图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的。
4.如权利要求1所述的方法,其特征在于,所述边信息分量至少表示如下失真特征之一:
表示所述失真图像相对所述当前原始帧图像的失真程度;
表示所述失真图像相对所述当前原始帧图像的失真位置;
表示所述失真图像相对所述当前原始帧图像的失真类型。
5.如权利要求1所述的方法,其特征在于,生成所述失真图像对应的边信息分量,包括:
确定所述失真图像每个像素点的失真程度值;
基于所述失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成所述失真图像对应的边信息分量,其中,所述边信息分量包括的每个分量值与所述失真图像上相同位置的像素点相对应。
6.如权利要求5所述的方法,其特征在于,确定所述失真图像每个像素点的失真程度值,包括:
获取所述当前原始帧图像的每个编码区域的量化参数,将所述失真图像每个像素点所在编码区域的量化参数,确定为所述失真图像每个像素点的失真程度值。
7.如权利要求5所述的方法,其特征在于,基于所述失真图像各像素点的位置,使用获取的所述各像素点的失真程度值,生成所述失真图像对应的边信息分量,包括:
基于所述失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值;或者
基于所述失真图像的像素值范围,对获取的所述各像素点的失真程度值进行标准化处理,得到处理后失真程度值,所述处理后失真程度值的取值范围与所述像素值范围相同;基于所述失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值。
8.一种视频编码装置,其特征在于,包括:
第一开启确定模块,用于按照预设决策策略,确定是否开启预设去失真滤波功能;
第一图像获得模块,用于当确定开启时,获得失真图像,所述失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的;
第一生成模块,用于生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前原始帧图像的失真特征;
第一滤波处理模块,用于将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量;
熵编码模块,用于对待熵编码数据进行熵编码,得到编码后的视频比特流,所述待熵编码数据为对所述当前原始帧图像进行视频编码生成的,且包括表示是否开启预设去失真滤波功能的决策信息,以及用于生成所述边信息分量的边信息。
9.如权利要求8所述的装置,其特征在于,所述第一开启确定模块,具体用于当待编码视频中的当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当待编码视频中的当前原始帧图像为P帧图像或者B帧图像时,确定关闭预设去失真滤波功能;或者,对重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能,其中,所述重建图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的;或者,当可用计算资源充足时,确定开启预设去失真滤波功能,当可用计算资源不足时,确定关闭预设去失真滤波功能。
10.如权利要求8所述的装置,其特征在于,所述失真图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的重建图像;或者
所述失真图像为对重建图像采用其他预设滤波方法进行滤波后得到的,所述重建图像为对待编码视频中的当前原始帧图像进行视频编码的过程中生成的。
11.如权利要求8所述的装置,其特征在于,所述边信息分量至少表示如下失真特征之一:
表示所述失真图像相对所述当前原始帧图像的失真程度;
表示所述失真图像相对所述当前原始帧图像的失真位置;
表示所述失真图像相对所述当前原始帧图像的失真类型。
12.如权利要求8所述的装置,其特征在于,所述第一生成模块,具体用于确定所述失真图像每个像素点的失真程度值;基于所述失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成所述失真图像对应的边信息分量,其中,所述边信息分量包括的每个分量值与所述失真图像上相同位置的像素点相对应。
13.如权利要求12所述的装置,其特征在于,所述第一生成模块,具体用于获取所述当前原始帧图像的每个编码区域的量化参数,将所述失真图像每个像素点所在编码区域的量化参数,确定为所述失真图像每个像素点的失真程度值。
14.如权利要求12所述的装置,其特征在于,所述第一生成模块,具体用于基于所述失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值;或者
基于所述失真图像的像素值范围,对获取的所述各像素点的失真程度值进行标准化处理,得到处理后失真程度值,所述处理后失真程度值的取值范围与所述像素值范围相同;基于所述失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。
17.一种视频解码方法,其特征在于,包括:
对接收的视频比特流进行熵解码,得到当前熵解码数据;
根据所述当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能;
当确定开启时,获得失真图像,所述失真图像为对所述当前熵解码数据进行视频解码的过程中生成的;
基于所述当前熵解码数据中包括的边信息,生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前熵解码数据对应的原始帧图像的失真特征;
将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;
其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量。
18.如权利要求17所述的方法,其特征在于,根据所述当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能,包括:
从所述当前熵解码数据中获得表示所述当前熵解码数据中对应的当前原始帧图像帧类型的类型信息,当所述类型信息表示所述当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当所述类型信息表示所述当前原始帧图像为P帧图像或者B帧图像时,确定关闭预设去失真滤波功能;或者
对所述当前熵解码数据进行视频解码,得到重建图像,对所述重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能;或者
从所述当前熵解码数据中获得表示编码端的可用计算资源的资源信息,当所述资源信息表示可用计算资源充足时,确定开启预设去失真滤波功能,当所述资源信息表示可用计算资源不足时,确定关闭预设去失真滤波功能;
从所述当前熵解码数据中获得直接表示是否开启预设去失真滤波功能的决策信息,并基于获得的所述决策信息,确定是否开启预设去失真滤波功能。
19.如权利要求17所述的方法,其特征在于,所述失真图像为对所述当前熵解码数据进行视频解码的过程中生成的重建图像;或者
所述失真图像为对重建图像采用其他预设滤波方法进行滤波后得到的,所述重建图像为对所述当前熵解码数据进行视频解码的过程中生成的。
20.如权利要求17所述的方法,其特征在于,得到的所述去失真图像颜色分量,用于对所述视频比特流中的后续熵解码数据进行视频解码;和/或
用于生成所述原始帧图像对应的解码后图像,作为待播放帧图像。
21.如权利要求17所述的方法,其特征在于,所述边信息分量至少表示如下失真特征之一:
表示所述失真图像相对所述原始帧图像的失真程度;
表示所述失真图像相对所述原始帧图像的失真位置;
表示所述失真图像相对所述原始帧图像的失真类型。
22.如权利要求17所述的方法,其特征在于,基于所述当前熵解码数据中包括的边信息,生成所述失真图像对应的边信息分量,包括:
从所述当前熵解码数据中,获得所述失真图像每个像素点的失真程度值;
基于所述失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成所述失真图像对应的边信息分量,其中,所述边信息分量包括的每个分量值与所述失真图像上相同位置的像素点相对应。
23.如权利要求22所述的方法,其特征在于,从所述当前熵解码数据中,获得所述失真图像每个像素点的失真程度值,包括:
从所述当前熵解码数据中,获取所述当前熵解码数据对应的原始帧图像的每个编码区域的量化参数,将所述失真图像每个像素点所在编码区域的量化参数,确定为所述失真图像每个像素点的失真程度值。
24.如权利要求22所述的方法,其特征在于,基于所述失真图像各像素点的位置,使用获取的所述各像素点的失真程度值,生成所述失真图像对应的边信息分量,包括:
基于所述失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值;或者
基于所述失真图像的像素值范围,对获取的所述各像素点的失真程度值进行标准化处理,得到处理后失真程度值,所述处理后失真程度值的取值范围与所述像素值范围相同;基于所述失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值。
25.一种视频解码装置,其特征在于,包括:
熵解码模块,用于对接收的视频比特流进行熵解码,得到当前熵解码数据;
第二开启确定模块,用于根据所述当前熵解码数据中表示是否开启预设去失真滤波功能的决策信息,确定是否开启预设去失真滤波功能;
第二图像获得模块,用于当确定开启时,获得失真图像,所述失真图像为对所述当前熵解码数据进行视频解码的过程中生成的;
第二生成模块,用于基于所述当前熵解码数据中包括的边信息,生成所述失真图像对应的边信息分量,所述边信息分量表示所述失真图像相对所述当前熵解码数据对应的原始帧图像的失真特征;
第二滤波处理模块,用于将所述失真图像的失真图像颜色分量以及所述边信息分量,输入预先建立的卷积神经网络模型进行卷积滤波处理,得到去失真图像颜色分量;
其中,所述卷积神经网络模型为基于预设训练集进行训练得到的,所述预设训练集包括原始样本图像,以及原始样本图像对应的多个失真图像的失真图像颜色分量,以及每个失真图像对应的边信息分量。
26.如权利要求25所述的装置,其特征在于,所述第二开启确定模块,具体用于从所述当前熵解码数据中获得表示所述当前熵解码数据中对应的当前原始帧图像帧类型的类型信息,当所述类型信息表示所述当前原始帧图像为I帧图像时,确定开启预设去失真滤波功能,当所述类型信息表示所述当前原始帧图像为P帧图像或者B帧图像时,确定关闭预设去失真滤波功能;或者,对所述当前熵解码数据进行视频解码,得到重建图像,对所述重建图像进行纹理分析,当分析结果表示纹理平坦,确定开启预设去失真滤波功能,当分析结果表示纹理复杂,确定关闭预设去失真滤波功能;或者,从所述当前熵解码数据中获得表示编码端的可用计算资源的资源信息,当所述资源信息表示可用计算资源充足时,确定开启预设去失真滤波功能,当所述资源信息表示可用计算资源不足时,确定关闭预设去失真滤波功能;,从所述当前熵解码数据中获得直接表示是否开启预设去失真滤波功能的决策信息,并基于获得的所述决策信息,确定是否开启预设去失真滤波功能。
27.如权利要求25所述的装置,其特征在于,所述失真图像为对所述当前熵解码数据进行视频解码的过程中生成的重建图像;或者
所述失真图像为对重建图像采用其他预设滤波方法进行滤波后得到的,所述重建图像为对所述当前熵解码数据进行视频解码的过程中生成的。
28.如权利要求25所述的装置,其特征在于,得到的所述去失真图像颜色分量,用于对所述视频比特流中的后续熵解码数据进行视频解码;和/或
用于生成所述原始帧图像对应的解码后图像,作为待播放帧图像。
29.如权利要求25所述的装置,其特征在于,所述边信息分量至少表示如下失真特征之一:
表示所述失真图像相对所述原始帧图像的失真程度;
表示所述失真图像相对所述原始帧图像的失真位置;
表示所述失真图像相对所述原始帧图像的失真类型。
30.如权利要求25所述的装置,其特征在于,所述第二生成模块,具体用于从所述当前熵解码数据中,获得所述失真图像每个像素点的失真程度值;基于所述失真图像各像素点的位置,使用获取的各像素点的失真程度值,生成所述失真图像对应的边信息分量,其中,所述边信息分量包括的每个分量值与所述失真图像上相同位置的像素点相对应。
31.如权利要求30所述的装置,其特征在于,所述第二生成模块,具体用于从所述当前熵解码数据中,获取所述当前熵解码数据对应的原始帧图像的每个编码区域的量化参数,将所述失真图像每个像素点所在编码区域的量化参数,确定为所述失真图像每个像素点的失真程度值。
32.如权利要求30所述的装置,其特征在于,所述第二生成模块,具体用于基于所述失真图像各像素点的位置,将获取的每个像素点的失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值;或者
基于所述失真图像的像素值范围,对获取的所述各像素点的失真程度值进行标准化处理,得到处理后失真程度值,所述处理后失真程度值的取值范围与所述像素值范围相同;基于所述失真图像各像素点的位置,将每个像素点的处理后失真程度值,确定为所述失真图像对应的边信息分量中该像素点相同位置的分量值。
33.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求17-24任一所述的方法。
34.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求17-24任一所述的方法。
CN201710499285.1A 2017-06-27 2017-06-27 一种视频编码方法、解码方法、装置及电子设备 Active CN109151475B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710499285.1A CN109151475B (zh) 2017-06-27 2017-06-27 一种视频编码方法、解码方法、装置及电子设备
PCT/CN2018/083229 WO2019001094A1 (zh) 2017-06-27 2018-04-16 一种视频编码方法、解码方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710499285.1A CN109151475B (zh) 2017-06-27 2017-06-27 一种视频编码方法、解码方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109151475A CN109151475A (zh) 2019-01-04
CN109151475B true CN109151475B (zh) 2020-03-27

Family

ID=64741007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710499285.1A Active CN109151475B (zh) 2017-06-27 2017-06-27 一种视频编码方法、解码方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN109151475B (zh)
WO (1) WO2019001094A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062226B (zh) * 2018-01-18 2021-06-11 杭州海康威视数字技术股份有限公司 一种视频编码方法、视频解码方法、装置、系统及介质
CN111641831B (zh) * 2019-03-01 2023-09-01 杭州海康威视数字技术股份有限公司 帧内预测方法、装置、设备及存储介质
CN113574884A (zh) * 2019-03-24 2021-10-29 Oppo广东移动通信有限公司 滤波方法、装置、编码器以及计算机存储介质
CN110211064B (zh) * 2019-05-21 2022-11-18 华南理工大学 一种基于边缘引导的混合退化文本图像恢复方法
CN110312134B (zh) * 2019-08-06 2021-06-15 杭州微帧信息科技有限公司 一种基于图像处理和机器学习的屏幕视频编码方法
CN111064958B (zh) * 2019-12-28 2021-03-30 复旦大学 一种针对b帧和p帧的低复杂度神经网络滤波算法
CN111405283B (zh) * 2020-02-20 2022-09-02 北京大学 基于深度学习的端到端视频压缩方法、系统及存储介质
CN111711815B (zh) * 2020-06-30 2021-09-28 福州大学 基于集成学习和概率模型的快速vvc帧内预测方法
CN117768655A (zh) * 2021-02-25 2024-03-26 华为技术有限公司 音视频或图像分层压缩方法和装置
WO2023133889A1 (zh) * 2022-01-17 2023-07-20 深圳市大疆创新科技有限公司 图像处理方法、装置、遥控设备、系统及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2375747B1 (en) * 2010-04-12 2019-03-13 Sun Patent Trust Filter positioning and selection
CN107251053B (zh) * 2015-02-13 2018-08-28 北京市商汤科技开发有限公司 一种降低有损压缩图像的压缩失真的方法及装置
KR102124714B1 (ko) * 2015-09-03 2020-06-19 미디어텍 인크. 비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치
US10110926B2 (en) * 2015-10-15 2018-10-23 Cisco Technology, Inc. Efficient loop filter for video codec
CN105611303B (zh) * 2016-03-07 2019-04-09 京东方科技集团股份有限公司 图像压缩系统、解压缩系统、训练方法和装置、显示装置
CN205408063U (zh) * 2016-03-07 2016-07-27 京东方科技集团股份有限公司 图像压缩系统、解压缩系统、显示装置

Also Published As

Publication number Publication date
WO2019001094A1 (zh) 2019-01-03
CN109151475A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109151475B (zh) 一种视频编码方法、解码方法、装置及电子设备
CN109120937B (zh) 一种视频编码方法、解码方法、装置及电子设备
CN108932697B (zh) 一种失真图像的去失真方法、装置及电子设备
CN110059796B (zh) 卷积神经网络的生成方法及装置
Cui et al. Convolutional neural networks based intra prediction for HEVC
CN108184129B (zh) 一种视频编解码方法、装置及用于图像滤波的神经网络
WO2020061005A1 (en) Use of non-linear function applied to quantization parameters in machine-learning models for video coding
CN109842799B (zh) 颜色分量的帧内预测方法、装置及计算机设备
CN110136057B (zh) 一种图像超分辨率重建方法、装置及电子设备
US20210409783A1 (en) Loop filter implementation method and apparatus, and computer storage medium
WO2021203394A1 (zh) 环路滤波的方法与装置
CN111105357B (zh) 一种失真图像的去失真方法、装置及电子设备
CN110971901A (zh) 卷积神经网络的处理方法及装置
WO2020177134A1 (zh) 环路滤波实现方法、装置及计算机存储介质
WO2021134706A1 (zh) 环路滤波的方法与装置
WO2020061008A1 (en) Receptive-field-conforming convolution models for video coding
CN110956594B (zh) 图像滤波方法、装置、电子设备及存储介质
CN110619607B (zh) 图像去噪和包含图像去噪的图像编解码方法及装置
Shen et al. Dec-adapter: Exploring efficient decoder-side adapter for bridging screen content and natural image compression
CN110072104B (zh) 一种基于图像级jnd预测的感知图像压缩方法
Yang et al. Semantic preprocessor for image compression for machines
Hou et al. Quality Enhancement of Compressed Video via CNNs.
CN117459737B (zh) 一种图像预处理网络的训练方法和图像预处理方法
Lv et al. A Neuron Attention-Based Convolutional Neural Network for Intra Luma Quality Enhancement of H. 266/Versatile Video Coding
WO2023109766A1 (zh) 环路滤波、视频编码、视频解码方法、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant