CN115883842A - 滤波及编解码方法、装置、计算机可读介质及电子设备 - Google Patents

滤波及编解码方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN115883842A
CN115883842A CN202111144705.7A CN202111144705A CN115883842A CN 115883842 A CN115883842 A CN 115883842A CN 202111144705 A CN202111144705 A CN 202111144705A CN 115883842 A CN115883842 A CN 115883842A
Authority
CN
China
Prior art keywords
image
deep learning
component
convolution layer
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111144705.7A
Other languages
English (en)
Inventor
王力强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111144705.7A priority Critical patent/CN115883842A/zh
Priority to PCT/CN2022/118321 priority patent/WO2023051223A1/zh
Priority to EP22874610.3A priority patent/EP4412218A1/en
Publication of CN115883842A publication Critical patent/CN115883842A/zh
Priority to US18/472,484 priority patent/US20240015336A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请的实施例提供了一种滤波及编解码方法、装置、计算机可读介质及电子设备。该基于深度学习的滤波方法包括:获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像。本申请实施例的技术方案可以提高滤波效果,进而有利于提升视频的编解码效率。

Description

滤波及编解码方法、装置、计算机可读介质及电子设备
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种滤波及编解码方法、装置、计算机可读介质及电子设备。
背景技术
在视频编解码领域中,预测图像与重构残差图像叠加生成重建图像之后,由于重建图像会产生失真,因此为了获取较优质量的图像,通常需要对重建图像进行环路滤波处理(Loop Filtering),而在环路滤波处理中,如何能够提高滤波效果,以提升编解码效率是亟待解决的技术问题。
发明内容
本申请的实施例提供了一种滤波及编解码方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以提高滤波效果,进而有利于提升视频的编解码效率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种基于深度学习的滤波方法,包括:获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像。
根据本申请实施例的一个方面,提供了一种视频编码方法,包括:获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像;基于所述已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于所述亮度分量预测图像对所述下一帧视频图像进行编码处理。
根据本申请实施例的一个方面,提供了一种视频解码方法,包括:获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像;基于所述已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于所述亮度分量预测图像对视频码流进行解码处理。
根据本申请实施例的一个方面,提供了一种基于深度学习的滤波装置,包括:获取单元,配置为获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;生成单元,配置为根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;处理单元,配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像。
在本申请的一些实施例中,基于前述方案,所述色度分量信息包括以下至少一个:所述已编码图像对应的色度分量滤波前图像、所述已编码图像对应的色度分量预测图像、所述已编码图像对应的色度分量块划分信息。
在本申请的一些实施例中,基于前述方案,所述生成单元配置为:将所述色度分量信息进行上采样处理,得到与所述亮度分量重建图像尺寸相同的色度分量信息;将所述亮度分量重建图像与上采样处理后的色度分量信息进行图层合并处理,将图层合并处理的结果作为所述深度学习滤波器的输入参数。
在本申请的一些实施例中,基于前述方案,所述生成单元配置为:将所述色度分量信息进行上采样处理,得到与所述亮度分量重建图像尺寸相同的色度分量信息,所述色度分量信息包括:色度分量滤波前图像、色度分量预测图像、色度分量块划分信息;对所述亮度分量重建图像与上采样处理后的色度分量滤波前图像进行合并,并提取合并后的图像特征,得到第一特征;对所述已编码图像对应的亮度分量预测图像与上采样处理后的色度分量预测图像进行合并,并提取合并后的图像特征,得到第二特征;对所述已编码图像对应的亮度分量块划分信息与上采样处理后的色度分量块划分信息进行合并,并提取合并后的图像特征,得到第三特征;根据所述第一特征、所述第二特征和所述第三特征生成所述输入参数。
在本申请的一些实施例中,基于前述方案,所述深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元,所述残差单元中包含有至少一个残差块。
在本申请的一些实施例中,基于前述方案,若所述残差单元包括多个残差块,则所述多个残差块的通道数相同,或者所述多个残差块中各个残差块的通道数不完全相同。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元和第二卷积层;其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第二卷积层和卷积块注意力单元;其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层和第二卷积层;其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层、第二卷积层和卷积块注意力单元;其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
根据本申请实施例的一个方面,提供了一种视频编码装置,包括:获取单元,配置为获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;生成单元,配置为根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;处理单元,配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像;编码单元,配置为基于所述已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于所述亮度分量预测图像对所述下一帧视频图像进行编码处理。
根据本申请实施例的一个方面,提供了一种视频解码装置,包括:获取单元,配置为获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;生成单元,配置为根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;处理单元,配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像;解码单元,配置为基于所述已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于所述亮度分量预测图像对视频码流进行解码处理。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的基于深度学习的滤波方法、视频编码方法或视频解码方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如上述实施例中所述的基于深度学习的滤波方法、视频编码方法或视频解码方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的基于深度学习的滤波方法、视频编码方法或视频解码方法。
在本申请的一些实施例所提供的技术方案中,通过获取已编码图像对应的亮度分量重建图像和已编码图像对应的色度分量信息,根据亮度分量重建图像和色度分量信息生成深度学习滤波器的输入参数,进而将该输入参数输入至深度学习滤波器,得到深度学习滤波器输出的对应于亮度分量重建图像的已滤波图像,使得在对图像的亮度分量进行滤波处理时,能够充分利用色度分量的信息,进而可以利用已有的色度分量信息提升针对亮度分量的深度学习滤波器的性能,从而可以提高滤波效果,有利于提升视频的编解码效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示出视频编码装置和视频解码装置在流式传输系统中的放置方式示意图;
图3示出了一个视频编码器的基本流程图;
图4示出了基于CNNLF进行滤波处理的示意图;
图5示出了对亮度分量和色度分量进行滤波处理的示意图;
图6示出了根据本申请的一个实施例的对亮度分量进行滤波处理的示意图;
图7示出了根据本申请的一个实施例的基于深度学习的滤波方法的流程图;
图8A示出了根据本申请的一个实施例的基于亮度分量重建图像和色度分量信息生成深度学习滤波器的输入参数的示意图;
图8B示出了根据本申请的一个实施例的基于亮度分量重建图像和色度分量信息生成深度学习滤波器的输入参数的示意图;
图9示出了根据本申请的一个实施例的基于亮度分量重建图像和色度分量信息生成深度学习滤波器的输入参数的示意图;
图10示出了根据本申请的一个实施例的残差块的结构示意图;
图11示出了根据本申请的一个实施例的残差块的结构示意图;
图12示出了根据本申请的一个实施例的残差块的结构示意图;
图13示出了根据本申请的一个实施例的残差块的结构示意图;
图14示出了根据本申请的一个实施例的视频编码方法的流程图;
图15示出了根据本申请的一个实施例的视频解码方法的流程图;
图16示出了根据本申请的一个实施例的基于深度学习的滤波装置的框图;
图17示出了根据本申请的一个实施例的视频编码装置的框图;
图18示出了根据本申请的一个实施例的视频解码装置的框图;
图19示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在参考附图以更全面的方式描述示例实施方式。然而,示例的实施方式能够以各种形式实施,且不应被理解为仅限于这些范例;相反,提供这些实施方式的目的是使得本申请更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,本申请所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,有许多具体细节从而可以充分理解本申请的实施例。然而,本领域技术人员应意识到,在实施本申请的技术方案时可以不需用到实施例中的所有细节特征,可以省略一个或更多特定细节,或者可以采用其它的方法、元件、装置、步骤等。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100包括多个终端装置,所述终端装置可通过例如网络150彼此通信。举例来说,系统架构100可以包括通过网络150互连的第一终端装置110和第二终端装置120。在图1的实施例中,第一终端装置110和第二终端装置120执行单向数据传输。
举例来说,第一终端装置110可对视频数据(例如由终端装置110采集的视频图片流)进行编码以通过网络150传输到第二终端装置120,已编码的视频数据以一个或多个已编码视频码流形式传输,第二终端装置120可从网络150接收已编码视频数据,对已编码视频数据进行解码以恢复视频数据,并根据恢复的视频数据显示视频图片。
在本申请的一个实施例中,系统架构100可以包括执行已编码视频数据的双向传输的第三终端装置130和第四终端装置140,所述双向传输比如可以发生在视频会议期间。对于双向数据传输,第三终端装置130和第四终端装置140中的每个终端装置可对视频数据(例如由终端装置采集的视频图片流)进行编码,以通过网络150传输到第三终端装置130和第四终端装置140中的另一终端装置。第三终端装置130和第四终端装置140中的每个终端装置还可接收由第三终端装置130和第四终端装置140中的另一终端装置传输的已编码视频数据,且可对已编码视频数据进行解码以恢复视频数据,并可根据恢复的视频数据在可访问的显示装置上显示视频图片。
在图1的实施例中,第一终端装置110、第二终端装置120、第三终端装置130和第四终端装置140可为服务器、个人计算机和智能电话,但本申请公开的原理可不限于此。本申请公开的实施例适用于膝上型计算机、平板电脑、媒体播放器和/或专用视频会议设备。网络150表示在第一终端装置110、第二终端装置120、第三终端装置130和第四终端装置140之间传送已编码视频数据的任何数目的网络,包括例如有线和/或无线通信网络。通信网络150可在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的,除非在下文中有所解释,否则网络150的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。
在本申请的一个实施例中,图2示出视频编码装置和视频解码装置在流式传输环境中的放置方式。本申请所公开主题可同等地适用于其它支持视频的应用,包括例如视频会议、数字TV(television,电视机)、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。
流式传输系统可包括采集子系统213,采集子系统213可包括数码相机等视频源201,视频源创建未压缩的视频图片流202。在实施例中,视频图片流202包括由数码相机拍摄的样本。相较于已编码的视频数据204(或已编码的视频码流204),视频图片流202被描绘为粗线以强调高数据量的视频图片流,视频图片流202可由电子装置220处理,电子装置220包括耦接到视频源201的视频编码装置203。视频编码装置203可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于视频图片流202,已编码的视频数据204(或已编码的视频码流204)被描绘为细线以强调较低数据量的已编码的视频数据204(或已编码的视频码流204),其可存储在流式传输服务器205上以供将来使用。一个或多个流式传输客户端子系统,例如图2中的客户端子系统206和客户端子系统208,可访问流式传输服务器205以检索已编码的视频数据204的副本207和副本209。客户端子系统206可包括例如电子装置230中的视频解码装置210。视频解码装置210对已编码的视频数据的传入副本207进行解码,且产生可在显示器212(例如显示屏)或另一呈现装置上呈现的输出视频图片流211。在一些流式传输系统中,可根据某些视频编码/压缩标准对已编码的视频数据204、视频数据207和视频数据209(例如视频码流)进行编码。
应注意,电子装置220和电子装置230可包括图中未示出的其它组件。举例来说,电子装置220可包括视频解码装置,且电子装置230还可包括视频编码装置。
在本申请的一个实施例中,以国际视频编码标准HEVC(High Efficiency VideoCoding,高效率视频编码)、VVC(Versatile Video Coding,多功能视频编码),以及中国国家视频编码标准AVS为例,当输入一个视频帧图像之后,会根据一个块大小,将视频帧图像划分成若干个不重叠的处理单元,每个处理单元将进行类似的压缩操作。这个处理单元被称作CTU(Coding Tree Unit,编码树单元),或者称之为LCU(Largest Coding Unit,最大编码单元)。CTU再往下可以继续进行更加精细的划分,得到一个或多个基本的编码单元CU(Coding Unit,编码单元),CU是一个编码环节中最基本的元素。
以下介绍对CU进行编码时的一些概念:
预测编码(Predictive Coding):预测编码包括了帧内预测和帧间预测等方式,原始视频信号经过选定的已重建视频信号的预测后,得到残差视频信号。编码端需要为当前CU决定选择哪一种预测编码模式,并告知解码端。其中,帧内预测是指预测的信号来自于同一图像内已经编码重建过的区域;帧间预测是指预测的信号来自已经编码过的、不同于当前图像的其它图像(称之为参考图像)。
变换及量化(Transform&Quantization):残差视频信号经过DFT(DiscreteFourier Transform,离散傅里叶变换)、DCT(Discrete Cosine Transform,离散余弦变换)等变换操作后,将信号转换到变换域中,称之为变换系数。变换系数进一步进行有损的量化操作,丢失掉一定的信息,使得量化后的信号有利于压缩表达。在一些视频编码标准中,可能有多于一种变换方式可以选择,因此编码端也需要为当前CU选择其中的一种变换方式,并告知解码端。量化的精细程度通常由量化参数(Quantization Parameter,简称QP)来决定,QP取值较大,表示更大取值范围的系数将被量化为同一个输出,因此通常会带来更大的失真及较低的码率;相反,QP取值较小,表示较小取值范围的系数将被量化为同一个输出,因此通常会带来较小的失真,同时对应较高的码率。
熵编码(Entropy Coding)或统计编码:量化后的变换域信号将根据各个值出现的频率进行统计压缩编码,最后输出二值化(0或者1)的压缩码流。同时,编码产生其他信息,例如选择的编码模式、运动矢量数据等,也需要进行熵编码以降低码率。统计编码是一种无损的编码方式,可以有效的降低表达同样信号所需要的码率,常见的统计编码方式有变长编码(Variable Length Coding,简称VLC)或者基于上下文的二值化算术编码(ContentAdaptive Binary Arithmetic Coding,简称CABAC)。
基于上下文的二值化算术编码(CABAC)过程主要包含3个步骤:二值化、上下文建模和二进制算术编码。在对输入的语法元素进行二值化处理后,可以通过常规编码模式和旁路编码模式(Bypass Coding Mode)对二元数据进行编码。旁路编码模式无须为每个二元位分配特定的概率模型,输入的二元位bin值直接用一个简单的旁路编码器进行编码,以加快整个编码以及解码的速度。一般情况下,不同的语法元素之间并不是完全独立的,且相同语法元素自身也具有一定的记忆性。因此,根据条件熵理论,利用其他已编码的语法元素进行条件编码,相对于独立编码或者无记忆编码能够进一步提高编码性能。这些用来作为条件的已编码符号信息称为上下文。在常规编码模式中,语法元素的二元位顺序地进入上下文模型器,编码器根据先前编码过的语法元素或二元位的值,为每一个输入的二元位分配合适的概率模型,该过程即为上下文建模。通过ctxIdxInc(context index increment,上下文索引增量)和ctxIdxStart(context index Start,上下文起始索引)即可定位到语法元素所对应的上下文模型。将bin值和分配的概率模型一起送入二元算术编码器进行编码后,需要根据bin值更新上下文模型,也就是编码中的自适应过程。
环路滤波(Loop Filtering):经过变化及量化的信号会通过反量化、反变换及预测补偿的操作获得重建图像。重建图像与原始图像相比由于存在量化的影响,部分信息与原始图像有所不同,即重建图像会产生失真(Distortion)。因此,可以对重建图像进行滤波操作,例如去块效应滤波(Deblocking filter,简称DB)、SAO(Sample Adaptive Offset,自适应像素补偿)或者ALF(Adaptive Loop Filter,自适应环路滤波)等滤波器,可以有效降低量化所产生的失真程度。由于这些经过滤波后的重建图像将作为后续编码图像的参考来对将来的图像信号进行预测,因此上述的滤波操作也被称为环路滤波,即在编码环路内的滤波操作。
在本申请的一个实施例中,图3示出了一个视频编码器的基本流程图,在该流程中以帧内预测为例进行说明。其中,原始图像信号sk[x,y]与预测图像信号
Figure BDA0003284986160000111
做差值运算,得到残差信号uk[x,y],残差信号uk[x,y]经过变换及量化处理之后得到量化系数,量化系数一方面通过熵编码得到编码后的比特流,另一方面通过反量化及反变换处理得到重构残差信号u'k[x,y],预测图像信号/>
Figure BDA0003284986160000112
与重构残差信号u'k[x,y]叠加生成重建图像信号
Figure BDA0003284986160000113
重建图像信号/>
Figure BDA0003284986160000114
一方面输入至帧内模式决策模块和帧内预测模块进行帧内预测处理,另一方面通过环路滤波进行滤波处理,并输出滤波后的图像信号s'k[x,y],滤波后的图像信号s'k[x,y]可以作为下一帧的参考图像进行运动估计及运动补偿预测。然后基于运动补偿预测的结果s'r[x+mx,y+my]和帧内预测结果/>
Figure BDA0003284986160000115
得到下一帧的预测图像信号/>
Figure BDA0003284986160000116
并继续重复上述过程,直至编码完成。
上述的环路滤波可以基于CNNLF(Convolutional Neural Network Loop Filter,基于深度学习的滤波器)来实现,CNNLF的模型结构包括卷积层、激活函数、全连接层和池化层等基本模块构成,模型参数需要通过训练得到。如图4所示,在CNNLF经过训练完成之后,可以将滤波前的图像输入至训练好的CNNLF中,最后输出滤波后的图像。
针对图像的滤波任务,可以针对亮度分量(Y)和色度分量(Cb和Cr)单独训练不同的滤波模型来提升针对亮度分量和色度分量的滤波性能。比如,对于图5所示的方式A而言,可以通过2个深度学习滤波器分别针对Y分量和{Cb,Cr}分量进行滤波处理;或者可以如方式B所示,通过3个深度学习滤波器分别针对Y分量、Cb分量和Cr分量进行滤波处理。不管是图5中所示的方式A还是方式B,由于Y分量包含更多的纹理信息,因此在对色度分量Cb和/或Cr进行滤波时往往引入Y分量的信息以提升滤波器的分类精度,从而提升最终的滤波性能。
而为了提升亮度分量滤波器的性能,本申请实施例中提出了利用已有的信息提升针对亮度分量的深度学习滤波器的性能。比如如图6所示,可以利用色度分量{Cb,Cr}的信息来提升针对亮度分量Y的深度学习滤波器的性能。可选地,色度分量的信息可以是色度分量滤波前的图像(即色度分量重建图像)、色度分量的预测图像、色度分量的块划分信息中的一种或多种。
其中,深度学习属于人工智能(Artificial Intelligence,简称AI)的范畴,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
而机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。本申请实施例中的深度学习滤波器即是基于机器学习/深度学习的一种滤波器。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图7示出了根据本申请的一个实施例的基于深度学习的滤波方法的流程图,该基于深度学习的滤波方法可以由具有计算处理功能的设备来执行,比如可以由终端设备或服务器来执行。参照图7所示,该基于深度学习的滤波方法至少包括步骤S710至步骤S730,详细介绍如下:
在步骤S710中,获取已编码图像对应的亮度分量重建图像和已编码图像对应的色度分量信息。
在本申请的一个实施例中,已编码图像对应的重建图像即是通过反量化、反变换处理后得到的重构残差图像与预测图像叠加生成的图像,比如在图3所示的流程中,重建图像即为预测图像信号
Figure BDA0003284986160000131
与重构残差信号u'k[x,y]叠加生成的图像信号/>
Figure BDA0003284986160000132
亮度分量重建图像即为已编码图像对应的重建图像中的亮度部分。
可选地,色度分量信息包括以下至少一个:已编码图像对应的色度分量滤波前图像、已编码图像对应的色度分量预测图像、已编码图像对应的色度分量块划分信息。
可选地,色度分量块划分信息可以是根据色度分量块划分结果生成的图像,比如可以包括以下图像中的至少一个:根据色度分量块划分边界生成的二值图像;根据去块滤波器对色度分量重建图像的滤波边界所生成的二值图像;对于滤波前的色度分量重建图像,根据块划分结果,同一个块内取平均作为块内所有样点的值所得到的色度分量块划分均值图像。
在步骤S720中,根据亮度分量重建图像和色度分量信息生成深度学习滤波器的输入参数。
在本申请的一个实施例中,可以将色度分量信息进行上采样处理,得到与亮度分量重建图像尺寸相同的色度分量信息,然后将亮度分量重建图像与上采样处理后的色度分量信息进行图层合并处理,将图层合并处理的结果作为深度学习滤波器的输入参数。
可选地,上采样处理可以采用上采样滤波器实现或者通过深度学习模块实现。上采样滤波器比如可以是基于Lanczos(一种将对称矩阵通过正交相似变换变成对称三对角矩阵的算法)、nearest(最邻近插值算法)、bilinear(双线性插值算法)、bicubic(双立方插值算法)等算法实现的。
在本申请的一个实施例中,上采样处理后的色度分量信息可以是色度分量重建图像,如图8A所示,可以将亮度分量重建图像(即Y分量)和上采样处理后的色度分量重建图像(即Cb和Cr分量)分别作为一个图层进行合并处理,之后输入至深度学习滤波器中,最后得到亮度分量滤波后的图像Y'。
可选地,该深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元。其中,卷积单元包括卷积层(Convolutional layer,简称conv)和参数化修正线性单元(Parametric Rectified Linear Unit,简称prelu);残差单元包括顺次相连的N个残差块;重排单元即为shuffle单元。Shuffle单元此处是通过重排来实现图像的上采样处理。在图8A中所示的实施例中,残差单元之前的卷积单元中卷积层的步长s=2;在残差单元与重排单元shuffle之间还可以设置另一个卷积层,该卷积层的步长s=1。
在本申请的一个实施例中,上采样处理后的色度分量信息可以是色度分量重建图像、色度分量预测图像和色度分量块划分信息,如图8B所示,可以将亮度分量重建图像、亮度分量预测图像和亮度分量块划分信息(即Y分量)和上采样处理后的色度分量重建图像、色度分量预测图像和色度分量块划分信息(即Cb和Cr分量)分别作为一个图层进行合并处理,之后输入至深度学习滤波器中,最后得到亮度分量滤波后的图像Y'。
可选地,该深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元。其中,卷积单元包括卷积层conv和参数化修正线性单元prelu;残差单元包括顺次相连的N个残差块;重排单元即为shuffle单元。在图8B中所示的实施例中,残差单元之前的卷积单元中卷积层的步长s=2;在残差单元与重排单元shuffle之间还可以设置另一个卷积层,该卷积层的步长s=1。
需要说明的是,与色度分量块划分信息类似,本申请实施例中的亮度分量块划分信息可以是根据亮度分量块划分结果生成的图像,比如可以包括以下图像中的至少一个:根据亮度分量块划分边界生成的二值图像;根据去块滤波器对亮度分量重建图像的滤波边界所生成的二值图像;对于滤波前的亮度分量重建图像,根据块划分结果,同一个块内取平均作为块内所有样点的值所得到的亮度分量块划分均值图像。
在本申请的一个实施例中,可以将色度分量信息进行上采样处理,得到与亮度分量重建图像尺寸相同的色度分量信息,该色度分量信息包括:色度分量滤波前图像、色度分量预测图像、色度分量块划分信息;然后对亮度分量重建图像与上采样处理后的色度分量滤波前图像进行合并,并提取合并后的图像特征,得到第一特征;对已编码图像对应的亮度分量预测图像与上采样处理后的色度分量预测图像进行合并,并提取合并后的图像特征,得到第二特征;对已编码图像对应的亮度分量块划分信息与上采样处理后的色度分量块划分信息进行合并,并提取合并后的图像特征,得到第三特征;然后根据第一特征、第二特征和第三特征生成深度学习滤波器的输入参数。
具体可以如图9所示,亮度分量预测图像与上采样处理后的色度分量预测图像合并后经过卷积单元(卷积单元包括卷积层conv和参数化修正线性单元prelu,该卷积层的步长s=1)来提取特征;亮度分量块划分信息与上采样处理后的色度分量块划分信息合并后经过卷积单元(卷积单元包括卷积层conv和参数化修正线性单元prelu,该卷积层的步长s=1)来提取特征;亮度分量重建图像与上采样处理后的色度分量重建图像合并后经过卷积单元(卷积单元包括卷积层conv和参数化修正线性单元prelu,该卷积层的步长s=1)来提取特征;然后将这些特征输入至深度学习滤波器中,最后得到亮度分量滤波后的图像Y'。
可选地,在图9所示的实施例中,深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元。其中,卷积单元包括步长s=1的卷积层、参数化修正线性单元prelu,以及步长s=2的卷积层;残差单元包括顺次相连的N个残差块;重排单元即为shuffle单元。在图9中所示的实施例中,在残差单元与重排单元shuffle之间还可以设置一个卷积层,该卷积层的步长s=1。
在图9所示的实施例中,是以色度分量信息包括:色度分量滤波前图像(即色度分量重建图像)、色度分量预测图像、色度分量块划分信息为例进行的说明。在本申请的其它实施例中,色度分量信息也可以包括色度分量滤波前图像(即色度分量重建图像)、色度分量预测图像、色度分量块划分信息中的部分。如果色度分量信息不包括色度分量预测图像,那么图9所示实施例中可以去掉通过卷积单元对预测图像(Y,Cb,Cr)进行特征提取的部分;如果色度分量信息不包括色度分量块划分信息,那么图9所示实施例中可以去掉通过卷积单元对块划分信息(Y,Cb,Cr)进行特征提取的部分。
在本申请的一个实施例中,残差单元中包含的N个残差块可以是1个、2个、3个等任意正整数数量个残差块。
如图10所示,本申请一个实施例中的残差块结构可以包括:顺次相连的第一卷积层(其卷积核大小可以为1×1)、参数化修正线性单元和第二卷积层(其卷积核大小可以为3×3);其中,第一卷积层的输入作为残差块的输入,第一卷积层的输入与第二卷积层的输出的叠加结果作为残差块的输出。
如图11所示,本申请一个实施例中的残差块结构可以包括:顺次相连的第一卷积层(其卷积核大小可以为1×1)、参数化修正线性单元、第二卷积层(其卷积核大小可以为3×3)和卷积块注意力单元(Convolutional Block Attention Module,简称CBAM);其中,第一卷积层的输入作为残差块的输入,第一卷积层的输入与卷积块注意力单元的输出的叠加结果作为残差块的输出。
如图12所示,本申请一个实施例中的残差块结构可以包括:顺次相连的第一卷积层(其卷积核大小可以为1×1)、参数化修正线性单元、第三卷积层(其卷积核大小可以为1×1)和第二卷积层(其卷积核大小可以为3×3);其中,第一卷积层的卷积核与第三卷积层的卷积核大小相同,第一卷积层的输入作为残差块的输入,第一卷积层的输入与第二卷积层的输出的叠加结果作为残差块的输出。
如图13所示,本申请一个实施例中的残差块结构可以包括:顺次相连的第一卷积层(其卷积核大小可以为1×1)、参数化修正线性单元、第三卷积层(其卷积核大小可以为1×1)、第二卷积层(其卷积核大小可以为3×3)和卷积块注意力单元;其中,第一卷积层的卷积核与第三卷积层的卷积核大小相同,第一卷积层的输入作为残差块的输入,第一卷积层的输入与卷积块注意力单元的输出的叠加结果作为残差块的输出。
需要说明的是,在本申请的实施例中,残差单元中可以包含有一个或多个残差块,每个残差块的结构可以是上述的任意一种。深度学习滤波器的卷积单元包含的卷积层和prelu层的数量可以根据实际需要进行设定,残差块中包含的卷积层和prelu层的数量也可以根据实际需要进行设定。同时,不同卷积层的通道数可以相同,也可以不相同。
在步骤S730中,将生成的输入参数输入至深度学习滤波器,得到深度学习滤波器输出的对应于亮度分量重建图像的已滤波图像。
在本申请的一个实施例中,深度学习滤波器在进行训练时需要采用与应用时相同的参数作为输入。具体而言,在训练阶段,需要获取到亮度分量的样本重建图像和相应的色度分量信息(该色度分量信息根据深度学习滤波器的使用场景进行调整,即与深度学习滤波器在使用时所用到的参数相匹配),然后根据亮度分量的样本重建图像和色度分量信息生成训练用的输入参数,然后将得到的输入参数输入至深度学习滤波器中,根据深度学习滤波器的输出与亮度分量的样本重建图像对应的期望滤波结果图像之间的损失值来调整深度学习滤波器的参数,并重复这个过程,直至深度学习滤波器满足收敛条件为止。
在图7所示的基于深度学习的滤波方法的基础上,本申请实施例中还提出了一种视频编码方法,该视频编码方法可以由具有计算处理功能的设备来执行,比如可以由终端设备或服务器来执行。具体流程如图14所示,包括如下步骤S1410至步骤S1440:
在步骤S1410中,获取已编码图像对应的亮度分量重建图像和已编码图像对应的色度分量信息。
该步骤的具体实施细节可以参照前述步骤S710,不再赘述。
在步骤S1420中,根据亮度分量重建图像和色度分量信息生成深度学习滤波器的输入参数。
该步骤的具体实施细节可以参照前述步骤S720,不再赘述。
在步骤S1430中,将生成的输入参数输入至深度学习滤波器,得到深度学习滤波器输出的对应于亮度分量重建图像的已滤波图像。
在步骤S1440中,基于亮度分量重建图像的已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于该亮度分量预测图像对下一帧视频图像进行编码处理。
可选地,在生成已滤波图像之后,可以参照图3所示的流程,即亮度分量重建图像的已滤波图像作为下一帧图像的亮度分量参考图像进行运动估计及运动补偿预测,然后基于运动补偿预测的结果和帧内预测结果得到下一帧图像的亮度分量预测图像,并继续重复图3中所示的流程,直至对视频图像编码完成。
相应的,在图7所示的基于深度学习的滤波方法的基础上,本申请实施例中还提出了一种视频解码方法,该视频解码方法可以由具有计算处理功能的设备来执行,比如可以由终端设备或服务器来执行。具体流程如图15所示,包括如下步骤S1510至步骤S1540:
在步骤S1510中,获取已编码图像对应的亮度分量重建图像和已编码图像对应的色度分量信息。
该步骤的具体实施细节可以参照前述步骤S710,不再赘述。
在步骤S1520中,根据亮度分量重建图像和色度分量信息生成深度学习滤波器的输入参数。
该步骤的具体实施细节可以参照前述步骤S720,不再赘述。
在步骤S1530中,将生成的输入参数输入至深度学习滤波器,得到深度学习滤波器输出的对应于亮度分量重建图像的已滤波图像。
在步骤S1540中,基于亮度分量重建图像的已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于该亮度分量预测图像对视频码流进行解码处理。
可选地,在生成亮度分量重建图像的已滤波图像之后,可以将亮度分量重建图像的已滤波图像作为下一帧的亮度分量参考图像进行运动估计及运动补偿预测,然后基于运动补偿预测的结果和帧内预测结果得到下一帧图像的亮度分量预测图像,亮度分量预测图像与进行反量化和反变换处理得到的亮度分量重构残差信号再次叠加生成下一帧的亮度分量重建图像,并重复这个过程,以实现对视频码流的解码处理。
本申请实施例的技术方案使得在对图像的亮度分量进行滤波处理时,能够充分利用色度分量的信息,进而可以利用已有的色度分量信息提升针对亮度分量的深度学习滤波器的性能,从而可以提高滤波效果,有利于提升视频的编解码效率。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的基于深度学习的滤波方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的基于深度学习的滤波方法的实施例。
图16示出了根据本申请的一个实施例的基于深度学习的滤波装置的框图,该基于深度学习的滤波装置可以设置在具有计算处理功能的设备内,比如可以设置在终端设备或服务器内。
参照图16所示,根据本申请的一个实施例的基于深度学习的滤波装置1600,包括:获取单元1602、生成单元1604和处理单元1606。
其中,获取单元1602配置为获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;生成单元1604配置为根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;处理单元1606配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像。
在本申请的一些实施例中,基于前述方案,所述色度分量信息包括以下至少一个:所述已编码图像对应的色度分量滤波前图像、所述已编码图像对应的色度分量预测图像、所述已编码图像对应的色度分量块划分信息。
在本申请的一些实施例中,基于前述方案,所述生成单元1604配置为:将所述色度分量信息进行上采样处理,得到与所述亮度分量重建图像尺寸相同的色度分量信息;将所述亮度分量重建图像与上采样处理后的色度分量信息进行图层合并处理,将图层合并处理的结果作为所述深度学习滤波器的输入参数。
在本申请的一些实施例中,基于前述方案,所述生成单元1604配置为:将所述色度分量信息进行上采样处理,得到与所述亮度分量重建图像尺寸相同的色度分量信息,所述色度分量信息包括:色度分量滤波前图像、色度分量预测图像、色度分量块划分信息;对所述亮度分量重建图像与上采样处理后的色度分量滤波前图像进行合并,并提取合并后的图像特征,得到第一特征;对所述已编码图像对应的亮度分量预测图像与上采样处理后的色度分量预测图像进行合并,并提取合并后的图像特征,得到第二特征;对所述已编码图像对应的亮度分量块划分信息与上采样处理后的色度分量块划分信息进行合并,并提取合并后的图像特征,得到第三特征;根据所述第一特征、所述第二特征和所述第三特征生成所述输入参数。
在本申请的一些实施例中,基于前述方案,所述深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元,所述残差单元中包含有至少一个残差块。
在本申请的一些实施例中,基于前述方案,若所述残差单元包括多个残差块,则所述多个残差块的通道数相同,或者所述多个残差块中各个残差块的通道数不完全相同。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元和第二卷积层;其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第二卷积层和卷积块注意力单元;其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层和第二卷积层;其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层、第二卷积层和卷积块注意力单元;其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
图17示出了根据本申请的一个实施例的视频编码装置的框图,该视频编码装置可以设置在具有计算处理功能的设备内,比如可以设置在终端设备或服务器内。
参照图17所示,根据本申请的一个实施例的视频编码装置1700,包括:获取单元1602、生成单元1604、处理单元1606和编码单元1702。
其中,获取单元1602配置为获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;生成单元1604配置为根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;处理单元1606配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像;编码单元1702配置为基于所述已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于所述亮度分量预测图像对所述下一帧视频图像进行编码处理。
图18示出了根据本申请的一个实施例的视频解码装置的框图,该视频解码装置可以设置在具有计算处理功能的设备内,比如可以设置在终端设备或服务器内。
参照图18所示,根据本申请的一个实施例的视频解码装置1800,包括:获取单元1602、生成单元1604、处理单元1606和解码单元1802。
其中,获取单元1602配置为获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;生成单元1604配置为根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;处理单元1606配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像;解码单元1802配置为基于所述已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于所述亮度分量预测图像对视频码流进行解码处理。
图19示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图19示出的电子设备的计算机系统1900仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图19所示,计算机系统1900包括中央处理单元(Central Processing Unit,CPU)1901,其可以根据存储在只读存储器(Read-Only Memory,ROM)1902中的程序或者从存储部分1908加载到随机访问存储器(Random Access Memory,RAM)1903中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1903中,还存储有系统操作所需的各种程序和数据。CPU 1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出(Input/Output,I/O)接口1905也连接至总线1904。
以下部件连接至I/O接口1905:包括键盘、鼠标等的输入部分1906;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1907;包括硬盘等的存储部分1908;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1909。通信部分1909经由诸如因特网的网络执行通信处理。驱动器1910也根据需要连接至I/O接口1905。可拆卸介质1911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1910上,以便于从其上读出的计算机程序根据需要被安装入存储部分1908。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1909从网络上被下载和安装,和/或从可拆卸介质1911被安装。在该计算机程序被中央处理单元(CPU)1901执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种基于深度学习的滤波方法,其特征在于,包括:
获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;
根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;
将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像。
2.根据权利要求1所述的基于深度学习的滤波方法,其特征在于,所述色度分量信息包括以下至少一个:
所述已编码图像对应的色度分量滤波前图像、所述已编码图像对应的色度分量预测图像、所述已编码图像对应的色度分量块划分信息。
3.根据权利要求1所述的基于深度学习的滤波方法,其特征在于,根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数,包括:
将所述色度分量信息进行上采样处理,得到与所述亮度分量重建图像尺寸相同的色度分量信息;
将所述亮度分量重建图像与上采样处理后的色度分量信息进行图层合并处理,将图层合并处理的结果作为所述深度学习滤波器的输入参数。
4.根据权利要求1所述的基于深度学习的滤波方法,其特征在于,根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数,包括:
将所述色度分量信息进行上采样处理,得到与所述亮度分量重建图像尺寸相同的色度分量信息,所述色度分量信息包括:色度分量滤波前图像、色度分量预测图像、色度分量块划分信息;
对所述亮度分量重建图像与上采样处理后的色度分量滤波前图像进行合并,并提取合并后的图像特征,得到第一特征;
对所述已编码图像对应的亮度分量预测图像与上采样处理后的色度分量预测图像进行合并,并提取合并后的图像特征,得到第二特征;
对所述已编码图像对应的亮度分量块划分信息与上采样处理后的色度分量块划分信息进行合并,并提取合并后的图像特征,得到第三特征;
根据所述第一特征、所述第二特征和所述第三特征生成所述输入参数。
5.根据权利要求1至4中任一项所述的基于深度学习的滤波方法,其特征在于,所述深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元,所述残差单元中包含有至少一个残差块。
6.根据权利要求5所述的基于深度学习的滤波方法,其特征在于,若所述残差单元包括多个残差块,则所述多个残差块的通道数相同,或者所述多个残差块中各个残差块的通道数不完全相同。
7.根据权利要求5所述的基于深度学习的滤波方法,其特征在于,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元和第二卷积层;
其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
8.根据权利要求5所述的基于深度学习的滤波方法,其特征在于,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第二卷积层和卷积块注意力单元;
其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
9.根据权利要求5所述的基于深度学习的滤波方法,其特征在于,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层和第二卷积层;
其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
10.根据权利要求5所述的基于深度学习的滤波方法,其特征在于,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层、第二卷积层和卷积块注意力单元;
其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
11.一种视频编码方法,其特征在于,包括:
获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;
根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;
将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像;
基于所述已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于所述亮度分量预测图像对所述下一帧视频图像进行编码处理。
12.一种视频解码方法,其特征在于,包括:
获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;
根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;
将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像;
基于所述已滤波图像生成下一帧图像对应的亮度分量预测图像,并基于所述亮度分量预测图像对视频码流进行解码处理。
13.一种基于深度学习的滤波装置,其特征在于,包括:
获取单元,配置为获取已编码图像对应的亮度分量重建图像和所述已编码图像对应的色度分量信息;
生成单元,配置为根据所述亮度分量重建图像和所述色度分量信息生成深度学习滤波器的输入参数;
处理单元,配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述亮度分量重建图像的已滤波图像。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的基于深度学习的滤波方法,或实现如权利要求11所述的视频编码方法,或实现如权利要求12所述的视频解码方法。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至10中任一项所述的基于深度学习的滤波方法,或实现如权利要求11所述的视频编码方法,或实现如权利要求12所述的视频解码方法。
CN202111144705.7A 2021-09-28 2021-09-28 滤波及编解码方法、装置、计算机可读介质及电子设备 Pending CN115883842A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202111144705.7A CN115883842A (zh) 2021-09-28 2021-09-28 滤波及编解码方法、装置、计算机可读介质及电子设备
PCT/CN2022/118321 WO2023051223A1 (zh) 2021-09-28 2022-09-13 滤波及编解码方法、装置、计算机可读介质及电子设备
EP22874610.3A EP4412218A1 (en) 2021-09-28 2022-09-13 Filtering method and apparatus, encoding method and apparatus, decoding method and apparatus, computer-readable medium, and electronic device
US18/472,484 US20240015336A1 (en) 2021-09-28 2023-09-22 Filtering method and apparatus, computer-readable medium, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111144705.7A CN115883842A (zh) 2021-09-28 2021-09-28 滤波及编解码方法、装置、计算机可读介质及电子设备

Publications (1)

Publication Number Publication Date
CN115883842A true CN115883842A (zh) 2023-03-31

Family

ID=85763623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111144705.7A Pending CN115883842A (zh) 2021-09-28 2021-09-28 滤波及编解码方法、装置、计算机可读介质及电子设备

Country Status (4)

Country Link
US (1) US20240015336A1 (zh)
EP (1) EP4412218A1 (zh)
CN (1) CN115883842A (zh)
WO (1) WO2023051223A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111194555A (zh) * 2017-08-28 2020-05-22 交互数字Vc控股公司 用模式感知深度学习进行滤波的方法和装置
WO2020177133A1 (zh) * 2019-03-07 2020-09-10 Oppo广东移动通信有限公司 环路滤波实现方法、装置及计算机存储介质
WO2020177134A1 (zh) * 2019-03-07 2020-09-10 Oppo广东移动通信有限公司 环路滤波实现方法、装置及计算机存储介质
CN112218097A (zh) * 2019-07-12 2021-01-12 富士通株式会社 环路滤波装置和图像解码装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100442835B1 (ko) * 2002-08-13 2004-08-02 삼성전자주식회사 인공 신경망을 이용한 얼굴 인식 방법 및 장치
CN1816149A (zh) * 2005-02-06 2006-08-09 腾讯科技(深圳)有限公司 去除视频图像中块效应的滤波方法及环路滤波器
WO2017222140A1 (ko) * 2016-06-24 2017-12-28 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111194555A (zh) * 2017-08-28 2020-05-22 交互数字Vc控股公司 用模式感知深度学习进行滤波的方法和装置
WO2020177133A1 (zh) * 2019-03-07 2020-09-10 Oppo广东移动通信有限公司 环路滤波实现方法、装置及计算机存储介质
WO2020177134A1 (zh) * 2019-03-07 2020-09-10 Oppo广东移动通信有限公司 环路滤波实现方法、装置及计算机存储介质
CN112218097A (zh) * 2019-07-12 2021-01-12 富士通株式会社 环路滤波装置和图像解码装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIQIANG WANG等: "AHG11: neural network based cross-component prediction model", JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29,JVET-W0111, 12 July 2021 (2021-07-12), pages 1 - 2 *
LIQIANG WANG等: "AHG11: neural network based in-loop filter", JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29,JVET-W0113, 8 July 2021 (2021-07-08), pages 1 - 2 *

Also Published As

Publication number Publication date
WO2023051223A1 (zh) 2023-04-06
US20240015336A1 (en) 2024-01-11
EP4412218A1 (en) 2024-08-07

Similar Documents

Publication Publication Date Title
CN110798690B (zh) 视频解码方法、环路滤波模型的训练方法、装置和设备
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN111711824A (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN111901596B (zh) 基于深度学习的视频混合编码与解码方法及装置、介质
CN108881913B (zh) 图像编码的方法和装置
CN110740319B (zh) 视频编解码方法、装置、电子设备及存储介质
CN112995671B (zh) 视频编解码方法、装置、计算机可读介质及电子设备
CN118020297A (zh) 基于混合神经网络的端到端图像和视频编码方法
CN114257810B (zh) 上下文模型的选择方法、装置、设备及存储介质
WO2023082107A1 (zh) 解码方法、编码方法、解码器、编码器和编解码系统
WO2022174637A1 (zh) 视频编解码方法、装置、计算机可读介质及电子设备
CN115883842A (zh) 滤波及编解码方法、装置、计算机可读介质及电子设备
CN115209157A (zh) 视频编解码方法、装置、计算机可读介质及电子设备
EP4412217A1 (en) Filtering method and apparatus, encoding method and apparatus, decoding method and apparatus, computer-readable medium, and electronic device
CN115086664A (zh) 未匹配像素的解码方法、编码方法、解码器以及编码器
WO2023202097A1 (zh) 环路滤波方法、视频编解码方法、装置、介质、程序产品及电子设备
CN114079772B (zh) 视频解码方法、装置、计算机可读介质及电子设备
WO2023130899A1 (zh) 环路滤波方法、视频编解码方法、装置、介质及电子设备
CN115695805A (zh) 视频编码方法、装置、计算机可读介质及电子设备
CN115209138A (zh) 视频编解码方法、装置、计算机可读介质及电子设备
CN118803237A (zh) 视频编解码方法、装置、计算机可读介质及电子设备
CN114979656A (zh) 视频编解码方法、装置、计算机可读介质及电子设备
CN114979655A (zh) 视频编解码方法、装置、计算机可读介质及电子设备
CN115209141A (zh) 视频编解码方法、装置、计算机可读介质及电子设备
CN117834894A (zh) 视频编解码方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40084142

Country of ref document: HK