CN115883851A - 滤波及编解码方法、装置、计算机可读介质及电子设备 - Google Patents
滤波及编解码方法、装置、计算机可读介质及电子设备 Download PDFInfo
- Publication number
- CN115883851A CN115883851A CN202111144704.2A CN202111144704A CN115883851A CN 115883851 A CN115883851 A CN 115883851A CN 202111144704 A CN202111144704 A CN 202111144704A CN 115883851 A CN115883851 A CN 115883851A
- Authority
- CN
- China
- Prior art keywords
- deep learning
- image
- quantization parameter
- convolution layer
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000001914 filtration Methods 0.000 title claims abstract description 60
- 238000013139 quantization Methods 0.000 claims abstract description 202
- 238000013135 deep learning Methods 0.000 claims abstract description 137
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 66
- 238000012545 processing Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 12
- 230000008707 rearrangement Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012812 general test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/86—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请的实施例提供了一种滤波及编解码方法、装置、计算机可读介质及电子设备。该基于深度学习的滤波方法包括:获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像。本申请实施例的技术方案可以提高滤波效果,进而有利于提升视频的编解码效率。
Description
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种滤波及编解码方法、装置、计算机可读介质及电子设备。
背景技术
在视频编解码领域中,预测图像与重构残差图像叠加生成重建图像之后,由于重建图像会产生失真,因此为了获取较优质量的图像,通常需要对重建图像进行环路滤波处理(Loop Filtering),而在环路滤波处理中,如何能够提高滤波效果,以提升编解码效率是亟待解决的技术问题。
发明内容
本申请的实施例提供了一种滤波及编解码方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以提高滤波效果,进而有利于提升视频的编解码效率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种基于深度学习的滤波方法,包括:获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像。
根据本申请实施例的一个方面,提供了一种视频编码方法,包括:获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像;基于所述已滤波图像生成下一帧视频图像的预测图像,并基于所述预测图像对下一帧视频图像进行编码处理。
根据本申请实施例的一个方面,提供了一种视频解码方法,包括:获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像;基于所述已滤波图像生成下一帧视频图像的预测图像,并基于所述预测图像对视频码流进行解码处理。
根据本申请实施例的一个方面,提供了一种基于深度学习的滤波装置,包括:获取单元,配置为获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;生成单元,配置为根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;处理单元,配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像。
在本申请的一些实施例中,基于前述方案,所述量化参数还包括:所述已编码图像对应的序列级量化参数。
在本申请的一些实施例中,基于前述方案,所述生成单元配置为:将所述重建图像与所述量化参数进行图层合并处理,将图层合并处理的结果作为所述深度学习滤波器的输入参数。
在本申请的一些实施例中,基于前述方案,所述生成单元配置为:将所述重建图像与所述量化参数进行点乘运算,得到点乘运算结果;对所述点乘运算结果进行卷积运算;根据所述卷积运算得到的特征和所述重建图像的特征生成所述深度学习滤波器的输入参数。
在本申请的一些实施例中,基于前述方案,所述生成单元配置为:获取所述重建图像对应的参考信息,所述参考信息包括块划分信息和预测图像中的至少一个;对所述参考信息进行卷积运算,得到所述参考信息的特征;根据所述参考信息的特征、所述重建图像的特征和所述量化参数生成所述深度学习滤波器的输入参数。
在本申请的一些实施例中,基于前述方案,所述深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元,所述残差单元中包含有至少一个残差块。
在本申请的一些实施例中,基于前述方案,若所述残差单元包括多个残差块,则所述多个残差块的通道数相同,或者所述多个残差块中各个残差块的通道数不完全相同。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元和第二卷积层;其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第二卷积层和卷积块注意力单元;其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层和第二卷积层;其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层、第二卷积层和卷积块注意力单元;其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
根据本申请实施例的一个方面,提供了一种视频编码装置,包括:获取单元,配置为获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;生成单元,配置为根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;处理单元,配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像;编码单元,配置为基于所述已滤波图像生成下一帧视频图像的预测图像,并基于所述预测图像对下一帧视频图像进行编码处理。
根据本申请实施例的一个方面,提供了一种视频解码装置,包括:获取单元,配置为获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;生成单元,配置为根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;处理单元,配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像;解码单元,配置为基于所述已滤波图像生成下一帧视频图像的预测图像,并基于所述预测图像对视频码流进行解码处理。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的基于深度学习的滤波方法、视频编码方法或视频解码方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如上述实施例中所述的基于深度学习的滤波方法、视频编码方法或视频解码方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的基于深度学习的滤波方法、视频编码方法或视频解码方法。
在本申请的一些实施例所提供的技术方案中,通过获取已编码图像对应的重建图像和所述已编码图像的量化参数,且该量化参数包括已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种,然后根据重建图像和该量化参数生成深度学习滤波器的输入参数,并将该输入参数输入至深度学习滤波器,得到深度学习滤波器输出的对应于所述重建图像的已滤波图像,使得可以基于直接影响图像质量的细粒度量化参数(即帧级量化参数、条带级量化参数和块级量化参数中的至少一种)作为深度学习滤波器的输入,进而可以通过引入该细粒度的量化参数来提升深度学习滤波器对输入的重建图像的识别精度,从而可以提高滤波效果,有利于提升视频的编解码效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示出视频编码装置和视频解码装置在流式传输系统中的放置方式示意图;
图3示出了一个视频编码器的基本流程图;
图4示出了基于CNNLF进行滤波处理的示意图;
图5示出了RA编码模式中一个序列的帧级量化参数示意图;
图6示出了根据本申请的一个实施例的基于深度学习的滤波方法的流程图;
图7示出了根据本申请的一个实施例的基于重建图像和已编码图像的量化参数生成深度学习滤波器的输入参数的示意图;
图8示出了根据本申请的一个实施例的基于重建图像和已编码图像的量化参数生成深度学习滤波器的输入参数的示意图;
图9示出了根据本申请的一个实施例的基于重建图像和已编码图像的量化参数生成深度学习滤波器的输入参数的示意图;
图10示出了根据本申请的一个实施例的残差块的结构示意图;
图11示出了根据本申请的一个实施例的残差块的结构示意图;
图12示出了根据本申请的一个实施例的残差块的结构示意图;
图13示出了根据本申请的一个实施例的残差块的结构示意图;
图14示出了根据本申请的一个实施例的视频编码方法的流程图;
图15示出了根据本申请的一个实施例的视频解码方法的流程图;
图16示出了根据本申请的一个实施例的基于深度学习的滤波装置的框图;
图17示出了根据本申请的一个实施例的视频编码装置的框图;
图18示出了根据本申请的一个实施例的视频解码装置的框图;
图19示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在参考附图以更全面的方式描述示例实施方式。然而,示例的实施方式能够以各种形式实施,且不应被理解为仅限于这些范例;相反,提供这些实施方式的目的是使得本申请更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,本申请所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,有许多具体细节从而可以充分理解本申请的实施例。然而,本领域技术人员应意识到,在实施本申请的技术方案时可以不需用到实施例中的所有细节特征,可以省略一个或更多特定细节,或者可以采用其它的方法、元件、装置、步骤等。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100包括多个终端装置,所述终端装置可通过例如网络150彼此通信。举例来说,系统架构100可以包括通过网络150互连的第一终端装置110和第二终端装置120。在图1的实施例中,第一终端装置110和第二终端装置120执行单向数据传输。
举例来说,第一终端装置110可对视频数据(例如由终端装置110采集的视频图片流)进行编码以通过网络150传输到第二终端装置120,已编码的视频数据以一个或多个已编码视频码流形式传输,第二终端装置120可从网络150接收已编码视频数据,对已编码视频数据进行解码以恢复视频数据,并根据恢复的视频数据显示视频图片。
在本申请的一个实施例中,系统架构100可以包括执行已编码视频数据的双向传输的第三终端装置130和第四终端装置140,所述双向传输比如可以发生在视频会议期间。对于双向数据传输,第三终端装置130和第四终端装置140中的每个终端装置可对视频数据(例如由终端装置采集的视频图片流)进行编码,以通过网络150传输到第三终端装置130和第四终端装置140中的另一终端装置。第三终端装置130和第四终端装置140中的每个终端装置还可接收由第三终端装置130和第四终端装置140中的另一终端装置传输的已编码视频数据,且可对已编码视频数据进行解码以恢复视频数据,并可根据恢复的视频数据在可访问的显示装置上显示视频图片。
在图1的实施例中,第一终端装置110、第二终端装置120、第三终端装置130和第四终端装置140可为服务器、个人计算机和智能电话,但本申请公开的原理可不限于此。本申请公开的实施例适用于膝上型计算机、平板电脑、媒体播放器和/或专用视频会议设备。网络150表示在第一终端装置110、第二终端装置120、第三终端装置130和第四终端装置140之间传送已编码视频数据的任何数目的网络,包括例如有线和/或无线通信网络。通信网络150可在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的,除非在下文中有所解释,否则网络150的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。
在本申请的一个实施例中,图2示出视频编码装置和视频解码装置在流式传输环境中的放置方式。本申请所公开主题可同等地适用于其它支持视频的应用,包括例如视频会议、数字TV(television,电视机)、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。
流式传输系统可包括采集子系统213,采集子系统213可包括数码相机等视频源201,视频源创建未压缩的视频图片流202。在实施例中,视频图片流202包括由数码相机拍摄的样本。相较于已编码的视频数据204(或已编码的视频码流204),视频图片流202被描绘为粗线以强调高数据量的视频图片流,视频图片流202可由电子装置220处理,电子装置220包括耦接到视频源201的视频编码装置203。视频编码装置203可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于视频图片流202,已编码的视频数据204(或已编码的视频码流204)被描绘为细线以强调较低数据量的已编码的视频数据204(或已编码的视频码流204),其可存储在流式传输服务器205上以供将来使用。一个或多个流式传输客户端子系统,例如图2中的客户端子系统206和客户端子系统208,可访问流式传输服务器205以检索已编码的视频数据204的副本207和副本209。客户端子系统206可包括例如电子装置230中的视频解码装置210。视频解码装置210对已编码的视频数据的传入副本207进行解码,且产生可在显示器212(例如显示屏)或另一呈现装置上呈现的输出视频图片流211。在一些流式传输系统中,可根据某些视频编码/压缩标准对已编码的视频数据204、视频数据207和视频数据209(例如视频码流)进行编码。
应注意,电子装置220和电子装置230可包括图中未示出的其它组件。举例来说,电子装置220可包括视频解码装置,且电子装置230还可包括视频编码装置。
在本申请的一个实施例中,以国际视频编码标准HEVC(High Efficiency VideoCoding,高效率视频编码)、VVC(Versatile Video Coding,多功能视频编码),以及中国国家视频编码标准AVS为例,当输入一个视频帧图像之后,会根据一个块大小,将视频帧图像划分成若干个不重叠的处理单元,每个处理单元将进行类似的压缩操作。这个处理单元被称作CTU(Coding Tree Unit,编码树单元),或者称之为LCU(Largest Coding Unit,最大编码单元)。CTU再往下可以继续进行更加精细的划分,得到一个或多个基本的编码单元CU(Coding Unit,编码单元),CU是一个编码环节中最基本的元素。
以下介绍对CU进行编码时的一些概念:
预测编码(Predictive Coding):预测编码包括了帧内预测和帧间预测等方式,原始视频信号经过选定的已重建视频信号的预测后,得到残差视频信号。编码端需要为当前CU决定选择哪一种预测编码模式,并告知解码端。其中,帧内预测是指预测的信号来自于同一图像内已经编码重建过的区域;帧间预测是指预测的信号来自已经编码过的、不同于当前图像的其它图像(称之为参考图像)。
变换及量化(Transform&Quantization):残差视频信号经过DFT(DiscreteFourier Transform,离散傅里叶变换)、DCT(Discrete Cosine Transform,离散余弦变换)等变换操作后,将信号转换到变换域中,称之为变换系数。变换系数进一步进行有损的量化操作,丢失掉一定的信息,使得量化后的信号有利于压缩表达。在一些视频编码标准中,可能有多于一种变换方式可以选择,因此编码端也需要为当前CU选择其中的一种变换方式,并告知解码端。量化的精细程度通常由量化参数(Quantization Parameter,简称QP)来决定,QP取值较大,表示更大取值范围的系数将被量化为同一个输出,因此通常会带来更大的失真及较低的码率;相反,QP取值较小,表示较小取值范围的系数将被量化为同一个输出,因此通常会带来较小的失真,同时对应较高的码率。
熵编码(Entropy Coding)或统计编码:量化后的变换域信号将根据各个值出现的频率进行统计压缩编码,最后输出二值化(0或者1)的压缩码流。同时,编码产生其他信息,例如选择的编码模式、运动矢量数据等,也需要进行熵编码以降低码率。统计编码是一种无损的编码方式,可以有效的降低表达同样信号所需要的码率,常见的统计编码方式有变长编码(Variable Length Coding,简称VLC)或者基于上下文的二值化算术编码(ContentAdaptive Binary Arithmetic Coding,简称CABAC)。
基于上下文的二值化算术编码(CABAC)过程主要包含3个步骤:二值化、上下文建模和二进制算术编码。在对输入的语法元素进行二值化处理后,可以通过常规编码模式和旁路编码模式(Bypass Coding Mode)对二元数据进行编码。旁路编码模式无须为每个二元位分配特定的概率模型,输入的二元位bin值直接用一个简单的旁路编码器进行编码,以加快整个编码以及解码的速度。一般情况下,不同的语法元素之间并不是完全独立的,且相同语法元素自身也具有一定的记忆性。因此,根据条件熵理论,利用其他已编码的语法元素进行条件编码,相对于独立编码或者无记忆编码能够进一步提高编码性能。这些用来作为条件的已编码符号信息称为上下文。在常规编码模式中,语法元素的二元位顺序地进入上下文模型器,编码器根据先前编码过的语法元素或二元位的值,为每一个输入的二元位分配合适的概率模型,该过程即为上下文建模。通过ctxIdxInc(context index increment,上下文索引增量)和ctxIdxStart(context index Start,上下文起始索引)即可定位到语法元素所对应的上下文模型。将bin值和分配的概率模型一起送入二元算术编码器进行编码后,需要根据bin值更新上下文模型,也就是编码中的自适应过程。
环路滤波(Loop Filtering):经过变化及量化的信号会通过反量化、反变换及预测补偿的操作获得重建图像。重建图像与原始图像相比由于存在量化的影响,部分信息与原始图像有所不同,即重建图像会产生失真(Distortion)。因此,可以对重建图像进行滤波操作,例如去块效应滤波(Deblocking filter,简称DB)、SAO(Sample Adaptive Offset,自适应像素补偿)或者ALF(Adaptive Loop Filter,自适应环路滤波)等滤波器,可以有效降低量化所产生的失真程度。由于这些经过滤波后的重建图像将作为后续编码图像的参考来对将来的图像信号进行预测,因此上述的滤波操作也被称为环路滤波,即在编码环路内的滤波操作。
在本申请的一个实施例中,图3示出了一个视频编码器的基本流程图,在该流程中以帧内预测为例进行说明。其中,原始图像信号sk[x,y]与预测图像信号做差值运算,得到残差信号uk[x,y],残差信号uk[x,y]经过变换及量化处理之后得到量化系数,量化系数一方面通过熵编码得到编码后的比特流,另一方面通过反量化及反变换处理得到重构残差信号u'k[x,y],预测图像信号/>与重构残差信号u'k[x,y]叠加生成重建图像信号重建图像信号/>一方面输入至帧内模式决策模块和帧内预测模块进行帧内预测处理,另一方面通过环路滤波进行滤波处理,并输出滤波后的图像信号s'k[x,y],滤波后的图像信号s'k[x,y]可以作为下一帧的参考图像进行运动估计及运动补偿预测。然后基于运动补偿预测的结果s'r[x+mx,y+my]和帧内预测结果/>得到下一帧的预测图像信号/>并继续重复上述过程,直至编码完成。
上述的环路滤波可以基于CNNLF(Convolutional Neural Network Loop Filter,基于深度学习的滤波器)来实现,CNNLF的模型结构包括卷积层、激活函数、全连接层和池化层等基本模块构成,模型参数需要通过训练得到。如图4所示,在CNNLF经过训练完成之后,可以将滤波前的图像输入至训练好的CNNLF中,最后输出滤波后的图像。
在使用CNNLF进行滤波处理时,一种相关的技术方案是针对每个序列级量化参数的对应数据训练得到深度学习滤波器,然后根据序列级量化参数的取值选择对应的深度学习滤波器进行滤波。另一种相关的技术方案是针对每段序列级量化参数(至少2个)的对应数据训练得到深度学习滤波器,然后根据序列级量化参数的取值选择对应的深度学习滤波器进行滤波,这种方案可能会输入序列级量化参数来训练深度学习滤波器,相应的,在使用深度学习滤波器时,深度学习滤波器的输入也需要包含序列级量化参数。
同时,在主流的视频编解码标准的通用测试配置中,以随机接入(Random Access,简称RA)模式为例。如图5所示,RA编码模式的整个序列有一个共用的序列级量化参数,且每帧都有对应的帧级量化参数(即图5中所示的a~h),而且每帧对应的帧级量化参数并不完全相同,帧级量化参数是在序列级量化参数的基础上增加偏置得到。为了提升深度学习滤波器对输入的重建图像的识别精度,提高滤波效果和视频编解码效率,本申请的实施例提出了将更细粒度的帧级量化参数作为深度学习滤波器的输入,以提高深度学习滤波器的性能。
其中,深度学习属于人工智能(Artificial Intelligence,简称AI)的范畴,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
而机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。本申请实施例中的深度学习滤波器即是基于机器学习/深度学习的一种滤波器。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图6示出了根据本申请的一个实施例的基于深度学习的滤波方法的流程图,该基于深度学习的滤波方法可以由具有计算处理功能的设备来执行,比如可以由终端设备或服务器来执行。参照图6所示,该基于深度学习的滤波方法至少包括步骤S610至步骤S630,详细介绍如下:
在步骤S610中,获取已编码图像对应的重建图像和已编码图像的量化参数,该量化参数包括已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种。
在本申请的一个实施例中,已编码图像对应的重建图像即是通过反量化、反变换处理后得到的重构残差图像与预测图像叠加生成的图像,比如在图3所示的流程中,重建图像即为预测图像信号与重构残差信号u'k[x,y]叠加生成的图像信号/>
在本申请的一个实施例中,除了帧级量化参数、条带级量化参数和块级量化参数之外,已编码图像的量化参数还可以包括已编码图像对应的序列级量化参数。
需要说明的是,一个视频图像帧序列包括了一系列图像帧,每个图像帧可以被进一步划分为条带(Slice),条带又可以划分为一系列的LCU(或CTU),LCU包含有若干CU。视频图像帧在编码时是以块为单位进行编码处理,在一些新的视频编码标准中,比如在H.264标准中有宏块(macroblock,MB),宏块可进一步划分成多个可用于预测编码的预测块(prediction)。在HEVC标准中,采用编码单元CU、预测单元(prediction unit,PU)和变换单元(transform unit,TU)等基本概念,从功能上划分了多种块单元,并采用全新的基于树的结构进行描述。比如CU可以按照四叉树划分为更小的CU,而更小的CU还可以继续划分,从而形成一种四叉树结构。本申请实施例中的块可以是CU,或者是比CU更小的块,如对CU进行划分得到的更小的块。
在本申请的一个实施例中,序列级量化参数即为sequence-QP,一个图像序列共用相同的序列级量化参数,即对于一个图像序列中的图像帧而言,其对应的序列级量化参数是相同的。不同图像序列对应的序列级量化参数可以是相同的,也可以是不相同的。
帧级量化参数即为frame-QP,是每一图像帧所对应的量化参数,不同图像帧对应的量化参数可能相同,但是也可能不相同。
条带级量化参数即为slice-QP,一个条带中的块共用相同的条带级量化参数,即对于一个条带中的块而言,其对应的块级量化参数是相同的。不同条带对应的序列级量化参数可以是相同的,也可以是不相同的。块级量化参数即为block-QP,不同块对应的量化参数可能相同,也可能不相同。
需要说明的是,如果一个图像帧被划分为一个条带slice,那么条带级量化参数与帧级量化参数即指代相同的参数。
在步骤S620中,根据重建图像和已编码图像的量化参数生成深度学习滤波器的输入参数。
在本申请的一个实施例中,可以将重建图像与量化参数进行图层合并处理,将图层合并处理的结果作为深度学习滤波器的输入参数。具体比如图7所示,可以将重建图像和量化参数分别作为一个图层进行合并处理,之后输入至深度学习滤波器中。
可选地,该深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元。其中,卷积单元包括卷积层(Convolutional layer,简称conv)和参数化修正线性单元(Parametric Rectified Linear Unit,简称prelu);残差单元包括顺次相连的N个残差块;重排单元即为shuffle单元。Shuffle单元此处是通过重排来实现图像的上采样处理。
在图7中所示的实施例中,残差单元之前的卷积单元中卷积层的步长s=2;在残差单元与重排单元shuffle之间还可以设置另一个卷积层,该卷积层的步长s=1。
在本申请的一个实施例中,可以将重建图像与量化参数进行点乘运算,得到点乘运算结果,然后对点乘运算结果进行卷积运算,进而根据卷积运算得到的特征和重建图像的特征生成深度学习滤波器的输入参数。具体可以如图8所示,重建图像与量化参数进行点乘运算后经过卷积单元(卷积单元包括卷积层conv和参数化修正线性单元prelu,该卷积层的步长s=1)来提取特征;重建图像通过一个卷积单元(卷积单元包括卷积层conv和参数化修正线性单元prelu,该卷积层的步长s=1)来提取特征,进而将针对点乘运算结果提取到的特征和针对重建图像提取到的特征输入至深度学习滤波器中。
可选地,在图8所示的实施例中,深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元。其中,卷积单元包括步长s=1的卷积层、参数化修正线性单元prelu,以及步长s=2的卷积层;残差单元包括顺次相连的N个残差块;重排单元即为shuffle单元。在图8中所示的实施例中,在残差单元与重排单元shuffle之间还可以设置一个卷积层,该卷积层的步长s=1。
在本申请的一个实施例中,可以获取重建图像对应的参考信息,该参考信息包括块划分信息和预测图像中的至少一个,然后对参考信息进行卷积运算,得到参考信息的特征,进而根据参考信息的特征、重建图像的特征和量化参数生成深度学习滤波器的输入参数。
具体可以如图9所示,假设参考信息包括块划分信息和预测图像,那么预测图像、块划分信息和重建图像可以分别经过卷积单元(卷积单元包括卷积层conv和参数化修正线性单元prelu,该卷积层的步长s=1)来提取特征,进而将针对预测图像、块划分信息和重建图像分别提取到的特征和量化参数输入至深度学习滤波器中。图9所示实施例中的量化参数可以是序列级量化参数和条带级量化参数,如前述的描述,如果一个图像帧被划分为一个条带slice,那么图9所示实施例中的量化参数可以是序列级量化参数和帧级量化参数。
可选地,在图9所示的实施例中,深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元。其中,卷积单元包括步长s=1的卷积层、参数化修正线性单元prelu,以及步长s=2的卷积层;残差单元包括顺次相连的N个残差块;重排单元即为shuffle单元。在图9中所示的实施例中,在残差单元与重排单元shuffle之间还可以设置一个卷积层,该卷积层的步长s=1。
可选地,作为图9所示实施例的一个变形实施例,量化参数也可以先经过卷积单元提取特征之后再与针对参考信息提取到的特征输入至深度学习滤波器中。
在图9所示的实施例及图9的变形实施例中,是以参考信息包括块划分信息和预测图像为例进行的说明,在本申请的其它实施例中,参考信息也可以仅是块划分信息或者预测图像。如果参考信息不包含预测图像,那么图9所示实施例及其变形实施例中可以去掉通过卷积单元对预测图像进行特征提取的部分;如果参考信息不包含块划分信息,那么图9所示实施例及其变形实施例中可以去掉通过卷积单元对块划分信息进行特征提取的部分。
可选地,块划分信息可以是根据块划分结果生成的图像,比如可以包括以下图像中的至少一种:根据块划分边界生成的二值图像;根据去块滤波器的滤波边界生成的二值图像;对于滤波前的重建图像,根据块划分结果,同一个块内取平均作为块内所有样点的值所得到的块划分均值图像。
在本申请的一个实施例中,残差单元中包含的N个残差块可以是1个、2个、3个等任意正整数数量个残差块。
如图10所示,本申请一个实施例中的残差块结构可以包括:顺次相连的第一卷积层(其卷积核大小可以为1×1)、参数化修正线性单元和第二卷积层(其卷积核大小可以为3×3);其中,第一卷积层的输入作为残差块的输入,第一卷积层的输入与第二卷积层的输出的叠加结果作为残差块的输出。
如图11所示,本申请一个实施例中的残差块结构可以包括:顺次相连的第一卷积层(其卷积核大小可以为1×1)、参数化修正线性单元、第二卷积层(其卷积核大小可以为3×3)和卷积块注意力单元(Convolutional Block Attention Module,简称CBAM);其中,第一卷积层的输入作为残差块的输入,第一卷积层的输入与卷积块注意力单元的输出的叠加结果作为残差块的输出。
如图12所示,本申请一个实施例中的残差块结构可以包括:顺次相连的第一卷积层(其卷积核大小可以为1×1)、参数化修正线性单元、第三卷积层(其卷积核大小可以为1×1)和第二卷积层(其卷积核大小可以为3×3);其中,第一卷积层的卷积核与第三卷积层的卷积核大小相同,第一卷积层的输入作为残差块的输入,第一卷积层的输入与第二卷积层的输出的叠加结果作为残差块的输出。
如图13所示,本申请一个实施例中的残差块结构可以包括:顺次相连的第一卷积层(其卷积核大小可以为1×1)、参数化修正线性单元、第三卷积层(其卷积核大小可以为1×1)、第二卷积层(其卷积核大小可以为3×3)和卷积块注意力单元;其中,第一卷积层的卷积核与第三卷积层的卷积核大小相同,第一卷积层的输入作为残差块的输入,第一卷积层的输入与卷积块注意力单元的输出的叠加结果作为残差块的输出。
需要说明的是,在本申请的实施例中,残差单元中可以包含有一个或多个残差块,每个残差块的结构可以是上述的任意一种。深度学习滤波器的卷积单元包含的卷积层和prelu层的数量可以根据实际需要进行设定,残差块中包含的卷积层和prelu层的数量也可以根据实际需要进行设定。同时,不同卷积层的通道数可以相同,也可以不相同。
继续参照图6所示,在步骤S630中,将生成的输入参数输入至深度学习滤波器,得到深度学习滤波器输出的对应于重建图像的已滤波图像。
在本申请的一个实施例中,深度学习滤波器在进行训练时需要采用与应用时相同的参数作为输入。具体而言,在训练阶段,需要获取到样本重建图像和相应的量化参数(该量化参数包含了帧级量化参数、条带级量化参数和块级量化参数中的至少一种,具体根据深度学习滤波器的使用场景进行调整,即与深度学习滤波器在使用时所用到的参数相匹配),然后根据样本重建图像和量化参数生成训练用的输入参数,并将得到的输入参数输入至深度学习滤波器中,根据深度学习滤波器的输出与样本重建图像对应的期望滤波结果图像之间的损失值来调整深度学习滤波器的参数,并重复这个过程,直至深度学习滤波器满足收敛条件为止。
在图6所示的基于深度学习的滤波方法的基础上,本申请实施例中还提出了一种视频编码方法,该视频编码方法可以由具有计算处理功能的设备来执行,比如可以由终端设备或服务器来执行。具体流程如图14所示,包括如下步骤S1410至步骤S1440:
在步骤S1410中,获取已编码图像对应的重建图像和已编码图像的量化参数,该量化参数包括已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种。
该步骤的具体实施细节可以参照前述步骤S610,不再赘述。
在步骤S1420中,根据重建图像和已编码图像的量化参数生成深度学习滤波器的输入参数。
该步骤的具体实施细节可以参照前述步骤S620,不再赘述。
在步骤S1430中,将生成的输入参数输入至深度学习滤波器,得到深度学习滤波器输出的对应于重建图像的已滤波图像。
在步骤S1440中,基于已滤波图像生成下一帧视频图像的预测图像,并基于生成的预测图像对下一帧视频图像进行编码处理。
可选地,在生成已滤波图像之后,可以参照图3所示的流程,即已滤波图像作为下一帧的参考图像进行运动估计及运动补偿预测,然后基于运动补偿预测的结果和帧内预测结果得到下一帧的预测图像信号,并继续重复图3中所示的流程,直至对视频图像编码完成。
相应的,在图6所示的基于深度学习的滤波方法的基础上,本申请实施例中还提出了一种视频解码方法,该视频解码方法可以由具有计算处理功能的设备来执行,比如可以由终端设备或服务器来执行。具体流程如图15所示,包括如下步骤S1510至步骤S1540:
在步骤S1510中,获取已编码图像对应的重建图像和已编码图像的量化参数,该量化参数包括已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种。
该步骤的具体实施细节可以参照前述步骤S610,不再赘述。
在步骤S1520中,根据重建图像和已编码图像的量化参数生成深度学习滤波器的输入参数。
该步骤的具体实施细节可以参照前述步骤S620,不再赘述。
在步骤S1530中,将生成的输入参数输入至深度学习滤波器,得到深度学习滤波器输出的对应于重建图像的已滤波图像。
在步骤S1540中,基于已滤波图像生成下一帧视频图像的预测图像,并基于生成的预测图像对视频码流进行解码处理。
可选地,在生成已滤波图像之后,可以将已滤波图像作为下一帧的参考图像进行运动估计及运动补偿预测,然后基于运动补偿预测的结果和帧内预测结果得到下一帧的预测图像信号,预测图像信号与进行反量化和反变换处理得到的重构残差信号再次叠加生成下一帧的重建图像信息,并重复这个过程,以实现对视频码流的解码处理。
本申请实施例的技术方案使得可以基于直接影响图像质量的细粒度量化参数(如帧级量化参数、条带级量化参数和块级量化参数中的至少一种)作为深度学习滤波器的输入,进而可以通过引入该细粒度的量化参数来提升深度学习滤波器对输入的重建图像的识别精度,从而可以提高滤波效果,有利于提升视频的编解码效率。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的基于深度学习的滤波方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的基于深度学习的滤波方法的实施例。
图16示出了根据本申请的一个实施例的基于深度学习的滤波装置的框图,该基于深度学习的滤波装置可以设置在具有计算处理功能的设备内,比如可以设置在终端设备或服务器内。
参照图16所示,根据本申请的一个实施例的基于深度学习的滤波装置1600,包括:获取单元1602、生成单元1604和处理单元1606。
其中,获取单元1602配置为获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;生成单元1604配置为根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;处理单元1606配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像。
在本申请的一些实施例中,基于前述方案,所述量化参数还包括:所述已编码图像对应的序列级量化参数。
在本申请的一些实施例中,基于前述方案,所述生成单元1604配置为:将所述重建图像与所述量化参数进行图层合并处理,将图层合并处理的结果作为所述深度学习滤波器的输入参数。
在本申请的一些实施例中,基于前述方案,所述生成单元1604配置为:将所述重建图像与所述量化参数进行点乘运算,得到点乘运算结果;对所述点乘运算结果进行卷积运算;根据所述卷积运算得到的特征和所述重建图像的特征生成所述深度学习滤波器的输入参数。
在本申请的一些实施例中,基于前述方案,所述生成单元1604配置为:获取所述重建图像对应的参考信息,所述参考信息包括块划分信息和预测图像中的至少一个;对所述参考信息进行卷积运算,得到所述参考信息的特征;根据所述参考信息的特征、所述重建图像的特征和所述量化参数生成所述深度学习滤波器的输入参数。
在本申请的一些实施例中,基于前述方案,所述深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元,所述残差单元中包含有至少一个残差块。
在本申请的一些实施例中,基于前述方案,若所述残差单元包括多个残差块,则所述多个残差块的通道数相同,或者所述多个残差块中各个残差块的通道数不完全相同。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元和第二卷积层;其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第二卷积层和卷积块注意力单元;其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层和第二卷积层;其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
在本申请的一些实施例中,基于前述方案,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层、第二卷积层和卷积块注意力单元;其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
图17示出了根据本申请的一个实施例的视频编码装置的框图,该视频编码装置可以设置在具有计算处理功能的设备内,比如可以设置在终端设备或服务器内。
参照图17所示,根据本申请的一个实施例的视频编码装置1700,包括:获取单元1602、生成单元1604、处理单元1606和编码单元1702。
其中,获取单元1602配置为获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;生成单元1604配置为根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;处理单元1606配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像;编码单元1702配置为基于所述已滤波图像生成下一帧视频图像的预测图像,并基于所述预测图像对下一帧视频图像进行编码处理。
图18示出了根据本申请的一个实施例的视频解码装置的框图,该视频解码装置可以设置在具有计算处理功能的设备内,比如可以设置在终端设备或服务器内。
参照图18所示,根据本申请的一个实施例的视频解码装置1800,包括:获取单元1602、生成单元1604、处理单元1606和解码单元1802。
其中,获取单元1602配置为获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;生成单元1604配置为根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;处理单元1606配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像;解码单元1802配置为基于所述已滤波图像生成下一帧视频图像的预测图像,并基于所述预测图像对视频码流进行解码处理。
图19示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图19示出的电子设备的计算机系统1900仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图19所示,计算机系统1900包括中央处理单元(Central Processing Unit,CPU)1901,其可以根据存储在只读存储器(Read-Only Memory,ROM)1902中的程序或者从存储部分1908加载到随机访问存储器(Random Access Memory,RAM)1903中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1903中,还存储有系统操作所需的各种程序和数据。CPU 1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出(Input/Output,I/O)接口1905也连接至总线1904。
以下部件连接至I/O接口1905:包括键盘、鼠标等的输入部分1906;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1907;包括硬盘等的存储部分1908;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1909。通信部分1909经由诸如因特网的网络执行通信处理。驱动器1910也根据需要连接至I/O接口1905。可拆卸介质1911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1910上,以便于从其上读出的计算机程序根据需要被安装入存储部分1908。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1909从网络上被下载和安装,和/或从可拆卸介质1911被安装。在该计算机程序被中央处理单元(CPU)1901执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种基于深度学习的滤波方法,其特征在于,包括:
获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;
根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;
将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像。
2.根据权利要求1所述的基于深度学习的滤波方法,其特征在于,所述量化参数还包括:
所述已编码图像对应的序列级量化参数。
3.根据权利要求1所述的基于深度学习的滤波方法,其特征在于,根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数,包括:
将所述重建图像与所述量化参数进行图层合并处理,将图层合并处理的结果作为所述深度学习滤波器的输入参数。
4.根据权利要求1所述的基于深度学习的滤波方法,其特征在于,根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数,包括:
将所述重建图像与所述量化参数进行点乘运算,得到点乘运算结果;
对所述点乘运算结果进行卷积运算;
根据所述卷积运算得到的特征和所述重建图像的特征生成所述深度学习滤波器的输入参数。
5.根据权利要求1所述的基于深度学习的滤波方法,其特征在于,根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数,包括:
获取所述重建图像对应的参考信息,所述参考信息包括块划分信息和预测图像中的至少一个;
对所述参考信息进行卷积运算,得到所述参考信息的特征;
根据所述参考信息的特征、所述重建图像的特征和所述量化参数生成所述深度学习滤波器的输入参数。
6.根据权利要求1至5中任一项所述的基于深度学习的滤波方法,其特征在于,所述深度学习滤波器包括顺次相连的卷积单元、残差单元和重排单元,所述残差单元中包含有至少一个残差块。
7.根据权利要求6所述的基于深度学习的滤波方法,其特征在于,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元和第二卷积层;
其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
8.根据权利要求6所述的基于深度学习的滤波方法,其特征在于,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第二卷积层和卷积块注意力单元;
其中,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
9.根据权利要求6所述的基于深度学习的滤波方法,其特征在于,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层和第二卷积层;
其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述第二卷积层的输出的叠加结果作为所述残差块的输出。
10.根据权利要求6所述的基于深度学习的滤波方法,其特征在于,一个所述残差块包括:顺次相连的第一卷积层、参数化修正线性单元、第三卷积层、第二卷积层和卷积块注意力单元;
其中,所述第一卷积层的卷积核与所述第三卷积层的卷积核大小相同,所述第一卷积层的输入作为所述残差块的输入,所述第一卷积层的输入与所述卷积块注意力单元的输出的叠加结果作为所述残差块的输出。
11.一种视频编码方法,其特征在于,包括:
获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;
根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;
将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像;
基于所述已滤波图像生成下一帧视频图像的预测图像,并基于所述预测图像对下一帧视频图像进行编码处理。
12.一种视频解码方法,其特征在于,包括:
获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;
根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;
将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像;
基于所述已滤波图像生成下一帧视频图像的预测图像,并基于所述预测图像对视频码流进行解码处理。
13.一种基于深度学习的滤波装置,其特征在于,包括:
获取单元,配置为获取已编码图像对应的重建图像和所述已编码图像的量化参数,所述量化参数包括所述已编码图像对应的帧级量化参数、条带级量化参数和块级量化参数中的至少一种;
生成单元,配置为根据所述重建图像和所述量化参数生成深度学习滤波器的输入参数;
处理单元,配置为将所述输入参数输入至所述深度学习滤波器,得到所述深度学习滤波器输出的对应于所述重建图像的已滤波图像。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的基于深度学习的滤波方法,或实现如权利要求11所述的视频编码方法,或实现如权利要求12所述的视频解码方法。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至10中任一项所述的基于深度学习的滤波方法,或实现如权利要求11所述的视频编码方法,或实现如权利要求12所述的视频解码方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144704.2A CN115883851A (zh) | 2021-09-28 | 2021-09-28 | 滤波及编解码方法、装置、计算机可读介质及电子设备 |
PCT/CN2022/118311 WO2023051222A1 (zh) | 2021-09-28 | 2022-09-13 | 滤波及编解码方法、装置、计算机可读介质及电子设备 |
EP22874609.5A EP4412217A1 (en) | 2021-09-28 | 2022-09-13 | Filtering method and apparatus, encoding method and apparatus, decoding method and apparatus, computer-readable medium, and electronic device |
US18/244,840 US20240144439A1 (en) | 2021-09-28 | 2023-09-11 | Filtering method and apparatus, computer-readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144704.2A CN115883851A (zh) | 2021-09-28 | 2021-09-28 | 滤波及编解码方法、装置、计算机可读介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115883851A true CN115883851A (zh) | 2023-03-31 |
Family
ID=85763594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111144704.2A Pending CN115883851A (zh) | 2021-09-28 | 2021-09-28 | 滤波及编解码方法、装置、计算机可读介质及电子设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240144439A1 (zh) |
EP (1) | EP4412217A1 (zh) |
CN (1) | CN115883851A (zh) |
WO (1) | WO2023051222A1 (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107197260A (zh) * | 2017-06-12 | 2017-09-22 | 清华大学深圳研究生院 | 基于卷积神经网络的视频编码后置滤波方法 |
CN110677624A (zh) * | 2019-10-21 | 2020-01-10 | 浙江大学 | 基于深度学习的面向监控视频的前景和背景并行压缩方法 |
CN111553856A (zh) * | 2020-04-24 | 2020-08-18 | 西安电子科技大学 | 基于深度估计辅助的图像去雾方法 |
WO2020177134A1 (zh) * | 2019-03-07 | 2020-09-10 | Oppo广东移动通信有限公司 | 环路滤波实现方法、装置及计算机存储介质 |
CN111711824A (zh) * | 2020-06-29 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 视频编解码中的环路滤波方法、装置、设备及存储介质 |
CN111768342A (zh) * | 2020-09-03 | 2020-10-13 | 之江实验室 | 基于注意力机制和多级反馈监督的人脸超分辨方法 |
CN111787187A (zh) * | 2020-07-29 | 2020-10-16 | 上海大学 | 利用深度卷积神经网络进行视频修复的方法、系统、终端 |
CN112218097A (zh) * | 2019-07-12 | 2021-01-12 | 富士通株式会社 | 环路滤波装置和图像解码装置 |
CN113039792A (zh) * | 2019-03-07 | 2021-06-25 | Oppo广东移动通信有限公司 | 环路滤波实现方法、装置及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019194425A1 (ko) * | 2018-04-06 | 2019-10-10 | 에스케이텔레콤 주식회사 | 영상 부호화 또는 복호화에 인공 신경망을 적용하는 장치 및 방법 |
US11265549B2 (en) * | 2018-04-01 | 2022-03-01 | Lg Electronics Inc. | Method for image coding using convolution neural network and apparatus thereof |
-
2021
- 2021-09-28 CN CN202111144704.2A patent/CN115883851A/zh active Pending
-
2022
- 2022-09-13 EP EP22874609.5A patent/EP4412217A1/en active Pending
- 2022-09-13 WO PCT/CN2022/118311 patent/WO2023051222A1/zh unknown
-
2023
- 2023-09-11 US US18/244,840 patent/US20240144439A1/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107197260A (zh) * | 2017-06-12 | 2017-09-22 | 清华大学深圳研究生院 | 基于卷积神经网络的视频编码后置滤波方法 |
WO2020177134A1 (zh) * | 2019-03-07 | 2020-09-10 | Oppo广东移动通信有限公司 | 环路滤波实现方法、装置及计算机存储介质 |
CN113039792A (zh) * | 2019-03-07 | 2021-06-25 | Oppo广东移动通信有限公司 | 环路滤波实现方法、装置及计算机存储介质 |
CN112218097A (zh) * | 2019-07-12 | 2021-01-12 | 富士通株式会社 | 环路滤波装置和图像解码装置 |
CN110677624A (zh) * | 2019-10-21 | 2020-01-10 | 浙江大学 | 基于深度学习的面向监控视频的前景和背景并行压缩方法 |
CN111553856A (zh) * | 2020-04-24 | 2020-08-18 | 西安电子科技大学 | 基于深度估计辅助的图像去雾方法 |
CN111711824A (zh) * | 2020-06-29 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 视频编解码中的环路滤波方法、装置、设备及存储介质 |
CN111787187A (zh) * | 2020-07-29 | 2020-10-16 | 上海大学 | 利用深度卷积神经网络进行视频修复的方法、系统、终端 |
CN111768342A (zh) * | 2020-09-03 | 2020-10-13 | 之江实验室 | 基于注意力机制和多级反馈监督的人脸超分辨方法 |
Also Published As
Publication number | Publication date |
---|---|
EP4412217A1 (en) | 2024-08-07 |
US20240144439A1 (en) | 2024-05-02 |
WO2023051222A1 (zh) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113766249B (zh) | 视频编解码中的环路滤波方法、装置、设备及存储介质 | |
CN112995671B (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
CN113207002B (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
CN114257810B (zh) | 上下文模型的选择方法、装置、设备及存储介质 | |
CN112543337B (zh) | 视频解码方法、装置、计算机可读介质及电子设备 | |
US20230082386A1 (en) | Video encoding method and apparatus, video decoding method and apparatus, computer-readable medium, and electronic device | |
WO2023082107A1 (zh) | 解码方法、编码方法、解码器、编码器和编解码系统 | |
EP4412217A1 (en) | Filtering method and apparatus, encoding method and apparatus, decoding method and apparatus, computer-readable medium, and electronic device | |
CN116805968A (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
CN115209157A (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
EP4412218A1 (en) | Filtering method and apparatus, encoding method and apparatus, decoding method and apparatus, computer-readable medium, and electronic device | |
CN115086664A (zh) | 未匹配像素的解码方法、编码方法、解码器以及编码器 | |
CN114079772B (zh) | 视频解码方法、装置、计算机可读介质及电子设备 | |
US12137223B2 (en) | Video decoding method, video coding method, and related apparatus | |
WO2024212676A1 (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
WO2023202097A1 (zh) | 环路滤波方法、视频编解码方法、装置、介质、程序产品及电子设备 | |
US20230053118A1 (en) | Video decoding method, video coding method, and related apparatus | |
WO2022193386A1 (zh) | 系数编解码方法、编解码设备、终端及存储介质 | |
CN114979656A (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
CN115209141A (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
CN117956164A (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
CN114979655A (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
CN115695805A (zh) | 视频编码方法、装置、计算机可读介质及电子设备 | |
CN115086654A (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 | |
CN115209138A (zh) | 视频编解码方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40084141 Country of ref document: HK |