CN110798690B - 视频解码方法、环路滤波模型的训练方法、装置和设备 - Google Patents
视频解码方法、环路滤波模型的训练方法、装置和设备 Download PDFInfo
- Publication number
- CN110798690B CN110798690B CN201910783289.1A CN201910783289A CN110798690B CN 110798690 B CN110798690 B CN 110798690B CN 201910783289 A CN201910783289 A CN 201910783289A CN 110798690 B CN110798690 B CN 110798690B
- Authority
- CN
- China
- Prior art keywords
- image frame
- frequency domain
- loss function
- video
- decomposition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请提供了一种视频解码方法、环路滤波模型的训练方法、装置和设备。所述方法包括:对编码后的目标视频进行解码,得到目标视频的重建图像帧;对目标视频的重建图像帧采用环路滤波模型进行滤波处理,得到目标视频的滤波图像帧;环路滤波模型是采用包括分解损失函数的损失函数训练得到的,分解损失函数用于表征滤波图像帧与原始图像帧在频域上的像素差异;根据目标视频的滤波图像帧得到解码后的目标视频。本申请实施例提供的技术方案,通过分解损失函数来训练环路滤波模型,使得在模型的训练过程中考虑到图像帧不同频段上的像素差异,从而使得训练完成的环路滤波模型可以有效地恢复图像帧的细节,提升环路滤波模型输出的图像帧质量。
Description
技术领域
本申请实施例涉及计算机视觉技术领域,特别涉及一种视频解码方法、环路滤波模型的训练方法、装置和设备。
背景技术
随着深度学习技术的发展,基于深度学习的环路滤波方法已经在图像帧和视频处理领域得到了成功的应用。
在相关技术中,环路滤波模型用于对重建图像帧(也即对原始图像帧进行编解码后得到的图像帧)进行滤波处理,以去除重建图像帧在编解码过程中的图像帧失真。在环路滤波模型的训练过程中,将经过环路滤波模型进行滤波处理后得到的滤波图像帧作为模型的输入,以该滤波图像帧对应的原始图像帧(也可以称为无损图像帧)作为模型训练的目标,采用损失函数对环路滤波模型进行训练,以不断缩小滤波图像帧与原始图像帧之间的差距,从而提升环路滤波模型的滤波性能。
在上述相关技术中,由于传统的损失函数无差别对待图像帧的所有频段,而编解码过程中主要的损失来自于量化过程导致的细节损失,因此采用传统像素级损失函数训练得到的环路滤波模型,并不能有效地恢复图像帧的细节。
发明内容
本申请实施例提供了一种视频解码方法、环路滤波模型的训练方法、装置和设备,可用于解决相关技术中,采用像素级损失函数训练得到的环路滤波模型,并不能有效地恢复图像帧的细节的技术问题。所述技术方案如下:
一方面,本申请实施例提供了一种视频解码方法,所述方法包括:
对编码后的目标视频进行解码,得到所述目标视频的重建图像帧;
对所述目标视频的重建图像帧采用环路滤波模型进行滤波处理,得到所述目标视频的滤波图像帧;所述环路滤波模型是采用包括分解损失函数的损失函数训练得到的,所述分解损失函数用于表征所述滤波图像帧与原始图像帧在频域上的像素差异;
根据所述目标视频的滤波图像帧得到解码后的目标视频。
另一方面,本申请实施例提供了一种环路滤波模型的训练方法,所述方法包括:
获取原始图像帧和重建图像帧,所述重建图像帧是对所述原始图像帧进行编解码后得到的图像帧;
调用环路滤波模型对所述重建图像帧进行处理,得到滤波图像帧;
获取所述滤波图像帧的n张频域分解图像帧和所述原始图像帧的n张频域分解图像帧,所述n张频域分解图像帧对应于n个频段,所述n为大于1的整数;
计算所述环路滤波模型对应的损失函数的值,所述损失函数包括分解损失函数,所述分解损失函数用于表征所述滤波图像帧与所述原始图像帧在频域上的像素差异;
根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型。
又一方面,本申请实施例提供了一种视频解码装置,所述装置包括:
视频重建模块,用于对编码后的目标视频进行解码,得到所述目标视频的重建图像帧;
滤波处理模块,用于对所述目标视频的重建图像帧采用环路滤波模型进行滤波处理,得到所述目标视频的滤波图像帧;所述环路滤波模型是采用包括分解损失函数的损失函数训练得到的,所述分解损失函数用于表征所述滤波图像帧与原始图像帧在频域上的像素差异;
视频解码模块,用于根据所述目标视频的滤波图像帧得到解码后的目标视频。
还一方面,本申请实施例提供了一种环路滤波模型的训练装置,所述装置包括:
图像获取模块,用于获取原始图像帧和重建图像帧,所述重建图像帧是对所述原始图像帧进行编解码后得到的图像帧;
滤波处理模块,用于调用环路滤波模型对所述重建图像帧进行处理,得到滤波图像帧;
图像分解模块,用于获取所述滤波图像帧的n张频域分解图像帧和所述原始图像帧的n张频域分解图像帧,所述n张频域分解图像帧对应于n个频段,所述n为大于1的整数;
损失计算模块,用于计算所述环路滤波模型对应的损失函数的值,所述损失函数包括分解损失函数,所述分解损失函数用于表征所述滤波图像帧与所述原始图像帧在频域上的像素差异;
模型训练模块,用于根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频解码方法,或者,环路滤波模型的训练方法。
再一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视频解码方法,或者,环路滤波模型的训练方法。
还一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品被处理器执行时,用于实现上述视频解码方法,或者,环路滤波模型的训练方法。
本申请实施例提供的技术方案可以包括如下有益效果:
在对编码后的目标视频进行解码后,采用环路滤波模型来对解码后得到的重建图像帧进行滤波处理,模型的损失函数考虑了分解损失函数,该分解损失函数表征了滤波图像帧与原始图像帧在频域上的像素差异。相比于相关技术中,采用像素损失函数训练环路滤波模型,本申请实施例提供的技术方案,分解损失函数可以反映滤波图像帧和原始图像帧在不同频段的差异,通过分解损失函数来训练环路滤波模型,使得在模型的训练过程中考虑到图像帧不同频段上的像素差异,并尽可能减小滤波图像帧与原始图像帧在不同频段上的像素差异,如高频部分的像素差异,而高频部分反映了图像帧的细节特征,从而使得训练完成的环路滤波模型可以有效地恢复图像帧的细节,提升环路滤波模型输出的图像帧质量。
附图说明
图1是本申请示例性示出的一种视频编码的示意图;
图2是本申请一个实施例提供的通信系统的简化框图;
图3是本申请示例性示出的视频编码器和视频解码器在流式传输环境中的放置方式的示意图;
图4是本申请一个实施例提供的视频解码方法的流程图;
图5是本申请一个实施例提供的环路滤波模型的训练方法的流程图;
图6是本申请另一个实施例提供的环路滤波模型的训练方法的流程图;
图7是本申请一个实施例示出的一次离散小波分解过程的示意图;
图8是本申请一个实施例示出的一种分解损失函数的构建过程的示意图;
图9是本申请一个实施例示出的一种环路滤波模型的训练方法的流程图;
图10是本申请一个实施例提供的视频解码装置的框图;
图11是本申请一个实施例提供的环路滤波模型的训练装置的框图;
图12是本申请另一个实施例提供的环路滤波模型的训练装置的框图;
图13是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
AI(Artificial Intelligence,人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
CV(Computer Vision,计算机视觉技术)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
ML(Machine Learning,机器学习)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的CV和ML等技术,提供了一种环路滤波模型的训练方法,该方法可以应用到使用了基于ML的环路滤波模型的视频编解码中,还可以应用于与频域有关的图像增强领域中。
请参考图1,当前块101包括在运动搜索过程期间已由编码器发现的样本,根据已产生空间偏移的相同大小的先前块,可预测所述样本。另外,可从一个或多个参考图片相关联的元数据中导出所述MV(Motion Vector,运动矢量),而非对MV直接编码。例如,使用关联于A0、A1和B0、B1、B2(分别对应102到106)五个周围样本中的任一样本的MV,(按解码次序)从最近的参考图片的元数据中导出所述MV。
如图2所示,其示出了本申请一个实施例提供的通信系统的简化框图。通信系统200包括多个设备,所述设备可通过例如网络250彼此通信。举例来说,通信系统200包括通过网络250互连的第一设备210和第二设备220。在图2的实施例中,第一设备210和第二设备220执行单向数据传输。举例来说,第一设备210可对视频数据例如由设备210采集的视频图片流进行编码以通过网络250传输到第二端装置220。已编码的视频数据以一个或多个已编码视频码流形式传输。第二设备220可从网络250接收已编码视频数据,对已编码视频数据进行解码以恢复视频数据,并根据恢复的视频数据显示视频图片。单向数据传输在媒体服务等应用中是较常见的。
在另一实施例中,通信系统200包括执行已编码视频数据的双向传输的第三设备230和第四设备240,所述双向传输可例如在视频会议期间发生。对于双向数据传输,第三设备230和第四设备240中的每个设备可对视频数据(例如由设备采集的视频图片流)进行编码,以通过网络250传输到第三设备230和第四设备240中的另一设备。第三设备230和第四设备240中的每个设备还可接收由第三设备230和第四设备240中的另一设备传输的已编码视频数据,且可对所述已编码视频数据进行解码以恢复视频数据,且可根据恢复的视频数据在可访问的显示装置上显示视频图片。
在图2的实施例中,第一设备210、第二设备220、第三设备230和第四设备240可为服务器、个人计算机和智能电话,但本申请公开的原理可不限于此。本申请实施例适用于膝上型计算机、平板电脑、媒体播放器和/或专用视频会议设备。网络250表示在第一设备210、第二设备220、第三设备230和第四设备240之间传送已编码视频数据的任何数目的网络,包括例如有线连线的和/或无线通信网络。通信网络250可在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的,除非在下文中有所解释,否则网络250的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。
作为实施例,图3示出视频编码器和视频解码器在流式传输环境中的放置方式。本申请所公开主题可同等地适用于其它支持视频的应用,包括例如视频会议、数字TV、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。
流式传输系统可包括采集子系统313,所述采集子系统可包括数码相机等视频源301,所述视频源创建未压缩的视频图片流302。在实施例中,视频图片流302包括由数码相机拍摄的样本。相较于已编码的视频数据304(或已编码的视频码流),视频图片流302被描绘为粗线以强调高数据量的视频图片流,视频图片流302可由电子装置320处理,所述电子装置320包括耦接到视频源301的视频编码器303。视频编码器303可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于视频图片流302,已编码的视频数据304(或已编码的视频码流304)被描绘为细线以强调较低数据量的已编码的视频数据304(或已编码的视频码流304),其可存储在流式传输服务器305上以供将来使用。一个或多个流式传输客户端子系统,例如图3中的客户端子系统306和客户端子系统308,可访问流式传输服务器305以检索已编码的视频数据304的副本307和副本309。客户端子系统306可包括例如电子装置330中的视频解码器310。视频解码器310对已编码的视频数据的传入副本307进行解码,且产生可在显示器312(例如显示屏)或另一呈现装置(未描绘)上呈现的输出视频图片流311。在一些流式传输系统中,可根据某些视频编码/压缩标准对已编码的视频数据304、视频数据307和视频数据309(例如视频码流)进行编码。在实施例中,正在开发的视频编码标准非正式地称为VVC(Versatile Video Coding,下一代视频编码),
应注意,电子装置320和电子装置330可包括其它组件(未示出)。举例来说,电子装置320可包括视频解码器(未示出),且电子装置330还可包括视频编码器(未示出)。其中,视频解码器用于对接收到的已编码视频数据进行解码;视频编码器用于对视频数据进行编码。
需要说明的一点是,本申请实施例可以应用于标准VVC/H.266、HEVC/H.265、AVS等等中。
还需要说明的一点是,本申请实施例提供的环路滤波模型的训练方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备,如PC或服务器。
下面,通过几个实施例对本申请技术方案进行介绍说明。
请参考图4,其示出了本申请一个实施例提供的视频解码方法的流程图。在本实施例中,主要以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤:
步骤401,对编码后的目标视频进行解码,得到目标视频的重建图像帧。
计算机设备在获取到上述编码后的目标视频后,可以对该编码后的目标视频中的图像帧进行解码,以重建原始图像帧,得到重建图像帧。上述解码过程可以包括对编码后的图像帧进行反量化、反变换、重建等处理
可选地,计算机设备可以度待编码视频进行编码后,得到上述编码后的目标视频,也可以接收其它计算机设备发送的编码后的目标视频。上述目标视频可以包括多个连续的图像帧。目标视频可以包括游戏视频、赛事视频、直播视频、电竞视频等等。上述编码过程包括对原始图像帧进行预测、变换、量化等处理。
步骤402,对目标视频的重建图像帧采用环路滤波模型进行滤波处理,得到目标视频的滤波图像帧。
由于在对原始图像帧进行编解码的过程中,反量化并不能消除量化造成的失真,因此,重建图像帧带有一定程度上的失真,如块效应和振铃效应。为了最大程度恢复失真的重建图像帧,计算机设备对重建图像帧进行滤波处理。
在本申请实施例中,计算机设备可以调用环路滤波模型进行滤波处理。上述环路滤波模型是采用包括分解损失函数的损失函数训练得到的,分解损失函数用于表征滤波图像帧与图像帧在频域上的像素差异。
可选地,上述环路滤波模型是通过如下几个步骤训练得到的:
(1)获取训练样本。
训练样本包括至少一个视频样本的原始图像帧和重建图像帧,视频样本的重建图像帧是对视频样本的原始图像帧进行编解码后得到的图像帧。
(2)调用环路滤波模型对视频样本的重建图像帧进行处理,得到视频样本的滤波图像帧。
(3)获取视频样本的滤波图像帧的n张频域分解图像帧和视频样本的原始图像帧的n张频域分解图像帧,n张频域分解图像帧对应于n个频段,n为大于1的整数。
(4)计算环路滤波模型对应的损失函数的值,损失函数包括分解损失函数。
(5)根据损失函数的值对环路滤波模型进行训练,得到完成训练的环路滤波模型。
对于环路滤波模型的训练过程的详细介绍,请参考下文实施例,此处不再赘述。
步骤403,根据目标视频的滤波图像帧得到解码后的目标视频。
在得到上述目标视频的滤波图像后,可以对该目标视频的滤波图像进行一系列的处理,得到最后的解码后的目标视频。
综上所述,本申请实施例提供的技术方案,在对编码后的目标视频进行解码后,采用环路滤波模型来对解码后得到的重建图像帧进行滤波处理,模型的损失函数考虑了分解损失函数,该分解损失函数表征了滤波图像帧与原始图像帧在频域上的像素差异。相比于相关技术中,采用像素损失函数训练环路滤波模型,本申请实施例提供的技术方案,分解损失函数可以反映滤波图像帧和原始图像帧在不同频段的差异,通过分解损失函数来训练环路滤波模型,使得在模型的训练过程中考虑到图像帧不同频段上的像素差异,并尽可能减小滤波图像帧与原始图像帧在不同频段上的像素差异,如高频部分的像素差异,而高频部分反映了图像帧的细节特征,从而使得训练完成的环路滤波模型可以有效地恢复图像帧的细节,提升环路滤波模型输出的图像帧质量。
请参考图5,其示出了本申请一个实施例提供的环路滤波模型的训练方法的流程图。在本实施例中,主要以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤:
步骤501,获取原始图像帧和重建图像帧。
上述原始图像帧可以是待编码视频中,未进行视频编解码的图像帧。上述重建图像帧是对原始图像帧进行编解码后得到的图像帧,也就是先对原始图像帧进行编码,得到编码后的图像帧,再对编码后的图像帧进行解码,得到重建图像帧。
视频编解码可以包括视频编码和视频解码。其中,视频编码是指通过特定的压缩技术,将某个视频格式的文件转换为另一种视频格式文件;该视频编码过程包括对原始图像帧进行预测、变换、量化等处理,得到编码后的图像帧。视频解码是指对已编码的视频进行解码以生成重建图像帧;该视频解码过程包括对编码后的图像帧进行反量化、反变换、重建等处理,得到重建图像帧。
可选地,上述原始图像帧可以是YUV格式的图像帧,也可以是RGB格式的图像帧,还可以是其它格式的图像帧,本申请实施例对此不作限定。
步骤502,调用环路滤波模型对重建图像帧进行处理,得到滤波图像帧。
由于在对原始图像帧进行编解码的过程中,反量化并不能消除量化造成的失真,因此,重建图像帧带有一定程度上的失真,如块效应和振铃效应。为了最大程度恢复失真的重建图像帧,通常对重建图像帧进行滤波处理。
在本申请实施例中,可以调用环路滤波模型,将重建图像帧输入至环路滤波模型进行滤波处理,得到滤波处理后的滤波图像帧。
上述环路滤波模型用于对输入模型的图像帧进行滤波处理。该环路滤波模型的框架结构可以是CNN(Convolutional Neural Networks,卷积神经网络)、DCNN、ResNet(Residual Neural Network,残差网络)、DenseNet(Densely Connected ConvolutionalNetworks,稠密的卷积神经网络)等等,还可以是其它可用于滤波处理的模型结构,本申请实施例对此不作限定。
步骤503,获取滤波图像帧的n张频域分解图像帧和原始图像帧的n张频域分解图像帧。
由于重建图像帧的失真主要是因为编解码过程中导致的细节损失,而图像帧的频率是表征图像帧中灰度变化剧烈程度的指标,是灰度在平面空间上的梯度。因此,可以考虑将图像帧从灰度分布转换到频率分布上观察重建图像帧的特征。
计算机设备可以将滤波图像帧和原始图像帧转换到频域上,并获取滤波图像帧的n张频域分解图像帧和原始图像帧的n张频域分解图像帧,其中n张频域分解图像帧对应于n个频段,n为大于1的整数。
步骤504,计算环路滤波模型对应的损失函数的值。
上述损失函数包括分解损失函数,分解损失函数用于表征滤波图像帧与原始图像帧在频域上的像素差异。
可选地,该分解损失函数可以包括滤波图像帧的第i张频域分解图像帧与原始图像帧的第i张频域分解图像帧之间像素值的差,i为小于或等于n的正整数。
步骤505,根据损失函数的值对环路滤波模型进行训练,得到完成训练的环路滤波模型。
在获取到上述损失函数的值后,可以根据该损失函数的值对环路滤波模型进行训练,不断缩小滤波图像帧与原始图像帧之间的差异,得到最终完成训练的环路滤波模型。
编码过程中的量化操作使得重建图像帧容易损失细节,本申请实施例提供的技术方案中,通过分解损失函数来训练环路滤波模型,使得在模型的训练过程中考虑到图像帧不同频段上的像素差异,并尽可能减小滤波图像帧与原始图像帧在不同频段上的像素差异,如高频部分的像素差异,而高频部分反映了图像帧的细节特征,从而使得训练完成的环路滤波模型可以有效地恢复图像帧的细节。
在得到上述完成训练的环路滤波模型之后,可以将该完成训练的环路滤波模型上传到线上,以便其它计算机设备在获取到解码后的重建图像帧时,可以调用上述完成训练的环路滤波模型,对重建图像帧进行滤波处理,得到滤波图像帧。由于使用了上述完成训练的环路滤波模型,得到的滤波图像帧中的边缘等细节能够有效地恢复,降低重建图像帧中的失真。
综上所述,本申请实施例提供的技术方案,在对环路滤波模型进行训练时,损失函数考虑了分解损失函数,该分解损失函数表征了滤波图像帧与原始图像帧在频域上的像素差异。相比于相关技术中,采用像素损失函数训练环路滤波模型,本申请实施例提供的技术方案,分解损失函数可以反映滤波图像帧和原始图像帧在不同频段的差异,通过分解损失函数来训练环路滤波模型,使得在模型的训练过程中考虑到图像帧不同频段上的像素差异,并尽可能减小滤波图像帧与原始图像帧在不同频段上的像素差异,如高频部分的像素差异,而高频部分反映了图像帧的细节特征,从而使得训练完成的环路滤波模型可以有效地恢复图像帧的细节,提升环路滤波模型输出的图像帧质量。
请参考图6,其示出了本申请另一个实施例提供的环路滤波模型的训练方法的流程图。在本实施例中,主要以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤:
步骤601,获取原始图像帧和重建图像帧。
上述原始图像帧可以是待编码视频中,未进行视频编解码的原始图像帧。上述重建图像帧是对原始图像帧进行编解码后得到的图像帧。
可选地,上述原始图像帧可以是YUV格式的图像帧,也可以是RGB格式的图像帧,还可以是其它格式的图像帧,本申请实施例对此不等作限定。
步骤602,调用环路滤波模型对重建图像帧进行处理,得到滤波图像帧。
此步骤与图5实施例中步骤502相同或类似,此处不再赘述。
步骤603,对滤波图像帧和原始图像帧进行频域变换,得到与滤波图像帧对应的第一频域图像帧和与原始图像帧对应的第二频域图像帧。
上述第一频域图像帧是指对滤波图像帧进行频域变换后的图像帧;第二频域图像帧是指对原始图像帧进行频域变换后得到的图像帧。
上述频域变换是指将图像帧从时域转换到频域。图像帧的时域是指图像帧平面所在的二维平面,对于时域的图像帧的处理主要是对像素灰度值的改变,其位置不变。图像帧的频域是指图像帧像素的灰度值随位置变化的空间频率,以频谱表示信息分布特征。
可选地,上述对滤波图像帧和原始图像帧进行频域变换,得到与滤波图像帧对应的第一频域图像帧和与原始图像帧对应的第二频域图像帧,可以包括以下两个步骤:
(1)获取滤波图像帧的第一矩阵以及原始图像帧的第二矩阵,第一矩阵包括滤波图像帧各个像素点的像素值,第二矩阵包括原始图像帧各个像素点的像素值。
图像帧在计算机设备中通常可以采用矩阵来表示,矩阵的元素包括图像帧中每个像素点的像素值。
在本申请实施例中,采用第一矩阵表示滤波图像帧,该第一矩阵的元素包括滤波图像帧中各个像素点的像素值;采用第二矩阵表示滤波图像帧,该第二矩阵的元素包括滤波图像帧中各个像素点的像素值。
例如,假设滤波图像帧的分辨率为500×600,则第一矩阵中P[x,y]中x的取值范围为1~500,y的取值范围为1~600,第一矩阵中每个元素的数值为滤波图像帧对应位置的像素点的像素值。
(2)通过频域变换算法将第一矩阵和第二矩阵变换为第一频域矩阵和第二频域矩阵,得到与滤波图像帧对应的第一频域图像帧和与原始图像帧对应的第二频域图像帧。
将第一矩阵和第二矩阵通过频域变换算法,得到对应于第一矩阵的第一频域矩阵,对应于第二矩阵的第二频域矩阵。与时域中第一矩阵表示滤波图像帧、第二矩阵表示原始图像帧相同,在频域中,与滤波图像帧对应的第一频域图像帧可以采用第一频域矩阵表示,与原始图像帧对应的第二频域图像帧可以采用第二频域矩阵表示。
可选地,上述频域变换算法可以是傅里叶变换,也可以是离散小波变换,还可以是短时傅里叶变换,还可以是快速傅里叶变换等等,本申请实施例对此不作限定。
可选地,在对滤波图像帧和原始图像帧进行频域变换之前,还可以对原始图像帧和滤波图像帧进行预处理,之后基于该预处理后的滤波图像帧和原始图像帧进行频域变换。
示例性地,原始图像帧和滤波图像帧的格式为YUV格式,上述对原始图像帧和滤波图像帧进行预处理包括:提取原始图像帧和滤波图像帧的图像帧元素,该图像帧元素是指图像帧中每个像素的位置和亮度值。
另外,当原始图像帧和滤波图像帧的格式为RGB或者其它格式时,需要先将RGB格式或者其它格式的图像帧转换为YUV格式的图像帧。
需要说明的一点是,上述滤波图像和原始图像是采用相同的频域变换算法进行变换的。
步骤604,对与滤波图像帧对应的第一频域图像帧和与原始图像帧对应的第二频域图像帧进行频域分解,得到滤波图像帧的n张频域分解图像帧和原始图像帧的n张频域分解图像帧。
编码过程中的量化操作使得重建图像帧在不同频段的损失有所不同。对于图像帧而言,图像帧的边缘部分是突变部分,变化较快,对应的频域图像帧是高频分量,图像帧的噪声大部分情况下是高频部分;采用低通滤波器可以过滤高频分量,通过低频分量,从而去除图像帧噪声,使图像帧边缘变得平滑;采用高通滤波器,可以过滤低频分量,通过高频分量,从而可以使图像帧的边缘增强。
因此,在本申请实施例中,对于重建图像帧在不同频段的损失有所不同这一特点,将滤波图像帧对应的第一频域图像帧和原始图像帧对应的第二频域图像帧,分解到不同的频段,得到各自对应的n张频域分解图像帧。
示例性地,如图7所示,以离散小波一次分解过程为例。将频域图像帧(如第一频域图像帧),频域图像帧分别通过第一低通滤波器和第一高通滤波器,第一低通滤波器和第一高通滤波器对该频域图像帧进行卷积,得到第一卷积结果和第一卷积结果;然后通过降采样滤波器,进行以系数为2的下采样,得到第一分量和第二分量;之后将第一分量分别通过第二低通滤波器和第二高通滤波器,以及降采样滤波器,进行以系数为2的下采样,得到最终的第一频域分解图像帧(LL)和第二频域分解图像帧(LH);将第二分量分别通过第三低通滤波器和第三高通滤波器,以及降采样滤波器,进行以系数为2的下采样,得到最终的第三频域分解图像帧(HL)和第四频域分解图像帧(HH);其中,第一频域分解图像帧、第二频域分解图像帧、第三频域图像帧和第四频域图像帧所处频段有低到高。
上述示例仅以一次分解为例,在一些其它示例中可以进行多次分解,本申请实施例对此不作限定。
步骤605,计算滤波图像帧的n张频域分解图像帧中第i张频域分解图像帧与原始图像帧的n张频域分解图像帧中第i张频域分解图像帧之间像素值的差,得到第i个频段对应的像素值的差,i为小于或等于n的正整数。
在得到滤波图像帧的n张频域分解图像帧与原始图像帧的n张频域分解图像帧后,对于滤波图像帧的第i张频域分解图像帧与原始图像帧的的第i张频域分解图像帧,可以计算两张频域分解图像帧之间像素值的差,得到第i个频段对应的像素值的差。对于滤波图像帧的n张频域分解图像帧与原始图像帧的n张频域分解图像帧,均可以采用上述方式计算得到各个频段的滤波图像帧的频域分解图像帧与原始图像帧的频域分解图像帧之间像素值的差,从而可以得到n个频段对应的像素值的差。
示例性地,以n=4为例,滤波图像帧的4张频域分解图像帧可以表示为LL、LH、HL、HH,原始图像帧的4张频域分解图像帧可以对应表示为LL’、LH’、HL’、HH’,计算各个频段的滤波图像帧的频域分解图像帧与原始图像帧的频域分解图像帧之间像素值的差,得到4个频段对应的像素值的差:|LL-LL’|、|LH-LH’|、|HL-HL’|和|HH-HH’|。
步骤606,对n个频段对应的像素值的差进行加权平均,得到分解损失函数的值。
在得到上述n个频段对应的像素值的差之后,可以进一步进行加权平均,得到分解损失函数的值。
示例性地,以n=4为例,上述分解损失函数可以表示为:
LDWT=w0·|LL-LL'|+w1·|LH-LH'|+w2·|HL-HL'|+w3·|HH-HH'|;
其中,LL、LH、HL、HH分别表示滤波图像帧的4张频域分解图,LL’、LH’、HL’、HH’分别表示原始图像帧的4张频域分解图,每张频域分解图对应于一个频段;LL-LL'表示第一频段滤波图像帧与原始图像帧之间像素值的差;LL-LL'表示第一频段滤波图像帧与原始图像帧之间像素值的差;LL-LL'表示第一频段滤波图像帧与原始图像帧之间像素值的差;LL-LL'表示第一频段滤波图像帧与原始图像帧之间像素值的差;w0、w1、w2和w3分别表示各个频段的对应的像素值的差的权重,某个频段的像素值的差越大,该频段的权重越大。
步骤607,计算环路滤波模型对应的损失函数的值。
上述损失函数包括分解损失函数,分解损失函数用于表征滤波图像帧与原始图像帧在频域上的像素差异。
可选地,上述损失函数还可以包括像素损失函数,该像素损失函数用于表征滤波图像帧与原始图像帧在时域上的像素差异。该像素损失函数可以是MSE(Mean SquareError,均方误差)损失函数,也可以是L1损失函数、还可以是L2损失函数等等。
上述像素损失函数的值可以通过原始图像帧与图滤波图像帧的像素值进行相减得到。
例如,当像素损失函数为MSE损失函数时,像素损失函数可以表示为:LMSE=∑|xtar-xout|2,其中,xtar表示表示原始图像帧的像素值,xout表示滤波图像帧的像素值。又例如,当像素损失函数为L1损失函数时,像素损失函数可以表示为:LL1=∑|xtar-xout|,其中,xtar表示表示原始图像帧的像素值,xout表示滤波图像帧的像素值。
在这种情况下,上述计算环路滤波模型对应的损失函数的值,包括以下两种方式:
方式1:将分解损失函数的值与像素损失函数的值相加,得到损失函数的值。
示例性地,以分解损失函数为LDWT,以像素损失函数为LMSE,损失函数LLoss的值可以表示为LLoss=LDWT+LMSE。
方式2:将分解损失函数的值与像素损失函数的值进行加权平均,得到损失函数的值。
示例性地,以分解损失函数为LDWT,以像素损失函数为LMSE,损失函数的值LLoss可以表示为LLoss=wDWT·LDWT+wMSE·LMSE,其中,wDWT表示分解损失函数的权重,wMSE表示像素损失函数的权重。
步骤608,通过最小化损失函数的值,来调整环路滤波模型的参数,得到完成训练的环路滤波模型。
由于损失函数的值反映了滤波图像帧与原始图像帧之间的差异。因此,在环路滤波模型的训练过程中,可以通过最小化该损失函数的值,来调整环路滤波模型的参数,使得经过环路滤波模型输出的滤波图像帧尽可能的与原始图像帧靠近。
可选地,可以采用梯度下降法来优化环路滤波模型的参数。
在环路滤波模型满足停止训练条件时,停止对该模型的训练,得到完成训练的环路滤波模型。该完成训练的环路滤波模型对于重建图像帧具有更好的滤波效果。其中,环路滤波模型的停止训练条件可以预先进行设定,如损失函数的值达到预设阈值、训练轮数达到预设轮数或训练时长达到预设时长等,本申请实施例对此不作限定。
综上所述,本申请实施例提供的技术方案,通过对滤波图像帧和原始图像帧进行频域变换和频域分解,得到滤波图像帧和原始图像帧在不同频段的频域分解图,并对每个频段的滤波图像帧和原始图像帧像素值的差进行加权平均,得到分解损失函数的值,并以此来训练环路滤波模型。采用带权重的在不同频段的损失函数,来指导环路滤波模型的训练,考虑到了量化过程对不同频段造成的细节损失不同,从而能够有效提升环路滤波模型的滤波效果。
另外,将分解损失函数与像素损失函数同时作为环路滤波模型的损失函数组成部分,使得损失函数不仅考虑到了单个像素对应的精度,也考虑到像素之间的相关性,从而进一步提升环路滤波模型的滤波效果。
下面,对分解损失函数的构建过程进行简要介绍。如图8所示,其示例性示出了一种分解损失函数的构建过程的示意图。
首先,在获取到滤波图像帧41和原始图像帧42之后,可以提取滤波图像帧41的图像帧元素y,以及原始图像帧42的图像帧元素y’,该图像帧元素是指图像帧中每个像素的位置和亮度值;进一步,对滤波图像帧41的图像帧元素y进行一次离散小波分解,得到滤波图像帧41的4张频域分解图像帧:LL、LH、HL、HH,对原始图像帧42的图像帧元素y’进行一次离散小波分解,得到原始图像帧的4张频域分解图像帧:LL’、LH’、HL’、HH’;之后,可以计算滤波图像帧的4张频域分解图像帧与原始图像帧的4张频域分解图像帧对应的频域分解图像帧之间像素值的差,得到4个频段对应的像素值的差:|LL-LL’|、|LH-LH’|、|HL-HL’|和|HH-HH’|;最后,对4个频段对应的像素值的差进行加权平均,得到分解损失函数LDWT的值:
LDWT=w0·|LL-LL'|+w1·|LH-LH'|+w2·|HL-HL'|+w3·|HH-HH'|。
下面,对环路滤波模型的训练方法进行简要介绍。如图9所示,其示例性示出了一种环路滤波模型的训练方法的流程图。
首先,在获取到原始图像帧42和重建图像帧40后,调用环路滤波模型50对该重建图像帧40进行滤波处理,得到滤波图像帧41,该滤波图像帧41由于编码过程中的量化操作具有一定程度的失真;然后,对该滤波图像帧41和原始图像帧42进行频域变换51,即从时域转换到频域,得到与滤波图像帧对应的第一频域图像帧和与原始图像帧对应的第二频域图像帧,并对该第一频域图像帧和第二频域图像帧进行频域分解52,得到滤波图像帧的n张频域分解图像帧和原始图像帧的n张频域分解图像帧,如对滤波图像帧41进行一次离散小波分解,得到滤波图像帧41的4张频域分解图像帧:LL、LH、HL、HH,对原始图像帧42的图像帧元素y’进行一次离散小波分解,得到原始图像帧的4张频域分解图像帧:LL’、LH’、HL’、HH’;之后,计算滤波图像帧的n张频域分解图像帧中第i张频域分解图像帧与原始图像帧的n张频域分解图像帧中第i张频域分解图像帧之间像素值的差,得到第i个频段对应的像素值的差,进一步得到n个频段对应的像素值的差53,其中,i为小于或等于n的正整数,如计算滤波图像帧的4张频域分解图像帧与原始图像帧的4张频域分解图像帧对应的频域分解图像帧之间像素值的差,得到4个频段对应的像素值的差:|LL-LL’|、|LH-LH’|、|HL-HL’|和|HH-HH’|;对n个频段对应的像素值的差进行加权平均,得到分解损失函数的值54,如对4个频段对应的像素值的差进行加权平均,得到分解损失函数LDWT的值:
LDWT=w0·|LL-LL'|+w1·|LH-LH'|+w2·|HL-HL'|+w3·|HH-HH'|;
最后,计算环路滤波模型对应的损失函数LLoss的值55,该环路滤波模型损失函数可以包括分解损失函数LDWT和像素损失函数LMSE;并通过最小化损失函数的值,来调整环路滤波模型的参数,得到完成训练的环路滤波模型56。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图10,其示出了本申请一个实施例提供的视频解码装置的框图。该装置具有实现上述视频解码方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备上。该装置1000可以包括:视频重建模块1010、滤波处理模块1020和视频解码模块1030。
视频重建模块1010,用于对编码后的目标视频进行解码,得到所述目标视频的重建图像帧.
滤波处理模块1020,用于对所述目标视频的重建图像帧采用环路滤波模型进行滤波处理,得到所述目标视频的滤波图像帧;所述环路滤波模型是采用包括分解损失函数的损失函数训练得到的,所述分解损失函数用于表征所述滤波图像帧与原始图像帧在频域上的像素差异。
视频解码模块1030,用于根据所述目标视频的滤波图像帧得到解码后的目标视频。
综上所述,本申请实施例提供的技术方案,在对环路滤波模型进行训练时,损失函数考虑了分解损失函数,该分解损失函数表征了滤波图像帧与原始图像帧在频域上的像素差异。相比于相关技术中,采用像素损失函数训练环路滤波模型,本申请实施例提供的技术方案,分解损失函数可以反映滤波图像帧和原始图像帧在不同频段的差异,通过分解损失函数来训练环路滤波模型,使得在模型的训练过程中考虑到图像帧不同频段上的像素差异,并尽可能减小滤波图像帧与原始图像帧在不同频段上的像素差异,如高频部分的像素差异,而高频部分反映了图像帧的细节特征,从而使得训练完成的环路滤波模型可以有效地恢复图像帧的细节,提升环路滤波模型输出的图像帧质量。
在一些可能的设计中,所述环路滤波模型是通过如下步骤训练得到的:获取训练样本,所述训练样本包括至少一个视频样本的原始图像帧和重建图像帧,所述视频样本的重建图像帧是对所述视频样本的原始图像帧进行编解码后得到的图像帧;调用所述环路滤波模型对所述视频样本的重建图像帧进行处理,得到所述视频样本的滤波图像帧;获取所述视频样本的滤波图像帧的n张频域分解图像帧和所述视频样本的原始图像帧的n张频域分解图像帧,所述n张频域分解图像帧对应于n个频段,所述n为大于1的整数;计算所述环路滤波模型对应的损失函数的值,所述损失函数包括所述分解损失函数;根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型。
在一些可能的设计中,所述获取所述视频样本的滤波图像帧的n张频域分解图像帧和所述视频样本的原始图像帧的n张频域分解图像帧,包括:对所述视频样本的滤波图像帧和所述视频样本的原始图像帧进行频域变换,得到与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧;对与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧进行频域分解,得到所述视频样本的滤波图像帧的n张频域分解图像帧和所述视频样本的原始图像帧的n张频域分解图像帧。
在一些可能的设计中,所述对所述视频样本的滤波图像帧与所述视频样本的原始图像帧进行频域变换,得到与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧,包括:获取所述视频样本的滤波图像帧的第一矩阵以及所述视频样本的原始图像帧的第二矩阵,所述第一矩阵包括所述视频样本的滤波图像帧各个像素点的像素值,所述第二矩阵包括所述视频样本的原始图像帧各个像素点的像素值;通过频域变换算法将所述第一矩阵和所述第二矩阵变换为第一频域矩阵和第二频域矩阵,得到与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧。
在一些可能的设计中,所述计算所述环路滤波模型对应的损失函数的值之前,还包括:计算所述视频样本的滤波图像帧的n张频域分解图像帧中第i张频域分解图像帧与所述视频样本的原始图像帧的n张频域分解图像帧中第i张频域分解图像帧之间像素值的差,得到第i个频段对应的像素值的差,所述i为小于或等于所述n的正整数;对所述n个频段对应的像素值的差进行加权平均,得到所述分解损失函数的值。
在一些可能的设计中,所述根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型,包括:通过最小化所述损失函数的值,来调整所述环路滤波模型的参数,得到所述完成训练的环路滤波模型。
在一些可能的设计中,所述损失函数还包括像素损失函数,所述像素损失函数用于表征所述滤波图像帧与所述原始图像帧在时域上的像素差异。
在一些可能的设计中,所述计算所述环路滤波模型对应的损失函数的值,包括:将所述分解损失函数的值与所述像素损失函数的值相加,得到所述损失函数的值;或者,将所述分解损失函数的值与所述像素损失函数的值进行加权平均,得到所述损失函数的值。
请参考图11,其示出了本申请一个实施例提供的环路滤波模型的训练装置的框图。该装置具有实现上述环路滤波模型的训练方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备上。该装置1100可以包括:图像帧获取模块1110、滤波处理模块1120、图像分解模块1130、损失计算模块1140和模型训练模块1150。
图像获取模块1110,用于获取原始图像帧和重建图像帧,所述重建图像帧是对所述原始图像帧进行编解码后得到的图像帧。
滤波处理模块1120,用于调用环路滤波模型对所述重建图像帧进行处理,得到滤波图像帧。
图像分解模块1130,用于获取所述滤波图像帧的n张频域分解图像帧和所述原始图像帧的n张频域分解图像帧,所述n张频域分解图像帧对应于n个频段,所述n为大于1的整数。
损失计算模块1140,用于计算所述环路滤波模型对应的损失函数的值,所述损失函数包括分解损失函数,所述分解损失函数用于表征所述滤波图像帧与所述原始图像帧在频域上的像素差异。
模型训练模块1150,用于根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型。
综上所述,本申请实施例提供的技术方案,在对环路滤波模型进行训练时,损失函数考虑了分解损失函数,该分解损失函数表征了滤波图像帧与原始图像帧在频域上的像素差异。相比于相关技术中,采用像素损失函数训练环路滤波模型,本申请实施例提供的技术方案,分解损失函数可以反映滤波图像帧和原始图像帧在不同频段的差异,通过分解损失函数来训练环路滤波模型,使得在模型的训练过程中考虑到图像帧不同频段上的像素差异,并尽可能减小滤波图像帧与原始图像帧在不同频段上的像素差异,如高频部分的像素差异,而高频部分反映了图像帧的细节特征,从而使得训练完成的环路滤波模型可以有效地恢复图像帧的细节,提升环路滤波模型输出的图像帧质量。
在一些可能的设计中,所述图像分解模块1130,包括:频域变换单元1131和频域分解单元1132。
频域变换单元1131,用于对所述滤波图像帧和所述原始图像帧进行频域变换,得到与所述滤波图像帧对应的第一频域图像帧和与所述原始图像帧对应的第二频域图像帧。
频域分解单元1132,用于对与所述滤波图像帧对应的第一频域图像帧和与所述原始图像帧对应的第二频域图像帧进行频域分解,得到所述滤波图像帧的n张频域分解图像帧和所述原始图像帧的n张频域分解图像帧。
在一些可能的设计中,所述频域变换单元1131,用于获取所述滤波图像帧的第一矩阵以及所述原始图像帧的第二矩阵,所述第一矩阵包括所述滤波图像帧各个像素点的像素值,所述第二矩阵包括所述原始图像帧各个像素点的像素值;通过频域变换算法将所述第一矩阵和所述第二矩阵变换为第一频域矩阵和第二频域矩阵,得到与所述滤波图像帧对应的第一频域图像帧和与所述原始图像帧对应的第二频域图像帧。
在一些可能的设计中,如图12所示,所述装置还包括:像素差计算模块1160和分解值计算模块1170。
像素差计算模块1160,用于计算所述滤波图像帧的n张频域分解图像帧中第i张频域分解图像帧与所述原始图像帧的n张频域分解图像帧中第i张频域分解图像帧之间像素值的差,得到第i个频段对应的像素值的差,所述i为小于或等于所述n的正整数。
分解值计算模块1170,用于对所述n个频段对应的像素值的差进行加权平均,得到所述分解损失函数的值。
在一些可能的设计中,所述损失函数还包括像素损失函数,所述像素损失函数用于表征所述滤波图像帧与所述原始图像帧在时域上的像素差异。
在一些可能的设计中,所述损失计算模块1140,用于将所述分解损失函数的值与所述像素损失函数的值相加,得到所述损失函数的值;或者,将所述分解损失函数的值与所述像素损失函数的值进行加权平均,得到所述损失函数的值。
在一些可能的设计中,所述模型训练模块1150,用于通过最小化所述损失函数的值,来调整所述环路滤波模型的参数,得到所述完成训练的环路滤波模型。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图13,其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备用于实施上述实施例中提供的环路滤波模型的训练方法。具体来讲:
所述计算机设备1300包括中央处理单元(CPU)1301、包括随机存取存储器(RAM)1302和只读存储器(ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1306,和用于存储操作系统1313、应用程序1314和其他程序模块1312的大容量存储设备1307。
所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说,所述大容量存储设备1307可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
根据本申请的各种实施例,所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述视频解码方法,或者实现上述环路滤波模型的训练方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时实现上述视频解码方法,或者实现上述环路滤波模型的训练方法。
在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被处理器执行时,其用于实现上述视频解码方法,或者实现上述环路滤波模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种视频解码方法,其特征在于,所述方法包括:
对编码后的目标视频进行解码,得到所述目标视频的重建图像帧;
对所述目标视频的重建图像帧采用环路滤波模型进行滤波处理,得到所述目标视频的滤波图像帧;所述环路滤波模型是采用包括分解损失函数的损失函数训练得到的机器学习模型,所述分解损失函数用于表征所述滤波图像帧与原始图像帧在频域上的像素差异;
根据所述目标视频的滤波图像帧得到解码后的目标视频。
2.根据权利要求1所述的方法,其特征在于,所述环路滤波模型是通过如下步骤训练得到的:
获取训练样本,所述训练样本包括至少一个视频样本的原始图像帧和重建图像帧,所述视频样本的重建图像帧是对所述视频样本的原始图像帧进行编解码后得到的图像帧;
调用所述环路滤波模型对所述视频样本的重建图像帧进行处理,得到所述视频样本的滤波图像帧;
获取所述视频样本的滤波图像帧的n张频域分解图像帧和所述视频样本的原始图像帧的n张频域分解图像帧,所述n张频域分解图像帧对应于n个频段,所述n为大于1的整数;
计算所述环路滤波模型对应的损失函数的值,所述损失函数包括所述分解损失函数;
根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型。
3.根据权利要求2所述的方法,其特征在于,所述获取所述视频样本的滤波图像帧的n张频域分解图像帧和所述视频样本的原始图像帧的n张频域分解图像帧,包括:
对所述视频样本的滤波图像帧和所述视频样本的原始图像帧进行频域变换,得到与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧;
对与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧进行频域分解,得到所述视频样本的滤波图像帧的n张频域分解图像帧和所述视频样本的原始图像帧的n张频域分解图像帧。
4.根据权利要求3所述的方法,其特征在于,所述对所述视频样本的滤波图像帧与所述视频样本的原始图像帧进行频域变换,得到与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧,包括:
获取所述视频样本的滤波图像帧的第一矩阵以及所述视频样本的原始图像帧的第二矩阵,所述第一矩阵包括所述视频样本的滤波图像帧各个像素点的像素值,所述第二矩阵包括所述视频样本的原始图像帧各个像素点的像素值;
通过频域变换算法将所述第一矩阵和所述第二矩阵变换为第一频域矩阵和第二频域矩阵,得到与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧。
5.根据权利要求2所述的方法,其特征在于,所述计算所述环路滤波模型对应的损失函数的值之前,还包括:
计算所述视频样本的滤波图像帧的n张频域分解图像帧中第i张频域分解图像帧与所述视频样本的原始图像帧的n张频域分解图像帧中第i张频域分解图像帧之间像素值的差,得到第i个频段对应的像素值的差,所述i为小于或等于所述n的正整数;
对所述n个频段对应的像素值的差进行加权平均,得到所述分解损失函数的值。
6.根据权利要求2所述的方法,其特征在于,所述根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型,包括:
通过最小化所述损失函数的值,来调整所述环路滤波模型的参数,得到所述完成训练的环路滤波模型。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述损失函数还包括像素损失函数,所述像素损失函数用于表征所述滤波图像帧与所述原始图像帧在时域上的像素差异。
8.根据权利要求7所述的方法,其特征在于,所述计算所述环路滤波模型对应的损失函数的值,包括:
将所述分解损失函数的值与所述像素损失函数的值相加,得到所述损失函数的值;
或者,
将所述分解损失函数的值与所述像素损失函数的值进行加权平均,得到所述损失函数的值。
9.一种环路滤波模型的训练方法,其特征在于,所述方法包括:
获取原始图像帧和重建图像帧,所述重建图像帧是对所述原始图像帧进行编解码后得到的图像帧;
调用环路滤波模型对所述重建图像帧进行处理,得到滤波图像帧;
获取所述滤波图像帧的n张频域分解图像帧和所述原始图像帧的n张频域分解图像帧,所述n张频域分解图像帧对应于n个频段,所述n为大于1的整数;
计算所述环路滤波模型对应的损失函数的值,所述损失函数包括分解损失函数,所述分解损失函数用于表征所述滤波图像帧与所述原始图像帧在频域上的像素差异;
根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型。
10.一种视频解码装置,其特征在于,所述装置包括:
视频重建模块,用于对编码后的目标视频进行解码,得到所述目标视频的重建图像帧;
滤波处理模块,用于对所述目标视频的重建图像帧采用环路滤波模型进行滤波处理,得到所述目标视频的滤波图像帧;所述环路滤波模型是采用包括分解损失函数的损失函数训练得到的机器学习模型,所述分解损失函数用于表征所述滤波图像帧与原始图像帧在频域上的像素差异;
视频解码模块,用于根据所述目标视频的滤波图像帧得到解码后的目标视频。
11.根据权利要求10所述的装置,其特征在于,所述环路滤波模型是通过如下步骤训练得到的:
获取训练样本,所述训练样本包括至少一个视频样本的原始图像帧和重建图像帧,所述视频样本的重建图像帧是对所述视频样本的原始图像帧进行编解码后得到的图像帧;
调用所述环路滤波模型对所述视频样本的重建图像帧进行处理,得到所述视频样本的滤波图像帧;
获取所述视频样本的滤波图像帧的n张频域分解图像帧和所述视频样本的原始图像帧的n张频域分解图像帧,所述n张频域分解图像帧对应于n个频段,所述n为大于1的整数;
计算所述环路滤波模型对应的损失函数的值,所述损失函数包括所述分解损失函数;
根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型。
12.根据权利要求11所述的装置,其特征在于,所述获取所述视频样本的滤波图像帧的n张频域分解图像帧和所述视频样本的原始图像帧的n张频域分解图像帧,包括:
对所述视频样本的滤波图像帧和所述视频样本的原始图像帧进行频域变换,得到与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧;
对与所述视频样本的滤波图像帧对应的第一频域图像帧和与所述视频样本的原始图像帧对应的第二频域图像帧进行频域分解,得到所述视频样本的滤波图像帧的n张频域分解图像帧和所述视频样本的原始图像帧的n张频域分解图像帧。
13.一种环路滤波模型的训练装置,其特征在于,所述装置包括:
图像获取模块,用于获取原始图像帧和重建图像帧,所述重建图像帧是对所述原始图像帧进行编解码后得到的图像帧;
滤波处理模块,用于调用环路滤波模型对所述重建图像帧进行处理,得到滤波图像帧;
图像分解模块,用于获取所述滤波图像帧的n张频域分解图像帧和所述原始图像帧的n张频域分解图像帧,所述n张频域分解图像帧对应于n个频段,所述n为大于1的整数;
损失计算模块,用于计算所述环路滤波模型对应的损失函数的值,所述损失函数包括分解损失函数,所述分解损失函数用于表征所述滤波图像帧与所述原始图像帧在频域上的像素差异;
模型训练模块,用于根据所述损失函数的值对所述环路滤波模型进行训练,得到完成训练的环路滤波模型。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的方法,或者实现如权利要求9所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的方法,或者实现如权利要求9所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910783289.1A CN110798690B (zh) | 2019-08-23 | 2019-08-23 | 视频解码方法、环路滤波模型的训练方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910783289.1A CN110798690B (zh) | 2019-08-23 | 2019-08-23 | 视频解码方法、环路滤波模型的训练方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110798690A CN110798690A (zh) | 2020-02-14 |
CN110798690B true CN110798690B (zh) | 2021-12-21 |
Family
ID=69427458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910783289.1A Active CN110798690B (zh) | 2019-08-23 | 2019-08-23 | 视频解码方法、环路滤波模型的训练方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110798690B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113518229B (zh) * | 2020-04-09 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 环路滤波网络的训练方法、装置、计算机设备和存储介质 |
CN111541894B (zh) * | 2020-04-21 | 2021-04-20 | 电子科技大学 | 一种基于边缘增强残差网络的环路滤波方法 |
CN113784146A (zh) * | 2020-06-10 | 2021-12-10 | 华为技术有限公司 | 环路滤波方法和装置 |
CN111709890B (zh) * | 2020-06-12 | 2023-11-24 | 北京小米松果电子有限公司 | 一种图像增强模型的训练方法、装置及存储介质 |
CN111711824B (zh) * | 2020-06-29 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 视频编解码中的环路滤波方法、装置、设备及存储介质 |
CN114173137A (zh) * | 2020-09-10 | 2022-03-11 | 北京金山云网络技术有限公司 | 视频编码方法、装置及电子设备 |
CN112929658B (zh) * | 2021-02-05 | 2022-12-09 | 郑州轻大产业技术研究院有限公司 | 一种针对vvc的基于深度强化学习的快速cu分区方法 |
CN113177451B (zh) * | 2021-04-21 | 2024-01-12 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、装置、电子设备及存储介质 |
WO2024008815A2 (en) * | 2022-07-05 | 2024-01-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Generating encoded video data and decoded video data |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2192786A1 (en) * | 2008-11-27 | 2010-06-02 | Panasonic Corporation | Frequency domain filters for video coding |
US9609342B2 (en) * | 2010-02-19 | 2017-03-28 | Skype | Compression for frames of a video signal using selected candidate blocks |
KR101974261B1 (ko) * | 2016-06-24 | 2019-04-30 | 한국과학기술원 | Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치 |
EP3552390A1 (en) * | 2016-12-23 | 2019-10-16 | Huawei Technologies Co., Ltd. | Mixed domain collaborative in-loop filter for lossy video coding |
-
2019
- 2019-08-23 CN CN201910783289.1A patent/CN110798690B/zh active Active
Non-Patent Citations (2)
Title |
---|
Chia-Yu Yao ; Chin-Chih Yeh.An Application of the Second-Order Passive Lead–Lag Loop Filter for Analog PLLs to the Third-Order Charge-Pump PLLs.《 IEEE Transactions on Industrial Electronics 》.2008, * |
贾川民 ; 赵政辉 ; 王苫社 ; 马思伟.基于神经网络的图像视频编码.《电信科学》.2019, * |
Also Published As
Publication number | Publication date |
---|---|
CN110798690A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110798690B (zh) | 视频解码方法、环路滤波模型的训练方法、装置和设备 | |
CN110300977B (zh) | 用于图像处理和视频压缩的方法 | |
US20210099715A1 (en) | Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (vqa) | |
Wu et al. | Learned block-based hybrid image compression | |
WO2023016155A1 (zh) | 图像处理方法、装置、介质及电子设备 | |
CN110870310A (zh) | 图像编码方法和装置 | |
WO2023005740A1 (zh) | 图像编码、解码、重建、分析方法、系统及电子设备 | |
KR20200050284A (ko) | 영상 적응적 양자화 테이블을 이용한 영상의 부호화 장치 및 방법 | |
CN113192147A (zh) | 显著性压缩的方法、系统、存储介质、计算机设备及应用 | |
Zhao et al. | CBREN: Convolutional neural networks for constant bit rate video quality enhancement | |
Löhdefink et al. | GAN-vs. JPEG2000 image compression for distributed automotive perception: Higher peak SNR does not mean better semantic segmentation | |
US20220335560A1 (en) | Watermark-Based Image Reconstruction | |
Chen et al. | Learning to compress videos without computing motion | |
TWI826160B (zh) | 圖像編解碼方法和裝置 | |
TW202337211A (zh) | 條件圖像壓縮 | |
CN113709483B (zh) | 一种插值滤波器系数自适应生成方法及装置 | |
Gulia et al. | Comprehensive Analysis of Flow Incorporated Neural Network based Lightweight Video Compression Architecture | |
WO2024093627A1 (zh) | 一种视频压缩方法、视频解码方法和相关装置 | |
TWI834087B (zh) | 用於從位元流重建圖像及用於將圖像編碼到位元流中的方法及裝置、電腦程式產品 | |
CN111885378B (zh) | 多媒体数据编码方法、装置、设备以及介质 | |
TW202416712A (zh) | 使用神經網路進行圖像區域的並行處理-解碼、後濾波和rdoq | |
WO2024002497A1 (en) | Parallel processing of image regions with neural networks – decoding, post filtering, and rdoq | |
WO2024002496A1 (en) | Parallel processing of image regions with neural networks – decoding, post filtering, and rdoq | |
Zhai et al. | Image information loss estimation of video stream based on improved SPIHT algorithm | |
Zhang et al. | A novel in-loop filtering mechanism of HEVC based on 3D sub-bands and CNN processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40020248 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |