CN117459737B - 一种图像预处理网络的训练方法和图像预处理方法 - Google Patents

一种图像预处理网络的训练方法和图像预处理方法 Download PDF

Info

Publication number
CN117459737B
CN117459737B CN202311776107.0A CN202311776107A CN117459737B CN 117459737 B CN117459737 B CN 117459737B CN 202311776107 A CN202311776107 A CN 202311776107A CN 117459737 B CN117459737 B CN 117459737B
Authority
CN
China
Prior art keywords
image
code rate
network
preprocessing
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311776107.0A
Other languages
English (en)
Other versions
CN117459737A (zh
Inventor
刘�东
叶帆
李礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202311776107.0A priority Critical patent/CN117459737B/zh
Publication of CN117459737A publication Critical patent/CN117459737A/zh
Application granted granted Critical
Publication of CN117459737B publication Critical patent/CN117459737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness

Abstract

本发明提供了一种图像预处理网络的训练方法和图像预处理方法。该图像预处理网络的训练方法包括:利用不同的JPEG量化因子,对训练数据图像集中的原始图像执行JPEG压缩操作;利用图像预处理网络原始图像的预处理图像,利用可微分的JPEG模拟器的码率估计网络计算预处理图像的码率;利用可微分JPEG模拟器对原始图像的预处理结果进行重建,计算重建图像与所对应的原始图像之间的失真;利用预定义的率失真损失函数得到率失真损失值,通过率失真损失值对图像预处理网络进行参数调整;对码率估计网络进行参数调整;通过交替迭代的方式对图像预处理网络和码率估计网络进行参数调整,得到训练完成的图像预处理网络和码率估计网络。

Description

一种图像预处理网络的训练方法和图像预处理方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像预处理网络的训练方法、图像预处理方法、电子设备以及存储介质。
背景技术
图像压缩编码在数字图像处理中扮演着关键角色。其主要目标是降低图像的存储成本和传输所需的带宽,这对于有效地保存图像数据和快速传输至关重要。此外,图像压缩还有助于提高模式识别等应用的效率,因为它能够减小数据量并加速图像处理过程。有损压缩是一种常见的压缩方法,它牺牲了一部分图像质量以实现更高的压缩比。在有损压缩中,一些次要或不太明显的图像信息被删除或近似表示,从而减小数据量。JPEG是典型的有损压缩标准,广泛用于图像压缩。JPEG压缩通过采用量化和离散余弦变换(DCT)等技术来牺牲一部分图像质量,JPEG压缩的有损特性在于信息损失的程度取决于量化步骤中的精度。较低的量化精度将导致更高的图像质量,但所产生的图像文件过大,而较高的量化精度将产生更小的图像文件,但降低了图像质量。
目前,用于增强压缩的图像数据预处理技术主要关注于普通模式的图像数据预处理。这可能导致对于不同类型的图像,尤其是在色彩通道交错的情况下,效果可能不佳。这可能会在一些特殊场景中引入问题,例如针对彩色图像或特定颜色通道的图像。而像素预处理和编码技术虽然提到了对抗或减少伪影对于高饱和颜色图像影响,但是否适用于不同类型的伪影情况可能需要更多的研究;同时,像素预处理和编码技术包括了二次采样、颜色空间变换等多个操作,这增加了整个处理过程的复杂性。
发明内容
鉴于上述问题,本发明提供了一种图像预处理网络的训练方法、图像预处理方法、电子设备以及存储介质,以期至少能够解决上述问题之一。
根据本发明的第一个方面,提供了一种图像预处理网络的训练方法,包括:
利用不同的JPEG量化因子,对训练数据图像集中的每张原始图像执行JPEG压缩操作,其中,JPEG压缩操作用于计算训练数据图像集中每张图像的相互独立的拉格朗日系数;
利用图像预处理网络对训练数据图像集中的每张原始图像进行预处理,得到每张原始图像的预处理图像,并利用可微分的JPEG模拟器的码率估计网络计算每张预处理图像的码率,其中,可微分的JPEG模拟器包括码率估计网络、DCT变换模块、逆DCT变换模块和自适应量化DCT域掩膜模块;
利用可微分JPEG模拟器对每张原始图像的预处理结果进行重建,得到每张原始图像的重建图像,并计算每张重建图像与所对应的原始图像之间的失真;
利用预定义的率失真损失函数处理每张原始图像的拉格朗日系数、每张预处理图像的码率以及失真,得到率失真损失值,并通过最小化率失真损失值对图像预处理网络进行参数调整,直到满足预设训练条件,得到训练完成的图像预处理网络。
根据本发明的实施例,上述图像预处理网络的训练方法还包括:
利用训练数据图像集、预定义的码率距离损失函数以及参数调整后的图像预处理网络的输出对码率估计网络进行参数调整,得到参数调整后的码率估计网络;
通过交替迭代的方式对图像预处理网络和码率估计网络进行参数调整,直到满足所述预设训练条件,得到训练完成的码率估计网络。
根据本发明的实施例,上述利用训练数据图像集、预定义的码率距离损失函数以及参数调整后的图像预处理网络的输出对码率估计网络进行参数调整,得到参数调整后的码率估计网络包括:
利用参数调整后的预处理网络处理训练数据图像集中的原始图像,得到预处理后的图像;
通过码率估计网络的DCT系数重排器对预处理后的图像的亮度通道维度、色差蓝通道维度和色差红通道维度进行之字形扫描以实现DCT系数重排,得到系数重排后的图像;
基于每张原始图像在不同通道维度上的分量信息,通过码率估计网络的DCT系数融合器对每张系数重排后的图像的不同通道维度进行DCT系数融合,得到系数融合后的图像,其中,DCT系数融合器包括多个卷积层、多个PReLU以及多个合并层;
基于DCT系数符合高斯分布的假设,通过码率估计网络的高斯参数估计器对每张系数融合后的图像进行高斯参数估计,得到每张原始图像的高斯分布参数和DCT系数估计值,其中,高斯参数估计器包括多个残差块,每个残差块包括多个卷积层、多个LeakyReLU和求和层;
通过码率估计网络的高斯条件模块处理每张预处理图像的高斯分布参数和DCT系数估计值,得到每张预处理图像的编码码率估计值;
利用预定义的码率距离损失函数处理每张原始图像的编码码率估计值和码率真值,得到码率距离损失值,并根据码率距离损失值对码率估计网络进行参数调整,得到参数调整后的码率估计网络。
根据本发明的实施例,上述通过交替迭代的方式对图像预处理网络和码率估计网络进行参数调整,直到满足预设训练条件,得到训练完成的图像预处理网络和训练完成的码率估计网络包括:
利用预定义的图像均方误差距离损失函数、预定义的码率距离损失函数以及训练数据图像集对图像预处理网络和码率估计网络分布进行多轮次预训练,得到预训练后的码率估计网络;
利用预训练后的图像预处理网络对每张原始图像进行预处理,得到每张原始图像的初始预处理图像,并固定预训练后的码率估计网络的参数,通过可微分的JPEG模拟器处理每张初始预处理图像,得到每张原始图像的码率和失真;
基于每张原始图像的拉格朗日系数、码率和失真,利用预定义的率失真损失函数得到率失真损失值,并通过最小化率失真损失值对训练后的图像预处理网络进行参数调整,得到参数调整后的图像预处理网络;
固定参数调整后的图像预处理网络的参数,并利用参数调整后的图像预处理网络对每张原始图像进行二次预处理,得到每张原始图像的二次预处理图像;
利用预训练后的码率估计网络处理二次预处理后的图像,得到每张原始图像的码率估计值,并利用预定义的码率距离损失函数处理每张原始图像的码率估计值和实际真值,得到码率距离损失值;
利用码率损失值对预训练后的码率估计网络进行参数调整,得到参数调整后的码率估计网络;
迭代进行图像预处理网络和码率估计网络参数调整操作,直到满足预设训练条件,得到训练完成的码率估计网络。
根据本发明的实施例,上述利用可微分JPEG模拟器对每张原始图像的预处理结果进行重建,得到每张原始图像的重建图像,并计算每张重建图像与所对应的原始图像之间的失真包括:
利用可微分的JPEG模拟器将每张原始图像的特定通道维度与预定义的离散余弦函数进行运算以实现DCT变换,得到每张原始图像的量化DCT系数;
基于计算需求,利用自适应DCT域掩膜算法将每张原始图像的量化DCT系数进行掩膜处理,得到掩膜处理后的量化DCT系数;
将掩膜处理后的量化DCT系数进行逆DCT变换后,得到每张原始图像的重建图像,并利用可微分的JPEG模拟器计算重建图像与所对应的原始图像之间的失真。
根据本发明的实施例,上述基于计算需求,利用自适应DCT域掩膜算法将每张原始图像的量化DCT系数进行掩膜处理,得到掩膜处理后的量化DCT系数包括:
在计算每张原始图像的码率的情况下,将量化DCT系数转换为二进制掩膜,并对二进制掩膜进行之字形扫描,将二进制掩膜中最后一个非零元素之前的所有零元素替换为1,得到替换后的二进制掩膜,将替换后的二进制掩膜与所对应的量化DCT系数进行自适应逐元素相乘操作,得到掩膜处理后的量化DCT系数。
根据本发明的实施例,上述基于计算需求,利用自适应DCT域掩膜算法将每张原始图像的量化DCT系数进行掩膜处理,得到掩膜处理后的量化DCT系数还包括:
在计算每张重建图像与所对应的原始图像之间的失真的情况下,将量化DCT系数转换为二进制掩膜,将二进制掩膜与所对应的量化DCT系数进行自适应逐元素相乘操作,得到掩膜处理后的量化DCT系数。
根据本发明的第二个方面,提供了一种图像预处理方法,包括:
根据用户的质量需求,利用训练完成的图像预处理网络对待处理的原始图像进行预处理,得到待处理的原始图像的预处理图像,其中,训练完成的图像预处理网络根据图像预处理网络的训练方法训练得到。
根据本发明的第二个方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行图像预处理网络的训练方法和图像预处理方法。
根据本发明的第二个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行图像预处理网络的训练方法和图像预处理方法。
本发明提供的上述图像预处理网络的训练方法,通过真实的率失真损失函数来优化预处理网络,旨在通过训练网络来使其更好地预处理图像,以便在后续的JPEG压缩中获得更好的性能;同时,本发明提供的上述图像预处理网络的训练方法采用了交替训练策略,通过迭代优化图像预处理网络和码率估计网络,来解决在训练过程中码率估计网络可能面临的数据偏移问题,从而有助于保持图像预处理网络和码率估计网络的性能,并确保通过本发明提供的图像预处理网络的训练方法所训练得到的图像预处理网络在实际的JPEG压缩编码过程中能够提高编码效率和质量并有效地降低JPEG压缩过程中所产生的伪影。
附图说明
图1(a)是根据本发明实施例的常用JPEG压缩算法的编码器结构图;
图1(b)是根据本发明实施例的常用JPEG压缩算法的解码器结构图;
图2是根据本发明实施例的用于增强压缩的图像数据预处理方法的流程图;
图3是根据本发明实施例的像素预处理和编码方法的流程图;
图4是根据本发明实施例的图像预处理网络的训练方法的流程图;
图5是根据本发明实施例的基于率失真优化参数的预处理网络的训练框架图;
图6(a)是根据本发明实施例的码率估计网络的数据处理流程图;
图6(b)是根据本发明实施例的DCT系数融合器的结构示意图;
图6(c)是根据本发明实施例的高斯参数估计器的结构示意图;
图7是根据本发明实施例的自适应的DCT域的掩膜算法的架构图;
图8示意性示出了根据本发明实施例的适于实现图像预处理网络的训练方法和图像预处理方法的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明对相关图像数据的处理获得了相关当事方的授权,并对图像数据的处理、应用以及存储采取了符合法律法规规定的保密措施。
图1(a)是根据本发明实施例的常用JPEG压缩算法的编码器结构图,图1(b)是根据本发明实施例的常用JPEG压缩算法的解码器结构图。下面结合图1(a)和图1(b)对常用JPEG压缩算法的原理进行说明。
如图1(a)和图1(b)所示,常用JPEG压缩算法通常包括图像色彩空间转换和采样、DCT(Discrete Cosine Transform,离散余弦变换)变换、量化以及熵编码等操作。
其中,图像色彩空间转换和采样操作是常用JPEG图像处理的关键操作之一。在图像色彩空间转换和采样过程中,原始图像首先被划分为8×8像素块,这种按照从左到右和从上到下的光栅扫描顺序排列的方式有助于简化数据的处理。每个8×8像素块都将单独进行后续处理,包括变换、量化和熵编码等。
JPEG压缩的第一步是将原始RGB(红绿蓝)色彩空间的图像转换为YCbCr(亮度、色差蓝、色差红)色彩空间。这个转换是为了分离图像的亮度信息和色度信息。亮度(Y)表示图像的明亮度,而色度(Cb和Cr)包含了关于颜色的信息。将亮度与色度分开可以更好地满足人眼对亮度更敏感、对色度不太敏感的特性。这个色彩空间转换是通过线性变换来完成的,具体计算过程如公式(1)~(3)所示:
(1),
(2),
(3)。
在YCbCr色彩空间中,通常对色度信息(Cb和Cr通道)进行采样。这是因为人眼对亮度变化更敏感,而对颜色细节的变化相对不太敏感。采样的目的是降低色度信息的分辨率,减小数据量。常见的采样方案包括4:4:4、4:2:2和4:2:0,其中数字表示每个通道的采样率。例如,4:4:4表示所有通道均以完整分辨率采样,而4:2:0表示色度通道以较低的分辨率采样。通过这种采样,图像数据的量可以显著减小,但在实际应用中,通常会在一定程度上牺牲一些颜色细节。
其中,DCT变换在常用JPEG图像压缩中同样扮演者重要角色;DCT的一个重要目标是去除图像中的空间冗余,以减小数据量。这是通过将图像分成8×8像素块来实现的,每个块都经历DCT变换,将像素块从空域转换为频域。这一过程有助于发现图像中存在的冗余信息,从而减小存储和传输所需的数据量。对于一个8x8像素块,其DCT变换可以用公式(4)来表示:
(4),
其中,和/>是DCT系数的索引,/>和/>是变换系数,用于调整DCT系数的幅度,以确保在逆变换时能够正确还原图像。
这个DCT变换公式实际上将每个像素的亮度值(或色度值)与一组余弦函数的乘积相加,以生成DCT系数。这些系数表示图像中不同频率成分的强度,通常按照频率从低到高的顺序排列。因此,低频DCT系数包含了图像中的主要结构和能量,而高频DCT系数包含了图像中的细节和噪声。DCT将图像信息的大部分能量集中在少数低频DCT系数上,这些系数通常在频域表示中具有更高的振幅。这意味着只需编码和传输这些关键的DCT系数,而不会严重损害图像的视觉质量。这种能量集中的效果是JPEG压缩的核心原理之一,通过此方法,压缩后的图像在满足大多数应用需求的同时,保持了相对较小的文件大小。
需要明确的是,DCT变换本身并不能直接实现图像压缩,而是为后续的压缩提供了有力基础。DCT是一种空间变换,它将图像的空域信息转换为频域信息,从而使图像的能量分布更集中。这一特性使得后续压缩步骤能够更有效地识别和编码图像中的信息。
其中,量化操作是一种损失性压缩技术,其基本原理是通过对DCT系数进行量化,将它们映射到离散的整数值,以减小数据量。JPEG的"损失"特性主要源于量化过程。通过量化,JPEG能够剔除图像中的不必要信息,从而实现图像的压缩。这一过程的关键在于选择适当的量化因子,它们用来将DCT系数映射到整数值。较高的量化因子将导致更大的信息丢失,因为DCT系数的值必须取整。因此,图像质量与量化位数的选择紧密相关,允许在图像质量和压缩率之间取得权衡。
量化操作在JPEG中的色度和亮度通道之间也有所不同,具体表现在色度量化表和亮度量化表的不同。这些量化表规定了各个变换系数的量化间隔。对于低频分量,量化间隔较小,因此量化误差较小,而对于高频分量,量化间隔较大。高频分量主要影响图像的细节,而低频分量更关键,因为它们携带了图像的主要信息。这种差异化的处理有助于减小压缩后图像的失真。
量化处理是导致JPEG编码中信息失真的主要因素之一。在JPEG解码过程中,需要进行逆量化,这意味着使用与编码时相同的量化表来还原DCT系数,但仍会存在一定程度的信息丢失。因此,在JPEG中,图像质量与压缩率之间存在权衡。通过精心选择量化因子和控制量化位数,可以实现在压缩后的图像中保留足够的视觉质量,以满足特定应用的需求。
其中,熵编码在常用JPEG图像压缩算法中主要应用于量化后的DCT(离散余弦变换)系数,因为这些系数是图像的频域表示,其出现频率通常遵循指数分布。绝大多数DCT系数接近零,而只有极少数系数具有显著的幅度。采用传统的固定长度编码将浪费大量位数,而熵编码则允许根据实际情况为频率较高的系数分配较短的编码字,从而减小数据表示长度。在JPEG中,量化后的DCT系数首先被重新排列为一维序列,然后送入霍夫曼编码器。编码器使用预先生成的霍夫曼表,该表基于每个DCT系数的出现频率。频率较高的系数将获得较短的霍夫曼编码,而频率较低的系数将分配较长的编码。这种自适应编码方法可以显著减小数据的表示长度,实现更高的压缩比。
与传统的固定长度编码相比,熵编码具有明显的优点,因为它能够适应不同数据的统计特性。这使得熵编码在处理非均匀分布的数据时效果更为显著。在JPEG中,由于图像的DCT系数通常具有指数分布的特点,熵编码特别适合用于压缩这些系数。
总结而言,JPEG标准中的熵编码是实现高效图像压缩的关键环节。通过自适应的霍夫曼编码方法,它将DCT系数表示为较短的编码字,从而减小了数据的大小。这一步骤有助于降低存储和传输成本,同时尽可能保持图像质量。熵编码在JPEG中的应用是一项精妙而有效的技术,使JPEG成为数字图像处理中最常用的压缩标准之一。
近年来,深度学习的快速发展已经对图像处理和压缩领域带来了革命性变革。其中,卷积神经网络(CNN)等深度学习算法在图像处理和压缩中的深度前处理方面发挥着至关重要的作用。深度前处理旨在通过深度学习技术提前准备图像数据,以便更好地应用压缩编码,从而提高压缩效率和维持图像质量。深度学习的崛起是深度前处理工作的基础。深度学习方法,特别是CNN,通过多层神经网络结构能够自动学习图像的特征,包括局部和全局特征。这种能力使得深度学习成为深度前处理的有力工具,能够更好地理解和处理图像数据。
深度前处理的任务是在图像压缩之前对图像进行一系列深度学习处理。这包括降低噪声、去除不必要的细节、以及增强对人眼敏感的图像特征。其主要目标是生成更适合进行压缩编码的图像表示,以提高压缩性能。深度前处理与深度学习密切相关,它可以利用深度学习模型,如VGG、ResNet等,对图像进行特征提取,生成更富信息量的表示。这些表示可以包含高级语义信息,有助于压缩编码器更好地理解图像内容。与传统手工制定的前处理方法相比,深度前处理具有显著的优势。它可以根据数据自动学习特征,适应不同的图像类型和内容,具有更大的通用性。此外,深度前处理还能改善图像质量,减少压缩失真,提高视觉感知质量。
图2是根据本发明实施例的用于增强压缩的图像数据预处理方法的流程图。
如图2所示,用于增强压缩的图像数据预处理方法,首先,它接收数字图像数据,其中每个像素由多个色彩通道组成,通常以色彩通道的交错序列呈现;然后,通过分析图像数据,该方法确定是否将数字图像分成平面数据源,其中每个数据源包括用于独立像数据的元或者另一可识别序列。接下来,方法通过对图像数据的模式和统计信息进行分析,旨在容易地标识数据中的模式和统计信息;最后,根据之前的分析结果,该方法更有效率地压缩数字图像,包括将数据发送到压缩模块,以便进行数据压缩。这一系列步骤旨在提前处理图像数据,以便在压缩编码过程中实现更好的压缩效率和维持图像质量。
然而,用于增强压缩的图像数据预处理方法主要关注于普通模式的图像数据预处理。这可能导致对于不同类型的图像,尤其是在色彩通道交错的情况下,效果可能不佳。这可能会在一些特殊场景中引入问题,例如针对彩色图像或特定颜色通道的图像。此外,该方法似乎依赖于模式和统计数据的分析,以便容易地标识和压缩数据块。这意味着对于某些类型的图像,特别是在数据中缺乏明显模式的情况下,该方法可能不够有效。模式和统计数据的分析也可能需要大量计算资源和时间。
图3是根据本发明实施例的像素预处理和编码方法的流程图。
自色度分量子采样和非恒定亮度排序会对视频数据产生严重的伪影,特别是对于饱和颜色。根据实施例的像素的预处理可用于对抗或至少减少伪影的影响,从而产生更接近像素的传入“真实”颜色的颜色。具体说来,如图3所示,像素预处理包括对第一颜色空间中的线性颜色进行二次采样以获得第一颜色空间中的二次采样的线性颜色。将第一传递函数应用于第一颜色空间中的二次采样线性颜色以获得第一颜色空间中的二次采样非线性颜色。将第一颜色变换应用于第一颜色空间中的二次采样的非线性颜色以获得第二颜色空间中的二次采样的第一非线性色度分量值和/或二次采样的第二非线性色度分量值。 针对该像素导出第二颜色空间中的非线性亮度分量值,该非线性亮度分量值与二次采样的非线性色度分量值一起表示该像素的颜色。预处理减少了色度伪影,否则当在应用第一传递函数和第一颜色变换之后执行色度子采样时可能会出现色度伪影。
然而,像素预处理和编码方法虽然提到了对抗或减少伪影对于高饱和颜色图像影响,但是否适用于不同类型的伪影情况可能需要更多的研究。相比之下,深度学习方法可以通过大规模数据训练来获得更好的鲁棒性。此外,该方法描述中包含了多个处理步骤,包括二次采样、颜色空间变换等,这增加了整个处理过程的复杂性。相比之下,基于深度学习的方法通常更简洁、通用,可以直接通过端到端的方式学习得到,且不需要手动设计和调整多个处理步骤。
为了减少JPEG图像压缩算法在图像压缩后出现的伪影,本发明提出了在应用JPEG图像压缩算法之前对待处理图像金预处理以保证与JPEG标准的兼容性;此外,本发明同时还引入了真正的率失真优化深度预处理方法,并可以使用端到端学习来优化预处理网络。
图4是根据本发明实施例的图像预处理网络的训练方法的流程图。
如图4所示,上述图像预处理网络的训练方法包括操作S410~操作S440。
在操作S410,利用不同的JPEG量化因子,对训练数据图像集中的每张原始图像执行JPEG压缩操作,其中,JPEG压缩操作用于计算训练数据图像集中每张图像的相互独立的拉格朗日系数。
给定一组训练数据图像集,数据集准备阶段包括对这些训练数据图像进行JPEG压缩的步骤,以计算每张图像的独立的拉格朗日系数。
对于不同的训练数据图像,使用不同的JPEG量化因子,例如可以是8、10、12、15、17、20、22、25和28,通过执行JPEG压缩,能够产生一系列不同的码率和失真点。
在操作S420,利用图像预处理网络对训练数据图像集中的每张原始图像进行预处理,得到每张原始图像的预处理图像,并利用可微分的JPEG模拟器的码率估计网络计算每张预处理图像的码率。
在操作S430,利用可微分JPEG模拟器对每张原始图像的预处理结果进行重建,得到每张原始图像的重建图像,并计算每张重建图像与所对应的原始图像之间的失真。
上述可微分的JPEG模拟器,相对于传统的标准JPEG编码器,采用了码率估计网络来估算编码的码率。
上述图像预处理网络和码率估计网络基于具有不同参数的深度神经网络(DNN)进行构建。
在操作S440,利用预定义的率失真损失函数处理每张原始图像的拉格朗日系数、每张预处理图像的码率以及失真,得到率失真损失值,并通过最小化率失真损失值对图像预处理网络进行参数调整, 直到满足预设训练条件,得到训练完成的图像预处理网络。
上述预处理网络的设计应该旨在使图像在经过 JPEG 编码和解码后,得到的失真最小化,同时保持相对较低的编码码率。
上述图像预处理网络的训练方法还包括操作S450~操作S460。
在操作S450,利用训练数据图像集、预定义的码率距离损失函数以及参数调整后的图像预处理网络的输出对码率估计网络进行参数调整,得到参数调整后的码率估计网络。
在操作S460,通过交替迭代的方式对图像预处理网络和码率估计网络进行参数调整,直到满足预设训练条件,得到训练完成的码率估计网络。
通过反复迭代和参数调整,可以逐渐减小损失函数,从而提高图像的编码效率和质量。这个过程是在训练阶段完成的,以确保预处理网络在实际应用中表现出更佳的性能。
本发明提供的上述图像预处理网络的训练方法,通过真实的率失真损失函数来优化预处理网络,旨在通过训练网络来使其更好地预处理图像,以便在后续的JPEG压缩中获得更好的性能;同时,本发明提供的上述图像预处理网络的训练方法采用了交替训练策略,通过迭代优化图像预处理网络和码率估计网络,来解决在训练过程中码率估计网络可能面临的数据偏移问题,从而有助于保持图像预处理网络和码率估计网络的性能,并确保通过本发明提供的图像预处理网络的训练方法所训练得到的图像预处理网络在实际的JPEG压缩编码过程中能够提高编码效率和质量并有效地降低JPEG压缩过程中所产生的伪影。
根据本发明的第二个方面,提供了一种图像预处理方法,包括:
根据用户的质量需求,利用训练完成的图像预处理网络对待处理的原始图像进行预处理,得到待处理的原始图像的预处理图像,其中,训练完成的图像预处理网络根据图像预处理网络的训练方法训练得到。
一旦训练完成并获得经过训练的预处理网络,用户在测试阶段可依据其质量需求自行选取适当的预处理网络。
下面通过具体实施例并结合附图5对本发明提供的上述图像预处理网络的训练过程和图像预处理过程做进一步详细地说明。
图5是根据本发明实施例的基于率失真优化参数的预处理网络的训练框架图。
如图5所示,在本发明提供的上述预处理网络(即上文的图像预处理网络,下同)的训练框架图中,包括预处理网络对原始图像的预处理过程,具有码率估计网络的可微分的JPEG模拟对预处理图像的DCT变换操作、基于掩膜的量化DCT操作、码率估计网络处理操作以及逆DCT变换操作,最终得到原始图像的重建图像。
在上述图像预处理网络的训练过程和图像预处理过程中包括以下多个操作。
在JPEG编码器之前对图像执行预处理操作,以获得相应的预处理图像;首先,获取训练集中每张图像的值,形成集合/>:在给定一组训练数据图像/>的情况下,数据集准备阶段包括对这些训练数据图像进行JPEG压缩的步骤,以计算每张图像的独立的拉格朗日系数/>集合。具体而言,对于每个训练图像/>,使用不同的JPEG量化因子(QF)值,包括8、10、12、15、17、20、22、25和28,执行JPEG压缩,产生一系列不同的码率和失真点。这些数据点之间的关系被建模为一个双曲函数,用以描述码率-失真(R-D)关系,如公式(5)所示:
(5),
其中,和/>是与训练块特性相关的模型参数。/>对应于R-D曲线的斜率,可以用公式(6)表示:
(6)。
利用公式(6),能够在不同JPEG量化因子点(例如10、15、20和25)下,获取训练块的相应值。在预处理模型的训练过程中,采用自适应/>值,根据图像内容和质量要求进行动态调整。获取/>值的过程可在数据集构建阶段执行。另外,为确保高质量的训练数据,仅保留通过函数拟合过程中决定系数(R²)大于0.99的图像块,以将其纳入数据集。
其次,利用神经网络计算每张图像的失真度D和码率R,生成集合和/>:在端到端的训练阶段,构建了一个可微分的JPEG模拟器,相对于传统的标准JPEG编码器,采用了码率估计网络来估算编码的码率,并将作用于DCT系数的量化操作替代为可微分的量化操作,以获得每张图像/>的编码码率/>,从而确保了梯度的传播。
原始图像通过预处理网络进行初步处理,生成经过预处理的图像/>。一般而言,预处理网络用于优化原始图像的内容,使其更加平滑,以便JPEG编码器更有效地对预处理后的图像进行压缩。在预处理模块的处理后,预处理后的图像/>经过可微分的JPEG模拟器,用于计算估算的速率和失真。经过量化的DCT系数经过逆DCT变换和其他逆操作,以得到重建图像/>。最后,计算重建图像/>与原始图像/>之间的失真/>
再次,计算预定义的率损失函数,并通过优化预处理网络来最小化该损失:利用所得到的每张图像/>的编码码率/>,失真/>,和拉格朗日系数/>后,执行损失函数的计算。上述预定义的率失真损失函数表达式如公式(7)所示:
(7)。
这里的求和操作表示对数据集中每一张图像的率失真损失相加,以得到整个数据集的损失值。最终的目标是通过对预处理网络进行优化,以最小化这个损失函数。这意味着预处理网络的设计应该旨在使图像在经过 JPEG 编码和解码后,得到的失真最小化,同时保持相对较低的编码码率。通过反复迭代和参数调整,可以逐渐减小损失函数,从而提高图像的编码效率和质量。这个过程是在训练阶段完成的,以确保预处理网络在实际应用中表现出更佳的性能。
最后,通过经过训练的预处理网络对原始图像进行处理,获得最终的预处理图像:一旦训练完成并获得经过训练的预处理网络,用户在测试阶段可依据其质量需求自行选取适当的预处理网络。通过将原始图像输入到所选的预处理网络中,便可生成最终的预处理图像。这一预处理图像可用于在实际的 JPEG 编码过程中实现更卓越的编码性能。
根据本发明的实施例,上述利用训练数据图像集、预定义的码率距离损失函数以及参数调整后的图像预处理网络的输出对码率估计网络进行参数调整,得到参数调整后的码率估计网络包括:利用参数调整后的预处理网络处理训练数据图像集中的原始图像,得到预处理后的图像;通过码率估计网络的DCT系数重排器对预处理后的图像的亮度通道维度、色差蓝通道维度和色差红通道维度进行之字形扫描以实现DCT系数重排,得到系数重排后的图像;基于每张原始图像在不同通道维度上的分量信息,通过码率估计网络的DCT系数融合器对每张系数重排后的图像的不同通道维度进行DCT系数融合,得到系数融合后的图像;基于DCT系数符合高斯分布的假设,通过码率估计网络的高斯参数估计器对每张系数融合后的图像进行高斯参数估计,得到每张原始图像的高斯分布参数和DCT系数估计值;通过码率估计网络的高斯条件模块处理每张预处理图像的高斯分布参数和DCT系数估计值,得到每张预处理图像的编码码率估计值;利用预定义的码率距离损失函数处理每张原始图像的编码码率估计值和码率真值,得到码率距离损失值,并根据码率距离损失值对码率估计网络进行参数调整,得到参数调整后的码率估计网络。
下面通过具体实施例并结合附图6(a)~(c)对本发明提供的上述码率估计网络的参数调整过程做进一步详细地说明。
图6(a)是根据本发明实施例的码率估计网络的数据处理流程图。
图6(b)是根据本发明实施例的DCT系数融合器的结构示意图。
图6(c)是根据本发明实施例的高斯参数估计器的结构示意图。
如图5所示,上述可微分的JPEG模拟器包括码率估计网络、DCT变换模块、逆DCT变换模块和自适应量化DCT域掩膜模块。本发明利用专门设计的码率估计网络研究JPEG压缩过程中DCT系数的特性,以精确估算经过预处理后的图像的编码码率。该码率估计网络是在监督学习的范式下进行训练的,其训练数据以真实的JPEG压缩编码码率作为标签。本发明改进了对码率估计网络的训练过程, 通过在每轮次训练过程中,固定图像预处理网络的参数,提高对编码码率的精准估计,并进一步优化了整个训练过程的性能。
如图6(a)所示,呈现了码率估计网络的架构概述,其中,量化的特征值,/>表示量化的特征值的均值,/>表示量化的特征值的方差,Rate Dist.表示码率距离。首先,对DCT系数进行一系列操作,包括DCT系数的重新排列以及从YCbCr三个通道中融合DCT系数,这些操作旨在使卷积神经网络能够充分利用DCT系数的特征。随后的高斯参数估计器模块,其目的在于在JPEG压缩环境下对经过预处理的DCT系数的编码码率进行准确估算。码率估计网络采用有监督的方式进行训练,其中输入预处理图像在JPEG压缩期间的实际码率被用作真值,以监督码率估计网络的训练。
如图6(b)所示,上述DCT系数融合器包括多个卷积层、多个PReLU以及多个合并层;如图6(c)所示,上述,高斯参数估计器包括多个残差块,每个残差块包括多个卷积层、多个LeakyReLU和求和层。
关于DCT系数操作,DCT系数以网格结构组织,类似于输入图像,但其空间解释性与像素存在显著差异。像素代表在两个维度中连续采样得到的数据,而DCT系数则代表了从二维排列的正交函数中采样得到的数值。这种差异在卷积神经网络的工作中带来了挑战,因为CNNs试图学习不相关部分之间的关联,这也会对其在图像处理任务中的性能产生影响。为了解决这个问题,DCT系数经过重新排列。具体而言,采用了之字形扫描的方法,对DCT系数进行重新排列,将来自各个块中相同频率的系数聚合在一起,以构建空间维度,而不同频率的系数则构成了通道维度。鉴于YCbCr分量的不同重要性,以及人类视觉对亮度分量Y更为敏感,采用了DCT系数融合模块。融合过程如图6(b)所示,使得亮度通道信息能够被有效地利用,从而提高了图像处理性能。
关于高斯参数估计器,基于DCT系数符合高斯分布的假设,其中DCT系数的每个元素均受独立高斯分布的模型化,其具有各自的均值/>和方差/>。为了估算每个位置的/>的高斯概率分布参数,采用了一个由四个残差块构成的高斯参数估算器,如图6(c)所示。最终,借助高斯条件模块将估算得到的高斯分布参数与DCT系数/>整合,以便得到估算的编码码率。
关于码率距离损失值,该码率估计网络与端到端图像编码中的熵模型之间的主要区别在于,码率估计网络的任务焦点独立于编码情景,专注于码率估计,以确保整个框架的端到端训练。为了保证码率估计网络的准确性,引入了JPEG实际码率作为参照标准,用于监督码率估计网络的训练。码率距离损失函数基于JPEG实际码率与码率估计网络输出的估算码率之间的均方误差距离(MSE)构建,如公式(8)所示:
(8),
其中,bpp1和bpp2分别表示码率估计网络输出的估算码率和JPEG实际码率。
根据本发明的实施例,上述通过交替迭代的方式对图像预处理网络和码率估计网络进行参数调整,直到满足预设训练条件,得到训练完成的图像预处理网络和训练完成的码率估计网络包括:利用预定义的图像均方误差距离损失函数、预定义的码率距离损失函数以及训练数据图像集对图像预处理网络和码率估计网络分布进行多轮次预训练,得到预训练后的图像预处理网络和预训练后的码率估计网络;利用预训练后的图像预处理网络对每张原始图像进行预处理,得到每张原始图像的初始预处理图像,并固定预训练后的码率估计网络的参数,通过可微分的JPEG模拟器处理每张初始预处理图像,得到每张原始图像的码率和失真;基于每张原始图像的拉格朗日系数、码率和失真,利用预定义的率失真损失函数得到率失真损失值,并通过最小化率失真损失值对训练后的图像预处理网络进行参数调整,得到参数调整后的图像预处理网络;固定参数调整后的图像预处理网络的参数,并利用参数调整后的图像预处理网络对每张原始图像进行二次预处理,得到每张原始图像的二次预处理图像;利用预训练后的码率估计网络处理二次预处理后的图像,得到每张原始图像的码率估计值,并利用预定义的码率距离损失函数处理每张原始图像的码率估计值和实际真值,得到码率距离损失值;利用码率损失值对预训练后的码率估计网络进行参数调整,得到参数调整后的码率估计网络;迭代进行图像预处理网络和码率估计网络参数调整操作,直到满足预设训练条件,得到训练完成的图像预处理网络和训练完成的码率估计网络。
下面结合具体实施例,对上述图像预处理网络和码率估计网络的联合交替训练过程做进一步详细地说明。
在整个端到端训练过程中,旨在确保训练的稳定性并加速收敛。为了实现这一目标,首先对预处理网络和码率估计网络进行预训练。在预训练预处理网络时,其优化目标是最小化原始图像与经过预处理的图像之间的距离。在这种情况下,无需进行级联优化,涉及可微的JPEG模拟器。此时,预处理网络的图像均方误差距离损失函数如公式(9)所示:
(9),
其中,dist代表均方误差距离。
随后,在码率估计网络的预训练期间,其优化目标是最小化公式(7)所示的目标函数。在此情况下,通过可微分JPEG模拟器的图像为未经预处理的原始图像。
获得这两个经过预训练的网络后,进一步进行整个网络框架的端到端训练。由于图像预处理网络的参数在训练过程中发生变化,导致生成的经过预处理的图像对于随后的可微分JPEG模拟器来说变得陌生,出现了数据集偏移不匹配的问题,从而降低了模拟器准确估算JPEG码率的能力。为解决这一挑战,引入了一种交替优化策略,涉及迭代地训练图像预处理网络和码率估计网络。该策略赋予码率估计网络精确估算由图像预处理网络生成的动态演化的预处理图像的码率的能力,同时确保对预处理网络本身进行有效的优化。
上述图像预处理网络和码率估计网络的联合交替训练过程可有下述的算法1进行概述。
算法1概述了端到端交替训练方法。从本质上讲,该过程迭代地优化和更新图像预处理网络和码率估计网络/>的可学习参数,同时在整个训练过程中保持另一个网络不变。/>
算法1:交替训练算法
输入:训练图像集, 对应的拉格朗日集/>,训练周期/>
输出:和/>
1.for
2. for
3.//更新图像预处理网络
4.由生成预处理图像 />
5.将输入到可微分的JPEG模拟器;
6.使用公式(7)计算RD损失;
7.更新中的可学习参数;
8.// 更新码率估计网络
9.使用公式(8)计算码率距离;
10.更新中的可学习参数;
11.end for ;
12.end for 。
根据本发明的实施例,上述利用可微分JPEG模拟器对每张原始图像的预处理结果进行重建,得到每张原始图像的重建图像,并计算每张重建图像与所对应的原始图像之间的失真包括:利用可微分的JPEG模拟器将每张原始图像的特定通道维度与预定义的离散余弦函数进行运算以实现DCT变换,得到每张原始图像的量化DCT系数;基于计算需求,利用自适应DCT域掩膜算法将每张原始图像的量化DCT系数进行掩膜处理,得到掩膜处理后的量化DCT系数;将掩膜处理后的量化DCT系数进行逆DCT变换后,得到每张原始图像的重建图像,并利用可微分的JPEG模拟器计算重建图像与所对应的原始图像之间的失真。
根据本发明的实施例,上述基于计算需求,利用自适应DCT域掩膜算法将每张原始图像的量化DCT系数进行掩膜处理,得到掩膜处理后的量化DCT系数包括:在计算每张原始图像的码率的情况下,将量化DCT系数转换为二进制掩膜,并对二进制掩膜进行之字形扫描,将二进制掩膜中最后一个非零元素之前的所有零元素替换为1,得到替换后的二进制掩膜,将替换后的二进制掩膜与所对应的量化DCT系数进行自适应逐元素相乘操作,得到掩膜处理后的量化DCT系数。
下面通过具体实施例并结合附图7对本发明提供的上述自适应的DCT域的掩膜算法做进一步详细地说明。
图7是根据本发明实施例的自适应的DCT域的掩膜算法的架构图。
其中,图7中的(a)表示实际量化后的DCT系数示意图,图7中的(b)表示可微量化后的DCT系数示意图,图7中的(c)表示二进制掩膜示意图,图7中的(d)表示内容自适应掩膜示意图,图7中的(e)表示基于掩膜量化的DCT系数示意图。
本发明提供的自适应的DCT域的掩膜算法,可以实现更加精准的失真的计算或码率。上述自适应的DCT域的掩膜算法主要应用在码率或失真的计算过程中。
在图7中,展示了内容自适应DCT掩膜的具体架构。第1步将实际量化DCT系数转换为二进制值(零或非零)。第2步对二进制掩膜进行之字形扫描,将最后一个非零元素之前的所有零替换为1。第3步执行可微分量化得到的DCT系数与内容自适应掩膜图像之间的逐元素相乘。在图7中的(a)、图7中的(b)和图7中的(e)中,较深的颜色表示较大的数值,而在图7中的(c)和图7中的(d)中,较深的区域表示值为1,而较浅的区域表示值为0。根据本发明的实施例,上述基于计算需求,利用自适应DCT域掩膜算法将每张原始图像的量化DCT系数进行掩膜处理,得到掩膜处理后的量化DCT系数还包括:在计算每张重建图像与所对应的原始图像之间的失真的情况下,将量化DCT系数转换为二进制掩膜,将二进制掩膜与所对应的量化DCT系数进行自适应逐元素相乘操作,得到掩膜处理后的量化DCT系数。
的DCT子块为例,图7中的(b)中所示的DCT系数经由可微分量化处理得到,然后与图7中的(d)中的与DCT系数内容相关的掩膜相乘。这个掩膜是基于通过四舍五入运算得到的DCT系数生成的。在与掩蔽进行逐元素相乘后,经过可微分量化处理的区域中噪声较小(即在直接量化后对应为0的区域)将被重置为0,这降低了与实际JPEG失真的偏差,同时确保了准确的梯度传播。
在进行不同的可微分失真度量的优化时,该掩膜算法必须用于获取失真的DCT系数,但是否需要用于获取码率的DCT系数可根据所选择的实际失真度量进行决定。
根据本发明的实施例,上述基于计算需求,利用自适应DCT域掩膜算法将每张原始图像的量化DCT系数进行掩膜处理,得到掩膜处理后的量化DCT系数还包括:在计算每张重建图像与所对应的原始图像之间的失真的情况下,将量化DCT系数转换为二进制掩膜,将二进制掩膜与所对应的量化DCT系数进行自适应逐元素相乘操作,得到掩膜处理后的量化DCT系数。
在JPEG熵编码中,会一直扫描系数直到找到最后一个非零元素。然而,在将掩膜应用于获取失真的DCT系数时,与码率估计无关,因此,在自适应DCT域掩膜算法可以省略二进制掩膜进行之字形扫描操作和元素替换操作。
为了表明本发明提供的上述图像预处理网络的训练方法以及图像预处理方法的优点,下面结合具体的实验对本发明提供的上述方法进行验证。
本发明采用性能评估的基线均为JPEG压缩标准。测试数据集包括Kodak数据集和CLIC数据集。使用BD-rate衡量RGB颜色通道的编码增益,负值表示编码性能提升的百分比,正值表示编码性能下降的百分比。
离线训练性能和在先训练性能:表1呈现了在Kodak数据集上,采用离线训练配置和在线训练配置所获得的比特率失真(BD)结果。而表2则展示了在CLIC数据集上采用离线训练配置所获得的BD结果。离线配置涉及使用预先训练好的模型对测试图像进行预处理,而在线配置则是对每张图像的内容进行优化。这两种配置方式在评估性能时提供了不同的视角。
表1 Kodak数据集上离线配置和在线配置的BD结果
表2 CLIC数据集上离线配置的BD结果
自适应DCT域掩膜算法的性能:表3展示了在MS-SSIM性能优化的预处理模型框架内,针对自适应DCT域系数掩膜算法的不同配置与JPEG基线之间的BD性能比较结果。这些比较实验是离线进行的,以进一步探究所提出的内容自适应DCT系数掩膜算法对压缩性能的影响。这些实验包括四种独特的掩膜配置,分别是无掩膜、仅将掩膜应用于获取编码码率的DCT系数(掩膜 R)、仅将掩膜应用于获取失真的DCT系数(掩膜D),以及全使用掩膜,包括获取编码码率和失真的DCT系数(掩膜 D&R)。
表3 不同掩膜配置的BD结果
之字形扫描未位1填充的性能:表4提供了实施例五使用Kodak数据集的测试结果,表5提供了实施例五使用CLIC数据集的测试结果。
表4 Kodak数据集上之字扫描的BD结果
表5 CLIC数据集上之字扫描的BD结果
本发明提供的上述图像预处理网络的训练方法,通过真实的率失真损失来优化预处理网络。这一方法旨在通过训练网络来使其更好地预处理图像,以便在后续的JPEG压缩中获得更好的性能。上述图像预处理网络的训练方法结合了DCT系数的属性,采用JPEG真实压缩码率作为标签,有监督地训练了码率估计网络。这个方法旨在通过对网络进行有针对性的训练,使其能够更准确地估算JPEG压缩的码率,从而提高整个系统的性能。上述图像预处理网络的训练方法采用了交替训练策略,通过迭代优化预处理网络和码率估计网络,来解决在训练过程中码率估计网络可能面临的数据偏移问题。这一策略有助于保持网络的性能,并确保在实际应用中能够有效地工作。上述图像预处理网络的训练方法引入了自适应DCT域的掩膜算法,用于处理DCT系数,以减小量化噪声对实验损失计算的影响。这个方法旨在保证梯度回传的准确性,从而提高了整个系统的性能;同时去除了自适应DCT域的掩膜算法中多余的之字扫描和末位置填充1的操作。这一改进使得损失的计算更为准确,有助于提高系统的性能。
图8示意性示出了根据本发明实施例的适于实现图像预处理网络的训练方法和图像预处理方法的电子设备的方框图。
如图8所示,根据本发明实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器 801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
以上的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图像预处理网络的训练方法,其特征在于,包括:
利用不同的JPEG量化因子,对训练数据图像集中的每张原始图像执行JPEG压缩操作,其中,所述JPEG压缩操作用于计算所述训练数据图像集中每张图像的相互独立的拉格朗日系数;
利用图像预处理网络对所述训练数据图像集中的每张原始图像进行预处理,得到每张所述原始图像的预处理图像,并利用可微分的JPEG模拟器的码率估计网络计算每张所述预处理图像的码率,其中,所述可微分的JPEG模拟器包括码率估计网络、DCT变换模块、逆DCT变换模块和自适应量化DCT域掩膜模块;
利用所述可微分JPEG模拟器对每张所述原始图像的预处理结果进行重建,得到每张所述原始图像的重建图像,并计算每张所述重建图像与所对应的原始图像之间的失真;
利用预定义的率失真损失函数处理每张所述原始图像的拉格朗日系数、每张所述预处理图像的码率以及所述失真,得到率失真损失值,并通过最小化所述率失真损失值对所述图像预处理网络进行参数调整,直到满足预设训练条件,得到训练完成的图像预处理网络。
2.根据权利要求1所述的方法,其特征在于,还包括:
利用所述训练数据图像集、预定义的码率距离损失函数以及参数调整后的图像预处理网络的输出对所述码率估计网络进行参数调整,得到参数调整后的码率估计网络;
通过交替迭代的方式对所述图像预处理网络和所述码率估计网络进行参数调整,直到满足所述预设训练条件,得到训练完成的码率估计网络。
3.根据权利要求2所述的方法,其特征在于,利用所述训练数据图像集、预定义的码率距离损失函数以及参数调整后的图像预处理网络的输出对所述码率估计网络进行参数调整,得到参数调整后的码率估计网络包括:
利用所述参数调整后的预处理网络处理所述训练数据图像集中的原始图像,得到预处理后的图像;
通过所述码率估计网络的DCT系数重排器对所述预处理后的图像的亮度通道维度、色差蓝通道维度和色差红通道维度进行之字形扫描以实现DCT系数重排,得到系数重排后的图像;
基于每张所述原始图像在不同通道维度上的分量信息,通过所述码率估计网络的DCT系数融合器对每张所述系数重排后的图像的不同通道维度进行DCT系数融合,得到系数融合后的图像,其中,所述DCT系数融合器包括多个卷积层、多个PReLU以及多个合并层;
基于DCT系数符合高斯分布的假设,通过所述码率估计网络的高斯参数估计器对每张所述系数融合后的图像进行高斯参数估计,得到每张原始图像的高斯分布参数和DCT系数估计值,其中,所述高斯参数估计器包括多个残差块,每个所述残差块包括多个卷积层、多个LeakyReLU和求和层;
通过所述码率估计网络的高斯条件模块处理每张所述预处理图像的高斯分布参数和DCT系数估计值,得到每张所述预处理图像的编码码率估计值;
利用所述预定义的码率距离损失函数处理每张原始图像的编码码率估计值和码率真值,得到码率距离损失值,并根据所述码率距离损失值对所述码率估计网络进行参数调整,得到所述参数调整后的码率估计网络。
4.根据权利要求2所述的方法,其特征在于,通过交替迭代的方式对所述图像预处理网络和所述码率估计网络进行参数调整,直到满足预设训练条件,得到训练完成的码率估计网络包括:
利用预定义的图像均方误差距离损失函数、所述预定义的码率距离损失函数以及所述训练数据图像集对所述图像预处理网络和所述码率估计网络分布进行多轮次预训练,得到预训练后的图像预处理网络和预训练后的码率估计网络;
利用所述预训练后的图像预处理网络对每张所述原始图像进行预处理,得到每张所述原始图像的初始预处理图像,并固定所述预训练后的码率估计网络的参数,通过所述可微分的JPEG模拟器处理每张所述初始预处理图像,得到每张所述原始图像的码率和失真;
基于每张所述原始图像的拉格朗日系数、码率和失真,利用所述预定义的率失真损失函数得到所述率失真损失值,并通过最小化所述率失真损失值对训练后的图像预处理网络进行参数调整,得到所述参数调整后的图像预处理网络;
固定所述参数调整后的图像预处理网络的参数,并利用所述参数调整后的图像预处理网络对每张所述原始图像进行二次预处理,得到每张所述原始图像的二次预处理图像;
利用所述预训练后的码率估计网络处理所述二次预处理后的图像,得到每张所述原始图像的码率估计值,并利用所述预定义的码率距离损失函数处理每张所述原始图像的码率估计值和实际真值,得到码率距离损失值;
利用所述码率损失值对所述预训练后的码率估计网络进行参数调整,得到所述参数调整后的码率估计网络;
迭代进行所述图像预处理网络和所述码率估计网络参数调整操作,直到满足预设训练条件,得到所述训练完成的码率估计网络。
5.根据权利要求1所述的方法,其特征在于,利用所述可微分JPEG模拟器对每张所述原始图像的预处理结果进行重建,得到每张所述原始图像的重建图像,并计算每张所述重建图像与所对应的原始图像之间的失真包括:
利用所述可微分的JPEG模拟器将每张所述原始图像的特定通道维度与预定义的离散余弦函数进行运算以实现DCT变换,得到每张所述原始图像的量化DCT系数;
基于计算需求,利用自适应DCT域掩膜算法将每张所述原始图像的量化DCT系数进行掩膜处理,得到掩膜处理后的量化DCT系数;
将所述掩膜处理后的量化DCT系数进行逆DCT变换后,得到每张所述原始图像的重建图像,并利用所述可微分的JPEG模拟器计算所述重建图像与所对应的原始图像之间的失真。
6.根据权利要求5所述的方法,其特征在于,基于计算需求,利用自适应DCT域掩膜算法将每张所述原始图像的量化DCT系数进行掩膜处理,得到掩膜处理后的量化DCT系数包括:
在计算每张所述原始图像的码率的情况下,将所述量化DCT系数转换为二进制掩膜,并对所述二进制掩膜进行之字形扫描,将所述二进制掩膜中最后一个非零元素之前的所有零元素替换为1,得到替换后的二进制掩膜,将所述替换后的二进制掩膜与所对应的量化DCT系数进行自适应逐元素相乘操作,得到所述掩膜处理后的量化DCT系数。
7.根据权利要求6所述的方法,其特征在于,还包括:
在计算每张所述重建图像与所对应的原始图像之间的失真的情况下,将所述量化DCT系数转换为二进制掩膜,将所述二进制掩膜与所对应的量化DCT系数进行自适应逐元素相乘操作,得到所述掩膜处理后的量化DCT系数。
8.一种图像预处理方法,其特征在于,包括:
根据用户的质量需求,利用训练完成的图像预处理网络对待处理的原始图像进行预处理,得到所述待处理的原始图像的预处理图像,其中,所述训练完成的图像预处理网络根据权利要求1~7任一项所述的训练方法训练得到。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~8中任一项所述的方法。
CN202311776107.0A 2023-12-22 2023-12-22 一种图像预处理网络的训练方法和图像预处理方法 Active CN117459737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311776107.0A CN117459737B (zh) 2023-12-22 2023-12-22 一种图像预处理网络的训练方法和图像预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311776107.0A CN117459737B (zh) 2023-12-22 2023-12-22 一种图像预处理网络的训练方法和图像预处理方法

Publications (2)

Publication Number Publication Date
CN117459737A CN117459737A (zh) 2024-01-26
CN117459737B true CN117459737B (zh) 2024-03-29

Family

ID=89584074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311776107.0A Active CN117459737B (zh) 2023-12-22 2023-12-22 一种图像预处理网络的训练方法和图像预处理方法

Country Status (1)

Country Link
CN (1) CN117459737B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013000575A1 (en) * 2011-06-30 2013-01-03 Canon Kabushiki Kaisha Methods and devices for scalable video coding
WO2021262053A1 (en) * 2020-06-25 2021-12-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for image compressing and coding with deep learning
CN114037071A (zh) * 2021-09-18 2022-02-11 宁波大学 获取用于图像前处理以抵抗jpge压缩失真的神经网络的方法
CN114549673A (zh) * 2022-02-25 2022-05-27 电子科技大学 一种基于学习频域信息预处理图像的图像压缩方法
US11445222B1 (en) * 2019-09-30 2022-09-13 Isize Limited Preprocessing image data
CN116739075A (zh) * 2023-06-05 2023-09-12 桂林电子科技大学 一种用于图像处理的神经网络的无监督预训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021174404A (ja) * 2020-04-28 2021-11-01 株式会社Preferred Networks データ生成装置、訓練装置及びデータ生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013000575A1 (en) * 2011-06-30 2013-01-03 Canon Kabushiki Kaisha Methods and devices for scalable video coding
US11445222B1 (en) * 2019-09-30 2022-09-13 Isize Limited Preprocessing image data
WO2021262053A1 (en) * 2020-06-25 2021-12-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for image compressing and coding with deep learning
CN114037071A (zh) * 2021-09-18 2022-02-11 宁波大学 获取用于图像前处理以抵抗jpge压缩失真的神经网络的方法
CN114549673A (zh) * 2022-02-25 2022-05-27 电子科技大学 一种基于学习频域信息预处理图像的图像压缩方法
CN116739075A (zh) * 2023-06-05 2023-09-12 桂林电子科技大学 一种用于图像处理的神经网络的无监督预训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Better Compression With Deep Pre-Editing;Hossein Talebi 等;IEEE TRANSACTIONS ON IMAGE PROCESSING;20210715;第30卷;全文 *
基于分类冗余字典稀疏表示的图像压缩方法;王科平;杨赞亚;恩德;;计算机工程;20170915(第09期);全文 *
基于多层前馈神经网络的图像压缩的仿真研究;黄雪梅, 唐治德;计算机仿真;20050830(第08期);全文 *

Also Published As

Publication number Publication date
CN117459737A (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
Cheng et al. Deep convolutional autoencoder-based lossy image compression
CN110059796B (zh) 卷积神经网络的生成方法及装置
Zhou et al. End-to-end Optimized Image Compression with Attention Mechanism.
CN109120937B (zh) 一种视频编码方法、解码方法、装置及电子设备
WO2023274074A1 (en) Systems and methods for image filtering
CN110971901B (zh) 卷积神经网络的处理方法、装置、设备及存储介质
WO2020237646A1 (zh) 图像处理方法、设备及计算机可读存储介质
Zhou et al. DCT-based color image compression algorithm using an efficient lossless encoder
CN107645662A (zh) 一种彩色图像压缩方法
Akyazi et al. Learning-based image compression using convolutional autoencoder and wavelet decomposition
WO2020261314A1 (ja) 画像符号化方法、及び画像復号方法
Hassan et al. Color image compression based on DCT, differential pulse coding modulation, and adaptive shift coding
CN116916036A (zh) 视频压缩方法、装置及系统
Ma et al. A cross channel context model for latents in deep image compression
Leguay et al. Low-complexity overfitted neural image codec
CN117459737B (zh) 一种图像预处理网络的训练方法和图像预处理方法
Liu et al. Exploring effective mask sampling modeling for neural image compression
CN115665413A (zh) 图像压缩最优量化参数的估计方法
CN114549673A (zh) 一种基于学习频域信息预处理图像的图像压缩方法
CN114189695B (zh) 一种基于gan的hevc压缩视频视觉感知提升方法
Shen et al. Dec-adapter: Exploring efficient decoder-side adapter for bridging screen content and natural image compression
Poolakkachalil et al. Comparative analysis of lossless compression techniques in efficient DCT-based image compression system based on Laplacian Transparent Composite Model and An Innovative Lossless Compression Method for Discrete-Color Images
CN113822801A (zh) 基于多分支卷积神经网络的压缩视频超分辨率重建方法
CN112055210A (zh) 一种视频图像处理方法、编码器和计算机可读存储介质
US20240137506A1 (en) Systems and methods for image filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant