CN116527943A - 基于矢量量化索引和生成模型的极限图像压缩方法及系统 - Google Patents

基于矢量量化索引和生成模型的极限图像压缩方法及系统 Download PDF

Info

Publication number
CN116527943A
CN116527943A CN202310778269.1A CN202310778269A CN116527943A CN 116527943 A CN116527943 A CN 116527943A CN 202310778269 A CN202310778269 A CN 202310778269A CN 116527943 A CN116527943 A CN 116527943A
Authority
CN
China
Prior art keywords
vector quantization
quantization index
codebook
image
image compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310778269.1A
Other languages
English (en)
Other versions
CN116527943B (zh
Inventor
毛琪
杨婷涵
张一诺
潘淑莹
王萌
王诗淇
马思伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202310778269.1A priority Critical patent/CN116527943B/zh
Publication of CN116527943A publication Critical patent/CN116527943A/zh
Application granted granted Critical
Publication of CN116527943B publication Critical patent/CN116527943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/94Vector quantisation

Abstract

本发明提供了一种基于矢量量化索引和生成模型的极限图像压缩方法及系统,通过在发送端将源图像输入预设的编码器以获取相应的潜在表示,并对潜在表示在经过K‑means聚类的预训练码本中进行最邻近码本映射,以获取矢量量化索引;之后对初始矢量量化索引进行无损压缩以生成紧凑比特流后传输,在接收端对紧凑比特流解码后,对解码矢量量化索引中丢失的索引进行预测,以获取完整矢量量化索引;而后对完整矢量量化索引进行重构重建处理以获取重建图像。本发明能够实现不同范围的、特征级别的矢量量化,不仅能够提高编码性能,节约传输带宽,还能够在压缩数据传输之后重建出具有高视觉感知的重建图像,提高了编解码器在处理不可靠网络传输方面的鲁棒性。

Description

基于矢量量化索引和生成模型的极限图像压缩方法及系统
技术领域
本发明涉及图像视觉编码技术领域,更为具体地,涉及一种基于矢量量化索引和生成模型的极限图像压缩方法及系统。
背景技术
随着视觉数据以前所未有的速度不断增长,对高效、有效的压缩算法的需求越来越迫切。然而,在极其有限的网络带宽下,面向信号的传统图像/视频压缩编解码器(如BPG(Better Portable Graphics)和最新的视频编码标准VVC(Versatile Video Coding))不可避免地采用了较大的标量量化步骤,导致纹理信息的严重丢失,并伴有不可接受的模糊和块化伪影。
在现有的图像/视频编码方法中,通常利用生成模型的力量来重建人类喜欢的解码图像/视频。然而,其中一部分方法在实现高压缩比(特别是低于0.1 bpp)方面的有效性仍然有限。此外,它们在极低比特率场景下的实际应用也受到较差的泛化能力的阻碍。
此外,在不稳定的传输环境中,比特流的丢失会导致解码过程的失败。
因此,亟需一种能够有效提高图像压缩质量、提高泛化能力和传输可靠性的图像压缩方法。
发明内容
鉴于现有技术中传统图像编码框架和基于生成模型的深度压缩框架在极低码率压缩时表现出来的重建图像主观质量不佳、泛化能力差等问题,本发明的目的是提供一种基于矢量量化索引和生成模型的极限图像压缩方法及系统,以有效提高图像压缩质量、提高泛化能力和传输可靠性的图像压缩方法,并提高编码性能,节约传输带宽。
根据本发明的一个方面,提供了一种基于矢量量化索引和生成模型的极限图像压缩方法,包括:
将源图像输入预设的编码器以获取相应的潜在表示,并在经过K-means聚类的预训练码本中对所述潜在表示进行最邻近码本映射,以获取所述源图像的初始矢量量化索引;
对所述初始矢量量化索引进行无损压缩以生成紧凑比特流;
将所述紧凑比特流传输至接收端后,在所述接收端对所述紧凑比特流进行解码以获取解码矢量量化索引;
将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测;
将所述传输过程中丢失的初始矢量量化索引经预设Transformer得到的预测结果加入所述解码矢量量化索引的对应位置,以获取所述源图像的完整矢量量化索引;
根据所述完整矢量量化索引在预训练码本中进行查找以生成重构的潜在表示,将所述重构的潜在表示输入预训练的生成模型中进行重建处理以获取重建图像。
其中,可选的方案为,所述预设的编码器、预训练的生成模型、预训练码本、预设的Transformer均集成在基于矢量量化索引和生成模型的极限图像压缩模型中,其中,所述基于矢量量化索引和生成模型的极限图像压缩模型通过预采集的样本图像集迭代训练而成。
其中,可选的方案为,训练所述基于矢量量化索引和生成模型的极限图像压缩系统的方法包括:
构建所述基于矢量量化索引和生成模型的极限图像压缩模型的最优压缩目标函数和待训练极限图像压缩模型;其中,所述待训练极限图像压缩模型通过对VQGAN模型进行微调获得,包括所述预设的编码器、预训练的生成模型、预训练码本;
使所述待训练极限图像压缩模型反复根据所述样本图像集中的图像生成潜在表示、矢量量化索引和解码图像,并基于所述潜在表示、所述解码图像、所述矢量量化索引、所述源图像优化压缩目标函数,直至所述压缩目标函数达到最优;
将最后一次训练生成的待训练极限图像压缩模型作为所述基于矢量量化索引和生成模型的极限图像压缩模型。
其中,可选的方案为,所述预设的编码器,用于将输入图像提取为潜在表示/>;所述预训练码本/>,用于将潜在表示z映射到一系列矢量量化索引,并通过最近邻查找将矢量量化索引反转为量化的潜在表示/>;所述预训练的生成模型,用于将量化的潜在表示/>合成为重建图像/>;所述预设的Transformer,用于基于上下文索引预测丢失的初始矢量量化索引。
其中,可选的方案为,所述K-means聚类的输入数据为VQGAN模型大规模预训练码本,输出数据为经过聚类后更小的预训练码本;通过所述K-means聚类将所述大规模预训练码本聚类为不同大小的预训练码本,使得所述潜在表示被表示为不同范围的矢量量化索引。
其中,可选的方案为,在经过K-means聚类的预训练码本中对所述潜在表示进行最邻近码本映射,以获取所述源图像的初始矢量量化索引的过程中,利用K-means聚类算法对大规模码本进行聚类以获得每个簇的质心从而改变码本大小,其中包括:
初始化K-means聚类算法,随机分配已经训练好的大规模码本的质心;
计算每个码本向量与每个质心之间的欧氏距离,将向量分配给最近的质心,如下所示:
其中,表示第s个簇,/>表示第s个簇的簇质心,/>表示码本的总数,/>表示码本的新大小,其中,/>
对于每个簇,重新计算簇内码本向量的平均值,并相应地更新簇质心:
其中,可选的方案为,步骤S420和步骤S430反复进行,直到得到的K-means聚类结果使相关成本函数最小化:
其中,可选的方案为,在将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测过程中,
将解码矢量量化索引展开,并将其表示为,其中N表示总长度;
通过预训练的VQGAN的第二阶段转换器预测的下一个可能的索引的概率分布
其中,通过最大似然估计将所述概率分布拟合到数据集,以获得最大化数据表示的对数似然,表示为:
,
其中
其中,可选的方案为,在将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测过程中,所采用的预测方式为基于底层离散分布的上下文索引预测。
根据本发明的另一方面,提供了一种基于矢量量化索引和生成模型的极限图像压缩系统,包括:
初始量化单元,用于将源图像输入预设的编码器以获取相应的潜在表示,并在经过K-means聚类的预训练码本中对所述潜在表示进行最邻近码本映射,以获取所述源图像的初始矢量量化索引;
压缩单元,用于对所述初始矢量量化索引进行无损压缩以生成紧凑比特流;
解压缩单元,用于将所述紧凑比特流传输至接收端后,在所述接收端对所述紧凑比特流进行解码以获取解码矢量量化索引;
丢失预测单元,用于将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测;
补全单元,用于将所述传输过程中丢失的初始矢量量化索引经预设Transformer得到的预测结果加入所述解码矢量量化索引的对应位置,以获取所述源图像的完整矢量量化索引;
图像重建单元,用于对所述完整矢量量化索引在预训练码本中进行查找以生成重构的潜在表示,将所述重构的潜在表示输入预训练的生成模型中进行重建处理以获取重建图像。
上述根据本发明的基于矢量量化索引和生成模型的极限图像压缩方法及系统,首先发送端将源图像输入预设的编码器以获取相应的潜在表示,并对潜在表示在经过K-means聚类的预训练码本中进行最邻近码本映射,以获取源图像的初始矢量量化索引;之后对初始矢量量化索引进行无损压缩以生成紧凑比特流,将比特流传输至接收端,在接收端对比特流进行解码以获取解码矢量量化索引;再将解码矢量量化索引输入到预设的Transformer对传输过程中丢失的索引进行预测,以获取完整的矢量量化索引;而后对矢量量化索引在码本中进行查找以生成重构的潜在表示,将潜在表示输入预训练的生成模型中进行重建处理以获取重建图像。如此,重建图像具有高视觉感知质量,使用矢量量化索引作为紧凑数据表示的极限图像压缩方法可以显著提高编码性能,节约传输带宽,并在泛化性和可靠传输方面具有优势。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩方法的流程图;
图2为根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩方法的原理示意图;
图3为根据本发明实施例的训练基于矢量量化索引和生成模型的极限图像压缩模型的流程图;
图4为根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩模型所涉及的对比学习方法的示意图;
图5为根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩模型在丢失索引值情况下恢复预测后重建图像的效果图;
图6为根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩系统的示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
由于目前传统图像编码框架和基于生成模型的深度压缩框架在极低码率压缩时表现出来的重建图像主观质量不佳、泛化能力差等诸多问题,为了谋求图像压缩质量、泛化能力以及传输可靠性等方面的提高,本发明提供一种基于矢量量化索引和生成模型的极限图像压缩方法及系统。
为了更好地说明本发明的技术方案,下面先对本发明中所涉及的部分技术术语进行简单说明。
K-means聚类算法,又名k均值算法。其算法思想大致为:先从样本集中随机选取 k个样本作为簇中心,并计算所有样本与这 k 个“簇中心”的距离,对于每一个样本,将其划分到与其距离最近的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”。
潜在表示,是输入数据的简化表示,可由神经网络创建,该网络的中心层(训练后)将包含输入数据的简化表示(即关键特征的摘要),可用于重建输出。
Transformer(转换器),是一个利用自注意力机制来提高模型训练速度的模型,由Encoder(编码) 和 Decoder(解码) 两个部分组成,Encoder 和 Decoder 都包含 6 个block,其中,在编码部分,每一个的小编码器里的结构是一个自注意力机制加上一个前馈神经网络,每一个的小编码器的输入是前一个小编码器的输出,而每一个小解码器的输入不仅包括它的前一个解码器的输出,还包括了整个编码部分的输出。
VQGAN模型,是一种视觉生成模型,可以在多任务上实现高性能表现的视觉生成范式,相对于普通的图像生成模型,VQGAN模型的突出点在于其使用codebook来离散编码模型中间特征,并且使用Transformer(GPT-2模型)作为编码生成工具。
L2损失,也称为均方误差(MSE),是指模型预测值f(x)和真实值y之间差值平方的平均值。
最大似然估计(MLE,Maximum Likelihood Estimation),是一种可以生成拟合数据的任何分布的参数的最可能估计的技术。它将概率分布拟合到数据集,将寻找数据分布的参数视为一个优化问题,通过最大化似然函数,找到最可能的解。
以下将结合附图对本发明的具体实施例进行详细描述。
图1示出了根据本发明的基于矢量量化索引和生成模型的极限图像压缩方法的流程,图2示出了根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩方法的原理。
如图1和图2共同所示,本发明提供的基于矢量量化索引和生成模型的极限图像压缩方法,主要包括如下步骤:
S110:将源图像输入预设的编码器以获取相应的潜在表示,并在经过K-means聚类的预训练码本中对所述潜在表示进行最邻近码本映射,以获取所述源图像的初始矢量量化索引;
S120:对所述初始矢量量化索引进行无损压缩以生成紧凑比特流;
S130:将所述紧凑比特流传输至接收端后,在所述接收端对所述紧凑比特流进行解码以获取解码矢量量化索引;
S140:将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测;
S150:将所述传输过程中丢失的初始矢量量化索引经预设Transformer得到的预测结果加入所述解码矢量量化索引的对应位置,以获取所述源图像的完整矢量量化索引;
S160:根据所述完整矢量量化索引在预训练码本中进行查找以生成重构的潜在表示,将所述重构的潜在表示输入预训练的生成模型中进行重建处理以获取重建图像。
本发明的基于矢量量化索引和生成模型的极限图像压缩方法提供了一种编码方式的图像编码(压缩)解码(解压缩)框架,通过k-means聚类实现了不同范围的、特征级别的矢量量化,并借助transformer预测索引为编码解码框架带来一定的抗干扰能力,不仅能够提高编码性能,节约传输带宽,还能够在压缩数据传输之后重建出具有高视觉感知的重建图像,在泛化性和可靠传输方面具有不可比拟的优势。
在图1、图2共同所示的实施例中,所述预设的编码器、预训练的生成模型、预训练码本、预设的Transformer集成在基于矢量量化索引和生成模型的极限图像压缩模型中,其中,基于矢量量化索引和生成模型的极限图像压缩模型通过预采集的样本图像集迭代训练而成,该迭代训练包括对所述预设的编码器、预训练的生成模型、预训练码本的迭代训练,所述预设的Transformer由VQGAN二阶段训练直接导出基于矢量量化索引和生成模型的极限图像压缩模型的参数。
具体的,作为示例,图3示出了根据本发明实施例的训练所述基于矢量量化索引和生成模型的极限图像压缩模型的方法流程。如图3所示,训练所述基于矢量量化索引和生成模型的极限图像压缩模型的方法,包括如下步骤:
S310:构建所述基于矢量量化索引和生成模型的极限图像压缩模型的最优压缩目标函数和待训练极限图像压缩模型;其中,所述待训练极限图像压缩模型通过对VQGAN模型进行微调以获得,包括所述预设的编码器、预训练的生成模型、预训练码本;
S320:使所述待训练极限图像压缩模型反复根据所述样本图像集中的源图像生成潜在表示、矢量量化索引和解码图像,并基于所述潜在表示、所述解码图像、所述矢量量化索引、所述源图像优化压缩目标函数,直至所述压缩目标函数达到最优;
S330:将最后一次训练生成的待训练极限图像压缩模型作为基于矢量量化索引和生成模型的极限图像压缩模型。
具体的,作为示例,基于矢量量化索引和生成模型的极限图像压缩方模型的待训练极限图像压缩模型包括预设的编码器E、预训练码本e k 、解码器G(预训练的生成模型)和转换器T(预设的Transformer)。其中,编码器E,用于将输入图像提取为潜在表示。此处的H代表输入图像的长度,W代表输入图像的宽度,M表示下采样步长,n z 表示潜在表示z的维度。
码本,用于通过最近邻查找将潜在表示z映射到一系列矢量量化索引,借助码本矢量量化索引也可以反转为量化的潜在表示/>
解码器G,用于将量化的潜在表示合成为重建图像/>
转换器T,用于基于上下文索引预测丢失的初始矢量量化索引。
本发明中,K-means聚类的输入数据为VQGAN模型大规模预训练码本,输出数据为经过聚类后更小的预训练码本,通过K-means聚类算法将大规模码本聚类压缩为较小规模且不同大小的码本作为预训练码本,使得潜在表示被表示为不同范围的矢量量化索引,从而实现可变比特率和不同级别的重建质量。
其中,作为输入数据的VQGAN模型大规模预训练码本是在大规模数据集上训练的VQGAN模型的学习码本,具有强大而稳健的表示能力。该VQGAN模型大规模预训练码本能够使基于矢量量化索引和生成模型的极限图像压缩模型在重建图像的过程中,对不同语义和分辨率的图像中表现出通用性。
具体的,作为示例,在训练待训练极限图像压缩模型时,生成器的损失设计如下:
其中,x表示输入图像(源图像),表示重建图像,/>表示停梯度运算,/>表示所述经过K-means聚类处理后的新码本(预训练码本)。
此外,为了增强学习码本的丰富性并提高图像的感知质量,本发明中还引入了对抗损失(GAN loss)和感知损失(perceptual loss)。其中,由于L2损失函数的导数是动态变化的,所以x增加也会使损失增加,尤其在训练早起标签和预测的差异大,会导致梯度较大,训练不稳定,因此,本发明中通过使用感知损失替换原始VQGAN模型训练时的L2损失,并引入一个基于块的判别器D,通过对抗训练来区分真实图像和解码图像,其中的对抗损失函数:
因此,寻找最佳压缩模型的目标如下:
其中,是自适应权重,通过重建损失/>和对抗损失/>计算求得,公式如下,
其中,表示停止梯度操作,/>是一个固定极小值,在本发明的一个实施例中,该固定极小值被设置为/>
下面,将结合更为具体的实施例对本发明的上述基于矢量量化索引和生成模型的极限图像压缩方法的各个步骤进行更详细的说明。
在图1、图2、图3共同所示的实施例中,步骤S110为将源图像输入预设的编码器以获取相应的潜在表示,并在经过K-means聚类的预训练码本中对潜在表示进行最邻近码本映射,以获取矢量量化索引的过程。
具体的,预训练码本用于通过将每个向量的每个位置替换为距离最近的代表向量的索引来编码潜在表示,其中的距离是欧几里得距离,通过K-means聚类进行最邻近码本映射,会产生高度压缩的潜在表示版本,并且质量损失最小。通过K-means聚类进行最邻近码本映射所获得的原图像的初始矢量量化索引如下:
其中,ij表示向量,表示向量在潜在表示/>中的位置,/>表示其相应的索引,/>表示码本的大小。
其中,在基于矢量量化索引和生成模型的极限图像压缩模型中,其预训练码本的质量对于决定整个基于矢量量化索引和生成模型的极限图像压缩模型的压缩性能起着至关重要的作用。因此,在本发明一实施例中的基于矢量量化索引和生成模型的极限图像压缩模型中,采用了一种码率控制策略,通过改变码本的大小来实现灵活的压缩比特率调整。
具体的,作为示例,本发明中利用K-means聚类算法对大规模码本进行聚类,从而可以获得每个簇的质心。这些质心被用作每个码本向量的初始值,从而改变大规模码本的大小。通过K-means聚类,能够获得不同大小的新码本,每个码本都有一个相应的矢量量化指数集来表示压缩图像。在此基础上,能够在确保码本质量的同时,灵活调整码本大小。
在利用K-means聚类算法对大规模码本进行聚类以获得每个簇的质心从而改变码本大小的过程中,具体包括:
S410:初始化K-means聚类算法,随机分配已经训练好的大规模码本的质心。
S420:计算每个码本向量与每个质心之间的欧氏距离,将向量分配给最近的质心,如下所示:
其中是第s个簇,/>表示第s个簇的簇质心,/>是码本的总数,/>是码本的新大小。
S430:对于每个簇,重新计算簇内码本向量的平均值,并相应地更新簇质心:
上述步骤S420和S430反复进行,直到得到的K-means聚类结果使相关成本函数最小化:
从上述利用K-means聚类算法对大规模码本进行聚类以获得每个簇的质心的过程可以看出,上述K-means聚类算法生成的新码本可以作为进一步微调的起点,在后续优化过程中实现更快的收敛。
获取所述源图像的初始矢量量化索引之后,即可进入步骤S120,对所获得的矢量量化索引进行无损压缩以生成紧凑比特流。无损压缩的过程即为编码过程,通过无损压缩对图像存储方式进行优化,采用某些算法表示重复的数据信息,压缩后的文件可以完全还原,不会损失任何图像细节。在编码方面,使用无损压缩技术将矢量量化索引压缩成最终的紧凑比特流,能够在最邻近码本映射的基础上进一步降低数据量的大小,以利于数据的传输。
在本发明的一个具体实施例中,采用ZIP方法与UNZIP方法作为本发明实现的无损压缩方法与解码方法。另外,也可以根据具体的应用需要采用算数编码和解码、哈夫曼编解码、RAR和UNRAR的编解码方法。
在将上述紧凑比特流传输至接收端之后,即可在接收端对该紧凑比特流进行解码以获取解码矢量量化索引(步骤S130)。在解码方面,首先从前述紧凑比特流中解码索引序列,得到解码矢量量化索引,然后对解码矢量量化索引进行补全处理(预测丢失的初始矢量量化索引并据以确定完整矢量量化索引),最后通过在预训练码本中搜索码字将完整矢量量化索引进行重构处理以转换回重构的潜在表示,显然,该重构的潜在表示/>也是矢量量化数据。
在图1、图2共同所示的实施例中,步骤S140为将解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测。
在不可靠的传输环境中,丢失的数据包可能导致索引的丢失,进而导致位流的错误解码。本发明提出的图像编解码框架,利用Transformer(转换器)可以在解码端准确预测丢失的索引,以获取完整的矢量量化索引,避免由于紧凑比特流丢失而导致图像重建过程失败,增强了基于矢量量化索引和生成模型的极限图像压缩方法在不稳定传输中的可靠性,以及编解码器在处理不可靠网络传输方面的鲁棒性,并确保解码后的位流保持准确性。
具体的,作为示例,将解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测过程包括:
S141:将解码矢量量化索引展开,并将其表示为,其中N表示总长度;
S142:通过预训练的VQGAN的第二阶段转换器预测的下一个可能的索引的概率分布/>。通过最大似然估计(MLE)将所述概率分布拟合到数据集,以获得最大化数据表示的对数似然,可以表示为:
其中
在存储阶段,通过所述Transformer(转换器)可以基于底层离散分布的上下文预测每个丢失位置i对应的码本中所有潜在索引的概率。由于转换器的注意机制限制了其输入序列的长度N,因此,在本发明的一个实施例中,采用滑动窗口输入策略,以在每个预测时输入以I i 为中心的16×16窗口。由于转换器的自回归性质与解码过程一致,因此,仅将16×16窗口中i之前的索引作为输入,能够更好地利用图像的空间结构。通过滑动窗口将16×16个窗口中已知的之前索引值输入Transformer (转换器),可以预测得到丢失位置i的码本中所有潜在索引的离散概率分布,选取概率最大的码本索引为补全的预测索引值。
在确定了传输过程中丢失的初始矢量量化索引和该丢失的初始矢量量化索的丢失位置之后,即可进入步骤S150,将所述传输过程中丢失的初始矢量量化索引经预设Transformer得到的预测结果加入(或者插入)所述解码矢量量化索引的对应位置,以获取所述源图像的完整矢量量化索引。
最后,对上述完整矢量量化索引在预训练码本中进行查找以生成重构的潜在表示,将该重构的潜在表示输入预训练的生成模型中进行重建处理即可以获取重建图像。
解码紧凑比特流并将丢失的初始矢量量化索引补充完整得到完整矢量量化索引后,通过根据其完整矢量量化索引搜索相应的码字生成重构的潜在表示。最终,所述预训练生成模型(即,解码器G)通过合成重构的潜在表示/>生成重构图像。
图4示出了根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩模型所涉及的对比学习方法的示意图。如图4所示,将本发明与传统压缩编码方法VVC、BPG在相邻比特率下压缩同一张图片的结果进行对比实验,从左至右分别为原图和应用BPG、VVC、本发明的压缩编码方法所得到的最终图像,由实验结果可知,在低码率下,应用本发明的基于矢量量化索引和生成模型的极限图像压缩方法能够保留重建出更多的图像细节,重建图像也有着更好的主观感知质量。
图5示出了根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩模型在丢失索引值情况下恢复预测后重建图像的效果图。如图5所示,针对本发明的第二阶段预测丢失索引过程进行的相关实验,随机选择不同丢失比例{ 0.01,0.05,0.1,0.2,0.3,0.5 }的索引值设置为0以模拟丢包过程。通过图5展示的丢失比例为0.1和0.2时本发明的恢复重建图和原图的对比,可以看出,通过本发明进行解压缩后的恢复重建图有着出色的质量。
如上描述了根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩方法。
可以确定,利用本发明的上述基于矢量量化索引和生成模型的极限图像压缩方法进行图像的压缩和解压缩,重建图像具有高视觉感知质量,使用矢量量化索引作为紧凑数据表示的极限图像压缩方法可以显著提高编码性能,节约传输带宽,并在泛化性和可靠传输方面具有优势。本发明的上述基于矢量量化索引和生成模型的极限图像压缩方法,可以采用软件实现,也可以采用硬件实现,或采用软件和硬件组合的方式实现。
与上述基于矢量量化索引和生成模型的极限图像压缩方法相对应,本发明还提供一种基于矢量量化索引和生成模型的极限图像压缩系统。图6示出了根据本发明实施例的基于矢量量化索引和生成模型的极限图像压缩系统400的方框示意图。如图6所示,基于矢量量化索引和生成模型的极限图像压缩系统400包括初始量化单元410、压缩单元420、解压缩单元430、丢失预测单元440、补全单元450和图像重建单元460。
其中,初始量化单元410,用于将源图像输入预设的编码器以获取相应的潜在表示,并在经过K-means聚类的预训练码本中对所述潜在表示进行最邻近码本映射,以获取所述源图像的初始矢量量化索引;
压缩单元420,用于对所述初始矢量量化索引进行无损压缩以生成紧凑比特流;
解压缩单元430,用于将所述紧凑比特流传输至接收端后,在所述接收端对所述紧凑比特流进行解码以获取解码矢量量化索引;
丢失预测单元440,用于将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测;
补全单元450,用于将所述传输过程中丢失的初始矢量量化索引经预设Transformer得到的预测结果加入所述解码矢量量化索引的对应位置,以获取所述源图像的完整矢量量化索引;
图像重建单元460,用于对所述完整矢量量化索引在预训练码本中进行查找以生成重构的潜在表示,将所述重构的潜在表示输入预训练的生成模型中进行重建处理以获取重建图像。
其中,在初始量化单元410中,利用K-means聚类算法对大规模码本进行聚类,从而可以获得每个簇的质心。在修改其大小后,这些质心被用作每个码本向量的初始值。通过K-means聚类,能够获得不同大小的新码本,每个码本都有一个相应的矢量量化指数集来表示压缩图像。在此基础上,能够在确保码本质量的同时,灵活调整码本大小。
为了利用K-means聚类算法对大规模码本进行聚类以获得每个簇的质心,初始量化单元410进一步包括K-means初始化单元、向量分配单元和簇质心更新单元(图中未示出)。
其中,K-means初始化单元,用于初始化K-means聚类算法,随机分配已经训练好的大规模码本的质心。
向量分配单元,用于计算每个码本向量与每个质心之间的欧氏距离,将向量分配给最近的质心,如下所示:
其中是第s个簇,/>表示第s个簇的簇质心,/>是码本的总数,/>是码本的新大小。
簇质心更新单元,用于对于每个簇,重新计算簇内码本向量的平均值,并相应地更新簇质心:
上述向量分配单元和簇质心更新单元反复进行向量分配和簇质心的更新,直到得到的K-means聚类结果使相关成本函数最小化:
从上述利用K-means聚类算法对大规模码本进行聚类以获得每个簇的质心的过程可以看出,上述K-means聚类算法生成的新码本可以作为进一步微调的起点,在后续优化过程中实现更快的收敛。
在通过初始量化单元410获取所述源图像的初始矢量量化索引之后,压缩单元420使用无损压缩技术将矢量量化索引压缩成最终的紧凑比特流,以在最邻近码本映射的基础上进一步降低数据量的大小,从而更加利于数据的传输。
对于上述基于矢量量化索引和生成模型的极限图像压缩系统的具体的实施方式,可参照上述基于生成模型的人体视频压缩方法的具体实施例,在此不再做具体描述。
本发明实施例中的基于矢量量化索引和生成模型的极限图像压缩系统,首先通过初始量化单元410将源图像输入预设的编码器以获取相应的潜在表示,并对潜在表示在经过K-means聚类的预训练码本中进行最邻近码本映射,以获取矢量量化索引,再通过压缩单元420对矢量量化索引进行无损压缩以生成紧凑比特流,然后将压缩后的紧凑比特流传输至接收端,在接受端通过解压缩单元430对紧凑比特流进行解码以获取解码矢量量化索引,而后通过丢失预测单元440将解码矢量量化索引输入到预设的Transformer对传输过程中丢失的索引进行预测,再通过补全单元450将所述传输过程中丢失的初始矢量量化索引经预设Transformer得到的预测结果加入所述解码矢量量化索引的对应位置,以获取所述源图像的完整矢量量化索引;最后通过图像重建单元460对矢量量化索引在预训练码本中进行查找以生成重构的潜在表示,将潜在表示输入预设的生成模型中进行重建处理以获取重建图像。如此,重建图像具有高视觉感知质量,使用矢量量化索引作为紧凑数据表示的极限图像压缩方法可以显著提高编码性能,节约传输带宽,并在泛化性和可靠传输方面具有优势。
如上参照附图以示例的方式描述根据本发明的基于矢量量化索引和生成模型的极限图像压缩方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的基于矢量量化索引和生成模型的极限图像压缩方法及系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (10)

1.一种基于矢量量化索引和生成模型的极限图像压缩方法,包括:
将源图像输入预设的编码器以获取相应的潜在表示,并在经过K-means聚类的预训练码本中对所述潜在表示进行最邻近码本映射,以获取所述源图像的初始矢量量化索引;
对所述初始矢量量化索引进行无损压缩以生成紧凑比特流;
将所述紧凑比特流传输至接收端后,在所述接收端对所述紧凑比特流进行解码以获取解码矢量量化索引;
将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测;
将所述传输过程中丢失的初始矢量量化索引经预设Transformer得到的预测结果加入所述解码矢量量化索引的对应位置,以获取所述源图像的完整矢量量化索引;
根据所述完整矢量量化索引在预训练码本中进行查找以生成重构的潜在表示,将所述重构的潜在表示输入预训练的生成模型中进行重建处理以获取重建图像。
2.如权利要求1所述的基于矢量量化索引和生成模型的极限图像压缩方法,其中,所述预设的编码器、预训练的生成模型、预训练码本、预设的Transformer均集成在基于矢量量化索引和生成模型的极限图像压缩模型中,其中,所述基于矢量量化索引和生成模型的极限图像压缩模型通过预采集的样本图像集迭代训练而成。
3.如权利要求2所述的基于矢量量化索引和生成模型的极限图像压缩方法,其中,训练所述基于矢量量化索引和生成模型的极限图像压缩系统的方法包括:
构建所述基于矢量量化索引和生成模型的极限图像压缩模型的最优压缩目标函数和待训练极限图像压缩模型;其中,所述待训练极限图像压缩模型通过对VQGAN模型进行微调获得,包括所述预设的编码器、预训练的生成模型、预训练码本;
使所述待训练极限图像压缩模型反复根据所述样本图像集中的图像生成潜在表示、矢量量化索引和解码图像,并基于所述潜在表示、所述矢量量化索引、所述解码图像、所述源图像优化压缩目标函数,直至所述压缩目标函数达到最优;
将最后一次训练生成的待训练极限图像压缩模型作为所述基于矢量量化索引和生成模型的极限图像压缩模型。
4.如权利要求2所述的基于矢量量化索引和生成模型的极限图像压缩方法,其中,
所述预设的编码器,用于将输入图像提取为潜在表示/>
所述预训练码本,用于将潜在表示z映射到一系列矢量量化索引,并通过最近邻查找将矢量量化索引反转为量化的潜在表示/>
所述预训练的生成模型,用于将量化的潜在表示合成为重建图像/>
所述预设的Transformer,用于基于上下文索引预测丢失的初始矢量量化索引。
5.如权利要求1所述的基于矢量量化索引和生成模型的极限图像压缩方法,其中,
所述K-means聚类的输入数据为VQGAN模型大规模预训练码本,输出数据为经过聚类后更小的预训练码本;
通过所述K-means聚类将所述大规模预训练码本聚类为不同大小的预训练码本,使得所述潜在表示被表示为不同范围的矢量量化索引。
6.如权利要求5所述的基于矢量量化索引和生成模型的极限图像压缩方法,其中,在经过K-means聚类的预训练码本中对所述潜在表示进行最邻近码本映射,以获取所述源图像的初始矢量量化索引的过程中,利用K-means聚类算法对大规模码本进行聚类以获得每个簇的质心从而改变码本大小,其中包括如下步骤:
S410:初始化K-means聚类算法,随机分配已经训练好的大规模码本的质心;
S420:计算每个码本向量与每个质心之间的欧氏距离,将向量分配给最近的质心,如下所示:
其中,表示第s个簇,/>表示第s个簇的簇质心,/>表示码本的总数,/>表示码本的新大小,其中,/>
S430:对于每个簇,重新计算簇内码本向量的平均值,并相应地更新簇质心:/>
7.如权利要求6所述的基于矢量量化索引和生成模型的极限图像压缩方法,其中,步骤S420和步骤S430反复进行,直到得到的K-means聚类结果使相关成本函数最小化:
8.如权利要求1所述的基于矢量量化索引和生成模型的极限图像压缩方法,其中,在将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测过程中,
将解码矢量量化索引展开,并将其表示为,其中N表示总长度;
通过预训练的VQGAN的第二阶段转换器预测的下一个可能的索引的概率分布
其中,通过最大似然估计将所述概率分布拟合到数据集,以获得最大化数据表示的对数似然,表示为:
其中
9.如权利要求8所述的基于矢量量化索引和生成模型的极限图像压缩方法,其中,在将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测过程中,所采用的预测方式为基于底层离散分布的上下文索引预测。
10.一种基于矢量量化索引和生成模型的极限图像压缩系统,包括:
初始量化单元,用于将源图像输入预设的编码器以获取相应的潜在表示,并在经过K-means聚类的预训练码本中对所述潜在表示进行最邻近码本映射,以获取所述源图像的初始矢量量化索引;
压缩单元,用于对所述初始矢量量化索引进行无损压缩以生成紧凑比特流;
解压缩单元,用于将所述紧凑比特流传输至接收端后,在所述接收端对所述紧凑比特流进行解码以获取解码矢量量化索引;
丢失预测单元,用于将所述解码矢量量化索引输入到预设的Transformer,以对传输过程中丢失的初始矢量量化索引进行预测;
补全单元,用于将所述传输过程中丢失的初始矢量量化索引经预设Transformer得到的加入所述解码矢量量化索引的对应位置,以获取所述源图像的完整矢量量化索引;
图像重建单元,用于对所述完整矢量量化索引在预训练码本中进行查找以生成重构的潜在表示,将所述重构的潜在表示输入预训练的生成模型中进行重建处理以获取重建图像。
CN202310778269.1A 2023-06-29 2023-06-29 基于矢量量化索引和生成模型的极限图像压缩方法及系统 Active CN116527943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310778269.1A CN116527943B (zh) 2023-06-29 2023-06-29 基于矢量量化索引和生成模型的极限图像压缩方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310778269.1A CN116527943B (zh) 2023-06-29 2023-06-29 基于矢量量化索引和生成模型的极限图像压缩方法及系统

Publications (2)

Publication Number Publication Date
CN116527943A true CN116527943A (zh) 2023-08-01
CN116527943B CN116527943B (zh) 2023-09-12

Family

ID=87405073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310778269.1A Active CN116527943B (zh) 2023-06-29 2023-06-29 基于矢量量化索引和生成模型的极限图像压缩方法及系统

Country Status (1)

Country Link
CN (1) CN116527943B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117857795A (zh) * 2024-03-06 2024-04-09 中国传媒大学 生成-熵估计联合的极限图像压缩、解压缩方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101198041A (zh) * 2006-12-05 2008-06-11 华为技术有限公司 矢量量化方法及装置
CN101609681A (zh) * 2008-06-18 2009-12-23 北京工业大学 编码方法、编码器、解码方法及解码器
CN101695000A (zh) * 2009-10-13 2010-04-14 武汉大学 基于高斯混合模型的分裂矢量量化编解码方法及其装置
CN101777191A (zh) * 2009-12-30 2010-07-14 北京工业大学 一种基于信噪分离的成像光谱图像快速矢量量化编码方法
CN102905137A (zh) * 2012-11-01 2013-01-30 重庆邮电大学 超光谱信号的快速差值矢量量化压缩编码方法
CN103546759A (zh) * 2013-10-29 2014-01-29 沈阳工业大学 一种基于小波包和矢量量化相结合的图像压缩编码方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101198041A (zh) * 2006-12-05 2008-06-11 华为技术有限公司 矢量量化方法及装置
CN101609681A (zh) * 2008-06-18 2009-12-23 北京工业大学 编码方法、编码器、解码方法及解码器
CN101695000A (zh) * 2009-10-13 2010-04-14 武汉大学 基于高斯混合模型的分裂矢量量化编解码方法及其装置
CN101777191A (zh) * 2009-12-30 2010-07-14 北京工业大学 一种基于信噪分离的成像光谱图像快速矢量量化编码方法
CN102905137A (zh) * 2012-11-01 2013-01-30 重庆邮电大学 超光谱信号的快速差值矢量量化压缩编码方法
CN103546759A (zh) * 2013-10-29 2014-01-29 沈阳工业大学 一种基于小波包和矢量量化相结合的图像压缩编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KULDIP K. PALIWAL ET AL.: "Efficient Vector Quantization of LPC Parameters at 24 Bits/Frame", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 1, no. 1, pages 3 - 14, XP000358435, DOI: 10.1109/89.221363 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117857795A (zh) * 2024-03-06 2024-04-09 中国传媒大学 生成-熵估计联合的极限图像压缩、解压缩方法及系统

Also Published As

Publication number Publication date
CN116527943B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
US11315011B2 (en) Using generative adversarial networks in compression
US11606560B2 (en) Image encoding and decoding, video encoding and decoding: methods, systems and training methods
JP7476631B2 (ja) 画像コーディング方法及び装置並びに画像デコーディング方法及び装置
Dupont et al. Coin++: Neural compression across modalities
US8194737B2 (en) Apparatus and method for modifying predicted values, and decoding system
CN116527943B (zh) 基于矢量量化索引和生成模型的极限图像压缩方法及系统
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
Gu et al. Compression of human motion capture data using motion pattern indexing
El-Nouby et al. Image compression with product quantized masked image modeling
CN110720222A (zh) 用于数字数据压缩的方法和设备
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN115699020A (zh) 用于神经网络的量化
US20230186927A1 (en) Compressing audio waveforms using neural networks and vector quantizers
WO2023184980A1 (zh) 一种基于码本的自编码机图像压缩方法
Slyz et al. A nonlinear VQ-based predictive lossless image coder
Gray et al. Image compression and tree-structured vector quantization
US10021395B2 (en) Methods and apparatus for model-based visual descriptors compression
Hwang et al. Genetic entropy-constrained vector quantizer design algorithm
Chou et al. Gain–shape optimized dictionary for matching pursuit video coding
Lu et al. Image Compression Based on Mean Value Predictive Vector Quantization.
WO2023169501A1 (en) Method, apparatus, and medium for visual data processing
Tola Comparative study of compression functions in modern web programming languages
Ho et al. A variable-rate image coding scheme with vector quantization and clustering interpolation
US20230316588A1 (en) Online training-based encoder tuning with multi model selection in neural image compression
WO2023222313A1 (en) A method, an apparatus and a computer program product for machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant