CN115294222A - 图像编码方法及图像处理方法、终端及介质 - Google Patents

图像编码方法及图像处理方法、终端及介质 Download PDF

Info

Publication number
CN115294222A
CN115294222A CN202210923135.XA CN202210923135A CN115294222A CN 115294222 A CN115294222 A CN 115294222A CN 202210923135 A CN202210923135 A CN 202210923135A CN 115294222 A CN115294222 A CN 115294222A
Authority
CN
China
Prior art keywords
feature
module
image
frequency
potential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210923135.XA
Other languages
English (en)
Inventor
谭智勇
阮海航
曹俊诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Microsystem and Information Technology of CAS
Original Assignee
Shanghai Institute of Microsystem and Information Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Microsystem and Information Technology of CAS filed Critical Shanghai Institute of Microsystem and Information Technology of CAS
Priority to CN202210923135.XA priority Critical patent/CN115294222A/zh
Publication of CN115294222A publication Critical patent/CN115294222A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种图像编码方法及图像处理方法、终端及计算机存储介质。其中,所述图像编码方法包括:基于所述下采样模块,提取原始图像的空间特征,和基于所述频率特征模块,提取所述原始图像的频率特征;融合所述空间特征和所述频率特征,以获取所述原始图像的潜在特征;基于所述量化编码模块,对所述潜在特征图进行量化和编码,以获得所述原始图像的码流,可以提高基于频率特征的编码信息所重建图像数据的率失真平衡,提高了红外图像压缩比例和压缩质量之间的平衡性。

Description

图像编码方法及图像处理方法、终端及介质
技术领域
本发明涉及计算机视觉领域,尤其涉及一种图像编码方法及图像处理方法、终端及计算机存储介质。
背景技术
红外成像具有作用距离远、抗干扰性好、穿透烟尘雾霾能力强、可全天时工作等优点,在军用和民用领域都得到了极为广泛的应用和飞速发展;随着技术的发展,红外图像的分辨率和帧率越来越高,数据量呈几何级数增长,对无线通信传输的带宽要求越来越高;因此,通常需要对红外图像进行压缩处理,以节省传输数据时间和存储空间,提高运算效率等。
由于红外图像相比于可见光图像,其分辨率、对比度等较低,使得红外图像基于空间域的特征表达较弱;而相较于空间域,红外图像于频率域的特征表达更强。然而,现有的压缩方法(如JPEG、JPEG2000等)通常仅考虑图像的空间域特征,缺少对频域特性的考虑;导致基于现有的压缩方法处理红外图像后,往往会存在整体视觉模糊、压缩效果较差等情况。
因此,如何于压缩方法中融合图像的频域特征,以提高红外图像的压缩效果,已成为本领域需要解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种图像编码方法及图像处理方法、终端及计算机存储介质,可以解决现有的压缩方法对红外图像压缩处理中,由于未考虑红外图像的频率特征等原因,导致存在图像压缩效果较差等问题。
为实现上述目的及其他相关目的,本发明于第一方面提供一种图像编码方法,基于训练后图像压缩模型对原始图像进行编码;所述图像压缩模型包括下采样模块,频率特征模块、量化模块和编码模块;其中,所述频率特征模块连接所述下采样模块;所述图像编码方法,包括:基于所述下采样模块,提取原始图像的空间特征,和基于所述频率特征模块,提取所述原始图像的频率特征;融合所述空间特征和所述频率特征,以获取所述原始图像的第一潜在特征;基于所述量化模块,对所述第一潜在特征进行量化处理,获得第一潜在特征量化值,和基于所述编码模块,对所述第一潜在特征量化值算术编码,以获得所述原始图像的码流。
于本发明一实施例中,所述下采样模块包括n层下采样子模块;则所述基于所述下采样模块,提取原始图像的空间特征,包括:利用各所述下采样子模块,对输入图像分别进行处理,以获得对应的各空间特征,和获得目标空间特征;其中,各所述输入数据为上一层下采样子模块处理后输出的空间特征数据;所述目标空间特征为经过最后一层下采样子模块处理后,所获得的空间特征数据。
于本发明一实施例中,所述频率特征模块包括n个频率采集子模块和拼接融合子模块;各所述频率采集子模块分别连接对应的下采样子模块;所述基于所述频率特征模块,提取所述原始图像的频率特征,包括:对于各所述下采样子模块输出的空间特征,分别采用与所述下采样子模块对应连接的所述频率采集子模块进行处理,以获得对应的频率特征图;利用所述拼接融合层,将各所述频率特征图进行拼接融合,以获得所述原始图形的目标频率特征。
于本发明一实施例中,所述频率采集子模块包括第一特征转换单元、第二重采样单元、深度特征提取单元和第二特征转换单元;其中,所述第一特征转换单元,用于将图像所述空间特征转换为所述频率特征;所述第二特征转换单元用于将图像的所述频率特征转换为所述空间特征;所述采用与所述下采样子模块对应连接的所述频率采集子模块进行处理,包括:对于单个所述空间特征,利用所述第一转换子模块进行特征转换,以获第一频率特征;利用所述第二重采样单元对所述第一频率特征进行重采样,以获得第二频率特征;利用所述深度特征提取单元对所述第二频率特征进行处理,以获得第三频率特征;以及,利用所述第二转换子模块,对所述第三频率特征进行特征转换,以获得对应的频率特征图。
于本发明一实施例中,所述深度特征提取单元包括依次连接的第四卷积层、第一激活层和第五卷积层;其中,所述第四卷积层和所述第五卷积层的卷积核大小相同;所述利用所述深度特征提取单元对所述第二频率特征进行处理,以获得第三频率特征,包括:对所述第二频率特征,利用所述第四卷积层、第一激活层和第五卷积层执行特征提取;将提取后新的第二频率特征和提取前的所述第二频率特征进行融合,以获得所述第三频率特征。
于本发明一实施例中,所述下采样模块还包括第一重采样子模块;连接于最后一层所述下采样子模块之后;所述基于所述下采样模块,提取原始图像的空间特征,还包括:基于所述第一重采样子模块,对所述最后一层下采样子模块所输出的目标空间特征的特征尺度进行更新,以获取新的目标空间特征。
本发明于第二方面提供一种图像处理方法,基于训练后的图像处理模型,对原始图像进行压缩;所述图像处理模型包括如上任意所述的图像编码方法中所述压缩模型的模块,以及解码模块和上采样模块;所述图像处理方法,包括:基于所述图像压缩模型,采用如上任意所述的图像编码方法,对所述原始图像进行处理,以获得对应的码流;基于所述解码模块对获取的码流执行算术解码,以获得算术解码后的第二潜在特征;以及,基于所述上采样模块对所述第二潜在特征进行图像重建,以获得重建后新的图像数据。
本发明于第三方面提供一种图像处理方法,一种图像处理方法,其特征在于,包括:获取训练集;基于所述训练集中的各原始图像数据,结合预先构建的超先模型和上下文模型,图像处理模型执行训练过程,以获得训练后的图像处理模型;其中,图像处理模型包括如上所述的图像处理方法中所述图像处理模型的模块;将待压缩的原始图像输入训练后的所述图像处理模型中,以获得压缩后的新图像数据。
于本发明一实施例中,所述结合预先构建的超先模型和上下文模型对图像处理模型执行训练过程,于单次执行时候,包括;采用如上任意所述的图像编码方法,对单个所述原始图像进行处理,以获得对应的所述第一潜在特征量化值;将所述第一潜在特征量化值输入所述超先验模型中,依次执行超先验下采样过程,超先验量化过程,超先验编解码过程,超先验上采样过程,以对应获得超先验第一潜在特征,超先验第一潜在特征量化值,超先验第二潜在特征和超先验重建特征;和基于所述上下文模型,提取所述第一潜在特征量化值的上下文特征;融合所述上下文特征与所述超先验重建特征,以获得融合后的超先验潜在特征;对所述融合后的超先验潜在特征进行线性变换,获取所述第一潜在特征的高斯分布参数信息,以基于所述高斯分布参数信息,对所述第一潜在特征量化值进行算术编码,获得码流;和基于所述高斯分布参数信息,对所述码流进行算术解码,以获得算术解码后的第二潜在特征;对所述第二潜在特征进行图像重建,以获得重建后新的图像数据;以及,基于所述第一潜在特征量化值和所述超先验潜在特征量化值,构建第一损失函数;和基于所述新的图像数据和所述原始图像数据,构建第二损失函数;基于所述第一损失函数和所述第二损失函数,构建总损失函数,以基于所述总损失函数,训练所述图像处理模型。
本发明于第四方面提供一种终端,其特征在于,包括:处理器以及存储器,所述存储器与所述处理器之间通信连接;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如上任意一项所述的图像编码方法或如上所述的图像处理方法。
本发明最后还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上任意一项所述的图像编码方法或如上所述的图像处理方法。
与现有技术相比,本发明提供的所述图像编码方法及图像处理方法、终端及计算机存储介质,利用与下采样模块连接的频率特征模块,于获取图像空间域特征的同时,获取对应的频率特征;基于空间特征和频率特征,获取图像的潜在特征,以基于该潜在特征表达,获取图像对应的编码信息,使编码信息中能包含图像的频率特征信息,从而提高了基于频率特征的编码信息所重建图像数据的率失真平衡,提高了红外图像压缩比例和压缩质量之间的平衡性,即实现了于同bpp(Bits Per Pixel,每像素比特数)条件下达到更高的PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)和MS-SSIM(Multi-Scale StructuralSimilarity,多尺度结构相似性指数),或于相同PSNR或者MS-SSIM条件下,实现更低的BPP。
附图说明
图1显示为本发明所述图像编码方法于一实施例中的流程示意图
图2显示为本发明所述图像处理方法于一实施例中的流程示意图
图3显示为本发明所述图像处理方法于另一实施例中的流程示意图
图4显示为本发明所述图像处理方法于执行单次所述训练过程于一实施例中的流程示意图
图5显示为图像压缩模型、超先模型和上下文模型于一具体实施例中的连接示意图
图6显示单个频率特征采集网络于一具体实施例中的结构示意图;
图7显示本发明对比实验中压缩性能参数对比结果
图8显示本发明对比实验中压缩效果对比结果
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
为了便于理解本申请中的技术方案和技术效果,进行以下简要说明:
BPP:Bits Per Pixel,每像素比特数,编码每像素的颜色信息所需要的平均比特数。
PSNR:Peak Signal-to-Noise Ratio,峰值信噪比,是用于衡量图像重建质量的客观指标,定义为
Figure BDA0003778477190000051
其中MAXI是表示图像颜色的最大数值,MSE是原始图像和重建图像的均方误差。PSNR的单位是分贝(decibel,dB)。
MS-SSIM:Multi-Scale Structural Similarity,多尺度结构相似性指数,是一种基于多尺度(图片按照一定规则,由大到小缩放)的测量两个图像之间相似性的方法,定义为
Figure BDA0003778477190000052
其中l表示亮度,c表示对比度,s表示结构。
实施例1
为解决现有技术中存在的技术问题,本发明于实施例提供一种图像编码方法,基于训练后的图像压缩模型对原始图像进行编码;所述图像压缩模型包括下采样模块、频率特征模块、量化模块和编码模块。
其中,所述原始图像为未压缩处理的红外图像(以下简称原始图像);所述下采样模块连接所述频率特征模块。
请参阅图1,示出为本发明提供的所述图像编码方法于一实施例中的流程示意图。如图1所示,所述方法包括以下步骤:
S100,获取原始图像;
可选的,将单幅待压缩的图像裁剪为预设大小的若干子图像,并将各子图像分别作为所述原始图像,执行后续步骤。
于一具体实施例中,所述预设大小为256*256。
S200,基于所述下采样模块,提取所述原始图像的空间特征,和基于编码器中的所述频率特征模块,提取所述原始图像的频率特征;融合所述空间特征和所述频率特征,以获取所述原始图像的潜在特征;
于本实施例中,所述下采样模块包括N层下采样子模块,于单个所述下采样子模块中包括下采样卷积层;
其中,各下采样卷积层对应的卷积核大小可以相同或不同,在此不做具体限定。
所述频率特征模块包括频率采集子模块和拼接融合子模块;其中,所述频率采集子模块包括N个,各所述频率采集子模块分别连接对应的下采样子模块。
可选的,N为2-5中的任意整数;优选的,N为3。
具体的,利用各层下采样子模块,对输入图像分别进行处理,以获得对应的各空间特征,和获得目标空间特征;
其中,所述输入数据为上一层下采样子模块处理后输出的空间特征数据;所述目标空间特征为经过最后一层下采样子模块处理后,所获得的空间特征数据。
对于各层下采样子模块输出的空间特征,分别采用与所述下采样子模块对应连接的所述频率采集子模块进行处理,以获得对应的频率特征图;利用所述拼接融合子模块,将各所述频率特征图进行拼接融合,以获得所述原始图形的目标频率特征;其中,所述频率特征为包括图像频率特征信息的特征数据。
于获得所述目标空间特征和所述目标频率特征后,将所述目标空间特征和所述目标频率特征中相同维度的特征元素进行累加,以获取所述原始图像的第一潜在特征,为:
y=y1+y2
其中,y1为所述目标空间特征,y2为所述目标频率特征,y为所述第一潜在特征。
于另一实施例中,所述下采样模块还包括第一重采样子模块,连接于最后一层所述下采样子模块之后;基于所述第一重采样子模块,对所述最后一层下采样子模块所输出的目标空间特征的特征大小进行更新,以获取新的目标空间特征,以使重采样后新的目标空间特征大小和所述目标频率特征大小相同,以便于两者特征信息的融合。
可选的,所述第一重采样子模块包括第一卷积层。
可选的,所述图像压缩模型还包括通道注意力模块,连接于下采样模块之后;利用该通道注意力模块,对所述目标空间特征进行多通道特征的融合,以获得多通道特征融合后的新目标空间特征,并基于该新目标空间特征执行后续步骤。
于一实施例中,单个所述频率采集子模块包括第一特征转换单元、第二重采样单元、深度特征提取单元和第二特征转换单元;
其中,所述第一特征转换单元用于将图像的空间特征转换为频率特征;
所述第二重采样单元中包括第二卷积层;于单个所述频率采集子模块中,所述第二卷积层的卷积核大小和卷积步长相对应,为卷积核大小越大,则卷积步长越大;且于各所述频率采集子模块中,所述第二卷积层的步长大小和其对应的下采样卷积层的步长大小相适配,以使各所述频率采集子模块输出的频率特征大小相同。
示例性的,当所述原始图像的大小为256*256,且N为3时,第一至第三下采样子模块中下采样卷积层的步长均为2时,则与第一下采样子模块对应的第一频率采集子模块中第二卷积层的步长为8,与第二下采样子模块对应的第二频率采集子模块中第二卷积层的步长为4,与第三下采样子模块对应的第三频率采集子模块中第二卷积层的步长为2,以使各所述频率采集子模块输出的频率特征大小均为32*32。
所述深度特征提取单元用于提取所述频率特征中的特征信息,以获得更深层次的频率特征图;所述第二特征转换单元用于将图像的频率特征转换为空间特征。
具体的,对于单个所述空间特征,利用所述第一转换子模块进行特征转换,以获第一频率特征;利用所述第二重采样单元对所述第一频率特征进行重采样,以获得第二频率特征;利用所述深度特征提取单元对所述第二频率特征进行处理,以获得第三频率特征;以及,利用所述第二转换子模块,对所述第三频率特征进行特征转换,以获得对应的频率特征图。
可选的,所述深度特征提取单元包括依次连接的第四卷积层、第一激活层和第五卷积层;其中,所述第四卷积层和所述第五卷积层的卷积核大小相同;所述第一激活层包括但不限于Relu或LeakyRelu或其他的激活函数;
具体的,所述利用所述深度特征提取单元对所述第二频率特征进行处理,以获得第三频率特征,包括:
对所述第二频率特征,利用所述第四卷积层、第一激活层和第五卷积层执行特征提取;将提取后新的第二频率特征和提取前的所述第二频率特征进行融合,以获得所述第三频率特征。
可选的,所述拼接融合子模块包括拼接层和全连接层。
可选的,所述全连接层为1*1的卷积层。
S300,基于所述量化模块对所述第二潜在特征进行量化,以获得所述第二潜在特征量化值;和基于所述编码模块对所述第二潜在特征量化值进行算术编码,以获得所述原始图像的码流。
于本实施例中,所述编码方法包括熵编码方法,包括但不限于哈尔曼编码、算数编码或其他现有的编码方式。
本实施例提供的所述图像编码方法,利用下采样模块提取原始图像于各尺度空间特征的同时,利用频率特征模块提取各尺度空间特征对应的频率特征,以基于图像的空间特征和频率特征,获取包含频率特征的潜在特征;并基于该潜在特征获得图像的码流,使获得的码流数据中能包含图像的频率特征,从而可以提高码流数据所重建图像数据的率失真平衡,提高了红外图像压缩比例和压缩质量之间的平衡性。
实施例2
为解决现有技术中存在的技术问题,本申请还提供一种图像处理方法,基于预先训练后的图像处理模型对红外图像进行压缩。所述图像处理模型于实施例1所述图像压缩模型的基础上还包括解码模块和上采样模块。
请参阅图2,示出为所述图像处理方法于一实施例中的流程示意图。
如图2所示,所述图像处理方法于图1示出的所述图像编码方法基础上,还包括:
S400,基于所述解码模块对所述码流执行算术解码,以获得算术解码后的第二潜在特征;
于一具体实施例中,采用无损编解码方法,则算数解码后的所述第二潜在特征与算术解码前的所述第一潜在特征相同。
S500,基于上采样模块对所述第二潜在特征进行图像重建,以获得重建后新的图像数据。
其中,所述上采样模块包括若干个上采样子模块;于各所述上采样子模块中包括上采样卷积层。
具体的,各上采样子模块依次对输入特征执行上采样处理,以使最后一个上采样子模块输出的特征图与原始图像大小相同;将该特征图作为基于码流重建后的新图像数据。
其中,所述输入图像为上一层上采样子模块处理后输出的特征图。
于一实施例中,所述上采样模块的结构与实施例1中所述下采样模块的结构相对应。
可选的,所述图像压缩模型于所述上采样模块之前,还包括第二通道注意力模块;利用该第二通道注意力模块,可以加强通道间的信息提取,得到更好的重建图像。
实施例3
为解决现有技术中存在的技术问题,本申请于实施例提供一种图像处理方法,基于样本数据对预先构建的图像处理模型进行训练,获得训练后的图像压缩模型,以基于训练后的压缩模型,对输入的待压缩图像进行压缩处理。
其中,所述预先构建的图像处理模型,其模型结构与实施例2中的所述图像处理模型结构相同,在此不再赘述。
于本实施例中,在模型训练过程中,将所述图像压缩模型与预先构建的超先验模型和上下文模型相结合,以实现对各模型的综合训练。
其中,超先验模型包括超先验编码器和超先验解码器;所述超先验编码器包括超先验下采样模块、超先验量化模块和超先验编码模块;所述超先验解码器包括超先验解码模块和超先验上采样模块。
所述超先验上采样模块的结构,与所述超先验下采样模块的结构相对应。
于一具体实施方式中,所述超先验下采样模块包括依次连接的第七卷积层、第二激活层和第八卷积层;所述超先验上采样模块包括依次连接的第九卷积层、第三激活层和第十卷积层;所述第七卷积层和所述第九卷积层相同,所述第八卷积层和所述第十卷积层相同。
其中,所述第二激活层和所述第三激活层均包括但不限于Relu或LeakyRelu或其他的激活函数。
于本实施例,所述上下文模型用于获取所述第一潜在特征量化值的上下文特征;其中,所述上下文特征包括所述原始图像中各像元上下文的图像特征信息。
请参阅图3,示出为所述图像处理方法于一实施例中的流程示意图。
如图3所示,所述图像处理方法包括:
S10,基于样本图像数据,构建训练集;
具体的,于获取样本数据后,构建训练集;以及,设置模型训练参数和优化器。
于一具体实施方式中,设置所述模型训练参数包括:设置训练迭代次数为200万次,其中前170万次的学习率设置为1e-4,后30万次学习率设置为1e-5;和将Adam设置为模型优化器。
S20,基于所述训练集中的各样本数据,对所述图像处理模型执行训练过程,以获得训练后的模型;
其中,各所述样本数据包括原始图像数据。
具体的,对于单个原始图像数据,于执行单次所述训练过程时,如图4所示,包括以下子步骤:
S21,基于所述下采样模块,提取所述原始图像的空间特征,和基于所述频率特征模块,提取所述原始图像的频率特征;融合所述空间特征和所述频率特征,以获取所述原始图像的第一潜在特征;
S22,对所述第一潜在特征进行量化处理,以获得所述第一潜在特征量化值;
S23,将所述第一潜在特征量化值输入所述超先验模型中,依次执行超先验下采样过程,超先验量化过程,超先验编解码过程,超先验上采样过程,以对应获得超先验第一潜在特征,超先验第一潜在特征量化值,超先验第二潜在特征和超先验重建特征;和基于所述上下文模型,提取所述第一潜在特征量化值的上下文特征;融合所述上下文特征与所述超先验重建特征,以获得融合后的超先验潜在特征;
具体的,对所述第一潜在特征执行超先验下采样过程,以获得超先验第一潜在特征量化值;对所述超先验第一潜在特征量化值执行超先验编码,以获得超先验码流;对所述超先验码流执行超先验解码,以获得超先验第二潜在特征;和对所述超先验第二潜在特征执行上采样过程,以获得超先验重建特征。
S24,对所述融合后的超先验潜在特征进行线性变换,获取所述第一潜在特征的高斯分布参数信息;
于本实施例中,所述高斯分布参数信息包括所述第一潜在特征的均值和方差。
S25,基于所述高斯分布参数信息,对所述第一潜在特征量化值进行算术编码,以获得码流;和基于所述高斯分布参数信息,对所述码流进行算术解码,以获得算术解码后的第二潜在特征;
S26,对所述第二潜在特征进行图像重建,以获得重建后新的图像数据;
S27,基于所述第一潜在特征量化值和所述超先验潜在特征量化值,构建第一损失函数;和基于所述新的图像数据和所述原始图像数据,构建第二损失函数;基于所述第一损失函数和所述第二损失函数,构建总损失函数,以基于所述总损失函数,训练所述图像处理模型。
具体的,所述基于所述第一潜在特征量化值和所述超先验潜在特征量化值,构建第一损失函数,包括:
估计所述第一潜在特征量化值的熵作为第一熵;和估计所述超先验潜在特征量化值的熵作为第二熵;将所述第一熵和所述第二熵相叠加,以获得第一损失函数R-LOSS。
于一具体实施方式中,基于所述第一潜在特征量化值的码流,计算第一BPP值,作为所述第一熵;和基于所述超先验潜在特征量化值的码流,计算第二BPP值,作为所述第二熵;叠加所述第一BPP值和所述第二BPP值,以获得所述第一损失函数R-LOSS。
其中,所述第一BPP值为所述第一潜在特征量化值算术编码后的码流与所述原始图像大小之间的比值;所述第二BPP值为所述第二潜在特征量化值算术编码后的码流与所述原始图像大小之间的比值。
基于所述新的图像数据和所述原始图像数据,构建第二损失函数,包括:
计算所述新的图像数据和所述原始图像的均分误差,将该均分误差作为所述第二损失函数L-LOSS。
基于所述第一损失函数和所述第二损失函数,构建总损失函数,为:
LOSS=R-LOSS+λL-LOSS
其中,LOSS为总损失函数,λ为平衡所述第一损失函数和第二损失函数的参数。
S30,将待压缩的原始图像输入训练后的所述图像压缩模型中,以获得压缩后的新图像数据。
以下将通过一个具体实施例描述所述图像压缩模型训练过程,在单次执行时的实现过程。
请参阅图5,示出所述图像压缩模型、所述超先模型和所述上下文模型于一具体实施例中的连接示意图。
如图5所示,所述图像压缩模型600包括输入层610,下采样网络620、通道注意力层630、量化模块640、编码解码模块650、频率特征采集网络660、拼接融合层670、重建网络680和输出层690。
具体的,所述下采样网络620中包括4层下采样卷积层和3层GDN层;其中,第四层下采样卷积层为所述特征重采样子模块;各所述下采样卷积层的卷积核大小相等,为5*5。
单个所述频率特征采集网络660如图6所示,包括依次连接的FDCT层(频率变换层)、第一卷积层C1至第三卷积层C3、LeahyRelu层和IDCT(反频率变换层);其中,FDCT层作为所述第一特征变换单元,IDCT作为所述第二特征变换单元;第二卷积层C2、第三卷积层C3、和LeahyRelu层构成所述深度特征提取单元;
其中,于各所述频率特征采集网络中的第一卷积层C1尺度不同。于本实施例中,于第一频率特征采集网络中,第一卷积层C1的卷积核大小9*9,步长为8;于第二频率特征采集网络中,第一卷积层C1的卷积核大小为7*7,步长为4;于第三频率特征采集网络中,第一卷积层C1的卷积核大小为5*5,步长为2;第二卷积层C2和第三卷积层C3,均为3*3且步长为1的卷积层。
所述超先验模型700包括超先验下采样模块710、超先验量化模块720、超先验编码模块730、超先验解码模块740和超先验上采样模块750。
其中,超先验下采样模块710包括超先验第一下采样层和超先验第二下采样层;超先验第一下采样层的卷积核大小为5*5且步长为1;超先验第二下采样层的卷积核大小为5*5且步长为2;超先验上采样网络750中包括对应的超先验第一上采样层和超先验第二上采样层。
于具体实施例,当输入的原始图像为H*W*3时,将该原始图像经过4层上采样卷积层、3层IGDN层和通道注意力层处理后,获得目标空间特征y1;以及第一IGDN层输出的第一空间特征x1(维度为H/2,W/2,3)、第二GDN层输出的第二空间特征x2(维度为H/4,W/4,3)和由第三GDN层输出的第三空间特征x3(维度为H/8,W/8,3)。
将所述第一空间特征至所述第三空间特征,分别经所述频率特征采集网络660处理后,获得三个对应的频率特征;基于拼接融合层对所述三个频率特征进行连接和特征融合,以获得目标频率特征y2。
将所述目标空间特征y1和所述目标频率特征y2进行叠加,获得第一潜在特征y;即:
y=y1+y2
利用量化模块对第一潜在特征y进行量化处理,得到第一潜在特征量化值
Figure BDA0003778477190000111
将该第一潜在特征量化值
Figure BDA0003778477190000112
输入到上下文模型800中处理,得到第一潜在特征的上下文特征;以及对第一潜在特征y通过超先验下采样模块和超先验量化模块依次处理后,得到超先验第一潜在特征量化值
Figure BDA0003778477190000121
将超先验第一潜在特征量化值
Figure BDA0003778477190000122
依次进行编码、解码和上采样处理,以得到超先验重建特征。将所述上下文特征和超先验重建特征融合后进行线性变换,以得到所述第一潜在特征y的高斯分布参数信息,包括均值和方差。
估计第一潜在特征量化值
Figure BDA0003778477190000123
的熵为R1和超先验潜在特征量化值
Figure BDA0003778477190000124
的熵为R2,两者相加,作为第一损失函数R-LOSS。
以及,基于所述高斯分布参数信息,对码流进行算术解码,获得第二潜在特征;基于重构网络680,对所述第二潜在特征进行重构,以获得重建图像。
基于所述重建图像与所述原始图像,获得两者的均分误差(MSE);以基于该均分误差,构建第二损失函数L-LOSS。
基于第一损失函数和第二损失函数,构建整体损失函数为:
LOSS=R-LOSS+λL-LOSS
基于整体损失函数执行反向传播,以更新所述图像压缩模型的模型参数。
为了进一步验证本发明提供的所述图像处理方法的有效性,采用以下对比实验,对本发明所述图像处理方法和现有图像压缩方法的压缩效果和压缩性能进行比较。
请参阅图7和图8,分别示出为对比实验的压缩性能参数对比结果,和压缩效果对比结果;其中,图7和图8中均包括基于现有图像压缩方法获得的图像,为JPEG图、JPEG2000图和BPG图,和基于本发明所述图像处理方法获得的图像,为A图;各图的压缩指标如下表;由表可知,A图于较低的bpp值下,具有最高的MS-SSIM值。
图像 JPEG JPEG2000 BPG A
bpp 0.1577 0.2348 0.1111 0.1154
PSNR 25.3001 34.161 33.2799 29.4884
MS-SSIM 0.7731 0.9526 0.9482 0.97023
图8显示出本发明所述图像处理方法可以实现压缩比例和压缩质量之间的平衡性的有效提升,和压缩效果更优。
实施例4
为解决现有技术中存在的上述技术问题,本发明实施例还提供了一种终端,包括相互连接的处理器及存储器;存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以使终端执行时可实现如上所述图像编码方法中的所有步骤或实现如上所述图像处理方法中的所有步骤。
其中,图像编码方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均上述实施例中的相同,在此不在对其进行赘述。
同样的,图像处理方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均上述实施例中的相同,在此不在对其进行赘述。
需要说明的是,存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。同理处理器也可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例5
为解决现有技术中存在的上述技术问题,本发明实施例还提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时可实现如上所述图像编码方法中的所有步骤或实现如上所述图像处理方法中的所有步骤。
其中,图像编码方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均上述实施例中的相同,在此不在对其进行赘述。
同样的,图像处理方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均上述实施例中的相同,在此不在对其进行赘述。
需要说明的是:存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本发明提供的所述图像编码方法及图像处理方法、终端及计算机存储介质,利用下采样模块提取原始图像于各尺度空间特征的同时,利用频率特征模块提取各尺度空间特征对应的频率特征,以基于图像的空间特征和频率特征,获取包含频率特征的潜在特征;并基于该潜在特征获得图像的码流,使获得的码流数据中能显式的包含图像的频率特征,从而可以提高码流数据所重建图像数据的率失真平衡,提高了红外图像压缩比例和压缩质量之间的平衡性。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (11)

1.一种图像编码方法,其特征在于,基于训练后的图像压缩模型对原始图像进行编码;所述图像压缩模型包括下采样模块,频率特征模块、量化模块和编码模块;其中,所述频率特征模块连接所述下采样模块;
所述图像编码方法,包括:
基于所述下采样模块,提取原始图像的空间特征,和基于所述频率特征模块,提取所述原始图像的频率特征;
融合所述空间特征和所述频率特征,获取所述原始图像的第一潜在特征;
基于所述量化模块,对所述第一潜在特征量化处理,获得第一潜在特征量化值,和基于所述编码模块,对所述第一潜在特征量化值算术编码,以获得所述原始图像的码流。
2.根据权利要求1所述的图像编码方法,其特征在于,所述下采样模块包括n层下采样子模块;
所述基于所述下采样模块,提取原始图像的空间特征,包括:
利用各所述下采样子模块,对输入图像分别进行处理,以获得对应的各空间特征,和获得目标空间特征;
其中,各所述输入数据为上一层下采样子模块处理后输出的空间特征;所述目标空间特征为经过最后一层下采样子模块处理后所获得的空间特征。
3.根据权利要求2所述的图像编码方法,其特征在于,所述频率特征模块包括拼接融合子模块和n个频率采集子模块;各所述频率采集子模块分别连接对应的下采样子模块;
所述基于所述频率特征模块,提取所述原始图像的频率特征,包括:
对于各所述下采样子模块输出的空间特征,分别采用与所述下采样子模块对应连接的所述频率采集子模块进行处理,以获得对应的频率特征图;
利用所述拼接融合层,将各所述频率特征图进行拼接融合,以获得所述原始图形的目标频率特征。
4.根据权利要求3所述的图像编码方法,其特征在于,所述频率采集子模块包括第一特征转换单元、第二重采样单元、深度特征提取单元和第二特征转换单元;其中,所述第一特征转换单元,用于将图像所述空间特征转换为所述频率特征;所述第二特征转换单元用于将图像的所述频率特征转换为所述空间特征;
所述采用与所述下采样子模块对应连接的所述频率采集子模块进行处理,包括:
对于单个所述空间特征,利用所述第一转换子模块进行特征转换,以获第一频率特征;
利用所述第二重采样单元对所述第一频率特征进行重采样,以获得第二频率特征;
利用所述深度特征提取单元对所述第二频率特征进行处理,以获得第三频率特征;以及,
利用所述第二转换子模块,对所述第三频率特征进行特征转换,以获得对应的频率特征图。
5.根据权利要求4所述的图像编码方法,其特征在于,所述深度特征提取单元包括依次连接的第四卷积层、第一激活层和第五卷积层;其中,所述第四卷积层和所述第五卷积层的卷积核大小相同;
所述利用所述深度特征提取单元对所述第二频率特征进行处理,以获得第三频率特征,包括:
对所述第二频率特征,利用所述第四卷积层、第一激活层和第五卷积层执行特征提取;将提取后新的第二频率特征和提取前的所述第二频率特征进行融合,以获得所述第三频率特征。
6.根据权利要求3至5中任一项所述的图像编码方法,其特征在于,所述下采样模块还包括第一重采样子模块;连接于最后一层所述下采样子模块之后;
所述基于所述下采样模块,提取原始图像的空间特征,还包括:
基于所述第一重采样子模块,对所述最后一层下采样子模块所输出的目标空间特征的特征尺度进行更新,以获取新的目标空间特征。
7.一种图像处理方法,其特征在于,基于训练后的图像处理模型,对原始图像进行压缩;所述图像处理模型包括如权利要求1至4中任意一项所述的图像编码方法中所述压缩模型的模块,以及解码模块和上采样模块;
所述图像处理方法,包括:
基于所述图像压缩模型,采用如权利要求1至6中任意一项所述的图像编码方法,对所述原始图像进行处理,以获得对应的码流;
基于所述解码模块对所述码流执行算术解码,获得算术解码后的第二潜在特征;以及,
以及,基于所述上采样模块对所述第二潜在特征进行图像重建,以获得重建后新的图像数据。
8.一种图像处理方法,其特征在于,包括:
获取训练集;基于所述训练集中的各原始图像数据,结合预先构建的超先模型和上下文模型,对图像处理模型执行训练过程,以获得训练后的图像处理模型;其中,所述图像处理模型包括如权利要求7所述的图像处理方法中所述图像处理模型的模块;
将待压缩的原始图像输入训练后的所述图像处理模型中,以获得压缩后的新图像数据。
9.根据权利要求8所述的图像编码方法,其特征在于,所述结合预先构建的超先模型和上下文模型对图像处理模型执行训练过程,于单次执行时候,包括;
采用如权利要求1至6中任意一项所述的图像编码方法,对单个所述原始图像进行处理,以获得对应的所述第一潜在特征量化值;将所述第一潜在特征量化值输入所述超先验模型中,依次执行超先验下采样过程,超先验量化过程,超先验编解码过程,超先验上采样过程,以对应获得超先验第一潜在特征,超先验第一潜在特征量化值,超先验第二潜在特征和超先验重建特征;和基于所述上下文模型,提取所述第一潜在特征量化值的上下文特征;融合所述上下文特征与所述超先验重建特征,以获得融合后的超先验潜在特征;
对所述融合后的超先验潜在特征进行线性变换,获取所述第一潜在特征的高斯分布参数信息,以基于所述高斯分布参数信息,对所述第一潜在特征量化值进行算术编码,获得码流;和基于所述高斯分布参数信息,对所述码流进行算术解码,以获得算术解码后的第二潜在特征;
对所述第二潜在特征进行图像重建,以获得重建后新的图像数据;以及,
基于所述第一潜在特征量化值和所述超先验潜在特征量化值,构建第一损失函数;和
基于所述新的图像数据和所述原始图像数据,构建第二损失函数;基于所述第一损失函数和所述第二损失函数,构建总损失函数,以基于所述总损失函数,训练所述图像处理模型。
10.一种终端,其特征在于,包括:处理器以及存储器,所述存储器与所述处理器之间通信连接;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至6中任一项所述的图像编码方法或如权利要求7所述的图像处理方法。
11.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的图像编码方法或如权利要求7所述的图像处理方法。
CN202210923135.XA 2022-08-02 2022-08-02 图像编码方法及图像处理方法、终端及介质 Pending CN115294222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210923135.XA CN115294222A (zh) 2022-08-02 2022-08-02 图像编码方法及图像处理方法、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210923135.XA CN115294222A (zh) 2022-08-02 2022-08-02 图像编码方法及图像处理方法、终端及介质

Publications (1)

Publication Number Publication Date
CN115294222A true CN115294222A (zh) 2022-11-04

Family

ID=83826519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210923135.XA Pending CN115294222A (zh) 2022-08-02 2022-08-02 图像编码方法及图像处理方法、终端及介质

Country Status (1)

Country Link
CN (1) CN115294222A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116260969A (zh) * 2023-05-15 2023-06-13 鹏城实验室 一种自适应的通道渐进式编解码方法、装置、终端及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116260969A (zh) * 2023-05-15 2023-06-13 鹏城实验室 一种自适应的通道渐进式编解码方法、装置、终端及介质
CN116260969B (zh) * 2023-05-15 2023-08-18 鹏城实验室 一种自适应的通道渐进式编解码方法、装置、终端及介质

Similar Documents

Publication Publication Date Title
CN109886871B (zh) 基于通道注意力机制和多层特征融合的图像超分辨率方法
WO2020237646A1 (zh) 图像处理方法、设备及计算机可读存储介质
CN111988609A (zh) 图像编码装置、概率模型生成装置和图像解码装置
CN110288524B (zh) 基于增强型上采样和辨别融合机制的深度学习超分辨率方法
CN113079378B (zh) 图像处理方法、装置和电子设备
CN109118428B (zh) 一种基于特征增强的图像超分辨率重建方法
WO2022011571A1 (zh) 视频处理方法、装置、设备、解码器、系统及存储介质
CN115294222A (zh) 图像编码方法及图像处理方法、终端及介质
CN113962882B (zh) 一种基于可控金字塔小波网络的jpeg图像压缩伪影消除方法
CN113538287B (zh) 视频增强网络训练方法、视频增强方法及相关装置
Xing et al. Scale-arbitrary invertible image downscaling
CN112991169B (zh) 基于图像金字塔和生成对抗网络的图像压缩方法及系统
CN111050170A (zh) 基于gan的图片压缩系统构建方法、压缩系统及方法
CN113256744A (zh) 一种图像编码、解码方法及系统
US20120155749A1 (en) Method and device for coding a multidimensional digital signal
CN113096019B (zh) 图像重建方法、装置、图像处理设备及存储介质
CN113344786B (zh) 基于几何生成模型的视频转码方法、装置、介质和设备
Zhang et al. Dual-layer image compression via adaptive downsampling and spatially varying upconversion
Thakker et al. Lossy Image Compression-A Comparison Between Wavelet Transform, Principal Component Analysis, K-Means and Autoencoders
CN114022356A (zh) 基于小波域的河道流量水位遥感图像超分辨率方法与系统
CN113141506A (zh) 基于深度学习的图像压缩神经网络模型、及其方法和设备
CN116916034B (zh) 基于safd的图像处理方法、装置、设备及存储介质
CN114882133B (zh) 一种图像编解码方法、系统、设备及介质
KR100606357B1 (ko) 웨이브릿 기반의 멀티미디어 데이터 분해와 복원 방법 및시스템
CN116260969B (zh) 一种自适应的通道渐进式编解码方法、装置、终端及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination