CN111161363A - 一种图像编码模型训练方法及装置 - Google Patents
一种图像编码模型训练方法及装置 Download PDFInfo
- Publication number
- CN111161363A CN111161363A CN201811342385.4A CN201811342385A CN111161363A CN 111161363 A CN111161363 A CN 111161363A CN 201811342385 A CN201811342385 A CN 201811342385A CN 111161363 A CN111161363 A CN 111161363A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- code rate
- self
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种图像编码模型训练方法及装置,所述方法包括:通过特征提取网络提取图像的特征;根据概率模型对所述特征进行估计,得到码率估计结果;将所述特征输入解码网络,得到重建图;将所述重建图与所述图像进行比较,并根据所述码率估计得到率‑失真优化结果;根据所述率‑失真优化结果对所述特征提取网络的参数进行调整,该方法可对任意类型数据进行压缩,并有很大的性能提升空间。
Description
技术领域
本发明涉及图像压缩领域,特别涉及一种图像编码模型训练方法及装置。
背景技术
目前的图像编码模型训练方法存在技术复杂度高、低码率容易造成细节的丢失、低码率下,对文字等细节重建质量一般等问题。
发明内容
为了解决上述问题,本发明实施例提供了一种图像编码模型训练方法。
根据本发明的第一方面,提供了一种图像编码模型训练方法,包括:
通过特征提取网络提取图像的特征;
根据概率模型对所述特征进行估计,得到码率估计结果;
将所述特征输入解码网络,得到重建图;
将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果;
根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
进一步地,所述通过特征提取网络提取图像的特征包括:
通过特征提取网络进行图像特征的映射,得到所述图像的特征,其中,所述特征提取网络为自编码网络。
进一步地,所述根据概率模型对所述特征进行估计,得到码率估计结果包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
进一步地,所述将所述特征输入解码网络,得到重建图包括:
根据自解码网络,对所述特征进行解码,得到重建图;
进一步地,所述将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果包括:
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
进一步地,所述自编码网络和自解码网络为多层卷积神经网络,其中所述自编码网络的层数和所述自解码网络的层数可以相同和/或不同。
进一步地,在所述将所述特征输入解码网络,得到重建图之前,还包括:
对所述特征进行量化,得到量化后的特征。
根据本发明的第二方面,提供了一种图像编码模型训练装置,包括:
提取单元,用于通过特征提取网络提取图像的特征;
估计单元,用于根据概率模型对所述特征进行估计,得到码率估计结果;
解码单元,用于将所述特征输入解码网络,得到重建图;
比较单元,用于将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果;
调整单元,用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
进一步地,所述提取单元还用于:
通过特征提取网络进行图像特征的映射,得到所述图像的特征,其中,所述特征提取网络为自编码网络。
进一步地,所述比较单元还用于:
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果;
其中,所述自编码网络和自解码网络为多层卷积神经网络,所述自编码网络的层数和所述自解码网络的层数可以相同和/或不同。
本发明实施例提供一种图像编码模型训练方法及装置,可对任意类型数据进行压缩,并有很大的性能提升空间。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的方法流程图;
图2是本发明实施例提供的方法流程图;
图3是本发明实施例提供的模型训练示意图;
图4是本发明实施例提供的模型训练示意图;
图5是本发明实施例提供的装置示意图;
图6是本发明实施例提供的装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种图像编码模型训练方法,如图1所示,所述方法包括:
步骤102,通过特征提取网络提取图像的特征。
具体的,可以通过自编码网络提取图像的特征。
自编码网络的作用是将数据从图像空间x,转换到数据编码空间y,它包含一个编码器fe。编码器的作用是将图像像素值x转换为压缩特征y=fe(x)。
步骤104,根据概率模型对所述特征进行估计,得到码率估计结果。
具体的,包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
码率可用熵的结构进行建模,公式为:
可以使用带参数的方式对先验分布进行拟合,然后用数据驱动的方式对先验概率模型进行学习。
步骤106,将所述特征输入解码网络,得到重建图。
具体的,
根据自解码网络,对码所述特征进行解码,得到重建图。
步骤108,将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果。
具体的,
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
在压缩模型中,失真D可以用均方误差进行表示,其中,x表示所述图像(也称为原始图像或输入图像),表示重建图,或使用如MS-SSIM之类的主观失真进行计算。根据对码率和失真进行加权的损失函数R+λD对自编码压缩算法进行端到端的优化,其中R表示码率,D表示失真,λ表示权重,在优化过程中,首先定义损失函数,然后可使用反向传播算法对网络参数进行优化。
步骤110,根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
具体的,根据所述率-失真优化结果对所述特征提取网络的参数进行训练,并根据训练结果对所述参数进行优化。
进一步地,在步骤106之前,还包括:对所述压缩特征进行量化,得到量化后的压缩特征。
具体的,在训练过程中,使用加性均匀噪声设计量化器,表示方式为 其中是量化后的参数,yi是编码特征,∈是随机噪声。其中变量的熵能用变量yi的熵进行估计,因此在实际使用该模型的过程中,可以使用作为量化操作,这样一种方式下,也能对码率进行准确的估计。
实施例二
本发明实施例提供了一种图像编码模型训练方法,如图2所示,所述方法包括:
步骤202,通过特征提取网络提取图像的特征。
具体的,采用如图3所示的三层卷积神经网络对图像的特征进行提取,在一种可选的方式中,将每层卷积神经网络得到的结果都作为输入来计算得到最终的特征,即通过将每层卷积后得到的归一化特征再次进行卷积并作为级联的输入。
步骤204,根据概率模型对所述特征进行估计,得到码率估计结果。
具体的,包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
进一步地,可以采用自编码网络对方差进行学习,自编码网络的结构如图4所示,表示压缩特征作为超参数自编码网络的输入,对标准差分布进行学习,在超参自编码网络中,变量z的表示公式为:z=he(y),其中he表示超参数学习网络的编码器,然后进行量化,量化公式为然后被量化后的表示可作为附加变量进行传输。
步骤206,对特征进行量化,得到量化后的特征。
具体的,包括:
步骤208,将量化后的特征输入解码网络,得到重建图。
具体的,
根据自解码网络,对量化后的特征进行解码,得到重建图。
步骤210,将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果。
具体的,
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
在压缩模型中,失真D可以用均方误差进行表示,或使用如MS-SSIM之类的主观失真进行计算。对码率和失真进行加权的损失函数R+λD用以对自编码压缩算法进行端到端的优化,在优化过程中,首先定义损失函数,然后可使用反向传播算法对网络参数进行优化。
考虑到码率约束,可以构建一个进行码率有效分配的优化算法,目的是为码率约束的条件下,为每个图像选择最优的模型。每张图的最优配置,通过优化以下的优化问题进行选择,具体公式为:
步骤212,根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
具体的,采用梯度反向传播算法对卷积神经网络的参数进行更新。
实施例三
本发明实施例提供了一种图像编码模型训练装置,如图5所示,包括:
提取单元501,用于通过特征提取网络提取图像的特征。
具体的,可以通过自编码网络提取图像的特征。
自编码网络的作用是将数据从图像空间x,转换到数据编码空间y,它包含一个编码器fe。编码器的作用是将图像像素值x转换为压缩特征y=fe(x)。
估计单元502,用于根据概率模型对所述特征进行估计,得到码率估计结果。
具体的,包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
码率可用熵的结构进行建模,公式为:
可以使用带参数的方式对先验分布进行拟合,然后用数据驱动的方式对先验概率模型进行学习。
解码单元503,用于将所述特征输入解码网络,得到重建图。
具体的,
根据自解码网络,对特征进行解码,得到重建图。
比较单元504,用于将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果。
具体的,
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
在压缩模型中,失真D可以用均方误差进行表示,其中,x表示所述图像(也称为原始图像或输入图像),表示重建图,或使用如MS-SSIM之类的主观失真进行计算。根据对码率和失真进行加权的损失函数R+λD对自编码压缩算法进行端到端的优化,其中R表示码率,D表示失真,λ表示权重,在优化过程中,首先定义损失函数,然后可使用反向传播算法对网络参数进行优化。
调整单元505,用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
具体的,根据所述率-失真优化结果对所述特征提取网络的参数进行训练,并根据训练结果对所述参数进行优化。
进一步地,还包括量化单元506,用于对特征进行量化,得到量化后的特征。
具体的,在训练过程中,使用加性均匀噪声设计量化器,表示方式为 其中是量化后的参数,yi是编码特征,∈是随机噪声。其中变量的熵能用变量的熵进行估计,因此在实际使用该模型的过程中,可以使用作为量化操作,这样一种方式下,也能对码率进行准确的估计。
实施例四
本发明实施例提供了一种图像编码模型训练装置,如图6所示,包括:
提取单元601,用于通过特征提取网络提取图像的特征。
具体的,采用如图3所示的三层卷积神经网络对图像的特征进行提取,在一种可选的方式中,将每层卷积神经网络得到的结果都作为输入来计算得到最终的特征,即通过将每层卷积后得到的归一化特征再次进行卷积并作为级联的输入。
量化单元602,用于对特征进行量化,得到量化后的特征。
具体的,包括:
估计单元603,用于根据概率模型对所述特征进行估计,得到码率估计结果。
具体的,包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
进一步地,可以采用自编码网络对方差进行学习,自编码网络的结构如图4所示,压缩表示作为超参数自编码网络的输入,对标准差分布进行学习,在超参自编码网络中,变量z=he(y)的学习公式表示为,其中he表示超参数学习网络的编码器,然后进行量化,量化公式为然后被量化后的表示可作为附加变量进行传输。
解码单元604,用于将所述特征输入解码网络,得到重建图。
具体的,
根据自解码网络,对量化后的特征进行解码,得到重建图。
比较单元605,用于将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果。
具体的,
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
在压缩模型中,失真D可以用均方误差进行表示,或使用如MS-SSIM之类的主观失真进行计算。对码率和失真进行加权的损失函数R+λD用以对自编码压缩算法进行端到端的优化,在优化过程中,首先定义损失函数,然后可使用反向传播算法对网络参数进行优化。
考虑到码率约束,可以构建一个进行码率有效分配的优化算法,训练多个压缩模型,在一定的码率约束下,为每张图选择最优的压缩模型,每张图的最优配置,通过优化以下的优化问题进行选择,具体公式为:
调整单元606,用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
具体的,采用梯度反向传播算法对卷积神经网络的参数进行更新。
Claims (10)
1.一种图像编码模型训练方法,其特征在于,所述方法包括:
通过特征提取网络提取图像的特征;
根据概率模型对所述特征进行估计,得到码率估计结果;
将所述特征输入解码网络,得到重建图;
将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果;
根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
2.根据权利要求1所述的方法,其特征在于,所述通过特征提取网络提取图像的特征包括:
通过特征提取网络进行图像特征的映射,得到所述图像的特征,其中,所述特征提取网络为自编码网络。
3.根据权利要求1所述的方法,其特征在于,所述根据概率模型对所述特征进行估计,得到码率估计结果包括:
根据概率模型对分布进行估计,并根据熵进行码率估计,得到所述码率估计结果。
4.根据权利要求1所述的方法,其特征在于,所述将所述特征输入解码网络,得到重建图包括:
根据自解码网络,对所述特征进行解码,得到重建图。
5.根据权利要求1所述的方法,其特征在于,所述将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果包括:
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果。
6.根据权利要求5所述的方法,其特征在于,所述自编码网络和自解码网络为多层卷积神经网络,其中所述自编码网络的层数和所述自解码网络的层数可以相同和/或不同。
7.根据权利要求1-6任意一项所述的方法,其特征在于,在所述将所述特征输入解码网络,得到重建图之前,还包括:
对所述特征进行量化,得到量化后的特征。
8.一种图像编码模型训练装置,其特征在于,包括:
提取单元,用于通过特征提取网络提取图像的特征;
估计单元,用于根据概率模型对所述特征进行估计,得到码率估计结果;
解码单元,用于将所述特征输入解码网络,得到重建图;
比较单元,用于将所述重建图与所述图像进行比较,并根据所述码率估计得到率-失真优化结果;
调整单元,用于根据所述率-失真优化结果对所述特征提取网络的参数进行调整。
9.根据权利要求8所述的装置,其特征在于,所述提取单元还用于:
通过特征提取网络进行图像特征的映射,得到所述图像的特征,其中,所述特征提取网络为自编码网络。
10.根据权利要求8所述的装置,其特征在于,所述比较单元还用于:
将所述重建图和所述图像进行比较,得到失真残差;
根据所述码率估计结果和所述失真残差得到所述率-失真优化结果;
其中,所述自编码网络和自解码网络为多层卷积神经网络,所述自编码网络的层数和所述自解码网络的层数可以相同和/或不同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811342385.4A CN111161363A (zh) | 2018-11-07 | 2018-11-07 | 一种图像编码模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811342385.4A CN111161363A (zh) | 2018-11-07 | 2018-11-07 | 一种图像编码模型训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111161363A true CN111161363A (zh) | 2020-05-15 |
Family
ID=70555574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811342385.4A Pending CN111161363A (zh) | 2018-11-07 | 2018-11-07 | 一种图像编码模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161363A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833306A (zh) * | 2020-06-12 | 2020-10-27 | 北京百度网讯科技有限公司 | 缺陷检测方法和用于缺陷检测的模型训练方法 |
WO2024027635A1 (zh) * | 2022-08-01 | 2024-02-08 | 深圳市中兴微电子技术有限公司 | 视频传输方法、电子设备及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103975601A (zh) * | 2011-10-17 | 2014-08-06 | 谷歌公司 | 视频编码的速率-失真-复杂性优化 |
CN106709875A (zh) * | 2016-12-30 | 2017-05-24 | 北京工业大学 | 一种基于联合深度网络的压缩低分辨率图像复原方法 |
CN107122809A (zh) * | 2017-04-24 | 2017-09-01 | 北京工业大学 | 基于图像自编码的神经网络特征学习方法 |
-
2018
- 2018-11-07 CN CN201811342385.4A patent/CN111161363A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103975601A (zh) * | 2011-10-17 | 2014-08-06 | 谷歌公司 | 视频编码的速率-失真-复杂性优化 |
CN106709875A (zh) * | 2016-12-30 | 2017-05-24 | 北京工业大学 | 一种基于联合深度网络的压缩低分辨率图像复原方法 |
CN107122809A (zh) * | 2017-04-24 | 2017-09-01 | 北京工业大学 | 基于图像自编码的神经网络特征学习方法 |
Non-Patent Citations (3)
Title |
---|
JOHANNES BALLÉ等: "End-to-end optimization of nonlinear transform codes for perceptual quality", 《2016 PICTURE CODING SYMPOSIUM (PCS)》 * |
JOHANNES BALLÉ等: "end-to-end optimized image compression", 《ARXIV:1611.01704》 * |
艾达等: "基于机器学习的HEVC快速帧内预测算法研究进展", 《现代电子技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833306A (zh) * | 2020-06-12 | 2020-10-27 | 北京百度网讯科技有限公司 | 缺陷检测方法和用于缺陷检测的模型训练方法 |
CN111833306B (zh) * | 2020-06-12 | 2024-02-13 | 北京百度网讯科技有限公司 | 缺陷检测方法和用于缺陷检测的模型训练方法 |
WO2024027635A1 (zh) * | 2022-08-01 | 2024-02-08 | 深圳市中兴微电子技术有限公司 | 视频传输方法、电子设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111787323B (zh) | 一种基于对抗学习的可变比特率生成式压缩方法 | |
CN111163314A (zh) | 一种图像压缩方法及系统 | |
CN111641832B (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
Mentzer et al. | Conditional probability models for deep image compression | |
US9282330B1 (en) | Method and apparatus for data compression using content-based features | |
CN110753225A (zh) | 一种视频压缩方法、装置及终端设备 | |
WO2020150942A1 (zh) | 用于图像编解码的方法和装置 | |
US20230299788A1 (en) | Systems and Methods for Improved Machine-Learned Compression | |
CN114972551B (zh) | 一种点云的压缩和解压缩方法 | |
CN113163203A (zh) | 深度学习特征压缩和解压缩方法、系统及终端 | |
KR102245682B1 (ko) | 영상 압축 장치, 이의 학습 장치 및 방법 | |
CN103501438A (zh) | 一种基于主成分分析的内容自适应图像压缩方法 | |
Krivenko et al. | MSE and PSNR prediction for ADCT coder applied to lossy image compression | |
CN111161363A (zh) | 一种图像编码模型训练方法及装置 | |
CN114037071B (zh) | 获取用于图像前处理以抵抗jpge压缩失真的神经网络的方法 | |
CN111163320A (zh) | 一种视频压缩方法及系统 | |
CN110730347A (zh) | 图像压缩方法、装置及电子设备 | |
CN117319655B (zh) | 一种图像压缩处理方法、系统、装置及介质 | |
CN114663536B (zh) | 一种图像压缩方法及装置 | |
EP4111417A1 (en) | Generating quantization tables for image compression | |
CN110717948A (zh) | 一种图像后处理方法、系统及终端设备 | |
CN111083498A (zh) | 一种用于视频编码帧间环路滤波的模型训练方法和使用方法 | |
CN111565314A (zh) | 图像压缩方法、编解码网络训练方法、装置及电子设备 | |
CN116634162A (zh) | 率失真优化的图像压缩神经网络训练后量化方法 | |
Krivenko et al. | Prediction of Introduced Distortions Parameters in Lossy Image Compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice | ||
DD01 | Delivery of document by public notice |
Addressee: Patent of Hefei Tuya Information Technology Co.,Ltd. The person in charge Document name: First notice of examination opinions |
|
DD01 | Delivery of document by public notice | ||
DD01 | Delivery of document by public notice |
Addressee: Zhou Lei Document name: Deemed withdrawal notice |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200515 |