CN108573287B - 一种基于深度神经网络的图像编解码器的训练方法 - Google Patents
一种基于深度神经网络的图像编解码器的训练方法 Download PDFInfo
- Publication number
- CN108573287B CN108573287B CN201810446279.4A CN201810446279A CN108573287B CN 108573287 B CN108573287 B CN 108573287B CN 201810446279 A CN201810446279 A CN 201810446279A CN 108573287 B CN108573287 B CN 108573287B
- Authority
- CN
- China
- Prior art keywords
- training
- codec
- different
- detail
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种基于深度神经网络的图像编解码器的训练方法,所述训练方法包括以下步骤:第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。本发明提供了一种有效避免多个误差函数相互干扰的基于深度神经网络的图像编解码器的训练方法。
Description
技术领域
本发明属于图像编解码器领域,具体涉及基于深度神经网络的图像编解码器的训练方法。
背景技术
对于基于深度神经网络的图像编解码器,在网络的训练中通常需要同时优化多个损失函数,例如重建误差函数,图像生成对抗误差函数。同时,在实际应用中,还会根据具体需要额外优化其他的损失函数。这些不同的损失函数存在显著的耦合关系,在网络训练中会出现严重的冲突问题。如果不同误差函数之间的配比比例不当,则会导致训练的不稳定,影响解码器对图像的重建精度和生成图像的拟真,即,影响编解码后的图像与训练图像集的相似程度。
在目前已有的相关文献中多数只给出了2个误差函数和3个功能模块的稳定性约束方法。然而在复杂的图像编解码器中往往会存在2个以上误差函数以及3个以上功能模块。对于这样复杂的编解码器,如何统筹协调多个误差函数的关系,使得所有误差函数通过训练达到收敛成为一个急需解决的问题。
发明内容
为了克服现有技术在训练编解码器时多个误差函数相互干扰的不足,本发明提供了一种有效避免多个误差函数相互干扰的基于深度神经网络的图像编解码器的训练方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度神经网络的图像编解码器的训练方法,所述训练方法包括以下步骤:
第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;
第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。
进一步,所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块,在训练时按模块进行损失函数的优化。
再进一步,根据所述空间解耦方法聚合形成的模块之间是解耦合的,即对某个模块进行优化时,不会对其他模块的优化造成影响或干扰。
更进一步,所述时间分治将完整的编解码器训练过程分为若干个训练阶段,在不同的训练阶段对不同模块内的损失函数进行优化。
在不同的训练阶段对同一模块进行优化时,后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。
在某一训练阶段对多个模块进行优化时,不同的模块可以使用不同的学习速率来优化误差函数。
在每一训练阶段,所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。
本发明的有益效果主要表现在:1.统筹分析各损失函数之间的耦合关系,将损失函数聚合为互不干扰的不同模块,实现了空间上的解耦合。2.将整个训练过程划分为多个训练阶段,每个训练阶段只对部分模块进行训练,避免了所有损失函数同时训练带来的训练不稳定的问题。
附图说明
图1为本发明一种编解码器的训练方法的流程图。
图2为一种编解码器按模块进行空间解耦的实施例。
图3为训练过程分为4个训练阶段的示意图。
原件标号说明,x表示需要编解码的原图像,y表示经过编解码后还原的图像,O表示细节编码器,Exj表示经细节编码器编码后的隐变量,G表示细节解码器,V表示趋势编码器,Eqs表示经趋势编码器编码后的隐变量,D表示趋势解码器。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于深度神经网络的图像编解码器的训练方法,所述训练方法包括以下步骤:
第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;
第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。
进一步,所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块,在训练时按模块进行损失函数的优化。
再进一步,根据所述空间解耦方法聚合形成的模块之间是解耦合的,即对某个模块进行优化时,不会对其他模块的优化造成影响或干扰。
更进一步,所述时间分治将完整的编解码器训练过程分为若干个训练阶段,在不同的训练阶段对不同模块内的损失函数进行优化。
在不同的训练阶段对同一模块进行优化时,后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。
在某一训练阶段对多个模块进行优化时,不同的模块可以使用不同的学习速率来优化误差函数。
在每一训练阶段,所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。
参照图1,一种基于深度神经网络的图像编解码器的训练方法,包括以下步骤:
S101将编解码器中的各组件按功能和损失函数聚合为若干个模块,使得在训练时模块与模块之间互不干扰。
S102将训练过程分为若干个训练阶段。不同的训练阶段对不同模块内的损失函数进行优化。
S103在每一训练阶段中,需要训练的模块以相同或不同的学习速率迭代循环若干次。
S104完成所有训练阶段的训练,所有损失函数达到稳定收敛。
参照图2,一种编解码器按模块进行空间解耦的实施例。图2所示的图像编解码器包含以下组件:信息筛选器O与细节编码器Exj提取原图像的细节信息并编码得到细节隐变量,再由细节解码器G将细节隐变量解码为原图像的细节信息;特征提取器V与趋势编码器Eqs提取原图像的趋势信息并编码得到趋势隐变量,再由趋势解码器D解码出原图像的模糊轮廓。最后综合细节解码器G与趋势解码器D两者的输出结果重建出原图像。此外,该编解码器引入了对抗生成网络,使用图像判决器DB来评价最终的重建效果。并且引入隐变量判决器DL来约束隐变量,使编码后的隐变量服从某一预定义的概率分布。
对于本实施例中待训练的编解码器,信息筛选器O、细节编码器Exj、特征提取器V以及趋势编码器Eqs共同组成了编解码器中的编码部分,输入原始图像,输出编码后的隐变量;细节解码器G与趋势解码器D两者共同组成了编解码器中的解码部分,输入编码后的隐变量,输出原图像的重建结果。
在本实施例中,需要训练编解码器以最小化以下几个误差函数:
1)LYS(V,Eqs,D),趋势重建损失函数。评价趋势重建结果与原图像的误差。
2)LDB(DB),图像判决器损失函数。将原图像与重建后的图像输入图像判决器DB,使用该误差函数评价图像判决器DB辨别原图像与重建图像的能力。
3)LDB(O,Exj,G),细节生成损失函数。将解码器作为生成模型,图像判决器DB作为判决模型,使用该误差函数评价重建出的图像迷惑图像判决器DB的能力。
4)LDL(DL),分布判决损失函数。该误差函数用于评价隐变量判决器DL辨别隐变量与预定义概率分布采样样本的能力。
5)LDL(E),隐变量损失函数。该误差函数用于评价编码后的隐变量迷惑隐变量判决器DL的能力。
6)LR(G,D),重建损失函数。经细节解码器G与趋势解码器D解码后的重建图像与原图像的误差。
参照图2,一种实施例的编解码器训练方法,包括以下几个步骤:
1)将编解码器的组件划分为互不干扰的两个模块:细节解码模块:包含信息筛选器O、特征提取器V和细节解码器G;趋势编码模块:特征提取器V、趋势编码器Eqs以及趋势解码器D。
2)参照图3,将训练过程分为4个训练阶段,分别为预训练前期,预训练后期,无损精校,无损迁移。
3)每个训练阶段按图2所示顺序以一定学习速率训练,并循环迭代若干次。
4)完成4个训练阶段的训练,编解码器的训练完成。
以上通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点和功效。本发明还可以通过另外不同的具体实例方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互结合。
需要说明的是,以上实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目绘制,其实际实施时各组件的数量及比例可为一种随意的改变。
Claims (7)
1.一种基于深度神经网络的图像编解码器的训练方法,其特征在于,所述训练方法包括以下步骤:
第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;
第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性;
图像编解码器包含以下组件:信息筛选器O与细节编码器Exj提取原图像的细节信息并编码得到细节隐变量,再由细节解码器G将细节隐变量解码为原图像的细节信息;特征提取器V与趋势编码器Eqs提取原图像的趋势信息并编码得到趋势隐变量,再由趋势解码器D解码出原图像的模糊轮廓,最后综合细节解码器G与趋势解码器D两者的输出结果重建出原图像,此外,该编解码器引入了对抗生成网络,使用图像判决器DB来评价最终的重建效果,并且引入隐变量判决器DL来约束隐变量,使编码后的隐变量服从某一预定义的概率分布;
待训练的编解码器,信息筛选器O、细节编码器Exj、特征提取器V以及趋势编码器Eqs共同组成了编解码器中的编码部分,输入原始图像,输出编码后的隐变量;细节解码器G与趋势解码器D两者共同组成了编解码器中的解码部分,输入编码后的隐变量,输出原图像的重建结果。
2.如权利要求1所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块,在训练时按模块进行损失函数的优化。
3.如权利要求2所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,根据所述空间解耦方法聚合形成的模块之间是解耦合的,即对某个模块进行优化时,不会对其他模块的优化造成影响或干扰。
4.如权利要求1~3之一所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,所述时间分治将完整的编解码器训练过程分为若干个训练阶段,在不同的训练阶段对不同模块内的损失函数进行优化。
5.如权利要求4所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,在不同的训练阶段对同一模块进行优化时,后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。
6.如权利要求5所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,在某一训练阶段对多个模块进行优化时,不同的模块可以使用不同的学习速率来优化误差函数。
7.如权利要求4所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,在每一训练阶段,所有模块内的损失函数都需要反复迭代优化若干次,并且通常不同训练阶段需要迭代的次数不尽相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810446279.4A CN108573287B (zh) | 2018-05-11 | 2018-05-11 | 一种基于深度神经网络的图像编解码器的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810446279.4A CN108573287B (zh) | 2018-05-11 | 2018-05-11 | 一种基于深度神经网络的图像编解码器的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108573287A CN108573287A (zh) | 2018-09-25 |
CN108573287B true CN108573287B (zh) | 2021-10-29 |
Family
ID=63572595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810446279.4A Active CN108573287B (zh) | 2018-05-11 | 2018-05-11 | 一种基于深度神经网络的图像编解码器的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108573287B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11488021B2 (en) * | 2020-06-18 | 2022-11-01 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for image segmentation |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102595171A (zh) * | 2012-02-03 | 2012-07-18 | 浙江工商大学 | 一种多通道空时编码孔径的动态光场成像方法和成像系统 |
CN103686177A (zh) * | 2013-12-19 | 2014-03-26 | 中国科学院深圳先进技术研究院 | 一种图像压缩、解压方法、压缩、解压装置以及系统 |
CN103959786A (zh) * | 2011-09-30 | 2014-07-30 | 黑莓有限公司 | 用于使用非均匀重构空间进行数据压缩的方法和设备 |
CN105379268A (zh) * | 2013-01-28 | 2016-03-02 | 微软技术许可有限责任公司 | 在视频编码中适应鲁棒性 |
EP3051821A1 (en) * | 2015-01-30 | 2016-08-03 | Thomson Licensing | Method and apparatus for encoding and decoding high dynamic range (HDR) videos |
EP3051486A1 (en) * | 2015-01-30 | 2016-08-03 | Thomson Licensing | Method and apparatus for encoding and decoding high dynamic range (HDR) videos |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN106462510A (zh) * | 2014-03-06 | 2017-02-22 | 伊姆西公司 | 具有独立直接接入大量固态存储资源的多处理器系统 |
CN107077873A (zh) * | 2014-09-25 | 2017-08-18 | 微软技术许可有限责任公司 | 将样本元数据与媒体样本进行耦合 |
CN107909145A (zh) * | 2017-12-05 | 2018-04-13 | 苏州天瞳威视电子科技有限公司 | 一种卷积神经网络模型的训练方法 |
-
2018
- 2018-05-11 CN CN201810446279.4A patent/CN108573287B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103959786A (zh) * | 2011-09-30 | 2014-07-30 | 黑莓有限公司 | 用于使用非均匀重构空间进行数据压缩的方法和设备 |
CN102595171A (zh) * | 2012-02-03 | 2012-07-18 | 浙江工商大学 | 一种多通道空时编码孔径的动态光场成像方法和成像系统 |
CN105379268A (zh) * | 2013-01-28 | 2016-03-02 | 微软技术许可有限责任公司 | 在视频编码中适应鲁棒性 |
CN103686177A (zh) * | 2013-12-19 | 2014-03-26 | 中国科学院深圳先进技术研究院 | 一种图像压缩、解压方法、压缩、解压装置以及系统 |
CN106462510A (zh) * | 2014-03-06 | 2017-02-22 | 伊姆西公司 | 具有独立直接接入大量固态存储资源的多处理器系统 |
CN107077873A (zh) * | 2014-09-25 | 2017-08-18 | 微软技术许可有限责任公司 | 将样本元数据与媒体样本进行耦合 |
EP3051821A1 (en) * | 2015-01-30 | 2016-08-03 | Thomson Licensing | Method and apparatus for encoding and decoding high dynamic range (HDR) videos |
EP3051486A1 (en) * | 2015-01-30 | 2016-08-03 | Thomson Licensing | Method and apparatus for encoding and decoding high dynamic range (HDR) videos |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN107909145A (zh) * | 2017-12-05 | 2018-04-13 | 苏州天瞳威视电子科技有限公司 | 一种卷积神经网络模型的训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108573287A (zh) | 2018-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108174218A (zh) | 基于学习的视频编解码框架 | |
CN109769080B (zh) | 一种基于深度学习的加密图像破解方法及系统 | |
Marjanovic et al. | $ L_ {q} $ sparsity penalized linear regression with cyclic descent | |
CN108573287B (zh) | 一种基于深度神经网络的图像编解码器的训练方法 | |
Huai et al. | Zerobn: Learning compact neural networks for latency-critical edge systems | |
CN114239536B (zh) | 一种事件抽取方法、系统及计算机可读存储介质 | |
KR20200138079A (ko) | 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치 | |
CN111738435A (zh) | 一种基于移动设备的在线稀疏训练方法及系统 | |
CN114219027A (zh) | 一种基于离散小波变换的轻量级时间序列预测方法 | |
CN114595427A (zh) | 基于非自回归模型的含缺失值车辆轨迹序列填补修复方法 | |
CN114528971A (zh) | 一种基于异质图神经网络的图谱频繁关系模式挖掘方法 | |
Fehrman et al. | Ergodicity and random dynamical systems for conservative SPDEs | |
CN113176607A (zh) | 基于融入物理规律的稀疏自编码器地震反演方法及系统 | |
CN117408910A (zh) | 三维模型补全网络的训练方法、三维模型补全方法及装置 | |
CN112631434A (zh) | 一种基于深度学习的振动触觉编解码方法 | |
CN111105364A (zh) | 一种基于秩一分解和神经网络的图像复原方法 | |
CN111797991A (zh) | 一种深度网络模型压缩系统、方法及装置 | |
CN114121178A (zh) | 一种基于图卷积网络的色谱保留指数预测方法及装置 | |
CN115167863A (zh) | 基于代码序列和代码图融合的代码补全方法、装置 | |
CN114663536B (zh) | 一种图像压缩方法及装置 | |
CN113223038A (zh) | 一种基于离散余弦变换的掩码表示的实例分割方法 | |
CN110472631B (zh) | 基于序列预测的实时语义分割方法 | |
Jakob et al. | A parallel approach to compression and decompression of triangle meshes using the GPU | |
CN117010459B (zh) | 基于模块化和序列化自动生成神经网络的方法 | |
CN113034626B (zh) | 一种结构化图像编码中目标对象在特征域对齐的优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |