CN108573287A - 一种基于深度神经网络的图像编解码器的训练方法 - Google Patents

一种基于深度神经网络的图像编解码器的训练方法 Download PDF

Info

Publication number
CN108573287A
CN108573287A CN201810446279.4A CN201810446279A CN108573287A CN 108573287 A CN108573287 A CN 108573287A CN 201810446279 A CN201810446279 A CN 201810446279A CN 108573287 A CN108573287 A CN 108573287A
Authority
CN
China
Prior art keywords
training
neural network
deep neural
different
codec
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810446279.4A
Other languages
English (en)
Other versions
CN108573287B (zh
Inventor
周乾伟
陶鹏
陈禹行
詹琦梁
胡海根
李小薪
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810446279.4A priority Critical patent/CN108573287B/zh
Publication of CN108573287A publication Critical patent/CN108573287A/zh
Application granted granted Critical
Publication of CN108573287B publication Critical patent/CN108573287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

一种基于深度神经网络的图像编解码器的训练方法,所述训练方法包括以下步骤:第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。本发明提供了一种有效避免多个误差函数相互干扰的基于深度神经网络的图像编解码器的训练方法。

Description

一种基于深度神经网络的图像编解码器的训练方法
技术领域
本发明属于图像编解码器领域,具体涉及基于深度神经网络的图像编解码器的训练方法。
背景技术
对于基于深度神经网络的图像编解码器,在网络的训练中通常需要同时优化多个损失函数,例如重建误差函数,图像生成对抗误差函数。同时,在实际应用中,还会根据具体需要额外优化其他的损失函数。这些不同的损失函数存在显著的耦合关系,在网络训练中会出现严重的冲突问题。如果不同误差函数之间的配比比例不当,则会导致训练的不稳定,影响解码器对图像的重建精度和生成图像的拟真,即,影响编解码后的图像与训练图像集的相似程度。
在目前已有的相关文献中多数只给出了2个误差函数和3个功能模块的稳定性约束方法。然而在复杂的图像编解码器中往往会存在2个以上误差函数以及3个以上功能模块。对于这样复杂的编解码器,如何统筹协调多个误差函数的关系,使得所有误差函数通过训练达到收敛成为一个急需解决的问题。
发明内容
为了克服现有技术在训练编解码器时多个误差函数相互干扰的不足,本发明提供了一种有效避免多个误差函数相互干扰的基于深度神经网络的图像编解码器的训练方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度神经网络的图像编解码器的训练方法,所述训练方法包括以下步骤:
第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;
第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。
进一步,所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块,在训练时按模块进行损失函数的优化。
再进一步,根据所述空间解耦方法聚合形成的模块之间是解耦合的,即对某个模块进行优化时,不会对其他模块的优化造成影响或干扰。
更进一步,所述时间分治将完整的编解码器训练过程分为若干个训练阶段,在不同的训练阶段对不同模块内的损失函数进行优化。
在不同的训练阶段对同一模块进行优化时,后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。
在某一训练阶段对多个模块进行优化时,不同的模块可以使用不同的学习速率来优化误差函数。
在每一训练阶段,所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。
本发明的有益效果主要表现在:1.统筹分析各损失函数之间的耦合关系,将损失函数聚合为互不干扰的不同模块,实现了空间上的解耦合。2.将整个训练过程划分为多个训练阶段,每个训练阶段只对部分模块进行训练,避免了所有损失函数同时训练带来的训练不稳定的问题。
附图说明
图1为本发明一种编解码器的训练方法的流程图。
图2为一种编解码器按模块进行空间解耦的实施例。
图3为训练过程分为4个训练阶段的示意图。
原件标号说明,x表示需要编解码的原图像,y表示经过编解码后还原的图像,O表示细节编码器,Exj表示经细节编码器编码后的隐变量,G表示细节解码器,V表示趋势编码器,Eqs表示经趋势编码器编码后的隐变量,D表示趋势解码器。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于深度神经网络的图像编解码器的训练方法,所述训练方法包括以下步骤:
第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;
第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。
进一步,所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块,在训练时按模块进行损失函数的优化。
再进一步,根据所述空间解耦方法聚合形成的模块之间是解耦合的,即对某个模块进行优化时,不会对其他模块的优化造成影响或干扰。
更进一步,所述时间分治将完整的编解码器训练过程分为若干个训练阶段,在不同的训练阶段对不同模块内的损失函数进行优化。
在不同的训练阶段对同一模块进行优化时,后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。
在某一训练阶段对多个模块进行优化时,不同的模块可以使用不同的学习速率来优化误差函数。
在每一训练阶段,所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。
参照图1,一种基于深度神经网络的图像编解码器的训练方法,包括以下步骤:
S101将编解码器中的各组件按功能和损失函数聚合为若干个模块,使得在训练时模块与模块之间互不干扰。
S102将训练过程分为若干个训练阶段。不同的训练阶段对不同模块内的损失函数进行优化。
S103在每一训练阶段中,需要训练的模块以相同或不同的学习速率迭代循环若干次。
S104完成所有训练阶段的训练,所有损失函数达到稳定收敛。
参照图2,一种编解码器按模块进行空间解耦的实施例。图2所示的图像编解码器包含以下组件:信息筛选器O与细节编码器Exj提取原图像的细节信息并编码得到细节隐变量,再由细节解码器G将细节隐变量解码为原图像的细节信息;特征提取器V与趋势编码器Eqs提取原图像的趋势信息并编码得到趋势隐变量,再由趋势解码器D解码出原图像的模糊轮廓。最后综合细节解码器G与趋势解码器D两者的输出结果重建出原图像。此外,该编解码器引入了对抗生成网络,使用图像判决器DB来评价最终的重建效果。并且引入隐变量判决器DL来约束隐变量,使编码后的隐变量服从某一预定义的概率分布。
对于本实施例中待训练的编解码器,信息筛选器O、细节编码器Exj、特征提取器V以及趋势编码器Eqs共同组成了编解码器中的编码部分,输入原始图像,输出编码后的隐变量;细节解码器G与趋势解码器D两者共同组成了编解码器中的解码部分,输入编码后的隐变量,输出原图像的重建结果。
在本实施例中,需要训练编解码器以最小化以下几个误差函数:
1)LYS(V,Eqs,D),趋势重建损失函数。评价趋势重建结果与原图像的误差。
2)LDB(DB),图像判决器损失函数。将原图像与重建后的图像输入图像判决器DB,使用该误差函数评价图像判决器DB辨别原图像与重建图像的能力。
3)LDB(O,Exj,G),细节生成损失函数。将解码器作为生成模型,图像判决器DB作为判决模型,使用该误差函数评价重建出的图像迷惑图像判决器DB的能力。
4)LDL(DL),分布判决损失函数。该误差函数用于评价隐变量判决器DL辨别隐变量与预定义概率分布采样样本的能力。
5)LDL(E),隐变量损失函数。该误差函数用于评价编码后的隐变量迷惑隐变量判决器DL的能力。
6)LR(G,D),重建损失函数。经细节解码器G与趋势解码器D解码后的重建图像与原图像的误差。
参照图2,一种实施例的编解码器训练方法,包括以下几个步骤:
1)将编解码器的组件划分为互不干扰的两个模块:细节解码模块:包含信息筛选器O、特征提取器V和细节解码器G;趋势编码模块:特征提取器V、趋势编码器Eqs以及趋势解码器D。
2)参照图3,将训练过程分为4个训练阶段,分别为预训练前期,预训练后期,无损精校,无损迁移。
3)每个训练阶段按图2所示顺序以一定学习速率训练,并循环迭代若干次。
4)完成4个训练阶段的训练,编解码器的训练完成。
以上通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点和功效。本发明还可以通过另外不同的具体实例方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互结合。
需要说明的是,以上实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目绘制,其实际实施时各组件的数量及比例可为一种随意的改变。

Claims (7)

1.一种基于深度神经网络的图像编解码器的训练方法,其特征在于,所述训练方法包括以下步骤:
第一步、空间解耦:用于解除编解码器和生成模型的耦合,并解除隐变量编码与重建模块的耦合;
第二步,时间分治:在训练编解码器的不同阶段优化不同的损失函数并使用不同的学习速率来提高训练的速度与稳定性。
2.如权利要求1所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,所述空间解耦对编解码器中相互存在干扰的损失函数聚合成为一个模块,在训练时按模块进行损失函数的优化。
3.如权利要求2所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,根据所述空间解耦方法聚合形成的模块之间是解耦合的,即对某个模块进行优化时,不会对其他模块的优化造成影响或干扰。
4.如权利要求1~3之一所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,所述时间分治将完整的编解码器训练过程分为若干个训练阶段,在不同的训练阶段对不同模块内的损失函数进行优化。
5.如权利要求4所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,在不同的训练阶段对同一模块进行优化时,后期训练阶段所采用的学习速率小于前期训练阶段采用的学习速率。
6.如权利要求5所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,在某一训练阶段对多个模块进行优化时,不同的模块可以使用不同的学习速率来优化误差函数。
7.如权利要求4所述的基于深度神经网络的图像编解码器的训练方法,其特征在于,在每一训练阶段,所有模块内的损失函数都需要反复迭代优化若干次。并且通常不同训练阶段需要迭代的次数不尽相同。
CN201810446279.4A 2018-05-11 2018-05-11 一种基于深度神经网络的图像编解码器的训练方法 Active CN108573287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810446279.4A CN108573287B (zh) 2018-05-11 2018-05-11 一种基于深度神经网络的图像编解码器的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810446279.4A CN108573287B (zh) 2018-05-11 2018-05-11 一种基于深度神经网络的图像编解码器的训练方法

Publications (2)

Publication Number Publication Date
CN108573287A true CN108573287A (zh) 2018-09-25
CN108573287B CN108573287B (zh) 2021-10-29

Family

ID=63572595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810446279.4A Active CN108573287B (zh) 2018-05-11 2018-05-11 一种基于深度神经网络的图像编解码器的训练方法

Country Status (1)

Country Link
CN (1) CN108573287B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313234A (zh) * 2020-06-18 2021-08-27 上海联影智能医疗科技有限公司 用于图像分割的神经网络系统和方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102595171A (zh) * 2012-02-03 2012-07-18 浙江工商大学 一种多通道空时编码孔径的动态光场成像方法和成像系统
CN103686177A (zh) * 2013-12-19 2014-03-26 中国科学院深圳先进技术研究院 一种图像压缩、解压方法、压缩、解压装置以及系统
CN103959786A (zh) * 2011-09-30 2014-07-30 黑莓有限公司 用于使用非均匀重构空间进行数据压缩的方法和设备
CN105379268A (zh) * 2013-01-28 2016-03-02 微软技术许可有限责任公司 在视频编码中适应鲁棒性
EP3051486A1 (en) * 2015-01-30 2016-08-03 Thomson Licensing Method and apparatus for encoding and decoding high dynamic range (HDR) videos
EP3051821A1 (en) * 2015-01-30 2016-08-03 Thomson Licensing Method and apparatus for encoding and decoding high dynamic range (HDR) videos
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
CN106462510A (zh) * 2014-03-06 2017-02-22 伊姆西公司 具有独立直接接入大量固态存储资源的多处理器系统
CN107077873A (zh) * 2014-09-25 2017-08-18 微软技术许可有限责任公司 将样本元数据与媒体样本进行耦合
CN107909145A (zh) * 2017-12-05 2018-04-13 苏州天瞳威视电子科技有限公司 一种卷积神经网络模型的训练方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103959786A (zh) * 2011-09-30 2014-07-30 黑莓有限公司 用于使用非均匀重构空间进行数据压缩的方法和设备
CN102595171A (zh) * 2012-02-03 2012-07-18 浙江工商大学 一种多通道空时编码孔径的动态光场成像方法和成像系统
CN105379268A (zh) * 2013-01-28 2016-03-02 微软技术许可有限责任公司 在视频编码中适应鲁棒性
CN103686177A (zh) * 2013-12-19 2014-03-26 中国科学院深圳先进技术研究院 一种图像压缩、解压方法、压缩、解压装置以及系统
CN106462510A (zh) * 2014-03-06 2017-02-22 伊姆西公司 具有独立直接接入大量固态存储资源的多处理器系统
CN107077873A (zh) * 2014-09-25 2017-08-18 微软技术许可有限责任公司 将样本元数据与媒体样本进行耦合
EP3051486A1 (en) * 2015-01-30 2016-08-03 Thomson Licensing Method and apparatus for encoding and decoding high dynamic range (HDR) videos
EP3051821A1 (en) * 2015-01-30 2016-08-03 Thomson Licensing Method and apparatus for encoding and decoding high dynamic range (HDR) videos
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
CN107909145A (zh) * 2017-12-05 2018-04-13 苏州天瞳威视电子科技有限公司 一种卷积神经网络模型的训练方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313234A (zh) * 2020-06-18 2021-08-27 上海联影智能医疗科技有限公司 用于图像分割的神经网络系统和方法

Also Published As

Publication number Publication date
CN108573287B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN112784092B (zh) 一种混合融合模型的跨模态图像文本检索方法
CN111932444B (zh) 基于生成对抗网络的人脸属性编辑方法及信息处理终端
CN111367961B (zh) 基于图卷积神经网络的时序数据事件预测方法、系统及其应用
CN109271483B (zh) 基于递进式多判别器的问题生成方法
Immerman Descriptive complexity
Laatabi et al. ODD+ 2D: An ODD based protocol for mapping data to empirical ABMs
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112000772B (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN106096066A (zh) 基于随机近邻嵌入的文本聚类方法
CN101751385B (zh) 一种采用层次管道过滤器体系结构的多语言信息抽取方法
CN110569033A (zh) 一种数字化交易类智能合约基础代码生成方法
CN109446221A (zh) 一种基于语义分析的交互式数据探查方法
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN109753571A (zh) 一种基于二次主题空间投影的场景图谱低维空间嵌入方法
CN113051399A (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN114822874B (zh) 一种基于特征偏差对齐的方剂功效分类方法
CN108573287A (zh) 一种基于深度神经网络的图像编解码器的训练方法
CN113298895B (zh) 一种面向收敛性保障的无监督双向生成自动编码方法及系统
CN109119166A (zh) 一种基于矩阵传递熵的时间序列因果性分析方法及其计算机装置
CN110264311A (zh) 一种基于深度学习的商业推广信息精准推荐方法及系统
CN110502236A (zh) 基于多尺度特征解码的前端代码生成方法、系统及设备
CN113297385B (zh) 基于改进GraphRNN的多标签文本分类系统及分类方法
CN108491487A (zh) 一种临床指南知识编码方法及系统
CN114519092A (zh) 一种面向中文领域大规模复杂关系数据集构建框架
CN109977372B (zh) 中文篇章树的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant