CN110930408A - 基于知识重组的语义图像压缩方法 - Google Patents

基于知识重组的语义图像压缩方法 Download PDF

Info

Publication number
CN110930408A
CN110930408A CN201910980491.3A CN201910980491A CN110930408A CN 110930408 A CN110930408 A CN 110930408A CN 201910980491 A CN201910980491 A CN 201910980491A CN 110930408 A CN110930408 A CN 110930408A
Authority
CN
China
Prior art keywords
model
image
training
recombination
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910980491.3A
Other languages
English (en)
Other versions
CN110930408B (zh
Inventor
宋明黎
罗思惠
方共凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910980491.3A priority Critical patent/CN110930408B/zh
Publication of CN110930408A publication Critical patent/CN110930408A/zh
Application granted granted Critical
Publication of CN110930408B publication Critical patent/CN110930408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Image Analysis (AREA)

Abstract

一种基于知识重组的语义图像压缩方法,包括下列步骤:1)获得预训练的编解码器结构模型以及无标签数据;分别选取图像压缩以及语义分割的预训练同构模型。语义分割模型对输入图像进行逐像素类别预测,图像压缩模型对数字图像进行压缩和解压;2)模型重组;对预训练模型的编码器进行零填充重组得到共享编码器,复用预训练模型的解码器形成多路解码的结构。该重组模型在功能上等价于多个独立模型,能够执行语义分割和图像压缩任务。3)迭代剪枝减小模型规模;基于余弦相似度计算重组模型各层参数的相似度,对相似度最高的卷积核进行剪枝。每轮剪枝后,以无标签数据作为重组模型的输入,以预训练模型的预测结果作为学习目标,进行多任务训练直至收敛。重复步骤3)直至重组模型性能和参数规模达到部署要求。最终的重组模型能够对图像进行压缩,同时可以根据需求从编码中解码原图或者解码语义,两个任务可独立执行。

Description

基于知识重组的语义图像压缩方法
技术领域
本发明属于数字图像压缩领域,针对终端设备性能有限、模型训练代价过大的问题,提出的一种利用现有的图像压缩模型以及语义分割模型进行知识重组,从而得到多任务模型的方法。
背景技术
神经网络剪枝是一类通过减少网络参数来缩减网络规模的技术。通常手工设计的神经网络是过参数化的,大量的参数冗余不利于在低功耗设备上的部署。剪枝可以使得网络规模减少到一个可接受的规模,对整体性能影响较小。
基于深度学习的图像压缩是为解决数字图像中的信息冗余的一类方法。图像压缩系统由编码器、量化器、解码器组成。编码器将数字图像的像素信息转换为紧凑的中间表达,量化器将连续的编码值转换到离散的值,而解码器则从图像压缩码中重建出原始图像。由于神经网络易于设计,计算规模可控性强,因此适合部署到不同的终端设备。
语义压缩是图像解析问题的一种,通过对逐个像素点进行分类,获得输入图像的逐像素语义类别。全卷积编解码器是一类常见的语义分割结构,编码器对图像进行解析,获得空间尺寸更小的编码,解码器将编码扩展到原图像尺寸,并对每个像素生成不同类的概率值。该结构能够端到端地进行训练。
知识重组是一类利用预训练的模型来构建新模型的算法,其核心是将现有网络的知识转移到另一个网络中。通过知识重组可以最大化利用预训练模型,减少训练代价,并取得更好的性能。
由于存储需要,设备上的图像一般以压缩编码的形式存在,当对图像进行语义分割时,编码首先需要经过图像解码,获得原图像后再利用常规的语义分割方法获得语义信息,设备频繁解码造成了大量计算资源耗费。
发明内容
本发明针对现有技术条件下模型训练代价较大、终端设备性能有限的问题,提出了一种结合语义分割和图像压缩的方法。本方法通过重组现有的预训练模型来获得新模型,训练过程中不需要人工的数据标注。
一种基于知识重组的语义图像压缩方法,包括如下步骤:
1)获得预训练的编解码器结构模型以及无标签数据;
分别选取用于图像压缩和语义分割任务的同构编解码器模型。语义分割模型对输入图像进行逐像素分类,图像压缩模型对数字图像进行压缩和解压。本方法使用无标签数据进行训练,即使用预训练模型对输入图像进行预测,将预测结果作为学习目标。
2)模型重组;
为获得功能等价的新模型,首先对现有模型的编码器的参数进行零填充,解码器不做改变,连接在重组的编码器上形成多路输出分支。重组参数能够作用于原模型的所有输入,并且不改变输出结果。考虑分别属于模型A和模型B并且大小为OA×IA×H×W和OB×IB×H×W的卷积层参数,该参数以通道数为I的特征图作为输入,得到通道数为O的输出。通过零填充使其能够接收通道数为(IA+IB)的输入,即填充至为OA×(IA+IB)×H×W和OB×(IB+IA)×H×W。最后组合两者获得到大小(OA+OB)×(IA+IB)×H×W的重组参数。由于零填充不影响模型的输出,重组模型与预训练模型功能上等价。
3)迭代剪枝减小模型规模;
本方法使用神经网络剪枝减少参数规模。对大小为O×I×H×W的卷积参数,计算O个卷积核之间两两相似度。度量标准为余弦相似度
Figure BDA0002233971410000021
Figure BDA0002233971410000022
其中A和B分别表示卷积核,·运算表示向量内积,|| ||表示向量的模长。通过计算相似度得到相似度矩阵,矩阵大小为O×O。取相似度最高的K对卷积核,在每一对卷积核在随机选取一个进行剪枝。其中K为预先设定的剪枝规模。
利用无标签数据以及预训练模型预测结果作为训练数据和目标,进行多任务训练,压缩分支损失函数为均方误差
Figure BDA0002233971410000023
语义分割分支损失函数为交叉熵Ls=-∑x∈χp(x)logq(x)。最终的损失函数为L=LC+αLS,其中α用于控制两者权重。在训练过程中,零填充参数逐渐转化为有效参数,从而提供更优的模型性能。重复步骤(3)直至重组模型性能和参数规模达到部署要求。最终重组模型能够对输入图像进行压缩,可以从压缩结果中重建原图或者不经重建直接解析语义信息。
相比于现有的多任务训练、蒸馏训练方法,本方法完整地利用了现有模型的参数,通过零填充合并算法最大程度地保留了模型的功能。同时本方法通过剪枝算法降低模型计算量,并融合来自不同任务的参数,提供更完备的图像特征抽象能力。结合语义分割的压缩算法性能优于传统JPEG算法,并且不需要解码原图像即可进行语义分割,有利于在终端设备上进行部署。本算法在各种压缩率下都能够保证较高的分割精度,稳定性更强。由于语义分割不需要获得原图像,因此该方法提供了隐私方面的保障。
附图说明
图1是本发明中模型重组示意图
图2是本发明的语义图像压缩训练过程示意图
具体实施方式
下面结合附图进一步说明本发明的技术方案。
本发明的一种基于知识重组的语义图像压缩方法,包括如下步骤:
1)获得预训练的编解码器结构模型以及无标签数据;
首先收集分割模型适用的无标签数据,数据为RGB格式的三通道图片,分割模型能够在这类无标签数据上进行预测,从而获得用于训练的软目标(Soft Target),软目标的尺寸与图像相同,描述了原图像每个像素属于各个类别的概率,其通道数等于类别的数量。该软标签作为语义分割的学习目标,用于后续训练。由于压缩模型的学习目标为原图像,因此可以直接使用无标签数据进行训练。
2)模型重组;
重组模型的整体结构如图2所示,包含一个共享的编码器和两个不同任务的解码器,其支分别对应图像压缩的重建模型,以及语义分割的预测模型。为获得过参数化的重组模型,需要重组编码器的参数得到等价的表达形式。如图1所示,令来自预训练模型的参数核成对角线排布,无参数的位置使用0进行填充。虑分别属于模型A和模型B、大小分别为OA×IA×H×W和OB×IB×H×W的卷积层参数,该参数以通道数为IA和IB的特征图作为输入,分别得到通道数为OA和OB的输出。通过零填充扩展参数,使其能够接收通道数为(IA+IB)的输入,即填充至OA×(IA+IB)×H×W和OB×(IB+IA)×H×W。最后组合两者获得到大小(OA+OB)×(IA+IB)×H×W的重组参数,其排布如图1中Recombined Kernel Matrix所示,重组参数位于对角线上(深色部分),其余为零填充(浅色部分)。
经过重组的参数能够同时接收预训练模型的所有输入。如图2所示,各个解码器输入是共享编码器的输出。由于填充0不会改变输出结果,该重组模型与多个预训练模型等价。
3)迭代剪枝减小模型规模;
由于零填充会引入多余参数,重组模型存在过参数化、计算量大的问题。本方法通过神经网剪枝减少参数规模,并进一步融合来自不同模型的参数。对大小为O×I×H×W的重组参数,计算O个卷积核之间两两相似度。相似度的度量标准为余弦相似度
Figure BDA0002233971410000041
其中A和B分别表示卷积核,·运算表示向量内积,|| ||表示向量的模长。取相似度最高的K组参数,在每一组参数中随机选取其中一个进行剪枝。其中K为预先设定的剪枝规模。剪去参数后,本层输出的特征图数量减少,因此需要对紧随其后的卷积层剪枝调整。
剪枝分为整体剪枝和逐层剪枝两种方式,整体剪枝每一轮同时对模型的各层参数进行剪枝。逐层剪枝一轮仅对模型的其中一层进行剪枝。整体剪枝耗时更短,精度略低,而逐层剪枝训练时间较长,但精度较高。如图2所示,在每轮剪枝后,利用预训练模型在无标签数据上的预测对剪纸模型进行训练。使经过剪枝的模型去学习软标签。在训练过程中,零填充的卷积核参数也参与训练,使得模型性能具有更大的提升空间。训练收敛后,继续进行剪枝、训练的过程直至性能、参数规模达到部署要求。
结束迭代的剪枝训练后,得到的重组模型规模较小,且精度通常能够持平甚至优于预训练模型。该重组模型能够对图像进行压缩,解码端的两个解码器能够分别解码图像和语义。编码端部署于终端设备,对图像进行采集并压缩,传输给解码端。解码端在不需要获得原始图像的情况下即可对图像进行语义分割。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于知识重组的语义图像压缩方法,包括下列步骤:
1)获得预训练的编解码器结构模型以及无标签数据;
分别选取用于图像压缩和语义分割任务的编解码器结构模型。语义分割模型对输入图像进行逐像素分类,图像压缩模型对数字图像进行压缩和解压。本方法使用无标签数据进行训练,即使用预训练模型对输入图像进行预测,将预测结果作为学习目标。
2)模型重组;
对预训练模型的编码器参数进行零填充,将大小为O×I×H×W的参数填充为O×∑tIt×H×W,使其能够接收所有预训练模型的输入,其中t表示预训练模型的序号。最后组合多个零填充参数,获得大小为∑tOt×∑tIt×H×W的重组参数。非零参数经过重组后依次成对角线排布,其余位置均为零。对多个模型的编码器部分进行逐层重组,得到重组模型。重组模型包括一个共享的重组编码器和两路解码器。解码器能够独立工作,分别进行语义分割和图像解压。重组模型与多个预训练模型功能等价。
3)迭代剪枝减小模型规模;
基于余弦相似度
Figure FDA0002233971400000011
计算每一层参数之间相似度,其中A和B分别表示参数向量,·运算表示向量内积,‖‖表示向量的模长。取相似度最高的K对参数进行剪枝。其中K为预先设定的剪枝规模。
利用预训练模型在无标签数据上的预测结果作为目标,进行多任务训练,压缩分支损失函数为均方误差
Figure FDA0002233971400000012
语义分割分支损失函数为交叉熵Ls=-∑x∈χp(x)logq(x),编码层采用量化函数Q(x)=Round(x)。最终的损失函数为L=LC+αLS,其中α用于控制两者权重。零填充参数需要参与训练,逐渐转化为有效参数,提升模型性能。重复步骤(3)直至重组模型性能和参数规模达到部署要求。最终的重组模型能够执行图像压缩,同时可以根据需要从编码中解码原图或者解码语义,两个任务可独立执行。
CN201910980491.3A 2019-10-15 2019-10-15 基于知识重组的语义图像压缩方法 Active CN110930408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910980491.3A CN110930408B (zh) 2019-10-15 2019-10-15 基于知识重组的语义图像压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910980491.3A CN110930408B (zh) 2019-10-15 2019-10-15 基于知识重组的语义图像压缩方法

Publications (2)

Publication Number Publication Date
CN110930408A true CN110930408A (zh) 2020-03-27
CN110930408B CN110930408B (zh) 2021-06-18

Family

ID=69849012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910980491.3A Active CN110930408B (zh) 2019-10-15 2019-10-15 基于知识重组的语义图像压缩方法

Country Status (1)

Country Link
CN (1) CN110930408B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927236A (zh) * 2021-03-01 2021-06-08 南京理工大学 一种基于通道注意力和自监督约束的服装解析方法及系统
CN113762505A (zh) * 2021-08-13 2021-12-07 中国电子科技集团公司第三十八研究所 一种卷积神经网络的按通道l2范数聚类剪枝方法
CN114610935A (zh) * 2022-05-12 2022-06-10 之江实验室 一种文本控制图像风格的语义图像合成的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130094771A1 (en) * 2009-08-03 2013-04-18 Indian Institute Of Technology Bombay System for creating a capsule representation of an instructional video
CN103927339A (zh) * 2014-03-27 2014-07-16 北大方正集团有限公司 知识重组系统和知识重组方法
CN109614990A (zh) * 2018-11-20 2019-04-12 成都通甲优博科技有限责任公司 一种目标检测装置
CN110097084A (zh) * 2019-04-03 2019-08-06 浙江大学 通过投射特征训练多任务学生网络的知识融合方法
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130094771A1 (en) * 2009-08-03 2013-04-18 Indian Institute Of Technology Bombay System for creating a capsule representation of an instructional video
CN103927339A (zh) * 2014-03-27 2014-07-16 北大方正集团有限公司 知识重组系统和知识重组方法
CN109614990A (zh) * 2018-11-20 2019-04-12 成都通甲优博科技有限责任公司 一种目标检测装置
CN110097084A (zh) * 2019-04-03 2019-08-06 浙江大学 通过投射特征训练多任务学生网络的知识融合方法
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AKBARI, M.,ET.AL: "DSSLIC: Deep semantic segmentation-based layered image compression.", 《IN ICASSP 2019-2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
YEZHOU YANG,ET.AL: "DeepSIC_Deep_Semantic_Image_Compression", 《ARXIV:1801.09468V1》 *
宋明黎: "如何从海量监控视频中提取并展示目标活动线索", 《人工智能》 *
张海涛,等: "虚拟学术社区用户知识交流行为机理及网络拓扑结构研究", 《情报科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927236A (zh) * 2021-03-01 2021-06-08 南京理工大学 一种基于通道注意力和自监督约束的服装解析方法及系统
CN112927236B (zh) * 2021-03-01 2021-10-15 南京理工大学 一种基于通道注意力和自监督约束的服装解析方法及系统
CN113762505A (zh) * 2021-08-13 2021-12-07 中国电子科技集团公司第三十八研究所 一种卷积神经网络的按通道l2范数聚类剪枝方法
CN113762505B (zh) * 2021-08-13 2023-12-01 中国电子科技集团公司第三十八研究所 一种卷积神经网络的按通道l2范数聚类剪枝方法
CN114610935A (zh) * 2022-05-12 2022-06-10 之江实验室 一种文本控制图像风格的语义图像合成的方法及系统
CN114610935B (zh) * 2022-05-12 2022-08-30 之江实验室 一种文本控制图像风格的语义图像合成的方法及系统

Also Published As

Publication number Publication date
CN110930408B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
US10462476B1 (en) Devices for compression/decompression, system, chip, and electronic device
CN110930408B (zh) 基于知识重组的语义图像压缩方法
US6349152B1 (en) Table-based compression with embedded coding
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
CN107481295B (zh) 基于动态字节长度分配的卷积神经网络的图像压缩系统
CN109451308A (zh) 视频压缩处理方法及装置、电子设备及存储介质
CN111246206B (zh) 一种基于自编码器的光流信息压缩方法及装置
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
CN113079378B (zh) 图像处理方法、装置和电子设备
CN113747163B (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
WO2022028197A1 (zh) 一种图像处理方法及其设备
Zhang et al. Learned scalable image compression with bidirectional context disentanglement network
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
CN115955563A (zh) 一种星地联合多光谱遥感影像压缩方法及系统
CN113450421B (zh) 一种基于增强深度学习的无人机侦察图像压缩与解压方法
Huang et al. Multi-channel multi-loss deep learning based compression model for color images
CN111050170A (zh) 基于gan的图片压缩系统构建方法、压缩系统及方法
CN111080729A (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
Matsuda et al. Lossless coding using predictors and arithmetic code optimized for each image
Yeh et al. On the optimality of a universal noiseless coder
Khan An implementation of vector quantization using the genetic algorithm approach
Asif et al. Image codec by noncausal prediction, residual mean removal, and cascaded VQ
CN113554719A (zh) 一种图像编码方法、解码方法、存储介质及终端设备
Pinho et al. A context adaptation model for the compression of images with a reduced number of colors
KR102616344B1 (ko) 영상 변환 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant