CN113947136A - 图像压缩和分类方法、装置及电子设备 - Google Patents

图像压缩和分类方法、装置及电子设备 Download PDF

Info

Publication number
CN113947136A
CN113947136A CN202111161082.4A CN202111161082A CN113947136A CN 113947136 A CN113947136 A CN 113947136A CN 202111161082 A CN202111161082 A CN 202111161082A CN 113947136 A CN113947136 A CN 113947136A
Authority
CN
China
Prior art keywords
image
encoder
classification
error
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111161082.4A
Other languages
English (en)
Inventor
段一平
陶晓明
程宝平
杜冰
郭原成
潘成康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
China Mobile Communications Group Co Ltd
Original Assignee
Tsinghua University
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, China Mobile Communications Group Co Ltd filed Critical Tsinghua University
Priority to CN202111161082.4A priority Critical patent/CN113947136A/zh
Publication of CN113947136A publication Critical patent/CN113947136A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种图像压缩和分类方法、装置及电子设备,图像压缩和分类方法包括获取待训练的卷积神经网络模型,模型包括由卷积层构成的编码器、共用编码器的生成器及分类器;获取图像样本,利用编码器对图像样本进行卷积处理,得到特征图像;将特征图像输入生成器和分类器,输出图像样本的压缩图像以及分类结果;获得压缩图像与图像样本之间的第一误差,及分类结果的第二误差,并利用第一误差和第二误差调整卷积神经网络模型的模型参数,利用调整得到的模型参数返回获取图像样本,利用编码器对图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。本发明图像压缩及图像分类使用同一编码器,可以大大减少计算资源。

Description

图像压缩和分类方法、装置及电子设备
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像压缩和分类方法、装置及电子设备。
背景技术
近年来,随着对深度学习的研究不断深入,基于深度学习的图像压缩和分类方法也随之被提出,深度学习对图像特征提取、表达能力,以及高维数据的处理能力等都被认为对于图像压缩存在独有的优势。目前深度学习中比较常见的卷积神经网络CNN等架构在图像编码、压缩、分类等图像处理的应用领域都取得了卓越的表现。
利用深度学习技术,先利用图像样本训练网络模型,以调整网络模型的模型参数,得到训练好的网络模型。然后,将待处理图像输入训练好的网络模型,从而输出图像处理结果,比如压缩图像或分类标签等。
因此,如何节省基于深度学习技术的图像处理任务中的计算资源是业界普遍考虑的一个课题。
发明内容
本发明提供一种图像压缩和分类方法、装置及电子设备,用以解决现有技术中图像处理需要大量计算资源的缺陷,实现计算时的资源节省。
本发明提供一种图像压缩和分类方法,包括:
获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
获得所述压缩图像与所述图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。
根据本发明提供的一种图像压缩和分类方法,所述获得所述压缩图像与所述图像样本之间的第一误差,包括:
将所述压缩图像和图像样本输入判别器,输出所述压缩图像和图像样本之间的区分结果,所述区分结果作为所述第一误差;
其中所述生成器和判别器分别为生成对抗网络中的生成网络和判别网络。
根据本发明提供的一种图像压缩和分类方法,所述利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,包括:
利用所述第一误差调整所述判别器的参数。
根据本发明提供的一种图像压缩和分类方法,在利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标的模型参数之前,所述方法还包括:
将测试图片输入基于所述待训练的卷积神经网络模型的所述模型参数得到的测试网络,输出分类标签测试值;
利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标的模型参数,包括:
在所述分类标签测试值未达到所述训练目标值的情况下,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标的模型参数。
根据本发明提供的一种图像压缩和分类方法,所述利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,包括:
利用所述第一误差调整所述编码器和生成器的参数;
利用所述第二误差调整所述编码器和分类器的参数。
一种图像压缩和分类方法,包括:获取训练得到的卷积神经网络模型,所述卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
获取待处理图像,利用所述编码器对所述待处理图像进行卷积操作,得到特征图像;
将所述特征图像输入所述生成器,输出所述待处理图像的压缩图像,及将所述特征图像输入所述分类器,输出所述待处理图像的分类标签;
其中,所述卷积神经网络模型是利用图像样本训练得到的。
本发明还提供一种图像压缩和分类装置,包括:获取模块,获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
特征提取模块,获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
训练模块,将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
模型参数调整模块,获得所述压缩图像与所述图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。
本发明还提供一种图像压缩和分类装置,获取模块,获取训练得到的卷积神经网络模型,所述卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
特征提取模块,获取待处理图像,利用所述编码器对所述待处理图像进行卷积操作,得到特征图像;
图像压缩和分类模块,将所述特征图像输入所述生成器,输出所述待处理图像的压缩图像,及将所述特征图像输入所述分类器,输出所述待处理图像的分类标签;
其中,所述训练得到的卷积神经网络模型是利用图像样本训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像压缩和分类方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像压缩和分类方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像压缩和分类方法的步骤。
本发明提供的图像压缩和分类方法、装置及电子设备,利用多任务联合训练技术对用于图像压缩及图像分类的待训练的卷积神经网络模型进行训练,其中用于图像压缩的生成器及用于图像分类的分类器共用由卷积层构成的编码器。这样,训练得到的卷积神经网络模型可对待处理图像同时执行图像压缩及图像分类。
本发明技术方案中图像压缩及图像分类使用同一编码器,这种设计可以大大减少计算资源。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的图像压缩和分类方法的流程示意图之一;
图2是本发明提供的图像压缩和分类方法的框架图之一;
图3是本发明提供的图像压缩和分类方法的框架图之二;
图4是本发明提供的图像压缩和分类方法的框架图之三;
图5是本发明提供的图像压缩和分类方法的流程示意图之二;
图6是本发明提供的图像压缩和分类方法的流程示意图之三;
图7是本发明提供的图像压缩和分类方法的网络模型图;
图8是本发明提供的图像压缩和分类装置的结构示意图之一;
图9是本发明提供的图像压缩和分类装置的结构示意图之二;
图10是本发明提供的图像压缩和分类装置的结构示意图之三;
图11是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图7描述本发明的提供的一种图像压缩和分类方法。本方法的执行主题是图像处理系统或运行图像处理系统的控制模块。
如图1所示,本发明提供一种图像压缩和分类方法,包括以下步骤:
步骤110:获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
步骤120:获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
步骤130:将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
步骤140:获得所述压缩图像与图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。
具体地,卷积神经网络是一种包含卷积计算且具有深度结构的前馈神经网络,具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。其中,卷积神经网络的卷积层对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,该权重系数和偏差量即为需要训练的模型参数第一部分。
如图2所示,本实施例提供的图像压缩和分类方法的卷积神经网络的框架包括编码器210、生成器220以及分类器230。编码器210的输入端输入图像样本,输出端输出特征图像,特征图像同时作为生成器220和分类器230的输入。
在本实施例中,编码器由多层卷积层所构成,编码器将输入的图像样本进行卷积处理,得到图像样本对应的特征图像。其中,卷积处理即为编码过程,其主要目的为对输入的图像样本进行特征提取,得到特征图像。
生成器和分类器分别用于对特征图像进行压缩和分类,生成器和分类器共用编码器,因此,由编码器生成的特征图像能够同时用于图像压缩和图像分类。
具体地,生成器根据编码器输出的特征图像进行图像重构,生成与图像样本相似的压缩图像。这样生成器对特征图像进行反卷积处理,得到压缩图像。压缩图像和图像样本之间的相似度差异为第一误差,根据第一误差可以调整模型参数,包括调整编码器及生成器中相应的模型参数。
具体地,分类器对编码器输出的特征图像进行目标识别并分类,得到图像样本的分类结果。其中,分类的准确度为第二误差,根据第一误差调整模型参数,包括调整编码器以及分类器的模型参数。
其中,本实施例中达到训练目标值指的是卷积神经网络模型收敛,具体表现为:图像的压缩结果和分类结果的误差均小于预设阈值,表示模型训练完成。
本实施例提供的图像压缩和分类方法利用多任务联合训练技术对用于图像压缩及图像分类的待训练的卷积神经网络模型进行训练,其中用于图像压缩的生成器及用于图像分类的分类器共用由卷积层构成的编码器。这样,对图像压缩及图像分类的训练过程能够同时对编码器中的模型参数进行训练,从而显著提升编码器中模型参数准确度,进一步提升卷积神经网络模型的准确度。本实施例中图像压缩及图像分类使用同一编码器,这种设计可以大大减少计算资源。
这样,训练得到的卷积神经网络模型可对待处理图像同时执行图像压缩及图像分类。
可选地,所述获得所述压缩图像与所述图像样本之间的第一误差,包括:
将所述压缩图像和图像样本输入判别器,输出所述压缩图像和图像样本之间的区分结果,所述区分结果作为所述第一误差;
其中所述生成器和判别器分别为生成对抗网络中的生成网络和判别网络。
可选的,所述利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,包括:
利用所述第一误差调整所述编码器和生成器的参数;
利用所述第二误差调整所述编码器和分类器的参数。
利用所述第一误差调整所述判别器的参数。
如图3所示,与图2相比,本实施例的卷积神经网络模型还包括:判别器310,输入生成器320生成的压缩图像及原始的图像样本,输出对压缩图像和图像样本的区分结果。
其中,生成器用于图像重构,生成与图像样本相似的压缩图像,判别器用于将压缩图像和图像样本进行判别,判断压缩图像和图像样本之间的第二误差是否满足目标。
具体地,生成器的目标是生成与图像样本相似的压缩图像,欺骗判别器。在训练过程中,判别器接收图像样本和生成器生成的压缩图像,即接收真数据和生成器产生的假数据,判别器判断输入的压缩图像为真数据还是假数据。对于判别器输出的区分结果,对生成器和判别器的参数进行调整。如果判别器判断为真数据,则需要调整生成器的参数使生成的假数据更为逼真;如果判断为假数据,则需要调整判别器的参数,避免下次判断出错。本实施例中模型的训练会一直持续到生成器和判别器进入均衡和谐的状态。
在本实施例中,判别器根据输入的图像样本和压缩图像,输出区分结果,根据区分结果对生成器和判别器的参数进行调整,直到获取达到训练目标值的模型参数。
如图4所示,本实施例的卷积神经网络模型还包括量化器420。包括以下步骤:对编码器410获取的特征图像进行量化,利用量化器420对特征图像进行处理,得到特征图像的量化表示;量化器420将特征图像映射为多个量化级别;将量化表示同时输入至所述生成器430和分类器440,生成器430基于量化表示生成压缩图像,分类器440基于量化表示得到特征图像的分类标签。
参照图5,本实施例提供一种图像压缩和分类方法包括如下步骤:
步骤510:获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
步骤520:获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
步骤530:将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
步骤540:获得所述压缩图像与所述图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数;
步骤550:将测试图片输入基于所述待训练的卷积神经网络模型的所述模型参数得到的测试网络,输出分类标签测试值;
步骤560:在所述分类标签测试值未达到所述训练目标值的情况下,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标的模型参数。
将经过分类器训练后的参数输入到测试网络中;将测试图片输入具有训练后参数的测试网络中,得到对测试图片的分类标签测试值。
可选的,将所有的分类标签测试值计算平均值,将计算后的平均值再和目标值比较,判断训练是否达到目标值。若计算的平均值达到目标值,则结束训练,否则继续对模型的参数进行训练。本实施例中预设阈值可根据不同情况设定,在此不做具体限定。
如图6所示,在一可选的实施例中,本发明提供一种图像压缩和分类方法,本实施例为训练完成的卷积神经网络的应用过程,包括以下步骤:
步骤610:获取训练得到的卷积神经网络模型,所述卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
步骤620:获取待处理图像,利用所述编码器对所述待处理图像进行卷积操作,得到特征图像;
步骤630:将所述特征图像输入所述生成器,输出所述待处理图像的压缩图像,及将所述特征图像输入所述分类器,输出所述待处理图像的分类标签;
其中,所述卷积神经网络模型是利用图像样本训练得到的。
本实施例提供的图像压缩和分类方法利用多任务联合的卷积神经网络模型用于图像压缩及图像分类,其中用于图像压缩的生成器及用于图像分类的分类器共用由卷积层构成的编码器。这样,卷积神经网络模型可对待处理图像同时执行图像压缩及图像分类。本实施例中图像压缩及图像分类使用同一编码器,这种设计可以大大减少计算资源。
如图7所示,结合本发明的卷积神经网络模型图,以下对本发明提供的图像压缩和分类方法进行详细描述:
需要说明的是,本发明的卷积神经网络架构包括编码器710、量化器720、生成器730、分类器740以及判别器750。
其中,编码器主要由卷积块组成,每一个卷积块又包含了卷积层、数据归一化层和激活函数层,第一层为1个卷积核尺寸为7×7,通道数为32,步长为1的卷积块层;第二层是1个卷积核尺寸为3×3,通道数为64,步长为1的卷积块层和1个尺寸为2×2、步长为2的最大池化层;第三层是2个卷积块层,其中卷积核尺寸为3×3,通道数为125,步长分别为1,2;第四层是2个卷积块层,其中卷积核尺寸为3×3,通道数为256,步长分别为1,2;第5层是2个卷积核尺寸为3×3,通道数为512,步长为1的卷积块层;之后还有2个残差块和1个平均池化层,每个残差块的内核大小为3×3,步长为1,通道数为512,平均池化层的尺寸为2×2、步长为2;最后为1个卷积核尺寸为3×3,通道数为C,步长为1的卷积块层。
根据以下公式,获取特征图像的尺寸;
Figure BDA0003290203970000111
其中,z为特征图像对应的信息,W、H分别为图像样本的长和宽,m为缩小倍数,C为采样因子。
获取特征图像之后,生成器和分类器同时对特征图像进行压缩和分类。
具体地,对于本实施例中的量化器,将编码器生成的特征图像传入量化器,进行自适应的比特分配。假设有L个中心向量
Figure BDA0003290203970000112
编码器将Z重塑成矩阵
Figure BDA0003290203970000113
Figure BDA0003290203970000114
且将每列
Figure BDA0003290203970000115
分配给它在C中最邻近索引来执行编码。定义软分配(soft assignment),如以下公式所示:
Figure BDA0003290203970000116
其中,softmax是标准softmax运算符,使得
Figure BDA0003290203970000117
都为正元素,而且
Figure BDA0003290203970000118
Figure BDA0003290203970000119
来定义
Figure BDA00032902039700001110
中第j个元素,
Figure BDA0003290203970000121
使得
Figure BDA0003290203970000122
收敛到C中距离Z最近的一个one-hot编码,参数σ>0作为软分配的硬度,使用这种软分配,将Z的软量化定义为:
Figure BDA0003290203970000123
其中,把中心写成矩阵的形式
Figure BDA0003290203970000124
相应的硬分配是用
Figure BDA0003290203970000125
其中
Figure BDA0003290203970000126
是C中离Z最近的中心,可以写成:
Figure BDA0003290203970000127
本实施例中用最近邻赋值来计算
Figure BDA0003290203970000128
使用软分配来用平滑松弛近似它,将图像的特征表示量化成可微近似的表示。设置5个量化中心{-2,-1,0,1,2},以减少传输的数据量,将特征图像映射成量化后的潜在表示。
具体地,对于本实施例中生成网络对应的生成器,生成器是编码器的反过程,通过上采样和反卷积,由生成器编码压缩图像。生成器网络的第一层是去卷积层,卷积核的尺寸大小是3×3,通道数是512,紧接着的网络是由9个残差块组成,每个残差块是由2个步长为1卷积核尺寸大小为3×3的卷积块组成,后面是4个卷积核尺寸大小为3×3且步长为2的上采样层,最后一层是一个卷积层,卷积核大小为7×7,步长为1,通道数为3。通过上述网络,可以将特征图像进行重构,得到压缩图像。
具体地,对于本实施例中判别网络对应的判别器,将图像样本和压缩图像共同送入判别器,让判别器对图像样本和压缩图像进行区分。本实施例运用了多尺度判别器技术,激活函数为Leaky ReLU函数,先进行2次池化尺寸大小为3×3步长为2的平均池化层,之后进入判别器网络,第一层为步长为2,卷积核大小是4×4,通道数为64的卷积层,第二部分为卷积核大小为4×4,步长为2,通道数分别为125,256,512的3个卷积块,最后一层为卷积核大小为4×4,步长为1,通道数为1的卷积层。
具体地,对于本实施例中的分类器,将量化表示输入至分类器中进行扁平化处理;通过有4096个节点的第一全连接层,利用dropout技术防止过拟合,并设置元素被保留的概率;通过有100个节点的第二全连接层,根据Softmax分类器得出特征图像的分类标签。
在本实施例的卷积神经网络进行训练时,根据生成器对应的损失函数获取生成损失值;根据分类器对应的损失函数获取分类损失值;根据判别器对应的损失函数获取判别损失值;
如以下公式,将所述生成损失值、分类损失值以及判别损失值进行加权,计算整体损失:
Figure BDA0003290203970000131
其中,L为整体损失,λG为生成器的权重,λD为判别器的权重,λC为分类器的权重,LG为生成损失值,LD为判别损失值,LC分类损失值。
具体地,基于本实施的多任务学习网络,针对不同的任务设计不同的损失函数。在图像压缩方面,利用对抗性损失、生成器损失和判别器损失来提高低比特率下的感知质量。对于图像的分类,采用交叉熵损失来保证分类的准确性。
生成损失值的计算方法为:
LG=λGANLGANFMLFM
其中,λGAN为对抗性损失的权重,λFM为特征匹配损失的权重,LGAN为对抗损失值,LFM为特征匹配损失值;
特征匹配的损失值的计算公式为:
Figure BDA0003290203970000141
Figure BDA0003290203970000142
是判别器k个特征中的第i个特征,Ex是输入图像的期望值。
判别损失值的计算方法为:
Figure BDA0003290203970000143
其中,
Figure BDA0003290203970000144
为压缩图像的参数,x为图像样本的参数;
具体地,对于判别器,使用多尺度判别器,其中包含3个判别器,具有相同的网络结构,但在不同的图像尺度下工作。本实施例中,对图像样本和压缩图像进行2倍和4倍的下采样,创建3个比例的图像金字塔,然后让判别器分别在不同的尺度上区分图像样本和压缩图像,可以引导生成器生成全局一致的图像。另一方面,引导生成器产生更精细的细节,这也使得生成器的训练变得更容易。
分类损失值的计算方法为:
Figure BDA0003290203970000145
其中,y为图像样本x对应的标签,m为图像数量。
本实施例中,计算分类损失值的方法可选为交叉熵损失法。
以下将结合实际数据,表明本发明提供的图像压缩和分类方法的有效性。
为了更好的提高本发明的实验效果。采取的数据集包含了1000类对象的图像,这1000个语法集是更大的图像网络的一部分,从中随机挑选了100类,每类1300张图像,将图像按比例随机分为训练集和测试集。每一张图片尺寸大小不等,重新对图像进行预处理将图像大小重新调整为256×256×3,随机按照9:1的比例划分数据集和测试集,选取其中117000多张图片进行训练,其余作为测试。模型的参数设置如下所示:batchsize设置为32,特征匹配权重λFM=10,编码器最后一层通道数C=16,8,4。用不同的C,得到不同的比特率。当C=4时,比特率为0.0362;当C=8时,比特率为0.0725;当C=16时,比特率为0.145。量化中心设置为{-2,-1,0,1,2},生成器、判别器和分类器的学习率都为2×10-4,使用了动量为0.9的Adam优化器,整个模型在TITAN XP GPU显卡上进行了多于100epoch的训练。
将本发明提出的方法和图像压缩标准JPEG2000进行对比,首先将图像压缩到一个固定的比特率,方便与本发明的算法进行对比,然后使用经典的图像分类算法VGG(VisualGeometry Group)网络进行图像分类的任务。使用结构相似性(SSIM)来评估压缩的性能,用分类准确度来评估分类的准确性。首先,使用GANs进行图像压缩可以实现极低的比特率和视觉上可接受的重构。下表为不同压缩级别下的压缩性能和分类准确度:
Figure BDA0003290203970000151
从表中可以看到,在比特率为0.1450的情况下,压缩性能与JPEG 2000相当。其次,在显著较低的比特率下,对不同比特率下的分类精度进行了测试,其性能优于JPEG 2000。特别是比特率为0.0362时,该方法的分类精度是JPEG 2000方法的3倍。
下表示不同任务的参数对比。
任务 方法 参数
压缩 GAN 2.91*7<sup>7</sup>/111.01M
分类 VGG19 1.38*7<sup>8</sup>/527.75M
分离压缩和分类 GAN+VGG19 1.67*7<sup>8</sup>/638.76M
协同压缩和分类 本发明 2.96*7<sup>7</sup>/112.92M
对于单独压缩和分类,参数为638.76M。对于协同压缩和分类,参数为112.92M。这表明参数大大节省了计算资源。通过大量实验证明了本发明提供的图像压缩和分类方法的有效性和实用性。
下面对本发明提供的图像压缩和分类装置进行描述,下文描述的图像压缩和分类装置与上文描述的图像压缩和分类方法可相互对应参照。
如图8所示,本发明提供一种图像压缩和分类装置,用于本发明卷积神经网络的训练,包括以下模块:
获取模块810,获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
特征提取模块820,获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
训练模块830,将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
模型参数调整模块840,获得所述压缩图像与所述图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。
本发明提供的图像压缩和分类装置,通过卷积神经网络模型对图像样本通过卷积进行特征提取,得到相应的特征图像,特征图像可同时用于图像压缩和图像分类。本发明将图像压缩和分类进行协同,两个任务可以同时进行,使用较少的数据量便实现了图像压缩和图像分类,因此大大节省了计算资源。
可选地,模型参数调整模块840具体用于:
将所述压缩图像和图像样本输入判别器,输出所述压缩图像和图像样本之间的区分结果,所述区分结果作为所述第一误差;
其中所述生成器和判别器分别为生成对抗网络中的生成网络和判别网络。
可选地,模型参数调整模块840利用所述第一误差调整所述判别器的参数;利用所述第一误差调整所述编码器和生成器的参数;利用所述第二误差调整所述编码器和分类器的参数。
可选地,如图9所示,与图8相比,本装置还包括:
测试模块910,用于将测试图片输入基于所述待训练的卷积神经网络模型的所述模型参数得到的测试网络,输出分类标签测试值;
模型参数调整模块920具体用于:在所述分类标签测试值未达到所述训练目标值的情况下,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标的模型参数。
本发明提供的图像压缩和分类装置,利用多任务联合训练技术对用于图像压缩及图像分类的待训练的卷积神经网络模型进行训练,其中用于图像压缩的生成器及用于图像分类的分类器共用由卷积层构成的编码器。这样,训练得到的卷积神经网络模型可对待处理图像同时执行图像压缩及图像分类。
本实施例中图像压缩及图像分类使用同一编码器,这种设计可以大大减少计算资源。
如图10所示,本发明提供一种图像压缩和分类装置,用于本发明卷积神经网络模型训练之后的应用,包括以下模块。
获取模块1010,获取训练得到的卷积神经网络模型,所述卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
特征提取模块1020,获取待处理图像,利用所述编码器对所述待处理图像进行卷积操作,得到特征图像;
图像压缩和分类模块1030,将所述特征图像输入所述生成器,输出所述待处理图像的压缩图像,及将所述特征图像输入所述分类器,输出所述待处理图像的分类标签;
其中,所述训练得到的卷积神经网络模型是利用图像样本训练得到的。
本发明提供的图像压缩和分类装置,利用多任务联合的卷积神经网络模型用于图像压缩及图像分类,其中用于图像压缩的生成器及用于图像分类的分类器共用由卷积层构成的编码器。这样,卷积神经网络模型可对待处理图像同时执行图像压缩及图像分类。本实施例中图像压缩及图像分类使用同一编码器,这种设计可以大大减少计算资源。
本发明技术方案中图像压缩及图像分类使用同一编码器,这种设计可以大大减少计算资源。
图11示例了一种电子设备的实体结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令,以执行图像压缩和分类方法,该方法包括:
获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
获得所述压缩图像与所述图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。
此外,上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的图像压缩和分类方法,该方法包括:
获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
获得所述压缩图像与所述图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的图像压缩和分类方法,该方法包括:
获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
获得所述压缩图像与所述图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种图像压缩和分类方法,其特征在于,包括:
获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
获得所述压缩图像与所述图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。
2.根据权利要求1所述的图像压缩和分类方法,其特征在于,所述获得所述压缩图像与所述图像样本之间的第一误差,包括:
将所述压缩图像和图像样本输入判别器,输出所述压缩图像和图像样本之间的区分结果,所述区分结果作为所述第一误差;
其中所述生成器和判别器分别为生成对抗网络中的生成网络和判别网络。
3.根据权利要求2所述的图像压缩和分类方法,其特征在于,所述利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,包括:
利用所述第一误差调整所述判别器的参数。
4.根据权利要求1所述的图像压缩和分类方法,其特征在于,在利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标的模型参数之前,所述方法还包括:
将测试图片输入基于所述待训练的卷积神经网络模型的所述模型参数得到的测试网络,输出分类标签测试值;
利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标的模型参数,包括:
在所述分类标签测试值未达到所述训练目标值的情况下,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标的模型参数。
5.根据权利要求1所述的图像压缩和分类方法,其特征在于,所述利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,包括:
利用所述第一误差调整所述编码器和生成器的参数;
利用所述第二误差调整所述编码器和分类器的参数。
6.一种图像压缩和分类方法,其特征在于,包括:
获取训练得到的卷积神经网络模型,所述卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
获取待处理图像,利用所述编码器对所述待处理图像进行卷积操作,得到特征图像;
将所述特征图像输入所述生成器,输出所述待处理图像的压缩图像,及将所述特征图像输入所述分类器,输出所述待处理图像的分类标签;
其中,所述卷积神经网络模型是利用图像样本训练得到的。
7.一种图像压缩和分类装置,其特征在于,包括:
获取模块,获取待训练的卷积神经网络模型,所述待训练的卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
特征提取模块,获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像;
训练模块,将所述特征图像输入所述生成器,输出所述图像样本的压缩图像,及将所述特征图像输入所述分类器,输出所述图像样本的分类结果;
模型参数调整模块,获得所述压缩图像与所述图像样本之间的第一误差,及所述分类结果的第二误差,并利用所述第一误差和第二误差调整所述卷积神经网络模型的模型参数,利用调整得到的模型参数返回所述获取图像样本,利用所述编码器对所述图像样本进行卷积处理,得到特征图像,直到得到达到训练目标值的模型参数。
8.一种图像压缩和分类装置,其特征在于,包括:
获取模块,获取训练得到的卷积神经网络模型,所述卷积神经网络模型包括由卷积层构成的编码器、共用所述编码器的生成器及分类器;
特征提取模块,获取待处理图像,利用所述编码器对所述待处理图像进行卷积操作,得到特征图像;
图像压缩和分类模块,将所述特征图像输入所述生成器,输出所述待处理图像的压缩图像,及将所述特征图像输入所述分类器,输出所述待处理图像的分类标签;
其中,所述训练得到的卷积神经网络模型是利用图像样本训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述图像压缩和分类方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述图像压缩和分类方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述图像压缩和分类方法的步骤。
CN202111161082.4A 2021-09-30 2021-09-30 图像压缩和分类方法、装置及电子设备 Pending CN113947136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111161082.4A CN113947136A (zh) 2021-09-30 2021-09-30 图像压缩和分类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111161082.4A CN113947136A (zh) 2021-09-30 2021-09-30 图像压缩和分类方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN113947136A true CN113947136A (zh) 2022-01-18

Family

ID=79329141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111161082.4A Pending CN113947136A (zh) 2021-09-30 2021-09-30 图像压缩和分类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113947136A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201118A (zh) * 2022-02-15 2022-03-18 北京中科开迪软件有限公司 一种基于光盘库的存储方法及系统
CN114781557A (zh) * 2022-06-23 2022-07-22 展讯通信(上海)有限公司 图像信息获取方法及装置、计算机可读存储介质
CN115239986A (zh) * 2022-06-10 2022-10-25 首都医科大学附属北京友谊医院 图像分类方法、装置、设备及存储介质
CN115272140A (zh) * 2022-09-29 2022-11-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 红外图像量化和增强方法、系统及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201118A (zh) * 2022-02-15 2022-03-18 北京中科开迪软件有限公司 一种基于光盘库的存储方法及系统
CN115239986A (zh) * 2022-06-10 2022-10-25 首都医科大学附属北京友谊医院 图像分类方法、装置、设备及存储介质
CN115239986B (zh) * 2022-06-10 2023-11-07 首都医科大学附属北京友谊医院 图像分类方法、装置、设备及存储介质
CN114781557A (zh) * 2022-06-23 2022-07-22 展讯通信(上海)有限公司 图像信息获取方法及装置、计算机可读存储介质
CN114781557B (zh) * 2022-06-23 2022-09-09 展讯通信(上海)有限公司 图像信息获取方法及装置、计算机可读存储介质
CN115272140A (zh) * 2022-09-29 2022-11-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 红外图像量化和增强方法、系统及存储介质
CN115272140B (zh) * 2022-09-29 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 红外图像量化和增强方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN113947136A (zh) 图像压缩和分类方法、装置及电子设备
CN108108751B (zh) 一种基于卷积多特征和深度随机森林的场景识别方法
CN111292330A (zh) 基于编解码器的图像语义分割方法及装置
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN109784153A (zh) 情绪识别方法、装置、计算机设备及存储介质
CN109344893B (zh) 一种基于移动终端的图像分类方法
CN110102051B (zh) 游戏外挂的检测方法及装置
CN111415323B (zh) 图像的检测方法及装置,神经网络的训练方法及装置
CN110738153A (zh) 异质人脸图像转换方法、装置、电子设备及存储介质
CN115294563A (zh) 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置
CN112672168A (zh) 基于图卷积的点云压缩方法及装置
CN110633735B (zh) 基于小波变换的渐进式深度卷积网络图像识别方法及装置
CN114529785A (zh) 模型的训练方法、视频生成方法和装置、设备、介质
CN114708343A (zh) 基于图字典学习的三维点云编解码方法、压缩方法及装置
CN113033567B (zh) 一种融合分割网络和生成网络的甲骨拓片图像字符训练方法
CN113869234A (zh) 人脸表情识别方法、装置、设备及存储介质
CN111931757A (zh) 基于mdlbp分块直方图和pca降维的指静脉快速排序方法及装置
CN111898493B (zh) 基于二进制量化三维特征描述子的物体识别方法
CN113554719B (zh) 一种图像编码方法、解码方法、存储介质及终端设备
Han Fast fractal image compression using fuzzy classification
CN113538199B (zh) 一种基于多层感知卷积和通道加权的图像隐写检测方法
CN110047047B (zh) 三维形貌图像信息解译的方法、装置、设备及存储介质
Dranoshchuk et al. About perceptual quality estimation for image compression
CN116612122B (zh) 图像显著性区域的检测方法及装置、存储介质及电子设备
CN113343963B (zh) 一种基于高质量模板的智能尾箱指纹识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination