CN113379858A - 一种基于深度学习的图像压缩方法及装置 - Google Patents
一种基于深度学习的图像压缩方法及装置 Download PDFInfo
- Publication number
- CN113379858A CN113379858A CN202110597919.3A CN202110597919A CN113379858A CN 113379858 A CN113379858 A CN 113379858A CN 202110597919 A CN202110597919 A CN 202110597919A CN 113379858 A CN113379858 A CN 113379858A
- Authority
- CN
- China
- Prior art keywords
- detected
- image
- target
- image frame
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007906 compression Methods 0.000 title claims abstract description 120
- 230000006835 compression Effects 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 113
- 239000013604 expression vector Substances 0.000 claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 38
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 44
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000013139 quantization Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 14
- 238000013441 quality evaluation Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明实施例提供了基于深度学习的图像压缩方法及装置,该方法包括:获取待检测的图像帧,检测所述图像帧中的各待检测目标,得到各待检测目标的类别及检测框信息,通过多层卷积神经网络对所述图像帧进行特征提取,得到所述图像帧的第一特征表示向量;将所述第一特征表示向量均匀量化,得到第二特征表示向量,对所述第二特征表示向量进行特征重构;根据预定义各类别的压缩比例系数,对所述图像帧进行失真计算;对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。通过本发明,实现了在对待检测图像中的不同目标进行分级压缩,有效地去除了冗余的数据特征,极大地提高了图像的压缩比。
Description
技术领域
本发明涉及深度学习及图像压缩技术领域,尤其涉及一种基于深度学习的图像压缩方法及装置。
背景技术
近年来,高位视频技术发展迅速,利用该技术可实现泊位状态、车辆停车、车辆违章等的检测及抓拍,并能够以图片和视频的形式,记录完整过程,同时形成完整的停车或违章取证数据链,极大缓解了此前路边停车的乱收费等现象。在这个过程中,对高位相机捕捉到的数据存储和传输也带来了重大挑战。如何减少图像数据中的冗余信息,从而可更加高效的存储和传输数据,成为亟待解决的问题,现有技术中,一方面,通过结合边缘计算和深度学习的智能终端图像压缩算法,在终端和云端数据传输过程中部署图像压缩模型,以减少网络传输数据量,但是,该方法只能根据统一的压缩比对全局图像进行压缩,容易造成部分区域压缩过度而模糊不清,而部分区域仍存在大量冗余特征;另一方面,利用多层稀疏自动编码和聚类算法对图像进行压缩,但是该方法仅限于对灰度图像进行实验验证,对于目前的应用场景不具有普遍适用性,同时容易造成压缩后图像的不平滑现象;又一方面,通过利用卷积神经网络提取图像的语义重要区域,再根据各区域语义重要成都分级别地对图像进行压缩,但是,该方法中网络分析的语义重要程度往往会有较大的误差,从而导致无法得到有效的压缩图像。
发明内容
本发明实施例提供一种基于深度学习的图像压缩方法及装置,实现了在对待检测图像中的不同目标进行分级压缩,有效地去除了冗余的数据特征,极大地提高了图像的压缩比。
一方面,本发明实施例提供了一种基于深度学习的图像压缩方法,包括:
获取待检测的图像帧,检测所述图像帧中的各待检测目标,得到各待检测目标的类别及检测框信息,并根据各待检测目标的类别及检测框信息,通过多层卷积神经网络对所述图像帧进行特征提取,得到所述图像帧的第一特征表示向量;
将所述第一特征表示向量均匀量化,得到第二特征表示向量,并通过多层卷积神经网络,对所述第二特征表示向量进行特征重构;
基于特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,根据预定义各类别的压缩比例系数,对所述图像帧进行失真计算;
对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。
进一步地,所述获取待检测的图像帧,检测所述图像帧中的各待检测目标,得到各待检测目标的类别及检测框信息,包括:
基于预定频率获取待检测的图像帧;
通过预定目标检测算法检测所述图像帧中的各待检测目标,得到包括各待检测目标的类别及检测框信息的检测结果;
其中,所述检测框信息包括检测框各顶点的像素坐标信息。
进一步地,所述根据各待检测目标的类别及检测框信息,通过多层卷积神经网络对所述图像帧进行特征提取,得到所述图像帧的第一特征表示向量,包括:
根据各待检测目标的类别及检测框信息,将所述图像帧以预定第一像素尺寸的大小输入至多层卷积神经网络;
通过多个卷积层以及广义归一化层的编码运算,提取得到第二像素尺寸大小的所述图像帧的第一特征表示向量;
其中,所述第一像素尺寸大于所述第二像素尺寸。
进一步地,所述将所述第一特征表示向量均匀量化,得到第二特征表示向量,包括:
对第二像素尺寸大小的所述第一特征表示向量进行均匀量化,得到均匀量化后的第二像素尺寸大小的第二特征表示向量。
进一步地,在将所述第一特征表示向量均匀量化,得到第二特征表示向量的步骤之前,包括:
通过增加均匀噪声的训练方式近似量化,训练得到均匀量化模型。
进一步地,所述通过多层卷积神经网络,对所述第二特征表示向量进行特征重构,包括:
将第二特征表示向量输入至多层卷积神经网络;
通过多个卷积层以及广义归一化层的解码运算,将第二像素尺寸大小的第二特征表示向量的大小恢复为第一像素尺寸大小。
进一步地,所述基于特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,根据预定义各类别的压缩比例系数,对所述图像帧进行失真计算,包括:
根据特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,确定各待检测目标中不同区域的区域特征;
确定各待检测目标的类别,并根据预定义各类别的压缩比例系数确定各待检测目标的压缩比例系数;
通过预定图像质量评估函数,根据各待检测目标的区域特征及压缩比例系数,对所述图像帧进行失真计算。
进一步地,所述对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像,包括:
通过交叉熵确定所述图像帧的压缩码率;
基于所述压缩码率,对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。
另一方面,本发明实施例提供了一种基于深度学习的图像压缩装置,包括:
检测及特征提取模块,用于获取待检测的图像帧,检测所述图像帧中的各待检测目标,得到各待检测目标的类别及检测框信息,并根据各待检测目标的类别及检测框信息,通过多层卷积神经网络对所述图像帧进行特征提取,得到所述图像帧的第一特征表示向量;
特征重构模块,用于将所述第一特征表示向量均匀量化,得到第二特征表示向量,并通过多层卷积神经网络,对所述第二特征表示向量进行特征重构;
失真计算模块,用于基于特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,根据预定义各类别的压缩比例系数,对所述图像帧进行失真计算;
压缩模块,用于对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。
进一步地,所述检测及特征提取模块,包括:
获取单元,用于基于预定频率获取待检测的图像帧;
检测单元,用于通过预定目标检测算法检测所述图像帧中的各待检测目标,得到包括各待检测目标的类别及检测框信息的检测结果;
其中,所述检测框信息包括检测框各顶点的像素坐标信息。
进一步地,所述检测及特征提取模块,包括:
第一输入单元,用于根据各待检测目标的类别及检测框信息,将所述图像帧以预定第一像素尺寸的大小输入至多层卷积神经网络;
提取单元,用于通过多个卷积层以及广义归一化层的编码运算,提取得到第二像素尺寸大小的所述图像帧的第一特征表示向量;
其中,所述第一像素尺寸大于所述第二像素尺寸。
进一步地,所述特征重构模块,包括:
均匀量化单元,用于对第二像素尺寸大小的所述第一特征表示向量进行均匀量化,得到均匀量化后的第二像素尺寸大小的第二特征表示向量。
进一步地,包括:
训练模块,用于通过增加均匀噪声的训练方式近似量化,训练得到均匀量化模型。
进一步地,所述特征重构模块,包括:
第二输入单元,用于将第二特征表示向量输入至多层卷积神经网络;
恢复单元,用于通过多个卷积层以及广义归一化层的解码运算,将第二像素尺寸大小的第二特征表示向量的大小恢复为第一像素尺寸大小。
进一步地,所述失真计算模块,具体用于
根据特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,确定各待检测目标中不同区域的区域特征;
确定各待检测目标的类别,并根据预定义各类别的压缩比例系数确定各待检测目标的压缩比例系数;
通过预定图像质量评估函数,根据各待检测目标的区域特征及压缩比例系数,对所述图像帧进行失真计算。
进一步地,所述压缩模块,具体用于
通过交叉熵确定所述图像帧的压缩码率;
基于所述压缩码率,对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。
上述技术方案具有如下有益效果:通过本发明,对采集到的图像数据利用目标检测算法对各个特征区域进行目标检测,得到不同待检测目标的检测框位置和类别信息,通过将图像帧与不同待检测目标的检测框信息送入图像压缩网络中进行学习,分级设置不同待检测目标的特征区域的压缩率,实现了对图像帧分级进行图像压缩,有效地去除了冗余的数据特征,极大地提高了图像的压缩比,从而能够高效的存储和传输数据,进一步地,通过可以选择性地对指定待检测目标进行模糊处理,能够保护用户的隐私,提高了用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于深度学习的图像压缩方法流程图;
图2为本发明一实施例中一种基于深度学习的图像压缩装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例上述技术方案具有如下有益效果:通过本发明,对采集到的图像数据利用目标检测算法对各个特征区域进行目标检测,得到不同待检测目标的检测框位置和类别信息,通过将图像帧与不同待检测目标的检测框信息送入图像压缩网络中进行学习,分级设置不同待检测目标的特征区域的压缩率,实现了对图像帧分级进行图像压缩,有效地去除了冗余的数据特征,极大地提高了图像的压缩比,从而能够高效的存储和传输数据,进一步地,通过可以选择性地对指定待检测目标进行模糊处理,能够保护用户的隐私,提高了用户的使用体验。
以下结合应用实例对本发明实施例上述技术方案进行详细说明:
本发明应用实例旨在对待检测图像中的不同目标进行分级压缩,有效地去除了冗余的数据特征,极大地提高了图像的压缩比。
在一可能的实现方式中,步骤101获取待检测的图像帧,检测所述图像帧中的各待检测目标,得到各待检测目标的类别及检测框信息,并根据各待检测目标的类别及检测框信息,通过多层卷积神经网络对所述图像帧进行特征提取,得到所述图像帧的第一特征表示向量,包括:基于预定频率获取待检测的图像帧;通过预定目标检测算法检测所述图像帧中的各待检测目标,得到包括各待检测目标的类别及检测框信息的检测结果;根据各待检测目标的类别及检测框信息,将所述图像帧以预定第一像素尺寸的大小输入至多层卷积神经网络;通过多个卷积层以及广义归一化层的编码运算,提取得到第二像素尺寸大小的所述图像帧的第一特征表示向量。
其中,预定目标检测算法包括单阶段、两阶段及非锚框的目标检测算法anchor-free中的至少一项;检测框信息包括检测框各顶点的像素坐标信息,第一像素尺寸大于第二像素尺寸。
例如,在图像压缩的过程中,首先基于预定频率获取视频设备采集的待检测的图像帧;通过预定目标检测算法,如单阶段目标检测算法、两阶段目标检测算法及anchor-free等2D平面目标算法检测该图像帧中的各待检测目标,得到检测结果,检测结果包括各待检测目标的类别,如行人、车辆等类别及检测框信息,如检测目标的检测框各顶点的像素坐标信息,其中,每帧图像的检测结果存储在一个文件中,检测结果文件的格式包括但不限于xml、json等格式的文本文件;随后,根据各待检测目标的类别及检测框信息,将该图像帧以预定第一像素尺寸的大小,如256×256像素大小,输入至多层卷积神经网络,多层卷积神经网络作为主编码器生成第一特征表示向量;具体的,经过四次下采样及四次广义归一化层的编码运算,得到尺寸为16×16像素大小的第一特征表示向量。其中,卷积神经网络包括VGG(Visual Geometry Group Network,VGG模型)、AlexNet(一种卷积神经网络)、ResNet(Residual Network,残差网络)等卷积神经网络结构;该实施例中广义归一化层为更适用于图像压缩技术,能够避免噪声的引入,使得生成的图像更加清晰。
通过本实施例,基于多层神经网络网络结构,深度学习模型具有更好的非线性映射能力,能够学习到图像数据的深层次特征,为后续图像分级压缩提供了重要的前提保障。
需要说明的是,本发明实施例中视频设备采集的图像涵盖真实的道路交通场景,能够监控捕捉到不同场景、不同视角、不同光照强度下的图像。本领域技术人员可以了解到,目标检测是计算机视觉领域的重要问题之一,是完成目标跟踪、场景理解等复杂视觉任务的基础,在视频监控、智能交通等领域中应用广泛。目标检测的任务是判断图像中是否存在属于指定类别的目标,如果存在,则给出目标的类别和位置信息。由于图像中目标的类别、数量、位置、尺度和外观变化较大,一般而言,目标检测任务比目标分类任务更具有挑战性。基于深度学习的目标检测算法分为两阶段检测算法和单阶段检测算法两种,两阶段检测算法也被称为基于候选区域的目标检测算法,其将目标检测过程分解为候选区域提取、候选区域分类和候选区域坐标修正三个步骤。单阶段检测算法也被称为基于回归分析的目标检测算法,其将目标检测问题视为对目标位置和类别信息的回归分析问题,通过一个神经网络模型可直接输出检测结果。
在一可能的实现方式中,步骤102将所述第一特征表示向量均匀量化,得到第二特征表示向量,并通过多层卷积神经网络,对所述第二特征表示向量进行特征重构,包括:对第二像素尺寸大小的所述第一特征表示向量进行均匀量化,得到均匀量化后的第二像素尺寸大小的第二特征表示向量;将第二特征表示向量输入至多层卷积神经网络;通过多个卷积层以及广义归一化层的解码运算,将第二像素尺寸大小的第二特征表示向量的大小恢复为第一像素尺寸大小。
其中,在将所述第一特征表示向量均匀量化,得到第二特征表示向量的步骤之前,包括:通过增加均匀噪声的训练方式近似量化,训练得到均匀量化模型。
例如,在图像压缩的过程中,首先,通过增加均匀噪声的计算方式,并对计算结果进行四舍五入量化,训练得到均匀量化模型,具体地,在均匀量化模型训练过程中采用增加均匀噪声的方式近似可微以用于反向传播的优化,该方式避免了量化计算导致的不可微分而无法进行模型的优化过程的问题,在匀量化模型的推理过程中,则进行四舍五入量化;在提取得到第二像素尺寸大小,如16×16像素大小的待检测的图像帧的第一特征表示向量后,对16×16像素大小的该第一特征表示向量通过均匀量化模型进行均匀量化,得到均匀量化后的16×16像素大小的第二特征表示向量;将第二特征表示向量输入至多层卷积神经网络;通过多个卷积层以及广义归一化层的解码运算,将16×16像素大小的第二特征表示向量的大小恢复为256×256像素大小,将图像恢复到原图的尺寸,使得图像压缩后依然是原图尺寸,从而能够最大程度地还原显示拍摄的内容,避免了压缩过程中尺寸变化导致图像内容变形失真的情况。其中,本实施例中的卷积神经网络包括但不限于VGG、AlexNet、ResNet等卷积神经网络结构;本实施例汇中反广义归一化层为更适用于图像压缩技术,能够避免噪声的引入,生成更加清晰的图像。
通过本实施例,将第一特征表示向量均匀量化,能够减少图像中的冗余空间特征,从而降低码率,极大地减少了数据的存储空间。
在一可能的实现方式中,步骤103基于特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,根据预定义各类别的压缩比例系数,对所述图像帧进行失真计算,包括:根据特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,确定各待检测目标中不同区域的区域特征;确定各待检测目标的类别,并根据预定义各类别的压缩比例系数确定各待检测目标的压缩比例系数;通过预定图像质量评估函数,根据各待检测目标的区域特征及压缩比例系数,对所述图像帧进行失真计算。
其中,步骤104对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像,包括:通过交叉熵确定所述图像帧的压缩码率;基于所述压缩码率,对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。
例如,在图像压缩的过程中,接上例,根据特征重构后的第二特征表示向量、第一特征表示向量以及各待检测目标的检测框各顶点的坐标信息,构造图像压缩模型训练的损失函数,损失函数为:
l=λ*D+R
其中,L为损失函数,R表示图像的压缩码率,可用BPP(bit per pixel,像素深度)来表示,BPP值越小表示压缩率越低,反之亦然;通过λ参数可控制码率的选择,λ参数越大,表示训练得到的模型重建的图像失真越小,码率也越大,反之亦然;D表示图像失真计算。
随后,确定各待检测目标中不同区域的区域特征,如待检测目标中的区域可分为两种区域,目标检测区域和目标检测区域之外的其他区域,确定各待检测目标的类别,并根据预定义各类别的压缩比例系数确定各待检测目标区域的压缩比例系数,则图像失真计算D为:
D=αD1+(1-α)D2
其中,D1表示目标检测区域的特征,D2表示目标检测区域外的其他区域的特征,α表示目标检测区域和目标检测区域外的其他区域的特征的压缩比例系数,其中,预定义各类别的压缩比例系数时,可根据各类别的重要程度来设定,随后通过预定图像质量评估函数,根据各待检测目标的区域特征及压缩比例系数,对待检测图像帧进行失真计算,其中,D1和D2的计算公式如下:
其中,x表示输入特征,表示重建特征,d可使用MSE(Mean Square Error,均方误差)、PSNR(Peak Signal to Noise Ratio,峰值信噪比)、SSIM(Structural Similarity,结构相似性)、MS-SSIM(Multi-scale Structural Similarity,多尺度结构相似性)等不同的图像质量评估函数。
随后,通过交叉熵确定待检测图像帧的压缩码率,如下所示:
其中,y表示样本,E表示期望,p为概率分布函数。
本领域技术人员可以了解到,交叉熵(Cross Entropy)主要用于度量两个概率分布间的差异性信息,本实施例中,通过交叉熵来计算信息量的大小,能够得到压缩码率。
具体地,损失函数L为率失真函数,包括原始图像与重构图像的失真度与整体框架的压缩码率两部分,通过调节两者的系数参数λ可进行码率的选择控制,参数大则训练得到的图像压缩模型的重建图失真小,参数小则训练得到的模型的重建图失真大,通过调节参数可得到不同压缩比的重构图像;随后,基于压缩码率,对失真计算后的待检测图像帧进行压缩,得到待检测图像帧中各待检测目标根据各自压缩比例压缩后的图像,具体地,原始图像与重构图像的失真度使用逐像素计算的图像质量评估函数进行计算,其中,在进行失真度计算时,对于目标检测区域与其他区域设置不同的系数参数α,增大目标检测区域的系数,即增大对于目标检测区域的图像重构质量,而对于其他区域,则减小了特征重构的质量,即增大了压缩比例;
具体地,损失函数L为:
根据损失函数L和梯度下降算法计算梯度并更新图像压缩模型参数;经过特征提取神经网络输出图像潜在特征,经过编码器、量化解码器,输出重构后的图像特征。其中,特征提取网络包括但不限于ResNet、VGG、AlexNet等特征提取网路。
通过本实施例,利用深度学习方法,对于高位视频中的待检测图像帧进行分级的图像压缩,对于主要特征区域使用较低的压缩率,能够尽可能保留图像中该目标区域的特征,对于其他的次要特征区域使用较高的压缩率,能够尽可能去除冗余特征,提高了图像的压缩比,极大地提高了数据的存储和传输效率。
本发明实施例提供了一种基于深度学习的图像压缩装置,可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种基于深度学习的图像压缩方法,其特征在于,包括:
获取待检测的图像帧,检测所述图像帧中的各待检测目标,得到各待检测目标的类别及检测框信息,并根据各待检测目标的类别及检测框信息,通过多层卷积神经网络对所述图像帧进行特征提取,得到所述图像帧的第一特征表示向量;
将所述第一特征表示向量均匀量化,得到第二特征表示向量,并通过多层卷积神经网络,对所述第二特征表示向量进行特征重构;
基于特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,根据预定义各类别的压缩比例系数,对所述图像帧进行失真计算;
对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。
2.根据权利要求1所述的图像压缩方法,其特征在于,所述获取待检测的图像帧,检测所述图像帧中的各待检测目标,得到各待检测目标的类别及检测框信息,包括:
基于预定频率获取待检测的图像帧;
通过预定目标检测算法检测所述图像帧中的各待检测目标,得到包括各待检测目标的类别及检测框信息的检测结果;
其中,所述检测框信息包括检测框各顶点的像素坐标信息。
3.根据权利要求2所述的图像压缩方法,其特征在于,所述根据各待检测目标的类别及检测框信息,通过多层卷积神经网络对所述图像帧进行特征提取,得到所述图像帧的第一特征表示向量,包括:
根据各待检测目标的类别及检测框信息,将所述图像帧以预定第一像素尺寸的大小输入至多层卷积神经网络;
通过多个卷积层以及广义归一化层的编码运算,提取得到第二像素尺寸大小的所述图像帧的第一特征表示向量;
其中,所述第一像素尺寸大于所述第二像素尺寸。
4.根据权利要求3所述的图像压缩方法,其特征在于,所述将所述第一特征表示向量均匀量化,得到第二特征表示向量,包括:
对第二像素尺寸大小的所述第一特征表示向量进行均匀量化,得到均匀量化后的第二像素尺寸大小的第二特征表示向量。
5.根据权利要求3或4所述的图像压缩方法,其特征在于,在将所述第一特征表示向量均匀量化,得到第二特征表示向量的步骤之前,包括:
通过增加均匀噪声的训练方式近似量化,训练得到均匀量化模型。
6.根据权利要求5所述的图像压缩方法,其特征在于,所述通过多层卷积神经网络,对所述第二特征表示向量进行特征重构,包括:
将第二特征表示向量输入至多层卷积神经网络;
通过多个卷积层以及广义归一化层的解码运算,将第二像素尺寸大小的第二特征表示向量的大小恢复为第一像素尺寸大小。
7.根据权利要求6所述的图像压缩方法,其特征在于,所述基于特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,根据预定义各类别的压缩比例系数,对所述图像帧进行失真计算,包括:
根据特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,确定各待检测目标中不同区域的区域特征;
确定各待检测目标的类别,并根据预定义各类别的压缩比例系数确定各待检测目标的压缩比例系数;
通过预定图像质量评估函数,根据各待检测目标的区域特征及压缩比例系数,对所述图像帧进行失真计算。
8.根据权利要求7所述的图像压缩方法,其特征在于,所述对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像,包括:
通过交叉熵确定所述图像帧的压缩码率;
基于所述压缩码率,对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。
9.一种基于深度学习的图像压缩装置,其特征在于,包括:
检测及特征提取模块,用于获取待检测的图像帧,检测所述图像帧中的各待检测目标,得到各待检测目标的类别及检测框信息,并根据各待检测目标的类别及检测框信息,通过多层卷积神经网络对所述图像帧进行特征提取,得到所述图像帧的第一特征表示向量;
特征重构模块,用于将所述第一特征表示向量均匀量化,得到第二特征表示向量,并通过多层卷积神经网络,对所述第二特征表示向量进行特征重构;
失真计算模块,用于基于特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,根据预定义各类别的压缩比例系数,对所述图像帧进行失真计算;
压缩模块,用于对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。
10.根据权利要求9所述的图像压缩装置,其特征在于,所述检测及特征提取模块,包括:
获取单元,用于基于预定频率获取待检测的图像帧;
检测单元,用于通过预定目标检测算法检测所述图像帧中的各待检测目标,得到包括各待检测目标的类别及检测框信息的检测结果;
其中,所述检测框信息包括检测框各顶点的像素坐标信息。
11.根据权利要求10所述的图像压缩装置,其特征在于,所述检测及特征提取模块,包括:
第一输入单元,用于根据各待检测目标的类别及检测框信息,将所述图像帧以预定第一像素尺寸的大小输入至多层卷积神经网络;
提取单元,用于通过多个卷积层以及广义归一化层的编码运算,提取得到第二像素尺寸大小的所述图像帧的第一特征表示向量;
其中,所述第一像素尺寸大于所述第二像素尺寸。
12.根据权利要求11所述的图像压缩装置,其特征在于,所述特征重构模块,包括:
均匀量化单元,用于对第二像素尺寸大小的所述第一特征表示向量进行均匀量化,得到均匀量化后的第二像素尺寸大小的第二特征表示向量。
13.根据权利要求11或12所述的图像压缩装置,其特征在于,包括:
训练模块,用于通过增加均匀噪声的训练方式近似量化,训练得到均匀量化模型。
14.根据权利要求13所述的图像压缩装置,其特征在于,所述特征重构模块,包括:
第二输入单元,用于将第二特征表示向量输入至多层卷积神经网络;
恢复单元,用于通过多个卷积层以及广义归一化层的解码运算,将第二像素尺寸大小的第二特征表示向量的大小恢复为第一像素尺寸大小。
15.根据权利要求14所述的图像压缩装置,其特征在于,所述失真计算模块,具体用于
根据特征重构后的第二特征表示向量、所述第一特征表示向量以及各待检测目标的检测框信息,确定各待检测目标中不同区域的区域特征;
确定各待检测目标的类别,并根据预定义各类别的压缩比例系数确定各待检测目标的压缩比例系数;
通过预定图像质量评估函数,根据各待检测目标的区域特征及压缩比例系数,对所述图像帧进行失真计算。
16.根据权利要求15所述的图像压缩装置,其特征在于,所述压缩模块,具体用于通过交叉熵确定所述图像帧的压缩码率;
基于所述压缩码率,对失真计算后的所述图像帧进行压缩,得到所述图像帧中各待检测目标根据各自压缩比例压缩后的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110597919.3A CN113379858A (zh) | 2021-05-31 | 2021-05-31 | 一种基于深度学习的图像压缩方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110597919.3A CN113379858A (zh) | 2021-05-31 | 2021-05-31 | 一种基于深度学习的图像压缩方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113379858A true CN113379858A (zh) | 2021-09-10 |
Family
ID=77574909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110597919.3A Pending CN113379858A (zh) | 2021-05-31 | 2021-05-31 | 一种基于深度学习的图像压缩方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379858A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581544A (zh) * | 2022-05-09 | 2022-06-03 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 图像压缩方法、计算机设备及计算机存储介质 |
CN115037937A (zh) * | 2022-06-02 | 2022-09-09 | 北京新唐思创教育科技有限公司 | 图像压缩方法、装置、设备及介质 |
CN116705250A (zh) * | 2023-06-07 | 2023-09-05 | 北京海上升科技有限公司 | 一种医疗影像大数据的低耗优化和智能存储方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3364342A1 (en) * | 2017-02-17 | 2018-08-22 | Cogisen SRL | Method for image processing and video compression |
CN108960230A (zh) * | 2018-05-31 | 2018-12-07 | 中国科学院自动化研究所 | 基于旋转矩形框的轻量化目标识别方法及装置 |
CN110517329A (zh) * | 2019-08-12 | 2019-11-29 | 北京邮电大学 | 一种基于语义分析的深度学习图像压缩方法 |
CN110830807A (zh) * | 2019-11-04 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 图像压缩方法、装置及存储介质 |
CN111027605A (zh) * | 2019-11-28 | 2020-04-17 | 北京影谱科技股份有限公司 | 基于深度学习的细粒度图像识别方法和装置 |
CN111145277A (zh) * | 2019-12-31 | 2020-05-12 | 山东浪潮人工智能研究院有限公司 | 一种深度语义感知与bpg压缩工具的图像压缩方法 |
CN112053408A (zh) * | 2020-09-04 | 2020-12-08 | 清华大学 | 基于深度学习的人脸图像压缩方法及装置 |
US20210035330A1 (en) * | 2019-07-30 | 2021-02-04 | Hewlett Packard Enterprise Development Lp | Image compression with bounded deep neural network perception loss |
-
2021
- 2021-05-31 CN CN202110597919.3A patent/CN113379858A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3364342A1 (en) * | 2017-02-17 | 2018-08-22 | Cogisen SRL | Method for image processing and video compression |
CN108960230A (zh) * | 2018-05-31 | 2018-12-07 | 中国科学院自动化研究所 | 基于旋转矩形框的轻量化目标识别方法及装置 |
US20210035330A1 (en) * | 2019-07-30 | 2021-02-04 | Hewlett Packard Enterprise Development Lp | Image compression with bounded deep neural network perception loss |
CN110517329A (zh) * | 2019-08-12 | 2019-11-29 | 北京邮电大学 | 一种基于语义分析的深度学习图像压缩方法 |
CN110830807A (zh) * | 2019-11-04 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 图像压缩方法、装置及存储介质 |
CN111027605A (zh) * | 2019-11-28 | 2020-04-17 | 北京影谱科技股份有限公司 | 基于深度学习的细粒度图像识别方法和装置 |
CN111145277A (zh) * | 2019-12-31 | 2020-05-12 | 山东浪潮人工智能研究院有限公司 | 一种深度语义感知与bpg压缩工具的图像压缩方法 |
CN112053408A (zh) * | 2020-09-04 | 2020-12-08 | 清华大学 | 基于深度学习的人脸图像压缩方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581544A (zh) * | 2022-05-09 | 2022-06-03 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 图像压缩方法、计算机设备及计算机存储介质 |
CN115037937A (zh) * | 2022-06-02 | 2022-09-09 | 北京新唐思创教育科技有限公司 | 图像压缩方法、装置、设备及介质 |
CN115037937B (zh) * | 2022-06-02 | 2023-04-07 | 北京新唐思创教育科技有限公司 | 图像压缩方法、装置、设备及介质 |
CN116705250A (zh) * | 2023-06-07 | 2023-09-05 | 北京海上升科技有限公司 | 一种医疗影像大数据的低耗优化和智能存储方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113379858A (zh) | 一种基于深度学习的图像压缩方法及装置 | |
EP3583777A1 (en) | A method and technical equipment for video processing | |
WO2022067656A1 (zh) | 一种图像处理方法及装置 | |
CN108174225B (zh) | 基于对抗生成网络的视频编解码环路内滤波实现方法及系统 | |
US11062210B2 (en) | Method and apparatus for training a neural network used for denoising | |
TWI539407B (zh) | 移動物體偵測方法及移動物體偵測裝置 | |
Lu et al. | Learning a deep vector quantization network for image compression | |
CN112150400B (zh) | 图像增强方法、装置和电子设备 | |
CN111970509B (zh) | 一种视频图像的处理方法、装置与系统 | |
CN113192147B (zh) | 显著性压缩的方法、系统、存储介质、计算机设备及应用 | |
WO2023082453A1 (zh) | 一种图像处理方法及装置 | |
Wang et al. | Sparse tensor-based point cloud attribute compression | |
TWI512685B (zh) | 移動物體偵測方法及其裝置 | |
CN112802076A (zh) | 反射图像生成模型及反射去除模型的训练方法 | |
Löhdefink et al. | Focussing learned image compression to semantic classes for V2X applications | |
Wang | A survey on IQA | |
CN111861935B (zh) | 一种基于图像修复技术的去雨方法 | |
Jiang et al. | Quality Prediction of DWT‐Based Compression for Remote Sensing Image Using Multiscale and Multilevel Differences Assessment Metric | |
CN113628143A (zh) | 一种基于多尺度卷积的加权融合图像去雾方法及装置 | |
Katakol et al. | Distributed learning and inference with compressed images | |
Kavitha et al. | A survey of image compression methods for low depth-of-field images and image sequences | |
Sehli et al. | WeLDCFNet: Convolutional Neural Network based on Wedgelet Filters and Learnt Deep Correlation Features for depth maps features extraction | |
WO2015128302A1 (en) | Method and apparatus for filtering and analyzing a noise in an image | |
CN114926348B (zh) | 一种去除低照度视频噪声的装置和方法 | |
Akutsu et al. | End-to-End Deep ROI Image Compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |