CN111246206A - 一种基于自编码器的光流信息压缩方法及装置 - Google Patents

一种基于自编码器的光流信息压缩方法及装置 Download PDF

Info

Publication number
CN111246206A
CN111246206A CN202010037001.9A CN202010037001A CN111246206A CN 111246206 A CN111246206 A CN 111246206A CN 202010037001 A CN202010037001 A CN 202010037001A CN 111246206 A CN111246206 A CN 111246206A
Authority
CN
China
Prior art keywords
encoder
optical flow
self
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010037001.9A
Other languages
English (en)
Other versions
CN111246206B (zh
Inventor
段强
李锐
金长新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN202010037001.9A priority Critical patent/CN111246206B/zh
Publication of CN111246206A publication Critical patent/CN111246206A/zh
Application granted granted Critical
Publication of CN111246206B publication Critical patent/CN111246206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于自编码器的光流信息压缩方法及装置,属于信息压缩、编解码领域,本发明要解决的技术问题为如何利用自编码器实现光流信息的压缩,提高压缩效率,采用的技术方案为:该方法是将光流特征通过训练好的基于自编码器的神经网络模型进行提取,生成一个特征图,通过量化降低数据的存储空间,再用熵编码将量化后的数据进行进一步编码压缩;解码时,将已保存的熵编码数据进行熵解码并反量化,再通过结构相反的解码器进行解码,从而使特征图恢复为两通道的光流信息。该装置包括神经网络模型搭建单元、训练单元、特征图获取单元、特征图量化单元、熵编码单元、序列化文件保存单元、熵解码单元和解码单元。

Description

一种基于自编码器的光流信息压缩方法及装置
技术领域
本发明涉及信息压缩、编解码领域,具体地说是一种基于自编码器的光流信息压缩方法及装置。
背景技术
在数字媒体时代,大量的图像视频数据从日常生活、网络社交、治安监控、工业生产等领域产生并存储下来,需要耗费大量的存储空间。目前主流的视频压缩格式h264压缩率仍有提升空间,基于块的运动估计也会产生色差,尚未普及的h265由于压缩效率低,因此不被看好。
光流(optical flow)法是目前运动图像分析的重要方法,它的概念是由JamesJ.Gibson于20世纪40年代首先提出的,是指时变图像中模式运动速度。因为当物体在运动时,它在图像上对应点的亮度模式也在运动。
鉴于人工智能领域的各项任务已经大规模应用神经网络和深度学习技术,因此借助神经网络对数据进行压缩很有前景。自编码器是一种能通过无监督学习,学到输入数据高效表示的人工神经网络;它不需要专门标注训练数据,损失是基于输入输出的差值来计算的,输入数据通过神经网络进行表示的过程可以被认为是一种编码,其维度通常小于输入数据,从而达到压缩和降维的作用。
故如何利用自编码器实现光流信息的压缩,提高压缩效率是目前亟待解决的技术问题。
专利号为CN106973293A的专利文献公开了一种基于视差预测的光场图像编码方法,包括:将光场图像转换为伪视频序列;在编码端,利用深度神经网络预测伪视频序列中已编码帧和当前帧之间的光流信息,并将其转换为视差信息,然后进行运动补偿,并计算残差;最后,将残差量化编码写入码流;在解码端,采用与编码端一致的方法,利用深度神经网络预测已解码帧和当前帧之间的光流信息,并将其转换为对应解码块的运动矢量,通过运动补偿得到当前解码块的预测块,最后利用码流中的残差信息构建重建块。但是该技术方案不能利用自编码器实现光流信息的压缩,提高压缩效率。
专利号为CN107105278B的专利文献公开了一种运动矢量自动生成的视频编解码框架,无需进行运动矢量预测和运动矢量编码传输,其包括:编码端与解码端;其中:所述编码端,根据当前参考帧的视频数据内容,并基于通过学习的方法构建的像素级的运动光场矢量生成网络,来预测当前帧视频像素的光流信息,再结合输入的块模式信息计算对应块的运动矢量,最终将编码的残差信息传输至解码端;所述解码端,对残差信息进行解码,获得重构参考帧数据,并采用与编码端相同的方法获得每一重构参考帧数据的运动矢量,再进行视频数据重建。但是该技术方案不能利用自编码器实现光流信息的压缩,提高压缩效率。
发明内容
本发明的技术任务是提供一种基于自编码器的光流信息压缩方法及装置,来解决如何利用自编码器实现光流信息的压缩,提高压缩效率的问题。
本发明的技术任务是按以下方式实现的,一种基于自编码器的光流信息压缩方法,该方法是将光流特征通过训练好的基于自编码器(Encoder)的神经网络模型进行提取,生成一个特征图(Feature Map),通过量化(Quantize)降低数据的存储空间,再用熵编码将量化后的数据进行进一步编码压缩;解码时,将已保存的熵编码数据进行熵解码并反量化,再通过结构相反的解码器(Decoder)进行解码,从而使特征图恢复为两通道的光流信息。
作为优选,该方法具体如下:
S1、搭建基于自编码器的神经网络模型:设置编码所需的卷积层的层数、卷积核大小、padding的方法及strides的数量;
S2、使用训练集对基于自编码器的神经网络模型进行训练:将每一个光流图信息的标签设置为自身,通过mse和bpp构建损失函数,使用Adam优化器进行优化,经过多次迭代后得到训练好的基于自编码器的神经网络模型;
S3、对光流图信息进行编码得到特征图:将光流图信息输入到训练好的基于自编码器的神经网络模型中的Encoder部分,通过一步步卷积计算得到特征图;
S4、对特征图进行量化:量化的方式包括添加均匀噪声和软量化;添加均匀噪声是在训练中,添加噪声来代替量化的过程,量化前后的差值类似一种均匀噪声,通过人为添加噪声来进行模拟;
S5、熵编码:对量化后的特征图进行二进制化得到二进制数,再对二进制数进行算数编码;
S6、保存生成的序列化文件:将熵编码后的文件进行序列化保存;
S7、熵解码:把序列化保存的文件读取,先转化为十进制小数,即最高位前面加小数点变为小数,再根据已有的概率密度函数进行解码;
S8、解码:熵解码后得到一个和熵编码之前大小完全相同的特征图,再通过构建一个和编码网络相反的基于自编码器的神经网络模型,用反卷积层代替卷积层,将特征图恢复为两通道的光流信息,并在保存时进行一步取整量化。
作为优选,所述基于自编码器的神经网络模型至少包括一组通过设置Strides降采样的卷积层、一组设置Strides上采样的反卷积层和一组用于量化和熵编码的层。
更优地,所述基于自编码器的神经网络模型使用GDN激活函数,并结合量化和熵编码进行光流信息压缩。
更优地,所述步骤S5中熵编码过程中对于非二进制数,先进行二进制化或在算数编码强转换成二进制数,再统计所有二进制符号的概率密度函数,对已二进制化的符号的每一个比特根据统计得到的概率密度函数进行算数编码。
更优地,所述步骤S6中序列化文件使用pickle序列化的包进行处理。
一种基于自编码器的光流信息压缩装置,该装置包括,
神经网络模型搭建单元,用于搭建基于自编码器的神经网络模型,并设置编码所需的卷积层的层数、卷积核大小、strides的数量及padding的方法;
训练单元,用于使用训练集对基于自编码器的神经网络模型进行训练,将每一个光流图信息的标签设置为自身,通过mse和bpp构建损失函数,使用Adam优化器进行优化,经过多次迭代后得到训练好的基于自编码器的神经网络模型;
特征图获取单元,用于对光流图信息进行编码得到特征图:将光流图信息输入到训练好的基于自编码器的神经网络模型中的Encoder部分,通过一步步卷积计算得到特征图;
特征图量化单元,用于对特征图进行量化,量化的方式包括添加均匀噪声和软量化;添加均匀噪声是在训练中,添加噪声来代替量化的过程,量化前后的差值类似一种均匀噪声,通过人为添加噪声来进行模拟;
熵编码单元,用于对量化后的特征图进行二进制化得到二进制数,再对二进制数进行算数编码;
序列化文件保存单元,用于将熵编码后的文件进行序列化保存;
熵解码单元,用于把序列化保存的文件读取,先转化为十进制小数,即最高位前面加小数点变为小数,再根据已有的概率密度函数进行解码;
解码单元,用于熵解码后得到一个和熵编码之前大小完全相同的特征图,再通过构建一个和编码网络相反的基于自编码器的神经网络模型,用反卷积层代替卷积层,将特征图恢复为两通道的光流信息,并在保存时进行一步取整量化。
作为优选,所述基于自编码器的神经网络模型至少包括一组通过设置Strides降采样的卷积层、一组设置Strides上采样的反卷积层和一组用于量化和熵编码的层。
作为优选,所述基于自编码器的神经网络模型使用GDN激活函数,并结合量化和熵编码进行光流信息压缩。
更优地,所述序列化文件保存单元使用pickle序列化的包进行文件处理保存。
本发明的基于自编码器的光流信息压缩方法及装置具有以下优点:
(一)本发明基于深度学习的自编码器的神经网络架构,结合量化和熵编码实现了对光流信息的压缩,可用于优化光流信息存储空间,提升视频压缩效果;本发明应用于光流信息编解码和压缩领域,通过对已有的光流进行压缩或二次压缩,成倍的减少存储空间,减少存储成本;压缩的光流信息主要用于视频压缩,将压缩的光流信息用于视频运动估计部分,替代传统的运动估计方法;
(二)本发明的基于自编码器的神经网络模型包括一组通过设置Strides降采样的卷积层、一组设置Strides上采样的反卷积层和一组用于量化和熵编码的层;其中,卷积层的卷积核大小和个数可以通过多次实验得到较优的组合,卷积层的激活函数可以使用GDN(Generalized divisive normalization),其已经被验证了对图像压缩和超分辨率的任务有较好的效果;
(三)本发明运用开源常用的开发语言和库,实现了光流压缩的方法,可以嵌入视频压缩的流程内,借助云进行内外部推广与应用。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于自编码器的光流信息压缩方法的流程框图;
附图2为实施例2的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于自编码器的光流信息压缩方法及装置作以下详细地说明。
实施例1:
本发明的基于自编码器的光流信息压缩方法,该方法是将光流特征通过训练好的基于自编码器(Encoder)的神经网络模型进行提取,生成一个特征图(Feature Map),通过量化(Quantize)降低数据的存储空间,再用熵编码将量化后的数据进行进一步编码压缩;解码时,将已保存的熵编码数据进行熵解码并反量化,再通过结构相反的解码器(Decoder)进行解码,从而使特征图恢复为两通道的光流信息;如附图1所示,具体如下:
S1、搭建基于自编码器的神经网络模型:设置编码所需的卷积层的层数、卷积核大小、padding的方法及strides的数量;卷积层的设计原则通常是卷积核尺寸先大后小,数量先少后多或前后一致,在某些层设置strides>1来缩小特征图的尺寸;
S2、使用训练集对基于自编码器的神经网络模型进行训练:将每一个光流图信息的标签设置为自身,通过mse和bpp构建损失函数,使用Adam优化器进行优化,经过多次迭代后得到训练好的基于自编码器的神经网络模型;
S3、对光流图信息进行编码得到特征图:将光流图信息输入到训练好的基于自编码器的神经网络模型中的Encoder部分,通过一步步卷积计算得到特征图;
S4、对特征图进行量化:量化的方式包括添加均匀噪声和软量化;添加均匀噪声是在训练中,添加噪声来代替量化的过程,量化前后的差值类似一种均匀噪声,通过人为添加噪声来进行模拟;
S5、熵编码:对量化后的特征图进行二进制化得到二进制数,再对二进制数进行算数编码;对于非二进制数,先进行二进制化或在算数编码强转换成二进制数,再统计所有二进制符号的概率密度函数,对已二进制化的符号的每一个比特根据统计得到的概率密度函数进行算数编码;
S6、保存生成的序列化文件:将熵编码后的文件进行序列化保存;使用pickle序列化的包进行处理;
S7、熵解码:把序列化保存的文件读取,先转化为十进制小数,即最高位前面加小数点变为小数,再根据已有的概率密度函数进行解码;
S8、解码:熵解码后得到一个和熵编码之前大小完全相同的特征图,再通过构建一个和编码网络相反的基于自编码器的神经网络模型,用反卷积层代替卷积层,将特征图恢复为两通道的光流信息,并在保存时进行一步取整量化。
其中,基于自编码器的神经网络模型包括一组通过设置Strides降采样的卷积层、一组设置Strides上采样的反卷积层和一组用于量化和熵编码的层。基于自编码器的神经网络模型使用GDN激活函数,并结合量化和熵编码进行光流信息压缩。
实施例2:
本发明主要包括编码器和解码器两部分,如附图2所示,具体工作流程如下:
(1)、光流输入到编码器的卷积层1、卷积层2和卷积层3进行编码得到特征图;
其中,卷积层1的核数(kernal):256,核数尺寸(kernal size):9×9,卷积步长(stride):4,填充(padding)“SAME”;
卷积层2的核数(kernal):192,核数尺寸(kernal size):7×7,卷积步长(stride):2,填充(padding)“SAME”;
卷积层3的核数(kernal):128,核数尺寸(kernal size):3×3,卷积步长(stride):2,填充(padding)“SAME”;
(2)、对特征图进行量化和熵编码;
(3)、保存编码后的压缩文件;
(4)、对压缩文件进行反量化和熵解码得到一个和熵编码之前大小完全相同的特征图;
(5)、对和熵编码之前大小完全相同的特征图输入到解码器的反卷积层1、反卷积层2和反卷积层3,将特征图恢复为两通道的光流信息并输出;
其中,反卷积层1的核数(kernal):128,核数尺寸(kernal size):3×3,卷积步长(stride):2,填充(padding)“SAME”;
反卷积层2的核数(kernal):192,核数尺寸(kernal size):7×7,卷积步长(stride):2,填充(padding)“SAME”;
反卷积层3的核数(kernal):3,核数尺寸(kernal size):9×9,卷积步长(stride):4,填充(padding)“SAME”。
实施例3:
本发明的基于自编码器的光流信息压缩装置,该装置包括,
神经网络模型搭建单元,用于搭建基于自编码器的神经网络模型,并设置编码所需的卷积层的层数、卷积核大小、strides的数量及padding的方法;
训练单元,用于使用训练集对基于自编码器的神经网络模型进行训练,将每一个光流图信息的标签设置为自身,通过mse和bpp构建损失函数,使用Adam优化器进行优化,经过多次迭代后得到训练好的基于自编码器的神经网络模型;
特征图获取单元,用于对光流图信息进行编码得到特征图:将光流图信息输入到训练好的基于自编码器的神经网络模型中的Encoder部分,通过一步步卷积计算得到特征图;
特征图量化单元,用于对特征图进行量化,量化的方式包括添加均匀噪声和软量化;添加均匀噪声是在训练中,添加噪声来代替量化的过程,量化前后的差值类似一种均匀噪声,通过人为添加噪声来进行模拟;
熵编码单元,用于对量化后的特征图进行二进制化得到二进制数,再对二进制数进行算数编码;
序列化文件保存单元,用于将熵编码后的文件进行序列化保存;
熵解码单元,用于把序列化保存的文件读取,先转化为十进制小数,即最高位前面加小数点变为小数,再根据已有的概率密度函数进行解码;
解码单元,用于熵解码后得到一个和熵编码之前大小完全相同的特征图,再通过构建一个和编码网络相反的基于自编码器的神经网络模型,用反卷积层代替卷积层,将特征图恢复为两通道的光流信息,并在保存时进行一步取整量化。
其中,基于自编码器的神经网络模型包括一组通过设置Strides降采样的卷积层、一组设置Strides上采样的反卷积层和一组用于量化和熵编码的层。基于自编码器的神经网络模型使用GDN激活函数,并结合量化和熵编码进行光流信息压缩。序列化文件保存单元使用pickle序列化的包进行文件处理保存。
自编码器简单的训练它使得输入输出相同并没有很大意义,因此通过添加内部的尺寸限制,如bottleneck layer,以及训练数据增加噪声,并训练自编码器使其恢复原有的数据,这样强制它学习到数据的高效表示;得到高效表示之后,可以对其量化来达到进一步压缩的效果。因为有时精度较高的浮点数占用大量存储空间,但小数点后过多位数对实际任务并没有很大益处。然而在神经网络的反向传播中,是通过梯度下降来优化,但量化是一个不可导的过程,无法用于梯度计算的过程。因此有多种可以替代直接量化的方法,如添加均匀噪声、软量化等。量化之后的特征值还需要进行熵编码来进一步压缩,常用的熵编码如算数编码,哈夫曼编码,香农编码等,重要的是设计高效的概率模型。
熵编码属于对数据的无损压缩,通过识别和消除统计冗余的部分来减少比特,这使得其在执行压缩时不会丢失信息。其目的在于用更少的位(比原始数据表示所需要的位)来显示离散数据,同时在压缩的过程中不会有信息损失。
这种基于自编码器和熵编码对光流信息进行压缩的方法可以在低比特率的情况下获得压缩后的光流信息,用于视频压缩的运动估计部分信息的存储和压缩。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于自编码器的光流信息压缩方法,其特征在于,该方法是将光流特征通过训练好的基于自编码器的神经网络模型进行提取,生成一个特征图,通过量化降低数据的存储空间,再用熵编码将量化后的数据进行进一步编码压缩;解码时,将已保存的熵编码数据进行熵解码并反量化,再通过结构相反的解码器进行解码,从而使特征图恢复为两通道的光流信息。
2.根据权利要求1所述的基于自编码器的光流信息压缩方法,其特征在于,该方法具体如下:
S1、搭建基于自编码器的神经网络模型:设置编码所需的卷积层的层数、卷积核大小、padding的方法及strides的数量;
S2、使用训练集对基于自编码器的神经网络模型进行训练:将每一个光流图信息的标签设置为自身,通过mse和bpp构建损失函数,使用Adam优化器进行优化,经过多次迭代后得到训练好的基于自编码器的神经网络模型;
S3、对光流图信息进行编码得到特征图:将光流图信息输入到训练好的基于自编码器的神经网络模型中的Encoder部分,通过一步步卷积计算得到特征图;
S4、对特征图进行量化:量化的方式包括添加均匀噪声和软量化;
S5、熵编码:对量化后的特征图进行二进制化得到二进制数,再对二进制数进行算数编码;
S6、保存生成的序列化文件:将熵编码后的文件进行序列化保存;
S7、熵解码:把序列化保存的文件读取,先转化为十进制小数,即最高位前面加小数点变为小数,再根据已有的概率密度函数进行解码;
S8、解码:熵解码后得到一个和熵编码之前大小完全相同的特征图,再通过构建一个和编码网络相反的基于自编码器的神经网络模型,用反卷积层代替卷积层,将特征图恢复为两通道的光流信息,并在保存时进行一步取整量化。
3.根据权利要求1所述的基于自编码器的光流信息压缩方法,其特征在于,所述基于自编码器的神经网络模型至少包括一组通过设置Strides降采样的卷积层、一组设置Strides上采样的反卷积层和一组用于量化和熵编码的层。
4.根据权利要求1或2或3所述的基于自编码器的光流信息压缩方法,其特征在于,所述基于自编码器的神经网络模型使用GDN激活函数,并结合量化和熵编码进行光流信息压缩。
5.根据权利要求2所述的基于自编码器的光流信息压缩方法,其特征在于,所述步骤S5中熵编码过程中对于非二进制数,先进行二进制化或在算数编码强转换成二进制数,再统计所有二进制符号的概率密度函数,对已二进制化的符号的每一个比特根据统计得到的概率密度函数进行算数编码。
6.根据权利要求2所述的基于自编码器的光流信息压缩方法,其特征在于,所述步骤S6中序列化文件使用pickle序列化的包进行处理。
7.一种基于自编码器的光流信息压缩装置,其特征在于,该装置包括,
神经网络模型搭建单元,用于搭建基于自编码器的神经网络模型,并设置编码所需的卷积层的层数、卷积核大小、strides的数量及padding的方法;
训练单元,用于使用训练集对基于自编码器的神经网络模型进行训练,将每一个光流图信息的标签设置为自身,通过mse和bpp构建损失函数,使用Adam优化器进行优化,经过多次迭代后得到训练好的基于自编码器的神经网络模型;
特征图获取单元,用于对光流图信息进行编码得到特征图:将光流图信息输入到训练好的基于自编码器的神经网络模型中的Encoder部分,通过一步步卷积计算得到特征图;
特征图量化单元,用于对特征图进行量化,量化的方式包括添加均匀噪声和软量化;
熵编码单元,用于对量化后的特征图进行二进制化得到二进制数,再对二进制数进行算数编码;
序列化文件保存单元,用于将熵编码后的文件进行序列化保存;
熵解码单元,用于把序列化保存的文件读取,先转化为十进制小数,即最高位前面加小数点变为小数,再根据已有的概率密度函数进行解码;
解码单元,用于熵解码后得到一个和熵编码之前大小完全相同的特征图,再通过构建一个和编码网络相反的基于自编码器的神经网络模型,用反卷积层代替卷积层,将特征图恢复为两通道的光流信息,并在保存时进行一步取整量化。
8.根据权利要求7所述的基于自编码器的光流信息压缩装置,其特征在于,所述基于自编码器的神经网络模型至少包括一组通过设置Strides降采样的卷积层、一组设置Strides上采样的反卷积层和一组用于量化和熵编码的层。
9.根据权利要求7所述的基于自编码器的光流信息压缩装置,其特征在于,所述基于自编码器的神经网络模型使用GDN激活函数,并结合量化和熵编码进行光流信息压缩。
10.根据权利要求7或8或9所述的基于自编码器的光流信息压缩装置,其特征在于,所述序列化文件保存单元使用pickle序列化的包进行文件处理保存。
CN202010037001.9A 2020-01-14 2020-01-14 一种基于自编码器的光流信息压缩方法及装置 Active CN111246206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010037001.9A CN111246206B (zh) 2020-01-14 2020-01-14 一种基于自编码器的光流信息压缩方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010037001.9A CN111246206B (zh) 2020-01-14 2020-01-14 一种基于自编码器的光流信息压缩方法及装置

Publications (2)

Publication Number Publication Date
CN111246206A true CN111246206A (zh) 2020-06-05
CN111246206B CN111246206B (zh) 2021-09-21

Family

ID=70876049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010037001.9A Active CN111246206B (zh) 2020-01-14 2020-01-14 一种基于自编码器的光流信息压缩方法及装置

Country Status (1)

Country Link
CN (1) CN111246206B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787321A (zh) * 2020-07-06 2020-10-16 济南浪潮高新科技投资发展有限公司 用于边缘端的基于深度学习的图片压缩、解压缩方法及系统
CN113141506A (zh) * 2021-04-08 2021-07-20 上海烟草机械有限责任公司 基于深度学习的图像压缩神经网络模型、及其方法和设备
CN113949868A (zh) * 2020-07-17 2022-01-18 武汉Tcl集团工业研究院有限公司 一种熵编码方法及装置
CN114422802A (zh) * 2022-03-28 2022-04-29 浙江智慧视频安防创新中心有限公司 一种基于码本的自编码机图像压缩方法
WO2023092307A1 (zh) * 2021-11-23 2023-06-01 Oppo广东移动通信有限公司 通信方法、模型训练方法和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547784A (zh) * 2017-09-21 2019-03-29 华为技术有限公司 一种编码、解码方法及装置
CN109615019A (zh) * 2018-12-25 2019-04-12 吉林大学 基于时空自动编码器的异常行为检测方法
CN109889839A (zh) * 2019-03-27 2019-06-14 上海交通大学 基于深度学习的感兴趣区域图像编码、解码系统及方法
US20190206091A1 (en) * 2017-12-29 2019-07-04 Baidu Online Network Technology (Beijing) Co., Ltd Method And Apparatus For Compressing Image
CN110070498A (zh) * 2019-03-12 2019-07-30 浙江工业大学 一种基于卷积自编码器的图像增强方法
CN110248191A (zh) * 2019-07-15 2019-09-17 山东浪潮人工智能研究院有限公司 一种基于深层卷积神经网络的视频压缩方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547784A (zh) * 2017-09-21 2019-03-29 华为技术有限公司 一种编码、解码方法及装置
US20190206091A1 (en) * 2017-12-29 2019-07-04 Baidu Online Network Technology (Beijing) Co., Ltd Method And Apparatus For Compressing Image
CN109615019A (zh) * 2018-12-25 2019-04-12 吉林大学 基于时空自动编码器的异常行为检测方法
CN110070498A (zh) * 2019-03-12 2019-07-30 浙江工业大学 一种基于卷积自编码器的图像增强方法
CN109889839A (zh) * 2019-03-27 2019-06-14 上海交通大学 基于深度学习的感兴趣区域图像编码、解码系统及方法
CN110248191A (zh) * 2019-07-15 2019-09-17 山东浪潮人工智能研究院有限公司 一种基于深层卷积神经网络的视频压缩方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONGQI CHENG等: "Research on Fault Diagnosis of Traction Inverter Based on Compressed Sensing and Deep Wavelet Neural Network", 《2019 INTERNATIONAL CONFERENCE ON COMMUNICATIONS, INFORMATION SYSTEM AND COMPUTER ENGINEERING (CISCE)》 *
陶文: "基于深度学习的端到端图像视频压缩框架", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787321A (zh) * 2020-07-06 2020-10-16 济南浪潮高新科技投资发展有限公司 用于边缘端的基于深度学习的图片压缩、解压缩方法及系统
CN113949868A (zh) * 2020-07-17 2022-01-18 武汉Tcl集团工业研究院有限公司 一种熵编码方法及装置
CN113949868B (zh) * 2020-07-17 2023-07-07 武汉Tcl集团工业研究院有限公司 一种熵编码方法及装置
CN113141506A (zh) * 2021-04-08 2021-07-20 上海烟草机械有限责任公司 基于深度学习的图像压缩神经网络模型、及其方法和设备
WO2023092307A1 (zh) * 2021-11-23 2023-06-01 Oppo广东移动通信有限公司 通信方法、模型训练方法和设备
CN114422802A (zh) * 2022-03-28 2022-04-29 浙江智慧视频安防创新中心有限公司 一种基于码本的自编码机图像压缩方法
CN114422802B (zh) * 2022-03-28 2022-08-09 浙江智慧视频安防创新中心有限公司 一种基于码本的自编码机图像压缩方法

Also Published As

Publication number Publication date
CN111246206B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN111246206B (zh) 一种基于自编码器的光流信息压缩方法及装置
CN109889839B (zh) 基于深度学习的感兴趣区域图像编码、解码系统及方法
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
US11544606B2 (en) Machine learning based video compression
CN110248190B (zh) 一种基于压缩感知的多层残差系数图像编码方法
CN111147862B (zh) 一种基于目标编码的端到端图像压缩方法
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
CN113747163B (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
CN111432211B (zh) 一种用于视频编码的残差信息压缩方法
Le et al. Mobilecodec: neural inter-frame video compression on mobile devices
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
Ranjbar Alvar et al. Joint image compression and denoising via latent-space scalability
Kabir et al. Edge-based transformation and entropy coding for lossless image compression
Yadav et al. Flow-MotionNet: A neural network based video compression architecture
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN111080729B (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
CN111343458B (zh) 一种基于重建残差的稀疏灰度图像编解码方法及系统
WO2023082107A1 (zh) 解码方法、编码方法、解码器、编码器和编解码系统
Shah et al. Vector quantization with codebook and index compression
CN110191341A (zh) 一种深度数据的编码方法和解码方法
CN112950729A (zh) 一种基于自编码器和熵编码的图像压缩方法
CN117915107B (zh) 图像压缩系统、图像压缩方法、存储介质与芯片
CN111565317A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
CN114222124B (zh) 一种编解码方法及设备
US20230239470A1 (en) Video encoding and decoding methods, encoder, decoder, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210827

Address after: 250100 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province

Applicant before: JINAN INSPUR HI-TECH INVESTMENT AND DEVELOPMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant