CN107046646B - 基于深度自动编码器的视频编解码装置及方法 - Google Patents
基于深度自动编码器的视频编解码装置及方法 Download PDFInfo
- Publication number
- CN107046646B CN107046646B CN201710068270.XA CN201710068270A CN107046646B CN 107046646 B CN107046646 B CN 107046646B CN 201710068270 A CN201710068270 A CN 201710068270A CN 107046646 B CN107046646 B CN 107046646B
- Authority
- CN
- China
- Prior art keywords
- decoding
- video
- layer
- coding
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本披露提供了一种基于深度自动编码器的视频编解码装置及方法,构建结构对称的编码端和解码端,对视频数据进行二次压缩和解压缩,提高了视频数据的压缩率;由于人工神经网络具有非线性的特征,通过将人工神经网络的参数作为秘钥,实现了视频数据的压缩加密一体化;视频数据的编码结果包含了视频数据的特征,便于视频数据的分类与搜索,具有广阔的发展空间和应用前景;无需人工设计复杂的编解码流程,利用深度自动编码器自动提取数据特征的功能,大大减少了人工干预,实现编码过程的自动化,实现简单,并且可拓展性良好,不仅可以用于视频数据压缩,还可用于其它数据压缩。
Description
技术领域
本披露涉及视频压缩和解压领域,尤其涉及一种基于深度自动编码器的视频编解码装置及方法。
背景技术
随着互联网时代的到来,视频数据的大量产生对传输能力提出了更高的要求。为了缓解传输压力,视频编码解码技术应运而生,并对压缩视频以便于传输发挥了巨大的作用。
传统的视频编码技术是针对视频中存在的各种类型的冗余采用不同的方法予以消除从而达到压缩视频的目的。例如,针对视频的时间冗余、空间冗余、视觉冗余和编码冗余技术人员分别采取帧间编码、帧内编码、量化和熵编码等方法。变换也是去除空间冗余的常用方法。每种视频编码方法都有对应的解码方法。复杂的编码标准通过组合不同的方法和采用不同的实现方式以达到较好的压缩比。
传统的视频编码技术虽然已经较为成熟,但是比较复杂,需要精巧的人工设计,才能达到较好的压缩效果。
发明内容
(一)要解决的技术问题
有鉴于此,本披露的主要目的在于提供一种基于深度自动编码器的视频编解码装置及方法。
(二)技术方案
本披露提供了一种基于深度自动编码器的视频编解码装置,包括:深度自动编码器模块,包括深度自动编码器,所述深度自动编码器包括编码端,所述编码端用于对原始视频进行首次压缩得到首次压缩数据;神经网络编解码模块,用于对解码端参数进行编码压缩,生成编码后的解码端参数;混合编解码模块,用于对首次压缩数据和编码后的解码端参数进行混合编码,得到视频压缩数据。
优选地,所述编码端为N层人工神经网络结构。
优选地,N层人工神经网络结构的第1层为输入层,第2至N层为隐含层,层间单元全连接,层内单元无连接,第N层隐含层的隐单元数小于输入层的输入单元数。
优选地,所述混合编码包括熵编码。
优选地,所述熵编码包括哈夫曼编码。
优选地,还包括:存储模块,用于存储所述首次压缩数据、解码端参数和视频压缩数据。
优选地,所述神经网络编解码模块用于从所述存储模块读取所述解码端参数,以对所述解码端参数进行编码压缩。
优选地,所述混合编解码模块用于从所述存储模块读取所述首次压缩数据,并从所述神经网络编解码模块读取编码后的解码端参数,以进行所述混合编码,并将所述视频压缩数据存储至所述存储模块。
优选地,所述深度自动编码器还包括:解码端;所述混合编解码模块还用于对视频压缩数据进行解码,得到首次解压数据和编码后的解码端参数;所述神经网络编解码模块还用于对编码后的解码端参数进行解码,得到解码端参数;所述解码端用于对首次解压数据解码,得到原始视频数据。
优选地,所述存储模块还用于存储所述首次解压数据、编码后的解码端参数和原始视频数据。
优选地,所述混合编解码模块还用于从所述存储模块读取所述视频压缩数据,以对所述视频压缩数据进行解码。
优选地,所述神经网络编解码模块还用于从所述存储模块读取所述编码后的解码端参数,以对所述编码后的解码端参数进行解码。
优选地,所述深度自动编码器模块还用于从所述存储模块读取所述首次解压数据,从所述神经网络编解码模块读取所述解码端的参数,以使所述解码端对所述首次解压数据解码。
优选地,所述解码端是与编码端结构对称的N层人工神经网络结构。
优选地,所述解码端的第n层为所述编码端的第(N-n+1)层,所述解码端第n层与第n+1层之间的权重矩阵,为所述编码端第(N-n)层和第(N-n+1)层之间的权重矩阵的转置,其中,1≤n≤N。
优选地,所述深度自动编码器模块还用于初始化所述深度自动编码器,并利用训练用视频对所述深度自动编码器进行训练,得到用于视频编码的深度自动编码器。
优选地,所述深度自动编码器模块还用于利用训练用视频对所述深度自动编码器进行训练包括:将所述深度自动编码器编码端的相邻两层作为一个限制玻尔兹曼机;初始化所述限制玻尔兹曼机;利用所述训练用视频数据对所述限制玻尔兹曼机进行训练;用反向传播算法精细调整所述深度自动编码器编码端的权值矩阵,以最小化对原始输入的重构误差。
优选地,还包括控制器,其与所述深度自动编码器模块、神经网络编解码模块和混合编解码模块互联,用于控制上述模块。
本披露还提供了一种基于深度自动编码器的视频编码方法,利用权上述任一项视频编解码装置进行视频编码,包括:对原始视频进行首次压缩,得到首次压缩数据;对解码端参数进行编码压缩,得到编码后的解码端参数;对所述首次压缩数据和编码后的解码端参数进行混合编码,得到视频压缩数据。
优选地,利用第一N层人工神经网络结构对所述原始视频进行首次压缩。
优选地,所述第一N层人工神经网络结构的第1层为输入层,第2至N层为隐含层,层间单元全连接,层内单元无连接,第N层隐含层的隐单元数小于输入层的输入单元数。
优选地,所述混合编码包括熵编码。
优选地,所述熵编码包括哈夫曼编码。
优选地,还包括:存储所述首次压缩数据、解码端参数和视频压缩数据。
优选地,读取所述解码端参数,以对所述解码端参数进行编码压缩。
优选地,读取所述首次压缩数据和编码后的解码端参数,以进行所述混合编码,并存储所述视频压缩数据。
优选地,还包括:对所述视频压缩数据进行解码,得到首次解压数据和编码后的解码端参数;对所述编码后的解码端参数进行解码,得到解码端参数;对所述首次解压数据解码,得到原始视频数据。
优选地,还包括:存储所述首次解压数据、编码后的解码端参数和原始视频数据。
优选地,读取所述视频压缩数据,以对所述视频压缩数据进行解码。
优选地,读取所述编码后的解码端参数,以对所述编码后的解码端参数进行解码。
优选地,读取所述首次解压数据和所述解码端的参数,以对所述首次解压数据解码。
优选地,利用第二N层人工神经网络结构对所述首次解压数据解码,所述第二N层人工神经网络结构与所述第一N层人工神经网络结构对称。
优选地,所述第二N层人工神经网络结构的第n层为所述第一N层人工神经网络结构的第(N-n+1)层,所述第二N层人工神经网络结构第n层与第n+1层之间的权重矩阵,为所述第一N层人工神经网络结构第(N-n)层和第(N-n+1)层之间的权重矩阵的转置,其中,1≤n≤N。
优选地,在所述对原始视频进行首次压缩之前还包括:初始化深度自动编码器;利用训练用视频数据对所述深度自动编码器进行训练。
优选地,所述利用训练用视频数据对深度自动编码器进行训练包括:将深度自动编码器编码端的相邻两层作为一个限制玻尔兹曼机;初始化所述限制玻尔兹曼机;利用所述训练用视频数据对所述限制玻尔兹曼机进行训练;用反向传播方法调整所述深度自动编码器编码端的权值矩阵,最小化对原始输入的重构误差。
优选地,还包括:利用控制器对上述步骤进行控制。
(三)有益效果
从上述技术方案可以看出,本披露的基于深度自动编码器的视频编解码装置及方法具有以下有益效果:
(1)利用人工神经网络度视频对视频进行两次编码压缩,提高了视频数据的压缩率;
(2)由于人工神经网络具有非线性的特征,通过将人工神经网络的参数作为秘钥,实现了视频数据的压缩加密一体化;
(3)深度自动编码器对视频数据的编码结果包含了视频数据的特征,便于视频数据的分类与搜索,将机器学习引入视频编码领域,具有广阔的发展空间和应用前景;
(4)无需人工设计复杂的编解码流程,利用深度自动编码器自动提取数据特征的功能,大大减少了人工干预,实现编码过程的自动化,实现简单,并且可拓展性良好,不仅可以用于视频数据压缩,还可用于其它数据压缩。
附图说明
图1是依据本披露实施例的视频编解码装置的结构示意图;
图2是本披露实施例的深度自动编码器的示意图;
图3是本披露实施例的视频编解码方法的编码流程图;
图4是本披露实施例的视频编解码方法的深度自动编码器训练流程图;
图5是本披露实施例的视频编解码方法的解码流程图。
符号说明
10-控制器;20-深度自动编码器模块;30-神经网络编解码模块;40-混合编解码模块;50-存储模块50。
具体实施方式
为使本披露的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本披露进一步详细说明。
随着智能时代的到来,将人工智能的方法引入视频编解码领域,以寻求更大的突破应成为未来的发展趋势。本披露实施例提供了一种基于深度自动编码器的视频编解码装置,图1所示为该视频编解码装置的结构示意图,包括控制器10,深度自动编码器模块20,神经网络编解码模块30,混合编解码模块40,存储模块50;其中,
控制器10与深度自动编码器模块20、神经网络编解码模块30和混合编解码模块40互联。控制器10用于将用户程序所编译而成的控制指令存储于指令队列之中,并将其译码为控制信号以控制各模块完成各自的功能,实现视频编码和解码。存储模块50也与深度自动编码器模块20、神经网络编解码模块30和混合编解码模块40互联,用于存储视频编解码过程中的各种数据和参数。
深度自动编码器模块20包括深度自动编码器,深度自动编码器包括结构对称的编码端和解码端,所述编码端为N层人工神经网络结构,其中第1层为输入层,第2至N层为隐含层,层间单元全连接、层内单元无连接,第N层隐含层的隐单元数小于输入层的输入单元数,从而可以达到视频压缩的效果,其中N大于等于2。
解码端是与编码端结构对称的N层人工神经网络结构,具体来说,解码端的第1层(即输入层)为编码端的第N层隐含层,其第2层(即第1层隐含层)为编码端的第N-1层隐含层,解码端的第1层与第2层之间的权重矩阵为编码端的第N-1层与第N层之间的权重矩阵的转置。
解码端的第3层(即第2层隐含层)为编码端的第N-2层隐含层,解码端的第2层与第3层之间的权重矩阵为编码端的第N-2层与第N-1层之间的权重矩阵的转置。
依次类推,解码端的第N层(即第N层隐含层)为编码端的第1层(即输入层),解码端的第N-1层与第N层之间的权重矩阵为编码端的第1层与第2层之间的权重矩阵的转置。
即解码端的第n层为编码端的第N-n+1层,解码端相邻两层(第n层和第n+1层)之间的权重矩阵,为编码端对应相邻两层(第N-n层和第N-n+1层)之间的权重矩阵的转置。
如图2所示,其示例性地给出了一种深度自动编码器的示意图,编码端和解码端均为五层人工神经网络结构,其中,深度自动编码器的第1层隐含层有2000个单元,第2层隐含层有1000个单元,第3层隐含层有500个单元,第4层隐含层有30个单元,输入层与第1层隐含层之间的权重矩阵为W1,第1层隐含层和第2层隐含层之间的权重矩阵为W2,第2层隐含层和第3层隐含层之间的权重矩阵为W3,第3层隐含层和第4层隐含层之间的权重矩阵为W4。对应地,解码端的输入层有30个单元,第1层隐含层有500个单元,第2层隐含层有1000个单元,第3层隐含层有2000个单元,输入层和第1层隐含层之间的权重矩阵为WT 4,第1层隐含层和第2层隐含层之间的权重矩阵为WT 3,第2层隐含层和第3层隐含层之间的权重矩阵为WT 2,第3层隐含层和第4层隐含层之间的权重矩阵为WT 1。
深度自动编码器模块20利用深度自动编码器的编码端对原始视频进行首次压缩,原始视频数据输入编码端的输入层,经编码端各层压缩后由第N层隐含层输出,得到首次压缩数据,并存储于存储模块50,同时将解码端的参数存储于存储模块50,该参数包括解码端的层数N、各层的单元数目和各层之间的权值矩阵。
神经网络编解码模块30从存储模块50读取解码端的参数,并对参数进行编码压缩,生成编码后的解码端参数。其中,可以采用常用的编码方式对参数进行编码。
混合编解码模块40对首次压缩数据进行二次压缩,具体地,其从存储模块50中读取首次压缩数据,并从神经网络编解码模块30中读取编码后的解码端参数,并对首次压缩数据和编码后的解码端参数进行混合编码,得到视频压缩数据,并存储于存储模块50,完成视频压缩。其中,混合编码可以采用哈夫曼编码等熵编码方式。
本披露的视频编解码装置,利用人工神经网络度视频对视频进行两次编码压缩,提高了视频数据的压缩率,而且由于人工神经网络具有非线性的特征,通过将人工神经网络的参数作为秘钥,实现了视频数据的压缩加密一体化。深度自动编码器对视频数据的编码结果包含了视频数据的特征,便于视频数据的分类与搜索,将机器学习引入视频编码领域,具有广阔的发展空间和应用前景。
进一步地,本实施例的视频编解码装置可以对视频压缩数据进行解码以重构原始视频数据。
混合编解码模块40对视频压缩数据进行首次解压,具体地,其从存储模块50读取视频压缩数据,并对视频压缩数据进行解码,得到首次解压数据和编码后的解码端参数,并存储于存储模块50。其中该解码采用与混合编码对应的解码方式,该首次解压数据即编码过程中的首次压缩数据。
神经网络编解码模块30从存储模块50读取编码后的解码端参数,并对编码后的解码端参数进行解码,得到解码端的参数。其中该解码采用与编码过程中解码端参数的编码方式对应的解码方式。
深度自动编码器模块20利用解码端对首次解压数据进行二次解压,具体地,深度自动编码器模块20从存储模块50读取首次解压数据,从神经网络编解码模块30读取解码端的参数,首次解压数据输入解码端的输入层,经解码端各层解压后由第N层隐含层输出,得到原始视频数据,并存储于存储模块50。
由此可见,本披露的视频编解码装置,无需人工设计复杂的编解码流程,利用深度自动编码器自动提取数据特征的功能,大大减少了人工干预,实现编码过程的自动化,实现简单,并且可拓展性良好,不仅可以用于视频数据压缩,还可用于其它数据压缩。
进一步地,本披露的视频编解码装置,深度自动编码器通过训练的方式生成。深度自动编码器模块20首先初始化一深度自动编码器,然后利用训练用视频对深度自动编码器的编码端进行训练,得到用于视频编码的深度自动编码器编码端。具体包括,
首先,将深度自动编码器编码端的相邻两层作为一个限制玻尔兹曼机,将相邻两层的上一层作为可见层,下一层作为隐含层,对限制玻尔兹曼机进行训练。
限制玻尔兹曼机采用二值单元,其能量函数为:
式中,vi为第i个可见单元,hj为第j个隐单元,ai为第i个可见单元vi的偏置,bj为第j个隐单元hj的偏置,wj,i为连接第j个隐单元和第i个可见单元的权值,nv和nh分别是可见单元和隐单元的数目。
然后:初始化限制玻尔兹曼机。包括:将训练用视频作为训练样本集合S(|S|=ns),设定训练周期J、学习率η、CD-K算法参数k;指定可见层和隐藏层单元数nv和nh;设定偏置向量a,b和权值矩阵w。
其中,第i个可见单元vi的偏置ai为偏置向量a的第i项,第j个隐单元hj的偏置bj为偏置向量b的第j项,wj,i为权值矩阵W中第j行第i列的元素,ns为训练样本集合的单元数。
接着,对限制玻尔兹曼机进行训练。包括:
首先,使用CD-K算法得到ΔW,Δa和Δb;
循环上述两个步骤J次,得到训练好的限制玻尔兹曼机,作为深度自动编码器。
其中,使用CD-K算法得到ΔW,Δa和Δb的步骤如下:
初始化:ΔW=0,Δa=0,Δb=0;
对训练样本集合S中的每一个样本v进行如下循环:
(1)初始化v0=v
(2)进行k次采样,在每次采样中,先从可见单元组vt采样出隐单元组ht,再从隐单元组ht采样出可见单元组vt+1,其中t为整数且0≤t≤k-1。
(3)对于每一个i和j(i和j均为整数,1≤i≤nh,1≤j≤nv)进行如下计算:
Δbi=Δbi+[P(hi=1|v0)-P(hi=1|vk)]
最后,用反向传播算法精细调整深度自动编码器编码端的权值矩阵,以最小化对原始输入的重构误差。例如,在精细调整深度自动编码器编码端的权值矩阵时,不再将编码端的输入输出单元和隐单元看成限制波尔兹曼机的单元,而是直接使用各单元的实数输出值。由于编码端已经经过训练,可以用反向传播算法来调整权值矩阵以最小化编码端输出的重构误差。
本披露另一实施例提供了一种基于深度自动编码器的视频编解码方法,参见图3,包括:
步骤S101,控制器10向深度自动编码器模块20发送编码指令,深度自动编码器的编码端对原始视频进行首次压缩。
步骤S102,控制器10向深度自动编码器模块20发送IO指令,首次压缩数据和解码端的参数存储于存储模块50。
步骤S103,控制器10向神经网络编解码模块30发送IO指令,神经网络编解码模块30从存储模块50读取解码端的参数。
步骤S104,控制器10向神经网络编解码模块30发送编码指令,神经网络编解码模块30对参数进行编码压缩。
步骤S105,控制器10向混合编解码模块40发送IO指令,混合编解码模块40从存储模块50中读取首次压缩数据,并从神经网络编解码模块30中读取编码后的解码端参数。
步骤S106,控制器10向混合编解码模块40发送编码指令,混合编解码模块40对首次压缩数据和编码后的解码端参数进行混合编码,得到视频压缩数据。
步骤S107,控制器10向混合编解码模块40发送IO指令,混合编解码模块40将视频压缩数据存储于存储模块50。
其中,参见图4,在步骤S101之前还可以包括:
从存储模块50读取训练用视频数据;
利用训练用视频数据对深度自动编码器进行训练。
参见图5,该视频编解码方法还包括:
步骤S201,控制器10向混合编解码模块40发送IO指令,混合编解码模块40从存储模块50读取视频压缩数据。
步骤S202,控制器10向混合编解码模块40发送解码指令,混合编解码模块40对视频压缩数据进行解码,得到首次解压数据和编码后的解码端参数。
步骤S203,控制器10向混合编解码模块40发送IO指令,混合编解码模块40将首次解压数据和编码后的解码端参数存储于存储模块50。
步骤S204,控制器10向神经网络编解码模块30发送IO指令,神经网络编解码模块30从存储模块50读取编码后的解码端参数。
步骤S205,控制器10向神经网络编解码模块30发送解码指令,神经网络编解码模块30对编码后的解码端参数进行解码,得到解码端的参数。
步骤S206,控制器10向深度自动编码器模块20发送IO指令,深度自动编码器模块20从存储模块50读取首次解压数据,从神经网络编解码模块30读取解码端的参数。
步骤S207,控制器10向深度自动编码器模块20发送解码指令,深度自动编码器模块20对首次解压数据进行二次解压,得到原始视频数据。
步骤S208,控制器10向深度自动编码器模块20发送IO指令,深度自动编码器模块20将原始视频数据存储于存储模块50。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状,本领域普通技术人员可对其进行简单地更改或替换;本文可提供包含特定值的参数的示范,但这些参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应值;实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向,并非用来限制本披露的保护范围;上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
以上所述的具体实施例,对本披露的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本披露的具体实施例而已,并不用于限制本披露,凡在本披露的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本披露的保护范围之内。
Claims (26)
1.一种基于深度自动编码器的视频编解码装置,其特征在于,包括:
深度自动编码器模块,包括深度自动编码器,所述深度自动编码器包括编码端,所述编码端用于对原始视频进行首次压缩得到首次压缩数据;
神经网络编解码模块,用于对解码端参数进行编码压缩,生成编码后的解码端参数;
混合编解码模块,用于对首次压缩数据和编码后的解码端参数进行混合编码,得到视频压缩数据;
所述编码端为N层人工神经网络结构;所述N层人工神经网络结构的第1层为输入层,第2至N层为隐含层,层间单元全连接,层内单元无连接,第N层隐含层的隐单元数小于输入层的输入单元数;
所述解码端是与编码端结构对称的N层人工神经网络结构;所述解码端的第n层为所述编码端的第(N-n+1)层,所述解码端第n层与第n+1层之间的权重矩阵,为所述编码端第(N-n)层和第(N-n+1)层之间的权重矩阵的转置,其中,1≤n≤N;
所述混合编码包括熵编码。
2.如权利要求1所述的视频编解码装置,其特征在于,所述熵编码包括哈夫曼编码。
3.如权利要求1或2所述的视频编解码装置,其特征在于,还包括:
存储模块,用于存储所述首次压缩数据、解码端参数和视频压缩数据。
4.如权利要求3所述的视频编解码装置,其特征在于,
所述神经网络编解码模块用于从所述存储模块读取所述解码端参数,以对所述解码端参数进行编码压缩。
5.如权利要求3所述的视频编解码装置,其特征在于,
所述混合编解码模块用于从所述存储模块读取所述首次压缩数据,并从所述神经网络编解码模块读取编码后的解码端参数,以进行所述混合编码,并将所述视频压缩数据存储至所述存储模块。
6.如权利要求3所述的视频编解码装置,其特征在于,所述深度自动编码器还包括:解码端;
所述混合编解码模块还用于对视频压缩数据进行解码,得到首次解压数据和编码后的解码端参数;
所述神经网络编解码模块还用于对编码后的解码端参数进行解码,得到解码端参数;
所述解码端用于对首次解压数据解码,得到原始视频数据。
7.如权利要求6所述的视频编解码装置,其特征在于,所述存储模块还用于存储所述首次解压数据、编码后的解码端参数和原始视频数据。
8.如权利要求7所述的视频编解码装置,其特征在于,
所述混合编解码模块还用于从所述存储模块读取所述视频压缩数据,以对所述视频压缩数据进行解码。
9.如权利要求7所述的视频编解码装置,其特征在于,所述神经网络编解码模块还用于从所述存储模块读取所述编码后的解码端参数,以对所述编码后的解码端参数进行解码。
10.如权利要求7所述的视频编解码装置,其特征在于,所述深度自动编码器模块还用于从所述存储模块读取所述首次解压数据,从所述神经网络编解码模块读取所述解码端的参数,以使所述解码端对所述首次解压数据解码。
11.如权利要求1或2所述的视频编解码装置,其特征在于,
所述深度自动编码器模块还用于初始化所述深度自动编码器,并利用训练用视频对所述深度自动编码器进行训练,得到用于视频编码的深度自动编码器。
12.如权利要求11所述的视频编解码装置,其特征在于,所述深度自动编码器模块还用于利用训练用视频对所述深度自动编码器进行训练包括:
将所述深度自动编码器编码端的相邻两层作为一个限制玻尔兹曼机;
初始化所述限制玻尔兹曼机;
利用所述训练用视频数据对所述限制玻尔兹曼机进行训练;
用反向传播算法精细调整所述深度自动编码器编码端的权值矩阵,以最小化对原始输入的重构误差。
13.如权利要求1或2所述的视频编解码装置,其特征在于,还包括:
控制器,其与所述深度自动编码器模块、神经网络编解码模块和混合编解码模块互联,用于控制上述模块。
14.一种基于深度自动编码器的视频编解码方法,利用权利要求1至13任一项所述的视频编解码装置进行视频编码,其特征在于,包括:
对原始视频进行首次压缩,得到首次压缩数据;
对解码端参数进行编码压缩,得到编码后的解码端参数;
对所述首次压缩数据和编码后的解码端参数进行混合编码,得到视频压缩数据;利用第一N层人工神经网络结构对所述原始视频进行首次压缩;所述第一N层人工神经网络结构的第1层为输入层,第2至N层为隐含层,层间单元全连接,层内单元无连接,第N层隐含层的隐单元数小于输入层的输入单元数;
利用第二N层人工神经网络结构对所述首次解压数据解码,所述第二N层人工神经网络结构与所述第一N层人工神经网络结构对称;
所述第二N层人工神经网络结构的第n层为所述第一N层人工神经网络结构的第(N-n+1)层,所述第二N层人工神经网络结构第n层与第n+1层之间的权重矩阵,为所述第一N层人工神经网络结构第(N-n)层和第(N-n+1)层之间的权重矩阵的转置,其中,1≤n≤N;
所述混合编码包括熵编码。
15.如权利要求14所述的视频编解码方法,其特征在于,所述熵编码包括哈夫曼编码。
16.如权利要求14或15所述的视频编解码方法,其特征在于,还包括:
存储所述首次压缩数据、解码端参数和视频压缩数据。
17.如权利要求16所述的视频编解码方法,其特征在于,
读取所述解码端参数,以对所述解码端参数进行编码压缩。
18.如权利要求16所述的视频编解码方法,其特征在于,
读取所述首次压缩数据和编码后的解码端参数,以进行所述混合编码,并存储所述视频压缩数据。
19.如权利要求14或15所述的视频编解码方法,其特征在于,还包括:
对所述视频压缩数据进行解码,得到首次解压数据和编码后的解码端参数;
对所述编码后的解码端参数进行解码,得到解码端参数;
对所述首次解压数据解码,得到原始视频数据。
20.如权利要求19所述的视频编解码方法,其特征在于,还包括:存储所述首次解压数据、编码后的解码端参数和原始视频数据。
21.如权利要求20所述的视频编解码方法,其特征在于,
读取所述视频压缩数据,以对所述视频压缩数据进行解码。
22.如权利要求20所述的视频编解码方法,其特征在于,读取所述编码后的解码端参数,以对所述编码后的解码端参数进行解码。
23.如权利要求20所述的视频编解码方法,其特征在于,读取所述首次解压数据和所述解码端的参数,以对所述首次解压数据解码。
24.如权利要求14或15所述的视频编解码方法,其特征在于,在所述对原始视频进行首次压缩之前还包括:
初始化深度自动编码器;
利用训练用视频数据对所述深度自动编码器进行训练。
25.如权利要求24所述的视频编解码方法,其特征在于,所述利用训练用视频数据对所述深度自动编码器进行训练包括:
将深度自动编码器编码端的相邻两层作为一个限制玻尔兹曼机;
初始化所述限制玻尔兹曼机;
利用所述训练用视频数据对所述限制玻尔兹曼机进行训练;
用反向传播方法调整所述深度自动编码器编码端的权值矩阵,最小化对原始输入的重构误差。
26.如权利要求14或15所述的视频编解码方法,其特征在于,还包括:利用控制器对所述视频编码方法进行控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/074719 WO2018121798A1 (zh) | 2016-12-30 | 2018-01-31 | 基于深度自动编码器的视频编解码装置及方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2016112699938 | 2016-12-30 | ||
CN201611269993 | 2016-12-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107046646A CN107046646A (zh) | 2017-08-15 |
CN107046646B true CN107046646B (zh) | 2020-05-22 |
Family
ID=59544165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710068270.XA Active CN107046646B (zh) | 2016-12-30 | 2017-02-07 | 基于深度自动编码器的视频编解码装置及方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107046646B (zh) |
WO (1) | WO2018121798A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107046646B (zh) * | 2016-12-30 | 2020-05-22 | 上海寒武纪信息科技有限公司 | 基于深度自动编码器的视频编解码装置及方法 |
CN109308471B (zh) * | 2018-09-29 | 2022-07-15 | 河海大学常州校区 | 一种肌电信号特征提取方法 |
CN109640095B (zh) * | 2018-12-28 | 2020-12-25 | 中国科学技术大学 | 一种结合量子密钥分发的视频加密系统 |
CN110677681A (zh) * | 2019-11-01 | 2020-01-10 | 合肥图鸭信息科技有限公司 | 一种视频编解码方法、装置及终端设备 |
CN110996108A (zh) * | 2019-11-29 | 2020-04-10 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
CN113347415A (zh) * | 2020-03-02 | 2021-09-03 | 阿里巴巴集团控股有限公司 | 编码模式确定方法和装置 |
CN114697655B (zh) * | 2020-12-30 | 2023-04-11 | 中国科学院计算技术研究所 | 均衡流间压缩速度的神经网络量化压缩方法及系统 |
CN117706360A (zh) * | 2024-02-02 | 2024-03-15 | 深圳市昱森机电有限公司 | 电机运行状态的监测方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1525761A (zh) * | 2003-01-21 | 2004-09-01 | ���ǵ�����ʽ���� | 使用神经网络选择可变长度编码比特流长度的装置和方法 |
CN1857001A (zh) * | 2003-05-20 | 2006-11-01 | Amt先进多媒体科技公司 | 混合视频压缩方法 |
CN103369349A (zh) * | 2012-03-28 | 2013-10-23 | 中国移动通信集团公司 | 一种数字视频质量控制方法及其装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008533937A (ja) * | 2005-03-25 | 2008-08-21 | アルゴリス インコーポレイテッド | Dctコード化されたビデオの品質を、オリジナルビデオシーケンスを用いて、もしくは用いずに客観評価する装置及び方法 |
CN103428495B (zh) * | 2013-08-02 | 2017-02-08 | 中国联合网络通信集团有限公司 | 图像加密方法、图像解密方法和装置 |
US9922272B2 (en) * | 2014-09-25 | 2018-03-20 | Siemens Healthcare Gmbh | Deep similarity learning for multimodal medical images |
CN104298973B (zh) * | 2014-10-09 | 2018-03-30 | 北京工业大学 | 基于自编码器的人脸图像旋转方法 |
CN106203625B (zh) * | 2016-06-29 | 2019-08-02 | 中国电子科技集团公司第二十八研究所 | 一种基于多重预训练的深层神经网络训练方法 |
CN107046646B (zh) * | 2016-12-30 | 2020-05-22 | 上海寒武纪信息科技有限公司 | 基于深度自动编码器的视频编解码装置及方法 |
-
2017
- 2017-02-07 CN CN201710068270.XA patent/CN107046646B/zh active Active
-
2018
- 2018-01-31 WO PCT/CN2018/074719 patent/WO2018121798A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1525761A (zh) * | 2003-01-21 | 2004-09-01 | ���ǵ�����ʽ���� | 使用神经网络选择可变长度编码比特流长度的装置和方法 |
CN1857001A (zh) * | 2003-05-20 | 2006-11-01 | Amt先进多媒体科技公司 | 混合视频压缩方法 |
CN103369349A (zh) * | 2012-03-28 | 2013-10-23 | 中国移动通信集团公司 | 一种数字视频质量控制方法及其装置 |
Non-Patent Citations (2)
Title |
---|
"基于混合神经网络的视频序列压缩与加密算法研究";辛涛;《信息科技辑(月刊)》;20110615;正文第3小节 * |
"基于神经网络的视频加密与压缩技术的研究";赵婷婷;《信息科技辑(月刊)》;20100715;正文第1.1、1.2.2、2.2.2、3.1、3.2和4.3.1小节,图4.4 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018121798A1 (zh) | 2018-07-05 |
CN107046646A (zh) | 2017-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107046646B (zh) | 基于深度自动编码器的视频编解码装置及方法 | |
US10462476B1 (en) | Devices for compression/decompression, system, chip, and electronic device | |
CN109996071B (zh) | 基于深度学习的可变码率图像编码、解码系统及方法 | |
EP1514355B1 (en) | Method and system for multi-rate lattice vector quantization of a signal | |
CN101420614B (zh) | 一种混合编码与字典编码整合的图像压缩方法及装置 | |
CN101626512A (zh) | 一种基于相关性优化准则的多描述视频编码方法及装置 | |
CN110166779A (zh) | 基于超分辨率重构的视频压缩方法 | |
CN101883284B (zh) | 基于背景建模和可选差分模式的视频编/解码方法及系统 | |
CN110290386B (zh) | 一种基于生成对抗网络的低码率人体运动视频编码系统及方法 | |
CN111246206A (zh) | 一种基于自编码器的光流信息压缩方法及装置 | |
Li et al. | Multiple description coding based on convolutional auto-encoder | |
CN114501013A (zh) | 一种可变码率视频压缩方法、系统、装置及存储介质 | |
CN111294604A (zh) | 一种基于深度学习的视频压缩方法 | |
CN110930408A (zh) | 基于知识重组的语义图像压缩方法 | |
Akbari et al. | Learned multi-resolution variable-rate image compression with octave-based residual blocks | |
CN111050170A (zh) | 基于gan的图片压缩系统构建方法、压缩系统及方法 | |
CN111432211B (zh) | 一种用于视频编码的残差信息压缩方法 | |
CN107666472A (zh) | 混合的数字‑模拟编解码 | |
CN115776571B (zh) | 一种图像压缩方法、装置、设备及存储介质 | |
CN111479286A (zh) | 一种边缘计算系统减少通信流量的数据处理方法 | |
Hsieh et al. | A concurrent memory-efficient VLC decoder for MPEG applications | |
Huang et al. | Multi-channel multi-loss deep learning based compression model for color images | |
CN111080729A (zh) | 基于Attention机制的训练图片压缩网络的构建方法及系统 | |
CN116153320A (zh) | 语音信号联合降噪压缩方法和系统 | |
WO2013011355A1 (en) | Method and apparatus for encoding an image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |