CN107046646A

CN107046646A - 基于深度自动编码器的视频编解码装置及方法

Info

Publication number: CN107046646A
Application number: CN201710068270.XA
Authority: CN
Inventors: 陈天石; 支天; 罗宇哲; 刘少礼; 郭崎; 陈云霁
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2016-12-30
Filing date: 2017-02-07
Publication date: 2017-08-15
Anticipated expiration: 2037-02-07
Also published as: WO2018121798A1; CN107046646B

Abstract

本发明提供了一种基于深度自动编码器的视频编解码装置及方法，构建结构对称的编码端和解码端，对视频数据进行二次压缩和解压缩，提高了视频数据的压缩率；由于人工神经网络具有非线性的特征，通过将人工神经网络的参数作为秘钥，实现了视频数据的压缩加密一体化；视频数据的编码结果包含了视频数据的特征，便于视频数据的分类与搜索，具有广阔的发展空间和应用前景；无需人工设计复杂的编解码流程，利用深度自动编码器自动提取数据特征的功能，大大减少了人工干预，实现编码过程的自动化，实现简单，并且可拓展性良好，不仅可以用于视频数据压缩，还可用于其它数据压缩。

Description

基于深度自动编码器的视频编解码装置及方法

技术领域

本发明涉及视频压缩和解压领域，尤其涉及一种基于深度自动编码器的视频编解码装置及方法。

背景技术

随着互联网时代的到来，视频数据的大量产生对传输能力提出了更高的要求。为了缓解传输压力，视频编码解码技术应运而生，并对压缩视频以便于传输发挥了巨大的作用。

传统的视频编码技术是针对视频中存在的各种类型的冗余采用不同的方法予以消除从而达到压缩视频的目的。例如，针对视频的时间冗余、空间冗余、视觉冗余和编码冗余技术人员分别采取帧间编码、帧内编码、量化和熵编码等方法。变换也是去除空间冗余的常用方法。每种视频编码方法都有对应的解码方法。复杂的编码标准通过组合不同的方法和采用不同的实现方式以达到较好的压缩比。

传统的视频编码技术虽然已经较为成熟，但是比较复杂，需要精巧的人工设计，才能达到较好的压缩效果。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的在于提供一种基于深度自动编码器的视频编解码装置及方法。

(二)技术方案

本发明提供了一种基于深度自动编码器的视频编解码装置，包括：深度自动编码器模块，神经网络编解码模块，混合编解码模块，存储模块；其中，所述深度自动编码器模块包括深度自动编码器，所述深度自动编码器包括编码端和解码端；所述编码端对原始视频进行首次压缩得到首次压缩数据，所述存储模块存储首次压缩数据和解码端的参数；所述神经网络编解码模块从存储模块读取解码端的参数，并对参数进行编码压缩，生成编码后的解码端参数；所述混合编解码模块从存储模块读取首次压缩数据，并从神经网络编解码模块读取编码后的解码端参数，对首次压缩数据和编码后的解码端参数进行混合编码，得到视频压缩数据，并存储于存储模块。

优选地，所述编码端为N层人工神经网络结构，其第1层为输入层，第2至N层为隐含层，层间单元全连接，层内单元无连接，第N层隐含层的隐单元数小于输入层的输入单元数。

优选地，所述解码端是与编码端结构对称的N层人工神经网络结构，解码端的第n层为编码端的第(N-n+1)层，解码端第n层与第n+1层之间的权重矩阵，为编码端第(N-n)层和第(N-n+1)层之间的权重矩阵的转置，其中，1≤n≤N。

优选地，所述混合编解码模块从存储模块读取视频压缩数据，对视频压缩数据进行解码，得到首次解压数据和编码后的解码端参数，并存储于存储模块；所述神经网络编解码模块从存储模块读取编码后的解码端参数，对编码后的解码端参数进行解码，得到解码端的参数；所述深度自动编码器模块从存储模块读取首次解压数据，从神经网络编解码模块读取解码端的参数，解码端对首次解压数据解码，得到原始视频数据，并存储于存储模块。

优选地，所述深度自动编码器模块初始化深度自动编码器，并利用训练用视频对深度自动编码器进行训练，得到用于视频编码的深度自动编码器。

优选地，还包括控制器，其与所述深度自动编码器模块、神经网络编解码模块和混合编解码模块互联，用于控制上述模块。

本发明还提供了一种基于深度自动编码器的视频编码方法，利用权上述任一项视频编解码装置进行视频编码，包括：对原始视频进行首次压缩；存储首次压缩数据和解码端的参数；读取解码端的参数并对参数进行编码；读取首次压缩数据和编码后的解码端参数，对首次压缩数据和编码后的解码端参数进行混合编码，得到视频压缩数据并存储。

优选地，在所述对原始视频进行首次压缩之前还包括：读取训练用视频数据；利用训练用视频数据对深度自动编码器进行训练。

优选地，所述利用训练用视频数据对深度自动编码器进行训练包括：将深度自动编码器编码端的相邻两层作为一个限制玻尔兹曼机；初始化限制玻尔兹曼机；利用训练用视频数据对限制玻尔兹曼机进行训练；用反向传播方法调整深度自动编码器编码端的权值矩阵，最小化对原始输入的重构误差。

本发明还提供了一种基于深度自动编码器的视频解码方法，利用上述任一项视频编解码装置进行视频解码，包括：读取视频压缩数据；对视频压缩数据进行解码，得到首次解压数据和编码后的解码端参数并存储；读取编码后的解码端参数，对编码后的解码端参数进行解码，得到解码端的参数；读取首次解压数据和解码端的参数，对首次解压数据进行二次解压，得到原始视频数据并存储。

(三)有益效果

从上述技术方案可以看出，本发明的基于深度自动编码器的视频编解码装置及方法具有以下有益效果：

(1)利用人工神经网络度视频对视频进行两次编码压缩，提高了视频数据的压缩率；

(2)由于人工神经网络具有非线性的特征，通过将人工神经网络的参数作为秘钥，实现了视频数据的压缩加密一体化；

(3)深度自动编码器对视频数据的编码结果包含了视频数据的特征，便于视频数据的分类与搜索，将机器学习引入视频编码领域，具有广阔的发展空间和应用前景；

(4)无需人工设计复杂的编解码流程，利用深度自动编码器自动提取数据特征的功能，大大减少了人工干预，实现编码过程的自动化，实现简单，并且可拓展性良好，不仅可以用于视频数据压缩，还可用于其它数据压缩。

附图说明

图1是依据本发明实施例的视频编解码装置的结构示意图；

图2是本发明实施例的深度自动编码器的示意图；

图3是本发明实施例的视频编解码方法的编码流程图；

图4是本发明实施例的视频编解码方法的深度自动编码器训练流程图；

图5是本发明实施例的视频编解码方法的解码流程图。

符号说明

10-控制器；20-深度自动编码器模块；30-神经网络编解码模块；40-混合编解码模块；50-存储模块50。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

随着智能时代的到来，将人工智能的方法引入视频编解码领域，以寻求更大的突破应成为未来的发展趋势。本发明实施例提供了一种基于深度自动编码器的视频编解码装置，图1所示为该视频编解码装置的结构示意图，包括控制器10，深度自动编码器模块20，神经网络编解码模块30，混合编解码模块40，存储模块50；其中，

控制器10与深度自动编码器模块20、神经网络编解码模块30和混合编解码模块40互联。控制器10用于将用户程序所编译而成的控制指令存储于指令队列之中，并将其译码为控制信号以控制各模块完成各自的功能，实现视频编码和解码。存储模块50也与深度自动编码器模块20、神经网络编解码模块30和混合编解码模块40互联，用于存储视频编解码过程中的各种数据和参数。

深度自动编码器模块20包括深度自动编码器，深度自动编码器包括结构对称的编码端和解码端，所述编码端为N层人工神经网络结构，其中第1层为输入层，第2至N层为隐含层，层间单元全连接、层内单元无连接，第N层隐含层的隐单元数小于输入层的输入单元数，从而可以达到视频压缩的效果，其中N大于等于2。

解码端是与编码端结构对称的N层人工神经网络结构，具体来说，解码端的第1层(即输入层)为编码端的第N层隐含层，其第2层(即第1层隐含层)为编码端的第N-1层隐含层，解码端的第1层与第2层之间的权重矩阵为编码端的第N-1层与第N层之间的权重矩阵的转置。

解码端的第3层(即第2层隐含层)为编码端的第N-2层隐含层，解码端的第2层与第3层之间的权重矩阵为编码端的第N-2层与第N-1层之间的权重矩阵的转置。

依次类推，解码端的第N层(即第N层隐含层)为编码端的第1层(即输入层)，解码端的第N-1层与第N层之间的权重矩阵为编码端的第1层与第2层之间的权重矩阵的转置。

即解码端的第n层为编码端的第N-n+1层，解码端相邻两层(第n层和第n+1层)之间的权重矩阵，为编码端对应相邻两层(第N-n层和第N-n+1层)之间的权重矩阵的转置。

如图2所示，其示例性地给出了一种深度自动编码器的示意图，编码端和解码端均为五层人工神经网络结构，其中，深度自动编码器的第1层隐含层有2000个单元，第2层隐含层有1000个单元，第3层隐含层有500个单元，第4层隐含层有30个单元，输入层与第1层隐含层之间的权重矩阵为W1，第1层隐含层和第2层隐含层之间的权重矩阵为W2，第2层隐含层和第3层隐含层之间的权重矩阵为W3，第3层隐含层和第4层隐含层之间的权重矩阵为W4。对应地，解码端的输入层有30个单元，第1层隐含层有500个单元，第2层隐含层有1000个单元，第3层隐含层有2000个单元，输入层和第1层隐含层之间的权重矩阵为W^T ₄，第1层隐含层和第2层隐含层之间的权重矩阵为W^T ₃，第2层隐含层和第3层隐含层之间的权重矩阵为W^T ₂，第3层隐含层和第4层隐含层之间的权重矩阵为W^T ₁。

深度自动编码器模块20利用深度自动编码器的编码端对原始视频进行首次压缩，原始视频数据输入编码端的输入层，经编码端各层压缩后由第N层隐含层输出，得到首次压缩数据，并存储于存储模块50，同时将解码端的参数存储于存储模块50，该参数包括解码端的层数N、各层的单元数目和各层之间的权值矩阵。

神经网络编解码模块30从存储模块50读取解码端的参数，并对参数进行编码压缩，生成编码后的解码端参数。其中，可以采用常用的编码方式对参数进行编码。

混合编解码模块40对首次压缩数据进行二次压缩，具体地，其从存储模块50中读取首次压缩数据，并从神经网络编解码模块30中读取编码后的解码端参数，并对首次压缩数据和编码后的解码端参数进行混合编码，得到视频压缩数据，并存储于存储模块50，完成视频压缩。其中，混合编码可以采用哈夫曼编码等熵编码方式。

本发明的视频编解码装置，利用人工神经网络度视频对视频进行两次编码压缩，提高了视频数据的压缩率，而且由于人工神经网络具有非线性的特征，通过将人工神经网络的参数作为秘钥，实现了视频数据的压缩加密一体化。深度自动编码器对视频数据的编码结果包含了视频数据的特征，便于视频数据的分类与搜索，将机器学习引入视频编码领域，具有广阔的发展空间和应用前景。

进一步地，本实施例的视频编解码装置可以对视频压缩数据进行解码以重构原始视频数据。

混合编解码模块40对视频压缩数据进行首次解压，具体地，其从存储模块50读取视频压缩数据，并对视频压缩数据进行解码，得到首次解压数据和编码后的解码端参数，并存储于存储模块50。其中该解码采用与混合编码对应的解码方式，该首次解压数据即编码过程中的首次压缩数据。

神经网络编解码模块30从存储模块50读取编码后的解码端参数，并对编码后的解码端参数进行解码，得到解码端的参数。其中该解码采用与编码过程中解码端参数的编码方式对应的解码方式。

深度自动编码器模块20利用解码端对首次解压数据进行二次解压，具体地，深度自动编码器模块20从存储模块50读取首次解压数据，从神经网络编解码模块30读取解码端的参数，首次解压数据输入解码端的输入层，经解码端各层解压后由第N层隐含层输出，得到原始视频数据，并存储于存储模块50。

由此可见，本发明的视频编解码装置，无需人工设计复杂的编解码流程，利用深度自动编码器自动提取数据特征的功能，大大减少了人工干预，实现编码过程的自动化，实现简单，并且可拓展性良好，不仅可以用于视频数据压缩，还可用于其它数据压缩。

进一步地，本发明的视频编解码装置，深度自动编码器通过训练的方式生成。深度自动编码器模块20首先初始化一深度自动编码器，然后利用训练用视频对深度自动编码器的编码端进行训练，得到用于视频编码的深度自动编码器编码端。具体包括，

首先，将深度自动编码器编码端的相邻两层作为一个限制玻尔兹曼机，将相邻两层的上一层作为可见层，下一层作为隐含层，对限制玻尔兹曼机进行训练。

限制玻尔兹曼机采用二值单元，其能量函数为：

式中，v_i为第i个可见单元，h_j为第j个隐单元，a_i为第i个可见单元v_i的偏置，b_j为第j个隐单元h_j的偏置，w_j，i为连接第j个隐单元和第i个可见单元的权值，n_v和n_h分别是可见单元和隐单元的数目。

然后：初始化限制玻尔兹曼机。包括：将训练用视频作为训练样本集合S(|S|＝n_s)，设定训练周期J、学习率η、CD-K算法参数k；指定可见层和隐藏层单元数n_v和n_h；设定偏置向量a，b和权值矩阵w。

其中，第i个可见单元v_i的偏置a_i为偏置向量a的第i项，第j个隐单元h_j的偏置b_j为偏置向量b的第j项，w_j，i为权值矩阵W中第j行第i列的元素，n_s为训练样本集合的单元数。

接着，对限制玻尔兹曼机进行训练。包括：

首先，使用CD-K算法得到ΔW，Δa和Δb；

然后，使用ΔW，Δa和Δb更新限制玻尔兹曼机的参数：

循环上述两个步骤J次，得到训练好的限制玻尔兹曼机，作为深度自动编码器。

其中，使用CD-K算法得到ΔW，Δa和Δb的步骤如下：

初始化：ΔW＝0，Δa＝0，Δb＝0；

对训练样本集合S中的每一个样本v进行如下循环：

(1)初始化v₀＝v

(2)进行k次采样，在每次采样中，先从可见单元组v_t采样出隐单元组h_t，再从隐单元组h_t采样出可见单元组v_t+1，其中t为整数且0≤t≤k-1。

(3)对于每一个i和j(i和j均为整数，1≤i≤n_h，1≤j≤n_v)进行如下计算：

Δb_i＝Δb_i+[P(h_i＝1|v₀)-P(h_i＝1|v_k)]

其中，和分别为序号为0的可见单元组中的第j个可见单元和序号为k的可见单元组中第j个可见单元。

最后，用反向传播算法精细调整深度自动编码器编码端的权值矩阵，以最小化对原始输入的重构误差。例如，在精细调整深度自动编码器编码端的权值矩阵时，不再将编码端的输入输出单元和隐单元看成限制波尔兹曼机的单元，而是直接使用各单元的实数输出值。由于编码端已经经过训练，可以用反向传播算法来调整权值矩阵以最小化编码端输出的重构误差。

本发明另一实施例提供了一种基于深度自动编码器的视频编解码方法，参见图3，包括：

步骤S101，控制器10向深度自动编码器模块20发送编码指令，深度自动编码器的编码端对原始视频进行首次压缩。

步骤S102，控制器10向深度自动编码器模块20发送IO指令，首次压缩数据和解码端的参数存储于存储模块50。

步骤S103，控制器10向神经网络编解码模块30发送IO指令，神经网络编解码模块30从存储模块50读取解码端的参数。

步骤S104，控制器10向神经网络编解码模块30发送编码指令，神经网络编解码模块30对参数进行编码压缩。

步骤S105，控制器10向混合编解码模块40发送IO指令，混合编解码模块40从存储模块50中读取首次压缩数据，并从神经网络编解码模块30中读取编码后的解码端参数。

步骤S106，控制器10向混合编解码模块40发送编码指令，混合编解码模块40对首次压缩数据和编码后的解码端参数进行混合编码，得到视频压缩数据。

步骤S107，控制器10向混合编解码模块40发送IO指令，混合编解码模块40将视频压缩数据存储于存储模块50。

其中，参见图4，在步骤S101之前还可以包括：

从存储模块50读取训练用视频数据；

利用训练用视频数据对深度自动编码器进行训练。

参见图5，该视频编解码方法还包括：

步骤S201，控制器10向混合编解码模块40发送IO指令，混合编解码模块40从存储模块50读取视频压缩数据。

步骤S202，控制器10向混合编解码模块40发送解码指令，混合编解码模块40对视频压缩数据进行解码，得到首次解压数据和编码后的解码端参数。

步骤S203，控制器10向混合编解码模块40发送IO指令，混合编解码模块40将首次解压数据和编码后的解码端参数存储于存储模块50。

步骤S204，控制器10向神经网络编解码模块30发送IO指令，神经网络编解码模块30从存储模块50读取编码后的解码端参数。

步骤S205，控制器10向神经网络编解码模块30发送解码指令，神经网络编解码模块30对编码后的解码端参数进行解码，得到解码端的参数。

步骤S206，控制器10向深度自动编码器模块20发送IO指令，深度自动编码器模块20从存储模块50读取首次解压数据，从神经网络编解码模块30读取解码端的参数。

步骤S207，控制器10向深度自动编码器模块20发送解码指令，深度自动编码器模块20对首次解压数据进行二次解压，得到原始视频数据。

步骤S208，控制器10向深度自动编码器模块20发送IO指令，深度自动编码器模块20将原始视频数据存储于存储模块50。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状，本领域普通技术人员可对其进行简单地更改或替换；本文可提供包含特定值的参数的示范，但这些参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应值；实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本发明的保护范围；上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度自动编码器的视频编解码装置，其特征在于，包括：深度自动编码器模块，神经网络编解码模块，混合编解码模块，存储模块；其中，

所述深度自动编码器模块包括深度自动编码器，所述深度自动编码器包括编码端和解码端；

所述编码端对原始视频进行首次压缩得到首次压缩数据，所述存储模块存储首次压缩数据和解码端的参数；

所述神经网络编解码模块从存储模块读取解码端的参数，并对参数进行编码压缩，生成编码后的解码端参数；

所述混合编解码模块从存储模块读取首次压缩数据，并从神经网络编解码模块读取编码后的解码端参数，对首次压缩数据和编码后的解码端参数进行混合编码，得到视频压缩数据，并存储于存储模块。

2.如权利要求1所述的视频编解码装置，其特征在于，

所述编码端为N层人工神经网络结构，其第1层为输入层，第2至N层为隐含层，层间单元全连接，层内单元无连接，第N层隐含层的隐单元数小于输入层的输入单元数。

3.如权利要求2所述的视频编解码装置，其特征在于，所述解码端是与编码端结构对称的N层人工神经网络结构，解码端的第n层为编码端的第(N-n+1)层，解码端第n层与第n+1层之间的权重矩阵，为编码端第(N-n)层和第(N-n+1)层之间的权重矩阵的转置，其中，1≤n≤N。

4.如权利要求1所述的视频编解码装置，其特征在于，

所述混合编解码模块从存储模块读取视频压缩数据，对视频压缩数据进行解码，得到首次解压数据和编码后的解码端参数，并存储于存储模块；

所述神经网络编解码模块从存储模块读取编码后的解码端参数，对编码后的解码端参数进行解码，得到解码端的参数；

所述深度自动编码器模块从存储模块读取首次解压数据，从神经网络编解码模块读取解码端的参数，解码端对首次解压数据解码，得到原始视频数据，并存储于存储模块。

5.如权利要求1所述的视频编解码装置，其特征在于，

所述深度自动编码器模块初始化深度自动编码器，并利用训练用视频对深度自动编码器进行训练，得到用于视频编码的深度自动编码器。

6.如权利要求1所述的视频编解码装置，其特征在于，还包括控制器，其与所述深度自动编码器模块、神经网络编解码模块和混合编解码模块互联，用于控制上述模块。

7.一种基于深度自动编码器的视频编码方法，利用权利要求任一项所述的视频编解码装置进行视频编码，其特征在于，包括：

对原始视频进行首次压缩；

存储首次压缩数据和解码端的参数；

读取解码端的参数并对参数进行编码；

读取首次压缩数据和编码后的解码端参数，对首次压缩数据和编码后的解码端参数进行混合编码，得到视频压缩数据并存储。

8.如权利要求7所述的视频编码方法，其特征在于，在所述对原始视频进行首次压缩之前还包括：

读取训练用视频数据；

利用训练用视频数据对深度自动编码器进行训练。

9.如权利要求8所述的视频编码方法，其特征在于，所述利用训练用视频数据对深度自动编码器进行训练包括：

将深度自动编码器编码端的相邻两层作为一个限制玻尔兹曼机；

初始化限制玻尔兹曼机；

利用训练用视频数据对限制玻尔兹曼机进行训练；

用反向传播方法调整深度自动编码器编码端的权值矩阵，最小化对原始输入的重构误差。

10.一种基于深度自动编码器的视频解码方法，利用权利要求任一项所述的视频编解码装置进行视频解码，其特征在于，包括：

读取视频压缩数据；

对视频压缩数据进行解码，得到首次解压数据和编码后的解码端参数并存储；

读取编码后的解码端参数，对编码后的解码端参数进行解码，得到解码端的参数；

读取首次解压数据和解码端的参数，对首次解压数据进行二次解压，得到原始视频数据并存储。