CN108665067A

CN108665067A - 用于深度神经网络频繁传输的压缩方法及系统

Info

Publication number: CN108665067A
Application number: CN201810528239.4A
Authority: CN
Inventors: 段凌宇; 陈子谦; 楼燚航; 黄铁军
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-10-16
Anticipated expiration: 2038-05-29
Also published as: US20210209474A1; CN108665067B; WO2019228082A1

Abstract

本发明公开了用于深度神经网络频繁传输的压缩方法及系统，扩展深度神经网络压缩至传输领域，利用深度神经网络模型之间的潜在冗余性进行压缩，减少深度神经网络在频繁传输下的开销。本发明的优势在于：本发明结合了深度神经网络在频繁传输上的多个模型之间的冗余性，利用了深度神经网络之间的知识信息进行压缩，减少了所需传输的大小和带宽。在相同带宽限制下，能更好地将深度神经网络进行传输，同时允许深度神经网络在前端进行针对性压缩的可能，而非只能将深度神经网络进行针对性压缩后进行部分的还原。

Description

用于深度神经网络频繁传输的压缩方法及系统

技术领域

本发明属于人工智能技术领域，具体涉及一种用于深度神经网络频繁传输的压缩方法及系统。

背景技术

随着人工智能的发展，深度神经网络展现了强大的能力，并在各个领域取得了卓越的效果，并且各种深度神经网络模型不断发展，并且广泛的在网络中传播并发展。然而随着深度神经网络的发展，其运行时需要的庞大计算资源和存储开销亦备受关注，因此，如何能在保持深度神经网络强大性能的情况下，减小深度神经网络的体积和计算能力，许多深度神经网络压缩的方法被提出。例如采取对网络剪枝、奇异值分解、二值深度神经网络构建、知识蒸馏等方式，结合量化、哈夫曼编码等，可以将深度神经网络在一定程度上进行压缩，并形成轻量级的网络。大部分方法针对某一项给定任务进行压缩，并将原网络进行重新训练，压缩的时间较长，并不一定可以进行对压缩后的网络解压缩。

图1展示了传统的深度神经网络压缩的算法。如图1所示，传统的深度神经网络可选地采用数据驱动或非数据驱动的方式，针对深度神经网络采用剪枝、低秩分解、卷积核选择、模型重构等不同算法(或不选)，生成初步压缩的深度神经网络模型，而后可选地采用知识迁移或重新训练，并重复上述做法，最终产生一个初步压缩的深度神经网络模型。同时，初步压缩的深度神经网络模型大部分程度上无法再解压还原回初始的原始网络模型。

在得到初步压缩的深度神经网络模型后，可选地，采取量化的方式对网络模型进行量化，而后可选地，采用编码的方式对深度神经网络进行编码，最终生成编码的量化的深度神经网络模型。

图2展示了采用传统深度神经网络压缩的方法用于网络上传输的流程示意图。如图2所示，基于当前传统深度网络压缩从单个模型角度对深度神经网络进行压缩，我们将其归并于单模型压缩方法。可选地，可以通过量化或编码的方式对原始网络进行压缩，并传输编码的压缩的深度神经网络。在解码端，对接收到的编码的压缩模型进行解码后，可以得到量化的压缩的深度神经网络。

然而目前的方法均从“减少深度神经网络存储、计算开销”角度出发，而随着深度神经网络频繁更新和在网络上频繁传输，深度神经网络带来的传输开销亦是一个亟待解决的问题。通过减少存储大小间接减少传输的开销是一种可行的方法，但是在面对更宽泛的深度神经网络频繁传输条件下，就需要一种能够在传输阶段对深度神经网络进行压缩的方法，让模型能在传输端进行高效的压缩，在接收端对传输的压缩模型进行解压，并且最大程度保持原有深度神经网络的属性。例如，在带宽限制但不考虑接收端存储大小时，若在接收端频繁接收深度神经网络模型时，需要提出一种用于深度神经网络传输的压缩方法和系统。

发明内容

针对深度神经网络频繁传输下高额的带宽开销，本发明提供一种针对用于深度神经网络频繁传输的压缩方法和系统，扩展深度神经网络压缩至传输领域，利用深度神经网络模型之间的潜在冗余性进行压缩，减少深度神经网络在频繁传输下的开销，即利用频繁传输下的多个模型进行压缩。

根据本发明的一个方面，提供了一种用于深度神经网络频繁传输的压缩方法，包括：

基于本次和历史传输的一个或多个深度神经网络模型，将待传输模型部分或全部与历史传输的模型之间部分或全部的模型差异进行组合，生成一个或多个预测残差，并将相关预测所需信息进行传输；

基于接收到的一个或多个量化的预测残差和在接收端存储的深度神经网络进行组合，对原存储的深度神经网络模型进行替换或累加，生成接收的深度神经网络。

优选的，所述方法具体包括：传输端将待传输的深度神经网络送入压缩端，压缩端获得待传输的一个或多个深度神经网络的数据信息和组织方式；

压缩端的预测模块基于本次和历史传输的一个或多个深度神经网络模型，进行多次传输的模型预测压缩，产生待传输的一个或多个深度神经网络的预测残差；

压缩端的量化模块基于产生的一个或多个预测残差，采取一种或多种量化方式对预测残差进行量化，生成一个或多个量化的预测残差；

压缩端的编码模块基于一个或多个产生的量化的预测残差，采取编码的方法对量化的预测残差进行编码，生成一个或多个编码的预测残差并传输；

解压端接收到一个或多个编码的预测残差，在解压端的解压模块采取对应的解码方法对编码的预测残差进行解码，产生一个或多个量化的预测残差；

在解压端的模型预测解压模块，基于一个或多个量化的预测残差和在接收端前一次的存储的深度神经网络，通过多个模型预测的方式，在接收端生成接收的深度神经网络。

优选的，所述深度神经网络的数据信息和组织方式包含部分或全部深度神经网络的数据和网络结构。

优选的，在所述压缩端基于频繁传输的环境下，能够获得对应接收端的历史传输的一个或多个深度神经网络模型的数据信息和组织方式，若无历史传输的深度神经网络模型，将空模型设定为默认的历史传输模型。

优选的，所述模型预测压缩利用多个完整或预测的模型之间的冗余性进行压缩，为以下方式之一：采用计算待传输的深度神经网络模型和历史传输的深度神经网络模型之间整体的残差，或待传输的深度神经网络模型以内部一层或多层结构的残差，或以卷积核衡量的残差进行传输。

优选的，所述模型预测压缩包含源于一种或多种残差压缩粒度或深度神经网络的一种或多种数据信息和组织方式。

更优选的，所述接收端的历史传输的多个模型是完整无损模型，或有损的部分模型。

优选的，所述量化方式包含采取原始数据直接输出，或者对待传输的权重的精度控制，或者采取kmeans非线性量化算法。

优选的，所述多个模型预测的方式包括：对原存储的一个或多个深度神经网络模型进行替换或累加。

优选的，所述多个模型预测的方式包括：同时或非同时地接收一个或多个量化的预测残差，结合原存储的一个或多个深度神经网络部分或全部的累加或替换。

根据本发明的一个方面，还提供了一种用于深度神经网络频繁传输的压缩系统，包括：

模型预测压缩模块，基于本次和历史传输的一个或多个深度神经网络模型，将待传输模型部分或全部与历史传输的模型之间部分或全部的模型差异进行组合，生成一个或多个预测残差，并将相关预测所需信息进行传输；

模型预测解压模块，基于接收到的一个或多个量化的预测残差和在接收端存储的深度神经网络进行组合，对原存储的深度神经网络模型进行替换或累加，生成接收的深度神经网络；

其中，在所述模型预测压缩模块和模型预测解压模块，能够对历史传输的深度神经网络模型和存储的深度神经网络进行添加、删除、修改。

本发明的优势在于：本发明结合了深度神经网络在频繁传输上的多个模型之间的冗余性，利用了深度神经网络之间的知识信息进行压缩，减少了所需传输的大小和带宽。在相同带宽限制下，能更好地将深度神经网络进行传输，同时允许深度神经网络在前端进行针对性压缩的可能，而非只能将深度神经网络进行针对性压缩后进行部分的还原。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了传统深度神经网络压缩算法的流程图；

图2示出了将传统深度神经网络压缩算法应用于网络传输上的压缩流程示意图；

图3示出了本发明考虑深度神经网络在网络上传输的压缩流程示意图；

图4示出了本发明提出的用于深度神经网络频繁传输的压缩方法流程示意图；

图5示出了考虑传输初步压缩的深度神经网络模型情况下，用于深度神经网络的频繁传输压缩的流程示意图；

图6示出了本发明提供的在频繁传输条件下对深度神经网络网络压缩的流程图；

图7示出了本发明考虑了结合深度神经网络模型之间的潜在冗余性进行压缩提出的多模型预测模块原理图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图3展示了本发明考虑深度神经网络在网络上传输的压缩流程示意图。基于本次和历史传输的一个或多个深度神经网络模型，将待传输模型部分或全部与历史传输的模型之间部分或全部的模型差异进行组合，生成一个或多个预测残差，并将相关预测所需信息进行传输；基于接收到的一个或多个量化的预测残差和在接收端存储的深度神经网络进行组合，对原存储的深度神经网络模型进行替换或累加，生成接收的深度神经网络。

如图3所示，在给定带宽的条件下，有损或无损的将深度神经网络传输到待传输端。将待传输深度神经网络进行压缩，并将压缩后的数据进行传输。其中，压缩后的数据大小基于带宽条件，小于或远小于原始模型。例如压缩前的CNN模型为400MB，而模型传输的压缩后数据远小于400MB。在接收端解压并还原为有损或无损的初始传输模型，并用于不同的任务下。例如解压缩后，重构的CNN模型仍然为400MB，并将这个模型用于图像检索、分割和/或分类任务、语音识别中等等。

图4展示了本发明的深度神经网络频繁传输的压缩方法的流程示意图。如图4所示，结合发明内容，给出多次传输模型预测的一种可行的算法，但不局限于此。

例如需要传输VGG-16-retrain模型，在接收端和发送端均有上一次传输的模型，例如original-vgg-16，基于本发明，不需要直接传输原始的待传输模型，即VGG-16-retrain。通过每一层的参数残差，即可获得一个更小数据范围和更少信息量的带传输模型。同理，以深度神经网络的同大小卷积核的卷积层为基本单位，可以以一个基地卷积层作为同大小卷积核的压缩基地，结合数据分布可以获得更小数据分布的残差待传输网络层。类似的，可以以1个或多个卷积核作为压缩基底，对待传输的VGG-16-ratrain，每一个卷积层的每一个卷积核进行残差压缩或量化等压缩方法，最终生成预测残差。

相比于直接传输，多个模型之间的冗余性被利用并结合被压缩，最终产生一个具有相对较小信息量的预测残差，并理论上结合无损的预测残差可以无损的还原原始网络，同时产生较小的带宽和数据需求。结合不同的网络结构和多个预测模型，选择恰当的预测模型和预测结构，就可以获得一个较高压缩率的预测残差，同时将相关预测所需的信息进行传输。

传统的压缩方法关注于在某个给定任务下对深度神经网络进行专精的压缩，而针对传输角度考虑，一个宽泛且非针对性的压缩方法需要被采纳。采用传统的方法，可以一定程度上解决需要的带宽问题，但是其本质上是产生一个初步的压缩模型，而后并没有结合历史的深度神经网络信息，即存在较大的冗余性在模型之间。即传输初步压缩的深度神经网络模型(未编码)，如图5所示，本发明也可以利用不同初步压缩的深度神经网络之间冗余性或和未压缩的网络之间的冗余性进行压缩，使之在传输阶段压缩率更高，节省带来的传输带宽。

如图6所示，第一方面，本发明提供了一种在频繁传输条件下，对深度神经网络网络压缩的流程。具体包括如下步骤：

S1：传输端将待传输的深度神经网络送入压缩端，压缩端获得待传输的一个或多个深度神经网络的数据信息和组织方式。其中，深度神经网络的数据信息和组织方式包含部分或全部深度神经网络的数据和网络结构，故一个待传输的神经网络可以组成一个或多个深度神经网络的数据信息和组织方式。

S2：压缩端的预测模块基于本次和历史传输的一个或多个深度神经网络模型，进行多次传输的模型预测压缩，产生待传输的一个或多个深度神经网络的预测残差。

其中，在压缩端基于频繁传输的环境下，可以获得对应接收端的历史传输的一个或多个深度神经网络模型的数据信息和组织方式。若无历史传输的深度神经网络模型，可以将空模型设定为默认的历史传输模型。

模型预测压缩为一个结合本次传输和对应接收端的历史传输的多模型之间压缩的算法模块，包含但不仅限于采用计算待传输的深度神经网络模型和历史传输的深度神经网络模型之间整体的残差，或待传输的深度神经网络模型以内部一层或多层结构的残差或以卷积核等不同单位衡量的残差进行传输等。最终，结合不同的多模型压缩粒度，产生一个或多个深度神经网络的预测残差，

其中，一个或多个模型预测压缩包含但不仅包含源于一种或多种残差压缩粒度或深度神经网络的一种或多种数据信息和组织方式。

其中接收端的历史传输的多个模型可以是完整无损模型，亦或有损的部分模型，此处不影响对多模型之间冗余性计算，可以通过填空白或其他方式进行弥补，或采取恰当的深度神经网络模型表示方法进行统一。

残差计算后可以直接输出或采取可行的压缩算法对预测残差进行压缩以控制传输大小。

S3：压缩端的量化模块基于产生的一个或多个预测残差，采取一种或多种量化方式对预测残差进行量化，生成一个或多个量化的预测残差。

其中，量化方式包含采取原始数据直接输出，即不进行量化。

量化即针对接收到的一个或多个预测残差，采取下列但不仅限于下列的算法进行对传输大小进行控制，如对待传输的权重的精度控制(如32位浮点限制为n位小数，或转化为2^n次等)，或采取kmeans等非线性量化算法，产生一个或多个量化的预测残差。

其中，针对一个预测的残差，可以针对不同的需求，产生一个或多个迭代式传输的量化的预测残差，如32位浮点数据，可以量化为3组8位量化的预测残差，针对不同需求，全部传输或仅传输部分一个或多个量化的预测残差。

故最终产生一个或多个量化的预测残差。

S4：在压缩端的编码模块基于一个或多个产生的量化的预测残差，采取编码的方法对量化的预测残差进行编码，生成一个或多个编码的预测残差并传输。

在编码模块，可以采用一个或多个编码的方法对一个或多个量化的预测残差进行编码后传输。而后转化为比特流送入网络进行传输。

S5：在解压端接收到一个或多个编码的预测残差，在解压端的解压模块采取对应的解码方法对编码的预测残差进行解码，产生一个或多个量化的预测残差。

在解压模块，可以采用与编码端对应的一个或多个解码的方法对一个或多个编码的预测残差进行解码，产生一个或多个量化的预测残差。

S6：在解压端的模型预测解压模块，基于一个或多个量化的预测残差和在接收端前一次的存储的深度神经网络，通过多个模型预测的方式，在接收端生成接收的深度神经网络。

其中，在模型预测解压模块，基于接收到的一个或多个量化的预测残差和在接收端存储的深度神经网络进行组合，包含对原存储的一个或多个深度神经网络模型进行替换或累加等方式，生成接收的深度神经网络。

其中，在模型预测解压模块，可以同时或非同时地接收一个或多个量化的预测残差，结合原存储的一个或多个深度神经网络部分或全部的累加或替换，最终通过一种组织方式，生成接收到的深度神经网络，并完成传输。

如图7所示，第二方面，本发明考虑了结合深度神经网络模型之间的潜在冗余性进行压缩，提出了多模型预测模块，包含压缩和解压模块，在压缩端和解压端利用了历史存储的“无用”的深度神经网络信息。

1：在模型预测压缩模块，基于本次和历史传输的一个或多个深度神经网络模型，将待传输模型部分或全部与历史传输的模型之间部分或全部的模型差异进行组合，生成一个或多个预测残差，并将相关预测所需信息进行传输。

2：在模型预测解压模块，基于接收到的一个或多个量化的预测残差和在接收端存储的深度神经网络进行组合，包含对原存储的深度神经网络模型进行替换或累加等方式，生成接收的深度神经网络。

3：在模型预测压缩和解压模块，对历史传输的深度神经网络模型和存储的深度神经网络进行添加、删除、修改。

通过上述的方法和系统，本发明结合了深度神经网络在频繁传输上的多个模型之间的冗余性，利用了深度神经网络之间的知识信息进行压缩，减少了所需传输的大小和带宽。在相同带宽限制下，能更好地将深度神经网络进行传输，同时允许深度神经网络在前端进行针对性压缩的可能，而非只能将深度神经网络进行针对性压缩后进行部分的还原。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于深度神经网络频繁传输的压缩方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法具体包括：传输端将待传输的深度神经网络送入压缩端，压缩端获得待传输的一个或多个深度神经网络的数据信息和组织方式；

3.根据权利要求2所述的方法，其特征在于，

所述深度神经网络的数据信息和组织方式包含部分或全部深度神经网络的数据和网络结构。

4.根据权利要求2所述的方法，其特征在于，

在所述压缩端基于频繁传输的环境下，能够获得对应接收端的历史传输的一个或多个深度神经网络模型的数据信息和组织方式，若无历史传输的深度神经网络模型，将空模型设定为默认的历史传输模型。

5.根据权利要求2所述的方法，其特征在于，

所述模型预测压缩利用多个完整或预测的模型之间的冗余性进行压缩。

6.根据权利要求5所述的方法，其特征在于，

所述模型预测压缩为以下方式之一：采用计算待传输的深度神经网络模型和历史传输的深度神经网络模型之间整体的残差，或待传输的深度神经网络模型以内部一层或多层结构的残差，或以卷积核衡量的残差进行传输。

7.根据权利要求2所述的方法，其特征在于，

所述模型预测压缩包含源于一种或多种残差压缩粒度或深度神经网络的一种或多种数据信息和组织方式。

8.根据权利要求4所述的方法，其特征在于，

所述接收端的历史传输的多个模型是完整无损模型和/或有损的部分模型。

9.根据权利要求2所述的方法，其特征在于，

所述量化方式包含采取原始数据直接输出，或者对待传输的权重的精度控制，或者采取kmeans非线性量化算法。

10.根据权利要求2所述的方法，其特征在于，

所述多个模型预测的方式包括：对原存储的一个或多个深度神经网络模型进行替换或累加。

11.根据权利要求2所述的方法，其特征在于，

所述多个模型预测的方式包括：同时或非同时地接收一个或多个量化的预测残差，结合原存储的一个或多个深度神经网络部分或全部的累加或替换。

12.一种用于深度神经网络频繁传输的压缩系统，其特征在于，包括：

模型预测解压模块，基于接收到的一个或多个量化的预测残差和在接收端存储的深度神经网络进行组合，对原存储的深度神经网络模型进行替换或累加，生成接收的深度神经网络。

13.根据权利要求12所述的方法，其特征在于，其中，在所述模型预测压缩模块和模型预测解压模块，能够对历史传输的深度神经网络模型和存储的深度神经网络进行添加、删除、修改。