CN111401544A

CN111401544A - 一种深度神经网络的压缩方法、装置及计算机可读存储介质

Info

Publication number: CN111401544A
Application number: CN201910002531.7A
Authority: CN
Inventors: 鲍媛媛
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2020-07-10

Abstract

本发明公开了一种深度神经网络的压缩方法、装置及计算机可读存储介质，所述方法包括：基于预设训练集，预先训练得到初始深度神经网络；构建与所述预设训练集同分布的第一数据集；利用所述初始深度神经网络对所述第一数据集进行处理，得到所述第一数据集的标注集；构建浅层神经网络，基于所述第一数据集以及所述第一数据集的标注集，对所述浅层神经网络进行监督训练，得到所述浅层神经网络的网络参数。

Description

一种深度神经网络的压缩方法、装置及计算机可读存储介质

技术领域

本发明涉及深度学习领域，尤其涉及一种深度神经网络的压缩方法、装置及计算机可读存储介质。

背景技术

现有的神经网络压缩方法主要有网络剪枝、权值量化两种，两种方式都是对初始训练得到的模型进行分析，通过权值阈值等方式确定剪枝、量化等操作的对象，因此，目前神经网络压缩方法没有从本质上改变网络结构，只是对网络结构进行微调整，因此涉及的模型参数值、计算量仍很大，致使神经网络模型部署在轻量级的设备上所需花费的成本仍很高。

发明内容

为解决上述技术问题，本发明实施例提供了一种深度神经网络的压缩方法、装置及计算机可读存储介质。

本发明实施例提供的一种深度神经网络的压缩方法，包括：

基于预设训练集，预先训练得到初始深度神经网络；

构建与所述预设训练集同分布的第一数据集；

利用所述初始深度神经网络对所述第一数据集进行处理，得到所述第一数据集的标注集；

构建浅层神经网络，基于所述第一数据集以及所述第一数据集的标注集，对所述浅层神经网络进行监督训练，得到所述浅层神经网络的网络参数。

其中，所述构建与所述预设训练集同分布的第一数据集，包括：

获取所述预设训练集X：

X＝{x_i，i＝1，2，3，…，m}；

其中，x_i＝{x_ij，j＝1，2，3，…，n}；m表示所述训练集X包含的样本个数，n表示样本x_i中包含的数值的个数，m和n均为正整数；

构建与X中每一个样本x_i距离最近的两个样本p_i和q_i：

p_i＝{p_ij，j＝1，2，3，…，n}；

基于所述样本p_i和q_i，构建与样本x_i对应的数据样本z_i:

z_i＝{z_ij，j＝1，2，3，…，n}；

其中，z_ij根据以下关系式得到：

其中，θ满足：0≤θ≤1，α满足：0≤α≤1；

基于得到的数据样本z_i，构建与所述预设训练集同分布的第一数据集Z：

Z＝{z_i，i＝1，2，3，…，m}。

其中，所述利用所述初始深度神经网络对所述第一数据集进行处理，得到所述第一数据集的标注集，包括：

将所述第一数据集输入所述初始深度神经网络，得到输出数据集，作为所述第一数据集的标注集。

其中，所述基于预设训练集，预先训练得到初始深度神经网络，包括：

利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集，监督训练得到所述初始深度神经网络。

其中，所述基于所述预设训练集以及所述预设训练集对应的标注集，监督训练得到所述初始深度神经网络，包括：

基于目标函数f以及损失函数l训练得到所述初始深度神经网络；其中，目标函数f为：

其中，m和i均为正整数，Φ为模型集合；

损失函数l为：

其中，k和i均为正整数。

其中，所述构建浅层神经网络包括：

基于损失函数l训练得到所述浅层神经网络g；

其中，所述损失函数l为：

其中，k和i均为正整数；所述浅层神经网络模型g为：

其中，m和i均为正整数，Ψ为候选浅层模型集合，l为交叉熵损失函数。

本发明实施例提供一种深度神经网络的压缩装置，包括：

初始网络构建模块，用于基于预设训练集，预先训练得到初始深度神经网络；

同分布数据集构建模块，用于构建与所述预设训练集同分布的第一数据集；

第一处理模块，利用所述初始深度神经网络对所述第一数据集进行处理，得到所述第一数据集的标注集；

浅层神经网络构建模块，用于构建浅层神经网络；

监督训练模块，用于基于所述第一数据集以及所述第一数据集的标注集，对所述浅层神经网络进行监督训练，得到所述浅层神经网络的网络参数。

其中，所述同分布数据集构建模块具体用于获取所述预设训练集X：

X＝{x_i，i＝1，2，3，…，m}；

构建与X中每一个样本x_i距离最近的两个样本p_i和q_i：

p_i＝{p_ij，j＝1，2，3，…，n}；

基于所述样本p_i和q_i，构建与样本x_i对应的数据样本z_i:

z_i＝{z_ij，j＝1，2，3，…，n}；

其中，z_ij根据以下关系式得到：

其中，θ满足：0≤θ≤1，α满足：0≤α≤1；

Z＝{z_i，i＝1，2，3，…，m}。

其中，所述第一处理模块具体用于将所述第一数据集输入所述初始深度神经网络，得到输出数据集，作为所述第一数据集的标注集。

其中，所述初始网络构建模块具体用于利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集，监督训练得到所述初始深度神经网络。

其中，所述初始网络构建模块，还具体用于基于目标函数f以及损失函数l训练得到所述初始深度神经网络；其中，目标函数f为：

其中，m和i均为正整数，Φ为模型集合；

损失函数l为：

其中，k和i均为正整数。

其中，所述浅层神经网络构建模块，还用于基于损失函数l训练得到所述浅层神经网络g；

其中，所述损失函数l为：

其中，k和i均为正整数；所述浅层神经网络模型g为：

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现前述深度神经网络的压缩方法中任一项步骤。

本发明实施例的技术方案中，基于预设训练集，预先训练得到初始深度神经网络；构建与所述预设训练集同分布的第一数据集；利用所述初始深度神经网络对所述第一数据集进行处理，得到所述第一数据集的标注集；构建浅层神经网络，基于所述第一数据集以及所述第一数据集的标注集，对所述浅层神经网络进行监督训练，得到所述浅层神经网络的网络参数。如此，从网络结构层面实现了深度神经网络的压缩，从本质上降低参数量、计算量；另外，通过构建与所述预设训练集同分布的第一数据集，有效增加了训练数据集，从而提高了压缩的精确度。

附图说明

附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例；

图1为本发明实施例的一种深度神经网络的压缩方法的流程示意图；

图2为本发明实施例的ResNet网络的结构示意图；

图3为本发明实施例的一种浅层网络模型的结构示意图；

图4为本发明实施例的一种深度神经网络的压缩装置的结构示意图；

图5为本发明实施例的一种深度神经网络的压缩装置的结构示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

图1为本发明实施例的一种深度神经网络的压缩方法的流程示意图，如图1所示，所述方法包括以下步骤：

步骤101：基于预设训练集，预先训练得到初始深度神经网络。

这里将预先训练得到初始深度神经网络作为待压缩对象。

在一个实施例中，利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集，监督训练得到所述初始深度神经网络。具体地，可以按照步骤S1-S2进行实施：

S1，建立训练集以及对应的标记集。

假设预设训练集为：

X＝{x_i，i＝1，2，3，…，m}；

其中，x_i＝{x_ij，j＝1，2，3，…，n}；

假设预设训练集对应的标记集为：

Y＝{y_i，i＝1，2，3，…，m}；

其中，

y_i＝{[y_i1，y_i2，…，y_ik，…，y_il]，i＝1，2，…，m，k＝1，2，…，l}；

其中，y_ik∈[0,1]。

S2，选取深度神经网络模型进行监督训练。

可以采用ResNet网络结构，其网络结构如图2所示。

根据如下目标函数：

可使用随机梯度下降算法训练得到最优模型f，即得到所述初始深度神经网络；(1)式中，Φ为模型集合，l是交叉熵损失函数，l如下表示：

步骤102：构建与所述预设训练集同分布的第一数据集。

在一个实施例中，所述构建与所述预设训练集同分布的第一数据集，包括：

获取所述预设训练集X：

X＝{x_i，i＝1，2，3，…，m}；

构建与X中每一个样本x_i距离最近的两个样本p_i和q_i：

p_i＝{p_ij，j＝1，2，3，…，n}；

基于所述样本p_i和q_i，构建与样本x_i对应的数据样本z_i:

z_i＝{z_ij，j＝1，2，3，…，n}；

其中，z_ij根据以下关系式得到：

其中，θ满足：0≤θ≤1，α满足：0≤α≤1；

Z＝{z_i，i＝1，2，3，…，m}。

本实施例中，(3)式中，z_ij的生成是基于随机游走理论，具体地，(3)式表示：数据样本点x_ij以概率θ往一个方向偏移{max(p_ij，q_ij)-min(p_ij，q_ij)}×α，以概率1-θ往另外一个方向偏移{max(p_ij,q_ij)-min(p_ij,q_ij)}×α，θ为概率值，取值范围为[0,1]，α为偏移幅度的影响系数，取值范围为[0,1]。

步骤103：利用所述初始深度神经网络对所述第一数据集进行处理，得到所述第一数据集的标注集。

可以利用步骤101中得到的模型f(初始深度神经网络)，和步骤102中得到的模拟生成的同分布第一数据集Z＝{z_i，i＝1，2，3，…，m}，得到第一数据集的标注集B＝{b_i＝f(z_i),i＝1，2，3，…，m}。

在一个实施例中，所述利用所述初始深度神经网络对所述第一数据集进行处理，得到所述第一数据集的标注集，包括：将所述第一数据集输入所述初始深度神经网络，得到输出数据集，作为所述第一数据集的标注集。具体地，可以将第一数据集Z＝{z_i，i＝1，2，3，…，m}输入初始深度神经网络f，将f输出结果作为所需要得到的标注集。

步骤104：构建浅层神经网络，基于所述第一数据集以及所述第一数据集的标注集，对所述浅层神经网络进行监督训练，得到所述浅层神经网络的网络参数。

可以构建如图3所示的浅层网络模型，其中，图3所示的模型只包含两层卷积层、一层全连接层。利用如图3所示的浅层网络模型，基于步骤102得到的同分布数据集Z(第一数据集)和基于步骤103得到的对应于同分布数据集Z的标注集B(第一数据集的标注集B)，可采用如下函数为损失函数：

其中，k和i均为正整数，将(4)式所示的损失函数作为目标函数，可采用随机梯度下降算法监督训练得到浅层模型g：

其中，m和i均为正整数，Ψ是候选浅层模型集合，l是交叉熵损失函数，则得到的浅层神经网络g，g的网络参数即为所述浅层神经网络的网络参数，g为初始深度神经网络压缩后的浅层神经网络。至此，对深度神经网络的压缩完成。

图4为本发明实施例的一种深度神经网络的压缩装置的结构示意图，如图4所示，深度神经网络的压缩装置400包括：

初始网络构建模块401，用于基于预设训练集，预先训练得到初始深度神经网络；

同分布数据集构建模块402，用于构建与所述预设训练集同分布的第一数据集；

第一处理模块403，利用所述初始深度神经网络对所述第一数据集进行处理，得到所述第一数据集的标注集；

浅层神经网络构建模块404，用于构建浅层神经网络；

监督训练模块405，用于基于所述第一数据集以及所述第一数据集的标注集，对所述浅层神经网络进行监督训练，得到所述浅层神经网络的网络参数。

在一个实施例中，同分布数据集构建模块402中，所述构建与所述预设训练集同分布的第一数据集，包括：

获取所述预设训练集X：

X＝{x_i，i＝1，2，3，…，m}；

其中，x_i＝{x_ij，j＝1，2，3，…，n}；

构建与X中每一个样本x_i距离最近的两个样本p_i和q_i：

p_i＝{p_ij，j＝1，2，3，…，n}；

基于所述样本p_i和q_i，构建与样本x_i对应的数据样本z_i:

z_i＝{z_ij，j＝1，2，3，…，n}；

其中，z_ij根据以下关系式得到：

其中，θ满足：0≤θ≤1，α满足：0≤α≤1；

Z＝{z_i，i＝1，2，3，…，m}。

在一个实施例中，第一处理模块403中，所述利用所述初始深度神经网络对所述第一数据集进行处理，得到所述第一数据集的标注集，包括：将所述第一数据集输入所述初始深度神经网络，得到输出数据集，作为所述第一数据集的标注集。

在一个实施例中，初始网络构建模块401中，所述基于预设训练集，预先训练得到初始深度神经网络，包括：利用深度神经网络模型、基于所述预设训练集以及所述预设训练集对应的标注集，监督训练得到所述初始深度神经网络。

在一些实施例中，所述初始网络构建模块401，还具体用于基于目标函数f以及损失函数l训练得到所述初始深度神经网络；其中，目标函数f为：

其中，m和i均为正整数，Φ为模型集合；

损失函数l为：

其中，k和i均为正整数。

在一些实施例中，所述浅层神经网络构建模块404，还用于基于损失函数l训练得到所述浅层神经网络g；

其中，所述损失函数l为：

其中，k和i均为正整数；所述浅层神经网络模型g为：

本领域技术人员应当理解，图4所示的深度神经网络的压缩装置400中的各模块的实现功能可参照前述深度神经网络的压缩方法的相关描述而理解。图4所示的深度神经网络的压缩装置400中的各模块的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

图5是本发明实施例的一种深度神经网络的压缩装置的结构示意图，图5所示的深度神经网络的压缩装置500设置在所述终端上，包括：至少一个处理器501、存储器502、用户接口503、至少一个网络接口504。深度神经网络的压缩装置500中的各个组件通过总线系统505耦合在一起。可理解，总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统505。

其中，用户接口503可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

本发明实施例中的存储器502用于存储各种类型的数据以支持深度神经网络的压缩装置500的操作。这些数据的示例包括：用于在深度神经网络的压缩装置500上操作的任何计算机程序，如操作系统5021和应用程序5022；其中，操作系统5021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5022可以包含各种应用程序，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。

上述本发明实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成前述方法的步骤。

可以理解，存储器502可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可评论显示可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可评论显示可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

基于本申请各实施例提供的深度神经网络的压缩方法，本申请还提供一种计算机可读存储介质，参照图5所示，所述计算机可读存储介质可以包括：用于存储计算机程序的存储器502，上述计算机程序可由深度神经网络的压缩装置500的处理器501执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器。

需要说明的是：本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。