CN111626407A

CN111626407A - 一种深度神经网络模型快速重构方法和系统

Info

Publication number: CN111626407A
Application number: CN202010441785.1A
Authority: CN
Inventors: 付琨; 孙显; 赵良瑾; 张义; 刁文辉; 陈凯强; 冯瑛超; 刘迎飞; 朱子聪
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-04

Abstract

本发明提供了一种深度神经网络模型快速重构方法和系统，包括：基于可分离卷积创建轻量化模型骨干网络；基于抗遗忘训练策略，选择教师网络在扩展类数据集上对模型骨干网络的训练过程进行监督，得到学生网络；其中，扩展类数据集包括：在已有类别的数据集中未出现类别的数据集；教师网络在已有类别的数据集上收敛。本发明通过可分离卷积等轻量化的网络设计使网络保持较低尺寸的同时实现较高的精度，可应用于边缘设备中。

Description

一种深度神经网络模型快速重构方法和系统

技术领域

本发明属于深度学习技术领域，具体涉及一种深度神经网络模型快速重构方法和系统。

背景技术

随着深度学习的发展，很多深度学习模型都部署在边缘设备中，但现有的深度学习模型为了实现较高的精度往往需要较多的参数，这些限制了边缘设备中的应用。此外深度学习的结构一旦确定，在训练过程中很难调整。神经网络的结构直接决定学习模型的容量。固定结构的神经网络意味着模型的容量也是有限的，在容量有限的情况下，神经网络为了学习一个新的任务，就必须擦除旧有的知识，这就出现了灾难性遗忘。它使得人工智能体缺乏像生物一样不断适应环境以及增量式(持续)学习的能力。灾难性遗忘使得我们必须为每一个任务单独设计一个网络，使新任务与原有任务不冲突。深度学习的模型尺寸往往较大，多个模型的存在造成了边缘设备的资源紧缺。在实际应用中每次模型的更新都需要与服务器大量的数据交换以保证新模型的部署，这在弱通信条件下是很难实现的，极大的制约了其软件更新的频率。

发明内容

为克服上述现有技术的不足，本发明提出一种深度神经网络模型快速重构方法，其改进之处在于，包括：

基于可分离卷积创建轻量化模型骨干网络；

基于抗遗忘训练策略，选择教师网络在扩展类数据集上对所述模型骨干网络的训练过程进行监督，得到学生网络；

其中，所述扩展类数据集包括：在已有类别的数据集中未出现类别的数据集；所述教师网络在已有类别的数据集上收敛。

优选的，所述可分离卷积创建轻量化的模型骨干网络，包括：

采用深度可分离卷积单元搭建轻量化模型网络；

设置宽度因子和分辨率因子，对所述轻量化模型网络的大小进行调整；

随机初始化所述轻量化模型网络的权重，得到模型骨干网络；

其中，所述轻量化模型网络的宽度和分辨率小于教师网络。

优选的，所述扩展类数据集的构建，包括：

在未出现类别的数据中，选择多尺度、多方向、位置任意、数量随机和分布疏密与已有类别的数据相当的数据，作为扩展类数据集。

优选的，所述基于抗遗忘训练策略，选择教师网络在扩展类数据集上对所述模型骨干网络的训练过程进行监督，得到对所述教师网络重构的学生网络，包括：

选择教师网络；

为所述模型骨干网络添加分布式dropout，使所述模型骨干网络在训练过程中学到的信息平均的分配在所述模型骨干网络的每一层神经元中；

使用基于软目标的模型知识蒸馏固定所述模型骨干网络的原有神经元参数，在未出现类别的数据集上使用相应类别标签对新加入的神经元参数权重进行订正，利用教师网络对已有类别和未出现类别的数据相应类别的预测结果进行约束，联合训练所有模型骨干网络的参数直至收敛，得到学生网络；

其中，新加入的神经元参数为对应未出现类别的神经元参数。

优选的，所述教师网络的选择，包括：

从多个教师网络中，选择在已有类数据上收敛精度超过预设阈值，且既有残缺结构又对特征层进行堆叠的教师网络。

优选的，所述在未出现类别的数据集上使用相应类别标签对新加入的神经元参数权重进行订正，包括：

在未出现类别的数据集上，将所述模型骨干网络对未出现类别的数据进行分类得到的结果和未出现类别的数据对应的类别标签输入基于IMM内矩匹配算法的可塑权重巩固损失函数；

以基于IMM内矩匹配算法的可塑权重巩固损失函数最小化为目标对新加入的神经元参数权重进行订正。

优选的，所述联合训练所有模型骨干网络的参数直至收敛，包括：

在联合训练所有模型骨干网络的参数的过程中，对所述模型骨干网络进行剪枝，得到所述模型骨干网络中指导所述模型骨干网络作出正确判断的关键网络神经元；

在未出现类别的数据集上的训练过程中，提高所述关键神经元的权重，提高所述模型骨干网络对已有类数据集的记忆力，降低所述模型骨干网络的神经元参数的数量，，使得所述模型骨干网络向同时满足已有类别和未出现类别数据方向收敛。

基于同一发明构思，本申请还提供了一种深度神经网络模型快速重构系统，其改进之处在于，包括：网络创建模块和网络训练模块；

所述网络创建模块，用于基于可分离卷积创建轻量化模型骨干网络；

所述网络训练模块，用于基于抗遗忘训练策略，选择教师网络在扩展类数据集上对所述模型骨干网络的训练过程进行监督，得到学生网络；

优选的，所述网络创建模块包括：网络搭建单元、大小调整单元和初始化单元；

所述网络搭建单元，用于采用深度可分离卷积单元搭建轻量化模型网络；

所述大小调整单元，用于设置宽度因子和分辨率因子，对所述轻量化模型网络的大小进行调整；

所述初始化单元，用于随机初始化所述轻量化模型网络的权重，得到模型骨干网络；

其中，所述轻量化模型网络的宽度和分辨率小于教师网络。

优选的，所述网络训练模块包括：教师选择单元、dropout单元和联合训练单元；

所述教师选择单元，用于选择教师网络；

所述dropout单元，用于为所述模型骨干网络添加分布式dropout，使所述模型骨干网络在训练过程中学到的信息平均的分配在所述模型骨干网络的每一层神经元中；

所述联合训练单元，用于使用基于软目标的模型知识蒸馏固定所述模型骨干网络的原有神经元参数，在未出现类别的数据集上使用相应类别标签对新加入的神经元参数权重进行订正，利用教师网络对已有类别和未出现类别的数据相应类别的预测结果进行约束，联合训练所有模型骨干网络的参数直至收敛，得到学生网络；

与最接近的现有技术相比，本发明具有的有益效果如下：

通过融合目前神经网络中主流的模型重构训练机制，包括dropout、知识蒸馏、弹性权重固化等，使模型能够在有限的资源下高效学习新任务，并保留已有功能。最终本发明仅需极小的的网络参数便可为现有任务添加新的功能，满足了弱通信条件下边缘设备上的模型快速重构。

附图说明

图1为本发明提供的一种深度神经网络模型快速重构方法流程示意图；

图2为本发明提供的一个深度神经网络模型快速重构方法实施例的流程示意图；

图3为本发明涉及的残差网络示意图；

图4为本发明涉及的inception结构示意图；

图5为本发明提供的一种深度神经网络模型快速重构系统基本结构示意图；

图6为本发明提供的一种深度神经网络模型快速重构系统详细结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

实施例1：

本发明提供的一种深度神经网络模型快速重构方法流程示意图如图1所示，包括：

步骤1：基于可分离卷积创建轻量化模型骨干网络；

步骤2：基于抗遗忘训练策略，选择教师网络在扩展类数据集上对模型骨干网络的训练过程进行监督，得到学生网络；

其中，扩展类数据集包括：在已有类别的数据集中未出现类别的数据集；教师网络在已有类别的数据集上收敛。

下面给出一个弱通信条件下的深度神经网络模型快速重构方法的具体实施例，如图2所示，包括：具体步骤如下：

步骤S1：准备模型所需数据集、模型。

其中步骤S1进一步包括：

步骤S11：为了在边缘设备中快速重构模型，让模型对新的类别具备一定的识别能力，需要对应扩展类别的数据量充足完备的数据集作为训练样本。扩展类数据集包括：在已有类别的数据集中未出现类别的数据集。数据集样本应具有多尺度、多方向、位置任意、数量随机、分布疏密与已有类别的数据相当的特点。对此可以在已有的数据集上进行随机裁剪、缩放、平移、旋转进行数据扩充以满足这些要求；

步骤S12：参考图3和图4已有类训练收敛的教师网络应结合当前主流模型inception与resnet的优点，既有残差结构又对特征层进行堆叠。图3残差网络通过短路分支缓解了梯度消失问题，图4inception模块将不同感受野的特征进行融合，这两种方式对于高精度网络的构建十分重要，能够在已有类别上通过训练收敛到理想的精度要求；

步骤S13：在模型中的学生网络设计上使用深度可分离卷积单元进行设计，设置宽度因子和分辨率因子控制网络的大小，按照上述方法构建的轻量化模型结构简单、存储计算占用率低。以此为代表的shuffle net、mobilenet v3、efficient net等模型精度高速度快，能够移植到边缘设备中；

步骤S2：取出教师网络关于扩展类数据集上的预测结果，送入学生网络轻量化模型中，用于指导模型收敛；

步骤S3：在教师网络指导训练学生网络过程中，需要结合抗遗忘训练策略，辅助模型学习，包括在网络训练过程中结合dropout、知识蒸馏以及使用可塑权重巩固损失函数对部分参数进行固化；

其中步骤S3进一步包括：

步骤S31.抗遗忘损失函数；基于IMM内矩匹配算法设计可塑权重巩固损失函数，用于指导模型向同时满足向旧数据集(即已有类的数据集)和新数据集(即未出现过类的数据集)方向收敛。

步骤S32.分布式dropout令模型在训练过程中按照规则随机失活一部分神经元，使其不参与某一轮训练，并在下一轮训练开始前激活它们。目的是令学生网络在训练过程中学到的信息平均的分配在每一层神经元中。

步骤S33.基于软目标soft target的模型知识蒸馏固定模型原有参数，在新数据集上使用新数据对新加入的网络参数权重进行订正，实现微调，利用教师网络对旧数据集相应类别的预测结果进行约束，同时训练至模型收敛。

步骤S34.基于模型剪枝的权重注意力训练机制通过对训练好的模型进行剪枝，得到指导模型作出正确判断的关键网络神经元。在已知这些神经元位置后，在新数据集上的学习过程中采取注意力加权机制，提高关键神经元的权重，导致其不易变化，从而提高模型对原数据集的记忆力。

实施例2：

基于同一发明构思，本发明还提供了一种深度神经网络模型快速重构系统，由于这些设备解决技术问题的原理与深度神经网络模型快速重构方法相似，重复之处不再赘述。

该系统基本结构如图5所示，包括：网络创建模块和网络训练模块；

其中，所述网络创建模块，用于基于可分离卷积创建轻量化模型骨干网络；

深度神经网络模型快速重构系统详细结构如图6所示。

其中，网络创建模块包括：网络搭建单元、大小调整单元和初始化单元；

其中，所述轻量化模型网络的宽度和分辨率小于教师网络。

其中，网络训练模块包括：教师选择单元、dropout单元和联合训练单元；

所述教师选择单元，用于选择教师网络；

其中，扩展类数据集是在未出现类别的数据中，选择多尺度、多方向、位置任意、数量随机和分布疏密与已有类别的数据相当的数据构建的。

其中，教师网络是在多个已有的网络中，选择在已有类数据上收敛精度超过预设阈值，且既有残缺结构又对特征层进行堆叠的教师网络。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种深度神经网络模型快速重构方法，其特征在于，包括：

基于可分离卷积创建轻量化模型骨干网络；

2.如权利要求1所述的方法，其特征在于，所述可分离卷积创建轻量化的模型骨干网络，包括：

采用深度可分离卷积单元搭建轻量化模型网络；

其中，所述轻量化模型网络的宽度和分辨率小于教师网络。

3.如权利要求1所述的方法，其特征在于，所述扩展类数据集的构建，包括：

4.如权利要求1所述的方法，其特征在于，所述基于抗遗忘训练策略，选择教师网络在扩展类数据集上对所述模型骨干网络的训练过程进行监督，得到对所述教师网络重构的学生网络，包括：

选择教师网络；

5.如权利要求1或4所述的方法，其特征在于，所述教师网络的选择，包括：

6.如权利要求4所述的方法，其特征在于，所述在未出现类别的数据集上使用相应类别标签对新加入的神经元参数权重进行订正，包括：

7.如权利要求4所述的方法，其特征在于，所述联合训练所有模型骨干网络的参数直至收敛，包括：

8.一种深度神经网络模型快速重构系统，其特征在于，包括：网络创建模块和网络训练模块；

9.如权利要求8所述的系统，其特征在于，所述网络创建模块包括：网络搭建单元、大小调整单元和初始化单元；

其中，所述轻量化模型网络的宽度和分辨率小于教师网络。

10.如权利要求8所述的系统，其特征在于，所述网络训练模块包括：教师选择单元、dropout单元和联合训练单元；

所述教师选择单元，用于选择教师网络；