CN111914993B

CN111914993B - 基于非均匀分组的多尺度深度卷积神经网络模型构建方法

Info

Publication number: CN111914993B
Application number: CN202010505261.4A
Authority: CN
Inventors: 王彬; 向甜; 吕艺东; 江巧永
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2024-04-16
Anticipated expiration: 2040-06-05
Also published as: CN111914993A

Abstract

本发明公开了基于非均匀分组的多尺度深度卷积神经网络模型构建方法,属于神经网络结构优化加速研究领域。本发明基于非均匀分组的多尺度轻量化特征融合卷积层，减少神经网络的参数量以及运算量。模块主要由1*1的点卷积层，神经网络模型(M_blockNet_v1)，深度卷积层以及基于非均匀分组的多尺度融合层构成；神经网络模型(M_blockNet_v1)，应用于CASIA‑HWDB1.1手写汉字的数据集、Facial Keypoints Detection数据集以及Celeba数据集三个数据集上与经典的轻量型神经网络进行,提高神经网络的运算效率以及精度，在对精度影响较小的情况下，极大的提升了网络的运算速度。

Description

基于非均匀分组的多尺度深度卷积神经网络模型构建方法

技术领域

本发明涉及多尺度轻量型深度卷积神经网络模型，尤其涉及基于非均匀分组的多尺度深度卷积神经网络模型构建方法，属于神经网络结构优化加速研究领域。

背景技术

在神经网络的优化加速主要有轻量型神经网络结构设计、权重分解、权重剪枝、知识提取、量化加速等方面。权重分解大多数是在训练后对神经网络的权重进行低秩分解，用两个较小的权重矩阵来替代原有的大的卷积核，其会影响网络的精度。

权重剪枝的训练过程需要经过预训练、剪枝、微调训练等3个步骤的循环，因此其训练过程比较复杂。

神经网络知识提取需要首先训练一个大的教师网络，之后在通过大的教师网络训练小的学生网络，因此其训练过程也比较复杂。

神经网络量化加速则是通过减少权值种类的数目来保存权值，减少了网络的存储量，但是会对精度产生较大的影响。神经网络卷积结构设计则是通过直接设计轻量型的卷积结构来达到直接的加速效果，没有复杂的训练过程，同时对精度的影响不大。

在神经网络知识提取中主要研究通过首先训练一个大的神经网络，然后用其来训练一个较小的网络。将知识从大的神经网络转移向小的神经网络，进行知识的提取精简。Hinton等人提出通过将模型集合中的知识提炼到单个模型中，可以简化模型达到更方便的部署模型的效果。Romero等人将知识集成到比教师网络更深更窄的学生网络。Yim等人研究教师-学生策略的神经网络压缩方法，并提出一种方法压缩神经网络，使得小的神经网络具备较高的性能。在神经网络知识提取中首先训练一个大的且效果较好的网络，之后对其中的知识进行提取训练，最终得到一个较小的网络用来进行预测。因此其网络训练过程比较复杂。

神经网络量化加速主要作用是：(1)去除神经网络中的表示冗余，减少网络存储所占的空间；(2)一些特殊的量化方法(例如：二进制权重)可以将浮点运算转化为位运算(即用加法替换乘法操作)从而加速网络的运算速度。

比较流行的几种不同的神经网络权重量化方式有：吴等人提出量化卷积神经网络模型，用来减少卷积神经网络模型的存储以及加速计算。陈等人提出使用低成本的散列函数将连接中的权重随机分布到哈希表中，同一个哈希表中的所有连接共享一个参数值。在存储时只需存储共享权值和散列索引，因此节省了卷积神经网络模型的存储成本。Courbariaux等人提出BinaryConnect网络结构在前向和反向传播训练期间使用具有二进制权重的DNN，大大减少了运行的时间。Rastegari等人提出XNOR-Net网络结构在其中滤波器和卷积层的输入均为二进制，使用二进制运算来近似卷积。这使得卷积运算速度提高58倍，节省内存32倍。Hubara提出QNN(量化神经网络)，该网络中使用量化的权重计算参数梯度，并在正向传递期间使用位运算替换算术运算。QNN减少了内存访问，并大幅度的降低功耗以及提高运算速度。神经网络权重量化主要是减少了神经网络所占的内存，以及实现了部分的加速，此外还通过位运算代替算术运算加快了网络的运算。但是由于其进行了量化，则必然减少了权重值的多样性，因此造成了一定程度的精度损失。

在神经网络优化中也有人根据神经网络的运算特性构造一些其他的优化方法。李等人在研究中指出神经网络运算时在非张量(池化和归一化操作)的运算时间过长，因此通过合并垂直的连续非张量和张量层来减少网络深度，通过合并水平的非张量和张量分支来减少分支。为了避免精度的下降对合并后的网络进行微调。这一操作可减少网络模型的运算时间。刘等人提出了一个统一的框架，将权重矩阵的低秩和稀疏分解与特征映射重建相结合。该框架显著降低卷积层和全连接层的参数量。魏等人提出Force正则化，可将经过标准的低秩近似分解的权重信息整合到更低维度的空间，使用更少的数据表示原有的权重，提高网络的运算速度。Loannou则是通过学习一组小的不同形状的低秩滤波器，用这些小的滤波器组合表示较大的滤波器，该方法可在不影响分类精度的前提下显著提高计算效率。张等人设计简单的神经网络结构，并将每一层的特征进行SPA编码(一种将空间信息嵌入特征向量的方法)之后传递到最后一层进行输出，在车辆颜色识别中取得了良好的速度以及准确率。肖等人提出全局监督低秩分解(分解卷积层)方法以及自适应权重缩减(正则化)的方法，综合了网络低秩分解以及网络修剪的优势。最终在cpu上识别单张离线手写汉字数据集仅需9.7ms。

在神经网络的其他优化方法中大多数研究者主要是将经典优化方法进行组合或者在经典优化方法的基础之上进行更深一步的优化。

发明内容

本发明所要解决的技术问题在克服现有技术不足，提供基于非均匀分组的多尺度轻量型深度卷积神经网络模型，利用改进针对当前轻量化深度卷积神经网络进行改进，使其可应用于小型的终端设备，在边缘计算中达到实时数据处理的效果。

本发明具体采用以下技术方案解决上述技术问题；

基于非均匀分组的多尺度轻量型深度卷积神经网络模型，使用1*1、3*3的一般卷积以及3*3的膨胀卷积并进行非均匀分组。在参数量的计算中不考虑偏置的参数，因为卷积的偏置参数量与卷积的输出通道有关，因此在对比卷积参数量时可不考虑。构成基于非均匀分组的多尺度特征融合层，网络的其参数量L₁计算，如公式(1)所示：

经典的1*1、3*3以及5*5的多尺度特征融合模块参数量L₂计算，如公式(2)所示：

基于均匀分组的多尺度特征融合层结构中，使用1*1、3*3的一般卷积以及3*3的膨胀卷积并进行一般均匀分组，网络的其参数量L₃计算，如公式(3)所示：

公式(1)(2)(3)中：O表示输出特征通道数；I表示输入特征通道数。当输入通道数和输出通道数相同时，基于非均匀分组的多尺度特征融合具备最小的参数量。由此可知，基于非均匀分组的多尺度特征融合层，不仅保留了多尺度的特征信息，而且具备最小的参数量。

计算量的计算中不考虑偏置的参数，因为卷积的偏置计算量与卷积的输出通道有关，因此在对比卷积计算量时可不考虑；

基于非均匀分组的多尺度特征融合层的计算量J₁计算，如公式(4)所示：

基于经典的多尺度特征融合层的计算量J₂计算，如公式(5)所示：

基于均匀分组的多尺度特征融合层的计算量J₃计算，如公式(6)所示：

公式(4)(5)(6)中：h_o为输出的特征高度；w_o表示输出的特征宽度；O表示输出的特征通道数目；I为输入特征通道数。由此可知基于非均匀分组的多尺度特征融合模块(M_block)不仅保留了多尺度的特征信息，而且具备较小的计算量。

综上所述，提出的基于非均匀分组的特征融合层与经典的特征融合层相比具备更小的参数量以及更小的计算量。因此，使用基于非均匀分组的多尺度轻量型卷积模块替换由1*1点卷积特征融合层和深度卷积层构成的模块，可达到在不增加计算量以及参数量的情况下增加特征融合多样性的效果。

针对提出的基于非均匀分组的特征融合模块，设计了基于非均匀分组的多尺度轻量型卷积模块优化轻量型神经网络结构(M_blockNet)，主要使用基于非均匀分组的多尺度轻量型卷积模块、1*1的点卷积层以及深度卷积层构建网络模型；

在CASIA-HWDB1.1手写汉字的数据集、Facial Keypoints Detection数据集以及Celeba数据集三个数据集上进行对比分析。

本发明进行两组对比试验；

(1)将基于非均匀分组的多尺度轻量型深度卷积模块与经典的轻量型深度卷积模块对比；

(2)将基于非均匀分组的多尺度轻量型深度卷积神经网络与经典的轻量型深度卷积神经网络进行对比；

(1)M_block与经典神经网络模块对比；

使用基于非均匀分组的多尺度轻量型卷积模块构建出的两种卷积模块M_block_v1以及M_block_v2与经典神经网络模块，设计如下对比试验：M_block_v1以及M_block_v2与经典多尺度卷积模块(5*5、3*3、1*1的多尺度特征融合层和深度卷积层)；M_block_v1以及M_block_v2与1*1点卷积模块(1*1的点卷积特征融合层和深度卷积层)；M_block_v1以及M_block_v2与基于膨胀卷积的多尺度卷积模块(D_block)；

在对比实验中，将所有的模块分别应用在设计的M_blockNet网络结构中替换M_block结构进行对比。在三个数据集上进行实验，在CASIA-HWDB1.1手写汉字数据集上训练了10代，在Facial Keypoints Detection数据集上训练了400代，在Celeba数据集上训练了200代。采用的优化器是Adam。实验训练精度变化图，在三个数据集上实验过程精度变化；

(a)CASIA-HWDB1.1手写汉字数据集、(b)Facial Keypoints Detection数据集以及(c)Celeba数据集。其中1*1表示由1*1点卷积特征融合层和深度卷积层构成的卷积模块，5*5表示由经典的多尺度特征融合层和深度卷积层构成的卷积模块，D_block表示基于膨胀卷积的多尺度卷积模块。M_block_v1以及M_block_v2为提出的基于非均匀分组的多尺度卷积模块。由图4可知M_block_v1达到了较好的精度，M_block_v2的精度最高，并且两者均具备较快的收敛速度。

在三个数据集上的M_block与经典网络模块对比实验最终结果如表3、表4以及表5所示：

表3CASIA-HWDB1.1手写汉字数据集对比实验结果

表4Facial Keypoints Detection数据集对比实验结果

表5Celeba数据集对比实验结果

表3，表4，表5中Module表示网络模型名称，Storage表示参数量，Acc表示准确率，Loss表示损失值，T_pc表示在pc上的运算时间，T_arm表示在树莓派上的运算时间，T表示训练时间。由表3，4，5可得出以下结果：

1)应用基于非均匀分组的多尺度特征融合模块(M_block_v1)的网络模型的参数量最少。由于基于非均匀分组的多尺度特征融合模块(M_block_v1)中的特征融合卷积层采用基于非均匀分组的多尺度特征融合卷积层，可知基于非均匀分组的多尺度特征融合卷积层的参数量比其余三种特征融合卷积层的参数量更小，因此参数量最少；

2)应用基于非均匀分组的多尺度特征融合模块(M_block_v2)的网络模型的精度最好。由于基于非均匀分组的多尺度特征融合模块(M_block_v2)与基于非均匀分组的多尺度特征融合模块(M_block_v1)相比增加了一层1*1的卷积层，并且使用了跨层连接，因此特征信息更加丰富，并取得了最好的精度；

3)应用基于非均匀分组的多尺度特征融合模块(M_block_v1)的网络模型的计算量最少。由于基于非均匀分组的多尺度特征融合模块(M_block_v1)中的特征融合卷积层采用基于非均匀分组的多尺度特征融合卷积层，由可知基于非均匀分组的多尺度特征融合卷积层的计算量比其余四种特征融合卷积层的计算量更小，因此计算量最少，运算时间最短；

4)应用基于非均匀分组的多尺度特征融合模块(M_block_v1)的网络模型具备最短的时间以及最小的网络参数量，同时具备较好的精度。基于非均匀分组的多尺度特征融合模块(M_block_v2)的网络模型具备最好的精度但是其运算时间最长。由于M_block_v1中采用基于非均匀分组的多尺度特征融合层即保留了多尺度的特征信息，同时又减少了计算量。因此其具备最快的运算速度同时具备较好的精度。M_block_v2由于在M_block_v1的基础之上多加了一层1*1的点卷积层，因此提取到的特征更加精细，因此具备最高的精度，但是其运算时间也最长。

综上所述M_block_v1在具备最短运算时间的同时，具备较高的准确率。M_block_v2则具备最高的准确率，但运算时间最长。

(2)M_blockNet与经典轻量型神经网络对比；

设计的两种轻量型神经网络结构M_blockNet_v1以及M_blockNet_v2。这两种网络结构中提出的基于非均匀分组的多尺度卷积模块(M_block_v1或者M_block_v2、1*1点卷积层以及深度卷积构成)。将M_blockNet_v1、M_blockNet_v2与MobileNets_v1、MobileNets_v2、MobileNet_v3、ShuffleNet_v1、Shufflenet_v2、DenseNet以及IGCV等主流的轻量型深度卷积神经网络模型进行对比；

在三个数据集上进行实验，在CASIA-HWDB1.1手写汉字数据集上训练了10代，在Facial Keypoints Detection数据集上训练了400代，在Celeba数据集上训练了200代。采用的优化器是Adam。M_blockNet与典的轻量型深度卷积神经网络实验过程精度变化对比；

包含(a)CASIA-HWDB1.1手写汉字数据集、(b)Facial Keypoints Detection数据集以及(c)Celeba数据集。其中，蓝色实线表示M_blockNet_v2，红色实线表示M_blockNet_v1。由图5可知M_blockNet_v1以及M_blockNet_v2在三个数据集上训练过程中精度均取得了较好的结果；

其在三个数据集上实验最终结果如表6、表7以及表8所示：

表6CASIA-HWDB1.1手写汉字数据集对比实验结果

表7Facial Keypoints Detection数据集对比实验结果

表8Celeba数据集对比实验结果

表6，7，8中Module表示网络模型名称，Storage表示参数量，Acc表示准确率，Loss表示损失值，T_pc表示在pc上的运算时间，T_arm表示在树莓派上的运算时间，T表示训练时间。由表6，7，8可知：

1)M_blockNet_v1的参数量最少。这是由于M_blockNet_v1采用基于非均匀分组的多尺度特征融合层，其比1*1的点卷积层具备更少的参数量，其次M_blockNet_v1对网络的宽度以及深度进行了简化因此其具备最少的参数量；

2)在CASIA-HWDB1.1手写汉字数据集上最高精度的模型是Densenet，M_blockNet_v2精度排名第3，M_blockNet_v1精度排名第6。在Facial Keypoints Detection数据集上最高精度的模型是M_blockNet_v2，Densenet精度排名第6，M_blockNet_v1精度排名第5。在Celeba数据集上最高精度的模型是M_blockNet_v2，Densenet精度排名第3，M_blockNet_v1精度排名第6。由上可知M_blockNet_v2在三个数据集上均有较好的精度表现。由于M_blockNet_v2与M_blockNet_v1相比增加了一层全连接层因此其得到的特征更加的精细，因此其准确率更高；

3)在CASIA-HWDB1.1手写汉字数据集上M_blockNet_v1具备最短的运算时间。在Facial Keypoints Detection数据集上MobileNets_v3_small的运算时间在树莓派以及pc上均最短，M_blockNet_v1运算时间在pc上第2短，在树莓派上第3短。在Celeba数据集上MobileNets_v3_small的运算时间在树莓派以及pc上均最短，M_blockNet_v1运算时间在pc以及树莓派上均第2短。由于MobileNets_v3_small的网络中仅采用了1*1的点卷积以及深度可分离卷积，因此其在Facial Keypoints Detection数据集以及Celeba数据集上运算时间最短。但是由于其在CASIA-HWDB1.1手写汉字数据集上的参数量远大于M_blockNet_v1，由第二章可知运算参数对运算时间也会产生影响，因此其在CASIA-HWDB1.1手写汉字数据集中运算时间大于M_blockNet_v1。由于M_blockNet_v1中采用了基于非均匀分组的多尺度特征融合层，因此其运算时间也较短；

4)M_blockNet_v1在三个数据集中具备较快的运算速度同时具备较高的预测精度。M_blockNet_v2相比M_blockNet_v1具备更高的精度，但是其运算时间更长。MobileNets_v3_small具备最短的运算时间，但是其运算精度远远低于M_blockNet_v1。由于M_blockNet_v1采用了基于非均匀分组的多尺度轻量型卷积模块M_block_v1，因此其提取的特征相比M_blockNet_v2忽略的部分特征，因此其精度比M_blockNet_v2低，但是其运算时间小于M_blockNet_v2。由于M_blockNet_v1采用了基于非均匀分组的多尺度轻量型卷积模块M_block_v1因此其相比MobileNets_v3_small提取到的特征更加丰富，因此其精度更高。综上所述，M_blockNet_v2在三个数据集上综合而言具备最好的精度，但是其运算时间较长。M_blockNet_v1则在运算精度以及运算时间之间取得了一个均衡的效果，即具备较高的精度同时也具备较快的运算速度。

由(1)和(2)两个实验的结果可得到以下结论：M_block_v1轻量型卷积模块与经典的轻量型卷积模块相比具备最快的运算速度，但是精度较低。M_block_v2轻量型卷积模块与经典的轻量型卷积模块相比具备最高的精度，但是运算速度最低。M_blockNet_v1与经典的轻量化神经网络结构相比在速度和精度方面都取得了较为均衡的效果。在对精度影响较小的情况下，极大的提升了网络的运算速度。M_blockNet_v2与经典的轻量化神经网络结构相比具备较高的精度，但是其运算速度较慢。

相比现有技术，本发明具体有以下有益效果；

本发明利用非均匀分组的多尺度轻量型深度卷积神经网络模型对当前轻量化深度卷积神经网络进行改进，使其可应用于小型的终端设备，在边缘计算中达到实时数据处理的效果。

附图说明

图1膨胀卷积的多尺度和基于非均匀分组的多尺度对比图；

图2非均匀分组的多尺度轻量化特征融合层结构；

图3非均匀分组的多尺度轻量型卷积模块；

图4M_block与经典网络模块对比试验结果图；

图5M_blockNet与经典轻量型深度卷积神经网络对比实验结果图；

图6是神经网络训练流程图；

图7是特征融合模块运算流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明；

本发明针对神经网络的优化方法是将经典优化方法进行组合或者在经典优化方法的基础之上进行更深一步的优化导致运算速度慢缺陷，针对轻量型深度卷积神经网络的结构设计改进，提出非均匀分组的多尺度轻量型深度卷积神经网络模型，利用(M_blockNet_v1)运算在边缘计算中达到实时数据处理的效果。

如图5所示，设计的M_blockNet网络结构在三个数据集上进行实验，在CASIA-HWDB1.1手写汉字数据集上训练了10代，在Facial Keypoints Detection数据集上训练了400代，在Celeba数据集上训练了200代。采用的优化器是Adam。所采用的神经网络框架为tensorflow，运用python完成代码的编写，图中，(a)CASLA-HWDB1.1手写汉字数据集，(b)FacialKeypoints Detection数据集以及(c)Celeba数据集，蓝色实线表示M_blockNet_v2，红色实线表示M_blockNet_v1。

如图1所示，首先在特征融合中采用基于膨胀卷积的多尺度特征融合层(1*1点卷积、3*3普通卷积和3*3的膨胀卷积)代替原有的1*1的点卷积的特征融合层；其次，采用非均匀分组的方法以减少计算量以及参数量不同的颜色表示特征图的不同通道，在基于膨胀卷积的多尺度特征融合层中每个尺度的卷积核输入包含全部的输入通道，在基于非均匀分组的多尺度特征融合中每个尺度的卷积核输入仅包含部分输入通道，减少参数量以及运算量；

构成基于非均匀分组的多尺度特征融合层，网络的其参数量L₁计算，如公式(1)所示：

在计算量的计算中不考虑偏置的参数，因为卷积的偏置计算量与卷积的输出通道有关，因此在对比卷积计算量时可不考虑；

公式(4)(5)(6)中：ho为输出的特征高度；wo表示输出的征宽度；O表示输出的特征通道数目；I为输入特征通道数。

如图2所示，输入通道分成三组，1*1点卷积包含输入输出通道数的2/3，3*3普通卷积包含输入输出通道数的1/6，3*3膨胀卷积包含输入输出通道数的1/6；最后，将不同尺度分组得到的特征进行连接得到最终输出特征。基于非均匀分组的多尺度轻量化特征融合层结构：h表示输入高度、w表示输入宽度、i表示输入特征图数目、o表示输出特征图数目。A部分为的1*1的点卷积，A输入与输出特征图数量为总输入与输出特征图数量的2/3；B部分为3*3的一般卷积，B输入与输出特征图数量为总输入与输出特征图数量的1/6；C部分为3*3的膨胀卷积，C输入与输出特征图数量为总输入与输出特征图数量的1/6。

如图3所示，(M_block)模块主要由1*1的点卷积层、深度卷积层以及基于非均匀分组的多尺度特征融合层构成。在本节提出了两种基于非均匀分组的多尺度轻量型卷积模块，分别是M_block_v1以及M_block_v2；(a)图表示M_block_v1，(b)图表示M_block_v2。I表示输入特征图通道数，h与w表示特征图的宽和高，c表示卷积核的大小，s表示卷积运算的步长，Dw表示深度卷积，Conv1、Conv2以及Conv3共同构成基于非均匀分组的多尺度轻量化特征融合层。

如图4所示，将所有的模块分别应用在设计的M_blockNet网络结构中替换M_block结构进行对比。在三个数据集上进行实验，在CASIA-HWDB1.1手写汉字数据集上训练了10代，在Facial Keypoints Detection数据集上训练了400代，在Celeba数据集上训练了200代。采用的优化器是Adam。实验训练精度变化图，在三个数据集上实验过程精度变化，(a)CASIA-HWDB1.1手写汉字数据集、(b)Facial Keypoints Detection数据集以及(c)Celeba数据集。其中1*1表示由1*1点卷积特征融合层和深度卷积层构成的卷积模块，5*5表示由经典的多尺度特征融合层和深度卷积层构成的卷积模块，D_block表示基于膨胀卷积的多尺度卷积模块。M_block_v1以及M_block_v2为提出的基于非均匀分组的多尺度卷积模块。由图4可知M_block_v1达到了较好的精度，M_block_v2的精度最高，并且两者均具备较快的收敛速度。

实验中使用CASIA-HWDB1.1数据集中的中文汉字部分，CASIA-HWDB1.1数据集包含3755个GB2312一级手写汉字，每个字包含300个不同的样本，总共有1126500个数据样本。图像的宽为64，高为64，通道数为3。将CASIA-HWDB1.1数据集中的中文汉字部分的数据集时将数据划分为2份，分别是训练集和测试集。在测试集中每个汉字60张图片，训练集中每个汉字240张图片，分别对应train.tfrecord、test.tfrecord两个文件。

实验中，使用Facial Keypoints Detection数据集包含包括7,049幅图像，96x 96像素的灰度图像。预测15个人脸关键点(包括左眼以及右眼各5个关键点、鼻子1个关键点以及嘴部4个关检点)。使用时将Facial Keypoints Detection数据集时将数据划分为2部分，分别是训练集和测试集。测试数据集包含100张图片，训练数据集包括6949张图片。每张图片保存着15个特征点的坐标，总计30个预测值；

Celeba数据集包含包括10177个名人身份的202599张人脸图片。其中图片为RGB三通道的图片，每张图片的大小为178*218。该数据集包括每张图片的人脸框坐标，5个人脸特征点坐标以及40个属性。使用时将Celeba数据集时选择其中9628张图片，使用其中9128张作为训练集，500张作为测试集。Celeba数据集处理步骤为：用MTCNN[55]获取其中的人脸区域，将其中的人脸部分保存为64x64大小的RGB图片；使用Dlib工具检测人脸部分的特征点并获取特征点坐标，之后将特征点进行归一化操作并保存。获取的特征点包含：人眼睛部位12个特征点以及嘴部4个特征点共计16个特征点，32个坐标值。

非均匀分组的多尺度轻量化深度神经网络运算流程；

如图6所示，使用设计的基于非均匀分组的多尺度轻量化深度神经网络M_blockNet_v1以及M_blockNet_v2进行训练，其训练流程图，其主要运算流程如下：

1)在模型的训练中输入图像，并对输入图像进行预处理(归一化处理)；

2)将与处理后的图像，输入深度卷积神经网络结构中进行特征的提取。并得到最终的结果。将当前的训练次数n+1；

3)判断n是否大于初始设置的训练代数，当大于时则停止训练，当小于时则继续训练；

(2)基于非均匀分组的多尺度特征融合模块运算流程；

如图7所示,基于非均匀分组的多尺度特征融合层、深度卷积层以及1*1点卷积层构建了两种基于非均匀分组的多尺度轻量型卷积模块M_block_v1以及M_block_v2其运算流程图。

M_block_v1与M_block_v2主要运算流程如下：

1)使用1*1的点卷积进行特征提取。(仅在M_block_v2中有本步操作)；

2)使用深度卷积提取输入特征图像的特征；

3)对提取后的特征进行融合，分别输入点卷积(输出和输入特征图通道数均占总的输入和输出特征图通道数的2/3)，输入普通卷积(输出和输入特征图通道数均占总的输入和输出特征图通道数的1/6)，输入膨胀卷积(输出和输入特征图通道数均占总的输入和输出特征图通道数的1/6)。I输入通道总数，n输出通道总数；

4)将三个不同卷积输出的通道进行合并(Concat)。

5)将输入特征通道与输出特征通道对应值相加。(仅在M_block_v2中有本步操作)。

本发明提出的非均匀分组的多尺度轻量型深度卷积神经网络模型，减少网络的计算量以及参数的存储量的效果，并且增加特征融合的多样性。

Claims

1.基于非均匀分组的多尺度深度卷积神经网络模型构建方法,基于膨胀卷积的多尺度特征融合层1*1点卷积、3*3普通卷积和3*3的膨胀卷积代替原有的1*1的点卷积的特征融合层；采用非均匀分组的方法以减少计算量以及参数量：其特征在于，输入通道分成三组，1*1点卷积包含输入输出通道数的2/3，3*3普通卷积包含输入输出通道数的1/6，3*3膨胀卷积包含输入输出通道数的1/6，将不同尺度分组得到的特征进行连接得到最终输出，具体包括以下步骤；

步骤1、对膨胀卷积的多尺度特征融合层中每个尺度的卷积核输入包含全部的输入通道，在基于非均匀分组的多尺度特征融合中每个尺度的卷积核输入仅包含部分输入通道，将不同尺度分组得到的特征进行连接得到最终输出特征；

步骤2、特征融合层包括(M_block)模块：主要由1*1的点卷积层、深度卷积层以及基于非均匀分组的多尺度特征融合层构成，其中包括提出了两种基于非均匀分组的多尺度轻量型卷积模块，分别是M_block_v1以及M_block_v2；M_block_v1，M_block_v2；图表示M_block_v1，图表示M_block_v2；

将所有的模块分别应用在设计的M_blockNet网络结构中替换M_block结构进行对比；在三个数据集上进行实验，在CASIA-HWDB1.1手写汉字数据集上训练了10代，在FacialKeypoints Detection数据集上训练了400代，在Celeba数据集上训练了200代；

步骤3、采用非均匀分组的方法以减少计算量以及参数量；

步骤4、不同尺度分组得到的特征进行连接得到最终输出特征；

其中，包括；

M_blockNet_v1以及M_blockNet_v2进行训练；

2)将与处理后的图像，输入深度卷积神经网络结构中进行特征的提取；并得到最终的结果；将当前的训练次数n+1；

M_block_v1与M_block_v2主要运算流程如下：

1)使用1*1的点卷积进行特征提取，仅在M_block_v2中有本步操作；

2)使用深度卷积提取输入特征图像的特征；

3)对提取后的特征进行融合，分别输入点卷积输出和输入特征图通道数均占总的输入和输出特征图通道数的2/3，输入普通卷积输出和输入特征图通道数均占总的输入和输出特征图通道数的1/6，输入膨胀卷积输出和输入特征图通道数均占总的输入和输出特征图通道数的1/6；

4)将三个不同卷积输出的通道进行合并Concat；

5)将输入特征通道与输出特征通道对应值相加，仅在M_block_v2中有本步操作。

2.根据权利要求1所述的基于非均匀分组的多尺度深度卷积神经网络模型构建方法，其特征在于，所述神经网络多尺度轻量型卷积模块、1*1的点卷积层以及深度卷积层共同构建网络模型，构建的轻量型神经网络模型主要依据经典的轻量型神经网络进行改进；

非均匀分组的多尺度特征融合层相比1*1的点卷积特征融合层具备更少的计算量以及参数量，增加特征融合的多样性；

非均匀分组的多尺度轻量型卷积模块替换由1*1点卷积特征融合层和深度卷积层构成的模块，可达到在不增加计算量以及参数量的情况下增加特征融合多样性的效果。

3.根据权利要求1所述的基于非均匀分组的多尺度深度卷积神经网络模型构建方法，其特征在于，所述结构分别在第3层和第7层使用基于非均匀分组的多尺度轻量型卷积模块针对性的改变通道数；

最终由基于非均匀分组的多尺度轻量型卷积模块M_block_v1以及M_block_v2优化的轻量型神经网络结构M_blockNet_v1以及M_blockNet_v2；

如表1与表2所示：

表1M_blockNet_v1神经网络各层结构数据

表1和表2中输出的32*32*32中前两个数字表示输出图像大小，最后一个表示输出特征图的数目；卷积核大小3*3表示卷积核的长*宽，表中Dw表示深度卷积层，Conv表示普通卷积层，Max_pooling表示最大池化层，Global_Pooling表示平均池化层，Fc表示全连接层。