CN112132219A

CN112132219A - 一种基于移动端的深度学习检测模型的通用部署方案

Info

Publication number: CN112132219A
Application number: CN202011016237.0A
Authority: CN
Inventors: 张峥; 李斌
Original assignee: Tianjin Fengwu Technology Co ltd
Current assignee: Tianjin Fengwu Technology Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-25

Abstract

本发明涉及图像处理技术领域，具体涉及一种基于移动端的深度学习检测模型的通用部署方案，包括步骤一：基准网络模型裁剪；步骤二：利用基准网络预训练的值进行模型训练；步骤三：利用ONNX模型将训练模型转换为更适合部署的MNN模型；步骤四：编写移动端的前向推理过程；步骤五：移动端的前向推理的优化；步骤六：结果的展示与返回；本发明整合性地将当前所遇到的所有可优化问题与部署方案集中在一起；不针对于某些特别的移动设备，而是面对所有移动终端提出部署方案；优化深度学习模型和移动端性能，解决了在线模式中网络延迟这一不可避免的技术瓶颈的缺点，同时可以起到对数据的隐私保护作用。

Description

一种基于移动端的深度学习检测模型的通用部署方案

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于移动端的深度学习检测模型的通用部署方案。

背景技术

自从AlphaGo问世以来，深度学习已经成为研究热点。现在人工智能应用已经开始植入移动终端，人工智能的概念越来越多地进入了我们的日常生活。在移动端上，能够高效地在移动端部署深度学习模型变得很重要。

现阶段，深度学习模型部署主要有两种方式:在线模式，终端模式。

在线部署模式：在移动终端进行初步处理后，将数据发送到服务器，服务器将计算结果返回到移动终端上。这样的部署模式相对简单，利用Caffe、Tenserflow、mxnet、Pytorch等现有框架训练的模型与代码放置于GPU服务器上，从训练到实际应用几乎不用做额外更改。但是缺点也十分明显，网速是计算速度的瓶颈，在通讯技术没有升级之前，这种部署方式不适合对吞吐量大、实时性高的应用。

终端部署模式：利用深度学习框架与GPU服务器训练得到模型后，将模型转换为可执行的程序在终端部署运行。这种方案，一定程度上解决了在线部署模式中“吞吐量大、实时性高”的问题。但是缺点也很明显：移动终端的部署相对繁琐。大型模型消耗大量资源，必须针对移动终端进行优化。不同的移动终端性能不同，终端优化的方法没有通用模式。

发明内容

本发明的目的在于提供一种基于移动端的深度学习检测模型的通用部署方案。

为达此目的，本发明采用以下技术方案：

提供一种基于移动端的深度学习检测模型的通用部署方案，包括:

步骤一：基准网络模型裁剪

选取轻量化的卷积神经网络作为基准网络模型；通过参数整体缩放的方式来大致确认模型的量级；确定量体结束后，再通过模型剪枝可以精修网络；

步骤二：利用基准网络预训练的值进行模型训练

剪枝后的神经网络进行重新训练，查看剪枝的精度损失；设立精度损失与剪枝量的阈值，进行对比，如果精度损失与剪枝量在容忍范围内，模型继续使用，未在容忍范围内则重新进行训练，得到裁剪重训的神经网络后，将其导入基于深度学习的目标检测框架中配合标注好的数据集进行模型训练；

步骤三：利用ONNX模型将训练模型转换为更适合部署的MNN模型

将现有的神经网络框架转换为移动设备可运行的模型；具体为借助ONNX模型格式；先将PYTORCH模型转为ONNX模型格式，再转换为MNN模型格式；

步骤四：编写移动端的前向推理过程

进行检测模型，输入一张图片，图片经深度神经网络前向计算并预处理操作后，可以得到一张识别结果图片；神经网络前向计算并预处理的过程就是深度模型前向推理；得到移动端模型后，仿照训练代码与参数编写前向推导程序；

步骤五：移动端的前向推理的优化

编写完前向推理程序后，完成了图片从输入到识别的过程；在此基础上进行下列程序优化：

图片输入部分：图片输入大小固定，在不损失结果的条件下且尽可能地减小输入图片大小；

前向推理单元：计算模型已经固定，大体运行时间不变，将推理过程改进为多核并行化运行方式；

后处理单元优化：对于检测模型，针对后处理单元最大的耗时操作，即NMS多重循环部分，利用OPENMP并行计算优化提速；

步骤六：结果的展示与返回

将检测到的结果展示出来或回传服务器。

进一步的，所述步骤一中模型剪枝是一种模型压缩方法，对深度神经网络的稠密连接进行删减，通过将“不重要”的通道或过滤器删除，这里使用基于强化学习的AMC剪枝算法；该算法自动裁剪网络，当裁剪网络后发现模型效果不好时，撤销操作并更换裁剪的网络；该剪枝算法简单，利用inter开发的distrill工具可以自动剪除冗余的神经元通道，不需额外的人工操作。

进一步的，所述步骤二中神经网络是一种算法模型，包括有若干通道和过滤器；可以将模型比作公司，公司上游供货就是数据输入，下游产出就是所需结果；通道以及过滤器就是公司里面的员工与设备；而剪枝就是裁减不重要的岗位与不重要的人员或设备。

进一步的，所述步骤二中的精度损失与剪枝量的阈值确定步骤如下：

1)针对预设模型的精度损失与剪枝量组合，确定与所述精度损失与剪枝量组合所对应的至少一个索引位置，其中，所述当前精度损失与剪枝量组合为所述预设模型中的任一值；

2)根据每一个精度损失与剪枝量组合上的权重值，得到累积分布函数；

3)以预设的模型压缩率作为因变量代入所述累积分布函数，并将所得数值确定为所述当前精度损失与剪枝量组合的阈值。

进一步的，所述步骤五中图片大小固定方法如下：

1)获取原始图片，检测原始图片尺寸，长宽高分为设置为a、b、c；

2)设立阈值，其中长宽高的阈值分别为n、m、l；

3)依次将a、b、c和n、m、l分别进行比较，同时得出比例a/n、b/n、c/l；

4)分为对图片的长宽高进行比例缩放，按照3)中的比例a/n、b/n、c/l；

5)缩放完毕后得到图片并输入。

进一步的，所述步骤五中前向推理单元中对待计算参数分别进行缓存，缓存时进行分类存储，计算完后再次存储来自于上一层的待计算数据、待使用参数、乘法阵列计算后的计算数据、跨过本层直接传入下一层计算数据，之后进行后处理操作。

进一步的，所述步骤四种仿照训练代码与参数编写前向推导程序为完全仿照，保证高度一致，避免些许不同产生的非常严重的偏差。

进一步的，所述步骤二中预训练权重可以使用重新训练后得到参数，从而加快收敛。

进一步的，所述步骤五中后处理单元中包括获取所述检测模型并利用验证集对所述检测模型进行验证，获得所述检测模型信息；从所述前向推理单元中获取由所述检测模型信息构成的负例以及已标注对象的正例；进行多种比较并计算。

进一步的，所述步骤六中结果展示步骤如下：

1)设置图片显示装置连接处理装置；

2)通过图片显示装置内存储单元内的源存储位置对图片进行存储，进入存储后，通过识别模型对图片分辨率进行识别显示，同时侦测图片上颗粒明显度，其中，该源存储位置为提供给需要调整的图片的存储位置，该目标存储位置为提供给调整后的图片的存储位置；

3)根据分辨率检测结果，对图片实际分辨率进行调整，调整完毕后将图片传输至显示模块内进行显示。

本发明的有益效果：

本方案选择深度学习检测模型的终端部署方案进行论述。这种方案避免了在线模式中网络延迟这一不可避免的技术瓶颈的缺点，直接专注于深度学习模型优化，移动端性能优化等方面。

同时本方案采用模型计算CPU模式，对没有GPU或GPU型号不匹配框架计算的终端设备，依然有作用。除此之外，终端的本地计算，也为数据隐私的保护起到很好的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。

图1为本发明的检测模型移动端部署流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸。

参照图1所示的一种基于移动端的深度学习检测模型的通用部署方案，包括:

步骤一：基准网络模型裁剪

步骤二：利用基准网络预训练的值进行模型训练

步骤三：利用ONNX模型将训练模型转换为更适合部署的MNN模型

步骤四：编写移动端的前向推理过程

步骤五：移动端的前向推理的优化

步骤六：结果的展示与返回

将检测到的结果展示出来或回传服务器。

其中，步骤一中模型剪枝是一种模型压缩方法，对深度神经网络的稠密连接进行删减，通过将“不重要”的通道或过滤器删除，这里使用基于强化学习的AMC剪枝算法；该算法自动裁剪网络，当裁剪网络后发现模型效果不好时，撤销操作并更换裁剪的网络；该剪枝算法简单，利用inter开发的distrill工具可以自动剪除冗余的神经元通道，不需额外的人工操作。

其中，步骤二中神经网络是一种算法模型，包括有若干通道和过滤器；可以将模型比作公司，公司上游供货就是数据输入，下游产出就是所需结果；通道以及过滤器就是公司里面的员工与设备；而剪枝就是裁减不重要的岗位与不重要的人员或设备。

其中，步骤二中的精度损失与剪枝量的阈值确定步骤如下：

1)针对预设模型的精度损失与剪枝量组合，确定与精度损失与剪枝量组合所对应的至少一个索引位置，其中，当前精度损失与剪枝量组合为预设模型中的任一值；

3)以预设的模型压缩率作为因变量代入累积分布函数，并将所得数值确定为当前精度损失与剪枝量组合的阈值。

其中，步骤五中图片大小固定方法如下：

2)设立阈值，其中长宽高的阈值分别为n、m、l；

5)缩放完毕后得到图片并输入。

其中，步骤五中前向推理单元中对待计算参数分别进行缓存，缓存时进行分类存储，计算完后再次存储来自于上一层的待计算数据、待使用参数、乘法阵列计算后的计算数据、跨过本层直接传入下一层计算数据，之后进行后处理操作。

其中，步骤四种仿照训练代码与参数编写前向推导程序为完全仿照，保证高度一致，避免些许不同产生的非常严重的偏差。

其中，步骤二中预训练权重可以使用重新训练后得到参数，从而加快收敛。

其中，步骤五中后处理单元中包括获取检测模型并利用验证集对检测模型进行验证，获得检测模型信息；从前向推理单元中获取由检测模型信息构成的负例以及已标注对象的正例；进行多种比较并计算。

其中，步骤六中结果展示步骤如下：

1)设置图片显示装置连接处理装置；

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，包括:

步骤一：基准网络模型裁剪

步骤二：利用基准网络预训练的值进行模型训练

步骤三：利用ONNX模型将训练模型转换为更适合部署的MNN模型

步骤四：编写移动端的前向推理过程

步骤五：移动端的前向推理的优化

步骤六：结果的展示与返回

将检测到的结果展示出来或回传服务器。

2.根据权利要求1所述的一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，所述步骤一中模型剪枝是一种模型压缩方法，对深度神经网络的稠密连接进行删减，通过将“不重要”的通道或过滤器删除，这里使用基于强化学习的AMC剪枝算法；该算法自动裁剪网络，当裁剪网络后发现模型效果不好时，撤销操作并更换裁剪的网络；该剪枝算法简单，利用inter开发的distrill工具可以自动剪除冗余的神经元通道，不需额外的人工操作。

3.根据权利要求1所述的一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，所述步骤二中神经网络是一种算法模型，包括有若干通道和过滤器；可以将模型比作公司，公司上游供货就是数据输入，下游产出就是所需结果；通道以及过滤器就是公司里面的员工与设备；而剪枝就是裁减不重要的岗位与不重要的人员或设备。

4.根据权利要求1所述的一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，所述步骤二中的精度损失与剪枝量的阈值确定步骤如下：

5.根据权利要求1所述的一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，所述步骤五中图片大小固定方法如下：

2)设立阈值，其中长宽高的阈值分别为n、m、l；

5)缩放完毕后得到图片并输入。

6.根据权利要求1所述的一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，所述步骤五中前向推理单元中对待计算参数分别进行缓存，缓存时进行分类存储，计算完后再次存储来自于上一层的待计算数据、待使用参数、乘法阵列计算后的计算数据、跨过本层直接传入下一层计算数据，之后进行后处理操作。

7.根据权利要求1所述的一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，所述步骤四种仿照训练代码与参数编写前向推导程序为完全仿照，保证高度一致，避免些许不同产生的非常严重的偏差。

8.根据权利要求1所述的一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，所述步骤二中预训练权重可以使用重新训练后得到参数，从而加快收敛。

9.根据权利要求1所述的一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，所述步骤五中后处理单元中包括获取所述检测模型并利用验证集对所述检测模型进行验证，获得所述检测模型信息；从所述前向推理单元中获取由所述检测模型信息构成的负例以及已标注对象的正例；进行多种比较并计算。

10.根据权利要求1所述的一种基于移动端的深度学习检测模型的通用部署方案，其特征在于，所述步骤六中结果展示步骤如下：

1)设置图片显示装置连接处理装置；