CN114298286A

CN114298286A - 一种对轻量化卷积神经网络训练得到预训练模型的方法

Info

Publication number: CN114298286A
Application number: CN202210019983.8A
Authority: CN
Inventors: 徐嘉辉; 王彬; 徐凯; 陈石; 郑清; 王中杰
Original assignee: Jiangsu Daoyuan Technology Group Co ltd
Current assignee: Jiangsu Daoyuan Technology Group Co ltd
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-04-08

Abstract

本发明公开了一种对轻量化卷积神经网络训练得到预训练模型的方法，本方法在训练轻量化卷积神经网络时，通过识别网络的训练进度，即当网络误差趋于平缓的时候，并根据训练精度冻结网络的主干部分参数，集中算力训练剩下的参数，当网络误差再次趋于平缓的时候，将冻结的参数解冻后进行整个网络的整体训练，这样能节约训练的时间并提高网络的精度，从而达到更好的效果。通过本方法训练得到预训练模型，适用于进行迁移学习。

Description

一种对轻量化卷积神经网络训练得到预训练模型的方法

技术领域

本发明涉及一种卷积神经网络的训练方法，特别涉及一种轻量化卷积神经网络的训练方法。

背景技术

卷积神经网络模型被广泛应用在图像分类、物体检测、目标跟踪等计算机视觉任务中，并取得了巨大成功。然而，由于存储空间和算力资源限制，卷积神经网络模型在移动设备和嵌入式设备上的存储与计算仍然是一个巨大的挑战。

轻量化卷积神经网络旨在保持模型精度基础上进一步减少模型参数量和复杂度，逐渐成为计算机视觉中的一个研究热点。轻量化卷积神经网络既包含了对网络结构的探索，又有例如知识蒸馏、剪枝等模型压缩技术的运用，推动了深度学习技术在移动端、嵌入式端的应用落地，在智能家居、安防、自动驾驶、智慧海洋等领域都有重要贡献。

目前训练卷积神经网络的方法主要包括：直接训练和迁移学习。迁移学习即在通过大型开源数据集训练出来的预训练模型的基础上，用自己的数据集对预训练模型的参数进行微调，这样能够大大加快网络的拟合速度，提高网络的精度。

但是在实际应用当中，由于不同的数据集有不同的特征，开源的轻量化卷积神经网络无法完美的满足实际的需求，技术人员往往需要对这些轻量化卷积神经网络进行修改以达到更好的要求。然而在这种情况下，现有的训练方法存在以下问题：

1.迁移学习：由于迁移学习要求预训练模型的网络结构和当前所使用的网络结构相同，所以在对轻量化卷积神经网络的网络结构进行修改之后，无法再使用开源的预训练模型进行迁移学习。

2.直接训练：由于在实际应用中，网络的权重参数的数量非常的少而且自己使用的数据集图片数量都不多，所以在用自己的数据集直接训练时，网络拟合的速度非常慢而且精度不高。

发明内容

发明目的：针对上述现有技术，对于权重参数数量较少的轻量化卷积神经网络，提出一种对轻量化卷积神经网络训练得到预训练模型的方法，节约训练的时间并提高训练后网络的精度，得到的预训练模型适用于迁移学习。

技术方案：一种对轻量化卷积神经网络训练得到预训练模型的方法，包括如下步骤：

步骤1：构建需要进行训练的卷积神经网络模型，采集图片数据集，并对图片数据进行预处理得到训练数据；其中，所述预处理包括对图像依次进行归一化、图像翻转、色域变换等处理；

步骤2：定义变量start和end用来分别记录初始epoch和结束epoch的误差，初始epoch和结束epoch间隔a个epoch，定义变量threshold用来设置冻结参数的阈值，开始训练后，每过a个epoch，计算|start-end|的值，并与threshold相比较，threshold的值设定为b，若|start-end|的值小于threshold，则进行步骤2；

步骤3：冻结主干网络所有参数的训练，在继续训练过程中，训练除主干网络的其他部分的参数；

步骤4：每过a个epoch计算|start-end|的值，设定threshold的值为c，c小于b，若|start-end|的值小于threshold，则进行步骤4；

步骤5：解冻主干网络的参数训练，对整个网络的参数进行整体训练，直至完成网络训练得到预训练模型。

进一步的，所述a的取值范围为6~12。

进一步的，所述b的值小于1。

有益效果：本发明方法在训练轻量化卷积神经网络时，通过识别网络的训练进度，即当网络误差趋于平缓的时候，并根据训练精度冻结网络的主干部分参数，集中算力训练剩下的参数，当网络误差再次趋于平缓的时候，将冻结的参数解冻后进行整个网络的整体训练，这样能节约训练的时间并提高网络的精度，从而达到更好的效果。通过本方法训练得到预训练模型，适用于进行迁移学习。

附图说明

图1为本方法的流程图；

图2为实施例中采用轻量化卷积神经网络检测对象示意图。

具体实施方式

下面结合附图对本发明做更进一步的解释。

如图1所示，一种对轻量化卷积神经网络训练得到预训练模型的方法，本实施例中，轻量化卷积神经网络用于目标检测，包括如下步骤：

步骤一：构建需要进行训练的轻量化卷积神经网络模型，采集用于目标检测的图片数据集，并对图片数据进行预处理得到训练数据；其中，预处理包括对图像依次进行归一化、图像翻转、色域变换等处理，用于对采集的图片数据进行增强。

步骤二：判定网络的训练进度。

使用训练集的全部数据对网络进行一次完整训练，这个过程称为一次epoch。对网络进行训练时往往会训练几百个epoch来保证网络精度。轻量化卷积神经网络在训练的初期，网络的误差会迅速下降，之后会慢慢的趋于平缓，此时的网络已经有了初步的特征提取能力。

因此，定义两个变量start和end用来分别记录初始epoch和结束epoch的误差，初始epoch和结束epoch间隔a个epoch，即每a个epoch分别记录初始和结束的误差，a可看情况修改，取值范围为6~12；同时定义变量threshold用来设置冻结参数的阈值，初始设置为b，b可根据数据集情况设定，通常b的值设定为小于1。开始训练后，每过a个epoch，计算|start-end|的值，并与threshold相比较，若小于threshold，则说明网络误差已趋于平缓。

步骤三：冻结网络的主干参数。

当网络的误差趋于平缓时，网络内部已经有了部分预训练权重，主干网络所对应的预训练权重是通用的，能够初步的提取出图片所包含的特征，此时先冻结主干网络所有参数的训练，将更多的资源用于训练除了主干网络的其他部分的网络参数，这样使得时间和资源利用都能得到很大改善；除了主干网络的其他部分包括head部分和neck部分。

步骤四：继续训练并再次判定网络的训练进度。

冻结训练后再根据步骤一的方法判断网络损失是否再次趋于平缓。此时的threshold应小于步骤一的threshold，此处设置为c。

步骤五：解冻网络的主干参数并继续训练。

步骤四之后说明未冻结部分的网络权重已经能够很好的对提取出的图片特征进行处理，得出网络最后所需要的结果，此时再将步骤二冻结的网络权重参数解冻，继续对整个网络的参数进行整体训练，直至训练出最后的网络模型。

本实施例通过使用mobilenet-yolov4作为检测网络，数据集采用voc2007+VOC2012进行训练。使用传统训练方法与本发明方法各训练150个epoch，得到传统训练方法的训练误差为1.3754，验证误差为0.9477；对应的采用本方法时a =10，b=0.5，c=0.1，本发明训练方法的训练误差为1.0489，较传统方法下降了23.7%；验证误差为0.7045，较传统方法下降了25.7%。

通过本方法训练得到的网络作为预训练模型，之后用自己的数据集对网络模型进行微调后，得到如下对比效果：

使用传统训练方法训练得到的神经网络模型进行微调后对如图2所示的水表图片进行数字识别检测，共80张图片，检测正确图片55张，正确率68.75%；使用本发明训练方法训练得到的神经网络微进行微调后对同样的80张图片进行检测，检测正确图片79张，正确率98.75%，较传统方法提升30%。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对轻量化卷积神经网络训练得到预训练模型的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的对轻量化卷积神经网络训练得到预训练模型的方法，其特征在于，所述a的取值范围为6~12。

3.根据权利要求1所述的对轻量化卷积神经网络训练得到预训练模型的方法，其特征在于，所述b的值小于1。