CN114298286A - 一种对轻量化卷积神经网络训练得到预训练模型的方法 - Google Patents
一种对轻量化卷积神经网络训练得到预训练模型的方法 Download PDFInfo
- Publication number
- CN114298286A CN114298286A CN202210019983.8A CN202210019983A CN114298286A CN 114298286 A CN114298286 A CN 114298286A CN 202210019983 A CN202210019983 A CN 202210019983A CN 114298286 A CN114298286 A CN 114298286A
- Authority
- CN
- China
- Prior art keywords
- training
- network
- convolutional neural
- value
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 28
- 230000008014 freezing Effects 0.000 claims abstract description 7
- 238000007710 freezing Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000013526 transfer learning Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 6
- 238000005034 decoration Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101100465000 Mus musculus Prag1 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种对轻量化卷积神经网络训练得到预训练模型的方法,本方法在训练轻量化卷积神经网络时,通过识别网络的训练进度,即当网络误差趋于平缓的时候,并根据训练精度冻结网络的主干部分参数,集中算力训练剩下的参数,当网络误差再次趋于平缓的时候,将冻结的参数解冻后进行整个网络的整体训练,这样能节约训练的时间并提高网络的精度,从而达到更好的效果。通过本方法训练得到预训练模型,适用于进行迁移学习。
Description
技术领域
本发明涉及一种卷积神经网络的训练方法,特别涉及一种轻量化卷积神经网络的训练方法。
背景技术
卷积神经网络模型被广泛应用在图像分类、物体检测、目标跟踪等计算机视觉任务中,并取得了巨大成功。然而,由于存储空间和算力资源限制,卷积神经网络模型在移动设备和嵌入式设备上的存储与计算仍然是一个巨大的挑战。
轻量化卷积神经网络旨在保持模型精度基础上进一步减少模型参数量和复杂度,逐渐成为计算机视觉中的一个研究热点。轻量化卷积神经网络既包含了对网络结构的探索,又有例如知识蒸馏、剪枝等模型压缩技术的运用,推动了深度学习技术在移动端、嵌入式端的应用落地,在智能家居、安防、自动驾驶、智慧海洋等领域都有重要贡献。
目前训练卷积神经网络的方法主要包括:直接训练和迁移学习。迁移学习即在通过大型开源数据集训练出来的预训练模型的基础上,用自己的数据集对预训练模型的参数进行微调,这样能够大大加快网络的拟合速度,提高网络的精度。
但是在实际应用当中,由于不同的数据集有不同的特征,开源的轻量化卷积神经网络无法完美的满足实际的需求,技术人员往往需要对这些轻量化卷积神经网络进行修改以达到更好的要求。然而在这种情况下,现有的训练方法存在以下问题:
1.迁移学习:由于迁移学习要求预训练模型的网络结构和当前所使用的网络结构相同,所以在对轻量化卷积神经网络的网络结构进行修改之后,无法再使用开源的预训练模型进行迁移学习。
2.直接训练:由于在实际应用中,网络的权重参数的数量非常的少而且自己使用的数据集图片数量都不多,所以在用自己的数据集直接训练时,网络拟合的速度非常慢而且精度不高。
发明内容
发明目的:针对上述现有技术,对于权重参数数量较少的轻量化卷积神经网络,提出一种对轻量化卷积神经网络训练得到预训练模型的方法,节约训练的时间并提高训练后网络的精度,得到的预训练模型适用于迁移学习。
技术方案:一种对轻量化卷积神经网络训练得到预训练模型的方法,包括如下步骤:
步骤1:构建需要进行训练的卷积神经网络模型,采集图片数据集,并对图片数据进行预处理得到训练数据;其中,所述预处理包括对图像依次进行归一化、图像翻转、色域变换等处理;
步骤2:定义变量start和end用来分别记录初始epoch和结束epoch的误差,初始epoch和结束epoch间隔a个epoch,定义变量threshold用来设置冻结参数的阈值,开始训练后,每过a个epoch,计算|start-end|的值,并与threshold相比较,threshold的值设定为b,若|start-end|的值小于threshold,则进行步骤2;
步骤3:冻结主干网络所有参数的训练,在继续训练过程中,训练除主干网络的其他部分的参数;
步骤4:每过a个epoch计算|start-end|的值,设定threshold的值为c,c小于b,若|start-end|的值小于threshold,则进行步骤4;
步骤5:解冻主干网络的参数训练,对整个网络的参数进行整体训练,直至完成网络训练得到预训练模型。
进一步的,所述a的取值范围为6~12。
进一步的,所述b的值小于1。
有益效果:本发明方法在训练轻量化卷积神经网络时,通过识别网络的训练进度,即当网络误差趋于平缓的时候,并根据训练精度冻结网络的主干部分参数,集中算力训练剩下的参数,当网络误差再次趋于平缓的时候,将冻结的参数解冻后进行整个网络的整体训练,这样能节约训练的时间并提高网络的精度,从而达到更好的效果。通过本方法训练得到预训练模型,适用于进行迁移学习。
附图说明
图1为本方法的流程图;
图2为实施例中采用轻量化卷积神经网络检测对象示意图。
具体实施方式
下面结合附图对本发明做更进一步的解释。
如图1所示,一种对轻量化卷积神经网络训练得到预训练模型的方法,本实施例中,轻量化卷积神经网络用于目标检测,包括如下步骤:
步骤一:构建需要进行训练的轻量化卷积神经网络模型,采集用于目标检测的图片数据集,并对图片数据进行预处理得到训练数据;其中,预处理包括对图像依次进行归一化、图像翻转、色域变换等处理,用于对采集的图片数据进行增强。
步骤二:判定网络的训练进度。
使用训练集的全部数据对网络进行一次完整训练,这个过程称为一次epoch。对网络进行训练时往往会训练几百个epoch来保证网络精度。轻量化卷积神经网络在训练的初期,网络的误差会迅速下降,之后会慢慢的趋于平缓,此时的网络已经有了初步的特征提取能力。
因此,定义两个变量start和end用来分别记录初始epoch和结束epoch的误差,初始epoch和结束epoch间隔a个epoch,即每a个epoch分别记录初始和结束的误差,a可看情况修改,取值范围为6~12;同时定义变量threshold用来设置冻结参数的阈值,初始设置为b,b可根据数据集情况设定,通常b的值设定为小于1。开始训练后,每过a个epoch,计算|start-end|的值,并与threshold相比较,若小于threshold,则说明网络误差已趋于平缓。
步骤三:冻结网络的主干参数。
当网络的误差趋于平缓时,网络内部已经有了部分预训练权重,主干网络所对应的预训练权重是通用的,能够初步的提取出图片所包含的特征,此时先冻结主干网络所有参数的训练,将更多的资源用于训练除了主干网络的其他部分的网络参数,这样使得时间和资源利用都能得到很大改善;除了主干网络的其他部分包括head部分和neck部分。
步骤四:继续训练并再次判定网络的训练进度。
冻结训练后再根据步骤一的方法判断网络损失是否再次趋于平缓。此时的threshold应小于步骤一的threshold,此处设置为c。
步骤五:解冻网络的主干参数并继续训练。
步骤四之后说明未冻结部分的网络权重已经能够很好的对提取出的图片特征进行处理,得出网络最后所需要的结果,此时再将步骤二冻结的网络权重参数解冻,继续对整个网络的参数进行整体训练,直至训练出最后的网络模型。
本实施例通过使用mobilenet-yolov4作为检测网络,数据集采用voc2007+VOC2012进行训练。使用传统训练方法与本发明方法各训练150个epoch,得到传统训练方法的训练误差为1.3754,验证误差为0.9477;对应的采用本方法时a =10,b=0.5,c=0.1,本发明训练方法的训练误差为1.0489,较传统方法下降了23.7%;验证误差为0.7045,较传统方法下降了25.7%。
通过本方法训练得到的网络作为预训练模型,之后用自己的数据集对网络模型进行微调后,得到如下对比效果:
使用传统训练方法训练得到的神经网络模型进行微调后对如图2所示的水表图片进行数字识别检测,共80张图片,检测正确图片55张,正确率68.75%;使用本发明训练方法训练得到的神经网络微进行微调后对同样的80张图片进行检测,检测正确图片79张,正确率98.75%,较传统方法提升30%。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种对轻量化卷积神经网络训练得到预训练模型的方法,其特征在于,包括如下步骤:
步骤1:构建需要进行训练的卷积神经网络模型,采集图片数据集,并对图片数据进行预处理得到训练数据;其中,所述预处理包括对图像依次进行归一化、图像翻转、色域变换等处理;
步骤2:定义变量start和end用来分别记录初始epoch和结束epoch的误差,初始epoch和结束epoch间隔a个epoch,定义变量threshold用来设置冻结参数的阈值,开始训练后,每过a个epoch,计算|start-end|的值,并与threshold相比较,threshold的值设定为b,若|start-end|的值小于threshold,则进行步骤2;
步骤3:冻结主干网络所有参数的训练,在继续训练过程中,训练除主干网络的其他部分的参数;
步骤4:每过a个epoch计算|start-end|的值,设定threshold的值为c,c小于b,若|start-end|的值小于threshold,则进行步骤4;
步骤5:解冻主干网络的参数训练,对整个网络的参数进行整体训练,直至完成网络训练得到预训练模型。
2.根据权利要求1所述的对轻量化卷积神经网络训练得到预训练模型的方法,其特征在于,所述a的取值范围为6~12。
3.根据权利要求1所述的对轻量化卷积神经网络训练得到预训练模型的方法,其特征在于,所述b的值小于1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019983.8A CN114298286A (zh) | 2022-01-10 | 2022-01-10 | 一种对轻量化卷积神经网络训练得到预训练模型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019983.8A CN114298286A (zh) | 2022-01-10 | 2022-01-10 | 一种对轻量化卷积神经网络训练得到预训练模型的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114298286A true CN114298286A (zh) | 2022-04-08 |
Family
ID=80975573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210019983.8A Pending CN114298286A (zh) | 2022-01-10 | 2022-01-10 | 一种对轻量化卷积神经网络训练得到预训练模型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114298286A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661614A (zh) * | 2022-12-09 | 2023-01-31 | 江苏稻源科技集团有限公司 | 一种基于轻量化YOLO v1的目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516685A (zh) * | 2019-05-31 | 2019-11-29 | 沈阳工业大学 | 基于卷积神经网络的晶状体浑浊程度检测方法 |
CN111178439A (zh) * | 2019-12-31 | 2020-05-19 | 杭州电子科技大学 | 基于卷积神经网络及微调的sar图像分类方法 |
US20200226421A1 (en) * | 2019-01-15 | 2020-07-16 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
CN113572742A (zh) * | 2021-07-02 | 2021-10-29 | 燕山大学 | 基于深度学习的网络入侵检测方法 |
-
2022
- 2022-01-10 CN CN202210019983.8A patent/CN114298286A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200226421A1 (en) * | 2019-01-15 | 2020-07-16 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
CN110516685A (zh) * | 2019-05-31 | 2019-11-29 | 沈阳工业大学 | 基于卷积神经网络的晶状体浑浊程度检测方法 |
CN111178439A (zh) * | 2019-12-31 | 2020-05-19 | 杭州电子科技大学 | 基于卷积神经网络及微调的sar图像分类方法 |
CN113572742A (zh) * | 2021-07-02 | 2021-10-29 | 燕山大学 | 基于深度学习的网络入侵检测方法 |
Non-Patent Citations (1)
Title |
---|
谢小红等: "基于迁移学习的服装图像分类模型研究", 《计算机应用与软件》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661614A (zh) * | 2022-12-09 | 2023-01-31 | 江苏稻源科技集团有限公司 | 一种基于轻量化YOLO v1的目标检测方法 |
CN115661614B (zh) * | 2022-12-09 | 2024-05-24 | 江苏稻源科技集团有限公司 | 一种基于轻量化YOLO v1的目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829057B (zh) | 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法 | |
CN110223292B (zh) | 图像评估方法、装置及计算机可读存储介质 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN108230291B (zh) | 物体识别系统训练方法、物体识别方法、装置和电子设备 | |
CN109146944B (zh) | 一种基于深度可分卷积神经网络的视觉深度估计方法 | |
CN108549794B (zh) | 一种蛋白质二级结构预测方法 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN112785636B (zh) | 一种多尺度增强式的单目深度估计方法 | |
CN109800795A (zh) | 一种果蔬识别方法及系统 | |
CN109242097B (zh) | 无监督学习的视觉表示学习系统及方法 | |
CN111695640A (zh) | 地基云图识别模型训练方法及地基云图识别方法 | |
CN110880010A (zh) | 基于卷积神经网络的视觉slam闭环检测算法 | |
CN112507778B (zh) | 一种基于线特征的改进词袋模型的回环检测方法 | |
CN106355210B (zh) | 基于深度神经元响应模式的绝缘子红外图像特征表达方法 | |
CN113361645A (zh) | 基于元学习及知识记忆的目标检测模型构建方法及系统 | |
CN111144214A (zh) | 基于多层堆栈式自动编码器的高光谱图像解混方法 | |
CN109389156A (zh) | 一种图像定位模型的训练方法、装置及图像定位方法 | |
CN115115830A (zh) | 一种基于改进Transformer的家畜图像实例分割方法 | |
CN111694977A (zh) | 一种基于数据增强的车辆图像检索方法 | |
CN113033410B (zh) | 基于自动数据增强的域泛化行人重识别方法、系统及介质 | |
CN114298286A (zh) | 一种对轻量化卷积神经网络训练得到预训练模型的方法 | |
CN116597136A (zh) | 一种半监督遥感图像语义分割方法与系统 | |
CN114972904A (zh) | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 | |
CN110852214A (zh) | 面向边缘计算的轻量级面部识别方法 | |
CN113449676A (zh) | 一种基于双路互促进解纠缠学习的行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220408 |