CN111191768A - 一种深度神经网络的微调方法 - Google Patents
一种深度神经网络的微调方法 Download PDFInfo
- Publication number
- CN111191768A CN111191768A CN201911314756.2A CN201911314756A CN111191768A CN 111191768 A CN111191768 A CN 111191768A CN 201911314756 A CN201911314756 A CN 201911314756A CN 111191768 A CN111191768 A CN 111191768A
- Authority
- CN
- China
- Prior art keywords
- model
- parameters
- training
- neural network
- theta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
一种深度神经网络的微调方法,在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。
Description
技术领域
本发明涉及神经网络技术领域,具体涉及一种深度神经网络的微调方法。
背景技术
近年来,在人工智能领域,随着任务的复杂性逐渐提高,在针对特定任务训练之前,使用成熟的同模态的大型数据集对深度神经网络模型进行预训练的方法,扮演者越来越重要的角色。其中图像领域尤以ImageNet、Objects365等大型数据集中的预训练为多,自然语言处理领域各种预训练深度神经网络模型如GPT、Elmo、BERT更是赢得业界交口称赞。
但将预训练好的深度神经网络模型在特定任务上进行微调的时候,由于其模型的参数规模通常较大,而特定任务的数据规模通常较小。这常常会带来一个矛盾之处,即:如果模型在特定任务上训练得越好,模型在原有数据集上学习到的基础模式会遗忘得越严重,模型泛化性能出现下降;但如果要降低模型在预训练中学习到的基础模式的遗忘,则模型往往在特定任务的训练中欠学习,特定任务的表现不佳。
又由于模型预训练部分的参数量巨大,而针对特定任务增补的部分的参数量较小。在使用较小学习率进行微调时,往往会出现,模型预训练部分由于参数量巨大已经过学习,而针对特定任务增补的部分由于参数量较小还欠学习的前后矛盾状态,最终导致模型表现不佳。
发明内容
本发明为了克服以上技术的不足,提供了一种使模型微调过程中不会出现严重的偏离且确保模型增加部分充分学习的深度神经网络的微调方法。
本发明克服其技术问题所采用的技术方案是:
一种深度神经网络的微调方法,包括如下步骤:
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
e)通过公式计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项;
本发明的有益效果是:在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。
具体实施方式
下面对本发明做进一步说明。
一种深度神经网络的微调方法,包括如下步骤:
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
e)在特定任务数据集上对模型进行微调时,模型中的参数θ0不在进行训练,只训练参数Δ和参数β,通过公式loss+rΔ×∑Δ2+rβ×∑β2计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项。
在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。
Claims (1)
1.一种深度神经网络的微调方法,其特征在于,包括如下步骤:
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
e)通过公式loss+rΔ×∑Δ2+rβ×∑β2计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314756.2A CN111191768A (zh) | 2019-12-18 | 2019-12-18 | 一种深度神经网络的微调方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314756.2A CN111191768A (zh) | 2019-12-18 | 2019-12-18 | 一种深度神经网络的微调方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191768A true CN111191768A (zh) | 2020-05-22 |
Family
ID=70707358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911314756.2A Pending CN111191768A (zh) | 2019-12-18 | 2019-12-18 | 一种深度神经网络的微调方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191768A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451602A (zh) * | 2017-07-06 | 2017-12-08 | 浙江工业大学 | 一种基于深度学习的果蔬检测方法 |
CN107563422A (zh) * | 2017-08-23 | 2018-01-09 | 西安电子科技大学 | 一种基于半监督卷积神经网络的极化sar分类方法 |
-
2019
- 2019-12-18 CN CN201911314756.2A patent/CN111191768A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451602A (zh) * | 2017-07-06 | 2017-12-08 | 浙江工业大学 | 一种基于深度学习的果蔬检测方法 |
CN107563422A (zh) * | 2017-08-23 | 2018-01-09 | 西安电子科技大学 | 一种基于半监督卷积神经网络的极化sar分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919942B (zh) | 用于手写汉字识别的深度卷积神经网络的加速压缩方法 | |
US20190095794A1 (en) | Methods and apparatus for training a neural network | |
WO2019091020A1 (zh) | 权重数据存储方法和基于该方法的神经网络处理器 | |
WO2017157183A1 (zh) | 一种自动多阀值特征过滤方法及装置 | |
CN115331069A (zh) | 一种基于联邦学习的个性化图像分类模型训练方法 | |
CN112990420A (zh) | 一种用于卷积神经网络模型的剪枝方法 | |
CN117290721A (zh) | 数字孪生建模方法、装置、设备及介质 | |
CN110147444A (zh) | 神经网络语言模型、文本预测方法、装置及存储介质 | |
CN114491028A (zh) | 基于正则化元学习的小样本文本分类方法 | |
US20230252294A1 (en) | Data processing method, apparatus, and device, and computer-readable storage medium | |
CN112686383A (zh) | 一种通信并行的分布式随机梯度下降的方法、系统及装置 | |
CN115115113A (zh) | 基于图注意力网络关系嵌入的设备故障预测方法及系统 | |
CN109242089B (zh) | 递进监督深度学习神经网络训练方法、系统、介质和设备 | |
CN111191768A (zh) | 一种深度神经网络的微调方法 | |
CN110837885B (zh) | 一种基于概率分布的Sigmoid函数拟合方法 | |
CN112257466A (zh) | 一种应用于小型机器翻译设备的模型压缩方法 | |
CN111898763A (zh) | 一种鲁棒的拜占庭容错分布式梯度下降算法 | |
CN111507396A (zh) | 缓解神经网络对未知类样本产生错误分类的方法及装置 | |
CN116030254A (zh) | 一种基于元学习与伪标签策略的增量语义分割方法 | |
Jaiswal et al. | Spending your winning lottery better after drawing it | |
CN113326832B (zh) | 模型训练、图像处理方法、电子设备及存储介质 | |
CN116010832A (zh) | 联邦聚类方法、装置、中心服务器、系统和电子设备 | |
Zhao et al. | A novel image classification model jointing attention and ResNet for scratch | |
CN116663516B (zh) | 表格机器学习模型训练方法、装置、电子设备及存储介质 | |
US20220391674A1 (en) | Method for optimizing execution time of an artificial neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200522 |