CN111191768A - 一种深度神经网络的微调方法 - Google Patents

一种深度神经网络的微调方法 Download PDF

Info

Publication number
CN111191768A
CN111191768A CN201911314756.2A CN201911314756A CN111191768A CN 111191768 A CN111191768 A CN 111191768A CN 201911314756 A CN201911314756 A CN 201911314756A CN 111191768 A CN111191768 A CN 111191768A
Authority
CN
China
Prior art keywords
model
parameters
training
neural network
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911314756.2A
Other languages
English (en)
Inventor
张伯政
吴军
何彬彬
张福鑫
张述睿
樊昭磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Msunhealth Technology Group Co Ltd
Original Assignee
Shandong Msunhealth Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Msunhealth Technology Group Co Ltd filed Critical Shandong Msunhealth Technology Group Co Ltd
Priority to CN201911314756.2A priority Critical patent/CN111191768A/zh
Publication of CN111191768A publication Critical patent/CN111191768A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种深度神经网络的微调方法,在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。

Description

一种深度神经网络的微调方法
技术领域
本发明涉及神经网络技术领域,具体涉及一种深度神经网络的微调方法。
背景技术
近年来,在人工智能领域,随着任务的复杂性逐渐提高,在针对特定任务训练之前,使用成熟的同模态的大型数据集对深度神经网络模型进行预训练的方法,扮演者越来越重要的角色。其中图像领域尤以ImageNet、Objects365等大型数据集中的预训练为多,自然语言处理领域各种预训练深度神经网络模型如GPT、Elmo、BERT更是赢得业界交口称赞。
但将预训练好的深度神经网络模型在特定任务上进行微调的时候,由于其模型的参数规模通常较大,而特定任务的数据规模通常较小。这常常会带来一个矛盾之处,即:如果模型在特定任务上训练得越好,模型在原有数据集上学习到的基础模式会遗忘得越严重,模型泛化性能出现下降;但如果要降低模型在预训练中学习到的基础模式的遗忘,则模型往往在特定任务的训练中欠学习,特定任务的表现不佳。
又由于模型预训练部分的参数量巨大,而针对特定任务增补的部分的参数量较小。在使用较小学习率进行微调时,往往会出现,模型预训练部分由于参数量巨大已经过学习,而针对特定任务增补的部分由于参数量较小还欠学习的前后矛盾状态,最终导致模型表现不佳。
发明内容
本发明为了克服以上技术的不足,提供了一种使模型微调过程中不会出现严重的偏离且确保模型增加部分充分学习的深度神经网络的微调方法。
本发明克服其技术问题所采用的技术方案是:
一种深度神经网络的微调方法,包括如下步骤:
a)将深度神经网络模型定义为Mθ,M为模型,θ为模型中的所有参数,利用公式
Figure BDA0002323205270000011
计算模型Mθ对数据集中输入数据x的预测结果
Figure BDA0002323205270000012
b)将经过预训练的模型定义为
Figure BDA0002323205270000021
θ0为在预训练任务重表现最优的参数;
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
Figure BDA0002323205270000022
d)使用在模型的特定任务上,使用公式
Figure BDA0002323205270000023
计算预测结果
Figure BDA0002323205270000024
式中M'为针对特定任务添加的模型,β为模型M'中的所有参数;
e)通过公式
Figure BDA0002323205270000025
计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项;
f)使用新的损失函数loss+rΔ×∑Δ2+rβ×∑β2对模型
Figure BDA0002323205270000026
进行微调。
本发明的有益效果是:在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。
具体实施方式
下面对本发明做进一步说明。
一种深度神经网络的微调方法,包括如下步骤:
a)将深度神经网络模型定义为Mθ,M为模型,θ为模型中的所有参数,利用公式
Figure BDA0002323205270000027
计算模型Mθ对数据集中输入数据x的预测结果
Figure BDA0002323205270000028
b)将经过预训练的模型定义为
Figure BDA0002323205270000029
θ0为在预训练任务重表现最优的参数。
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
Figure BDA0002323205270000031
d)使用在模型的特定任务上,使用公式
Figure BDA0002323205270000032
计算预测结果
Figure BDA0002323205270000033
式中M'为针对特定任务添加的模型,β为模型M'中的所有参数。
e)在特定任务数据集上对模型
Figure BDA0002323205270000034
进行微调时,模型中的参数θ0不在进行训练,只训练参数Δ和参数β,通过公式loss+rΔ×∑Δ2+rβ×∑β2计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项。
f)使用新的损失函数loss+rΔ×∑Δ2+rβ×∑β2对模型
Figure BDA0002323205270000035
进行微调。
在对预训练的模型进行微调时,不再训练预训练后的模型参数,因而不会遗忘模型在预训练中学习到的基础模式。在训练中,针对预训练部分与针对特定任务增加的模型部分的参数分开正则,可以较好的控制模型的微调过程即不会出现严重的偏离,又能保证模型增加部分的充分学习。

Claims (1)

1.一种深度神经网络的微调方法,其特征在于,包括如下步骤:
a)将深度神经网络模型定义为Mθ,M为模型,θ为模型中的所有参数,利用公式
Figure FDA0002323205260000011
计算模型Mθ对数据集中输入数据x的预测结果
Figure FDA0002323205260000012
b)将经过预训练的模型定义为
Figure FDA0002323205260000013
θ0为在预训练任务重表现最优的参数;
c)当需要在特定任务上对模型进行微调时,初始化参数集Δ,参数集Δ中的参数个数与θ0中的参数个数相同,参数集Δ中的参数与θ0中的参数一一对应,使用0值初始化参数集Δ中的各个参数,使用θ0+Δ替代步骤a)中的θ,深度神经网络模型变化为
Figure FDA0002323205260000014
d)使用在模型的特定任务上,使用公式
Figure FDA0002323205260000015
计算预测结果
Figure FDA0002323205260000016
式中M'为针对特定任务添加的模型,β为模型M'中的所有参数;
e)通过公式loss+rΔ×∑Δ2+rβ×∑β2计算新的损失函数,式中loss为特定任务中的损失函数,rΔ为模型预训练部分的正则化项系数,∑Δ2为模型训练部分的正则化项,rβ为针对特定任务添加的模型的参数的正则化项系数,∑β2为针对特定任务添加的模型的参数的正则化项;
f)使用新的损失函数loss+rΔ×∑Δ2+rβ×∑β2对模型
Figure FDA0002323205260000017
进行微调。
CN201911314756.2A 2019-12-18 2019-12-18 一种深度神经网络的微调方法 Pending CN111191768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911314756.2A CN111191768A (zh) 2019-12-18 2019-12-18 一种深度神经网络的微调方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911314756.2A CN111191768A (zh) 2019-12-18 2019-12-18 一种深度神经网络的微调方法

Publications (1)

Publication Number Publication Date
CN111191768A true CN111191768A (zh) 2020-05-22

Family

ID=70707358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911314756.2A Pending CN111191768A (zh) 2019-12-18 2019-12-18 一种深度神经网络的微调方法

Country Status (1)

Country Link
CN (1) CN111191768A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN107563422A (zh) * 2017-08-23 2018-01-09 西安电子科技大学 一种基于半监督卷积神经网络的极化sar分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN107563422A (zh) * 2017-08-23 2018-01-09 西安电子科技大学 一种基于半监督卷积神经网络的极化sar分类方法

Similar Documents

Publication Publication Date Title
CN106919942B (zh) 用于手写汉字识别的深度卷积神经网络的加速压缩方法
US20190095794A1 (en) Methods and apparatus for training a neural network
WO2019091020A1 (zh) 权重数据存储方法和基于该方法的神经网络处理器
WO2017157183A1 (zh) 一种自动多阀值特征过滤方法及装置
CN115331069A (zh) 一种基于联邦学习的个性化图像分类模型训练方法
CN112990420A (zh) 一种用于卷积神经网络模型的剪枝方法
CN117290721A (zh) 数字孪生建模方法、装置、设备及介质
CN110147444A (zh) 神经网络语言模型、文本预测方法、装置及存储介质
CN114491028A (zh) 基于正则化元学习的小样本文本分类方法
US20230252294A1 (en) Data processing method, apparatus, and device, and computer-readable storage medium
CN112686383A (zh) 一种通信并行的分布式随机梯度下降的方法、系统及装置
CN115115113A (zh) 基于图注意力网络关系嵌入的设备故障预测方法及系统
CN109242089B (zh) 递进监督深度学习神经网络训练方法、系统、介质和设备
CN111191768A (zh) 一种深度神经网络的微调方法
CN110837885B (zh) 一种基于概率分布的Sigmoid函数拟合方法
CN112257466A (zh) 一种应用于小型机器翻译设备的模型压缩方法
CN111898763A (zh) 一种鲁棒的拜占庭容错分布式梯度下降算法
CN111507396A (zh) 缓解神经网络对未知类样本产生错误分类的方法及装置
CN116030254A (zh) 一种基于元学习与伪标签策略的增量语义分割方法
Jaiswal et al. Spending your winning lottery better after drawing it
CN113326832B (zh) 模型训练、图像处理方法、电子设备及存储介质
CN116010832A (zh) 联邦聚类方法、装置、中心服务器、系统和电子设备
Zhao et al. A novel image classification model jointing attention and ResNet for scratch
CN116663516B (zh) 表格机器学习模型训练方法、装置、电子设备及存储介质
US20220391674A1 (en) Method for optimizing execution time of an artificial neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200522