CN114065903A - 深度学习模型的参数重用方法、装置、终端及存储介质 - Google Patents
深度学习模型的参数重用方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN114065903A CN114065903A CN202010786350.0A CN202010786350A CN114065903A CN 114065903 A CN114065903 A CN 114065903A CN 202010786350 A CN202010786350 A CN 202010786350A CN 114065903 A CN114065903 A CN 114065903A
- Authority
- CN
- China
- Prior art keywords
- model
- target model
- parameters
- training
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
Abstract
本发明公开了一种深度学习模型的参数重用方法、装置、终端及存储介质,其中方法包括:根据预设的训练集训练得到目标模型;获取预先训练好的原模型,目标模型与原模型的部分或全部网络结构相同;获取目标模型和原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系;从原模型中网络结构相同的层提取得到多个原模型参数;根据参数对应关系,逐个利用原模型参数替换目标模型中的对应参数,并在预设的验证集上验证替换后的目标模型,且当验证通过时,记录原模型参数可重用;利用所有可重用的原模型参数替换目标模型中的对应参数再进行训练,得到新的目标模型。通过上述方式,本发明能够实现模型之间的参数重用,且避免盲目选择重用参数。
Description
技术领域
本申请涉及深度学习模型技术领域,特别是涉及一种深度学习模型的参数重用方法、装置、终端及存储介质。
背景技术
众所周知深度学习需要大量标注数据进行训练,但是有些数据很难获取,而标注数据又要花费大量人力。所以如何能够用尽量少的数据达到目的是目前深度学习前沿方向之一,而参数重用是解决这一问题的重要策略。
针对如何利用少量数据训练的问题目前主要有两种方式:
1.迁移学习:一种机器学习方法,他将为一个任务开发的模型参数作为第二个模型参数训练的起点。基于网络的深度迁移学习是指将原领域中预先训练好的部分网络,包括其网络结构和参数,重用为用于目标领域的深度神经网络的一部分。
2.半监督学习:半监督学习是一种结合监督学习和无监督学习的算法,他同时利用有标签数据和无标签数据进行学习的一种方法。目前深度学习应用中比较流行的一直做法是无监督预训练:用所有数据训练重构自编码网络,然后把自编码网络的参数,作为初始参数,用有标签数据微调。
但是,目前迁移学习和半监督学习都有一个相同的问题:重用参数选取的盲目性,其暂时无法做到很好的选取可以重用的参数,导致模型重用效果较差。
发明内容
本申请提供一种深度学习模型的参数重用方法、装置、终端及存储介质,以解决现有参数重用方式无法避免重用参数选取的盲目性的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种深度学习模型的参数重用方法,包括:根据预先配置好的数据集训练得到目标模型,数据集包括训练集和验证集;获取预先训练好的原模型,目标模型与原模型的部分或全部网络结构相同;获取目标模型和原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系;从原模型中网络结构相同的层提取得到多个原模型参数;根据参数对应关系,逐个利用每个原模型参数替换目标模型中的对应参数,并在验证集上验证替换后的目标模型,且当验证通过时,记录原模型参数可重用;利用所有可重用的原模型参数替换掉目标模型中的对应参数,得到新的目标模型后,再训练新的目标模型。
作为本申请的进一步改进,验证替换后的目标模型,且当验证通过时,记录原模型参数可重用,包括:获取根据训练集训练目标模型得到的第一结果;根据验证集验证替换后的目标模型,记录验证的第二结果;判断第一结果与第二结果的差值是否在预设范围内;当第一结果与第二结果的差值在预设范围内时,验证通过,记录原模型参数可重用。
作为本申请的进一步改进,训练新的目标模型,包括:直接利用训练集训练新的目标模型。
作为本申请的进一步改进,训练新的目标模型,包括:冻结新的目标模型中可重用的原模型参数,再利用训练集训练新的目标模型。
作为本申请的进一步改进,根据预先配置好的数据集训练得到目标模型之前,还包括:对数据集进行预处理。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种深度学习模型的参数重用装置,包括:训练模块,用于根据预先配置好的数据集训练得到目标模型,数据集包括训练集和验证集;第一获取模块,用于获取预先训练好的原模型,目标模型与原模型的部分或全部网络结构相同;第二获取模块,用于获取目标模型和原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系;提取模块,用于从原模型中网络结构相同的层提取得到多个原模型参数;验证模块,用于根据参数对应关系,逐个利用每个原模型参数替换目标模型中的对应参数,并在验证集上验证替换后的目标模型,且当验证通过时,记录原模型参数可重用;迁移模块,用于利用所有可重用的原模型参数替换掉目标模型中的对应参数,得到新的目标模型后,再训练新的目标模型。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种深度学习模型的参数重用方法,包括:根据预先配置好的第一数据集训练得到目标模型,并根据预先配置好的第二数据集训练得到原模型,目标模型和原模型的部分或全部网络结构相同,第一数据集包括第一训练集和第一验证集;获取目标模型和原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系;从原模型中网络结构相同的层提取得到多个原模型参数;根据参数对应关系,逐个利用每个原模型参数替换目标模型中的对应参数,并在第一验证集上验证替换后的目标模型,且当验证通过时,记录原模型参数可重用;利用所有可重用的原模型参数替换掉目标模型中的对应参数,得到新的目标模型后,再训练新的目标模型。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种深度学习模型的参数重用装置,包括:训练模块,用于根据预先配置好的第一数据集训练得到目标模型,并根据预先配置好的第二数据集训练得到原模型,目标模型和原模型的部分或全部网络结构相同,第一数据集包括第一训练集和第一验证集;获取模块,用于获取目标模型和原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系;提取模块,用于从原模型中网络结构相同的层提取得到多个原模型参数;验证模块,用于根据参数对应关系,逐个利用每个原模型参数替换目标模型中的对应参数,并在第一验证集上验证替换后的目标模型,且当验证通过时,记录原模型参数可重用;迁移模块,用于利用所有可重用的原模型参数替换掉目标模型中的对应参数,得到新的目标模型后,再训练新的目标模型。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种终端,该终端包括处理器、与处理器耦接的存储器,其中,存储器存储有用于实现上述深度学习模型的参数重用方法的程序指令;处理器用于执行存储器存储的程序指令以实现不同深度学习模型之间的参数重用。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述深度学习模型的参数重用方法的程序文件。
本申请的有益效果是:本申请的深度学习模型的参数重用方法通过根据预设的数据集进行初始的训练,得到目标模型后,再获取预先训练好的与该目标模型在网络结构上部分或全部相同的原模型,然后通过将原模型的网络结构与目标模型相同的层的参数逐个替换至目标模型上,再在验证集上对替换后的目标模型进行验证,验证通过则认为该参数可从原模型重用至目标模型,直至所有参数均验证完成后,将所有的可重用参数加载至目标模型再进行训练,得到新的目标模型,其使得即使训练目标模型的数据集的数据量不足,也能够通过参数重用的方式得到一个效果良好的模型,并且,通过逐个参数进行验证筛选出可重用参数的方式,使得可重用参数的选取更具有目的性,能够帮助选取出最合适的可重用参数,从而避免盲目选择可重用参数。
附图说明
图1是本发明第一实施例的深度学习模型的参数重用方法的流程示意图;
图2是本发明第一实施例的深度学习模型的参数重用装置的功能模块示意图;
图3是本发明第二实施例的深度学习模型的参数重用方法的流程示意图;
图4是本发明第二实施例的深度学习模型的参数重用装置的功能模块示意图;
图5是本发明实施例的终端的结构示意图;
图6是本发明实施例的存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的深度学习模型的参数重用方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:根据预先配置好的数据集训练得到目标模型,数据集包括训练集和验证集。
需要说明的是,该数据集是根据任务要求收集到的数据,例如,当任务是要实现猫狗图像识别,则需要预先准备多张猫和狗的图像。其中,数据集包括训练集和验证集,训练集用于进行模型训练,验证集用于对训练之后的模型进行验证。
在步骤S101中,在获取到预先配置好的数据集之后,利用该数据集进行深度学习训练,从而得到该目标模型。
进一步的,为了保证模型的训练效果,在根据预先配置好的数据集训练得到目标模型之前,还包括:对数据集进行预处理。
具体地,对数据集进行预处理具体包括:数据的归一化、标准化等,若数据过少,还可通过图形旋转、裁剪等方式进行数据集扩充。
步骤S102:获取预先训练好的原模型,目标模型与原模型的部分或全部网络结构相同。
需要说明的是,该原模型是预先已经训练好的模型,并且,目标模型和原模型必须部分或全部网络结构相同,否则,不可进行参数重用。例如,一个深度学习模型通常包括有激活函数层、卷积层、全连接层、池化层、BN(Batch Normalization)层等,其中部分或全部的卷积层或BN层的网络结构必须相同。
步骤S103:获取目标模型和原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系。
在步骤S103中,在获取到原模型之后,确认目标模型中与原模型中网络结构相同的层,然后将这些层进行一一对应,再将层内的参数也进行一一对应。
步骤S104:从原模型中网络结构相同的层提取得到多个原模型参数。
在步骤S104中,确认网络结构相同的层之后,从原模型中提取网络结构相同的层的所有参数,得到多个原模型参数。
步骤S105:根据参数对应关系,逐个利用每个原模型参数替换目标模型中的对应参数,并在验证集上验证替换后的目标模型,且当验证通过时,记录原模型参数可重用。
在步骤S105中,从原模型中提取到多个原模型参数后,再基于参数对应关系,利用原模型参数替换掉目标模型中与该原模型参数对应的参数,得到替换后的目标模型,在不重新训练该替换后的目标模型的基础上,直接使用验证集对该替换后的目标模型进行验证,当验证通过时,则认为该原模型参数可重用至目标模型中,当验证不通过,则认为该原模型参数不可重用至目标模型中。循环执行上述步骤,直至每一个原模型参数均被验证,最终得到所有可重用至目标模型的原模型参数。
需要说明的是,在每验证一个原模型参数后,需要将目标模型恢复原样之后,再进行下一个原模型参数的验证,始终保持目标模型中只有一个变量,从而有效地验证原模型参数是否可以重用。
例如,BN层的参数Runningmean、Runningvar、weight、bias分别用RM、RV、RW、RB表示,卷积层的参数weight、bias分别用W、B表示。假设目标模型和原模型之间存在网络结构相同的BN层和卷积层,提取原模型的BN层的原模型参数RM1、RV1、RW1、RB1和卷积层的原模型参数W1、B1,首先,针对于该BN层,在目标模型中找出与原模型BN层对应的目标模型的BN层,并从中找出目标模型参数RM2、RV2、RW2、RB2,再利用RM1替换掉RM2后,不重新训练替换后的目标模型,直接在验证集上对替换后的目标模型进行验证,当验证通过时,记录该RM1可重用,然后将替换后的目标模型恢复原样,再利用RV1替换RV2,再次进行验证,直至RM1、RV1、RW1、RB1四个参数均以验证完成;然后,针对于卷积层,在目标模型中找出找出与原模型卷积层层对应的目标模型的卷积层,并从中找出目标模型参数W2、B2,再利用W1替换掉W2后,不重新训练替换后的目标模型,直接在验证集上对替换后的目标模型进行验证,当验证通过时,记录该W1可重用,然后将替换后的目标模型恢复原样,再利用B1替换B2,再次进行验证,直至W1、B1两个参数均以验证完成。由此实现逐层逐个参数验证,以帮助选取出最合适的可重用参数。
进一步的,本实施例中,验证替换后的目标模型,且当验证通过时,记录原模型参数可重用的步骤,具体包括:
1、获取根据训练集训练目标模型得到的第一结果。
具体地,在得到数据集之后,将数据集划分为训练集和验证集,再利用训练集训练得到目标模型,并且,记录训练目标模型时得到的第一结果。
2、根据验证集验证替换后的目标模型,记录验证的第二结果。
具体地,在利用原模型参数替换掉目标模型中的对应参数之后,利用验证集验证该替换后的目标模型,记录验证得到的第二结果。
3、判断第一结果与第二结果的差值是否在预设范围内。
4、当第一结果与第二结果的差值在预设范围内时,验证通过,记录原模型参数可重用。
具体地,通过比较第一结构和第二结果之间的差值,当第一结果与第二结果的差值在预设范围内时,则验证通过,记录原模型参数可重用;当第一结果与第二结果的差值不在预设范围内时,则验证不通过,该原模型参数不可重用。
步骤S106:利用所有可重用的原模型参数替换掉目标模型中的对应参数,得到新的目标模型后,再训练新的目标模型。
在步骤S106中,通过验证得到所用可重用的原模型参数之后,利用所有可重用的原模型参数换掉目标模型中的对应参数,得到一个新的目标模型,再利用数据集对该新的目标模型进行训练。
其中,在一些实施例中,训练新的目标模型的步骤包括:直接利用训练集训练新的目标模型。
具体地,在利用数据集训练新的目标模型时,能够对新的目标模型中重用的参数进行微调,使得新的目标模型的训练效果更好。
在另一些实施例中,训练新的目标模型的步骤还可以包括:冻结新的目标模型中可重用的原模型参数,再利用训练集训练新的目标模型。
应当理解的是,本实施例中仅列举了两个模型之间的参数重用,其同样适用于多个模型之间的参数重用,原理与两个模型之间的参数重用原理相同,均属于本发明的保护范围之内。
本发明第一实施例的深度学习模型的参数重用方法通过根据预设的数据集进行初始的训练,得到目标模型后,再获取预先训练好的与该目标模型在网络结构上部分或全部相同的原模型,然后通过将原模型的网络结构与目标模型相同的层的参数逐个替换至目标模型上,再在验证集上对替换后的目标模型进行验证,验证通过则认为该参数可从原模型重用至目标模型,直至所有参数均验证完成后,将所有的可重用参数加载至目标模型再进行训练,得到新的目标模型,其使得即使训练目标模型的数据集的数据量不足,也能够通过参数重用的方式得到一个效果良好的模型,并且,通过逐个参数进行验证筛选出可重用参数的方式,使得可重用参数的选取更具有目的性,能够帮助选取出最合适的可重用参数,从而避免盲目选择可重用参数。
图2是本发明第一实施例的深度学习模型的参数重用装置的功能模块示意图。如图2所示,该装置20包括训练模块21、第一获取模块22、第二获取模块23、提取模块24、验证模块25和迁移模块26。
训练模块21,用于根据预先配置好的数据集训练得到目标模型,数据集包括训练集和验证集。
第一获取模块22,用于获取预先训练好的原模型,目标模型与原模型的部分或全部网络结构相同。
第二获取模块23,用于获取目标模型和原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系。
提取模块24,用于从原模型中网络结构相同的层提取得到多个原模型参数。
验证模块25,用于根据参数对应关系,逐个利用每个原模型参数替换目标模型中的对应参数,并在验证集上验证替换后的目标模型,且当验证通过时,记录原模型参数可重用。
迁移模块26,用于利用所有可重用的原模型参数替换掉目标模型中的对应参数,得到新的目标模型后,再训练新的目标模型。
可选地,训练模块21根据预先配置好的数据集训练得到目标模型的操作之前,还用于对数据集进行预处理。
可选地,验证模块25验证替换后的目标模型,且当验证通过时,记录原模型参数可重用对的操作还可以为:获取根据训练集训练目标模型得到的第一结果;根据验证集验证替换后的目标模型,记录验证的第二结果;判断第一结果与第二结果的差值是否在预设范围内;当第一结果与第二结果的差值在预设范围内时,验证通过,记录原模型参数可重用。
可选地,迁移模块26训练新的目标模型的操作可以为直接利用训练集训练新的目标模型。
可选地,迁移模块26训练新的目标模型的操作还可以为冻结新的目标模型中可重用的原模型参数,再利用训练集训练新的目标模型。
关于上述第一实施例的深度学习模型的参数重用装置中各模块实现技术方案的其他细节,可参见上述第一实施例的深度学习模型的参数重用方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图3是本发明第二实施例的深度学习模型的参数重用方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图3所示的流程顺序为限。如图3所示,该方法包括步骤:
步骤S301:根据预先配置好的第一数据集训练得到目标模型,并根据预先配置好的第二数据集训练得到原模型,目标模型和原模型的部分或全部网络结构相同,第一数据集包括第一训练集和第一验证集。
在步骤S301中,该第一数据集和第二数据集可以为完全相同的数据集,当第一数据集和第二数据集相同时,则目标模型和原模型可以为同一数据集的针对不同任务的两个模型。此外,该第一数据集和第二数据集也可以为两个不同的数据集,目标模型和原模型可以为不同数据集针对同一任务或不同任务的两个模型。优选地,本实施例中,第一数据集的数据量小于第二数据集的数据量。
本实施例中,当第一数据集的数据量较少以致难以训练得到一个效果好的模型,而第二数据集的数据量多且可以训练得到一个效果好的模型时,则可利用第二数据集训练得到原模型之后,再将原模型的参数重用至基于第一数据集训练得到的目标模型中,从而提升目标模型的训练效果。
步骤S302:获取目标模型和原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系。
在本实施例中,图3中的步骤S302和图1中的步骤S103类似,为简约起见,在此不再赘述。
步骤S303:从原模型中网络结构相同的层提取得到多个原模型参数。
在本实施例中,图3中的步骤S303和图1中的步骤S104类似,为简约起见,在此不再赘述。
步骤S304:根据参数对应关系,逐个利用每个原模型参数替换目标模型中的对应参数,并在第一验证集上验证替换后的目标模型,且当验证通过时,记录原模型参数可重用。
在本实施例中,图3中的步骤S304和图1中的步骤S105类似,为简约起见,在此不再赘述。
步骤S305:利用所有可重用的原模型参数替换掉目标模型中的对应参数,得到新的目标模型后,再训练新的目标模型。
在本实施例中,图3中的步骤S305和图1中的步骤S106类似,为简约起见,在此不再赘述。
本发明第二实施例的深度学习模型的参数重用方法在第一实施例的基础上,通过在没有训练好的模型进行参数重用时,也可选取相似且数据量较大的数据集进行训练得到可以提供可重用参数的模型,再进行模型之间的参数重用,从而避免因数据量不足导致难以训练得到效果较好的模型的问题。
图4是本发明第二实施例的深度学习模型的参数重用装置的功能模块示意图。如图4所示,该装置40包括训练模块41、获取模块42、提取模块43、验证模块44和迁移模块45。
训练模块41,用于根据预先配置好的第一数据集训练得到目标模型,并根据预先配置好的第二数据集训练得到原模型,目标模型和原模型的部分或全部网络结构相同,第一数据集的数据量小于第二数据集的数据量,第一数据集包括第一训练集和第一验证集。
获取模块42,用于获取目标模型和原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系。
提取模块43,用于从原模型中网络结构相同的层提取得到多个原模型参数。
验证模块44,用于根据参数对应关系,逐个利用每个原模型参数替换目标模型中的对应参数,并在第一验证集上验证替换后的目标模型,且当验证通过时,记录原模型参数可重用。
迁移模块45,用于利用所有可重用的原模型参数替换掉目标模型中的对应参数,得到新的目标模型后,再训练新的目标模型。
关于上述第二实施例的深度学习模型的参数重用装置中各模块实现技术方案的其他细节,可参见上述第二实施例的深度学习模型的参数重用方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参阅图5,图5为本发明实施例的终端的结构示意图。如图5所示,该终端60包括处理器61及和处理器61耦接的存储器62。
存储器62存储有用于实现上述任一实施例所述的深度学习模型的参数重用方法的程序指令。
处理器61用于执行存储器62存储的程序指令以实现不同深度学习模型之间的参数重用。
其中,处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图6,图6为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件71,其中,该程序文件71可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种深度学习模型的参数重用方法,其特征在于,包括:
根据预先配置好的数据集训练得到目标模型,所述数据集包括训练集和验证集;
获取预先训练好的原模型,所述目标模型与所述原模型的部分或全部网络结构相同;
获取所述目标模型和所述原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系;
从所述原模型中所述网络结构相同的层提取得到多个原模型参数;
根据所述参数对应关系,逐个利用每个所述原模型参数替换所述目标模型中的对应参数,并在所述验证集上验证替换后的目标模型,且当验证通过时,记录所述原模型参数可重用;
利用所有可重用的原模型参数替换掉所述目标模型中的对应参数,得到新的目标模型后,再训练所述新的目标模型。
2.根据权利要求1所述的深度学习模型的参数重用方法,其特征在于,所述验证替换后的目标模型,且当验证通过时,记录所述原模型参数可重用,包括:
获取根据所述训练集训练所述目标模型得到的第一结果;
根据所述验证集验证所述替换后的目标模型,记录验证的第二结果;
判断所述第一结果与所述第二结果的差值是否在预设范围内;
当所述第一结果与所述第二结果的差值在预设范围内时,验证通过,记录所述原模型参数可重用。
3.根据权利要求1所述的深度学习模型的参数重用方法,其特征在于,所述训练所述新的目标模型,包括:
直接利用所述训练集训练所述新的目标模型。
4.根据权利要求1所述的深度学习模型的参数重用方法,其特征在于,所述训练所述新的目标模型,包括:
冻结所述新的目标模型中可重用的原模型参数,再利用所述训练集训练所述新的目标模型。
5.根据权利要求1所述的深度学习模型的参数重用方法,其特征在于,所述根据预先配置好的数据集训练得到目标模型之前,还包括:
对所述数据集进行预处理。
6.一种深度学习模型的参数重用装置,其特征在于,包括:
训练模块,用于根据预先配置好的数据集训练得到目标模型,所述数据集包括训练集和验证集;
第一获取模块,用于获取预先训练好的原模型,所述目标模型与所述原模型的部分或全部网络结构相同;
第二获取模块,用于获取所述目标模型和所述原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系;
提取模块,用于从所述原模型中所述网络结构相同的层提取得到多个原模型参数;
验证模块,用于根据所述参数对应关系,逐个利用每个所述原模型参数替换所述目标模型中的对应参数,并在所述验证集上验证替换后的目标模型,且当验证通过时,记录所述原模型参数可重用;
迁移模块,用于利用所有可重用的原模型参数替换掉所述目标模型中的对应参数,得到新的目标模型后,再训练所述新的目标模型。
7.一种深度学习模型的参数重用方法,其特征在于,包括:
根据预先配置好的第一数据集训练得到目标模型,并根据预先配置好的第二数据集训练得到原模型,所述目标模型和所述原模型的部分或全部网络结构相同,所述第一数据集包括第一训练集和第一验证集;
获取所述目标模型和所述原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系;
从所述原模型中所述网络结构相同的层提取得到多个原模型参数;
根据所述参数对应关系,逐个利用每个所述原模型参数替换所述目标模型中的对应参数,并在所述第一验证集上验证替换后的目标模型,且当验证通过时,记录所述原模型参数可重用;
利用所有可重用的原模型参数替换掉所述目标模型中的对应参数,得到新的目标模型后,再训练所述新的目标模型。
8.一种深度学习模型的参数重用装置,其特征在于,包括:
训练模块,用于根据预先配置好的第一数据集训练得到目标模型,并根据预先配置好的第二数据集训练得到原模型,所述目标模型和所述原模型的部分或全部网络结构相同,所述第一数据集包括第一训练集和第一验证集;
获取模块,用于获取所述目标模型和所述原模型中网络结构相同的层的对应关系,以及对应层的参数对应关系;
提取模块,用于从所述原模型中所述网络结构相同的层提取得到多个原模型参数;
验证模块,用于根据所述参数对应关系,逐个利用每个所述原模型参数替换所述目标模型中的对应参数,并在所述第一验证集上验证替换后的目标模型,且当验证通过时,记录所述原模型参数可重用;
迁移模块,用于利用所有可重用的原模型参数替换掉所述目标模型中的对应参数,得到新的目标模型后,再训练所述新的目标模型。
9.一种终端,其特征在于,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现如权利要求1-5或权利要求7中任一项所述的深度学习模型的参数重用方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以实现不同深度学习模型之间的参数重用。
10.一种存储介质,其特征在于,存储有能够实现如权利要求1-5或权利要求7中任一项所述的深度学习模型的参数重用方法的程序文件。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786350.0A CN114065903A (zh) | 2020-08-07 | 2020-08-07 | 深度学习模型的参数重用方法、装置、终端及存储介质 |
PCT/CN2020/117656 WO2022027806A1 (zh) | 2020-08-07 | 2020-09-25 | 深度学习模型的参数重用方法、装置、终端及存储介质 |
US18/106,988 US20230196120A1 (en) | 2020-08-07 | 2023-02-07 | Method, device, terminal, and storage medium for reusing parameters of a deep learning model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786350.0A CN114065903A (zh) | 2020-08-07 | 2020-08-07 | 深度学习模型的参数重用方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114065903A true CN114065903A (zh) | 2022-02-18 |
Family
ID=80118613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010786350.0A Pending CN114065903A (zh) | 2020-08-07 | 2020-08-07 | 深度学习模型的参数重用方法、装置、终端及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230196120A1 (zh) |
CN (1) | CN114065903A (zh) |
WO (1) | WO2022027806A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114998893B (zh) * | 2022-06-14 | 2023-05-02 | 江南大学 | 基于半监督迁移学习的食品品质无损检测模型构建方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11676008B2 (en) * | 2018-09-27 | 2023-06-13 | Google Llc | Parameter-efficient multi-task and transfer learning |
CN109583594B (zh) * | 2018-11-16 | 2021-03-30 | 东软集团股份有限公司 | 深度学习训练方法、装置、设备及可读存储介质 |
CN110378487B (zh) * | 2019-07-18 | 2021-02-26 | 深圳前海微众银行股份有限公司 | 横向联邦学习中模型参数验证方法、装置、设备及介质 |
CN110782043B (zh) * | 2019-10-29 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 模型优化方法、装置、存储介质及服务器 |
-
2020
- 2020-08-07 CN CN202010786350.0A patent/CN114065903A/zh active Pending
- 2020-09-25 WO PCT/CN2020/117656 patent/WO2022027806A1/zh active Application Filing
-
2023
- 2023-02-07 US US18/106,988 patent/US20230196120A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022027806A1 (zh) | 2022-02-10 |
US20230196120A1 (en) | 2023-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3370188B1 (en) | Facial verification method, device, and computer storage medium | |
CN110942154B (zh) | 基于联邦学习的数据处理方法、装置、设备及存储介质 | |
CN101379513B (zh) | 一种用于自动生成镶嵌图像的方法 | |
US9323988B2 (en) | Content-adaptive pixel processing systems, methods and apparatus | |
CN105871587A (zh) | 日志上传方法及装置 | |
CN113177538B (zh) | 一种视频循环识别方法、装置、计算机设备及存储介质 | |
CN111523413B (zh) | 生成人脸图像的方法和装置 | |
CN102834843A (zh) | 用于面部检测的方法和装置 | |
CN110349082A (zh) | 图像区域的裁剪方法和装置、存储介质及电子装置 | |
CN104580376B (zh) | 在局域网中建立终端之间连接的方法、装置和系统 | |
CN106201624A (zh) | 一种应用程序的推荐方法及终端 | |
CN111401196A (zh) | 受限空间内自适应人脸聚类的方法、计算机装置及计算机可读存储介质 | |
CN114065903A (zh) | 深度学习模型的参数重用方法、装置、终端及存储介质 | |
CN112036580B (zh) | 用于联盟学习的方法、装置及联盟学习系统 | |
CN110737648B (zh) | 性能特征降维方法及装置、电子设备及存储介质 | |
CN113762422B (zh) | 一种图像训练集合成方法及系统 | |
CN113095506A (zh) | 基于端、边及云协同的机器学习方法、系统及介质 | |
CN113361567A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN112819689A (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
CN114677584A (zh) | 一种双注意力机制配电站水浸识别方法及系统 | |
CN114841340A (zh) | 深度伪造算法的识别方法、装置、电子设备及存储介质 | |
CN113705666A (zh) | 分割网络训练方法、使用方法、装置、设备及存储介质 | |
CN113850390A (zh) | 联邦学习系统中共享数据的方法、装置、设备及介质 | |
CN112633285A (zh) | 领域适应方法、装置、电子设备及存储介质 | |
US20190325261A1 (en) | Generation of a classifier from existing classifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |