CN113553778A - 模型的参数优化方法以及电子设备、计算机可读存储介质 - Google Patents
模型的参数优化方法以及电子设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN113553778A CN113553778A CN202111097918.9A CN202111097918A CN113553778A CN 113553778 A CN113553778 A CN 113553778A CN 202111097918 A CN202111097918 A CN 202111097918A CN 113553778 A CN113553778 A CN 113553778A
- Authority
- CN
- China
- Prior art keywords
- population
- individual
- model
- individuals
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000005457 optimization Methods 0.000 claims abstract description 95
- 230000000694 effects Effects 0.000 claims description 68
- 239000013598 vector Substances 0.000 claims description 67
- 230000004044 response Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 16
- 238000012360 testing method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000002939 conjugate gradient method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008216 herbs Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了模型的参数优化方法以及电子设备、计算机可读存储介质,其中,模型的参数优化方法包括:获取到待优化模型,对待优化模型进行预训练,得到预训练后的待优化模型的预训练参数;利用差分进化算法对预训练参数进行二次寻优,得到待优化模型的全局最优参数;将全局最优参数加载进待优化模型中。通过上述方式,本发明能够提高待优化模型的拟合能力,进而有效提高待优化模型的预测精度和准确率。
Description
技术领域
本发明涉及模型优化的技术领域,特别是涉及模型的参数优化方法以及电子设备、计算机可读存储介质。
背景技术
一个良好的模型结构被设计出来后,能否达到其能力上限则取决于其是否能够经过训练学习到较优的模型参数。通常来说,对于卷积模型、BP网络、RBF网络这类神经网络主要采用监督学习的训练方式,即使用有标签的数据训练集,以最小化损失函数为优化目标,经过前向和反向传播算法的反复迭代更新参数,使模型参数逐渐逼近最优解。
在上述模型参数训练过程中,需要设置参数初始值、反向传播优化器的选择、学习率等超参数来控制参数训练的过程,而这些参数的设置往往需要在人为的经验指导下进行设置。当面对不同预测任务和不同规格的数据集时,超参数的设置也有所不同,因此很容易出现超参数设置不合理而导致训练后的模型拟合能力不足,例如,若学习率设置过大,模型参数在训练过程中会在全局最优解两侧来回振荡,导致模型难以收敛;若学习率设置过小,模型收敛速度会变慢,也很容易陷入局部最优且难以跳出局部最优,从而影响模型最终的应用能力。
因此,模型的参数训练效果需要得到提高。
发明内容
本发明提供了模型的参数优化方法以及电子设备、计算机可读存储介质,以解决目前存在的模型的参数训练效果不足的问题。
为解决上述技术问题,本发明提供一种模型的参数优化方法,包括:获取到待优化模型,对待优化模型进行预训练,得到预训练后的待优化模型的预训练参数;利用差分进化算法对预训练参数进行二次寻优,得到待优化模型的全局最优参数;将全局最优参数加载进待优化模型中。
其中,利用差分进化算法对预训练参数进行二次寻优,得到待优化模型的全局最优参数,包括:基于预训练参数得到当前种群;响应于当前种群不满足寻优停止条件,基于差分进化算法对当前种群进行更新,并将更新后的种群作为当前种群,直至当前种群满足寻优停止条件;将各种群中的预测效果最好的个体作为全局最优个体,并将全局最优个体对应的参数确定为全局最优参数。
其中,响应于当前种群不满足寻优停止条件,基于差分进化算法对当前种群进行更新,并将更新后的种群作为当前种群,直至当前种群满足寻优停止条件,包括:计算得到当前种群的预测效果,并将当前种群中预测效果最好的个体确定为种群最优个体;将种群最优个体与更新前的当前最优个体中,预测效果更好的个体确定为新的当前最优个体;将各种群中的预测效果最好的个体作为全局最优个体,包括:响应于当前更新后的当前种群满足寻优停止条件,得到当前更新后的当前种群中的预测效果最好的个体;将当前更新后的种群中的预测效果最好的个体与当前最优个体中预测效果更好的个体确定为全局最优个体。
其中,响应于当前种群不满足寻优停止条件,基于差分进化算法对当前种群进行更新,并将更新后的种群作为当前种群,直至当前种群满足寻优停止条件,包括:响应于当前种群不满足寻优停止条件,计算得到当前种群的适应度;利用差分进化算法基于适应度依次对当前种群进行变异、交叉和选择的更新操作,得到更新后的当前种群。
其中,利用差分进化算法基于适应度依次对当前种群进行变异、交叉和选择的更新操作,得到更新后的当前种群,包括:对当前种群中各个体依次随机选择三个不同的其他个体;对其中两个其他个体对应的向量进行差值计算,得到差分矢量;基于差分矢量与另一个其他个体对应的向量进行求和,得到个体对应的实验个体;基于实验个体与个体进行交叉处理,得到交叉处理后的子代个体;基于当前种群的各个体以及其对应的子代个体的适应度选择更新后的种群的个体,得到更新后的当前种群。
其中,基于实验个体与个体进行交叉处理,得到交叉处理后的子代个体,包括:针对个体生成一个随机数;响应于随机数小于或等于差分进化算法的交叉概率,基于个体的实验个体得到子代个体;响应于随机数大于差分进化算法的交叉概率,基于个体得到子代个体;
其中,基于当前种群的各个体以及其对应的子代个体的适应度选择更新后的种群的个体,得到更新后的种群,包括:分别判断当前种群的各个体与其对应的子代个体之间适应度的大小;选择适应度大的个体或子代个体作为更新后的当前种群的个体。
其中,基于预训练参数得到当前种群,包括:将预训练参数确定为种群,并进行初始化,得到预训练参数对应的当前种群。
其中,将预训练参数确定为种群,并进行初始化,得到预训练参数对应的当前种群,包括:将预训练参数转换成向量表示形式,得到预训练参数对应的预训练参数向量;将预训练参数向量作为均值向量,基于高斯分布生成满足差分进化算法的当前种群。
其中,待优化模型应用于图像识别;获取到待优化模型,对待优化模型进行预训练,得到预训练后的待优化模型的预训练参数的步骤包括:获取到样本图像以及样本图像对应的识别标签;将样本图像输入到待优化模型中进行预测,得到样本图像的预测识别结果;响应于预测识别结果与识别标签之间的相似度满足预设要求时,得到预训练后的待优化模型的预训练参数;将全局最优参数加载进待优化模型中的步骤还包括:将全局最优参数加载进待优化模型中,得到图像识别模型;获取到待识别图像,基于图像识别模型对待识别图像进行识别,得到待识别图像的识别结果。
为解决上述技术问题,本发明还提供了一种电子设备,包括:相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述任一项的模型的参数优化方法。
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,程序指令被处理器执行时实现上述任一项的模型的参数优化方法。
本发明的有益效果是:区别于现有技术的情况,本发明通过先获取到待优化模型,对待优化模型进行预训练,得到预训练后的待优化模型的预训练参数,再利用差分进化算法对预训练参数进行二次寻优,得到待优化模型的全局最优参数,最后将全局最优参数加载进待优化模型中。从而能够通过对训练得到的预训练参数进行二次寻优来进一步提高待优化模型的拟合能力,减少因超参数设置不合理而导致训练后的模型拟合能力不足的情况发生,进而有效提高待优化模型的预测精度和准确率,提高模型的参数训练效果。
附图说明
图1是本发明模型的参数优化方法一实施例的流程示意图;
图2是本发明模型的参数优化方法另一实施例的流程示意图;
图3是图2实施例中种群进行更新的具体步骤的流程图;
图4是图2实施例中二次寻优的一实施例的流程示意图;
图5是本发明电子设备一实施例的结构示意图;
图6是本发明计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明模型的参数优化方法一实施例的流程示意图。
步骤S11:获取到待优化模型,对待优化模型进行预训练,得到预训练后的待优化模型的预训练参数。
获取到待优化模型,其中,本步骤的待优化模型为结构已经设计好了的模型。其类型可以为卷积模型、BP神经网络(back propagation)、RBF(径向基)神经网络或其他神经网络等,在此不做限定。而模型结构可以是任意结构,在此也不做限定。
对获取到的待优化模型进行预训练,得到预训练后的待优化模型的预训练参数。其中,预训练参数为加载进待优化模型中可以在训练集中实现待优化模型的预测能力的参数,其可以包括多个参数。
在一个具体的应用场景中,可以使用反向传播算法对待优化模型进行预训练,直至待优化模型收敛后,保存预训练后的待优化模型的预训练参数。在另一个具体的应用场景中,也可以使用梯度下降法对待优化模型进行预训练,直至待优化模型收敛后,保存预训练后的待优化模型的预训练参数。即预训练参数为待优化模型收敛后所得到的模型参数。
对待优化模型进行预训练的算法可以包括反向传播算法、梯度下降法、牛顿算法、共轭梯度法、准牛顿法或其他算法等,具体在此不做限定。
其中,预训练时,待优化模型的参数初始化方式、学习率、反向传播优化器等超参数可以根据实际需求或经验进行设置。
步骤S12:利用差分进化算法对预训练参数进行二次寻优,得到待优化模型的全局最优参数。
利用差分进化算法对待优化模型收敛后获得的预训练参数进行二次寻优,得到待优化模型的全局最优参数。其中,差分进化算法(Differential Evolution Algorithm,DE)是一种高效的全局优化算法。
具体地,利用差分进化算法对预训练参数进行二次寻优,直至满足所设置的差分进化算法迭代停止条件,从而得到寻优过程中的全局最优参数。进而在预训练参数的基础上进一步对预训练参数进行调整优化,从而提高模型的参数训练效果。
步骤S13:将全局最优参数加载进待优化模型中。
将全局最优参数加载进待优化模型中,从而完成对待优化模型的参数优化,得到优化后的模型。
通过上述方法,本实施例的模型的参数优化方法通过先获取到待优化模型,对待优化模型进行预训练,得到预训练后的待优化模型的预训练参数,再利用差分进化算法对预训练参数进行二次寻优,得到待优化模型的全局最优参数,最后将全局最优参数加载进待优化模型中。从而能够通过对训练得到的预训练参数进行二次寻优来进一步提高待优化模型的拟合能力,减少因超参数设置不合理而导致训练后的模型拟合能力不足的情况发生,进而有效提高待优化模型的预测精度和准确率,提高模型的参数训练效果。
请参阅图2,图2是本发明模型的参数优化方法另一实施例的流程示意图。
步骤S21:获取到待优化模型,对待优化模型进行预训练,得到预训练后的待优化模型的预训练参数。
本步骤与前述实施例中的步骤S11相同,请参阅前文,在此不再赘述。
其中,待优化模型的预训练参数具体包括多个子参数,待优化模型利用多个子参数实现对目标对象的预测。
在一个具体的应用场景中,待优化模型应用于图像识别;获取到待优化模型,对待优化模型进行预训练,得到预训练后的待优化模型的预训练参数的步骤包括:获取到样本图像以及样本图像对应的识别标签;将样本图像输入到待优化模型中进行预测,得到样本图像的预测识别结果;响应于预测识别结果与识别标签之间的相似度满足预设要求时,得到预训练后的待优化模型的预训练参数。其中,预设要求可以包括相似度阈值或损失函数收敛等,具体可以基于实际需求进行设置,在此不做限定。
步骤S22:基于预训练参数得到当前种群。
得到预训练后的待优化模型的预训练参数后,利用差分进化算法对预训练参数进行二次寻优,得到待优化模型的全局最优参数。
在一个具体的应用场景中,二次寻优的方法包括:基于预训练参数得到初始种群;响应于初始种群不满足寻优停止条件,基于差分进化算法对初始种群进行至少一次更新,直至更新后的种群满足寻优停止条件;将初始种群或更新后的种群中预测效果最好的个体作为全局最优个体。
在一个具体的应用场景中,二次寻优的方法还包括:基于预训练参数得到初始种群的步骤还包括:确定初始种群中预测效果最好的个体,将初始种群中预测效果最好的个体确定为初始最优个体。响应于初始种群不满足寻优停止条件,基于差分进化算法对初始种群进行至少一次更新,直至更新后的种群满足寻优停止条件的步骤包括:响应于初始种群不满足寻优停止条件,基于差分进化算法对初始种群进行更新,得到更新后的种群,并确定更新后的种群中预测效果最好的个体;将更新后的种群中预测效果最好的个体与初始最优个体中预测效果更好的个体确定为当前最优个体;响应于更新后的种群不满足寻优停止条件,对更新后的种群再次进行更新,并得到再次更新后的种群中的预测效果最好的个体;将再次更新后的种群中的预测效果最好的个体与当前最优个体中预测效果更好的个体确定为当前最优个体;将初始种群或更新后的种群中的预测效果最好的个体作为全局最优个体的步骤包括:响应于再次更新后的种群满足寻优停止条件,得到再次更新后的种群中的预测效果最好的个体;将再次更新后的种群中的预测效果最好的个体与当前最优个体中预测效果更好的个体确定为全局最优个体。
具体地,本步骤先基于预训练参数得到当前种群。其中,先将预训练参数确定为种群,并对其进行初始化,得到预训练参数对应的当前种群。其中,本步骤的当前种群也为基于预训练参数进行初始化后的初始种群。
具体地,可以先将预训练参数转换成向量表示形式,得到预训练参数对应的预训练参数向量,再将预训练参数向量作为均值向量,并基于高斯分布生成满足差分进化算法的当前种群,其中,当前种群中每个个体都是可加载到预训练后的待优化模型中的参数所对应的向量。
在一个具体的应用场景中,将预训练参数转换成向量表示形式后,得到预训练参数向量,可以将待优化模型的预训练参数向量表示为:
其中,n表示预训练参数中的子参数数量,m为差分进化算法的种群容量。对于初始种群P0,其每一行表示种群中的一个个体,即一套可加载到预训练模型中的模型参数,一个个体包括n个子个体;每一列表示种群中所有参数向量在预训练模型中同一位置的参数,矩阵中每一列都服从高斯分布,即种群中所有参数向量在预训练模型中同一位置的参数服从高斯分布,初始种群P0中共有m个个体,表示初始种群P0中第一行第一列的子个体,其他子个体的含义与其类似,在此不再赘述。
具体的,对于第j列的概率分布如下:
其中均值为预训练参数向量中第j个位置的子个体对应的参数,即处于第j列上的子个体对应的参数,为高斯分布的标准差,T为转置。本步骤中,标准差为可调节参数。种群初始化方式是以预训练参数向量为中心,在解空间中向周围一定范围内“扩散”开,让初始种群中的个体都分布在预训练参数的周围,而标准差则控制“扩散”的范围,同时也控制了后续对预训练参数二次寻优的搜索范围。具体地,越大,搜索范围越大,更容易让预训练后的待优化模型跳出局部最优,从而找到全局最优。其中,j为1~n中任意一个数字,1~n列中每一列的概率分布都与第j列相同。
步骤S23:响应于当前种群不满足寻优停止条件,基于差分进化算法对当前种群进行更新,并将更新后的种群作为当前种群,直至当前种群满足寻优停止条件。
响应于当前种群不满足寻优停止条件时,则基于差分进化算法对当前种群进行更新,并将更新后的种群作为当前种群,直至当前种群满足寻优停止条件。
在一个具体的应用场景中,获取到步骤S21中生成的当前种群,即初始种群后,判断该当前种群是否满足寻优停止条件,如果满足寻优停止条件,则基于该当前种群得到全局最优参数。如果不满足寻优停止条件,则基于差分进化算法对初始种群进行更新,并将更新后的种群再作为当前种群,进而判断该当前种群是否满足寻优停止条件,如果满足寻优停止条件,则基于该当前种群与之前的种群得到全局最优参数。如果不满足寻优停止条件,则基于差分进化算法再对当前种群进行更新,重新得到再次更新后的当前种群,直至有当前种群满足寻优停止条件。其中,本实施例的当前种群指的是当前对其进行相关计算或判断的种群,可以包括初始种群和更新后的种群。也就是说,当对初始种群进行计算判断时,当前种群为初始种群,当对某次更新后的种群进行计算判断时,当前种群为该次更新后的种群。
其中,每次获得了新的当前种群后,都会计算得到当前种群的预测效果,并将当前种群中预测效果最好的个体确定为种群最优个体,也就是将当前种群中所有个体所对应的参数都代入到待优化模型中,并将预测效果最好的参数所对应的个体作为种群最优个体。
获得当前种群的种群最优个体后,将种群最优个体与更新前的当前最优个体中,预测效果更好的个体确定为新的当前最优个体。在一个具体的应用场景中,当当前种群为初始种群时,将初始种群的种群最优个体直接作为当前最优个体,在对初始种群进行更新后,得到新的当前种群,则将新的当前种群的种群最优个体与目前的当前最优个体的预测效果进行对比,当新的当前种群的种群最优个体优于目前的当前最优个体时,将新的当前种群的种群最优个体替换目前的当前最优个体成为新的当前最优个体。当目前的当前最优个体优于新的当前种群的种群最优个体时,则当前最优个体保持不变。其中,预测效果可以通过判断各个体在测试集上的预测效果进行获取。具体地获取方式可以基于待优化模型的类型进行选择。例如:当待优化模型应用于图像识别时,预测效果为图像识别精度;当待优化模型应用于图像分类、语音分类等分类场景时,预测效果为分类准确率。其中具体的预测效果的类型与待优化模型的类型相关,获取方法也可以基于待优化模型的类型进行设置,在此不做限定。其中,模型训练的整个数据集分为训练集、验证集、测试集。
基于寻优停止条件继续对当前种群进行迭代更新,当当前更新后的当前种群满足寻优停止条件,得到当前更新后的当前种群中的预测效果最好的个体,将当前更新后的种群中的预测效果最好的个体与当前最优个体中预测效果更好的个体确定为全局最优个体,即可完成全局寻优。本实施例的寻优停止条件可以包括但不限于种群的迭代更新是否达到最大迭代次数、全局最优个体所对应的全局最优参数是否达到预设测试指标、当前全局最优个体所对应的全局最优参数的测试准确率是否优于预训练后的待优化模型等等。
在一个具体的应用场景中,响应于初始种群不满足寻优停止条件,基于差分进化算法对初始种群进行更新,并确定更新后的种群中预测效果最好的个体,再将更新后的种群中预测效果最好的个体与初始最优个体中预测效果更好的个体确定为当前最优个体;响应于更新后的种群不满足寻优停止条件,对更新后的种群再次进行更新,并得到当前更新后的种群中的预测效果最好的个体;将当前更新后的种群中的预测效果最好的个体与当前最优个体中预测效果更好的个体确定为当前最优个体;响应于当前更新后的种群满足寻优停止条件,得到当前更新后的种群中的预测效果最好的个体;将当前更新后的种群中的预测效果最好的个体与当前最优个体中预测效果更好的个体确定为全局最优个体。
其中,对种群进行更新的步骤为:当当前种群不满足寻优停止条件时,计算得到当前种群的适应度,并利用差分进化算法基于适应度依次对当前种群进行变异、交叉和选择的更新操作,从而得到更新后的当前种群。
请参阅图3,图3是图2实施例中种群进行更新的具体步骤的流程图。
步骤S31:对当前种群中各个体依次随机选择三个不同的其他个体,对其中两个其他个体对应的向量进行差值计算,得到差分矢量,基于差分矢量与另一个其他个体的向量进行求和,得到个体对应的实验个体。
针对当前种群中的一个个体,随机选择三个不同的其他个体,并对其中两个其他个体对应的向量进行差值计算,得到差分矢量,再基于差分矢量与另一个其他个体的向量进行求和,得到个体对应的实验个体。对当前种群中的每个个体依次进行上述计算,分别得到每个个体对应的实验个体。
在一个具体的应用场景中,以第t代种群到第t+1代种群的变异过程为例进行详细描述,其中,t表示种群的迭代次数。设定第t代种群为:
其中,上述第t代种群共包含m个个体,即,其中,任意第i个个体都表示一个可加载到预训练模型中的一个参数向量。其中,本实施例的i指的是第t代种群中1~m之间任意的一个个体,第t代种群中所有的个体的相关操作都与该第i个个体相同。
首先针对第i个个体在第t代种群中随机选择3个不同的其他个体的向量进行差值计算,再挑选其中两个个体的向量计算差值,得到差分矢量;然后将第三个个体的向量,与差分矢量的F倍进行对应位置的求和计算,得到第i个个体对应的第i个实验个体,其计算过程为:
在另一个具体的应用场景中,也可以首先针对第i个个体在第t代种群中随机选择2个不同的其他个体对应的向量进行差值计算,再将其进行作差,得到差分矢量;然后在随机挑选第三个不同的个体对应的向量,并与差分矢量的F倍进行对应位置的求和计算,得到第i个个体对应的第i个实验个体。
步骤S32:基于实验个体与个体进行交叉处理,得到交叉处理后的子代个体。
得到所有的实验个体后。基于实验个体与个体进行交叉处理,得到交叉处理后的子代个体。
具体地,交叉处理为:针对各个体生成一个随机数,响应于随机数小于或等于差分进化算法的交叉概率,基于个体的实验个体得到子代个体,再响应于随机数大于差分进化算法的交叉概率,基于个体得到子代个体。
在一个具体的应用场景中,假设继续对第t代种群进行交叉操作。则将第t代种群作为父代,进行交叉操作,产生子代个体,其中,这里的子代个体并不是t+1代种群,即并不是更新后的种群,只是一个中间值,是否保留到t+1代还需要由后续的选择操作决定。具体计算方式如下:
其中,CR为差分进化算法中的交叉概率,在变异操作得到的实验个体中的每个子参数是由交叉概率CR来决定是否遗传到子代个体中。具体地,rand(0,1)表示针对第i个子代个体中的第j个子个体随机生成一个在[0,1]之间的随机数,当该随机数小于等于CR时,则将实验个体中的第j个子个体遗传到第i个子代个体中,否则直接将父代个体中的第j个子个体遗传到第i个子代个体中。按照上述操作依次对第t代种群中每个个体进行交叉操作,即可得到子代种群中所有的子代个体。其中,本实施例的j指的是个体中任意位置的一个子个体,个体中所有的子个体的后续操作都与该第j个子个体相同。
在一个具体的应用场景中,当对第3个子代个体的向量中第5个子个体进行计算时,针对该第5个子个体生成一个在[0,1]之间的随机数0.5,假设交叉概率CR为0.6,则随机数0.5小于交叉概率CR0.6,则将实验个体中的第5个子参数遗传到第3个子代个体中,则得到第3个子代个体的向量中第5个子个体为。
步骤S33:基于当前种群的各个体以及其对应的子代个体的适应度选择更新后的种群的个体,得到更新后的当前种群。
具体地,每次生成当前种群后,计算各个体的预测效果时,还会计算当前种群中每个个体的适应度。再分别判断当前种群的各个体与其对应的子代个体之间适应度的大小;选择适应度大的个体或子代个体作为更新后的当前种群的个体。其中,可以通过计算各个体其在训练集上的损失值,作为对应个体的适应度。其中,损失值来越小适应度越好。
在一个具体的应用场景中,对父代种群或第t代种群进行上述变异和交叉后,最后需要结合父代种群和子代种群中所有个体,根据个体适应度进行选择操作决定Pt+1中每个个体来自父代种群或者子代种群,具体计算方式如下:
其中表示适应度函数,具体的,上述计算方式表示,若子代种群中第i个个体适应度优于或等于父代种群中第i个个体时,则将子代种群中第i个个体保留,并作为第t+1代种群Pt+1的第i个个体。当子代种群中第i个个体适应度劣于父代种群中第i个个体时,则将父代种群中第i个个体保留,并作为第t+1代种群Pt+1的第i个个体,通过上述方式,直至选择完第t+1代种群Pt+1中所有的个体,得到完整的第t+1代种群Pt+1。
在一个具体的应用场景中,当本实施例应用在图像识别任务中时,适应度函数能够被设置为包括但不限于训练集交叉熵。
通过上述步骤,完成对当前种群的更新,得到更新后的当前种群。此时当前种群的迭代次数增加一次。
其中,本步骤将各个体在训练集上的损失值作为适应度,作为差分进化算法选择操作的依据,而将各个体在测试集的预测效果作为全局最优个体的选择依据,能避免在预训练参数二次寻优时出现过拟合现象,进而能够保证全局最优参数具有较强的鲁棒性。
步骤S24:将各种群中的预测效果最好的个体作为全局最优个体,并将全局最优个体对应的参数确定为全局最优参数。
当当前更新后的当前种群满足寻优停止条件,得到当前更新后的当前种群中的预测效果最好的个体,将当前更新后的种群中的预测效果最好的个体与当前最优个体中预测效果更好的个体确定为全局最优个体,并将全局最优个体对应的参数确定为全局最优参数。并完成对待优化模型的二次寻优。
在一个具体的应用场景中,可以将全局最优个体对应转换为数值形式或模型所需的数据形式,从而得到全局最优参数。
步骤S25:将全局最优参数加载进待优化模型中。
将全局最优参数加载进待优化模型中,从而完成对待优化模型的参数优化,得到优化后的模型。
在一个具体的应用场景中,待优化模型应用于图像识别;将全局最优参数加载进待优化模型后,即可得到可以进行图像识别应用的图像识别模型。得到图像识别模型后,可以获取到待识别图像,基于图像识别模型对待识别图像进行识别,得到待识别图像的识别结果。由于图像识别模型是待优化模型基于上述任一实施例的模型的参数优化方法得到的,其图像识别精度得到有效提高。
通过上述步骤,本实施例的模型的参数优化方法通过基于已预训练好的待优化模型的预训练参数得到当前种群,再利用寻优停止条件对当前种群进行更新,直至更新后的当前种群满足寻优停止条件,并将各种群中预测效果最好的个体作为全局最优个体,进而得到全局最优参数,从而能够利用差分进化算法进行二次寻优,使得待优化模型的参数进一步逼近全局最优解,在预训练阶段若出现陷入局部最优的现象,本实施例能够有效帮助模型参数跳出局部最优。且,经过上述优化策略对待优化模型进行优化后,能够得到比预训练阶段拟合能力更强的模型,有效提高图像识别模型的预测精度。
请参阅图4,图4是图2实施例中二次寻优的一实施例的流程示意图。
步骤S41:将预训练参数确定为种群,并进行初始化,得到预训练参数对应的当前种群。
先将预训练参数转换成向量表示形式,得到预训练参数对应的预训练参数向量,再将预训练参数向量作为均值向量,并基于高斯分布生成满足差分进化算法的当前种群。
步骤S42:计算当前种群的适应度和预测效果,更新当前最优个体。
通过在测试集中计算当前种群中各个个体的适应度和预测效果,基于预测效果更新当前最优个体。
步骤S43:判断当前种群是否达到寻优停止条件。
判断当前种群是否达到寻优停止条件,如果达到则执行步骤S48,如果没有达到则执行步骤S44。
其中,本实施例的寻优停止条件可以包括但不限于差分进化算法是否达到最大迭代次数、全局最优参数是否达到预设测试指标、当前全局最优参数测试准确率是否优于预训练后的待优化模型等等。
在一个具体的应用场景中,当寻优停止条件为差分进化算法是否达到最大迭代次数时,则判断当前种群的迭代次数是否等于最大迭代次数,当等于最大迭代次数时,则满足寻优停止条件,当小于最大迭代次数时,则不满足寻优停止条件。
步骤S44:对当前种群进行变异。
对当前种群进行变异,可以对当前种群中各个体依次随机选择三个不同的其他个体,对其中两个其他个体对应的向量进行差值计算,得到差分矢量,基于差分矢量与另一个其他个体的向量进行求和,得到个体对应的实验个体。
步骤S45:对变异后的种群进行交叉。
对变异后的种群进行交叉,可以针对各个体生成一个随机数,响应于随机数小于或等于差分进化算法的交叉概率,基于个体的实验个体得到子代个体,再响应于随机数大于差分进化算法的交叉概率,基于个体得到子代个体。
步骤S46:利用适应度选择更新后的当前种群的个体。
利用当前种群的适应度分别判断当前种群的各个体与其对应的子代个体之间适应度的大小,选择适应度大的个体或子代个体作为更新后的当前种群的个体。
步骤S47:得到更新后的当前种群。
挑选结束后,得到更新后的当前种群。进而基于更新后的当前种群再次执行步骤S42-S43。从而进行循环迭代,直至满足寻优停止条件。
步骤S48:基于当前最优个体获取全局最优参数。
当前种群达到寻优停止条件后,将各种群中预测效果最好的个体作为全局最优个体,进而得到全局最优参数。
其中,本实施例的初始化种群、更新当前最优个体、变异、交叉、选择等步骤的具体内容与前述实施例相同,请参阅前文,在此不再赘述。
同时上述步骤,本实施例的二次寻优通过基于已预训练好的待优化模型的预训练参数得到当前种群,再利用寻优停止条件对当前种群进行更新,直至更新后的当前种群满足寻优停止条件,并将各种群中预测效果最好的个体作为全局最优个体,进而得到全局最优参数,从而能够利用差分进化算法进行二次寻优,使得待优化模型的参数进一步逼近全局最优解,在预训练阶段若出现陷入局部最优的现象,本实施例能够有效帮助模型参数跳出局部最优。且,经过上述优化策略对待优化模型进行优化后,能够得到比预训练阶段拟合能力更强的模型,有效提高待优化模型的预测精度。
基于同样的发明构思,本发明还提出了一种电子设备,该电子设备能够被执行以实现上述任一实施例的模型的参数优化方法,请参阅图6,图5是本发明电子设备一实施例的结构示意图,电子设备包括相互耦接的处理器51以及存储器52。
处理器51用于执行存储器52中存储的程序指令,以实现上述任一模型的参数优化方法实施例的步骤。在一个具体的实施场景中,电子设备可以包括但不限于:微型计算机、服务器,此外,电子设备还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器51用于控制其自身以及存储器52以实现上述任一模型的参数优化方法实施例的步骤。处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(ApplicationSpecific Integrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable GateArray, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器51可以由集成电路芯片共同实现。
上述方案,能够提高待优化模型的拟合能力,进而有效提高待优化模型的预测精度和准确率。
基于同样的发明构思,本发明还提出了一种计算机可读存储介质,请参阅图6,图6是本发明计算机可读存储介质一实施例的结构示意图。计算机可读存储介质60中存储有至少一个程序数据61,程序数据61用于实现上述任一模型的参数优化方法。在一个实施例中,计算机可读存储介质60包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。在本发明所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种模型的参数优化方法,其特征在于,所述模型的参数优化方法包括:
获取到待优化模型,对所述待优化模型进行预训练,得到预训练后的待优化模型的预训练参数;
利用差分进化算法对所述预训练参数进行二次寻优,得到所述待优化模型的全局最优参数;
将所述全局最优参数加载进所述待优化模型中。
2.根据权利要求1所述的模型的参数优化方法,其特征在于,所述利用差分进化算法对所述预训练参数进行二次寻优,得到所述待优化模型的全局最优参数,包括:
基于所述预训练参数得到当前种群;
响应于所述当前种群不满足寻优停止条件,基于所述差分进化算法对所述当前种群进行更新,并将更新后的种群作为当前种群,直至当前种群满足所述寻优停止条件;
将各种群中的预测效果最好的个体作为全局最优个体,并将所述全局最优个体对应的参数确定为所述全局最优参数。
3.根据权利要求2所述的模型的参数优化方法,其特征在于,所述响应于所述当前种群不满足寻优停止条件,基于所述差分进化算法对所述当前种群进行更新,并将更新后的种群作为当前种群,直至当前种群满足所述寻优停止条件,包括:
计算得到所述当前种群的预测效果,并将所述当前种群中预测效果最好的个体确定为种群最优个体;
将所述种群最优个体与更新前的当前最优个体中,预测效果更好的个体确定为新的当前最优个体;
所述将各种群中的预测效果最好的个体作为全局最优个体,包括:
响应于当前更新后的当前种群满足所述寻优停止条件,得到当前更新后的当前种群中的预测效果最好的个体;
将所述当前更新后的种群中的预测效果最好的个体与所述当前最优个体中预测效果更好的个体确定为全局最优个体。
4.根据权利要求2或3所述的模型的参数优化方法,其特征在于,所述响应于所述当前种群不满足寻优停止条件,基于所述差分进化算法对所述当前种群进行更新,并将更新后的种群作为当前种群,直至当前种群满足所述寻优停止条件,包括:
响应于所述当前种群不满足寻优停止条件,计算得到所述当前种群的适应度;
利用差分进化算法基于所述适应度依次对所述当前种群进行变异、交叉和选择的更新操作,得到更新后的当前种群。
5.根据权利要求4所述的模型的参数优化方法,其特征在于,所述利用差分进化算法基于所述适应度依次对所述当前种群进行变异、交叉和选择的更新操作,得到更新后的当前种群,包括:
对所述当前种群中各个体依次随机选择三个不同的其他个体;
对其中两个所述其他个体对应的向量进行差值计算,得到差分矢量;
基于所述差分矢量与另一个其他个体对应的向量进行求和,得到所述个体对应的实验个体;
基于所述实验个体与所述个体进行交叉处理,得到交叉处理后的子代个体;
基于所述当前种群的各个体以及其对应的所述子代个体的适应度选择更新后的种群的个体,得到所述更新后的当前种群。
6.根据权利要求5所述的模型的参数优化方法,其特征在于,所述基于所述实验个体与所述个体进行交叉处理,得到交叉处理后的子代个体,包括:
针对所述个体生成一个随机数;
响应于所述随机数小于或等于所述差分进化算法的交叉概率,基于所述个体的实验个体得到所述子代个体;
响应于所述随机数大于所述差分进化算法的交叉概率,基于所述个体得到所述子代个体。
7.根据权利要求5所述的模型的参数优化方法,其特征在于,所述基于所述当前种群的各个体以及其对应的所述子代个体的适应度选择更新后的种群的个体,得到所述更新后的种群,包括:
分别判断所述当前种群的各个体与其对应的子代个体之间适应度的大小;
选择适应度大的个体或子代个体作为所述更新后的当前种群的个体。
8.根据权利要求2所述的模型的参数优化方法,其特征在于,所述基于所述预训练参数得到当前种群,包括:
将所述预训练参数确定为种群,并进行初始化,得到所述预训练参数对应的当前种群。
9.根据权利要求8所述的模型的参数优化方法,其特征在于,所述将所述预训练参数确定为种群,并进行初始化,得到所述预训练参数对应的当前种群,包括:
将所述预训练参数转换成向量表示形式,得到所述预训练参数对应的预训练参数向量;
将所述预训练参数向量作为均值向量,基于高斯分布生成满足差分进化算法的所述当前种群。
10.根据权利要求1所述的模型的参数优化方法,其特征在于,所述待优化模型应用于图像识别;
所述获取到待优化模型,对所述待优化模型进行预训练,得到预训练后的待优化模型的预训练参数的步骤包括:
获取到样本图像以及所述样本图像对应的识别标签;
将所述样本图像输入到所述待优化模型中进行预测,得到样本图像的预测识别结果;
响应于所述预测识别结果与所述识别标签之间的相似度满足预设要求时,得到预训练后的待优化模型的预训练参数;
所述将所述全局最优参数加载进所述待优化模型中的步骤还包括:
将所述全局最优参数加载进所述待优化模型中,得到图像识别模型;
获取到待识别图像,基于所述图像识别模型对所述待识别图像进行识别,得到所述待识别图像的识别结果。
11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至10任一项所述的模型的参数优化方法。
12.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至10任一项所述的模型的参数优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111097918.9A CN113553778A (zh) | 2021-09-18 | 2021-09-18 | 模型的参数优化方法以及电子设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111097918.9A CN113553778A (zh) | 2021-09-18 | 2021-09-18 | 模型的参数优化方法以及电子设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113553778A true CN113553778A (zh) | 2021-10-26 |
Family
ID=78106392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111097918.9A Pending CN113553778A (zh) | 2021-09-18 | 2021-09-18 | 模型的参数优化方法以及电子设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553778A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880995A (zh) * | 2022-06-30 | 2022-08-09 | 浙江大华技术股份有限公司 | 算法方案部署方法及相关装置、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273818A (zh) * | 2017-05-25 | 2017-10-20 | 北京工业大学 | 遗传算法融合差分进化的选择性集成人脸识别方法 |
CN107578028A (zh) * | 2017-09-20 | 2018-01-12 | 广东工业大学 | 一种人脸识别方法、装置、设备及计算机可读存储介质 |
CN111027707A (zh) * | 2019-11-22 | 2020-04-17 | 北京金山云网络技术有限公司 | 模型的优化方法、装置及电子设备 |
-
2021
- 2021-09-18 CN CN202111097918.9A patent/CN113553778A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273818A (zh) * | 2017-05-25 | 2017-10-20 | 北京工业大学 | 遗传算法融合差分进化的选择性集成人脸识别方法 |
CN107578028A (zh) * | 2017-09-20 | 2018-01-12 | 广东工业大学 | 一种人脸识别方法、装置、设备及计算机可读存储介质 |
CN111027707A (zh) * | 2019-11-22 | 2020-04-17 | 北京金山云网络技术有限公司 | 模型的优化方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
徐瑾: "基于进化优化卷积神经网络的图像识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880995A (zh) * | 2022-06-30 | 2022-08-09 | 浙江大华技术股份有限公司 | 算法方案部署方法及相关装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410114B2 (en) | Model training method and apparatus, and data recognizing method | |
US11023806B2 (en) | Learning apparatus, identifying apparatus, learning and identifying system, and recording medium | |
KR102239714B1 (ko) | 신경망 학습 방법 및 장치, 데이터 처리 장치 | |
CN107729999A (zh) | 考虑矩阵相关性的深度神经网络压缩方法 | |
Jeong et al. | Ladder capsule network | |
WO2021042857A1 (zh) | 图像分割模型的处理方法和处理装置 | |
KR20220015479A (ko) | 약물-표적 단백질의 상호작용을 예측하는 방법 및 그 방법을 수행하는 장치 | |
US20210224647A1 (en) | Model training apparatus and method | |
CN109886343A (zh) | 图像分类方法及装置、设备、存储介质 | |
Guo et al. | A deep reinforcement learning method for multimodal data fusion in action recognition | |
Zhang et al. | Evolving neural network classifiers and feature subset using artificial fish swarm | |
CN111079074A (zh) | 一种基于改进的正弦余弦算法构建预测模型的方法 | |
CN110991494A (zh) | 一种基于改进的飞蛾优化算法构建预测模型的方法 | |
CN111401547A (zh) | 一种面向乘客流分析的基于循环学习单元的htm设计方法 | |
WO2020195940A1 (ja) | ニューラルネットワークのモデル縮約装置 | |
CN113128432A (zh) | 一种基于演化计算的多任务神经网络架构搜索方法 | |
CN113553778A (zh) | 模型的参数优化方法以及电子设备、计算机可读存储介质 | |
CN111126560A (zh) | 一种基于云遗传算法优化bp神经网络的方法 | |
CN118116574A (zh) | 基于改进的哈里斯鹰优化算法的中医证型分类方法和装置 | |
CN116976461A (zh) | 联邦学习方法、装置、设备及介质 | |
AU2021103314A4 (en) | Remote sensing image scene classification method based on deep neural network automatic learning | |
CN111489203A (zh) | 理财产品推荐方法及系统 | |
Jianli et al. | The segmentation of skin cancer image based on genetic neural network | |
Nagatani et al. | Restricted Boltzmann machine associative memory | |
CN118094233B (zh) | 内容处理模型集成方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211026 |
|
RJ01 | Rejection of invention patent application after publication |