CN112712180A - 基于可靠性验证的模型构建优化方法、装置、设备和介质 - Google Patents

基于可靠性验证的模型构建优化方法、装置、设备和介质 Download PDF

Info

Publication number
CN112712180A
CN112712180A CN202011618407.2A CN202011618407A CN112712180A CN 112712180 A CN112712180 A CN 112712180A CN 202011618407 A CN202011618407 A CN 202011618407A CN 112712180 A CN112712180 A CN 112712180A
Authority
CN
China
Prior art keywords
model
trained
data set
reliability verification
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011618407.2A
Other languages
English (en)
Inventor
黄勇卫
壮青
陈婷
吴三平
庄伟亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011618407.2A priority Critical patent/CN112712180A/zh
Publication of CN112712180A publication Critical patent/CN112712180A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)

Abstract

本申请公开了一种基于可靠性验证的模型构建优化方法、装置、设备和介质,所述基于可靠性验证的模型构建优化方法包括:获取待训练模型、建模数据集和候选变量池,并在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量;将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果;依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型。本申请解决了模型构建效率低的技术问题。

Description

基于可靠性验证的模型构建优化方法、装置、设备和介质
技术领域
本申请涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种基于可靠性验证的模型构建优化方法、装置、设备和介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机技术的不断发展,机器学习的应用领域也越来越广泛,在构建逻辑回归模型时,通常通过建模集进行模型训练,进而获得模型拟合结果,并验证模型拟合结果是否稳定,但是目前只能在模型开发完成后,对模型拟合结果进行验证,若此时通过验证确定模型拟合效果不佳,则只能重新进行建模,而由于模型构建过程涉及的计算量极大,重新进行建模的过程将浪费大量的计算资源,进而导致模型构建的效率极低。
发明内容
本申请的主要目的在于提供一种基于可靠性验证的模型构建优化方法、装置、设备和介质,旨在解决现有技术中模型构建效率低的技术问题。
为实现上述目的,本申请提供一种基于可靠性验证的模型构建优化方法,所述基于可靠性验证的模型构建优化方法应用于基于可靠性验证的模型构建优化设备,所述基于可靠性验证的模型构建优化方法包括:
获取待训练模型、建模数据集和候选变量池,并在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量;
将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果;
依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型。
本申请还提供一种基于可靠性验证的模型构建优化装置,所述基于可靠性验证的模型构建优化装置为虚拟装置,且所述基于可靠性验证的模型构建优化装置应用于基于可靠性验证的模型构建优化设备,所述基于可靠性验证的模型构建优化装置包括:
选取模块,用于获取待训练模型、建模数据集和候选变量池,并在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量;
可靠性验证模块,用于将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果;
模型优化模块,用于依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型。
本申请还提供一种基于可靠性验证的模型构建优化设备,所述基于可靠性验证的模型构建优化设备为实体设备,所述基于可靠性验证的模型构建优化设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述基于可靠性验证的模型构建优化方法的程序,所述基于可靠性验证的模型构建优化方法的程序被处理器执行时可实现如上述的基于可靠性验证的模型构建优化方法的步骤。
本申请还提供一种介质,所述介质为可读存储介质,所述可读存储介质上存储有实现基于可靠性验证的模型构建优化方法的程序,所述基于可靠性验证的模型构建优化方法的程序被处理器执行时实现如上述的基于可靠性验证的模型构建优化方法的步骤。
本申请提供了一种基于可靠性验证的模型构建优化方法、装置、设备和介质,相比于现有技术采用的在模型开发完成后,对模型拟合结果进行验证的技术手段,本申请在获取待训练模型、建模数据集和候选变量池后,首先在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量,进而将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果,进而实现了在模型构建过程中进行可靠性验证的目的,可单独验证某一建模变量对待训练模型的影响,解释了每一建模变量对待训练模型是具备好的影响还是坏的影响,进而依据所述可靠性验证结果,优化所述待训练模型,即可获得目标建模模型,也即,依据所述可靠性验证结果,可指导模型的建模拟合过程,可更加效率地构建目标建模模型,所以,克服了现有技术中若通过验证确定模型拟合效果不佳,则只能重新进行建模,而由于模型构建过程涉及的计算量极大,重新进行建模的过程将浪费大量的计算资源,进而导致模型构建的效率极低的技术缺陷,提高了模型构建的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请基于可靠性验证的模型构建优化方法第一实施例的流程示意图;
图2为本申请基于可靠性验证的模型构建优化方法第二实施例的流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种基于可靠性验证的模型构建优化方法,在本申请基于可靠性验证的模型构建优化方法的第一实施例中,参照图1,所述基于可靠性验证的模型构建优化方法包括:
步骤S10,获取待训练模型、建模数据集和候选变量池,并在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量;
在本实施例中,需要说明的是,所述待训练模型为未训练完毕的机器学习模型,其中,所述待训练模型包括逻辑回归模型等,所述候选变量池至少包括一所述候选变量,其中,所述候选变量为所述建模数据集对应的所述待训练模型的候选模型参数,其中,一所述候选特征对应一候选模型参数,例如,假设所述待训练模型为线性回归模型y=a1x1+a2x2+…+anxn,则所述候选变量池为向量(a1,a2,…,an)或者为向量(x1,x2,…,xn)。
获取待训练模型、建模数据集和候选变量池,并在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量,具体地,获取待训练模型、建模数据集以及候选变量池,进而对所述候选变量池中每一候选变量均执行以下步骤:
将所述候选变量加入所述待训练模型,获得候选模型,进而计算所述候选模型相比于所述待训练模型在所述建模数据集上的候选模型提升幅度,进而获得各所述候选变量对应的候选模型提升幅度,进而在各所述候选模型提升幅度中数值最高的目标模型提升幅度,并将所述目标模型提升幅度对应的候选变量作为目标变量。
其中,所述候选变量池至少包括一候选变量,
所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤包括:
步骤S11,将各所述候选变量分别加入所述待训练模型,获得各候选模型;
在本实施例中,假设所述待训练模型为线性回归模型,其表达式为y=a1x1+a2x2,候选变量为a3,a4,…,an,则各所述候选模型分别为y=a1x1+a2x2+a3x3,y=a1x1+a2x2+a4x4,…,y=a1x1+a2x2+anxn
步骤S12,基于所述建模数据集,分别对所述候选模型进行迭代训练优化,直至各所述候选模型均满足预设第二迭代训练结束条件,获得各所述候选模型对应的候选模型提升幅度;
在本实施例中,需要说明的是,所述预设迭代训练结束条件包括损失函数收敛和达到最大迭代次数阈值等。
在本实施例中,基于所述建模数据集,分别对所述候选模型进行迭代训练优化,直至各所述候选模型均满足预设第二迭代训练结束条件,获得各所述候选模型对应的候选模型提升幅度,具体地,对每一所述候选模型均执行以下步骤:
在所述建模数据集中选取训练样本,并将所述训练样本输入所述候选模型,对所述候选模型进行训练,获得模型输出结果,进而基于所述模型输出结果与所述训练样本对应的真实输出结果,计算模型损失,进而基于所述模型损失,更新所述候选模型的模型参数,并判断更新后的候选模型是否满足预设第二迭代训练结束条件,若满足,则获取所述候选模型对应的模型拟合优良程度值与所述待训练模型对应的模型拟合优良程度值,其中,所述模型拟合优良程度值为用于评估模型的拟合程度的评估值,所述模型拟合优良程度值包括AIC(Akaike information criterion,赤池信息准则)值和AUC(Area Under Curve,受试者工作特征曲线下与坐标轴围成的面积)值,其中,AIC值与AUC值的计算过程为现有技术,在此不再赘述,进而计算所述候选模型对应的模型拟合优良程度值与所述待训练模型对应的模型拟合优良程度值之间的差值,获得候选模型提升幅度,其中,AIC值越小,则模型拟合程度越好,AUC值越大,则模型拟合程度越好,若不满足,则返回所述在所述建模数据集中选取训练样本的步骤。
步骤S13,基于各所述候选模型提升幅度,在各所述候选变量中选取所述目标变量。
在本实施例中,基于各所述候选模型提升幅度,在各所述候选变量中选取所述目标变量,具体地,在各所述候选模型提升幅度中数值最高的候选模型提升幅度作为目标模型提升幅度,并将所述目标模型提升幅度对应的候选变量作为目标变量。
步骤S20,将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果;
在本实施例中,需要说明的是,所述预设验证数据集集合至少包括一验证数据集。
将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果,具体地,将所述目标变量加入所述待训练模型,获得当前迭代模型,进而获取所述当前迭代模型在所述建模数据集上的模型提升幅度,以及在各所述验证数据集上模型提升幅度,进而判断各所述模型提升幅度是否平稳,若是,则证明各所述模型提升幅度之间的差值在预设差值范围内,进而判定加入所述目标变量后的待训练模型可靠,所述可靠性验证结果为可靠,若否,则证明各所述模型提升幅度之间的差值不在预设差值范围内,进而判定加入所述目标变量后的待训练模型不可靠,所述可靠性验证结果为不可靠。
其中,所述预设验证数据集集合包括验证数据集,
所述依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果的步骤包括:
步骤S21,获取所述待训练模型在所述验证数据集上的第三模型提升幅度,以及在所述建模数据集上的第四模型提升幅度;
在本实施例中,获取所述待训练模型在所述验证数据集上的第三模型提升幅度,以及在所述建模数据集上的第四模型提升幅度,具体地,获取待训练模型对应的第一模型拟合优良程度值,其中,所述第一模型拟合优良程度值为所述待训练模型加入目标变量之前在所述建模数据集上的模型拟合优良程度值,进而基于所述验证数据集,对加入目标变量后的待训练模型进行迭代训练优化,直至所述待训练模型满足预设迭代训练结束条件,获取加入目标变量后的待训练模型对应的第二模型拟合优良程度值,其中,所述第二模型拟合优良程度值为所述待训练模型加入目标变量之后在所述验证数据集上的模型拟合优良程度值,进而计算所述第二模型拟合优良程度值与所述第一模型拟合优良程度值之差,获得第三模型提升幅度,并基于所述建模数据集,对加入目标变量后的待训练模型进行迭代训练优化,直至所述待训练模型满足预设迭代训练结束条件,获得加入目标变量后的待训练模型对应的第三模型拟合优良程度值,其中,所述第三模型拟合优良程度值为所述待训练模型加入目标变量之后在所述建模数据集上的模型拟合优良程度值,进而计算所述第三模型拟合优良程度值与所述第一模型拟合优良程度值之差,获得第四模型提升幅度。
其中,所述获取所述待训练模型在所述验证数据集上的第三模型提升幅度的步骤包括:
步骤S211,获取所述待训练模型的第一模型拟合优良程度值;
步骤S212,基于所述验证数据集,对所述待训练模型进行迭代训练优化,直至所述待训练模型满足预设迭代训练结束条件,获取所述待训练模型的第二模型拟合优良程度值;
在本实施例中,基于所述验证数据集,对所述待训练模型进行迭代训练优化,直至所述待训练模型满足预设迭代训练结束条件,获取所述待训练模型的第二模型拟合优良程度值,具体地,在所述验证数据集中选取验证训练样本,并将所述验证训练样本输入加入所述目标变量后的待训练模型,对所述待训练模型进行训练优化,获得验证输出结果,并基于所述验证输出结果与所述验证训练样本对应的真实验证输出结果,计算验证模型损失,进而基于所述验证模型损失,更新加入所述目标变量之后的待训练模型的模型参数,获得更新后的待训练模型,进而判断更新后的待训练模型是否满足预设迭代训练结束条件,若满足,则获取所述待训练模型的第二模型拟合优良程度值,若不满足,则返回所述在所述验证数据集中选取验证训练样本的步骤,其中,所述预设迭代训练结束条件包括损失函数收敛和达到最大迭代次数阈值等。
步骤S213,基于所述第一模型拟合优良程度值和所述第二模型拟合优良程度值,计算所述第三模型提升幅度。
在本实施例中,需要说明的是,所述第三模型提升幅度为所述第二模型拟合优良程度值相比于所述第一模型拟合优良程度值的提升幅度。
步骤S22,计算所述第三模型提升幅度与所述第四模型提升幅度之间的模型提升幅度误差;
在本实施例中,需要说明的是,所述模型提升幅度误差为所述第四模型提升幅度与所述第三模型提升幅度的差值。
步骤S23,基于所述模型提升幅度误差,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果。
在本实施例中,需要说明的是,基于所述模型提升幅度误差,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果,具体地,将所述模型提升幅度误差与预设模型提升幅度误差阈值进行比对,若所述模型提升幅度误差大于预设模型提升幅度误差阈值,则证明加入目标变量后的待训练模型在建模数据集与验证数据集上的拟合效果不同,进而加入目标变量后的待训练模型容易在建模数据集或者验证数据集上过拟合,所以,此时加入目标变量后的待训练模型不可靠,所述可靠性验证结果为不可靠,若所述模型提升幅度误差不大于预设模型提升幅度误差阈值,则证明加入目标变量后的待训练模型在建模数据集与验证数据集上的拟合效果相同,进而加入目标变量后的待训练模型容易在建模数据集或者验证数据集上不存在过拟合的问题,进而此时加入目标变量后的待训练模型可靠,所述可靠性验证结果为可靠。
步骤S30,依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型。
在本实施例中,依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型,具体地,若所述可靠性验证结果为可靠,则返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型,若所述模型可靠性验证结果为不可靠,则在所述候选变量池中剔除所述目标变量,并返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型,其中,所述预设模型构建结束条件包括模型拟合优良程度值满足预设优良程度值条件,其中,所述预设优良程度值条件包括AIC最小和AUC最大等
其中,所述依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型的步骤包括:
步骤S31,若所述模型可靠性验证结果为可靠,则返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型;
在本实施例中,若所述模型可靠性验证结果为可靠,则返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型,具体地,若所述模型可靠性验证结果为可靠,则返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,以重新在所述候选变量池中选取模型提升幅度最高的目标变量加入待训练模型进行迭代训练优化,直至至所述待训练模型满足预设模型构建结束条件,将待训练模型作为目标建模模型。
步骤S32,若所述模型可靠性验证结果为不可靠,则在所述候选变量池中剔除所述目标变量,并返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型。
在本实施例中,若所述模型可靠性验证结果为不可靠,则在所述候选变量池中剔除所述目标变量,并返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型,具体地,若所述模型可靠性验证结果为不可靠,则证明所述待训练模型容易在建模数据集或者验证数据集上过拟合,且导致待训练模型容易过拟合的因素为目标变量,进而在所述待训练模型与所述预设变量池中剔除所述目标变量,并返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,以重新在所述候选变量池中选取模型提升幅度最高的目标变量加入待训练模型进行迭代训练优化,直至至所述待训练模型满足预设模型构建结束条件,将待训练模型作为目标建模模型,进而实现了在模型构建过程中解释导致模型容易过拟合的因素,且达到了防止模型过拟合的目的。
本申请实施例提供了一种基于可靠性验证的模型构建优化方法,相比于现有技术采用的在模型开发完成后,对模型拟合结果进行验证的技术手段,本申请实施例在获取待训练模型、建模数据集和候选变量池后,首先在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量,进而将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果,进而实现了在模型构建过程中进行可靠性验证的目的,可单独验证某一建模变量对待训练模型的影响,解释了每一建模变量对待训练模型是具备好的影响还是坏的影响,进而依据所述可靠性验证结果,优化所述待训练模型,即可获得目标建模模型,也即,依据所述可靠性验证结果,可指导模型的建模拟合过程,可更加效率地构建目标建模模型,所以,克服了现有技术中若通过验证确定模型拟合效果不佳,则只能重新进行建模,而由于模型构建过程涉及的计算量极大,重新进行建模的过程将浪费大量的计算资源,进而导致模型构建的效率极低的技术缺陷,提高了模型构建的效率。
进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,所述预设验证数据集集合至少包括一验证数据集,
所述依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果的步骤包括:
步骤A10,获取所述待训练模型在所述建模数据集上的第一模型提升幅度,以及在各所述验证数据集上的第二模型提升幅度;
在本实施例中,获取所述待训练模型在所述建模数据集上的第一模型提升幅度,以及在各所述验证数据集上的第二模型提升幅度,具体地,获取待训练模型对应的第一模型拟合优良程度值,其中,所述第一模型拟合优良程度值为所述待训练模型加入目标变量之前在所述建模数据集上的模型拟合优良程度值,并基于所述建模数据集,对加入所述目标变量的待训练模型进行迭代训练优化,直至所述待训练模型满足预设迭代训练结束条件,获取加入所述目标变量后的待训练模型的第三模型拟合优良程度值,其中,所述第三模型拟合优良程度值为所述待训练模型加入目标变量之后在所述建模数据集上的模型拟合优良程度值,进而计算所述第三模型拟合优良程度值与所述第一模型拟合优良程度值之间的差值,获得第一模型提升幅度,进而对每一所述验证数据集均执行以下步骤:
基于所述验证数据集,对加入目标变量后的待训练模型进行迭代训练优化,直至所述待训练模型满足预设迭代训练结束条件,获取加入目标变量后的待训练模型对应的第四模型拟合优良程度值,进而计算所述第四模型拟合优良程度值与所述第一模型拟合优良程度值之间的差值,获得第二模型提升幅度,进而获得各所述验证数据集对应的第二模型提升幅度。
步骤A20,基于所述第一模型提升幅度和各所述第二模型提升幅度,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果。
在本实施例中,基于所述第一模型提升幅度和各所述第二模型提升幅度,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果,具体地,计算所述第一模型提升幅度和各所述第二模型提升幅度之间的幅度标准差,进而将所述幅度标准差与预设标准差阈值进行比对,若所述幅度标准差大于预设标准差阈值,则判定待训练模型在所述建模数据集与各所述验证数据集上的模型提升幅度较大,进而待训练模型容易在所述建模数据集或者所述验证数据集过拟合,进而判定所述待训练模型可靠,也即,所述可靠性验证结果为可靠。
其中,所述基于所述第一模型提升幅度和各所述第二模型提升幅度,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果的步骤包括:
步骤A21,对所述第一模型提升幅度和各所述第二模型提升幅度进行平稳性验证,获得平稳性验证结果;
在本实施例中,对所述第一模型提升幅度和各所述第二模型提升幅度进行平稳性验证,获得平稳性验证结果,具体地,在所述第一模型提升幅度和各所述第二模型提升幅度中选取最大模型提升幅度和最小模型提升幅度,并计算所述最大模型提升幅度与所述最小模型提升幅度之差,获得模型提升幅度波动值,进而若所述模型提升幅度波动值大于预设波动值阈值,则所述平稳性验证结果为不平稳,若所述模型提升幅度波动值不大于预设波动值阈值,则所述平稳性验证结果为平稳。
步骤A22,基于所述平稳性验证结果,确定所述待训练模型的可靠性,获得所述可靠性验证结果。
在本实施例中,基于所述平稳性验证结果,确定所述待训练模型的可靠性,获得所述可靠性验证结果,具体地,若所述平稳性验证结果为不平稳,则判定加入目标变量后的所述待训练模型容易在所述建模数据集或者验证数据集上过拟合,进而所述待训练模型不可靠,所述可靠性验证结果为不可靠,若所述平稳性验证结果为平稳,则判定加入目标变量后的所述待训练模型不容易在所述建模数据集或者验证数据集上过拟合,进而所述待训练模型可靠,所述可靠性验证结果为可靠。
本申请实施例提供了一种模型可靠性验证方法,也即获取所述待训练模型在所述建模数据集上的第一模型提升幅度,以及在各所述验证数据集上的第二模型提升幅度,进而基于所述第一模型提升幅度和各所述第二模型提升幅度,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果,进而实现了在模型构建过程中进行可靠性验证的目的,可单独验证某一建模变量对待训练模型的影响,解释了每一建模变量对待训练模型是具备好的影响还是坏的影响,进而依据所述可靠性验证结果,优化所述待训练模型,即可获得目标建模模型,也即,依据所述可靠性验证结果,可指导模型的建模拟合过程,可更加效率地构建目标建模模型,进而为克服现有技术中若通过验证确定模型拟合效果不佳,则只能重新进行建模,而由于模型构建过程涉及的计算量极大,重新进行建模的过程将浪费大量的计算资源,进而导致模型构建的效率极低的技术缺陷奠定了基础。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该基于可靠性验证的模型构建优化设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该基于可靠性验证的模型构建优化设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的基于可靠性验证的模型构建优化设备结构并不构成对基于可靠性验证的模型构建优化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及基于可靠性验证的模型构建优化程序。操作系统是管理和控制基于可靠性验证的模型构建优化设备硬件和软件资源的程序,支持基于可靠性验证的模型构建优化程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与基于可靠性验证的模型构建优化系统中其它硬件和软件之间通信。
在图3所示的基于可靠性验证的模型构建优化设备中,处理器1001用于执行存储器1005中存储的基于可靠性验证的模型构建优化程序,实现上述任一项所述的基于可靠性验证的模型构建优化方法的步骤。
本申请基于可靠性验证的模型构建优化设备具体实施方式与上述基于可靠性验证的模型构建优化方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种基于可靠性验证的模型构建优化装置,所述基于可靠性验证的模型构建优化装置应用于基于可靠性验证的模型构建优化设备,所述基于可靠性验证的模型构建优化装置包括:
选取模块,用于获取待训练模型、建模数据集和候选变量池,并在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量;
可靠性验证模块,用于将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果;
模型优化模块,用于依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型。
可选地,所述可靠性验证模块还用于:
获取所述待训练模型在所述建模数据集上的第一模型提升幅度,以及在各所述验证数据集上的第二模型提升幅度;
基于所述第一模型提升幅度和各所述第二模型提升幅度,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果。
可选地,所述可靠性验证模块还用于:
对所述第一模型提升幅度和各所述第二模型提升幅度进行平稳性验证,获得平稳性验证结果;
基于所述平稳性验证结果,确定所述待训练模型的可靠性,获得所述可靠性验证结果。
可选地,所述可靠性验证模块还用于:
获取所述待训练模型在所述验证数据集上的第三模型提升幅度,以及在所述建模数据集上的第四模型提升幅度;
计算所述第三模型提升幅度与所述第四模型提升幅度之间的模型提升幅度误差;
基于所述模型提升幅度误差,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果。
可选地,所述可靠性验证模块还用于:
获取所述待训练模型的第一模型拟合优良程度值;
基于所述验证数据集,对所述待训练模型进行迭代训练优化,直至所述待训练模型满足预设迭代训练结束条件,获取所述待训练模型的第二模型拟合优良程度值;
基于所述第一模型拟合优良程度值和所述第二模型拟合优良程度值,计算所述第三模型提升幅度。
可选地,所述模型优化模块还用于:
若所述模型可靠性验证结果为可靠,则返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型;
若所述模型可靠性验证结果为不可靠,则在所述候选变量池中剔除所述目标变量,并返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型。
可选地,所述选取模块还用于:
将各所述候选变量分别加入所述待训练模型,获得各候选模型;
基于所述建模数据集,分别对所述候选模型进行迭代训练优化,直至各所述候选模型均满足预设第二迭代训练结束条件,获得各所述候选模型对应的候选模型提升幅度;
基于各所述候选模型提升幅度,在各所述候选变量中选取所述目标变量。
本申请基于可靠性验证的模型构建优化装置的具体实施方式与上述基于可靠性验证的模型构建优化方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的基于可靠性验证的模型构建优化方法的步骤。
本申请可读存储介质具体实施方式与上述基于可靠性验证的模型构建优化方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种基于可靠性验证的模型构建优化方法,其特征在于,所述基于可靠性验证的模型构建优化方法包括:
获取待训练模型、建模数据集和候选变量池,并在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量;
将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果;
依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型。
2.如权利要求1所述基于可靠性验证的模型构建优化方法,其特征在于,所述预设验证数据集集合至少包括一验证数据集,
所述依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果的步骤包括:
获取所述待训练模型在所述建模数据集上的第一模型提升幅度,以及在各所述验证数据集上的第二模型提升幅度;
基于所述第一模型提升幅度和各所述第二模型提升幅度,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果。
3.如权利要求2所述基于可靠性验证的模型构建优化方法,其特征在于,所述基于所述第一模型提升幅度和各所述第二模型提升幅度,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果的步骤包括:
对所述第一模型提升幅度和各所述第二模型提升幅度进行平稳性验证,获得平稳性验证结果;
基于所述平稳性验证结果,确定所述待训练模型的可靠性,获得所述可靠性验证结果。
4.如权利要求1所述基于可靠性验证的模型构建优化方法,其特征在于,所述预设验证数据集集合包括验证数据集,
所述依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果的步骤包括:
获取所述待训练模型在所述验证数据集上的第三模型提升幅度,以及在所述建模数据集上的第四模型提升幅度;
计算所述第三模型提升幅度与所述第四模型提升幅度之间的模型提升幅度误差;
基于所述模型提升幅度误差,对所述待训练模型进行可靠性验证,获得所述可靠性验证结果。
5.如权利要求4所述基于可靠性验证的模型构建优化方法,其特征在于,所述获取所述待训练模型在所述验证数据集上的第三模型提升幅度的步骤包括:
获取所述待训练模型的第一模型拟合优良程度值;
基于所述验证数据集,对所述待训练模型进行迭代训练优化,直至所述待训练模型满足预设迭代训练结束条件,获取所述待训练模型的第二模型拟合优良程度值;
基于所述第一模型拟合优良程度值和所述第二模型拟合优良程度值,计算所述第三模型提升幅度。
6.如权利要求1所述基于可靠性验证的模型构建优化方法,其特征在于,所述依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型的步骤包括:
若所述模型可靠性验证结果为可靠,则返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型;
若所述模型可靠性验证结果为不可靠,则在所述候选变量池中剔除所述目标变量,并返回所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤,直至所述待训练模型满足预设模型构建结束条件,获得所述目标建模模型。
7.如权利要求1所述基于可靠性验证的模型构建优化方法,其特征在于,所述候选变量池至少包括一候选变量,
所述在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量的步骤包括:
将各所述候选变量分别加入所述待训练模型,获得各候选模型;
基于所述建模数据集,分别对所述候选模型进行迭代训练优化,直至各所述候选模型均满足预设第二迭代训练结束条件,获得各所述候选模型对应的候选模型提升幅度;
基于各所述候选模型提升幅度,在各所述候选变量中选取所述目标变量。
8.一种基于可靠性验证的模型构建优化装置,其特征在于,所述基于可靠性验证的模型构建优化装置包括:
选取模块,用于获取待训练模型、建模数据集和候选变量池,并在所述候选变量池中选取在所述建模数据集上模型提升幅度最高的目标变量;
可靠性验证模块,用于将所述目标变量加入所述待训练模型,并依据预设验证数据集集合和所述建模数据集,对所述待训练模型进行可靠性验证,获得可靠性验证结果;
模型优化模块,用于依据所述可靠性验证结果,优化所述待训练模型,获得目标建模模型。
9.一种基于可靠性验证的模型构建优化设备,其特征在于,所述基于可靠性验证的模型构建优化设备包括:存储器、处理器以及存储在存储器上的用于实现所述基于可靠性验证的模型构建优化方法的程序,
所述存储器用于存储实现基于可靠性验证的模型构建优化方法的程序;
所述处理器用于执行实现所述基于可靠性验证的模型构建优化方法的程序,以实现如权利要求1至7中任一项所述基于可靠性验证的模型构建优化方法的步骤。
10.一种介质,所述介质为可读存储介质,其特征在于,所述可读存储介质上存储有实现基于可靠性验证的模型构建优化方法的程序,所述实现基于可靠性验证的模型构建优化方法的程序被处理器执行以实现如权利要求1至7中任一项所述基于可靠性验证的模型构建优化方法的步骤。
CN202011618407.2A 2020-12-30 2020-12-30 基于可靠性验证的模型构建优化方法、装置、设备和介质 Pending CN112712180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011618407.2A CN112712180A (zh) 2020-12-30 2020-12-30 基于可靠性验证的模型构建优化方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011618407.2A CN112712180A (zh) 2020-12-30 2020-12-30 基于可靠性验证的模型构建优化方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN112712180A true CN112712180A (zh) 2021-04-27

Family

ID=75547422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011618407.2A Pending CN112712180A (zh) 2020-12-30 2020-12-30 基于可靠性验证的模型构建优化方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112712180A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114252828A (zh) * 2021-12-21 2022-03-29 安徽福晴医疗科技有限公司 一种磁共振成像系统及其预加重涡流校正方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114252828A (zh) * 2021-12-21 2022-03-29 安徽福晴医疗科技有限公司 一种磁共振成像系统及其预加重涡流校正方法和装置

Similar Documents

Publication Publication Date Title
US20200241921A1 (en) Building neural networks for resource allocation for iterative workloads using reinforcement learning
US8938375B2 (en) Optimizing business process management models
CN112101530A (zh) 神经网络训练方法、装置、设备及存储介质
JP6892424B2 (ja) ハイパーパラメータチューニング方法、装置及びプログラム
CN111241745A (zh) 逐步模型选择方法、设备及可读存储介质
CN112559721B (zh) 人机对话系统的调整方法、装置、设备、介质和程序产品
WO2020237798A1 (zh) 一种升级方法及装置
CN111428883A (zh) 基于向后法的联邦建模方法、设备和可读存储介质
CN115427968A (zh) 边缘计算设备中的鲁棒人工智能推理
CN115113528B (zh) 神经网络模型的运行控制方法、装置、设备及介质
CN112712180A (zh) 基于可靠性验证的模型构建优化方法、装置、设备和介质
CN113095508A (zh) 回归模型构建优化方法、设备、介质及计算机程序产品
CN110909888A (zh) 泛型决策树构建方法、装置、设备及可读存储介质
CN113641525A (zh) 变量异常修复方法、设备、介质及计算机程序产品
JP6577516B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
CN113268335A (zh) 模型训练和执行时长预估方法、装置、设备和存储介质
CN111241746A (zh) 向前模型选择方法、设备和可读存储介质
CN112231650B (zh) 一种数据隐私保护协议的分析方法、装置及电子设备
CN114253550A (zh) 优化策略生成方法和算子构建方法
CN112749082B (zh) 一种基于de-th算法的测试用例生成方法及系统
CN109362027B (zh) 定位方法、装置、设备及存储介质
WO2020134011A1 (zh) 展示信息组合确定方法、装置、存储介质及电子设备
CN114819442A (zh) 一种运筹优化方法、装置和计算设备
CN114615144B (zh) 网络优化方法及系统
CN113128677A (zh) 模型生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination