CN114117763A - 一种基于移一交叉验证法的模型筛选方法 - Google Patents

一种基于移一交叉验证法的模型筛选方法 Download PDF

Info

Publication number
CN114117763A
CN114117763A CN202111365990.5A CN202111365990A CN114117763A CN 114117763 A CN114117763 A CN 114117763A CN 202111365990 A CN202111365990 A CN 202111365990A CN 114117763 A CN114117763 A CN 114117763A
Authority
CN
China
Prior art keywords
virtual
sample
model
shift
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111365990.5A
Other languages
English (en)
Other versions
CN114117763B (zh
Inventor
吕利叶
鲁玉军
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Sci Tech University ZSTU
Original Assignee
Zhejiang Sci Tech University ZSTU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Sci Tech University ZSTU filed Critical Zhejiang Sci Tech University ZSTU
Priority to CN202111365990.5A priority Critical patent/CN114117763B/zh
Publication of CN114117763A publication Critical patent/CN114117763A/zh
Application granted granted Critical
Publication of CN114117763B publication Critical patent/CN114117763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于移一交叉验证法的模型筛选方法。经典交叉验证法存在全部剔除验证集有用信息的缺陷。本发明根据样本集构建初始代理模型,逐个选择样本点作为验证集,剩下样本点作为初始训练集,并将验证集中的样本点沿随机正态分布移动得到虚拟验证点,将虚拟验证点的输入代入初始代理模型得到初始代理模型的虚拟响应,从而得到初始代理模型所预测的虚拟样本点;用虚拟样本点替换样本集中的样本点,得到更新后的虚拟训练集;构建虚拟代理模型,计算虚拟代理模型的移一交叉验证局部误差:遍历样本集中的各样本点后,对各移一交叉验证局部误差求均值,得到移一交叉验证全局误差。本发明极大限度保留了验证集信息,提高了模型筛选准确度。

Description

一种基于移一交叉验证法的模型筛选方法
技术领域
本发明属于代理模型技术领域,具体涉及一种基于移一交叉验证法的新型模型筛选方法。
背景技术
传统的工程优化设计与分析研究通常利用物理实验获得少量实验数据,探究工程系统运行规律,存在设计周期长、实验成本高等不可忽视的缺点。随着数值计算方法飞速发展,计算机技术显著提高,数值仿真技术被逐渐应用到工程实际中,且因其强大的计算推导能力、可靠性、准确性,将逐步替代物理实验。然而,计算机仿真技术也无法跳出其自身的局限性。尽管,随着中央处理器和内存的不断更新换代,计算机的运算能力突飞猛进,但是为了保证工程优化设计优化与分析结果的可靠性与准确性,所需的仿真模型越来越精细,模型的保真度与复杂度同时稳步提高,导致快速发展的计算机技术仍不能满足优化设计与分析时所需的高昂计算资源与时间。因此,为了减少高保真度仿真模型高昂的计算成本,针对工程优化设计与分析问题的复杂性,基于少量数据的数值分析计算方法——代理模型技术应运而生。但是,学者们指出没有一种代理模型可以完美解决所有问题,在实际工程问题中,往往需要模型筛选技术从多种代理模型中筛选出较为精确的模型。交叉验证方法可在不产生多余测试点的前提下进行模型筛选,因而被广泛应用在工程实际中。交叉验证方法一般可以分为两种:留一交叉验证法和自荐法,其中留一交叉验证法与k-折交叉验证法类似,自荐法与蒙特卡洛交叉验证法相似。但是,据文献研究,交叉验证方法在样本量较小的情况下性能很不可靠,无法准确地剔除掉较差模型或者筛选出较好的模型。其原因在于交叉验证方法将训练点分为训练集和验证集,在计算交叉验证误差时验证集包含的信息全部被剔除,而该验证集对不同的代理模型重要性可能不同。因此,为了尽可能地保留验证集的信息,提高模型筛选精度,有必要提出一种更为可靠的模型筛选策略,以便弥补经典交叉验证方法的缺陷。
发明内容
针对现有交叉验证方法存在的问题,本发明提供一种基于移一交叉验证法的新型模型筛选方法,借用留一交叉验证方法的思想,通过将验证集中的样本点沿随机正态分布进行移动而不是剔除掉验证点(称为移一交叉验证方法),并通过计算移一交叉验证误差进行代理模型的筛选。
本发明采用的技术方案如下:
本发明一种基于移一交叉验证法的模型筛选方法,主要包括以下步骤:
根据包含n个样本点的样本集(x,y)={(x1,y1),...,(xj,yj),...,(xn,yn)},构建初始代理模型S0;然后,计算样本集(x,y)中各样本点之间的欧氏距离,将最小的距离设为dmin;接着,逐个选择样本集(x,y)中的样本点(xj,yj)作为验证集(xv,yv),剩下n-1个样本点作为初始训练集(xtr,ytr),进行如下操作:
(1)以均值μ等于xj,构建正态分布N(μ,σ2),在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点,将验证集中的样本点(xj,yj)沿着随机正态分布N=(μ,σ)移动虚拟验证点上,其中,方差σ=0.02dmin;然后,将虚拟验证点的输入
Figure BDA0003360628810000021
代入初始代理模型S0中得到初始代理模型S0
Figure BDA0003360628810000022
处的虚拟响应
Figure BDA0003360628810000023
从而得到初始代理模型S0所预测的虚拟样本点
Figure BDA0003360628810000024
(2)用虚拟样本点
Figure BDA0003360628810000025
替换样本集(x,y)中的样本点(xj,yj),得到更新后的虚拟训练集
Figure BDA0003360628810000026
并构建虚拟代理模型S1,计算虚拟代理模型S1的移一交叉验证局部误差:
Figure BDA0003360628810000027
当j从1遍历到n后,最后对各个移一交叉验证局部误差求均值,计算得到移一交叉验证全局误差。
优选地,利用拉丁超立方取样方法抽取n个样本点,得到样本集。
优选地,以决定系数R2为评价标准,来评价移一交叉验证全局误差的计算精度。
本发明具有的有益效果:
本发明区别于经典留一交叉验证方法,通过将验证点沿随机正态分布进行移动而不是剔除掉验证点,极大限度保留了验证集信息,缓解了验证集信息缺失对交叉验证误差造成的不良影响,从而提高误差计算精度与模型筛选准确度。
附图说明
图1为本发明的流程图。
图2为本发明针对一个实例的模型筛选过程示意图。
图3为本发明与留一交叉验证法的模型筛选正确率对比图。
具体实施方式
留一法交叉验证方法一般用在模型选择中,但是在没有足够多的样本点时,不一定总能挑选到最好或最坏的模型。在使用留一法交叉验证方法的时候,样本点被分为训练集和验证集,训练集用来构建模型,验证集用来评估所构建模型的精度。本发明基于留一法交叉验证方法,提出了移一法交叉验证方法,将样本点分为初始训练集和验证集,同时将验证集随多元正态分布进行移动,形成新的验证集,最终用来构建模型的训练集是初始训练集和更新后验证集的合集。
以下结合附图和具体实施步骤,进一步阐述本发明。
本发明设计的一种基于移一交叉验证法的模型筛选方法,见图1,主要流程如下:
含有n个样本点的样本集如下:(x,y)={(x1,y1),...,(xj,yj),...,(xn,yn)},遍历样本集中的各个样本点,每次遍历时进行如下操作:选择样本点(xj,yj)作为验证集(xv,yv),1≤j≤n,剩下n-1个样本点作为初始训练集(xtr,ytr);然后,以均值μ等于xj,构建正态分布N(μ,σ2),在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点,将验证集中的样本点(xj,yj)移动到虚拟验证点上;其中,方差σ2等于(ωdmin)2,dmin是样本集中各样本点间最小的距离,ω是经验参数,设置为0.02;将虚拟验证点的输入
Figure BDA0003360628810000031
代入根据样本集(x,y)构建的代理模型中,得到代理模型在
Figure BDA0003360628810000032
处的预测值
Figure BDA0003360628810000033
从而得到根据样本集(x,y)构建的代理模型所预测的虚拟验证点
Figure BDA0003360628810000034
最后,用虚拟样本点
Figure BDA0003360628810000035
替换样本集(x,y)中的样本点(xj,yj),得到更新后的虚拟训练集
Figure BDA0003360628810000036
并构建虚拟代理模型,计算虚拟代理模型的移一交叉验证局部误差:
Figure BDA0003360628810000037
当j从1遍历到n后,最后对各个移一交叉验证局部误差求均值,计算得到移一交叉验证全局误差MOA-CVerror。
以一个一维测试函数(如式(2))为例,阐述本发明的求解过程。
Figure BDA0003360628810000038
随机生成5个样本点,得到样本集,建立克里金初始代理模型(KRG模型),基于克里金初始代理模型,通过移一交叉验证方法生成5个样本点对应的5个虚拟验证点,如图2所示。图2中a)显示每个样本点(实心原点)都围绕正态分布移动,图2中b)到f)描述了在5次迭代中获得移一交叉验证局部误差error(1)-error(5)的过程,最后通过平均5个局部误差来计算移一交叉验证全局误差MOA-CVerror。
为测试本发明的实际性能,利用14个测试函数与留一交叉验证法性能进行了对比研究。为了直观地对比筛选性能,对14个测试函数分别建立多项式拟合曲面(PRS)、多拟合曲面径向基函数(RBF-MQ)、薄板样条曲线径向基函数(RBF-TPS)、克里金(KRG)四种代理模型,以决定系数R2为评价标准,如果某代理模型的R2越高,证明该代理模型预测性能越好,理想状态下该代理模型的移一交叉验证误差和留一交叉验证误差应该越小,反之亦然,以此来判断两种方法模型筛选的可靠性与准确性。图3为本发明和留一交叉验证法模型筛选正确率对比结果,横坐标为测试函数,纵坐标为模型筛选正确率,其值越高越好。从图3中可以看出,14个测试函数中,针对大多数函数,本发明在模型筛选正确率上优于留一交叉验证方法,表明本发明所设计的一种基于交叉验证方法的新型模型筛选策略更能够提供可靠、精确的误差计算结果。

Claims (3)

1.一种基于移一交叉验证法的模型筛选方法,其特征在于:主要包括以下步骤:
根据包含n个样本点的样本集(x,y)={(x1,y1),...,(xj,yj),...,(xn,yn)},构建初始代理模型S0;然后,计算样本集(x,y)中各样本点之间的欧氏距离,将最小的距离设为dmin;接着,逐个选择样本集(x,y)中的样本点(xj,yj)作为验证集(xv,yv),剩下n-1个样本点作为初始训练集(xtr,ytr),进行如下操作:
(1)以均值μ等于xj,构建正态分布N(μ,σ2),在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点,将验证集中的样本点(xj,yj)沿着随机正态分布N=(μ,σ)移动虚拟验证点上,其中,方差σ=0.02dmin;然后,将虚拟验证点的输入
Figure FDA0003360628800000011
代入初始代理模型S0中得到初始代理模型S0
Figure FDA0003360628800000012
处的虚拟响应
Figure FDA0003360628800000013
从而得到初始代理模型S0所预测的虚拟样本点
Figure FDA0003360628800000014
(2)用虚拟样本点
Figure FDA0003360628800000015
替换样本集(x,y)中的样本点(xj,yj),得到更新后的虚拟训练集
Figure FDA0003360628800000016
并构建虚拟代理模型S1,计算虚拟代理模型S1的移一交叉验证局部误差:
Figure FDA0003360628800000017
当j从1遍历到n后,最后对各个移一交叉验证局部误差求均值,计算得到移一交叉验证全局误差。
2.根据权利要求1所述一种基于移一交叉验证法的模型筛选方法,其特征在于:利用拉丁超立方取样方法抽取n个样本点,得到样本集。
3.根据权利要求1或2所述一种基于移一交叉验证法的模型筛选方法,其特征在于:以决定系数R2为评价标准,来评价移一交叉验证全局误差的计算精度。
CN202111365990.5A 2021-11-18 2021-11-18 一种基于移一交叉验证法的模型筛选方法 Active CN114117763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111365990.5A CN114117763B (zh) 2021-11-18 2021-11-18 一种基于移一交叉验证法的模型筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111365990.5A CN114117763B (zh) 2021-11-18 2021-11-18 一种基于移一交叉验证法的模型筛选方法

Publications (2)

Publication Number Publication Date
CN114117763A true CN114117763A (zh) 2022-03-01
CN114117763B CN114117763B (zh) 2024-05-03

Family

ID=80397229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111365990.5A Active CN114117763B (zh) 2021-11-18 2021-11-18 一种基于移一交叉验证法的模型筛选方法

Country Status (1)

Country Link
CN (1) CN114117763B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078099A1 (en) * 2001-05-18 2011-03-31 Health Discovery Corporation Method for feature selection and for evaluating features identified as significant for classifying data
CN110895626A (zh) * 2018-09-11 2020-03-20 湖南银杏可靠性技术研究所有限公司 基于留一交叉验证的性能退化模型精度验证方法
CN112949137A (zh) * 2021-03-18 2021-06-11 大连理工大学 一种基于径向基函数代理模型的提升机天轮轻量化设计方法
CN113159114A (zh) * 2021-03-09 2021-07-23 山西三友和智慧信息技术股份有限公司 一种基于nir数据中应用的高维数据降维交叉验证分析方法
CN113408046A (zh) * 2021-05-20 2021-09-17 大连理工大学宁波研究院 一种基于耐撞性的铆接点变间距布置的多学科优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078099A1 (en) * 2001-05-18 2011-03-31 Health Discovery Corporation Method for feature selection and for evaluating features identified as significant for classifying data
CN110895626A (zh) * 2018-09-11 2020-03-20 湖南银杏可靠性技术研究所有限公司 基于留一交叉验证的性能退化模型精度验证方法
CN113159114A (zh) * 2021-03-09 2021-07-23 山西三友和智慧信息技术股份有限公司 一种基于nir数据中应用的高维数据降维交叉验证分析方法
CN112949137A (zh) * 2021-03-18 2021-06-11 大连理工大学 一种基于径向基函数代理模型的提升机天轮轻量化设计方法
CN113408046A (zh) * 2021-05-20 2021-09-17 大连理工大学宁波研究院 一种基于耐撞性的铆接点变间距布置的多学科优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋保维;王新晶;王鹏;: "基于遗传算子采样的自适应代理优化算法", 西北工业大学学报, no. 04, 15 August 2016 (2016-08-15) *

Also Published As

Publication number Publication date
CN114117763B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN102508692B (zh) 临近空间飞行器控制方法仿真与验证方法
CN102110013B (zh) 用于有效生成处理器体系结构模型的方法和设备
EP3739494A2 (en) Method, apparatus, system, and program for optimizing solid electrolytes for li-ion batteries using bayesian optimization
CN116882038A (zh) 一种基于bim技术的机电施工方法及系统
CN117236278B (zh) 一种基于数字孪生技术的芯片生产仿真方法及系统
CN103885867B (zh) 一种模拟电路性能的在线评价方法
Kamran et al. Decision support system for the prediction of mine fire levels in underground coal mining using machine learning approaches
CN111797535A (zh) 一种面向多种代理模型的结构可靠性分析自适应加点方法
CN114282725A (zh) 基于深度学习的瞬态油藏代理模型的构建及油藏预测方法
US10803218B1 (en) Processor-implemented systems using neural networks for simulating high quantile behaviors in physical systems
CN106855865B (zh) 水利水电大数据架构建设方法
US20170039315A1 (en) Information processing apparatus and simulation method
CN117334271A (zh) 一种基于指定属性生成分子的方法
CN117521063A (zh) 基于残差神经网络并结合迁移学习的恶意软件检测方法及装置
CN109902389B (zh) 基于改进通用似然估计的不确定性有限元模型修正方法
US20230004870A1 (en) Machine learning model determination system and machine learning model determination method
CN114117763A (zh) 一种基于移一交叉验证法的模型筛选方法
CN115062551B (zh) 一种基于时序神经网络的湿物理过程参数化方法
CN111126694A (zh) 一种时间序列数据预测方法、系统、介质及设备
Fazel A new method to predict the software fault using improved genetic algorithm
CN116010754A (zh) 存储程序的计算机可读记录介质、数据处理方法和设备
CN114139482A (zh) 一种基于深度度量学习的eda电路失效分析方法
CN113610225A (zh) 质量评估模型训练方法、装置、电子设备及存储介质
CN112307673A (zh) 一种基于深度学习的网格面质量检测方法
CN112380132A (zh) 基于航天软件缺陷数据集类不平衡的对抗验证方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant