CN114117763B - 一种基于移一交叉验证法的模型筛选方法 - Google Patents
一种基于移一交叉验证法的模型筛选方法 Download PDFInfo
- Publication number
- CN114117763B CN114117763B CN202111365990.5A CN202111365990A CN114117763B CN 114117763 B CN114117763 B CN 114117763B CN 202111365990 A CN202111365990 A CN 202111365990A CN 114117763 B CN114117763 B CN 114117763B
- Authority
- CN
- China
- Prior art keywords
- validation
- cross
- virtual
- model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000002790 cross-validation Methods 0.000 title claims abstract description 43
- 238000012216 screening Methods 0.000 title claims abstract description 27
- 238000012795 verification Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000012935 Averaging Methods 0.000 claims abstract description 4
- 230000004044 response Effects 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/10—Numerical modelling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于移一交叉验证法的模型筛选方法。经典交叉验证法存在全部剔除验证集有用信息的缺陷。本发明根据样本集构建初始代理模型,逐个选择样本点作为验证集,剩下样本点作为初始训练集,并将验证集中的样本点沿随机正态分布移动得到虚拟验证点,将虚拟验证点的输入代入初始代理模型得到初始代理模型的虚拟响应,从而得到初始代理模型所预测的虚拟样本点;用虚拟样本点替换样本集中的样本点,得到更新后的虚拟训练集;构建虚拟代理模型,计算虚拟代理模型的移一交叉验证局部误差:遍历样本集中的各样本点后,对各移一交叉验证局部误差求均值,得到移一交叉验证全局误差。本发明极大限度保留了验证集信息,提高了模型筛选准确度。
Description
技术领域
本发明属于代理模型技术领域,具体涉及一种基于移一交叉验证法的新型模型筛选方法。
背景技术
传统的工程优化设计与分析研究通常利用物理实验获得少量实验数据,探究工程系统运行规律,存在设计周期长、实验成本高等不可忽视的缺点。随着数值计算方法飞速发展,计算机技术显著提高,数值仿真技术被逐渐应用到工程实际中,且因其强大的计算推导能力、可靠性、准确性,将逐步替代物理实验。然而,计算机仿真技术也无法跳出其自身的局限性。尽管,随着中央处理器和内存的不断更新换代,计算机的运算能力突飞猛进,但是为了保证工程优化设计优化与分析结果的可靠性与准确性,所需的仿真模型越来越精细,模型的保真度与复杂度同时稳步提高,导致快速发展的计算机技术仍不能满足优化设计与分析时所需的高昂计算资源与时间。因此,为了减少高保真度仿真模型高昂的计算成本,针对工程优化设计与分析问题的复杂性,基于少量数据的数值分析计算方法——代理模型技术应运而生。但是,学者们指出没有一种代理模型可以完美解决所有问题,在实际工程问题中,往往需要模型筛选技术从多种代理模型中筛选出较为精确的模型。交叉验证方法可在不产生多余测试点的前提下进行模型筛选,因而被广泛应用在工程实际中。交叉验证方法一般可以分为两种:留一交叉验证法和自荐法,其中留一交叉验证法与k-折交叉验证法类似,自荐法与蒙特卡洛交叉验证法相似。但是,据文献研究,交叉验证方法在样本量较小的情况下性能很不可靠,无法准确地剔除掉较差模型或者筛选出较好的模型。其原因在于交叉验证方法将训练点分为训练集和验证集,在计算交叉验证误差时验证集包含的信息全部被剔除,而该验证集对不同的代理模型重要性可能不同。因此,为了尽可能地保留验证集的信息,提高模型筛选精度,有必要提出一种更为可靠的模型筛选策略,以便弥补经典交叉验证方法的缺陷。
发明内容
针对现有交叉验证方法存在的问题,本发明提供一种基于移一交叉验证法的新型模型筛选方法,借用留一交叉验证方法的思想,通过将验证集中的样本点沿随机正态分布进行移动而不是剔除掉验证点(称为移一交叉验证方法),并通过计算移一交叉验证误差进行代理模型的筛选。
本发明采用的技术方案如下:
本发明一种基于移一交叉验证法的模型筛选方法,主要包括以下步骤:
根据包含n个样本点的样本集(x,y)={(x1,y1),...,(xj,yj),...,(xn,yn)},构建初始代理模型S0;然后,计算样本集(x,y)中各样本点之间的欧氏距离,将最小的距离设为dmin;接着,逐个选择样本集(x,y)中的样本点(xj,yj)作为验证集(xv,yv),剩下n-1个样本点作为初始训练集(xtr,ytr),进行如下操作:
(1)以均值μ等于xj,构建正态分布N(μ,σ2),在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点,将验证集中的样本点(xj,yj)沿着随机正态分布N=(μ,σ)移动虚拟验证点上,其中,方差σ=0.02dmin;然后,将虚拟验证点的输入代入初始代理模型S0中得到初始代理模型S0在/>处的虚拟响应/>从而得到初始代理模型S0所预测的虚拟样本点
(2)用虚拟样本点替换样本集(x,y)中的样本点(xj,yj),得到更新后的虚拟训练集/>并构建虚拟代理模型S1,计算虚拟代理模型S1的移一交叉验证局部误差:
当j从1遍历到n后,最后对各个移一交叉验证局部误差求均值,计算得到移一交叉验证全局误差。
优选地,利用拉丁超立方取样方法抽取n个样本点,得到样本集。
优选地,以决定系数R2为评价标准,来评价移一交叉验证全局误差的计算精度。
本发明具有的有益效果:
本发明区别于经典留一交叉验证方法,通过将验证点沿随机正态分布进行移动而不是剔除掉验证点,极大限度保留了验证集信息,缓解了验证集信息缺失对交叉验证误差造成的不良影响,从而提高误差计算精度与模型筛选准确度。
附图说明
图1为本发明的流程图。
图2为本发明针对一个实例的模型筛选过程示意图。
图3为本发明与留一交叉验证法的模型筛选正确率对比图。
具体实施方式
留一法交叉验证方法一般用在模型选择中,但是在没有足够多的样本点时,不一定总能挑选到最好或最坏的模型。在使用留一法交叉验证方法的时候,样本点被分为训练集和验证集,训练集用来构建模型,验证集用来评估所构建模型的精度。本发明基于留一法交叉验证方法,提出了移一法交叉验证方法,将样本点分为初始训练集和验证集,同时将验证集随多元正态分布进行移动,形成新的验证集,最终用来构建模型的训练集是初始训练集和更新后验证集的合集。
以下结合附图和具体实施步骤,进一步阐述本发明。
本发明设计的一种基于移一交叉验证法的模型筛选方法,见图1,主要流程如下:
含有n个样本点的样本集如下:(x,y)={(x1,y1),...,(xj,yj),...,(xn,yn)},遍历样本集中的各个样本点,每次遍历时进行如下操作:选择样本点(xj,yj)作为验证集(xv,yv),1≤j≤n,剩下n-1个样本点作为初始训练集(xtr,ytr);然后,以均值μ等于xj,构建正态分布N(μ,σ2),在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点,将验证集中的样本点(xj,yj)移动到虚拟验证点上;其中,方差σ2等于(ωdmin)2,dmin是样本集中各样本点间最小的距离,ω是经验参数,设置为0.02;将虚拟验证点的输入代入根据样本集(x,y)构建的代理模型中,得到代理模型在/>处的预测值/>从而得到根据样本集(x,y)构建的代理模型所预测的虚拟验证点/>最后,用虚拟样本点/>替换样本集(x,y)中的样本点(xj,yj),得到更新后的虚拟训练集/>并构建虚拟代理模型,计算虚拟代理模型的移一交叉验证局部误差:
当j从1遍历到n后,最后对各个移一交叉验证局部误差求均值,计算得到移一交叉验证全局误差MOA-CVerror。
以一个一维测试函数(如式(2))为例,阐述本发明的求解过程。
随机生成5个样本点,得到样本集,建立克里金初始代理模型(KRG模型),基于克里金初始代理模型,通过移一交叉验证方法生成5个样本点对应的5个虚拟验证点,如图2所示。图2中a)显示每个样本点(实心原点)都围绕正态分布移动,图2中b)到f)描述了在5次迭代中获得移一交叉验证局部误差error(1)-error(5)的过程,最后通过平均5个局部误差来计算移一交叉验证全局误差MOA-CVerror。
为测试本发明的实际性能,利用14个测试函数与留一交叉验证法性能进行了对比研究。为了直观地对比筛选性能,对14个测试函数分别建立多项式拟合曲面(PRS)、多拟合曲面径向基函数(RBF-MQ)、薄板样条曲线径向基函数(RBF-TPS)、克里金(KRG)四种代理模型,以决定系数R2为评价标准,如果某代理模型的R2越高,证明该代理模型预测性能越好,理想状态下该代理模型的移一交叉验证误差和留一交叉验证误差应该越小,反之亦然,以此来判断两种方法模型筛选的可靠性与准确性。图3为本发明和留一交叉验证法模型筛选正确率对比结果,横坐标为测试函数,纵坐标为模型筛选正确率,其值越高越好。从图3中可以看出,14个测试函数中,针对大多数函数,本发明在模型筛选正确率上优于留一交叉验证方法,表明本发明所设计的一种基于交叉验证方法的新型模型筛选策略更能够提供可靠、精确的误差计算结果。
Claims (3)
1.一种基于移一交叉验证法的模型筛选方法,其特征在于:主要包括以下步骤:
根据包含n个样本点的样本集(x,y)={(x1,y1),...,(xj,yj),...,(xn,yn)},构建初始代理模型S0;然后,计算样本集(x,y)中各样本点之间的欧氏距离,将最小的距离设为dmin;接着,逐个选择样本集(x,y)中的样本点(xj,yj)作为验证集(xv,yv),剩下n-1个样本点作为初始训练集(xtr,ytr),进行如下操作:
(1)以均值μ等于xj,构建正态分布N(μ,σ2),在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点,将验证集中的样本点(xj,yj)沿着随机正态分布N=(μ,σ)移动虚拟验证点上,其中,方差σ=0.02dmin;然后,将虚拟验证点的输入代入初始代理模型S0中得到初始代理模型S0在/>处的虚拟响应/>从而得到初始代理模型S0所预测的虚拟样本点
(2)用虚拟样本点替换样本集(x,y)中的样本点(xj,yj),得到更新后的虚拟训练集/>并构建虚拟代理模型S1,计算虚拟代理模型S1的移一交叉验证局部误差:
当j从1遍历到n后,最后对各个移一交叉验证局部误差求均值,计算得到移一交叉验证全局误差。
2.根据权利要求1所述一种基于移一交叉验证法的模型筛选方法,其特征在于:利用拉丁超立方取样方法抽取n个样本点,得到样本集。
3.根据权利要求1或2所述一种基于移一交叉验证法的模型筛选方法,其特征在于:以决定系数R2为评价标准,来评价移一交叉验证全局误差的计算精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111365990.5A CN114117763B (zh) | 2021-11-18 | 2021-11-18 | 一种基于移一交叉验证法的模型筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111365990.5A CN114117763B (zh) | 2021-11-18 | 2021-11-18 | 一种基于移一交叉验证法的模型筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114117763A CN114117763A (zh) | 2022-03-01 |
CN114117763B true CN114117763B (zh) | 2024-05-03 |
Family
ID=80397229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111365990.5A Active CN114117763B (zh) | 2021-11-18 | 2021-11-18 | 一种基于移一交叉验证法的模型筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117763B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110895626A (zh) * | 2018-09-11 | 2020-03-20 | 湖南银杏可靠性技术研究所有限公司 | 基于留一交叉验证的性能退化模型精度验证方法 |
CN112949137A (zh) * | 2021-03-18 | 2021-06-11 | 大连理工大学 | 一种基于径向基函数代理模型的提升机天轮轻量化设计方法 |
CN113159114A (zh) * | 2021-03-09 | 2021-07-23 | 山西三友和智慧信息技术股份有限公司 | 一种基于nir数据中应用的高维数据降维交叉验证分析方法 |
CN113408046A (zh) * | 2021-05-20 | 2021-09-17 | 大连理工大学宁波研究院 | 一种基于耐撞性的铆接点变间距布置的多学科优化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7970718B2 (en) * | 2001-05-18 | 2011-06-28 | Health Discovery Corporation | Method for feature selection and for evaluating features identified as significant for classifying data |
-
2021
- 2021-11-18 CN CN202111365990.5A patent/CN114117763B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110895626A (zh) * | 2018-09-11 | 2020-03-20 | 湖南银杏可靠性技术研究所有限公司 | 基于留一交叉验证的性能退化模型精度验证方法 |
CN113159114A (zh) * | 2021-03-09 | 2021-07-23 | 山西三友和智慧信息技术股份有限公司 | 一种基于nir数据中应用的高维数据降维交叉验证分析方法 |
CN112949137A (zh) * | 2021-03-18 | 2021-06-11 | 大连理工大学 | 一种基于径向基函数代理模型的提升机天轮轻量化设计方法 |
CN113408046A (zh) * | 2021-05-20 | 2021-09-17 | 大连理工大学宁波研究院 | 一种基于耐撞性的铆接点变间距布置的多学科优化方法 |
Non-Patent Citations (1)
Title |
---|
基于遗传算子采样的自适应代理优化算法;宋保维;王新晶;王鹏;;西北工业大学学报;20160815(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114117763A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110880019B (zh) | 通过无监督域适应训练目标域分类模型的方法 | |
CN110955780A (zh) | 一种用于知识图谱的实体对齐方法 | |
CN108491226B (zh) | 基于集群缩放的Spark配置参数自动调优方法 | |
CN108710576B (zh) | 基于异构迁移的数据集扩充方法及软件缺陷预测方法 | |
Anitha | A new web usage mining approach for next page access prediction | |
CN111353545A (zh) | 一种基于稀疏网络迁移的植株病虫害识别方法 | |
CN108683658B (zh) | 基于多rbm网络构建基准模型的工控网络流量异常识别方法 | |
CN114169401A (zh) | 数据处理、预测模型训练方法和设备 | |
CN113591215A (zh) | 基于不确定性的异常卫星组件布局检测方法 | |
CN113609763B (zh) | 基于不确定性的卫星组件布局温度场预测方法 | |
CN114117763B (zh) | 一种基于移一交叉验证法的模型筛选方法 | |
CN114781688A (zh) | 业扩项目的异常数据的识别方法、装置、设备及存储介质 | |
CN117334271A (zh) | 一种基于指定属性生成分子的方法 | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
CN116204849A (zh) | 一种面向数字孪生应用的数据与模型融合方法 | |
Hou et al. | Simulating the dynamics of urban land quantity in China from 2020 to 2070 under the Shared Socioeconomic Pathways | |
Zhao et al. | Realization of intrusion detection system based on the improved data mining technology | |
CN114139482A (zh) | 一种基于深度度量学习的eda电路失效分析方法 | |
CN109447131B (zh) | 相似高维目标信息识别方法及系统 | |
CN111538839A (zh) | 一种基于杰卡德距离的实时文本聚类方法 | |
CN114792084A (zh) | 一种针对大规模sram阵列电路后仿真的高效良率分析方法 | |
CN115185805B (zh) | 一种存储系统的性能预测方法、系统、设备及存储介质 | |
JP7500358B2 (ja) | 情報処理装置 | |
CN116541252B (zh) | 一种机房故障日志数据处理方法及装置 | |
CN116992602B (zh) | 一种基于失效状态表征的可靠性模糊评价方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |