CN114117763B

CN114117763B - 一种基于移一交叉验证法的模型筛选方法

Info

Publication number: CN114117763B
Application number: CN202111365990.5A
Authority: CN
Inventors: 吕利叶; 鲁玉军; 张伟
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2024-05-03
Anticipated expiration: 2041-11-18
Also published as: CN114117763A

Abstract

本发明公开了一种基于移一交叉验证法的模型筛选方法。经典交叉验证法存在全部剔除验证集有用信息的缺陷。本发明根据样本集构建初始代理模型，逐个选择样本点作为验证集，剩下样本点作为初始训练集，并将验证集中的样本点沿随机正态分布移动得到虚拟验证点，将虚拟验证点的输入代入初始代理模型得到初始代理模型的虚拟响应，从而得到初始代理模型所预测的虚拟样本点；用虚拟样本点替换样本集中的样本点，得到更新后的虚拟训练集；构建虚拟代理模型，计算虚拟代理模型的移一交叉验证局部误差：遍历样本集中的各样本点后，对各移一交叉验证局部误差求均值，得到移一交叉验证全局误差。本发明极大限度保留了验证集信息，提高了模型筛选准确度。

Description

一种基于移一交叉验证法的模型筛选方法

技术领域

本发明属于代理模型技术领域，具体涉及一种基于移一交叉验证法的新型模型筛选方法。

背景技术

传统的工程优化设计与分析研究通常利用物理实验获得少量实验数据，探究工程系统运行规律，存在设计周期长、实验成本高等不可忽视的缺点。随着数值计算方法飞速发展，计算机技术显著提高，数值仿真技术被逐渐应用到工程实际中，且因其强大的计算推导能力、可靠性、准确性，将逐步替代物理实验。然而，计算机仿真技术也无法跳出其自身的局限性。尽管，随着中央处理器和内存的不断更新换代，计算机的运算能力突飞猛进，但是为了保证工程优化设计优化与分析结果的可靠性与准确性，所需的仿真模型越来越精细，模型的保真度与复杂度同时稳步提高，导致快速发展的计算机技术仍不能满足优化设计与分析时所需的高昂计算资源与时间。因此，为了减少高保真度仿真模型高昂的计算成本，针对工程优化设计与分析问题的复杂性，基于少量数据的数值分析计算方法——代理模型技术应运而生。但是，学者们指出没有一种代理模型可以完美解决所有问题，在实际工程问题中，往往需要模型筛选技术从多种代理模型中筛选出较为精确的模型。交叉验证方法可在不产生多余测试点的前提下进行模型筛选，因而被广泛应用在工程实际中。交叉验证方法一般可以分为两种：留一交叉验证法和自荐法，其中留一交叉验证法与k-折交叉验证法类似，自荐法与蒙特卡洛交叉验证法相似。但是，据文献研究，交叉验证方法在样本量较小的情况下性能很不可靠，无法准确地剔除掉较差模型或者筛选出较好的模型。其原因在于交叉验证方法将训练点分为训练集和验证集，在计算交叉验证误差时验证集包含的信息全部被剔除，而该验证集对不同的代理模型重要性可能不同。因此，为了尽可能地保留验证集的信息，提高模型筛选精度，有必要提出一种更为可靠的模型筛选策略，以便弥补经典交叉验证方法的缺陷。

发明内容

针对现有交叉验证方法存在的问题，本发明提供一种基于移一交叉验证法的新型模型筛选方法，借用留一交叉验证方法的思想，通过将验证集中的样本点沿随机正态分布进行移动而不是剔除掉验证点(称为移一交叉验证方法)，并通过计算移一交叉验证误差进行代理模型的筛选。

本发明采用的技术方案如下：

本发明一种基于移一交叉验证法的模型筛选方法，主要包括以下步骤：

根据包含n个样本点的样本集(x，y)＝{(x₁，y₁)，...，(x_j，y_j)，...，(x_n，y_n)}，构建初始代理模型S₀；然后，计算样本集(x，y)中各样本点之间的欧氏距离，将最小的距离设为d_min；接着，逐个选择样本集(x，y)中的样本点(x_j，y_j)作为验证集(x_v，y_v)，剩下n-1个样本点作为初始训练集(x_tr，y_tr)，进行如下操作：

(1)以均值μ等于x_j，构建正态分布N(μ，σ²)，在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点，将验证集中的样本点(x_j，y_j)沿着随机正态分布N＝(μ，σ)移动虚拟验证点上，其中，方差σ＝0.02d_min；然后，将虚拟验证点的输入代入初始代理模型S₀中得到初始代理模型S₀在/>处的虚拟响应/>从而得到初始代理模型S₀所预测的虚拟样本点

(2)用虚拟样本点替换样本集(x，y)中的样本点(x_j，y_j)，得到更新后的虚拟训练集/>并构建虚拟代理模型S₁，计算虚拟代理模型S₁的移一交叉验证局部误差：

当j从1遍历到n后，最后对各个移一交叉验证局部误差求均值，计算得到移一交叉验证全局误差。

优选地，利用拉丁超立方取样方法抽取n个样本点，得到样本集。

优选地，以决定系数R²为评价标准，来评价移一交叉验证全局误差的计算精度。

本发明具有的有益效果：

本发明区别于经典留一交叉验证方法，通过将验证点沿随机正态分布进行移动而不是剔除掉验证点，极大限度保留了验证集信息，缓解了验证集信息缺失对交叉验证误差造成的不良影响，从而提高误差计算精度与模型筛选准确度。

附图说明

图1为本发明的流程图。

图2为本发明针对一个实例的模型筛选过程示意图。

图3为本发明与留一交叉验证法的模型筛选正确率对比图。

具体实施方式

留一法交叉验证方法一般用在模型选择中，但是在没有足够多的样本点时，不一定总能挑选到最好或最坏的模型。在使用留一法交叉验证方法的时候，样本点被分为训练集和验证集，训练集用来构建模型，验证集用来评估所构建模型的精度。本发明基于留一法交叉验证方法，提出了移一法交叉验证方法，将样本点分为初始训练集和验证集，同时将验证集随多元正态分布进行移动，形成新的验证集，最终用来构建模型的训练集是初始训练集和更新后验证集的合集。

以下结合附图和具体实施步骤，进一步阐述本发明。

本发明设计的一种基于移一交叉验证法的模型筛选方法，见图1，主要流程如下：

含有n个样本点的样本集如下：(x，y)＝{(x₁，y₁)，...，(x_j，y_j)，...，(x_n，y_n)}，遍历样本集中的各个样本点，每次遍历时进行如下操作：选择样本点(x_j，y_j)作为验证集(x_v，y_v)，1≤j≤n，剩下n-1个样本点作为初始训练集(x_tr，y_tr)；然后，以均值μ等于x_j，构建正态分布N(μ，σ²)，在距离均值μ一个σ的分布圆上随机选择一个虚拟验证点，将验证集中的样本点(x_j，y_j)移动到虚拟验证点上；其中，方差σ²等于(ωd_min)²，d_min是样本集中各样本点间最小的距离，ω是经验参数，设置为0.02；将虚拟验证点的输入代入根据样本集(x，y)构建的代理模型中，得到代理模型在/>处的预测值/>从而得到根据样本集(x，y)构建的代理模型所预测的虚拟验证点/>最后，用虚拟样本点/>替换样本集(x，y)中的样本点(x_j，y_j)，得到更新后的虚拟训练集/>并构建虚拟代理模型，计算虚拟代理模型的移一交叉验证局部误差：

当j从1遍历到n后，最后对各个移一交叉验证局部误差求均值，计算得到移一交叉验证全局误差MOA-CVerror。

以一个一维测试函数(如式(2))为例，阐述本发明的求解过程。

随机生成5个样本点，得到样本集，建立克里金初始代理模型(KRG模型)，基于克里金初始代理模型，通过移一交叉验证方法生成5个样本点对应的5个虚拟验证点，如图2所示。图2中a)显示每个样本点(实心原点)都围绕正态分布移动，图2中b)到f)描述了在5次迭代中获得移一交叉验证局部误差error(1)-error(5)的过程，最后通过平均5个局部误差来计算移一交叉验证全局误差MOA-CVerror。

为测试本发明的实际性能，利用14个测试函数与留一交叉验证法性能进行了对比研究。为了直观地对比筛选性能，对14个测试函数分别建立多项式拟合曲面(PRS)、多拟合曲面径向基函数(RBF-MQ)、薄板样条曲线径向基函数(RBF-TPS)、克里金(KRG)四种代理模型，以决定系数R²为评价标准，如果某代理模型的R²越高，证明该代理模型预测性能越好，理想状态下该代理模型的移一交叉验证误差和留一交叉验证误差应该越小，反之亦然，以此来判断两种方法模型筛选的可靠性与准确性。图3为本发明和留一交叉验证法模型筛选正确率对比结果，横坐标为测试函数，纵坐标为模型筛选正确率，其值越高越好。从图3中可以看出，14个测试函数中，针对大多数函数，本发明在模型筛选正确率上优于留一交叉验证方法，表明本发明所设计的一种基于交叉验证方法的新型模型筛选策略更能够提供可靠、精确的误差计算结果。

Claims

1.一种基于移一交叉验证法的模型筛选方法，其特征在于：主要包括以下步骤：

2.根据权利要求1所述一种基于移一交叉验证法的模型筛选方法，其特征在于：利用拉丁超立方取样方法抽取n个样本点，得到样本集。

3.根据权利要求1或2所述一种基于移一交叉验证法的模型筛选方法，其特征在于：以决定系数R²为评价标准，来评价移一交叉验证全局误差的计算精度。