CN103488821A

CN103488821A - 一种基于交叉验证的自适应序列采样算法

Info

Publication number: CN103488821A
Application number: CN201310401272.8A
Authority: CN
Inventors: 徐胜利; 刘海涛; 王晓放
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2013-09-05
Filing date: 2013-09-05
Publication date: 2014-01-01

Abstract

本发明属于工程设计与优化领域，涉及一种基于交叉验证的自适应序列采样算法，其特征包括以下步骤：通过泰森图解法根据已有试验点将设计空间分割为一系列泰森多边形，每个泰森多边形用蒙特卡罗方法近似描述；根据交叉验证方法估算泰森多边形区域的误差特性，选择误差最大的泰森多边形区域作为敏感区域；在识别出的敏感区域中根据局部填充原则选取下一个试验点；检查算法是否达到终止条件，若是，采样结束；否则，重新开始。本方法简单高效，适用面广，能以较少的试验点获得较精确的近似模型，大大节省工程设计和优化问题的计算代价，提高工作效率。

Description

一种基于交叉验证的自适应序列采样算法

技术领域

本发明属于工程设计和优化领域。具体涉及一种基于交叉验证的自适应序列采样算法。

背景技术

近年来，近似模型（Surrogate models）技术被广泛地应用于基于高精度数值仿真分析的工程优化设计问题中。近似模型能提供良好的预测功能，减少优化设计过程中数值仿真分析的次数，大幅提高设计效率。

对于基于近似模型的工程优化设计问题，近似模型的预测精度很重要。如果近似模型的预测值与真实值相差很大，就无法基于近似模型进行有效的优化设计。当然，用来构造近似模型的试验点越多，近似模型的预测精度越高。但是，对于某一个试验点，要获得它的真实响应值，需要进行耗时的数值仿真分析。对于实际复杂工程问题，这个过程是很耗时的。用较少的试验点获得具有较高预测精度的近似模型，是降低计算代价，提高效率的关键。

一个通常的策略是将试验点尽可能均匀地布置在整个设计空间。这样一个全局性的布点策略平等地对待设计空间上的任何区域，不会丢失重要区域，有助于提高近似模型精度。这种策略仅仅利用已有试验点的坐标信息确定下一个试验点，实施简单，在工程优化设计中得到了广泛的应用。

但是，从直觉上来说，对于一个真实的模型，为了有效的模拟它，在变化剧烈的区域（也即多峰区域或者说非线性程度高的区域）应该多布置一些试验点。相应的，在相对平坦的区域，用少量的试验点就可以很好地模拟。而上面提到的全空间填充的策略没有考虑模型信息，仅仅利用了已有试验点的空间位置信息，并没有用到已有试验点的计算结果，有很大的改进空间。

对局部挖掘和全局探索能否有一个很好地平衡是决定自适应序列采样算法效果的一个重要因素。局部挖掘有助于识别非线性区域，并进而在该区域多布置试验点；而全局探索能够避免丢失可能的非线性区域，保证从全局意义上提高近似模型预测精度。现有的自适应序列采样算法尚不能在局部挖掘进和全局探索之间取得灵活地平衡。

为了克服全空间填充采样策略的不足，本发明提出了一种基于交叉验证的自适应序列采样算法。该算法利用已有试验点的坐标信息和已有近似模型的信息确定下一个样本点，充分利用已有的信息使得该算法能够得到更有效的试验点。该算法每次均在预测误差最大的区域采集新的试验点。这种误差追踪的机制使得该算法能够非常高效地提高近似模型的预测精度。相较于现有的自适应采样算法，本发明构造简单，控制参数少，适用于不同类型的函数，并且能够灵活权衡局部挖掘和全局探索，效率更高，对于工程优化设计问题具有很大的使用价值。

发明内容

本发明针对现有的全空间填充采样算法和已有自适应采用方法的不足，提出了一种基于交叉验证的自适应采样算法。该自适应采样算法简单易用，能以较少的试验点有效提高近似模型的预测精度，提高优化设计的效率。

为了达到上述目的，本发明提出的技术方案为：

一种基于交叉验证的自适应序列采样算法，该算法主要包括以下步骤：

（1）根据已有试验点分割设计空间

假设已有试验点的集合为P＝{p₁，p₂，K，p_m}，P中的每一个元素代表一个试验点。根据已有的试验点将整个设计空间划分为以试验点为中心的多个小区域。每个小区域是某个试验点的邻近区域，即任何落在这个小区域中的点距离该小区域所包含的已有试验点是最近的。基于这种分割策略的空间划分可以通过泰森图解法（Voronoi diagram）完成。泰森图解法根据已有的试验点集P将整个设计空间划分为一个泰森多边形区域的集合C＝{C₁，C₂，K，C_m}。某个泰森多边形区域C_i代表某个试验点p_i的邻近区域。

因为泰森多边形具有不规则的边界，很难去准确描述它。因此，利用蒙特卡罗（Monte Carlo）方法在设计空间上产生大量的随机点，将落在多边形区域C_i中的随机点组成一个集合

用来近似描述C_i。

（2）识别敏感区域C_sensitive

敏感区域是指当前的多边形区域中近似模型预测误差最大的区域。由于某一个多边形区域C_i是试验点p_i的邻近区域，那么任何落在C_i中的点的误差行为应该跟试验点p_i的误差行为很接近。因此，简单起见，多边形区域C_i的预测误差可以用试验点的预测误差p_i来描述。

试验点p_i的预测误差可以通过交叉验证方法来获得。具体如下：用除p_i以外的所有试验点构造一个近似模型

用该近似模型预测试验点p_i的响应值，该预测响应值与真实响应值之间的差的绝对值

定义为试验点p_i的预测误差。该误差即为多边形区域的误差估计。

重复上述过程，最后每个多边形区域的预测误差都可以得到。其中预测误差最大的多边形区域C_sensitive就是当前的敏感区域。该区域对近似模型的预测精度影响最大，如果没有该区域所包含的试验点，近似模型的预测精度将显著下降。因此，在敏感区域中需要添加新的试验点以提高近似模型的预测精度。

（3）在识别的敏感多边形区域C_sensitive中采集下一个试验点p_new。

可以在敏感区域中利用最小距离最大化原则采集下一个试验点，即要求新的试验点到邻近点的最小距离最大。因为敏感区域C_sensitive中的点距离p_sensitive最近，因此，上述过程实际上就是在C_sensitive中找一个距离p_sensitive最远的点作为下一个试验点p_new。因为多边形区域C_sensitive可以用一组随机点

来近似描述，因此，可以从中选取一个距离p_sensitiv最远的点作为下一个试验点p_new。

（4）检查是否达到终止条件。若达到终止条件，采样算法结束，否则转1）。

算法的终止条件可以是规定的采样点数目，也可以是想要的代理模型精度等等，可由设计者自由指定。

综上所述，本发明提出的基于交叉验证的自适应序列采样算法简单易用，能快速提高近似模型的预测精度，降低工程设计优化问题的计算代价，提高优化效率。

附图说明

图1是泰森多边形分割示意图。

图2是用Monte Carlo方法近似描述泰森多边形的示意图。

图3是敏感性分析示意图。

图4是基于交叉验证的自适应采样算法结果示意图。

具体实施方式

整个算法有三个关键点：1）用泰森图解法分割设计空间；2）识别敏感多边形区域；3）在得到的敏感区域采集新的试验点。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实例对本发明作进一步的阐述。

假设在当前迭代步中，已有一组样本点P，得到下一个样本点的具体实施过程如下：

Step1.用泰森图解法分割设计空间。

每一个泰森多边形区域C_i是试验点p_i的邻近区域，分割示意图见图1。因为泰森多边形区域的边界不规则，因此采用Monte Carlo方法近似描述泰森多边形区域C_i。具体是在设计空间产生100×m个随机点，其中m是已有试验点的数目。将每个随机点分配给距离最近的试验点。这样，多边形区域C_i就能用一组随机点

近似描述，见图2。

Step2.识别敏感多边形区域。

对每个试验点p_i计算预测误差

因为多边形区域C_i是试验点p_i的邻近区域，因此C_i的误差特性可以用试验点p_i的误差特性

表示。选择误差最大的多边形区域C_sensitive作为敏感多边形区域。当前迭代步的敏感性分析结果可以用图3形象表示，图中实心圆越大，代表它所在的多边形区域的误差越大。

Step3.在得到的敏感区域采集新的试验点。

在step2中得到的敏感区域C_sensitive可以用相应的随机点集近似描述，因此根据局部填充原则，从

中选择一个距离p_sensitive最远的随机点作为新的试验点p_new。

图4是对某个测试函数的采样结果示意图。图中圆点是10个初始试验点，三角点是后续添加的试验点。可以发现，在非线性程度高的区域（中心区域），该采样算法布置了很多的试验点。而在四周比较平坦的区域，布置的试验点则比较稀疏。这种布点方式对提高近似模型的的整体预测精度很有利。