CN110362911A

CN110362911A - 一种面向设计过程的代理模型选择方法

Info

Publication number: CN110362911A
Application number: CN201910605746.8A
Authority: CN
Inventors: 贾良跃; 郝佳; 王国新; 阎艳; 霍阳阳
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology; Beijing Institute of Technology BIT
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-22

Abstract

本发明公开了一种面向设计过程的代理模型选择方法。使用本发明通过预筛选，能够快速准确地选择出代理模型，提高模型选择效率，且准确度高。本发明提取工程设计设计数据集的工程特征，从工程特征角度对设计数据集进行分类，并基于基准数据库的数据构建工程特征与最合适代理模型类别的映射关系；随后使用CART方法，以工程特征作为分类项，构建分类决策树；然后利用分类决策树进行预筛选，缩小候选代理模型类别的数量，提高代理模型选择效率；最后使用基于进化算法的代理模型选择方法在预筛选出的代理模型类别的基础上进行进一步的选择，缩短了模型选择过程的消耗时间，提高了选择效率。该方法实现过程极其简单，并且能够得到优秀的结果。

Description

一种面向设计过程的代理模型选择方法

技术领域

本发明涉及工程设计过程优化技术领域，具体涉及一种面向设计过程的代理模型选择方法。

背景技术

CAE技术在过去几十年间成为工程设计领域不可获取的一环。通过计算机的模拟，使用基于计算机代码和数学编程的方式替换真实物理模型，从而实现对于设计方案各项性能的仿真测试。然而由于它们对实际系统的详细表示，这些模拟在计算上是非常昂贵的。如今对于复杂的工程设计问题，往往需要进行大量模拟才能达到可接受的解决方案，这导致了极大的计算负担。改善这一问题的有效方法就是使用代理模型(又称为元模型)来代替CAE仿真模型。由于代理模型计算量小，求解迅速并具有较好的保真度的特点，代理模型技术在工程设计领域得到了极快的发展。代理模型在工程设计中使用的核心在于，每一个工程设计问题都需要解决在不同的工程问题背景下针对不同的数据集如何选择合适代理模型算法的问题。

目前研究人员对于代理模型的选择问题的解决方案主要分为2个方面：主观经验判断法和基于进化算法的模型选择法。第一种方法是根据设计人员的主观经验选取部分代理模型，随后通过比较分析选取其中最合适的代理模型进行使用；二是基于进化算法的模型选择，使用进化算法将代理模型库中所有模型进行对比计算，选取合适代理模型。

上述两个方法均存在自身优越性，但同时存在很大的局限。主观经验判断法只考虑部分设计人员熟悉的代理模型，缺少对于其他代理模型的涉及，考虑的模型多样性不足；并且，对于不了解代理建模技术的工程师来说，建立和比较代理模型的性能是一个巨大的挑战，所以该方法的准确度以及实用性较差。基于进化算法的模型选择法将模型库中所有的模型进行对比分析，通过进化算法求解模型的超参数与模型性能，这一过程非常耗时。

因此，针对这些情况，亟需一种新的解决方案，在保证选择模型准确度与实用性的同时，提高模型选择的效率，节省时间。

发明内容

有鉴于此，本发明提供了一种面向设计过程的代理模型选择方法，通过预筛选，能够快速准确地选择出代理模型，提高模型选择效率，且准确度高。

本发明的面向设计过程的代理模型选择方法，包括如下步骤：

步骤1，基于工程设计基准数据库中的各工程设计数据集，分别提取各工程设计数据集的工程特征；同时，针对所述各工程设计数据集，分别采用代理模型库中的各代理模型类别进行训练，选取与实际工程设计最相符的代理模型类别为该工程设计数据集的最合适的代理模型类别；

步骤2，构建集合S，所述集合S由所述各工程设计数据集的工程特征及其最合适的代理模型类别组成；

步骤3，利用分类和回归树法构建分类决策树，其中，分类决策树的分类依据为步骤1确定的各工程特征项；采用集合S对构建的分类决策树进行训练，获得训练好的分类决策树；

步骤4，针对待选择代理模型的工程设计，采用步骤1的方法提取待选择代理模型工程设计的工程特征值；然后依据提取的工程特征值，利用步骤3训练好的分类决策树，获得初步筛选的代理模型类别；

步骤5，采用基于进化算法的模型选择方法，对步骤4初步筛选的代理模型类别进行选择，获得最终的代理模型类别及其模型参数。

较佳的，所述步骤1中，选取如下4个特征作为工程设计数据集的工程特征：数据量、数据的维度、数据中是否含有噪音以及问题的复杂程度。

较佳的，所述问题的复杂程度由工程问题样本的非线性程度进行考量。

较佳的，所述分类决策树的层数为4～7层。

较佳的，采用代理模型库中的如下18种代理模型类别进行训练：Order TWO RSM、Order THREE RSM、Order FOUR RSM、Order FIVE RSM、Order SIX RSM、Linear KRG、PowerKRG、Gaussian KRG、Exponential KRG、Spherical KRG、Multiquadric RBF、Cubic RBF、Inverse RBF、Linear RBF、Thinplate RBF、M2MARS、M3 MARS和M4 MARS。

较佳的，所述进化算法为遗传算法。

较佳的，所述步骤5中，以准确度作为评价指标对代理模型类别及其模型参数进行选择。

有益效果：

(1)本发明基于设计过程中各设计节点积累的设计数据，提取工程设计设计数据集的工程特征，从工程特征角度获取设计数据集的分类准则；同时基于基准数据库的数据集，从模型库中确定工程设计数据集所对应的具有良好性能的代理模型类别，进而构建出工程特征与最合适代理模型类别的映射关系；随后使用分类和回归树CART方法，以工程特征作为分类项，构建分类决策树；最后利用分类决策树进行预筛选，依据工程特征角度从模型库中筛选出合适的代理模型类别，缩小候选代理模型类别的数量，提高代理模型选择效率，且依据工程特征进行分类，避免主观选择，客观性强，且准确度高；最后使用基于进化算法的代理模型选择方法在预筛选出的代理模型类别的基础上进行进一步的选择，缩短了模型选择过程的消耗时间，提高了选择效率。该方法实现过程极其简单，并且能够得到优秀的结果。

(2)选取数据量、数据的维度、数据中是否含有噪音以及问题的复杂程度四个特征作为工程设计数据集的工程特征，该4个工程特征能够较为准确有效地区分工程设计问题，且后续计算量小。

(3)以工程问题样本的非线性程度作为考量问题复杂度的依据，能够较准确地量化问题复杂度，且非线性指数计算简单，易于实现。

附图说明

图1为本发明方法流程图。

图2为代理模型类别的分类决策树。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种面向设计过程的代理模型选择方法，在现有的基于进化算法的代理模型选择方法的基础上，增加预处理模块，对模型库中大量的代理模型进行预先的筛选，减少进化算法中需要进行对比计算的代理模型数量，从而在保证代理模型选择精度的同时，提高代理模型选择的效率，节省时间。而预处理模块的预先筛选功能是基于不同工程设计问题的工程特征对设计数据集进行预先分类，并且对于不同类别的工程问题，标注合适的代理模型类别。所以对于新的工程问题，只需要考虑与之相似的工程问题类中所标注的代理模型类型进行求解，从而实现优化设计过程，提高设计过程效率的功能。

具体的，本发明的面向设计过程的代理模型选择方法流程如图1所示，包括如下步骤：

步骤1，基于设计过程中各设计节点积累的设计数据，通过预处理模块，提取设计数据集的工程特征，并且确定不同工程数据集对应的具有良好性能的代理模型类别，随后通过使用分类和回归树CART方法，构建代理模型类别选择方法，初步筛选出合适的代理模型类别，缩小进化算法中备选代理模型类别数量。具体包括如下子步骤：

步骤1.1，确定基准数据库中各设计过程数据集的工程特征。

代理模型类别的选择总是受到先验知识的限制，并且，对于不同工程设计问题，由于设计过程的区别，所适用的代理模型类别存在差异。本发明针对不同的工程设计过程数据集，提取数据集的工程特征，根据数据集工程特征来区别不同的工程设计问题。其中，在选取数据集工程特征时，根据设计过程数据的特点，可以考虑但不限于如下因素：(1)简单特征，如数据量、数据维度、数据总特征、类别数、缺失数据个数、缺失数据百分比、数值特征个数、类别特征数量、数值特征百分比、类别特征百分比、数据均值、数据方差等；(2)基于信息理论特征，如数据熵、噪音等；(3)统计学特征，如类别特征数据最小值、类别特征数据最大值、类别特征数据均值、类别特征数据方差、数据最大峰值、数据最小峰值、偏度最大值、偏度最小值等。

选取的工程特征越多，对工程设计的表征越详尽，但同时之后的计算会越复杂，计算量越大。本实施例采用如下4个工程特征来表征不同的工程问题数据集，该4个工程特征能够有效地区分工程设计问题，且后续计算量小：

(1)数据量：工程问题的样本数量，由于不同代理模型类别对于训练样本数量需求不同，所以针对具有不同数量的样本，所适用的代理模型类别的差异较大。

(2)数据的维度：代理模型类别输入变量的数量，也称输入变量维度(D)，现如今大量的代理模型在维度低于10的工程问题中应用效果较好，对于高维工程问题(D＞10)，仅存在少量适用代理模型。

(3)数据中是否含有噪音：数据的来源主要分为两大部分：①确定性模拟(通常是计算机实验)，这意味着生成的样本没有任何噪声。②不确定性模拟，通常由于复杂的设计条件，工程系统总是存在不确定性。因此，还应考虑用随机和无法控制的噪声进行物理实验的随机模拟。

(4)问题的复杂程度：本实施例引用了问题的复杂程度，认为问题的复杂程度也会影响工程设计代理模型的选择，同时，将工程问题样本的非线性程度作为考量问题复杂度的依据。线性程度可以由使用一阶或二阶多项式模型时Pearson相关系数来表示，线性和非线性指数的计算方程可表示如下：

其中，Y₁和Y₂分别表示使用多项式模型对工程问题样本的预测和工程样本问题的实际响应，多项式模型一般选取一阶或二阶模型；cov(Y₁,Y₂)表示Y₁和Y₂的协方差。D(Y₁)和D(Y₂)分别是Y₁和Y₂的方差。当线性值Linearity越低、非线性值Nonlinearity越高，表示该工程问题的复杂程度越高，反之工程问题的复杂度越低。

步骤1.2，以基准数据库中的工程设计数据集为训练样本，采用步骤1.1的方式确定训练样本中各工程设计数据集的工程特征；同时从模型库中确定该工程设计数据集的最合适的代理模型类别。

本发明预筛选的思路是利用工程设计数据集的工程特征，对代理模型类别进行分类，以达到从庞大的代理模型类别中进行初筛的目的；为此，需要使用一些训练数据，得到工程特征与代理模型类别之间的某种联系，即对预筛选的选择模型进行训练。本实施例直接采用基准数据库中的大量基准数据集作为训练样本进行训练，其中，训练数据是由“基准数据集+该数据集对应的最合适的代理模型类别”构成的。为了得到每个基准数据集所对应的最合适的代理模型类别，在本步骤中将基准数据集投入到模型库中的所有代理模型中进行计算，然后使用准确度指标进行比较，准确度最高的代理模型类别作为该基准数据集的最合适代理模型类别；最终得到各基准数据集对应的最合适的代理模型类别。同时，针对各训练样本，采用步骤1.1同样的方法提取各基准数据集的工程特征，构建“(工程特征，最合适代理模型)”集合S，即：

S＝{(f₁，A₁)，...，(f_m，A_m)}

其中，f_i(i＝1，2，…，m)表示第i个基准数据集的工程特征，m表示使用的基准数据集的数量，A_i(i＝1，2，…，m)表示第i个基准数据集对应的最合适的代理模型类别。

由于代理模型库中包含很多个代理模型，为了提高计算速度，通过大量文献的阅读和核对，本发明总结了18种在解决工程问题表现出较优性能的代理模型，如表1所示，本实施例挑选这18种代理模型参与计算。

表1 18中常用代理模型类别及其对应的超参数

步骤1.3，根据步骤1.2中产生的数据集合S，使用分类和回归树(CART)方法作为关系映射模型，训练得到基准数据的数据特征f_i与所选合适代理模型A_i之间的相关关系。

分类和回归树(CART)方法是决策树中的一种，CART算法采用二分递归分割的技术，将当前样本集分为2个子样本集，使得生成的每个非叶子节点都有两个分支，左分支为True，即满足节点条件，右分支为False，即不满足节点条件。CART可以处理离散型和连续型问题，本发明使用CART生成分类决策树。

区别于其他的决策树，CART使用基尼指数(Gini指数)来决定每个节点的最优分割属性以及属性值，基尼指数值越小说明子样本的纯度越高(子样本集中样本越相似)，即说明选择该属性以及属性值的效果越好。样本点的基尼指数计算公式如下：

Gini(S)＝1-∑P_k ²

其中，在集合S中，P_k表示分类结果中第k个类别出现的频率。如果集合S根据特征T(T为本发明提取的工程特征中的一种，如本实施例中的数据量、数据的维度、数据中是否含有噪音或问题的复杂程度)在某一取值t上进行分割，得到S1，S2两部分后，那么在特征T下集合S的基尼指数如下所示：

Gain_Gini(S，T，t)表示在样本集为S的情况下，选取特征T和特征值t作为该样本集分割依据的基尼指数。对于特征T，随后计算任意属性值t将数据集分割成两个子集的Gain_Gini(S，T，t)，选取其中的最小值，作为该样本在特征T的最优分割方案，该过程可以表示为：

随后遍历所有工程特征(本实施例中为4个工程特征)，获得所有工程特征的基尼指数值，最后选取所有工程特征的基尼指数值的最小值为最后非叶子节点的最优二分方案，该过程可以表示为：

其中，Attribute为工程特征集；

CART的分类层数一般经验确定，分类层数越多，则分的越精细，同时计算量也越大；分类层数越少，则计算量小，但最后分类结果可能不是很准确。本发明最终确定CART的分类层数为4～7层。最终得到精分后的满足每一层特征和特征值约束的代理模型类别，得到基准数据集的工程特征f_i与所选合适代理模型A_i之间的相关关系。

本实施例中，CART的分类层数选取为5层，以数据量、数据的维度、噪音以及非线性作为分类决策树的分类依据，最终形成如图2所示的代理模型分类决策树。从图2中可以看到，基于本实施例的4类工程特征，18种代理模型通过CART分类树，被分为9类。虽然这个分类结果中，存在类别之间交叉的情况，但是对于每个类别本身来说，已经从整个模型库共18类代理模型缩小为2～5类模型，节约5倍模型数量，极大的提高了代理模型类别选择的效率。

步骤1.4，步骤1.3最终得到的决策分类树反映了工程特征与各代理模型之间的映射关系，在其他工程设计问题中，就可以使用该映射关系，利用提取的工程特征进行代理模型类别的预筛选；提取预筛选后的多个代理模型类型形成新的待选代理模型类别集合，减少了候选代理模型类别的数量，从而提高代理模型选择效率，缩短选择时间。

步骤2，基于预筛选后的待选代理模型类别集合，采用现有的基于进化算法的模型选择方法，从预筛选后的待选代理模型类别中进行选择，获得最终的代理模型类别及其模型参数。

具体的，构建训练数据集和测试数据集，使用进化算法对候选代理模型类别集合中的每个候选代理模型类别进行训练；利用测试数据集进行预测，获取每一候选代理模型的综合评分指标。使用进化算法完成代理模型中超参数的自动求解过程，随后将所有求解完成的代理模型进行性能测试，获取每一候选模型的评价指标，基于所属的评价指标，进行主观决策判断，将评分最高的一个或多个候选模型作为最终的选择结果进行输出。其中使用的进化算法为遗传算法，算法中包含交叉、变异和选择算子。

其中，本实施例以常用的遗传算法作为模型计算求解工具，对代理模型中的超参数(HP)进行训练，最终得到完整的代理模型。算法中包含交叉、变异和选择算子。算法需要设定的参数如下表2所示。

表2

由于设计人员在工程设计中对于使用模型的准确度要求往往占据首要位置，根据这一需求，采用准确度的评价指标作为本发明进化算法中模型选择的依据。准确度又可以解释为一种对于系统误差的描述，是模型预测值与真实值之间差异的度量。本发明选用决定系数R²作为准确度评价指标，计算公式如下所示：

其中表示观测值的平均值，y_i为第i个观测值，为预测模型的第i个预测值，N_test表示测试数据的总数。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向设计过程的代理模型选择方法，其特征在于，包括如下步骤：

2.如权利要求1所述的面向设计过程的代理模型选择方法，其特征在于，所述步骤1中，选取如下4个特征作为工程设计数据集的工程特征：数据量、数据的维度、数据中是否含有噪音以及问题的复杂程度。

3.如权利要求2所述的面向设计过程的代理模型选择方法，其特征在于，所述问题的复杂程度由工程问题样本的非线性程度进行考量。

4.如权利要求2或3所述的面向设计过程的代理模型选择方法，其特征在于，所述分类决策树的层数为4～7层。

5.如权利要求1或2所述的面向设计过程的代理模型选择方法，其特征在于，采用代理模型库中的如下18种代理模型类别进行训练：Order TWO RSM、Order THREE RSM、OrderFOUR RSM、Order FIVE RSM、Order SIX RSM、Linear KRG、Power KRG、Gaussian KRG、Exponential KRG、Spherical KRG、Multiquadric RBF、Cubic RBF、Inverse RBF、LinearRBF、Thinplate RBF、M2 MARS、M3 MARS和M4 MARS。

6.如权利要求1所述的面向设计过程的代理模型选择方法，其特征在于，所述进化算法为遗传算法。

7.如权利要求1或6所述的面向设计过程的代理模型选择方法，其特征在于，所述步骤5中，以准确度作为评价指标对代理模型类别及其模型参数进行选择。