CN116822214A

CN116822214A - 一种基于异方差高斯过程回归的多可信度数据融合方法

Info

Publication number: CN116822214A
Application number: CN202310791635.7A
Authority: CN
Inventors: 王海潮; 陈柏屹; 刘燕斌; 陈金宝; 尹晓乐; 刘盛
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-29

Abstract

本发明公开了一种基于异方差高斯过程回归的多可信度数据融合方法，包括如下步骤：首先在设计空间内分别进行不同可信度模型的实验设计，然后分别运行相应可信度的仿真模型获取多可信度数据集，其次，构建异方差高斯过程回归模型，获得各层可信度模型的后验均值与异方差信息；最后，根据不确定性估计和样本局部密度对后验均值进行加权融合。该数据融合方法自适应地平衡了不同层级可信度样本的空间分布与不确定性，在高可信度样本有限的情况下提升了数据精度，并且适用于非均匀实验设计，在数据融合和预测领域有较好的工程应用价值。

Description

一种基于异方差高斯过程回归的多可信度数据融合方法

技术领域

本发明涉及飞行器设计中的气动数据研究技术领域，特别是一种基于异方差高斯过程回归的多可信度数据融合方法。

背景技术

几乎所有工程学科都存在多可信度(Multi-fidelity，MF)数据，这些数据来自于数值计算、实验以及半实物仿真等。在飞行器设计中的气动数据研究领域，飞行器多可信度气动数据通常有数值计算、风洞试验和飞行试验三种来源。高可信度气动数据通常具有更高的精度和成本，一般来源于风洞试验和飞行试验，数据量却不足以满足飞行器设计需求。而低可信度气动数据一般来自于各类数值计算方法，其获取快速，可为复杂流动提供参考，但是存在精度较低的缺陷。为了调节上述矛盾，研究者提出了多可信度数据融合方法，即将大量低精度数据和少量高精度数据融合建模，近似获取大量高精度数据。

在这一基础上，国内外主要研究发展了基于标度的模型修正方法、类Co-Kriging的代理模型、空间映射模型、基于不确定度的加权平均方法、相关性分析方法等。但是，这些基于代数形式的融合模型往往很难满足高维以及非线性的设计需求，在样本空间分布稀疏的点还会导致误差被进一步放大。随着以神经网络为代表的人工智能机器学习方法的兴起，高斯过程回归、RBF神经网络、卷积神经网络、随机森林等新的模型凭借强大的非线性映射与学习自适应能力开始被更多应用于数据融合研究。

高斯过程回归(Gaussian Process Regression,GPR)是近年发展起来的一种机器学习建模方法，具备严格的统计理论基础，对处理高维数、小样本、非线性等复杂的问题具有很好的适应性，且泛化能力强。高斯过程回归使用高斯过程先验对数据进行回归分析，是一种贝叶斯非参数模型，可以很好地模拟高、低精度数据的非线性特性，具有较高的全局精度和泛化特性，且能给出预测的置信区间分布，适用于多可信度数据融合问题。

发明内容

发明目的：本发明提供一种基于异方差高斯过程回归的多可信度数据融合方法，对多可信度数据集进行异方差高斯回归建模，综合考虑样本局部密度与不确定性信息，在高可信度样本数量有限的情况下实现数据融合精度的提升，具有较好的工程应用价值。该多可信度数据融合方法可以应用于飞行器气动设计等领域。

技术方案：本发明所述的一种基于异方差高斯过程回归的多可信度数据融合方法，包括以下步骤：

步骤1、初始化多可信度模型的设计变量；

步骤2、分别对不同层级的可信度模型进行实验设计；

步骤3、运行各层级的可信度模型，获取对应的模型响应，得到多个可信度数据集；

步骤4、基于高斯过程构造先验均值与协方差函数，分别使用不同可信度的数据集进行异方差高斯过程回归建模，优化模型超参数，获取各可信度全局高斯回归代理模型的后验预测均值与方差；

步骤5、构建样本局部密度函数，融合后验预测方差信息与先验置信度权重，对不同可信度模型的后验预测均值进行加权融合；

步骤6、基于均方根误差、确定系数、区间分布评价准则综合评判当前气动数据融合模型的精度与可信度。

进一步的，步骤1所述的设计变量为x＝[x₁,x₂,...,x_m]∈D，其中，D为设计空间，m为设计空间维数，且满足R为实数集。

进一步的，步骤2所述的实验设计指在设计空间D内对不同的可信度模型F₁,F₂,...,F_n进行采样，其中1～n为可信度层级，n为可信度层数，且约定层级越大代表模型可信度越高，各层可信度的采样数量分别为N₁,N₂,...,N_n，并且满足N₁＞N₂＞…＞N_n，则各层可信度模型的采样集分别为X₁,X₂,...,X_n，其中采样方法是最优拉丁超立方采样、全因子设计、正交实验设计方法中的一种或者假设样本点已给定。

进一步的，步骤3所述的多个可信度数据集是指，分别使用各个采样集X₁,X₂,...,X_n运行对应可信度的仿真模型F₁,F₂,...,F_n，获取对应的模型响应值为Y₁,Y₂,...,Y_n,其中得到多可信度数据集。

进一步的，所述步骤4进一步包括以下步骤：

步骤41、对数据进行解构，分别对潜函数和异方差噪声进行建模：

y＝f(x)+ε(x)

其中，y为模型响应值，f(x)为代表真实值的潜函数，ε(x)为噪声偏差项；

对数据集使用0均值函数的标准高斯过程回归算法，对潜函数的后验分布进行建模：

其中，x_*为预测点，f_*为潜函数预测值，

k_**＝k(x_*,x_*)，

k_*＝[k(x₁,x_*)k(x₂,x_*)…k(x_N,x_*)]^T，

其中，x₁～x_N为训练样本点，N为训练样本数量，k(·)为平方指数(SE)核函数：

其中，σ_f为输出幅值，l表示的是输入数据之间的尺度因子，x,x′代表任意两个输入样本点；

利用高斯过程对回归噪声项ε(x)进行建模，公式为：

ε～N(0,r(x))

为保证方差的非负性，将r(x)定义为指数形式：

r(x)＝exp{g(x)}

其中，g(x)～GP(μ₀,k_g(x,x'))，μ₀和k_g(x,x')分别为先验均值和协方差；

步骤42、利用高斯过程分别对潜函数和噪声项建模后，根据标准高斯过程的推导结论，得到关于模型响应预测值y_*的后验分布表达式为：

p(y_*|x_*,y,x,ε,ε_*)～N(k_* ^T(k_xx+k_ε)y,k_**-k_* ^T(k_xx+k_ε)^-1k_*+ε_*)

其中，k_ε为ε的对角矩阵diag(ε₁,ε₂,…ε_N)，ε_*为预测点噪声的后验均值，

对ε和ε_*积分得y_*的后验分布表达式进一步为：

p(y_*|x_*,y,x)＝∫∫p(y_*|x_*,y,x,ε,ε_*)p(ε,ε_*|x_*,y,x)dεdε_*；

步骤43、使用变分推断方法求解上述y_*的积分表达式近似解为：

其中，μ_*＝k_* ^T(k_xx+R)y为后验均值，

为后验方差，

其中，R和Λ为分解y的边缘概率时产生的对角矩阵，

k_ε*＝[k_ε(x₁,x_*) k_ε(x₂,x_*) … k_ε(x_N,x_*)]；

步骤44、使用优化算法优化异方差高斯回归模型超参数，包括协方差SE核函数中的参数、Λ矩阵中的对角线元素以及用于控制噪声项方差平均水平的μ_ε；

步骤45、分别以步骤3中获取的n个可信度数据集作为输入进行异方差高斯过程回归建模，根据步骤43中变分推断的结论，得到每个异方差高斯过程回归模型在点x处的后验均值μ_i(x)的表达式为：

μ_i(x)＝μ_*＝k_* ^T(k_xx+R)y

后验方差的表达式为

其中i＝1,2,...,n代表不同的可信度层级。

进一步的，所述步骤5包括以下步骤：

步骤51、构建样本密度函数，得到预测点x处附近可信度模型采样点空间分布的密度ρ_i(x)为：

其中，i＝1,2,...,n代表不同的可信度层级，N_i为采样点个数，l_i为控制密度随两点之间距离衰减的系数；

步骤52、对不同数据源的不确定性进行建模，将来自异方差高斯过程回归的后验方差信息与先验置信度进行融合，得到预测点x的不确定性估计为：

其中，为高斯回归后验异方差，/>为该层数据源的先验置信度；

步骤53、根据样本密度函数和不确定性估计对预测均值μ_i(x)进行融合，得到多可信度数据融合后的预测值为：

其中，n为模型可信度层数。

进一步的，步骤6所述的融合评价准则包括均方根误差RMSE、确定系数R²和区间评价准则PIC；

其中，N_V为验证样本个数，y_i为验证样本点真实值，为验证样本点预测值，/>为y_i的平均值，q为(0,1)之间的任一分位数，一般取q＝0.025和q＝0.975。

进一步的，上述方法应用于飞行器设计，以高可信度采样集X_H作为飞行器的飞行条件输入，划分网格并运行CFD数值求解，求解判断收敛后并对计算结果进行后处理，获得高可信度气动数据得到多可信度数据集。

本发明也提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现撒航苏沪方法的步骤。

本发明也提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

有益效果：与现有技术相比，本发明的数据融合方法可以通过异方差高斯过程回归对多种来源的样本数据中的不确定性进行建模，同时根据不确定性估计和样本空间分布自适应地调整数据融合准则，在高成本仿真有限的情况下有效提高模型的精度，同时降低了不确定性；并且该方法不局限于传统数据融合的均匀实验设计要求，可以处理部分设计空间存在欠采样的情况，具有更加广泛的工程应用范围。

附图说明

图1为本发明的数据融合流程图；

图2为高可信度和低可信度气动数据样本空间分布示意图；

图3为气动数据融合曲面示意图；

图4为气动数据融合精度与置信区间示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本申请的技术方案进行清晰、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在工程实践中往往存在多可信度数据，对于同一物理模型通常可以获得多个来源具有不同高低精度的数据集，而由于成本限制，高精度数据基本不可能覆盖整个设计空间。所以，如何对少量高精度数据与大量方便获取的低精度数据进行高效融合，节省试验成本与时间，成为了至关重要的问题。并且，工程中时常存在数据的采样方法不能人为指定的情况，这将导致设计空间存在部分缺失、样本分布具有非均匀的特点。

有鉴于此，本发明提供了一种基于异方差高斯过程回归的多可信度数据融合方法。下面结合附图，详细说明本申请的各种非限制性实施方式。本说明书中的一种基于异方差高斯过程回归的多可信度数据融合方法，按照图1所示，应包括如下步骤：

步骤1、初始化多可信度模型的设计变量与设计空间；

设计变量与设计空间是依据实际问题来进行具体定义的。示例性的，在航空航天领域，对于飞行器的纵向气动阻力数据融合问题，影响此气动力数据的设计变量考虑为飞行马赫数与攻角x＝[Ma,α]，设计空间D包括飞行马赫数范围与攻角变化范围。

步骤2、分别对不同层级的可信度模型进行实验设计；

在本说明书一个可选的实施例中，对于飞行器气动阻力数据仅考虑高、低两层可信度，对于低可信度模型实验设计，在设计空间D内采样获取样本数量为N_L的采样集而对于高可信度模型实验设计，在设计空间D内采样获取样本数量为N_H的采样集/>并且满足N_H＜N_L，并假设由外部直接给定采样点位置。

步骤3、运行各层可信度模型，获取对应的模型响应，得到多可信度数据集；

在本发明一个可选的实施例中，获得多可信度数据集的过程可以是：首先根据该飞行器的几何特征参数，采用参数化的计算机辅助几何建模方法，提取外形特征参数集与约束条件，构建该飞行器的几何外形；然后以低可信度采样集X_L作为飞行条件输入，根据飞行器参数化外形，建立气动分析低阶面元数据集，采用理论公式近似计算面元所受压强，采用矢量叠加原理计算飞行器在稳态流场中受到的气动力，快速获取低可信度气动数据最后以高可信度采样集X_H作为飞行条件输入，划分网格并运行CFD数值求解，求解判断收敛后并对计算结果进行后处理，获得高可信度气动数据得到多可信度数据集；

步骤41、对上述气动数据进行解构，分别对潜函数和异方差噪声进行建模：

y＝f(x)+ε(x)

对数据集使用0均值函数的标准高斯过程回归算法，对其潜函数的后验分布进行建模：

其中，x_*为预测点，f为潜函数预测值，

k_**＝k(x_*,x_*)，

k_*＝[k(x₁,x_*) k(x₂,x_*) … k(x_N,x_*)]^T，

利用高斯过程对回归噪声项ε(x)进行建模，公式为：

ε～N(0,r(x))

为保证方差的非负性，将r(x)定义为指数形式：

r(x)＝exp{g(x)}

步骤42、使用高斯过程分别对潜函数和噪声项建模后，根据标准高斯过程的推导结论，得到关于模型响应预测值y_*的后验分布表达式为：

对ε和ε_*积分得y_*的后验分布表达式进一步为：

p(y_*|x_*,y,x)＝∫∫p(y_*|x_*,y,x,ε,ε_*)p(ε,ε_*|x_*,y,x)dεdε_*；

其中，μ_*＝k_* ^T(k_xx+R)y，

其中，R和Λ为分解y的边缘概率时产生的对角矩阵，

k_ε*＝[k_ε(x₁,x_*) k_ε(x₂,x_*) … k_ε(x_N,x_*)]；

步骤45、分别以步骤3中获取的高、低可信度气动数据集作为输入进行异方差高斯过程回归建模，根据步骤43中变分推断的结论，可以得到高、低可信度异方差高斯过程回归模型在点x处的后验均值μ_i(x)的表达式为：

μ_i(x)＝μ_*＝k_* ^T(k_xx+R)y

后验方差的表达式为

其中i＝L或i＝H分别代表低可信度模型或者高可信度模型。

其中，i＝L或i＝H代表低可信度模型或者高可信度模型，N_i为采样点个数，l_i为控制密度随两点之间距离衰减的系数；

步骤52、对不同气动数据源的不确定性进行建模，将来自异方差高斯过程回归的方差信息与先验置信度进行融合，得到预测点x的不确定性估计为：

其中，n为模型可信度层数。

在若干个验证样本上基于评价准则对数据融合结果进行综合评估，评价准则包括均方根误差(RMSE)、确定系数(R²)和区间评价准则(PIC)：

其中，N_V为验证样本个数，y_i为验证样本点真实值，为验证样本点预测值，/>为y_i的平均值，q为(0,1)之间的分位数，一般取q＝0.025和q＝0.975。RMSE理想值为0，R²理想值为1，PIC理想值为0。

在本发明一个可选的实施例中，进一步确定飞行器纵向气动阻力系数的设计变量为飞行马赫数Ma和攻角α，设计空间为Ma∈[3,7]，α∈[-5°,20°]。使用基于经验公式估算的机理建模气动求解方法获取低可信度数据，使用基于NS方程求解的CFD方法获取高可信度数据。为显示本发明数据融合方法更具通用性，假设已直接给定高可信度和低可信度采样点，且样本空间分布具有非均匀性的特点，如图2所示。

使用本发明提供的数据融合方法，最终的气动数据加权融合曲面如图3所示，数据融合前后置信区间如图4所示，数据融合前后精度评价如表1所示。从相关图表可以看出，相较于仅使用高可信度数据，数据融合后具有更高的精度，而且融合曲面平滑连续，同时在模型的局部具有合理的预测趋势，并且置信区间的减小也说明该方法有效降低了不确定性。

表1数据融合评价结果

评价指标	融合前	融合后
			RMSE	0.0123	0.0018
R²	0.9213	0.9968
			PIC(q＝0.025)	2.5553e-04	8.6696e-05
PIC(q＝0.975)	6.4801e-05	4.2979e-05

实施例的结果表明，本发明基于异方差高斯过程回归的多可信度数据融合方法可以对不同可信度的数据源进行不确定性建模，融合了样本局部空间分布信息与不确定性估计，自适应调整加权融合准则，在高精度数据较少时性能表现出较高的精度。此外，本发明可适用于具有非均匀实验设计的多层级数据融合。因此本发明具有较强的工程实用性，并且能够实现预期的发明目的。

最后应说明的是：以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域的技术人员来说，其依然可以对前述实施例的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于异方差高斯过程回归的多可信度数据融合方法，其特征在于，包括以下步骤：

步骤1、初始化多可信度模型的设计变量；

步骤2、分别对不同层级的可信度模型进行实验设计；

2.如权利要求1所述的一种基于异方差高斯过程回归的多可信度数据融合方法，其特征在于，步骤1所述的设计变量为x＝[x₁,x₂,...,x_m]∈D，其中，D为设计空间，m为设计空间维数，且满足R为实数集。

3.如权利要求2所述的一种基于异方差高斯过程回归的多可信度数据融合方法，其特征在于，步骤2所述的实验设计指在设计空间D内对不同的可信度模型F₁,F₂,...,F_n进行采样，其中1～n为可信度层级，n为可信度层数，且约定层级越大代表模型可信度越高，各层可信度的采样数量分别为N₁,N₂,...,N_n，并且满足N₁＞N₂＞…＞N_n，则各层可信度模型的采样集分别为X₁,X₂,...,X_n，其中采样方法是最优拉丁超立方采样、全因子设计、正交实验设计方法中的一种或者假设样本点已给定。

4.如权利要求3所述的一种基于异方差高斯过程回归的多可信度数据融合方法，其特征在于，步骤3所述的多个可信度数据集是指，分别使用各个采样集X₁,X₂,...,X_n运行对应可信度的仿真模型F₁,F₂,...,F_n，获取对应的模型响应值为Y₁,Y₂,...,Y_n,其中得到多可信度数据集。

5.如权利要求4所述的一种基于异方差高斯过程回归的多可信度数据融合方法，其特征在于，所述步骤4进一步包括以下步骤：

y＝f(x)+ε(x)

其中，x_*为预测点，f_*为潜函数预测值，

k_**＝k(x_*,x_*)，

k_*＝[k(x₁,x_*) k(x₂,x_*)…k(x_N,x_*)]^T，

利用高斯过程对回归噪声项ε(x)进行建模，公式为：

ε～N(0,r(x))

为保证方差的非负性，将r(x)定义为指数形式：

r(x)＝exp{g(x)}

对ε和ε_*积分得y_*的后验分布表达式进一步为：

p(y_*|x_*,y,x)＝∫∫p(y_*|x_*,y,x,ε,ε_*)p(ε,ε_*|x_*,y,x)dεdε_*；

其中，μ_*＝k_* ^T(k_xx+R)y为后验均值，

为后验方差，

其中，R和Λ为分解y的边缘概率时产生的对角矩阵，

k_ε*＝[k_ε(x₁,x_*) k_ε(x₂,x_*)…k_ε(x_N,x_*)]；

μ_i(x)＝μ_*＝k_* ^T(k_xx+R)y

后验方差的表达式为

其中i＝1,2,...,n代表不同的可信度层级。

6.如权利要求5所述的一种基于异方差高斯过程回归的多可信度数据融合方法，其特征在于，所述步骤5包括以下步骤：

其中，n为模型可信度层数。

7.如权利要求6所述的一种基于异方差高斯过程回归的多可信度数据融合方法，其特征在于，步骤6所述的融合评价准则包括均方根误差RMSE、确定系数R²和区间评价准则PIC；

8.如权利要求1至7任一项所述的一种基于异方差高斯过程回归的多可信度数据融合方法，其特征在于，应用于飞行器设计，以高可信度采样集X_H作为飞行器的飞行条件输入，划分网格并运行CFD数值求解，求解判断收敛后并对计算结果进行后处理，获得高可信度气动数据得到多可信度数据集。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。