CN104239598A

CN104239598A - 一种面向动态系统模型验证的多元数据分析方法

Info

Publication number: CN104239598A
Application number: CN201410317297.4A
Authority: CN
Inventors: 詹振飞; 杨俊祺; 郑玲; 舒雅静
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2014-07-04
Filing date: 2014-07-04
Publication date: 2014-12-24

Abstract

本发明公开了一种面向动态系统模型验证的多元数据分析方法，属于模型验证技术领域。本方法包括以下步骤：步骤一：基于PCA对标准化处理后的试验数据进行数据降维，进行多元数据的PCA分析；步骤二：进行动态响应的误差评估；步骤三：基于领域专家(SME)的响应分数计算；步骤四：基于PCA的MEARTH分数计算；步骤五：决策者决定接受或拒绝该仿真模型对于相应物理试验的预测结果。本方法不但能够全面地分析各动态响应的时间曲线特征，而且可以找出多元数据的潜在主元，消除多元数据相关性对验证结果的影响，避免多元动态响应量矛盾的验证结果，有效处理了动态系统的多元相关动态响应量分析问题。

Description

一种面向动态系统模型验证的多元数据分析方法

技术领域

本发明属于模型验证技术领域，涉及一种面向动态系统模型验证的多元数据分析方法。

背景技术

模型验证即是通过比较CAE模型输出及所测试验结果以评估CAE模型在拟用途上的有效性和准确性的过程。成功的模型验证能明显减少在模型建立和试验的投入。复杂产品工程系统模型通常包含多个输出响应。在检验一个动态系统模型时通常需要同时考察多元输出响应量的数据相关性对模型验证结果的影响。

在多元数据分析中，由于多元数据所包含的大量变量和各维之间的数据相关性，使得其结果难以分析以及运用多元统计分析。多元数据处理的主要目标就是处理高度相关的多元数据，消除变量间的相互影响并降低数据的维数。PCA(Principal component analysis)是一种行之有效的降维统计方法，能够降低数据维和解决多元数据相关性问题，目前广泛应用于数据压缩，图像处理，探索性数据分析，模式识别和时间序列预测。

时间响应误差评估(Error Assessment of Response Time Histories)可减少在验证过程中数据如相位移动、幅度面积以及形状等主要特征之间的相互作用和影响。该方法包含了对全局误差和目标点局部误差的评估。

全局误差可以被定义为整个时间域对于每个时间点相同权重的的总体误差值，主要由以下三个部分组成：(1)相位误差，考察两组数据在数据特征在时间上的总体误差。相位误差可以被定义为在考察整个时间域时两组数据间的时间差；(2)幅度误差，涉及的整个时间域中每个时间点瞬态振幅的错误。幅度误差可以被定义在两组时序响应数据没有时间或相位差时其幅度的误差；(3)形状误差，分析两组时间序列图像形状的差别。

目标点局部误差可以被定义为特定区域内某种局部特征的误差。考察的目标点只是整个验证时间域的一部分，并不表明验证数据在全域上的整体性能。目标点局部误差包括数值误差和相位误差。

EEARTH(Enhanced Error Assessment of Response Time Histories)保持原有EARTH误差分析的优点,除了对幅度、相位和形状误差进行评分外，也计算综合评分，该综合评分和专家打分情况接近，能为工程师或管理人员提供有效决策支持。

发明内容

有鉴于此，本发明的目的在于提供一种面向动态系统模型验证的多元数据分析方法，该方法针对多元动态系统验证，解决多元数据降维及相关性处理问题，可应用于分析同一动态系统中的多元响应量仿真模型与相应试验数据的吻合度。

为达到上述目的，本发明提供如下技术方案：

一种面向动态系统模型验证的多元数据分析方法，包括以下步骤：步骤一：基于PCA对标准化处理后的试验数据进行数据降维，进行多元数据的PCA分析；步骤二：进行动态响应的误差评估；步骤三：基于领域专家(SME)的响应分数计算；步骤四：基于PCA的MEARTH分数计算；步骤五：决策者决定接受或拒绝该仿真模型对于相应物理试验的预测结果。

进一步，步骤一具体包括：从测试数据和仿真的可比性标准化试验数据峰值量纲数据，然后应用PCA对标准化的试验数据进行降维，并解决多元数据相关问题；从试验数据得来的PCA系数矩阵随后用于已转化仿真数据，以便在相同降维空间中与试验数据进行对比。

进一步，所述步骤一中PCA使用了矩阵分析方法特征值分解，该特征值和特征向量分别代表占了各主元包含的变异量和原始数据各维的权重，其主要目的是把一组高维相关数据转化为一个数据不相关的、维数较低(主要成分)的降维变量；主元分析法的重要属性是主成分投影最小化了降维过程中的最小平方误差；由于PCA不是基于概率的模型，所以基于PCA的降维过程不需要数据分布的假设；PCA将多维相关响应量转化为不相关的低维响应，基于降维后的主元进行的数据分析相对于原数据可以提高效率并尽量减少在降维过程中的重构误差平方。

进一步，在步骤二中，采用EARTH误差评估方法对PCA降维的试验和仿真数据进行评估，计算每个主元包括相位、幅度和斜率等三个独立的误差。

进一步，所述步骤二中动态响应的误差评估包含了对全局误差和目标点局部误差的评估。

进一步，所述步骤二中全局误差评估全局误差被定义为整个时间域对于每个时间点相同权重的的总体误差值，主要由以下三个部分组成：a)相位误差，考察两组数据在数据特征在时间上的总体误差，相位误差被定义为在考察整个时间域时两组数据间的时间差；b)幅度误差，涉及的整个时间域中每个时间点瞬态振幅的错误，幅度误差被定义在两组时序响应数据没有时间或相位差时其幅度的误差；c)形状误差，分析两组时间序列图像形状的差别，描述了两组时间序列，不仅在相位和幅度方面有误差，其波峰波谷的数量也不同。

进一步，在步骤三中，结合领域专家的知识，把每个主元的三个EARTH误差转变成一个直观的、取值范围为0到100％的评分。

进一步，所述步骤三中的基于领域专家评分过程始于反映试验结果的响应量的获取，要求涵盖按照仿真和试验数据吻合度定义的典型的优良、普通和较差的响应量；所得响应量被提供给领域专家，获得领域专家各自独立的评分，这些评分将作为M-EARTH评分的依据。

进一步，在步骤四中，降维的时间响应的分数可以通过主元分析相结合系数为一个多元动态系统的整体得分，综合评分由所得幅值、相位和形状评分通过权重因子加权而得。

本发明的有益效果在于：本发明所述方法不但能够全面地分析各动态响应的时间曲线特征，而且可以找出多元数据的潜在主元，消除多元数据相关性对验证结果的影响，避免多元动态响应量矛盾的验证结果，有效处理了动态系统的多元相关动态响应量分析问题。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明所述方法的流程示意图；

图2为实施例中试验和仿真模型11个输出响应的时间历程；

图3为实施例中降维后各元所包含原始数据信息量；

图4为EEARTH评分流程；

图5为实施例中试验和仿真数据的PCA主元。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

图1为本发明所述方法的流程示意图，如图所示：

本方法包括以下步骤：

步骤一：基于PCA的数据降维，多元数据的PCA分析；

从测试数据和仿真的可比性标准化试验数据峰值量纲数据。然后应用PCA对标准化的试验数据进行降维，并解决多元数据相关问题。从试验数据得来的PCA系数矩阵随后用于已转化仿真数据，以便在相同降维空间中与试验数据进行对比。

步骤二：动态响应的误差评估；

用EARTH误差评估方法对PCA降维的试验和仿真数据进行评估，计算每个主元包括相位、幅度和斜率等三个独立的误差；

步骤三：基于领域专家(SME)的响应分数计算；

结合领域专家(SME)的知识，把每个主元的三个EARTH误差转变成一个直观的、取值范围为0到100％的评分。

步骤四：基于PCA的MEARTH分数计算；

降维的时间响应的分数可以通过主元分析相结合系数为一个多元动态系统的整体得分。

步骤四：决策者决定接受或拒绝该仿真模型对于相应物理试验的预测结果。

下面在实施例中，利用本方法对某汽车碰撞安全仿真模型进行模型验证。选定了11个输出响应量时间序列。每个响应量都有一组对应的试验测量结果和仿真模型预测被用于对比分析，如图2所示。

首先进行数据标准化。在这一步中，试验和仿真多元数据通过试验数据峰值转化为无量纲数据。

令T＝[t₁,···,t_m]^T代表的n×m的试验数据，，令为n×p的在PCA空间中降维数据(p≤m)，也就是PCA主元。要确定适当的主元数目，例如确定在PCA变换后需要保留原来的数据95％信息，这可以由协方差矩阵的特征值确定：

Σ_{i = 1}^{p} λ_{i} / Σ_{i = 1}^{m} λ_{i} &GreaterEqual; 95 % - - - (3 - 1)

并且维数为m×p的权重矩阵W为相应的特征向量λ₁…,λ_p组成。原数据与降维数据之间的关系可表示为：

T＝WΦ_T+μ_T (3-2)

这描述了T和Φ_T之间的关系，参数向量μ_T由T数组的m个均值组成，亦即因此Φ_T可以表示为：

Φ_T＝W^T(T-μ_T)

然后使用PCA对标准化的试验数据进行降维，附图3显示了各主元所占数据信息的比例。结果表明，原来的11维响应量的试验数据是高度相关的数据，通过PCA分析，可以降维为4个主元，这4个主元可以包含原数据95％以上的信息。此外前两维主元含有85％以上的信息。所以，前四维主元被用于MEARTH评分。其流程图如附图4所示。

首先计算EEARTH相位评分E_P：其中n是原有的时间序列的数据点总数，是可接受的相移占整个时间予的比例，定义了回归幂次。EEARTH相位评分最高为100％，这意味着无需通过仿真数据以达到最大原始测试点之间的相关系数和仿真数据。如果移位等于或大于最大允许阈值时，则EEARTH相位得分为0％。在这期间，在EEARTH阶段得分的计算方法是回归法。

E_{P} = [\begin{matrix} 100 % & n_{ϵ} = 0 \\ 0 % & n_{ϵ} &GreaterEqual; ϵ_{p}^{*} \times n & K_{E_{P}} &Element; {1,2, 3 \cdot \cdot \cdot} \\ {(\frac{ϵ_{p}^{*} \times n - n_{ϵ}}{ϵ_{p}^{*} \times n})}^{K_{E_{P}}} & otherwise \end{matrix}

计算EEARTH幅度评分E_M：其中是最大允许误差的大小，是回归幂次。EEARTH幅度评分最高为100％，这意味着在相移和动态时间规整后的试验和仿真时间序列没有幅度差异。如果原始EARTH的大小误差等于或大于最大允许误差阈值的大小那么EEARTH程度评分为0％。在中间的时候，EEARTH幅度评分通过回归法进行计算。

E_{M} = [\begin{matrix} 1 & ϵ_{magitude} = 0 \\ 0 & ϵ_{magitude} &GreaterEqual; ϵ_{m}^{*}, K_{E_{m}} &Element; {1,2,3 \cdot \cdot \cdot} \\ {(\frac{ϵ_{m}^{*} - ϵ_{magitude}}{ϵ_{m}^{*}})}^{K_{E_{m}}} & otherwise \end{matrix}

计算EEARTH斜率评分：其中是最大允许斜率误差，定义了回归幂次。通过这种方式，最好的EEARTH斜率评分是100％，这意味着有两个斜率上没有曲线的差异。如果斜率误差等于或大于最大允许误差斜率则EEARTH斜率评分为0％。在这期间，斜率的EEARTH得分计算方法是回归法。

E_{S} = [\begin{matrix} 1 & ϵ_{slope} = 0 \\ 0 & ϵ_{slope} &GreaterEqual; ϵ_{s}^{*}, K_{E_{s}} &Element; {1,2,3 \cdot \cdot \cdot} \\ {(\frac{ϵ_{s}^{*} - ϵ_{slope}}{ϵ_{s}^{*}})}^{K_{E_{s}}} & otherwise \end{matrix}

最后上述三个EEARTH评分通过权重因子w_i合并成一个EEARTH评分。

E＝w_p·E_P+w_m·E_Mjw_s·E_S

附图5显示了试验数据的前四维PCA主元与基准模型和仿真模型降维数据的对比。其中横坐标表示时间间隔，纵坐标代表主元的幅度。图象显示了第一主元中占原试验数据的63％信息，仿真模型的PCA降维数据能很好地与试验数据匹配，而第二维到第四维PCA主元各占原数据信息分别为22.5％、6.5％和3.3％，模型与试验数据的吻合程度较好。

MEARTH方法验证结果：

上表显示了两个仿真模型的MEARTH评分详细结果。通过PCA降维，对降维数据进行EEARTH误差分析和EEARTH评分，最后使用试验数据PCA各主元的信息比加权得到两个仿真模型的总体分数，其中基准模型的MEARTH总分为56.6％，优化模型总分为64.1％。可以进一步理解为这两个仿真模型都是可用模型，但优化模型预测与物理试验测量结果更加吻合。该结果与专家的主观评分是一致的。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种面向动态系统模型验证的多元数据分析方法，其特征在于：包括以下步骤：

步骤一：基于PCA对标准化处理后的试验数据进行数据降维，进行多元数据的PCA分析；

步骤二：进行动态响应的误差评估；

步骤三：基于领域专家的响应分数计算；

步骤四：基于PCA的MEARTH分数计算；

步骤五：决策者决定接受或拒绝该仿真模型对于相应物理试验的预测结果。

2.根据权利要求1所述的一种面向动态系统模型验证的多元数据分析方法，其特征在于：步骤一具体包括：从测试数据和仿真的可比性标准化试验数据峰值量纲数据，然后应用PCA对标准化的试验数据进行降维，并解决多元数据相关问题；从试验数据得来的PCA系数矩阵随后用于已转化仿真数据，以便在相同降维空间中与试验数据进行对比。

3.根据权利要求2所述的一种面向动态系统模型验证的多元数据分析方法，其特征在于：所述步骤一中PCA使用了矩阵分析方法特征值分解，该特征值和特征向量分别代表占了各主元包含的变异量和原始数据各维的权重，其主要目的是把一组高维相关数据转化为一个数据不相关的、维数较低的降维变量；主元分析法的重要属性是主成分投影最小化了降维过程中的最小平方误差；由于PCA不是基于概率的模型，所以基于PCA的降维过程不需要数据分布的假设；PCA将多维相关响应量转化为不相关的低维响应。

4.根据权利要求1所述的一种面向动态系统模型验证的多元数据分析方法，其特征在于：在步骤二中，采用EARTH误差评估方法对PCA降维的试验和仿真数据进行评估，计算每个主元包括相位、幅度和斜率等三个独立的误差。

5.根据权利要求4所述的一种面向动态系统模型验证的多元数据分析方法，其特征在于：所述步骤二中动态响应的误差评估包含了对全局误差和目标点局部误差的评估。

6.根据权利要求5所述的一种面向动态系统模型验证的多元数据分析方法，其特征在于：所述步骤二中全局误差评估全局误差被定义为整个时间域对于每个时间点相同权重的的总体误差值，主要由以下三个部分组成：a)相位误差，考察两组数据在数据特征在时间上的总体误差，相位误差被定义为在考察整个时间域时两组数据间的时间差；b)幅度误差，涉及的整个时间域中每个时间点瞬态振幅的错误，幅度误差被定义在两组时序响应数据没有时间或相位差时其幅度的误差；c)形状误差，分析两组时间序列图像形状的差别，描述了两组时间序列，不仅在相位和幅度方面有误差，其波峰波谷的数量也不同。

7.根据权利要求1所述的一种面向动态系统模型验证的多元数据分析方法，其特征在于：在步骤三中，结合领域专家的知识，把每个主元的三个EARTH误差转变成一个直观的、取值范围为0到100％的评分。

8.根据权利要求7所述的一种面向动态系统模型验证的多元数据分析方法，其特征在于：所述步骤三中的基于领域专家评分过程始于反映试验结果的响应量的获取，要求涵盖按照仿真和试验数据吻合度定义的典型的优良、普通和较差的响应量；所得响应量被提供给领域专家，获得领域专家各自独立的评分，这些评分将作为M-EARTH评分的依据。

9.根据权利要求1所述的一种面向动态系统模型验证的多元数据分析方法，其特征在于：在步骤四中，降维的时间响应的分数可以通过主元分析相结合系数为一个多元动态系统的整体得分，综合评分由所得幅值、相位和形状评分通过权重因子加权而得。