CN111581764A

CN111581764A - 一种模型精度评价方法

Info

Publication number: CN111581764A
Application number: CN201910119927.XA
Authority: CN
Inventors: 胡增运; 陈曦; 周启鸣; 钱静; 陈朝亮
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2020-08-25

Abstract

本申请属于模型性能技术领域，特别是涉及一种模型精度评价方法。某些模型在模式协议中可能具有更好的性能(CC值很高)，但是偏差也更大(更大的AE)，其他模型中亦是如此，则很难准确地区分模型。本申请提供了一种模型精度评价方法，所述方法包括如下步骤：步骤1：将模拟模型与参考模型进行对比，对数据进行归一化处理；步骤2：将所述归一化数据构成三维空间坐标系；步骤3：利用所述三维空间坐标系中坐标位置，计算模拟模型数据与参考模型数据之间的距离；步骤4：根据所述距离的大小判断模型精度。可以应用于不同模型数据之间的比较以及跟踪模型性能的变化，具有更好的识别高精度模型的能力。

Description

一种模型精度评价方法

技术领域

本申请属于模型性能技术领域，特别是涉及一种模型精度评价方法。

背景技术

自然现象模型在理解演化过程，揭示相应的物理机制和预测未来变化方面发挥着重要作用。在运用自然现象模型时应首先评估它们的表现，以确定是否与观察到的相似。通常，多模型，例如气候模型和水文模型的性能总是针对参考模型(观测结果)来进行评估，以获得更合理的模型。

应用统计度量来定量评价模型在不同视角下的精度，例如相关系数(CC)用来测量模拟时间序列和观测时间序列之间的线性关联强度和方向，绝对误差(AE)用于测量观察到的时间序列的任何持续偏差(具有正值的低估和高估的负值)，均方根误差(RMSE)用于量化偏差的平均幅度，某些模型在模式协议中可能具有更好的性能(CC值很高)，但是偏差也更大(更大的AE)，其他模型中亦是如此，则很难准确地区分模型。

发明内容

1.要解决的技术问题

基于应用统计度量来定量评价模型在不同视角下的精度，例如相关系数(CC)用来测量模拟时间序列和观测时间序列之间的线性关联强度和方向，绝对误差(AE)用于测量观察到的时间序列的任何持续偏差(具有正值的低估和高估的负值)，均方根误差(RMSE)用于量化偏差的平均幅度，某些模型在模式协议中可能具有更好的性能(CC值很高)，但是偏差也更大(更大的AE)，其他模型中亦是如此，则很难准确地区分模型的问题，本申请提供了一种模型精度评价方法。

2.技术方案

为了达到上述的目的，本申请提供了一种模型精度评价方法，所述方法包括如下步骤：

步骤1：将模拟模型与参考模型进行对比，对数据进行归一化处理；

步骤2：将所述归一化数据构成三维空间坐标系；

步骤3：利用所述三维空间坐标系中坐标位置，计算模拟模型数据与参考模型数据之间的距离；

步骤4：根据所述距离的大小判断模型精度。

可选地，所述步骤1中数据包括绝对误差和均方根误差。

可选地，所述步骤1包括将所述绝对误差和所述均方根误差除以参考模型的绝对平均值，将所述绝对误差归一化为归一化绝对误差，将所述均方根误差归一化为归一化均方根误差。

可选地，所述步骤2包括将所述模拟模型的相关系数、所述归一化绝对误差和所述归一化均方根误差构成一个三维空间坐标系。

可选地，所述步骤1中所述参考模型与自身进行比较时，相关系数＝1，归一化绝对误差＝0，归一化均方根误差＝0。

可选地，所述模拟模型和参考模型都在相同的三维空间坐标系中。

可选地，所述模拟模型的相关系数越大、绝对误差和均方根误差越小，则所述模拟模型的精度越高。

3.有益效果

与现有技术相比，本申请提供的一种模型精度评价方法的有益效果在于：

本申请提供的模型精度评价方法利用模拟值和观测值之间的距离，定量评价不同模型对参考模型的整体性能。可以量化不同模型对参考模型的整体表现，该距离融合了相关系数、绝对误差和均方根误差三个指标的不同统计度量，通过在三维空间坐标系中测量模拟模型与参考模型之间的距离来实现，具有很强的物理基础。从绝对误差、均方根误差和均方根之间的关系来看，新指数也有泰勒图中的统计指标均方根偏差的信息。可以应用于不同模型数据之间的比较以及跟踪模型性能的变化，具有更好的识别高精度模型的能力。

附图说明

图1是本申请的泰勒图示例图；

图2是本申请的模型精度评价方法中三维空间坐标系示意图。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

泰勒在参考模型和模拟测试模型之间发现了标准偏差、相关系数和均方根(RMS)之间的关系，它们满足余弦定理，并建立泰勒图将这些指标直观的显示出来，到目前为止已有很多研究将其运用于参考模型和多模型之间的比较；但是它仅提供二维图上的统计指标。

目前泰勒图是最常用的模型评估的方法，它是由模拟模型和观测模型分布的相关系数及其均方差比值组成的极坐标图。其原理如下：

假设比较两个模型B和C的模拟能力，参照对象为观测资料A。首先以模型B为例，a_n和b_n分别为观测和模拟的序列，则观测资料A的标准差为：

模式B的标准差为：

两者的相关系数为：

其中

和

分别为观测和模式数据的平均值。那么模型场和观测场中心化的均方根误差为：

观测资料A和模型B的标准差、相关系数和中心化的均方根误差三者满足E²＝σ_a ²+σ_b ²-2σ_aσ_bR，可得到图1。

在图1中，A为观测资料，B和C为被比较的两个模型资料。越靠近参考点A，则与观测资料的相关系数越高，中心化的均方根误差越小，标准差越接近，表示模拟程度相对较好。如图1中模型B的模拟程度优于模型C。

泰勒图提供了一个可视化框架，用于将模型模拟结果与参考模型进行比较，它将模型的标准差和相关系数(CC)两个指标在图上进行直观表示。

通常绝对误差(AE)，均方根误差(RMSE)和相关系数(CC)三个指标用于描述模型性能的多个方面。对于参考模型的时间序列(OBS)，我们令A＝(a₁a₂,…,a_n)，对于模型模拟的时间序列，我们令B＝(b₁,b₂,…,b_n)，由此可得到：

其中

和

是A和B的平均值，分别是时间序列的长度。当与OBS比较时，对于具有高CC和低AE的模型模拟时间序列，它可以很好地捕获OBS的变化。但是，当两个模型具有相近的CC和AE值时，上述指标可能无法区分那个模型更好。例如，对于OBS时间序列X，我们假设它具有两个模型模拟时间序列S1和S2，它们中的CC值分别命名为CC₁和CC₂，AE值分别定义为AE₁和AE₂，假设CC₁，CC₂，AE₁和AE₂为正，则下列情况下：

CC₁＜CC₂ and AE₁＜AE₂

很难得出哪个模拟时间序列(或)具有更高的准确度。

参见图1～2，本申请提供一种模型精度评价方法，所述方法包括如下步骤：

步骤2：将所述归一化数据构成三维空间坐标系；

步骤4：根据所述距离的大小判断模型精度。

该距离记为DISO，定义：

根据等式(4)，把等式(5)变为

为了便于分析，将等式(5)变为

其中-1≤CC＝x≤1,NAE＝y∈Rand 0≤NRMSE＝z.

接下来，为了更好地理解三个统计指标(CC，NAE和NRMSE)的变化在新指数DISO上的影响，运用严格的数学理论探索了x，y和z之间的关系。对于函数f(x,y,z)使用f_X,f_Y和f_z分别表示关于x，y和z的一阶偏导数。然后，得到如下情形：

(1)对于x，可得：

因为-1≤X≤1，所以指示f(x,y,z)功能的一阶偏导数f_z≤0是x的单调递减函数。换句话说，相关系数(CC)越大，新指数DISO越小。

(2)对于y，相应的一阶偏导数具有以下形式

从上式中我们可得，当归一化AE(NAE)≥0时，新指标DISO随着NAE的增加而增加，当归一化AE(NAE)≤0时，新指标DISO随着NAE的增加而减小。

(3)对于z，一阶偏导数f_z是

根据以上公式，f_z显然随着z而单调增加，这说明DISO随着NRMSE的增加而增加。对于所有模型的模拟时间序列，可以从公式(10)中获得DISO_i(i＝1,2，...，m)的所有值。根据定义，模拟模型的DISO值越小，则该模型的模拟表现越好。

进一步地，所述步骤1中数据包括绝对误差和均方根误差。

进一步地，所述步骤1包括将所述绝对误差和所述均方根误差除以参考模型的绝对平均值，将所述绝对误差归一化为归一化绝对误差，将所述均方根误差归一化为归一化均方根误差。

进一步地，所述步骤2包括将所述模拟模型的相关系数、所述归一化绝对误差和所述归一化均方根误差构成一个三维空间坐标系。

对于参考模型(OBS)来说，假设模拟模型为S₁,S₂,…,S_m。与参考模型(OBS)比较时，计算相关系数(CC)、归一化绝对误差(NAE)和归一化均方根误差(NRMSE)。对于每个S_i(i＝1,2，...，m)，相应的相关系数(CC)，归一化绝对误差(NAE)和归一化均方根误差(NRMSE)记为S_i(CC_i,NAE_i,NRMSE_i)。令CC_i＝x_i,NAE_i＝y_i，NRMSE_i＝z_i，则相关系数(CC)，归一化绝对误差(NAE)和归一化均方根误差(NRMSE)构成一个三维空间坐标系(见图2)。

进一步地，所述步骤1中所述参考模型与自身进行比较时，相关系数＝1，归一化绝对误差＝0，归一化均方根误差＝0。记为(CC₀,NAE₀,NRMSE₀)＝(x₀,y₀,z₀)＝(1,0,0)。

进一步地，所述模拟模型和参考模型都在相同的三维空间坐标系中。

进一步地，所述模拟模型的相关系数越大、绝对误差和均方根误差越小，则所述模拟模型的精度越高。越接近参考模型(OBS)，精度越高。

实施例

在这里给出具体实验步骤和实验结果，结合数据进行分析。

在该实验中，观测模型的时间序列是1961～2012年中国平均年降水量，根据CN05.1计算得出，测试字段包括全球降水气候学中心(GPCC)V7数据集，气候研究单位(CRU)TS4.01数据集和威尔莫特和松浦(WM)4.01数据集三个全局空间插值网格化数据集和欧洲中期天气预报中心(ECMWF)的ERA-20C，ERA-20CM和CERA-20C三个全局再分析数据集。所有六个网格数据集都是0.5°×0.5°的空间分辨率和以月为单位的相同时间分辨率。具体信息如表1所示。

表1实验中用到的数据

分别用泰勒图的相关系数(CC)，绝对误差(AE)和均方根误差(RMSE)三个指标以及本发明的综合指数(DISO)对上述数据集进行计算比较，六个网格化降水数据集的准确度结果显示在表2中。为了进行比较，CN05.1对自身的评估结果也在表2中提供。

表2不同数据集的指数表现

从表2中可以看到三个空间插值网格化数据集具有比三个全局再分析数据集更高的相关系数(CC)，更低的绝对误差(AE)和均方根误差(RMSE)，这与综合指数DISO的表现一致。在三个空间插值网格化数据集中，GPCC V7与其他两个数据集具有最一致和最小的偏差，这两个数据集显然具有最小的DISO值，表示最接近CN05.1。与WM 4.01的准确度相比，CRU TS 4.01的CC更大，而其偏差大于WM 4.01(表2)。事实上，根据DISO，CRU TS 4.01具有比WM 4.01更高的综合精度。

在三个再分析数据集中，可以看到ERA-20C和CERA-20C具有相同的DISO值(0.6vs0.59，表2)。然而，就其表现的不同方面而言，存在很大差异。特别地，CERA-20C比ERA-20C能更好地捕获年降水量的变化(CERA-20C的CC＝0.57(ERA-20C为0.43)，而CERA-20C(AE＝174.44mm)的绝对误差比ERA-20C(AE＝74.05mm)更高。与ERA-20C和CERA-20C相比，ERA-20CM具有最小的相关系数(CC)和最大的绝对误差(AE)，这显然表明它具有最差的综合性能(DISO＝0.93)。总体而言，根据上述分析，DISO能全面变现出模型的优劣程度。

解决了泰勒图中相关系数(CC)和绝对误差(AE)都比参考模型小而无法判断该模型优劣程度的情况，具有更高的运用价值和准确性。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims

1.一种模型精度评价方法，其特征在于：所述方法包括如下步骤：

步骤2：将所述归一化数据构成三维空间坐标系；

步骤4：根据所述距离的大小判断模型精度。

2.如权利要求1所述的模型精度评价方法，其特征在于：所述步骤1中数据包括绝对误差和均方根误差。

3.如权利要求2所述的模型精度评价方法，其特征在于：所述步骤1包括将所述绝对误差和所述均方根误差除以参考模型的绝对平均值，将所述绝对误差归一化为归一化绝对误差，将所述均方根误差归一化为归一化均方根误差。

4.如权利要求3所述的模型精度评价方法，其特征在于：所述步骤2包括将所述模拟模型的相关系数、所述归一化绝对误差和所述归一化均方根误差构成一个三维空间坐标系。

5.如权利要求4所述的模型精度评价方法，其特征在于：所述步骤1中所述参考模型与自身进行比较时，相关系数＝1，归一化绝对误差＝0，归一化均方根误差＝0。

6.如权利要求4所述的模型精度评价方法，其特征在于：所述模拟模型和参考模型都在相同的三维空间坐标系中。

7.如权利要求1～6中任一项所述的模型精度评价方法，其特征在于：所述模拟模型的相关系数越大、绝对误差和均方根误差越小，则所述模拟模型的精度越高。