CN117011698B

CN117011698B - 多维度和多模型的地表全覆盖解译样本集评价方法

Info

Publication number: CN117011698B
Application number: CN202310753327.5A
Authority: CN
Inventors: 李朋龙; 张孝成; 张滔; 马泽忠; 文力; 郭鑫; 何宗; 陶超; 敖影; 罗鼎; 李海峰; 姜紫薇; 李晓龙; 连蓉; 蒲艺
Original assignee: Chongqing Geographic Information And Remote Sensing Application Center (chongqing Surveying And Mapping Product Quality Inspection And Testing Center)
Current assignee: Chongqing Geographic Information And Remote Sensing Application Center (chongqing Surveying And Mapping Product Quality Inspection And Testing Center)
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2024-05-03
Anticipated expiration: 2043-06-25
Also published as: CN117011698A

Abstract

本发明公开了一种多维度和多模型的地表全覆盖解译样本集评价方法，步骤1：构建地表覆盖解译样本集评价指标；步骤2：建立指标打分模型和泛化性评价模型；步骤3：将待评价样本集分别训练指标打分模型和泛化性评价模型，指标打分模型得到各评价指标得分；步骤4：对各评价指标得分进行交叉综合分析并加权计算得出指标评分；步骤5：构建泛化性评估测试数据集；步骤6：在泛化性评估测试数据集对泛化性评价模型进行测试，得到泛化性评分；步骤7；建立指标评分和泛化性评分的评级，若评级不同，则取较低评级为最终样本集评价。本发明从样本集自身特性和模型训练泛化性两个角度出发，使得地表覆盖解译样本集的评价更加有效、客观。

Description

多维度和多模型的地表全覆盖解译样本集评价方法

技术领域

本发明涉及地表覆盖解译样本集评价领域，具体涉及一种多维度和多模型的地表全覆盖解译样本集评价方法。

背景技术

随着遥感技术的发展，在国土自然资源监测工作中，遥感影像已成为政府部门与科研机构快速、直接获取各类地物信息的重要数据源。然而，高维、海量的遥感数据不仅对计算能力提出了更高的要求，对数据解译方法本身也提出了新要求，导致传统人工解译方法效率低下无法满足实际应用需求。如：某省市需要进行大范围、常态化、高精度的自然资源监测需求，发展智能化遥感解译方法是必然趋势。

近年来，以深度学习方法为基础的遥感影像智能解译技术已取得突破性进展，在自动化程度和解译精度两方面较传统方法都有显著提升。现有深度学习要取得高性、高精度需依赖大规模、高质量的人工样本作为训练数据，并且需要测试数据与训练数据分布相近。但是目前缺乏对样本库质量的客观评价方法，因为绝大部分公开样本库仅提供处理后的影像和标注文件本身。关于样本影像的时相、地理空间、分辨率、成像参数、传感器型号等重要信息都被丢弃。而仅仅基于影像和标注本身，难以构建多个维度的样本集评价指标对齐进行全方面的评价。

发明内容

本发明的目的是提供一种地表覆盖解译样本集评价方法，使得地表覆盖解译样本集的评价更加有效、客观，帮助数据使用者全面掌握数据集的优劣。

为了实现上述目的，本发明采用了如下技术方案：

一种多维度和多模型的地表全覆盖解译样本集评价方法，包括：

步骤1：构建地表覆盖解译样本集评价指标；

步骤2：建立基于所述评价指标的指标打分模型和泛化性评价模型；

步骤3：将待评价样本集分别输入所述指标打分模型，通过所述指标打分模型得到各评价指标得分，将待评价样本集分别输入训练所述泛化性评价模型；

步骤4：对各所述评价指标得分进行交叉综合分析并加权计算得出样本集的指标评分；

步骤5：构建泛化性评估测试数据集；

步骤6：在所述泛化性评估测试数据集对步骤3中训练的所述泛化性评价模型进行测试，得到样本集的泛化性评分；

步骤7；建立所述指标评分和所述泛化性评分的评级，若评级不同，则取较低评级为最终样本集评价。

进一步地，所述步骤1：构建地表覆盖解译样本集评价指标中，所述指标包括：样本数量、样本不含云量、样本类别均衡性、样本空间分布多样性、样本时间分布多样性、样本空间分辨率多样性、样本传感器多样性。

进一步地，所述步骤2：建立基于所述评价指标的指标打分模型，包括：

步骤2.1：输入样本集，将所述地表覆盖解译样本集评价指标输入所述指标打分模型；

步骤2.2：指标计算，所述指标打分模型依据各项样本集评价指标的物理意义，通过统计方法分别对所述样本集评价指标进行计算；

步骤2.3：输出打分，输出所述各项样本集评价指标的具体分数。

进一步地，所述步骤2中建立泛化性评价模型，包括:

基于以下三种语义分割模型建立评价指标的泛化性评价模型，分别为：

①基于U-net构建的样本集所学表征泛化性评模型；

②基于Deeplabv3+构建的样本集所学表征泛化性评模型；

③基于PSPNet构建的样本集所学表征泛化性评模型。

进一步地，所述步骤6：在所述泛化性评估测试数据集对步骤3中已训练的所述泛化性评价模型进行测试，得到样本集的泛化性评分，包括：

将各泛化性评价模型在泛化性评估测试数据集上进行测试，得到不同泛化性评价模型测试数据的地表覆盖解译精度；

基于上述所得一系列解译精度进行整合与汇总，形成最终解译性能评价结果。

进一步地，所述基于上述所得一系列解译精度进行整合与汇总，形成最终解译性能评价结果，包括：

将所述泛化性评价模型在所述泛化性评估测试数据集上进行测试，得到所述地表覆盖解译性能结果{S₁,S₂,…,S_M}采用等权重加权融合的策略进行汇总得到整体泛化性评价得分：

其中S_i为所有泛化性评价模型在泛化性评估测试数据集D_i上的平均Kappa；M则为泛化性评估测试数据集的总个数。

进一步地，所述步骤4：对各所述评价指标得分进行交叉综合分析并加权计算得出样本集的指标评分，包括：

步骤4.1：多指标交叉综合分析，

将样本不含云量指标、类别均衡指标和分辨率多样性指标取均值作为交叉分析指标得分；

步骤4.2：指标得分加权，

对各项指标得分和交叉分析指标得分进行平均值计算，得出的指标均值为样本集的指标评分。

进一步地，所述步骤5：构建泛化性评估测试数据集，采用如下原则：

多样性原则：构建测试集充分考虑所述地表覆盖解译样本集评价指标所有关键属性；

控制变量原则：测试集用于不同泛化性评估模型测试时采用相同的数据增强预处理方式。

进一步地，所述步骤5：构建泛化性评估测试数据集，包括：

根据各评价指标侧重不同，构建多个对应不同侧重点的多样性独立测试集。

进一步地，所述步骤7：建立所述指标评分和所述泛化性评分的评级，包括：

设立多个等级的样本集评分表，所述样本集评分表设有多段指标评分、多段泛化性评分及各段评分相对应的等级，通过对照所述样本集评分表，分别得出样本集指标评价结果和地表覆盖解译泛化性能评价结果各自对应的等级。

本发明的有益效果是：

(1)本发明从数据集自身特性和模型训练泛化性两个角度对地表覆盖解译样本集进行多维度评价，形成了多指标、多模型的地表覆盖解译样本集综合评价方法，使得地表覆盖解译样本集的评价更加有效、客观，帮助数据使用者全面掌握数据集的优劣。

(2)填补了地表覆盖全解译数据集评价方法缺失的空白。

(3)在地表覆盖全解译数据集评价中结合了数据集自身特性和深度学习模型训练特性。

附图说明

图1为本发明的流程示意图；

图2为本发明的原理框图；

图3为本发明的指标打分模型：

图4为本发明的泛化性评价模型；

图5为本发明样本数量得分的函数值。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参见图1至图4所示，多维度和多模型的地表全覆盖解译样本集评价方法，包括以下步骤：

步骤1，构建地表覆盖解译样本集评价指标；

所述评价指标包括：样本数量指标、样本不含云量指标、类别均衡性指标、空间分布多样性指标、时间分布多样性指标、分辨率多样性指标、传感器多样性指标，形成多个评价维度。

建立基于指标的指标打分模型；

该指标打分模型以地表覆盖解译样本集评价指标为输入，自动得到上述所有7个指标的定量评价得分，作为评价样本集的重要基础。基于评价指标的指标打分模型对地表覆盖解译样本集评价指标进行打分的过程主要分为以下三步：

步骤2.1：输入样本集，将所述地表覆盖解译样本集评价指标输入所述指标打分模型，其中包含关于样本影像的时间信息、空间信息、分辨率信息、传感器信息作为后续指标打分模型计算的基本依据。

步骤2.2：指标计算，所述指标打分模型依据各项样本集评价指标的物理意义，通过具体统计方法分别对所述样本集评价指标进行计算；

建立泛化性评价模型，即语义分割模型；

该泛化性评价模型区别于从地表覆盖解译样本集各项评价指标自身出发对该样本集进行评分的指标打分模型，泛化性评价模型是从样本集所训练模型的实际地表覆盖解译泛化性能出发，对输入样本集进行评价。其中，泛化性评价模型地表覆盖解译泛化性能可以在人工构建的测试数据上进行定量评估，因而可以对样本集进行定量评价。

该泛化性评价模型的核心在于将泛化性评价模型的地表覆盖解译泛化性与地表覆盖解译样本集中各项样本集评价指标深度关联，进一步提升上述指标的应用价值。

本泛化性评价模型采用基于以下三种语义分割模型建立评价指标的泛化性评价模型，分别为：

①基于U-net构建的样本集所学表征泛化性评模型；

②基于Deeplabv3+构建的样本集所学表征泛化性评模型；

③基于PSPNet构建的样本集所学表征泛化性评模型。

采用上述三种模型，因不同解译模型彼此存在差异，避免基于特定网络结构的解译模型对样本集评价时引入偏见，故所构建的泛化性评价模型即地表覆盖解译模型应具备丰富和多样性。

如图3所示：步骤3：将待评价样本集分别输入训练所述指标打分模型和所述泛化性评价模型，通过所述指标打分模型得到各评价指标得分；

所述将待评价样本集分别输入所述指标打分模型的具体计算方法如下：该指标打分模型内设有评价得分计算模块，待评价样本集输入所述指标打分模型，通过评价得分计算模块计算出各指标得分：

(1)样本数量得分：

对于本地表覆盖解译样本集评价指标来说，样本的数量可以从影像数量、图斑数量、像素数量三个角度进行统计，得到样本数量的评分P₁。设样本数量为x1，则设置指标打分模型达到较好效果的数量阈值k1，计算方式如下：

函数直观示意：设k1＝30w，公式中e为自然常数，其值约为2.718281828459,该函数值如图5所示：

在计算时，k1的值根据样本数量探究实验来确定：

将待评价的样本集D划分为若干个子集如下，分别计算样本数量指标和使用子集训练的语义分割模型精度，该语义分割模型采用deeplabv3+模型：

通过对比不同数量的子集所训练的指标打分模型精度，来说明样本数量指标的合理性。同时样本数量超过一定量后精度逐渐饱和，即存在一个精度随样本数量增加而提升的饱和点。该饱和点样本数量即后续样本数量指标计算的K1参数，通过上述的三个子集精度带入样本数量指标计算从而使用最小二乘拟合得到K1的值。

(2)样本不含云量得分：

样本不含云量的计算方法即使用地表全覆盖解译样本集D中不含云的像素Npixnc除以总像素Npix得到样本不含云量得分P₂。

(3)样本类别均衡性得分：

样本类别均衡性指标的计算方法即对每一类的样本数量进行统计，通过类别之间相互对比计算得出。具体来说，我们将从图斑和像素两个角度分别计算样本类别均衡度：

1)对每一种地表覆盖类型的样本统计图斑总数Nblki,i∈C和像素总数Npixi,i∈C，C为样本集的地表覆盖类型数量，例如：地表覆盖类型来源于国土三调十三大类：湿地、耕地、园地、林地、草地、商服用地、工矿仓储用地、住宅用地、公共管理与公共服务用地、特殊用地、交通运输用地、水域及水利设施用地、其他土地，则C＝13；

2)对统计的图斑总数和像素总数分别进行最大值归一化得到相对数量：

3)使用1减去相对数量标准差得到类别均衡性得分P₃：

(4)样本空间分布多样性得分：

地表全覆盖解译样本集的空间分布多样性主要由样本集中影像覆盖的地理区域决定，因此可以通过统计使用样本集有效地物类型已覆盖区域的面积Si(D)与对应监测区域影像总面积S的比值来计算样本集空间分布多样性得分P₄(面积可通过分辨率和像素数量来计算)：

(5)样本时间分布多样性得分：

地表全覆盖解译样本集的时间分布多样性主要由样本集中不同地理区域的不同时相影像数量决定。将时间划分n＝4个季节，分别统计其中的样本数量s＝{s1,s2,s3,s4}，与其平均分布s'，利用KL散度计算公式，得到时间分布多样性得分P₅，具体为：

(6)样本空间分辨率多样性得分：

地表全覆盖解译样本集的空间分辨率多样性主要由样本集中不同地理区域的不同分辨率的影像数量决定。统计区域包含的分辨率种类数量均值x6，该均值也等同于每单位面积的分辨率种类数量均值，则空间分辨率多样性得分P₆的计算方法为：

其中设k6＝3，即平均3种分辨率就已经具有较好的效果。

(7)样本传感器多样性得分：

地表全覆盖解译样本集的传感器多样性主要由样本集中不同地理区域的不同传感器的影像数量决定。统计区域包含的传感器种类数量均值x7，该均值也等同于每单位面积的传感器种类数量均值，则样本传感器多样性得分P₇的计算方法为：

其中设k7＝3，即平均3种传感器就已经具有较好的效果。

所述将待评价样本集分别输入训练所述泛化性评价模型，包括：

已构建的泛化性评价模型将待评价样本集作为输入，进行充分的监督学习，以便训练好的泛化性评价模型在独立构建的泛化性测试数据集上进行解译泛化性能测试。

本具体实施例：将待评价样本集分别输入三种语义分割模型进行训练。

步骤4：对各所述评价指标得分进行交叉综合分析并加权计算得出样本集的指标评分，该步骤主要是基于指标打分模型的样本性能评估。包括：

步骤4.1：多指标交叉综合分析，

样本不含云量根据地表覆盖解译的需求可以判断不含云样本量越大则该样本集更有利于后续使用，因此该项得分应尽可能高。

样本类别均衡性需要根据专家知识，以重庆市为例，结合重庆市的地表覆盖特综合判断，对于一般的AI模型训练来说，该项指标越高越好。

样本的空间、时间、空间分辨率多样性指标可以综合分析：对于地表覆盖解译来说，本具体实施例：以重庆市为例，为了能够更充分、全面地获取重庆市地表覆盖的分布特点，多样性指标越高越好，而三者之间的相互权重需要结合专家知识针对重庆市地表覆盖解译的实际情况进行综合考虑。

综合上述的分析，将样本不含云量指标、类别均衡指标和分辨率多样性指标取均值作为交叉分析指标得分；

步骤4.2：指标得分加权，

为了能够充分切合重庆市地表覆盖解译的需求、充分全面地利用各项指标对地表全覆盖解译样本集进行综合评价，我们采用样本集各项指标进行综合分析，得出最终综合评分的方式，具体为：对各项指标和交叉分析指标进行平均取值计算。

通过以上方式后，根据得出的指标均值，将评分以100分为总分换算为综合分数，再根据综合分数得到样本集的指标评分，从而对样本集得出基于指标打分模型的样本性能评估结果。

步骤5：构建泛化性评估测试数据集，

从各项样本集评价指标所关注因素(即样本量、分辨率、类别均衡性等)出发，通过人工筛选、限制条件的随机选取等手段，构建针对性独立的泛化性评估测试数据集。基于泛化性评估测试数据集，可以评价样本集所学泛化性评价模型在不同样本量、分辨率、类别均衡性等7个指标条件下的地表覆盖解译性能，最终实现对样本集所学模型解译泛化性的定量评价。

考虑影响模型迁移泛化的主要样本集属性包括样本量、分辨率、类别均衡性、时-空-传感器多样性等。因此，拟采用以下原则指导人工筛选过程并完成构建泛化性评估测试数据集：

多样性原则：构建测试集充分考虑所述地表覆盖解译样本集评价指标所有关键属性，即7个评价指标；

可能地，所述步骤5：构建泛化性评估测试数据集的数量根据各评价指标侧重不同，构建多个对应不同侧重点的多样性独立测试集。具体包括：

根据实际需求，情况1：侧重不同时间的泛化性，则应构建两种不同时间的独立测试集；情况2：侧重不同空间的泛化性，则应构建两种不同空间位置的独立测试集；情况3：侧重不同分辨率多样性的泛化性，则应构建两种不同分辨率的独立测试集；情况4：全方面测试，则需要构建从待评价样本集均匀采样的、同分布的独立测试集，能够反映待评价样本集的特点。通常针对时间、空间、分辨率这几个最常用的数据集泛化性维度。

步骤6：在所述泛化性评估测试数据集对步骤3中已训练的所述泛化性评价模型进行测试，得到样本集泛化性评分，即将训练好的泛化性评价模型在独立构建的泛化性测试数据集上进行解译泛化性能测试。本具体实施例中：所述泛化性评价模型采用多种语义分割模型。

如图4所示，具体步骤如下：

步骤6.1：利用输入的待评价样本集训练泛化性评价模型；

步骤6.2：将各泛化性评价模型在泛化性评估测试数据集上进行测试，得到不同泛化性评价模型测试数据的地表覆盖解译精度；

步骤6.3：基于上述所得一系列解译精度进行整合与汇总，形成最终解译性能评价结果，实现对步骤6.1输入样本集的定量评价。

对于如何汇总评价模型在这些测试数据集上分别得到的解译性能结果，采用下面方法：

模型的地表覆盖解译泛化性理论上体现为在不同样本量、分辨率、类别均衡性等条件下都应具备良好的性能表现，而非仅仅在特定条件下实现高性能，因此将所述泛化性评价模型在所述泛化性评估测试数据集上进行测试，得到所述地表覆盖解译性能结果{S₁,S₂,…,S_M}采用等权重加权融合的策略进行汇总得到整体泛化性评价得分：

其中S_i为所有泛化性评价模型在泛化性评估测试数据集D_i上的平均Kappa；M则为泛化性评估测试数据集的总个数。最后，整体泛化性评价得分S_ALL的数值为0到1。

步骤7：建立所述指标评分和所述泛化性评分的评级，若评级不同，则取较低评级为最终样本集评价，若相同，得到最终样本集评价。

所述建立所述指标评分和所述泛化性评分的评级，包括：

本发明具体实施例中分别设置样本集指标评价的样本集评分表(见表1)和整体泛化性评价的样本集评分表(见表2)，通过对照各样本集评分表得到泛化性评价模型和指标打分模型的样本集评价得分的对应等级。

得分	<60	60-70	70-80	80-90	90+
						评级	不合格	合格	中等	良好	优秀

表1

得分	<0.6	0.6-7	0.7-0.8	0.8-0.9	0.9-1.0
						评级	不合格	合格	中等	良好	优秀

表2

以如下案例为例：

使用POTSDAM样本集，先构建指标打分模型，

根据上述构建的指标打分模型的打分指标计算如下：

打分说明如下：其中统计的样本数量，POTSDAM样本集通过训练精度为0.8139，拟合计算公式中的K1参数为4125，训练样本数量为3456，故带入公式计算得分为0.81。POTSDAM样本集全为单一时相的无云同分辨率同传感器影像，故样本不含云量得分为1，而分辨率、传感器多样性得分通过带入公式得到结果为0.42。样本集覆盖区域均为有效区域，故空间分布多样性为1。由于样本集仅有一个季节，故时间分辨率代入公式计算为0.25。类别均衡性统计结果如下：

	图斑数量	像素数量
			无标签	960	41969664
不透水面	6737	245930445
			建筑	3083	230875852
低矮植被	12012	203358663
			树木	8437	126352970
车辆	7418	14597667
			背景	7035	42884403

故按照类别均衡性公式计算得到该项得分为0.69。

通过综合分析，由于POTSDAM样本集不涉及到多时相多空间和多分辨率的数据，因此对于该样本集的评价侧重于样本集的数量、不含云量和类别均衡性指标，给出样本数量、不含云量、类别均衡性、时间多样性、空间多样性、分辨率多样性、传感器多样性指标权重分别为0.4，0.3，0.2，0.025，0.025，0.025，0.025，则计算得到指标打分模型评分为81.4分，则根据样本集指标评价的样本集评分表得到POTSDAM样本集评价为“良好”。

再使用泛化性评价模型，使用POTSDAM样本集训练deeplabv3+、PSPNet、UNet模型，并且通过POTSDAM标准训练集划分方式确定测试数据集中样本的数量，即采用构建泛化性评估测试数据集的情况4：全方面测试，则需要构建从待评价样本集均匀采样的、同分布的独立测试集，能够反映待评价样本集的特点。并且采用全方面测试的方式构建泛化性评估测试样本集，测试得到三个deeplabv3+、PSPNet、UNet模型的精度分别为79.12％、83.29％、78.01％，因此泛化性评分为80.14分，根据整体泛化性评价的样本集评分表得到POTSDAM样本集评价为“良好”。

即该泛化性评价模型和指标打分模型的样本集评价得分等级均相同，故最终样本集评价为“良好”。

本发明根据地表覆盖解译样本集的特性，构建多个评价维度，建立泛化性评价模型和指标打分模型的评价模型，采用基于泛化性评价模型和指标打分模型的评价方法，该方法简单、已操作，形成了多个维度、多模型的地表全覆盖解译样本集评价体系方法。

Claims

1.一种多维度和多模型的地表全覆盖解译样本集评价方法，其特征在于：包括：

步骤1：构建地表覆盖解译样本集评价指标，所述评价指标包括：样本数量指标、样本不含云量指标、类别均衡性指标、空间分布多样性指标、时间分布多样性指标、分辨率多样性指标、传感器多样性指标，形成多个评价维度；

步骤3：将待评价样本集分别输入所述指标打分模型，通过所述指标打分模型得到各评价指标得分；

(1)样本数量得分：

对于本地表覆盖解译样本集评价指标来说，样本的数量从影像数量、图斑数量、像素数量三个角度进行统计，得到样本数量的评分P₁，设样本数量为x1，则设置指标打分模型达到效果的数量阈值k1，计算方式如下：

公式中e为自然常数；

(2)样本不含云量得分：

样本不含云量的计算方法即使用地表全覆盖解译样本集D中不含云的像素Npixnc除以总像素Npix得到样本不含云量得分P₂，

(3)样本类别均衡性得分：

样本类别均衡性指标的计算方法即对每一类的样本数量进行统计，通过类别之间相互对比计算得出，具体来说，从图斑和像素两个角度分别计算样本类别均衡度：

1)对每一种地表覆盖类型的样本统计图斑总数Nblki,i∈C和像素总数Npixi,i∈C，C为设样本集的地表覆盖类型数量；

3)使用1减去相对数量标准差得到类别均衡性得分P₃:

(4)样本空间分布多样性得分：

地表全覆盖解译样本集的空间分布多样性主要由样本集中影像覆盖的地理区域决定，因此通过统计使用样本集有效地物类型已覆盖区域的面积Si(D)与对应监测区域影像总面积S的比值来计算样本集空间分布多样性得分P₄：

(5)样本时间分布多样性得分：

地表全覆盖解译样本集的时间分布多样性主要由样本集中不同地理区域的不同时相影像数量决定，将时间划分n＝4个季节，分别统计其中的样本数量s＝{s1,s2,s3,s4}，与其平均分布s',利用KL散度计算公式，得到时间分布多样性得分P₅，具体为：

(6)样本空间分辨率多样性得分：

地表全覆盖解译样本集的空间分辨率多样性主要由样本集中不同地理区域的不同分辨率的影像数量决定，统计区域包含的分辨率种类数量均值x6，该均值也等同于每单位面积的分辨率种类数量均值，则空间分辨率多样性得分P₆的计算方法为：

其中取阈值k6＝3；

(7)样本传感器多样性得分：

地表全覆盖解译样本集的传感器多样性主要由样本集中不同地理区域的不同传感器的影像数量决定，统计区域包含的传感器种类数量均值x7，该均值也等同于每单位面积的传感器种类数量均值，取阈值k7＝3，则样本传感器多样性得分P₇的计算方法为：

将待评价样本集分别输入训练所述泛化性评价模型；

步骤5：构建泛化性评估测试数据集；

2.根据权利要求1所述多维度和多模型的地表全覆盖解译样本集评价方法，其特征在于：所述步骤2：建立基于所述评价指标的指标打分模型，包括：

3.根据权利要求1或2所述多维度和多模型的地表全覆盖解译样本集评价方法，其特征在于：所述步骤2中建立泛化性评价模型，包括:

①基于U-net构建的样本集所学表征泛化性评模型；

②基于Deeplabv3+构建的样本集所学表征泛化性评模型；

③基于PSPNet构建的样本集所学表征泛化性评模型。

4.根据权利要求3所述多维度和多模型的地表全覆盖解译样本集评价方法，其特征在于：所述步骤6：在所述泛化性评估测试数据集对步骤3中已训练的所述泛化性评价模型进行测试，得到样本集的泛化性评分，包括：

5.根据权利要求4所述多维度和多模型的地表全覆盖解译样本集评价方法，其特征在于：所述基于上述所得一系列解译精度进行整合与汇总，形成最终解译性能评价结果，包括：

6.根据权利要求1所述多维度和多模型的地表全覆盖解译样本集评价方法，其特征在于：所述步骤4：对各所述评价指标得分进行交叉综合分析并加权计算得出样本集的指标评分，包括：

步骤4.1：多指标交叉综合分析，

步骤4.2：指标得分加权，

7.根据权利要求1所述多维度和多模型的地表全覆盖解译样本集评价方法，其特征在于：所述步骤5：构建泛化性评估测试数据集，采用如下原则：

8.根据权利要求1或7所述多维度和多模型的地表全覆盖解译样本集评价方法，其特征在于：所述步骤5：构建泛化性评估测试数据集，包括：

9.根据权利要求1所述多维度和多模型的地表全覆盖解译样本集评价方法，其特征在于：所述步骤7：建立所述指标评分和所述泛化性评分的评级，包括：