CN116541726A

CN116541726A - 用于植被覆盖度估算的样本量确定方法、装置及设备

Info

Publication number: CN116541726A
Application number: CN202310822103.5A
Authority: CN
Inventors: 李山山; 杨润芝; 陈勃; 许殊; 陈俊; 吴业炜; 冯旭祥
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-08-04
Anticipated expiration: 2043-07-06
Also published as: CN116541726B

Abstract

本发明提供一种用于植被覆盖度估算的样本量确定方法、装置及设备，涉及样本采样技术领域，方法包括：对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据；确定第一采样样本数据与原始样本数据的第一样本分布相似度随第一采样样本数据的样本量减少的变化情况；分别利用各第一采样样本数据训练目标神经网络模型，确定训练完成的目标神经网络模型输出的预测结果对应的第一误差信息随第一采样样本数据的样本量减少的变化情况；基于第一样本分布相似度随样本量减少的变化情况，以及第一误差信息随样本量减少的变化情况确定目标样本量。本发明确定的目标样本量对应的采样样本数据能够反映原始样本数据的分布状况，且有数据支撑。

Description

用于植被覆盖度估算的样本量确定方法、装置及设备

技术领域

本发明涉及样本采样技术领域，尤其涉及一种用于植被覆盖度估算的样本量确定方法、装置及设备。

背景技术

植被覆盖度（Fraction Vegetation Coverage，FVC）指的是植被器官在地面的垂直投影面积占统计区总面积的百分比。FVC是描述陆地植被状况的重要参数，是研究大气圈、土壤圈、水圈和生物圈及其相互作用的重要指标，在农林业监测、资源与环境管理、土地利用和灾害风险监测等方面有着广泛的应用，因此，区域和全球范围内的FVC遥感监测具有重要意义。

基于机器学习的FVC反演方法通常结合物理模型（辐射传输模型）和机器学习方法进行建模，以辐射传输模型生成大量模拟数据用于模型训练。这种方法有较高的估算精度和计算效率，可以有效地抑制噪音数据，但是用于进行模型训练的样本数据的选择会极大影响该类模型的反演精度。基于不同数据量的模拟数据和机器学习方法建立FVC估算模型，一方面，大量用于进行模型训练的样本数据能够保证机器学习模型的精度，另一方面，用于进行模型训练的样本数据过多也会带来信息冗余，导致模型训练效率较低，而少量用于进行模型训练的样本数据虽然可以保证模型效率，但不能保证模型精度。

因此，在基于机器学习的植被覆盖度反演中，如何选择合适的用于进行模型训练的样本量，减少样本数据冗余，能够保证模型反演精度的同时可以提高模型训练效率，成为业界亟需解决的问题。

相关技术中，通常基于定性的方法或定量的方法确定样本量，其中定性的方法是根据已有的文献资料和经验直接选择合适大小的样本量；定量的方法是根据公式进行计算，例如简单随机抽样情况下，根据公式确定样本量，其中，/>表示样本量，/>表示置信度，/>表示总体标准差，/>表示允许的误差范围。然而，定性的方法依赖于人为经验，缺乏数据支撑，定量的方法从统计学角度没有考虑采样的样本分布和总体样本分布的关系，采样的样本无法反映总体样本的分布。

发明内容

针对现有技术存在的问题，本发明提供一种用于植被覆盖度估算的样本量确定方法、装置及设备。

第一方面，本发明提供一种用于植被覆盖度估算的样本量确定方法，包括：

对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据；

分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度，并确定所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况；

分别利用各所述第一采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的所述目标神经网络模型，确定各训练完成的所述目标神经网络模型输出的预测结果对应的第一误差信息，并确定所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况；

基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况，以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况，确定目标样本量。

可选地，根据本发明提供的一种用于植被覆盖度估算的样本量确定方法，所述基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况，以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况，确定目标样本量，包括：

基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况，以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况，确定所述样本量与所述第一样本分布相似度之间的第一关系、所述样本量与所述第一误差信息之间的第二关系，以及所述第一样本分布相似度的变化与所述第一误差信息的变化之间的第三关系；

基于所述第一关系、所述第二关系和所述第三关系，确定所述目标样本量。

可选地，根据本发明提供的一种用于植被覆盖度估算的样本量确定方法，所述基于所述第一关系、所述第二关系和所述第三关系，确定所述目标样本量，包括：

基于所述第一关系、所述第二关系和所述第三关系，确定所述第一样本分布相似度随所述第一采样样本数据的样本量的减少开始变化的第一目标点，所述开始变化的第一目标点与所述第一目标点的下一个点之间的斜率的绝对值大于第一预设值；

将所述第一目标点对应的第一样本量作为所述目标样本量。

基于所述第一关系、所述第二关系和所述第三关系，确定所述第一误差随所述第一采样样本数据的样本量的减少开始变化的第二目标点，所述开始变化的第二目标点与所述第二目标点的下一个点之间的斜率的绝对值大于第二预设值；

在所述第二目标点对应的第二样本量与所述第二目标点的下一个点对应的第三样本量构成的样本量区间内进行采样，获得多个具有不同样本量的第二采样样本数据；

分别确定各所述第二采样样本数据与所述原始样本数据的第二样本分布相似度，并确定所述第二样本分布相似度随所述第二采样样本数据的样本量减少的变化情况；

分别利用各所述第二采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的所述目标神经网络模型，确定各训练完成的所述目标神经网络模型输出的预测结果对应的第二误差信息，并确定所述第二误差信息随所述第二采样样本数据的样本量减少的变化情况；

基于所述第二样本分布相似度随所述第二采样样本数据的样本量减少的变化情况，以及所述第二误差信息随所述第二采样样本数据的样本量减少的变化情况，确定所述目标样本量。

可选地，根据本发明提供的一种用于植被覆盖度估算的样本量确定方法，所述第一误差信息和所述第二误差信息均包括以下任意一项或多项：

均方误差、平均绝对误差和平均绝对百分比误差。

可选地，根据本发明提供的一种用于植被覆盖度估算的样本量确定方法，所述分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度，包括：

分别确定各所述第一采样样本数据与所述原始样本数据的欧式距离，并利用各所述欧式距离表征各所述第一采样样本数据与所述原始样本数据的所述第一样本分布相似度。

可选地，根据本发明提供的一种用于植被覆盖度估算的样本量确定方法，所述对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据，包括：

基于拉丁超立方采样方法，对所述原始样本数据进行采样，获得多个具有不同样本量的所述第一采样样本数据。

可选地，根据本发明提供的一种用于植被覆盖度估算的样本量确定方法，在所述对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据之前，所述方法还包括：

利用辐射传输模型PROSAIL生成所述原始样本数据。

第二方面，本发明还提供一种用于植被覆盖度估算的样本量确定装置，包括：

采样模块，用于对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据；

第一确定模块，用于分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度，并确定所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况；

第二确定模块，用于分别利用各所述第一采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的所述目标神经网络模型，确定各训练完成的所述目标神经网络模型输出的预测结果对应的第一误差信息，并确定所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况；

第三确定模块，用于基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况，以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况，确定目标样本量。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述用于植被覆盖度估算的样本量确定方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述用于植被覆盖度估算的样本量确定方法。

本发明提供的用于植被覆盖度估算的样本量确定方法、装置及设备，通过首先对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据，然后分别确定各第一采样样本数据与原始样本数据的第一样本分布相似度，并确定第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，同时，分别利用各第一采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的目标神经网络模型，确定各训练完成的目标神经网络模型输出的预测结果对应的第一误差信息，并确定第一误差信息随第一采样样本数据的样本量减少的变化情况，进而基于第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，以及第一误差信息随第一采样样本数据的样本量减少的变化情况，确定目标样本量，该目标样本量对应的采样样本数据能够反映原始样本数据的分布状况，且有数据支撑，有效实现了简单快捷地确定用于训练模型的样本量，既可以保证模型精度，又可以提高模型训练效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的用于植被覆盖度估算的样本量确定方法的流程示意图之一；

图2是本发明提供的拉丁超立方采样的原理示意图；

图3是本发明提供的用于植被覆盖度估算的样本量确定方法的流程示意图之二；

图4本发明提供的用于植被覆盖度估算的样本量确定模型示意图；

图5是本发明提供的用于植被覆盖度估算的样本量确定装置的结构示意图；

图6是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

下面结合附图对本发明提供的用于植被覆盖度估算的样本量确定方法、装置及设备进行示例性的介绍。

图1是本发明提供的用于植被覆盖度估算的样本量确定方法的流程示意图之一，如图1所示，该方法包括：

步骤100，对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据；

步骤110，分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度，并确定所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况；

步骤120，分别利用各所述第一采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的所述目标神经网络模型，确定各训练完成的所述目标神经网络模型输出的预测结果对应的第一误差信息，并确定所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况；

步骤130，基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况，以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况，确定目标样本量。

需要说明的是，本发明实施例提供的用于植被覆盖度估算的样本量确定方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性地，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、可穿戴设备、超级移动个人计算机（Ultra-mobile Personal Computer，UMPC）、上网本或者个人数字助理（Personal Digital Assistant，PDA）等，非移动电子设备可以为服务器、网络附属存储器（Network Attached Storage，NAS）、个人计算机（PersonalComputer，PC）、电视机（Television，TV）、柜员机或者自助机等，本发明实施例对此不作具体限定。

下面以计算机执行本发明提供的用于植被覆盖度估算的样本量确定方法为例，详细说明本发明实施例的技术方案。

具体地，为了克服现有的确定样本量的方法依赖于人为经验，缺乏数据支撑，或确定的样本量对应的采样样本无法反映总体样本的分布的缺陷，本发明通过首先对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据，然后分别确定各第一采样样本数据与原始样本数据的第一样本分布相似度，并确定第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，同时，分别利用各第一采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的目标神经网络模型，确定各训练完成的目标神经网络模型输出的预测结果对应的第一误差信息，并确定第一误差信息随第一采样样本数据的样本量减少的变化情况，进而基于第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，以及第一误差信息随第一采样样本数据的样本量减少的变化情况，确定目标样本量，该目标样本量对应的采样样本数据能够反映原始样本数据的分布状况，且有数据支撑，有效实现了简单快捷地确定用于训练模型的样本量，既可以保证模型精度，又可以提高模型训练效率。

可选地，在所述对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据之前，所述方法还包括：

利用辐射传输模型PROSAIL生成所述原始样本数据。

需要说明的是，本发明实施例使用的原始样本数据可以是由辐射传输模型PROSAIL生成的模拟数据，该模拟数据是由模拟植被冠层反射率数据以及植被覆盖度FVC组成的，其中植被覆盖度FVC是基于叶面积指数和平均叶倾角的间隙函数计算得到的。

可选地，在利用辐射传输模型PROSAIL生成原始样本数据之后，可以对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据。

可选地，所述对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据，包括：

例如，原始样本数据包括4,082,400个样本，使用拉丁超立方采样之后，得到的具有不同样本量的第一采样样本数据为1,000,000个样本、500,000个样本、250,000个样本、100,000个样本、10,000个样本、1,000个样本和500个样本。

图2是本发明提供的拉丁超立方采样的原理示意图，如图2所示，若在n维空间中抽取m个样本，第一步在每一维中进行采样，将(0,1)平均分成m个区间，分别在每个区间随机抽取一个数据，并根据此维的原始数据的累计分布函数的反函数将其映射到原始数据，得到样本数据；第二步再从每一维中随机抽取第一步得到的样本数据，将它们组成向量。当只有一维空间时，将(0,1)平均分成m个区间，分别在每个区间随机抽取一个数据，根据原始数据的累计分布函数的反函数将其映射到原始数据，得到m个样本数据。

需要说明的是，本发明实施例通过基于拉丁超立方采样方法，对原始样本数据进行采样，获得的多个具有不同样本量的第一采样样本数据能够很好地反映原始样本数据的数据分布状况。

可选地，在获得多个具有不同样本量的第一采样样本数据之后，可以分别确定各第一采样样本数据与原始样本数据的第一样本分布相似度，并确定第一样本分布相似度随第一采样样本数据的样本量减少的变化情况。

可选地，所述分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度，包括：

需要说明的是，在本发明实施例中，为了定量描述第一采样样本数据与原始样本数据的第一样本分布相似度，本发明实施例将欧式距离作为第一样本分布相似度的评价指标，将样本分布相似度定量化，充分利用了数据资源，使得结果更加科学准确。

可选地，可以绘制欧式距离随第一采样样本数据的样本量减少的变化曲线图，以反映第一样本分布相似度随第一采样样本数据的样本量减少的变化情况。

可选地，为保证最终的得到的目标样本量的合理性和可靠性，可以重复对原始样本数据进行多次采样，例如进行10次采样，然后分别计算10次采样得到的各第一采样样本数据中的FVC值与原始样本数据中的FVC值的欧式距离，并取均指作为各第一采样样本数据与原始样本数据的第一样本分布相似度。

可选地，在获得多个具有不同样本量的第一采样样本数据之后，可以分别利用各第一采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的目标神经网络模型，确定各训练完成的目标神经网络模型输出的预测结果对应的第一误差信息，并确定第一误差信息随第一采样样本数据的样本量减少的变化情况。

例如，分别利用上述得到的第一采样样本数据1,000,000个样本、500,000个样本、250,000个样本、100,000个样本、10,000个样本、1,000个样本和500个样本对目标神经网络模型进行训练，得到训练完成的多个目标神经网络模型，进而利用同一个测试集对训练完成的多个目标神经网络模型进行测试，得到预测结果对应的第一误差信息，进一步确定第一误差信息随第一采样样本数据的样本量减少的变化情况。

可选地，在本发明实施例中，目标神经网络模型可以包括但不限于反向传播神经网络（Back Propagation Neural Network，BPNN）、随机森林（Random Forest，RF）和长短期记忆人工神经网络（Long-short Term Memory，LSTM）。

需要说明的是，BPNN是最基础的神经网络，输出结果是前向传播，误差是反向传播。样本数据从输入层经过隐藏层到达输出层，计算输出层与期望的误差并进行反向传播，然后修改权值和阈值进行新一次迭代。随着误差的重复反向传播，输出层的正确率提高，直到达到相应的标准停止训练；RF是指用很多决策树对样本进行训练、分类并预测的一种方法，决策树是一种树形结构，每个内部节点表示一个属性测试，每个分支代表一个测试输出，叶节点代表决策结果，随机森林中的决策树之间并不相关，最终根据每一个决策树的预测结果生成随机森林的预测结果；LSTM是一种时间循环神经网络，其是为了解决一般的循环神经网络存在的长期依赖问题而设计的，长短期记忆人工神经网络通过记忆单元、输入门、遗忘门和输出门以控制历史信息，可以选择记忆重要信息，过滤掉噪声信息，减轻记忆负担。

需要说明的是，由于BPNN、RF和LSTM是具有代表性的三种机器学习算法，因此得到的结果具有更佳的可靠性。

可选地，在得到第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，以及第一误差信息随第一采样样本数据的样本量减少的变化情况之后，可以基于第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，以及第一误差信息随第一采样样本数据的样本量减少的变化情况，确定最终用于训练模型的目标样本量。

可选地，可以基于第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，以及第一误差信息随第一采样样本数据的样本量减少的变化情况，确定第一样本分布相似度变化的样本量区间和第一误差信息变化的样本量区间，并对两个样本量区间进行比较确定两个样本量区间的相似性，进而确定目标样本量。

本发明提供的用于植被覆盖度估算的样本量确定方法，通过首先对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据，然后分别确定各第一采样样本数据与原始样本数据的第一样本分布相似度，并确定第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，同时，分别利用各第一采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的目标神经网络模型，确定各训练完成的目标神经网络模型输出的预测结果对应的第一误差信息，并确定第一误差信息随第一采样样本数据的样本量减少的变化情况，进而基于第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，以及第一误差信息随第一采样样本数据的样本量减少的变化情况，确定目标样本量，该目标样本量对应的采样样本数据能够反映原始样本数据的分布状况，且有数据支撑，有效实现了简单快捷地确定用于训练模型的样本量，既可以保证模型精度，又可以提高模型训练效率。

可选地，所述基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况，以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况，确定目标样本量，包括：

具体地，在本发明实施例中，为了实现基于第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，以及第一误差信息随第一采样样本数据的样本量减少的变化情况，确定目标样本量，可以首先基于第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，以及第一误差信息随第一采样样本数据的样本量减少的变化情况，确定样本量与第一样本分布相似度之间的第一关系、样本量与第一误差信息之间的第二关系，以及第一样本分布相似度的变化与第一误差信息的变化之间的第三关系，进而基于得到的第一关系、第二关系和第三关系，确定目标样本量。

可选地，还可以确定不同机器学习方法（例如BPNN、RF和LSTM）对模型精度的影响，并结合上述的第一关系、第二关系和第三关系，确定目标样本量。

可选地，所述基于所述第一关系、所述第二关系和所述第三关系，确定所述目标样本量，包括：

将所述第一目标点对应的第一样本量作为所述目标样本量。

具体地，在本发明实施例中，为了实现基于第一关系、第二关系和第三关系，确定目标样本量，可以首先基于第一关系、第二关系和第三关系，确定第一样本分布相似度随第一采样样本数据的样本量的减少开始变化的第一目标点，其中所述开始变化的第一目标点与第一目标点的下一个点之间的斜率的绝对值大于第一预设值，进而将第一目标点对应的第一样本量作为目标样本量。

可选地，本发明实施例中的第一预设值可以基于实际应用进行适应性设置，本发明实施例对此不作具体限定。

可以理解的是，本发明实施例通过对第一关系、第二关系和第三关系进行分析，得到第一样本分布相似度随第一采样样本数据的样本量的减少开始变化的第一目标点，也就是欧氏距离随第一采样样本数据的样本量的减少开始变化的第一目标点，并将第一目标点对应的第一样本量作为目标样本量，得到的该目标样本量既可以保证模型精度，又可以提高模型训练效率，有效平衡了模型精度和模型训练效率。

具体地，在本发明实施例中，为了实现基于第一关系、第二关系和第三关系，确定目标样本量，可以首先基于上述第一关系、第二关系和第三关系，确定第一误差随第一采样样本数据的样本量的减少开始变化的第二目标点，所述开始变化的第二目标点与第二目标点的下一个点之间的斜率的绝对值大于第二预设值；在第二目标点对应的第二样本量与第二目标点的下一个点对应的第三样本量构成的样本量区间内进行采样，获得多个具有不同样本量的第二采样样本数据；进而分别确定各第二采样样本数据与原始样本数据的第二样本分布相似度，并确定第二样本分布相似度随第二采样样本数据的样本量减少的变化情况；进一步分别利用各第二采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的目标神经网络模型，确定各训练完成的目标神经网络模型输出的预测结果对应的第二误差信息，并确定第二误差信息随第二采样样本数据的样本量减少的变化情况；最后基于第二样本分布相似度随第二采样样本数据的样本量减少的变化情况，以及第二误差信息随第二采样样本数据的样本量减少的变化情况，确定目标样本量。

可选地，本发明实施例中的第一预设值和第二预设值均可以基于实际应用进行适应性设置，本发明实施例对此不作具体限定。

可以理解的是，本发明实施例通过在确定第一误差随第一采样样本数据的样本量的减少开始变化的第二目标点对应的第二样本量，与第二目标点的下一个点对应的第三样本量，构成的样本量区间在满足还可以进一步细分的情况下，再对该样本量区间进行细分采样，得到细分采样之后的第二采样样本数据，再基于第二采样样本数据，利用与第一采样样本数据相同的方法（重复计算样本分布相似度和误差信息），确定最终的目标样本量，可以进一步保证模型精度。

例如，第一样本量与第二样本量构成的样本量区间为10,000-1,000，则可以将其进行细分采样，得到的多个具有不同样本量的第二采样样本数据为10,000个样本、9,000个样本、8,000个样本、7,000个样本、6,000个样本、5,000个样本、4,000个样本、3,000个样本、2,000个样本和1,000个样本。

可选地，所述第一误差信息和所述第二误差信息均包括以下任意一项或多项：

均方误差、平均绝对误差和平均绝对百分比误差。

具体地，在本发明实施例中，在得到目标神经网络模型输出的预测结果之后，可以计算该预测结果对应的均方误差、平均绝对误差和平均绝对百分比误差，并将计算得到的均方误差、平均绝对误差和平均绝对百分比误差作为预测结果对应的误差信息。

可选地，可以分别绘制均方误差随样本量减少的变化曲线图、平均绝对误差随样本量减少的变化曲线图，以及平均绝对百分比误差随样本量减少的变化曲线图，并基于均方误差随样本量减少的变化曲线图、平均绝对误差随样本量减少的变化曲线图和平均绝对百分比误差随样本量减少的变化曲线图，确定误差信息随样本量减少的变化情况。

需要说明的是，在本发明实施例中，误差评价指标采用均方误差、平均绝对误差和平均绝对百分比误差，可以使得得到的结果具有更佳的可靠性。

图3是本发明提供的用于植被覆盖度估算的样本量确定方法的流程示意图之二，如图3所示，该方法包括：首先利用拉丁超立方采样方法对原始样本进行采样，获得多个具有不同样本量的采样样本，然后确定采样样本的样本分布相似度随样本量的变化，以及目标神经网络模型（反向传播神经网络、随机森林、长短期记忆人工神经网络）输出的预测结果的误差随样本量的变化，进而比较样本分布相似度和误差变化的样本量区间，并确定是否需要细分样本量区间，若需要进行细分，则对样本量区间利用拉丁超立方采样方法进行采样，进而重新确定采样样本的样本分布相似度和误差随样本量的变化；若不需要细分样本量区间，则将欧氏距离开始变化的点确定为目标样本量。

图4本发明提供的用于植被覆盖度估算的样本量确定模型示意图，如图4所示，通过基于反向传播神经网络、随机森林和长短期记忆人工神经网络对本发明实施例提供的样本量确定方法的验证，确定只需要分析欧氏距离随样本量的变化情况，即可简便快捷地得到既可以保证模型精度又可以保证模型效率的目标样本量，因此，本发明实施例提供的样本量确定方法可以广泛适用于植被覆盖度估算场景的大规模样本采样问题中。

下面对本发明提供的用于植被覆盖度估算的样本量确定装置进行描述，下文描述的用于植被覆盖度估算的样本量确定装置与上文描述的用于植被覆盖度估算的样本量确定方法可相互对应参照。

图5是本发明提供的用于植被覆盖度估算的样本量确定装置的结构示意图，如图5所示，该装置包括：采样模块510、第一确定模块520、第二确定模块530和第三确定模块540；其中：

采样模块510用于对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据；

第一确定模块520用于分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度，并确定所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况；

第二确定模块530用于分别利用各所述第一采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的所述目标神经网络模型，确定各训练完成的所述目标神经网络模型输出的预测结果对应的第一误差信息，并确定所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况；

第三确定模块540用于基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况，以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况，确定目标样本量。

本发明提供的用于植被覆盖度估算的样本量确定装置，通过首先对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据，然后分别确定各第一采样样本数据与原始样本数据的第一样本分布相似度，并确定第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，同时，分别利用各第一采样样本数据训练目标神经网络模型，并将同一个测试集数据分别输入各训练完成的目标神经网络模型，确定各训练完成的目标神经网络模型输出的预测结果对应的第一误差信息，并确定第一误差信息随第一采样样本数据的样本量减少的变化情况，进而基于第一样本分布相似度随第一采样样本数据的样本量减少的变化情况，以及第一误差信息随第一采样样本数据的样本量减少的变化情况，确定目标样本量，该目标样本量对应的采样样本数据能够反映原始样本数据的分布状况，且有数据支撑，有效实现了简单快捷地确定用于训练模型的样本量，既可以保证模型精度，又可以提高模型训练效率。

在此需要说明的是，本发明实施例提供的上述用于植被覆盖度估算的样本量确定装置，能够实现上述用于植被覆盖度估算的样本量确定方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图6是本发明提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述各方法所提供的用于植被覆盖度估算的样本量确定方法，该方法包括：

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的用于植被覆盖度估算的样本量确定方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的用于植被覆盖度估算的样本量确定方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于植被覆盖度估算的样本量确定方法，其特征在于，包括：

2.根据权利要求1所述的用于植被覆盖度估算的样本量确定方法，其特征在于，所述基于所述第一样本分布相似度随所述第一采样样本数据的样本量减少的变化情况，以及所述第一误差信息随所述第一采样样本数据的样本量减少的变化情况，确定目标样本量，包括：

3.根据权利要求2所述的用于植被覆盖度估算的样本量确定方法，其特征在于，所述基于所述第一关系、所述第二关系和所述第三关系，确定所述目标样本量，包括：

将所述第一目标点对应的第一样本量作为所述目标样本量。

4.根据权利要求2所述的用于植被覆盖度估算的样本量确定方法，其特征在于，所述基于所述第一关系、所述第二关系和所述第三关系，确定所述目标样本量，包括：

5.根据权利要求4所述的用于植被覆盖度估算的样本量确定方法，其特征在于，所述第一误差信息和所述第二误差信息均包括以下任意一项或多项：

均方误差、平均绝对误差和平均绝对百分比误差。

6.根据权利要求1所述的用于植被覆盖度估算的样本量确定方法，其特征在于，所述分别确定各所述第一采样样本数据与所述原始样本数据的第一样本分布相似度，包括：

7.根据权利要求1所述的用于植被覆盖度估算的样本量确定方法，其特征在于，所述对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据，包括：

8.根据权利要求1-7任一项所述的用于植被覆盖度估算的样本量确定方法，其特征在于，在所述对原始样本数据进行采样，获得多个具有不同样本量的第一采样样本数据之前，所述方法还包括：

利用辐射传输模型PROSAIL生成所述原始样本数据。

9.一种用于植被覆盖度估算的样本量确定装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述用于植被覆盖度估算的样本量确定方法。