CN115145640B

CN115145640B - 基于并行计算的hasm超参数最优化方法及系统

Info

Publication number: CN115145640B
Application number: CN202211075722.4A
Authority: CN
Inventors: 焦毅蒙; 杜正平; 赵娜; 岳天祥
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-11-29
Anticipated expiration: 2042-09-05
Also published as: CN115145640A

Abstract

本申请涉及电数字数据处理技术领域，提供一种基于并行计算的HASM超参数最优化方法及系统。该方法包括：获取目标区域的生态环境数据；确定HASM超参数对应的多个参数网格；其中，超参数用于表征生态环境数据的数据特性以及空间异质性；每一个参数网格与超参数的取值组合相对应；基于并行计算方法，通过HASM对每一个参数网格中的生态环境数据进行模拟，以确定超参数的最优值。如此，将参数网格划分与并行计算方法相结合，充分利用计算机的多核优势，快速高效地对HASM超参数进行最优化，提高了HASM对目标区域的生态环境数据模拟的精度。

Description

基于并行计算的HASM超参数最优化方法及系统

技术领域

本申请涉及电数字数据处理技术领域，特别涉及一种基于并行计算的HASM超参数最优化方法及系统。

背景技术

为了更精准的对生态环境要素进行表达和分析，可以将生态环境要素的格网化表达抽象为数学“曲面”，进而通过曲面建模技术对其进行模拟，得到空间上连续的生态环境要素曲面。高精度曲面建模方法（High Accuracy Surface Modeling，简称HASM）是系统论、曲面论和优化控制论的有机结合，经过多年的发展，目前已经成为了生态环境要素模拟领域的重要数学模型。

在HASM的发展过程中，为了更好的将曲面建模技术与地学知识相结合，在模型求解过程中引入了超参数，以增强HASM对不同研究区域的生态环境要素模拟的适用性和鲁棒性。

相关技术中，确定超参数的方法有经验法和简单实验法。然而，通过经验法确定超参数取决于使用者的先验知识，难以快速获得全局最优的超参数取值，从而影响HASM的模拟效果；简单实验法通过多次实验能够对部分超参数的取值进行优化，但仍存在全局最优超参数难以确定的问题。

因此，需要提供一种针对上述现有技术不足的改进技术方案。

发明内容

本申请的目的在于提供一种基于并行计算的HASM超参数最优化方法及系统，以解决或缓解上述现有技术中存在的问题。

为了实现上述目的，本申请提供如下技术方案：

本申请提供了一种基于并行计算的HASM超参数最优化方法，包括：

获取目标区域的生态环境数据；

确定HASM超参数对应的多个参数网格；其中，所述HASM超参数用于表征所述生态环境数据的数据特性以及空间异质性；每一个所述参数网格与所述HASM超参数的取值组合相对应；

基于并行计算方法，通过HASM对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述HASM超参数的最优值。

优选地，所述HASM超参数包括第一类型超参数，所述第一类型超参数的取值范围为有限域内的离散值；

对应地，所述确定HASM超参数对应的多个参数网格，具体为：

对所述第一类型超参数的取值范围内的离散值进行组合处理，以得到所述HASM超参数对应的多个参数网格。

优选地，所述基于并行计算方法，通过HASM对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述HASM超参数的最优值，具体为：

基于并行计算方法，通过HASM对每一个所述参数网格对应的所述生态环境数据进行模拟，并计算每一个所述参数网格对应的模拟结果误差；

以模拟结果误差最小的所述参数网格对应的HASM超参数的取值组合作为所述HASM超参数的最优值。

优选地，所述HASM超参数包括第二类型超参数，所述第二类型超参数的取值范围为无限域内的连续值；

对应地，所述确定HASM超参数对应的多个参数网格，基于并行计算方法，通过HASM对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述HASM超参数的最优值，具体为：

对所述第二类型超参数的取值范围进行划分，得到所述第二类型超参数对应的多个取值子范围；

获取每一个所述取值子范围内的任一取值，以得到多个第二类型超参数取值组合；

将每一个所述第二类型超参数取值组合作为一个参数网格，得到多个参数网格；

基于并行计算方法，通过HASM对每一个所述参数网格中的所述生态环境数据进行模拟，并计算每一个所述参数网格对应的模拟结果误差；

若所述参数网格对应的模拟结果误差最小值小于预设误差阈值或者当前迭代次数大于预设的迭代次数阈值，将模拟结果误差最小值对应的第二类型超参数取值组合作为所述第二类型超参数的最优值；否则，对所述取值子范围进行重新划分，得到新的取值子范围，并转至获取每一个所述取值子范围内的任一取值，以得到多个第二类型超参数取值组合的步骤。

优选地，所述HASM超参数包括第一类型超参数和第二类型超参数，所述第一类型超参数的取值范围为有限域内的离散值；所述第二类型超参数的取值范围为无限域内的连续值；

对应地，所述确定HASM超参数对应的多个参数网格；基于并行计算方法，通过HASM对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述HASM超参数的最优值，具体为：

对所述第一类型超参数的取值范围内的离散值进行组合处理，得到多个第一类型超参数取值组合；

对所述第二类型超参数进行随机赋值，并与多个所述第一类型超参数取值组合相结合，得到多个第一参数网格；

基于并行计算方法，通过HASM对每一个所述第一参数网格中的所述生态环境数据进行模拟，以确定所述第一类型超参数的最优值；

将所述第一类型超参数的最优值与每一个所述第二类型超参数取值组合相结合，以得到多个第二参数网格；

基于并行计算方法，通过HASM对每一个所述第二参数网格中的所述生态环境数据进行模拟，并计算每一个所述第二参数网格对应的模拟结果误差；

若所述第二参数网格对应的模拟结果误差最小值小于预设误差阈值或者当前迭代次数大于预设的迭代次数阈值，将模拟结果误差最小值对应的第二类型超参数取值组合作为所述第二类型超参数的最优值；否则，对所述取值子范围进行重新划分，得到新的取值子范围，并转至获取每一个所述取值子范围内的任一取值，以得到多个第二类型超参数取值组合的步骤。

本申请实施例还提供一种基于并行计算的HASM超参数最优化系统，包括：

获取单元，配置为获取目标区域的生态环境数据；

确定单元，配置为确定HASM超参数对应的多个参数网格；其中，所述HASM超参数用于表征所述生态环境数据的数据特性以及空间异质性；每一个所述参数网格与所述HASM超参数的取值组合相对应；

模拟单元，配置为基于并行计算方法，通过HASM对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述HASM超参数的最优值。

对应地，所述确定单元包括：

第一组合子模块，配置为对所述第一类型超参数的取值范围内的离散值进行组合处理，以得到所述HASM超参数对应的多个参数网格。

优选地，所述模拟单元包括：

第一误差计算子模块，配置为基于并行计算方法，通过HASM对每一个所述参数网格对应的所述生态环境数据进行模拟，并计算每一个所述参数网格对应的模拟结果误差；

第一误差判断子模块，配置为以模拟结果误差最小的所述参数网格对应的HASM超参数的取值组合作为所述HASM超参数的最优值。

对应地，所述确定所述HASM超参数对应的多个参数网格，基于并行计算方法，通过HASM对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述HASM超参数的最优值，具体为：

第一划分子模块，配置为对所述第二类型超参数的取值范围进行划分，得到所述第二类型超参数对应的多个取值子范围；

第二组合子模块，配置为获取每一个所述取值子范围内的任一取值，以得到多个第二类型超参数取值组合；

第一网格获取子模块，配置为将每一个所述第二类型超参数取值组合作为一个参数网格，得到多个参数网格；

第二误差计算子模块，配置为基于并行计算方法，通过HASM对每一个所述参数网格中的所述生态环境数据进行模拟，并计算每一个所述参数网格对应的模拟结果误差；

第一迭代子模块，配置为若所述参数网格对应的模拟结果误差最小值小于预设误差阈值或者当前迭代次数大于预设的迭代次数阈值，将模拟结果误差最小值对应的第二类型超参数取值组合作为所述第二类型超参数的最优值；否则，对所述取值子范围进行重新划分，得到新的取值子范围，并转至获取每一个所述取值子范围内的任一取值，以得到多个第二类型超参数取值组合的步骤。

第三组合子模块，配置为对所述第一类型超参数的取值范围内的离散值进行组合处理，得到多个第一类型超参数取值组合；

第二网格获取子模块，配置为对所述第二类型超参数进行随机赋值，并与多个所述第一类型超参数取值组合相结合，得到多个第一参数网格；

第一模拟子模块，配置为基于并行计算方法，通过HASM对每一个所述第一参数网格中的所述生态环境数据进行模拟，以确定所述第一类型超参数的最优值；

第二划分子模块，配置为对所述第二类型超参数的取值范围进行划分，得到所述第二类型超参数对应的多个取值子范围；

第四组合子模块，配置为获取每一个所述取值子范围内的任一取值，以得到多个第二类型超参数取值组合；

第三网格获取子模块，配置为将所述第一类型超参数的最优值与每一个所述第二类型超参数取值组合相结合，以得到多个第二参数网格；

第三误差计算子模块，基于并行计算方法，通过HASM对每一个所述第二参数网格中的所述生态环境数据进行模拟，并计算每一个所述第二参数网格对应的模拟结果误差；

第二迭代子模块，配置为若所述第二参数网格对应的模拟结果误差最小值小于预设误差阈值或者当前迭代次数大于预设的迭代次数阈值，将模拟结果误差最小值对应的第二类型超参数取值组合作为所述第二类型超参数的最优值；否则，对所述取值子范围进行重新划分，得到新的取值子范围，并转至获取每一个所述取值子范围内的任一取值，以得到多个第二类型超参数取值组合的步骤。

有益效果：

本申请的实施例中，通过将HASM超参数进行拆分，得到多个参数网格，然后基于并行计算方法，通过HASM对每个参数网格中的生态环境数据进行模拟，以确定超参数的最优值。如此，将参数网格划分与并行计算方法相结合，充分利用计算机的多核优势，快速高效地对HASM超参数进行最优化，不仅提高了HASM对目标区域的生态环境模拟的精度，同时对推广HASM的使用和其理论建设有着重要意义。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。其中：

图1为根据本申请的一些实施例提供的基于并行计算的HASM超参数最优化方法的流程示意图；

图2为根据本申请的一些实施例提供的基于并行计算的HASM超参数最优化方法的逻辑示意图；

图3为根据本申请的一些实施例提供的基于并行计算的HASM超参数最优化系统的结构示意图；

图4为根据本申请的一些实施例提供的确定单元的结构示意图；

图5为根据本申请的一些实施例提供的模拟单元的结构示意图；

图6为根据本申请的一些实施例提供的确定单元和模拟单元的结构示意图；

图7为根据本申请的一些实施例提供的确定单元和模拟单元的结构示意图。

具体实施方式

下面将参考附图并结合实施例来详细说明本申请。各个示例通过本申请的解释的方式提供而非限制本申请。实际上，本领域的技术人员将清楚，在不脱离本申请的范围或精神的情况下，可在本申请中进行修改和变型。例如，示为或描述为一个实施例的一部分的特征可用于另一个实施例，以产生又一个实施例。因此，所期望的是，本申请包含归入所附权利要求及其等同物的范围内的此类修改和变型。

在以下描述中，所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。

如背景技术所述，HASM是生态环境要素模拟领域的重要数学模型，通过HASM能够模拟出空间上连续的生态环境要素曲面。为了便于理解，下面介绍基于HASM对生态环境要素进行模拟的步骤：

1）获取目标区域的多个采样点，并根据生态环境数据获取采样点的地理坐标和生态环境要素的采样值；

2）将目标区域空间离散化为网格点，得到网格点的离散值；

3）根据地理坐标和生态环境要素的采样值构建采样方程，并通过采样方程判断采样点是否在网格点上。如果采样点在网格点上，则网格点的值即为生态环境要素的采样值；如果采样点在网格内，则在距该采样点最近的网格点上利用泰勒展开得到该网格点上的近似采样值。

4）根据网格点离散值计算待测区域每个网格点的第一类基本量E、F、G和第二类基本量L、M、N，其中第一类基本量用于表示模拟曲面上曲线的长度、模拟曲面的面积和模拟曲面上曲线的曲率，第二类基本量用于表示模拟曲面的局部弯曲变化程度。将用第一类基本量和第二类基本量表示的曲面的偏微分方程组进行高阶差分离散，获得离散方程组，将离散方程组与采样方程组合成高精度曲面建模方程组。

5）随机选取高精度曲面建模方程组的迭代初值，并对高精度曲面建模方程组进行求解，直到求解结果收敛，从而根据高精度曲面建模方程组的解输出关于生态环境要素的高精度模拟曲面模型。

基于上述步骤描述，可以理解，对于不同目标区域的不同生态环境要素，比如气温、降水，有不同的HASM求解过程。为了提高HASM对不同区域、不同生态环境要素的适用性和鲁棒性，在求解过程中可以设置不同的超参数，用于适配于生态环境数据的数据特性以及空间异质性。

其中，HASM超参数包括但不限于：采样点的权重λ、松弛系数、总体极值的选取方式、是否采用平滑措施、采样处理方式、HASM求解最大迭代数、计算上下届时搜索的邻点数、是否用上下界控制、虚拟样点权重。各超参数的说明如表1所示，表1如下：

从表1可以看出，目前，HASM的求解过程共设置了9个超参数，每一个超参数的取值范围各异。

在使用HASM对目标区域的生态环境要素进行模拟时，如果想要得到理论上最高精度的模拟效果，则需要对超参数进行优化，即设置全局最优的超参数取值。

实际应用中，当使用HASM对目标区域的生态环境要素进行大规模模拟时，比如模拟某地区几十年的高分辨率气温、降水数据，我们希望能够省时省力地得到最佳的模拟效果，那么在批量大规模模拟之前，进行HASM超参数最优化以确定超参数的最优值就显得极为重要。

相关技术中，在使用HASM对目标区域的生态环境要素进行模拟时，一般有如下两种参数化方法：

1）经验法

经验法就是在使用HASM对目标区域的生态环境要素进行模拟过程中，根据使用者的地学知识确定目标区域的空间异质性对应的超参数取值，并根据生态环境数据的输入数据特征人为地设定参数赋值。其优点是简单快捷，无需进行大量模拟实验。但是这种方法过于依赖使用者的“经验”，如果是第一次使用HASM的人，可能无从下手，不知道该如何设置一个超参数值，使得其模拟效果相对较好；而且使用这种方法难以得到超参数的全局最优取值，模拟结果虽然相比于传统的曲面建模方法精度有所提高，但其精度的提高是受益于HASM的理论特性，而不是受益于参数的优化，也就是说，所得到的模拟结果一般不是HASM最佳的结果。

2）简单实验法

简单实验法是指使用者根据需要模拟的生态环境要素特征、地理位置等，进行简单的几组实验，筛选出几个简单超参数的值。通常先找出取值范围是有限域离散值，且可选范围小的超参数，然后通过简单的几组实验确定上述超参数的取值后，对其他超参数的取值则根据经验来设定。相比于经验法，这种方法能够对少数几个参数优化，但仍难以得到全局最优的HASM模拟结果。

由此可见，虽然HASM能够对目标区域的生态环境要素进行高精度的模拟，但是由于地理学中“空间异质性”的广泛存在，在对某一个区域进行长时间、大规模地应用HASM前要选择适当的参数。相关技术方案提供的方法效率低下，花费时间较长，难以快速确定HASM的最佳超参数，为此，本申请实施例提供一种基于并行计算的HASM超参数最优化方法，该方法可以在利用HASM进行生态环境要素模拟时，快速筛选出适合于目标区域的最佳参数，从而提升模拟结果的精度。

示例性方法

本申请实施例提供一种基于并行计算的HASM超参数最优化方法，如图1、图2所示，该方法包括：

步骤S101、获取目标区域的生态环境数据。

本申请实施例中，目标区域可以是任意地理区域，比如以行政区边界界定的区域，又比如，可以是通过地图上划定的范围。

本申请实施例中，生态环境数据可以是多尺度的生态环境数据。

这里，多尺度可以指多个空间尺度，也可以指多个时间尺度。

当多尺度为多个空间尺度时，生态环境数据可以包括不同空间分辨率的数据，生态环境数据可以包括不同比例尺的数据。

当多尺度指多个时间尺度时，生态环境数据可以包括年尺度、月尺度、日尺度或根据需要定义的其他尺度的数据。

可以理解，多尺度的生态环境数据具有数据量大、结构复杂的特点，对多尺度的生态环境数据进行HASM模拟需要大量的算力和时间。

步骤S102、确定HASM超参数对应的多个参数网格。

其中，HASM超参数用于表征生态环境数据的数据特性以及空间异质性；每一个参数网格与HASM超参数的取值组合相对应。

需要说明的是，对于HASM超参数的一种取值组合，以该取值组合设置HASM超参数，并通过HASM对生态环境要素进行模拟，对应得到一个模拟结果，这样的HASM超参数的取值组合被称作参数空间，也叫参数网格。

本申请实施例中，先确定HASM超参数的多个参数网格，使每一个参数网格与HASM超参数的取值组合相对应，这样，在使用HASM对生态环境要素进行模拟时，能够将每一个参数网格作为一个单独的计算任务，从而将大规模的模拟任务被拆分成多个相对计算量较小的单元，提高了计算效率。此外，对于每一目标区域的每一种生态环境要素，通过确定多个参数空间，用HASM对该参数空间中的生态环境要素进行模拟，以确定全局最优的HASM超参数取值，从而实现了在不依赖使用者经验的情况下快速确定HASM超参数的最佳取值。

实际应用中，不同类型的HASM超参数，参数网格的划分方式不同。

在一些实施例中，HASM超参数包括第一类型超参数，第一类型超参数的取值范围为有限域内的离散值；对应地，确定HASM超参数对应的多个参数网格，具体为：对第一类型超参数的取值范围内的离散值进行组合处理，以得到HASM超参数对应的多个参数网格。

本申请实施例中，第一类型超参数为取值范围是有限域内的离散值的超参数。

可以理解，在HASM求解过程中，取值范围为有限域内的离散值的超参数有多个，即第一类型超参数包含的超参数有多个。以表1示出的本申请实施的9个超参数为例，每个超参数的值域各不相同。其中，根据取值范围和在模拟过程中发挥的作用，取值范围为有限域内的离散值包括：cs3、cs4、cs5、cs6、cs7和cs8，把它们称为第一类型超参数。例如，cs3的取值范围是｛1，2，3｝，又比如，cs4的取值范围是｛0，1｝。

进一步地，cs3、cs4、cs5和cs8的取值范围为定性值，其每一个取值为类别值；cs6和cs7的取值范围为一定范围内的整数，其取值数量有限，且为定量值。

根据第一类型超参数的划分结果，确定每一个第一类型超参数对应的多个离散值，例如：表1中cs3对应的离散值为｛1，2，3｝、cs4对应的离散值为｛0，1｝、cs5对应的离散值为{1，3，5}、cs6对应的离散值为{1，2，3，4，5，6，7，8，9，10}、cs7对应的离散值为{1，2，…，20}、cs8对应的离散值为{0，1}。

然后，对第一类型超参数的取值范围内的离散值进行组合处理，以表1所示出的第一类型超参数cs3、cs4、cs5、cs6、cs7和cs8为例，组合处理的步骤如下：从cs3对应的离散值｛1，2，3｝中随机任取一个值，比如2；再从cs4对应的离散值｛0，1｝中随机任取一个值，比如1；随后从cs5对应的离散值{1，3，5}随机任取一个值，比如3……得到超参数取值组合，如｛2，1，3…｝。按照上述步骤不断组合，直到穷尽所有组合方式，得到HASM求解过程中多个超参数的取值组合，也就是多个参数网格。

需要说明的是，上述步骤中，穷尽所有组合方式指的是找到第一类型超参数所有可能的组合方式。以表1中第一类型超参数：cs3、cs4、cs5、cs6、cs7和cs8为例，首先，确定每一个超参数的可能取值个数，如cs3有3种可能取值、cs4有2种可能……，然后用乘法计算出所有可能的组合方式，对于cs3、cs4、cs5、cs6、cs7和cs8，其可能的组合方式有：3×2×3×10×17×2=6120种，也就是说，参数网格共有6120个

本申请实施例中，当HASM超参数的取值范围为有限域内的离散值时，通过先获取超参数的取值范围内的所有离散值，然后对所有离散值进行组合处理，得到多个第一类型超参数取值组合，每一个第一类型超参数取值组合对应一个参数网格，如此，能够全面覆盖超参数的所有参数网格，为后续确定超参数的最佳取值奠定基础。

步骤S103、基于并行计算方法，通过HASM对每一个参数网格中的生态环境数据进行模拟，以确定HASM超参数的最优值。

需要说明的是，并行计算（Parallel Computing）是指同时使用多种计算资源解决大型而复杂的计算问题的过程。

基于前述说明可知，生态环境数据为多尺度数据，当其对应的数据规模较大时，HASM的模拟过程需要较大算力，其解算的耗时也较长。为此，本申请实施例采用并行计算方法，将对不同参数网格中的生态环境数据的模拟分配到不同的计算单元中，并进行同时计算，充分利用计算机的多核（多处理器）优势，快速进行参数优化。

本申请实施中，基于步骤S102得到的参数网格，每一个参数网格对应一个计算任务，通过并行计算，利用多处理器分别对各个参数网格中的生态环境数据进行模拟，从而实现并行获取各参数网格的模拟结果，提高了计算效率。

具体实施时，为了进一步提高参数优化效率，当对大规模生态环境数据进行模拟时，每一个参数网格对应的生态环境数据可以为目标区域的全部生态环境数据的子集，例如，模拟某地区1980年~2018年的高分辨率的气温或降水数据时，可以对该区域某一天或预设时间段内的气温或降水数据在不同参数网格中进行模拟，如此，通过对少量的代表目标区域的空间特征和数据特性的数据子集进行模拟，能够快速得到针对该区域的气温或降水的最佳超参数取值，从而为大规模数据模拟确定最佳超参数取值，提高了HASM对目标区域的整体模拟精度。

在通过HASM对每一个参数网格中的生态环境数据进行模拟之后，为了确定超参数的最优值，在一些实施例中，还具体包括如下步骤：基于并行计算方法，通过HASM对每一个参数网格对应的生态环境数据进行模拟，并计算每一个参数网格对应的模拟结果误差；以模拟结果误差最小的参数网格对应的超参数取值组合作为超参数的最优值。

应当理解，在使用HASM对每一个参数网格中的生态环境数据进行模拟时，每一个参数网格包含多个采样点，通过计算每个采样点的采样值与HASM模拟得到的预测值之间的差异，即可得到每个采样点的误差。

本申请实施例中，每一个参数网格对应的模拟结果误差可以用采样点的误差总和来表征，也可以用每个参数网格内所有采样点的误差均值来表征。通过统计与记录每个采样点的误差，得到每一个参数网格内采样点的误差总和或者每个参数网格内所有采样点的误差均值，从而得到每一个参数网格对应的模拟结果误差。

在获取每一个参数网格对应的模拟结果误差后，根据误差指标确定超参数的最优值，即最优超参数取值。该步骤具体包括：确定所有参数网格模拟结果误差最小值，并以模拟结果误差最小的参数网格对应的超参数取值组合作为超参数的最优值。由于超参数的最优值与模拟结果误差最小值相对应，故以该超参数的最优值对目标区域进行生态环境要素进行模拟时，能够获得最优的模拟效果，从而提高了模拟精度。

在一些实施例中，HASM超参数包括第二类型超参数，第二类型超参数的取值范围为无限域内的连续值；对应地，确定HASM超参数对应的多个参数网格，基于并行计算方法，通过HASM对每一个参数网格中的生态环境数据进行模拟，以确定超参数的最优值，具体为：对第二类型超参数的取值范围进行划分，得到第二类型超参数对应的多个取值子范围；获取每一个取值子范围内的任一取值，以得到多个第二类型超参数取值组合；将每一个第二类型超参数取值组合作为一个参数网格，得到多个参数网格；基于并行计算方法，通过HASM对每一个参数网格中的生态环境数据进行模拟，并计算每一个参数网格对应的模拟结果误差；若参数网格对应的模拟结果误差最小值小于预设误差阈值或者当前迭代次数大于预设的迭代次数阈值，将模拟结果误差最小值对应的第二类型超参数取值组合作为第二类型超参数的最优值；否则，对取值子范围进行重新划分，得到新的取值子范围，并转至获取每一个取值子范围内的任一取值，以得到多个第二类型超参数取值组合的步骤。

需要说明的是，对于取值范围为无限域内的连续值的第二类型超参数，每一个超参数的可能取值有无限多个。

为此，本申请实施中，在确定参数网格时，首先将第二类型超参数的取值范围划分为多个取值子范围，然后获取每一个取值子范围内的任一取值，作为该取值子范围对应的超参数的可能取值，得到第二类型超参数的可能取值集合，最后从第二类型超参数的可能取值集合中取随机值，以形成第二类型超参数取值组合，其中，第二类型超参数取值组合与参数网格相对应。

应当理解，第二类型超参数中包含的超参数也有多个，将第二类型超参数的取值范围划分后得到的每一个第二类型超参数的有多个可能取值，通过从每一个第二类型超参数的可能取值集合中取随机值，然后组合成第二类型超参数取值组合，从而构建出多个参数网格，即N个参数空间。

具体实施时，可以通过四分位数法将每一个第二类型超参数分为多个取值子范围，也可以通过其他的划分方式，比如百分数法、二分法、阈值法等对每一个第二类型超参数的取值范围进行划分，得到多个取值子范围。

示例性地，以表1所示出的HASM超参数为例，属于第二类型超参数的有：cs1、cs2和cs9。可以采用四分位数法，按照如下步骤对每一个超参数的取值范围进行划分：首先根据cs1的取值范围为[0，10]之间的小数，通过四分位数法确定0、2.5、5、7.5、10这5个边界值，然后分别在5个边界值确定的四个区间内各取一个随机值，得到4个cs1的可能取值集合；根据cs2的取值范围为[0，1]之间的小数，通过四分位数法取0、0.25、0.5、0.75、1这5个边界值，然后分别在5个边界值确定的四个区间内各取一个随机值，得到4个cs2的可能取值集合，cs9也进行同样的操作。

通过上述步骤，分别得到cs1、cs2和cs9的可能取值集合，其中，每一个可能取值集合均包含4个元素。随后，在每一个超参数的可能取值集合中随机任取一个值，组合成一个第二类型超参数取值组合，即一个参数网格，则cs1、cs2和cs9的组合方式有：4×4×4=64种，也就是说，用四分位数法对cs1、cs2和cs9进行划分后，得到64个参数网格。

基于并行计算方法，通过HASM对每一个参数网格中的生态环境数据进行模拟，并计算每一个参数网格对应的模拟结果的误差。

应当理解，对于每一个第二类型超参数而言，其可能的取值有无限多种，那么，在确定超参数的最优值时，需要根据每次模拟结果的误差进行迭代以逼近超参数的最优值。本申请实施例中，在计算得到每一个参数网格对应的模拟结果的误差后，将模拟结果的误差最小值与预设误差阈值进行比较，若模拟结果的误差最小值小于预设误差阈值，则说明HASM对该目标区域的当前类型生态环境要素的模拟精度已符合要求，将模拟结果的误差最小值对应的超参数的取值组合作为第二类型超参数的最优值。或者，若模拟结果的误差最小值大于等于预设误差阈值，但当前迭代次数大于预设的迭代次数阈值，则仍终止迭代，并将模拟结果的误差最小值对应的超参数的取值组合作为第二类型超参数的最优值。否则，对取值子范围进行重新划分，得到新的取值子范围，并进行下一次迭代。

本申请实施中，对于取值范围为无限域内的连续值的第二类型超参数，通过划分取值子范围，并根据模拟误差不断迭代以逐步逼近超参数的最优值，从而使模拟误差逐渐收敛，减小了超参数优化过程中的随机性，加快了超参数优化过程，节约了超参数的优化时间。

在一些应用场景中，HASM超参数既包括取值范围为有限域内的离散值的超参数，也包括取值范围为无限域内的连续值；也就是说，HASM超参数既包括第一类型超参数，又包括第二类型超参数。当HASM超参数同时包括第一类型超参数和第二类型超参数时，对应地，确定超参数的最优值具体包括如下步骤：获取每一个第一类型超参数对应的多个离散值；对每一个第一类型超参数的多个离散值进行组合，得到多个第一类型超参数取值组合；将每一个第一类型超参数取值组合作为一个参数网格，并在参数网格内对第二类型超参数进行随机赋值，得到多个第一参数网格；基于并行计算方法，通过HASM对每一个第一参数网格中的生态环境数据进行模拟，以确定第一类型超参数的最优值；对第二类型超参数的取值范围进行划分，得到第二类型超参数对应的多个取值子范围；获取每一个取值子范围内的任一取值，以得到多个第二类型超参数取值组合；将第一类型超参数的最优值与每一个第二类型超参数取值组合相结合，以得到多个第二参数网格；基于并行计算方法，通过HASM对每一个第二参数网格中的生态环境数据进行模拟，并计算每一个第二参数网格对应的模拟结果的误差；若第二参数网格对应的模拟结果的误差最小值小于预设误差阈值或者当前迭代次数大于预设的迭代次数阈值，将模拟结果的误差最小值对应的超参数的取值组合作为第二类型超参数的最优值；否则，对取值子范围进行重新划分，得到新的取值子范围，并转至获取每一个取值子范围内的任一取值以得到多个第二类型超参数取值组合的步骤。

本申请实施例中，当HASM超参数同时包括第一类型超参数和第二类型超参数时，超参数的优化过程可以分为两个大步骤：第一步，优化第一类型超参数，确定第一类型超参数的最优值；第二步，在第一类型超参数的最优值的基础上，采用对第二类型超参数的取值范围进行划分以迭代逼近第二类型超参数的最优值，从而实现超参数的最优化。

具体地，首先优化第一类型超参数。每一个第一类型超参数的可能取值为多个离散值，对每一个第一类型超参数的多个离散值进行组合，得到多个第一类型超参数取值组合。进一步地，对每一个第一类型超参数，选取其可能取值中的任一随机值，然后将所选取的随机值相组合，形成一个第一类型超参数取值组合，按此方法找到所有的组合方式，得到多个第一类型超参数取值组合，即参数网格。在此步骤中，不考虑第二类型超参数对模拟精度的影响，所以，在参数网格内对第二类型超参数进行随机赋值，使得所有超参数均有参数值，以得到多个第一参数网格。随后，基于并行计算方法，通过HASM对每一个第一参数网格中的生态环境数据进行模拟，以确定第一类型超参数的最优值。

然后，在确定第一类型超参数的最优值的基础上，通过迭代法对第二类型超参数进行优化。本申请实施例中，每一个第二类型超参数的取值范围为无限域内的连续值，也就是说，每一个第二类型超参数的可能取值有无限多种。通过对第二类型超参数的取值范围进行划分，得到第二类型超参数对应的多个取值子范围；获取每一个取值子范围内的任一取值，以得到多个第二类型超参数取值组合。随后，将第一类型超参数的最优值与每一个第二类型超参数取值组合相结合，得到多个第二参数网格。最后，基于并行计算方法，通过HASM对每一个第二参数网格中的生态环境数据进行模拟，并计算每一个第二参数网格对应的模拟结果的误差；判断第二参数网格对应的模拟结果的误差最小值是否小于预设误差阈值或者当前迭代次数是否大于预设的迭代次数阈值，若是，将模拟结果的误差最小值对应的超参数的取值组合作为第二类型超参数的最优值；否则，对取值子范围进行重新划分，得到新的取值子范围，重新进行迭代，直到模拟结果的误差满足迭代条件。

在确定超参数的最优值之后，将HASM超参数设置为该最优值，并对生态环境要素进行大规模的模拟，得到全部生态环境要素的高精度的模拟结果。

综上所述，本申请的实施例中，通过将HASM超参数进行拆分，得到多个参数网格，然后基于并行计算方法，通过HASM对每个参数网格中的生态环境数据进行模拟，以确定超参数的最优值。如此，将参数网格划分与并行计算方法相结合，充分利用计算机的多核优势，快速高效地对HASM超参数进行最优化，不仅提高了HASM对目标区域的生态环境模拟的精度，同时对推广HASM的使用和其理论建设有着重要意义。

本申请实施例中，采用目标区域全部生态环境数据的子集进行超参数优化，通过少量的计算任务，就能够确定HASM在对目标区域某个生态环境要素模拟时的最优参数值，且在并行计算的方法下，大大减少了超参数的优化时间，使用优化得到的超参数最优值进行HASM的模拟即可得到高精度的模拟结果。

本申请实施中，采用参数网格划分和并行计算的方法，快速高效的对HASM进行参数优化，从而提高模拟结果的精度。

示例性系统

本申请实施例还提供一种基于并行计算的HASM超参数最优化系统，如图3-7所示，该系统包括：获取单元301、确定单元302和模拟单元303。

获取单元301，配置为获取目标区域的生态环境数据。

确定单元302，配置为确定HASM超参数对应的多个参数网格；其中，HASM超参数用于表征生态环境数据的数据特性以及空间异质性；每一个参数网格与HASM超参数的取值组合相对应。

模拟单元303，配置为基于并行计算方法，通过HASM对每一个参数网格中的生态环境数据进行模拟，以确定HASM超参数的最优值。

上述技术方案中，HASM超参数包括第一类型超参数，第一类型超参数的取值范围为有限域内的离散值。

对应地，确定单元302包括：

第一组合子模块401，配置为对第一类型超参数的取值范围内的离散值进行组合处理，以得到HASM超参数对应的多个参数网格。

上述技术方案中，模拟单元303包括：

第一误差计算子模块501，配置为基于并行计算方法，通过HASM对每一个参数网格对应的生态环境数据进行模拟，并计算每一个参数网格对应的模拟结果误差。

第一误差判断子模块502，配置为以模拟结果误差最小的参数网格对应的HASM超参数的取值组合作为HASM超参数的最优值。

上述技术方案中，HASM超参数包括第二类型超参数，第二类型超参数的取值范围为无限域内的连续值；

对应地，确定HASM超参数对应的多个参数网格，基于并行计算方法，通过HASM对每一个参数网格中的生态环境数据进行模拟，以确定HASM超参数的最优值，具体为：

第一划分子模块601，配置为对第二类型超参数的取值范围进行划分，得到第二类型超参数对应的多个取值子范围。

第二组合子模块602，配置为获取每一个取值子范围内的任一取值，以得到多个第二类型超参数取值组合。

第一网格获取子模块603，配置为将每一个第二类型超参数取值组合作为一个参数网格，得到多个参数网格。

第二误差计算子模块604，配置为基于并行计算方法，通过HASM对每一个参数网格中的生态环境数据进行模拟，并计算每一个参数网格对应的模拟结果误差。

第一迭代子模块605，配置为若参数网格对应的模拟结果误差最小值小于预设误差阈值或者当前迭代次数大于预设的迭代次数阈值，将模拟结果误差最小值对应的第二类型超参数取值组合作为第二类型超参数的最优值；否则，对取值子范围进行重新划分，得到新的取值子范围，并转至获取每一个取值子范围内的任一取值，以得到多个第二类型超参数取值组合的步骤。

上述技术方案中，HASM超参数包括第一类型超参数和第二类型超参数，第一类型超参数的取值范围为有限域内的离散值；第二类型超参数的取值范围为无限域内的连续值。

对应地，确定HASM超参数对应的多个参数网格；基于并行计算方法，通过HASM对每一个参数网格中的生态环境数据进行模拟，以确定HASM超参数的最优值，具体为：

第三组合子模块701，配置为对第一类型超参数的取值范围内的离散值进行组合处理，得到多个第一类型超参数取值组合。

第二网格获取子模块702，配置为对第二类型超参数进行随机赋值，并与多个第一类型超参数取值组合相结合，得到多个第一参数网格。

第一模拟子模块703，配置为基于并行计算方法，通过HASM对每一个第一参数网格中的生态环境数据进行模拟，以确定第一类型超参数的最优值。

第二划分子模块704，配置为对第二类型超参数的取值范围进行划分，得到第二类型超参数对应的多个取值子范围。

第四组合子模块705，配置为获取每一个取值子范围内的任一取值，以得到多个第二类型超参数取值组合。

第三网格获取子模块706，配置为将第一类型超参数的最优值与每一个第二类型超参数取值组合相结合，以得到多个第二参数网格；

第三误差计算子模块707，基于并行计算方法，通过HASM对每一个第二参数网格中的生态环境数据进行模拟，并计算每一个第二参数网格对应的模拟结果误差。

第二迭代子模块708，配置为若第二参数网格对应的模拟结果的误差最小值小于预设误差阈值或者当前迭代次数大于预设的迭代次数阈值，将模拟结果的误差最小值对应的第二类型超参数取值组合作为第二类型超参数的最优值；否则，对取值子范围进行重新划分，得到新的取值子范围，并转至获取每一个取值子范围内的任一取值，以得到多个第二类型超参数取值组合的步骤。

本申请实施例提供的基于并行计算的HASM超参数最优化系统，能够实现上述任一基于并行计算的HASM超参数最优化方法的步骤、流程，并达到相同的技术效果，在此不再一一赘述。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于并行计算的高精度曲面建模方法超参数最优化方法，其特征在于，包括：

获取目标区域的生态环境数据；

确定高精度曲面建模方法超参数对应的多个参数网格；其中，所述高精度曲面建模方法超参数用于表征所述生态环境数据的数据特性以及空间异质性；每一个所述参数网格与所述高精度曲面建模方法超参数的取值组合相对应；

基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述高精度曲面建模方法超参数的最优值；

所述高精度曲面建模方法超参数包括第二类型超参数，所述第二类型超参数的取值范围为无限域内的连续值；

确定高精度曲面建模方法超参数对应的多个参数网格，基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述高精度曲面建模方法超参数的最优值，具体为：

基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格中的所述生态环境数据进行模拟，并计算每一个所述参数网格对应的模拟结果误差；

2.根据权利要求1所述的基于并行计算的高精度曲面建模方法超参数最优化方法，其特征在于，所述高精度曲面建模方法超参数包括第一类型超参数，所述第一类型超参数的取值范围为有限域内的离散值；

对应地，所述确定高精度曲面建模方法超参数对应的多个参数网格，具体为：

对所述第一类型超参数的取值范围内的离散值进行组合处理，以得到所述高精度曲面建模方法超参数对应的多个参数网格。

3.根据权利要求1所述的基于并行计算的高精度曲面建模方法超参数最优化方法，其特征在于，所述基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述高精度曲面建模方法超参数的最优值，具体为：

基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格对应的所述生态环境数据进行模拟，并计算每一个所述参数网格对应的模拟结果误差；

以模拟结果误差最小的所述参数网格对应的高精度曲面建模方法超参数的取值组合作为所述高精度曲面建模方法超参数的最优值。

4.根据权利要求1所述的基于并行计算的高精度曲面建模方法超参数最优化方法，其特征在于，所述高精度曲面建模方法超参数包括第一类型超参数和第二类型超参数，所述第一类型超参数的取值范围为有限域内的离散值；所述第二类型超参数的取值范围为无限域内的连续值；

确定高精度曲面建模方法超参数对应的多个参数网格；基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述高精度曲面建模方法超参数的最优值，具体为：

基于并行计算方法，通过高精度曲面建模方法对每一个所述第一参数网格中的所述生态环境数据进行模拟，以确定所述第一类型超参数的最优值；

基于并行计算方法，通过高精度曲面建模方法对每一个所述第二参数网格中的所述生态环境数据进行模拟，并计算每一个所述第二参数网格对应的模拟结果误差；

5.一种基于并行计算的高精度曲面建模方法超参数最优化系统，其特征在于，包括：

获取单元，配置为获取目标区域的生态环境数据；

确定单元，配置为确定高精度曲面建模方法超参数对应的多个参数网格；其中，所述高精度曲面建模方法超参数用于表征所述生态环境数据的数据特性以及空间异质性；每一个所述参数网格与所述高精度曲面建模方法超参数的取值组合相对应；

模拟单元，配置为基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述高精度曲面建模方法超参数的最优值；

确定所述高精度曲面建模方法超参数对应的多个参数网格，基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格中的所述生态环境数据进行模拟，以确定所述高精度曲面建模方法超参数的最优值，具体为：

第二误差计算子模块，配置为基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格中的所述生态环境数据进行模拟，并计算每一个所述参数网格对应的模拟结果误差；

6.根据权利要求5所述的基于并行计算的高精度曲面建模方法超参数最优化系统，其特征在于，所述高精度曲面建模方法超参数包括第一类型超参数，所述第一类型超参数的取值范围为有限域内的离散值；

对应地，所述确定单元包括：

第一组合子模块，配置为对所述第一类型超参数的取值范围内的离散值进行组合处理，以得到所述高精度曲面建模方法超参数对应的多个参数网格。

7.根据权利要求5所述的基于并行计算的高精度曲面建模方法超参数最优化系统，其特征在于，所述模拟单元包括：

第一误差计算子模块，配置为基于并行计算方法，通过高精度曲面建模方法对每一个所述参数网格对应的所述生态环境数据进行模拟，并计算每一个所述参数网格对应的模拟结果误差；

第一误差判断子模块，配置为以模拟结果误差最小的所述参数网格对应的高精度曲面建模方法超参数的取值组合作为所述高精度曲面建模方法超参数的最优值。

8.根据权利要求5所述的基于并行计算的高精度曲面建模方法超参数最优化系统，其特征在于，所述高精度曲面建模方法超参数包括第一类型超参数和第二类型超参数，所述第一类型超参数的取值范围为有限域内的离散值；所述第二类型超参数的取值范围为无限域内的连续值；

第一模拟子模块，配置为基于并行计算方法，通过高精度曲面建模方法对每一个所述第一参数网格中的所述生态环境数据进行模拟，以确定所述第一类型超参数的最优值；

第三误差计算子模块，基于并行计算方法，通过高精度曲面建模方法对每一个所述第二参数网格中的所述生态环境数据进行模拟，并计算每一个所述第二参数网格对应的模拟结果误差；