CN113850234A

CN113850234A - 一种基于要素的强对流短时强降水的识别方法

Info

Publication number: CN113850234A
Application number: CN202111329054.9A
Authority: CN
Inventors: 蔡荣辉; 徐靖宇; 叶成志; 陈龙; 尹忠海; 刘红武; 陈静静; 王胜春; 付炜; 周莉; 兰明才; 刘金卿; 尹麒名; 苏涛
Original assignee: Hunan Meteorological Station
Current assignee: Hunan Meteorological Station
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2021-12-28

Abstract

本发明公开了一种基于要素的强对流短时强降水的识别方法，包括以下步骤：获取区域数据；进行数据预处理，获得训练数据；处理标签数据；用Unet神经网络模型并加载训练数据和标签数据来进行模型训练；进行模型评价及对结果进行分析。本发明提供的基于要素的强对流短时强降水天气的识别方法，通过深度学习模型构建了一个使用数据和要素特征，用于短时预报强对流强降水的神经网络识别模型。

Description

一种基于要素的强对流短时强降水的识别方法

技术领域

本发明涉及强对流短时强降水天气识别领域，尤其涉及一种基于要素构建网络模型自动识别强对流短时强降水识别方法。

背景技术

强对流短时强降水天气对生产生活的安全威胁巨大，现在对这种极端天气的识别存在一定滞后性也需要人工根据气象特征判断，这一方法对人员的专业知识要求很高，所需时间也较长。随着技术的发展，急需一个能自动识别强对流短时强降水的方法。

发明内容

鉴于目前强对流短时强降水识别系统存在的上述不足，本发明提供一种基于要素的强对流短时强降水识别系统，能够通过神经网络模型自动识别强对流短时强降水天气。

为达到上述目的，本发明的实施例采用如下技术方案：

一种基于要素的强对流短时强降水识别方法，所述方法包括以下步骤:

S1：获取区域数据；

S2：进行数据预处理，获得训练数据；

S3：处理强对流短时强降水标签数据；

S4：选用Unet神经网络模型并加载训练数据和标签数据来进行模型训练；

S5：进行模型评价及进行结果分析。

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，所述获取区域数据数据：该数据为某地区某个时间段内逐时间间隔的GRIB2格式气象数据；

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，所述气象数据如下表所示：

表1

即不同高度下基于特征要素高度场的相对湿度；温度场；风场U分量；风场V分量；累计降水；海平面气压；月份编码和时间编码的数据。

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，所述步骤对数据进行预处理包括：

进行区域裁剪；

进行月份和时间编码；

进行数据清洗和采样；

生成CSV文件用于训练。

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，所述月份和时间的编码方式借助x²+y²＝1二元二次函数的连续性性质将月份与时间的值对应为该函数上的一点，用点的x，y坐标代表它本身的值，这样就可以用两个特征值表示月份或者是时间，具体公式如下：

其中month Val、dateVal分别为月份和日期的具体值，Month x和Month y为月份的编码值，Datex和Datey为日期的编码值。

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，所述对数据进行采样包括两轮采样，首先对数据进行次采样即对对没有强降水的数据进行采样，对有强降水的数据全部保留不变；然后对数据进行过采样，对有强降水的数据进行复制，增加其数量，对没有强降水的数据不进行操作。

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，所述处理强对流短时强降水标签数据包括将原始的强降水标签数据即某段时间内强降水站点实况，将有强降水的站点赋值为1，无强降水的站点赋值为0，将数据使用最临近插值法，插到与数据相同的一定区域大小的一定格点内并经强降水站点附近一定单位长度内的格点均赋值为1，将这些标签格点数据可视化保存为图片。

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，所述的选用Unet神经网络模型并加载训练数据和标签数据来进行模型训练包括：

选用Adam优化器；

损失函数设计；

数据归一化；

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，所述的神经网络模型和优化器选择Unet神经网络模型和Adam优化器。

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，所述的数据归一化方法采用最大最小数据归一化方法，公式为：

其中value为原始值，newvalue为归一化之后的值，max、min分别为计算的值所在特征中的最大值和最小值。

依照本发明的一个方面所述一种基于要素的强对流短时强降水识别方法，于所述损失函数设计采用DiceLoss，表达式为：

X表示预测的所有急流区域，Y表示标注的所有急流区域，|X|和|Y|表示所有急流区域内的格点个数，|X∩Y|表示X和Y两个急流区域交集内的格点个数，smooth是避免分母为0的常数。

本发明实施的优点：通过上述的方案，能使用模型根据数据的气象数据和特征自动完成对强对流短时强降水天气的识别，加快了对强对流短时强降水天气预报的速度，提高了预报的水平。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述的一种基于要素的强对流短时强降水识别方法流程图。

图2为本发明所述的一种训练数据编码方法的编码函数图像；

图3为本发明所述的一种标签数据处理方法的标签数据可视化图像；

图4为本发明所述的一种神经网络的Unet网络结构图；

图5为本发明所述的一种训练方法的训练的损失函数记录图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围

实施例一

如图1、图2、图3、图4、图5所示，一种基于要素的强对流短时强降水的识别方法，所述识别方法包括以下步骤：

步骤S1：获取区域数据：获取某地区某个时间段内逐时间间隔的GRIB2格式气象数据，例如本实施例采用2020年3月到9月GRIB2格式的华南3公里逐小时格点数据来。所述数据包含以下表格所示气象要素和特征：

表1

步骤S2进行数据预处理，获得训练数据：

步骤S21：数据裁剪：

在本实施例中数据整体区域为华南区域，目标区域为湖南省，所以对数据根据经纬度进行裁剪，裁剪至包含湖南全域的格点数据，格点数为192*192。

步骤S22：月份与时间编码：

月份和时间为连续性散点特征，如果不采用编码，对于像1月与12月或者1点和23点，这类情况，它们的数值差异较大，但是本身代表的背景或意义差距不大。直接放入数值，会影响模型的判断。

如果采用普通的独热编码将会增大无用的特征值，如月份将扩展为12个特征值，使模型较难收敛，所以借助x²+y²＝1二元二次函数的连续性性质，该函数图像如图2所示。

将月份与时间的值对应为该函数上的一点，用点的x，y坐标代表它本身的值。这样就可以用两个特征值表示月份或者是时间。具体公式如下：

其中monthVal、dateVal分别为月份和日期的具体值，Monthx和Monthy为月份的编码值，Datex和Datey为日期的编码值。

步骤S23：数据清洗与采样：

数据清洗：对数据整体进行筛选清洗，将包含缺失值、异常值的数据剔除。缺失值数据为步骤S1表1中任意数据缺失即为缺失值数据，也即必须保证数据的完整性。异常值数据为步骤S1表1中任意数据值明显错误即为异常值数据，包括：过大、过小等情况。排除异常数据对模型训练过程的影响。

数据采样：由于正负数据样本的不均衡，也即有强降水的数据和没有强降水的数据量差距较大，所以对数据采用必要的采样，使数据分布更为均衡，提升模型的稳定性。首先对数据进行欠采样，对没有强降水的数据进行采样，对有强降水的数据全部保留不变。然后对数据进行过采样，对有强降水的数据进行复制，增加其数量，对没有强降水的数据不进行操作。

步骤S24：最终数据生成csv文件用于训练。

步骤S3：标签处理

标签数据采用某段时间内的强降水的站点实况，在本实施例中标签原始的数据采用2020年短时强降水站点实况，首先将有强降水的站点位置赋值为1，对于没有强降水的站点位置赋值为0。然后将站点采用最邻近插值方法，插值到与数据相同的192*192的格点上。由于最终的评价标准为站点发生强降水，则周围40KM内格点均判定为强降水区域。所以将发生强降水的格点周围半径为13个单位长度的格点，均赋值为1。最后将这个仅包含0和1的格点标签数据可视化保存为图片，将值为1的格点对应为像素值为255的像素，将值为0的格点对应为像素值为0的像素得到的标签图片如图3所示。

步骤S4：选用Unet神经网络模型并加载训练数据和标签数据来进行模型训练步骤S41：数据归一化：

对训练数据和标签数据采用最大最小归一化，归一化能在一定程度提高模型精度，因为大多模型的loss计算，需要假定数据的所有特征都是零均值并且具有同一阶方差的。这样在计算loss时，才能将所有特征属性统一处理。如果样本两个属性的量纲差距过大，则大量纲的属性在距离计算中就占据了主导地位。而现实中，样本的属性量纲一般情况下差距较大。所以，加入归一化，将数据的特征属性scale到统一量纲，可以一定程度解决这个问题。

同时归一化能够提升收敛速度，对于使用梯度下降优化的模型，每次迭代会找到梯度最大的方向迭代更新模型参数。但是，如果模型的特征属性量纲不一，那么我们寻求最优解的特征空间，就可以看作是一个椭圆形的，其中大量纲的属性对应的参数有较长的轴。在更新过程中，可能会出现更新过程不是一直朝向极小点更新的，而是呈现‘Z’字型。使用了归一化对齐量纲之后，更新过程就变成了在近似圆形空间，不断向圆心(极值点)迭代的过程.提升了收敛速度。

在具体实现的时候，为防止分母为0，通常会加一个smooth，公式变成：

步骤S42：选定神经网络模型：

Unet网络结构图如图4所示，Unet网络因其“U”型结构而得名，主要分为两个部分，左侧为压缩路径，右侧为放大路径，压缩路径和放大路径基本对称。Unet整个网络没有全连接层，只使用每个卷积的有效部分，上采样部分也拥有数值较大的特征通道。同时高分辨率特征通过连接与上采样的结果相结合，提升整体预测准确率。在此基础结构上，Unet能够使用较少的训练数据达到较好的效果。

同时Unet本质为对于数据中每个位置的点进行分类，对于每个点进行分类之后，可以达到分割的效果。所以选择Unet能够对区域内每个格点进行是否发生强降水进行预测，能对每个格点进行精细化的判断，这是其他分类网络不具备的特点。

因为Unet神经网络模型具有上述的能使用较少的数据对每个格点进行比较精细化的判断的优点，所以选用Unet神经网络模型

步骤S43：选定优化器:

优化器采用Adam优化器，Adam优化器结合AdaGrad和RMSProp两种优化算法的优点。对梯度的一阶矩估计(First Moment Estimation，即梯度的均值)和二阶矩估计(Second Moment Estimation，即梯度的未中心化的方差)进行综合考虑，计算出更新步长。

它具有如下优点：

1、实现简单，计算高效，对内存需求少；

2、参数的更新不受梯度的伸缩变换影响；

3、超参数具有很好的解释性，且通常无需调整或仅需很少的微调；

4、更新的步长能够被限制在大致的范围内(初始学习率)；

5、能自然地实现步长退火过程(自动调整学习率)；

6、很适合应用于大规模的数据及参数的场景；

7、适用于不稳定目标函数；

8、适用于梯度稀疏或梯度存在很大噪声的问题。

S44:训练：

将训练数据和标签数据归一化之后，加载Unet的模型，并在GPU上进行迭代训练。本实施例的硬件配置为：GPU为GTX 1080Ti，内存：128G，深度学习框架为PyTorch 1.6，CUDA版本为10.2，除了这些硬件配置还可采用可以运行本实施例的硬件配置，例如GTX 2080，内存256G等以上硬件配置仅为例举。训练的学习率为3e-4，batch_size为16，迭代次数为1000。

S5：模型评价和结果分析：

S51：模型评价标准：

首先定义如下概念：

True Positive(TP)：预测为正例，实际为正例。

False Positive(FP)：预测为正例，实际为负例。

True Negative(TN)：预测为负例，实际为负例。

False Negative(FN)：预测为负例，实际为正例。

accuracy指的是正确预测的样本数占总预测样本数的比值，它不考虑预测的样本是正例还是负例。而precision指的是正确预测的正样本数占所有预测为正样本的数量的比值，也就是说所有预测为正样本的样本中有多少是真正的正样本。可以看出precision只关注预测为正样本的部分，而accuracy考虑全部样本。

Recall可以称为召回率、查全率，指的是正确预测的正样本数占真实正样本总数的比值，也就是从这些样本中能够正确找出多少个正样本。

F-score相当于precision和recall的调和平均，recall和precision任何一个数值减小，F-score都会减小，反之，亦然。能最好的体现识别的准确度。

模型训练中采用F-score作为评价标准，取F-score最大的时候，保存模型。

S52：训练结果：

本实施例的训练的损失函数记录如图5所示。

S53：结果分析：

本实施例最终的模型命中率较高。在实际应用中为了提高模型的命中率，减小模型的空报率，可以将降水根据等级进行分类，由二分类改为多分类，避免差距较大的气象要素条件下，为将预测值强行拟合到一个值而对模型产生的影响。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于要素的强对流短时强降水的识别方法，其特征在于包括以下步骤：

获取区域数据；

进行数据预处理，获得训练数据；

处理强对流短时强降水标签数据；

选用Unet神经网络模型并加载训练数据和标签数据来进行模型训练；

进行模型评价及进行结果分析。

2.根据权利要求1所述的基于要素的强对流短时强降水的识别方法，其特征在于，所述获取区域数据：该数据为某地区某个时间段内逐时间间隔的GRIB2格式气象数据。

3.根据权利要求1所述的基于要素的强对流短时强降水的识别方法，其特征在于，所述气象数据包括：不同高度下基于特征要素高度场、相对湿度、温度场、风场U分量、风场V分量、累计降水、海平面气压、月份编码、时间编码的数据。

4.根据权利要求1所述的基于要素的强对流短时强降水的识别方法，其特征在于，所述步骤对数据进行预处理包括：

进行区域裁剪；

进行月份和时间编码；

进行数据清洗和采样；

生成CSV文件用于训练。

5.根据权利要求4所述基于要素的强对流短时强降水的识别方法，其特征在于，所述月份和时间的编码方式借助x²+y²＝1二元二次函数的连续性性质将月份与时间的值对应为该函数上的一点，用点的x，y坐标代表它本身的值，这样就可以用两个特征值表示月份或者是时间，具体公式如下：

6.根据权利要求4所述基于要素的强对流短时强降水的识别方法，其特征在于，所述对数据进行采样包括两轮采样，首先对数据进行次采样即对没有强降水的数据进行采样，对有强降水的数据全部保留不变，然后对数据进行过采样，对有强降水的数据进行复制，增加其数量，对没有强降水的数据不进行操作。

7.根据权利要求1所述的基于要素的强对流短时强降水的识别方法，其特征在于，所述处理强对流短时强降水标签数据包括将原始的强降水标签数据即某段时间内强降水站点实况，将有强降水的站点赋值为1，无强降水的站点赋值为0，将数据使用最临近插值法，插到与数据相同的一定区域大小的一定格点内并经强降水站点附近一定单位长度内的格点均赋值为1，将这些标签格点数据可视化保存为图片。

8.根据权利要求1所述的基于要素的强对流短时强降水的识别方法，其特征在于，所述的选用Unet神经网络并加载训练数据和标签数据来进行模型训练包括：

选用Adam优化器；

损失函数设计；

数据归一化；

训练。

9.根据权利要求8所述的基于要素的强对流短时强降水的识别方法，其特征在于，所述的数据归一化方法对训练数据和标签数据采用最大最小数据归一化方法，公式为：

10.根据权利要求8所述的基于要素的强对流短时强降水的识别方法，其特征在于所述损失函数设计采用Dice Loss，表达式为：