CN110471131B

CN110471131B - 高空间分辨率的精细化大气水平能见度自动预报方法及系统

Info

Publication number: CN110471131B
Application number: CN201910756480.7A
Authority: CN
Inventors: 李昕蓓; 张苏平; 衣立; 崔丛欣; 韩美; 潘宁
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2023-04-18
Anticipated expiration: 2039-08-16
Also published as: CN110471131A

Abstract

本发明涉及一种高空间分辨率的精细化大气水平能见度自动预报方法及系统。全面分析和处理大气数值模式数据和自动气象站观测数据，以空间水平距离最小原则建立大型数据集；将数据集输入到深度神经网络框架中，经过多个隐藏层后，得到了一个预报因子和标签之间的非线性关系，又经过深度神经网络神经元的反馈学习不断调整权重，训练出一个能分辨预报因子整体特征的能见度模型；再配合插值方法得到高空间分辨率的能见度精细化预报，有效解决了现有技术中能见度预报准确度差，空间分辨率不高以及自动化程度低的问题，从而为发生在海上、内陆、港口上的局地低能见度灾害提供可靠预警，有望成为气象台站预报能见度的得力工具。

Description

高空间分辨率的精细化大气水平能见度自动预报方法及系统

技术领域

本发明属于气象技术领域，具体涉及一种高空间分辨率的精细化大气水平能见度自动预报方法及系统。

背景技术

能见度是气象观测的常规项目,它反映了大气浑浊的程度。大气低能见度通常是重要危险天气，严重影响着航空、航海和道路交通等。据统计，80％以上的航空事故和海上碰撞事件是由低能见度引起的。低能见度的产生，是物理、化学、辐射过程在不同空间和时间尺度上活动的结果。研究认为气溶胶浓度改变、湍流混合、辐射等复杂过程及其在短时间、小尺度上的变化等因素的复杂非线性变化，是造成能见度预报困难的原因。

目前，能见度预报的主要方法有利用天气图分析天气形势及未来变化的天气图诊断分析，以及基于数学假设的变量之间关系的程式化表达的统计模型，和使用数值计算方法与大气运动规律来获得大气状态随时间变化的数学模型的数值模式三者。其中天气图诊断分析方法必须依赖人工，且预报结果不能精确到某一特定小范围区域，因此难以实现定时定量的精细化预报；统计模型方法由于需要基于一系列假设前提，且没有物理约束，无法模拟大气运动过程，因此仅适用于未来几小时的短临预报。另外大气数值模式方法，虽然可以模拟大气动力过程而成为大气能见度预报的重要手段之一，但是在大气数值模式中大气能见度不是直接预报因子，而是必须先得到液态水含量以及雾滴数浓度和粒径等直接预报因子，再经过相关的经验公式进行计算得到能见度。而且大气数值模式对上述液态水含量等水凝性物质模拟欠佳，并且现有常用相关经验公式，如SW、AFWA都仅考虑了湿度信息，而没有考虑风、边界层状态等大气状态的重要因素。即由于仅仅涉及到相当有限的气象要素，而难以表征真实大气状态。因此，基于上述方法的大气能见度的预报准确度和精细度欠佳，且难以实现高空间分辨率的精细化预报，而难以为低能见度引起的局地灾害提供有效预警。如“基于站点实测数据和模式结果的水平能见度预报方法”(申请号：201711449964.4)发明中，仅使用了相对湿度、温度、水汽通量3个地面气象要素及其变化量，而没有考虑风、边界层状态、高空信息等因素。

又，“基于多重神经网络逐步逼近法的低能见度预报方法”(申请号：201810503193.0)发明中，虽然考虑了大气稳定度等较多气象要素，并将不同能见度级别的样本分类分别用隐藏层为一层的浅层神经网络建立预报模型，试图将这多个预报模型组合成为一个“多重”的神经网络模型。但是该“多重”神经网络模型本质上仍然为多个浅层神经网络堆叠，虽然形式上具有多个隐藏层，但隐藏层互相割裂，它的原理和结构都有别于直接包含多个隐藏层且隐藏层充分连接的深度神经网络，因此实际上仍然无法具备处理复杂非线性问题的能力而无法精细预报。

研究已表明，深度神经网络作为深度学习算法的一种具有强的抽象和模拟能力，能够从复杂数据中提取特征和学习规律，虽然已广泛用于多个领域处理大规模数据和解决复杂非线性问题，但至今未在数据量极大的气象领域上被尝试。

使用大气数值模式模拟区域天气是气象台站的常规业务，我国从2016年起全面启用自动气象站观测能见度，每天都产生大量描述不同时刻大气状态的数据。因此如何分析、利用和处理这些海量的数据，并怎样从中提取有效信息来实现快速、准确以及精细化的大气能见度预报，已成为亟待解决的重点问题。

发明内容

本发明的目的是提供一种高空间分辨率的精细化大气水平能见度自动预报方法及系统，以克服已有技术中能见度预报准确度差(只能得到能见度级别而非具体能见度值)，空间分辨率不高(等同于模式空间分辨率，大于9km)以及自动化程度低(预报过程中需要人工干预)的问题。

本发明充分利用了深度神经网络具有的强抽象和模拟能力，即能够从复杂数据中提取特征和学习规律，用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征，无需人工监督，高效而迅速。并充分利用了我国从2016年起全面启用自动气象站观测能见度数据，和模式运转产生的大量不同时刻大气状态的数据，以实现高分辨率的精细化大气能见度自动预报。

因此，本发明的大气水平能见度自动预报方法包括以下步骤：

首先利用已有的大气数值模式数据和自动气象站观测数据，并且以空间水平距离(简称水平距)最小原则建立包含预报因子与标签的大型数据集。

然后输入上述大型数据集到已有的深度神经网络框架中，随机分配神经元权重，预报因子经过上述深度神经网络的输入层和上述深度神经网络的第一个隐藏层，得到预报因子与标签之间的多个线性关系和相应的输出结果。

再将上述深度神经网络的Relu激活函数施加在上述输出结果上，得到非线性关系和下一个输出结果，作为第二个隐藏层的输入；如此经由5-10个隐藏层后，即得到了预报因子和标签之间的非线性关系，经过上述深度神经网络神经元的反馈学习并不断调整权重，训练出一个能根据预报因子给出能见度的模型，即最终得到选定区域的能见度模型，从而实现大气能见度值和能见度等级的初级自动预报。

本发明的上述大型数据集的构建步骤如下：

首先选择需要进行预报的区域，统计区域内大气数值模式的预报格点(简称格点或格位点)和自动气象站(简称站点或站位点)的地理位置，选定其中一个格点，并计算到预报区内每个站点的水平距。

然后将水平距小于3km的站点的能见度值作为该格点的标签，与该格点上的预报因子一起组成一个样本；若存在多个水平距小于3km的站点，则选择水平距最小的一个站点为该格点的标签，与该格点上的预报因子一起组成一个样本；若不存在水平距小于3km的站点，则该格点没有作为样本的资格。

最后对区域内的每个格点进行上述操作，得到一系列样本的集合，即得大型数据集。

其中，上述各个格点上的预报因子包含有地表以上10米处的纬向风(m/s)、地表以上10米处的经向风(m/s)、地表以上2米处的温度(K)、地表以上2米处的露点温(K)、温度露点差(K)、地表以上2米处的相对湿度、925hPa大气等压面上的相对湿度、大气边界层底距离地面的空间垂直距离(m)、云底高度小于2500m的云遮蔽天空的百分比、表征大气稳定度的FSI指数、表征空气湿度的FSL指数，共有涉及到包括地面和高空信息的12个要素。

所述FSI指数和FSL指数计算公式如下：

FSI指数：FSI＝2|T_s-T_d|+2|T_s-T₈₅₀|+u₁₀；

FSL指数：FSL＝6000×(T_2m-T_d)/Rh^1.75；

其中，T_s为地表温度、T_d为地表以上2米露点温度(K)、T₈₅₀为850hPa等压面上的温度(K)、u₁₀为地表以上10米处的纬向风(m/s)、T_2m地表以上2米处的温度(K)、Rh为地表以上2米处的相对湿度。

其中，将上述大型数据集输入到已有的深度神经网络框架的准备步骤如下：

首先将该大型数据集进行归一化。

当建立能见度值模型时，预报因子和标签均采用min-max归一化方法：

x^*＝(x-X_min)/(X_max-X_min)

其中，x是数据集中某个样本中预报因子的值，X_min和X_max分别是数据集中所有样本中该预报因子的最小值和最大值，x^*是归一化值；

当建立能见度等级模型时，预报因子采用min-max归一化方法，标签采用one-hot编码，编码方式如下：

1＝[1,0,0,…,0,0]

2＝[0,1,0,…,0,0]

3＝[0,0,1,…,0,0]

…

n-1＝[0,0,0,…,1,0]

n＝[0,0,0,…,0,1]

其中n为等级总数；

然后，随机选取上述数据集中的80％作为训练集，20％作为测试集。

最后，设置深度神经网络输入层神经元数量等于或大于预报因子中包含的要素个数。

所述神经元的反馈学习是通过前向传播得到一个输出值，计算输出值与标签的误差，通过反向传播更新权重，以使该误差变小，多次更新后得到预报因子和能见度之间的非线性关系。

所述深度神经网络学习的具体步骤包含得到预报因子与标签之间关系的前向传播、评估模型效果的损失计算和更新神经网络权重的反向传播，具体如下：

前向传播：预报因子通过多层隐藏层得到其与标签之间的非线性关系和一个输出值；输出值计算公式为：O＝f(WI+B),其中O为输出值，W为权重，I为输入值(即为归一化的预报因子)，B为偏置，f为激活函数。

损失计算：计算输出值与标签之间的误差以评估能见度值模型和能见度等级模型的效果，并与反向传播配合以使误差不断减小。

当建立能见度值模型时，损失计算公式为：L＝∑(O-T)²；

当建立能见度等级模型时，损失计算公式为：

其中O为输出值，T为标签，m为类别总数，p_c为类别c的概率。

反向传播：根据损失反向更新权重，使得权重更新后的损失比原损失小。

进一步为了得到空间分辨率更高的能见度结果，对上述的能见度值和等级的初步结果进行反距离权重插值计算，可得到空间分辨率米级的能见度结果。

所述反距离权重插值计算公式如下：

其中，w_i为待插值点的权重，d_i为待插值点到插值点的距离，p为幂参数，n为搜索半径内待插值点总数，(x,y)为插值点坐标，(x_i,y_i)为待插值点坐标，z^*(x,y)为插值点插值结果，z(x_i,y_i)为待插点的值。

本发明的水平能见度预报系统包括以下四个顺序执行的模块：

为将当前大气数值模式结果输入水平能见度模型做准备的数据读取模块；

将当前大气数值模式结果代入水平能见度模型得到能见度值的水平能见度值预报模块。

将当前大气数值模式结果代入水平能见度模型以得到能见度等级的水平能见度等级预报模块。

将同一目标时刻的多个当前大气数值模式结果代入水平能见度模型，先得到多个能见度等级，统计各能见度等级占比，得到能见度等级概率的水平能见度等级概率预报模块。

所述能见度等级概率计算公式如下：

其中，p_i为某一等级的概率，m为等级总数，l_i为某一等级在所有模式中出现的数量，n为模式总数。

本发明全面分析和处理大气数值模式结果和自动气象观测站数据，即全面选取表征大气状态的预报因子，建立大型数据集并基于该大型数据集运用深度神经网络方法建立能见度模型，并充分利用了深度神经网络具有的强抽象和模拟能力，能够从复杂数据中提取特征和学习规律的特点，既可以得到能见度等级，也可以得到能见度的具体数值；又配合插值方法实现了预报达小时、米级别的快速、自动化的高空间分辨率的精细化大气水平能见度，从而为发生在海上、内陆、港口上的局地低能见度灾害提供可靠预警，有望成为气象台站预报能见度的得力工具。

附图说明

图1、本发明的水平能见度预报方法流程示意图。

图2、本发明的大型数据集建立流程图。

图3、本发明的深度神经网络内部结构示意图。

图4、本发明的深度神经网络的Relu激活函数示意图。

图5、本发明的水平能见度预报系统的计算机指令流程图。

具体实施方式

为了使本发明的技术特点更加明显和便于实施,下面再结合附图和实施例对本发明的技术方案做进一步说明。

如图1所示，本发明的水平能见度预报方法的步骤如下：

首先利用已有的大气数值模式数据和自动气象站观测数据，并且以水平距最小原则建立包含预报因子与标签的大型数据集。大气数值模式数据通常指WRF模式数据，但若选定的目标区域未在运行WRF模式，也可使用其它模式数据，以预报时效长、时间及空间分辨率高的模式为佳。自动气象站观测数据通常在各个气象台站均有提供。

再将上述深度神经网络的Relu激活函数施加在上述输出结果上，得到非线性关系和下一个输出结果，作为第二个隐藏层的输入；其中Relu激活函数为已有的常用激活函数，数学表达式为f＝max(x,0)，其导数边界宽阔且无单侧抑制，可避免下述训练过程中的梯度消失问题。Relu激活函数的数学表达及示意图如图4所示。

如此经由5-10个隐藏层后，即得到了预报因子和标签之间的非线性关系，经过上述深度神经网络神经元的反馈学习不断调整权重，训练出一个能根据预报因子给出能见度的模型，即最终得到选定区域的能见度模型，从而实现大气能见度值和能见度等级的初级自动预报。其中隐藏层的个数可通过训练的具体表现选取：在训练的过程中只要统计训练误差和测试误差，当训练误差略小于测试误差则认为隐藏层的数量是合适的；当训练误差大于测试误差时，应将隐藏层数量调大；当训练误差明显小于测试误差时，应将隐藏层数量调小。此种法则也适用于神经元数量的选定。

如图2所示，上述大型数据集的构建步骤如下：

首先选择需要进行预报的区域，统计预报区内大气数值模式的格点和站点，选定一个格点，计算到该区域内每个站点的水平距。

然后将水平距小于3km的站点的能见度值作为该格点的标签，与该格点上的预报因子一起组成一个样本；若存在多个水平距小于3km的站点，则选择水平距最小的一个站点为该格点的标签，与该格点的上的预报因子一起组成一个样本；若不存在水平距小于3km的站点，则该格点没有作为样本的资格。

最后对区域内的每个格点进行上述操作，得到一系列样本的集合，即得了大型数据集。

其中，所述FSI指数和FSL指数计算公式如下：

FSI指数：FSI＝2|T_s-T_d|+2|T_s-T₈₅₀|+u₁₀；

FSL指数:FSL＝6000×(T_2m-T_d)/Rh^1.75；

其中T_s为地表温度、T_d为地表以上2米露点温度(K)、T₈₅₀为850hPa等压面上的温度(K)、u₁₀为地表以上10米处的纬向风(m/s)、T_2m地表以上2米处的温度(K)、Rh为地表以上2米处的相对湿度。

将上述大型数据集输入到已有的深度神经网络框架的准备步骤如下：

首先将该大型数据集进行归一化：

x^*＝(x-X_min)/(X_max-X_min)

其中，x是数据集中某个样本中预报因子的值，X_min是数据集中所有样本中该预报因子的最小值，X_max该是数据集中所有样本中该预报因子的最大值，x^*是归一化的值；

1＝[1,0,0,…,0,0]

2＝[0,1,0,…,0,0]

3＝[0,0,1,…,0,0]

…

n-1＝[0,0,0,…,1,0]

n＝[0,0,0,…,0,1]

其中n为等级总数。

然后随机选取上述数据集中的80％作为训练集，20％作为测试集。

最后设置深度神经网络输入层神经元数量等于或大于预报因子中包含的要素个数，深度神经网络即可在训练过程中正确使用该大型数据集。

如图3，本发明所述的深度神经网络的结构和深度神经网络学习的具体步骤，是包含得到预报因子与标签之间关系的前向传播、评估模型效果的损失计算和更新神经网络权重的反向传播，具体如下：

前向传播：预报因子通过多层隐藏层得到其与标签之间的非线性关系和一个中间输出值，该输出值计算公式为：O＝f(WI+B)

其中O为输出值，W为权重，I为输入值(即为归一化的预报因子)，B为偏置，f为激活函数。

当建立能见度值模型时，计算公式为：L＝∑(O-T)²；

当建立能见度等级模型时，计算公式为：

其中，O为输出值，T为标签，m为类别总数，p_c为类别c的概率。

通常，上述过程会被重复执行几十到上千次直到测试误差不再减小时停止训练。

本发明进一步为了得到空间分辨率更高的能见度结果，对上述的能见度值和等级的初级结果进行反距离权重插值，即得到空间分辨率米级的能见度结果。

本发明所述的大气数值模式结果和能见度结果以及输出结果等，其中的结果都是以数值表征的。

上述反距离权重插值计算公式如下：

本发明的水平能见度预报系统包括以下四个顺序执行的模块，其计算机指令流程图如图5所示。

该预报系统可以安装于现有的高性能计算终端,例如手提电脑、台式计算机、服务器。

本发明的水平能见度预报系统包括：数据读取模块、水平能见度值预报模块与水平能见度等级预报模块和水平能见度等级概率预报模块。

将当前大气数值模式结果代入水平能见度值模型得到能见度值的水平能见度值预报模块。

将当前大气数值模式结果代入水平能见度等级模型以得到能见度等级的水平能见度等级预报模块。

将同一目标时刻的多个当前大气数值模式结果代入水平能见度模型，先得到多个能见度等级，以统计各能见度等级占比，得到能见度等级概率的水平能见度等级概率预报模块。

上述每一个模块分别表示该系统的一个功能，不难由计算机程序指令实现。因此上述模块被顺序执行，即可得到能见度值、等级和概率预报。

实施例1

以福建沿海地区为实施例，具体说明该预报方法：

划定目标预报区域为福建省界内海岸线沿线100km的区域。选取2016-2017年的自动气象站观测资料和WRF模式历史模拟结果。模式水平空间分辨率为0.09°×0.09°，与模式格点水平距3km以内的自动气象观测站有19个。将这些WRF模式格点的2016年以来自起报时间72小时内的逐小时地表以上10米处的纬向风(m/s)、地表以上10米处的经向风(m/s)、地表以上2米处的温度(K)、地表以上2米处的露点温(K)、温度露点差(K)、地表以上2米处的相对湿度、925hPa大气等压面上的相对湿度、大气边界层底距离地面的空间垂直距离(m)、云底高度小于2500m的云遮蔽天空的百分比、表征大气稳定度的FSI指数、表征空气湿度的FSL指数和对应站点同一时刻的能见度实测值处理为数据集。去除站点能见度缺测的样本后，该数据集中共有445917个样本。

FSI指数:FSI＝2|T_s-T_d|+2|T_s-T₈₅₀|+u₁₀。

FSL指数:FSL＝6000×(T_2m-T_d)/Rh^1.75。

T_s为地表温度，T_d为地表以上2米露点温度(K)，T₈₅₀为850hPa大气等压面上的温度(K)，u₁₀为地表以上10米处的纬向风(m/s)，T_2m地表以上2米处的温度(K)，Rh为地表以上2米处的相对湿度。

对预报因子进行min-max归一化，标签进行min-max归一化和one-hot编码后，随机划分其中80％的样本作为训练集，20％的样本作为测试集。

当建立水平能见度值模型时，输出为能见度值。当建立水平能见度等级模型时，输出为能见度的等级。本实施例中对1000米以下能见度进行精细化分级，因此当建立水平能见度等级模型时，使用训练集中能见度小于1000米的样本进行训练，并将能见度等级划分为0-4类(第0类代表能见度小于50米，第1类代表能见度50-100米，第2类能见度100-200米，第3类能见度200-500米，第4类能见度500-1000米)，对应的one-hot编码分别为：[1,0,0,0,0]，[0,1,0,0,0]，[0,0,1,0,0]，[0,0,0,1,0]，[0,0,0,0,1]。

输入上述大型数据集到深度神经网络框架中，利用伪随机数生成器随机初始化神经元权重，预报因子经过输入层和第一个隐藏层后得到了多个与标签之间的线性关系和输出结果；使用Relu作为激活函数，施加在上述输出结果上，得到了非线性关系和下一个输出结果，作为第二个隐藏层的输入；在经过多个隐藏层后，得到了一个预报因子和标签之间的非线性关系，经过深度神经网络神经元的反馈学习不断调整权重，训练出一个能分辨预报因子整体特征的模型，最终得到一个能见度模型；

在上述建模过程中，可以根据模型的损失和验证损失的大小和关系反复调整模型的超参数，如隐藏层数，神经元数目，学习率等。当建立水平能见度值模型时，本模型隐藏层数为5层，每层500个神经元，激活函数为Relu,,初始学习率0.01并根据训练情况自行衰减；当建立水平能见度等级模型时，本模型隐藏层数为8层，每层60个神经元，初始学习率0.01并根据训练情况自行衰减。

建立水平能见度值和等级模型后，将其应用到WRF模式和福建省区域集合预报模式FJENS的结果上。上述两个模式均做72小时内逐小时预报,起报时间为北京时08时和20时(世界时00时和12时)。其中FJENS在每一时刻都存在45个不同的预报结果。由于考虑到模式运转和数据分发，每日03时和15时(北京时，下同)可分别获得起报时间为前日20时和当日08时的所有模式结果。

每日03和15时，采用能见度值预报模块，将水平能见度值模型应用在WRF模式起报时间为前日20时和当日08时的结果上，得到未来58个小时的能见度值。

每日04和16时，应用能见度等级预报模块将水平能见度等级模型应用在能见度值预报模块预报结果中能见度小于1000米的模式结果上，得到未来54个小时的能见度等级。

每日03和15时，应用能见度等级预报模块将水平能见度值模型应用在起报时间为前日20时和当日08时的FJENS模式中每个模式的结果上，得到未来58个小时每个模式的能见度值。

每日04和16时，应用能见度等级概率预报模块将水平能见度等级模型应用在能见度小于1000米的每个模式的结果上，得到未来54个小时的每个模式预报的能见度等级。统计每个模式预报的能见度等级，得到每个能见度等级所对应的概率。

对上述预报结果进行反距离权重插值，本实施例中插值后水平空间分辨率为100m×100m，插值时幂参数设为2，搜索半径设为0.1°。当对能见度等级进行插值时，对不是整数的插值结果四舍五入得到整数结果。插值后的结果输出为气象常用的MICAPS 4类格式以供使用。

综上所述，显然说明本发明的方法和系统具体实用，空间分辨率高，从而实现为发生在海上、内陆、港口上的低能见度灾害提供精细可靠的预警，因此有望成为气象台站日常预报能见度的得力工具。

Claims

1.一种高空间分辨率的精细化大气水平能见度自动预报方法，其特征在于包括以下步骤：

首先利用已有的大气数值模式数据和自动气象站观测数据，并且以水平距最小原则建立包含预报因子与标签的大型数据集；

然后输入上述大型数据集到已有的深度神经网络框架中，随机分配神经元权重，预报因子经过上述深度神经网络的输入层和上述深度神经网络的第一个隐藏层，得到预报因子与标签之间的多个线性关系和相应的输出结果；

再将上述深度神经网络的Relu激活函数施加在上述输出结果上，得到非线性关系和下一个输出结果，作为第二个隐藏层的输入；

如此经由5-10个隐藏层后，即得到了预报因子和标签之间的非线性关系，且经过上述深度神经网络神经元的反馈学习不断调整权重，训练出一个能根据预报因子给出能见度的模型，即最终得到选定区域的能见度模型，从而实现大气能见度值和能见度等级的初级自动预报；

对上述的大气能见度值和能见度等级的初级自动预报结果进行反距离权重插值计算，得到空间分辨率米级的能见度结果；

所述的反距离权重插值计算公式为

其中，w_i为待插值点的权重，d_i为待插值点到插值点的距离，p为幂参数，n为搜索半径内待插值点总数，(x,y)为插值点坐标，(x_i,y_i)为待插值点坐标，z^*(x,y)为插值点插值结果，z(x_i,y_i)为待插点的值；

所述大型数据集建立具体步骤如下：

首先选择需要进行预报的区域，统计区域内格点和站点的地理位置，选定其中一个格点，并计算到预报区内每个站点的水平距；

然后将水平距小于3km的站点的能见度值作为该格点的标签，与该格点上的预报因子一起组成一个样本；若存在多个水平距小于3km的站点，则选择水平距最小的一个站点为该格点的标签，与该格点上的预报因子一起组成一个样本；若不存在水平距小于3km的站点，则该格点没有作为样本的资格；

最后对区域内每个格点进行上述操作，得到一系列样本的集合，即得大型数据集；

将大型数据集输入到深度神经网络框架的准备步骤如下：

首先将该大型数据集进行归一化；

x^*＝(x-X_min)/(X_max-X_min)

1＝[1,0,0,…,0,0]

2＝[0,1,0,…,0,0]

3＝[0,0,1,…,0,0]

…

n-1＝[0,0,0,…,1,0]

n＝[0,0,0,…,0,1]

其中n为等级总数；

然后随机选取上述数据集中的80％作为训练集，20％作为测试集；

最后设置深度神经网络输入层神经元数量等于或大于预报因子中包含的要素个数。

2.如权利要求1所述的大气水平能见度自动预报方法，其特征在深度神经网络学习的具体步骤包含得到预报因子与标签之间关系的前向传播、评估模型效果的损失计算和更新神经网络权重的反向传播：

前向传播：预报因子通过多层隐藏层得到其与标签之间的非线性关系和一个输出值；输出值计算公式为：O＝f(WI+B),其中O为输出值，W为权重，I为输入值(此处为预报因子)，B为偏置，f为激活函数；

损失计算：计算输出值与标签之间的误差以评估能见度值模型和能见度等级模型的效果，并与反向传播配合以使误差不断减小；

当建立能见度值模型时，计算公式为：L＝∑(O-T)²；

当建立能见度等级模型时，计算公式为：

其中O为输出值，T为标签，m为类别总数，p_c为类别c的概率；

3.如权利要求1所述的大型数据集建立方法，其特征在于所述预报因子是：

地表以上10米处的纬向风(m/s)、地表以上10米处的经向风(m/s)、地表以上2米处的温度(K)、地表以上2米处的露点温度(K)、温度露点差(K)、地表以上2米处的相对湿度、925hPa大气等压面上的相对湿度、大气边界层底距离地面的空间垂直距离(m)、云底高度小于2500m的云遮蔽天空的百分比、表征大气稳定度的FSI指数、表征空气湿度的FSL指数，共有涉及到包括地面和高空信息的12个要素；

FSI指数和FSL指数计算公式如下：

FSI指数：FSI＝2|T_s-T_d|+2|T_s-T₈₅₀|+u₁₀；

FSL指数:FSL＝6000×(T_2m-T_d)/Rh^1.75；