CN112905561B - 一种基于深度双模态的气象参数精细尺度转化方法 - Google Patents
一种基于深度双模态的气象参数精细尺度转化方法 Download PDFInfo
- Publication number
- CN112905561B CN112905561B CN202110148282.XA CN202110148282A CN112905561B CN 112905561 B CN112905561 B CN 112905561B CN 202110148282 A CN202110148282 A CN 202110148282A CN 112905561 B CN112905561 B CN 112905561B
- Authority
- CN
- China
- Prior art keywords
- scale
- fine
- data
- coarse
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度双模态的气象参数精细尺度转化方法,S1、确定研究的目标变量;S2、按照空间变异、驱动力、影响要素三方面选择相关的协变量;S3、采集粗分辨率同化数据、精细尺度下的栅格与/或调查或测量数据以及协变量数据;S4、根据粗分辨率及细分辨率大小,建立深度网络结构;S5、确定损失函数及限制性条件,并对数据进行整理配对;S6、尺度转换模型训练;S7、对粗尺度背景与/或域知识进行限制性优化;S8、将训练完成的模型及其参数、测试精度保存;S9、模型的尺度化转换应用。本发明提出将粗分辨率的背景同精细尺度的栅格或测量数据结合的方法,通过双模态深度学习建模,提高了气象栅格同化数据尺度细化效果。
Description
技术领域
本发明涉及一种精细化方法,尤其涉及一种基于深度双模态的气象参数精细尺度转化方法。
背景技术
现有的气象参数主要来源于地面观测资料数据或气象同化数据。前者来自地面的实测资料,但是站点数据极为有限,如对中国大陆的气象风速的观测站点目前也只有大约693个监测站点;而后者虽然融合了气象观测站点、模型预测及多源遥感数据等进行资料汇总,可信度较高,但分辨率较粗,难以直接应用到精细尺度的估算、监测及预报方面。
当不同栅格数据具有不同空间分辨率数据时,需要对不同分辨率的数据进行尺度统一的转换处理,对精细尺度转化成粗尺度,采用平均化的简单方法即可进行处理;而对粗尺度转变成精细尺度的栅格,则需要尺度转换。简单的精细尺度转化方法即双线性抽样方法(bilinear sampling),但是简单的双线性插值法只是对原有图像作了空间上光滑处理,并不能提供更多的信息,对于一些关键变量而言,直接采用双线性插值可能不能提供足够的信息,也不能反应真实的精细尺度下的情况。
对粗尺度的图像作精细化尺度的转换,对于分类而言如图像处理中的超分辨率图像生成,如图像的分辨率增强专利技术(达姆卡特2013),通过插值方法增强图像;而陈世峰等(2015)的专利则采用了复数冲击滤波及双边滤波进行超分辨率重建;曹雪等(2016)采用了双立方放大的加预训练好的卷积神经网络进行超分辨率图像重建;其他类似的专利(李根等2017,缪泓等2015,邱明等2018,邵振峰等2019,杨庆雄等2018)也都采用了深度学习技术或小波技术进行图像的超分辨率的重建。这些技术主要用于普通的图像重建,先对原始高分辨率图像粗分辨率数据,然后采用深度学习等技术建立粗分辨率同精细分辨率的之间的关系。虽然这些技术取得了很好的图像超分辨率转换的效果,但是他们主要是应用在普通图像的视觉处理方面,且具有充足的高分辨率的训练样本数据进行监督训练,所以取得较好的结果。但是对于气象参数的精细尺度转化方法,其图像的尺度变化的机制同普通光学图片不一样,参数的空间变异受到大气层、大气的物理化学等气象机理的限制,所以不能直接采用图像超分辨率转换的方法。此外,气象参数难以获得地面密集的学习样本,难以采用类似卷积网络的密集学习样本的训练方法,有的参数甚至没有训练样本,只能融入先验知识进行非监督或半监督的尺度化模型的学习。
现有的针对地学及气象参数的栅格的精细尺度转化工作,主要是采用数据样本进行统计建模训练的方法。Atkinson(2013)对此方法进行了系统总结,具体指出了回归或插值的精细尺度转化方法。早期的方法采用了混合建模方法(Verhoeye and De Wulf2002)、基因算法(Mertens et al.2003)、神经网络结合小波(Mertens et al.2004)等方法;胡云锋等(2013)专利采用统计比值的方法进行升尺度,是一种简单的统计方法。之后Tatem etal.(2002)采用了Hopfield神经网络,而Mariethoz et al.(2010)采用了Geostatistics的方法。这些方法主要特点均是在有充足精细尺度的训练样本进行的尺度转换。
最近Malone et al.(2012)则设计了迭代式基于非线性概化累加模型(Generalized additive model,简称GAM)的方法进行精细尺度转化,虽然其考虑了粗分辨率的影响,但算法分开执行,采用的GAM泛化能力有限,多次迭代后算法难以地收敛得到好的效果。而Li et al.(2020)对此进行了改进,采用了残差深度网络取代了GAM,虽然取得精度方面的提升,但是粗分辨率的限制性条件与参数优化完全分开,处理也不一致,难以获得理想的精细尺度转化效果。
气象参数的数据同化指将卫星观测、地面实测同基于机理气象的预报模型结合而得到的同化数据,同化数据由于采用了多源数据进行比对及融合,一般得到的结果比较可靠,其模拟值可以看着较为客观地反映的真实情况(Gérald2019)。但是同化数据的主要缺陷是地面分辨率太粗,不能反映精细尺度下的气象参数的分布情况。虽然说我们有一些地面气象参数的监测点,但是由于样本点有限及传统建模技术的泛化功能较弱,不能很好地衍生地表真实的分布情况。
现有的粗分辨率的栅格数据精细尺度转化方法主要包括采用了回归及插值的方法:1)前者直接将精细尺度的协变量提取样本点建模回归,较少考虑实测样本点的分布,或者粗尺度产品或其他领域知识的限制性条件,可能会导致估计结果出现偏差,虽然有的方法也考虑了粗尺度数据的背景分布,但建模方法泛化能力有限;2)插值方法则是根据监测样本点,采用克里格等空间回归的方法进行插值,一般插值提取的空间变异需要的二阶平稳的条件实际情况较难满足,插值空间过于光滑,难以反映实际的情况,对背景数据分布的限制也缺乏考虑。
综上可知,现有技术的主要缺点包括超分辨率技术不适用性,精细尺度的实测样本缺乏导致监督卷积网络方法的不适用性,结果缺乏背景参数或域知识的限制导致尺度化结果的偏差等。
发明内容
为了解决上述技术所存在的不足之处,针对当前气象参数精细尺度转化方法的主要缺陷,本发明提供了一种基于深度双模态的气象参数精细尺度转化方法,该方法充分考虑了数据分布的双模态,既考虑了精细化尺度数据或测量数据分布,也考虑了背景数据的分布,同现有方法相比,提高尺度化转换效率,减少尺度化结果的偏差,得出更客观的尺度化结果。
为了解决以上技术问题,本发明采用的技术方案是:一种基于深度双模态的气象参数精细尺度转化方法,包括以下步骤:
S1、确定研究的目标变量,根据目标变量确定需要的相关数据;
S2、按照空间变异、驱动力、影响要素三方面选择相关的协变量;
S3、根据前述步骤的研究结果,采集粗分辨率同化数据、精细尺度下的栅格与/或调查或测量数据以及协变量数据;
S4、根据粗分辨率及细分辨率的大小,建立相应的深度网络结构;
其中,建立深度网络结构采用灵活的输出结构,其中精细尺度的输出针对精细尺度的栅格样本或调查或测量数据的样本,对应栅格输出的具体象元;一个粗尺度单元包括的所有精细尺度象元的均值输出针对原粗尺度对应的精细尺度下的所有栅格的均值,要求与背景粗尺度数据相符,这样双模态的输出确保训练的过程同时使得输出尽量兼顾粗细尺度的数据分布,得到更为合理的结果;
S5、确定损失函数及限制性条件,并相应地对数据进行整理配对;
S6、尺度转换模型训练;
S7、对粗尺度背景与/或域知识进行限制性优化;
S8、将训练完成的模型及其参数、测试精度保存,以便于以后进行调用;
S9、模型的尺度化转换应用。
进一步地,步骤S1中,相关数据包括:粗细分辨率数据、精细尺度下相应的协变量数据及域知识;
依据调查测量数据及精细尺度数据的可靠性,分以下四种情况考虑:
a)仅有精细尺度的数据;
b)仅有调查测量数据;
c)既有调查数据又有精细尺度数据;
d)既没有精细尺度数据,也没有调查数据;
根据上述四种情况,改变损失函数以适应不同的数据可靠性情景。
进一步地,步骤S2中,空间变异包括采用反映空间位置变化的坐标变量及其派生变量,既采用x、y、x2、y2及xy,也采用高程作为空间变异的变量之一;驱动力,选择从机理方面存在因果关系或直接关系的变量;影响因子则是指会对变量产生较大影响的其他影响要素。
进一步地,步骤S3中,需要对采集的数据进行预处理,移除数据之中的异常值;对协变量因子,需要转换为统一坐标体系下的精细尺度数据。
进一步地,步骤S4中,深度网络结构为基于编码-解码的U-Net结构的全残差连接的卷积神经网络结构,其在每层之后加入激活函数及批正则化提高学习效率,建立深度网络结构还包括以下步骤:
a)在输入及输出处分别增加尺度调整层,以便于将输入维度转化为标准的卷积神经网络处理的输入单元,或者将卷积神经网络的输出转换为精细尺度的输出大小,保证输入到输出的准确映射,由此确定一个粗分辨率对应的精细分辨率的像素个数;
b)采用长短残差连接提高网络信息的连接以提高训练效率,在CNN的每个层级单元,都派生出三个同样的层便于加深网络层数,便于在层级单元内部实现残差短连接,而从编码层到解码层,采用残差长连接,便于误差信息反向传播,使误差信息从深层直接跳转到浅层,可实现训练效率的提高。
进一步地,步骤S5中,根据步骤S4的双模态输出,建立损失函数:
其中,N为训练样本数,为精细尺度下的预测值,y为相应的观测值或精细尺度下像素值,θw,b代表了权重W及偏差b的参数集合,f代表精细尺度,代表与一个粗尺度单元对应的精细尺度下所有栅格单元的均值,c代表粗尺度,μc代表了针对一个粗尺度单元取精细尺度数据的均值,lf为精细尺度下的均方误差MSE损失函数,而lc为粗尺度下均方误差MSE损失函数,α与β为精细尺度及粗尺度下的权重系数,缺省可分别取0.5及0.5,取Ω(θW,b)为参数集θw,b的正则化项目,可采用弹性网的正则化;
根据损失函数的定义,在具备调查或测量数据情况下,α=β=0.5,需要将数据整理成配对的输入输出,输入即每个粗栅格单元对应的细分辨率输入矩阵,形状为w·h·c,其中w代表宽度,h代表高度,c为特征变量个数;
根据数据情况输出分以下两种情况:a)有精细尺度的栅格与/或调查测量数据,输出包括精细尺度的栅格与/或调查测量数据的输出;b)既没有精细尺度数据,也没有调查数据,此时只需要设置α=0,β=1即可;同损失函数对应的输出也需要设置成配对样本(y,y′c),配对样本最终将用于对模型的训练。
进一步地,步骤S6中,采用配对的样本,将其划分成三份,比例为6:2:2,其中60%样本用于模型训练,20%样本用于模型的验证,20%样本用于模型的测试,并设置初始的超参数,包括学习率、小批量训练样本大小、网络的深度及每层的节点数、α与β值,进行的网络训练,训练完成得到尺度转换模型。
进一步地,所述步骤S7中,对完成训练的模型输入精细尺度数据进行预测,预测得到的结果进行统计检验,求预测结果的取值范围,如果发现异常或不符合要求的输出,则对粗尺度背景与/或域知识一起进行限制性优化:
期望的输出设定为:
而训练模型的输出设定为:
满足条件:
AU(P)≥L (7)
BU(P)=C (8)
其中,D代表了K-L散度函数,Y代表了输出取值,代表了Y在期望的均值与方差分别为与为下正态分布的概率分布,代表了Y在网络模型估计的均值与方差分别为与下正态分布的概率分布,代表期望输出即限制性优化求取的P的均值,A与B分别代表两种限制性优化中U(P)的系数,可根据限制性条件设定,L代表根据域知识得到的对细分辨率数据的限制,而C代表细分辨率像素在粗像素点内的均值等于粗分辨率像素值限制条件;
公式(6)、(7)及(8)可采用拉格朗日偶函数优化展开式:
其中,l(U,λ,v)代表了拉格朗日对偶函数,需要估计的参数是新的均值λ及v,其中,λ、v均为拉格朗日乘子;U即U(P),T代表矩阵的转置,i为训练样本索引,bi代表公式(8)中的系数矩阵B的第i个元素,ai代表公式(7)中的系数矩阵A的第i个元素,为代表第i个样本的期望输出的均值,为第i个样本的网络模型的均值估计,及分别代表了期望输出及估计输出的变差估计;
对公式(9)采用投影梯度下降法可求得在满足限制性条件:阈值及粗分辨率限制下的最优解,使得新的分布函数即尽可能满足网络结果前提下,得到的满足测量数据及粗分辨率的限制条件,得到更为合理的解;
如果得到的结果仍然有较大的偏差,可采用新得到的估计值重新训练网络,既循环步骤S4-S9,直至达到需要的精度或训练步骤。
将训练完成的模型及测试精度保存,以便于以后进行调用。
进一步地,步骤S9中,将训练完成的模型结合步骤S7,用于类似数据的粗尺度数据的精细尺度转换的应用,得到需要的结果。
本发明在总结前期方法的基础上,提出了将粗分辨率的背景同精细尺度的栅格或调查数据结合的方法,通过双模态深度学习建模,再通过融入先验知识进行限制性优化融入相应的先验知识、背景信息等,充分提高了气象栅格同化数据尺度细化的效果。本设计采用了深度双模态的建模技术,充分融合测量及背景数据,通过双模态深度学习及限制性优化方法,获得更为客观的建模结果。
同现有方法相比,本发明主要解决以下三个问题:
1)在预测因子的选择上,将域知识同实际数据结合,从空间变异、驱动力、影响要素三方面选择相关的要素,同已有的基于经验的精细尺度转化方法的变量选择相比,本发明的变量筛选方法考虑得更为全面。
2)建立了粗细尺度结合的输入输出的建模结构,使得本发明的精细尺度转化方法既考虑了地面监测数据的分布,也与粗尺度的背景数据的分布的保持一致。同直接从精细尺度输入进行回归建模以及递归式分阶段调整的方法相比,本发明采用了双模态优化的两阶段学习训练方法,同时保证了同监测数据、域知识及粗尺度背景的一致性,使得本专利获得更好的建模效果。
3)基于粗细尺度输入输出结合的建模,本发明设计了双模态的全残差深度网络精细尺度转化模型,引入了全残差的“编码-解码”建模体系,可大幅提高学习的效率及泛化性。由于深层模型的采用,本发明较传统的回归建模方法具有更大的参数空间,模型优化能力更强,精细尺度转化模型训练的精度也很高。
4)本发明的精细尺度转化模型采用了限制性优化方法,可以对输出结果根据域知识或经验知识进行限制,使得输出更符合要求,这也使得即使没有实测数据时可以根据经验知识进行控制,以获得更符合实际的结果。当前的气象参数的精细尺度转化方法尚未采用类似的基于知识的限制性优化方法。
附图说明
图1为本发明的整体工作流程图。
图2为本发明全残差编码-解码深度网络结构示意图。
图3为本发明实施例一覆盖中国大陆地区的粗分辨率风速同化数据及风速监测站点图。
图4为本发明实施例一双模态输出示意框图。
图5为本发明实施例一的粗分辨率同化风速栅格(a)与尺度精细化后风速的栅格(b)对比图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示的一种基于深度双模态的气象参数精细尺度转化方法,包括以下步骤:
S1、确定研究的目标变量,根据目标变量确定需要的相关数据:尤其是粗细分辨率数据,调查精细尺度下相应的协变量数据提取相关变量及可靠的领域知识。该步骤需要确认一下粗分辨率数据的可靠来源,如气象同化数据,其分辨率较粗,但估计精度较高,可作为背景尺度数据。
依据调查测量数据及精细尺度数据的可靠性,分以下四种情况考虑:
a)仅有精细尺度的数据;
b)仅有调查测量数据;
c)既有调查数据又有精细尺度数据;
d)既没有精细尺度数据,也没有调查数据;
根据上述四种情况,改变损失函数以适应不同的数据可靠性情景。
可靠的领域知识(即域知识)对精细尺度转化也是可以提高估计结果的确信度,如对于精细尺度下一般的观察值的大致范围,可以作为限制性优化加到模型中,提高估计结果的可靠性。
S2、按照空间变异、驱动力、影响要素三方面选择相关的协变量;
协变量对于精细尺度转化极为重要,是尺度转换是否捕捉了空间变异的关键变量。空间变异包括采用反映空间位置变化的坐标变量及其派生变量,既采用x、y、x2、y2及xy,也采用高程作为空间变异的变量之一(高程也反映空间变异情况);驱动力,选择从机理方面存在因果关系或直接关系的变量,如风速的预测,可以选择气压作为驱动力因子;相对湿度的预测,可以选择温度的驱动力因子;NO2的预测,可以选择臭氧作为驱动力因子之一;影响因子则是指会对变量产生较大影响的其他影响要素,如风速对温度的影响,温度对PM2.5的影响。
S3、根据前述步骤的研究结果,采集粗分辨率同化数据、精细尺度下的栅格与/或调查或测量数据以及协变量数据;本步骤需要对采集的数据进行预处理,移除数据之中的异常值;对协变量因子,需要转换为统一坐标体系下的精细尺度数据。
S4、根据粗分辨率及细分辨率的大小,建立相应的深度网络结构;如图2所示,深度网络结构为基于编码-解码的U-Net结构的全残差连接的卷积神经网络结构,其在每层之后加入激活函数及批正则化(batch normalization,简写BN)提高学习效率,建立深度网络结构还包括以下步骤:
a)在输入及输出处分别增加尺度调整(Resizing)层,以便于将输入维度转化为标准的卷积神经网络处理的输入单元(一般采用2n(n为整数)的节点个数),或者将卷积神经网络的输出转换为精细尺度的输出大小,保证输入到输出的准确映射,由此确定一个粗分辨率对应的精细分辨率的像素个数;
b)采用长短残差连接(而不是U-Net采用的跳转连接)提高网络信息的连接以提高训练效率,在CNN(卷积神经网络处)的每个层级单元,都派生出三个同样的层便于加深网络层数,便于在层级单元内部实现残差短连接,而从编码层到解码层,采用残差长连接,便于误差信息反向传播,使误差信息从深层直接跳转到浅层,可实现训练效率的提高;同跳转连接比较残差连接所需参数更少,更不易于过拟合。
c)采用灵活的输出结构,其中精细尺度的输出针对精细尺度的栅格样本或调查或测量数据的样本,对应栅格输出的具体象元;一个粗尺度单元包括的所有精细尺度象元的均值输出针对原粗尺度对应的精细尺度下的所有栅格的均值,要求与背景粗尺度数据相符,这样双模态的输出确保训练的过程同时使得输出尽量兼顾粗细尺度的数据分布,得到更为合理的结果。
S5、确定损失函数及限制性条件,并相应地对数据进行整理配对;
根据步骤S4的双模态输出,建立损失函数:
其中,N为训练样本数,为精细尺度下的预测值,y为相应的观测值或精细尺度下像素值,θw,b代表了权重W及偏差b的参数集合,f代表精细尺度,代表与一个粗尺度单元对应的精细尺度下所有栅格单元的均值,c代表粗尺度,μc代表了针对一个粗尺度单元取精细尺度数据的均值,lf为精细尺度下的均方误差MSE损失函数,而lc为粗尺度下均方误差MSE损失函数,α与β为精细尺度及粗尺度下的权重系数,缺省可分别取0.5及0.5,取Ω(θW,b)为参数集θw,b的正则化项目,可采用弹性网的正则化;
根据损失函数的定义,在具备调查或测量数据情况下,α=β=0.5,需要将数据整理成配对的输入输出,输入即每个粗栅格单元对应的细分辨率输入矩阵,形状为w·h·c,其中w代表宽度,h代表高度,c为特征变量个数;
根据数据情况输出分以下两种情况:a)有精细尺度的栅格与/或调查测量数据,输出包括精细尺度的栅格与/或调查测量数据的输出;b)既没有精细尺度数据,也没有调查数据,此时只需要设置α=0,β=1即可;同损失函数对应的输出也需要设置成配对样本(y,y′c),配对样本最终将用于对模型的训练。
S6、尺度转换模型训练;采用配对的样本,将其划分成三份,比例为6:2:2,其中60%样本用于模型训练,20%样本用于模型的验证,20%样本用于模型的测试,并设置初始的超参数,包括学习率、小批量训练样本大小(mini batch size)、网络的深度及每层的节点数、α与β值,进行的网络训练,训练完成得到尺度转换模型。
S7、对粗尺度背景与/或域知识进行限制性优化;
对完成训练的模型输入精细尺度数据进行预测,预测得到的结果进行统计检验,求预测结果的取值范围,如果发现异常或不符合要求的输出,则对粗尺度背景与/或域知识一起进行限制性优化:
期望的输出设定为:
而训练模型的输出设定为:
在满足约束条件下使的分布及的分布尽量接近,即使期望输出同网络模型的估值输出在满足限制性条件情况下尽量接近,定义以下的K-L散度(Kullback-LeiblerDivergence,简写为K-L散度)函数,使其最小化求得更新的期望输出
满足条件:
AU(P)≥L (7)
BU(P)=C (8)
其中,D代表了K-L散度函数,Y代表了输出取值,代表了Y在期望的均值与方差分别为与为下正态分布的概率分布,代表了Y在网络模型估计的均值与方差分别为与为下正态分布的概率分布,代表期望输出即限制性优化求取的P的均值,A与B分别代表两种限制性优化中U(P)的系数,可根据限制性条件设定,L代表根据域知识得到的对细分辨率数据的限制,而C代表细分辨率像素在粗像素点内的均值等于粗分辨率像素值限制条件;
公式(6)、(7)及(8)可采用拉格朗日偶函数优化展开式:
其中,l(U,λ,v)代表了拉格朗日对偶函数,需要估计的参数是新的均值λ及v,其中,λ、v均为拉格朗日乘子;U即U(P),T代表矩阵的转置,i为训练样本索引,bi代表公式(8)中的系数矩阵B的第i个元素,ai代表公式(7)中的系数矩阵A的第i个元素,代表第i个样本的期望输出的均值,为第i个样本的网络模型的均值估计,及分别代表了期望输出及估计输出的变差估计;
对公式(9)采用投影梯度下降法(projected gradient decent)可求得在满足限制性条件:阈值及粗分辨率限制下的最优解,使得新的分布函数即尽可能满足网络结果前提下,得到的满足测量数据及粗分辨率的限制条件,得到更为合理的解;
如果得到的结果仍然有较大的偏差,可采用新得到的估计值重新训练网络,既循环步骤S4-S9,直至达到需要的精度或训练步骤。
将训练完成的模型及测试精度保存,以便于以后进行调用。
S8、将训练完成的模型及其参数、测试精度保存,以便于以后进行调用;
S9、模型的尺度化转换应用。将训练完成的模型结合步骤S7,用于类似数据的粗尺度数据的精细尺度转换的应用,得到需要的结果。
下面结合实施例对本发明作进一步详细的说明。
实施例一:
本实施例对气象再分析数据中的风速进行精细尺度转化转换建模,研究区域覆盖中国大陆,研究时间段为2018年天的数据。研究的目标空间分辨率为1x1km2。
步骤S1:图1展示了本发明的工作流程,第一步:确定研究目标变量为地面风速,测量单位为m/s(即米/秒),采用了全球陆面气象数据同化系统(Global Land DataAssimilation System,GLDAS)的同时期的风速资料,其空间分辨率0.25°(经度)x0.25°(纬度),研究发现地面的高分辨率的风速数据较为缺乏,由此采用了地面气象站点的风速数据作为实际测量数据,研究确定1x1km2作为目标的空间细分辨率,即尺度转化的目标分辨率。研究确定了风速的平均值为2.06m/s,最大值为23.2m/s。此处采用统计方法计算其较为宽松的阈值范围,即“外栏”(outer fence):[均值-四分位间距*5,均值+四分位间距*5],有效值应该尽量处于该区间内,获得24为该区间右端,可将24作为估计的最大值限制性条件(≤24m/s)。
步骤S2:按照空间变异、驱动力、影响要素三方面选择预测风速的相关要素,a)空间变异方面,采用坐标变量及其派生变量,既采用x、y、x2、y2及xy,高程也反映空间变异情况,也可作为空间变异的变量之一。b)驱动力,选择气压及温度作为驱动力因子。c)影响因子则是指会对变量产生较大影响的其他影响要素,研究发现GEOS-FP(http://wiki.seas.harvard.edu/geos-chem/index.php/GEOS-FP)臭氧浓度同化数据有较高的空间相关性,所以采用了其作为影响因子之一,其他影响要素包括年天、月份,从不同的时间尺度上反映了风速的变异性。
步骤S3:数据的采集及预处理,按照数据来源采集相应的数据,风速的同化数据从NASA的数据同化网站(https://ldas.gsfc.nasa.gov/gldas)获得3小时的粗分辨率数据(空间分辨率0.25°×0.25°),而用于矫正细分辨率监测数据采集自中国气象数据网络(http://data.cma.cn),全国总计693个风速监测站点,获得了2015年全年的每小时风速数据,通过24小时平均获得365天的天平均值。从NASA的数据同化网站https://gmao.gsfc.nasa.gov/GMAO_products/获得了气压、温度及臭氧数据,时间分辨也为3小时,空间分辨率为0.25°×0.25°。高程数据来自资源环境数据云平台对航天飞机雷达地形测绘任务(Shuttle Radar Topography Mission,SRTM)。其他变量包括坐标x与y,及其衍生变量(x2,y2与xy),两尺度时间变量,即年-天及月份。对数据预处理,将3小时变量经过格林威治时间到当地时间转换,并通过数据平均化成天平均数据,不同分辨率的数据可先采用双线性插值或平均化技术获得目标分辨率的数据。由此,准备完备目标变量、粗分辨率及细分辨率变量的数据。图3展示了覆盖中国大陆地区的粗分辨率风速数据(2018年12月30日),也标识了风速监测站点图。
步骤S4:根据背景的粗分辨率的数据及目标分辨率(1x1km2),此处1个粗分辨率栅格公里网为22.2x27.8km2,对应了大约23x28的细分辨率栅格单元,可以将输入栅格单元设置成23x28输入,由于缺乏细分辨率的数据,我们只与风速的气象监测站点相对应,即以监测位置为中心,覆盖一个粗栅格单元对应的细分辨率协变量的栅格单元作为输入、输出分成两部分,一部分即为中心栅格单元对应的一个细栅格单元的预测或实测值,另一部分为粗栅格单元内细栅格单元的均值,如图4所示。根据输入输出,建立相应的“编码-解码”结构的全残差卷积神经网络(参见图2)。网络的实现采用了Keras并以Tensorflow作为后台支持,定义了尺度转换(Resizing)层,以实现不同输入数据的规范化,便于卷积层处理固定的单元大小进行建模及输出设定大小的栅格单元。此处在主要卷积层采用了缺省的网络结构:[128x128x32,64x64x64,32x32x128,16x16x256,8x8x512,16x16x256,32x32x128,64x64x64,128x128x32],在每一层级通过同等映射加入了短残差连接进一步提升学习能力,而在编码层及解码层之间加入了长的残差连接进一步加强学习。网络输出的中间栅格单元为细尺度化的目标变量,而所有细尺度的均值均需要满足等于粗尺度的限制条件。
步骤S5:确定损失函数即限制性条件,根据细分辨率数据或调查数据的情况,设计损失函数,此处采用了公式(1)所示的损失函数,兼顾了粗细尺度的拟合目标,二者均等份,所以α=β=0.5。同时根据输入及双模态输出,整理数据得到对应的X-y数据对,作为模型训练的样本。
步骤S6:尺度转换模型的训练,采用缺省的超参数进行模型的训练,必要时可以对模型进行敏感性分析获得最优超参数的解。此处我们采用训练得到模型的精度为:独立性地面测试样本R2为0.78,RMSE(Root Mean Square Error,根均方误差)为0.55m/s,表明我们的模型较好地捕捉风速的变异。
步骤S7:根据步骤S6得到的结果,采用粗尺度GLDAS的风速背景值以及前面设置的小于24m/s的风速作进一步的限制性优化,定义K-L模型,最优化K-L散度及限制性条件,应用拉格朗日优化方法,采用投影梯度下降法求限制性条件下的最优解。此处我们采用了基于Tensorflow投影梯度下降法包(TensorFlow Constrained Optimization(TFCO),https://github.com/google-research/tensorflow_constrained_optimization)获得了最优解。由于一次优化即可获得较好的解,没有再从步骤S4开始循环训练。
步骤S8:将训练模型及测试精度的保存,便于以后模型的调用的方便。
步骤S9:模型的尺度化转换应用,将训练好的模型作用于粗分辨率数据及协变量的输入,再加上限制性优化步骤7即可获得新的尺度转换结果。
图5展示了粗分辨率同化风速与尺度精细化后风速的栅格对比图,即将粗尺度数据结合细尺度的协变量及风速的地面实测值,通过本发明的双模态深度学习转换及限制性优化得到的精细化尺度结果。由粗细尺度的栅格对比可见,粗尺度栅格(图5-a)虽然采用了多种可靠数据拟合,但空间分辨率太粗,每个粗像素覆盖了22.2公里x27.8公里的空间范围,地面许多细节的信息无法通过粗分辨率数据体现,而精细化转换的栅格(图5-b)空间分辨率为1公里x1公里,图中清晰地体现出地面局部的诸多细节,这些细节在粗分辨率栅格中是缺失的,而精细尺度下的风速的空间分布同时也与粗尺度的数据分布基本总体上保持一致,如低风速主要分布在图的北部及西部,而较高风速主要分布在图的南部及东南部。结果表明,通过本发明的方法得到了局部细节更为丰富的精细尺度转化的可靠结果,这说明了本发明的实用性。
本发明提出了基于深度双模态的气象粗分辨数据的精细尺度转化方法,该方法涉及了全残差的双模态限制性深度学习,融入了气象观测数据、粗分辨率数据及细分辨率带动协变量进行精细尺度转化,同时可以根据域知识对学习参数加以限制,以使得精细化后的数据更符合要求,减少了偏差。本发明提供了灵活的双模态建模架构,通过调整权重参数,即可进行粗细尺度结合的最优尺度化,也适用于缺乏精细尺度训练数据时通过一些限制性条件的非/半监督的尺度转换;该方法既可处理有精细尺度监督或测量数据,又可处理缺乏精细尺度数据的尺度转换。综上可知,本发明主要解决了以下问题:
1)由于气象参数尺度变化受到复杂的大气化学或物理过程的影响,其精细尺度转化不适用普通图像的超分辨率方法,本发明提出了更适合的融入了同化数据的更符合气象参数特征的精细尺度转化方法;
2)本发明提出了双模态的深度全残差精细尺度转化方法,细化的数据需要同时满足精细尺度下的测量样本的分布及粗分辨率的背景数据的分布,通过系统性的优化建模,从而得到更为客观的精细尺度转化结果;
3)本发明的输入-输出架构同时考虑粗细分辨率数据分布的拟合需求,同时模型可融入先验知识进行优化处理,使得本发明即使在缺乏精细尺度的训练数据样本情况下通过参数、背景及知识的限制性条件,也可取得符合常理的精细尺度转化结果,同已有方法相比减少尺度化过程中产生的偏差。
术语解释:
深度:深度学习。
双模态:既指预测目标变量的两种分布状态:1)由粗分辨率的气象同化背景数据的分布;2)观测数据确定的精细尺度或调查或测量数据的分布;
气象参数:指空气温度、相对湿度、风速等气象变量;
限制性优化:即对模型的拟合的参数加以限制的优化过程,保证优化的结果满足一定的限制条件;
精细尺度:指较高的空间分辨率;
精细尺度转化:将较粗分辨率的栅格转化成较高分辨率栅格的过程。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。
Claims (10)
1.一种基于深度双模态的气象参数精细尺度转化方法,其特征在于:包括以下步骤:
S1、确定研究的目标变量,根据目标变量确定需要的相关数据;
S2、按照空间变异、驱动力、影响要素三方面选择相关的协变量;
S3、根据前述步骤的研究结果,采集粗分辨率同化数据、精细尺度下的栅格与/或调查或测量数据以及协变量数据;
S4、根据粗分辨率及细分辨率的大小,建立相应的深度网络结构;
其中,建立深度网络结构采用灵活的输出结构,其中精细尺度的输出针对精细尺度的栅格样本或调查或测量数据的样本,对应栅格输出的具体象元;一个粗尺度单元包括的所有精细尺度象元的均值输出针对原粗尺度对应的精细尺度下的所有栅格的均值,要求与背景粗尺度数据相符,这样双模态的输出确保训练的过程同时使得输出尽量兼顾粗细尺度的数据分布,得到更为合理的结果;
S5、确定损失函数及限制性条件,并相应地对数据进行整理配对;
S6、尺度转换模型训练;
S7、对粗尺度背景与/或域知识进行限制性优化;
S8、将训练完成的模型及其参数、测试精度保存,以便于以后进行调用;
S9、模型的尺度化转换应用。
2.根据权利要求1所述的基于深度双模态的气象参数精细尺度转化方法,其特征在于:所述步骤S1中,相关数据包括:粗细分辨率数据、精细尺度下相应的协变量数据及域知识;
依据调查测量数据及精细尺度数据的可靠性,分以下四种情况考虑:
a)仅有精细尺度的数据;
b)仅有调查测量数据;
c)既有调查数据又有精细尺度数据;
d)既没有精细尺度数据,也没有调查数据;
根据上述四种情况,改变损失函数以适应不同的数据可靠性情景。
3.根据权利要求2所述的基于深度双模态的气象参数精细尺度转化方法,其特征在于:所述步骤S2中,空间变异包括采用反映空间位置变化的坐标变量及其派生变量,既采用x、y、x2、y2及xy,也采用高程作为空间变异的变量之一;驱动力,选择从机理方面存在因果关系或直接关系的变量;影响因子则是指会对变量产生较大影响的其他要素。
4.根据权利要求3所述的基于深度双模态的气象参数精细尺度转化方法,其特征在于:所述步骤S3中,需要对采集的数据进行预处理,移除数据之中的异常值;对协变量因子,需要转换为统一坐标体系下的精细尺度数据。
5.根据权利要求4所述的基于深度双模态的气象参数精细尺度转化方法,其特征在于:所述步骤S4中,深度网络结构为基于编码-解码的U-Net结构的全残差连接的卷积神经网络结构,其在每层之后加入激活函数及批正则化提高学习效率,建立深度网络结构还包括以下步骤:
a)在输入及输出处分别增加尺度调整层,以便于将输入维度转化为标准的卷积神经网络处理的输入单元,或者将卷积神经网络的输出转换为精细尺度的输出大小,保证输入到输出的准确映射,由此确定一个粗分辨率对应的精细分辨率的像素个数;
b)采用长短残差连接提高网络信息的连接以提高训练效率,在CNN的每个层级单元,都派生出三个同样的层便于加深网络层数,便于在层级单元内部实现残差短连接,而从编码层到解码层,采用残差长连接,便于误差信息反向传播,使误差信息从深层直接跳转到浅层,可实现训练效率的提高。
6.根据权利要求5所述的基于深度双模态的气象参数精细尺度转化方法,其特征在于:所述步骤S5中,根据步骤S4的双模态输出,建立损失函数:
其中,N为训练样本数,为精细尺度下的预测值,y为相应的观测值或精细尺度下像素值,θw,b代表了权重W及偏差b的参数集合,f代表精细尺度,代表与一个粗尺度单元对应的精细尺度下所有栅格单元的均值,c代表粗尺度,μc代表了针对一个粗尺度单元取精细尺度数据的均值,lf为精细尺度下的均方误差MSE损失函数,而lc为粗尺度下均方误差MSE损失函数,α与β为精细尺度及粗尺度下的权重系数,缺省可分别取0.5及0.5,取Ω(θW,b)为参数集θw,b的正则化项目,可采用弹性网的正则化;
根据损失函数的定义,在具备调查或测量数据情况下,α=β=0.5,需要将数据整理成配对的输入输出,输入即每个粗栅格单元对应的细分辨率输入矩阵,形状为w·h·c,其中w代表宽度,h代表高度,c为特征变量个数;
根据数据情况输出分以下两种情况:a)有精细尺度的栅格与/或调查测量数据,输出包括精细尺度的栅格与/或调查测量数据的输出;b)既没有精细尺度数据,也没有调查数据,此时只需要设置α=0,β=1即可;同损失函数对应的输出也需要设置成配对样本(y,y′c),配对样本最终将用于对模型的训练。
7.根据权利要求6所述的基于深度双模态的气象参数精细尺度转化方法,其特征在于:所述步骤S6中,采用配对的样本,将其划分成三份,比例为6:2:2,其中60%样本用于模型训练,20%样本用于模型的验证,20%样本用于模型的测试,并设置初始的超参数,包括学习率、小批量训练样本大小、网络的深度及每层的节点数、α与β值,进行的网络训练,训练完成得到尺度转换模型。
8.根据权利要求7所述的基于深度双模态的气象参数精细尺度转化方法,其特征在于:所述步骤S7中,对完成训练的模型输入精细尺度数据进行预测,预测得到的结果进行统计检验,求预测结果的取值范围,如果发现异常或不符合要求的输出,则对粗尺度背景与/或域知识一起进行限制性优化:
期望的输出设定为:
而训练模型的输出设定为:
9.根据权利要求8所述的基于深度双模态的气象参数精细尺度转化方法,其特征在于:所述步骤S7中,在满足约束条件下使的分布及的分布尽量接近,即使期望输出同网络模型的估值输出在满足限制性条件情况下尽量接近,定义以下的K-L散度函数,使其最小化求得更新的期望输出
满足条件:
AU(P)≥L (7)
BU(P)=C (8)
其中,D代表了K-L散度函数,Y代表了输出取值,代表了Y在期望的均值与方差分别为与为下正态分布的概率分布,代表了Y在网络模型估计的均值与方差分别为与为下正态分布的概率分布,代表期望输出即限制性优化求取的P的均值,A与B分别代表两种限制性优化中U(P)的系数,可根据限制性条件设定,L代表根据域知识得到的对细分辨率数据的限制,而C代表细分辨率像素在粗像素点内的均值等于粗分辨率像素值限制条件;
公式(6)、(7)及(8)可采用拉格朗日偶函数优化展开式:
其中,l(U,λ,v)代表了拉格朗日对偶函数,需要估计的参数是新的均值λ及v,其中,λ、v均为拉格朗日乘子;U即U(P),T代表矩阵的转置,i为训练样本索引,bi代表公式(8)中的系数矩阵B的第i个元素,ai代表公式(7)中的系数矩阵A的第i个元素,为代表第i个样本的期望输出的均值,为第i个样本的网络模型的均值估计,及分别代表了期望输出及估计输出的变差估计;
对公式(9)采用投影梯度下降法可求得在满足限制性条件:阈值及粗分辨率限制下的最优解,使得新的分布函数即尽可能满足网络结果前提下,得到的满足测量数据及粗分辨率的限制条件,得到更为合理的解;
如果得到的结果仍然有较大的偏差,可采用新得到的估计值重新训练网络,既循环步骤S4-S9,直至达到需要的精度或训练步骤。
将训练完成的模型及测试精度保存,以便于以后进行调用。
10.根据权利要求9所述的基于深度双模态的气象参数精细尺度转化方法,其特征在于:所述步骤S9中,将训练完成的模型结合步骤S7,用于类似数据的粗尺度数据的精细尺度转换的应用,得到需要的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110148282.XA CN112905561B (zh) | 2021-02-03 | 2021-02-03 | 一种基于深度双模态的气象参数精细尺度转化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110148282.XA CN112905561B (zh) | 2021-02-03 | 2021-02-03 | 一种基于深度双模态的气象参数精细尺度转化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905561A CN112905561A (zh) | 2021-06-04 |
CN112905561B true CN112905561B (zh) | 2021-09-07 |
Family
ID=76121784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110148282.XA Active CN112905561B (zh) | 2021-02-03 | 2021-02-03 | 一种基于深度双模态的气象参数精细尺度转化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905561B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930877A (zh) * | 2016-05-31 | 2016-09-07 | 上海海洋大学 | 一种基于多模态深度学习的遥感影像分类方法 |
CN107563554A (zh) * | 2017-08-30 | 2018-01-09 | 三峡大学 | 一种统计降尺度模型预报因子的筛选方法 |
CN108647740A (zh) * | 2018-05-16 | 2018-10-12 | 河海大学 | 利用高分辨率地形和气象因子进行多源降水融合的方法 |
-
2021
- 2021-02-03 CN CN202110148282.XA patent/CN112905561B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930877A (zh) * | 2016-05-31 | 2016-09-07 | 上海海洋大学 | 一种基于多模态深度学习的遥感影像分类方法 |
CN107563554A (zh) * | 2017-08-30 | 2018-01-09 | 三峡大学 | 一种统计降尺度模型预报因子的筛选方法 |
CN108647740A (zh) * | 2018-05-16 | 2018-10-12 | 河海大学 | 利用高分辨率地形和气象因子进行多源降水融合的方法 |
Non-Patent Citations (2)
Title |
---|
GeographicallyWeighted Machine Learning and Downscaling for High-Resolution Spatiotemporal Estimations of Wind Speed;Lianfa Li;《remote sensing》;20190610;第3-9页 * |
基于机器学习的高精度高分辨率气象因子时空估计;方颖,李连发;《地球信息科学》;20190630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112905561A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112905560B (zh) | 一种多源时空大数据深度融合的空气污染预测方法 | |
CN110738252B (zh) | 空间自相关的机器学习卫星降水数据降尺度方法、系统 | |
CN110363327B (zh) | 基于ConvLSTM和3D-CNN的短临降水预测方法 | |
Lu et al. | Correcting GPM IMERG precipitation data over the Tianshan Mountains in China | |
CN113297527B (zh) | 基于多源城市大数据的pm2.5全面域时空计算推断方法 | |
CN113297528B (zh) | 一种基于多源大数据的no2高分辨率时空分布计算方法 | |
CN111210483B (zh) | 基于生成对抗网络和数值模式产品的仿真卫星云图生成方法 | |
CN112699959B (zh) | 基于能量泛函模型的多源多尺度降水数据融合方法和装置 | |
CN110909449B (zh) | 一种多源数据电离层区域现报方法 | |
CN112861072B (zh) | 一种星地多源降水自适应动态融合方法 | |
Yoo et al. | Spatial downscaling of MODIS land surface temperature: Recent research trends, challenges, and future directions | |
CN113379107A (zh) | 基于lstm和gcn的区域电离层tec预报方法 | |
CN115062527B (zh) | 一种基于深度学习的静止卫星海温反演方法及系统 | |
CN112329265A (zh) | 卫星遥感降水精细化空间估算方法及系统 | |
CN113139327B (zh) | 一种基于gru网络模型的电离层tec单点预测方法及系统 | |
Li et al. | Estimating monthly global ground-level NO2 concentrations using geographically weighted panel regression | |
Wang et al. | Generating long time series of high spatiotemporal resolution FPAR images in the remote sensing trend surface framework | |
CN112285808B (zh) | 一种aphrodite降水数据的降尺度方法 | |
Cui et al. | A new fusion algorithm for simultaneously improving spatio-temporal continuity and quality of remotely sensed soil moisture over the Tibetan Plateau | |
CN112905561B (zh) | 一种基于深度双模态的气象参数精细尺度转化方法 | |
CN112668615B (zh) | 一种基于深度跨尺度外推融合的卫星云图预测方法 | |
Li et al. | Deepphysinet: Bridging deep learning and atmospheric physics for accurate and continuous weather modeling | |
Liu et al. | An Efficient and Accurate Model Coupled with Spatiotemporal Kalman Filter and Linear Mixed Effect for Hourly PM 2.5 Mapping | |
CN116108761B (zh) | 一种耦合深度学习和hasm的区域气候模拟方法和系统 | |
Wang et al. | Time-series reconstruction of 30M fractional vegetation cover based on multi-source satellite data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |