CN116805045B - 气象预测模型修正方法、装置、设备及可读存储介质 - Google Patents

气象预测模型修正方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116805045B
CN116805045B CN202311040614.8A CN202311040614A CN116805045B CN 116805045 B CN116805045 B CN 116805045B CN 202311040614 A CN202311040614 A CN 202311040614A CN 116805045 B CN116805045 B CN 116805045B
Authority
CN
China
Prior art keywords
weather
feature
training
prediction model
meteorological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311040614.8A
Other languages
English (en)
Other versions
CN116805045A (zh
Inventor
李秉伦
周富满
张华民
金闪
谢孟凯
林勇
李方伟
贾继儒
冯枭英
邵明辰
郑晓静
学健
靳海涛
张冰琦
史航宇
张海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dianke Zhixin Technology Co ltd
Original Assignee
Beijing Dianke Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dianke Zhixin Technology Co ltd filed Critical Beijing Dianke Zhixin Technology Co ltd
Priority to CN202311040614.8A priority Critical patent/CN116805045B/zh
Publication of CN116805045A publication Critical patent/CN116805045A/zh
Application granted granted Critical
Publication of CN116805045B publication Critical patent/CN116805045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种气象预测模型修正方法、装置、设备及可读存储介质,方法包括:获取气象历史训练集和气象历史测试集;利用气象历史训练集对神经网络训练,得到气象预测模型;获取神经网络的中间网络特征层输出的各中间训练气象特征,根据各中间训练气象特征计算各中间训练气象特征的shapley值;根据气象历史训练集、各中间训练气象特征的shapley值及气象历史测试集判断气象预测模型是否发生漂移;若是,则利用气象历史测试集中发生漂移前的数据对气象预测模型进行修正。本发明公开的上述方案,在不借助真实标签的情况下进行模型漂移检测,当检测到模型发生漂移时对模型进行修正,以提高模型精度,从而便于提高气象预测的准确性。

Description

气象预测模型修正方法、装置、设备及可读存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种气象预测模型修正方法、装置、设备及可读存储介质。
背景技术
气象预测对于当今社会国民经济的发展起着至关重要的作用。随着机器学习的发展,采用神经网络进行气象预测因可提高气象预测准确性而得到了广泛应用。
但是,受地表、地势、温度、空气分子、压力、云层、风速和风向等众多因素的影响,再加上这些众多因素的相互作用、相互影响和制约,模型的输入数据复杂程度增加,且这些输入数据的分布会发生变化,因此,模型会随着时间的推移而出现退化现象,也即模型会出现漂移现象,从而导致气象预测效果不佳。
综上所述,如何提高气象预测模型的精度,以便于提高气象预测的准确性,是目前本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种气象预测模型修正方法、装置、设备及可读存储介质,用于提高气象预测模型的精度,以便于提高气象预测的准确性。
为了实现上述目的,本发明提供如下技术方案:
一种气象预测模型修正方法,包括:
获取气象历史训练集和气象历史测试集;
利用所述气象历史训练集对神经网络进行训练,得到气象预测模型;
获取所述神经网络的中间网络特征层输出的各中间训练气象特征,根据各所述中间训练气象特征计算各所述中间训练气象特征的shapley值;
根据所述气象历史训练集、各所述中间训练气象特征的shapley值及所述气象历史测试集,判断所述气象预测模型是否发生漂移;
若是,则利用所述气象历史测试集中发生漂移前的数据对所述气象预测模型进行修正。
可选地,根据所述气象历史训练集、各所述中间训练气象特征的shapley值及所述气象历史测试集,判断所述气象预测模型是否发生漂移,包括:
利用各所述中间训练气象特征的shapley值得到特征重要性训练值向量;
利用所述气象历史训练集及所述特征重要性训练值向量对决策树模型进行训练,得到训练后决策树模型;
将所述气象历史测试集分批次输入到所述气象预测模型中,以获取所述气象预测模型中的中间连接层输出的各中间气象特征,根据各所述中间气象特征计算各所述中间气象特征的shapley值,并根据各所述中间气象特征的shapley值得到特征重要性真实值向量;
将所述气象历史测试集分批次输入到所述训练后决策树模型中,得到对应的特征重要性预测值向量;
判断所述特征重要性真实值向量的概率分布与所述特征重要性预测值向量的概率分布是否相同;
若否,则确定所述气象预测模型发生漂移。
可选地,在判断所述特征重要性真实值向量的概率分布与所述特征重要性预测值向量的概率分布是否相同之前,还包括:
计算所述特征重要性真实值向量中各所述中间气象特征的shapley值的绝对值的平均值;
将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征;
从所述特征重要性真实值向量中及所述特征重要性预测值向量中删除所述低重要性中间气象特征的shapley值。
可选地,在将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征之前,还包括:
将所述中间气象特征对应的平均值按照大小顺序进行排序。
可选地,所述神经网络为全连接神经网络,所述全连接神经网络包括输入层、与所述输入层相连的中间网络特征层、与所述中间网络特征层相连的输出层,所述中间网络特征层包括至少一层隐藏层;
其中,所述输入层的神经元的数量为N,所述中间网络特征层中用于输出所述中间训练气象特征的隐藏层的神经元的数量小于N,N等于所述气象历史测试集的特征维度。
可选地,在利用所述气象历史测试集中发生漂移前的数据对所述气象预测模型进行修正之后,还包括:
将所述气象历史测试集中发生漂移后的数据输入到修正后的所述气象预测模型中,以得到气象预测结果。
可选地,若确定所述气象预测模型发生漂移,则还包括:
发出所述气象预测模型发生漂移的告警。
一种气象预测模型修正装置,包括:
获取模块,用于获取气象历史训练集和气象历史测试集;
得到模块,用于利用所述气象历史训练集对神经网络进行训练,得到气象预测模型;
计算模块,用于获取所述神经网络的中间网络特征层输出的各中间训练气象特征,根据各所述中间训练气象特征计算各所述中间训练气象特征的shapley值;
判断模块,用于根据所述气象历史训练集、各所述中间训练气象特征的shapley值及所述气象历史测试集,判断所述气象预测模型是否发生漂移;
修正模块,用于若确定所述气象预测模型发生漂移,则利用所述气象历史测试集中发生漂移前的数据对所述气象预测模型进行修正。
一种气象预测模型修正设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述的气象预测模型修正方法的步骤。
一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的气象预测模型修正方法的步骤。
本发明提供一种气象预测模型修正方法、装置、设备及可读存储介质,其中,该方法包括:获取气象历史训练集和气象历史测试集;利用气象历史训练集对神经网络进行训练,得到气象预测模型;获取神经网络的中间网络特征层输出的各中间训练气象特征,根据各中间训练气象特征计算各中间训练气象特征的shapley值;根据气象历史训练集、各中间训练气象特征的shapley值及气象历史测试集,判断气象预测模型是否发生漂移;若是,则利用气象历史测试集中发生漂移前的数据对气象预测模型进行修正。
本发明公开的上述技术方案,采用神经网络对输入特征进行特征融合和特征提取,以得到中间训练气象特征,并计算各中间训练气象特征的shapley值,根据各中间训练气象特征的shapley值判断气象预测模型是否发生漂移,以实现在不借助真实标签的情况下进行漂移检测,使得漂移检测易于实现且降低漂移检测的成本。当确定气象预测模型发生漂移时则利用气象历史测试集中未发生漂移的数据对气象预测模型进行修正,以提高气象预测模型的精度,从而使得后续在进行气象预测时可以提高气象预测的准确性,且通过上述可实现有针对性地对气象预测模型进行更新、修正,因此,可降低模型的更新修正成本,并可实现对模型及时、有效的更新修正。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例提供的一种气象预测模型修正方法的流程图;
图2为本发明实施例提供的一种气象预测模型修正装置的结构示意图;
图3为本发明实施例提供的一种气象预测模型修正设备的结构示意图。
具体实施方式
本发明的核心是提供一种气象预测模型修正方法、装置、设备及可读存储介质,用于提高气象预测模型的精度,以便于提高气象预测的准确性。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
参见图1,其示出了本发明实施例提供的一种气象预测模型修正方法的流程图,本发明实施例提供的一种气象预测模型修正方法,可以包括:
S11:获取气象历史训练集和气象历史测试集。
在本发明实施例中,首先,可以获取气象历史数据集,并可以将气象历史数据集划分为气象历史训练集和气象历史测试集。
其中,气象历史数据集可以来自全球、全国或者要进行气象预测的地区的多个气象站收集的天气测量数据,且时间跨度可以为多年,以便提高所得到的气象预测模型的准确性。另外,所获取到的气象历史数据集可按照一定的比例(例如80%、20%,或者40%、60%等)划分为气象历史训练集和气象历史测试集。
S12:利用气象历史训练集对神经网络进行训练,得到气象预测模型。
其中,步骤S11所获取到的气象历史训练集包含输入特征(即训练数据Xtrain)和相对应的气象结果(即对应的标签Ytrain),且输入特征可以包含气温、气压、风速等天气因素。
在获取气象历史训练集后,可以利用气象历史训练集的输入特征和相对应的气象结果对神经网络进行训练,以得到气象预测模型。其中,气象历史训练集可以模仿数据流的形式一批一批地输入到神经网络中进行训练。神经网络包含输入层、中间网络特征层和输出层(训练得到的气象预测模型的结构与神经网络的结构相同),神经网络可对输入特征进行特征融合和特征提取,保留特征之间互作用信息的同时固定输入特征的维度。
S13:获取神经网络的中间网络特征层输出的各中间训练气象特征,根据各中间训练气象特征计算各中间训练气象特征的shapley值。
在采用气象历史训练集对神经网络进行训练的过程中,神经网络中的中间网络特征层在每次输入下均可输出对应的中间训练气象特征,因此,在利用气象历史训练集对神经网络进行训练时可以获取神经网络的中间网络特征层输出的各中间训练气象特征。其中,中间训练气象特征指示环境信息,中间训练气象特征可以包括最高温度、最低温度、气压、最大持续风速、降水量、冰雹及雷电等。
在每次获取各中间训练气象特征之后,可以根据各中间训练气象特征,采用shapley值计算方法计算各中间训练气象特征的shapley值。其中,shapley值用于计算每个单独的特征对于模型输出的贡献,也即shapley值是机器学习的输入特征对于模型预测值的重要性度量。由此可知,本发明实施例不采用神经网络的输入层输出的特征作为生成shapley值的特征,而是采用神经网络的中间网络特征层输出的中间特征作为生成shapley值的特征,这样既能够降低数据输入的维度,还具有特征融合的作用,保证了算法性能和效率,降低了计算开销,并可提高检测准确性。
S14:根据气象历史训练集、各中间训练气象特征的shapley值及气象历史测试集,判断气象预测模型是否发生漂移;若是,则执行步骤S15,若否,则可以返回步骤S14。
S15:利用气象历史测试集中发生漂移前的数据对气象预测模型进行修正。
在步骤S13的基础上,可以根据气象历史数据集、各中间训练气象特征的shapley值以及气象历史测试集,判断训练得到的气象预测模型是否发生漂移,以实现利用中间训练气象特征的shapley值进行气象预测模型的漂移检测,也即借助输入特征的重要性情况进行气象预测模型的漂移检测,而无需借助真实标签(在大部分场景下,真实标签难以及时得到或获取的成本比较高)进行气象预测模型的漂移检测,从而使得气象预测模型漂移检测易于实现,并降低气象预测模型漂移检测的成本。
在上述判断中,若确定气象预测模型未发生漂移,则表明气象预测模型未发生老化,精度比较高,因此,不仅可以继续根据气象历史训练集、各中间训练气象特征的shapley值及气象历史测试集,判断气象预测模型是否发生漂移,而且还可以利用气象预测模型进行气象预测。另外,还可以输出气象预测模型未发生漂移的提示,以便于相关人员可以及时获知气象预测模型的漂移情况。
在上述判断中,若确定气象预测模型发生漂移,则可以同时获取气象预测模型发生漂移的时间(简称漂移发生时间窗口),然后,可以从气象历史测试集中获取发生漂移前的数据(即位于漂移发生时间窗口之前的数据,具体即为输入特征以及对应的气象结果)。具体地,可以从气象历史测试集中获取漂移发生时间窗口之前的一批或多批数据,这些数据为比较新的数据。之后,利用从气象历史测试集中获取到的数据对气象预测模型进行修正,以实现对气象预测模型的更新,从而提高修正后的气象预测模型的精度,进而在利用修正后的气象预测模型进行气象预测时可以提高气象预测的准确性。
并且,通过上述可知,本发明实施例是在气象预测模型发生漂移时才对其进行修正,因此,可以实现有针对性的模型修正,以尽量避免盲目修正所引起的计算开销大、无效修正等一系列问题。
本发明公开的上述技术方案,采用神经网络对输入特征进行特征融合和特征提取,以得到中间训练气象特征,并计算各中间训练气象特征的shapley值,根据各中间训练气象特征的shapley值判断气象预测模型是否发生漂移,以实现在不借助真实标签的情况下进行漂移检测,使得漂移检测易于实现且降低漂移检测的成本。当确定气象预测模型发生漂移时则利用气象历史测试集中未发生漂移的数据对气象预测模型进行修正,以提高气象预测模型的精度,从而使得后续在进行气象预测时可以提高气象预测的准确性,且通过上述可实现有针对性地对气象预测模型进行更新、修正,因此,可降低模型的更新修正成本,并可实现对模型及时、有效的更新修正。
本发明实施例提供的一种气象预测模型修正方法,根据气象历史训练集、各中间训练气象特征的shapley值及气象历史测试集,判断气象预测模型是否发生漂移,可以包括:
利用各中间训练气象特征的shapley值得到特征重要性训练值向量;
利用气象历史训练集及特征重要性训练值向量对决策树模型进行训练,得到训练后决策树模型;
将气象历史测试集分批次输入到气象预测模型中,以获取气象预测模型中的中间连接层输出的各中间气象特征,根据各中间气象特征计算各中间气象特征的shapley值,并根据各中间气象特征的shapley值得到特征重要性真实值向量;
将气象历史测试集分批次输入到训练后决策树模型中,得到对应的特征重要性预测值向量;
判断特征重要性真实值向量的概率分布与特征重要性预测值向量的概率分布是否相同;
若否,则确定气象预测模型发生漂移。
在漂移检测阶段,对于每个时间窗口的输入数据Xt,均能够生成需要的shapley值向量St。将输入数据X看作是一个回归问题R的输入,而输入数据X生成的shapley值作为R的输出,那么需要检测的联合概率分布变化Pt(X,S)≠Pt-1(X,S)则符合概念漂移的定义,其中,t代表时刻,t具体可以代表当前时刻,t-1则可以代表上一时刻。同时,上述回归问题R的真实值S是可以直接获取的值。可以借用有监督漂移检测算法的思路来判断回归问题R是否发生了概念漂移,从而检测联合概率分布P(X,S)的变化。
因此,在训练阶段,可以构建一个决策树模型对上述回归问题R进行学习,而在漂移检测阶段,可以将检测窗口的输入数据X输入到训练得到的决策树模型中生成预测值,并将预测值与shapley值的真实值进行比较。当预测值与真实值有显著的区别时,则认为训练得到的决策树模型的性能下降,回归问题R发生了漂移。而回归问题R出现了概念漂移就代表着Pt(X,S)≠Pt-1(X,S),这就代表着模型的性能发生了变化,即判断原问题发生了概念漂移。
具体地,首先可以利用各中间训练气象的shapley值得到特征重要性训练值向量S0,该S0具体可以为维的向量,其中,n代表样本数量,其中,一条输入特征及对应的气象结果为一个样本,m代表中间训练气象特征的数量。或者,可以将各样本对应的中间训练气象特征的shapley值分别形成相应的特征重要性训练值向量s0,该s0具体为/>维的向量等,从而得到n个/>维的向量s0。之后,可以利用气象历史训练集(具体为气象历史训练集中的输入特征)及特征重要性训练值向量对决策树模型进行训练,得到训练后决策树模型。
然后,可以将气象历史测试集(具体为气象历史测试集中的输入特征)分批次(具体即为按时间窗口进行批次划分,例如可以是一个月、三个月或六个月等为一个批次)输入到训练后决策树模型中,以利用训练后决策树模型预测输入特征的shapley值(即为预测shapley值),也即得到对应的特征重要性预测值向量S1,其中,特征重要性预测值向量S1即为各中间气象特征的预测shapley值构成的向量。另外,还将气象历史测试集(同样为气象历史测试集中的输入特征)分批次(分批次的方式与上述相同)输入到气象预测模型中,以获取气象预测模型中的中间连接层输出的各中间气象特征,并根据各中间气象特征可计算各中间气象特征的shapley值(即真实shapley值),且根据各中间气象特征的shapley值得到特征重要性真实值向量S2,其中,特征重要性真实值向量S2即为各中间气象特征的真实shapley值构成的向量。其中,将气象历史测试集分批次输入也即是模仿数据流的形式一批一批输入的,每一批数据来自不同的时刻。
之后,可以对特征重要性真实值向量和特征重要性预测值向量进行KS(Kolmogorov-Smirnov,柯尔莫哥洛夫-斯米尔诺夫)分布检验,以确定气象检测模型是否发生漂移。具体地,可以获取特征重要性真实值向量的概率分布和特征重要性预测值向量的概率分布,并判断特征重要性真实值向量的概率分布和特征重要性预测值向量的概率分布是否相同。若特征重要性真实值向量的概率分布和特征重要性预测值向量的概率分布相同,则表明训练后决策树模型预测精度高、性能高,即表明输入特征和特征重要性向量(也即shapley值构成的向量)的联合分布未发生变化,也即表明各输入特征的重要性分布未发生变化,由此可以确定气象预测模型未发生漂移。若特征重要性真实值向量的概率分布和特征重要性预测值向量的概率分布不相同,则表明训练后决策树模型预测精度不高、性能不好,即表明输入特征和特征重要性向量的联合分布发生了变化,也即表明各输入特征的重要性分布发生了变化,由此可以确定气象预测模型发生了漂移。
通过上述方式实现借助输入特征的重要性情况进行气象预测模型漂移检测(具体为真实漂移检测,也即为概念漂移检测),而并不需于依赖输入特征的真实标签,同时可降低算法在处理高维数据时的计算开销以及误检率,提高检测准确性,另外,还可以过滤掉虚漂移,从而提高漂移检测以及气象预测模型修正的准确性。
本发明实施例提供的一种气象预测模型修正方法,在判断特征重要性真实值向量的概率分布与特征重要性预测值向量的概率分布是否相同之前,还可以包括:
计算特征重要性真实值向量中各中间气象特征的shapley值的绝对值的平均值;
将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征;
从特征重要性真实值向量中及特征重要性预测值向量中删除低重要性中间气象特征的shapley值。
在本发明实施例中,在判断特征重要性真实值向量的概率分布与特征重要性预测值向量的概率分布是否相同之前,还可以先对特征重要性真实值向量中各中间气象特征对应的shapley值取绝对值,其中,绝对值越大,表明对气象预测模型的影响程度越大,绝对值越小,表明对气象预测模型的影响程度越小。然后,分别计算各中间气象特征对应的shapley值的绝对值的平均值,以得到各中间气象特征对应的平均值,并将各中间气象特征对应的平均值作为相应特征的重要性。之后,可以将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征,并可以将平均值不小于预设阈值的中间气象特征确定为高重要性中间气象特征,其中,预设阈值具体可以根据实际需要进行设定。然后,可以从特征重要性真实值向量中以及特征重要性预测值向量中删除所确定出的低重要性中间气象特征的shapley值,而仅保留高重要性中间气象特征,以避免低重要性中间气象特征产生干扰,从而提高气象预测模型漂移检测的准确性。
在上述基础上,在判断特征重要性真实值向量的概率分布与特征重要性预测值向量的概率分布是否相同时,则是判断删除低重要性中间气象特征的特征重要性真实值向量的概率分布与删除低重要性中间气象特征的特征重要性预测值向量的概率分布是否相同。
本发明实施例提供的一种气象预测模型修正方法,在将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征之前,还可以包括:
将中间气象特征对应的平均值按照大小顺序进行排序。
在本发明实施例中,在将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征之前,可以将各中间气象特征对应的平均值按照从大到小的顺序或者从小到大的顺序进行排序,之后,再将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征。
通过先排序后进行确定的方式可以便于快速、高效且准确地确定哪些中间气象特征对应的平均值小于预设阈值。
本发明实施例提供的一种气象预测模型修正方法,神经网络为全连接神经网络,全连接神经网络可以包括输入层、与输入层相连的中间网络特征层、与中间网络特征层相连的输出层,中间网络特征层可以包括至少一层隐藏层;
其中,输入层的神经元的数量为N,中间网络特征层中用于输出中间训练气象特征的隐藏层的神经元的数量小于N,N等于气象历史测试集的特征维度。
在本发明实施例中,用于训练得到气象预测模型的神经网络具体可以为全连接神经网络,其中,全连接神经网络为神经网络中比较简单的一种网络。本发明实施例中的全连接神经网络具体可以包括输入层、与输入层相连的中间网络特征层、与中间网络特征层相连的输出层,其中,中间网络特征层包括至少一层隐藏层,若隐藏层的层数为多层,则这些隐藏层依次相连。
输入层用于供输入特征进行输入,且输入层所包含的神经元的数量与气象历史测试集的特征维度(即输入特征的维度)相同,均为N,N为正整数。当然,输入层所包含的神经元的数量与气象历史训练集的特征维度也相同。
中间网络特征层用于对特征进行降维和融合后输出中间气象特征。中间网络特征层中用于输出中间训练气象特征的隐藏层(即用于提取特征的隐藏层,该隐藏层一般靠近输出层)的神经元的数量小于N,以利用全连接神经网络实现降维处理。使用全连接神经网络的中间网络特征层作为生成shapley值的特征既可以降低数据输入的维度,又可以起到特征融合的作用,保证了算法的性能和效率。中间网络特征层中每个神经元的输出采用Relu(Rectified Linear Unit,线性整流函数)激活函数进行非线性变换。
输出层的神经元的数量为一个,激活函数为sigmoid(具有指数函数形状,其在物理意义上最为接近生物神经元)。输出层用于输出气象预测结果。
本发明实施例提供的一种气象预测模型修正方法,在利用气象历史测试集中发生漂移前的数据对气象预测模型进行修正之后,还可以包括:
将气象历史测试集中发生漂移后的数据输入到修正后的气象预测模型中,以得到气象预测结果。
在本发明实施例中,在利用气象历史测试集中发生漂移前的数据对气象预测模型进行修正之后,可以将气象历史测试集中发生漂移后的数据(即位于漂移发生窗口之后的数据,具体即为输入特征)输入到修正后的气象预测模型中,以利用修正后的气象预测模型输出相应的气象预测结果,实现对气象的高精度预测。
当然,在得到气象预测结果后,还可以将气象预测结果发送至用户端,以便于相关用户可以通过用户端及时、便捷地查看到气象预测结果。
本发明实施例提供的一种气象预测模型修正方法,若确定气象预测模型发生漂移,则还可以包括:
发出气象预测模型发生漂移的告警。
在本发明实施例中,在判断气象预测模型是否发生漂移时,若确定气象预测模型发生漂移,则可以发出气象预测模型发生漂移的告警,具体可以为发送告警邮件、告警短信、播放告警语音等方式进行告警,以便于相关人员可以及时获知气象预测模型发生漂移这一信息。
为了更清楚地说明本发明的效果,本发明实施例通过以下对比实验做进一步说明。
采用某地真实的天气预测数据集来评估本发明上述方法,该数据集来自全球9000多个气象站收集到的天气测量数据,时间跨度由1949-1999共五十年的广泛范围,这意味着这个数据集会包含更多的天气模式。根据可用性的标准,从数据集中去除缺失值率超过85%的三个特征,最终使用8个特征来预测是否出现降雨。
上述数据集共包含18159条样本,其中,5698(31%)为下雨的样本,12461(69%)为不下雨的样本。特征包括气温、气压、风速等天气因素。根据概念漂移的描述,数据分布会随着时间的推移发生变化,而该天气数据集也是随着时间推移进行收集。期间的分布极有可能出现下雨而影响模型的预测准确性。以气温特征为例,随着科技的发展,各种科技的出现都在加重碳排放量,从而导致全球变暖的现象。对于温度这个特征,会出现分布整体偏移的情况,这只是一个比较显著的特征变化现象,整个天气特征的分布会随着自然灾害、人为因素等各种影响而变化,如果后续一直使用最初训练的模型来预测是否降雨,它的准确率会不断下降。
基于以上的场景描述,设计如下的算法对比实验,利用数据集的前百分之二十样本作为训练数据对全连接神经网络进行训练,得到一个气象预测模型。之后将剩余的数据作为预测数据,输入到各个对比的漂移检测算法以及预测模型。其中,这里提及的对比的漂移检测算法具体为HDDDM(Hellinger Distance Drift Detection Method,海灵格距离漂移检测方法)、PCA-CD(Principal Component Analysis-Change Detection,主成分分析变化检测)、DAWIDD(Dynamic Adapting Window Independence Drift Detection,动态自适应窗口独立漂移检测)。HDDDM使用海灵格距离来比较两个数据分布之间的差异,同时设置了自适应的阈值变化机制,能够根据当前的窗口大小动态调整阈值;PCA-CD算法提出了一种基于主成分分析的漂移检测算法,在检测数据分布变化之前首先使用PCA方法对数据进行降温,从而减小计算开销;DAWIDD为动态自适应窗口独立漂移检测,用于不同漂移特性的非参数漂移检测。这些算法在数据维度过大时方法的计算开销会变得难以接受,且这些算法通常会存在误检率过高的问题。
在将预测数据输入到本发明上述提及的漂移检测方法以及上述提及的几种对比的漂移算法后,如果漂移检测算法检测到漂移发生时,先使用漂移之前的一段数据对预测模型进行更新调整,使用更新后的模型继续预测,最终通过预测模型的平均准确率来衡量漂移检测算法的性能。同时记录模型的更新次数作为参考。最终得到如表1所示的实验结果:
表1 多种漂移检测算法进行处理所对应的实验结果表
从表1可以看出,本发明的算法能够将气象预测模型的平均准确率保持在最高水平,同时能够以较低的更新次数达到目标效果。
本发明实施例还提供了一种气象预测模型修正装置,参见图2,其示出了本发明实施例提供的一种气象预测模型修正装置的结构示意图,可以包括:
获取模块21,用于获取气象历史训练集和气象历史测试集;
得到模块22,用于利用气象历史训练集对神经网络进行训练,得到气象预测模型;
计算模块23,用于获取神经网络的中间网络特征层输出的各中间训练气象特征,根据各中间训练气象特征计算各中间训练气象特征的shapley值;
判断模块24,用于根据气象历史训练集、各中间训练气象特征的shapley值及气象历史测试集,判断气象预测模型是否发生漂移;
修正模块25,用于若确定气象预测模型发生漂移,则利用气象历史测试集中发生漂移前的数据对气象预测模型进行修正。
本发明实施例提供的一种气象预测模型修正装置,判断模块24可以包括:
得到向量单元,用于利用各中间训练气象特征的shapley值得到特征重要性训练值向量;
训练单元,用于利用气象历史训练集及特征重要性训练值向量对决策树模型进行训练,得到训练后决策树模型;
第一输入单元,用于将气象历史测试集分批次输入到气象预测模型中,以获取气象预测模型中的中间连接层输出的各中间气象特征,根据各中间气象特征计算各中间气象特征的shapley值,并根据各中间气象特征的shapley值得到特征重要性真实值向量;
第二输入单元,用于将气象历史测试集分批次输入到训练后决策树模型中,得到对应的特征重要性预测值向量;
判断单元,用于判断特征重要性真实值向量的概率分布与特征重要性预测值向量的概率分布是否相同;
第一确定单元,用于若特征重要性真实值向量的概率分布与特征重要性预测值向量的概率分布不相同,则确定气象预测模型发生漂移。
本发明实施例提供的一种气象预测模型修正装置,判断模块24还可以包括:
计算单元,用于在判断特征重要性真实值向量的概率分布与特征重要性预测值向量的概率分布是否相同之前,计算特征重要性真实值向量中各中间气象特征的shapley值的绝对值的平均值;
第二确定单元,用于将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征;
删除单元,用于从特征重要性真实值向量中及特征重要性预测值向量中删除低重要性中间气象特征的shapley值。
本发明实施例提供的一种气象预测模型修正装置,判断模块24还可以包括:
排序单元,用于在将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征之前,将中间气象特征对应的平均值按照大小顺序进行排序。
本发明实施例提供的一种气象预测模型修正装置,神经网络为全连接神经网络,全连接神经网络可以包括输入层、与输入层相连的中间网络特征层、与中间网络特征层相连的输出层,中间网络特征层可以包括至少一层隐藏层;
其中,输入层的神经元的数量为N,中间网络特征层中用于输出中间训练气象特征的隐藏层的神经元的数量小于N,N等于气象历史测试集的特征维度。
本发明实施例提供的一种气象预测模型修正装置,还可以包括:
输入模块,用于在利用气象历史测试集中发生漂移前的数据对气象预测模型进行修正之后,将气象历史测试集中发生漂移后的数据输入到修正后的气象预测模型中,以得到气象预测结果。
本发明实施例提供的一种气象预测模型修正装置,还可以包括:
发出告警模块,用于若确定气象预测模型发生漂移,则发出气象预测模型发生漂移的告警。
本发明实施例还提供了一种气象预测模型修正设备,参见图3,其示出了本发明实施例提供的一种气象预测模型修正设备的结构示意图,可以包括:
存储器31,用于存储计算机程序;
处理器32,用于执行存储器31存储的计算机程序时可实现如下步骤:
获取气象历史训练集和气象历史测试集;利用气象历史训练集对神经网络进行训练,得到气象预测模型;获取神经网络的中间网络特征层输出的各中间训练气象特征,根据各中间训练气象特征计算各中间训练气象特征的shapley值;根据气象历史训练集、各中间训练气象特征的shapley值及气象历史测试集,判断气象预测模型是否发生漂移;若是,则利用气象历史测试集中发生漂移前的数据对气象预测模型进行修正。
本发明实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
获取气象历史训练集和气象历史测试集;利用气象历史训练集对神经网络进行训练,得到气象预测模型;获取神经网络的中间网络特征层输出的各中间训练气象特征,根据各中间训练气象特征计算各中间训练气象特征的shapley值;根据气象历史训练集、各中间训练气象特征的shapley值及气象历史测试集,判断气象预测模型是否发生漂移;若是,则利用气象历史测试集中发生漂移前的数据对气象预测模型进行修正。
本发明实施例提供的一种气象预测模型修正装置、设备及可读存储介质中相关部分的说明可以参见本发明实施例提供的一种气象预测模型修正方法中对应部分的详细说明,在此不再赘述。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种气象预测模型修正方法,其特征在于,包括:
获取气象历史训练集和气象历史测试集;
利用所述气象历史训练集对神经网络进行训练,得到气象预测模型;
获取所述神经网络的中间网络特征层输出的各中间训练气象特征,根据各所述中间训练气象特征计算各所述中间训练气象特征的shapley值;
根据所述气象历史训练集、各所述中间训练气象特征的shapley值及所述气象历史测试集,判断所述气象预测模型是否发生漂移;
若是,则利用所述气象历史测试集中发生漂移前的数据对所述气象预测模型进行修正;
根据所述气象历史训练集、各所述中间训练气象特征的shapley值及所述气象历史测试集,判断所述气象预测模型是否发生漂移,包括:
利用各所述中间训练气象特征的shapley值得到特征重要性训练值向量;
利用所述气象历史训练集及所述特征重要性训练值向量对决策树模型进行训练,得到训练后决策树模型;
将所述气象历史测试集分批次输入到所述气象预测模型中,以获取所述气象预测模型中的中间连接层输出的各中间气象特征,根据各所述中间气象特征计算各所述中间气象特征的shapley值,并根据各所述中间气象特征的shapley值得到特征重要性真实值向量;
将所述气象历史测试集分批次输入到所述训练后决策树模型中,得到对应的特征重要性预测值向量;
判断所述特征重要性真实值向量的概率分布与所述特征重要性预测值向量的概率分布是否相同;
若否,则确定所述气象预测模型发生漂移。
2.根据权利要求1所述的气象预测模型修正方法,其特征在于,在判断所述特征重要性真实值向量的概率分布与所述特征重要性预测值向量的概率分布是否相同之前,还包括:
计算所述特征重要性真实值向量中各所述中间气象特征的shapley值的绝对值的平均值;
将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征;
从所述特征重要性真实值向量中及所述特征重要性预测值向量中删除所述低重要性中间气象特征的shapley值。
3.根据权利要求2所述的气象预测模型修正方法,其特征在于,在将平均值小于预设阈值的中间气象特征确定为低重要性中间气象特征之前,还包括:
将所述中间气象特征对应的平均值按照大小顺序进行排序。
4.根据权利要求1所述的气象预测模型修正方法,其特征在于,所述神经网络为全连接神经网络,所述全连接神经网络包括输入层、与所述输入层相连的中间网络特征层、与所述中间网络特征层相连的输出层,所述中间网络特征层包括至少一层隐藏层;
其中,所述输入层的神经元的数量为N,所述中间网络特征层中用于输出所述中间训练气象特征的隐藏层的神经元的数量小于N,N等于所述气象历史测试集的特征维度。
5.根据权利要求1所述的气象预测模型修正方法,其特征在于,在利用所述气象历史测试集中发生漂移前的数据对所述气象预测模型进行修正之后,还包括:
将所述气象历史测试集中发生漂移后的数据输入到修正后的所述气象预测模型中,以得到气象预测结果。
6.根据权利要求1所述的气象预测模型修正方法,其特征在于,若确定所述气象预测模型发生漂移,则还包括:
发出所述气象预测模型发生漂移的告警。
7.一种气象预测模型修正装置,其特征在于,包括:
获取模块,用于获取气象历史训练集和气象历史测试集;
得到模块,用于利用所述气象历史训练集对神经网络进行训练,得到气象预测模型;
计算模块,用于获取所述神经网络的中间网络特征层输出的各中间训练气象特征,根据各所述中间训练气象特征计算各所述中间训练气象特征的shapley值;
判断模块,用于根据所述气象历史训练集、各所述中间训练气象特征的shapley值及所述气象历史测试集,判断所述气象预测模型是否发生漂移;
修正模块,用于若确定所述气象预测模型发生漂移,则利用所述气象历史测试集中发生漂移前的数据对所述气象预测模型进行修正;
所述判断模块包括:
得到向量单元,用于利用各所述中间训练气象特征的shapley值得到特征重要性训练值向量;
训练单元,用于利用所述气象历史训练集及所述特征重要性训练值向量对决策树模型进行训练,得到训练后决策树模型;
第一输入单元,用于将所述气象历史测试集分批次输入到所述气象预测模型中,以获取所述气象预测模型中的中间连接层输出的各中间气象特征,根据各所述中间气象特征计算各所述中间气象特征的shapley值,并根据各所述中间气象特征的shapley值得到特征重要性真实值向量;
第二输入单元,用于将所述气象历史测试集分批次输入到所述训练后决策树模型中,得到对应的特征重要性预测值向量;
判断单元,用于判断所述特征重要性真实值向量的概率分布与所述特征重要性预测值向量的概率分布是否相同;
第一确定单元,用于若所述特征重要性真实值向量的概率分布与所述特征重要性预测值向量的概率分布不相同,则确定所述气象预测模型发生漂移。
8.一种气象预测模型修正设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述的气象预测模型修正方法的步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的气象预测模型修正方法的步骤。
CN202311040614.8A 2023-08-17 2023-08-17 气象预测模型修正方法、装置、设备及可读存储介质 Active CN116805045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311040614.8A CN116805045B (zh) 2023-08-17 2023-08-17 气象预测模型修正方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311040614.8A CN116805045B (zh) 2023-08-17 2023-08-17 气象预测模型修正方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN116805045A CN116805045A (zh) 2023-09-26
CN116805045B true CN116805045B (zh) 2024-01-23

Family

ID=88080822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311040614.8A Active CN116805045B (zh) 2023-08-17 2023-08-17 气象预测模型修正方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116805045B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118552005B (zh) * 2024-07-26 2024-10-15 山东港口科技集团烟台有限公司 一种基于气象监测的码头预警管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733917A (zh) * 2020-12-31 2021-04-30 杭州电子科技大学 一种基于shap特征优化的信道均衡方法
CN113537591A (zh) * 2021-07-14 2021-10-22 北京琥珀创想科技有限公司 长期天气预测方法、装置、计算机设备及存储介质
CN113592557A (zh) * 2021-08-03 2021-11-02 北京有竹居网络技术有限公司 广告投放结果的归因方法、装置、存储介质及电子设备
CN115049024A (zh) * 2022-08-15 2022-09-13 国能日新科技股份有限公司 风速预测模型的训练方法、装置、电子设备和存储介质
WO2023063888A2 (en) * 2021-10-14 2023-04-20 Envision Digital International Pte. Ltd. Method and apparatus for predicting wind power, and device and storage medium thereof
CN116451081A (zh) * 2023-04-20 2023-07-18 河钢数字技术股份有限公司 数据漂移的检测方法、装置、终端及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109958588B (zh) * 2017-12-14 2020-08-07 北京金风科创风电设备有限公司 结冰预测方法、装置、存储介质、模型生成方法及装置
CN113128793A (zh) * 2021-05-19 2021-07-16 中国南方电网有限责任公司 一种基于多源数据融合的光伏功率组合预测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733917A (zh) * 2020-12-31 2021-04-30 杭州电子科技大学 一种基于shap特征优化的信道均衡方法
CN113537591A (zh) * 2021-07-14 2021-10-22 北京琥珀创想科技有限公司 长期天气预测方法、装置、计算机设备及存储介质
CN113592557A (zh) * 2021-08-03 2021-11-02 北京有竹居网络技术有限公司 广告投放结果的归因方法、装置、存储介质及电子设备
WO2023063888A2 (en) * 2021-10-14 2023-04-20 Envision Digital International Pte. Ltd. Method and apparatus for predicting wind power, and device and storage medium thereof
CN115049024A (zh) * 2022-08-15 2022-09-13 国能日新科技股份有限公司 风速预测模型的训练方法、装置、电子设备和存储介质
CN116451081A (zh) * 2023-04-20 2023-07-18 河钢数字技术股份有限公司 数据漂移的检测方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN116805045A (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN111488789B (zh) 用于基于图像分析的监视的行人检测方法及装置
CN106897738B (zh) 一种基于半监督学习的行人检测方法
KR20200012334A (ko) 반도체 장치의 불량 검출 방법
CN109977895B (zh) 一种基于多特征图融合的野生动物视频目标检测方法
CN116805045B (zh) 气象预测模型修正方法、装置、设备及可读存储介质
CN113591948B (zh) 一种缺陷模式识别方法、装置、电子设备和存储介质
CN111126576A (zh) 一种深度学习的新型训练策略
CN108009571A (zh) 一种新的直推式半监督数据分类方法及系统
CN109886342A (zh) 基于机器学习的模型训练方法和装置
CN114693942A (zh) 一种仪器仪表智能运维的多模态故障理解及辅助标注方法
CN116579616A (zh) 一种基于深度学习的风险识别方法
CN117315380B (zh) 一种基于深度学习的肺炎ct图像分类方法及系统
CN112802011A (zh) 一种基于vgg-bls的风机叶片缺陷检测方法
CN117668737B (zh) 一种管道检测数据故障预警查验方法以及相关装置
CN117171702A (zh) 一种基于深度学习的多模态电网故障检测方法和系统
CN113486926B (zh) 一种自动化码头设备异常检测系统
CN113536944A (zh) 基于图像识别的配电线路巡检数据识别及分析方法
CN117290673A (zh) 一种基于多模型融合的船舶能耗高精度预测系统
CN117237911A (zh) 一种基于图像的动态障碍物快速检测方法及系统
CN112016598A (zh) 基于sdae的局部放电模式识别方法、计算机设备和存储介质
JP6950647B2 (ja) データ判定装置、方法、及びプログラム
CN113610229A (zh) 一种基于范数不确定性指标的主动学习方法
CN116959078B (zh) 疲劳检测模型的构建方法、疲劳检测方法及其装置
CN118393368B (zh) 一种电池续航能力评估方法、装置、存储介质及设备
CN117671507B (zh) 一种结合气象数据的河流水质预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant