CN113742926A - 一种基于时空聚类的气象观测数据质量控制方法 - Google Patents

一种基于时空聚类的气象观测数据质量控制方法 Download PDF

Info

Publication number
CN113742926A
CN113742926A CN202111047528.0A CN202111047528A CN113742926A CN 113742926 A CN113742926 A CN 113742926A CN 202111047528 A CN202111047528 A CN 202111047528A CN 113742926 A CN113742926 A CN 113742926A
Authority
CN
China
Prior art keywords
time
space
data
cluster
meteorological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111047528.0A
Other languages
English (en)
Inventor
罗川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Cap Data Service Co ltd
Original Assignee
Chengdu Cap Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Cap Data Service Co ltd filed Critical Chengdu Cap Data Service Co ltd
Priority to CN202111047528.0A priority Critical patent/CN113742926A/zh
Publication of CN113742926A publication Critical patent/CN113742926A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于气象服务技术领域,具体涉及一种基于时空聚类的气象观测数据质量控制方法。本发明采用ST‑DBSCAN时空聚类算法,将一定时间距离和空间距离的气象数据分组,在组内进行缺失值填补、异常值检测和离群点校正,综合考虑了气象数据在时空范围内聚集趋势和变化特性,针对性的校正缺失值和离群值,使校正结果更加准确,提高了气象观测数据的数据质量。

Description

一种基于时空聚类的气象观测数据质量控制方法
技术领域
本发明属于气象服务技术领域,具体涉及一种基于时空聚类的气象观测数据质量控制方法。
背景技术
随着气象自动观测站在全国范围内的广泛建立,气象观测数据的数据量呈指数级增长。由于气象观测数据都要经历仪器观测、采集器采集、测报软件记录、编码、传输、解码等重要环节,受仪器设备稳定性和观测环境影响,这些环节都有可能引入误差,进而导致数据错误。而气象观测数据质量的好坏直接影响到天气预报以及气候预测的准确性,因此对于气象观测数据的质量控制势在必行。
现有的质量控制技术大多综合了传统质量控制方法和人工监测判别,根据历史资料得出气候界限值以及各气象要素的允许值对观测值进行质控,灵敏度不高,并且没有考虑气象要素的时空关联性。也有部分研究运用关联规则、贝叶斯网络、支持向量机、k-means聚类、时间序列分析等数据挖掘方法用于气象要素之间的相关性分析、天气现象分类和气象预报业务等方面,但在气象观测数据质量控制方面却少有研究。
发明内容
针对现有的气象观测数据质控技术存在的不足,本发明提供的一种基于时空聚类的气象观测数据质量控制方法,采用基于密度的时空聚类算法ST-DBSCAN将气象观测数据按照时间和空间维度进行聚类分组,然后计算各组观测数据的一致性因子FC,并基于贝叶斯原理和假设检验方法判断是否存在异常数据组,在异常数据组中采用离群点检测算法检测出离群点,最后对离群点进行校正处理。本发明综合考虑了气象要素在一定时间和空间范围内的气象聚集趋势和变化规律,同时对气象离群值进行检测和修正,提高了气象观测数据的准确度,为气象预报工作带来方便。
为实现上述目的,本发明采用如下技术方案:
一种基于时空聚类的气象观测数据质量控制方法,如图1所示,包括以下步骤:
S1、获取原始气象观测数据;
S2、采用三维的时空聚类ST-DBSCAN算法对气象观测数据各要素进行时空聚类分组,具体为:
S21、建立一个三维的气象要素时空数据集D,数据集D中气象要素对象的经度为x,纬度为y,观测时间为z,一条气象观测数据对应一个对象点Pi={xi,yi,zi},i为观测数据序号,1≤i≤n,n为观测数据样本总量;
S22、从数据集D中依次选取对象点Pi,判断其是否属于现有簇中,是则重新选择下一个对象点Pi+1,否则进入步骤S23,其中,簇为聚类分组后对象点的集合,不属于任何簇的点为时空孤立点,每个簇具有不同的标签;
S23、判断Pi是否为时空核心对象:设定最小相邻点阈值MinPts,若在时空对象点P的时空邻域内,P的时空相邻点数量ΔN满足ΔN≥MinPts,则称P为时空核心对象;所述时空邻域的定义为,给定一个时空对象点P,P的所有时空相邻点构成的时空范围即为对象点P的时空邻域;所述时空相邻点的定义为,设定时间阈值tt和空间阈值st,对于时空对象Pt,若Pw到Pt的时间距离ΔT满足:
ΔT=|zw-zt|≤tt
空间距离ΔS满足公式:
ΔS=|Distance((xw,yw)-(xt,yt))|≤st
则Pw为Pt的时空相邻点;
S24、搜寻时空核心对象点Pi的所有时空相邻点Qi,若Qi不属于任何现有簇,则将Qi放入新建的簇C中,否则不进行操作,其中,簇C中的C为簇的标签;
S25、判断新簇C中的各对象是否为时空核心对象,若不是时空核心对象,则将其标为边缘时空对象,否则将该时空核心对象作为目标进行步骤S24的操作;
S26、重复步骤S22到步骤S25,直至数据集D中所有对象都属于某个簇,或者为时空孤立点;
S3、对各个气象要素时空聚类后的各个簇进行缺失值处理,统计各簇内缺失值个数,当缺失值个数小于设定值时,通过两个最近邻时空相邻点数据的平均值填补,当缺失值个数大于或等于设定值时,删除该簇;
S4、簇内一致性检验,计算各簇数据的一致性因子FC
Figure BDA0003251581450000031
其中Gs(t)={g1,…,gN}为N个在时隙t内且在空间范围S内采集到的某气象要素的观测数据,i,j=1,…,N,时隙t=1,…,T,T为将观测时间划分为等长时隙的个数;
基于贝叶斯决策和假设检验方法判断该簇数据在时间维度上是否发生显著改变,若发生显著改变,则将该簇数据标为异常数据组,具体为:
建立假设检验模型:
{H0:FC(1)=…=FC(t0-1)=FC(t0)=…=FC(T)}
{H1:FC(1)=…=FC(t0-1)≠FC(t0)=…=FC(T)}
其中,ΘT={FC(1),…,FC(T)}为当前簇在时间1,…,T上的一致性因子向量,H0表示一致性因子未发生显著变化,H1表示一致性因子在时间t0发生显著变化;
根据贝叶斯原理,采用后验概率计算一致性因子FC在时间t上发生显著变化的概率:
Figure BDA0003251581450000032
其中q∈{0,1},P(HqT)为似然函数,P(Hq)为先验概率;当似然函数满足logP(H1T)/logP(H0T)>1时,该簇数据在时间维度上发生显著改变,Gs(t)为异常数据组;
S5、在异常数据组中进行时空离群点检测并校正:
检测离群点:
计算异常数据组中全部数据的平均值
Figure BDA0003251581450000033
标准差
Figure BDA0003251581450000034
Figure BDA0003251581450000035
检查每个数据项是否在区间
Figure BDA0003251581450000036
内,其中k0>1为预定义常数参数,将落在区间外的数据项视为离群点;
校正离群值:
若离群点最近邻的两个数据点为正常值,则通过异常值前后临近的气象观测数据的平均值替换该离群点;若最近邻的两个数据点也为离群点,则采用该组内数据的平均值替换离群点。
本发明的有益效果为,与现有技术相比,本发明着眼于气象数据在时间和空间上的关联性,采用ST-DBSCAN时空聚类方法,综合考虑了气象要素在一定时间和空间范围内的气象聚集趋势和变化规律,借助气象要素在时空上的变化特性,对缺失值和离群值进行针对性的校正,提高了气象观测数据的数据质量,为后期的气象预报业务带来了便利。
附图说明
图1为本发明的逻辑顺序示意图;
具体实施方式
下面对本发明的方案进行详细描述:
本发明的方法主要包括以下步骤:
S1、获取原始气象观测数据;
S2、采用三维的时空聚类ST-DBSCAN算法对气象观测数据各要素进行时空聚类分组,具体为:
S21、建立一个三维的气象要素时空数据集D,数据集D中气象要素对象的经度为x,纬度为y,观测时间为z,一条气象观测数据对应一个对象点Pi={xi,yi,zi},i为观测数据序号,1≤i≤n,n为观测数据样本总量;
S22、从数据集D中依次选取对象点Pi,判断其是否属于现有簇中,是则重新选择下一个对象点Pi+1,否则进入步骤S23,其中,簇为聚类分组后对象点的集合,不属于任何簇的点为时空孤立点,每个簇具有不同的标签;
S23、判断Pi是否为时空核心对象:设定最小相邻点阈值MinPts,若在时空对象点P的时空邻域内,P的时空相邻点数量ΔN满足ΔN≥MinPts,则称P为时空核心对象;所述时空邻域的定义为,给定一个时空对象点P,P的所有时空相邻点构成的时空范围即为对象点P的时空邻域;所述时空相邻点的定义为,设定时间阈值tt和空间阈值st,对于时空对象Pt,若Pw到Pt的时间距离ΔT满足:
ΔT=|zw-zt|≤tt
空间距离ΔS满足公式:
ΔS=|Distance((xw,yw)-(xt,yt))|≤st
则Pw为Pt的时空相邻点;
S24、搜寻时空核心对象点Pi的所有时空相邻点Qi,若Qi不属于任何现有簇,则将Qi放入新建的簇C中,否则不进行操作,其中,簇C中的C为簇的标签;
S25、判断新簇C中的各对象是否为时空核心对象,若不是时空核心对象,则将其标为边缘时空对象,否则将该时空核心对象作为目标进行步骤S24的操作;
S26、重复步骤S22到步骤S25,直至数据集D中所有对象都属于某个簇,或者为时空孤立点;
S3、对各个气象要素时空聚类后的各个簇进行缺失值处理,统计各簇内缺失值个数,当缺失值个数小于设定值时,通过两个最近邻时空相邻点数据的平均值填补,当缺失值个数大于或等于设定值时,删除该簇;
S4、簇内一致性检验,计算各簇数据的一致性因子FC
Figure BDA0003251581450000051
其中Gs(t)={g1,…,gN}为N个在时隙t内且在空间范围S内采集到的某气象要素的观测数据,i,j=1,…,N,时隙t=1,…,T,T为将观测时间划分为等长时隙的个数;
基于贝叶斯决策和假设检验方法判断该簇数据在时间维度上是否发生显著改变,若发生显著改变,则将该簇数据标为异常数据组,具体为:
建立假设检验模型:
{H0:FC(l)=…=FC(t0-1)=FC(t0)=…=FC(T)}
{H1:FC(1)=…=FC(t0-1)≠FC(t0)=…=FC(T)}
其中,ΘT={FC(1),…,FC(T)}为当前簇在时间1,…,T上的一致性因子向量,H0表示一致性因子未发生显著变化,H1表示一致性因子在时间t0发生显著变化;
根据贝叶斯原理,采用后验概率计算一致性因子FC在时间t上发生显著变化的概率:
Figure BDA0003251581450000052
其中q∈{0,1},P(HqT)为似然函数,P(Hq)为先验概率;当似然函数满足logP(H1T)/logP(H0T)>1时,该簇数据在时间维度上发生显著改变,Gs(t)为异常数据组;
S5、在异常数据组中进行时空离群点检测并校正:
检测离群点:
计算异常数据组中全部数据的平均值
Figure BDA0003251581450000061
标准差
Figure BDA0003251581450000062
Figure BDA0003251581450000063
检查每个数据项是否在区间
Figure BDA0003251581450000064
内,其中k0>1为预定义常数参数,将落在区间外的数据项视为离群点;
校正离群值:
若离群点最近邻的两个数据点为正常值,则通过异常值前后临近的气象观测数据的平均值替换该离群点;若最近邻的两个数据点也为离群点,则采用该组内数据的平均值替换离群点。
现有气象观测数据的质量控制技术大多是传统质量控制方法和人工判别相结合,传统质量控制方法主要通过界限值检测、极值检测等方法,没有考虑到气象数据的时空关联性。本发明采用ST-DBSCAN时空聚类算法,将一定时间距离和空间距离的气象数据分组,在组内进行缺失值填补、异常值检测和离群点校正,综合考虑了气象数据在时空范围内聚集趋势和变化特性,针对性的校正缺失值和离群值,使校正结果更加准确,提高了气象观测数据的数据质量。

Claims (1)

1.一种基于时空聚类的气象观测数据质量控制方法,其特征在于,包括以下步骤:
S1、获取原始气象观测数据;
S2、采用三维的时空聚类ST-DBSCAN算法对气象观测数据各要素进行时空聚类分组,具体为:
S21、建立一个三维的气象要素时空数据集D,数据集D中气象要素对象的经度为x,纬度为y,观测时间为z,一条气象观测数据对应一个对象点Pi={xi,yi,zi},i为观测数据序号,1≤i≤n,n为观测数据样本总量;
S22、从数据集D中依次选取对象点Pi,判断其是否属于现有簇中,是则重新选择下一个对象点Pi+1,否则进入步骤S23,其中,簇为聚类分组后对象点的集合,不属于任何簇的点为时空孤立点,每个簇具有不同的标签;
S23、判断Pi是否为时空核心对象:设定最小相邻点阈值MinPts,若在时空对象点P的时空邻域内,P的时空相邻点数量ΔN满足ΔN≥MinPts,则称P为时空核心对象;所述时空邻域的定义为,给定一个时空对象点P,P的所有时空相邻点构成的时空范围即为对象点P的时空邻域;所述时空相邻点的定义为,设定时间阈值tt和空间阈值st,对于时空对象Pt,若Pw到Pt的时间距离ΔT满足:
ΔT=|zw-zt|≤tt
空间距离ΔS满足公式:
ΔS=|Distance((xw,yw)-(xt,yt))|≤st
则Pw为Pt的时空相邻点;
S24、搜寻时空核心对象点Pi的所有时空相邻点Qi,若Qi不属于任何现有簇,则将Qi放入新建的簇C中,否则不进行操作,其中,簇C中的C为簇的标签;
S25、判断新簇C中的各对象是否为时空核心对象,若不是时空核心对象,则将其标为边缘时空对象,否则将该时空核心对象作为目标进行步骤S24的操作;
S26、重复步骤S22到步骤S25,直至数据集D中所有对象都属于某个簇,或者为时空孤立点;
S3、对各个气象要素时空聚类后的各个簇进行缺失值处理,统计各簇内缺失值个数,当缺失值个数小于设定值时,通过两个最近邻时空相邻点数据的平均值填补,当缺失值个数大于或等于设定值时,删除该簇;
S4、簇内一致性检验,计算各簇数据的一致性因子FC
Figure FDA0003251581440000021
其中Gs(t)={g1,…,gN}为N个在时隙t内且在空间范围S内采集到的某气象要素的观测数据,i,j=1,…,N,时隙t=1,…,T,T为将观测时间划分为等长时隙的个数;
基于贝叶斯决策和假设检验方法判断该簇数据在时间维度上是否发生显著改变,若发生显著改变,则将该簇数据标为异常数据组,具体为:
建立假设检验模型:
{H0:FC(1)=…=FC(t0-1)=FC(t0)=…=FC(T)}
{H1:FC(1)=…=FC(t0-1)≠FC(t0)=…=FC(T)}
其中,ΘT={FC(1),…,FC(T)}为当前簇在时间1,…,T上的一致性因子向量,H0表示一致性因子未发生显著变化,H1表示一致性因子在时间t0发生显著变化;
根据贝叶斯原理,采用后验概率计算一致性因子FC在时间t上发生显著变化的概率:
Figure FDA0003251581440000022
其中q∈{0,1},P(HqT)为似然函数,P(Hq)为先验概率;当似然函数满足logP(H1T)/logP(H0T)>1时,该簇数据在时间维度上发生显著改变,Gs(t)为异常数据组;
S5、在异常数据组中进行时空离群点检测并校正:
检测离群点:
计算异常数据组中全部数据的平均值
Figure FDA0003251581440000023
标准差
Figure FDA0003251581440000024
Figure FDA0003251581440000025
检查每个数据项是否在区间
Figure FDA0003251581440000026
内,其中k0>1为预定义常数参数,将落在区间外的数据项视为离群点;
校正离群值:
若离群点最近邻的两个数据点为正常值,则通过异常值前后临近的气象观测数据的平均值替换该离群点;若最近邻的两个数据点也为离群点,则采用该组内数据的平均值替换离群点。
CN202111047528.0A 2021-09-08 2021-09-08 一种基于时空聚类的气象观测数据质量控制方法 Withdrawn CN113742926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111047528.0A CN113742926A (zh) 2021-09-08 2021-09-08 一种基于时空聚类的气象观测数据质量控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111047528.0A CN113742926A (zh) 2021-09-08 2021-09-08 一种基于时空聚类的气象观测数据质量控制方法

Publications (1)

Publication Number Publication Date
CN113742926A true CN113742926A (zh) 2021-12-03

Family

ID=78736843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111047528.0A Withdrawn CN113742926A (zh) 2021-09-08 2021-09-08 一种基于时空聚类的气象观测数据质量控制方法

Country Status (1)

Country Link
CN (1) CN113742926A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114814991A (zh) * 2022-06-28 2022-07-29 成都信息工程大学 一种气象要素场空间分布区域的识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114814991A (zh) * 2022-06-28 2022-07-29 成都信息工程大学 一种气象要素场空间分布区域的识别方法及装置

Similar Documents

Publication Publication Date Title
CN108304287B (zh) 一种磁盘故障检测方法、装置以及相关设备
CN110213724B (zh) 一种伪基站运动轨迹的识别方法
CN111327377B (zh) 场强预测方法、装置、设备及存储介质
CN109495327B (zh) 一种基于大数据分析的用户活动异常检测和流量预测方法
CN113709779B (zh) 一种蜂窝网络故障诊断方法
CN108268901B (zh) 一种基于动态时间弯曲距离发现环境监测异常数据的方法
CN111046968B (zh) 一种基于改进dpc算法的道路网络轨迹聚类分析方法
CN111405585B (zh) 一种基于卷积神经网络的邻区关系预测方法
CN115982602B (zh) 一种光伏变压器电故障检测方法
CN110062410B (zh) 一种基于自适应谐振理论的小区中断检测定位方法
CN113742926A (zh) 一种基于时空聚类的气象观测数据质量控制方法
CN112257963A (zh) 基于航天软件缺陷数据分布离群点的缺陷预测方法及装置
CN115659284B (zh) 一种大数据融合平台
CN111444233B (zh) 基于复制器神经网络模型发现环境监测异常数据的方法
CN112598199A (zh) 一种基于决策树算法的监测预警方法
CN116882587A (zh) 一种基于雷电灾害情况下电力电网系统故障预测分析方法
CN114091790B (zh) 一种融合现场数据和两阶段加速退化数据的寿命预测方法
CN116804668B (zh) 一种食盐碘含量检测数据标识方法及系统
CN111343664B (zh) 用户定位方法、装置、设备及介质
CN116933136A (zh) 一种在线生态观测数据异常检测方法及系统
CN117235632A (zh) 一种大型蒸发传感器水位异常数据检测方法
CN114881540B (zh) 确定水源治理方案的方法和装置、电子设备和存储介质
CN114019139B (zh) 一种农用地土壤重金属异常数据的探测方法
CN112765219B (zh) 一种跳过平稳区域的流数据异常检测方法
CN115209343A (zh) 基于mr数据定位的异常指纹识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211203

WW01 Invention patent application withdrawn after publication